分享

你是否曾经和陌生人打电话,或者在视频会议上面对满屏的无脸方块讲话,每个人的长相都要靠猜测?在这些场景中,你可能不用太长时间发挥你的想象力。麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员发现了一种方法,可以生成人工智能生成的面孔,只根据说话者的声音渲染图像。这项技术叫做Speech2Face而且效果出奇的好。

Speech2Face研究

一篇关于speech h2face的论文首次出版于2019年.在报告中,作者承认他们不是第一个研究语言和身体特征之间关系的人。与他们的方法不同,另一种方法专注于从声音中收集预先确定的元素,然后用于获取图像或创建渲染。

研究人员指出:“这种方法将预测的面孔限制为只与预先定义的一组属性相似。”相反,他们希望他们的研究更加开放,探索他们的模型可以从音频输入中提取什么数据。

他们写道:“我们直接从语音预测完整的视觉外观的方法让我们可以探索这个问题,而不受预先定义的面部特征的限制。”

为了执行研究在美国,研究人员创建了一个深度神经网络来分析数百万个YouTube视频和超过10万人的讲话。该模型学习了视听、声音和面部的相关性,这有助于它对年龄、性别和种族等属性进行预测。训练过程中没有人的参与——研究人员给人工智能分配了一组巨大的数据来分析,让它做自己的事情。

结果

speech h2face算法的结果。
结果并不完美,但令人印象深刻。Speech2face

相关:什么是计算摄影?

在分析结果时,Speech2Face团队确保澄清,说话者的精确草图不是最终目标。

他们写道:“我们的目标不是预测一张可识别的精确面部图像,而是捕捉与输入语音相关的人的主要面部特征。”“我们证明,我们重建的面部图像可以作为一个代理来传达人的视觉属性,包括年龄、性别和种族。”

该模型在预测性别方面相当准确,但在预测种族方面存在问题,他们将其归咎于数据缺乏。语言和口音也会影响最终的图像,AI模型的行为是混合的,有时产生说话者的正确肖像,有时则完全错误。

研究人员预计,这项技术最终可以应用于为说话者创建个性化动画。

他们写道:“在电话或视频会议中,当一个人的身份未知或不愿分享他/她的照片时,这种对面部的卡通再现可能是有用的。”“我们的重构面部也可以直接用于为家用设备和虚拟助手中使用的机器生成声音分配面部。”