新人工智能算法可凭据你的语音生成真切人脸

2019-06-13 09:17:55 暂无阅读：1614 评论：0

该算法基于性别、种族和岁数而不是小我特征来近似人脸

你是否曾经在脑海中构建一个你从未见过的人的形象，仅仅基于他们的声音?人工智能(AI)如今能够做到这一点，只需要参考一个简短的音频剪辑就能够生成一小我的数字面部图像。

这台名为Speech2Face的神经收集——一台以雷同人类大脑的体式“思虑”的电脑——由科学家从互联网上汇集了数百万个教育视频进行练习，这些视频显露了跨越10万人在说话。

研究人员在一项新的研究中写道，经由这个数据集，“语音人脸”学会了声音提醒与人脸某些身体特征之间的关联。然后，人工智能使用一个音频剪辑来模拟一个与声音成家的真切的人脸。

这项研究究竟揭橥在5月23日的在线预印本《jounral arXiv》上，没有经由同业评审。

值得光荣的是，人工智能还不克仅仅凭据一小我的声音就知道他长什么样。研究申报的作者称，神经收集识别出说话中的某些标记，这些标记指向很多人共有的性别、岁数和种族特征。

科学家们写道:“是以，该模型只会生成长相通俗的面孔。”“它不会发生特定个别的图像。”

人工智能已经证实，它能够生成非常正确的人脸，尽管它对猫的注释坦率地说有点吓人。

面部脸色都是正面的，脸色都是中性的，与声音背后的人并不完全成家。但研究表明，这些照片平日能捕获到准确的岁数局限、种族和性别。

然而，该算法的注释远非完美。Speech2Face在面临说话变异时示意出“夹杂示意”。例如，当人工智能听一段亚洲人讲中文的音频剪辑时，法式会生成一张亚洲面孔的图像。然而，当统一名男子在另一段音频中说英语时，人工智能会生成一名白人男子的脸。

该算法还显露出性别私见，把消沉的声音与男性面孔关联起来，把高音声音与女性面孔关联起来。研究人员写道，因为练习数据集只代表YouTube上的教育视频，它“并不代表全世界生齿的平均水平”。

据《Slate》杂志报道，当一名曾显现在YouTube视频中的人诧异地发现他的肖像被纳入了这项研究时，人们对这一视频数据集的另一个担忧就发生了。旧金山互联网平安公司Cloudflare的暗码学主管尼克•沙利文(Nick Sullivan)不测地发现，他的脸是用来练习语音人脸的例子之一(该算法相当近似地复制了这张脸)。

据Slate杂志报道，沙利文并没有赞成显现在这项研究中，但人们遍及认为，研究人员能够在不获得额外许可的情形下使用该数据库中的YouTube视频。

最初揭橥在《生活科学》杂志上。