京东AI研究院常务副院长何晓冬：如何让AI通过NLP技术理解人类？(2)

2018-06-25 22:58:23 网络整理阅读：186 评论：0

2000年开始，语音识别技术进入了一个瓶颈期，虽然每年还会有一些新的技术发明，但实际上总体来说，从2000到2010年，它在大规模测试集上的错误率基本降不下去，技术上来说这十年是基本停滞的。

2010年开始，Geoff Hinton和微软合作开始用深度学习做语音识别技术研发，2011年发现在一些大规模的语音识别数集上，可以看到20%-30%的错误率下降。更多的研究员投入以后，错误率以一个很快的速度下降。在重要的电话语音测试集switchboard上，去年微软的语音识别错误率仅为5%左右，等于一个专业的速记员水平。所以可以说，2017年开始，在switchboard 上，机器达到了人的水平。

不光是在语音上，在图像识别上深度学习也有很大的进步。大概在2009年，李飞飞团队提出了一个数据集ImageNet，从2010年开始李飞飞和她的团队成员基本每年都会举办一个挑战赛。在2010年、2011年，最好的系统在这个数据集上做识别的错误率大概是在25%左右。2012年，Hinton和他的学生第一次提出了一个深度的卷积神经网络，虽然不是他们提出来的，但是他们把这个网络做到一个很大的规模，把一些新的技术也加了进去，使得错误率一下子从25%降到16%。

2015年，我之前在微软的同事孙剑团队提出一个新的模型，把深度学习推到一个新的高度，把网络层数做到152层，错误率降到3.57%。因为人有时候犯错误，人的错误率大概在5%左右，但是机器可以做到3.5%，所以从那个时候开始，在这个特定数据集上用计算机做图像识别的能力已经比一般的人要好。

可能语音和图像我们看到了很清楚的突破，下一个期待的能否在自然语言上做到更深的突破。因为语言是人类特有的智能，很多高等动物也有很强的视觉和听觉，但是语言是人独有的智慧。所以我们也希望计算机或者人工智能有一天能够跟人一样，对语言充分理解。