NLP语义较量和主动问答有哪些进展？百度北大哈工大等专家结合复盘

智器材

文| 心缘

智器材5月26日报道，今天，天然说话处理前沿论坛在北京举办。本届论坛以“机械之‘读、写、说、译’——探寻NLP将来之路”为主题，由百度、中国较量机学会中文信息手艺专委会、中国中文信息学会青工委主办。

上午场的演讲主题环绕语义较量和主动问答，介绍这些NLP手艺在曩昔一年的重猛进展。

百度高级副总裁、ACL Fellow王海峰首先揭橥致辞，他透露，NLP不光需要算法、算力、数据，还需要络续凝练常识，与认知世界和革新世界的过程相连系。

▲百度高级副总裁、ACL Fellow王海峰

哈尔滨工业大学较量机科学与手艺学院传授车万翔，北京大学信息科学手艺学院研究员、长聘副传授孙栩，复旦大学较量机科学手艺学院副传授邱锡鹏，百度NLP主任研发架构师、语义较量手艺负责人孙宇离别就动态词向量、稀少化深度进修NLP、天然说话透露进修以及百度语义较量手艺的近期研究和将来成长趋势进行介绍。

中国科学院主动化研究所模式识别国度重点实验室副研究员刘康，百度NLP资深研发工程师、阅读懂得与问答手艺负责人刘璟离别阐述了所研究的文本阅读懂得的进展、数据集和应用，还总结了研究这一范畴所需把握的花样。一、从“静态”到“动态”词向量的演化过程

哈尔滨工业大学较量机科学与手艺学院传授车万翔以《从“静态”到“动态”词向量》为主题揭橥演讲。

以Word2vec、GloVe等为代表的“静态”词向量已成为基于深度进修的天然说话处理（NLP）手艺的‘标配’，这种词向量方式假设“一个词仅由一个向量透露”，降低了建模的复杂度和模型的进修成本，使得在大规模数据上进修词向量成为或者。

然而，这种方式忽略了一个词在分歧上下文的差别。好比“我爱吃土豆”和“我在土豆上看视频”中的土豆一个是指食物，而另一个是指视频网站。

有一个方式是基于双语的词向量，即先将中文翻译成英文，进行翻译词抽取后做聚类，然后完成跨说话词义映射和RNNLM。这种方式的问题是需要大规模双语数据，仅是英文中文还好，但再扩展到其他说话就对照麻烦。相较之下，基于单语的词向量方式更为幻想。

以ELMo和BERT为代表的上下文相关词向量作废了以上假设，在分歧的上下文情况下，付与沟通的词以分歧的词向量，被称为“动态”词向量，它们在浩瀚NLP义务上取得很好的结果。

这种词向量化的手艺一经推出便广受存眷，敏捷成为NLP范畴的热点。

据车万翔介绍，若是不进行微调（Fine-tune），则需要义务相关的复杂模型，而若是进行Fine-tune，则义务相关模型需尽量简洁。

车万翔还谈到若何进一步提高系统的机能。除了提高模型和算力外，还能够增加数据。一种增加数据的方式是制造伪数据。它是带标签的预练习数据，不曾面向所研究的义务进行人工标注，标签是样本的近似谜底，而非正确谜底。

最后，车万翔介绍了几个有趣的研究问题，包罗跨说话天然说话处理、若何更好施展“动态”词向量的迁徙能力、轻量级“动态”词向量等。将来研究偏向有挖掘伪数据、优化模型（规模和速度）、应用于生成模型等。二、稀少化深度进修天然说话处理的近期研究

北京大学信息科学手艺学院研究员、长聘副传授孙栩的演讲主题为《稀少化深度进修天然说话处理的近期研究（Recent Studies on Sparse Deep Learning for Neural Language Processing）》。

当前深度进修多是密集型深度进修，需要更新所有神经元，这对能量消费非常大。孙栩聚焦在稀少化的深度进修NLP，提出一个简洁有效的算法meProp来简化练习及练习出的神经收集。在反向传递算法中，找出梯度中最主要的信息，仅用全梯度的一小部门子集经由较量来更新模型参数。

基于稀少化梯度，他们经由删除很少被更新的行或列，这会降低练习息争码偶成中的运算量，而且或者在真实世界应用中加快解码。实验究竟显露，在好多案例中，他们仅需要更新每个后向流传过程中大约5%的稀少水平。

最终模型的正确度也有所提高，而且运算量降低了几十倍，对需要低能耗的移动端很有价格。

另一个 meSimp是对最小化起劲的简化（minmal effort simplication），该算法可将一个复杂的神经模型裁剪到本来的1/10摆布。

最后，孙栩介绍了他们的近期工作。他们提出了剖析稀少化反向传递的理论框架，meProp或者会被考虑为个中一个典型案例。他们发现若是裁剪不外度，有稀少化反向传递的练习是能够收敛的。三、NLP中的透露进修进展

今朝全保持自注重力模型（如Transformer）在NLP范畴取得了普遍成功。复旦大学较量机科学手艺学院副传授邱锡鹏首要介绍了NLP中的透露进修进展。

邱锡鹏的演讲首要涵盖两部门内容。

1、模型层面

邱锡鹏介绍，应更好地融合局部和非局部的语义组合，此外他剖析和对比CNN、RNN、Transformer的根基道理和优瑕玷，并提出了改善模型Star-Transformer。

Star-Transformer在局部和非局部之间供应了更好的均衡，提高了模型的泛化能力，有较好的并行能力和较低的复杂度，在小数据上结果非常好。

2、进修层面

进修层面方面初始假设端到端从零起头进修纯数据驱动，可经由常识增加、迁徙进修和多义务进修的方式，个中迁徙进修最主流的方式是无监视预练习。

平日的方式是用常识增加和预练习模型（如ELMo、BERT、GPT、ERNIE等）来提高其泛化能力，在好多NLP义务上取得了很好机能。

邱锡鹏透露，今朝在透露进修方面，BERT更胜一筹。但BERT并非最终形态，还有很大的优化空间。他也提到若何Fine-tune BERT，微调方式有3类：（1）直接在单义务上微调；（2）进步一步练习BERT，再在单义务上微调；（3）进步一步练习BERT，再进行多义务微调，最后单义务微调。

四、百度语义较量手艺的成长脉络

百度NLP主任研发架构师、语义较量手艺负责人孙宇重点介绍了百度语义较量手艺研发近况及成长脉络，并分享了该手艺在百度各产物中的应用情形和挑战。

百度语义较量Topic将深度进修和文本义务深度融合，充裕行使互联网大数据优势，研发了包罗语义透露Ernie、语义成家SimNet、语义注释、多模态语义较量在内的多项领先语义手艺。

早期，百度采用过基于检索的透露体式、Topic Model等方式来做语义识别手艺。后来基于DNN的语义透露手艺鼓起，百度在算法和规模上对word embedding进行研究。

2017年，百度起头做基于大规模透露迁徙的索求——多特征融合。其时面临的严重问题是标注语料少，是以百度研究人员们想到借由20亿搜刮Query构建多特征语义透露，提拔了SLU的Intent&Slot结果。

百度研究人员发现BERT对实体常识的语义概念捕获的较少。

后来百度又做了一些改善。在数据层面，基于海量百科、新闻、对话多源数据练习，构建双向多层Transformer的语义建模模型，融归并强化中文词、实体等先验语义常识进修和进行多阶段常识进修。

据悉，经由在公开数据集长进行实验，ERNIE的中文结果和英文结果周全领先BERT。

在应用方面，百度供应面向工业应用的中文NLP开源对象集PaddleNLP，产物在告白相关性较量、介绍告白触发、介绍新闻去重、对话意图识别等范畴已有一些落地。

百度还对传统文本成家方式进行改善，在2013年设计研发神经收集语义成家模型SimNet，其时时间对照紧没有将Paper实时发出，失去了一些机会。近年相关工作有微软的DSSM、DUET，华为诺亚方舟实验室的Arc-I、Arc-II等。

随后百度又基于SimNet根蒂模型全新升级，将算法模型框架升级为多条理成家框架。

2019年百度揭橥的论文提出增加版representation-based model，适合对长文本的成家；在成家矩阵模型方面，该论文添加新成家范式interaction-based model，先做粗成家，再做精美化成家，结合对模型进行优化，成家加倍充裕和精美。

语义较量系列手艺笼盖长短文本及多模态场景，在百度搜刮、介绍、度秘、告白等产物施展感化。

在对海量数据的研究中，百度发现数据时效性影响很大，此外还有频段、长短等数据分布问题和多渠道融合问题有待解决。

孙宇认为，尽管BERT很牛了，到场常识融合仍会有新的提拔。

此外，孙宇还提到了基于SimNet-QC-MM的Query-Document成家这一新模型研发。该算法正确建模query中每个词被title和正文笼盖情形，并考虑文本成家的分歧条理的焦点问题，意义在于是有业界前沿的Interaction-based范式模型工艺级应用。

孙宇最后简洁谈了一下将来的重点工作。语义透露将进一步冲破，增强常识的行使、无监视义务的进修和弱监视旌旗灯的行使。他们将对多说话透露手艺、面向生成义务的通用透露手艺、多模态透露手艺等进行语义透露的拓展性索求。五、文本阅读懂得的主流数据集和研究花样

在主动问答方面，中国科学院主动化研究所模式识别国度重点实验室副研究员刘康连系研究组近年的工作，介绍了从文本阅读懂得的根基框架和方式。

跟学生做阅读懂得题相似，给机械一段文字，它经由主动懂得剖析文本，针对响应问题给出谜底。

机械阅读懂得首要分为三类：基于问答的提炼（extraction based question answering），填空考试（cloze test）和多选（multiple choice）。这三类阅读懂得在展望层采用的方式各不沟通。

关于机械阅读懂得的数据集也不足为奇：

2016年是机械阅读懂得的一个分界点，在此之前传统的方式是词汇成家、语义关系识别、事件抽取、逻辑推理等基于特征工程的方式，在2016年之后CNN、RNN、Attention等神经方式显现。

机械阅读懂得的根基神经框架如下：

刘康还总结了研究机械阅读懂得所需把握的花样：

六、百度阅读懂得手艺研究及应用

百度NLP资深研发工程师、阅读懂得与问答手艺负责人刘璟首先介绍了百度针对实际工业应用研发的机械阅读懂得手艺，介绍了其在百度搜刮问答中的应用，并介绍百度公斥地布的中文阅读懂得数据集DuReader，及其对中文机械阅读懂得研究的鞭策。

刘璟透露，机械阅读懂得的应用意义在于解决传统的检索式问答的“最后一公里”难题。得益于近两年阅读懂得手艺的快速提高，百度已将这一手艺应用到智能问答中。他认为，这一快速提高首要归功于数据集规模的增加和深度进修的快速成长。

针对越来越多的挑战，响应的阅读懂得数据集也在增加。

百度的研究内容首要包含多文档阅读懂得模型V-NET（ACL18），以及常识透露和文本透露融合模型KTNET（ACL19）。

实际应用中的阅读懂得平日存在搜刮场景的真实问题，和包含多个候选文档段落致使包含较多歧义信息的问题。对此，百度研发了端到端的多文档阅读懂得模型V-NET，该模型在英文多文档阅读懂得数据集MSMARCO V2问答义务上三次排名第一。

要更好的抽取焦点信息，除了依靠文档进行懂得外，还能够引入外部常识，将原文本的文本透露与常识图谱的常识透露相连系，为此百度推出常识文本融合的阅读懂得模型KT-NET。

除了在手艺长进步，百度在客岁推出头向搜刮场景的阅读懂得数据集DuReader 2.0，规模包含30万问题和150万文档，拥有66万人工标注谜底、问题类型、实体和经验。该数据下载量超2万。

最后，刘璟谈到工业应用中对阅读懂得模型鲁棒性的要求，首要在于过不乱（over-stability）和过敏感（over-sensitivity）问题。

过不乱指的是问题改变，谜底没变；过敏感指的是问题没变，谜底改变。

这两个问题在应用过程或者会影响用户体验的一致性，其鲁棒性可经由匹敌样本生成、复述生成等方式提拔。

工业应用中对阅读懂得泛化能力也有要求：在范畴A练习的模型可否很快很好的迁徙到范畴B，经由多义务进修、迁徙进修等提拔模型的泛化能力。结语：预练习说话模型是最大亮点

总的来看，天然说话处理（NLP）作为各大高校和研究机构的人工智能方重点研究课题之一，曩昔一年间在手艺和应用上都取得了可观的提高。个中最大的亮点当属预练习说话模型。从ELMo、ULMFiT、Transformer、BERT到ERNIE，这些算法横扫各大NLP机能测试榜单。尤其是BERT，被誉为NLP新时代的劈头。

尽管BERT已经非常壮大，但它仍有改善的空间，这也将成为本年诸多研究人员重点研究和冲破的偏向。

此外，跟着NLP手艺的逐渐成熟，其应用正变得加倍普遍。除了在相对常见的搜刮、机械翻译、阅读懂得和智能写作持续提高水平外，NLP手艺也起头更为深入地切入工业场景，并在告白相关性较量、介绍新闻去重等范畴施展更大的贸易价格。