主页 > 科技 > 正文

机器具备“理解”能力究竟是什么意思?

2019-11-11 12:19暂无阅读:602评论:0

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

对人工智能最新进展的批评者抱怨说,尽管这些进展已经给AI系统中带来了显著进步,但这些系统依然未能展现出“真实”、“正确”或者“真正”的理解。像“真实”、“正确”以及“真正”之类词汇的使用意味着“理解”是二进制的。一个系统要么表现出“真正”的理解,要么就是没有理解。这种思维方式的困难在于,人类的理解永远都不是完整和完美的。在本文中,我将提出“理解”是能力的系列连续谱。比方说,不妨考虑一下“水”的概念。大多数人都理解水的许多特性:水是湿的,水可以喝,植物需要水,温度很低的话水会结成冰,等等。但不幸的是,很多人不理解,水是导电体,所以,淋浴的时候不应该用风筒。尽管如此,我们不会说这些人对谁缺乏 “真实”、“正确”或“真正”的理解。相反,我们会说他们对水的理解是不完整的。

我们也应该以同样的态度来评估我们的AI系统。现有的系统已经表现出了某些类型的理解。比方说,当我让Siri“打电话给Carol”,然后它能够拨打正确的号码时,你就很难说服我说Siri并不理解我的要求。当我问Google“IBM的深蓝系统击败了谁?”,后者返回一个信息框,给出用大写字母写成的“卡斯帕罗夫”时,它就已经正确地理解了我的问题。当然,这种理解是有限的。如果我接着问它“什么时候?”的时候,它只会给我提供一个“when”的字典定义——而不会把我的问题解释成对话的一部分。

关于“理解”之争可以追溯到亚里斯多德,也许John Searle的“中文房间”思想实验对此阐述得最清楚。我鼓励大家可以去看看《斯坦福哲学百科全书》里面科尔的那篇出色的文章。我的态度是一种功能主义的形式。我们从功能上去表示理解,并且根据大脑或者某AI系统各种内部结构在产生所衡量的功能中存在的因果关系来评估它们所做的贡献。

从软件工程的角度来看,功能主义鼓励我们设计一系列测试去衡量系统的功能。我们可以问一个系统(或一个人),“如果把水冷却到–20度会发生什么?”或者“如果在洗澡的时候用吹风机会发生什么?”然后对回应进行衡量。就回应恰当而言,我们可以说系统理解了,而如果说回答错误的话,我们可以说发现了系统存在不理解的情况。

为了让一套系统能够理解,它必须建立不同概念、状态和动作之间的关联。今天的语言翻译系统可以正确地把英语的“水”跟西班牙语的“agua”关联到一起,但是它们没有在“水”和“电击”之间建立起任何的关联。

对于最新的AI进展,批评大都来自两个方面。第一个是,(研究人员、前者所在的组织,甚至政府以及资助机构)围绕着人工智能的炒作已经达到了极端水平。这种炒作甚至引发了对“超级智能”或“机器人末日”迫在眉睫的恐惧。批评对于抵制胡说八道至关重要。

其次,另一种批评是持续进行的有关人工智能研究的未来研究方向以及政府拨款的分配之争的一部分。争论的其中一方是联结主义的倡导者,他们发展出深度学习并支持继续进行这方面的研究。而另一方则是倡导基于符号的建构和操纵(比方说,形式逻辑的使用)的AI方法。主张在混合结构中结合这两种办法的社区业主日益壮大。对于这类讨论来说批评也是至关重要的,因为AI界必须不断挑战我们的假设,并选择如何把社会的时间和金钱投入到AI科学和技术的发展当中。但是,我反对这样的观点,即“因为当今基于深度学习的系统并没有表现出真正的理解,所以我们应该放弃深度学习”。这种说法跟“今天基于深度学习的系统已经取得了巨大的进步,并且进一步研究下去将可以‘解决智能问题’”的说法一样有问题。我喜欢Lakatos 做出的分析,也就是应该不断深入研究计划,直到研究不再产生有效成果。所以我认为我们应该继续去追求连结主义计划,符号表征主义计划以及新兴的混合计划,因为它们都将继续结出累累硕果。

对深度学习的批评已经把我们带到了新的方向。尤其是,一方面已经证明深度学习系统在各种基准任务上跟人类的表现可以相匹敌,但另一方面又不能将其推广到表面上非常相似的任务上,这已经导致了对机器学习的批评。研究人员正在用新想法予以回应,比方说学习不变性(learning invariants),发现因果模型(discovering causal models)等。这些想法既适用于机器学习的符号主义也适用于联结主义。

我相信我们不应该去争论什么才算是“真正的”理解。相反,我鼓励大家把那个先放到一边,去寻求人工智能的科技进步,把焦点放在未来5、10或者50年内应该努力去实现哪些系统功能上面。我们应该根据可以在AI系统上进行的测试来定义这些功能,来衡量它是否具备这些功能。为此,这些功能必须是可操作的。简而言之,我的观点是要AI开发要以测试为驱动。这需要我们把我们对“理解”和“智能”的模糊概念转化为具体的,可衡量的能力。这本身就是一个非常有用的练习。

操作测试不需要只考虑AI系统的输入输出行为。还可以可以检查产生这种行为的内部结构(数据结构,知识库等)。人工智能优于神经科学的一大优势是,我们可以更轻松地在人工智能系统上进行实验,从而了解和评估它的行为。但是请注意,包括深度学习在内的联结主义方法往往会建立难以解释的内部结构,似乎我们的大脑也是如此。因此,我们不应该将确保特定结构(比方说,符号表示)存在作为研究目标。相反,我们应该专注于希望具备的行为能力,并询问内部机制是如何实现这些能力的。比方说,要想让对话成功进行,对话的每一位参与者都必须能够跟踪互动的历史。但是有很多方法可以做到这一点,我们未必就要指望在深度学习系统里面找到明确的历史记忆。相反,仅仅因为我们编写了特定的内部结构,并不意味着它就会按照我们的预期方式工作。德鲁·麦克德莫特(Drew McDermott)在他著名的批评文章《人工智能遇到天生愚蠢》中曾详细讨论过这个问题。

人工智能总是不断地取得发展又受到批评,其后果之一是所谓的“AI效应”,也就是因为最新的系统没有表现出“真正的理解能力”或者“真实的智力”,所以人工智能领域被视为失败。其结果是人工智能的成功被忽略,投入的资金也相应减少了。比方说,有一段时间以来,大家认为,下国际象棋或者围棋能达到人的水平就可以认为达到了智能的标准。但是,当IBM的深蓝在1997年击败了卡斯帕罗夫时,一位著名的AI研究人员认为,国际象棋击败人类其实很容易——为了展现真实的智力,AI必须解决“卡车倒车问题”,也就是把铰接式半挂卡车倒入停车位置的问题。实际上,这个问题早在九年前就被Nguyen和Widrow 用强化学习给解决了。今天,许多深思熟虑的批评家又再次提出了新的任务以及新的必要或充分条件来证明系统具备“理解”能力。

与此同时,人工智能的研发正在为我们提供可以为社会带来价值的,功能越来越强大的系统。无论是出于学术诚信还是为了继续获得资助,人工智能的成功要归功于那些研究人员,而存在的问题也需要他们站起来负责,这一点很重要。我们一方面必须压一压那些围绕着AI新进展进行的炒作,另一方面,不管我们的系统是怎么理解或者不理解用户、目标以及所处的更广阔世界的,我们也必须客观地予以衡量。我们不要再把我们的成功视为“假的”,不够“真实”而摒弃,而应该继续以诚实的、富有成效的自我批评去推进AI发展。

译者:boxi。