首页 > 科技 >

好未来 AI Lab 负责人刘子韬:AI + 教育中的四大挑战 | CCF-GAIR 2019

2019-07-19 21:26:35 暂无 阅读:765 评论:0
好未来 AI Lab 负责人刘子韬:AI + 教育中的四大挑战 | CCF-GAIR 2019

雷锋网按:7 月 12 日至 7 月 14 日,2019 第四届全球人工智能与机械人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国较量机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机械人研究院协办,获得了深圳市当局的鼎力指导,是国内子工智能和机械人学术界、工业界及投资界三大范畴的顶级交流博览盛会,旨在打造国内子工智能范畴极具实力的跨界交流合作..。

7 月 14 日,陪伴着议程进入到第三天,本次大会也迎来了为期一天的聪明教育专场。在这个专场中,好将来 AI 实验室负责人刘子韬博士登台,做了题为《Building The Next Generation of Smart Classroom》的主题演讲。

好未来 AI Lab 负责人刘子韬:AI + 教育中的四大挑战 | CCF-GAIR 2019

在演讲中,刘子韬从好将来在聪明教室上的索求和研究实践出发,谈到了 AI+ 教育的成长过程中数据获取的复杂性,并由此谈到了 AI + 教育中的四个挑战,离别是:

一是数据量小。机械进修需要有标签的数据,而教育场景中的数据大部门都是无标签的,有标签的数据非常少;

二是异构性。异构性和多模态是强绑定的,分歧起原发生的数据,有自然的异构性;

三是数据的质量问题。平日我们的标签获取是非常难题的,上了一堂课想展望这堂课好欠好,好欠好需要打一个标签,这个时候打的标签主观性非常强,十小我给先生打分,或者有六个好,有四个欠好,这堂课是好照样欠好,6:4 就说好,这是有歧义的;

四是评价。短期无法量化,对 AI 有一些难题和影响。

由此,刘子韬谈到了好将来在面临挑战的过程中提出的 AI 相关解决方案,并给出了响应的案例;好比说数据众包打标签、功课辅助批改和在线教室监控等。最后,刘子韬给出了本身的概念:AI 在介入到教育应用的过程中所碰见的好多问题都是不曾被研究过的,这个中有好多的挑战,当然也有好多的时机。

在演讲竣事后,刘子韬接管了雷锋网的采访。

针对 AI 若何事实赋能教育的问题,刘子韬透露,AI 作为一项手艺自己其重鸿文用在于提拔效率,就像 Google 提拔了人们搜刮并获守信息的效率,AI 同样也能在教育范畴提拔效率,好比说功课的主动批改、教育范畴的运营治理(好比说..机构)等等;不光如斯,AI 还可以在教育局限内改善产物的体验,是学生们在进修过程中获得更好的体验,好比说智能教室等。

以下是刘子韬在 CCF-GAIR 大会上的演讲内容,雷锋网对其进行了不改变原意的编纂整顿:

人人早上好!今天我代表好将来跟人人分享好将来在聪明教室上的索求和研究,今天我首要讲一下我们的进展和整个过程中碰到的难题和挑战。

好将来是一个以聪明教育和开放..为主体, 以本质教育和课外指点为载体, 在全球局限内办事公办教育,助力民办教育,索求将来教育新模式的科技教育公司。

好将来的人工智能实验室,是好将来在集体局限内的 AI Lab,它的职责就是经由 AI 手艺来赋能好将来的各个事业线,让好将来的各个事业部拥有进步的 AI 手艺。对于好将来的 AI 来说我们要达到什么样的目的?我们有四个愿景:一是进展经由 AI 能够供应更优质的教授内容;二是进展经由 AI 能供应更有效的教授体验;三是进展供应更科学的评测系统;四是更平正的教育资源。

我们提到教育或 AI+ 教育的时候,最主要的是什么?我们想中央最主要的是教授情况,也就是 Learning Environments。

当我们说教授场景的时候,我们能够做一个简洁的划分,好比说选三个维度:

Z 轴能够看到教室有几多学生。好比说 1 对 1,也能够是在线小班,能够三到九个,传统的面授教室有二十到五十个学生,买办网校或者 90、100、500 个学生都是有或者存在的,这是教室里的学生数量。

横轴是岁数,能够是学前、小学、中学、高中、大学。

纵轴是上课的形式。上课的形式能够分为线下上课,跑到教授点线下上课、线上经由直播的体式,学生在学生家、先生在先生家经由直播的体式上课,这里只是随意列举几个纬度,还有学科,好比说教的是数学课、英语课照样物理课等科目。

好未来 AI Lab 负责人刘子韬:AI + 教育中的四大挑战 | CCF-GAIR 2019

分歧的维度能够把场景进行仔细的划分,个中每一块都有它的奇特性,好比说在教小学线上一对一和教传统线下买办高中生,其实有很大的不同。进修场景会纷歧样,发生的数据纷歧样,教授设计的理念会纷歧样。针对分歧的教授场景 AI 需要针对每一块进行优化和定制。

教育和 AI 最贵重的是什么?就是雄厚的数据,数据是在各个场景中能发生的数据。这些数据的发生也选两个维度划分一下:

上面一行是数据什么时候发生。首先是上课之前发生什么样的数据,除了一些学生的课前侧,还会包罗家长、发卖、学生之间的沟通记录;其次是课中,课中会发生很贵重的数据;再次是课后,课后会发生学生的课后演习题、家长的反馈和给家长的申报。

发生数据的主体是先生、学生,中央还有一个很大的环节,我们这里会称为治理者。什么样是治理者?治理者是对照泛的概念,在整个的教授全流程中,包罗课前、课中、课后,教授治理者包罗跟家长沟通的进修规划师,或是有些处所叫垂问,还有一些发卖。包罗治理先生的人,人人知道..机构有好多先生,若何把先生治理好,让他们的教授质量一致、归一化,这些都邑发生好多的数据。

好未来 AI Lab 负责人刘子韬:AI + 教育中的四大挑战 | CCF-GAIR 2019

这里是细粒度的划分,给人人举几个例子,课中的时候,先生能够做什么?先生能够跟学生提议语音互动 Voice Interaction,能够跟学生换脸 Face Filter,直播的时候能够帮学生换脸、换场景。先生手里有什么?先生手里有好多 Pad、智能笔,学生手中会有好多的答题器,学生能够经由答题器和先生互动,课中的环节会有好多的数据。

治理者有售前的发卖,给家长发卖什么样的课程,以及和发卖的聊天记录。课后上完今后,进修规划师会跟家长沟通、交流,会敷陈你这堂课学生示意怎么样、孩子怎么样,这些都邑有交流,会以数据的形式沉淀下来,数据的发生和全流程的把控对 AI 非常主要。

前面讲了教育的数据,各个环节都能发生各类各样的数据,当这些数据发生今后会是什么样?用一个对照学术上的词是 Multimodal ,也就是多模态,主流的多模态会有三种连系:一是文本数据,好多的数据以文本的形式发生出来。二是上课的时候多数会以视频的形式记录下来,会有一些视频的信息。三是还有一些语音信息,中央先生说了什么,学生回覆了什么,这些数据会被记录下来。对于 AI 来说,这些都是很贵重的资源。它必然是 Multimodal Machine Learning,本年 CMU 的传授写了一篇新的文章,文章很好地总结了 Multimodal 的问题,这里有五大问题是我们进展能解决的:

1、Multimodal 的情形下,我们怎么样做一些表征,表征进修能够进修到所有的数据。

2、Translation,有了视频数据和音频数。

3、Alignment,这两个对应起来,先生讲一个课件,这张课件是静止的,第一个授课件的上面,第二个是课件的下面。

4、Fusion 融合。

5、Co-Learning。

具体应用到需要的 AI 手艺,这个人人都对照懂得,更多是偏向上的器材,Multimodal Machine Learning 需要梳理分歧的数据,需要的 AI 手艺也是各类各样的,它是各类融合的过程。好比说 Speech,我们需要 ASR、需要降噪的方式;好比说数据挖掘,它需要更综合的能力,我们展望学生什么时候会退费,若何给学生介绍最适合他的先生,包罗做一些个性化常识图谱,它需要的各类花样是纷歧样的,包罗好多的模型是布置在端上的,教室的资源有限,我们在端上会有一些模型的加快和优化。

前面讲了数据和也许 AI 的领域,我们中央会碰到什么样的挑战?这里的挑战非常多:

一是小数据。 各类教授场景能够发生海量数据,但大部门的数据是无标签的,小数据是指有标签的数据会非常少,机械进修是需要有标签的数据。

二是异构性。异构性和 Multimodal 是强绑定的,数据由分歧的起原发生,有自然的异构性。

三是数据的质量问题。数据质量是什么意思?高质量的标签获取是非常难题的,上了一堂课想展望这堂课好欠好,好欠好需要打一个标签,这个时候的标签主观性非常强,或者给十个先生打,或者六个好,四个欠好,这堂课好欠好是有不合的。

四是评价,短期没法量化,对AI有一些难题和影响。

好未来 AI Lab 负责人刘子韬:AI + 教育中的四大挑战 | CCF-GAIR 2019

基于上面说的问题,好将来做了一些很接地气的 AI 应用,来具体解决好将来场景中解决的问题。我们布置的系统在好将来已经跑起来真正在用了,天天都邑在处理成千上万节课,这些工作我们都邑揭橥在相关的会议或是顶级的杂志上,好比说 WWW、ICDE、AIED 等,包罗我们布置的系统,包罗教室的监控这些维度,以及包罗我们做的中文评测表达等。

快速举几个例子:

第一,我们本年已经在澳门 ICDE 上揭橥过一篇文章,若何从众包的标签中进行进修?为什么我们要众包标签进修?我们需要大量的数据进行进修,除了需要大量的数据,我们需要很精准的标签,实际的世界中有标签的数据对照小。我们怎么办?就是找人标,这是毫无疑问的,找人标就是 Crowdsourcing,找到人标的数据必然不是海量的数据。

基于如许的情形,若何使用现有的方式解决现有的问题?我们的数据量有限,能够做一些 Grouping,蓝色是正例,红色是负例,蓝色 100,红色 50 个,一共 150 个样本,这是无法做深度进修的;固然样本单个很小,然则我们能够做一些组合和配对,经由组合我们能够发生好多的样本量。五小我打标签或者是 3 比 2,最简洁的情形下,固然是 3 比 2 给它一个知信度,给它 0.6,每小我打的标签纷歧样。我们提出了深度进修的框架,经由 Grouping 的方式和对样本标签的 Confidence,和 Model Learning,我们能够获得深度进修的模型。具体细节能够具体阅读我们的论文 Learning Effective Embeddings From Crowdsourced Labels: An Educational Case Study。

接下来我们介绍主动批改功课。

主动批改的场景是什么?主动批改不是你给我一个高考卷子,我给你改出几多分,只是想解决特定的问题;好比说一个学生在家解一道题,他的怙恃在侧面拍小视频,这个视频会传到我们的后端,后端会有法式进行主动批改,这是数据发生的场景。

我们会给学生安置问题,在好将来会称为口述题,口述题想解决什么问题?众所周知,相对于外国人的爽朗,中国人以前受到的教育要谦逊、低调,或者会对照木讷一些;我们进展中国人在这方面不输给外国人,我们从小培育学生的中文白话表达能力。基于这个大配景,我们进展小孩一直地说,我们进展给小学生出一道题,他能讲解这个题的过程,我们不关系这道题的谜底,进展他能讲解出来,这是我们设计题的初志。

从具体案例来看,这个问题是很受迎接的,结果也很不错,但背后我们碰到一些问题,就是先生改不外来了。试想一下,若是一个班若是有 30 个学生,一个学生上传两到三分钟的视频,先生听、写考语、改一下,一个学生先生要花五分钟,有三十个学生,先生凭空多花 150 分钟,非常虚耗时间。

那么 AI 能不克帮先生做一些辅助批改?基于如许的初志,我们设计了 AI 辅助批改解决方案,我们有学生的谜底和先生的尺度谜底,我们会有两方面的文本;经由 Transformer 和 Multiway Attention,对学生提交的谜底和相关的问题,进行深度的语义融合和成家,实现口述题的辅助批改。我们做了好多实验,我们立异提出的方式,打败了传统机械进修的方式、深度进修的方式。具体的实现细节,能够参考我们本年在 AIED 上揭橥的论文 Automatic Short Answer Grading via Multiway Attention Networks 。

下面介绍我们在后台上线的真实系统,这个系统就是在线教室质量管控系统。

举一个简洁的例子,这是一个传统的在线一对一的上课画面,一边是先生,一边是学生,中央是课件。个中的问题是什么?这堂课上下来只有学生知道、只有先生知道,没有其他任何人知道这堂课上的怎么样,因为家长是不会坐在边上看的;假如这个学生立时高考了,他不爱进修,成就很差,经常在家打游戏,若是这个先生并没有很好地教授生上课,而是教授生若何打游戏,会发生什么样的情形?学生很高兴,家长问学生这堂课学得怎么样?学生会说这个先生教得稀奇棒,教得稀奇好……如许的情形是我们不进展发生的。我们想杜绝这些不该该在传统教室上发生的现象,经由人工搜检的体式必然是做不到的,而这种案例是极其致命的,家长发现一次如许的情形,家长不再相信这个品牌,会发生退课和一系列的坏的口碑流传。

所以我们进展经由 AI 来监控教室质量,学生维度和先生维度我们都邑监测。在学生维度,我们进展这堂课学生频仍启齿,我们会监控学生的表达次数,同时包罗学生有没有自动提问,学生的提问次数、学生有没有按先生的要求记笔记等。先生纬度我们会监控更多,我们进展提高整体的教授质量,包罗红线词(先生上课有没有说骂人的话),先生的静默时间,先生有没有提问学生,先生有没有带着学生记笔记,先生有没有媾和学科相关的器材,而不是闲聊等。

第一步是简洁的运营手段,有了这个我们能够有运营的治理闭环,欠好的事情发生,能够对先生进行处理,这是 AI 落地教授治理运营的闭环。这不是我们的最终目的,我们的目的是用 AI 供应极致的教授体验和达到精巧的教授结果。这个教授体验能够经由 AI 进行多维器量化,我们称为“四色分级”,红色是最差,绿色是最好的,上完课会对教室打分,若是是红色解说这堂课非常差,跟着教室的演进和转变结果越来越好,进展最终都是绿色,这是教室的量化。

在做 AI+ 教育的过程中,有好多的挑战,也有好多的时机。个中要解决的好多问题都是学术界不曾存在的问题,包罗众包的相关问题以及好多小数据的问题;现阶段学术界好多器材才刚起头做,包罗小样本进修。

我适才介绍了 AI+ 教育的挑战以及落地的应用,好多时候里面的机会很大,还有好多的问题不曾被人研究过。这里挑战是很伟大的,同时也有很大的时机。

感谢人人!

相关文章