深兰科技：我们是如何拿下今年 KDD CUP AutoML 赛道冠军的？

雷锋网 AI 斥地者按：素稀有据挖掘“奥运会”之称的 KDD CUP ，其颁奖典礼于 2019 年 8 月 7 号在美国安克雷奇市落下帷幕。本年的 KDD CUP 共设有三个赛道，离别为 Regular ML、AutoML 与 Humanity RL ，最终究竟显露，三个赛道的冠军皆由华人部队夺得。作为 AutoML 赛道的冠戎行伍，深兰科技在典礼竣事后接管了 AI 斥地者专访，不啬分享其在赛事中夺魁的点滴。

赛事奖状

问：本年 KDD 的 AutoML 赛道问题与“binary classification problems for temporal relational data”相关（问题详情请戳：https://www.4paradigm.com/competition/kddcup2019），可否请你们谈一谈相关工作的意义和挑战？

答：时序关系型数据在在线告白、介绍系统、金融市场剖析、医疗等应用场景中非经常见，人们往往需要行使如许的数据去构建机械进修模型，并应用机械进修模型提拔对应买卖的结果。以在线告白点击率展望问题为例，每个样本就是向用户展示告白，样本标记为用户是否点击告白。因为是实际的办事系统，所有样本都是时序发生。

在传统的机械进修应用中，需要经验雄厚的专家才能从时序关系型数据中挖掘出有效的时序信息，并加以行使来提拔机械进修模型的结果。即使具备较深的常识贮备，专家也需要经由络续的测验和试错，才能构建出有价格的时序特征，而且行使多少个相关系表来提拔机械进修模型的机能。此外，选择合适的机械进修模型和超参数也需要壮大的机械进修专业常识作为撑持。

此次角逐针对时序关系型数据的 AutoML 挑战赛，进展让更多的数据科学家和斥地者到场个中，集思广益，从而让 AutoML 更好地行使时序关系型数据，提拔模型的展望机能，让 AutoML 解决方案可以加倍相符实际应用的需求。

赛题的难点首要有5个方面：赛题数据来自于多个实际买卖场景，参赛者设计的主动化机械进修算法将会在未知的五个数据集中进行进修和评估，凭据五个数据集的评估究竟进行综合排名。竞赛中每个数据集只给出数据类型不给出数据寄义，主动凭据特征类型挖掘出有效特征是一个难点。赛题数据是时序相关的，比拟较无时序的数据需要模型具备更好的泛化能力。赛题的数据由多表给出，这就要求参赛选手可以构建一个处理多表之间多样的保持关系的主动化机械进修系统。多表数据无疑提拔了对系统的不乱性的要求。时间和内存限制严厉。

本次AutoML角逐一方面展示出了我们团队在这个范畴的充裕储蓄，另一方面我们自研的AutoML系统能够在工程项目中完美落地，为客户供应顶级的机械进修解决方案。

问：可否向我们详尽解读你们的解决方案？

答：如上图所示，我们团队基于所给数据实现了一套支撑多表的AutoML框架，包罗主动表保持、主动特征工程、主动特征选择、主动模型调参、主动模型融合等步伐，在时间和内存的掌握上我们也做了好多优化工作。

注：深兰科技已开源相关解决方案，感乐趣者可接见 https://github.com/DeepBlueAI/AutoSmart进行查察

数据预处理

我们经由对表构造及其属性的剖析，针对分歧类型的数据制订分歧的数据预处理方案。如上图所示，我们去除了方差极小的数值特征，也去除了所有值都分歧的类别特征。同时，在多表间的多个保持key中，我们在主表中种类最多的一个key识别为user。基于识别出的user，能够测验在主表的category中识别出session。此外，我们测验在category数据中识别出只有两类有效值的binary数据。我们对category、user、session、key进行从新编码，对numerical数据测验将其转换为占用内存更少的类型，将time数据转换为轻易把持的datetime类型。

多表保持

竞赛给的数据构造如上图所示，表和表之间的保持关系能够分为四种，离别是1-1、1-M、M-1、M-M。因为时间和内存的限制，所以我们需要在尽或者保留信息的同时，让最后生成的表的数据规模不至于过大。而处理多表保持的体式，直接影响到后背的究竟。我们针对分歧的保持体式采用了分歧的方式。首先将四种保持体式分成了两种类型：类型1包含了1-1、M-1，类型2包含了1-M、M-M。对于类型1，我们能够直接将副表的数据经由key归并到主表上。对于类型2，我们首先对副表做一些群集把持，生成群集的究竟，而这些群集的究竟能够懂得为和主表是类型1的关系。接下来，我们只要对生成群集的究竟做类型1的把持，直接将其归并到主表上即可。而且，对于主表和副表都有时间戳的情形下，我们将副表上离主表当前数据早且比来而且为沟通key值的数据归并到主表上。

采样

因为AutoML竞赛方给定的数据集巨细未知，在对其进行把持处理之前首先要判断当前情况是否可以支撑整个数据集配合介入特征工程及模型练习过程。我们在读入数据进入预处理之前做了一次判断，即要求练习集与测试集的总样本数不跨越某一个能够接管的阈值。如练习集与测试集的总样本数过多，我们就考虑对其进行采样。

此外，在特征工程的组合特征模块中，同样用到了采样的思惟。组合特征的特点是发生的特征数量多、特征工程的时间长、内存峰值高、起感化的特征数量少。是以，为了避免内存溢出，我们在做组合特征之前，在小数据集长进行特征工程，经由筛选后获得真正起感化的特征，再在整个数据集上仅做出这些有效的特征如许不光能够削减系统运行时间也能避免内存溢出的风险。

主动特征工程

特征工程部门往往是数据挖掘角逐的要害焦点内容，也是我们团队在竞赛中取得显著优势的主要身分。我们经由LightGBM模型来验证特征结果和进行主动化特征选择，如上图所示，在主动特征工程阶段，我们将特征工程凭据特征组合的阶段分为多个阶段，在每一个阶段竣事后，我们都邑做一次特征选择来筛掉那些在这一阶段做出而不起感化的特征，来避免内存溢出而且加快最终的模型练习。为了在更短的时间内获得更有效的组合，我们进步行数据的采样，凭据分歧数据集的数据量巨细以及特征主要性筛选出适量的分歧类型的特征两两组合形成新的特征，然后在全量数据上重现有效的特征，在进展挖掘到有效的特征的同时，尽量减小内存溢出的风险。我们经由连系特征主要性及序列后向选择算法，设置一个阈值，将在介入模型练习中，筛出主要性较低的特征而尽或者小地损失模型精度。我们还测验了基于特征的信息增益来对特征进行筛选，亦或是对两种筛选方式进行连系，但因为没能找到更好的切分点，最终照样使用了基于特征主要性的方式。

我们将特征分成几个模块。第一个模块是分类特征，我们对分类特征进行了均值编码，频率编码等，更充裕地提取类别信息。第二个模块是实体特征，我们对每个表中的主键进行识别，将其区分出user、key、session等时序场景常见的实体（key是某种未知的实体），我们经由特征工程对这些实体进行建模，对实体的汗青信息（数值特征、分类特征、时间特征等）进行分歧体式的聚合。第三个模块是时序特征，我们凭据时间将数据划分为多块，将上一个时间块的特征经由实体联络到下一个时间块的沟通实体作为特征，如许使得模型能够有更好的时序展望能力以及泛化能力。第四个模块是组合特征，我们基于前面模块所发生的一阶特征（包罗时间、类别、数值、多值类别等特征）进行多种分歧组合。

同时，因为本次角逐的时间和内存的掌握对照严厉，在面临百万级的数据量上，每个特征生成几乎都要掌握在几秒内生成，为了知足这一要求，我们的代码到场了很多优化。好比对于类别数据在多类别数据中的位置这一特征，若是用传统的Pandas实现，时间会达到几个小时，而到场多线程之后，情形会有所改善，然则依旧要消费大量的时间。我们退而求其次，使用numpy来实现该特征，特征的生成时间直接达到了几十秒的级别，然则这依旧不克知足我们的要求。最后我们对这块代码使用cython去优化，而且对cython代码进行精雕细琢，最后该特征的生成只需要几秒。

类别不屈衡问题处理

我们对类别不屈衡的数据在练习时做了处理。正负样本比例跨越1:3时，我们采用欠采样的体式，缓和正负样本不屈衡。此外，我们还测验经由增加正样本的权重等体式来优化类别不屈衡带来的问题。在模型融合的部门，我们在保留原始较少的正样本的同时，换一批负样正本进行练习，如许可以尽或者保留更多的原始数据的信息，同时缓解类别不屈衡的问题。

建模

因为LightGBM在练习速度和机能都示意得很不错，我们使用LightGBM作为我们的模型。

对于参数调优，我们到场了先验常识，设置了多组分歧的进修率，经由early-stopping来选择合适的进修率包管模型能练习必然的轮数，而且经由验证集选择最好的进修率。如上图所示，我们经由进修率衰减来使得LightGBM更快地收敛。因为时间的限制，我们对数据进行采样，经由对采样后的数据进行参数搜刮，加速了参数调优速度，对机能只有很小的损失。

因为竞赛情况对时间和内存做了严厉的限制，我们在模型融合方面考虑了bagging、blending、stacking等方案，最终选用了使用bagging的方式。如上图所示，我们模拟一次简洁的练习来预估真实数据集所需要的练习和展望时间，如时间不足则选择在练习时early-stopping，许可精度上的损失来包管代码可以在划定时间内运行完毕。如时间充实，则经由当前剩余时间较量许可几多个模型进行融合。

运行时间优化

我们的时间掌握在各个过程中都有施展。在主动化数据处理和主动化特征工程的过程中，我们使用Cython对编码以及一些生成绩率较慢的特征进行加快。这里举一个特征为例，对于两列数据，一列为category类型的数据，一列为multi-category类型的数据，我们提前判断了两列数据的数据项集具有交集，我们要较量这一category列中的数据项在multi-category列对应的数据项集中的位置信息。好比说有有一条数据。data : [ 2137 , (134,2137,576,816) ] ，前者2137在后者的第2个位置上。所以这条数据该特征为2。若是没有显现的话，划定为0。对于这一特征，若是我们使用pandas供应的apply接口来实现，在本次角逐的情况下，该类特征的生成需要大约几个小时的时间。考虑到DataFrame不适合做遍历，以及接口泛化性带来的机能上的损失。我们使用Numpy，做遍历来实现该特征，可以让特征的生成达到分钟级。而本次角逐的时间和内存有严厉的掌握，像那些需要跨越10秒才能生成的一类特征就算非常耗时的了。之后我们采用Cython，应用Cython提前编译，静态类型等机制我们将该特征的生成时间掌握在了10秒内。个中生成该特征的过程中有一些细节。好比若是在Cython中持续使用Python原生类型，那么遍历的效率照样对照迟缓。然则multi-category类型的数据存储又欠好脱离Python原生类型的支撑。考虑我们在生成特征的过程中，首要是对multi-category类型做遍历把持，所以能够使用一个数组去存储multi-category的每个数据项，而且用额外一个数组去留存每个multi-category的数据项集的长度。如许凭据其长度数组和数据数组，我们就能做一个高效的遍历。在测试这段优化的过程中，纯粹的Python代码经由Cython优化，效率也许能到60秒。而经由这段优化，很轻松就能达到10秒内（测试情况就是以我们的内陆较量机为主，线上情况会多一些时间）。

在模型集成部门，我们会做提前较量，记录到当前用时，经由练习模型几个轮次来较量出模型启动的时间以及模型练习每一轮数据所消费的时间，经由这两个时间，我们可以预估出后续的参数调优，模型练习的时间。从而决意最后模型融合的数量。

时间优化前后对比

运行内存优化

在内存掌握方面，我们首先实现了一个内存的监听器。我们首先完整运行一轮我们的系统，记录下内存情形，对分歧数据集的内存峰值进行剖析。能够发现的是，内存峰值往往就显现在几个典型的处所。好比：数据合成时、在模型起头练习时、某些特征生成时。经由剖析，能够归纳为几个点，个中对照典型的是数据合成时，若是使用pandas的接口pandas.concat进行数据归并，其归并过程中，会生成大约两倍当前数据内存的量。这个是显然的，因为其归并返回的究竟不是当场的，而是建立出第三块内存。是以，我们将合成的过程改为按列赋值，如许归并时就几乎不存在内存峰值了。然则这么做，同时会带来较差的时间效率。所以在系统的早期，内存对照宽松的情形下，我们依旧采用pandas的接口来进行对数据的归并。

此外，我们同样对练习展望时内存的情形进行了提前较量，在最后的特征筛选的过程中，我们管帐算模拟出在生成多大的数据量下，可以完整进行系统后续的过程。从而来掌握最后筛选出来的数据量。而且在最后一次特征筛选前，生成特征时，我们也会先时候小数据集进行一个模拟过程，来较量出整个过程中的内存情形，来对生成期生成的特征数量进行一个掌握。

最后，我们会做一些对照精美的内存治理，在变量生命周期竣事的时候，我们都邑对其进行内存收受。以下是我们内存优化前后的一个对比。里面包含了竞赛中给的5个数据集的运行过程中的内存情形。

内存优化前后对比

系统测试

对于系统的测试，我们分为了两个方面进行。第一个方面是测试系统的扩展性，第二个方面是测试系统的机能。

对于系统的扩展性，我们测试过如下：对于分歧的数据类型缺失的情形。对于分歧数据类型数值全为空的情形。对于表的构造为单表、复杂多表的情形。

以及其他一系列的极限状况。而对于系统的机能方面，我们测试过如下：扩大数据的条目，就本次角逐的5个数据集而言，我们扩展每个数据集数据条目2倍，3倍，6倍都可以在划定的时间和内存下顺利运行。扩大数据的字段数量，同样，我们扩展5个数据集的字段数量2倍也可以顺利运行。组织特定的数据集，视察是否会因为某些组合特征而系统溃逃。最后测试了大约数十个组织的极端数据集都可以运行成功。限制数据集许可运行时间，我们经由调整数据集许可运行时间，视察我们的系统是否可以自适应调整自身的运行时间。我们调整本次角逐华夏本时间就对照重要的A数据集以及数据量较大的B数据集，将其许可的运行时间变为本来的1/2，1/3，甚至是1/4。我们的系统都可以顺利运行。

问：您认为该模型得以夺魁的原因是什么？

答：在此次角逐中我们的工作环绕着角逐的挑战而进行，首要有几个对照主要的过程：主动化多表数据处理、主动多表保持、主动化特征工程、主动化模型构建、选择和融合。同时为了知足角逐的时间和内存的需求，我们在代码上做了非常多的优化工作，好比使用了多线程、Cython、预处理、提前估算等方式。最后我们的成就相当不错，A，B榜单上均在多个义务集上有对照大的优势。

问：AutoML角逐和其他机械进修角逐有哪些分歧？

答：与传统数据挖掘角逐分歧的是，AutoML角逐中，参赛选手只知道数据的类型（数值变量、分类变量、时间变量、多值分类变量等），而不知道数据的寄义，这毫无疑问会增加特征工程的难度，若何挖掘到有效的通用特征成为一个难点。

AutoML角逐首要包含两个阶段，Feedback阶段和AutoML阶段，这两个阶段所使用的义务数据集是纷歧样的，而传统数据挖掘角逐的A/B榜阶段都是在统一个义务分歧数据集长进行测试，是以AutoML角逐更要求参赛选手构建一套通用的AutoML系统，在分歧义务上都可以取得很好结果。

AutoML角逐严厉限制运行时间和内存，若是未能在划定时间和内存内完成系统建模则无法介入最终排名，是以在系统运行过程中需要正确预估时间和内存，对耗时耗内存的部门代码需要进行深入优化。

问：当初选择列入这个竞赛的原因是什么？与深兰科技的买卖有哪些连系之处？

答：传统机械进修极为花消人力、手艺门槛高，也让没有机械进修配景的人无法高效行使时序关系型数据。AutoML 近年来成为了机械进修主要的研究偏向。该手艺在模型选择、神经架构搜刮、特征工程等方面取得了较大的成功，大幅降低了机械进修的应用门槛，让没有机械进修配景的人同样能够轻松使用。此次AutoML角逐针对时序关系型数据的 AutoML 挑战赛，进展让更多的数据科学家和斥地者到场个中，集思广益，从而让 AutoML 更好的行使时序关系型数据，提拔模型的展望机能，让 AutoML 解决方案可以加倍相符实际应用的需求。是以，我们认为此次AutoML角逐对鞭策AutoML的成长具有主要意义。

深兰科技在自身产物的斥地中也已使用了自研AutoML系统，以深兰科技应用于建青实验学校的AI教育“一手通”为例，经由这款系统设备采集的数据，再经由AutoML系统主动建模能够剖析出学生的乐趣喜爱，随后进行个性化教授。在对峙增强根蒂研究的道路上，深兰科技披荆棘披、不忘初心，将持续把更多搭载进步手艺的产物推向市场，真正实现办事民生。

问：据认识，除了 KDD CUP，深兰科技近期还斩获了多个竞赛的冠军（如 IEEE ISI 、CVPR FGVC 等），能向我们介绍一下深兰科技在这方面的投入情形吗？

答：深兰科技成立之初即完整地规划了深兰科学院的架构，并陆续成立了五大研究院，致力于人工智能根蒂研究和应用斥地。在焦点手艺的根蒂研究方面，包罗较量机视觉、主动驾驶、生物识别和认知智能等四大范畴。每次国际会议角逐都是验证深兰科技根蒂算法和手艺实力的机会，我们同时也进展这些方案能为更多行业供应借鉴。尤其本届KDD Cup AutoML角逐开源认识决方案，个中有很多精良的思路和方式在角逐中得以验证，不只配合推进了AutoML的成长，也供应了交流进修的机会。深兰科技矢志不渝，不只为自身的贸易化应用落地持续注入强劲能量，更进展赋能更多行业，将“人工智能，办事民生”的理念落实究竟。

问：对于有乐趣参赛的青年 AI 斥地人员，深兰科技有何建议给到他们？

答：有乐趣列入机械进修角逐的AI斥地人员首要分为两种，一种是在校学生，另一种是在职的。对于在校的同窗来说，列入机械进修角逐能够快速提拔本身的专业花样，也能储蓄实战经验，对找实习和找工作都有很大匡助；对于在职的同窗来说，进展在业余角逐的同时能把角逐中进修到的器材应用到当前工作中来，因为角逐需要破费不少时间，也建议部队中有时间相对对照多的在校学生，如许可以更好的均衡工作和角逐的时间。

多进修一些角逐的Top部队的分享，从这些分享中多总结多思虑，对于特定义务能够连系实际买卖场景深入索求。

在机械进修角逐中取得 top 的成就不光要实力也需要必然的运气，放松心态，带着进修的立场去玩竞赛，在玩的过程中，不光能接触各类AI应用场景，也能提拔本身的能力并熟悉更多沟通乐趣的同伙，这就是最大的收获。

雷锋网 AI 斥地者雷锋网