数据竞赛,已成为国内如火如荼的人工智能(AI)、大数据革命在人才端的一道缩影。
昨日,京东 JData 算法大赛正式落幕。入围决赛的十只队伍,在位于亦庄的京东大厦B座报告厅,以公开答辩的形式进行线下总决赛。七位来自高校、业界的评委进行最终评判,包括来自合作方英特尔的全球 AI 技术总监伊红卫。
最终,在赛程中一贯表现亮眼的“鲁班七号”队摘走了大赛冠军的头衔,以及属于冠军的三十万元奖金。亚、季军以及其它入围决赛的队伍也各有所得,为这场自 3 月 19 日开启,历时 68 天的大赛画上了句号。
颁奖嘉宾伊红卫(左)与“鲁班七号”的四名队员
大赛题目为“高潜用户购买意向预测”,即根据一段时间窗口内的行为数据,预测消费者购买意向。京东商城提供了 2016-02-01 日到 2016-04-15 日的部分用户、商品、行为和评论数据,要求预测接下来五天内的购买行为。在雷锋网(公众号:雷锋网)看来,这场大赛有几项特别之处:
这是京东集团首次举办的数据竞赛,也是其首次开放真实、脱敏的业务数据,并首次借大赛形式招揽技术人才;
大赛吸引了共 7246 人、四千多只团队报名参与,刷新了数据竞赛单体赛事参与人数的世界之最。
大赛奖金共 60 万元,虽称不上是前所未有,但的确是阿里云天池之外、国内数据竞赛奖金的又一高峰。
AI 人才招募:以比赛为名
然而,最特别的地方,还是要看本次大赛举办的时机,或者说是背景。
现在距离 6.18 京东店庆不足两周,各品类自营商品的折扣优惠已经开始,线上、线下的宣传造势也正积极铺开,俨然已成为另一个“双十一”。而在几年前,这还是难以想象的事。京东商城总架构师刘海峰表示,“千人千面”的个性化推荐,将是今年 6.18 的重点工作。
在 AI 这边,阿里在人工智能的布局很早便已展开。阿里云已成为国内 AI 界的一面金字招牌。其“天池平台”更是凭借丰厚的奖金、淘宝天猫的电商数据和阿里云的技术专家团队,成为当前国内数据竞赛的龙头,进一步扩大了阿里系对 AI、大数据人才的影响力。
反观京东的 AI 战略,则要务实的多:紧贴核心电商业务,不盲目跟风布局。逐步吸引 AI 算法人才,实现刘强东“向技术转型”的目标。众所周知,更好、更高效的 AI 和机器学习算法技术,给电商企业带来的是真金白银的好处:从鉴黄、识别二维码诈骗和违禁词,到智能分单、订单预测、订单冷静,再到个性化精准营销均有广泛应用。在“猫狗大战”进入关键阶段的今天,核心竞争力相比对手的点滴提升,在将来或可产生逆转局势的作用。
而技术转型,核心要素便是“人”。在 JData 决赛开幕式的讲话中,担任大赛主席的京东招聘总监李庆庆表示,为响应刘强东在 2017 年开年大会上提出的技术战略, 要”战略落地人才先行“,并用“史无前例”来形容今天的京东对技术人才的重视程度。她表示,京东技术员工总数已逾 8000 名,并自去年招聘了超过 20 名顶尖高校的博士生。
但这显然还不够。
雷锋网记者在决赛现场感受到的氛围,用两个字足以形容——“抢人”。
十只入围决赛的队伍、三十几名参赛选手,接受了京东各业务负责人一轮轮讲话的殷切叮嘱。作为大赛奖品,优胜团队中的参赛者本就会获得京东集团无条件录用的 ”special offer“,其他决赛选手也将获取终面资格。至于受邀而来的媒体,以及关注大赛结果的其他 7000 余名参与者,无疑会将这里的故事传播出去,颇有”千金买马骨“的意味。当然,这里“买”的是活人不是马骨;而且世上的各门各类才艺比赛,主办方多多少少都会有些“使天下英雄入吾彀”的动机(不想着聚敛天下英才的比赛不是好比赛?笑)。
毫无疑问,物色优秀的算法工程师、提高京东对这一群体的影响力,是京东举办 JData 算法大赛的主要目的。至于与各路算法人才交流、学习,促进 6.18 的业务提升(刘海峰宣称,JData 涌现的优秀算法,预计将使 6.18 大促的销量预测准确率提升 10%以上),显得倒在其次。
这就使我们不禁发问:现阶段的数据竞赛,是否基本就是一个算法人才选拔机制?我们当然知道,它有“其它”功能与意义;但问题是,这些功能和意义的重要性,是否和人才选拔处在同一个层级?
数据竞赛:招聘以外
1. 优胜方案的参考意义
对于数据竞赛,旁观者最经常提出的疑问是:
比赛优胜方案对于企业究竟有多大的实际应用意义?
对于该问题, 京东商城交易平台高级总监王晓钟倒是没有回避。他表示,算法无法脱离业务商品,必须和现有业务相结合。但比赛数据是脱敏的,和业务脱节。因此,大赛更多是”技术的交流“。
刘海峰进一步表示,优胜方案最有价值的是思路而不是算法:
“不一定用他(优胜选手)的算法,很多的思路非常好,所以大赛一个方面对那些学生来讲是一个比赛,对我们来说是一次交流和学习的机会,我们也可以跟这些人才学习。”
行内众所周知的是,比赛场景会“迫使”参赛选手不计成本地进行模型融合,追求小数点后几位数的精度以提升排名。这导致比赛模型无法直接应用于生产。
2. 令人刮目相看的学生参赛者
此前,雷锋网在对国内几大数据竞赛平台的报道中提到,国内外的数据竞赛,在参赛人员的构成上有很大的区别:国内以大学生为主,学生参赛的比例远高于 Kaggle。这一次 JData 入围决赛的选手中,高校学生的比例更是达到了惊人的 90%。
要知道,JData 大赛对全社会开放,奖金数额按理说也能够吸引在职工程师。虽说决赛入围队伍中有来自阿里云、网易的成员,毕竟人数不多。情况如此,在某种程度上也反映出我国技术工作者的工作过于饱和。
回归正题,很明显的是,京东对学生参赛者的水平是十分满意的。刘海锋对此给予了肯定:
“其实说实话,现在高校有好多技术人才,特别这次算法大赛进来的水平还是很高的。我们内部团队说,学校里面做的,说实话,从一些基本的算法能力上,(和业界)差异是比较少的;只不过公司里面,对业务的理解,或者认知,或者更多的量有更多计算能力的优势。”
王晓钟则给出了一个很有说服力的数字:
“透露一个数据,这一次预测商品购买意愿,我看了一下,基本上进入TOP10,购买意愿的准确率预测能够达到30%,30%基本上已经是业界的一个——不能说极限,但很难突破了,具体业务具体的场景下才能突破。这有点出乎我的意料。”
京东商城的研发交易平台数据科学家李凯东,以“同行“的身份同样给出了积极评价:
“方法角度来看,外部的小伙伴用的纯数据的方式,确实对我们的有一定创新。他们会从数据里面挖掘一些规律反馈给我们,我觉得是有一定的帮助的。”
对于国内参赛群体以学生为主这一事实,李凯东的观点十分乐观。他认为,这一方面反映出国外有更高端的数据人才基础;但另一方面,结合国内大赛选手们的表现,今天国内学生的整体实力是超过国外同龄人的。我国数据挖掘领域在将来大有可为。
3. 参赛选手的反馈
雷锋网采访了获得最佳潜力创意奖的“简单的电脑”队长李雨亭,以及“Air force”团队成员。
针对决赛团队的训练方案大都基于 XGBoost 模型这一现象,李雨亭表示,各队所用的方案大体上相似,所差的是在细节上的处理——“前面几个团队做的事我们也都做了”。当问及在比赛上花费的时间,他表示,主要的投入是在前两三个星期,之后只是调优——“每天看一下排行榜,看有没有变化,排名下降就再弄弄。”他还透露了一个有意思的细节:比赛初期,“简单的电脑”队得分一直排名第三,因此内心上有所放松,但后面多支团队的分数突然大幅提升,直接把他们的排名挤到了后头。
获得亚军的“蓝鲸”队则在答辩中表示,老手往往在最后一天再大幅优化模型,冲刺排行榜。
对于比赛经验总结,各团队不约而同地强调特征工程的重要性。“Air force”团队表示:“特征工程决定了模型的上限”。至于为什么主办方以公开答辩的形式进行决赛,而不是直接以排名得分决胜负。“Air force”告诉记者,京东用 2017 年的商城数据对各决赛团队的模型做了检验,考察过拟合程度。但这些数据不会公开,各团队也只得到各自的得分反馈。因而,最终决赛实际上参考了各参赛队伍的方案在新数据上的泛化能力。
后记
这次数据大赛仅仅是京东举办的第一届,后续一系列赛事还在规划之中。王晓钟表示“希望可以是一年一次”。他透露,后续会有不同类型、不同专业领域、面向不同应用场景的比赛。
照此看来,京东会是继阿里之后,国内第二家全面拥抱数据竞赛的互联网巨头。其它巨头们怎么看?