阿里人工智能这五年:天才的野心与自证(8)
2023-05-04 来源:飞速影视
经历过焦灼而艰难的资源「抗争」后,漆远手中的分布式机器学习平台终于启动,为了尽早让平台上线,团队放弃年底休假,春节期间留守奋战,骨干密集开会头脑风暴。「当时切身地感受到了团队的战斗力,大家真的是非常相信,只要上线效果一定能好」,漆远回忆。
双十一期间,平台首次实现淘宝、天猫个性化推荐的大规模应用。那一年的阿里巴巴集团算法大奖上,漆远带领 80 人的团队包揽了 16 项奖中的 6 项。现在,漆远作为达摩院金融智能方向的负责人,带领团队构建面向金融经济场景的智能分析与决策技术。
另一边,在经历了搜索类目扩增、数据优化、算法迭代等多方面的升级后,「图搜」项目完成三次入口跃迁,终于在 2015 年双十一期间进入首页。让潘攀颇为自豪的是,图搜的数据一直依靠自然增长,几乎没有调用过手淘的商业推广资源。
入口升级的本质是一个不断「自证」的过程,由技术和技术背后的推动者们在一次又一次的挑战中完成,继而固化下来成为阿里技术产品的迭代传统。
不同于象牙塔里、试验台前的公示推理和仿真验证,商业场上的「自证」需要实实在在的业务指标和实际效果,正如阿里办公区里那句随处可见的标语——「NO DATA,NO BB」。
高速增长的背后是两年一次的系统大改,「阿里其实非常讲究创新,我们一般都不炒冷饭」,潘攀说道,他将图搜系统的发展分为三个时期,「每一次升级不仅是算法进步,而是整体思路的提升」。
「数据、系统、算法三个互为一体。对数据认知和处理方法的不同视角,催生了与之匹配的算法和工程系统,所以升级是整个系统层面的」。
项目早期,数据量少,还需要人工标注,所以研究为之匹配的小模型的系统和算法;随后训练数据解放,团队尝试通过用户行为的三类数据(查询数据、点击数据、未点击数据)分析出数据与排序间的逻辑关系,三元组的 Deep Ranking 框架生成,与之对应的训练框架、系统升级迭代;去年,图搜开始接入超大规模并行处理平台,释放数十亿级数据的训练能力。
与百度识图、微信扫一扫、京东拍照购等市面上的其他图搜应用不同,阿里更强调「通用化」能力,比如不仅能支持手淘所有的实体商品检索,还包括二维码、植物、垃圾等非商品的识别与分类。这些功能统统集成在图搜一个窗口里,不用再二次跳转,平均日活达到 2000 万以上。
在研究员的成长道路上,经历一次完整的技术工程化落地的意义重大,它不仅锤炼了实战能力,更为其提供了深入了解业务所想、业务所需的窗口。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号