火山引擎发布全新高速训练引擎,用抖音同款技术解决智能推荐痛点(2)

2023-04-26 来源:飞速影视
高速训练引擎,抖音同款模型能力
此前,火山引擎通过抖音等业务大规模个性化模型的探索与沉淀,为众多企业客户提供了智能推荐引擎,助力他们实现个性化用户体验,并在用户留存、停留时间、GMV等维度获得了极大提升。

火山引擎发布全新高速训练引擎,用抖音同款技术解决智能推荐痛点


图:智能推荐-高速训练引擎
本次大会上火山引擎发布的产品——“智能推荐-高速训练引擎”则是为了进一步实现大模型落地而诞生的,集成了抖音、头条等业务的最佳技术实践,尝试解决各行各业的企业训练大规模个性化模型存在的痛点和问题。
火山引擎的智能推荐-高速训练引擎使用了以下方式解决这些问题:软硬一体优化、细粒度算子优化,以及分布式训练和推理。
软硬件一体化的GPU训练,能够将最新体系架构的硬件性能发挥到极致,大幅缩短训练时间,帮助企业提高大规模个性化模型的训练效率,降低训练成本,快速验证模型对业务效果的影响。
针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速训练,综合ROI是CPU的5倍;覆盖更多场景的模型,提供了GPU CPU混训方案,综合ROI是CPU的2倍。
针对搜广推场景, 细粒度算子优化, 性能更好。在训练时,通过算子融合并精细调优,性能提升20%。在推理时,通过算子优化,性能提升40%。
智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理, 包括多分片, 多副本,从而保证线上服务的高可用。
做完上述以及其他一系列优化后,抖音、今日头条等基于火山引擎高速训练引擎的业务,模型训练时间加速比10x-25x,综合成本降低25%-67%。
而在外部,火山引擎高速训练引擎的价值也得到了多家企业的验证。
例如,与中国某社交平台的合作,火山引擎成功帮助客户解决了训练速度慢,无法快速验证模型效果的问题,将训练速度提升了12倍——原本客户侧耗时1800分钟的模型训练,在火山引擎侧仅耗时150分钟。在模型优化上,火山引擎百G模型与客户2T级别模型相比,效率无明显下降,且离线效果指标全部正向,帮助客户实现了大幅的降本增效。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号