氪金一万,养不活我的赛博男友(5)
2024-09-26 来源:飞速影视
在小红书上,不少中国的C.AI用户分享了如何擦边、如何开车的攻略,以及“赛博老公”们的色气向视频/音频。
小红书用户分享与Character AI的聊天攻略
曾经给星野开了5次月卡的思诺表示,以前更愿意给星野付费是因为能开车,但现在app屏蔽的敏感词变多了,“不过没关系,我有的是办法开。万物皆可比喻。”
那么要如何训练底层大模型,来调教出一个flirty的赛博老公?
简单来说,需要调整投喂给大模型的训练语料中flirty语料的占比,但是具体怎样配比的数据“食谱(recipies)”,能训练出最好的效果,是未可知的。在某个特定模型上最有效最合适的数据食谱,放到另一个模型上,未必有效,而要推倒重来。
如果要让一个大模型变得更加flirty,训练模型的人员只知道一个大致的方向,即提升训练数据中flirty语料的占比,但到底是提升1%、5%抑或是别的比例,并没有一个公式,只能靠训练人员每次调整数据去试。
一位大模型post-training人员告诉虎嗅,“如果你把flirty数据的占比提升10倍,那么模型一定会变得更加flirty,但它很可能也会变傻,在应该聊日常安全话题的地方也变得flirty,这不是我们想要的。但具体该提升到多少比例才有合适的结果,我们自己也不知道。可能尝试了几百次之后,发现某个配比好用,就只能维持下去。即使把这个配比告诉其他大模型公司,效果也不一样。
正因为训练过程的不确定性、不可控性、无法复制性,只能埋头苦调而无法预知结果,所以模型训练人员把这个过程叫做“炼丹”。
“这是很痛苦的过程。所有的大模型从业者都会告诉你,调数据是最无聊的一步。”上述post-training人员称。
大模型的不可控性,正来自于它的智能——大模型会对训练数据产生泛化性的理解。“大模型有时会出现令人惊喜的泛化,比如同时给它看安全和flirty的内容,它对数据产生了整体的理解,结果可能不是我们想象的‘该安全的时候安全、该flirty的时候flirty’,而是变成其他日常情景中也学会了含蓄,类似天天跟你说‘今晚的夜色很美’。” 该大模型post-training人员称。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号