奥特曼最新万字访谈:GPT-5能力提升超乎想象,算力将成为未来最重要的货币(15)
2024-09-26 来源:飞速影视
Lex Fridman
嗯,你刚才提到的遮挡问题,其实就是要对世界的三维物理现象建模,而且要做得足够好,才能捕捉到这类情况。
Sam Altman
嗯……
Lex Fridman
你可以跟我说说,为了应对遮挡问题,世界模型需要做什么呢?
Sam Altman
我想说的是,它在处理遮挡方面表现得相当出色。而说它背后有一个很强大的三维世界模型,这个说法就有些牵强了。
Lex Fridman
但你觉得仅凭这些二维训练数据的方式就能达到那个目标吗?
Sam Altman
看起来这种方法能出乎意料地走得很远。我不太想去猜测它能克服哪些限制,哪些又不能,不过……
Lex Fridman
你发现了系统的哪些有趣局限性?我的意思是,你分享过一些挺有趣的例子。
Sam Altman
有各种各样的有趣现象。比如,视频中的猫咪在任意位置突然长出一条额外的肢体。你可以随意挑选,但现在仍然存在许多问题,有很多弱点。
Lex Fridman
你觉得这是这种方法根本上的缺陷呢,还是说只要有更大的模型、更细致的技术处理或者更高质量、更多量的数据,就能解决“猫发芽”这类问题?
Sam Altman
我对这两点都持肯定态度。我认为这种方法给人的感觉与我们通常的思考和学习方式大相径庭。同时,我也相信随着规模的增加,它的效果会进一步提升。
Lex Fridman
就像我提到的,LLMS 有 token,文本 token,而 Sora 则有视觉 patch。它把所有的视觉数据,包括各种不同的视频和图片,都转换成了 patch。训练过程可以说完全是自监督的吗?还是会涉及到一些手动标注的工作?在整个过程中,人的参与程度是怎样的?
Sam Altman
我是说,不详细谈论 Sora 的方法,我们的工作就已经利用了大量的人类数据。
Lex Fridman
但不是互联网级别的数据量吗?这就意味着需要大量的人力。Sam,"大量"这个词可不简单。
Sam Altman
我觉得在这种情况下用“很多”这个词挺合适的。
Lex Fridman
因为对我来说,“很多”嘛……你听我说,我是个内向的人,要是和三个人一起出去,对我来说人就已经够多的了。要是四个人,那简直就是超负荷了。不过我猜你指的“很多”可能是比这……
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号