当前位置：首页 > 资讯 >

奥特曼最新万字访谈：GPT-5能力提升超乎想象，算力将成为未来最重要的货币(15)

2024-09-26 来源:飞速影视

Lex Fridman
嗯，你刚才提到的遮挡问题，其实就是要对世界的三维物理现象建模，而且要做得足够好，才能捕捉到这类情况。
Sam Altman
嗯……
Lex Fridman
你可以跟我说说，为了应对遮挡问题，世界模型需要做什么呢？
Sam Altman
我想说的是，它在处理遮挡方面表现得相当出色。而说它背后有一个很强大的三维世界模型，这个说法就有些牵强了。
Lex Fridman
但你觉得仅凭这些二维训练数据的方式就能达到那个目标吗？
Sam Altman
看起来这种方法能出乎意料地走得很远。我不太想去猜测它能克服哪些限制，哪些又不能，不过……
Lex Fridman
你发现了系统的哪些有趣局限性？我的意思是，你分享过一些挺有趣的例子。
Sam Altman
有各种各样的有趣现象。比如，视频中的猫咪在任意位置突然长出一条额外的肢体。你可以随意挑选，但现在仍然存在许多问题，有很多弱点。
Lex Fridman
你觉得这是这种方法根本上的缺陷呢，还是说只要有更大的模型、更细致的技术处理或者更高质量、更多量的数据，就能解决“猫发芽”这类问题？
Sam Altman
我对这两点都持肯定态度。我认为这种方法给人的感觉与我们通常的思考和学习方式大相径庭。同时，我也相信随着规模的增加，它的效果会进一步提升。
Lex Fridman
就像我提到的，LLMS 有 token，文本 token，而 Sora 则有视觉 patch。它把所有的视觉数据，包括各种不同的视频和图片，都转换成了 patch。训练过程可以说完全是自监督的吗？还是会涉及到一些手动标注的工作？在整个过程中，人的参与程度是怎样的？
Sam Altman
我是说，不详细谈论 Sora 的方法，我们的工作就已经利用了大量的人类数据。
Lex Fridman
但不是互联网级别的数据量吗？这就意味着需要大量的人力。Sam，"大量"这个词可不简单。
Sam Altman
我觉得在这种情况下用“很多”这个词挺合适的。
Lex Fridman
因为对我来说，“很多”嘛……你听我说，我是个内向的人，要是和三个人一起出去，对我来说人就已经够多的了。要是四个人，那简直就是超负荷了。不过我猜你指的“很多”可能是比这……

1 ...13 14 15 16 17 ...46 查看全文