当前位置：首页 > 资讯 >

AI赋予文字无限力量：“由文本生成一切”的一年(3)

2023-05-02 来源:飞速影视

这篇文章的主题是“从文本到一切”的一年。最近的技术发展，使人们能够以更有效的方式快速地将文本转换为其他形态。这些发展令人兴奋的，并有望在未来几年内实现大量的应用和产品。但是我们也应该记住，“文本的世界”是有局限性的，只是一些空洞的思考，描述世界却不与其发生实际互动。我将讨论时至今日的技术进步，也会思考如果文本信息的“呈现”仅仅停留在文本领域，“从文本到一切”会有怎样的局限性。
多形态终于成为现实
从技术上说，GPT-3揭开了一切的序幕。这已经被提到很多次了，所以我就简单说一下：OpenAI训练了基于transformer 架构的大语言模型。这个模型比之前的GPT-2大得多，训练的数据也多得多（1750亿个参数vs 15亿个参数；40TB的数据vs 40GB），OpenAI当时认为发布这个模型太危险了。它可以做一些事情，比如编写不那么复杂的JavaScript代码。有些人会觉得很酷，有些人会觉得一点也不酷，有些人会觉得一般般。创业公司都建立在新的最大的模型上，新闻和学术文章都在赞扬和批评新模型，美国以外的国家也在发展自己的大语言模型参与竞争。
2021年1月，OpenAI 推出了一个名为CLIP的新人工智能模型，它拥有与GPT-3类似的zero-shot能力。CLIP向连接文本和其他形态迈出了一步，它提出了一种简单、优雅的方法来训练图像和文本模型，当有人进行查询时，整个系统可以在可能的标题选择中，把图像与相应的标题相匹配。
DALL-E可能是第一个“善于”从文本产生图像的系统，与CLIP在同一天发布。CLIP在第一代DALL-E中没有使用，但在其后续版本中发挥了重要作用。由于能够根据文字提示生成合理的图像，DALL-E上了多个新闻头条。
扩散模型（diffusion model）登场
虽然一些人工智能先驱感叹，如果我们想实现“真正的”通用智能，深度学习不是办法，但“文本到图像”模型无疑适合运用深度神经网络的力量。深度学习模型中的一些互补性进展，使得“文本到图像”模型取得了进一步的飞跃：扩散模型被发现，实现了极高的生成图像质量。（参见论文Diffusion Models Beat GANs on Image Synthesis）。
DALL-E 2的发布时间距离DALL-E约一年多，利用扩散模型的技术进步，创造出比DALL-E更逼真的图像。而DALL-E 2的风头很快就被Imagen和Parti抢去——前者使用扩散模型展现了惊艳的水准，后者则摸索出了一种补充性的自回归方法来生成图像。

1 2 3 4 5 ...9 查看全文

AI赋予文字无限力量：“由文本生成一切”的一年(3)

头文字D 第一季

健康又文明的最低限度生活

头文字D

文明的秘密第一季

头文字D续作

幸运数字斯莱文

头文字D 第二季

一切或一无所有：007不为人知的故事