当前位置：首页 > 资讯 >

AI赋予文字无限力量：“由文本生成一切”的一年(4)

2023-05-02 来源:飞速影视

故事并没有到此结束。Midjourney是一个用于图像生成的商业扩散模型，由同名实验室发布。稳定扩散（Stable Diffusion）模型借鉴了对潜在扩散模型的新研究，可以用有限的计算资源进行训练，因为Stability AI公司选择公开该模型及其权重，Stable Diffusion的发布受到了万众瞩目。
神经网络架构的创新并不是促成以上改进的唯一原因。雅虎在2015年发布了Yahoo Flickr Creative Commons 100 Million Dataset（YFCC100M），在当时是有史以来最大的公共多媒体数据集合。最近，Large-scale Artificial Intelligence Open Network（LAION）发布的数据集更在规模上令YFCC100M黯然失色。2021年发布的LAION-400M包含4亿个图像-文本对，然后是2022年发布的LAION-5B包含50亿个图像-文本对。
值得注意的是，虽然这些数据集能够大规模地训练图像-文本模型，但它们并非没有问题。The Decoder的报告曾发现LAION的数据集包含未经同意发布的病人图像，研究人员也评论说，该数据集的质量并不纯正。如此庞大的数据集必然会有其他的伦理问题出现，OpenReview上的作者和审稿人似乎就这些问题进行了颇有见地的意见交流。
从文本到一切！
如果人工智能模型可以将文本转换为图像，那么它们可以将文本转换为视频吗？当然可以！10月份，一批从文本到视频的生成软件面市。Meta公司的Make-a-Video可以根据文本和静止图像生成视频，而谷歌大脑的Phenaki可以根据一系列构成故事的提示词生成一个连续视频。
也许更有用，或者说更令人担忧的是，这些生成模型也能胜任代码的编写。当用户注意到GPT-3可以写出像样的代码时，GPT-3开始登上新闻头条，声名鹊起。从那时起，代码生成语言模型的能力有了很大的进步。OpenAI的Codex能将自然语言转化为代码，并且许多其他类似的模型也在纷纷效仿。DeepMind的AlphaCode也能以合理的水平解决编程问题。
这些技术进步彼此追赶的速度令人印象深刻，正如Kevin Roose等人所评论的那样：“AI的发展速度如此惊人，怎么强调都不为过。我刚写完一篇关于AI惊人发展速度的文章，市场上就有了一些重大发布，包括OpenAI的Whisper（语音到文字的转录软件）和文字到视频的生成软件。”

1 2 3 4 5 6 ...9 查看全文

AI赋予文字无限力量：“由文本生成一切”的一年(4)

头文字D 第一季

健康又文明的最低限度生活

头文字D

文明的秘密第一季

头文字D续作

幸运数字斯莱文

头文字D 第二季

一切或一无所有：007不为人知的故事