AI赋予文字无限力量:“由文本生成一切”的一年(4)
2023-05-02 来源:飞速影视
故事并没有到此结束。Midjourney是一个用于图像生成的商业扩散模型,由同名实验室发布。稳定扩散(Stable Diffusion)模型借鉴了对潜在扩散模型的新研究,可以用有限的计算资源进行训练,因为Stability AI公司选择公开该模型及其权重,Stable Diffusion的发布受到了万众瞩目。
神经网络架构的创新并不是促成以上改进的唯一原因。雅虎在2015年发布了Yahoo Flickr Creative Commons 100 Million Dataset(YFCC100M),在当时是有史以来最大的公共多媒体数据集合。最近,Large-scale Artificial Intelligence Open Network(LAION)发布的数据集更在规模上令YFCC100M黯然失色。2021年发布的LAION-400M包含4亿个图像-文本对,然后是2022年发布的LAION-5B包含50亿个图像-文本对。
值得注意的是,虽然这些数据集能够大规模地训练图像-文本模型,但它们并非没有问题。The Decoder的报告曾发现LAION的数据集包含未经同意发布的病人图像,研究人员也评论说,该数据集的质量并不纯正。如此庞大的数据集必然会有其他的伦理问题出现,OpenReview上的作者和审稿人似乎就这些问题进行了颇有见地的意见交流。
从文本到一切!
如果人工智能模型可以将文本转换为图像,那么它们可以将文本转换为视频吗?当然可以!10月份,一批从文本到视频的生成软件面市。Meta公司的Make-a-Video可以根据文本和静止图像生成视频,而谷歌大脑的Phenaki可以根据一系列构成故事的提示词生成一个连续视频。
也许更有用,或者说更令人担忧的是,这些生成模型也能胜任代码的编写。当用户注意到GPT-3可以写出像样的代码时,GPT-3开始登上新闻头条,声名鹊起。从那时起,代码生成语言模型的能力有了很大的进步。OpenAI的Codex能将自然语言转化为代码,并且许多其他类似的模型也在纷纷效仿。DeepMind的AlphaCode也能以合理的水平解决编程问题。
这些技术进步彼此追赶的速度令人印象深刻,正如Kevin Roose等人所评论的那样:“AI的发展速度如此惊人,怎么强调都不为过。我刚写完一篇关于AI惊人发展速度的文章,市场上就有了一些重大发布,包括OpenAI的Whisper(语音到文字的转录软件)和文字到视频的生成软件。”
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号