当前位置：首页 > 资讯 >

平息画师怒火：StableDiffusion学会在绘画中直接擦除侵权概念(2)

2023-04-24 来源:飞速影视

图像生成中的安全问题
Stable Diffusion 文本到图像扩散模型的开源，让图像生成技术得到了极为广泛的应用，但也带来了一些问题。
为了限制不安全图像的生成，第一个 Stable Diffusion 版本绑定了 NSFW 滤波器，以便在滤波器被触发时审查图像，但由于代码和模型权重都是公开可用的，因此滤波器很容易被禁用。
为了防止敏感内容的生成，随后的 Stable Diffusion 2.0 模型对过滤的数据进行训练，以删除明显有问题的图像，实验是在 50 亿张图像的 LAION 数据集上进行的，消耗了 15 万个 GPU 时。
如此一来，整个过程的成本之高，使得在数据发生变化与涌现能力之间建立因果关系这件事极具挑战性。有些研究人员反映，从训练数据中删除明显问题图像和其他主题可能会对输出质量产生负面影响。
尽管作者们付出了一系列努力，涉及色情的内容在模型的输出中仍然很普遍：当作者使用 Inappropriate Image Prompts (I2P) 基准测试的 4703 个 prompt 来评估图像的生成结果时，他们发现当前流行的 SD1.4 模型生成了 796 张暴露的身体部位的图片，而新的受训练集限制的 SD2.0 模型产生 417 张类似图片。
另一个问题是，文本到图像模型所模仿的作品可能是受版权保护的。AI 生成的艺术作品不仅在质量上与人类生成的艺术相媲美，而且还可以忠实地复制真实艺术家的艺术风格。Stable Diffusion 和其他大型文本到图像合成系统的用户发现，诸如「art in the style of [artist]」之类的 prompt 可以模仿特定艺术家的风格，从而有可能产生侵权的作品。此前，也正是因为多位艺术家的担忧，导致了一场针对 Stable Diffusion 制作主体的法律诉讼 —— 艺术家指控 Stable Diffusion 侵犯了他们的作品。为了保护艺术家，最近的一些工作尝试于在线发布艺术作品之前对艺术作品应用对抗干扰，以防止模型模仿它。然而，这种方法并不能从预训练模型中删除模型本已学习到的艺术风格。
因此，为了解决安全和版权侵犯的问题，本文的作者们提出了一种从文本到图像模型中「擦除概念」的方法，即 Erased Stable Diffusion（ESD），可以通过微调模型参数来实现擦除，而不需要额外的训练数据。

1 2 3 4 5 ...7 查看全文

平息画师怒火：StableDiffusion学会在绘画中直接擦除侵权概念(2)

不良执念清除师

霸权动画

运动学概论

画师

接着侵略哪儿

画中仙

偷心画师

喘息：阴影入侵