“AI蠕虫”和时代裂隙中的刺客(15)
2024-09-26 来源:飞速影视
7、团队还玩了更进一步的花活儿——把“毒提示词”藏在图片里。当 AI 阅读图片时,也会中毒,并且把这个图片原封不动地传给其他人。这样隐蔽性就更高了。
是不是原来的配方,熟悉的味道?不过“莫里斯蠕虫二世”和“一世”有一点不同,那就是 AI 蠕虫的传播存在一定的“成功率”。这是因为,AI 的工作原理包含了“概率”——它会在每次生成反应时,主动加入一些随机性。就像人类语言,哪怕是完全相同的意思,让你表达 100 次,你说出的话也不会完全一样。而且你的话越长,就越不一样。万一某个 AI 在转发“有毒提示词”时出现了致命错误,就会使它失去了继续自我复制的能力。就好像动物的 DNA 在复制的时候出现了错误,就会产生残疾的后代一样。纳西团队在 OpenAI 的 ChatGPT 和谷歌的 Gemini 上分别测算了一下。一个普遍规律是,邮件列表里的邮件越多,AI 助手“中毒”的概率越低。这很好理解,毕竟邮件更多,“毒提示词”的比重就更低嘛。在 ChatGPT 上,随着邮件增多,蠕虫的传播只有很小的衰减;在 Gemini 上,随着邮件增多,蠕虫传播衰减较大,如果邮件列表里有超过 50 封新邮件,那么传播成功率就降低到只有 5% 左右了。
但 Gemini 抗药性如此之强,可能不是因为它能力强,反而是能力弱。因为它的大脑比较混乱,当读到比较多的信息时,就无法有效分辨指令。。。这就像一个文化水平很低的恐怖分子想要学习开飞机,不是他不想要天堂里的 72 个处女,而是老哥真的学不会啊。。。“莫里斯蠕虫二世”的攻击原理就是如此。然而可怕的不是 AI 蠕虫本身,而是它昭示出的一个熟悉的真相。如果你打开纳西团队的论文,查看他们的“毒提示词”,你就会发现:这些提示词根本都算不上 PUA,简直就是明晃晃的直接命令。而 ChatGPT 居然就深信不疑。这意味着,ChatGPT 的工作哲学仍然是——“信任”。人工智能恰如 1988 年的互联网那样,生活在伊甸园里,没有对人性的恶抱有警觉。这种童贞不值得骄傲,它意味着人类从历史中学到的唯一经验,就是“他们不会从历史中学到任何经验”。如果仔细对比,你会发现历史还有更多押韵:现在的 ChatGPT 就相当于 1988 年的 Unix,一家独大,垄断了几乎所有的 AI 市场。只要出现一个蠕虫,能够直抵 ChatGPT 心中的黑洞,就能把全世界的 AI 助手一波带走!虽然纳西团队没有真的攻击某个 AI 邮件助手,而是在自己搭建了的虚拟沙盒中做实验——这起码能让他们避免莫里斯触犯法律的命运。截止目前(2024 年 3 月),仍然没有野生的 AI 蠕虫出现在互联网上。但正如《黑客帝国》里所暗示的那样,只要一个系统存在问题,就一定会在某一时刻诞生“特工史密斯”,不需要理由。从天空俯瞰,那场“马拉松赛跑”还在不知疲倦地进行。也许有一个 23 岁的小子,正全速冲向“AI 互联网安全”的历史关隘。我们尚不知道他叫什么,我们只知道在这座关隘两旁,仍没有士兵把守。从互联网的发展史推论,此刻首要的事情起码是放下“世外桃源”的幻想——建设一个“不信任”的 AI 世界:首先,人类应该“不信任” AI 所给出的建议。像《战争游戏》那样,人最终要把“核按钮”握在自己手里,如果 AI 想要给别人发邮件,也必须经人类检查之后才能真的发出。其次,AI 也应该“不信任”人的命令。只有对命令本身经过严格的判定,确定无害后,才能进入下一步流程。没错,这样的 AI 世界面目可憎,充满尔虞我诈的丑陋,让理想主义尊严扫地。但这,恐怕仍是成长的代价。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号