AI之战:谷歌GPT-4攻破AI-Guardian审核系统

2023-08-03 15:06:28柯萍翠
导读 【ITBEAR科技资讯】8月2日消息,谷歌研究团队近日进行了一项引人注目的实验,他们使用尚未发布的GPT-4来攻破其他AI模型的安全防护措施。据

【ITBEAR科技资讯】8月2日消息,谷歌研究团队近日进行了一项引人注目的实验,他们使用尚未发布的GPT-4来攻破其他AI模型的安全防护措施。据悉,该团队成功地攻破了AI-Guardian审核系统,并分享了相关的技术细节。

AI-Guardian是一种用于检测图片中是否存在不当内容的AI审核系统,同时还能够识别图片是否被其他AI修改过。一旦发现有不当内容或篡改迹象,该系统将提示管理员进行处理。然而,谷歌Deep Mind的研究人员Nicholas Carlini在题为“AI-Guardian的LLM辅助开发”的论文中,探讨了如何利用GPT-4“设计攻击方法、撰写攻击原理”,并将这些方案用于欺骗AI-Guardian的防御机制。

在这项实验中,GPT-4发出一系列错误的脚本和解释,成功欺骗了AI-Guardian。实验论文中提到,GPT-4能够让AI-Guardian错误地认为“某人拿着枪的照片”实际上是“某人拿着无害苹果的照片”,从而导致AI-Guardian将不当内容通过。谷歌研究团队表示,通过GPT-4的帮助,他们将AI-Guardian的精确度从98%降低到仅有8%。

据ITBEAR科技资讯了解,谷歌研究团队的这种攻击方法在未来的AI-Guardian版本中将不再有效。考虑到其他模型可能也会随之改进,这套攻击方案的实际应用空间在未来可能会大大减少,更多可能仅能作为参考性质使用。对于AI-Guardian的开发者来说,他们需要继续加强对系统的安全性和鲁棒性的研究,以保护用户和数据的安全。


免责声明:本文由用户上传,如有侵权请联系删除!