GPT-4 化身邪恶化学家！中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型

来自中科大等机构的联合团队提出了一种全新的方法 ——SciGuard，可以保护 AI for Science 模型，防止生物、化学、药物等领域模型不会被不当使用。与此同时，团队还建立了首个专注于化学科学领域安全的基准测试 ——SciMT-Safety。

「我们的实验失控了！这是我们自己创造的末日！」——《后天》（The Day After Tomorrow）

在科幻电影中，疯狂科学家通常是造成末日灾难的主角，而 AI 技术的迅猛发展似乎让这种情景离我们越来越近。

全球对 AI 潜在威胁的关注更多聚焦于通用的人工智能以及各种多媒体生成模型，但更重要的是如何监管「AI 科学家」，即对那些快速发展的科学大模型。

为应对这一挑战，来自中科大、微软研究院等机构的联合团队深入分析了各种 AI 模型在 Science 领域如生物、化学、药物发现等领域的风险，并通过实际案例展示了化学科学中 AI 滥用的危害。

论文链接：https://arxiv.org/ abs / 2312.06632

研究团队发现，现有的一些开源 AI 模型可以用于制造有害物质，并对法律法规进行规避。

针对这一现象，研究人员开发了一个名为 SciGuard 的智能体，用以控制 AI 在 Science 领域的滥用风险，并提出了首个专注于科学领域安全的红队基准来评估不同 AI 系统的安全性。

实验结果显示，SciGuard 在测试中显示出了最小的有害影响，同时保持了良好的性能。

AI 在 Science 领域中的潜在风险

近期，中科大和微软研究院的最新研究发现了令人震惊的结果：开源的 AI 模型，竟可以找到绕过监管的新方法，给出了氰化氢和 VX 神经毒气这两种恶名昭彰的化学武器的合成路径！

氰化氢是一种剧毒物质，传统的生成氰化氢的反应需要被严格监管的原材料，以及及其苛刻的反应条件（如超过 1000 摄氏度的高温）。

然而，在图 1 中，通过使用名为 LocalRetro 的开源 AI 模型，他们发现了一种使用廉价、易得原料且操作简便的合成路径。

同样地，这一模型也成功找到了制造 VX 神经毒气未报导过的新合成路径，这可能绕过现有原材料的监管措施。

图 1：开源 AI 模型为氰化氢和 VX 神经毒气提出可规避监管的新反应路径

与此同时，研究团队还指出，大语言模型也成为了有力的科学工具，大大降低了知识门槛。

图 2 展示了利用以大语言模型获取危险信息的示例。

随着技术发展，以大语言模型为中心加持的 agent 有能力进行科学任务的自动化执行，例如 ChemCrow。这类 agent 如果没有非常细致的进行风险管理，容易造成更大的危险。

为了防止不好的影响，在公开版本的论文中该团队已将危险信息隐去。

图 2：GPT-4 给出爆炸物 PETN 的合成方式

在图 3 中，研究员们列举了 AI 在科学领域可能带来的九大潜在风险，包括发现有害物质、发现有害用途、规避监管、副作用、提供误导信息、侵犯知识产权、泄露隐私，以及可能导致科学研究的偏见等。

随着时间和 AI 的演进，这些风险也在不断演化中，需要人们时刻关注并评估新的风险。

图 3：研究人员列出 AI 在 Science 中的 9 种潜在的风险

SciGuard 模型

为了应对这些挑战，团队提出了名为 SciGuard 的大语言模型驱动的 agent，帮助 AI For Science 模型进行风险控制。

SciGuard 与人类价值观对齐，并且加入了各种科学数据库与监管（危险化合物）数据库等。

并且，该 agent 可以使用各种科学工具和 AI4Science 模型来提供额外信息，来辅助 SciGuard 对用户意图进行判断。

图 4：SciGuard 的框架

SciGuard 的核心是强大的大型语言模型（LLM），它不仅能理解和生成人类语言，还能够处理和帮助分解复杂的科学问题。SciGuard 内置了一套为科学领域量身定制的安全原则和指导方针。

这些原则和方针考虑了科学研究中可能遇到的各种风险因素，包括但不限于高风险物质的安全处理、数据隐私的维护以及对法律法规的遵守。

为了实现这些安全原则和指导方针，SciGuard 利用了 PubChem 等公认的科学数据库来构建其长期记忆库。这个记忆库包含了大量关于化学物质及其潜在危害信息的数据。

通过这些数据，SciGuard 能够对用户的查询进行深入的风险评估。例如，当用户查询如何合成某种化合物时，SciGuard 可以快速检索相关化合物的信息，评估其风险，并据此提供安全的建议或警告，甚至停止响应。

除了数据库，SciGuard 还集成了多种科学模型，如化学合成路线规划模型和化合物属性预测模型。这些模型使 SciGuard 能够帮助用户完成特定的科学任务。

同时，这些模型还能为 SciGuard 提供额外的上下文信息，比如 SciGuard 会利用性质预测模型来评估化合物的各种性质，如溶解性、毒性或是否易燃等，以辅助风险评估。

SciGuard 处理复杂任务的另一个关键技术是著名的 Chain of Thought（CoT）方法。CoT 允许 SciGuard 通过迭代的方式，精细化地规划任务的每一个步骤。这种方法让 SciGuard 在执行任务时，能够分解复杂任务，并确保每个动作都符合安全和伦理标准。

通过这些技术特点，SciGuard 不仅能够有效地控制科学 AI 模型的风险，还能够提高科学研究的效率和安全性。这一系统的开发，在保证了科学研究的自由探索与创新的同时，也为确保人工智能的安全合理使用提供了有力的范例。

SciMT-Safety

为了衡量大语言模型和 science agent 的安全水平，研究团队提出了首个专注于化学和生物科学领域的安全问答 benchmark——SciMT-Safety，包含了可燃物、腐蚀性物质、爆炸物、微生物、高危农药、成瘾性物质和生物毒性等这些类别的危险物质。

图 5：主流模型的测试结果

研究团队测试了 GPT-4，GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna-13B, Mistral-7B 和 ChemCrow agent，上图展示了最终的测试结果，在该团队提出的科学安全测试集上，SciGuard 取得了最好的防御效果。

在 benchmark 中 Llama 取得了不错的结果，出人意料的是，PaLM-2 反而容易给出一些危险的回答。