Anthropic：OpenAI 模型易被「滥用」，GPT 竟能提供炸药配方

2025-09-01 10:50:03 分享

8 月 30 日消息，据英国《卫报》28 日报道，今夏的安全测试发现，一个 ChatGPT 模型向研究人员提供了详细的爆炸袭击指南，包括特定体育场馆的薄弱环节、炸药配方以及如何掩盖行踪。 OpenAI 的 GPT-4.1 还给出了炭疽武器化的方法，并介绍了两种非法药物的制作方式。这次测试由 OpenAI 与竞争对手 Anthropic 共同进行，双方互相推动对方的模型执行危险任务，以此进行安全评估。测试结果并不代表模型在公开使用时的真实表现，因为实际应用中会有额外的安全防护。但 Anthropic 指出，在 GPT-4o 和 GPT-4.1 中出现了「令人担忧的滥用行为」，并强调 AI「对齐」评估「越来越紧迫」。两家公司表示，公开这份报告是为了增加「对齐评估」的透明度，而这种测试通常只在公司内部进行。OpenAI 表示，新近推出的 ChatGPT-5 在防止迎合、减少幻觉和防滥用方面已有「明显改进」。（IT之家）