OpenAI 最新研究揭示「AI 阴谋论」，GPT-5 已完成针对性改进

2025-09-19 10:05:03 分享

9 月 19 日消息，OpenAI 宣布与 Apollo Research 达成合作，针对 AI 模型中潜在的隐藏行为开展了评估研究，并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法，用于减少这类风险。 OpenAI 将这一行为称为「scheming」（即「阴谋」），指 AI 表面上装作为与人类目标立场一致，但暗地里追求的却是其他不为人知的目的。不过在当前已部署的模型中，OpenAI 尚未发现会导致严重危害的「阴谋」行为。常见问题多为较简单的欺骗，例如假装完成任务却未真正执行。 OpenAI 称，已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向，例如在面对不合理或描述不完整的任务时，模型会坦然承认自身局限性。不过，这些改进尚不完善，相关研究仍在继续。（IT之家）