OpenAI 最新研究揭示「AI 阴谋论」,GPT-5 已完成针对性改进
2025-09-19 10:05:03
9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。 OpenAI 将这一行为称为「scheming」(即「阴谋」),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。 不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的「阴谋」行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。 OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究仍在继续。(IT之家)