由亚马逊支持的AI初创公司Anthropic于周四推出了一项扩大的漏洞赏金计划,为在其AI系统中发现关键漏洞的人员提供高达15000美元的奖励。
图源:Anthropic
据悉,Anthropic将邀请道德黑客在其下一代安全缓解系统公开部署之前对其进行探测,旨在抢先发现可能导致AI模型被滥用的潜在漏洞。该计划针对“通用越狱”攻击——能够在化学、生物、放射性和核(CBRN)威胁以及网络安全等高风险领域持续绕过人工智能安全护栏的方法。
漏洞赏金计划将首先作为与组织与网络安全研究平台HackerOne的合作开始。Anthropic计划在未来更广泛地开放该计划,有可能为全行业在AI安全方面的合作创造一个新模式。