编译/前方智能
据 Proof News 与 Wired 联合发布的一项调查报告显示,包括苹果、Anthropic、英伟达和Salesforce 在内的多家科技巨头,在未经授权的情况下使用了来自 YouTube 的大量视频字幕数据来训练其 AI 系统。
图源:The Verge
这个名为 "YouTube Subtitles" 的数据集包含了来自 4.8 万多个 YouTube 频道的 17.4 万个视频的字幕内容。该数据集是由非营利 AI 组织 EleutherAI 创建的更大规模数据集 "The Pile" 的一部分。
调查发现,这些被用于 AI 训练的视频内容涵盖了多个知名 YouTuber 的作品,包括 MrBeast、Marques Brownlee 和 PewDiePie 等。此外,还包括了 ABC News、BBC 和纽约时报等新闻媒体的视频内容。
多位内容创作者对此表示不满,流媒体服务 Nebula 的 CEO David Wiskus 更直接地将其称为"盗窃"。YouTube CEO Neal Mohan 此前曾表示,使用视频内容(包括字幕)来训练 AI,违反了 YouTube 平台的服务条款。
Proof News 还发布了一个交互式查询工具,允许用户搜索自己或喜欢的 YouTuber 的内容是否出现在该数据集中。
这一事件凸显了 AI 发展与内容创作者权益保护之间的潜在冲突,以及科技公司在使用公开数据时所面临的伦理挑战。
来源:The Verge