迪士尼、漫威“开炮”,谁在定义AI的数据底线?

2025-07-03 11:46:00

文|数据猿

近期,包括迪士尼企业、漫威角色、卢卡斯影业、20世纪福克斯电影公司(统称“迪士尼”)以及环球影城制片公司和梦工厂动画(统称“环球影业”)在内的多家好莱坞主要电影公司,在洛杉矶联邦法院对人工智能公司Midjourney提起全面诉讼 。

原告方主张,Midjourney在未经授权的情况下支持用户生成包括小黄人、《冰雪奇缘》《怪物史莱克》等几乎所有旗下动画电影中的人物形象,是典型的“搭便车和无底线的剽窃行为” 。

类似的诉讼官司,这几年越来越多。Midjourney的友商Stability AI也被美国图片交易公司Getty Images起诉过,对方称Stable Diffusion 使用从互联网上获取的视觉资产进行训练,其中包括来自Getty Images以及可公开访问的第三方网站的约1230万个视觉资产等。

随着AI的发展,数据资产的版权问题与现有法律之间的矛盾进一步升级,由迪士尼等巨头企业发起的诉讼,不仅关系着巨额赔偿,也关系着更长远的未来,这些虚拟财富如何分配。

版权持有方集体告AI

持有版权的大企业,把AI公司告上法庭似乎成了常态 。

2023年12月27日,《纽约时报》就曾在美国纽约南区联邦地区法院对微软和OpenAI提起诉讼,指控两家公司未经其同意,使用“数百万”受版权保护的文章训练其AI模型 。彼时,《纽约时报》指出AI模型正在为其新闻内容构建“市场替代品”,通过分流付费用户和影响广告收入造成重大经济损害 。

半年后,环球音乐集团(UMG Recordings)起诉Suno和Uncharted Labs(Udio),指控这两家生成式AI音乐服务公司大规模侵犯版权 。环球音乐集团声称,Suno和Udio未经许可,非法复制其数字录音用于训练AI系统,并能根据用户提示生成与受版权保护录音高度相似的音乐文件 。

时间来到今年,除了引发热议的迪士尼起诉Midjourney,同一时期还有另一个有趣的官司,在线论坛和链接分享平台Reddit起诉了初创公司Anthropic 。在提交给法院的文件中,Reddit称Anthropic是“一家大器晚成的AI公司,自诩为AI行业的白骑士” 。随后话锋一转,说“该案体现出了Anthropic的两面性:在公开场合,通过自称正义且尊重界限和法律,他们试图讨好消费者;然而在私底下,他们无视任何规则,只想进一步中饱私囊” 。

按Reddit的主张,Anthropic未经许可使用平台内容来训练AI模型,在明知爬虫机器人被禁止访问的情况下,Anthropic自2024年7月以来对Reddit平台发起了超过10万次访问 。值得注意的是,2024年8月,Reddit的CEO Steve Huffman曾在采访时点名必应、Anthropic和Perplexity未经许可抓取Reddit数据,并呼吁对方付费 。

态度上看,Reddit并不反对AI,还对外表示过“我们相信,我们不断增长的平台数据将成为领先大型语言模型训练的关键要素,并成为Reddit的额外盈利渠道” 。Anthropic创始人Daniela Amodei的老东家OpenAI,就是Reddit的“付费”用户——2024年5月16日,Reddit宣布与OpenAI达成合作,允许OpenAI利用Reddit的用户生成内容进行模型训练 。

据当时Reddit招股说明书的数据,通过与AI公司签订数据授权协议,他们已经实现2.03亿美元的收入,预计该数字会随着时间的推移而增加 。

对于这些持有版权、原始内容的企业们来说,拥抱AI的浪潮是必然,关键在于,是被单方面“白嫖”,还是一手交钱一手交货。

“合理使用”还是“市场说了算”?

Anthropic不是第一次惹上官司 。

2023年10月18日,环球音乐集团和其他出版商起诉Anthropic,称其滥用“无数”受版权保护的歌词来训练模型 。这个案子一直拉锯到2025年1月4日,双方对部分版权侵权诉讼达成和解,Anthropic承诺实施“防护措施”,以防止其AI聊天机器人Claude在输出中复制受版权保护的歌词,也就是所谓的“护栏协议” 。

在给《好莱坞报道》的一份声明中,Anthropic表示,“我们将继续努力,证明在现有版权法的框架下,在生成式AI模型的训练中使用可能受版权保护的素材,是典型的合理使用” ——在美国的这些版权官司里,“合理使用”(Fair Use)原则已成为AI开发者最主要的抗辩理由,也是决定AI训练合法性的关键战场 。

AI开发者通常辩称,他们复制受版权保护作品是为了训练模型,这是一种“转换性”使用,类似于人类学习或搜索引擎索引,且其AI输出创造了全新的内容,不直接竞争原始作品。

然而,美国版权局(USCO)在其2025年5月发布的《版权与人工智能报告》第三部分预发布版本中明确指出,AI训练与人类学习的类比是“错误的”,因为合理使用并非所有学习行为的普遍辩护,且AI能够创建“完美副本”,而人类保留的只是不完美的印象 。美国司法界对此的保守倾向,从判例上可见端倪 。

2024年2月,美国特拉华州联邦地区法院在Thomson Reuters Enterprise Centre GMBH v. Ross Intelligence Inc.案中做出了对版权所有者有利的裁决,认定竞争对手未经授权使用受版权保护的“头注”(headnotes)来训练其AI系统不构成合理使用 。

虽然该案主审法Stephanos Bibas明确指出,他的分析仅限于所涉的“非生成式AI”模型,但此案依然被视为AI版权领域的一个重要判例,因为它强调了“对市场的影响”是合理使用分析中最重要的因素 。

简单来说,如果AI生成的内容损害了这些类型作品的市场,即使没有证据表明对特定原始作品的市场造成直接损失,也可能被认定为侵权。毕竟,消费者不在乎你的内容怎么来的,他们只关心东西好不好。

数字资产也是资产

人类创作的内容产品受版权保护,那么人类用AI生产的呢?

这个问题,在大洋彼岸的美国,答案有些保守——在美国版权局看来,美国的版权保护仅适用于体现有意义人类作者身份的作品,因此,完全由AI生成、缺乏足够人类创作投入的内容无法获得版权保护 。

类似的司法先例不少,例如知名的Naruto v. Slater案:2011年,自然摄影师David Slater到印度尼西亚去拍摄黑猴,一只母黑猴Naruto靠近并按下遥控快门,斯莱特随后发布了这些照片,称为“猴子自拍照”,并收到动物保护团体善待动物组织的起诉书 。

善待动物组织认为这张照片的版权应该归Naruto本猴,Slater无权持有并使用,然而美国版权局不这么认为,2014年12月,美国版权局声明非人类所创作的作品不是美国著作权的主体,2016年,美国联邦法官决定猴子无法自行持有这些图像的著作权 。

同样的逻辑,也被延续到人类和AI之间 。2018年,美国计算机科学家Stephen Thaler向美国版权局提交了几份专利申请,包括一张名叫“天堂入口”的AI生成图片,美国版权局驳回了他的申请,Thaler因此提起诉讼 。

在这个案子中,美国哥伦比亚特区巡回上诉法院强调人类作者身份是版权注册的“基石要求”,裁定AI系统不能被视为作品的作者 。美国版权局则对纯AI生成作品和“AI辅助作品”进行了关键区分:如果人类对AI生成内容进行有意义的编辑、完善、选择、排列或整合,使其体现出实质性的人类创造力和原创表达,则AI辅助作品可能获得版权保护 。

数字经济时代,版权是连接传统知识产权与新兴数字资产的关键纽带。 许多核心的数字资产,如数字内容(图像、文本、音视频)、代码、数据集等,其价值的源泉往往在于其受版权法保护的原创性,没有版权,不仅代表着没有拥有权、使用权,更没有商业利用权。

比起美国,我国在AI生成内容的版权归属上采取了更为宽松的立场 。2025年3月,常熟人民法院裁定AI生成图像具有版权 。在该案中,林某使用Midjourney生成了一张城市水岸半心形图像,并用Photoshop进行编辑 。

法院认为,林某对提示词的修改以及通过图像处理软件对图片的修改,反映了其独特的选择和安排,因此生成的图像具有原创性,属于《著作权法》保护的作品。换句话说,作者持有这些图片的版权,还能用这版权赚钱。

看,数字资产也是资产。

新时代的船票

传统的数据持有方,与AI企业没必要对立,在数字资产的使用上,双方是天然的合作伙伴——数据是AI进步的“燃料”,AI是数据变现的渠道。

根据IDC的预测,全球数据将从2023年的120ZB增长到2027年的291ZB,其中企业数据占比将越来越高,这预示着数据作为核心资产的巨大潜力。聪明如Reddit,早早找好了拥抱新时代的姿势,而强硬如叫喊着封杀OpenAI的《纽约时报》,至今还站在法院外等着一个结果。

数字经济时代,数据已经超越传统生产要素的范畴,成为一种全新的关键生产要素:AI模型的训练和优化高度依赖于数据的质量和数量,数据不再仅仅是记录信息的载体,而是驱动AI产生智能、实现决策的关键“血液”,数据的多样性、丰富性和实时性直接决定了AI模型的性能和泛化能力。

另外一方面,数据成了企业新的核心竞争力。拥有独特、高质量的数据集意味着在AI应用和商业模式创新上具备先发优势,换句话说,数据不再仅仅是辅助决策的工具,而是企业构建自身壁垒、实现可持续发展的战略资产。

AI巨大的需求摆在面前,企业们没有理由拒绝这个蓬勃的市场。实际上,随着数据要素的流通和共享,已经诞生了数据服务商、数据信托、数据交易平台等新业态。企业可以通过数据授权、数据共享等方式,创造新的收入来源和商业模式,数据要素的价值不再局限于其原始用途,而是可以通过与其他数据融合、通过AI分析产生更高价值。

说到底,版权持有方与AI企业之间的冲突,表面上是版权之争,实际上是对数据作为核心数字资产如何进行价值分配和商业利用的探索。打官司的过程,就是围绕利益分配的博弈。

以Reddit为代表的版权持有方们和AI企业达成和解以及合作,无疑透露出版权的边界正在扩展的现状,它不仅关乎内容的复制和传播权,更延伸至内容所承载的数据价值,以及这些数据在AI生态系统中的再利用和再创造。

对于内容创作者和数据持有者而言,如何从被“白嫖”的客体转变为参与生产的主角,通过数据授权、利益分成等模式,将自身独特的版权内容转化为有价值的数据资产,决定着他们能否在新一轮数字变革中抢占先机,共享AI发展带来的红利。

这方面,国内早就有了配套的政策摸索。2023年,财政部发布《企业数据资源相关会计处理暂行规定》,明确企业数据资源的会计处理方法,鼓励企业对数据资源进行管理和披露,数据入表不仅能提高企业对数据资源的重视,也会促进数据要素的流通和交易。

至于手握着数据这张船票的企业们,能否登上AI这艘驶向新时代的巨轮,不仅要看历史的进程,也得靠企业们自己努力。