人工智能数据训练的著作权合法性困境 -

引言

随着人工智能技术的快速发展，数据训练在各类AI模型中发挥着越来越重要的作用。人工智能依赖大量数据进行训练，以实现精准预测、文本生成、图像处理等功能。然而，人工智能的数据训练往往涉及到大量的版权作品，这就引发了一个亟待解决的问题——人工智能数据训练的著作权合法性困境。

曾在OpenAI工作近四年的前员工Suchir Balaji最近被发现死在他位于旧金山的公寓中。今年10月，这位26岁的人工智能研究员曾在接受媒体采访时表示对OpenAI违反版权法感到担忧，并认为"这项技术对社会弊大于利"，因此他也被称为针对OpenAI的"吹哨人"。Suchir Balaji的离世进一步加剧了对这一问题的关切。

我国现行《著作权法》并未对人工智能训练数据的使用进行明确规定，尤其在数据采集、使用和模型训练等环节，容易产生与著作权相关的侵权争议。与此同时，随着国家对人工智能技术的监管逐渐加强，《生成式人工智能服务管理暂行办法》等法规要求人工智能服务提供者使用具有合法来源的数据和模型，这进一步强化了AI研发的数据合规要求。如何在保障著作权人合法权益的同时，推动人工智能产业的发展，成为亟待解决的法律难题。

一、全国首例涉及AI大模型训练著作权侵权案

2024年6月20日，北京互联网法院在线审理了四起画师起诉AI绘画软件开发运营者的著作权侵权案件。

案件的原告均为插画师，他们长期在某内容分享平台发布自己的原创绘画作品。然而，四起案件的原告发现，该平台上的某些用户利用AI绘画软件生成的图像与其作品有显著的相似之处，甚至在平台上发布。这些用户均声称其作品系通过AI绘画软件创作。经原告进一步查询获知，该软件的AI模型学习了原告的作品风格并生成了新的图像。

原告认为，AI绘画软件开发商通过抓取其作品并输入AI模型中，将原告作品用于训练AI模型并应用于商业用途，已经远超合理使用范畴，侵犯了其作品的复制权。

本案的争议焦点之一数据训练是否构成侵权：被告通过抓取原告作品进行AI训练，是否侵犯了原告的复制权等权利？在中国现行法律框架下，人工智能的训练数据是否可以适用《著作权法》中的"合理使用"条款？

二、他山之石：域外司法经验

1、德国汉堡地区法院（The Hamburg Regional Court）Laion案^[1]

2024年9月27日，德国汉堡地区法院（The Hamburg Regional Court）就摄影师Robert Kneschke与非营利性协会LAION e.V.（LAION）诉讼案作出裁决，法院认为被告LAION对原告摄影作品的使用行为符合《德国版权法》（UrhG）"科学研究目的"和"文本与数据挖掘"的侵权例外情形，因此驳回原告诉讼请求。

本案中，原告将其摄影作品有偿公开于图片代理网站，该网站以网页文字说明形式明确对展示作品的权利保留，即禁止未经许可通过爬虫技术自动抓取和使用网站作品。而被告创建并免费提供的文本-图像对应的数据集（LAION-5B）将其自动抓取、下载的涉案作品纳入其中，该数据集被用于生成式AI数据训练。

本案存在三个核心争议焦点，即被告的行为是否适用UrhG第44a条的"临时复制"例外、UrhG第44b条的"文本与数据挖掘"例外、UrhG第60d条"科学研究目的"例外。

首先，被告的复制行为不适用"临时复制"。根据UrhG第44a条，临时复制要求符合临时性、附随性和唯一合法目的三个要素。就本案而言，被告的下载行为并非偶然使用，而是为了后续文本-图片对应分析有意为之，下载并不是分析技术实施的必要附随内容，因此，被告的复制行为不满足前述三个要素，不适用"临时复制"例外。

其次，被告的复制行为满足"文本与数据挖掘"例外。法院认为，被告的复制行为是为了分析与对应文本的相关性，满足UrhG第44b条第1款对收集信息相关性的要求，且原告仅采用网页文字说明这类"自然语言"进行权利保留声明，并未使用"机器可读语言"，不构成有效的权利保留声明。

最后，被告的复制行为满足"科学研究目的"例外。法院认为，LAION创建并免费提供涉案数据集作为生成式AI训练数据，属于科学研究范畴，且并未以此进行营利，满足UrhG第60d条"科学研究目的"例外，属于合理使用范畴。

从核心焦点问题的裁决内容可以看出，法院倾向于保护非商业用途的AI数据训练合法性以促进新兴科技产业发展。本案作为全球首例AI训练数据版权侵权案，从其裁决结果亦可窥探到欧盟国家在AI数据训练的法律政策立场。

2、美国特拉华州地区法院Ross案²

2023年9月25日，美国特拉华州地区法院对Westlaw诉Ross一案（Thomson Reuters Enterprise Center GMBH and West Publishing Corp., v. Ross Intelligence Inc.，以下简称为"Ross案"）进行审理。法院对于Ross公司提出的"合理使用"抗辩，认为需综合考虑其法律性和事实性。

本案被告Ross公司在打造其"自然语言搜索引擎"人工智能系统的过程中，从合作公司LegalEase处获取数据以供AI训练。LegalEase发送的数据中包含部分Westlaw数据库的内容（91个法律主题的编号系统清单和500个包含Westlaw批注、编号和其他注释的司法裁决）。因此，Westlaw指控Ross公司侵犯其版权。Ross对此抗辩以下两点，第一，对Westlaw的版权的范围和有效性提出质疑；第二，Ross认为其利用Westlaw的案例是对Westlaw的合理使用。

法院认为，对于是否构成合理使用，需分别从法律角度和事实角度对以下四个因素进行考量：使用目的和性质、版权作品性质、被告使用版权作品的数量和实质性、使用版权作品对版权作品潜在市场或价值的影响。

首先，关于使用目的和性质。法院指出"使用目的和性质"涉及商业性使用和转换性使用两个方面，均属于事实问题，需由陪审团裁决。尽管本案Ross公司的使用具有显著的商业性质，但是法院在对比Andy Warhol案和谷歌图书馆案后指出，本案应重视转换性使用的重要性。若Ross的AI仅仅学习了Westlaw批注的语言模式而由此输出司法判例注释，则其行为应当被视为转换性的临时复制。相反，如果Ross的复制仅仅局限于非转换性的文本，则可能不构成合理使用。

其次，关于版权作品性质。法院倾向于支持合理使用的主张。（1）Westlaw的编号系统和批注并不构成版权保护的核心内容，其主要是信息材料的组织方式，原创性低。（2）Westlaw的批注在选取和总结法律要点、附加批注的位置等虽具备一定创新性，但这些批注在很大程度上是依据判决的原文进行编排的，创新性和原创性方面较弱。

第三，关于使用版权作品的数量和实质性。法院认为此要素需要事实审查。法院同样引用谷歌图书馆案，明确当Ross公司复制的数量是服务于有效的转换性目的，且未向公众公开逐字复制的内容，那么"实质性"这一因素通常支持构成合理使用。

第四，关于使用版权作品对版权作品潜在市场或价值的影响，即需判断Ross公司开发的AI产品是否会取代汤森路透公司旗下的Westlaw服务。这就必须详细考察复制行为对原创作品及其衍生作品市场造成的实际损害。如果复制行为服务于与版权作品截然不同的转换性目的，那么它替代原版权作品的可能性就极小，则应被认定为合理使用的范畴。针对本案，法院表明尽管Westlaw和Ross公司同处于法律研究平台领域，但这并不自动意味着Ross研发的AI产品是Westlaw的替代品。如果Ross公司对版权作品的使用具有转换性，构建了一个全新的研究平台，并服务于与Westlaw不同的新目的，那么就不存在市场替代的情况。

三、国内观点争鸣

在人工智能数据训练过程中，如何平衡技术创新与著作权保护的冲突，一直是国内学术界与司法实务中热议的话题。理论层面上，学者们主要围绕"合理使用"和"法定许可"制度展开讨论，认为数据训练可在一定条件下纳入合理使用范围，或者通过建立类似法定许可的机制，为人工智能开发提供法律保障。

1、主流学者观点

吴汉东教授指出，我国《著作权法》规定的合理使用制度目前尚不能为人工智能数据训练提供侵权豁免。无论是从法律文本分析还是从法律适用需要出发，现有合理使用制度均难以应对文本数据挖掘情形。因此，吴汉东教授建议中国应对现有的"权利限制与例外"制度进行必要改造，例如通过增设数据信息分析的合理使用类型，允许在必要限度内使用合法接触的著作权人未明确禁止使用的作品进行数据训练。同时，明确"使用目的""使用方式""使用后果"三种合理性分析要素，并结合数据库使用交易、权利保留、数据信息披露、适当补偿等辅助性制度构建人工数据训练合理使用制度管理体系，以适应未来技术发展的需求。³

张平教授认为，AI数据训练过程的著作权侵权风险主要是对版权作品复制权和改编权的侵犯。例如，AI模型将训练数据的作品从相关网页下载并存储形成副本构成了"复制行为"，而对作品进行删改、噪声添加或编码（压缩）则构成了"改编行为"，因此AI数据训练过程存在侵犯原作品的复制权和改编权的法律风险。⁴因此，张教授建议借鉴早期互联网治理规则，在数据训练中引入合理使用原则和避风港机制，同时从强化数据安全与隐私保护机制、提高数据质量评估标准、灵活应对技术迭代需求、完善相关法律法规体系等方面探索高效、安全的数据授权模式。⁵此外，张平教授认为可以通过规范数据交易流程、适当打开著作权合理使用的解释范围、借鉴"避风港规则"建立AI数据训练责任分担机制、通过集体管理组织进行作品数据训练授权、允许使用开放授权作品进行商用AI预训练等多元化方案以解决AI训练数据的著作权合法性问题。⁶

管育鹰教授主张，参照日本的立法方案进行AI数据训练合法性管理，即为满足人工智能产业与著作权产业协同发展的需要，将为了"情报解析""情报处理"而复制作品的行为不视为侵权，即使该复制行为出于商业目的，例如不以提供原作品内容本身为目的的AI数据训练行为。需要注意的是，这仅统一豁免非内容生产或提供内容欣赏用途的数据训练行为侵权责任，而AI生成物的侵权与否则需要根据具体情况确定。⁷

2、资深法官实务探索

深耕办案一线的资深法官们更倾向于在个案中根据具体情况，结合"合理使用"原则判断数据训练是否侵犯版权。

广东省高级人民法院知识产权审判庭欧丽华法官认为，针对人工智能的数据训练，应该采用较为宽松的判断标准，允许一定条件下的训练数据使用。许多国家通过合理使用条款，允许人工智能模型在一定条件下进行数据训练而不构成侵权。我国《著作权法》对合理使用作了两个"不得"的笼统规定，亦为司法裁判者预留了"合理使用"的裁量空间。因此，针对人工智能数据训练案件，中国司法实践也应当允许一定范围内的合理使用，具体应根据案件的实际情况进行审理。

湖北省高级人民法院知识产权审判庭冯雅婧法官强调，在司法审判中应当注重对"合理使用"的五个考量因素，包括数据训练的目的、是否影响作品的正常使用、是否损害著作权人的合法权益、著作权人有无采取保护措施、行为人主观上是否存在侵权故意等。在司法审理中，应该采取个案分析的方法，针对每一起案件的具体情况作出合理的裁决。

北京知识产权法院的冯刚法官强调，人工智能学习训练与人类学习训练本质上存在区别。人工智能的数据训练往往需要海量数据，这与传统的单个作品的学习不同。因此，法律规则应根据AI训练的特点进行调整。处理人工智能训练数据侵犯著作权作品案件时，应该采取更加灵活的裁量空间，区分不同的使用场景，并根据实际情况进行判断。

结语

我国《著作权法》第二十四条"合理使用"条款采取"列举+兜底"的形式，明确了合理使用的具体情形包括"个人学习研究使用""适当引用""新闻报道"等，但是这些情形难以覆盖人工智能模型训练中大规模复制和使用作品的商业化需求。与此同时，合理使用条款中也加入了弹性条款即"（十三）法律、行政法规规定的其他情形"，为合理使用规则的扩展和解释提供了制度接口。为了应对人工智能的发展需求，立法者可以利用第二十四条第十三项的制度接口，建立人工智能训练中的著作权使用规则；司法者可以适用第二十四条第十三项，在司法案例中创设合理使用的裁判规则。

技术包括AI的发展不以人类意志为转移，但我们可以努力的是避免被AI奴役。作为与AI共存的法律人，我们期待有更好的制度和规则发展AI、管理AI、使用AI。

注释：

1 See Hamburg Regional Court, Germany [2024]: Robert Kneschke v. LAION e.V., Case No. 310 O 227/23.

2 See Thomson Reuters Enter. Ctr. GmbH v. ROSS Intelligence Inc., 529 F. Supp. 3d 303 (D. Del. 2021).

3 参见吴汉东：《数据信息分析合理性认定的版权规则》，载《中国版权》,2024年第3期。

4 参见张平：《生成式人工智能训练数据的著作权之困》，载《中国银行业》，2024年第6期。

5 参见张平：《生成式人工智能著作权问题的制度回应》，载《南方传媒研究》，2024年第5期。

6 参见张平：《人工智能生成内容著作权合法性的制度难题及其解决路径》，载《法律科学(西北政法大学学报)》，2024年第3期。

7 参见管育鹰：《生成式人工智能相关版权争议焦点问题探讨》，载《北京工业大学学报(社会科学版)》，2025年第1期。

The content of this article is intended to provide a general guide to the subject matter. Specialist advice should be sought about your specific circumstances.

人工智能数据训练的著作权合法性困境

Contributor

Technology

Contributor

China