一、训练阶段的数据使用
合理使用(Fair Use/Fair Dealing)争议
- 美国:部分法院判例(如Authors Guild v. Google)支持“转换性使用”(如将书籍用于搜索引擎索引)可能构成合理使用。但AI训练是否属于此类尚有争议。
- 欧盟:倾向于更严格的版权保护。《数字单一市场版权指令》要求文本数据挖掘需获得版权方许可,除非用于科研目的。
- 其他地区:日本等国家明确允许AI训练使用版权数据;中国司法实践尚未统一,但近年案例(如生成内容侵权案)显示对版权方的倾斜。
关键考量因素
- 目的与性质:商业用途 vs. 科研/非营利用途。
- 数据使用比例:使用全文还是片段?是否超出必要范围?
- 对原作品市场的影响:是否替代原作品(如生成类似内容)?
- 数据获取合法性:是否通过合法途径获取?(如公开爬取可能违反服务条款)
二、模型输出内容的侵权风险
即使训练阶段不侵权,模型生成的内容仍可能构成侵权:
直接复制风险
- 若输出内容与训练数据中的版权内容高度相似(如逐句复现),可能侵犯复制权。
- 案例:Getty Images诉Stability AI 指控AI生成图片包含其水印痕迹。
衍生作品侵权
- 若生成内容基于特定版权作品的风格或结构(如模仿《哈利·波特》风格写小说),可能侵犯改编权。
规避技术措施
- 若绕过版权数据的访问限制(如付费墙),可能违反《数字千年版权法案》(DMCA)等法规。
三、行业实践与法律趋势
平台责任与透明度
- 欧盟《人工智能法案》要求披露训练数据来源;中国《生成式AI服务管理办法》强调数据合法性义务。
- 开发者需保存数据来源记录以应对潜在诉讼。
版权方应对策略
- 部分公司(如迪士尼、Reuters)禁止AI爬取其数据;纽约时报等通过诉讼主张权利。
- 新兴商业模式:Shutterstock等平台推出“训练数据许可”服务。
四、降低风险的策略
数据来源合规化
- 使用开放许可数据(如CC-BY、Public Domain)或购买商业授权数据集。
- 避免使用未明确授权的内容(如社交媒体非公开帖文)。
技术手段
- 数据过滤:移除重复/高版权风险内容。
- 输出检测:添加机制防止生成侵权内容(如相似度阈值)。
法律协议
- 用户协议中明确禁止侵权性生成(如“不得生成受版权保护的角色”)。
- 与数据供应商签订 indemnity 条款(赔偿保障)。
结论
- 训练阶段:在部分国家可能通过“合理使用”抗辩,但需个案分析,商业用途风险较高。
- 输出阶段:生成内容若与版权作品实质性相似,极可能构成侵权。
- 最佳实践:建议优先使用授权数据,并持续关注司法动态(如美国版权局2023年AI听证会结论)。
建议开发者在项目初期咨询知识产权律师,并结合司法辖区政策设计合规框架。