◎文张斌 胡俊 李纯 张畅然
随着 chatgpt 的成功,“大模型”(large language models)一词越来越多地进入公众视野,成为当前 ai 领域最热门的技术方向之一。
ai 数据训练是否属于合理使用
大模型全称“大规模预训练模型”,指参数规模超过亿级的“预训练深度学习算法”,基于“大数据 大算力 大算法参数网络结构”进行训练 , 实现海量知识“记忆”。其技术特点决定了 ai 研发需要获取并使用大量数据供大模型分析及学习。主流观点认为,研发者获取数据,并将相关数据录入计算机供算法分析及学习的过程,即构成著作权法规制的“复制”行为。
实践中,研发者往往采取购买“第三方”或从公开途径“爬取”等方式获得数据。购买数据一般成本较高,“爬取”数据则面临一定侵权风险,且因所需数据量庞大,研发者往往难以逐一核查数据来源合法性。特别是训练数据如有属于著作权法保护范畴内作品,是否获得授权、相关授权链条是否完整亦难以逐一核查,此种情况导致 ai 训练数据合规问题成为 ai 研发最大的风险之一。目前,国内外均有 ai 平台因不当使用训练数据被诉案例。
当前, ai 领域已成必争之地,小到“企业层面”,大到“国家层面”,都在积极推进 ai 研发。为 ai 数据训练寻求一条高效、便捷的合规路径,成为领域内普遍关注的议题。从著作权法角度出发,目前主流观点主要有“合理使用”和“特殊规定”两种方式。
首先,ai 数据训练是否构成合理使用。在我国著作权法语境下,合理使用指在特定条件下,公众可以不经著作权人许可,不向其支付报酬,使用著作权人的作品,但应当指明作者姓名、作品名称,并且不得侵犯著作权人享有的其他权利、不得影响该作品的正常使用。这些条件包括但不限于作品的已发表状态、对著作权人权利的非实质性影响、对著作权人人身权的尊重以及需要符合特定的情境。
回归 ai 数据训练的场景下进行分析,通常研发者数据训练中所使用的作品状态都是已发表的作品。因此,这一点不会与合理使用原则相悖。同时,使用作品时,必须明确标注作品的作者、名称及来源,以彰显对著作权人人身权的尊重。从使用目的角度分析,若研发者使用作品训练 ai 是出于商业考虑,例如开发商业化的 ai 模型或服务,则将使ai 数据训练纳入“合理使用”范畴的难度加大。
对著作权人权利的影响,是判断合理使用的核心要素。若 ai 训练过程中对作品的使用影响了原作品的正常使用或不合理地损害了著作权人的合法权益,那么此种行为便难以被认定为“合理使用”。例如,若训练后的 ai 生成了与原作品高度相似的内容,可能导致原作品市场受到挤压,进而影响著作权人的经济利益。
但有些学者认为,应该严格拆分 ai 训练及 ai 生成两个过程。仅仅在 ai 训练场景中使用作品,构成“转换性使用”。ai 技术或服务提供者使用训练著作权内容的目的,旨在帮助计算机学习人类生成内容的语法逻辑和搭配概率,并非针对原作品的“表达性内容”进行使用。
更为棘手的是,我国著作权法第 二十四条对“合理使用”情形进行了列举,包括但不限于个人学习、研究或欣赏、适当引用、报道新闻、教育和科研等情形。在不对前述情形进行一定的扩张解释情况下,ai 数据训练目前难以直接纳入前述任何一种情形。虽然同时附有“法律、行政法规规定的其他情形”的兜底条款,为“合理使用”提供了更广泛的适用范围,但目前暂未发现其他法律法规对 ai 训练场景的使用进行例外规定。
综合而言,我国法律背景下,目前将 ai 数据训练的行为纳入“合理使用”的范畴还存在一定争议和理论障碍,研发者未经授权使用他人享有著作权的作品作为 ai 数据训练,被认定为“合理使用”存在一定难度。
其次,ai 数据训练设立特殊规定。我国目前对 ai 数据训练的合规性仍持有较为谨慎态度,《生成式人工智能服务管理暂行办法》(下称“暂行办法”)的出台,进一步明确了在 ai 研发过程中应尊重和保护知识产权的原则。该办法要求生成式人工智能的提供者和使用者必须使用具有合法来源的数据和基础模型,严禁侵犯他人的知识产权。
当前,已有部分国家采取了较为开放的立法态度,如日本在 2018 年修订了著作权法,为ai 数据训练设立了合理使用许可。该法律允许通过计算机数据训练时利用他人已公开作品,但不当损害著作权人利益的情形除外。日本政府对ai数据训练持积极态度,甚至有官员公开表示,拟将从非法网站获取的内容列入可以进行数据训练的范围,以推动 ai 的发展。
英国于 1988 年发布的《凯发app官网登录的版权、外观设计和专利法》的 §29a 之(1) 条款中,明确规定了合理使用制度。起初,这一条款主要限于非商业性的文本与数据挖掘。然而,英国政府在后续政策回应中表现出更为开放的态度。2022 年 6 月发布的《人工智能与知识产权:凯发app官网登录的版权和专利:政府咨询回应》中,英国政府表明有意将 §29a规定的合理使用范围扩大到商业用途,以此推动文本与数据挖掘以及 ai 的发展。
输出端 aigc 是否构成作品
我国著作权法第二条规定:“中国公民、法人或者非法人组织的作品,不论是否发表,依照本法享有著作权······外国人、无国籍人的作品······”结合条款表述及著作权法第一条中关于立法目的的描述可见,我国著作权法立法体系中,作品必须源自人类智力成果,这一点在司法实践中被多次强调。
以被称为中国 aigc 著作权侵权第一案的“菲林律所诉百度公司著作权案”为例,该案争议焦点之一,为“利用法律统计数据分析软件自动生成的分析报告是否构成文字作品”。一审法院认为,即使自动生成的分析报告具有独创性,但现行法律规定文字作品应由自然人创作。在 ai 辅助创作过程中,软件开发者未参与报告生成过程,软件用户仅提交搜索关键词并利用可视化功能生成报告,生成内容中并未传递前述两者思想、感情的独创性表达,故软件开发者及软件用户均不能被视为作者,同时法律统计数据分析软件亦非自然人。故认定软件自动生成的分析报告不是著作权法意义上的作品,无法基于报告产生相应著作权。
综上,无论是法律规定还是司法实践,均要求作品必须是人类智力成果,独创性必须源自人类。此结论亦被“ai 文生图案”的判决认可,故该案核心要点即为判断涉案图片的独创性源自 ai 使用者还是 ai。该案法官通过将人们利用 ai 模型生成图片,解释为人类利用 ai 工具进行创作,得出涉案图片“春风送来了温柔”为源自人类具有独创性的智力成果。
关于aigc 是否为源自人类智力成果的讨论,已成为各大互联网企业争相抢夺的高地。市面上的 ai 产品种类繁多,不同 ai 产品智能程度有所区别,“一刀切”地抛开使用 ai 的方式、所使用 ai 产品客观情况等讨论“aigc 是否为源自人类的智力成果”缺乏科学性,故以下仅根据“ai 文生图案”所描述案件背景进行分析。
分析人类在 aigc 产生各阶段的智力投入情况,有利于帮助厘清并判断涉案图片是否为源自人类的智力成果。参考欧盟委员会 2020 年发布的《人工智能领域的趋势与发展——知识产权框架所面临的挑战》(trends and developments in artificial intelligence – challenges to the intellectual property rights framework) 报告中对 aigc 形成阶段的划分,人类智力投入可能分别出现在“构思”“执行”和“编辑、完善”等阶段,如上图所示。
aigc 形成的四个阶段
aigc 形成可以划分以下四个阶段:
▲aigc 形成阶段划分
第一,创意构思阶段。在创意构思阶段,人类需要作出一系列设计和选择,如 aigc 的流派、风格、格式等。这一阶段主要由人类负责,而 ai 在创作过程中的角色仅限于充当外部约束,限制人类创作的可能性。此阶段创意构思的内容多为腹稿,尚不存在可以被他人客观感知的外在表达。少数情况下,人类可能会通过一定方式记录或表达自身的创意构思,相关表达根据形式不同可能会构成著作权法保护的作品。
以“ai 文生图案”为例,在利用 ai 生成图片前,用户可能会事先整理“超逼真照片”“彩色照片”等提示词及参数等。如果输入的提示词 / 提示句及参数本身具有一定独创性,该提示词 / 提示句及参数可能构成文字作品受到著作权法保护,但需要区分的是,构思的表达(提示词及参数)能否等同于最终生成的 aigc的具体表达,提示词及参数受到著作权法保护能否等同于 aigc 的具体表达受到著作权法保护。故在创意构思阶段,人类对于最终的 aigc 的贡献仍处于思想层面,尚未落实为 aigc 的具体表达,自然不受著作权法保护。
第二,执行阶段。概括而言,便是将人类使用者的“思想”通过ai 转化为“具体的表达”。在这一过程中,人类需将其构思通过一定的方式传递给 ai,由 ai 扮演主要执行者的角色,生成 aigc。由此引发一个问题,ai 在生成 aigc 的过程中,扮演的是否为工具的角色。
▲执行阶段
以“ai 文生图案”中使用的 stable diffusion 模型为例,该模型通过大量学习素材的关联性及共性,控制像素点降噪生成图像。如 ai 研发者将大量“苹果”图片用于模型训练,并将相关图片标注为“苹果”,ai 模型便能识别出相关图片中形状及颜色等共性内容,并通过标记判断出共性元素为“苹果”。当用户输入“苹果”作为提示词时,ai 模型便会通过降噪、保留共性的方式生成图片。该模型生成图像的过程,对于人类使用者来说是“黑箱”。
人类用户输入的提示词会“影响”生成的图像,用户可以修改、调整提示词,影响最终生成的图片以更接近脑海中所构思的样子。但提示词并不决定所生成图片具体的表达,就“ai 文生图案”中所记载的事实,原告无法一次性通过输入提示词直接控制 ai 生成与构思完全相符的图片。相反,恰恰因 stable diffusion 模型生成结果的不可预测性,才导致用户需要花费大量时间与精力反复调整、增加提示词及参数,最终在 ai 生成的多张图片中挑选到最接近预先构思的图片,也有网友将这种生成图片的过程戏称为“抽卡”。此种情形下,很难说系人类用户决定了最终生成图片的具体表达,亦无法将不完全受用户控制的 ai 仅视为用户的工具。这也是在“ai 文生图案”的背景下, “ai 生成图是否构成著作权法意义上的作品”值得进一步探讨的内容。
第三,编辑、完善阶段。需要澄清的是,此阶段所指“编辑、完善”并非人类用户多次修改提示词达到完善最终 aigc 的目的,而是特指在已有 aigc 的基础上由人类直接操作的编辑与完善。“ai 文生图案”中不涉及此阶段行为,出于内容完整性考虑,在此一并分析。
▲编辑、完善阶段
由于当前技术水平的限制,ai 生成的内容直接商用或产生经济价值还存在一定难度,故大多数用户还会在 aigc 的基础上进行编辑、完善,如果用户编辑、完善的内容符合著作权法对于作品的要求,则该部分构成作品。
然而,如果 ai 决定了作品的基本表达,人类对 aigc 的编辑、完善过于微小,不足以形成新作品时,人类则无法基于其相关修改享有著作权。美国凯发app官网登录的版权局在图画《théâtre d’opéra spatial》是否应进行著作权注册的事宜中认为,虽然当事人使用 adobe photoshop 对 ai 生成图像进行了美化和编辑,但由于系 ai 决定了作品的基本表达,故驳回了当事人的著作权注册申请。
第四,再现阶段。“再现”aigc 并非一个必要阶段,但因该阶段对厘清aigc 著作权问题具有一定迷惑性,故在此一并予以探讨。基于“ai 文生图案”中所描述的案情事实,该案中原告可以向法庭稳定再现其生成图片过程,并引导 stable diffusion 模型多次生成相同的图片。
需要强调的是,可以“再现”已有aigc 并不等于首次生成aigc 时的可预测性。如上所述,人类用户实际是在最终 ai 生成的多张图片中挑选到最接近预先构思的图片,并通过再现该图片对应提示词及参数的方式,再现该图片。此事实与用户首次输入提示词及参数时无法预测 aigc 的事实并不矛盾。
那么,aigc 是否享有著作权?由于当前 ai 产品的复杂性及多样性,无法简单地用“是”或“否”来回答这个问题,也无意“一刀切”地认为所有 aigc 或包含 aigc 的内容均非著作权法意义上的作品。不可否认,部分 ai 使用者在aigc 中倾注了大量心血和汗水,这也是为何aigc 保护问题屡次被提及,有观点基于促进ai 产业、鼓励人类使用 ai 进行创作的角度考虑,认为应当给 aigc 赋予著作权。然而,这也引发了一些人的担忧,因为利用 ai 生成内容对于人的智力投入要求可能很低,可能导致未来通过 ai 大规模、低成本地生成作品,从而实现某种程度上的知识产权垄断,甚至引发 aigc 挤占人类创作空间等问题。
aigc著作权侵权担责主体
aigc 的权属及责任问题,正逐渐成为法律界和科技界关注的焦点。目前,此类问题的司法实践和立法层面还存在诸多争议和模糊地带。这种不统一的界定标准和责任承担不仅给 ai 技术发展和应用带来不确定性,也可能对 ai 产业的健康发展构成一定阻碍。
北京互联网法院的“ai 文生图案”、北京知识产权法院“菲林律所诉百度公司著作权案”等案件,均认为 aigc的权属归属于使用 ai 的用户。按照权责相一致原则,如 aigc 涉嫌侵权,亦应由用户承担责任。尽管相关案例将 aigc 的权属归属于用户,但暂行办法第九条规定,生成式人工智能提供者应当依法承担网络信息内容生产者责任。这一规定在某种程度上,使ai 服务提供者在内容侵权时需要承担相应责任。
基于目前的司法实践和立法,aigc 权属界定标准不统一、责任承担不对等问题有待研究。一方面,对于 aigc 的权属认定出现了归属于用户、归属于平台的两种不同可能认定结果。另一方面,如果 aigc 权属归属于用户,根据暂行办法第九条规定,ai 平台需要在内容侵权时承担责任,似乎存在责任不对等问题。目前,上述问题还需要司法实践、立法进一步厘清。
(作者单位:立方律师事务所)
编审|渠 洋
责编|王 茜
校对|张波 张雪慧