「如果AI生成的作品和你的作品很相似,你会怎么看?」 这是我在某次科技峰会上抛出的问题。
周围人的眼神立刻变得严肃起来,好像我提起了他们的老相识——版权问题。在AI界,这是个老生常谈,却又困扰无数大脑和机器的大话题。
01
(资料图)
AIGC热潮:瑞士军刀还是数据小偷?
AIGC——也就是人工智能生成内容,不知不觉中,已从科技小圈子走入大众视野。
你是否还记得那些能写小说、编程序、搭腔聊天的AI?他们就是AIGC的代表。
今年以来,AIGC爆火并迅速出圈。这一趋势是由OpenAI、DeepMind等优秀的科研机构引领的,巨头也积极下场抢占风口,包括谷歌、Meta、微软等知名科技公司先后布局,国内的腾讯、百度、阿里、华为、商汤、360、科大讯飞等企业也纷纷参与其中。
ChatGPT等各类AIGC产品层出不穷,帮助用户写文章、写代码、搞创作、陪聊天……已经成为包括我在内的很多人的全能助手。
但AIGC「光鲜亮丽」的背后也存在着版权、隐私、数据安全等诸多问题,目前并没有得到有效的解决。
02
纠纷频发:AI被告上法庭
海外这样的纠纷很多——图片供应商Getty Images起诉了一家推出图片生成模型的机构Stability AI,声称该机构使用了他们网站上的图片来训练模型但没有付费;就连业界大佬OpenAI也面临「数据小偷」指控,深陷多场集体和作者个体诉讼。
目前国内的AI绘画、AI写作、AI翻唱、AI换脸等也都可能存在侵权问题。
比如前段时间风靡全网络的AI孙燕姿,是B站的UP主通过收集原版孙燕姿的声音训练AI,然后用AI版孙燕姿去翻唱其他人的歌曲并上传。UP主生成AI孙燕姿并没有取得孙燕姿本人的同意,没有获得孙燕姿的肖像和声音有关人身权的使用权。
在AI写作方面,笔神作文和学而思也产生过数据权益的纠纷,最后以双方和解落幕。
整个行业都处于版权不明晰的混沌中。
03
AI训练:大模型的「饥渴」
AI大模型(例如GPT)的训练是一个复杂的过程,其第一个步骤也是不可避免的步骤就是数据的收集和准备——训练大模型需要大量的文本数据,包括互联网上的文章、书籍、新闻、图片、论坛帖子等。
AI版权问题的矛盾性在于,大模型想变得无所不知、无所不能,就需要在海量数据的基础上训练和学习。然而数据的来源是否合规,网上公开的资源哪些能用哪些不能用或需要付费使用,目前没有明确的法律法规界定,所以难免出现争议。
版权是保护人类文学、艺术、科学领域内有关智力成果创作的法律制度,AI技术对这方面的冲击真的很大。但我在科技互联网领域20多年,深知这是新技术发展的必经过程。初期会有冲突和矛盾,但法律法规也在逐步完善、调整,只是会有一定滞后性。随着问题的解决,新技术将使得全社会受益。
04
破局之道:法律加盐,技术加糖
那么该如何解决AIGC的版权问题呢?
最重要的一定是制定清晰的法律法规,明确界定哪些数据可用于AI模型训练,以及AIGC生成内容的版权归属、创造性归属和使用权限。法律应该考虑到AI生成内容的特殊性质,确保创作者和使用者的权益得到保护。
目前,由国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》中指出,生成式人工智能服务提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。
也就是说,通过AI生成的内容应当有一定的标识,使得用户能够辨别自己的「AI作品」是否运用了别人产出的图片、视频等内容,避免滥用。这在很大程度能保护知识产权。
此外,AIGC技术平台方应当不断提高AI能力,使得创作出的内容具备足够的独特性,并在AI生成内容之前或之后进行一定的人工监督和筛选,以确保生成的内容符合法律法规和道德标准。
当然,如果想要对版权方更加有利,那么就需要相关部门建立一套新的行业规范和流程,使得版权方一开始就能够知情,作品会被AI模型去学习,同时模型产生的后续基于自身作品的新创作,版权方同样能够从中获利。
所以,解决这个问题,首先要制定清晰的法律,告诉AI:「这些可以吃,那些不行!」同时,AIGC平台也要提高自己,不仅要生成高质量的内容,还要保证内容的原创性。不然的话,AI生成的东西很容易变成「山寨货」。
05
AI未来:创新与共赢
相关报告预测,作为全球人工智能大模型市场的重要参与者——中国大模型产业市场规模2023年可达到147亿元人民币,并在2028年达到1179亿元人民币。
技术发展的速度很快,所以经常会出现法律不适用、经济秩序受影响的情况,我们发现问题、提出问题都能够一定程度上促进行业的发展。
国家政策也在进一步鼓励生成式人工智能技术在各行业、各领域的创新应用,支持各类组织在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作,推动生成式人工智能基础设施和公共训练数据资源平台建设。
相信未来随着监管和利益机制的完善,AIGC平台、用户、相关从业者可以谋求共生共荣。