一家AI声音克隆公司，借三只羊录音门玩起了“自杀式营销”？

2024-09-30 17:10 98 阅读 0 评论 65 点赞

声明：本文来自于微信公众号 AI新榜，作者：月山橘石濑，授权靠谱客转载发布。

只羊事件闹得沸沸扬扬，没想到受害者竟然是AI。

昨晚，合肥警方就“三只羊集团创始人卢文庆录音事件”发布通报，称这条广为流传的音频为AI生成，犯罪嫌疑人已经被依法采取刑事强制措施。

一锤定音，这条通报不仅给出了官方表态，也扇了前几天那位网传“国内AI第一人”一记耳光，毕竟，当时“国内AI第一人”给出的判断是“AI声音克隆技术目前还做不到那么丝滑”。

不过更出人意料的是，今天有一家AI公司跳出来“发布声明”，说这条音频内容是嫌疑人通过自家研发的AI配音大模型制作的。

网友也惊了，都这样了还不忘打广告，AI卷王?我们顺着声明中提及的公司找了一下声明来源，在一个同名微博上找到了相关内容，不过该账号未经官方认证，因此也无法盖棺定论。

不过，围绕这条声明的讨论还在增加，网友们纷纷称之为“自杀式营销”，还有好奇宝宝发问了，这家AI公司的声音克隆产品真有那么厉害吗，“有没有人去这个网站实测一波呀”。

试试就试试……在隐去相关公司和产品名称的基础上，我们对该产品进行了一番实测，需要注意的是，以下测试仅作科普之用，工具的价值在于使用者如何使用，我们绝不支持任何人用AI在法律边缘试探。

与此同时，我们也咨询了相关律师，想知道此外这类AI克隆声音侵权案件是否有先例，以及创作者和平台在使用或推广新技术的过程中需要注意哪些法律问题，供各位参考。

AI克隆一个人的声音，

只需几秒的声音样本

输入文本、分配角色、自动逐句分割文本，一键点击生成。

进入该产品页面后，我们通过操作以上几个步骤，仅花了1分钟，就让姜文念出了《让子弹飞》中六子的台词。

爹，全都找遍了，没钱，没货，也没有银子。人倒是剩俩活的，杀不杀?

来听听效果:

这抑扬顿挫、这腔调，不知道还以为六子这角色是姜文演的，实际上六子在电影中演的是儿子，姜文演的是六子的爹。

这段音频是我们利用该产品中的语音角色“姜文”生成的。

目前，该产品中的语音角色众多，有“孙笑川”“丁真”等知名网络红人，也有“科比”“周杰伦”等文体界的巨星。

而这些语音角色都是社区用户上传的，点击平台的官方角色则会显示“即将推出，敬请期待”。

除了可以使用社区用户上传的语音角色，想在该平台上克隆一个名人的声音也很简单。

在这里我们上传了一段马斯克的真实采访录音，让AI马斯克“亲口”说出了“You swan， he frog!（癞蛤蟆想吃天鹅肉）”这句火到国外的中式英语。

该平台要求样本语音只需大于2秒，样本的质量比长度更重要，所以在进行声音克隆时，最耗时的步骤是寻找马斯克的清晰录音。

官方称，这段录音将用于定义该角色默认的声音表现，包括声线、情感、语速、语调、韵律等。如果想要同个角色的不同声音风格，还支持用户添加该语音角色的不同风格样本。

目前这个版本我们仅上传了一段音频，同时使用的还是该平台的快速克隆模式，而非付费的专业克隆模式（官方称该模式音色和情感还原度高达99.9%），在短句的表现上就已经和马斯克本人的声音有6到7分相似了。

从内容形式上来看，生成式AI已经“入侵”文本、音视频甚至3D内容，在这之中音频可以说是目前技术应用较为成熟的赛道之一。

AI声音克隆只是AI音频生成的一个细分赛道，其他应用还包括AI生成音乐、AI生成音效。

早在生成式AI出现之前，其实AI声音克隆就已经存在了。彼时想要克隆声音，基于的是传统的TTS（Text-to-Speech，文本到语音）技术，需要建立一个AI声库，采集大量的人类声音标本制作数据库，后期还得通过人工调试来模拟人声。

或者基于Bert VITS等开源项目，利用最新的深度学习语音合成技术，直接文本转语音来还原音色，但对设备、技术要求都比较高。

图片来源:B站UP主“痕继痕迹”的GPT- SoVITS教程

如今在AIGC浪潮下，“卷”出来的AI工具只需要10秒乃至更少的声音样本，就能精准复刻音色。

早前，我们曾在直播中介绍过AI语音克隆技术的原理，一般分为语音采集、特征提取、模型训练和语音合成等步骤，相关产品工具有Fish Audio、CosyVoice、ElevenLabs、剪映等，让语音克隆操作门槛变得更低。（相关直播回放可关注“AI新榜”视频号或扫描下方图片二维码查看）

因而，“三只羊录音门”出自AI之手在技术上是可行的。尤其在“有心之人”手中，除了AI生成，还可以通过人工调试、后期剪辑等方式做到以假乱真的效果。

更别说流传的录音中，还有大量复杂的环境噪音、说话人的“醉酒状态”设定等，都大大增加了辨别录音真伪的难度。这下也就不奇怪不少网友会猜测:AI只是充当了“临时工”的角色，抗下了所有。

其实这也从侧面体现出，在AI技术的快速迭代下，我们普通人对AI能做什么、以及能做到什么程度，是和一线从业人员之间存在信息差的。

此外，在“三只羊录音门”事件中，也暴露出平台监管缺位、创作者不当使用等法律层面上的问题。

内容平台的AI声音侵权讨论

实际上，通过AI伪造音频的侵权事件已不是第一案。

今年4月，北京互联网法院审理了全国首例“AI声音侵权案”。

原告殷某某是一名配音师，曾录制多部有声作品。其意外发现，自己的声音被AI化后在一款名为“魔音工坊”的App上出售。法院最终判决被告未经原告许可使用其声音，构成侵权，并赔偿原告各项损失25万元。

根据《中华人民共和国民法典》第1023条，自然人的声音受到法律保护，其保护方式参照肖像权。这意味着，如果AI生成的声音具有可识别性，能够被公众关联到特定自然人，那么未经该自然人许可使用其声音，就可能构成侵权。

中国AI绘画著作权第一案原告、北京市天元律师事务所合伙人李昀锴告诉“AI新榜”:

目前来看，我们的法律不太需要修订。因为AI技术还在发展过程中，可能过两年就迭代出新的技术，如果我们的法律是针对这个去立法的话，立法大概要3到5年，到时候技术形态已经改变，那这个法律其实就变成了一纸空文。
我们当前的法律已经规定了基本的框架，需要调整的只是对于这些法律怎么去解释，以及怎么通过典型性的案例去塑造相关的司法裁判态度。只有在技术真正成熟的情况下，我们才应该推动立法去把司法实践中已经确立的规则说明清楚。

除了司法实践中的侵权案例以外，内容平台上的AI声音侵权更为广泛和隐秘。

眼下，层出不穷的AI工具大大降低了创作门槛，AIGC已成为继PGC、UGC后的热门内容生产方式。

用AI声音克隆技术二创热门音乐、让动漫游戏角色进行AI翻唱，或是让已故名人开口说话等等，在国内外的内容平台上都已十分常见。