测试：AI能否复现录音门，卢总的醉酒、方言、脏话能生成吗？

三言Pro

1周前

不过在尝试复现的过程中，笔者也发现了一些蛛丝马迹，主要体现在一些字的发音上。...此外，笔者也测试了其他音视频生成平台，发现机器的发音也都是一声。

昨天，合肥警方通报称网传涉卢某某音视频系伪造。

调查指出，9月16日，王某某利用从互联网下载的音视频资料，杜撰卢某某酒后言论脚本，先使用AI工具训练生成假冒卢某某的音频（其中出现的女声也系AI工具训练生成），后用视频软件合成音视频，并通过网络发布，形成谣言大量传播。目前，王某某已被依法采取刑事强制措施，案件正在进一步侦办中。

而在警方公布调查结果前，对于是否是AI合成，有各种说法。

网络上突然涌现出一批自称精通AI语音的博主，然后一通分析。

还有个自称“世界第三人工智能团队成员”魏某称目前AI无法实现，得出结论录音是真人说的。

而各种自媒体都引用这位“AI大牛”的结论，然后又是一顿解读，越来越邪乎。

大部分认为非AI合成的观点是：AI无法实现说话时的醉酒状态、方言、脏话、停顿等。

不过，在警方发布通告后，魏某悄悄改了名，删了视频。

今天，通报中涉及到AI音频公司也发布声明，确系嫌疑人王某使用公司自主研发的AI配音大模型平台，由卢某此前直播片段约30秒录音进行克隆，并通过文本生成。

实测AI语音大模型

三言也用该AI语音平台实测了下，看看能否复现录音门。

简单交代下测试的过程。笔者随便找了一段卢疑似喝酒后的视频片段，时长一分钟左右，然后没有经过其他处理，直接上传当做AI语音平台的学习素材。

然后就可以生成一个角色，这个角色的音色和我们训练的素材是一样的。简单理解为克隆了素材中音色，生成了一个虚拟人。

然后输入文案，就能用这个虚拟角色生成音频。

文案一：我想让谁火谁就能火。我认识的主播多了去了，我捧谁不是捧。

文案二：辛巴有钱我搞不了他，其他人告诉法务，谁蹭咱家客服的热度，我告到他倾家荡产。

文案三：我能操上ABC，谁能操上ABC？我能

而且是使用的该平台的免费模式，并没有使用精度更高的收费模式。

简单输入文案，就输出了上面的那些语音片段，简单到可以说是傻瓜操作。

不知道大家听了之后觉得像不像，三言觉得效果还是挺逼真的。

下面再连起来听一下。

笔者个人感觉，如果有音质更好的素材，或者选择精度更高的训练模式，效果会更加逼真。

而且，并不像某些人说的，AI是能够生成脏话的，醉酒和停顿状态其实来自上传的素材训练，并非在制作生成中加某个指令，而且语气还是比较自然的，虽然仍然有一些AI感，但总体还是OK的。

估计稍加调教，会生成接近于人自然发声的效果。

不过，其他一些知名大AI语音平台都需要自己现录音，且朗读特定文本，不能上传音频文件。

所以不得不对所谓的AI大牛的斩钉截铁的结论打个问号。

“操”字的发音暴露蛛丝马迹

不过在尝试复现的过程中，笔者也发现了一些蛛丝马迹，主要体现在一些字的发音上。

因为卢的真人视频网上很多，对比一些词的发音不算难事。

比如在脏话“操”这个字上，卢在真人视频中发音为“cào”，而录音门里的都是“cāo”。也就是录音里是一声，而卢平时发音是四声。

其实四声是一个口语发音，笔者查了下操本身并没有四声这个音，只有一声。

此外，笔者也测试了其他音视频生成平台，发现机器的发音也都是一声。

这或许是音频合成没注意到的细节。

据警方通报，音频合成者先使用AI工具训练生成假冒卢某某的音频（其中出现的女声也系AI工具训练生成），后用视频软件合成音视频。

那段流传的音频有很明显的底噪，听起来像是翻录了合成音频，而且还是做成了社交软件语音聊天的形式，估计废了不少功夫。

最后想说，还是希望大家能相信官方调查结果，同时也提醒大家合法使用AI音频。