如何模仿/复制/伪造某人的声音？

是否有任何现有的应用程序可以对某人的声音进行采样，然后使用它来调制其他声音或合成类似于原始声音的文本？

例如，AT＆T的文本语音转换演示使您可以从预设中选择一种语音和一种语言，我猜这些预设是基于已采样的某些人类语音。 />您如何称呼这个过程？是语音调制吗？语音合成？

我想如果您有足够的训练样本，对于特定的单词，那有可能

在研究社区中，这称为“语音转换”。

@ user1582478我有很多人，你将如何进行？

是否可以通过说一个朋友来创建语音，然后通过电话进行现场直播，就像语音变体一样，但是使用您创建的语音？

这不能为问题提供答案。要批评或要求作者澄清，请在其帖子下方留下评论-您可以随时对自己的帖子发表评论，一旦拥有足够的声誉，您就可以对任何帖子发表评论。

#1 楼

首先要注意的是：大多数现代文本转语音系统（例如您已链接到AT＆T的系统）都使用级联语音合成。这项技术使用了一个大型数据库，该数据库记录着一个人的语音，上面说出了很长的句子集-选择这些单词是为了使最大数量的音素组合出现。只需将语料库中的各个部分串在一起即可完成句子的合成-最具挑战性的一点是使串在一起无缝且富有表现力。

如果要使用此技术来担任总裁，有两个大障碍奥巴马说的尴尬词：

您需要访问大量目标语音的句子，最好以统一的录音条件和高质量进行录音。 AT＆T的预算是在同一个录音棚里录制数十个小时的相同讲话者的声音，但是如果您想在录制的5分钟内模仿某人的声音，这将很困难。在所记录的原材料以正确的“格式”进行预处理之前，可以被级联语音合成系统利用。

您的直觉是可行的，这是有效的-只要您有预算来解决这些问题两个问题。

幸运的是，还有其他一些技术可以在更少的监督和更少的数据下工作。对“模仿”或“模仿”来自录音的一种语音感兴趣的语音合成领域称为语音转换。您有目标说话人A说句1的录音A1和源说话人B说句2的录音B2，您的目标是制作讲话人A句句2的录音A2，可能会访问说话人B的录音B1语音与目标说话者相同。

语音转换系统的概述如下：

从记录A1中提取音频特征，并将它们聚类为声学类别。在这个阶段，有点像让演讲者A的所有“ a”，演讲者A的所有“ o”等等都被带走。请注意，这比真正的语音识别要简单得多，而且操作比较粗糙-我们对此并不感兴趣。识别正确格式的单词-我们甚至不知道哪个包包含“ o”，哪个包包含“ a”-我们只知道每个包中都有多个相同声音的实例。
相同的过程是
将A1和B2的声学等级对齐。为了继续进行袋的类比，这等效于将步骤1和步骤2中的袋配对，因此，扬声器A中这个袋子中的所有声音应该与扬声器B中那个袋子中的声音相对应。这种匹配是如果在第2步使用B1，则更容易实现。
估计每对袋子的映射函数。因为我们知道这个包包含说话者A发出的声音，而那个包却发出相同的声音，但是说话者B发出了声音-我们可以找到使它们对应的运算（例如，特征向量上的矩阵乘法）。换句话说，我们现在知道如何使扬声器2的“ o”听起来像扬声器1的“ o”。
在此阶段，我们准备好了所有卡来执行语音转换。从B2录音的每个片段中，我们使用步骤2的结果来确定它对应于哪个声学类别。然后，我们使用在第4步中估计的映射函数对切片进行转换。

我坚持这样一个事实，即该操作的级别远低于对B2进行语音识别，然后使用A1的语音进行TTS作为语料库。

步骤1和步骤2使用了各种统计技术-GMM或VQ是最常用的技术。第2部分使用了各种对齐算法-这是最棘手的部分，显然，对齐A1 vs B1比对齐A1 vs B2更容易。在较简单的情况下，可以使用诸如动态时间规整之类的方法进行对齐。对于步骤4，最常见的变换是特征向量上的线性变换（矩阵乘法）。更复杂的转换会产生更逼真的模仿，但要找到最佳映射的回归问题则更难解决。最后，对于步骤5，重新合成的质量受所用功能的限制。 LPC通常更易于使用简单的转换方法来处理（采取信号帧->估计残差和LPC频谱->如有必要，音高移位残差->将修改后的LPC频谱应用于修改后的残差）。在这里，关键是要使用可以倒置到时域的语音表示，并且可以在韵律和音素之间提供良好的分隔。最后，只要您可以使用说话者A和B对准他们的同一句话的录音，就可以使用统计模型在一个模型估计过程中同时处理步骤1、2、3和4。

I也许以后会再来一份参考书目，但一个很好的地方开始了解这个问题，解决该问题的整体框架是Stylianou，Moulines和Cappé的“基于概率分类和谐波加“噪声模型”。

据我所知，没有广泛的软件可以执行语音转换-仅软件可以修改源语音的属性-例如音高和声道长度参数（例如IRCAM TRAX变压器）-必须将其弄乱，以使您的录音声音更接近目标声音。

$ \ begingroup $
糟糕的答案！没有提包的类比，我可能无法理解它。在这么清楚的解释之后，只有一件事我不理解：据我所知，您永远可以拥有B1！非常感谢你。
$ \ endgroup $
– clapas
13年2月13日在22:53

$ \ begingroup $
如果A和B讲不同的语言，那就不行（在语音转换中有许多不可思议的应用，其中，使用您自己的声音播放另一种语言的TTS！）。或者，如果A和B都是著名人物，那么您在所有公开的录音中都找不到足够长的普通句子，并且如果您不会说他们的语言，那么您就无法将声音用作两者之间的“桥梁”。
$ \ endgroup $
–小食
13年2月14日在0:23

$ \ begingroup $
我明白了。再次感谢@pichenettes。我将尝试看一看Stylianou等人推荐的书。干杯
$ \ endgroup $
– clapas
13年2月15日在10:34

$ \ begingroup $
请使用指向您的缩写词的链接来更新您的答案。例如。 LPC，VQ，GMM。
$ \ endgroup $
–aaronsnoswell
2015年12月8日23:40

$ \ begingroup $
回应aaronsnoswell的评论：LCP：线性预测编码，VQ：矢量量化，GMM：高斯混合模型。由于每个缩写词都是一个复杂的主意，因此，仅扩展这些首字母缩写并不会带来很大帮助，但是（大致）每个主意都与从一组现有样本中建模或解释pst或将来的数据有关，这并不明显。
$ \ endgroup $
– GregD
16年6月25日在2:06

#2 楼

您可以使用MorphVox之类的东西。这是一个示范。该过程称为语音变形或转换。如果您对技术方面有兴趣，可以阅读最近发表的文章：使用动态内核偏最小二乘回归进行语音转换。

$ \ begingroup $
Dark Vader的声音令人震惊，很有趣。好吧，我以前见过类似的效果。谢谢
$ \ endgroup $
– clapas
13年2月13日在23:03

#3 楼

我正在寻找同一件事，但无法完成。苏格兰有一家名为CereProc的公司，可以进行语音建模，但是他们需要在实验室录制音频的人，而为单个语音建模的成本约为3万美元。

#4 楼

您要寻找的是声码器。

您是否尝试过Audcity的声码器？可以从以下网站下载Audacity：http：//audacity.sourceforge.net/download。有关如何使用它的演示，请访问https://www.youtube.com/watch?v=J_rPEmJfwNs。

$ \ begingroup $
语音编码包括应用一个音频记录（通常是声音）的频谱包络来过滤另一种声音（通常是原始的未调制合成器声音）。它不能用于伪造某人的声音。
$ \ endgroup $
–小食
13年2月13日在20:20

$ \ begingroup $
是的，我知道Audacity，但是我没有尝试声码器。我认为您只能将白噪声应用于所录制语音的包络。谢谢
$ \ endgroup $
– clapas
13年2月13日在22:57

编程黑洞网

如何模仿/复制/伪造某人的声音？

评论

#1 楼

评论

#2 楼

评论

#3 楼

#4 楼

评论