例如,AT&T的文本语音转换演示使您可以从预设中选择一种语音和一种语言,我猜这些预设是基于已采样的某些人类语音。 />您如何称呼这个过程?是语音调制吗?语音合成?
#1 楼
首先要注意的是:大多数现代文本转语音系统(例如您已链接到AT&T的系统)都使用级联语音合成。这项技术使用了一个大型数据库,该数据库记录着一个人的语音,上面说出了很长的句子集-选择这些单词是为了使最大数量的音素组合出现。只需将语料库中的各个部分串在一起即可完成句子的合成-最具挑战性的一点是使串在一起无缝且富有表现力。如果要使用此技术来担任总裁,有两个大障碍奥巴马说的尴尬词:
您需要访问大量目标语音的句子,最好以统一的录音条件和高质量进行录音。 AT&T的预算是在同一个录音棚里录制数十个小时的相同讲话者的声音,但是如果您想在录制的5分钟内模仿某人的声音,这将很困难。在所记录的原材料以正确的“格式”进行预处理之前,可以被级联语音合成系统利用。
您的直觉是可行的,这是有效的-只要您有预算来解决这些问题两个问题。
幸运的是,还有其他一些技术可以在更少的监督和更少的数据下工作。对“模仿”或“模仿”来自录音的一种语音感兴趣的语音合成领域称为语音转换。您有目标说话人A说句1的录音A1和源说话人B说句2的录音B2,您的目标是制作讲话人A句句2的录音A2,可能会访问说话人B的录音B1语音与目标说话者相同。
语音转换系统的概述如下:
从记录A1中提取音频特征,并将它们聚类为声学类别。在这个阶段,有点像让演讲者A的所有“ a”,演讲者A的所有“ o”等等都被带走。请注意,这比真正的语音识别要简单得多,而且操作比较粗糙-我们对此并不感兴趣。识别正确格式的单词-我们甚至不知道哪个包包含“ o”,哪个包包含“ a”-我们只知道每个包中都有多个相同声音的实例。
相同的过程是
将A1和B2的声学等级对齐。为了继续进行袋的类比,这等效于将步骤1和步骤2中的袋配对,因此,扬声器A中这个袋子中的所有声音应该与扬声器B中那个袋子中的声音相对应。这种匹配是如果在第2步使用B1,则更容易实现。
估计每对袋子的映射函数。因为我们知道这个包包含说话者A发出的声音,而那个包却发出相同的声音,但是说话者B发出了声音-我们可以找到使它们对应的运算(例如,特征向量上的矩阵乘法)。换句话说,我们现在知道如何使扬声器2的“ o”听起来像扬声器1的“ o”。
在此阶段,我们准备好了所有卡来执行语音转换。从B2录音的每个片段中,我们使用步骤2的结果来确定它对应于哪个声学类别。然后,我们使用在第4步中估计的映射函数对切片进行转换。
我坚持这样一个事实,即该操作的级别远低于对B2进行语音识别,然后使用A1的语音进行TTS作为语料库。
步骤1和步骤2使用了各种统计技术-GMM或VQ是最常用的技术。第2部分使用了各种对齐算法-这是最棘手的部分,显然,对齐A1 vs B1比对齐A1 vs B2更容易。在较简单的情况下,可以使用诸如动态时间规整之类的方法进行对齐。对于步骤4,最常见的变换是特征向量上的线性变换(矩阵乘法)。更复杂的转换会产生更逼真的模仿,但要找到最佳映射的回归问题则更难解决。最后,对于步骤5,重新合成的质量受所用功能的限制。 LPC通常更易于使用简单的转换方法来处理(采取信号帧->估计残差和LPC频谱->如有必要,音高移位残差->将修改后的LPC频谱应用于修改后的残差)。在这里,关键是要使用可以倒置到时域的语音表示,并且可以在韵律和音素之间提供良好的分隔。最后,只要您可以使用说话者A和B对准他们的同一句话的录音,就可以使用统计模型在一个模型估计过程中同时处理步骤1、2、3和4。
I也许以后会再来一份参考书目,但一个很好的地方开始了解这个问题,解决该问题的整体框架是Stylianou,Moulines和Cappé的“基于概率分类和谐波加“噪声模型”。
据我所知,没有广泛的软件可以执行语音转换-仅软件可以修改源语音的属性-例如音高和声道长度参数(例如IRCAM TRAX变压器)-必须将其弄乱,以使您的录音声音更接近目标声音。
评论
$ \ begingroup $
糟糕的答案!没有提包的类比,我可能无法理解它。在这么清楚的解释之后,只有一件事我不理解:据我所知,您永远可以拥有B1!非常感谢你。
$ \ endgroup $
– clapas
13年2月13日在22:53
$ \ begingroup $
如果A和B讲不同的语言,那就不行(在语音转换中有许多不可思议的应用,其中,使用您自己的声音播放另一种语言的TTS!)。或者,如果A和B都是著名人物,那么您在所有公开的录音中都找不到足够长的普通句子,并且如果您不会说他们的语言,那么您就无法将声音用作两者之间的“桥梁”。
$ \ endgroup $
–小食
13年2月14日在0:23
$ \ begingroup $
我明白了。再次感谢@pichenettes。我将尝试看一看Stylianou等人推荐的书。干杯
$ \ endgroup $
– clapas
13年2月15日在10:34
$ \ begingroup $
请使用指向您的缩写词的链接来更新您的答案。例如。 LPC,VQ,GMM。
$ \ endgroup $
–aaronsnoswell
2015年12月8日23:40
$ \ begingroup $
回应aaronsnoswell的评论:LCP:线性预测编码,VQ:矢量量化,GMM:高斯混合模型。由于每个缩写词都是一个复杂的主意,因此,仅扩展这些首字母缩写并不会带来很大帮助,但是(大致)每个主意都与从一组现有样本中建模或解释pst或将来的数据有关,这并不明显。
$ \ endgroup $
– GregD
16年6月25日在2:06
#2 楼
您可以使用MorphVox之类的东西。这是一个示范。该过程称为语音变形或转换。如果您对技术方面有兴趣,可以阅读最近发表的文章:使用动态内核偏最小二乘回归进行语音转换。评论
$ \ begingroup $
Dark Vader的声音令人震惊,很有趣。好吧,我以前见过类似的效果。谢谢
$ \ endgroup $
– clapas
13年2月13日在23:03
#3 楼
我正在寻找同一件事,但无法完成。苏格兰有一家名为CereProc的公司,可以进行语音建模,但是他们需要在实验室录制音频的人,而为单个语音建模的成本约为3万美元。#4 楼
您要寻找的是声码器。您是否尝试过Audcity的声码器?可以从以下网站下载Audacity:http://audacity.sourceforge.net/download。有关如何使用它的演示,请访问https://www.youtube.com/watch?v=J_rPEmJfwNs。
评论
$ \ begingroup $
语音编码包括应用一个音频记录(通常是声音)的频谱包络来过滤另一种声音(通常是原始的未调制合成器声音)。它不能用于伪造某人的声音。
$ \ endgroup $
–小食
13年2月13日在20:20
$ \ begingroup $
是的,我知道Audacity,但是我没有尝试声码器。我认为您只能将白噪声应用于所录制语音的包络。谢谢
$ \ endgroup $
– clapas
13年2月13日在22:57
评论
我想如果您有足够的训练样本,对于特定的单词,那有可能在研究社区中,这称为“语音转换”。
@ user1582478我有很多人,你将如何进行?
是否可以通过说一个朋友来创建语音,然后通过电话进行现场直播,就像语音变体一样,但是使用您创建的语音?
这不能为问题提供答案。要批评或要求作者澄清,请在其帖子下方留下评论-您可以随时对自己的帖子发表评论,一旦拥有足够的声誉,您就可以对任何帖子发表评论。