是通常基于简单音调变化的常用匿名方法,还是大多数电视/媒体/等正在使用的更复杂的转换是一个简单的音高变化,足以使其无法恢复,或者反而很难恢复原始声音吗?我想如果将声音更改为具有较高的音调,可以通过降低音调来尝试获得原始声音,但是我不确定它的强度或可靠性。 >请注意,我只是在谈论语音质量,而不是在谈论其他可以使人立即匿名的功能(例如口音,方言,个人词汇和语等)。
#1 楼
一个简单的音调变化不足以掩盖语音,因为对手可以简单地将音频调回以恢复原始音频。大多数语音调制器使用声码器,而不是简单的音调变化。不幸的是,“声码器”一词如今已经非常繁重,因此要澄清一下,我指的是音乐中最常用的类型,而不是相位声码器,音高映射器或语音编解码器。其工作方式如下:
将语音输入音频(称为调制信号)分为多个时间片,并分析其频谱内容。在DSP中,通常使用FFT来实现,该FFT可将信号从时域(随时间变化的一系列幅度)有效地转换为频域,即频率递增的信号集合(如果组合在一起,表示信号)。在实践中,实现为固定数量的“桶”中的每个桶输出幅度和相位值,其中每个桶代表一个频率。如果要为每个存储桶生成一个正弦波,以FFT输出的幅度和相位偏移,然后将所有这些正弦波加在一起,您将得到非常接近原始信号的信号。
A产生载波信号。这是您希望语音调制器听起来像的任何合成声音,但是一般的经验法则是它应该相当宽。一种常见的方法是使用具有大量谐波的合成器类型(例如锯齿或方波)并增加噪声和失真。
载波信号通过一组滤波器,其中心频率与FFT桶的中心频率相匹配。每个过滤器的参数均由其关联的存储桶值驱动。例如,可以应用一个具有高Q因子的陷波滤波器,并通过FFT输出来调制滤波器的增益。
得到的调制信号就是输出。模拟方法如下:
使用带通滤波器将音频输入分为多个频带,每个带通滤波器仅通过一个狭窄的频率范围。 “过程”块获取结果并执行某种幅度检测,然后将其变为压控放大器(VCA)的控制信号。顶部的路径通常通过对输入执行包络检测并使用它来驱动压控振荡器(VCO)来生成载波波形。然后,通过右侧的带通滤波器将载波过滤到各个频带中,然后通过VCA对其进行驱动并组合成输出信号。整个方法与上述DSP方法非常相似。
还可以应用其他效果,例如前置和后置滤波,噪声和失真,LFO等,以便取得理想的效果。
之所以难以反转,是因为原始音频从未真正传递到输出。而是从原始音频中提取信息,然后将其用于生成新信号。该过程从本质上来说是有损的,足以使其逆转。
评论
多项式是正确的。虽然只是为了扩展,但“音高”改变只是在频域中上下移动整个语音信号。因此,它实际上并没有以任何其他方式改变信号,而要恢复原始信号,只需将其移回原位即可。当然,您必须猜测中心频率最初可能在哪里,但是人类的言语在这方面并没有太大变化,而且人们只能猜测什么听起来正确。因此,间距绝对是不够的。
–贾罗德·克里斯特曼(Jarrod Christman)
20 Mar 12 '20 at 14:06
是否有数学定理确定输出难于求逆(无论如何形式化)?
– ComFreek
20 Mar 12 '20 at 16:19
@comfreek 1)该过程是有损的。信息被丢弃。 “……只有一个狭窄的频率范围……”这就像老式电话将频率限制在一定范围之内或之下。 2)有随机噪声注入。祝你好运。 3)一些谐波会丢失。这些是建立声音音色的关键。 en.wikipedia.org/wiki/Human_voice
– Mindwin
20 Mar 12 '20 at 17:10
@Mindwin这些都是很好的实用论据。我更想寻找一个经过严格验证的定理-与加密技术一样,它为某些对称密钥加密算法确保窃听者/ CPA / CCA安全。也许人类语音的可识别性太复杂而难以建模。
– ComFreek
20-3-12在19:13
@ComFreek的“信息丢失”足以严格证明原始声音无法完美重建。因此,现在只需要确定“最可能的重构”与原始声音的接近程度即可,这取决于您的威胁模型。对手是否已经将可能性缩小到两个听起来完全不同的人?还是他正在尝试从所有人类中识别出一个完全未知的声音?在这些情况下,需要的瑕疵水平差别非常大。
–卡尔·莱斯(Carl Leth)
20 Mar 12 '20 at 19:28
#2 楼
tl; dr–一般而言,它不是可逆的,但是在实践中它可能仍会被逆转。名字并给出其中的字母数。例如,将"Alice"
转换为5
。这是一个有损过程,因此通常无法将其反转。这就是说,我们通常不能说
5
一定要映射到"Alice"
,因为它也可能要映射到"David"
。排除任何不会转换为5
的名称。例如,显然不是5
。所以现在说您是一名警探,正在尝试解决案件。您已将犯罪嫌疑人的范围缩小到Alice和Bob,并且您知道罪魁祸首的匿名名称是
"Christina"
。当然,您不能完全反转5
,但是,在这种情况下,理论上的观点真的对爱丽丝有所帮助吗? >在过去的好日子里,在使用计算机之类的东西之前,可能足以使人的声音有损转换。然后,如果第三方想要恢复原始讲话者的声音,则他们无法恢复–那时,可能就是这样。 用可能的先验概率建立可能性的集合。
象征性地运行语音匿名软件以生成概率的声音集合。
与一组嫌疑犯一起使用该合奏的内积,以生成一组知情的概率。
此方法适用于所有不完全有损的变换。但是,所得信息的有用性将随匿名方法的损失程度而有所不同。尽管一般而言不可逆转,但轻度有损转换在实践中仍可能在很大程度上是可逆的,而重度有损转换可能只产生很少的有用信息,因此实际上是不可逆的。
#3 楼
不,这肯定是不安全的。完全消除了任何实际的语音信息。剩下的唯一事情就是通过规范化/规范化您的语音/句子来使方言匿名化。非常困难。规范思想非常复杂。如果没有这些信息,您将泄露个人身份信息。
#4 楼
与InfoSec一样,它取决于您的威胁和对手的资源。如果您想和哥哥开个玩笑,那么假口音就足够了。如果您想欺骗您的妻子,那就更难了。
如果您要尝试与具有足够技术资源的对手进行复杂的对话,具体取决于上下文,那么在没有大量帮助的情况下几乎是不可能的,除非您对他们知道您隐藏了自己的声音。
问题不在于音调,而是您无意识地做的各种事情。您说的是“流行短语”。您对自己的讲话,单词用法以及更重要的是您一贯滥用的特定单词有节奏。您会说出的单词发音与大多数人不同,或者带有区域口音等。这几乎就像是一个指纹。
您可以在其中捕捉到的东西中锻炼自己,但是那才成为您的指纹。
您可以(如果您是个好演员)“采用角色”,并故意改变许多“仅针对角色”的内容,然后在完成时将其删除。这会愚弄许多类型的分析,但这是很多工作,您必须每次都进行。
#5 楼
我们现在处于机器学习时代。通过信息转换实现的任何混淆都不应被认为是安全的。现在不要。当然不反对未来的技术。 ML可以逆向转换。
您可以从歧管拓扑学的角度来思考。假设小猫图片变形,投射到某个流形上。比方说一个圆柱体。就像人的大脑可以感知流形并解开图像一样,ML也可以。
要实现真正的混淆,必须将信息内容与信息样式分开。也可以通过ML来实现。
您可以查看来自https://towardsdatascience.com/a-neural-algorithm-of-artistic-style-a-modern-form-of的图像-creation-d39a6ac7e715以获得视觉效果。
老式语音匿名器可能会将传入的音频分解为MFCC特征向量,并将这些向量重构为音频。如果稍微先进一点,它可能会将这些MFCC分解为定时音素,然后从中重新构造音频。
最安全的方法是使用现有的STT-> TTS技术。 />
,但是简单的音调变换并不比将小猫咪包裹在圆柱上更好。您仍然可以确定它是否是您的小猫。
评论
1.“因为魔术(ML)可能会击败它”不是答案。 2.您已将小猫图片等同于语音匿名,但没有证明或解释它们实际上是如何相关的。您能否解释或扩展“ MFCC特征向量”和“ STT-> TTS技术”的含义?这些似乎是您答案的实际有效点,但您提供的信息不足以使他们理解它们。
– schroeder♦
20-3-13在7:41
我对此也很好奇。像神经网络一样,机器学习技术是在数据集上训练的复合功能。如果您使用混淆技术实际上删除了数据,并可能在其中添加一些随机性,那么人们仍然可以将其理解为声音。但是,如果您要尝试训练NN来重建原始数据,则必须猜测和内插以尝试恢复丢失和随机移位的数据……这可能无法证明是100%的反向版本迷惑,永远。
–贾罗德·克里斯特曼(Jarrod Christman)
20-3-13在16:28
@JarrodChristman的目标不是完全逆转转换,而是将语音“指纹”恢复到足够高的保真度以至于可以确定说话者。这个答案可以改善,但很重要的一点是现代机器学习技术(例如自动编码器)可以非常有效地逆转信息保存的转换。因此,匿名器的目的是在不破坏听众辨别语言内容的能力的情况下破坏说话者识别信息。
–加藤
20-3-13在20:56
@reo,取决于您所关注的威胁。如果是法律威胁,我认为您有很好的抗辩理由,可以轻视重建后的声音作为证据。
–贾罗德·克里斯特曼(Jarrod Christman)
20 Mar 14 '20 at 0:58
奇怪的是,这被否决了。这是100%正确的。人工合成一百小时的音调转换音频并将其馈送到ML很容易。它将学习如何取消音频移位。确实,MFCC是STT中使用的非常常见的音频转换,正是因为该转换消除了说话人的变化。这使STT更容易,并且出于同样的原因,这使它成为语音匿名化的合理选择。
– MSalters
20年10月10日在15:48
评论
再说一次,呼叫者通常不是通过他们的声音来识别的,而是通过在后台听到特定火车的独特的哨声和啄木鸟的一种极为罕见的声音这一事实。