什么样的音频数学模型可以使（音色复杂）复音中的单个音符变音？

我的问题是：在和声声学乐器的多声道单通道录音中，复音的数学模型可以使单个音符发生变化（即音高变化）吗？通过“改变和弦音频中的音符”，我的意思是使用celeony的Melodyne软件中的所谓“直接音符访问”功能来编辑声音。

根据维基百科，Melodyne用来模拟在声学（因而音色复杂）乐器上播放的单行旋律的音频信号的模型，就像Henning Thielemann在他的论文中所描述的那样：单音中的时间和时间”，但是，我找不到关于多音乐器的音频信号模型的任何参考；根据Peter Neubacker在YouTube上的一次采访（见下文），Melodyne的用于编辑和弦音频的功能需要一种不同于Thielemann所描述的方法。仅对一种乐器的音频记录（即仅钢琴，仅吉他，仅弦乐器，仅管乐等）的录音效果更好。另一个提示是另一个剪辑，它显示了不仅可以改变音符的音高而且还可以改变其音符（开始和结束）的时间的能力。

下面是youtube视频的抄本，其中提到“和弦材料要求采用不同的方法”（以防您从22:00开始没有时间观看）。

出现了这样的问题：Melodyne产生了：我怎样才能从这样的3维形式（用手打手势）中获得声音？
br />通过这种方式，声音可以摆脱对连续时间的依赖了吗？这个雕塑实际上就是从这个雕塑中产生的。
是一块塑料...。这直接来自音乐数据。这个对象是[在琵琶上摘一个音符]这个音符。最好
这样从左到右可视化。时间朝着这个方向
[从左到右手势]。这就是振幅[用手指相对的拇指示意大而小的]。如果我打开它，它...
表示在任何给定实例中此声音的音色。您可以在这里很清楚地看到一个三角形的结构（指向
底部的横截面）。这是因为在这种声音中，第三次谐波（第五次）特别响亮，并且
引入了三次性元素。

因为旋律尚不存在，并且我只是在尝试将声音转换为这种形状，而我在这种声音上工作了将近一年。 ...我从内而外都知道这种声音。这也很好地说明了本地声音。我不仅可以播放[点击鼠标]的声音，还可以输入
任何一点的声音，并按照自己喜欢的速度缓慢或快速地移动。我什至可以在声音中徘徊，或者向前或向后移动，所以如果我在这里检查一个地方，请绕过去。 ...十年前是新的。

最近添加了dna（直接注释访问）。有了它，我也可以编辑和弦音乐。换句话说，我可以同时编辑
声音的音符，例如吉他录音。如果我
现在弹一个小和弦（选择“ Poly->屏幕上的单独音符”），
我们将在这里看到我刚刚作为单独实体演奏的3个音符。让我们
再听一遍[计算机演奏小和弦]。现在，就像通过
将手指移到更高的品格上一样，我可以举起一个音符
[在屏幕上拖动音符；电脑演奏大和弦]。对于
音频分割，我可以将这一个音符隔离开，并且可以随意将其向上或向下移动至任意音高。没有人以前能够隔离单个音调
这样复杂的材料？老实说我不知道。在科学中，
的自然趋势是从简单的事情开始，例如以正弦波为例，或者单独注释，然后首先进行分析，只是发现材料变得更加复杂时，或必须对其进行整体处理，以确保该系统无法正常工作。我的方法是
不同。我实际上是从复杂的信号开始的，只有当我想详细研究一些东西，然后再回到简单的东西上，
，但是首先，我必须对实际的东西有一个总体印象/>发生在现实中。

秘密可能就在这本书中吗？呵呵，这实际上是
。石头最初提出的问题是我该如何将给定的声音转换为三维形式。在这里，我
以螺旋形排列了声音的各个采样值，在这里以两个三表示。结果发现，如果您在点之间进行插值[横跨螺旋形手势]，则会出现一个
景观，该景观也代表声音中的各个横截面雕塑]。

几岁了？ 12年。这样的想法是
美洛狄安（Melodyne）的源泉，在我们今天看到的所有事物中……是的，但是
这种将声音缠绕起来的方式将不再用于
和弦材料，这需要一种不同的方法。

现在没有时间，但是您可能想阅读Bill Sethares的一些有关Consonance的作品。在接下来的几天里，我将尽力消化您的信息并做出更全面的回答。

我不确定是什么问题。隔离单个音符并“聚集声音”使我想到将频谱螺旋缠绕，以使音符的谐波彼此对齐：nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html

#1 楼

TL; DR？用于谐波部分分离的Google学术搜索。

一个好的起点是正弦建模技术，该技术可以将信号分离为正弦+噪声（确定性和随机性）分量。由正弦组成的确定性组件可以令人信服地重新合成：

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

从信号中减去正弦，并保留了噪声/随机部分。

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

通过将噪声经过某种噪声整形来合成随机部分过滤。其他一些人将其扩展到一个正弦+噪声+瞬态模型，该模型有助于在时间扩展中保留瞬态随机特征。

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

一旦有了信号的正弦参数，就可以通过查找谐波比率和按开始分组等来分离重叠音符的正弦。部分跟踪会在Google Scholar上产生很多结果。 br />
http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http：//dream.cs.bath。 ac.uk/software/sndan/mqan.html

隐藏的马尔可夫模型，多项式和Macaulay-Quatieri是其中的一些方法。
我很困惑地将随机剩余部分分为两个注释。我不知道Melodyne如何解决这个问题。

#2 楼

melodyne中使用的方法需要2个独立的频域操作。首先，和弦转录技术用于将和弦音频的频率分量（来自标准频率变换）分组为音符激活。换句话说，根据最可能的音符激活对谐波子集进行分组。请参阅我对本论坛上“逆和弦和弦识别”的回复，以获取参考和数学模型。我不确定，但我几乎可以保证Melodyne使用相位声码器方法来实现这一目标。您也可以使用此技术进行时间拉伸。我们在Riffstation中使用了类似的技术，并且效果很好。

#3 楼

一种可能是使用统计模式匹配方法进行分析/重新合成。如果您知道或可以合理地猜测所涉及乐器的混合，并具有所有预期音符的乐器声音模板（包括初始瞬变，频谱和频谱演变等），则可以尝试对大量理智的和弦进行统计匹配使用模板声音模式的组合来估计最可能的复音组合。这很可能是对全局极小值的大量计算密集型搜索，其中各种类似于“ AI”的搜索技术可能会有用。然后，您可以采用各种不同的和弦概率，然后使用决策理论来及时选择最可能的复音序列。

编程黑洞网

什么样的音频数学模型可以使（音色复杂）复音中的单个音符变音？

评论

#1 楼

#2 楼

#3 楼