考虑以下4个波形信号:

signal1 = [4.1880   11.5270   55.8612  110.6730  146.2967  145.4113  104.1815   60.1679   14.3949  -53.7558  -72.6384  -88.0250  -98.4607]

signal2 = [ -39.6966   44.8127   95.0896  145.4097  144.5878   95.5007   61.0545   47.2886   28.1277  -40.9720  -53.6246  -63.4821  -72.3029  -74.8313  -77.8124]

signal3 = [-225.5691 -192.8458 -145.6628  151.0867  172.0412  172.5784  164.2109  160.3817  164.5383  171.8134  178.3905  180.8994  172.1375  149.2719  -51.9629 -148.1348 -150.4799 -149.6639]

signal4 = [ -218.5187 -211.5729 -181.9739 -144.8084  127.3846  162.9755  162.6934  150.8078  145.8774  156.9846  175.2362  188.0448  189.4951  175.9540  147.4631  -89.9513 -154.1579 -151.0851]




我们注意到信号1和2看起来相似,信号3和4看起来相似。

我正在寻找一种算法,该算法将n个信号作为输入,并将它们分为m组,每组中的信号相似。

算法通常是为每个信号计算一个特征向量:$ \ mathbf {F} _i $。 ]。
,将得到以下特征向量:

$ \ mathbf {F} _1 = [13,146,245] $

$ \ mathbf {F } _2 = [15,145,223] $

$ \ mathbf {F} _3 = [18,181,406] $

$ \ mathbf {F} _4 = [18,189,408] $

确定特征向量时重要的一点是,相似信号的特征向量彼此接近,而异相似信号的特征向量彼此相距遥远。

上面的例子中我们得到:

$ | \ mathbf {F} _2-\ mathbf {F} _1 | = 22.1,| \ mathbf {F} _3-\ mathbf {F} _1 | = 164.8 $

因此,我们可以得出结论,信号2与信号1的相似度要比信号3的相似度要高得多。信号的余弦变换。下图显示了信号以及离散余弦变换的前5个项的近似信号:


这种情况下的离散余弦系数为:

F1 = [94.2496  192.7706 -211.4520  -82.8782   11.2105]

F2 = [61.7481  230.3206 -114.1549 -129.2138  -65.9035]

F3 = [182.2051   18.6785 -595.3893  -46.9929 -236.3459]

F4 = [148.6924 -171.0035 -593.7428   16.8965 -223.8754]


在这种情况下,我们得到:

$ | \ mathbf {F} _2-\ mathbf {F} _1 | = 141.5,| \ mathbf {F} _3-\ mathbf {F} _1 | = 498.0 $

比率不如上面的简单特征向量那么大。
这是否意味着简单特征向量更好?

到目前为止,我只显示了2个波形。下图显示了一些其他波形,这些波形将成为该算法的输入。从该曲线图中的每个峰中提取一个信号,从峰的左侧最近的分钟开始,直到峰的右侧最近的分钟停止:

例如,提取了signal3是从样本217和234之间的该图中提取的。Signal4是从另一个图中提取的。每个这样的曲线图对应于麦克风在空间中不同位置的声音测量。每个麦克风接收相同的信号,但是信号在时间上略有偏移,并且在麦克风之间失真。

特征向量可以发送到聚类算法,例如k-means,该聚类算法会将信号分组在一起具有彼此靠近的特征向量。

你们中的任何人在设计特征向量时是否有任何经验/建议,这些特征向量可以很好地区分波形信号?

还有哪些聚类算法会使用吗?

预先感谢您提供任何答案!

评论

输入信号与M个模板之一的优良点积又如何呢?您将选择误差最小的那个。对我而言,这就是我将要开始的地方。你有没有尝试过类似的东西?

嗨,穆罕默德!问题是我事先不知道波形。我对峰周围的所有信号都感兴趣,它们可能具有许多我事先不知道的不同形式。

与直接将它们直接用作“特征”相比,尝试寻找新特征来表征这些向量的原因是什么? (尽管它们的长度必须相同)。在k均值聚类的情况下,将首先计算在所获取信号的最小值处提取的那些小矢量之间的“距离”,然后算法将尝试找到将它们分组为最小方差的k组的集合,这就是你似乎在追求。

嗨,A_A! 1.减小向量的维数。在信号3从18到5的情况下,使用离散余弦系数。 2.正在进行平滑。信号很吵,我对快速波动不感兴趣。

机器学习的人会认为您永远不要丢掉信息-系统应该学习一切。当然,他们是设计算法的人,这些算法将花费一百万年的时间才能运行,但是重点并非没有优点。从本质上讲,您希望舍弃尽可能少的信息并了解所剩内容。这使我感到震惊,这是应该在贝叶斯框架中解决的一个问题(坦率地说,因为当今大多数信号处理都应该如此),但这并不意味着确定显着特征并不重要。

#1 楼

您只希望使用客观标准来区分信号,或者在有人聆听时它们具有某种相似性是否重要?当然,那将不得不限制您发送更长的信号(超过1000个样本)。