人类为什么要在人群中挑出音频？机器人需要做什么？

机器人 | 2021-01-05 | 编程黑洞网 | 0条评论 | 243 人阅读

我今天早些时候在一次机器人技术会议上，一位发言者提到机器人在人群中无法很好地发挥作用，因为它们无法像人一样挑出音频。

人们为什么能很好地选择音频？机器人需要做什么呢？

我知道像Bose Aviation耳机那样的主动降噪（ANR），但这并不是我要说的。我正在考虑是否可以处理所有事情，但只处理您认为重要的事情。

#1 楼

发言人在会议上说的话不准确。也许他们的意思是“我们的机器人无法像人一样挑出音频”，但是“机器人无法像人一样挑出音频”的说法是错误的。

以下是部分系统列表，可以确定音频信号的来源并进行跟踪：

会议电话（和许多手机），使用本文所述的技术

火力定位器
带有拖曳式麦克风阵列的水下机器人，例如本文所述的AUV

移动式陆基机器人

您正在寻找的术语是麦克风的“相控阵”（另请参见：Matlab相控阵工具箱）。 NASA使用相控阵来定位旋转的风扇叶片产生的噪声。

$ \ begingroup $
自从上音频课以来已有一段时间，但我也相信任何给定的声音都应该具有可以合理地假定为人群中独特的特征。
$ \ endgroup $
–埃里克·雷彭（Erik Reppen）
13年7月19日在2:24

$ \ begingroup $
要添加到列表中，Kinect for Windows传感器具有一个麦克风阵列，可用于确定音频来自哪个播放器。
$ \ endgroup $
–野生甲壳动物
13年7月19日在21:03

$ \ begingroup $
太好了，您是否具有如何从Kinect访问该信息的链接？
$ \ endgroup $
–伊恩
13年7月19日在22:15

$ \ begingroup $
+1。但是，机器人可以对重要的内容做出实时决策，并根据这些内容进行过滤吗？在我看来，您的清单仅包含机器人可以预先学习的声音。
$ \ endgroup $
– Adrian Keister
13年7月20日在20:38

$ \ begingroup $
当然。该技术称为波束成形。假设您对“重要”有一些可过滤的标准，一旦拾取该信号，便会从该空间位置跟踪其运动。
$ \ endgroup $
–伊恩
13年7月20日在22:36

#2 楼

我认为至少发生了三件事：

过滤取决于声音的来源。我们的立体声听力结合耳朵构造的某些属性，可以帮助我们隔离来自特定位置/方向的声音。
滤波取决于音频的频率/振幅。
音频使我们能够重建输入。如果有多个人在互相讲话（或通常在有噪音的情况下），我们只需要了解所讲内容的一小部分（有时甚至是目视观察）即可知道所讲的内容。我认为机器人可以在＃1和＃2上胜过人类。使用麦克风阵列，您会认为您可以有效地专注于空间中的单个点并消除所有其他干扰。反射和各种其他干扰可能会使情况变得更加复杂。＃3可能很难让计算机完成。

$ \ begingroup $
今晚的秘密是立体声。询问任何因任何原因失去此能力的人。因此，如果程序员知道如何处理输入，那么程序甚至具有2个或更多麦克风的机器人都将具有此功能。
$ \ endgroup $
– ott--
13年7月17日在20:50