诸如Intellihub和CEPro之类的一些新闻来源似乎表明,亚马逊的Echo家庭助理不断收听对话,并通过Internet将其发送到亚马逊的服务器。 CEPro指出:

通过说一个关键词,亚马逊将其称为“唤醒词”,Echo栩栩如生并开始监听命令。默认情况下,唤醒词为Alexa。
如果重读最后一句话,可能没有意义,尤其是在安全领域。根据亚马逊的说法,回声仅在听到唤醒字后才监听命令。

Intellihub的文章在情感上是类似的:

“ Amazon Echo”设备,可以不断听音乐的蓝牙扬声器,以人的声音连接到Pandora和Spotify之类的音乐流服务,很容易被联邦调查局等政府机构入侵并用来收听对话。 (请注意,我并不是特别关注探索此问题的黑客方面,因为对于一个问题而言,这可能太过分了。我的主要重点是始终在线的方面以及它是否始终在发送数据。) />这两篇文章似乎都没有特别热衷于公开其主张的来源,这向我暗示说,这些主张充其量是未经证实的,或者是最糟糕的是单击诱饵。以上说法没有根据?如果Amazon Echo并不总是将数据发送到云中的服务器,该如何处理数据?

#1 楼

是的,它一直在听。不,它并不总是发送到云中。
显然,设备必须始终在侦听以检测唤醒字。但是,这是通过一种称为“技术”的技术来完成的。


Amazon Echo和Echo Dot如何识别唤醒词?设备关键字发现以检测唤醒词。当这些设备检测到唤醒词时,它们会将音频流传输到云,包括唤醒词之前的几分之一秒的音频。

(Echo FAQ)
,据亚马逊说,唤醒字检测在设备上。通过禁止设备访问路由器中的Internet,可以很容易地对其进行测试。 Echo / Echo Dot仍会识别唤醒字,但是指示灯响红色,并且设备告知您没有互联网连接。因此,我们可以非常简单地验证唤醒词识别的确是在本地完成的。
仅在检测到唤醒词后,设备才与Alexa云服务联系。灯环为蓝色时云雾状,静音时根本不听,灯环呈红色常亮。当然,谨慎的人可以使用Wireshark之​​类的网络工具进行验证,以确保它仅在那时进行传输。

评论


显然,这不再完全正确:Alexa设备现在可以通过云验证唤醒字作为附加检查,因此可以将类似于唤醒字的内容发送到云。

–Aurora0001♦
17年5月15日19:30



#2 楼


Echo是否一直在记录数据并将其发送到云,还是上述声明没有根据?


发送时没有。但是录音上是肯定的。

我目前正在为一家公司开发Alexa硬件客户端。设备始终在监听。但是您必须在其上放置一个唤醒词引擎,这样它才能从被动监听模式“唤醒”,并切换到主动“监听命令”模式。

固件只能将唤醒字之后的语句(切换到活动模式)发送到云中以作为命令处理它们。声明它将进入云进行处理,因为这会消耗过多的带宽和功率。
就亚马逊而言,他们也不希望每个Alexa客户端都发送它听到的所有信息,因为这将花费巨大的带宽。此外,这将导致太多无关的数据,从而干扰系统的持续学习。想象一下,当班上的每个人都在讲话时(每个其他不是命令的语句)尝试学习老师在说什么(有效命令)。


Amazon Echo的工作方式如果不是总是向云端服务器发送数据,该如何处理数据?


在被动模式下,该设备具有内部唤醒字引擎,可随时监听唤醒字。在Raspberry Pi中测试Alexa时,出于这个目的,我不得不安装Sensory或KITT.AI引擎。实际上,当我为Linux机器试用原型Alexa客户端代码时,由于没有唤醒单词引擎,因此必须“一键通”。

评论


感谢您指出唤醒语言引擎-从表面上看,几乎可以肯定这是亚马逊使用的方法。您对数据的类比也非常好-非常感谢!

–Aurora0001♦
16 Dec 17 '16 at 20:20

#3 楼



通过说出一个关键词,亚马逊将其称为“唤醒词”,从而使Echo栩栩如生并开始监听命令。默认情况下,唤醒词为Alexa。

如果重读最后一句话,则可能没有意义,尤其是在安全性字段中。根据亚马逊的说法,回声仅在听到唤醒字后才监听命令。




Echo积极地侦听关键字并接受关键字之后说出的NLU处理。这是我的理解,echo是如何实现这一壮举的。

Echo基于德州仪器(TI)DM3725数字媒体处理器构建。 Cortex-A8 MPU,第二个是TMS320DM64x + DSP。 ARM内核应运行Linux,DSP应运行固件。

空转时,ARM内核处于最低功耗状态,Linux完全挂起。此时,DSP和64KB片上RAM处于活动状态。 DSP固件处理来自麦克风的噪音,并尝试识别是否说出了关键字(例如Alexa)。一旦确定有关键字,DSP就会发送一个中断以唤醒ARM内核,从而恢复Linux。但是,请记住,当Linux正在唤醒那些说Alexa将继续讲话的人时(例如,“ Alexa,现在几点了?”)。 DSP缓冲“现在几点?”片上RAM的一部分。恢复Linux之后,Linux会提取缓冲的语音并使用自然语言处理(部分为本地,部分为云)功能来理解人类所说的话。如您所见,该设计完全是为了省电而设计的,并且避免了将云用于关键字检测和初始缓冲的需要。事实上,保持ARM内核处于最低功耗状态可确保闲置时硅的热量最少,从而为您的设备带来长寿命。回显问题所在:


唤醒词识别确实在本地完成。


评论


将大多数简单命令(如现在几点)或在本地播放电台有多难?这还将消除云滞后时间。

–flyingdrifter
19年7月4日在21:52

#4 楼

是的。
例如,请参阅新的Amazon Echo有多私人? (还有很多类似的东西可以轻松找到)

像Siri一样,Amazon Echo在Amazon Web Services上运行的“云”中工作。因此,“理解”您的
命令所需的处理不会在设备本身上进行。我们不担心大哥吗?
不,亚马逊说。这家科技巨头表示,它不会在家里听或录制私人谈话。如果有人担心,他们可以
使用捆绑的遥控器按静音按钮,该按钮会关闭“始终收听”设备,因此直到您激活
麦克风之前,该设备才无法使用再次。


评论


很好,谢谢。尽管它并不总是记录和发送数据,但它没有提及Echo如何识别唤醒命令的任何内容,因此我很想进一步了解该方面。

–Aurora0001♦
16 Dec 17'在10:07



当然是重点吗?它始终在侦听并将所有内容发送到云,这是识别唤醒命令的地方。您需要引用吗?

–莫格说要恢复莫妮卡
16 Dec 17'在10:09

是的,这很有用(是的(我认为这可能会将您的答案总体上更改为“是的,它一直在听”))。谢谢。

–Aurora0001♦
16 Dec 17'在10:13



我不知道回声中有多少处理能力,但是我知道我的智能手表能够在不被束缚的情况下检测到“ ok google”-从云加载的角度来看,一旦将其迁移到边缘,这是有意义的准备好-答案可能会改变。

– Sean Houlihane
16 Dec 17'在10:56

将来可能会(但是为什么呢?)

–莫格说要恢复莫妮卡
16 Dec 17'在10:58