CN110719553B

CN110719553B - 具有认知声音分析和响应的智能扬声器***

Info

Publication number: CN110719553B
Application number: CN201910631643.9A
Authority: CN
Inventors: M·S·戈登; J·科兹洛斯基; A·康杜; C·A·皮茨克维尔; K·维尔德马莱姆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-07-13
Filing date: 2019-07-12
Publication date: 2021-08-06
Anticipated expiration: 2039-07-12
Also published as: CN110719553A

Abstract

提供了一种与包括音频捕获设备的智能扬声器设备相关联的智能扬声器***机制，用于处理由音频捕获设备捕获的音频样本数据。该机制从智能扬声器设备的音频捕获设备接收从监控环境中捕获的音频样本。该机制基于对音频样本数据中的声音的多个不同特性进行联合分析并将联合分析的结果与在多个声音模型中指定的标准进行匹配，将音频样本数据中的声音分类为声音类型。该机制基于声音的分类来确定是否要基于声音的分类来执行响应动作。响应于确定要执行响应动作，该机制启动智能扬声器***执行响应动作。

Description

具有认知声音分析和响应的智能扬声器***

技术领域

本申请一般涉及改进的数据处理装置和方法，更具体地，涉及用于提供认知声音分析和响应的智能扬声器***的机制。

背景技术

近年来，智能扬声器技术在能力和普及方面已经增加。智能扬声器是一种利用Wi-Fi、蓝牙或其他通信标准并提供超出音频播放以外的特征的无线扬声器和智能设备。这可以包括诸如跨多个服务和平台的兼容性、通过网状网络的对等连接、智能个人助理之类的特征。每种智能扬声器都可以拥有自己的指定界面和内部特征，通常经由应用或家庭自动化软件来启动或控制。智能扬声器的示例包括Amazon Echo^TM、Google Home^TM、支持AppleSiri^TM的设备、支持Microsoft Cortana^TM的设备等。

发明内容

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在本文的具体实施方式中进一步描述。本发明内容不旨在识别要求保护主题的关键因素或必要特征，也不旨在用于限制所要求保护主题的范围。

在一个说明性实施例中，提供了一种在与包括音频捕获设备的至少一个智能扬声器设备相关联的智能扬声器***中处理由音频捕获设备捕获的音频样本数据的方法。该方法包括由智能扬声器***的智能扬声器***逻辑从智能扬声器设备的音频捕获设备接收从监控环境中捕获的音频样本。该方法还包括由智能扬声器***逻辑基于对音频样本数据中的声音的多个不同特性执行联合分析并将联合分析的结果与在多个声音模型中指定的标准进行匹配，将音频样本数据中的声音在认知上分类为声音类型。另外，该方法包括由智能扬声器***逻辑基于声音的分类来确定是否要基于声音的分类来执行响应动作。此外，该方法包括响应于确定要执行响应动作，由智能扬声器***逻辑启动智能扬声器***执行响应动作。

在其他说明性实施例中，提供了一种包括计算机可用或可读介质的计算机程序产品，该计算机可用或可读介质具有计算机可读程序。该计算机可读程序当在计算设备上执行时使该计算设备执行上面关于方法的说明性实施例概述的操作中的各个操作或其组合。

在又一个说明性实施例中，提供了一种***/装置。该***/装置可以包括一个或多个处理器和耦合到一个或多个处理器的存储器。存储器可以包括指令，该指令当由一个或多个处理器执行时使该一个或多个处理器执行上面关于方法的说明性实施例概述的操作中的各个操作及其组合。

本发明的这些和其他特征和优点将在以下的本发明的示例实施例的详细描述中进行描述或者鉴于以下描述将对于本领域普通技术人员变得显而易见。

附图说明

当结合附图阅读时通过参考以下说明性实施例的详细描述，本发明及其优选使用模式和进一步的目的和优点将能得到最好的理解，其中：

图1描绘了根据一个说明性实施例的智能扬声器***的一个说明性实施例的示意图；

图2是在其中可实现说明性实施例的各方面的数据处理***的示例框图；

图3是说明根据一个说明性实施例的智能扬声器***在认知***请求处理流水线的各个阶段中的交互和/或实现的示例图；

图4是概述根据一个说明性实施例的用于处理由智能扬声器设备捕获的音频样本的智能扬声器***的示例整体操作的流程图；

图5是概述根据一个说明性实施例的用于识别所捕获的音频样本中的声音的示例操作的流程图；

图6是概述根据一个说明性实施例的用于识别在监控环境中的事件发生并启动响应动作的示例操作的流程图。

具体实施方式

说明性实施例包括用于提供具有认知声音分析和响应的智能扬声器***的机制。如上所述，随着使得家庭自动化和音频娱乐更易于使用和用户友好的各种智能扬声器设备和服务的发布，智能扬声器技术最近越来越受欢迎。根据目前的趋势，这些智能扬声器设备将在未来的智能家居中扮演更占优势的角色。这些已知的智能扬声器设备的定义特性是需要具有固定的预定义唤醒词或短语，智能扬声器必须识别这些预定义唤醒词或短语以便确定它将在这些唤醒词或短语后对用户的话语执行语音识别。例如，这种固定的唤醒词或短语的示例包括Apple Siri^TM设备的“Hey，Siri......”、Microsoft Cortana^TM设备的“Cortana......”或Amazon Echo^TM设备的“Alexa......”。已知的智能扬声器并不自主地将不同的声音类型识别为唤醒声音，并且不提供任何功能以用于分析各种声音以对其进行分类、确定声音模式、在认知上分析这种模式以识别在监控环境内发生的事件、以及响应于这种事件的识别来自动在认知上确定要执行的合适反馈或响应动作。

本发明提供一种能够分析可变唤醒声音的智能扬声器***，可变唤醒声音激活智能扬声器***的功能以用于在认知上自动地分析声音，将声音识别或分类为源自特定声源类型的特定声音类型，分析在彼此的指定时间窗口内发生的声音模式以识别潜在事件，以及响应于识别潜在事件来确定要执行的合适的响应动作。声音模式的分析可以考虑从声音和声音模式本身的分析中获得的多个不同信息以及可针对任何监控环境一般性的、特定于由特定智能扬声器设备和***监视的特定环境的、或者甚至特定于智能扬声器设备的特定用户或操作者的其他知识数据库和信息源。

例如，对于在其中存在智能扬声器***的音频接收器的特定监控环境，智能扬声器***可识别与被学习的在一天中的特定时间出现的环境声音明显不同的任何声音。这些声音可根据特定实现而采取许多不同的形式，并且可包括例如狗叫声、嘈杂声、咳嗽声、呼救声、火警声音、一氧化碳报警声音、机器发出的不正常的噪音(例如，由于缺陷、事故或部件磨损)、说出诸如素数或紧急词/短语(例如，作为用户安全信号等)的代码/令牌的声音、吹口哨声音、某人摔倒在地板上的声音、环境墙壁上的害虫噪音(例如，老鼠、蜜蜂)、车祸声音、婴儿或儿童哭泣声音、玻璃破碎的声音、门铃声或任何其他可指示除了正常的环境声音情况之外的在监控环境内发生某事的可区分的声音，这对于执行响应动作来说很重要。可以提供声音模式、声音特征等以及它们相应的声音类型和源类型的注册表或数据库，在此也称为声音样本档案，以用于将检测到的声音分类为来自特定声源类型的对应的声音类型。此外，还可以提供声音模式的注册表以用于确定对应的事件是否在监控环境中已经发生，声音模式可包括声音的相关性、声音的序列、或者指示在监控环境内发生的事件的所识别声音的其他模式。

说明性实施例可以包括一个或多个麦克风或其他音频捕获设备，其在监控环境内或与监控环境相关联的单个智能扬声器设备、多个智能扬声器设备或其他分布式音频捕获设备阵列中。在一些实施例中，音频捕获设备可以是在监控环境内移动的智能扬声器设备的一部分，诸如机器人底盘的一部分，该机器人底盘的移动或者在监控环境中被自动引导或者由操作人员远程控制。音频捕获设备用于捕获音频数据，例如表示从监控环境中捕获的声音波形的数据。然后，音频数据可在本地和/或远程存储，并被分析以识别在音频数据中存在的声音和声音的源。例如，音频数据的分析可以包括首先诸如在本地级别确定所捕获的音频数据是否表示对附加分析可能重要的一个或多个声音，即，与所学习的监控环境的环境声音不同并传递初始标准集合的声音，该初始标准集合可以是用户可配置的，用于指示需要进一步的分析。

此后，可在本地或远程(例如在远程服务器或其他计算设备处)执行对包括被确定为重要的声音的音频数据的更认知和详细的分析。例如，这种分析可包括执行模式分析、特征提取(例如，幅度、频率、持续时间等)、与已知的声音或声音模式的比较等。模式和/或特征可用作将音频数据(即声音样本)与所存储的声音样本的档案(即声音样本档案)进行比较的基础，从而指示音频数据中的声音的性质或类型和/或产生音频数据中的声音的声源的性质或类型。模式分析可被应用以比较声音样本模式，以确定所捕获的声音样本与存档的声音样本的匹配度。类似地，特征比较可用于确定所捕获的声音样本的特征与存档的声音样本之间的匹配度。这样，可以生成关于存档的声音样本在匹配中具有最高匹配度或置信度的所捕获的声音样本的识别或分类。

在一些实施方式中，音频捕获设备能够三角测量或以其他方式识别监控环境内对声音进行采样的位置，并且可以跟踪声源在监控环境内的移动，例如，跟踪来自一个或多个音频捕获设备的所接收的音频数据的幅度和定时，其指示朝向或远离相应的音频捕获设备的移动。这种位置和/或移动信息可用于辅助音频数据的认知分析以识别声音的分类或标识。这种位置和/或移动检测可以基于在处于监控环境的不同位置的各种音频捕获设备处接收的声音幅度，例如，在不同的音频捕获设备处接收的具有不同幅度的同一声音表明如果幅度相对较大，则源更靠近音频捕获设备，而如果幅度相对较小，则源更远离音频捕获设备。

在一些说明性实施例中，可以对所捕获的音频数据执行情绪分析，以确定音频数据(即从监控环境中捕获的声音)的源的心情、意图等。例如，音频数据的自然语言内容如可使用语音到文本转换机制等来确定一样可进行分析，以识别表示心情、意图等的特定词语和短语。此外，可以针对情绪来评估各种音频特性或特征，诸如上升音调、所捕获的音频的幅度的急剧增加、表示哭泣、呻吟、尖叫等的音频数据模式等。在针对识别在监控环境内或与监控环境相关联地发生的事件的联合分析中，该情绪分析可与其他类型的分析相结合，诸如声音类型、声源类型、位置等的识别，如下文所描述的。

可对所捕获的音频数据执行各种类型的分析，以在复合声音信号中执行声音识别。例如，复合声音信号中的脉冲声音分量可使用小波分析并根据每个小波系数组的统计参数对小波系数组排序来分离，如在本领域通常已知的。基于统计参数，每个完整的系数组被包括在或者从每个相应的分离分量中排除。一旦脉冲声音分量被隔离，就可以与参考声音信息(例如所存储或存档的声音模式)进行比较，以便根据其潜在原因对声音进行分类。

在一些实施例中，可存储所捕获的音频数据的历史以及与所捕获的音频数据相关联的声音识别结果，例如声音类型和声音的声源类型的识别，以用于在认知上评估不同的识别声音的模式以确定在监控环境内是否发生会触发智能扬声器***做出响应动作或反应的事件，响应动作或反应例如是输出听觉消息、向用户输出听觉请求或问题并经由智能扬声器设备收听来自用户的将被处理的听觉响应、触发诸如在与智能扬声器设备相关联的显示器上显示信息、触发智能扬声器设备上的视觉指示器(诸如智能扬声器设备上的灯)、发起经由有线或无线连接与另一设备的通信(自动电话呼叫、电子邮件消息、即时文本消息等)等。历史可存储在智能扬声器设备的本地缓冲存储器中、或与智能扬声器设备的标识符相关联地被远程存储在计算***的远程存储设备中等。优选地，历史被配置为将所捕获的音频数据和对应的从智能扬声器***中确定的在音频数据中存在的声音的标识、所识别的声源类型以及所捕获的声音的任何其他适当特征存储预定的时间窗口或时间段，该时间窗口或时间段与识别在监控环境内或与监控环境相关联地发生的事件所需的时间量一致。例如，时间窗口可被设置为存储在5分钟、10分钟或15分钟的时间段或任何其他期望的时间量内捕获的音频数据，以使得在该时间窗口期间捕获的音频数据中存在的声音模式和声音相关性可识别在监控环境内或与监控环境相关联地发生的事件。

在以上的示例实施例中，时间窗口相对较短并且与被确定为足以识别在监控环境内或与监控环境相关联地发生的事件的时间段相关联。然而，在一些说明性实施例中，历史可以更永久的方式被维持在智能扬声器***中以用于后面的回放操作。例如，所缓冲的音频数据和对应的声音标识可从缓冲存储器移动到更永久的存储器，例如硬盘存储***、远程存储***等，用于后面在需要时进行检索和回放。此外，这样存储的历史可经由另一个远程计算设备而对用户是可访问的，例如，用户可经由电子通信(例如，电子邮件、即时消息等)来被通知事件在发生，并且用户被提供了链接或其他可选的机制以从永久存储设备访问所存储的音频数据和声音标识信息。

对在指定的时间窗口上所捕获的音频数据中识别的声音的认知分析可涉及使用关于事件和与这种事件相关联的声音类型的所存储或学习的知识。该所存储或学习的知识可采用机器可执行规则的形式来提供，机器可执行规则被存储在智能扬声器***中，或者在本地智能扬声器设备中，或者在远程计算***(例如，云计算***)中，或者在本地和远程设备/***的组合中。规则可以被存储为模板数据结构，其中，每个模板数据结构可表示不同的事件类型，并可包括一个或多个规则。

在确定事件是否在监控环境内或者与监控环境相关联地发生时，可以计算在所捕获的音频数据中找到的声音与在这些规则/模板中指定的标准的匹配度，以确定与监控环境相关联的感知事件的风险或危险级别。例如，风险或危险级别可以是与由规则/模板定义的事件相关联的基本或默认风险或危险级别与所捕获的音频中在指定的时间窗口中识别的声音或声音模式的匹配度的加权组合。例如，模板可以具有用于指定针对在监控环境处的“闯入”事件的标准的一个或多个规则。规则可以将声音指定为包括玻璃破碎、安全警报声、嘎吱作响的玻璃、未知频率或时长的脚步声、房间东西乱翻声等。基于在指定时间窗口期间所捕获的音频数据中识别出多少这样的声音，可以计算匹配度，并将其用于对事件的基本或默认风险/危险级别进行加权，例如，默认的风险/危险级别可被认为高，但是，如果匹配声音的数量低，则风险/危险级别可相应地降低。可替代地，匹配度可仅用作事件实际正在或已经与监控环境相关联地发生的置信度的度量，并且如果置信度足够高，例如等于或大于用户可配置的预定阈值，则在规则/模板中指定的事件被认为是匹配的，并且使用针对该事件的对应的风险/危险级别。

基于事件类型、在所捕获的音频数据中识别的声音的源以及与事件相关联的风险/危险级别，智能扬声器***可采取相应的响应动作。响应动作可根据特定的事件类型而采取许多不同的形式。然而，这些响应动作通常可被分类成本地听觉/视觉消息/请求输出动作、远程通信动作和本地设备控制动作。当然，也可以使用这些动作的组合。本地听觉/视觉消息/请求输出动作的示例包括但不限于：输出采用声音格式的指示所检测的事件的性质的自然语言消息；输出采用声音格式的指示所检测的事件的性质的自然语言消息并向用户请求指令(随后基于用户响应执行合适的动作)；照亮或以其他方式控制视觉指示器的开启/关闭并控制视觉指示器的特性，例如颜色、所显示的文本消息、闪烁、闪烁率、或其他视觉特性等。远程通信动作的示例包括但不限于：发起对用户的注册电话号码的自动电话呼叫；发起对管理监控环境的安全性的安全公司的呼叫；发起对紧急服务人员的呼叫；向与智能扬声器***相关联的用户发送指示所检测的事件的电子邮件消息并带有/没有用于回放的音频数据的附件；向与用户相关联的注册设备发送即时消息等。本地设备控制动作的示例包括但不限于：打开/关闭灯、激活/去激活安全警报、锁定/解锁门、打开/关闭来自安全摄像机的视频馈送、控制这种安全摄像机的观察位置——例如通过控制摄像机中的电机来平移摄像机以聚焦到智能扬声器***确定所检测的声音的源可能所在的位置、播放音乐、发出警报或其他音频，等等。

因此，基于事件类型、在所捕获的音频数据中识别的声音的源、以及与事件相关联的风险/危险级别，智能扬声器***的认知***识别一个或多个相应的响应动作，并且运行时动作组成器组件编写相应的响应动作并使这些响应动作被执行。这可涉及访问用户的注册联系信息(诸如可存储在配置信息或用户简档数据结构中)以获得用于发送通信以及该通信应当包含什么的信息。这可进一步涉及访问位于远程的其他知识库以获得制定用于组成和/或指导响应动作的内容和/或控制信息所需的信息，例如，将被控制的设备的唯一标识符、从其可获得产品/服务的在线零售商的标识符等等。

智能扬声器***的操作是用户可以许多不同的方式配置的，以使得用户可识别智能扬声器将要在环境中监控的事件类型、执行不同响应动作类型所需的置信度级别和/或危险/风险级别、响应于特定事件类型而要执行的响应动作的类型、某些事件类型何时被监控的时间表、智能扬声器***诸如出于隐私或安全原因何时被禁用监控的时间表等等。此外，智能扬声器***可随时间学习用于监控环境的正常环境声音模式，以使得在评估在所捕获的音频数据中是否存在需要进一步分析的重要声音时可从其他所捕获的声音数据中滤除这些正常环境声音模式。

因此，本发明提供了一种基于可变唤醒声音来操作的认知智能扬声器设备和智能扬声器***。说明性实施例的机制通过与存档的声音样本信息进行比较进行对所捕获的声音的模式和特征的认知分析，识别在监控环境中捕获的声音的类型和声音的源的类型。此外，说明性实施例的机制可使用从其他知识数据库和信息源获得的多个不同的声音属性和信息，在执行这种认知分析时使用联合分析，以识别所捕获的声音的类型以及这些声的源的类型。此外，说明性实施例的机制可评估所识别的声音的模式以识别在监控环境内或与监控环境相关联地发生的事件，并可响应于识别事件而采取合适的响应动作。

在开始更详细地讨论说明性实施例的各个方面之前，首先应当理解，在整个说明书中，术语“机制”用于是指本发明的执行各种操作、功能等的元件。这里使用的术语“机制”可以是采用装置、过程或计算机程序产品的形式的说明性实施例的功能或方面的实现。如果是过程，则该过程由一个或多个设备、装置、计算机、数据处理***等实施。如果是计算机程序产品，则用包含在计算机程序产品中的计算机代码或指令表示的逻辑由一个或多个硬件设备执行，以便实现功能或执行与具体“机制”相关联的操作。因此，本文所描述的机制可以实现为专用硬件、在通用硬件上执行的软件、存储在介质上的专用或通用硬件能够容易执行的软件指令、用于执行功能的过程或方法、或上述的任何组合。

关于说明性实施例的特定特征和元素，本说明书和权利要求可以使用词语“一个”、“至少一个”和“一个或多个”。应当理解，这些词语和短语旨在表明在特定的说明性实施例中存在至少一个特定的特征或元素，但是也可以存在多于一个的特征或元素。也就是说，这些词语/短语并不是旨在将说明书或权利要求限制为存在单个特征/元素，或者要求存在多个这种特征/元素。相反，这些词语/短语仅需要至少单个特征/元素，而多个这种特征/元素在说明书和权利要求的范围内也是可能的。

此外，应当理解，如果在本文中描述本发明的实施例和特征使用术语“引擎”并不旨在将用于完成和/或执行动作、步骤、过程等的任何特定实现限制为可归因于引擎和/或由引擎执行。引擎可以但不限于是执行指定功能的软件、硬件和/或固件或其任何组合，包括但不限于结合加载或存储在机器可读存储器中并由处理器执行的适当软件对通用和/或专用处理器的任何使用。此外，除非另有说明，否则与特定引擎相关联的任何名称是为了便于参考的目的而不是旨在限制具体的实现。另外，归因于引擎的任何功能性都可以由多个引擎同等地执行，被并入相同或不同类型的另一引擎的功能性和/或与之进行组合，或者分布在各种配置的一个或多个引擎上。

另外，应当理解，以下的描述使用了针对说明性实施例的各种元件的多个各种示例，以进一步说明说明性实施例的示例实现并且有助于理解说明性实施例的机制。这些示例旨在是非限制性的，而非穷举各种可能性来实现说明性实施例的机制。鉴于本说明书，对本领域普通技术人员来说显而易见的是，对于这些各种元件存在许多其他的替代实现，这些替代实现可以在本文提供的示例之外或者代替本文提供的示例被使用而不脱离本发明的精神和范围。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java,Smalltalk、C++等，以及常规过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，替代地，可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

如上所指出的，本发明提供了一种能够分析可变唤醒声音的智能扬声器***，该可变唤醒声音激活智能扬声器***的功能，以用于在认知上自动地分析声音，将声音识别或分类为源自特定声源类型的特定声音类型，分析在彼此的指定时间窗口内发生的声音模式以识别潜在事件，以及响应于潜在事件的识别而确定要执行的合适的响应动作。智能扬声器***可完全被提供在独立的智能扬声器设备内，或者可以分布在可经由一个或多个数据网络进行通信的多个设备上。例如，可以提供一种智能扬声器设备，其包括用于实现根据说明性实施例的智能扬声器***的各种组件的软件逻辑。这种独立的智能扬声器***可访问位于远程的数据处理***以用于信息检索目的，但是说明性实施例的功能可在独立的智能扬声器设备内提供。在其他的说明性实施例中，智能扬声器***可包括执行在此描述的关于各种说明性实施例的功能的第一子集的智能扬声器设备，而功能的其他子集可由一个或多个其他数据处理***、基于云的***等提供。

说明性实施例可在许多不同类型的数据处理环境中使用。为了提供用于描述说明性实施例的具体元件和功能的环境，以下提供图1至图3作为在其中可实现说明性实施例的各方面的示例环境。应当理解，图1至图3仅是示例，并非旨在声明或暗示对可实现本发明的方面或实施例的环境的任何限制。在不脱离本发明的精神和范围的情况下，可以对所描绘的环境进行许多修改。

图1至图3针对描述示例智能扬声器***的各个方面，该***包括用于执行根据一个说明性实施例的可变唤醒声音激活和认知声音识别、事件检测以及响应动作执行的逻辑。出于说明的目的，图1至图3所示的示例假设分布式数据处理***环境。此外，图1至图3所示的示例利用认知***来执行可变唤醒声音识别、事件识别和响应动作执行。认知***实现请求处理流水线、请求处理方法和请求处理计算机程序产品，说明性实施例的机制可通过这些实现。这些请求可作为结构或非结构化数据、请求消息、自然语言问题或用于请求认知***要执行的操作的任何其他适当格式来提供。例如，请求可以仅仅是由与智能扬声器设备相关联的音频捕获设备执行音频数据的检测，该请求是为声音模式/特征分析和识别、事件识别和响应动作执行而提供的输入数据。在其他情况下，请求可以是由用户做出并由智能扬声器***的音频捕获设备捕获的口述问题。

请求处理流水线可具有相关联的语料库，该语料库由认知***摄取以对输入请求和/或数据执行认知操作。语料库可包括来自各种不同源的信息，这些信息可以是针对多个不同类型的监控环境一般性的，或者可特定于智能扬声器***所在的特定监控环境，或者特定于与智能扬声器***相关联的特定用户。例如，语料库可包括一般声音模式、声音特征、以及针对可在许多不同环境中找到的各种类型的一般声音的相应的声音类型和声源类型，例如，狗叫声、人的咳嗽声、呼救声、火警声音、一氧化碳报警器声音、机器发出的不正常的噪音(例如，由于缺陷、事故或磨损零件)、有人摔到地板上的声音、环境墙壁上的虫噪音(例如，老鼠、蜜蜂)、汽车碰撞声音、婴儿或儿童哭泣声音、玻璃破碎的声音、门铃声或任何其他可指示除了正常的环境声音情形外的在监控环境内发生事情的可区分的声音，这对于执行响应动作来说很重要。

此外，语料库可包括用于智能扬声器***或设备所在的特定监控环境的配置信息。例如，语料库可包括指示例如家庭住宅、办公室、学校、商业地产等的监控环境的类型的配置信息，这指示可与监控环境相关联的音频样本的潜在子集。配置信息可包括监控环境的内容列表，例如电视、冰箱、洗碗机、真空吸尘器、计算机、立体声音响、电话、洗衣机和烘干机、玻璃窗、门、安全警报器、火警、一氧化碳传感器等。在一些情况下，关于监控环境的用户和/或其他占用者的信息也可登记在配置信息中，包括性别、年龄等。在不脱离本发明的精神和范围的情况下，可包括可用于从广义音频样本的更大超集中选择音频样本信息的子集的任何配置信息。这允许对所捕获的音频样本进行多层匹配或评估，首先查看子集的匹配，如果没有找到匹配，则将搜索扩展到广义音频样本的更大超集，例如，如果智能扬声器***知道老年人居住在监控环境中，则可以首先搜索与老年人相关联的音频样本的子集以确定是否存在足够的匹配，如果不存在，则可以执行对广义音频样本的更大超集的搜索。

语料库还可包括用于特定监控环境的特定声音模式。例如，在操作的训练阶段，智能扬声器***的音频捕获设备可用于在训练时间段从特定监控环境中捕获音频样本。这些所捕获的音频样本可被分析以提取所捕获的音频样本的音频特征，并可被呈现给智能扬声器***的用户以用于分类，诸如通过记录所捕获的音频样本并将其回放给用户，然后用户可回答智能扬声器***呈现给用户的问题，智能扬声器***经由自然语言处理来捕获用户的响应。

例如，假设在训练期间，音频捕获设备捕获冰柜中的制冰器将冰掉入容器中的声音。音频捕获设备可捕获音频样本并进行分析以提取代表性的音频特征。音频样本可被存储以稍后在用户同意协助训练时回放给用户。智能扬声器***可经由智能扬声器设备回放音频样本，并跟随一组询问，例如“这是什么声音？”、“这声音的源是什么？”等。响应于这些询问中的每一个，智能扬声器设备的音频捕获设备可捕获用户的口述响应，然后可对口述响应执行自然语言处理以获得声音类型和声源类型的识别，声音类型即冰块掉落，声源类型即冰柜制冰器。该信息可与所提取的特征甚至所捕获的音频样本一起存储在监控环境特定的数据库或特定于监控环境的声音样本的注册表中。

类似地，语料库可包括个人信息、音频样本信息等，其特定于与智能扬声器***相关联的特定用户。例如，智能扬声器***的音频捕获设备可捕获并存储用户说出代码/令牌的音频样本，诸如素数或紧急词/短语(例如，作为用户安全信号等)。在语料库中提供的个人信息还可包括来自用户可利用的其他***的信息，诸如计算机化的个人日历、电子邮件***、通信设备联系信息数据库等。从这些各种***提供的信息可用于执行对所捕获的音频样本的认知分析，以确定事件是否正在发生或已经发生、事件的风险或危险级别，并且在需要时执行响应动作。

智能扬声器***或语料库可进一步包括定义事件和智能扬声器***响应于这种事件要执行的响应动作的知识、规则等。知识或规则可指定相对于彼此发生并且组合表示事件的声音。声音可被定义为在序列中发生，或者可以不指定序列。也就是说，只有在特定时间段的所捕获的音频样本中检测到足够数量的声音，并且确定存在指定的声音序列或与序列无关，才可确定事件已经或正在监控环境内或者与监控环境相关联地发生。响应动作可取决于特定事件和事件的风险/危险级别。例如，如果事件是指示闯入者已进入监控环境的闯入事件，则认为风险/危险级别高，响应动作可以是发起对警察或紧急第一反应通信***的自动呼叫，例如，911电话。如果事件是来自婴儿的一串咳嗽，则该事件可被视为潜在的哮吼，可向用户通知该潜在情况，诸如经由听觉消息、电子邮件或其他文本消息等并附有所存储的音频样本，以使得用户可对智能扬声器***所检测到的事件执行后续动作。此外，这种咳嗽声或类似的声音可被记录、发送并回放给医疗专业人员，例如医生、急诊室医生等，以帮助医疗专业人员治疗患者。各种类型的响应动作可被定义为由智能扬声器***基于特定的对应事件来来实现，并可与智能扬声器***本身或智能扬声器***访问的语料库中的这种知识或规则相关联地存储。

说明性实施例的机制可利用的一种类型的请求处理流水线是问答(QA)流水线。采用这种QA流水线，用户可提供输入问题，例如经由智能扬声器***的音频捕获设备所捕获的口述问题，然后，输入问题被解析和分析以确定问题在问什么，然后从一个或多个语料库中搜索可用的信息以确定对输入问题的候选响应，根据证据支持对它们进行排名，然后选择最终相应以提供给用户。应当理解，虽然本发明可在认知***的环境中包括这种QA流水线，但是，说明性的实施例并不限于此。相反，说明性的实施例的机制可对不是作为“问题”提出而是被格式化为对认知***的请求的请求进行操作，以使用相关联的语料库和用于配置认知***的特定配置信息来对指定的输入数据组执行认知操作。例如，并不是询问“那是什么声音？”的自然语言问题，相反认知***可接收“识别该声音”的请求等。应当理解，QA***流水线的机制可以与输入自然语言问题类似的方式对请求进行操作，只需稍作修改。实际上，在某些情况下，如果期望特定的实现，则请求可从语句转换为自然语言问题以供QA***流水线处理。此外，请求或问题可仅通过提供用于处理的输入数据来隐含。因此，例如，输入“问题”实际上可以是提供给流水线的所捕获的音频样本，而隐含的请求或问题是对在音频样本中存在的声音进行分类，以及确定是否已发生了需要响应动作的事件。

由于说明性实施例可采用认知***流水线来处理输入数据和生成用于识别可变唤醒声音的分析结果，识别声音模式，确定事件是否正在或者已与监控环境相关联地发生，以及确定发起响应动作，因此，首先了解认知***的运作方式很重要。应当理解，图1至图3中描述的机制仅仅是示例，并非旨在陈述或暗示对实现说明性实施例的认知***机制的类型的任何限制。在不脱离本发明的精神和范围的情况下，可以在本发明的各种实施例中实现对图1至图3中所示的示例认知***的许多修改。

作为概述，认知***是专用计算机***或一组计算机***，其配置有硬件和/或软件逻辑(并与在其上执行软件的硬件逻辑结合)以模拟人类认知功能。这些认知***将类似人类的特性应用于传达和操纵思想，当与数字计算的固有优势相结合时，可以大规模地高精度和高弹性地解决问题。认知***执行一个或多个计算机实现的认知操作，这些认知操作接近人类思考过程并使人和机器能够以更自然的方式进行交互，从而扩展和放大人类的专业知识和认知。认知***包括人工智能逻辑，例如基于自然语言处理(NLP)的逻辑和机器学习逻辑，人工智能逻辑可被提供为专用硬件、在硬件上执行的软件、或者专用硬件与在硬件上执行的软件的任何组合。认知***的逻辑实现认知操作，其示例包括但不限于问答、识别在语料库中的不同内容部分内的有关概念、诸如互联网网页搜索的智能搜索算法、医学诊断和治疗建议、以及其他类型的推荐生成，例如特定用户感兴趣的项目、潜在的新联系人推荐等。在本文所阐述的说明性实施例的环境中，认知***的逻辑实现认知操作，用于自主地将不同的声音类型识别为唤醒声音，分析各种声音以对其进行分类，确定声音模式，在认知上分析这种模式以识别在监控环境内发生的事件，以及响应于这种事件的识别，自动地在认知上确定要执行的合适反馈或响应动作。

IBM Watson^TM是认知***的示例，其可被修改和增强以执行说明性实施例的认知操作。IBM Watson^TM认知***可处理人类可读的语言，并识别文本段落之间的推理，具有类似人类的高准确度，速度远快于人类并且规模更大。通常，这种认知***能够执行以下功能：

·导航人类语言和理解的复杂性

·摄取并处理大量结构化和非结构化的数据

·生成和评估假设

·对仅基于相关证据的回复进行加权和评估

·提供情形特定的建议、见解和指导

·通过机器学习过程改进知识并学习每次迭代和交互

·在影响点实现决策(上下文指导)

·与任务成比例地缩放

·扩展和扩大人类的专业知识和认知

·从自然语言中识别出共鸣的、类似人类的属性和特性

·从自然语言中推导出各种语言特定或不可知的属性

·来自数据点(图像、文本、语音)的高相关度回忆(记忆和回想)

·模仿基于经验的人类认知的态势感知来预测和感测

·基于自然语言和具体证据来回答问题

在一个方面，认知***提供了一种机制，用于回答对这些认知***提出的问题，或者处理和响应输入到这些认知***的请求，使用请求处理流水线来处理可以或不可以作为自然语言问题提出或者可仅被提供为输入数据以用于处理的请求。

根据说明性实施例，请求处理流水线是在数据处理硬件上执行的处理输入数据的人工智能应用，输入数据可以是来自智能扬声器设备的所捕获的音频数据，例如，可提供输入数据本身，或者输入数据可结合用户对智能扬声器设备提出的自然语言问题来提供。请求处理流水线接收来自各种源的输入，包括通过网络来自其他数据处理***的输入、来自一个或多个电子文档的语料库的输入、来自音频(声音)样本档案的信息、知识信息源或其他数据。数据存储设备或***存储数据语料库，并且是经由(一个或多个)数据网络可被访问的。语料库中的数据可包括用于在认知***中使用的任何文件、电子文本文档、文章或数据源。特别是对于说明性实施例，语料库包括一个或多个音频(声音)样本档案，其具有声音模式信息、声音特征、声音类型和声源类型信息。此外，语料库可包括用户特定信息、监控环境特定信息、以及其它提供可由认知***用于根据一个或多个说明性实施例来执行认知操作的信息或数据的知识源，如在上文中提及并在下文更详细地描述的。

请求处理流水线接收输入问题或请求，解析问题/请求以提取主要特征，并使用所提取的特征来制定查询，然后，将那些查询应用于数据语料库。基于将查询应用于数据语料库，请求处理流水线通过在数据语料库中查找数据语料库中具有包含针对输入问题/请求的有价值响应的可能性的部分，生成针对输入问题/请求的一组假设或候选响应。然后，请求处理流水线对输入问题/请求的内容、特征等(例如，从一个或多个所捕获的音频样本中提取的声音模式和/或音频特征)以及使用各种推理算法在查询的应用期间找到的数据语料库的每个部分中使用的内容、特征等进行深度分析。可以应用数百甚至数千个推理算法，每个推理算法执行不同的分析，例如比较、计算和分析等，并生成指示候选响应是对输入问题/请求的正确响应的置信度的置信分数。例如，一些推理算法可查看输入问题的语言内的术语和同义词与找到的数据语料库的部分的匹配。其他推理算法可将所提取的所捕获的音频样本的特征与所存储的音频样本的特征进行比较，以确定匹配度和与所捕获的音频样本相关联的声音类型和/或声源类型的相应分类。其他推理算法可查看与所捕获的音频样本相关联的时间或空间特征和特定用户的日历信息、或者环境声音的时间表，而另一些推理算法可评估与所定义的事件相关联的规则、模式或序列并识别要执行的响应动作。

根据各种推理算法获得的分数指示基于该推理算法的特定焦点区域由输入问题/请求推断出潜在响应的程度。然后，每个得到的分数针对统计模型进行加权。统计模型捕获推理算法在建立输入问题/请求与候选回答/响应之间的推断时执行的程度。统计模型用于总结请求处理流水线关于由问题/请求推断出潜在响应(即，候选回答/响应)的证据所具有的置信水平。对于每个候选回答/响应重复该过程，直到请求处理流水线识别出表现为明显强于其他回答/响应的候选回答/响应为止，从而针对输入问题/请求生成最终的回答/响应或一组排序的回答/响应。

图1描绘了在计算机网络102中实现请求处理流水线108的认知***100的一个说明性实施例的示意图，在一些实施例中，请求处理流水线108可以是问答(QA)流水线。出于本说明的目的，假设请求处理流水线108被实现为QA流水线，其对采用输入问题或在其中隐含了问题的输入数据的形式的结构化和/或非结构化请求进行操作，例如，输入音频样本可被认为隐含了问题“这是什么声音，它来自哪里？”以及“在监控环境内发生了事件吗？”。可与本文中描述的原理结合使用的问题处理操作的一个示例在美国专利申请No.2011/0125734中描述，该专利申请通过引用整体并入本文。认知***100在连接到计算机网络102的一个或多个计算设备104A-D(包括一个或多个处理器和一个或多个存储器，并可能包括本领域公知的任何其他计算设备元件，包括总线、存储设备、通信接口等)上实现。

仅出于说明的目的，图1描绘了仅在计算设备104A上实现的认知***100，但是如上所指出的，认知***100可以分布在多个计算设备上，诸如多个计算设备104A-D。网络102包括可操作为服务器计算设备的多个计算设备104A-D以及可操作为客户端计算设备的110-112，它们经由一个或多个有线和/或无线数据通信链路彼此通信并与其他设备或组件通信，其中每个通信链路包括电线、路由器、交换机、发射机、接收机等中的一个或多个。在一些说明性实施例中，认知***100和网络102经由它们各自的计算设备110-112对一个或多个认知***用户启用问题处理和回答生成(QA)功能。在其他实施例中，认知***100和网络102可提供其他类型的认知操作，包括但不限于请求处理和认知响应生成，其可根据期望的实现而采取许多不同的形式，例如，认知信息获取、用户的训练/指示、数据的认知评估等。认知***100的其他实施例可与除了本文描述的那些之外的组件、***、子***和/或设备一起使用。

认知***100被配置为实现从各种源接收输入的请求处理流水线108。请求可以自然语言问题、对信息的自然语言请求、对执行认知操作的自然语言请求、输入数据(诸如音频样本数据等)等形式提出。例如，认知***100从网络102、电子文档的语料库106、认知***用户和/或其他数据以及其他可能的输入源接收输入。在一个实施例中，给认知***100的一些或所有输入通过网络102路由。在网络102上的各种计算设备104A-D包括用于内容创建者和认知***用户的接入点。计算设备104A-D中的一些包括用于存储数据语料库106的数据库的设备(只用于说明的目的，在图1中示为单独的实体)。数据语料库106的多个部分还可在一个或多个其他网络连接的存储设备上、在一个或多个数据库中或者在图1中未明确示出的其他计算设备上提供。在各种实施例中，网络102包括本地网络连接和远程连接，以使得认知***100可在任何大小的环境中操作，包括本地和全球，例如互联网。

在一个实施例中，内容创建者在数据语料库106的文档中创建内容，以用作与认知***100的数据语料库的一部分。文档包括用于在认知***100中使用的任何文件、文本、文章或数据源。认知***用户经由网络连接或到网络102的互联网连接来接入认知***100，并向认知***100输入问题/请求，这些问题/请求基于数据语料库106中的内容来回答/处理。在一个实施例中，问题/请求是使用自然语言形成的，并且与将要根据那些问题/请求来进行处理的输入数据相关联或者被应用于已经收集的数据。然而，在其他实施例中，“问题”或“请求”由输入数据本身表示，其中问题或请求被隐含在输入数据被接收的事实中。认知***100经由流水线108解析和解释输入问题/请求和/或输入数据，并提供包含对所提出的问题的一个或多个回答的响应、对请求的响应、处理请求和输入数据的结果等等。在一些实施例中，认知***100向用户提供采用候选回答/响应的排名列表的响应，而在其他说明性实施例中，认知***100提供单个最终回答/响应或者最终回答/响应与其他候选回答/响应的排名列表的组合。在一些说明性实施例中，最终回答/响应采用执行响应动作的形式，响应动作可包括例如本地听觉/视觉消息/请求输出动作、远程通信动作和本地设备控制动作。

认知***100实现包括基于从数据语料库106获得的信息来处理输入问题/请求的多个阶段的流水线108。流水线108基于输入问题/请求的处理和数据语料库106来生成针对输入问题或请求的回答/响应。流水线108将在下文中参考图3更详细地描述。

在一些说明性实施例中，认知***100可以是可从纽约Armonk的国际商业机器公司获得的IBM Watson^TM认知***，其用下文描述的说明性实施例的机制增强。如前所述，IBMWatson^TM认知***的流水线接收输入问题或请求，然后对输入问题或请求进行解析以提取问题/请求的主要特征，这些主要特征用于制定应用于数据语料库106的查询。基于将查询应用于数据语料库106，通过在数据语料库106中查看数据语料库106(以下仅称为语料库106)中具有包含针对输入问题/请求(以下假设为输入问题)的有价值响应的可能性的部分，生成针对输入问题/请求的一组假设或候选回答/响应。然后，IBM Watson^TM认知***的流水线108对输入问题的语言和使用各种推理算法在查询的应用期间找到的语料库106的每个部分中使用的语言执行深入分析。

然后，从各种推理算法中获得的分数针对统计模型进行加权，该统计模型总结了本示例中的IBM Watson^TM认知***100的流水线108关于由问题/请求推断出潜在候选回答/响应的证据所具有的置信水平。对于每个候选回答/响应重复该过程，以生成候选回答/响应的排名列表，该排名列表然后可呈现给提交输入问题的用户，例如客户端计算设备110的用户，或者最终回答从排名列表中选择并呈现给用户。关于IBM Watson^TM认知***100的流水线108的更多信息可例如从IBM公司网站、IBM红皮书等中获得。例如，有关IBM Watson^TM认知***的流水线的信息可以在Yuan等人的“Watson and Healthcare”(2011年的IBMdeveloperWorks)和Rob High的“The Era of Cognitive Systems:An Inside Look atIBM Watson and How it Works”(2012年的IBM红皮书)中找到。

在本发明的环境中，认知***100可被具体配置为提供用于识别和分类由智能扬声器设备的一个或多个音频捕获设备检测到的可变唤醒声音的认知功能。认知***100还被具体配置为将在所捕获的音频数据中的所检测的声音分类为它们的类型和产生所检测的声音的声源类型。认知***100可进一步以认知方式来分析所识别的声音和其他基于非音频样本的信息的组合，以确定事件是否已在监控环境内或与监控环境相关联地发生、确定任意这种事件的风险或危险级别、以及确定响应于所检测的事件而要执行的任何响应动作及其相应的风险或危险级别。此外，认知***100可通过与监控环境相关联的关联智能扬声器设备来触发或发起任何这种响应动作的执行。认知***100可以是智能扬声器***120的一部分，或者可以与智能扬声器***120协同操作。

智能扬声器***120被示为与智能扬声器设备140分离的实体，只能扬声器设备140处于监控环境150中并且被示为由单个服务器计算设备140提供，该服务器计算设备140被具体配置为实现认知***100和智能扬声器***120。然而，本发明不限于这种配置。相反，在一些实施例中，智能扬声器***120可以集成到智能扬声器设备140中。在其他实施例中，智能扬声器***120可以分布在多个服务器计算设备104A-104D上，诸如分布在云计算***等中。智能扬声器***120的各种组件122-129可以在不同的计算设备上提供。

如图1所示，智能扬声器***120包括音频样本分析和分类引擎122、事件识别引擎124、响应动作执行引擎126、声音和事件模型存储库128、以及配置信息和知识库接口。智能扬声器***120与在相同或不同监控环境150中的一个或多个智能扬声器设备140协同操作。每个智能扬声器设备140包括一个或多个的音频捕获设备142(诸如麦克风)以及一个或多个的音频输出设备144(诸如扬声器)。智能扬声器设备140还可以包括本地处理能力，以执行所捕获的音频样本的一些初始处理以将其渲染为数据，执行音频样本关于音频样本模式和特征分析的一些本地评估，输出数据作为音频输出并处理听觉响应，以及还处理用于执行使能无线设备的本地控制的数据。

虽然图1示出了与智能扬声器设备140集成的音频捕获设备142，但在一些说明性实施例中，在监控环境内或与监控环境相关联的音频捕获设备的分布式阵列在多个智能设备中或以其他方式提供，并能够与智能扬声器***140通信。在一些实施例中，音频捕获设备可以是在监控环境150内移动的智能扬声器设备140的一部分，诸如机器人底盘的一部分，机器人底盘的移动可在监控环境中自动引导或者由操作人员远程控制。音频捕获设备142用于捕获音频数据，例如，表示从监控环境150中捕获的声音波形的数据。然后，音频数据(音频样本)可诸如在智能扬声器设备140的缓冲器中本地存储和/或远程存储，并被分析以识别在音频数据中存在的声音。例如，音频数据的分析可包括首先诸如在本地级别确定所捕获的音频数据是否表示对附加分析可能重要的一个或多个声音，即，与所学习的监控环境的环境声音不同并传递初始标准集合的声音，该初始标准集合可以是用户可配置的，用于指示需要进一步分析。

也就是说，智能扬声器设备140的音频捕获设备142捕获来自监控环境150的音频样本，并可在本地将音频样本识别为唤醒声音。例如，如上所指出的，智能扬声器设备140或***120可识别与针对智能扬声器***的音频接收器所处的特定监控环境被学习在一天的特定时间出现的环境声音显著不同的任何声音。如上所指出的，智能扬声器设备140的逻辑和/或智能扬声器***120可在训练时间段内进行训练以识别一天中的特定时间的环境声音。例如，在一天或多天操作的过程中，智能扬声器设备140可捕获音频样本及其相应的时间戳，提取这些音频样本的特征，并呈现音频样本以用于用户反馈以指示声音类型、产生声音的声源类型，并且甚至可将声音分类为环境声音或非环境声音，即，针对一天的指定时间针对监控环境的正常出现的声音。基于这种音频样本及其相应的时间戳的存储，所捕获的音频样本可与这些环境声音样本进行比较，以确定音频样本可能是环境声音还是唤醒声音。

环境声音样本信息可在本地存储在智能扬声器设备140的存储设备中或者与监控环境150的标识符相关联地远程存储在诸如声音和事件模型存储库128中。此外，智能扬声器设备140可访问特定于监控环境150和/或智能扬声器设备140的用户的信息，以确定指示在监控环境150内的特定事件类型的日历信息，例如，在监控环境150内发生的被认为是环境事件的常规事件、假日和某些声音类型被确定为环境声音的其他常规事件，例如，巨响声在7月4日和12月31日比一年中的其他日子更普遍。

该信息可在智能扬声器***120中和/或在智能扬声器设备140中在本地级别进行处理，智能扬声器***120和智能扬声器设备140可具有某些用于初步确定声音是可变唤醒声音还是环境声音的逻辑。对于环境声音，智能扬声器设备140可在音频样本被确定为环境声音并且不需要更高级的分析时停止对该音频样本的进一步处理。对于唤醒声音，可发起进一步的处理以识别唤醒声音并对其进行分类以及执行额外的认知操作。

采用说明性实施例的机制，唤醒声音是可变的，并且不需要说出固定的关键词或短语来发起后续音频样本的处理。被确定不是环境声音的任何声音可能是唤醒声音，该声音然后被提交给认知处理以进行识别和分类并对事件和响应动作进行评估。取决于特定的实现，这些可变唤醒声音可以采取许多不同的形式，并且可包括例如狗叫声、嘈杂声、咳嗽声、呼救声、火警声音、一氧化碳报警声音、机器发出的不正常的噪音(例如，由于缺陷、事故或部件磨损)、说出诸如素数或紧急词/短语(例如，作为用户安全信号等)的代码/令牌的声音、吹口哨声音、某人摔倒在地板上的声音、环境墙壁上的虫害噪音(例如，老鼠、蜜蜂)、车祸声音、婴儿或儿童哭泣声音、玻璃破碎的声音、门铃声或任何其他可指示除了正常的环境声音情形外的在监控环境内发生某事的可区分的声音，这对于执行响应动作来说很重要。可以提供声音模式、声音特征等以及它们相应的声音类型和源类型的注册表或数据库，以用于将检测到的声音分类成来自特定声源类型的对应的声音类型。在图1中，该注册表、存档或数据库被称为声音和事件模型存储库128，其中，声音模式、声音特征、声音类型、声源类型和其他关于可识别声音的特性信息的组合被称为声音模型。事件模型是所识别的声音、声音序列或指示在监控环境内发生的事件的所识别声音的其他模式的相关性的表示，以用于确定对应的事件是否在监控环境内或者已在监控环境内发生，例如，事件模型可指示玻璃破碎声音、随后是玻璃嘎吱作响声音、随后是家具移动或搜索抽屉的声音等指示具有高的风险或危险级别的闯入事件。

假设所捕获的音频样本(或音频数据)包括唤醒声音，则智能扬声器***120的音频样本分析和分类引擎122执行音频样本的更认知和详细的分析。也就是说，在一个说明性实施例中，智能扬声器设备140执行初始分析以确定所捕获的音频样本是否表示不是环境声音的事物。响应于确定在所捕获的音频样本中的声音不是环境声音，所捕获的音频样本被发送到认知***100，认知***100与智能扬声器***120协同操作以经由请求处理流水线108执行所捕获的音频的认知分析。音频样本分析和分类引擎122包括用于关于各种不同的音频特性分析所捕获的音频样本的多个不同的算法和逻辑，并可在流水线108的一个或多个阶段中使用，以解析和提取所捕获的音频样本的特征，分析特征，并生成关于在所捕获的音频样本中表示的声音类型和声源类型的假设，然后，这些假设基于证据信息进行评估以对其进行排序，并生成指示所确定的在所捕获的音频样本中存在的声音类型及其源的最终结果。该过程可涉及与在声音和事件模型存储库128中的所存储的声音模型进行匹配，并还可涉及对特定监控环境150的配置信息、智能扬声器设备140的用户、日历信息和各种知识库中的其他信息的评估。

例如，这种分析可包括执行模式分析、特征提取(例如，幅度、频率、持续时间等)等。模式和/或特征可用作将音频样本与在声音和事件模型存储库128中存储的声音模型进行比较的基础，从而指示音频样本中的声音的性质或类型和/或产生音频样本中的声音的声源的性质或类型。可应用模式分析以将音频样本波形模式与所存储的声音模型进行比较，以确定所捕获的音频样本与存储库128中存储的声音模型的匹配度。类似地，特征比较可用于确定所捕获的音频样本的特征与存储库128中存储的声音模型之间的匹配度。采用这种方式，可生成关于所存储的声音模型在匹配中具有最高匹配度或置信度的所捕获的音频样本中的声音的识别或分类。

对所捕获的音频样本执行的特定类型的分析可取决于特定实现而采用许多不同的形式，并且通常包括对所捕获的音频样本的多个不同特性的联合分析，以执行在音频样本中的声音的认知识别和分类，例如，匹配所存储的声音模型，评估在特定时间段声音本身或结合历史捕获的声音信息是否构成事件，确定事件的危险或风险级别，以及确定并发起对事件的响应动作。在一些实现中，智能扬声器设备140的音频捕获设备142能够三角测量或以其他方式识别监控环境内对声音进行采样的位置，并且可跟踪声源在监控环境内的移动，例如，跟踪来自一个或多个音频捕获设备的所接收的音频数据的幅度和定时，其指示朝向或远离相应的音频捕获设备的移动。这种位置和/或移动检测可基于在位于监控环境的不同位置的各种音频捕获设备处接收的声音幅度，例如，在不同音频捕获设备处接收的具有不同幅度的同一声音表明如果幅度相对较大，则源更靠近音频捕获设备，而如果幅度相对较小，则源更远离音频捕获设备。

位置和/或移动信息可用于辅助音频数据的认知分析以识别声音的分类或标识，例如，知道智能扬声器设备140与监控环境的其他部分的相对位置，智能扬声器设备140可识别监控环境150的从其检测到声音的部分和这些位置中这种声音的可能源，从而识别所捕获的声音可能匹配的可能声音样本子集，例如，知道声源位于监控环境150的厨房中，则同与监控环境的其他部分相关联的其他声音模型相比，与厨房相关声源相关联的声音模型可被更主要地搜索或者被更高加权。所存储的声音模型的这种位置信息加上先前描述的其他信息可存储在那些声音模型中，以使得声音模型可以按位置来分组或分类。这允许易于基于声音模型的位置和/或权重来搜索以用于匹配目的。

在一些说明性实施例中，可通过将在所捕获的音频数据中表示的话语转换为文本表示并对文本表示执行自然语言处理，执行话语的自然语言处理。自然语言处理可用于尝试确定正在说什么，以确定如何回应话语。这种自然语言处理在本领域中通常是已知的。

在一些实施例中，对所捕获的音频样本的分析可利用自然语言处理和音频特性分析两者来执行情绪分析。也就是说，可对所捕获的音频数据执行情绪分析以确定所捕获的音频样本的源的心情、意图等。例如，可分析音频数据的自然语言内容以识别指示心情、意图等的特定术语和短语。此外，可针对情绪评估各种音频特性或特征，诸如上升音调、所捕获的音频的幅度的急剧增加、指示哭泣、呻吟、尖叫等的音频数据模式等。在针对识别在监控环境内发生或与监控环境相关联的事件的联合分析中，该情绪分析可与其他类型的分析相结合，诸如识别声音类型、声源类型、位置等。例如，如果智能扬声器设备140捕获指示上升音调、通常与愤怒或沮丧相关联的术语以及打碎玻璃的音频样本，则可触发指示家庭纠纷的事件并可采取适当动作，诸如询问用户他们是否需要帮助、自动发起对第一响应者联系号码的呼叫、记录在监控环境150中发生的音频以用于稍后由当局进行的证明目的等。

在一些实施例中，可存储所捕获的音频数据的历史以及与所捕获的音频数据相关联的声音识别结果，例如，声音类型和声音的声源类型的识别，以用于在认知上评估不同的所识别声音的模式以确定在监控环境内是否发生会触发智能扬声器***120的响应动作或反应的事件，响应动作或反应例如是输出听觉消息、向用户输出听觉请求或问题、触发信息的显示、触发视觉指示器(诸如智能扬声器设备上的灯)、发起经由有线或无线连接的与另一设备的通信(自动电话呼叫、电子邮件消息、即时文本消息)等。历史可存储在智能扬声器设备140的本地缓冲存储器或与智能扬声器设备140的标识符相关联地智能扬声器***120的其他临时存储设备(未示出)中等。优选地，历史被配置为存储所捕获的音频样本以及从智能扬声器***120确定的在音频样本中存在的声音的对应标识，即，声音和事件模型存储库128中在预定的时间窗口或时间段中的匹配声音模型的标签或标识符，该时间窗口或时间段与识别在监控环境内或与监控环境相关联发生的事件所需的时间量一致。该时间段可以是存储在配置信息和知识库接口129中的配置参数。

存储在缓冲器或临时存储设备中的信息可由事件识别引擎124用作确定事件是否已在监控环境150内或与监控环境150相关联发生的基础。这可诸如在移动时间窗口的情况下，随着音频信息被添加到缓冲器或临时存储设备中而连续地进行，或者可诸如在使用缓冲器或临时存储设备来存储所捕获的音频样本和声音标识信息(统称为声音信息)的每个时间段过去时周期性地进行。

事件识别引擎124的这一评估可包括将来自声音和事件模型存储库128的事件模型应用于在缓冲器或临时存储设备中存储的声音信息，以确定事件模型的标准是否被满足到阈值确信水平以指示发生了对应的事件。也就是说，对指定时间窗口内所捕获的音频样本中识别的声音的认知分析可包括利用关于事件和与这些事件相关联的声音类型(在声音和事件模型存储库128中表示为事件模型)的所存储或学习的知识。该所存储或学习的知识可在事件模型中被提供为在智能扬声器***120的声音和事件模型存储库128、本地智能扬声器设备140本身或其组合中存储的机器可执行规则。机器可执行规则可被存储为模板数据结构，其中，每个模板数据结构可表示不同的事件类型，并可包括用于匹配的一个或多个规则以及用于在事件匹配时评估事件的附加信息，例如，默认的风险或危险级别、要采取的响应动作的标识等。

在事件模型的规则或模板中表示的所存储和学习的知识可指定指示事件的一个或多个声音。事件模型还可指定指示事件的定时约束、序列、特定声音组合、特定声音的位置等。存储在缓冲器或临时存储设备中的声音信息可与这种标准进行比较，并可确定在缓冲器或临时存储设备中存储的声音信息与事件模型的匹配度，并且该匹配度可与预定阈值要求进行比较以用于确定事件模型已匹配。如果事件模型已匹配，则确定事件已与监控环境150相关联地发生。

在确定事件是否在监控环境150内或与监控环境150相关联发生时，可计算在所捕获的音频样本中找到的声音与在这些规则/模板中指定的标准的匹配度，以确定所感知的与监控环境150相关联的事件的风险或危险级别。例如，风险或危险级别可以是与由规则/模板定义的事件相关联的基本或默认风险或危险级别与所捕获的音频中在指定时间窗口中识别的声音或声音模式的匹配度的加权组合。例如，模板可以具有用于指定针对在监控环境150处的“闯入”事件的标准的一个或多个规则。规则可以将声音指定为包括玻璃破碎、安全警报声、嘎吱作响的玻璃、脚步声、室内东西乱翻声等。基于在指定时间窗口期间在所捕获的音频数据中识别出多少这种声音，可以计算匹配度，并将其用于对事件的基本或默认的风险/危险级别进行加权，例如，默认的风险/危险级别可被认为高，但是，如果匹配声音的数量低，则风险/危险级别可相应地降低。可替代地，匹配度可仅用作事件实际正在或已与监控环境150相关联发生的置信度的度量，并且如果置信度足够高，例如等于或大于用户可配置的预定阈值，则在规则/模板中指定的事件被认为是匹配的，并且使用针对该事件的对应的风险/危险级别。

假设在缓冲器或临时存储设备中存储的声音信息匹配事件模型，则响应动作执行引擎126可评估该事件以确定要执行的适当的响应动作(如果有的话)，并可启动响应动作的执行。特定的响应动作可取决于匹配事件的类型及其所确定的危险或风险级别、以及可在匹配的事件模型中指定的任何特定响应动作(如果有的话)。所确定的危险或风险级别可由响应动作执行引擎126基于与所识别的事件相关联的危险/风险级别(诸如通过使用所指定的默认危险/风险级别，可用与事件模型标准的匹配度对默认危险/风险级别进行加权，如上所述)以及对包括一天中的时间的其他相关因素(在夜间或居民倾向于在家时的闯入的危险/风险级别比一天中的其他时间的闯入更高)、指示用户针对特定事件确定的危险或风险级别的这种事件的用户偏好或配置信息(例如，一个用户比另一个用户可能期望将狗叫声排名为相对更高的危险/风险级别)和在配置信息中存在的和来自其他知识库的其他信息的评估来确定。与事件类型一起的危险或风险级别可与随后发起的响应动作相关联。该响应动作可以是与事件模型本身中的事件具体相关联的响应动作、可以是除了在事件模型中指示的任何特定响应动作之外执行的响应动作、或者可以是基于与事件相关联的所确定的危险或风险级别对在事件模型中提供的多个可能的响应动作中的一个响应动作的选择。

响应动作可取决于特定的事件类型而采取许多不同的形式。然而，这些响应动作通常可被分类成本地听觉/视觉消息/请求输出动作、远程通信动作和本地设备控制动作。当然，也可使用这些动作的组合。这种响应动作可利用智能扬声器设备140的音频输出设备144、可利用智能扬声器设备140的控制能力来控制监控环境150内或与监控环境150相关联的其他设备，诸如经由无线网络和家庭自动化产品，例如可控灯、门锁、电器等。

如前面所提及的，本地听觉/视觉消息/请求输出动作的示例包括但不限于：输出采用声音格式的指示所检测的事件的性质的自然语言消息；输出采用声音格式的指示所检测的事件的性质的自然语言请求并向用户请求指令(随后基于用户响应执行合适的动作)；照亮或以其他方式控制视觉指示器的开启/关闭并控制视觉指示器的特性，例如颜色、所显示的文本消息、闪烁、闪烁率或其他视觉特性等。远程通信动作的示例包括但不限于：发起对用户的注册电话号码的自动电话呼叫；发起对管理监控环境的安全性的安全公司的呼叫；发起对紧急服务人员的呼叫；向与智能扬声器***相关联的用户发送指示所检测的事件的电子邮件消息并带有/没有用于回放的音频数据的附件；向与用户相关联的注册设备发送即时消息等。本地设备控制动作的示例包括但不限于：打开/关闭灯、激活/去激活安全警报、锁定/解锁门、打开/关闭来自安全摄像机的视频馈送、控制这种安全视频摄像机的观察位置——例如通过控制摄像机中的电机来平移摄像机以聚焦到智能扬声器***确定所检测的声音的源可能存在的位置、播放音乐或其他音频等。

智能扬声器***120的响应动作执行引擎126编写对应的响应动作，并使响应动作经由智能扬声器设备140执行。这可包括访问用户的注册联系信息，其诸如可存储在配置信息和知识库接口129的配置信息或用户简档的数据结构中，以获得用于发送通信和那些通信应当包含的内容的信息。这可以进一步包括经由配置信息和知识库接口129来访问其他位于远程的知识库，以获得制定用于组成和/或引导响应动作的内容和/或控制信息所需的信息，例如，将被控制的设备的唯一标识符、从其可获得产品/服务的在线零售商的标识符、在监控环境150的地理区域中的第一响应者或紧急服务的联系信息等。

因此，基于事件类型、在所捕获的音频数据中识别的声音的源以及与事件相关联的风险/危险级别，在认知***100中或与认知***100相关联地实现的智能扬声器***120识别一个或多个对应的响应动作。智能扬声器***120的逻辑可与认知***100的流水线108的各个阶段交互或者集成以实现该功能。例如，音频样本分析和分类引擎122可与认知***100中的流水线108结合或甚至可以实现为认知***100中的流水线108，因为引擎122的功能包括流水线108的输入解析、分析和分解阶段以及假设生成、证据评分、合成和最终结果生成以识别来自智能扬声器设备140的所接收的音频样本中的声音。类似地，事件识别引擎124可集成在流水线108的一个或多个阶段中或者与其一起工作以识别事件，如上所述。在一些实施例中，事件识别引擎124还可被完整实现为流水线108，并且该流水线可与用于识别音频样本中的个体声音的流水线分离，例如，用于识别所捕获的音频样本中的声音的第一流水线和用于基于所捕获的音频样本中并存储在缓冲器或临时存储设备中的声音来识别事件的第二流水线。

在以上示例实施例中，声音信息被存储在缓冲器或临时存储设备中的时间窗口被描述为相对短的时间窗口并与被确定为足以识别在监控环境内或与监控环境相关联发生的事件的时间段相关联。然而，在一些说明性实施例中，所捕获的声音的历史可以更永久的方式被维持在智能扬声器***120中以用于后面的回放操作，诸如在与特定监控环境或智能扬声器设备140相关联的历史数据结构(未示出)中。例如，所缓冲的音频数据和对应的声音标识可从缓冲存储器或临时存储设备移动到更永久的存储器，例如硬盘存储***、远程存储***等，用于以后在需要时进行检索和回放。此外，这样存储的历史回放可经由另一个远程计算设备而对用户的可访问的，例如，用户可经由发送到其计算设备112、移动计算设备160等的电子通信(例如，电子邮件、即时消息等)来被通知事件在发生，并且用户被提供了链接或其他可选的机制以从智能扬声器***120的永久存储设备访问所存储的音频数据和声音标识信息。

应该理解，在一些说明性实施例中，声音和事件模型存储库128可存储适用于多个不同监控环境中的多个不同智能扬声器设备的模型。此外，声音和事件模型存储库128可学习并存储从各种不同的监控环境获得的模型。例如，基于指示声音的类型和/或源的用户反馈，用户指定的声音和声源的分类可与所捕获的音频数据相关联地存储在存储库128中，从而通过包括指示特定声音或声源类型的附加模型来动态地修改和改进存储库128。也可对事件模型执行类似的操作。此外，这种操作也可由***响应于智能扬声器设备捕获被确定为异常的音频数据来自动地执行，以帮助检测在其他监控环境中的正常声音和异常声音。因此，可使用多个不同监控环境中的多个不同智能扬声器设备，实现声音类型和声源类型以及事件的集体学习。

如上所提出的，智能扬声器***120和智能扬声器设备的操作是用户可以许多不同方式配置的，以使得用户可识别智能扬声器将要在环境中监控的事件类型、要执行不同响应动作类型所需的置信度和/或危险/风险级别、响应于特定事件类型而要执行的响应动作类型、某些事件类型何时被监控的时间表、智能扬声器***诸如出于隐私或安全原因何时被禁用监控的时间表等。例如，用户可使用计算设备112、移动计算设备160或任何其他数据处理设备或***来访问智能扬声器***120并配置用户可配置的参数，并提供用于在配置信息和知识库接口129中存储的配置。用户可使用在这种数据处理设备/***上运行的应用来访问智能扬声器***120，并配置它以与用户自己的智能扬声器设备140一起使用并用于监控环境150。

因此，说明性实施例提供用于实现具有可变唤醒声音识别和分类的智能扬声器***的机制。说明性实施例还提供这种智能扬声器***，其具有认知分析能力以识别所捕获的音频样本中的声音并确定与这些所识别的声音相关联的事件。此外，说明性实施例提供了智能扬声器***中的机制以评估这种所识别的事件，并基于事件类型、对应的危险/风险级别等来确定并发起任何合适的响应动作。

以下是说明性实施例的机制可基于上述架构执行的各种类型的操作和功能的示例。如上所指出的，利用与监控环境150相关联的智能扬声器设备140的智能扬声器***120可执行通过识别谁在发出声音(或识别声源)而在所捕获的音频样本中识别的声音、声音的认知方面(例如，用户的压力)和说话者(人)在发出声音时在监控环境150内的移动(例如，用户在提出问题时在家中从点A移动到点B，如与智能扬声器设备140相关联的位置检测机制所确定的)的联合分析。通过唤醒声音和说话者身份的分析，智能扬声器***120可使用历史数据来训练，如果需要可结合土耳其机器人，以识别与用户的困惑、好奇或对信息的一般需求相关联的声音，例如如前所述的情绪分析。这样，智能扬声器***120可在唤醒、分析所缓冲的查询文本、和提供帮助回答隐含的问题或澄清所感知的困惑方面变得更主动。例如，可利用自然语言处理(NLP)机制来创建用于所指定的声音认知状态的分类模型，以更好地理解声音或与声音和环境相关联的其他话语。该分类模型可将所分析的声音和/或话语映射到相关的类别，其中，每个类别或分类可表示困惑、好奇等状态。

例如，考虑用户与监控环境150中的智能扬声器(SS)设备140之间的以下示例交换：

用户：“我不能理解为什么我不能找到AAA电池！我知道我上周还有一些！”[音调上升；情绪是困惑和烦躁]

SS：“你好，你在找你找不到的东西吗？”

用户：“是的。”

SS：“也许我可以帮忙。你在找AAA电池吗？”

用户：“是的。”

SS：“好的。我可以帮你订购一些吗？它们明天到。“

在该交换中，用户的初始陈述的音频特性以及在用户的陈述中使用的术语表明用户正在寻找某种东西，用户在寻找的东西是AAA电池，而所捕获的音频样本的音频特性指示表明困惑或烦躁的上升音调。根据该信息，智能扬声器***(SS)将事件确定为用户在寻找某个东西，上升音调表明更高的风险/危险级别(或者可认为这是响应的重要级别)。结果，执行用输出消息来响应的响应动作来询问用户是否需要帮助，接下来的对话实现用户的期望帮助级别。

在一个说明性实施例中，可在本地存储或在基于云的数据库上存储的动作模板可用于执行响应动作。在这种实施例中，智能扬声器***进一步使用定制的机器学习算法来选择响应动作并对其进行优先级排序。例如，给定动作空间A和状态空间(情境)S，诸如神经网络的机器学习算法可用于估计针对所计算的风险或危险级别而要采取的响应动作的置信度。作为示例，神经网络可用于估计参数以便选择标签(动作)。在这种情况下，对多个标签(多级别)估计置信度。如果一组动作高于阈值，则针对响应动作而触发它们。考虑触发响应一组动作的示例：{联系紧急服务，联系第一响应者，拨打某个实体的电话}：给定状态空间S＝{所检测的危险唤醒声音高，置信度：0.8，所估计的困惑的声音状态：0.75，所估计的声音声誉的概率：0.9，所计算的风险分数R：高}。

在一些实施例中，智能扬声器***120存储声音(例如，可能是危险声音)以用于在经由用户的计算设备112或移动设备160或者通过对智能扬声器设备140的口述请求从用户接收到请求时，向用户回放。在一些情况下，智能扬声器设备140可通过认知分析检测用户返回到监控环境150，诸如在用户返回家中时，并且可自动发起与用户的对话以确定用户是否希望听在指定时间段内检测到的事件和对应的音频样本的日志，例如，自用户最后在监控环境150中起、最后一天等。

在一些实施例中，并非等待用户请求或检测到用户返回到监控环境150，智能扬声器***120可诸如在高风险或危险的情况下经由计算设备112或移动设备160自动发起与用户的通信，以回放所存储的音频样本或以其他方式指示由智能扬声器***120检测到的事件，例如，发送带有音频附件的电子邮件或即时文本消息、发起自动电话呼叫等。例如，智能扬声器***120可基于确定或学习用户在特定环境(例如，一天中的时间、位置等)中经常使用的渠道，，在用户的“有效”通信渠道(例如，Twitter^TM、Whatsapp^TM、电子邮件等)上发送/发布声音或声音的分析。

如上面所提及的，在一些说明性实施例中，智能扬声器***120通过训练时段来学习每天遇到的声音模式(例如，垃圾收集器的声音、汽车路过的声音、狗叫声、音乐播放声音等)并监听声音模式的变化。此外，这种训练可在训练时段之后通过使用用户反馈和机器学习而继续，其中，智能扬声器***120可向用户提供事件指示，并接收指示事件及其相关联的声音或声音本身是否是一天中那个时间的环境声音或常规声音的用户反馈。这允许智能扬声器***120习惯监控环境150中的某些例行声音。

在一些说明性实施例中，智能扬声器***可经许可与例如图1中的服务器104D的单独云服务器上的分析模块关于是什么声音进行通信，以帮助识别它。在一些情况下，智能扬声器***可利用土耳其机器人，即协助执行任务的人类智能的众包存储库，以帮助确定在所捕获的音频样本中的声音的一个或多个特性或身份。例如，如果智能扬声器***120不能够对所捕获的音频样本中的声音识别匹配的声音模型到足够的确信度，则智能扬声器***120可将音频样本发送到云计算土耳其机器人***，获得识别声音的声音类型、声源类型和其他特性的用户反馈，然后，用户反馈可用于生成声音模型以添加到声音和事件模型存储库128中。

应当理解，虽然上述的说明性实施例假设由智能扬声器设备140捕获的音频样本是在人类可感知的声音频率范围内的音频样本，但是本发明不限于此。相反，在一些说明性实施例中，智能扬声器设备140可对超出正常听力范围的声音(例如，小于20Hz或大于20kHz)敏感，以用于提供危险警报和其他目的。这样，智能扬声器***120可被配置为分析、识别和分类这种声音，并且以与上述类似的方式执行事件识别和响应动作确定，但是这针对超出正常人类听觉范围的声音。智能扬声器设备140，作为响应动作的一部分，还可被配置为发出在正常人类听觉范围之外的这种声音，例如，响应于所捕获的声音指示在监控环境内存在害虫的事件，智能扬声器设备140可发出驱除害虫的声音。

在一些说明性实施例中，智能扬声器***120可记录异常声音/噪声或已被编程以记录的噪声，并可执行响应动作以试图减轻此类噪声，例如，响应于根据声音识别、分类和事件识别而确定水在流，响应于被识别为破裂的水管或可能来自冻水管的声音(如可通过利用其他信息源并结合音频样本来确定，诸如来自相应源的区域温度和天气预报数据等)，关闭水龙头或加热器。智能扬声器***120还可回放噪声(所存储的音频样本)，并描述与噪声和智能扬声器***120以所确定的顺序或序列采取的动作相关的环境。

在一些实施例中，智能扬声器设备140可以是移动的，并安装在机器人底盘或其他自动或人工控制移动平台上。结果，可移动的智能扬声器设备140能够在监控环境150内或在多个监控环境之间移动，并可从其工作的任何监控环境150捕获音频样本。此外，如上所述的位置确定算法可用于识别智能扬声器设备140在监控环境150内的位置以及由智能扬声器设备140检测的声源相对于智能扬声器设备140的位置两者。

在一些说明性实施例中，智能扬声器设备140和***120可追溯地操作以响应用户关于在监控环境150内发生的声音的查询。例如，智能扬声器设备140可接收这类型的用户输入“智能扬声器，那是什么？”在这种情况下，用户正在请求智能扬声器设备140使用它的认知能力和在缓冲器中搜索所记录的音频样本来识别人听到的声音。通过分析在缓冲器中记录的音频以用于用户发起的异常/危险声音的识别，并在声音被认为是危险的时候甚至寻求帮助，这可在家庭安全/健康任务的情况下有用。以下是用户(小孩的家长)与通过说明性实施例的机制促进的智能扬声器***之间的交换的示例场景：

家长被咳嗽声吵醒。

家长：“智能扬声器，那是什么？”

SS：“稍等，我检查下我的记录数据库......这是患有哮吼的孩子的声音。你想知道症状和治疗的更多信息吗？”

家长起床：“是的。”

SS：“哮吼，也称为喉气管支气管炎，是一种通常由病毒引起的呼吸道感染。该感染导致气管内部肿胀，这影响正常呼吸并产生“吠叫”咳嗽、喘鸣、声音嘶哑的典型症状。也可能出现发烧和流涕。这些症状可以是轻度、中度或严重的。通常会在晚上开始或变得更糟。通常持续一到两天。你要我打电话寻求医疗援助吗？“”

家长：“不，没有必要。”

在一些说明性实施例中，智能扬声器设备140可监控周围声音(例如，特定房间中的环境声音)相对于过去在类似时间在同一监控环境150的“差异”。因此，例如，可确定在监控环境150中检测到的某些声音对于监控环境150通常是非典型的、在特定时间对于监控环境150是非典型的，并可在评估事件是否已发生和/或任何所识别的事件的危险/风险级别时使用该信息。

在一些说明性实施例中，情绪分析可用于确定说话的人的情绪以及群组中其他人的情绪。智能扬声器***120还可以可选地分析宠物声音的某些方面，包括焦虑不安的声音，例如吠叫、吠叫强度、呜咽等，以便估计(以某一置信度)针对在监控环境处的潜在紧急情况、宠物被遛或放出的需要等(一些宠物主人训练他们的宠物使用铃铛或其他设备来指示它们需要外出，这种声音可用本发明的智能扬声器***等检测)可确保警报。如上所指出的，在一些说明性实施例中，响应动作可以是控制可由智能扬声器***控制的本地机制。在一些情况下，如果智能扬声器***确定宠物需要外出，则智能扬声器***可自动操作机动宠物门以允许宠物进入外部。

在一些情况下，声音的识别及其重要性可能是困难的或易于受到至少某种错误度。在这种情况下，用户可能希望建立丢失一些声音的风险级别。例如，用户想要智能扬声器***120在响应于年老的父母已经发出表明跌倒在地板上的声音而发送或致使产生警报的方面“出错”，因为容纳一些错误警报比错过实际的跌倒情况更危险。另外，智能扬声器***120可从其他传感器、检测器、计算***等获取输入，该输入可帮助识别在监控环境150内发生的事件，诸如老年人的跌倒等。例如，智能扬声器***120可合并运动检测器、其他图像捕获设备的摄像头，其提供输入以帮助增加检测老年人在监控环境的跌倒的置信度。例如，配置信息和来自其他传感器、检测器等的其他信息可存储在配置信息和知识库接口129中。如果置信度级别超过阈值，则智能扬声器***120可发起响应动作，诸如向特定实体发出电话呼叫、联系第一响应者、联系紧急服务等。

如上所指出的，智能扬声器***可被训练以监听某些声音，并可通过正面的强化和用户反馈来学习。用户还可对智能扬声器***120配置用户想要智能扬声器***120告警什么声音和忽略什么声音。例如，用户可指定智能扬声器***120应当监听环境150中的老年居住者发出的咳嗽、跌倒或痛苦的声音，但忽略狗叫声或其他宠物相关的声音，因为居住者目前没有宠物。

在一些说明性实施例中，通过分析用户文化/社交背景(例如，在一些倾向于大声说话的社交/文化群体中)，通过基于声音确定用户个性类型(例如，使用IBM的PersonalityInsight^TM云服务)，测量用户的历史说话语气(例如，使用IBM的Tone Analyzer^TM云服务)等，可训练智能扬声器***120关于用户或群体的隐私顾虑(例如，家庭成员讨论)。例如，在一些文化中，人的语气和个性类型可提供人的隐私类型和级别的信息。如果是说明性实施例的特定实现所期望的，则智能扬声器***120可被配置有隐私防火墙，其可忽略存储被认为是隐私顾虑的声音。在一些情况下，如果确定存在隐私顾虑，则智能扬声器***120或智能扬声器设备140可自动中断操作，直到隐私顾虑消失为止。例如，智能扬声器***/设备120、140可被配置为基于用户指定的规则和环境(例如，一天中的某些时段)而关闭自己(例如，不收集音频样本)。

在一个说明性实施例中，可提供图形用户界面(GUI)以允许用户指定隐私顾虑。此后，策略转换模块可将经由GUI提供的用户规范转换成隐私过滤策略和规则。对于每个翻译的策略或规则，策略转换模块可进一步计算否定度，并对策略或规则分配权重。这样，***可实时检测隐私顾虑。

在另一个说明性实施例中，可从历史数据中学习隐私顾虑。例如，隐私模块可通过分析用户文化/社交群体/网络(例如，Facebook^TM、Twitter^TM、聊天等)并分析历史用户帖子/推文来学习用户的顾虑(或通常不合意的特性)。该分析还可包括由其他***执行的其他分析，诸如用户个性类型确定，诸如通过使用IBM的Personality Insight^TM云服务等，测量用户历史隐私顾虑等。

隐私顾虑也可以是位置相关的。例如，基于预测的事件或活动，可部署适当或专用的防火墙过滤策略和规则，以便降低不合适且无用的信息被智能扬声器***捕获的可能性。

应当注意，在一些实现中，监控环境150本身可以是移动的，并且不限于建筑物或其他固定的物理场所。例如，监控环境150可以是车辆，诸如车辆的驾驶室或人可存在的其他部分。在这种实施例中，智能扬声器设备140和智能扬声器***120可用于识别在车辆或车辆的一个组件操作期间、在固定的监控环境的物理场所等中产生的声学信号内的摩擦异响。声学信号可由智能扬声器设备140检测，并且声学信号的幅度谱可通过智能扬声器***120的分析来确定，以表示在至少两个时刻上在频率范围内的幅度分布，摩擦异响的存在可通过评估至少两个幅度谱来识别。该信息可用于识别在监控环境150中机器或设备的故障组件。

同样，在车辆环境中，智能扬声器设备140和智能扬声器***120可用于在智能扬声器设备140检测到车辆的碰撞/撞击之后记录声音。例如，碰撞/撞击的巨大噪声可用作检测碰撞/撞击事件的基础，该事件触发智能扬声器设备开始记录在预定时间段内发生的后续音频并将在智能扬声器设备140和/或智能扬声器***120的缓冲器或临时存储设备中仍然存在的音频远程存储到智能扬声器***120的更永久的存储位置。因此，所有的对应声音，包括车辆乘员之间在碰撞前和碰撞后的对话，都可被记录以便后来回放。这对帮助重建导致碰撞的原因和碰撞之后发生的事件以及记录错误的承认是有用的。

存在很多在其中可实现说明性实施例的机制的其他场景和用例，任何一个都旨在落入本发明的精神和范围内。

如上所指出的，说明性实施例的机制植根于计算机技术领域，并使用在这种计算或数据处理***中存在的逻辑来实现。这些计算或数据处理***通过硬件、软件或硬件和软件的组合被具体配置以实现上述的各种操作。这样，图2被提供为其中可实现本发明的各方面的一种类型的数据处理***的示例。许多其他类型的数据处理***可以同样被配置为具体实现说明性实施例的机制。

图2是在其中实现说明性实施例的各方面的示例数据处理***的框图。数据处理***200是计算机的示例，诸如图1中的服务器104A或客户端110、或者甚至是智能扬声器设备140，其中装载有实现本发明的说明性实施例的过程的计算机可用代码或指令。在一个说明性实施例中，图2表示实现认知***100和请求流水线108的服务器计算设备，例如服务器104A，认知***100和请求流水线108被增强以与本文所述的说明性实施例的附加机制一起操作或实现本文所述的说明性实施例的附加机制，即例如智能扬声器***120。

在所描绘的示例中，数据处理***200采用集线器架构，包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210连接到NB/MCH 202。图形处理器210通过加速图形端口(AGP)连接到NB/MCH 202。

在所描绘的示例中，局域网(LAN)适配器212连接到SB/ICH 204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器230、通用串行总线(USB)端口和其他通信端口232、以及PCI/PCIe设备234通过总线238和总线240连接到SB/ICH 204。PCI/PCIe设备可包括例如以太网适配器、附加卡和用于笔记本电脑的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM 224可以是例如闪存基本输入/输出***(BIOS)。

HDD 226和CD-ROM驱动器230通过总线240连接到SB/ICH 204。HDD 226和CD-ROM驱动器230可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备236连接到SB/ICH 204。

操作***在处理单元206上运行。操作***协调并提供对图2中的数据处理***200内的各种组件的控制。作为客户端，操作***是商业上可用的操作***，例如

Windows

诸如Java^TM编程***之类的面向对象的编程***可以与操作***一起运行，并从Java^TM程序或在数据处理***200上执行的应用提供对操作***的调用。

作为服务器，数据处理***200可以例如是运行高级交互执行(AIX)操作***或LINUX操作***的

eServer ^TM System

计算机***。数据处理***200可以是对称多处理器(SMP)***，其包括处理单元206中的多个处理器。替代地，可以采用单个处理器***。

用于操作***、面向对象的编程***和应用或程序的指令位于诸如HDD 226的存储设备上，并且被加载到主存储器208中以供处理单元206执行。用于本发明的说明性实施例的过程由处理单元206使用计算机可用程序代码来执行，该计算机可用程序代码位于例如主存储器208、ROM 224的存储器中，或者位于一个或多个***设备226和230中。

诸如图2中所示的总线238或总线240的总线***包括一个或多个总线。当然，总线***可以使用任何类型的通信结构或架构来实现，该通信结构或架构提供在连接到结构或架构的不同组件或设备之间的数据传输。诸如图2的调制解调器222或网络适配器212的通信单元包括用于发送和接收数据的一个或多个设备。例如，存储器可以是主存储器208、ROM224或诸如在图2中的NB/MCH 202中找到的高速缓存。

本领域普通技术人员应当理解，在图1和图2中描绘的硬件可以根据实现方式而变化。除了图1和2中所示的硬件之外或代替图1和2中所示的硬件，可以使用其他的内部硬件或***设备，诸如闪存、等效的非易失性存储器或光盘驱动器等。在不脱离本发明的精神和范围的情况下，说明性实施例可以应用于除了前面提到的SMP***之外的多处理器数据处理***。

此外，数据处理***200可以采用多种不同数据处理***中的任何一种的形式，包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(PDA)等。在一些说明性示例中，数据处理***200可以是便携式计算设备，其配置有闪存以提供用于存储操作***文件和/或用户生成的数据的非易失性存储器。本质上，数据处理***200可以是任何已知的或以后开发的数据处理***，而没有架构限制。

图3图示了根据一个说明性实施例的用于处理所捕获的音频样本数据的输入请求或输入的认知***请求处理流水线的示例。图3仅作为可实现为处理输入的处理结构的一个示例提供，该输入明确或隐含地请求认知***的操作以呈现对输入请求的响应或结果。特别地，对于说明性实施例，该请求是隐式请求，用于识别在输入的所捕获的音频样本数据中的声音类型，识别声音的源类型，确定事件是否正在或已在监控环境中发生，并确定并发起响应操作，如果有的话。

例如，图3的请求流水线可被实现为例如图1中的认知***100的请求处理流水线108。应当理解，图3所示的请求处理流水线的各阶段被实现为一个或者多个软件引擎、组件等，其被配置有用于实现归因于特定阶段的功能的逻辑。每个阶段使用一个或多个这种软件引擎、组件等实现。软件引擎、组件等在一个或多个数据处理***或设备的一个或多个处理器上执行，并利用或操作在一个或多个数据处理***上的一个或多个数据存储设备、存储器等中存储的数据。图3的请求处理流水线例如在一个或多个阶段中增强以实现下文描述的说明性实施例的改进机制，可提供额外的阶段以实现改进的机制，或者可提供与流水线300分离的逻辑以用于与流水线300接口并实现说明性实施例的改进的功能和操作。

如图3所示，请求处理流水线300包括多个阶段310-380，通过这些阶段，认知***操作以分析输入并生成最终响应。在初始输入阶段310，请求处理流水线300接收输入请求或输入数据以进行处理，例如，根据说明性实施例的所捕获的音频样本数据的输入。也就是说，智能扬声器设备捕获音频样本，并将音频样本作为数据传输发送到认知***以用于分析。所捕获的音频样本的输入数据被提供给请求处理流水线300的输入阶段310。

响应于接收输入数据，请求处理流水线300的下一个阶段，即数据解析和分析阶段320，解析输入数据，如果需要，则将任何检测到的语音转换为文本，并执行自然语言处理(NLP)技术以从文本中提取主要自然语言特征，执行音频特性分析以提取主要音频特征，并根据类型对这些主要特征进行分类。音频样本数据的分析可采用如上所述的许多不同形式以提取代表在监控环境中存在的特定声音的特征，包括声强分析、位置分析、自然语言内容分析以确定话语陈述或问题的内容、情绪分析、音调分析等。

再次参考图3，在分解阶段330使用所识别的主要特征以将主要特征分解成音频样本数据的指示特定声音的特性。将一个或多个查询应用于数据/信息语料库345，以便生成一个或多个假设。如上所述，语料库可以包括配置信息、知识库、声音模型、事件模型等。结果，用于评估所捕获的音频样本数据的主要特征的各种信息被收集，并且声音模型被应用以确定声音模型与音频样本数据的主要特征之间的匹配度。

在假设生成阶段340，将查询应用于信息语料库以生成识别可能假设的结果，例如，声音模型与音频样本数据中存在的声音的可能匹配，然后可对可能匹配进行评估。也就是说，查询的应用导致信息语料库的与特定查询的标准匹配的部分，例如声音模型。然后，在假设生成阶段340，语料库的这些部分被分析和使用，以生成输入音频样本数据的处理结果的假设。在该阶段340，生成数百个需要被评估的假设。

如上所述，在一些说明性实施例中，可在执行匹配操作之前执行对语料库345中的声音模型的子集和/或其他信息的过滤或选择。例如，作为分解阶段330或假设生成阶段340的一部分，可以基于主要特征和关于所捕获的音频样本数据的其他上下文信息来确定适用于所捕获的音频样本数据的声音模型的子集。例如，如果音频样本源自住宅和住宅的厨房，则可以首先利用与住宅的厨房中的声源相关联的第一声音模型子集来生成假设。如果没有找到具有足够置信度级别的音频样本数据的声音模型，则可调查另一声音模型超集，例如，可利用与住宅相关联而不是具体限于厨房声源的声音模型来尝试找到匹配。可使用任意数量级别的声音模型分类层级来执行假设生成，其中，优选是首先在低级别分类中搜索匹配，仅在必要时才进行更广泛和更高级别的后续搜索以获得匹配的期望置信度级别。

然后，在阶段350，请求处理流水线300对输入音频样本数据的任何自然语言、音频特性以及与音频样本数据和每个假设的标准相关联的其他主要特征和信息进行深度分析和比较，以及执行证据评分以评估特定假设是音频样本数据中的声音的正确分类的可能性。如上所述，这涉及使用多个推理算法，每个推理算法对输入音频样本数据的语言和/或提供支持或不支持假设的证据的语料库的内容执行单独类型的分析。每个推理算法基于它执行的分析来生成分数，该分数指示通过应用查询而提取的数据/信息语料库的个体部分的相关性度量以及对应的假设的正确性的度量，即，对假设的置信度测量。取决于所执行的特定分析，存在各种生成这种分数的方式。然而，一般地，这些算法寻找指示特定声音类型的特定术语、短语、特性、模式等，并确定匹配度，其中较高的匹配度被给予比较低的匹配度相对更高的分数。

在合成阶段360，由各种推理算法生成的大量分数被合成为针对各种假设的置信度分数或置信度量。该过程涉及将权重应用于各种分数，其中，权重已经通过对请求处理流水线300所采用的统计模型的训练来确定和/或动态更新。例如，由识别精确匹配的声音模型的算法生成的分数的权重可被设置为比评估一天中的时间的环境声音变化的其他算法相对更高。权重本身可由主题专家指定或通过机器学习过程来学习，其评估音频样本数据特性的重要性以及对整体假设生成的相对重要性。根据通过请求处理流水线300的训练而生成的统计模型来处理加权分数，该统计模型识别这些分数可被组合以生成针对个体假设的置信度分数或度量的方式。

所得到的置信度分数或度量由最终置信度合并和排序阶段370处理，其将置信度分数和度量相互比较，将它们与预定阈值进行比较，或者对置信度分数执行任何其他分析，以确定哪些假设最有可能是正确的。根据这些比较，对假设进行排序以生成排序的假设列表。在阶段380，根据排序的假设列表来生成并输出最终的假设(例如，输入音频样本数据中的声音的最终分类)和置信度分数。

如图3所示，根据一个说明性实施例，智能扬声器***120的各方面可集成在请求处理流水线300中或者可由请求处理流水线300实现。例如，智能扬声器***120的各方面可被集成到解析和分析阶段320、分解阶段330、假设生成阶段340、假设和证据评分阶段350等。还应当理解，基于表示在预定时间段内收集的一组音频样本的输入数据，也可以执行通过流水线300的类似处理以用于事件识别，其中预定时间段可以是指定或滚动的时间窗口。在一些情况下，可提供不同的流水线300以用于分别执行用于识别和分类输入音频样本中的声音的操作和用于基于在一段时间内在音频样本中找到的声音集合来识别事件的操作。流水线300提供对在认知上处理输入音频样本的支持，以识别音频样本中的声音、识别基于所识别的声音而发生的事件、以及响应于这种事件而确定和实施响应动作，如果合适的话。

图4是概述根据一个说明性实施例的智能扬声器***用于处理由智能扬声器设备捕获的音频样本的示例整体操作的流程图。如图4所示，操作开始于与智能扬声器设备相关联的音频捕获设备检测或捕获来自在监控环境内或与监控环境相关联发生的声音的音频样本(步骤410)。重要的是注意，这些声音不需要用于触发音频样本捕获的唤醒词或短语，并且实际上可能根本不是自然语言输入，而可以是在监控环境中或与监控环境相关联存在的任何可变声音。

使用初始的一组分析算法来分析音频样本以确定样本是否可能是需要进一步详细分析的唤醒声音(步骤420)。例如，该操作可执行关于音频样本是否是对于特定的一天中的时间和星期几对于监控环境不是环境声音的声音的初始确定。这可以通过执行音频样本的分析以提取主要特征并将它们与监控环境的环境声音的声音模型进行比较来完成(这些可以是随时间和/或通过用户反馈或机器学习技术来学习的一般性的和/或环境特定的声音模型)。然后，基于这种分析和与环境声音模型的比较，确定音频样本是否包含需要进一步详细分析的唤醒声音(步骤430)。如果音频样本中的声音是环境声音而不是唤醒声音，则不需要进一步处理，操作终止。

如果声音是唤醒声音，则使用认知***请求处理流水线来执行音频样本的认知分析，以识别声音类型和声音的声源类型(步骤440)。认知分析可涉及图5中概述的过程，例如，以用于确定音频样本中的声音的标识。

在使用步骤440的认知分析识别了声音之后，操作在认知上确定所识别的声音是否指示或触发在监控环境内或与监控环境相关联地发生的事件的识别(步骤450)。声音可以自己或与一段时间内的其他声音组合来指示这种事件。例如，事件识别可以如图6概述的方式来执行。

确定用于触发事件识别的声音认知评估的结果是否导致事件已发生的指示(步骤460)。如果不是，则将声音信息存储在临时存储设备中，以用于识别与可在指定时间窗口内捕获的后续声音相关联的事件(步骤470)。如果声音确实触发了事件的识别，则执行认知分析以确定事件的危险/风险级别以及要执行的对应的响应动作(步骤480)。然后，发起响应动作的执行(步骤490)，操作终止。

图5是概述了根据一个说明性实施例的用于在认知上识别所捕获的音频样本中的声音的示例操作的流程图。如图5所示，操作开始于接收用于分析的音频样本(步骤510)。音频样本被解析和分析以提取音频样本的主要特征，包括自然语言内容(如果有的话)、音频特性、基于情感分析的特征、基于位置的特征等(步骤520)。获取与从中获取音频样本的监控环境相对应的声音模型(步骤530)。如上所述，这可涉及与监控环境相对应的声音模型子集和监控环境内获得音频样本的位置被识别并用于后续步骤中，其中，如果未识别匹配，则该组声音模型以层级方式扩展。

将音频样本的主要特征与所获取的声音模型进行比较，以识别与每个声音模型的匹配度(步骤540)。基于匹配度并考虑其他知识库因素，可生成加权置信度分数(步骤550)。例如，基于声音模型是一般性的声音模型还是特定于监控环境的声音模型，其中声音模型是例如随时间从监控环境中学习的，可将不同的权重应用于声音模型。生成匹配的声音模型的排序列表，并将置信度分数与阈值要求进行比较(步骤560)。具有置信分数的阈值量的最高排名的声音模型被选择为与音频样本中的声音匹配(步骤570)。然后，操作终止。

图6是概述根据一个说明性实施例的用于识别在监控环境中的事件的发生并发起响应动作的示例操作的流程图。如图6所示，操作开始于识别来自从监控环境中捕获的音频样本的声音(步骤610)。先前在给定时间窗口内识别和处理的声音与当前所识别的声音一起被识别(步骤620)。将声音集合、它们的类型、它们的源、声音序列以及声音的各种其他音频和内容特性与定义不同事件类型的标准的事件模型进行比较(步骤630)。如上所述，这可涉及与监控环境相对应的事件模型子集和监控环境内获取音频样本的位置被识别并在后续步骤中使用，其中，如果未识别匹配，则该组事件模型以层级方式扩展。

可用于识别事件并对与在监控环境中发生的事件相关联的置信度分数进行加权的配置信息和其他知识库信息还可从对应的存储中获取(步骤640)。可基于声音的各种因素的匹配度、配置信息和知识库信息来生成加权置信分数(步骤650)。生成匹配的事件模型的排序列表，并将置信度分数与阈值要求进行比较(步骤660)。具有置信度分数的阈值量的最高排名的事件模型被选择为匹配(步骤670)。匹配的事件模型可指定事件的默认危险/风险级别以及要执行的建议响应动作。例如，该信息可在图4的步骤480和490中使用以确定危险/风险级别和要执行的相应的响应动作。在识别匹配的事件模型之后，图5中的操作终止。

因此，说明性实施例提供用于由智能扬声器***实现可变唤醒声音识别和分类的机制。智能扬声器***被配置为识别指示要求响应动作的可能事件在监控环境内或与监控环境相关联地发生的任何声音类型。智能扬声器***提供认知分析能力，以用于基于在指定时间段上识别的声音而在认知上确定声音类型、声源类型、事件是否在监控环境内正在或已经发生，并可识别并发起针对这种事件的响应动作。这样，智能扬声器***并不依赖于必须具有预定义的固定唤醒声音，并且可有用于针对发生的事件执行响应动作，响应动作不限于响应自然语言查询。

如上所指出的，应当理解说明性实施例可以采用完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在一个示例实施例中，说明性实施例的机制以软件或程序代码实现，包括但不限于固件、驻留软件、微代码等。

适于存储和/或执行程序代码的数据处理***包括至少一个处理器，其通过诸如***总线之类的通信总线直接或间接耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间使用的本地存储器、大容量存储器和高速缓冲存储器，这些存储器提供至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储器获取代码的次数。存储器可以是各种类型，包括但不限于ROM、PROM、EPROM、EEPROM、DRAM、SRAM、闪存、固态存储器等。

输入/输出或I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接耦合到***，或者通过中间的有线或无线I/O接口和/或控制器等耦合到***。I/O设备可以采用除传统键盘、显示器、指示设备等之外的许多不同形式，诸如通过有线或无线连接耦合的通信设备，包括但不限于智能电话、平板电脑、触摸屏设备、语音识别设备等。任何已知的或以后开发的I/O设备都旨在落入说明性实施例的范围内。

网络适配器也可以被耦合到***，以使数据处理***能够通过中间的私有或公共网络耦合到其他数据处理***或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是当前可用于有线通信的网络适配器类型中的一小部分。还可以使用基于无线通信的网络适配器，包括但不限于802.11a/b/g/n无线通信适配器、蓝牙无线适配器等。任何已知的或以后开发的网络适配器都在本发明的精神和范围内。

已经出于说明和描述的目的给出了对本发明的描述，并且不旨在穷举或将本发明限于所公开的形式。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例是为了最好地解释本发明的原理、实践应用，并且使本领域普通技术人员能够理解本发明的具有适于预期特定用途的各种修改的各种实施例。选择本文中使用的术语是为了最好地解释实施例的原理、实践应用或对市场中发现技术进行技术改进，或者使本领域的其他普通的技术人员能够理解本文公开的实施例。

Claims

1.一种在与包括音频捕获设备的至少一个智能扬声器设备相关联的智能扬声器***中用于处理由所述音频捕获设备捕获的音频样本数据的方法，所述方法包括：

由所述智能扬声器***的智能扬声器***逻辑从所述智能扬声器设备的所述音频捕获设备接收从监控环境中捕获的音频样本；

由所述智能扬声器***逻辑基于对所述音频样本数据中的声音的多个不同特性执行联合分析并将所述联合分析的结果与在多个声音模型中指定的标准进行匹配，将所述声音在认知上分类为声音类型；

由所述智能扬声器***逻辑基于所述声音的分类，确定是否要基于所述声音的所述分类来执行响应动作；以及

响应于确定要执行响应动作，由所述智能扬声器***逻辑启动所述智能扬声器***执行所述响应动作，其中，所捕获的音频样本是在预定时间量内捕获的多个捕获的音频样本之一，并且其中，确定是否要基于所述声音的所述分类来执行响应动作包括：

将一个或多个事件规则应用于所捕获的音频样本，其中，每个事件规则指定表示相应事件的多个不同的分类声音；和

对于一个或多个事件规则中的每个事件规则：

计算风险水平值，该风险水平值其指示与该事件规则的对应事件相关的风险；和

将所述风险水平值与至少一个阈值进行比较以确定是否要执行所述响应动作，

其中，所述计算风险水平值还包括：

计算匹配值，该匹配值指示多个捕获的音频样本中存在的声音与指示该事件规则的对应事件的多个不同的分类声音的匹配程度，其中，该匹配值指示该事件规则的不同分类声音与多个捕获音频样本中存在的声音匹配的数量；和

通过匹配值对对应事件的默认风险级别进行加权，以生成该事件规则的风险级别值。

2.根据权利要求1所述的方法，其中，将所述音频样本数据中的所述声音在认知上分类为声音类型包括：

将所述音频样本中的所述声音的声音模式与所存储的与所述多个声音模型相关联的声音模式进行比较；以及

响应于识别与所述音频样本中的所述声音的所述声音模式匹配的所存储的声音模型的声音模式，从与所存储的声音模式对应的声音模型返回声音类型和声源类型信息。

3.根据权利要求1所述的方法，其中，基于所述声音的所述分类来确定是否要执行响应动作还包括：

确定将所述一个或多个事件规则应用于多个捕获的音频样本是否指示事件已在所述监控环境中发生；以及

响应于确定事件已在所述监控环境中发生，由所述智能扬声器***启动所述响应动作的执行，其中，所述响应动作由所述一个或多个事件规则指定。

4.根据权利要求3所述的方法，其中，所述一个或多个事件规则被应用于所述多个所捕获的音频样本中相同或不同的所捕获的音频样本中的多个声音，并且其中，所述一个或多个事件规则评估所述多个声音的组合以确定所述事件是否已在所述监控环境中发生。

5.根据权利要求1所述的方法，其中，基于对所述音频样本数据中的所述声音的多个不同特性执行联合分析来将所述声音在认知上分类为声音类型包括：

确定在所捕获的音频样本数据中的所述声音的源在所述监控环境中的位置或移动信息中的至少一个；以及

基于所确定的所捕获的音频样本数据中的所述声音的所述源的位置或移动信息中的至少一个，在认知上对所述音频样本数据中的所述声音进行分类。

6.根据权利要求1所述的方法，其中，基于所述声音的所述分类来确定是否要执行响应动作还包括：将用户指定的配置信息应用于所述声音的所述分类，其中，所述用户指定的配置信息指定要针对其执行响应动作的声音的用户特定类型。

7.根据权利要求1所述的方法，其中，基于对所述音频样本数据中的所述声音的多个不同特性执行联合分析并将所述联合分析的结果与在所述多个声音模型中指定的标准进行匹配，将所述声音在认知上分类为声音类型还包括：

由所述智能扬声器***逻辑学习与所述监控环境相关联的用户的隐私顾虑信息；以及

由所述智能扬声器***逻辑基于所述用户的所述隐私顾虑信息而将隐私防火墙应用于所述音频样本数据中的所述声音，以过滤和忽略基于所述隐私防火墙的所述隐私顾虑信息而被确定为隐私的所捕获的音频样本数据的存储。

8.根据权利要求1所述的方法，其中，所述响应动作是以下中的至少一个：输出听觉消息、向用户输出听觉请求或问题并经由所述智能扬声器设备收听来自用户的然后被处理的听觉响应、触发在与所述智能扬声器设备相关联的显示器上的信息显示、触发所述智能扬声器设备上的视觉指示器、控制设备的操作以在所述监控环境内执行操作、或者经由有线或无线连接启动与另一设备的通信。

9.根据权利要求8所述的方法，其中，所述响应动作是经由有线或无线连接启动与另一设备的通信，并且其中，所述通信包括：在所述监控环境中已经发生的已识别事件的指示，以及在与所述事件对应的时间段内捕获的音频样本数据的记录以用于由接收所述通信的设备进行回放。

10.根据权利要求1所述的方法，其中，将所述音频样本数据中的所述声音在认知上分类为声音类型包括：

由所述智能扬声器***逻辑学习在一天中的不同时间在所述监控环境中出现的环境声音模式；以及

确定所述音频样本数据中的声音模式是否与被学习的在一天中由所述音频捕获设备捕获所述音频样本的时间在所述监控环境中出现的环境声音模式至少相差阈值量。

11.一种计算机可读存储介质，所述计算机可读存储介质具有与其一起实现的程序指令，所述程序指令可由计算设备执行以使所述计算设备执行根据权利要求1至10中任一项所述方法的方法步骤。

12.一种***，包括：

处理器；以及

存储应用程序的存储器，当所述应用程序在所述处理器上执行时，执行根据权利要求1至10中任一项所述方法的方法步骤。

13.一种装置，包括单独被配置成执行根据权利要求1至10中任一项所述方法的每个步骤的模块。