CN112700765A

CN112700765A - 辅助技术

Info

Publication number: CN112700765A
Application number: CN202011043265.1A
Authority: CN
Inventors: 克里斯托夫·J·米切尔; 萨夏·克尔斯图洛维奇; 卡格达斯·比伦; 尼尔·库珀; 朱利安·哈里斯; 阿尔诺德·杰森纳斯; 乔·帕特里克·莱纳斯
Original assignee: Audio Analytic Ltd
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-10-07
Filing date: 2020-09-28
Publication date: 2021-04-23
Also published as: US11133020B2; US20210104255A1

Abstract

提供一种设备或***，所述设备或***被配置为检测与预定情境相关联的一个或多个声音事件和/或场景，并在满足该情境时提供辅助输出。

Description

辅助技术

技术领域

本公开总体上涉及基于从非语言提示确定的情境向用户提供辅助设施。

背景技术

关于声音识别***和方法的背景信息可以在申请人的PCT申请WO2010/070314中找到，该申请的全部内容通过引用合并在此。

本申请人已经认识到声音识别***的新应用的潜力。

发明内容

人们广泛采用了技术来为用户的日常生活提供帮助。用户将辅助技术部署为信息源，或者为他们提供执行某些任务的提示或提醒，已很常见。

例如，在家庭环境中，可以部署计算机辅助设备，该计算机辅助设备实现按照时间表来以向用户提供以显示器、听觉警报、触觉刺激或计算机生成的语音形式的提醒的设施。此外，或替代地，这种设备可以提供使特定动作自动化的设施。因此，例如，辅助设备可以发布指令以由适当的协作设备实施，以打开或关闭房屋照明，或打开或关闭窗帘，或生成旨在唤醒睡眠中的人的声音输出。这样的动作可以由设备的用户预先安排。

例如，在汽车环境中，提供一种导航***是众所周知的，该导航***旨在向驾驶员提供图形和听觉指令，以便尽可能有效地到达目的地。这样的指令可以适应关于道路交通状况或其他标准的信息。

一般而言，提供了一种设备或***，所述设备或***被配置为检测与预定情境相关联的一个或多个声音事件和/或场景，并在满足该情境时提供辅助输出。

本公开的各方面提供了一种可操作用于基于情境确定来生成辅助输出的计算机设备，所述设备包括：音频流获取单元，用于获取音频样本流；声音检测器，用于在音频样本流上检测一个或多个非语言声音标识符，每个非语言声音标识符标识音频样本流上的非语言声音签名；情境确定器，用于基于检测到一个或多个指示性非语言声音标识符确定已满足特定的情境，并基于所述情境生成辅助输出。

本公开的各方面提供了一种计算机设备，该计算机设备能够根据音频输入流上的可识别的非语言声音和/或场景来确定是否已经满足预定情境并因此生成对该情境的辅助响应。

可以以多种方式来确定情境是否已被满足。在一个简单的示例中，特定声音事件的单个实例可能导致情境的满足。声音事件的组合可以满足情境。更复杂的组合方法可以进一步用于确定情境的满足。情境的满足可以是相对于情境模型的。情境模型可以包括处理网络模型，例如神经网络或决策树，可以使用机器学习在训练数据上开发机器模型，该训练数据由与特定情境相关联的声音事件的“有效”组合组成。机器学习可能是在使用中自适应的，设备可能会响应于对真实数据的潜在错误响应，从用户反馈中获取进一步的训练。

将理解的是，本文描述的设备的功能可以划分为多个模块。可替代地，可以在单个模块或处理器中提供功能。所述处理器或每个处理器可以用任何已知的合适硬件来实现，例如微处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、GPU(图形处理单元)、TPU(张量处理单元)或NPU(神经处理单元)等。所述处理器或每个处理器可以包括一个或多个处理核心，每个核心配置为独立执行。所述处理器或每个处理器可以具有到总线的连接性，以执行指令和处理例如存储在存储器中的信息。

本发明还提供处理器控制代码以实现上述***和方法，例如在通用计算机***上、数字信号处理器(DSP)上或特殊设计的数学加速单元(例如图形处理单元(GPU)或张量处理单元(TPU))上实现。本发明还提供了一种载有处理器控制代码的载体，以在运行时实现上述任何一种方法，特别是在非暂时性数据载体上，例如磁盘、微处理器、CD-或DVD-ROM、编程存储器，例如只读存储器(固件)或数据载体(例如光或电信号载体)上。可以在诸如磁盘、微处理器、CD-或DVD-ROM的载体，诸如非易失性存储器(例如，闪存)或只读存储器(固件)的编程存储器上提供代码。实现本发明的实施例的代码(和/或数据)可以包括常规编程语言中的源代码、目标代码或可执行代码(解释或编译)(例如C)或汇编代码，用于设置或控制ASIC(专用集成电路)或FPGA(现场可编程门阵列)的代码，或用于硬件描述语言的代码(例如VerilogTM或VHDL)(高速集成电路硬件描述语言)。如本领域技术人员将理解的，这样的代码和/或数据可以分布在彼此通信的多个耦合组件之间。本发明可以包括控制器，该控制器包括与***的一个或多个组件耦合的微处理器、工作存储器和程序存储器。

这些和其他方面将从下面描述的实施例中非常清楚。本公开的范围既不限于该概述，也不限于必须解决所指出的任何或所有缺点的实施方式。

附图说明

为了更好地理解本公开并示出实施例如何生效，参考附图，其中：

图1示出了被监视环境中的示例设备的框图；

图2示出了计算设备的框图。

图3示出了在计算设备上实现的软件的框图；

图4是示出根据实施例的提供辅助输出的过程的流程图。

图5是示出了实施例的实现并指示这种实现的功能和结构的过程架构图。

具体实施方式

现在仅以示例的方式描述实施例。

图1示出了处于被监视环境100中的计算设备102，其可以是室内空间(例如，房屋、健身房、商店、火车站等)、室外空间或车辆中。

网络106可以是无线网络、有线网络，或者可以包括设备之间的有线和无线连接的组合。

如以下更详细描述的，计算设备102可以执行音频处理以识别(即检测)被监视环境100中的目标声音。在替代实施例中，计算设备102外部的声音识别设备104可以执行音频处理，以识别被监视环境100中的目标声音，然后提醒计算设备102已检测到目标声音。

图2示出了计算设备102的框图。从下面将认识到，图2仅是说明性的，并且本公开的实施例的计算设备102可以不包括图2中所示的所有组件。

计算设备102可以是PC、诸如膝上型计算机、智能电话、平板PC之类的移动计算设备、消费电子设备(例如，智能扬声器、TV、耳机、可穿戴设备等)或其他电子设备(例如，车载设备)。计算设备102可以是移动设备，使得用户103可以使计算设备102在被监视环境周围移动。可替代地，计算设备102可以固定在被监视环境中的某个位置(例如，安装到房屋墙壁上的面板)。可替代地，用户可以通过附接到身体部分或安放在身体部分上或者通过附接到一件衣服来穿戴所述设备。

计算设备102包括耦合到存储器204的处理器202，存储器204存储可与数据元素208一起操作的应用软件206的计算机程序代码。如图3所示，示出了使用中的存储器的映射。声音识别软件206a用于通过将检测到的声音与存储在存储器204中的一个或多个声音模型208a进行比较来识别目标声音。声音模型208a可以与一个或多个目标声音相关联(可以是例如碎玻璃声、烟雾警报声、婴儿啼哭声，表示正在执行动作的声音等)。

情境确定软件206b可选地结合诸如地理位置或一天中的时间的其他因素，通过检测特定的声音事件和/或场景(例如以上提到的那些声音事件)来确定是否满足情境。情境确定软件206b由一个或多个情境模型208b启用，被开发为根据特定声音事件和/或表征特定情境的场景之间的一种或多种关系来识别情境。

辅助软件206c管理对情境满足的响应。因此，响应于满足特定情境，辅助软件通过生成辅助输出来响应。例如，这可以是给用户的信号，例如显示元件、可听输出、触觉刺激或远程警报。另一方面，或者作为附加地，其可以是电信号或其他信号，以供协作设备接收以致动另一个设备，例如电开关。它也可以是电信，例如消息或电话通信会话的启动。

用户界面软件206d启动用于邀请用户进行用户输入动作的用户界面的生成。这样的用户界面可以采用多种形式。因此，例如，用户界面可以包括图形用户界面，该图形用户界面提供邀请用户输入动作的显示元素，诸如选择屏幕上的按钮或将信息输入到指定的屏幕输入栏中。另一方面，或者作为附加地，用户界面可以是基于音频的。在这种情况下，用户界面软件206d能够接收并解释语音音频并将其转换为用于控制实现的其他方面的数据输入。在那种情况下，用户界面软件206d可用于生成计算机合成语音输出，以便与用户交互。

用户界面软件206d，无论其如何实现，都受到用户界面数据208d的支持，该用户界面数据208d存储了可以从中实现用户界面的信息。

计算设备102可以包括例如一个或多个输入设备。物理按钮(包括单个按钮、小键盘或键盘)或物理控件(包括旋钮或转盘、滚轮或触摸条)210和/或麦克风212。计算设备102可以包括一个或多个输出设备，例如，扬声器214和/或显示器216。应当理解，显示器216可以是触敏显示器，因此可以用作输入设备。

计算设备102还可以包括用于与一个或多个可控设备108和/或声音识别设备104进行通信的通信接口218。通信接口218可包括有线接口和/或无线接口。

如图3所示，计算设备102可以在本地(在存储器204中)存储声音模型，因此不需要为了识别捕获的声音而与任何远程***保持恒定通信。可替代地，声音模型208a存储在耦合到计算设备102的远程服务器(图2中未示出)上，并且远程服务器上的声音识别软件206用于执行从计算设备102接收的音频的处理，以识别由计算设备102捕获的声音对应于目标声音。这有利地减少了在计算设备102上执行的处理。

声音模型和声音事件和/或场景的识别

基于对与声音事件和/或场景类别相对应的捕获声音的处理，来生成与声音事件和/或场景相关联的声音模型208a。优选地，多次捕获同一声音的多个实例，以提高由捕获的声音事件和/或场景类别生成的声音模型的可靠性。

为了生成声音模型，对捕获的声音事件和/或场景类别进行处理，并且为特定的捕获的声音事件和/或场景类别生成参数。所生成的声音模型包括这些所生成的参数和其他可用于表征所捕获的声音事件和/或场景类别的数据。

有多种方法可以生成与目标声音类别关联的声音模型。捕获的声音的声音模型可以使用机器学习技术或预测建模技术生成，例如：隐马尔可夫模型、神经网络、支持向量机(SVM)、决策树学习等。

申请人的PCT申请WO2010/070314(通过引用整体并入)详细描述了识别声音的各种方法。广义上讲，输入样本声音通过分解为频带进行处理，例如可以使用PCA/ICA进行解相关，然后将该数据与一个或多个马尔可夫模型进行比较，以生成针对待识别的输入声音的对数似然比(LLR)数据。然后可以使用(硬)置信度阈值来确定是否已识别出声音。如果检测到对两个或多个存储的马尔可夫模型的“拟合”，则***优先选择最可能的模型。通过有效地将待识别声音与由Markov模型预测的预期频域数据进行比较，可以将声音“拟合”到模型中。通过校正/更新均值和基于干扰(包括背景)噪声的模型中的方差，可以减少误报。

应当理解，可以采用除本文描述的技术以外的其他技术来创建声音模型。

声音识别***可以使用压缩音频或未压缩音频。例如，用于44.1KHz信号的时频矩阵可能是具有512个重叠的1024点FFT。这大约是20毫秒的窗口，重叠时间为10毫秒。然后将所得的512个频段分组为子带，或例如62.5到8000Hz之间的四分之一倍频程，给出30个子带。

可以使用查找表从压缩或未压缩的频带映射到新的子频带表示频带。对于给定的采样率和STFT大小示例，对于每个支持的采样率/bin(段)数对，该阵列可能包括一个(Binsize÷2)x 6((段大小÷2)x 6)阵列。这些行对应于段编号(中心)-STFT大小或频率系数的数量。前两列确定较低和较高的四分之一倍频程(quarter octave)段索引编号。接下来的四列确定应置于从第一列中定义的低四分之一倍频程开始到第二列中定义的高四分之一倍频程的相应的四分之一倍频程段中的段大小的比例，例如，如果段重叠了两个四分之一倍频程范围，则3列和4列的比例值总和为1，而5列和6列的比例值为零。如果段重叠多于一个子带，则更多的列将具有比例大小值。本示例为人类听觉***中的关键频段建模。然后，通过概述的归一化方法来处理这种减少的时间/频率表示。对所有帧以10ms的跳跃大小递增移动帧位置重复此过程。重叠的窗口(跳跃大小不等于窗口大小)提高了***的时间分辨率。这被视为信号频率的充分表示，可用于总结声音的感知特性。然后，归一化阶段将子带分解中的每个帧都除以每个子带中平均功率的平方根。平均值计算为所有频带中的总功率除以频带数。这个标准化的时间频率矩阵将传递到***的下一部分，在该部分中，可以生成声音识别模型及其参数，以完全表征声音的频率分布和时间趋势。

声音表征的下一个阶段需要进一步定义。

机器学习模型用于定义和获取识别声音所需的可训练参数。这种模型的定义是：

-一组可训练的参数θ，例如但不限于，隐马尔可夫模型(HMM)的均值、方差和跃迁、支持向量机(SVM)的支持向量、深度神经网络(DNN)的权重、偏差和激活函数，

-具有音频观测o和相关的声音标签l的数据集，例如，一组音频记录，捕获一组感兴趣的目标声音以进行识别，例如婴儿啼哭、狗吠或烟雾报警器，以及不是待识别目标声音并且可能被不利地识别为目标声音的其他背景声音。该音频观测数据集与一组标签l相关联，标签l指示感兴趣的目标声音的位置，例如，在音频观测o中发生婴儿啼哭声的时间和持续时间。

生成模型参数是定义和最小化整个音频观测集合中的损失函数

的问题，其中最小化是通过训练方法执行的，例如但不限于，HMM的Baum-Welsh算法、SVM的软裕度最小化或DNN的随机梯度下降。

为了对新声音进行分类，推理算法根据模型及其参数θ使用该模型确定新的传入音频观测o与一个或多个声音类别C关联的概率或分数P(C|o,θ)。然后，通过诸如但不限于阈值或动态编程的决策方法将概率或分数转换为离散的声音类别符号。

这些模型将在许多不同的声学条件下运行，并且由于给出代表***将要接触的所有声学条件的示例实际上是有限制的，因此将对模型进行内部调整，以使***能够在所有这些不同的声学条件下运行。许多不同的方法可以用于此更新。例如，该方法可以包括取各个子带的平均值，例如，最后T秒数的四分之一倍频程频率值。将这些平均值添加到模型值，以更新该声学环境中声音的内部模型。

在计算设备102执行音频处理以识别被监视环境100中的目标声音的实施例中，该音频处理包括捕获声音的计算设备102的麦克风212，以及分析该捕获的声音的声音识别206a。特别地，声音识别206a将捕获的声音与存储在存储器204中的一个或多个声音模型208a进行比较。如果捕获的声音与所存储的声音模型匹配，则该声音被识别为目标声音。

所识别的目标声音的序列因此可以被传递至序列到序列模型206b，以在控制由浏览器206c支持的文档208c的导航的情境下进行处理。

在本公开中，感兴趣的目标声音是非语言声音。在适当的时候将描述许多用例，但是读者将理解，各种非语言的声音可以作为导航动作的触发。本公开以及本文采用的示例的特定选择不应被理解为对基本概念的适用范围的限制。

情境确定

由声音识别206a生成的非语言声音标识符的结果序列被传递到情境确定软件206b，以确定它是否表征了情境定义模型208b中定义的情境。

情境定义模型208b将情境编码为在一组声音事件和/或场景中收集的声音之间的一种或多种关系。关系可以包括但不限于在所考虑的集合中收集的声音事件和/或场景的发生的顺序，它们在预定时间窗口内的共现，它们在时间上的距离，它们的概率-出现次数(n-gram)或任何其他形式的加权或非加权图形。这些情境定义可以通过多种方式获取，例如但不限于通过专家***的手动编程，或通过机器学习(例如但不限于)使用深度神经网络、决策树、高斯混合模型或概率n-gram。

应该注意的是，尽管声音识别过程206a将音频流转换为一个或多个声音事件和/或场景(可能带有时间戳)，但情境识别将一组(可能带有时间戳的)声音描述符转换为关于情境的决定。例如，情境定义模型可以被定义为“吃早餐”或“离开房子”。这些中的每一个将被存储为一组声音事件和/或场景及其一个或多个关系。在从声音识别过程发出的一组声音事件和/或场景中检测出满足声音事件和/或场景之间的一种或多种关系将导致确定已满足特定的识别情境。

辅助输出

作为满足特定的所识别的情境的结果，生成辅助输出。该辅助输出可以直接映射到满足的情境，该映射存储在存储器中。

辅助输出可以是(非穷尽地)合成语音音频输出、听觉警报、图形显示、与另一设备的电磁通信、与另一设备的有线电通信，或上述任意组合。

处理

图4是示出根据第一实施例的控制计算设备的用户界面的过程400的流程图。处理300的步骤由处理器202执行。

在步骤S402，处理器202在被监视环境100中识别一个或多个声音事件和/或场景。

计算设备102的麦克风212被布置为在被监视的环境100中捕获声音。步骤S402可以由处理器执行，以将捕获的声压波转换成数字音频样本并执行声音识别软件206以分析数字音频样本(在执行此分析之前，处理器可以压缩数字音频样本)。特别地，声音识别软件206将捕获的声音与存储在存储器204中的一个或多个声音模型208进行比较。如果捕获的声音与存储的声音模型匹配，则捕获的声音被识别为目标声音。可替代地，处理器202可以经由通信接口218将捕获的声音发送到远程服务器，以进行处理以识别由计算设备102捕获的声音是否对应于目标声音。即，处理器202可以基于从远程服务器接收到由计算设备102捕获的声音对应于目标声音的消息，来识别被监视环境100中的目标声音。

可替代地，声音识别设备104的麦克风可以被布置为在被监视环境100中捕获声音并且处理所捕获的声音以识别由声音识别设备104捕获的声音是否对应于目标声音。在该示例中，声音识别设备104被配置为经由网络106向计算设备102发送消息，以警告计算设备102已经检测到目标声音。即，处理器202可以基于从声音识别设备104接收到消息来识别被监视环境100中的目标声音。

无论在何处执行所捕获的声音的处理，目标声音的识别都包括识别可能在声音捕获设备(计算设备102或声音识别设备104)的环境中生成的非语言声音，例如碎玻璃声、烟雾警报声、婴儿哭声、拟声话语、安静的房屋声或火车站声。

在步骤S404，处理器202确定情境的满足，如情境模型208b所定义的。这可能是一个连续的过程-处理器可能被配置为将特定的情境模型208b加载到短期存储器中，因此将重点放在声音事件和/或场景的流上，以检测指示该情境的声音关系是否满足。这可以通过用户输入操作预先建立。因此，例如，用户可以向设备输入希望被警告关于特定一个或多个情境的存在的需求。用户可以进一步配置设备以确定是否应该设置一次警报，还是设置每次遇到情境时警报。

情境确定过程接收到的(可能带有时间戳的)声音事件和/或场景描述符的序列被分析为一个集合，其中该集合不一定是有序的。情境模型例如由声音事件和/或场景共现的图表表示，可以通过例如Viterbi算法进行解码，但是其他模型也可以用于从数据中学习共现模型，例如决策树或深度神经网络。

其他方法也是可能的-在接收到特定声音事件和/或场景时，处理器202可以搜索情境模型以找到满足的候选情境，然后监视未来的声音事件和/或场景，直到满足这些条件之一。

在步骤S406，处理器202发出与满足的情境相对应的辅助输出或警报。

用例

以下是一些用例，旨在说明上述技术的适用范围。这些用例均不应解释为对潜在适用性的限制。

可以定义情境，以监视从起床到出发去学校后孩子的早晨例程的进度和完成情况。在这种情况下，可以从浴室智能扬声器获取音频输入流。使用该扬声器，可以检测到特定的个人(例如儿童)在上学之前刷了牙，上过厕所并且洗了手。因此，第一情境可以被定义为“进行中”情境，其中早晨例程已经开始但是未完成。响应于检测到这种情况，可以将信息推送到智能手机(例如父母的智能手机)，以便可以更新父母关于整个早晨例程的进度。当检测到早上的例程已完成时，可以将进一步的警报发送到智能手机，从而进入“准备上学”的情境。

在另一种情况下，可以围绕家庭安全性定义情境。例如，家庭助理可以监视与该房子的居住人准备去上班相关联的动作和事件。家庭助理可以检测与居住者做最终准备离开的准备相关联的声音事件和/或场景，例如穿上鞋子或拿起一堆钥匙。家庭助理可以响应于这样的事件和/或场景以确定事件和/或场景的先验序列是否匹配与早晨例程相关联的预期的多个事件和/或场景。响应于任何不匹配，可能会产生辅助输出。因此，例如，家庭助理可能会响应于任何此类检测到的不匹配而生成输出，例如“等等，您忘记给洗碗机注水”或“等等，您忘记关厨房水龙头”。

在另一种情况下，包括多个适当配置的设备的***可以启用对用户暴露于可听噪声的监视。这种设备要实现的目标是跟踪、监视和建立围绕日常噪声暴露的更好的例程。从可穿戴设备或用户的智能耳机等收集的声音可以准确记录用户暴露于声音的状态，包括声音级别、时间强度和声音类型。暴露于有害声音(噪音)和情绪之间存在公认的联系。噪音会在极端情况下触发压力。该***可以被配置为定义与超过每天暴露于某些声音的剂量相关联的情境，并响应于输入该情境而向用户发出警报。

在另一种情况下，设备可以被配置为检测在室内的相对安静(尽管存在人类用户)的时段作为声音事件和/或场景。因此，所述设备可以围绕此沉默时段定义情境，作为用户休息的机会。在这种情况下，可以生成辅助输出，作为对用户的可听合成语音输出，例如“您真是太忙了，现在是中午……来一些轻松的音乐怎么样？”

在另一种情况下，可以围绕用户的健康睡眠周期来定义情境。因此，可以部署卧室中的智能扬声器，以基于呼吸声的强度和出现，床中的移动以及白天/晚上的时间来检测用户的睡眠周期的阶段。基于此，可以使用声音输出或例如触发供暖***的触发器来启动早晨的家庭供暖周期，从而确定最适合或健康上最有利于唤醒用户的时间。可能触发的其他输出包括向自动淋浴***发送消息以开始水流，以便用户可以走向预热淋浴，咖啡机开始冲煮一壶咖啡或开始其他视听效果，例如电视展现、电子邮件、浏览器或在适当设备上的其他适当动作。

可以将类似的设备进一步配置为基于检测到的声音事件和/或场景的序列来确定用户是否经历了不良的睡眠夜晚。响应于检测到这样的情境，所述设备可以被配置为触发与此相对应的辅助输出。因此，所述设备可以例如输出可听的合成语音，以将信息传达给用户，以鼓励早晨休息(例如阅读，听音乐)，或者连接到家庭成员以获取支持。例如，所述设备可以由体弱者或老年人，特别是语音能力减弱的人使用，以提醒第三方告知健康状况的变化或需要帮助。

在适当协作的设备的网络中，例如在家庭中，可能监视声音事件和/或场景以使用户能够更有效地共享设施。因此，例如，设备可能能够监视浴室是否在使用中。设备可以被配置为监视浴室的空置，并响应于此发出声音输出。因此，例如，用户可能会通过发出语音命令“在浴室没人时告诉我”来启动监视过程，一个或多个设备对与浴室门打开相关联的声音事件和/或场景以及可能指示浴室已空置的其他声音做出响应。在这种情况下，一个或多个设备将发出可听的合成语音输出，例如“浴室没人了”。同样，将早餐盘放在桌子上的声音可能会触发“早餐快准备好了”输出到孩子的卧室。

在一个实施例中，可以提供进一步的设施，以使用户能够配置设备以特定方式进行操作。因此，例如，设备可以接受关于用户希望如何接收与特定情境的发生有关的警报的用户输入动作，例如口语用户输入动作。例如，情境检测可以由用户打开或关闭，或者可以启用或禁用对特定情境的监视。此外，可以配置情境是否出现一次，出现预定次数(例如“贪睡”功能)或每次出现时发出警报。

在情境模型中，声音之间的关系可以利用与对应于声音的其他信息项的关系来增强。例如，可以将在空间或时间上声音的发生记录为声音事件的一部分。使用声音事件的标识以及可选地使用声音事件的时间或发生的位置，可以得出有关在情境模型中定义的可识别情境的进一步结论。因此，例如，如果与早餐的准备或食用相关联的声音在早晨或在与早餐相关的房屋中的特定位置(例如厨房)发生，则与描述为“有早餐”的情境可能有更强的相关性。同样，如果与声音关联的声音出现在特定时间或与该声音关联的位置(例如餐厅)，则与被称为“吃饭”的声音关联的声音可能与该声音具有更强的关系。

综述

如图5所示，呈现了设计用于实现上述用例的***500的整体结构和功能。在这种情况下，第一数字音频获取块510从麦克风502接收音频信号，并产生一系列波形样本。这些样本被传递到声音检测块520，声音检测块520为每个声音事件和/或在波形样本上可检测的场景产生声音标识符。每个声音标识符包括标识声音事件和/或场景的信息，即声音是什么，声音是开始还是结束(或者在某些情况下，事件和/或场景的持续时间)以及事件和/或场景的时间。

声音检测块520的功能进一步由控制声音识别和警报块550中保存的数据构成，其本身由用户界面540上的用户输入动作配置。在该实施例中，典型的用户输入动作是：设置针对音频情境的警报。因此，例如，用户可以输入一个请求，如果识别出与早餐准备相关联的声音，则警报将发送到用户的设备560(例如，可以是智能手机)。

因此，通过适当地配置，声音检测单元520正在主动监视声音事件和/或场景的发生，因为它们以特定的方式相关，所以标识正在准备的早餐的情境。然后，关于情境是否已被满足，继续做出决定530。如果尚未满足，则声音检测块520继续检测声音。如果满足，此决策将中继回控制声音识别和警报块550，并将与该情境关联的警报发送给用户的设备560。

可以将单独的计算机用于处理的各个阶段。因此，例如，用户输入可以在第一设备上，该第一设备可以是智能手机。声音检测和情境检测的配置可以在另一个设备上执行。实际上，图5所示的所有功能都可以在单独的计算机上执行，并且可以相互联网。可替代地，可以在同一计算设备上提供所有上述功能。

本文公开的实施例的各方面可以在计算设备的实用性方面为用户提供某些优势。例如，在自动声音事件和/或场景识别***中使用的人工智能的组合，与情境检测***组合，可以使警报与情境的相关性增加。因此，例如，警报可以与情境而不是特定时间相关联，从而允许***适应用户，而不是严格遵守实时时间表。实施例还可以减轻人们监视通过声音事件和/或场景发生可识别的一系列可检测事件和/或场景的注意力。实施例还可以增强人类监视一系列声音事件和/或场景和/或指示已在许多房间中、在睡眠时发生或在各种声音传感器上发生情境的场景的能力，这是人类无法执行的任务，因为他们无法同时或在短时间内将自己置于多个监视点。

Claims

1.一种计算机设备，能够操作以基于情境确定来生成辅助输出，所述设备包括：

音频流获取单元，用于获取音频样本流，

声音检测器，用于从音频样本流中检测一个或多个非语言声音事件和/或场景；

声音处理器，用于基于一个或多个非语言声音事件和/或场景，处理非语言声音事件和/或场景以确定一个或多个声音事件和/或场景标识符，每个非语言声音事件和/或场景标识符标识来自音频样本流的非语言声音事件和/或场景，

情境确定器，用于基于一个或多个指示性非语言声音事件和/或场景标识符的检测确定已经满足特定情境，以及

辅助输出生成器，用于基于已满足的情境生成辅助输出。

2.根据权利要求1所述的计算机设备，其中，所述情境确定器能够操作以基于与所述情境有关的非语言声音事件和/或场景标识符的检测来确定情境的满足。

3.根据权利要求1所述的计算机设备，其中，所述情境确定器能够操作以基于时间量度来确定情境的满足，所述时间量度是结合一个或多个非语言声音事件和/或场景标识符的检测，相对于实时或关于另一非语言声音事件和/或场景的非语言声音事件和/或场景的实例的量度。

4.根据权利要求1所述的计算机设备，其中，所述情境确定器能够操作以结合一个或多个非语言声音事件和/或场景标识符的检测，基于位置量度来确定情境的满足。

5.根据权利要求1所述的计算机设备，其中，所述情境确定器能够操作以基于多个情境定义通过检测到的一个或多个非语言声音事件和/或场景标识符来确定在存在情境定义的情况下满足哪一个情境定义。

6.根据权利要求1所述的计算机设备，其中，所述情境确定器能够操作以基于情境定义来确定是否满足所述情境定义，所述情境定义包括根据对可用的检测到的一个或多个非语言声音事件和/或场景标识符的输入的响应来定义情境的满足的情境模型。

7.根据权利要求6所述的计算机设备，其中，所述情境模型是使用机器学习实现的。

8.根据权利要求6所述的计算机设备，其中，所述情境确定器包括决策树。

9.根据权利要求6所述的计算机设备，其中，所述情境确定器包括神经网络。

10.根据权利要求6所述的计算机设备，其中，所述情境确定器包括加权图模型。

11.根据权利要求6所述的计算机设备，其中，所述情境确定器包括隐马尔可夫模型。

12.根据权利要求1所述的计算机设备，其中，所述辅助输出生成器能够操作以基于已满足的情境来输出警报信号。

13.根据权利要求12所述的计算机设备，其中，所述警报信号包括听觉警报、视觉警报、触觉警报和远程警报中的至少一个警报。

14.根据权利要求1所述的计算机设备，其中，所述辅助输出生成器能够操作以输出与已满足的情境相关联的辅助输出。

15.根据权利要求1所述的计算机设备，包括用户界面单元，所述用户界面单元能够操作以实现用于接收与用户输入动作相对应的信号的用户界面，并且其中，所述情境确定器响应于用户输入动作以将情境与辅助输出相关联。

16.根据权利要求1所述的计算机设备，包括用户界面单元，所述用户界面单元能够操作以实现用于接收与用户输入动作相对应的信号的用户界面，并且其中，所述情境确定器响应于用户输入动作以将情境的满足与一个或多个非语言声音标识符的检测相关联。

17.一种用于基于情境确定来生成辅助输出的计算机实现的方法，所述方法包括：

获取音频样本流，

从音频样本流中检测一个或多个非语言声音事件和/或场景，

基于一个或多个非语言声音事件和/或场景，处理非语言声音事件和/或场景以确定一个或多个声音事件和/或场景标识符，每个非语言声音事件和/或场景标识符标识来自音频样本流的非语言声音事件和/或场景，

基于一个或多个指示性非语言声音事件和/或场景标识符的检测，确定已满足特定情境，并且

基于已满足的情境生成辅助输出。

18.一种非暂时性计算机可读介质，存储有计算机可执行指令，所述计算机可执行指令在由通用计算机执行时使通用计算机执行以下步骤：

获取音频样本流，

从音频样本流中检测一个或多个非语言声音事件和/或场景，

基于检测到一个或多个指示性非语言声音事件和/或场景标识符，确定已满足特定情境，并且

基于已满足的情境生成辅助输出。