CN102246228A

CN102246228A - 声音识别***

Info

Publication number: CN102246228A
Application number: CN200980150365XA
Authority: CN
Inventors: 克里斯托夫·J·米切尔
Original assignee: Audio Analytic Ltd
Current assignee: Meta Platforms Technologies LLC
Priority date: 2008-12-15
Filing date: 2009-11-26
Publication date: 2011-11-16
Anticipated expiration: 2029-11-26
Also published as: GB2466242A; WO2010070314A1; GB2466242B; US10586543B2; GB0822776D0; US8918343B2; US20150112678A1; CN102246228B; US20110218952A1

Abstract

我们描述了一种数字声音识别***，该***包括：用于存储马尔柯夫模型的非易失性存储器；储存处理器控制代码的存储程序存储器；声音数据输入单元；与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器，并且其中所述处理器控制代码包括代码以：由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据，所述第一样本声音数据限定第一样本频域数据，所述第一样本频域数据限定所述第一样本在多个频率范围中的能量；由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值；在所述非易失性存储器中存储所述第一马尔柯夫模型；输入限定干扰频域数据的干扰声音数据；使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值；输入限定第三声音频域数据的第三声音数据；确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率；以及根据所述概率输出声音识别数据。

Description

声音识别***

发明领域

本发明涉及用于识别声音的***、方法和计算机程序代码，并涉及这种技术的应用。

发明背景

已经具有了基本声音识别***，但还存在对改善技术的需要。可在以下文献中找到背景现有技术：US2006/227237；WO99/56214；WO2008/016360；US5,276,629；Goldmann，R(2006)，“Extracting High level semantics by means ofspeech audio and image primitives in surveillance”；Gonzalez，L(2006)，“Enhancingvideo surveillance with audio events”；以及Mitchell，C.J(2007)，“Aligning MusicGenre Taxonomies”，博士论文，Anglia Ruskin大学。

为了进一步仅仅用于理解本发明，参考以下公开：

-Ipsotek有限公司在2008年11月20公开的国际专利申请

PCT/GB2008/001679，数据处理装置；

-Valentino Franco等在2006年7月20日公开的WO2006/075352A，监视方法以及使用所述方法的监视设备；

-IBM的美国专利申请US2006/22737A；

-IBM的国际专利申请WO2008/016360A；

-摩托罗拉有限公司的美国专利申请US2003/088411A1；以及

-Arakawi Kaoru的美国专利申请US2002/135485。

发明简介

根据本发明的第一方面，因此提供一种数字声音识别***，该***包括：用于存储马尔柯夫模型的非易失性存储器；储存处理器控制代码的存储程序存储器；声音数据输入单元；与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器，并且其中所述处理器控制代码包括代码以：由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据，所述第一样本声音数据限定第一样本频域数据，所述第一样本频域数据限定所述第一样本在多个频率范围中的能量；由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值；在所述非易失性存储器中存储所述第一马尔柯夫模型；输入限定干扰频域数据的干扰声音数据；使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值；输入限定第三声音频域数据的第三声音数据；确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率；以及根据所述概率输出声音识别数据。

由频域数据产生用于马尔柯夫模型的平均值及方差数据。在一些实施方式中，***例如由模数转换器输入时域中的声音数据，并且随后将其转换为频域。然而，附加地或备选地，***可对压缩声音数据进行处理，例如已经编码为频域信息的MP3数据。这可包括关于下面其他方面所述的子带扫描。

在执行时间至频率转换的实施方式中，可应用一系列的时间至频率转换，例如快速傅立叶变换、在连续的、优选地为重叠的时间帧或时间窗上的操作，例如具有10毫秒重叠的20毫秒窗口的快速傅里叶变换。这些执行变成多个频率范围或带的变换，例如在某范围内的四分之一倍频子带分解(quarter octavesub-band decomposition)，所述范围取决于欲识别的声音，例如在大约1-10KHz的范围内。可选地，时间-频率变换之后，可执行归一化步骤以减少输入信号振幅中的有效的改变。在实施方式中，还可在对马尔柯夫模型产生所述平均值和方差值之前应用可选的统计分解，特别用于简化所述模拟特征(modelledfeatures)。该统计分解可包括例如主成分分析(PCA)或独立成分分析(ICA)。这在应用质量差的麦克风并且/或正识别复杂声音时尤其有帮助。

在实施方式中，马尔柯夫模型包括通过多个状态及转换描述的不间断隐蔽型马尔柯夫模型，具有用于状态之间的转换的相关概率。这种表示能抵抗音频采样速度中的变化、压缩的使用，以及相对较差质量的声音数据的输入。在***的实施方式中，限定第二样本频域数据的第二样本声音数据，可用于产生用于第二马尔柯夫模型的第二组平均值以及方差值，并且干扰声音数据(其可与不同于用于所述第一马尔柯夫模型的干扰声音数据)可用于更新该第二模型。以这种方式，可对应于欲识别声音限定多个不同马尔柯夫模型的每一个，并且随后可使输入(第三)声音数据有效地适合于所存储马尔柯夫模型的每一个以识别最紧密匹配的模型。在实施方式中，可以以协方差矩阵的方式表达并处理平均值和方差值。

干扰声音数据可例如包括：欲识别声音的通常的背景声音；这通常将取决于欲识别声音。例如，在一个应用中，为了例如在医院急诊室识别一个人何时变得具有攻击性，这种设施的通常背景噪音可用作为干扰声音数据。备选地，在一个应用中为了探测汽车停车场中汽车窗户何时被打碎(此时欲识别声音可包括打碎窗户的声音及/或汽车警报声)，干扰声音数据可例如包括汽车发动机或交通噪音。通常干扰声音数据可包括欲识别声音的通常背景噪音，和一个或多个具体预期的干扰声音中的一个或两者，具体预期的干扰声音例如为在户外区域的紧急鸣笛。在明确的实施中，可简单地从来自第一或每个样本声音的平均值及方差值中扣除由干扰声音样本，更特别地由用于干扰声音样本的频域数据确定的平均及方差值。

在***的实施方式中，通过一组频率范围或频域带限定马尔柯夫模型的状态，所述频率范围或频域带包括由频域数据限定的频域范围或带。每个状态可通过一个或多个(高斯)分布表示，每个分布以一个平均值和一个方差值为特征。该***可包括用户界面，以使得用户例如在***安装时能限定多个模型状态和每个状态应用的多个高斯分布中的一个或两者。

一般地说，通过分解为频率带而处理输入样本声音，并且可选地例如使用PCA/ICA去相关(de-correlated)，并且随后该数据与每个马尔柯夫模型比较以对欲识别的输入声音产生对数似然比(LLR)数据。然后(硬)置信度阈值可用于确定声音是否已被识别；如果对两个或多个存储的马尔柯夫模型探测到一个“适合”，该***则优选地选择最大的概率。如技术人员应当理解的，通过将欲识别声音与由马尔柯夫模型预料的期望频域数据进行有效比较而使声音“适合”一个模型。通过基于干扰(其包括背景)噪音校正/更新模型中的平均值及方差减少假阳性。

因此根据一个相关方面，本发明提供一种识别声音的方法，该方法包括：使用声音的一个样本配置马尔柯夫模型；输入用于所述欲识别声音的背景或干扰声音的样本；通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数，调整所述马尔柯夫模型以减少假阳性识别；并且使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音，以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。

本发明还提供一种产生欲识别声音的马尔柯夫模型的方法，其包括：使用声音的一个样本配置马尔柯夫模型；输入用于所述欲识别声音的背景或干扰声音的样本；以及通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数，调整所述马尔柯夫模型以减少假阳性识别。

在一个补充方面本发明提供一种用于识别声音的***，该***包括：用于使用声音的一个样本配置马尔柯夫模型的装置；用于输入用于所述欲识别声音的背景或干扰声音的样本的工具；用于通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数，调整所述马尔柯夫模型以减少假阳性识别的工具；以及一种工具，用于使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音，以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。

本发明进一步提供一种声音放大或变换***，该***包括：输入声音的声音输入单元；识别所述声音是否适合一种模型的声音识别***；以及响应于所述识别选择性放大(amply)或变换所述声音的放大器。

优选地所述模型包括如上所述产生的马尔柯夫模型，尽管根据本申请可能不需要对干扰噪音进行校正。

一个优选的应用为在婴儿监护仪或警报器中，其中当识别到特定声音，尤其相对于婴儿啼哭而言较安静的声音时，调整婴儿监护仪的音量。这种声音可例如包括呼吸停止及/或窒息(以及因此在实施方式中，欲识别的“声音”为期望声音的缺失)。在这种***的执行中，在声音输入和放大的及/或转换的声音之间包括一延迟，即使只有一个较短的延迟，以使得能调整欲识别声音以及因而调整识别声音的音量或振幅。

在另一个应用中，特别如上所述的马尔柯夫模型，应用在包括至少一个摄像机的安全***中，以使得能响应于对例如破碎的玻璃、汽车警报或枪声的特定类型声音的识别控制或移动该摄像机。

因此在又一方面，提供于一种安全摄像机***，其具有至少一个可控摄像机、至少一个捕获声音的麦克风，并包括识别所述声音是否适合马尔柯夫模型的声音识别***，该***进一步包括摄像机控制器以响应于一声音识别移动所述摄像机，所述声音具有大于适合所述马尔柯夫模型的阈值概率的概率。

在一个实施方式中，这种安全摄像机***，或使用至少一个摄像机的在此描述的各方面的任何其他实施方式，特定声音的探测可产生例如目前CCTV***的***中的一些实际触发(practical triggers)。这些可包括以下的任何一个或多个：

-摄像机的自动移动或缩放以使得声音源对例如为CCTV安全操作者的操作者更明显，例如汽车警报发生于摄像机视野外并且移动该摄像机使得操作者可监控所述状况；

-对安全人员触发可听得见或可视警报，包括在监视器上文本显示该***已探测的声音或者声音警报；

-自动重放其中探测到声音的记录音频及/或视频，例如自动播放预定持续时间，如10秒钟的音频及/或视频，其中间包括某人具有攻击性的记录；

-预先记录及事后记录声音周围的音频用于由安全人员作为证据使用；

-结合视频分析警报使用使得恐慌探测(许多人奔跑以及许多尖叫相当于恐慌)；以及

-在探测到声音的区域附近重放音频或视频警告。

在一些优选实施方式中，所应用的麦克风结合在***的一个或多个摄像机内。这种麦克风通常质量较差，但在实施方式中，我们应用改善的声音识别技术使得差质量的输入数据能被使用，而即使如此也能准确识别一个或多个声音。作为响应可例如使摄像机执行朝音频的泛运动或旋转(在后者情况中，优选应用两个或多个摄像机/麦克风以将识别噪音的源做三角测量(triangulate))。

在又一个相关方面，提供一种电话网络，其具有多个耦合至交换机或网络控制器的电话，每个所述电话具有收听本地声音的麦克风，所述电话网络包括识别所述声音是否适合模型的声音识别***，该***进一步包括控制器以使所述电话的所述麦克风能够或不能够作为所述声音识别***的输入单元用于监控在所述电话位置的声音。

一般地说，在实施方式中，一组连接至PBX(private branch exchange用户交换机)的电话可用作为分布式接入/干扰者探测***，通过控制所述电话以使它们的各自麦克风能在建筑物空置时探测声音。然后，特别如上所述的声音识别***可用于识别以干扰者为特征的声音，并且本地或远程地提供报警或警报。

在又一方面，提供一种用于提供室内协助的援助装置，该援助装置具有捕获声音的麦克风，以及识别所述声音是否适合模型的声音识别***，以及耦合至所述声音识别***的控制器，用于识别指定用于援助的请求的声音，并且响应于所述识别发起与帮助者的通讯。

如上所述的援助装置在应用具有通常通过电话线的通讯链接的中央室内控制器类型的***中具有特定应用，以使得用户，通常为老年人，能携带具有报警按钮的移动设备，用于通过按压所述按钮向朋友、邻居、亲戚或医疗工作者寻求帮助。所述移动设备通常提供在系索上，并且可经常地取下。特别是如上所述类型的声音识别***，可结合在基本单元中以探测一个或多个触发词或声音，例如鼓掌或大声求援，并且随后警告帮助者。以这种方式，基本单元可在如果已被移除，或者偶然忘记移动单元时提供后备支持。

本领域技术人员将认识到在上述声音识别***的实施方式中，可在用于目标应用之前对背景噪音/干扰产生并校正一个或多个马尔柯夫模型。因而目标应用***不需要包括建立及构造所述***的代码。

因此在又一方面，本发明提供数字声音识别***，该***包括：用于存储马尔柯夫模型的非易失性存储器；存储处理器控制代码的存储程序存储器；声音数据输入单元；耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器，并且其中所述处理器控制代码包括代码以：输入限定声音频域数据的声音数据；确定所述声音频域数据适合至少所述第一马尔柯夫模型模型的概率；以及根据所述概率输出声音识别数据。

技术人员也将认同在一些应用中可不需要对干扰进行马尔柯夫模型校正。

因而本发明还进一步提供一种数字声音识别***，本***包括：用于存储马尔柯夫模型的非易失性存储器；储存处理器控制代码的存储程序存储器；声音数据输入单元；与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器，并且其中所述处理器控制代码包括代码以：由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据，所述第一样本声音数据限定第一样本频域数据，所述第一样本频域数据限定所述第一样本在多个频率范围中的能量；由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值；在所述非易失性存储器中存储所述第一马尔柯夫模型；输入限定第三声音频域数据的第三声音数据；确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率；以及根据所述概率输出声音识别数据；其中所述声音数据包括表示所述频域中声音的压缩声音数据。

本发明还提供实施上述***及方法的处理器控制代码，尤其是例如磁盘、CD-或DVD-ROM、诸如只读存储器(Firmware)的可编程存储器的数据载体。实施本发明实施方式的代码(及/或数据)可包括例如C的常规程序设计语言的源、目标或可执行代码，或汇编代码、用于建立或控制ASIC(专用集成电路)或FPGA(可编程门阵列)的代码，或例如Verilog(商标)或VHDL(超高速集成电路硬件描述语言)的用于硬件描述语言的代码。如技术人员将理解的这种代码及/或数据可分步在多个耦合的彼此通讯的元件之间。

本发明进一步提供一种存储一个或多个马尔柯夫模型的数据载体，所述马尔柯夫模型具有产生并更新以补偿如上所述的背景/干扰的均值和方差。

我们描述的***、方法及代码的各发面及实施方式可用于非可听得见的声音信号，尤其是次声和超声，并且在本说明书中提及的声音并不限于可听得见声音。

根据本发明的又一方面，提供一种数字声音识别***，其包括：用于存储声音模型(例如马尔柯夫模型)的非易失性存储器(在本说明书中关于各发面及实施方式备选地称之为工作存储器)；储存处理器控制代码的存储程序存储器；声音数据输入单元；与所述声音数据输入单元、所述非易失性存储器及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器，并且其中所述处理器控制代码包括代码以：输入压缩的音频数据流，所述压缩的音频数据流包括一系列的压缩音频数据块，所述块包括一组用于音频帧的系数，所述系数限定所述音频帧的多个频带中的音频能量；处理所述系数以识别所述系数中的一个或多个模式从而识别声音；以及响应于所述模式识别处理输出声音识别数据。

当试图以稳健且可扩展的方式(in a robust and scalable manner)从压缩音频格式中探测声音时，存在一些实际问题。在任何实施方式中，其中所述声音流可被解压缩为PCM(脉码调制)格式并且随后传递至分类***，音频分析***的第一级可对引入的未压缩PCM音频数据执行频率分析。然而，最近的音频压缩的格式可包括该音频详细的频率描述，例如该音频在何处存储为有损压缩***的一部分。通过直接使用压缩格式的该频率信息，即在上述又一方面的实施方式中的子带扫描，可通过不进行解压缩以及随后对该音频进行频率分析获得可观的计算节省。这可意味着可使用明显降低的计算要求而探测声音。进一步有利地，其可使得声音探测***的应用更好的可扩展性并且使得其能操作其他技术不能操作的具有有限计算能力的设备。

可进一步提供数字声音识别***，其中所述系数包括离散余弦变换(DCT)或改进的DCT系数。

可进一步提供数字声音识别***，其中所述压缩音频数据流为MPEG标准数据流，尤其是MPEG4标准数据流。

可进一步提供数字声音识别***，其中所述模式识别处理包括使用适合所述预处理声音的马尔柯夫模型的处理。

在本发明该方面的实施方式中，压缩音频数据流的处理有利于快速声音识别及(平行)处理多个数据流的可扩展性。在一些优选实施方式中，所述压缩音频数据流为MPEG标准数据流，例如MPEG1层3音频流或MPEG2AAC(高级音频编码)层数据流。在优选实施方式中，数据流为MPEG4封装。因而，如技术人员将理解的，数据流可包括视频及音频数据的交错块、如上所述处理所述音频数据块。在实施方式中，音频数据块提供用于音频帧的数据，例如20毫秒的帧，并且包括数据汇总(data summary)部分，其对一较宽组频带的每一个限定能量，紧跟着一组DCT(离散余弦变换)系数，尤其是MDCT(改善的DCT)系数。在一些优选实施方式中，对(M)DCT系数执行模式识别处理。然而，技术人员将理解，备选格式的压缩音频数据可用于例如基于小波的压缩(使用小波作为基函数)。在该技术的优选实施方式中，所应用的压缩为有损的而不是无损的。如前面所述，模式识别处理的优选实施方式应用适合预处理声音的马尔柯夫模型。

附图简介

现在将仅通过范例的方式、参考附图进一步描述本发明的这些及其他方面，其中：

图1示出建立以产生马尔柯夫模型的***。

图2示出如何由压缩数据的一个范例产生马尔柯夫模型。

图3示出建立为使用产生的马尔柯夫模型用于声音识别的***。

图4示出如何更新用作部分声音识别***的马尔柯夫模型。

图5示出位于CCTV***中的***优选实施方式的一个范例。

图6示出位于婴儿监护***中的***优选实施方式的一个范例。

图7示出位于室内协助***中的***优选实施方式的一个范例。

图8示出位于办公电话PBX***中的***优选实施方式的一个范例。

应当注意在附图中每个“1/4Oct频带”标记可备选地为“子带频率集”。

优选实施方式的详细描述

图1-8示出所述***及该***的各种优选实施方式。参考图1，其示出主要***流程图及用于产生马尔柯夫模型的相关方程式。

图1分成描述***的两个主要部分的两节。通过将许多相同类型声音的实例传入该***而产生模型参数。现在限定了所述两个部分，以及它们相关的数学函数。左边部分可以和可从压缩音频格式的频谱系数获得的数据互换。其优势在于改善可执行时间并改善***可扩展性。

现在参考图2，其示出与声音识别***一起使用的典型音频压缩***的***图。因此图2示出与通用mpeg音频压缩流或文件一起使用的该***的一个范例。使用帧分析器以获得存储在压缩音频的帧中的频率系数，在该范例中频率分量由一组预过滤的PCM音频数据存储在改进的离散余弦变换MDCT中。然后这些频率系数可映射到限定于图1左边部分的分组频带，在该处所述主***接管操作。

现在将描述用于未压缩的频谱分解的互补，但是平行的***。在图1中为频谱分解的各部分的定义，其中w为窗口，l为帧的数目，以及H为样本中窗口的前进(每跳大小(hop-size))，尽管具有许多窗口类型，海宁窗

在此用作为良好的通用窗口。随后将时间-频率矩阵构造为X_LK，并且对该时间-频率矩阵应用归一化。这采用L²标准(norm)，其中r1为L2标准的增益值，

为单位频谱向量，K为频谱系数的数目并且L为帧数。

为了进一步从实践的角度说明，用于44.1千赫信号的时间频率矩阵可以是具有512重叠的1024点FFT(1024 point FFT with a 512 overlap)。其大约为具有10毫秒重叠的20毫秒窗口。然后将由此产生的512频率区分成子带，例如范围在62.5至8000Hz之间的四分之一倍频提供30个子带，下面列出的是所述频带的下限：

0，62.5，74.32544469，88.38834765，105.1120519，125，148.6508894，176.7766953，210.2241038，250，297.3017788，353.5533906，420.4482076，500，594.6035575，707.1067812，840.8964153，1000，1189.207115，1414.213562，1681.792831，2000，2378.41423，2828.427125，3363.585661，4000，4756.82846，5656.854249，6727.171322，8000

使用查询表从压缩或未压缩的频带映射到新的子带表示带。对于给定的抽样率及STFT尺寸实例，对于每个支持的抽样率/bin号对(bin number pair)所述阵列可由(Bin尺寸÷2)×6的阵列组成。行对应于所述bin号(中心)-STFT尺寸或频率系数的数目。第一个两列确定下部及上部四分之一倍频bin索引号。接着的四列确定应当置入相应四分之一倍频bin中的bin大小的比例，所述四分之一倍频bin从在第一栏中限定的下部四分之一倍频开始至在第二栏中限定的上部四分之一倍频。例如，如果所述bin与两个四分之一倍频范围重叠，3和4列将具有总和为1的比例值，并且5和6列将具有零。如果一个bin与超过一个的子带重叠，更多的列将具有成比例的大小值。该范例模拟了人类听觉***中的临界频带。然后通过概述的归一化方法处理这种简化的时间/频率表示。通过10ms的每跳大小递增地移动所述帧位置，而对所有帧重复这种处理。所述重叠窗口(每跳大小不等于窗口尺寸)改善了***的时间分辨率。这作为信号频率的适当表示而得到采用，其用于概括声音的感知特性。随后归一化阶段将每个帧进行子带分解并且除以每个子带中平均功率的平方根。所述平均值由所有频带中的总能量除以频带的个数而得到计算。该归一化的时间频率矩阵传递到***的下一部分，在该处其含义是，可产生方差和转换以全面特征化声音频率分布及时间趋势。声音特征化的下一个阶段需要进一步限定。使用不间断隐蔽型马尔柯夫模型获取平均值，对该模型需要方差和转换。可通过λ＝(A，B，∏)而将马尔柯夫模型完全地特征化，其中A为状态转换概率矩阵，B为观察概率矩阵并且∏为状态初始概率矩阵，在更多的正式词汇中：

其中a_ij≡P(q_t+1＝S_j|q_t＝S_i)

其中b_j(m)≡P(O_t＝v_m|q_t＝S_j)

∏＝[π_i]其中π_i≡P(q₁＝S_i)

其中q为状态值，O为观察值。在图1中***需要产生状态转换概率矩阵，我们模型中的状态实际为通过一组平均值及方差数据特征化的频率分布，然而用于此的格式定义将在后面介绍。产生模型参数是使观察序列的概率最大化的问题。Baum-Welch算法为期待的最大化过程，其已用于仅仅这样做。它是迭代的算法，其中每个迭代由两个部分组成，期望ε_t(i，j)和最大化γ_t(i)。在期望部分，ε_t(i，j)和γ_t(i)，计算给定的当前模式值λ，并且随后在最大化中λ得到梯级再计算。这两步交替直至发生收敛。已得到显示的是在此交替过程中，P(O|λ)从不下降。假设指标变量

为

期望

ϵ_{t} (i, j) = \frac{α_{t} (i) a_{ij} b_{j} (O_{t + 1}) β_{t + 1} (j)}{Σ_{k} Σ_{l} α (k) a_{kl} b_{l} (O_{t + 1}) β_{t + 1} (l)}

γ_{t} (i) = Σ_{j = 1}^{N} ϵ_{t} (i, j)

E [z_{i}^{t}] = γ_{t} (i)

以及

[z_{ij}^{t}] = ϵ_{t} (i, j)

最大化

{\hat{a}}_{ij} = \frac{Σ_{k = 1}^{K} Σ_{t = 1}^{T_{k} - 1} ϵ_{t}^{k} (i, j)}{Σ_{k = 1}^{K} Σ_{t = 1}^{T_{k} - 1} γ_{t}^{k} (i)}

{\hat{b}}_{j} (m) = \frac{Σ_{k = 1}^{K} Σ_{t = 1}^{T_{k} - 1} γ_{t}^{k} (j) 1 (O_{t}^{k} = v_{m})}{Σ_{k = 1}^{K} Σ_{t = 1}^{T_{k} - 1} γ_{t}^{k} (j)}

\hat{π} = \frac{Σ_{K = 1}^{K} γ_{1}^{k} (i)}{K}

高斯混合模型可用于表示连续的频率值，以及随后可导出期望最大化方程用于部分参数(具有合适的合法化以约束参数个数)以及混合比例。假设梯级连续频率值

具有正态分布

p (O_{t} | q_{t} = S_{j}, λ) ~ N (μ_{j}, σ_{j}^{2})

这暗示在状态S_j，频率分布是自具有平均值μ_j和发差

的正态分布而引出的。因而最大化步骤方程为

{\hat{μ}}_{j} = \frac{Σ_{t} γ_{t} (j) O_{t}}{Σ_{t} γ_{t} (j)}

{\hat{σ}}_{j}^{2} = \frac{Σ_{t} γ_{t} (j) {(O_{t - 1} - {\hat{μ}}_{j})}^{2}}{Σ_{t} γ_{t} (j)}

高斯的应用使得时间-频率矩阵特征的特征化。在每个状态单个高斯的情况下，他们成为状态。可使用Baum-Welch算法来获得隐藏马尔柯夫模型的转换矩阵以特征化信号的频率分布如何随时间改变。高斯可使用具有起始点的K-平均值的方法初始化，所述起始点用于成为选自样本数据的任意频率分布的族。

图3显示了主***流程图以及用于对新声音分类的相关支持方程。因此图3解释了用于将新输入分类和适合声音条件-干扰中变化的***操作。第一部分如先前解释进行操作。经过***的该先前解释的部分后，前向算法可用于确定观测序列的最有可能的状态路径并产生关于对数似然值的概率，该对数似然值可用于分类进来的信号。向前和向后过程可用于自先前计算的模型参数获得这种值。实际上只需要向前的部分。向前变量α_t(i)定义为观测部分序列{O₁...O_t}直至时间t并且t时间处位于S_i中的概率，给定模型λ

α_t(i)≡P(O₁...O_t，q_t＝S_i|λ)

这可通过积累结果而计算出并且具有两个步骤，初始化和递归，如图3所示，α_t(i)解释了第一t观测并在状态S_i中终止，其乘以移动至状态S_j的概率a_ij，并且因为只有N个可能的先前状态，需要加和所有这种可能的先前S_i。接着，术语b_j(O_t+1)为产生下一个观测，频率分布的可能性，此时在状态S_j中在时间t+1处。具有这些变量，接着可以直接地计算频率分布序列的概率。

P (O | λ) = Σ_{i = 1}^{N} α_{T} (i)

计算α_t(i)具有阶O(N²T)并且避免计算序列概率的复杂问题。这些模型将在许多不同的声学条件下操作并且当它实际局限于当前范例时，其代表***将接触到的所有声学条件，将执行模型的内部调整以使得该***能在所有的这些不同的声学条件下操作。在图3中，这显示为背景方块。许多不同的方法可用于这种更新。图4中列出一种简单说明性的方法，其描述了对不同声学条件调整Markov模型。

图4对次波段取平均值，在这种情况下是用于最后T个秒数的四分之一倍频频率值，将他们的平均值与模型值相加以更新在该声学环境中的声音内部模型。

图5显示了对CCTV摄像头***的***操作图表，更特别地对CCTV***一个典型的***设置。这可包括一个自摄像头的压缩输入，其包含能使用帧分析器得到提取的系数。这个数据发送至处理器，该处理具有预导出的包括输出的模型参数，并且一组阈值用于对一组音频输入进行分类。然后其可用于切换不同的摄像头信息而得到显示或通过警报而引起注意。

现在在参考图6，其显示了与婴儿监控器振幅控制一起使用的***操作。与描述过的***识别能力相同或相似的***，可用作振幅控制输入或光控制输入，用于对否则将丢失的声音引起注意。例如安静的并且否则可能错过的声音，例如呼吸困难、coeing或堵塞可被探测并使用，以控制回放音量。当探测到或未探测到关注的声音时，其功能类似于正常的婴儿监控仪但具有额外的引起其自己注意的特征。

图7显示了与家庭照顾护理***一起使用的***操作。与描述过相同或相似的声音识别***可用作为家庭警报器用于替换应急开关以探测特定输入触发的帮助请求，所述特定输入例如为3次拍手声或3次鞋撞击地面。这将通过重复的暂停后被探测的模式操作，此处***将确定其已探测到所述模式并且请求确认。一旦所述模式得到再次确认，***将向操作者发送一个警报或向另一个人发送信息。

图8显示了与办公室电话***一起使用的***操作。与已描述的类似的声音识别***可用于将公司或家庭电话网络转至干扰者探测***，其中麦克风安装在电话底部用于免提通讯的方式并且所述麦克风基于计时器远程激活。该计时器可在例如晚上时间的特定时间激活电话麦克风并且随后意味着闯入的声音，例如窗户打破或一般的移动。接着触发警报并发送至摄像头***以将摄像头指向那个位置、向操作者发送信息、控制***以打开灯或向操作者或保安发送信息。

毫无疑问，技术人员将想到许多其他有效的备选方式。应当理解，本发明不局限于所描述的实施方式并且包含对本领域技术人员来说明显的修改，其位于在此随附的权利要求的精神和范围内。

Claims

1.一种数字声音识别***，该***包括：

用于存储马尔柯夫模型的非易失性存储器；

存储处理器控制代码的存储程序存储器；

声音数据输入单元；

耦合至所述声音数据输入单元、所述工作存储器及用于执行所述处理器控制代码的所述存储程序的存储器的处理器，并且其中所述处理器控制代码包括代码以：

由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音

数据，所述第一样本声音数据限定第一样本频域数据，所述第一样本频域数

据限定所述第一样本在多个频率范围中的能量；

由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔

柯夫模型的第一组平均值以及方差值；

在所述非易失性存储器中存储所述第一马尔柯夫模型；

输入限定干扰频域数据的干扰声音数据；

使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值；

输入限定第三声音频域数据的第三声音数据；

确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率；以及

根据所述概率输出声音识别数据。

2.如权利要求1所述的数字声音识别***，其中所述处理器控制代码包括代码以：

输入用于多个不同欲识别声音的多个不同样本声音数据；

产生相应的多个所述马尔柯夫模型；

确定所述第三声音频域数据适合所述马尔柯夫模型的每一个的概率。

3.如权利要求1或2所述的数字声音识别***，其中所述处理器控制代码包括代码以：

将所述声音数据从时域转变为频域以产生所述频域数据。

4.如权利要求1或2所述的数字声音识别***，其中所述声音数据包括表示位于所述频域中的声音的压缩声音数据。

5.如前述任意一条权利要求中的数字声音识别***，其中所述处理器控制代码包括代码以：

由所述干扰频域数据产生用于所述第一马尔柯夫模型的第二组平均值以及方差值；以及

使用所述第二组平均值以及方差值调整所述第一马尔柯夫模型的所述平均值以及方差值。

6.如权利要求5所述的数字声音识别***，其中用于调整所述第一马尔柯夫模型的所述平局值以及方差值的所述代码包括代码，以从所述第一组平局值及平均值中扣除所述第二组平局值及方差值。

7.如前述任意一条权利要求中的数字声音识别***，其中所述马尔柯夫模型的状态通过包括所述多个频域范围的一组频率范围限定，并且通过一个或多个分布表示，每个分布以一对平均值和方差值为特征。

8.如权利要求7所述的数字声音识别***，其中所述分布包括高斯分布并且其中所述处理器控制代码包括代码以：

使得用户能限定所述马尔柯夫模型多个状态以及每个状态的多个高斯分布中的一个或两者，其中所述平均值及方差值包括所述高斯分布的平均值及方差值。

9.一种用于识别声音的方法，该方法包括：

使用声音的一个样本配置马尔柯夫模型；

输入用于所述欲识别声音的背景或干扰声音的样本；

通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数，调整所述马尔柯夫模型以减少假阳性识别；以及

使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音，以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。

10.一种用于识别声音的***，该***包括：

用于使用声音的一个样本配置马尔柯夫模型的装置；

用于输入用于所述欲识别声音的背景或干扰声音的样本的工具；

用于通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数，调整所述马尔柯夫模型以减少假阳性识别的工具；

以及一种工具，用于使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音，以通过各所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。

11.一种声音放大或变换***，该***包括：

输入声音的声音输入单元；

识别所述声音是否适合一种模型的声音识别***；以及

响应于所述识别而选择性地放大或变换所述声音的放大器。

12.如权利要求11所述的声音放大或变换***，进一步包括数字式延迟以匹配所述识别的处理时间。

13.如权利要求11或12所述的声音放大或变换***，其中所述声音识别***为权利要求1-8及10中任一条所述的***。

14.一种包括权利要求11、12或13的***的婴儿监护仪或报警器，其中所述声音包括由婴儿发出的声音。

15.一种安全摄像机***，具有至少一个可控摄像机、至少一个捕获声音的麦克风，并包括识别所述声音是否适合马尔柯夫模型的声音识别***，特别如权利要求1-8及10中任一项所述的***，该***进一步包括摄像机控制器以响应于一声音识别移动所述摄像机，所述声音具有大于适合所述马尔柯夫模型的阈值概率的概率。

16.一种电话网络，其具有多个耦合至交换机或网络控制器的电话，每个所述电话具有收听本地声音的麦克风，所述电话网络包括识别所述声音是否适合模型的声音识别***，特别是如同权利要求1-8及10中任一条所述的***，该***进一步包括控制器以使所述电话的所述麦克风能够或不能够作为所述声音识别***的输入单元用于监控在所述电话位置的声音。

17.一种包括如权利要求16所述的电话网络的安全***，其中所述声音包括识别干扰者的声音。

18.一种用于提供室内协助的援助装置，该援助装置具有捕获声音的麦克风，以及识别所述声音是否适合一模型的声音识别***，特别是如同权利要求1-8及10中任一条所述的***，以及耦合至所述声音识别***的控制器，用于识别指定用于援助的请求的声音，并且响应于所述识别而发起与帮助者的通讯。

19.一种数字声音识别***，该***包括：

用于存储马尔柯夫模型的非易失性存储器；

存储处理器控制代码的存储程序存储器；

声音数据输入单元；

耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器，并且其中所述处理器控制代码包括代码以：

输入限定声音频域数据的声音数据；

确定所述声音频域数据适合至少所述第一马尔柯夫模型的概率；以及

根据所述概率输出声音识别数据。

20.一种数字声音识别***，该***包括：

用于存储马尔柯夫模型的非易失性存储器；

存储处理器控制代码的存储程序存储器；

声音数据输入单元；

由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据，所述第一样本声音数据限定第一样本频域数据，所述第一样本频域数据限定所述第一样本在多个频率范围中的能量；

由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值；

在所述非易失性存储器中存储所述第一马尔柯夫模型；

输入限定第三声音频域数据的第三声音数据；

根据所述概率输出声音识别数据；

其中所述声音数据包括表示位于所述频域中的声音的压缩声音数据。

21.一种数据载体，其携带着处理器控制代码以执行权利要求9的方法。

22.一种数据载体，其携带着使用权利要求9的方法构造并调整了的马尔柯夫模型。

23.一种产生欲识别声音的马尔柯夫模型的方法，包括：

使用声音的一个样本配置马尔柯夫模型；

输入用于所述欲识别声音的背景或干扰声音的样本；

通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数，调整所述马尔柯夫模型以减少假阳性识别。

24.一种数字声音识别***，该***包括：

用于存储马尔柯夫模型的非易失性存储器；

存储处理器控制代码的存储程序存储器；

声音数据输入单元；

输入压缩的音频数据流，所述压缩的音频数据流包括一系列的压缩音频数据块，所述块包括一组用于音频帧的系数，所述系数限定所述音频帧的多个频带中的音频能量；

处理所述系数以识别所述系数中的一个或多个模式从而识别声音；以及响应于所述模式识别处理输出声音识别数据。

25.如权利要求24所述的数字声音识别***，其中所述系数包括离散余弦变换(DCT)或改进的DCT系数。

26.如权利要求24或25所述的数字声音识别***，其中所述压缩音频数据流为MPEG标准数据流，尤其是MPEG4标准数据流。

27.如权利要求24、25或26所述的数字声音识别***，其中所述模式识别处理包括使用适合所述预识别声音的马尔柯夫模型的处理。