CN102246228A - 声音识别*** - Google Patents

声音识别*** Download PDF

Info

Publication number
CN102246228A
CN102246228A CN200980150365XA CN200980150365A CN102246228A CN 102246228 A CN102246228 A CN 102246228A CN 200980150365X A CN200980150365X A CN 200980150365XA CN 200980150365 A CN200980150365 A CN 200980150365A CN 102246228 A CN102246228 A CN 102246228A
Authority
CN
China
Prior art keywords
sound
markov model
data
frequency domain
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200980150365XA
Other languages
English (en)
Other versions
CN102246228B (zh
Inventor
克里斯托夫·J·米切尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Audio Analytic Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audio Analytic Ltd filed Critical Audio Analytic Ltd
Publication of CN102246228A publication Critical patent/CN102246228A/zh
Application granted granted Critical
Publication of CN102246228B publication Critical patent/CN102246228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

我们描述了一种数字声音识别***,该***包括:用于存储马尔柯夫模型的非易失性存储器;储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;在所述非易失性存储器中存储所述第一马尔柯夫模型;输入限定干扰频域数据的干扰声音数据;使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值;输入限定第三声音频域数据的第三声音数据;确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及根据所述概率输出声音识别数据。

Description

声音识别***
发明领域
本发明涉及用于识别声音的***、方法和计算机程序代码,并涉及这种技术的应用。
发明背景
已经具有了基本声音识别***,但还存在对改善技术的需要。可在以下文献中找到背景现有技术:US2006/227237;WO99/56214;WO2008/016360;US5,276,629;Goldmann,R(2006),“Extracting High level semantics by means ofspeech audio and image primitives in surveillance”;Gonzalez,L(2006),“Enhancingvideo surveillance with audio events”;以及Mitchell,C.J(2007),“Aligning MusicGenre Taxonomies”,博士论文,Anglia Ruskin大学。
为了进一步仅仅用于理解本发明,参考以下公开:
-Ipsotek有限公司在2008年11月20公开的国际专利申请
PCT/GB2008/001679,数据处理装置;
-Valentino Franco等在2006年7月20日公开的WO2006/075352A,监视方法以及使用所述方法的监视设备;
-IBM的美国专利申请US2006/22737A;
-IBM的国际专利申请WO2008/016360A;
-摩托罗拉有限公司的美国专利申请US2003/088411A1;以及
-Arakawi Kaoru的美国专利申请US2002/135485。
发明简介
根据本发明的第一方面,因此提供一种数字声音识别***,该***包括:用于存储马尔柯夫模型的非易失性存储器;储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;在所述非易失性存储器中存储所述第一马尔柯夫模型;输入限定干扰频域数据的干扰声音数据;使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值;输入限定第三声音频域数据的第三声音数据;确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及根据所述概率输出声音识别数据。
由频域数据产生用于马尔柯夫模型的平均值及方差数据。在一些实施方式中,***例如由模数转换器输入时域中的声音数据,并且随后将其转换为频域。然而,附加地或备选地,***可对压缩声音数据进行处理,例如已经编码为频域信息的MP3数据。这可包括关于下面其他方面所述的子带扫描。
在执行时间至频率转换的实施方式中,可应用一系列的时间至频率转换,例如快速傅立叶变换、在连续的、优选地为重叠的时间帧或时间窗上的操作,例如具有10毫秒重叠的20毫秒窗口的快速傅里叶变换。这些执行变成多个频率范围或带的变换,例如在某范围内的四分之一倍频子带分解(quarter octavesub-band decomposition),所述范围取决于欲识别的声音,例如在大约1-10KHz的范围内。可选地,时间-频率变换之后,可执行归一化步骤以减少输入信号振幅中的有效的改变。在实施方式中,还可在对马尔柯夫模型产生所述平均值和方差值之前应用可选的统计分解,特别用于简化所述模拟特征(modelledfeatures)。该统计分解可包括例如主成分分析(PCA)或独立成分分析(ICA)。这在应用质量差的麦克风并且/或正识别复杂声音时尤其有帮助。
在实施方式中,马尔柯夫模型包括通过多个状态及转换描述的不间断隐蔽型马尔柯夫模型,具有用于状态之间的转换的相关概率。这种表示能抵抗音频采样速度中的变化、压缩的使用,以及相对较差质量的声音数据的输入。在***的实施方式中,限定第二样本频域数据的第二样本声音数据,可用于产生用于第二马尔柯夫模型的第二组平均值以及方差值,并且干扰声音数据(其可与不同于用于所述第一马尔柯夫模型的干扰声音数据)可用于更新该第二模型。以这种方式,可对应于欲识别声音限定多个不同马尔柯夫模型的每一个,并且随后可使输入(第三)声音数据有效地适合于所存储马尔柯夫模型的每一个以识别最紧密匹配的模型。在实施方式中,可以以协方差矩阵的方式表达并处理平均值和方差值。
干扰声音数据可例如包括:欲识别声音的通常的背景声音;这通常将取决于欲识别声音。例如,在一个应用中,为了例如在医院急诊室识别一个人何时变得具有攻击性,这种设施的通常背景噪音可用作为干扰声音数据。备选地,在一个应用中为了探测汽车停车场中汽车窗户何时被打碎(此时欲识别声音可包括打碎窗户的声音及/或汽车警报声),干扰声音数据可例如包括汽车发动机或交通噪音。通常干扰声音数据可包括欲识别声音的通常背景噪音,和一个或多个具体预期的干扰声音中的一个或两者,具体预期的干扰声音例如为在户外区域的紧急鸣笛。在明确的实施中,可简单地从来自第一或每个样本声音的平均值及方差值中扣除由干扰声音样本,更特别地由用于干扰声音样本的频域数据确定的平均及方差值。
在***的实施方式中,通过一组频率范围或频域带限定马尔柯夫模型的状态,所述频率范围或频域带包括由频域数据限定的频域范围或带。每个状态可通过一个或多个(高斯)分布表示,每个分布以一个平均值和一个方差值为特征。该***可包括用户界面,以使得用户例如在***安装时能限定多个模型状态和每个状态应用的多个高斯分布中的一个或两者。
一般地说,通过分解为频率带而处理输入样本声音,并且可选地例如使用PCA/ICA去相关(de-correlated),并且随后该数据与每个马尔柯夫模型比较以对欲识别的输入声音产生对数似然比(LLR)数据。然后(硬)置信度阈值可用于确定声音是否已被识别;如果对两个或多个存储的马尔柯夫模型探测到一个“适合”,该***则优选地选择最大的概率。如技术人员应当理解的,通过将欲识别声音与由马尔柯夫模型预料的期望频域数据进行有效比较而使声音“适合”一个模型。通过基于干扰(其包括背景)噪音校正/更新模型中的平均值及方差减少假阳性。
因此根据一个相关方面,本发明提供一种识别声音的方法,该方法包括:使用声音的一个样本配置马尔柯夫模型;输入用于所述欲识别声音的背景或干扰声音的样本;通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别;并且使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
本发明还提供一种产生欲识别声音的马尔柯夫模型的方法,其包括:使用声音的一个样本配置马尔柯夫模型;输入用于所述欲识别声音的背景或干扰声音的样本;以及通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别。
在一个补充方面本发明提供一种用于识别声音的***,该***包括:用于使用声音的一个样本配置马尔柯夫模型的装置;用于输入用于所述欲识别声音的背景或干扰声音的样本的工具;用于通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别的工具;以及一种工具,用于使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
本发明进一步提供一种声音放大或变换***,该***包括:输入声音的声音输入单元;识别所述声音是否适合一种模型的声音识别***;以及响应于所述识别选择性放大(amply)或变换所述声音的放大器。
优选地所述模型包括如上所述产生的马尔柯夫模型,尽管根据本申请可能不需要对干扰噪音进行校正。
一个优选的应用为在婴儿监护仪或警报器中,其中当识别到特定声音,尤其相对于婴儿啼哭而言较安静的声音时,调整婴儿监护仪的音量。这种声音可例如包括呼吸停止及/或窒息(以及因此在实施方式中,欲识别的“声音”为期望声音的缺失)。在这种***的执行中,在声音输入和放大的及/或转换的声音之间包括一延迟,即使只有一个较短的延迟,以使得能调整欲识别声音以及因而调整识别声音的音量或振幅。
在另一个应用中,特别如上所述的马尔柯夫模型,应用在包括至少一个摄像机的安全***中,以使得能响应于对例如破碎的玻璃、汽车警报或枪声的特定类型声音的识别控制或移动该摄像机。
因此在又一方面,提供于一种安全摄像机***,其具有至少一个可控摄像机、至少一个捕获声音的麦克风,并包括识别所述声音是否适合马尔柯夫模型的声音识别***,该***进一步包括摄像机控制器以响应于一声音识别移动所述摄像机,所述声音具有大于适合所述马尔柯夫模型的阈值概率的概率。
在一个实施方式中,这种安全摄像机***,或使用至少一个摄像机的在此描述的各方面的任何其他实施方式,特定声音的探测可产生例如目前CCTV***的***中的一些实际触发(practical triggers)。这些可包括以下的任何一个或多个:
-摄像机的自动移动或缩放以使得声音源对例如为CCTV安全操作者的操作者更明显,例如汽车警报发生于摄像机视野外并且移动该摄像机使得操作者可监控所述状况;
-对安全人员触发可听得见或可视警报,包括在监视器上文本显示该***已探测的声音或者声音警报;
-自动重放其中探测到声音的记录音频及/或视频,例如自动播放预定持续时间,如10秒钟的音频及/或视频,其中间包括某人具有攻击性的记录;
-预先记录及事后记录声音周围的音频用于由安全人员作为证据使用;
-结合视频分析警报使用使得恐慌探测(许多人奔跑以及许多尖叫相当于恐慌);以及
-在探测到声音的区域附近重放音频或视频警告。
在一些优选实施方式中,所应用的麦克风结合在***的一个或多个摄像机内。这种麦克风通常质量较差,但在实施方式中,我们应用改善的声音识别技术使得差质量的输入数据能被使用,而即使如此也能准确识别一个或多个声音。作为响应可例如使摄像机执行朝音频的泛运动或旋转(在后者情况中,优选应用两个或多个摄像机/麦克风以将识别噪音的源做三角测量(triangulate))。
在又一个相关方面,提供一种电话网络,其具有多个耦合至交换机或网络控制器的电话,每个所述电话具有收听本地声音的麦克风,所述电话网络包括识别所述声音是否适合模型的声音识别***,该***进一步包括控制器以使所述电话的所述麦克风能够或不能够作为所述声音识别***的输入单元用于监控在所述电话位置的声音。
一般地说,在实施方式中,一组连接至PBX(private branch exchange用户交换机)的电话可用作为分布式接入/干扰者探测***,通过控制所述电话以使它们的各自麦克风能在建筑物空置时探测声音。然后,特别如上所述的声音识别***可用于识别以干扰者为特征的声音,并且本地或远程地提供报警或警报。
在又一方面,提供一种用于提供室内协助的援助装置,该援助装置具有捕获声音的麦克风,以及识别所述声音是否适合模型的声音识别***,以及耦合至所述声音识别***的控制器,用于识别指定用于援助的请求的声音,并且响应于所述识别发起与帮助者的通讯。
如上所述的援助装置在应用具有通常通过电话线的通讯链接的中央室内控制器类型的***中具有特定应用,以使得用户,通常为老年人,能携带具有报警按钮的移动设备,用于通过按压所述按钮向朋友、邻居、亲戚或医疗工作者寻求帮助。所述移动设备通常提供在系索上,并且可经常地取下。特别是如上所述类型的声音识别***,可结合在基本单元中以探测一个或多个触发词或声音,例如鼓掌或大声求援,并且随后警告帮助者。以这种方式,基本单元可在如果已被移除,或者偶然忘记移动单元时提供后备支持。
本领域技术人员将认识到在上述声音识别***的实施方式中,可在用于目标应用之前对背景噪音/干扰产生并校正一个或多个马尔柯夫模型。因而目标应用***不需要包括建立及构造所述***的代码。
因此在又一方面,本发明提供数字声音识别***,该***包括:用于存储马尔柯夫模型的非易失性存储器;存储处理器控制代码的存储程序存储器;声音数据输入单元;耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:输入限定声音频域数据的声音数据;确定所述声音频域数据适合至少所述第一马尔柯夫模型模型的概率;以及根据所述概率输出声音识别数据。
技术人员也将认同在一些应用中可不需要对干扰进行马尔柯夫模型校正。
因而本发明还进一步提供一种数字声音识别***,本***包括:用于存储马尔柯夫模型的非易失性存储器;储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述工作存储器以及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;在所述非易失性存储器中存储所述第一马尔柯夫模型;输入限定第三声音频域数据的第三声音数据;确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及根据所述概率输出声音识别数据;其中所述声音数据包括表示所述频域中声音的压缩声音数据。
本发明还提供实施上述***及方法的处理器控制代码,尤其是例如磁盘、CD-或DVD-ROM、诸如只读存储器(Firmware)的可编程存储器的数据载体。实施本发明实施方式的代码(及/或数据)可包括例如C的常规程序设计语言的源、目标或可执行代码,或汇编代码、用于建立或控制ASIC(专用集成电路)或FPGA(可编程门阵列)的代码,或例如Verilog(商标)或VHDL(超高速集成电路硬件描述语言)的用于硬件描述语言的代码。如技术人员将理解的这种代码及/或数据可分步在多个耦合的彼此通讯的元件之间。
本发明进一步提供一种存储一个或多个马尔柯夫模型的数据载体,所述马尔柯夫模型具有产生并更新以补偿如上所述的背景/干扰的均值和方差。
我们描述的***、方法及代码的各发面及实施方式可用于非可听得见的声音信号,尤其是次声和超声,并且在本说明书中提及的声音并不限于可听得见声音。
根据本发明的又一方面,提供一种数字声音识别***,其包括:用于存储声音模型(例如马尔柯夫模型)的非易失性存储器(在本说明书中关于各发面及实施方式备选地称之为工作存储器);储存处理器控制代码的存储程序存储器;声音数据输入单元;与所述声音数据输入单元、所述非易失性存储器及所述存储程序存储器耦合用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:输入压缩的音频数据流,所述压缩的音频数据流包括一系列的压缩音频数据块,所述块包括一组用于音频帧的系数,所述系数限定所述音频帧的多个频带中的音频能量;处理所述系数以识别所述系数中的一个或多个模式从而识别声音;以及响应于所述模式识别处理输出声音识别数据。
当试图以稳健且可扩展的方式(in a robust and scalable manner)从压缩音频格式中探测声音时,存在一些实际问题。在任何实施方式中,其中所述声音流可被解压缩为PCM(脉码调制)格式并且随后传递至分类***,音频分析***的第一级可对引入的未压缩PCM音频数据执行频率分析。然而,最近的音频压缩的格式可包括该音频详细的频率描述,例如该音频在何处存储为有损压缩***的一部分。通过直接使用压缩格式的该频率信息,即在上述又一方面的实施方式中的子带扫描,可通过不进行解压缩以及随后对该音频进行频率分析获得可观的计算节省。这可意味着可使用明显降低的计算要求而探测声音。进一步有利地,其可使得声音探测***的应用更好的可扩展性并且使得其能操作其他技术不能操作的具有有限计算能力的设备。
可进一步提供数字声音识别***,其中所述系数包括离散余弦变换(DCT)或改进的DCT系数。
可进一步提供数字声音识别***,其中所述压缩音频数据流为MPEG标准数据流,尤其是MPEG4标准数据流。
可进一步提供数字声音识别***,其中所述模式识别处理包括使用适合所述预处理声音的马尔柯夫模型的处理。
在本发明该方面的实施方式中,压缩音频数据流的处理有利于快速声音识别及(平行)处理多个数据流的可扩展性。在一些优选实施方式中,所述压缩音频数据流为MPEG标准数据流,例如MPEG1层3音频流或MPEG2AAC(高级音频编码)层数据流。在优选实施方式中,数据流为MPEG4封装。因而,如技术人员将理解的,数据流可包括视频及音频数据的交错块、如上所述处理所述音频数据块。在实施方式中,音频数据块提供用于音频帧的数据,例如20毫秒的帧,并且包括数据汇总(data summary)部分,其对一较宽组频带的每一个限定能量,紧跟着一组DCT(离散余弦变换)系数,尤其是MDCT(改善的DCT)系数。在一些优选实施方式中,对(M)DCT系数执行模式识别处理。然而,技术人员将理解,备选格式的压缩音频数据可用于例如基于小波的压缩(使用小波作为基函数)。在该技术的优选实施方式中,所应用的压缩为有损的而不是无损的。如前面所述,模式识别处理的优选实施方式应用适合预处理声音的马尔柯夫模型。
附图简介
现在将仅通过范例的方式、参考附图进一步描述本发明的这些及其他方面,其中:
图1示出建立以产生马尔柯夫模型的***。
图2示出如何由压缩数据的一个范例产生马尔柯夫模型。
图3示出建立为使用产生的马尔柯夫模型用于声音识别的***。
图4示出如何更新用作部分声音识别***的马尔柯夫模型。
图5示出位于CCTV***中的***优选实施方式的一个范例。
图6示出位于婴儿监护***中的***优选实施方式的一个范例。
图7示出位于室内协助***中的***优选实施方式的一个范例。
图8示出位于办公电话PBX***中的***优选实施方式的一个范例。
应当注意在附图中每个“1/4Oct频带”标记可备选地为“子带频率集”。
优选实施方式的详细描述
图1-8示出所述***及该***的各种优选实施方式。参考图1,其示出主要***流程图及用于产生马尔柯夫模型的相关方程式。
图1分成描述***的两个主要部分的两节。通过将许多相同类型声音的实例传入该***而产生模型参数。现在限定了所述两个部分,以及它们相关的数学函数。左边部分可以和可从压缩音频格式的频谱系数获得的数据互换。其优势在于改善可执行时间并改善***可扩展性。
现在参考图2,其示出与声音识别***一起使用的典型音频压缩***的***图。因此图2示出与通用mpeg音频压缩流或文件一起使用的该***的一个范例。使用帧分析器以获得存储在压缩音频的帧中的频率系数,在该范例中频率分量由一组预过滤的PCM音频数据存储在改进的离散余弦变换MDCT中。然后这些频率系数可映射到限定于图1左边部分的分组频带,在该处所述主***接管操作。
现在将描述用于未压缩的频谱分解的互补,但是平行的***。在图1中为频谱分解的各部分的定义,其中w为窗口,l为帧的数目,以及H为样本中窗口的前进(每跳大小(hop-size)),尽管具有许多窗口类型,海宁窗
Figure BDA0000068419110000091
在此用作为良好的通用窗口。随后将时间-频率矩阵构造为XLK,并且对该时间-频率矩阵应用归一化。这采用L2标准(norm),其中r1为L2标准的增益值,
Figure BDA0000068419110000101
为单位频谱向量,K为频谱系数的数目并且L为帧数。
为了进一步从实践的角度说明,用于44.1千赫信号的时间频率矩阵可以是具有512重叠的1024点FFT(1024 point FFT with a 512 overlap)。其大约为具有10毫秒重叠的20毫秒窗口。然后将由此产生的512频率区分成子带,例如范围在62.5至8000Hz之间的四分之一倍频提供30个子带,下面列出的是所述频带的下限:
0,62.5,74.32544469,88.38834765,105.1120519,125,148.6508894,176.7766953,210.2241038,250,297.3017788,353.5533906,420.4482076,500,594.6035575,707.1067812,840.8964153,1000,1189.207115,1414.213562,1681.792831,2000,2378.41423,2828.427125,3363.585661,4000,4756.82846,5656.854249,6727.171322,8000
使用查询表从压缩或未压缩的频带映射到新的子带表示带。对于给定的抽样率及STFT尺寸实例,对于每个支持的抽样率/bin号对(bin number pair)所述阵列可由(Bin尺寸÷2)×6的阵列组成。行对应于所述bin号(中心)-STFT尺寸或频率系数的数目。第一个两列确定下部及上部四分之一倍频bin索引号。接着的四列确定应当置入相应四分之一倍频bin中的bin大小的比例,所述四分之一倍频bin从在第一栏中限定的下部四分之一倍频开始至在第二栏中限定的上部四分之一倍频。例如,如果所述bin与两个四分之一倍频范围重叠,3和4列将具有总和为1的比例值,并且5和6列将具有零。如果一个bin与超过一个的子带重叠,更多的列将具有成比例的大小值。该范例模拟了人类听觉***中的临界频带。然后通过概述的归一化方法处理这种简化的时间/频率表示。通过10ms的每跳大小递增地移动所述帧位置,而对所有帧重复这种处理。所述重叠窗口(每跳大小不等于窗口尺寸)改善了***的时间分辨率。这作为信号频率的适当表示而得到采用,其用于概括声音的感知特性。随后归一化阶段将每个帧进行子带分解并且除以每个子带中平均功率的平方根。所述平均值由所有频带中的总能量除以频带的个数而得到计算。该归一化的时间频率矩阵传递到***的下一部分,在该处其含义是,可产生方差和转换以全面特征化声音频率分布及时间趋势。声音特征化的下一个阶段需要进一步限定。使用不间断隐蔽型马尔柯夫模型获取平均值,对该模型需要方差和转换。可通过λ=(A,B,∏)而将马尔柯夫模型完全地特征化,其中A为状态转换概率矩阵,B为观察概率矩阵并且∏为状态初始概率矩阵,在更多的正式词汇中:
其中aij≡P(qt+1=Sj|qt=Si)
Figure BDA0000068419110000112
其中bj(m)≡P(Ot=vm|qt=Sj)
∏=[πi]其中πi≡P(q1=Si)
其中q为状态值,O为观察值。在图1中***需要产生状态转换概率矩阵,我们模型中的状态实际为通过一组平均值及方差数据特征化的频率分布,然而用于此的格式定义将在后面介绍。产生模型参数是使观察序列的概率最大化的问题。Baum-Welch算法为期待的最大化过程,其已用于仅仅这样做。它是迭代的算法,其中每个迭代由两个部分组成,期望εt(i,j)和最大化γt(i)。在期望部分,εt(i,j)和γt(i),计算给定的当前模式值λ,并且随后在最大化中λ得到梯级再计算。这两步交替直至发生收敛。已得到显示的是在此交替过程中,P(O|λ)从不下降。假设指标变量
Figure BDA0000068419110000113
期望
ϵ t ( i , j ) = α t ( i ) a ij b j ( O t + 1 ) β t + 1 ( j ) Σ k Σ l α ( k ) a kl b l ( O t + 1 ) β t + 1 ( l )
γ t ( i ) = Σ j = 1 N ϵ t ( i , j )
E [ z i t ] = γ t ( i ) 以及 [ z ij t ] = ϵ t ( i , j )
Figure BDA0000068419110000118
Figure BDA0000068419110000119
最大化
a ^ ij = Σ k = 1 K Σ t = 1 T k - 1 ϵ t k ( i , j ) Σ k = 1 K Σ t = 1 T k - 1 γ t k ( i )
b ^ j ( m ) = Σ k = 1 K Σ t = 1 T k - 1 γ t k ( j ) 1 ( O t k = v m ) Σ k = 1 K Σ t = 1 T k - 1 γ t k ( j )
π ^ = Σ K = 1 K γ 1 k ( i ) K
高斯混合模型可用于表示连续的频率值,以及随后可导出期望最大化方程用于部分参数(具有合适的合法化以约束参数个数)以及混合比例。假设梯级连续频率值
Figure BDA0000068419110000124
具有正态分布
p ( O t | q t = S j , λ ) ~ N ( μ j , σ j 2 )
这暗示在状态Sj,频率分布是自具有平均值μj和发差
Figure BDA0000068419110000126
的正态分布而引出的。因而最大化步骤方程为
μ ^ j = Σ t γ t ( j ) O t Σ t γ t ( j )
σ ^ j 2 = Σ t γ t ( j ) ( O t - 1 - μ ^ j ) 2 Σ t γ t ( j )
高斯的应用使得时间-频率矩阵特征的特征化。在每个状态单个高斯的情况下,他们成为状态。可使用Baum-Welch算法来获得隐藏马尔柯夫模型的转换矩阵以特征化信号的频率分布如何随时间改变。高斯可使用具有起始点的K-平均值的方法初始化,所述起始点用于成为选自样本数据的任意频率分布的族。
图3显示了主***流程图以及用于对新声音分类的相关支持方程。因此图3解释了用于将新输入分类和适合声音条件-干扰中变化的***操作。第一部分如先前解释进行操作。经过***的该先前解释的部分后,前向算法可用于确定观测序列的最有可能的状态路径并产生关于对数似然值的概率,该对数似然值可用于分类进来的信号。向前和向后过程可用于自先前计算的模型参数获得这种值。实际上只需要向前的部分。向前变量αt(i)定义为观测部分序列{O1...Ot}直至时间t并且t时间处位于Si中的概率,给定模型λ
αt(i)≡P(O1...Ot,qt=Si|λ)
这可通过积累结果而计算出并且具有两个步骤,初始化和递归,如图3所示,αt(i)解释了第一t观测并在状态Si中终止,其乘以移动至状态Sj的概率aij,并且因为只有N个可能的先前状态,需要加和所有这种可能的先前Si。接着,术语bj(Ot+1)为产生下一个观测,频率分布的可能性,此时在状态Sj中在时间t+1处。具有这些变量,接着可以直接地计算频率分布序列的概率。
P ( O | λ ) = Σ i = 1 N α T ( i )
计算αt(i)具有阶O(N2T)并且避免计算序列概率的复杂问题。这些模型将在许多不同的声学条件下操作并且当它实际局限于当前范例时,其代表***将接触到的所有声学条件,将执行模型的内部调整以使得该***能在所有的这些不同的声学条件下操作。在图3中,这显示为背景方块。许多不同的方法可用于这种更新。图4中列出一种简单说明性的方法,其描述了对不同声学条件调整Markov模型。
图4对次波段取平均值,在这种情况下是用于最后T个秒数的四分之一倍频频率值,将他们的平均值与模型值相加以更新在该声学环境中的声音内部模型。
图5显示了对CCTV摄像头***的***操作图表,更特别地对CCTV***一个典型的***设置。这可包括一个自摄像头的压缩输入,其包含能使用帧分析器得到提取的系数。这个数据发送至处理器,该处理具有预导出的包括输出的模型参数,并且一组阈值用于对一组音频输入进行分类。然后其可用于切换不同的摄像头信息而得到显示或通过警报而引起注意。
现在在参考图6,其显示了与婴儿监控器振幅控制一起使用的***操作。与描述过的***识别能力相同或相似的***,可用作振幅控制输入或光控制输入,用于对否则将丢失的声音引起注意。例如安静的并且否则可能错过的声音,例如呼吸困难、coeing或堵塞可被探测并使用,以控制回放音量。当探测到或未探测到关注的声音时,其功能类似于正常的婴儿监控仪但具有额外的引起其自己注意的特征。
图7显示了与家庭照顾护理***一起使用的***操作。与描述过相同或相似的声音识别***可用作为家庭警报器用于替换应急开关以探测特定输入触发的帮助请求,所述特定输入例如为3次拍手声或3次鞋撞击地面。这将通过重复的暂停后被探测的模式操作,此处***将确定其已探测到所述模式并且请求确认。一旦所述模式得到再次确认,***将向操作者发送一个警报或向另一个人发送信息。
图8显示了与办公室电话***一起使用的***操作。与已描述的类似的声音识别***可用于将公司或家庭电话网络转至干扰者探测***,其中麦克风安装在电话底部用于免提通讯的方式并且所述麦克风基于计时器远程激活。该计时器可在例如晚上时间的特定时间激活电话麦克风并且随后意味着闯入的声音,例如窗户打破或一般的移动。接着触发警报并发送至摄像头***以将摄像头指向那个位置、向操作者发送信息、控制***以打开灯或向操作者或保安发送信息。
毫无疑问,技术人员将想到许多其他有效的备选方式。应当理解,本发明不局限于所描述的实施方式并且包含对本领域技术人员来说明显的修改,其位于在此随附的权利要求的精神和范围内。

Claims (27)

1.一种数字声音识别***,该***包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及用于执行所述处理器控制代码的所述存储程序的存储器的处理器,并且其中所述处理器控制代码包括代码以:
由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音
数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数
据限定所述第一样本在多个频率范围中的能量;
由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔
柯夫模型的第一组平均值以及方差值;
在所述非易失性存储器中存储所述第一马尔柯夫模型;
输入限定干扰频域数据的干扰声音数据;
使用所述干扰频域数据调整所述第一马尔柯夫模型的所述平均值及方差值;
输入限定第三声音频域数据的第三声音数据;
确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及
根据所述概率输出声音识别数据。
2.如权利要求1所述的数字声音识别***,其中所述处理器控制代码包括代码以:
输入用于多个不同欲识别声音的多个不同样本声音数据;
产生相应的多个所述马尔柯夫模型;
确定所述第三声音频域数据适合所述马尔柯夫模型的每一个的概率。
3.如权利要求1或2所述的数字声音识别***,其中所述处理器控制代码包括代码以:
将所述声音数据从时域转变为频域以产生所述频域数据。
4.如权利要求1或2所述的数字声音识别***,其中所述声音数据包括表示位于所述频域中的声音的压缩声音数据。
5.如前述任意一条权利要求中的数字声音识别***,其中所述处理器控制代码包括代码以:
由所述干扰频域数据产生用于所述第一马尔柯夫模型的第二组平均值以及方差值;以及
使用所述第二组平均值以及方差值调整所述第一马尔柯夫模型的所述平均值以及方差值。
6.如权利要求5所述的数字声音识别***,其中用于调整所述第一马尔柯夫模型的所述平局值以及方差值的所述代码包括代码,以从所述第一组平局值及平均值中扣除所述第二组平局值及方差值。
7.如前述任意一条权利要求中的数字声音识别***,其中所述马尔柯夫模型的状态通过包括所述多个频域范围的一组频率范围限定,并且通过一个或多个分布表示,每个分布以一对平均值和方差值为特征。
8.如权利要求7所述的数字声音识别***,其中所述分布包括高斯分布并且其中所述处理器控制代码包括代码以:
使得用户能限定所述马尔柯夫模型多个状态以及每个状态的多个高斯分布中的一个或两者,其中所述平均值及方差值包括所述高斯分布的平均值及方差值。
9.一种用于识别声音的方法,该方法包括:
使用声音的一个样本配置马尔柯夫模型;
输入用于所述欲识别声音的背景或干扰声音的样本;
通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别;以及
使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过将所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
10.一种用于识别声音的***,该***包括:
用于使用声音的一个样本配置马尔柯夫模型的装置;
用于输入用于所述欲识别声音的背景或干扰声音的样本的工具;
用于通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别的工具;
以及一种工具,用于使用所述调整的马尔柯夫模型通过将欲识别声音与所述调整模型比较而识别所述声音,以通过各所述欲识别声音与由所述马尔柯夫模型预料的预期频域数据比较而确定所述欲识别声音适合所述模型的概率。
11.一种声音放大或变换***,该***包括:
输入声音的声音输入单元;
识别所述声音是否适合一种模型的声音识别***;以及
响应于所述识别而选择性地放大或变换所述声音的放大器。
12.如权利要求11所述的声音放大或变换***,进一步包括数字式延迟以匹配所述识别的处理时间。
13.如权利要求11或12所述的声音放大或变换***,其中所述声音识别***为权利要求1-8及10中任一条所述的***。
14.一种包括权利要求11、12或13的***的婴儿监护仪或报警器,其中所述声音包括由婴儿发出的声音。
15.一种安全摄像机***,具有至少一个可控摄像机、至少一个捕获声音的麦克风,并包括识别所述声音是否适合马尔柯夫模型的声音识别***,特别如权利要求1-8及10中任一项所述的***,该***进一步包括摄像机控制器以响应于一声音识别移动所述摄像机,所述声音具有大于适合所述马尔柯夫模型的阈值概率的概率。
16.一种电话网络,其具有多个耦合至交换机或网络控制器的电话,每个所述电话具有收听本地声音的麦克风,所述电话网络包括识别所述声音是否适合模型的声音识别***,特别是如同权利要求1-8及10中任一条所述的***,该***进一步包括控制器以使所述电话的所述麦克风能够或不能够作为所述声音识别***的输入单元用于监控在所述电话位置的声音。
17.一种包括如权利要求16所述的电话网络的安全***,其中所述声音包括识别干扰者的声音。
18.一种用于提供室内协助的援助装置,该援助装置具有捕获声音的麦克风,以及识别所述声音是否适合一模型的声音识别***,特别是如同权利要求1-8及10中任一条所述的***,以及耦合至所述声音识别***的控制器,用于识别指定用于援助的请求的声音,并且响应于所述识别而发起与帮助者的通讯。
19.一种数字声音识别***,该***包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:
输入限定声音频域数据的声音数据;
确定所述声音频域数据适合至少所述第一马尔柯夫模型的概率;以及
根据所述概率输出声音识别数据。
20.一种数字声音识别***,该***包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:
由所述声音数据输入单元输入用于第一个欲识别声音的第一样本声音数据,所述第一样本声音数据限定第一样本频域数据,所述第一样本频域数据限定所述第一样本在多个频率范围中的能量;
由所述第一样本频域数据产生用于所述第一样本声音的至少第一马尔柯夫模型的第一组平均值以及方差值;
在所述非易失性存储器中存储所述第一马尔柯夫模型;
输入限定第三声音频域数据的第三声音数据;
确定所述第三声音频域数据适合至少所述第一马尔柯夫模型的概率;以及
根据所述概率输出声音识别数据;
其中所述声音数据包括表示位于所述频域中的声音的压缩声音数据。
21.一种数据载体,其携带着处理器控制代码以执行权利要求9的方法。
22.一种数据载体,其携带着使用权利要求9的方法构造并调整了的马尔柯夫模型。
23.一种产生欲识别声音的马尔柯夫模型的方法,包括:
使用声音的一个样本配置马尔柯夫模型;
输入用于所述欲识别声音的背景或干扰声音的样本;
通过使用所述背景或干扰声音的样本调整以与所述马尔柯夫模型状态相关的概率分布为特征的平均值及方差参数,调整所述马尔柯夫模型以减少假阳性识别。
24.一种数字声音识别***,该***包括:
用于存储马尔柯夫模型的非易失性存储器;
存储处理器控制代码的存储程序存储器;
声音数据输入单元;
耦合至所述声音数据输入单元、所述工作存储器及所述存储程序的存储器用于执行所述处理器控制代码的处理器,并且其中所述处理器控制代码包括代码以:
输入压缩的音频数据流,所述压缩的音频数据流包括一系列的压缩音频数据块,所述块包括一组用于音频帧的系数,所述系数限定所述音频帧的多个频带中的音频能量;
处理所述系数以识别所述系数中的一个或多个模式从而识别声音;以及响应于所述模式识别处理输出声音识别数据。
25.如权利要求24所述的数字声音识别***,其中所述系数包括离散余弦变换(DCT)或改进的DCT系数。
26.如权利要求24或25所述的数字声音识别***,其中所述压缩音频数据流为MPEG标准数据流,尤其是MPEG4标准数据流。
27.如权利要求24、25或26所述的数字声音识别***,其中所述模式识别处理包括使用适合所述预识别声音的马尔柯夫模型的处理。
CN200980150365.XA 2008-12-15 2009-11-26 声音识别*** Active CN102246228B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0822776.1 2008-12-15
GB0822776.1A GB2466242B (en) 2008-12-15 2008-12-15 Sound identification systems
PCT/GB2009/051606 WO2010070314A1 (en) 2008-12-15 2009-11-26 Sound identification systems

Publications (2)

Publication Number Publication Date
CN102246228A true CN102246228A (zh) 2011-11-16
CN102246228B CN102246228B (zh) 2014-06-18

Family

ID=40326080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980150365.XA Active CN102246228B (zh) 2008-12-15 2009-11-26 声音识别***

Country Status (4)

Country Link
US (2) US8918343B2 (zh)
CN (1) CN102246228B (zh)
GB (1) GB2466242B (zh)
WO (1) WO2010070314A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视***
CN107481733A (zh) * 2016-06-08 2017-12-15 福特全球技术公司 声信号的选择性放大
CN108701400A (zh) * 2016-02-24 2018-10-23 柯尼卡美能达株式会社 被监视者监视装置、该方法以及该***
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
CN109965764A (zh) * 2019-04-18 2019-07-05 科大讯飞股份有限公司 马桶控制方法和马桶
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质
CN110431434A (zh) * 2017-03-01 2019-11-08 索尔塔雷有限公司 用于检测目标声音的***和方法
CN110785809A (zh) * 2017-06-28 2020-02-11 思睿逻辑国际半导体有限公司 重放攻击的磁检测
CN110800053A (zh) * 2017-06-13 2020-02-14 米纳特有限公司 基于音频数据获取事件指示的方法和设备
CN110853620A (zh) * 2018-07-25 2020-02-28 音频分析有限公司 声音检测
US11694695B2 (en) 2018-01-23 2023-07-04 Cirrus Logic, Inc. Speaker identification
US11705135B2 (en) 2017-10-13 2023-07-18 Cirrus Logic, Inc. Detection of liveness
US11704397B2 (en) 2017-06-28 2023-07-18 Cirrus Logic, Inc. Detection of replay attack
US11714888B2 (en) 2017-07-07 2023-08-01 Cirrus Logic Inc. Methods, apparatus and systems for biometric processes
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11735202B2 (en) 2019-01-23 2023-08-22 Sound Genetics, Inc. Systems and methods for pre-filtering audio content based on prominence of frequency content
US11748462B2 (en) 2018-08-31 2023-09-05 Cirrus Logic Inc. Biometric authentication
US11755701B2 (en) 2017-07-07 2023-09-12 Cirrus Logic Inc. Methods, apparatus and systems for authentication
US11829461B2 (en) 2017-07-07 2023-11-28 Cirrus Logic Inc. Methods, apparatus and systems for audio playback
US12026241B2 (en) 2017-06-27 2024-07-02 Cirrus Logic Inc. Detection of replay attack

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
GB2494511B (en) * 2008-12-15 2013-09-04 Audio Analytic Ltd Sound identification systems
US9286911B2 (en) * 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
WO2013138747A1 (en) * 2012-03-16 2013-09-19 Yale University System and method for anomaly detection and extraction
US9728182B2 (en) * 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
WO2014147417A1 (en) 2013-03-22 2014-09-25 Audio Analytic Limited Brand sonification
KR102195897B1 (ko) * 2013-06-05 2020-12-28 삼성전자주식회사 음향 사건 검출 장치, 그 동작 방법 및 그 동작 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체
RU2678434C2 (ru) * 2013-08-19 2019-01-29 Филипс Лайтинг Холдинг Б.В. Усиление впечатления от потребительских изделий
US10922935B2 (en) * 2014-06-13 2021-02-16 Vivint, Inc. Detecting a premise condition using audio analytics
US10409547B2 (en) * 2014-10-15 2019-09-10 Lg Electronics Inc. Apparatus for recording audio information and method for controlling same
US9530408B2 (en) 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
JP2016180791A (ja) * 2015-03-23 2016-10-13 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9805739B2 (en) 2015-05-15 2017-10-31 Google Inc. Sound event detection
US10778826B1 (en) * 2015-05-18 2020-09-15 Amazon Technologies, Inc. System to facilitate communication
US9815203B1 (en) 2015-08-24 2017-11-14 X Development Llc Methods and systems for adjusting operation of a robotic device based on detected sounds
US10564031B1 (en) 2015-08-24 2020-02-18 X Development Llc Methods and systems for determining errors based on detected sounds during operation of a robotic device
US20170168158A1 (en) * 2015-10-02 2017-06-15 Sound Solutions International Co., Ltd. Ultrasonic noise based sonar
CN107016999B (zh) * 2015-10-16 2022-06-14 谷歌有限责任公司 热词识别
WO2017086937A1 (en) 2015-11-17 2017-05-26 Thomson Licensing Apparatus and method for integration of environmental event information for multimedia playback adaptive control
US10832565B2 (en) * 2016-08-29 2020-11-10 Tyco Fire & Security Gmbh System and method for acoustically identifying gunshots fired indoors
EP3301891B1 (en) 2016-09-28 2019-08-28 Nxp B.V. Mobile device and method for determining its context
WO2018097352A1 (ko) * 2016-11-24 2018-05-31 ㈜ 트라이너스 총소리 감지 및 영상촬영 방법
US11099059B2 (en) 2017-01-12 2021-08-24 Siemens Schweiz Ag Intelligent noise mapping in buildings
US10121109B2 (en) 2017-04-07 2018-11-06 International Business Machines Corporation Flexible and self-adaptive classification of received audio measurements in a network environment
US9870719B1 (en) 2017-04-17 2018-01-16 Hz Innovations Inc. Apparatus and method for wireless sound recognition to notify users of detected sounds
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
LU100215B1 (de) * 2017-05-12 2018-11-26 Schellenberg Alfred Gmbh Garagentorantrieb
CN107274913B (zh) * 2017-05-26 2020-09-11 广东美的厨房电器制造有限公司 一种声音识别方法及装置
CN107293301B (zh) * 2017-05-27 2019-04-02 深圳大学 基于牙齿咬合声音的识别方法及***
US11096005B2 (en) 2017-08-02 2021-08-17 Audio Analytic Ltd. Sound reproduction
US10518607B2 (en) * 2017-08-28 2019-12-31 Ford Global Technologies, Llc Pollution event detection
US10482901B1 (en) 2017-09-28 2019-11-19 Alarm.Com Incorporated System and method for beep detection and interpretation
US10091569B1 (en) * 2017-10-13 2018-10-02 Louroe Electronics Smart microphone devices, systems, apparatuses, and methods
WO2019113477A1 (en) * 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10249293B1 (en) 2018-06-11 2019-04-02 Capital One Services, Llc Listening devices for obtaining metrics from ambient noise
US10832672B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
US10832673B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker device with cognitive sound analysis and response
US10909847B1 (en) * 2018-09-19 2021-02-02 All Turtles Corporation Building urban area noise pollution maps and mitigating noise from emergency vehicles
US11222625B2 (en) * 2019-04-15 2022-01-11 Ademco Inc. Systems and methods for training devices to recognize sound patterns
EP3977424A1 (en) * 2019-05-28 2022-04-06 Utility Associates, Inc. Systems and methods for detecting a gunshot
US11568731B2 (en) * 2019-07-15 2023-01-31 Apple Inc. Systems and methods for identifying an acoustic source based on observed sound
CN114303190A (zh) 2019-08-15 2022-04-08 杜比国际公司 用于生成和处理经修改的音频比特流的方法和设备
GB2615507A (en) * 2021-07-30 2023-08-16 Emission Solutions Ltd Pollution emissions monitoring method and system
US20230305797A1 (en) * 2022-03-24 2023-09-28 Meta Platforms Technologies, Llc Audio Output Modification
CN116386661B (zh) * 2023-06-05 2023-08-08 成都启英泰伦科技有限公司 一种基于双注意力和数据增强的哭声检测模型训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1132982A (zh) * 1995-04-06 1996-10-09 广州环保电子有限公司 一种远距离、多目标保安***音像监控中心台
US20030088411A1 (en) * 2001-11-05 2003-05-08 Changxue Ma Speech recognition by dynamical noise model adaptation
CN1716329A (zh) * 2004-06-29 2006-01-04 乐金电子(沈阳)有限公司 利用婴儿哭声频率的婴儿监视***及其方法
US20060022737A1 (en) * 2004-07-30 2006-02-02 Infineon Technologies Ag Device for the regulated delay of a clock signal
WO2006075352A1 (en) * 2005-01-14 2006-07-20 Franco Valentini Surveillance method and surveillance device operating with said method
WO2008016360A1 (en) * 2006-08-03 2008-02-07 International Business Machines Corporation Video surveillance system and method with combined video and audio recognition
WO2008139203A2 (en) * 2007-05-15 2008-11-20 Ipsotek Ltd Data processing apparatus

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5142657A (en) * 1988-03-14 1992-08-25 Kabushiki Kaisha Kawai Gakki Seisakusho Apparatus for drilling pronunciation
US5025809A (en) * 1989-11-28 1991-06-25 Cardionics, Inc. Recording, digital stethoscope for identifying PCG signatures
CA2085887A1 (en) 1990-06-21 1991-12-22 Kentyn Reynolds Method and apparatus for wave analysis and event recognition
US5387955A (en) * 1993-08-19 1995-02-07 Eastman Kodak Company Still camera with remote audio recording unit
US6206829B1 (en) * 1996-07-12 2001-03-27 First Opinion Corporation Computerized medical diagnostic and treatment advice system including network access
US5495357A (en) * 1994-02-14 1996-02-27 Machina, Inc. Apparatus and method for recording, transmitting, receiving and playing sounds
US6067521A (en) 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
US6035341A (en) 1996-10-31 2000-03-07 Sensormatic Electronics Corporation Multimedia data analysis in intelligent video information management system
US6182018B1 (en) * 1998-08-25 2001-01-30 Ford Global Technologies, Inc. Method and apparatus for identifying sound in a composite sound signal
US6826528B1 (en) 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US20010044719A1 (en) 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP3564501B2 (ja) * 2001-03-22 2004-09-15 学校法人明治大学 乳幼児の音声解析システム
CA2386446A1 (en) * 2001-05-15 2002-11-15 James Phillipsen Parameterized interactive control of multiple wave table sound generation for video games and other applications
US7106369B2 (en) * 2001-08-17 2006-09-12 Hewlett-Packard Development Company, L.P. Continuous audio capture in an image capturing device
US7623114B2 (en) * 2001-10-09 2009-11-24 Immersion Corporation Haptic feedback sensations based on audio output from computer devices
US6862359B2 (en) 2001-12-18 2005-03-01 Gn Resound A/S Hearing prosthesis with automatic classification of the listening environment
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US20040033058A1 (en) * 2002-08-14 2004-02-19 Sid Reich Recording device that stores buffered digital signals to memory flashcards
KR100872191B1 (ko) * 2002-09-27 2008-12-09 인터내셔널 비지네스 머신즈 코포레이션 발표 하이퍼링크 타임 테이블 생성 방법, 발표 처리 방법, 컴퓨팅 시스템 및 컴퓨터 판독가능한 기록 매체
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
WO2006011310A1 (ja) 2004-07-23 2006-02-02 Matsushita Electric Industrial Co., Ltd. 音声識別装置、音声識別方法、及びプログラム
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US20080103771A1 (en) * 2004-11-08 2008-05-01 France Telecom Method for the Distributed Construction of a Voice Recognition Model, and Device, Server and Computer Programs Used to Implement Same
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
US20060227237A1 (en) 2005-03-31 2006-10-12 International Business Machines Corporation Video surveillance system and method with combined video and audio recognition
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类***及方法
JP2007034198A (ja) 2005-07-29 2007-02-08 Denso Corp 音声認識システム及びそれに用いる携帯端末装置
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
WO2008061260A2 (en) * 2006-11-18 2008-05-22 Personics Holdings Inc. Method and device for personalized hearing
US8150044B2 (en) * 2006-12-31 2012-04-03 Personics Holdings Inc. Method and device configured for sound signature detection
DE102007008332A1 (de) * 2007-02-16 2008-08-21 Blue Lion Mobile Gmbh Verfahren zum Abspielen einer Sounddatei auf einem Empfänger-Mobiltelefon mittels eines Sender-Mobiltelefons sowie Computerprogrammprodukt
WO2008114368A1 (ja) * 2007-03-16 2008-09-25 Fujitsu Limited 情報選別方法、そのシステム、監視装置及びデータ集積装置
US20090238371A1 (en) * 2008-03-20 2009-09-24 Francis Rumsey System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
KR101315970B1 (ko) 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
US9177546B2 (en) 2013-08-28 2015-11-03 Texas Instruments Incorporated Cloud based adaptive learning for distributed sensors
US9460720B2 (en) 2013-08-28 2016-10-04 Texas Instruments Incorporated Powering-up AFE and microcontroller after comparing analog and truncated sounds
US9390727B2 (en) 2014-01-13 2016-07-12 Facebook, Inc. Detecting distorted audio signals based on audio fingerprinting

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1132982A (zh) * 1995-04-06 1996-10-09 广州环保电子有限公司 一种远距离、多目标保安***音像监控中心台
US20030088411A1 (en) * 2001-11-05 2003-05-08 Changxue Ma Speech recognition by dynamical noise model adaptation
CN1716329A (zh) * 2004-06-29 2006-01-04 乐金电子(沈阳)有限公司 利用婴儿哭声频率的婴儿监视***及其方法
US20060022737A1 (en) * 2004-07-30 2006-02-02 Infineon Technologies Ag Device for the regulated delay of a clock signal
WO2006075352A1 (en) * 2005-01-14 2006-07-20 Franco Valentini Surveillance method and surveillance device operating with said method
WO2008016360A1 (en) * 2006-08-03 2008-02-07 International Business Machines Corporation Video surveillance system and method with combined video and audio recognition
WO2008139203A2 (en) * 2007-05-15 2008-11-20 Ipsotek Ltd Data processing apparatus

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIZOBUCHI S ET AL: ""Camera control system using speech recognition technology", 《 WORLD CONFERENCE ON EDUCATIONAL MULTIMEDIA, HYPERMEDIA AND TELECOMMUNICATIONS》 *
SCHMANDT C ET AL: ""Listenin" to domestic environments from remote locations", 《 INTERNATIONAL CONFERENCE ON AUDITORY DISPLAY》 *
TZANETAKIS G ET AL: ""Sound analysis using MPEG compressed audio", 《 ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366738B (zh) * 2012-04-01 2016-08-03 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视***
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视***
CN108701400A (zh) * 2016-02-24 2018-10-23 柯尼卡美能达株式会社 被监视者监视装置、该方法以及该***
CN107481733A (zh) * 2016-06-08 2017-12-15 福特全球技术公司 声信号的选择性放大
CN110431434A (zh) * 2017-03-01 2019-11-08 索尔塔雷有限公司 用于检测目标声音的***和方法
CN110800053A (zh) * 2017-06-13 2020-02-14 米纳特有限公司 基于音频数据获取事件指示的方法和设备
US12026241B2 (en) 2017-06-27 2024-07-02 Cirrus Logic Inc. Detection of replay attack
CN110785809A (zh) * 2017-06-28 2020-02-11 思睿逻辑国际半导体有限公司 重放攻击的磁检测
US11704397B2 (en) 2017-06-28 2023-07-18 Cirrus Logic, Inc. Detection of replay attack
US11755701B2 (en) 2017-07-07 2023-09-12 Cirrus Logic Inc. Methods, apparatus and systems for authentication
US11829461B2 (en) 2017-07-07 2023-11-28 Cirrus Logic Inc. Methods, apparatus and systems for audio playback
US11714888B2 (en) 2017-07-07 2023-08-01 Cirrus Logic Inc. Methods, apparatus and systems for biometric processes
US11705135B2 (en) 2017-10-13 2023-07-18 Cirrus Logic, Inc. Detection of liveness
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11694695B2 (en) 2018-01-23 2023-07-04 Cirrus Logic, Inc. Speaker identification
CN110853620A (zh) * 2018-07-25 2020-02-28 音频分析有限公司 声音检测
US11748462B2 (en) 2018-08-31 2023-09-05 Cirrus Logic Inc. Biometric authentication
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
US11735202B2 (en) 2019-01-23 2023-08-22 Sound Genetics, Inc. Systems and methods for pre-filtering audio content based on prominence of frequency content
CN109965764A (zh) * 2019-04-18 2019-07-05 科大讯飞股份有限公司 马桶控制方法和马桶
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
GB2466242A (en) 2010-06-23
WO2010070314A1 (en) 2010-06-24
GB2466242B (en) 2013-01-02
US10586543B2 (en) 2020-03-10
GB0822776D0 (en) 2009-01-21
US8918343B2 (en) 2014-12-23
US20150112678A1 (en) 2015-04-23
CN102246228B (zh) 2014-06-18
US20110218952A1 (en) 2011-09-08

Similar Documents

Publication Publication Date Title
CN102246228B (zh) 声音识别***
US9286911B2 (en) Sound identification systems
US11164594B2 (en) Abnormal sound detection system, artificial sound creation system, and artificial sound creating method
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
CN109298642B (zh) 采用智能音箱进行监控的方法及装置
US9570071B1 (en) Audio signal transmission techniques
US10224019B2 (en) Wearable audio device
US20150043737A1 (en) Sound detecting apparatus, sound detecting method, sound feature value detecting apparatus, sound feature value detecting method, sound section detecting apparatus, sound section detecting method, and program
CN101150788B (zh) 自检式无线广播终端***及其监控处理器
US11380326B2 (en) Method and apparatus for performing speech recognition with wake on voice (WoV)
WO2019025789A1 (en) IMPROVEMENTS IN SOUND REPRODUCTION
CN115482830A (zh) 语音增强方法及相关设备
JP2020524300A (ja) 音声データに基づいてイベント指定を取得する方法およびデバイス
CN111653067A (zh) 智能家居设备及基于音频的报警方法
CN111028833A (zh) 一种交互、车辆的交互方法、装置
CN213042656U (zh) 信息处理装置
GB2494511A (en) Digital sound identification
KR102034176B1 (ko) 음성 인식을 통한 현장 응급 상황 인지 방법 및 이에 사용되는 관리 서버
CN115103159A (zh) 一种利用摄像头进行监控的方法、装置、***及相关设备
CN113488031A (zh) 确定电子设备的方法、装置、存储介质及电子装置
CA2432751A1 (en) Enhanced method and apparatus for integrated alarm monitoring system based on sound related events
CN107111921A (zh) 用于有效的可听警报设置的方法和设备
Hu et al. An embedded audio–visual tracking and speech purification system on a dual-core processor platform
CN111179527A (zh) 基于动态音频信息的报警方法、装置、***及存储介质
KR20030027925A (ko) 음성인식을 이용한 구조요청 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230224

Address after: California, USA

Patentee after: Yuan Platform Technology Co.,Ltd.

Address before: Cambridge County, England

Patentee before: Audio Analytic Ltd.