CN106796785A

CN106796785A - 用于产生声音检测模型的声音样本验证

Info

Publication number: CN106796785A
Application number: CN201580054925.7A
Authority: CN
Inventors: 苏库克·穆恩; 真珉豪; 夏海英; 黄和苏; 沃伦·弗雷德里克·戴尔
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-10-22
Filing date: 2015-10-02
Publication date: 2017-05-31
Anticipated expiration: 2035-10-02
Also published as: JP2017535809A; EP3210205A1; CN106796785B; WO2016064556A1; US20160118039A1; EP3210205B1; US9837068B2

Abstract

一种用于在电子装置中验证待用于产生声音检测模型的至少一个声音样本的方法包含：接收第一声音样本；从所述第一声音样本提取第一声学特征；接收第二声音样本；从所述第二声音样本提取第二声学特征；以及确定所述第二声学特征是否类似于所述第一声学特征。

Description

用于产生声音检测模型的声音样本验证

相关申请案的交叉引用

本申请案主张2014年10月22日申请的名称为“用于产生声音检测模型的声音样本验证(SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL)”的第62/067,322号美国临时专利申请案和2015年4月8日申请的名称为“用于产生声音检测模型的声音样本验证(SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL)”的第14/682,009号美国专利申请案的优先权，所述申请案的完整内容以引用的方式并入本文中。

技术领域

本发明大体上涉及在电子装置中验证声音样本，且更确切地说，涉及在电子装置中验证用于产生声音检测模型的声音样本。

背景技术

近年来，例如智能电话、平板计算机、可穿戴式电子装置等电子装置正在消费者当中变得越来越流行。这些装置常常通过无线或有线网络提供话音和/或数据通信功能性。另外，这些电子装置常常包含用于从用户接收并识别话音命令的语音识别功能。此功能允许电子装置在从接收并识别来自用户的话音命令时执行与话音命令(例如，关键词)相关联的功能。举例来说，电子装置可响应于来自用户的话音命令而启动话音辅助应用、播放音频文件、或拍摄照片。

在具有语音识别特征的电子装置中，制造商或运营商常常为装置配备有预定关键词和相关联声音模型，声音模型可用于检测输入声音中的关键词。常常基于来自各种声音环境中的不同说话者的关键词的大量声音记录(例如，数千个语音样本或更多个)而产生这些声音模型。制造商或运营商提供的这些声音模型可由电子装置的用户改进。举例来说，电子装置可从用户的预定关键词接收若干话语，且使用话语训练与预定关键词相关联的预存储声音模型。一些电子装置还可允许用户指定关键词作为话音命令。在此状况下，电子装置可从用户接收所指定关键词的若干话语，且从话语产生所指定关键词的声音模型。

一般来说，声音模型的检测性能涉及从其产生或训练声音模型的话语的数目和质量。声音模型的检测性能可随着话语的数目增大而改善。然而，对于关键词的给定数目个话语，话语的质量可能在说话者之间或在话语之间变化。举例来说，如果从非预期用户接收话语，那么从话语产生的关键词模型的检测性能可能在从预期用户检测输入声音中的关键词的过程中降级。另一方面，如果用户在两个话语中以不同方式发音关键词，那么不可从从话语产生的声音模型正确地检测到关键词。此外，可能在吵杂声音环境中接收一些话语，且所述话语因此不可提供产生声音模型的足够质量。因此，从这些话语所产生或训练的声音模型不可产生充分的检测性能。

发明内容

本发明涉及在电子装置中验证用于产生声音检测模型的声音样本。

根据本发明的一个方面，揭示一种用于验证待用于产生声音检测模型的至少一个声音样本的方法。可在电子装置中执行所述方法。在此方法中，可接收第一声音样本。可从所述第一声音样本提取第一声学特征。此外，可接收第二声音样本。可从所述第二声音样本提取第二声学特征。确定所述第二声学特征是否类似于所述第一声学特征。本发明还描述与此方法相关的设备、装置、***、装置组合和计算机可读媒体。

根据本发明的另一方面，揭示一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置。所述电子装置可包含声音传感器和声音样本验证单元。所述声音传感器可经配置以接收第一声音样本和第二声音样本。所述声音样本验证单元可经配置以：从所述第一声音样本提取第一声学特征；从所述第二声音样本提取第二声学特征；以及确定所述第二声学特征是否类似于所述第一声学特征。

附图说明

当结合附图理解时，将通过参考以下详细描述理解本发明的发明性方面的实施例。

图1说明根据本发明的一个实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置。

图2说明根据本发明的另一实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置。

图3说明根据本发明的一个实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置的框图。

图4说明根据本发明的一个实施例的经配置以确定一或多个声音样本是否可用于产生声音检测模型的电子装置中的声音样本验证单元的框图。

图5为根据本发明的一个实施例的在电子装置中执行的用于验证待用于产生声音检测模型的一或多个声音样本的示范性方法的流程图。

图6为根据本发明的一个实施例的在电子装置中执行的用于确定组合式声学特征的示范性方法的流程图。

图7为根据本发明的另一实施例的在电子装置中执行的用于验证待用于产生声音检测模型的一或多个声音样本的示范性方法的流程图。

图8为根据本发明的另一实施例的在电子装置中执行的用于在批处理模式中验证待用于产生声音检测模型的一或多个声音样本的示范性方法的流程图。

图9为根据本发明的另一实施例的在电子装置中执行的用于确定一或多个声音样本的声学特征是否类似的示范性方法的流程图。

图10说明根据本发明的一些实施例的可实施用于验证待用于产生声音检测模型的一或多个声音样本的方法和设备的电子装置的框图。

图11说明说明服务器***的框图，服务器***可以是先前描述为根据一些实施例所实施的服务器中的任一者。

具体实施方式

现在将详细参考各种实施例，在附图中说明所述实施例的实例。在以下详细描述中，陈述众多具体细节以便提供对本发明的透彻理解。然而，对于所属领域的一般技术人员将显而易见的是，可在没有这些具体细节的情况下实践本发明。在其它情况下，未详细描述众所周知的方法、过程、***和组件，以便不会不必要地混淆各种实施例的方面。

图1说明根据本发明的一个实施例的经配置以验证用于产生声音检测模型的多个声音样本S1、S2、S3、S4和S5的电子装置100。电子装置100可以是装备有声音俘获和处理能力的任何合适装置，例如智能电话、蜂窝电话、个人计算机、膝上型计算机、平板计算机、智能电视、游戏装置、多媒体播放器等。电子装置100可从用户120接收声音样本S1、S2、S3、S4和S5供用于产生声音检测模型。

虽然电子装置100说明为接收五个声音样本S1、S2、S3、S4和S5，但是可接收且处理用于产生声音检测模型的任何合适数目个声音样本，且可基于数个因素(例如用户的方便、喜好、性能要求等)而预先确定声音样本的数目。在一个实施例中，可依次接收声音样本S1、S2、S3、S4和S5且接着在批处理模式中加以处理。在另一实施例中，可一次一个地接收并处理声音样本S1、S2、S3、S4和S5，如将在下文参考图2更详细地描述。

如本文中所使用，术语“声音检测模型”可指用于检测由电子装置100接收的输入声音的声音信号或数据中的关键词及/或特定用户的模型或数据库，且可包含指示关键词及/或用户的一或多个声学特征或特性。举例来说，声音检测模型可以是与关键词相关联或指示关键词且经调适以检测从用户接收的输入语音中的关键词的关键词检测模型。术语“关键词”可指可用以在电子装置100中启动、操作或控制功能或应用的一或多个词的任何数字或类比声音表示。另外或替代地，声音检测模型可以是经调适以从输入声音识别用户的说话者验证模型。

在一个实施例中，声学特征可包含可指示关键词或特定用户的频谱特征、时域特征等。频谱特征可包含梅尔频率倒谱系数(MFCC)、倒谱差异系数(差异MFCC)、线谱对(LSP)系数等。时域特征可包含过零率、帧能量等。声学特征还可包含频谱特征或时域特征的统计量度，例如均值、中值、最频值、方差、标准差、共变数、协方差、最大值、最小值、峰态、高阶动量等，以上各者可指示关键词或特定用户。在另一实施例中，声学特征可包含可指示关键词或特定用户的子字的序列。如本文中所使用，术语“子字”或“子字单元”可指基本声音单元，例如音素、音位、三音素、音节等。另外或替代地，声学特征可包含声强等级、信噪比(SNR)或混响时间(RT)，以上各者可指示音质。

电子装置100可经配置以存储一或多个关键词用于在电子装置100中启动或执行一或多个相关联功能或应用。关键词可以是一或多个预定关键词(例如，由制造商分配的关键词)及/或一或多个用户定义关键词。预定关键词的关键词检测模型可用于检测由电子装置100接收的输入声音中的预定关键词。根据一个实施例，多个预定关键词的多个关键词检测模型可由第三方提供商或电子装置100的制造商产生，且预存储于电子装置100中及/或从外部服务器或装置(未展示)下载。

在所说明实施例中，电子装置100可从用户120接收指示预定关键词“你好，骁龙”130的声音样本S1、S2、S3、S4和S5。与预定关键词相关联的经预存储关键词检测模型可通过基于来自用户120的声音样本S1、S2、S3、S4和S5而训练关键词检测模型来适应于用户120。电子装置100可接着使用适应于用户120的经训练关键词检测模型用于检测输入声音中的预定关键词。

在额外或替代性实施例中，用户120还可定义与待在电子装置100中启动或执行的一或多个功能或应用相关联的一或多个用户定义关键词。举例来说，电子装置100可从用户120接收声音样本S1、S2、S3、S4和S5作为指示用户定义关键词的声音样本。如本文中所使用，术语“用户定义关键词”可指可由用户120定义或指定用于启动或执行电子装置100的功能或应用的关键词。基于所接收声音样本S1、S2、S3、S4和S5，电子装置100可产生适应于用户120的用户定义关键词的关键词检测模型。电子装置100可接着适应于用户120的使用所产生的关键词检测模型用于检测输入声音中的用户定义关键词。

另外或替代地，声音检测模型可包含经调适以从输入声音识别用户120的说话者验证模型。为了产生用于识别用户120的说话者验证模型，电子装置100可请求用户120说出关键词，例如预定关键词或用户定义关键词、指定次数，以上各者可预定。当用户120提供所请求数目个声音样本(例如，声音样本S1、S2、S3、S4和S5)时，电子装置100可基于所提供声音样本而产生用户120的说话者验证模型。电子装置100可接着使用适应于用户120的所产生的说话者验证模型用于将输入声音认识为与用户120相关联。

一旦接收用于产生声音检测模型的声音样本S1、S2、S3、S4和S5，那么电子装置100可确定所接收声音样本S1、S2、S3、S4和S5中的每一者是否可用于产生声音检测模型。在此过程中，可从声音样本S1、S2、S3、S4和S5中的每一者提取一或多个声学特征。在一个实施例中，电子装置100可通过比较相关联所提取声学特征来确定声音样本S1、S2、S3、S4和S5中的每一对的声学特征是否类似。如果确定至少两个声音样本的声学特征彼此类似，那么电子装置100可确定至少两个声音样本类似且可用于产生声音检测模型。另一方面，如果确定声音样本的声学特征不类似于至少两个其它声音样本的声学特征，那么声音样本不可用于产生声音检测模型。

在一些实施例中，可从声音样本S1、S2、S3、S4和S5选择一对声音样本，且可从所选择的声音样本中的每一者提取声学特征。电子装置100可接着确定所选择的声音样本的声学特征是否彼此类似。举例来说，电子装置100可选择声音样本S1和S2，且确定声音样本S1的声学特征于声音样本S2的声学特征是否彼此类似。如果声音样本S1的声学特征于声音样本S2的声学特征彼此类似，那么电子装置100可确定声音样本S1与S2类似且可用于产生声音检测模型。

在一个实施例中，电子装置100可基于声音样本S1和S2的声学特征而确定剩余声音样本S3、S4和S5中的每一者是否可用于产生声音检测模型。举例来说，可组合声音样本S1与S2的声学特征以产生声音样本S1与S2的组合式声学特征。电子装置100可选择声音样本S3且从声音样本S3提取声学特征。可接着比较声音样本S1与S2的组合式声学特征与从声音样本S3提取的声学特征。如果确定组合式声学特征与声音样本S3的声学特征类似，那么电子装置100可确定声音样本S3可用于产生声音检测模型。电子装置100可基于两个或两个以上声音样本的组合式声学特征而确定声音样本S4和S5是否可用于产生声音检测模型。举例来说，可基于声音样本S1与S2的组合式声学特征或声音样本S1、S2与S3的组合式声学特征而处理声音样本S4。

如本文中所使用，术语“类似声学特征”或其等效变体可意味着声学特征相同或在特征值或参数(例如频谱特征、时域特征、统计量度、子字等)方面在指定公差或阈值或百分比内而大体上相同。举例来说，在声学特征中的两个序列的子字的状况下，如果所述序列中的相同子字的百分比超出阈值，那么电子装置100可确定两个序列类似。在一个实施例中，两个声学特征可在其按小于30％变化时经确定为类似。

在一个实施例中，电子装置100可将声音样本S1、S2、S3、S4和S5中的每一者的声强等级(例如，平均声强值)确定为声学特征。如果确定声音样本的声强等级小于阈值声级，那么其可指示所述声音样本不是良好声音样本。因此，电子装置100可确定声音样本不可用于产生声音检测模型。

另外或替代地，电子装置100可将声音样本S1、S2、S3、S4和S5中的每一者的SNR确定为声学特征。如果确定声音样本的SNR小于阈值SNR，那么其可指示声音样本具有过多噪声。因此，电子装置100可确定声音样本不可用于产生声音检测模型。

在确定声音样本S1、S2、S3、S4和S5是否可用于产生声音检测模型之后，电子装置100即可输出声音样本S1、S2、S3、S4和S5是否可用于产生声音检测模型的指示。在所说明实施例中，对于预定关键词“你好，骁龙”130，电子装置100可从用户120接收关键词的五个声音样本S1、S2、S3、S4和S5。对于声音样本S1、S2、S3、S4和S5中的每一者，电子装置100可确定声音样本是否可用于产生声音检测模型。举例来说，电子装置100可确定声音样本S1、S2、S4和S5可用于产生如图1中所展示的声音检测模型。

另一方面，电子装置100可确定声音样本S3不可用于产生声音检测模型。举例来说，在确定声音样本S3的多个频谱特征不类似于声音样本S1、S2、S4和S5中的每一者的对应频谱特征之后，电子装置100即可确定与声音样本S3相关联的用户与与声音样本S1、S2、S4和S5相关联的用户不同，且因此可确定声音样本S3不可用于产生声音检测模型。

在一个实施例中，电子装置100可显示声音样本S1、S2、S3、S4和S5的列表136，其在显示屏幕110上指示声音样本S1、S2、S3、S4和S5中的每一者是否可用于产生声音检测模型。举例来说，列表136可通过借由核选标记在方框中显示样本S1、S2、S4和S5中的每一者来指示声音样本S1、S2、S4和S5为可用于产生声音检测模型的良好声音样本。另一方面，声音样本S3，其可能不是良好声音样本，可在列表136中以圆圈显示。此外，可在显示屏幕110上显示指示声音样本S3与不同用户相关联的消息138。另外或替代地，指示声音样本S3不是良好声音样本且因此不可用于产生声音检测模型的皱眉脸132可连同请求用户120输入声音样本S3的额外声音样本的消息134显示于显示屏幕110上。

在一些实施例中，消息138可包含对声音样本不可用于产生声音检测模型的一或多个原因的简要描述。举例来说，消息138可包含指示声音样本的说话者特性不同于其它声音样本的说话者特性、声音样本的经识别关键词不同于其它声音样本的经识别关键词、声音样本的声强等级低于阈值声强等级、声音样本的SNR低于阈值SNR等的一或多个原因。

电子装置100还可经配置以基于相关联声学特征而确定声音样本S1、S2、S3、S4和S5当中的最高质量声音样本。最高质量声音样本可用以产生声音检测模型的子字的序列。在此实施例中，图标140(例如，可点击条)可与播放最高质量声音样本作为最佳声音样本的命令相关联且显示于显示屏幕110上。当用户120按压图标140时，电子装置100可播放最佳声音样本，最佳声音样本可由用户120引用用于输入一或多个额外声音样本。另外或替代地，电子装置100可从用户120接收将声音样本S1、S2、S3、S4和S5中的一者识别为最佳声音样本的输入，且基于所识别声音样本而产生声音检测模型的子字的序列。虽然电子装置100经配置以显示图标140用于播放最佳声音样本，但是其还可经配置以允许用户120在列表136中的声音样本S1到S5当中选择任何声音样本且播放所选择的声音样本。

在一个实施例中，电子装置100可显示多个图标142和144用于输入一或多个取代或额外声音样本。图标“重复前一者”142可以是用户120指示再键入先前所接收的声音样本。当用户120按压图标142时，电子装置100可丢弃先前所接收的声音样本，且从用户120接收新声音样本作为经丢弃声音样本的替换样本。另一方面，图标“重新开始”144可指示键入可经丢弃的声音样本S1到S5的新声音样本。举例来说，如果确定声音样本S1到S5中没有一者将用于产生声音检测模型或如果用户120想要键入声音样本S1到S5的新声音样本，那么用户120可通过按压图标144来输入新声音样本。在接收新声音样本之后，电子装置100即可确定新声音样本是否可用于产生声音检测模型且在显示屏幕110上显示新声音样本的结果。

根据一些实施例，电子装置100还可经配置以从用户120接收选择可用于产生声音检测模型的一或多个声音样本S1、S2、S3、S4和S5的输入。举例来说，用户120可选择声音样本S1、S2和S4供用于产生声音检测模型。另外或替代地，电子装置100可从用户120接收选择待被新声音样本替换的一或多个声音样本的输入。举例来说，用户120可选择声音样本S4(其可能已经确定由电子装置100用于产生声音检测模型)以新声音样本被替换。以此方式，电子装置100可基于用户120的选择而接收并处理声音样本S1、S2、S3、S4和S5的一或多个新声音样本。

当确定声音样本S1、S2、S3、S4和S5用于产生声音检测模型时，电子装置100可基于声音样本S1、S2、S3、S4或S5中的至少一者而产生声音检测模型。举例来说，电子装置100可基于声音样本S1、S2、S3、S4和S5的声学特征而产生声音检测模型。在此状况下，声学特征可以是与已用于确定声音样本是否可用于产生声音检测模型的声学特征相同的声学特征。另外或替代地，电子装置100可从声音样本提取适应于或合适于产生声音检测模型的声学特征。

在一个实施例中，电子装置100可在调整或修改所产生的声音检测模型的过程中将至少一个声音样本(其可能已被拒绝或丢弃，或由于低SNR而被新声音样本替换)用作嵌入有噪声的声音样本。举例来说，除了使用产生的噪声样本以外或作为其替代，可能已被拒绝或丢弃的声音样本还可在调整所产生的声音检测模型的过程中用作嵌入有噪声的声音样本。使用一或多个这些声音样本可在各种声音环境(包含大体上无噪声的环境和有噪声的环境)中改善声音检测模型的检测性能。

另外或替代地，电子装置100可使用至少一个声音样本(其可能已由于低SNR、低声强等级等而被丢弃)以调整声音检测模型的阈值(例如，检测或类似性阈值)。举例来说，当接收指示关键词的输入声音时，可接入存储于电子装置100中的多个声音检测模型以基于阈值而识别与关键词相关联的声音检测模型。为了识别声音检测模型，可确定输入声音与多个声音检测模型中的关键词中的每一者之间的类似性程度。电子装置100可接着将具有最大类似性且其类似性程度大于或等于阈值的声音检测模型识别为关键词的声音检测模型。在一个实施例中，可基于已经确定用于产生声音检测模型的声音样本中的至少一者而确定声音检测模型的阈值。为了增强声音检测模型的检测准确性，可基于至少一个声音样本而调整声音检测模型的阈值，所述声音样本可能已由于低SNR、低声强等级等而被丢弃。举例来说，电子装置100可使用可具有不同于声音样本S1、S2、S3、S4和S5的说话者特性的说话者特性、低于预定阈值SNR的SNR等来调整声音检测模型的阈值。

图2说明根据本发明的另一实施例的经配置以验证用于产生声音检测模型的一或多个声音样本S1、S2、S3、S4和S5的电子装置100。在此实施例中，可一次一个地依序接收并处理声音样本S1、S2、S3、S4和S5。在一个实施例中，电子装置100可在接收声音样本时从每一声音样本提取声学特征，且基于指示音质的声学特征而验证声音样本的音质是否大于或等于供用于产生声音检测模型的阀值质量。如果确定声音样本的音质小于临限值质量，那么电子装置100可从用户120接收新声音样本作为替换声音样本，直到确定声音样本的音质大于或等于阈值质量为止。电子装置100可接着前进以基于声音样本的声学特征是否与一或多个其它声音样本的声学特征类似而确定声音样本是否可用于产生声音检测模型。

电子装置100可首先从用户120接收声音样本S1且从声音样本S1提取声学特征。电子装置100可基于指示音质的声学特征(例如SNR、声强等级等)而确定声音样本S1的音质是否大于或等于供用于产生声音检测模型的阈值质量。如果电子装置100声音样本S1的音质小于阈值质量，那么其可显示提示用户120再键入声音样本S1的消息134，直到确定声音样本S1音质大于或等于供用于产生声音检测模型的阈值质量为止。

当电子装置100确定声音样本S1的音质大于或等于供用于产生声音检测模型的阈值质量时，其可从用户120接收下一声音样本S2并从声音样本S2提取声学特征。电子装置100可确定声音样本S1的声学特征与声音样本S2的声学特征是否类似供用于产生声音检测模型且在显示屏幕110上输出结果。如果确定声音样本S1的声学特征与声音样本S2的声学特征类似，那么电子装置100可基于声音样本S1和S2的声学特征而产生组合式声学特征。如果确定声音样本S1的声学特征与声音样本S2的声学特征不类似，那么电子装置100可请求用户120输入新声音样本作为声音样本S1及/或S2的替换声音样本，直到确定声音样本S1的声学特征与声音样本S2的声学特征类似为止。

在确定声音样本S1的声学特征与声音样本S2的声学特征类似之后，电子装置100即可从用户120接收下一声音样本S3并从声音样本S3提取声学特征。电子装置100可接着确定声音样本S3的声学特征是否类似于声音样本S1与S2的组合式声学特征。另外或替代地，电子装置100可确定声音样本S1、S2和S3中的每一对的声学特征是否类似。举例来说，电子装置100可确定声音样本S1的声学特征是否与声音样本S3的声学特征类似，及/或确定声音样本S2的声学特征是否与声音样本S3的声学特征类似。声音样本S1、S2和S3的结果可显示于如图2中所展示的显示屏幕110上。以此方式，电子装置100还可前进以依序地接收声音样本S4和S5，且基于声学特征或与先前所接收的声音样本相关联的声学特征的组合而确定声音样本S4和S5中的每一者是否可用于产生声音检测模型。

如所说明实施例中所展示，电子装置100可显示声音样本S1、S2和S3的列表200，其在显示屏幕110上指示声音样本S1、S2和S3中的每一者是否可用于产生声音检测模型。举例来说，列表200可通过借由核选标记在方框中显示样本S1和S2中的每一者来指示声音样本S1和S2为可用于产生声音检测模型的良好声音样本。另一方面，声音样本S3，其可能不是良好声音样本，可在列表200中以圆圈显示。此外，还可在显示屏幕110上显示指示声音样本S3与不同用户相关联的消息138。另外或替代地，指示声音样本S3不是良好声音样本且因此不可用于产生声音检测模型的皱眉脸132可连同提示用户120输入声音样本S3的另一声音样本的消息134显示于显示屏幕110上。此外，显示屏幕110上的图标202可与播放可选自声音样本S1、S2和S3的声音样本的命令相关联。当用户120在选择声音样本S3时按压图标202时，电子装置100可播放声音样本S3。

电子装置100还可显示器用于输入一或多个取代或额外声音样本的多个图标142和144。图标“重复前一者”142可指示再键入先前所接收的声音样本(例如，声音样本S3)。当用户120按压图标142时，电子装置100可接收新声音样本作为被丢弃声音样本的替换样本。另一方面，图标“重新开始”144可指示键入已接收的声音样本S1、S2和S3的新声音样本。举例来说，如果确定声音样本S1、S2和S3中没有一者将用于产生声音检测模型或如果用户120想要键入声音样本S1、S2和S3的新声音样本，那么用户120可通过按压图标144来输入新声音样本。在依序地接收新声音样本S1、S2、S3、S4和S5中的每一者之后，电子装置即可确定每一新声音样本是否可用于产生声音检测模型且在显示屏幕110上显示新声音样本的确定结果。

在所说明实施例中，可通过虚线圆圈说明声音样本S4和S5以指示其尚未被接收到。虽然参考声音样本S3描述电子装置100，但是电子装置100还可处理声音样本S1、S2、S4和S5中的每一者用于以上文参考图1所描述的方式产生声音检测模型，且累积地显示声音样本和先前所接收的声音样本的信息。

电子装置100可接收后续声音样本S4和S5，且确定声音样本S1、S2、S3、S4和S5中的每一者可用于产生声音检测模型。可在显示屏幕110上累积地显示声音样本S1到S5的结果。当确定声音样本S1、S2、S3、S4和S5可用于产生声音检测模型时，电子装置100可基于声音样本S1、S2、S3、S4或S5中的至少一者而产生声音检测模型。举例来说，电子装置100可基于声音样本S1、S2、S3、S4和S5的声学特征而产生声音检测模型。在此状况下，声学特征可以是与已用于确定声音样本是否可用于产生声音检测模型的声学特征相同的声学特征。另外或替代地，电子装置100可从声音样本提取适应于或合适于产生声音检测模型的声学特征。根据一些实施例，电子装置100还可经配置以从用户120接收指示声音样本中的每一者是否可用于产生声音检测模型的输入。在此状况下，由用户120选择的一或多个声音样本可用于产生声音检测模型，即使电子装置100已确定声音样本不可用于产生声音检测模型时也如此。

图3说明根据本发明的一个实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置100的框图。电子装置100可包含声音传感器300、输入/输出(I/O)单元310、通信单元320和存储单元330和处理器340。I/O单元310可包含显示屏幕110和扬声器(未展示)。显示屏幕110可以是经配置以接收来自用户的触摸输入的触摸显示器屏幕。处理器340可包含声音样本验证单元342、声音检测模型产生单元344、声音检测单元346和话音辅助单元348。可使用任何合适的处理单元(例如可执行指令或实行对电子装置100的操作的中央处理单元(CPU)、应用处理器、微处理器等)来实施处理器340。

声音传感器300可经配置以从用户接收输入声音流。如本文中所使用，术语“声音流”可指一或多个声音信号或声音数据的序列。声音传感器300可包含一或多个麦克风或可用以接收、俘获、传感及/或检测到电子装置100的声音输入的任何其它类型的声音感测器。另外，声音传感器300可使用任何合适的软体及/或硬体用于执行这些功能。用户的所接收输入声音流可存储于存储单元330中。声音传感器300可将用户的所接收输入声音流提供到处理器340以用于处理。

在一个实施例中，声音传感器300可从用户接收包含一或多个声音样本的输入声音流。在接收输入声音流之后，声音传感器300即可通过使用任何合适的端点检测算法检测输入声音流中的声音样本或孤立话语中的每一者的起点和端点来检测来自输入声音流的声音样本中的每一者。可提取所检测声音样本并将其存储于存储单元330中。可将所提取声音样本提供到处理器340以用于处理。

存储单元330可经配置以存储数据和指令用于操作声音传感器300、I/O单元310、通信单元320和处理器340。存储单元330还可存储由声音传感器300接收的输入声音流或从输入声音流提取的一或多个声音样本。存储单元330可使用任何合适的存储装置或存储器装置实施，例如，随机接入存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、固态驱动器(SSD)。

存储单元330还可存储可预存储于存储单元330中及/或经由通信单元320从外部服务器或装置(未展示)下载的至少一个子字模型。在一些实施例中，子字模型可以根据由子字模型表示的子字的类型而为(但不限于)基于音素的模型、基于音位的模型、基于三音素的模型、基于音节的模型等，且可包含子字单元的列表和每一子字单元的一或多个声学特征。

存储单元330还可存储用于检测输入声音中的声音信号或数据中的关键词及/或特定用户的一或多个声音检测模型。举例来说，声音检测模型可包含经调适以从输入声音识别用户的说话者验证模型。另外或替代地，声音检测模型可包含用于检测预定关键词的一或多个关键词检测模型及/或用于检测用户定义关键词的一或多个关键词检测模型。用于检测预定关键词的关键词检测模型可预存储于存储单元330中或经由通信单元320从外部服务器或装置(未展示)下载。在一个实施例中，关键词检测模型可包含包含多个部分(即，多个子字或子字单元)的子字的序列，可从指示关键词的一或多个声音样本确定事实部分。关键词检测模型还可包含与所述子字序列中的多个子字中的每一者相关联的模型参数和用于检测关键词的阈值。

在另一实施例中，关键词检测模型可包含子字网络。子字网络可包含多个节点和可连接多个节点中的至少两个节点的多个线。关键词检测模型还可包含至少一个图形模型，例如隐式马尔可夫模型(HMM)、半马尔可夫模型(SMM)等，图形模型对应于子字网络的节点。图形模型可包含数个状态和参数，例如跃迁概率、状态输出等。

处理器340中的声音样本验证单元342可经配置以从声音传感器300或存储单元330接收一或多个声音样本且确定所接收声音样本中的每一者是否可用于产生声音检测模型。另外或替代地，声音样本验证单元342可从声音传感器300或存储单元330接收包含一或多个声音样本的输入声音流，且使用任何合适的端点检测算法从输入声音流提取声音样本中的每一者。在此状况下，声音样本验证单元342可将所提取声音样本存储于存储单元330中。

一旦接收或提取声音样本，那么声音样本验证单元342可从声音样本中的每一者提取一或多个声学特征以确定声音样本中的每一者是否可用于产生声音检测模型。在一个实施例中，声音样本验证单元342可确定声音样本的声学特征是否类似供用于产生声音检测模型。在另一实施例中，声音样本验证单元342可基于指示音质的声学特征(例如，SNR、声强等级等)而确定声音样本中的每一者的音质是否大于或等于供用于产生声音检测模型的阀值质量。在一些实施例中，声音样本验证单元342可经配置以基于相关联声学特征而确定声音样本当中的最高质量声音样本。可将所确定最高质量声音样本提供到声音检测模型产生单元344用于产生声音检测模型的子字的序列。

另外或替代地，声音样本验证单元342可从用户接收经由I/O单元310将声音样本中的一者识别为最佳声音样本的输入。在此状况下，可将经识别声音样本提供到声音检测模型产生单元344用于产生声音检测模型的子字的序列。在一些实施例中，声音样本验证单元342可发指令给I/O单元310通过I/O单元310的扬声器播放最佳声音样本。另外或替代地，声音样本验证单元342可从用户接收识别待通过I/O单元310播放的一或多个声音样本的输入，且发指令给I/O单元310经由I/O单元310的说话者播放经识别声音样本。

在一些实施例中，声音样本验证单元342可从声音传感器300或存储单元330接收一或多个取代或额外声音样本。举例来说，如果声音样本验证单元342确定一或多个所先前接收声音样本不可用于产生声音检测模型，那么其可丢弃一或多个所先前接收声音样本并经由声音传感器300接收经丢弃声音样本的一或多个新声音样本。另外或替代地，如果所先前接收声音样本中没有一者确定为用于产生声音检测模型，那么声音样本验证单元342可丢弃所先前接收声音样本且经由声音传感器300接收一或多个新声音样本。

根据一个实施例，声音样本验证单元342可依次接收声音样本，且接着在批处理模式中处理所接收声音样本。举例来说，当接收五个声音样本时，声音样本验证单元342可确定所有五个声音样本是否可用于产生声音检测模型，且发指令给I/O单元310输出关于所有五个声音样本的确定结果的指示。在另一实施例中，声音样本验证单元342可一次一个地接收并处理声音样本。

声音检测模型产生单元344可经配置以从声音样本验证单元342接收已经确定用于产生声音检测模型的一或多个声音样本。声音检测模型产生单元344可接着基于所接收声音样本中的至少一者而产生声音检测模型。声音检测模型可包含说话者验证模型、预定关键词或用户定义关键词的关键词检测模型等。声音检测模型产生单元344可基于已经确定用于产生声音检测模型的所接收声音样本中的至少一者而确定声音检测模型的阈值。在一个实施例中，声音检测模型产生单元344可从声音样本验证单元342接收至少一个声音样本(声音样本可能已由于低SNR而被丢弃或被新声音样本替换)以在调整所产生的声音检测模型的过程中将声音样本用作嵌入有噪声的声音样本。另外或替代地，声音检测模型产生单元344可从声音样本验证单元342接收至少一个声音样本(声音样本可能已由于低SNR、低声强等级等而被丢弃)，且在调整声音检测模型在阈值的过程中使用声音样本。声音检测模型产生单元344可将所产生的声音检测模型存储于存储单元330中。

声音检测单元346可经配置以从声音传感器300或存储单元330接收输入声音流，和基于存储于存储单元330中的至少一个声音检测模型而检测输入声音流的声音信号或数据中的关键词及/或特定用户。举例来说，在接收指示关键词的输入声音流之后，声音检测单元346即可从输入声音流依序地提取多个声学特征，且确定与至少一个关键词检测模型相关联的至少一个关键词(包含至少一个用户定义关键词和至少一个预定关键词)的匹配得分。声音检测单元346可接着识别具有最大匹配得分且其匹配得分大于或等于阈值的关键词检测模型作为输入声音流的所匹配关键词检测模型。

在识别与关键词相关联的所匹配关键词检测模型之后，声音检测单元346即可执行与关键词相关联的功能或启动、控制或操作与关键词相关联的应用。另外或替代地，声音检测单元346可产生并发射启动信号以开启话音辅助单元348，话音辅助单元348可与关键词相关联。可响应于来自声音检测单元346的启动信号而启动话音辅助单元348。一旦启动，那么话音辅助单元348可通过在显示屏幕110上及/或通过I/O单元310的扬声器输出消息(例如“我可以帮助你吗？”)来执行话音辅助功能。作为响应，用户可说出话音命令以启动电子装置100的各种相关联功能。举例来说，当接收用于因特网搜索的话音命令时，话音辅助单元348可将话音命令识别为搜索命令且经由通信单元320执行网页搜索。

图4说明根据本发明的一个实施例的经配置以确定一或多个声音样本是否可用于产生声音检测模型的声音样本验证单元342的框图。声音样本验证单元342可包含特征提取器400、特征缓冲器410和类似性确定单元420。特征提取器400可经配置以从声音传感器300或存储单元330接收一或多个声音样本，和从所接收声音样本中的每一者提取一或多个声学特征。举例来说，特征提取器400可从所接收声音样本中的每一者提取频谱特征、时域特征等。在一个实施例中，特征提取器400可对所接收声音样本中的每一者执行子字识别以产生每一声音样本的子字的序列作为声学特征。在另一实施例中，特征提取器400可从所接收声音样本中的每一者提取声强等级(例如，平均声强等级)或SNR。

在一些实施例中，特征提取器400可计算所接收声音样本中的每一者的RT。在此过程中，特征提取器400可将声音样本中的每一者划分成相等时间段的多个依序帧，且从所述帧提取一或多个声学特征(例如，频谱特征)。基于帧中的声学特征，可将多个帧当中的一个或多个声学特征中的类似性确定为相关性值。基于相关性值，特征提取器400可确定具有大于或等于阀值相关性值的相关性值的声音样本的两个帧之间的最长时间段作为声音样本的RT。

在从声音样本中的每一者提取一或多个声学特征之后，特征提取器400即可将所提取声学特征存储于特征缓冲器410中。特征缓冲器410可经配置以从特征提取器400接收所提取声学特征，且将其发射到类似性确定单元420。所提取声学特征还可存储于存储单元330中。

类似性确定单元420可从特征缓冲器410或存储单元330接收所提取声学特征，且确定声音样本的所提取声学特征是否类似。在一个实施例中，类似性确定单元420可通过比较相关联声学特征来确定声音样本中的每一对的声学特征是否类似。如果确定至少两个声音样本的声学特征类似，那么类似性确定单元420可确定至少两个声音样本类似且可用于产生声音检测模型。另一方面，如果类似性确定单元420确定声音样本的声学特征不类似于至少两个其它声音样本的声学特征，那么可确定声音样本不可用于产生声音检测模型。

在另一实施例中，类似性确定单元420可确定两个或两个以上声音样本的组合式声学特征，且确定声音样本的声学特征是否类似于组合式声学特征。组合式声学特征可存储于特征缓冲器410或存储单元330中。举例来说，如果确定第一声音样本的声学特征与第二声音样本的声学特征类似，那么类似性确定单元420可基于第一声音样本和第二声音样本的声学特征而确定组合式声学特征。在此状况下，如果确定第三声音样本的声学特征类似于组合式声学特征，那么类似性确定单元420可确定第一、第二与第三声音样本类似且可用于产生声音检测模型。另一方面，如果类似性确定单元420确定第三声音样本的声学特征不类似于组合式声学特征，那么可确定第三声音样本不可用于产生声音检测模型。

图5为根据本发明的一个实施例的在电子装置100中执行的用于验证待用于产生声音检测模型的一或多个声音样本的方法500的流程图。首先，电子装置100可在510处接收用于产生声音检测模型的第一声音样本。电子装置100可在520处从第一声音样本提取第一声学特征。电子装置100可在530处接收用于产生声音检测模型的第二声音样本。电子装置100可在540处从第二声音样本提取第二声学特征。电子装置100可在550处确定第二声学特征是否类似于第一声学特征。

图6为根据本发明的一个实施例的在电子装置100中执行的用于确定组合式声学特征的方法600的流程图。首先，电子装置100可在610处接收第一声音样本并从第一声音样本提取第一声学特征。电子装置100可在620处接收第二声音样本并从第二声音样本提取第二声学特征。电子装置100可在630处确定第二声学特征是否类似于第一声学特征。如果确定第一声学特征与第二声学特征类似(即，在640处为是)，那么电子装置100可在650处基于第一声学特征和第二声学特征而确定组合式声学特征。如果确定第一声学特征与第二声学特征不类似(即，在640处为否)，那么方法600可前进到610以接收第一声音样本，且从第一声音样本提取第一声学特征。

图7为根据本发明的另一实施例的在电子装置100中执行的用于验证待用于产生声音检测模型的一或多个声音样本的方法700的流程图。如图6中所说明，电子装置100可基于第一声学特征和第二声学特征而确定组合式声学特征。电子装置100可在710处接收用于产生声音检测模型的第三声音样本。电子装置100可在720处从第三声音样本提取第三声学特征。电子装置100可在730处确定第三声学特征是否类似于第一与第二声学特征的组合式声学特征。如果确定第三声学特征类似于组合式声学特征(即，在740处为是)，那么电子装置100可在750处基于第一声音样本、第二声音样本或第三声音样本中的至少一者而产生声音检测模型。如果确定第三声学特征不类似于组合式声学特征(即，在740处为否)，那么方法700可前进到710用于接收第三声音样本。

图8为根据本发明的另一实施例的在电子装置100中执行的用于在批处理模式中验证待用于产生声音检测模型的一或多个声音样本的方法800的流程图。电子装置100可在810处接收用于产生声音检测模型的多个声音样本。电子装置100可在820处确定所接收声音样本是否类似。如果确定声音样本类似(即，在830处为是)，那么电子装置100可在850处基于声音样本中的至少一者而产生声音检测模型。如果确定声音样本不类似(即，在830处为否)，那么电子装置100可在840处接收至少一个新声音样本作为已经确定为不类似于其它声音样本的至少一个声音样本的替换声音样本，且方法800可前进到820用于确定所接收声音样本是否类似。

图9为根据本发明的另一实施例的在电子装置100中执行的用于确定一或多个声音样本的声学特征是否类似的方法820的流程图。电子装置100可在900处从声音样本中的每一者提取一或多个声学特征。电子装置100可在910处确定声音样本中的每一对的声学特征是否类似。电子装置100可在920处基于确定声音样本中的每一对的声学特征是否类似而输出关于声音样本是否类似的指示。

图10说明根据本发明的一些实施例的无线通信***中的可实施用于验证待用于产生声音检测模型的一或多个声音样本的方法和设备的示范性电子装置1000的框图。示范性电子装置1000可以是蜂窝电话、智能电话、可穿戴式计算机、智能手表、智能眼镜、平板个人计算机、终端机、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等。无线通信***可以是CDMA***、GSM***、W-CDMA***、LTE***、LTE高级***等。

示范性电子装置1000可能够经由接收路径和发射路径提供双向通信。在接收路径上，由基站发射的信号可由天线1012接收，且可提供到接收器(RCVR)1014。接收器1014可调节并数字化所接收信号，且将经调节且经数字化在数字信号提供到数字区段以供进一步处理。在发射路径上，发射器(TMTR)1016可从数字区段1020接收待发射的数据，处理并调节数据，且产生经调制信号，经调制信号经由天线1012发射到基站。接收器1014和发射器1016可以是可支持CDMA、GSM、W-CDMA、LTE、高级LTE等等收发器的部分。

数字区段1020可包含各种处理、接口和存储器单元，例如调制解调器处理器1022、精简指令集计算机/数字信号处理器(RISC/DSP)1024、控制器/处理器1026、内部存储器1028、通用音频/视频编码器1032、通用音频解码器1034、图形/显示处理器1036，和/或外部总线接口(EBI)1038。调制解调器处理器1022可执行用于数据发射和接收的处理，例如，编码、调制、解调和解码。RISC/DSP 1024可对示范性电子装置1000执行通用和专用处理。控制器/处理器1026可执行数字区段1020内的各种处理和接口单元的操作。内部存储器1028可存储用于数字区段1020内的各种单元的数据和/或指令。

通用音频/视频编码器1032可对来自音频/视频源1042、麦克风1044、图像传感器1046等的输入信号执行编码。通用音频解码器1034可执行对经译码音频数据的解码，且可将输出信号提供到扬声器/头戴式耳机1048。图形/显示处理器1036可对可呈现给显示单元1050的图形、视频、图像和文本执行处理。EBI 1038可促进数字区段1020与主存储器1052之间的数据传送。

可借由一或多个处理器、DSP、微处理器、RISC等来实施数字区段1020。数字区段1020还可制造于一或多个专用集成电路(ASIC)和/或某一其它类型的集成电路(IC)上。

图11为说明服务器***1100的框图，服务器***1100可以是先前描述为根据一些实施例所实施的服务器中的任一者。服务器***1100可包含一或多个处理单元(例如，CPU)1102、一或多个网络或其它通信网络接口、存储器1112，和用于互连这些组件的一或多个通信总线1114。服务器***1100还可包含具有显示装置和键盘的用户接口(未展示)。

存储器1112可以是任何合适的存储器，例如高速随机接入存储器，(例如DRAM、SRAM、DDR RAM或其它随机接入固态存储器裝置)。存储器1112可包含或可替代地为非易失性存储器(例如，一或多个磁盘存储器装置、光盘存储装置装置、快闪存储器装置或其它非易失性固态存储装置)。在一些实施例中，存储器1112可包含从CPU 1102远程定位和/或远程定位于多处中的一或多个存储装置。

由存储器1112表示的上述存储器装置中的任一者可存储对应于用于执行和/或实行先前所描述的进程、操作和方法中的任一者的一组指令的任何数目个模组或程序。举例来说，存储器1112可包含操作***1116，其经配置以存储包含用于处置各种基本***服务且用于执行硬件相关任务的程序的指令。存储器1112的网络通信模块1118可用于经由一或多个通信网络接口1110(有线或无线)和一或多个通信网络(例如因特网、其它广域网、局域网、城域网等)将服务器***1100连接到其它计算机。

存储器1112还可包含数据库1120，数据库1120经配置以包含具有一或多个对象(例如，文本对象和非文本对象)的多个图像的图像数据库、分类器数据库、字符信息数据库、词典数据库等。操作***1116可通过不同图像更新图像数据库，可通过网络通信模块1118来接收和/或捕俘获所述图像。操作***1116还可以经由网络通信模块1118将图像提供到多个电子装置。此外，可将分类器数据库、字符信息数据库、词典数据库提供到多个电子装置以用于检测图像的至少一个文本区域和/或识别至少一个文本区域中的一或多个字符串。

一般来说，本文中所描述的任何装置可表示各种类型的装置，例如无线电话、蜂窝电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等。装置可具有各种名称，例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。

可通过各种装置实施本文中所描述的技术。举例来说，这些技术可以硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解，结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的此可互换性，上文已大体上关于其功能性描述了各种说明性组件、块、模块、电路和步骤。此功能性是实施为硬件还是软件取决于特定应用和施加于整个***的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但此类实施决策不应被解释为引起偏离本发明的范围。

对于硬件实施方案，用以执行所述技术的处理单元可实施在以下各者内：一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机，或其组合。

因而，结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可用通用处理器、DSP、ASIC、FPGA或经设计以执行本文中所描述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心，或任何其它此类配置。

如果以软件实施，那么功能可存储在计算机可读媒体处。计算机可读媒体包含计算机存储媒体与通信媒体两者，所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可以是可由计算机接入的任何可用媒体。借助于实例而非限制，这些计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以携载或存储呈指令或数据结构形式的所要程序代码且可由计算机接入的任何其它媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。举例来说，计算机可读存储媒体可以是包含可由处理器实行的指令的非暂时性计算机可读存储装置。因此，计算机可读存储媒体可能不是信号。

提供本发明的先前描述以使所属领域的技术人员能够制造或使用本发明。对本发明的各种修改所属领域的技术人员将显而易见，且本文中所定义的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此，本发明并不既定限于本文中所描述的实例，而应符合与本文中所揭示的原理和新颖特征相一致的最广泛范围。

虽然称示范性实施方案利用在一或多个独立计算机***的背景下的当前揭示的标的物的方面，但是所述标的物不受如此限制，而是可结合任何计算环境(例如网络或分布式计算环境)来予以实施。此外，当前揭示的标的物的方面可以在多个处理芯片或装置中或跨越多个处理芯片或装置予以实施，且可类似地跨越多个装置实现存储。这些装置可包含PC、网络服务器和手持式装置。

虽然已经以特定地针对结构特征和/或方法动作的语言来描述标的物，但是应理解，所附权利要求书中所定义的标的物未必限于上文所描述的具体特征或动作。事实上，揭示上文所描述的特定特征和动作作为实施权利要求书的实例形式。

应了解，不必将上述所识别模块或程序(即，指令集)实施为单独软件程序、程序或模块，且因此可在各种实施例中组合或以其它方式重新布置这些模块的各种子集。另外，存储器1112可存储上文未描述的额外模块和数据结构。

<本发明的方面>

在下文中，将另外陈述本发明的一些方面。

(实例1)根据本发明的一方面，提供一种用于验证待用于产生声音检测模型的至少一个声音样本的方法，所述方法包括：接收第一声音样本；从所述第一声音样本提取第一声学特征；接收第二声音样本；从所述第二声音样本提取第二声学特征；以及确定所述第二声学特征是否类似于所述第一声学特征。

(实例2)实例1的所述方法进一步包括响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。

(实例3)实例1或2的所述方法进一步包括：确定所述第一声音样本的信噪比(SNR)；确定所述第二声音样本的SNR；基于所述第一声音样本和第二声音样本的所述SNR而选择所述第一声音样本或所述第二声音样本中的至少一者；在确定所述第二声学特征类似于所述第一声学特征之后，即基于所述所选择的至少一个声音样本而产生所述声音检测模型；以及基于所述未选择的声音样本而调整所述所产生的声音检测模型。

(实例4)实例1到3中任一项的所述方法进一步包括：响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定一组合式声学特征。

(实例5)实例1到4中任一项的所述方法进一步包括：接收第三声音样本；从所述第三声音样本提取第三声学特征；以及确定所述第三声学特征是否类似于所述组合式声学特征。

(实例6)在实例1到5中任一项的所述方法中，所述第一声学特征和所述第二声学特征中的每一者包含频谱特征或时域特征中的至少一者。

(实例7)在实例1到6中任一项的所述方法中，所述第一声学特征和所述第二声学特征中的每一者包含子字的序列。

(实例8)在实例1到7中任一项的所述方法中，所述子字包含音素、音位、三音素或音节中的至少一者。

(实例9)实例1到8中任一项的所述方法进一步包括：响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本；从所述新声音样本提取新声学特征；以及确定所述新声学特征是否类似于所述第一声学特征。

(实例10)实例1到9中任一项的所述方法进一步包括：响应于确定所述新声学特征类似于所述第一声学特征而基于所述第一声音样本或所述新声音样本中的至少一者而产生所述声音检测模型。

(实例11)在实例1到10中任一项的所述方法中，产生所述声音检测模型包括：基于所述第一声音样本或所述新声音样本中的至少一者而确定所述声音检测模型的阈值；以及基于所述第二声音样本而调整所述阈值。

(实例12)实例1到11中任一项的所述方法进一步包括：基于确定所述第二声学特征是否类似于所述第一声学特征而输出关于所述第二声音样本是否类似于所述第一声音样本的指示；以及接收指示待用于产生所述声音检测模型的所述第一声音样本或所述第二声音样本中的至少一者的输入。

(实例13)在实例1到12中任一项的所述方法中，所述第一声音样本和所述第二声音样本中的每一者指示用以启动所述电子装置的命令或用以控制所述电子装置中的应用或功能的命令中的至少一者。

(实例14)实例1到13中任一项的所述方法进一步包括：接收语音输入；以及基于所述声音检测模型而从所述语音输入识别关键词或用户中的至少一者。

(实例15)根据本发明的另一方面，提供一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置，所述电子装置包括：声音传感器，其经配置以接收第一声音样本和第二声音样本；以及声音样本验证单元，其经配置以从所述第一声音样本提取第一声学特征、从所述第二声音样本提取第二声学特征，且确定所述第二声学特征是否类似于所述第一声学特征。

(实例16)实例15的所述电子装置进一步包括声音检测模型产生单元，所述声音检测模型产生单元经配置以响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。

(实例17)在实例15或16的所述电子装置中，所述声音样本验证单元经配置以响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定一组合式声学特征。

(实例18)在实例15到17中任一项的所述电子装置中，所述声音传感器经配置以接收第三声音样本；且所述声音样本验证单元经配置以从所述第三声音样本提取第三声学特征且确定所述第三声学特征是否类似于所述组合式声学特征。

(实例19)在实例15到18中任一项的所述电子装置中，所述声音传感器经配置以响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本，且所述声音样本验证单元经配置以从所述新声音样本提取新声学特征且确定所述新声学特征是否类似于所述第一声学特征。

(实例20)根据本发明的再一方面，提供一种非暂时性计算机可读存储媒体，其包括致使电子装置的至少一个处理器执行以下操作的指令：接收第一声音样本；从所述第一声音样本提取第一声学特征；接收第二声音样本；从所述第二声音样本提取第二声学特征；以及确定所述第二声学特征是否类似于所述第一声学特征。

(实例21)实例20的所述非暂时性计算机可读存储媒体进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。

(实例22)实例20或21的所述非暂时性计算机可读存储媒体进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定一组合式声学特征。

(实例23)实例20到22中任一项的所述非暂时性计算机可读存储媒体进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：接收第三声音样本；从所述第三声音样本提取第三声学特征；以及确定所述第三声学特征是否类似于所述组合式声学特征。

(实例24)实例20到23中任一项的所述非暂时性计算机可读存储媒体进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本；从所述新声音样本提取新声学特征；以及确定所述新声学特征是否类似于所述第一声学特征。

(实例25)根据本发明的又另一方面，提供一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置，所述电子装置包括：用于接收第一声音样本的装置；用于从所述第一声音样本提取第一声学特征的装置；用于接收第二声音样本的装置；用于从所述第二声音样本提取第二声学特征的装置；以及用于确定所述第二声学特征是否类似于所述第一声学特征的装置。

(实例26)实例25的所述电子装置进一步包括用于响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型的装置。

(实例27)实例25或26的所述电子装置进一步包括用于响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定一组合式声学特征的装置。

(实例28)实例25到27中任一项的所述电子装置进一步包括：用于接收第三声音样本的装置；用于从所述第三声音样本提取第三声学特征的装置；以及用于确定所述第三声学特征是否类似于所述组合式声学特征的装置。

(实例29)实例25到28中任一项的所述电子装置进一步包括：用于响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本的装置；用于从所述新声音样本提取新声学特征的装置；以及用于确定所述新声学特征是否类似于所述第一声学特征的装置。

(实例30)实例25到29中任一项的所述电子装置进一步包括：用于基于确定所述第二声学特征是否类似于所述第一声学特征而输出关于所述第二声音样本是否类似于所述第一声音样本的指示的装置；以及用于接收指示待用于产生所述声音检测模型的所述第一声音样本或所述第二声音样本中的至少一者的输入的装置。

Claims

1.一种在电子装置中执行的用于验证待用于产生声音检测模型的至少一个声音样本的方法，所述方法包括：

接收第一声音样本；

从所述第一声音样本提取第一声学特征；

接收第二声音样本；

从所述第二声音样本提取第二声学特征；以及

确定所述第二声学特征是否类似于所述第一声学特征。

2.根据权利要求1所述的方法，其进一步包括响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。

3.根据权利要求1所述的方法，其进一步包括：

确定所述第一声音样本的信噪比SNR；

确定所述第二声音样本的SNR；

基于所述第一声音样本和所述第二声音样本的所述SNR而选择所述第一声音样本或所述第二声音样本中的至少一者；

在确定所述第二声学特征类似于所述第一声学特征之后，即基于所述所选择的至少一个声音样本而产生所述声音检测模型；以及

基于所述未选择的声音样本而调整所述所产生的声音检测模型。

4.根据权利要求1所述的方法，其进一步包括响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定组合式声学特征。

5.根据权利要求4所述的方法，其进一步包括：

接收第三声音样本；

从所述第三声音样本提取第三声学特征；以及

确定所述第三声学特征是否类似于所述组合式声学特征。

6.根据权利要求1所述的方法，其中所述第一声学特征和所述第二声学特征中的每一者包含频谱特征或时域特征中的至少一者。

7.根据权利要求1所述的方法，其中所述第一声学特征和所述第二声学特征中的每一者包含子字的序列。

8.根据权利要求7所述的方法，其中所述子字包含音素、音位、三音素或音节中的至少一者。

9.根据权利要求1所述的方法，其进一步包括：

响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本；

从所述新声音样本提取新声学特征；以及

确定所述新声学特征是否类似于所述第一声学特征。

10.根据权利要求9所述的方法，其进一步包括响应于确定所述新声学特征类似于所述第一声学特征而基于所述第一声音样本或所述新声音样本中的至少一者而产生所述声音检测模型。

11.根据权利要求10所述的方法，其中产生所述声音检测模型包括：

基于所述第一声音样本或所述新声音样本中的至少一者而确定所述声音检测模型的阈值；以及

基于所述第二声音样本而调整所述阈值。

12.根据权利要求1所述的方法，其进一步包括：

基于确定所述第二声学特征是否类似于所述第一声学特征而输出关于所述第二声音样本是否类似于所述第一声音样本的指示；以及

接收指示待用于产生所述声音检测模型的所述第一声音样本或所述第二声音样本中的至少一者的输入。

13.根据权利要求1所述的方法，其中所述第一声音样本和所述第二声音样本中的每一者指示用以启动所述电子装置的命令或用以控制所述电子装置中的应用或功能的命令中的至少一者。

14.根据权利要求2所述的方法，其进一步包括：

接收语音输入；以及

基于所述声音检测模型而从所述语音输入识别关键词或用户中的至少一者。

15.一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置，所述电子装置包括：

声音传感器，其经配置以接收第一声音样本和第二声音样本；以及

声音样本验证单元，其经配置以从所述第一声音样本提取第一声学特征、从所述第二声音样本提取第二声学特征，且确定所述第二声学特征是否类似于所述第一声学特征。

16.根据权利要求15所述的电子装置，其进一步包括声音检测模型产生单元，所述声音检测模型产生单元经配置以响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。

17.根据权利要求15所述的电子装置，其中所述声音样本验证单元经配置以响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定组合式声学特征。

18.根据权利要求17所述的电子装置，其中所述声音传感器经配置以接收第三声音样本，且

其中所述声音样本验证单元经配置以从所述第三声音样本提取第三声学特征且确定所述第三声学特征是否类似于所述组合式声学特征。

19.根据权利要求15所述的电子装置，其中所述声音传感器经配置以响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本，且

其中所述声音样本验证单元经配置以从所述新声音样本提取新声学特征且确定所述新声学特征是否类似于所述第一声学特征。

20.根据权利要求15所述的电子装置，其进一步包括：

输出单元，其经配置以基于确定所述第二声学特征是否类似于所述第一声学特征而输出关于所述第二声音样本是否类似于所述第一声音样本的指示；以及

输入单元，其用以接收指示待用于产生所述声音检测模型的所述第一声音样本或所述第二声音样本中的至少一者的输入。

21.一种非暂时性计算机可读存储媒体，其包括致使电子装置的至少一个处理器执行以下操作的指令：

接收第一声音样本；

从所述第一声音样本提取第一声学特征；

接收第二声音样本；

从所述第二声音样本提取第二声学特征；以及

确定所述第二声学特征是否类似于所述第一声学特征。

22.根据权利要求21所述的非暂时性计算机可读存储媒体，其进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生声音检测模型。

23.根据权利要求21所述的非暂时性计算机可读存储媒体，其进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定组合式声学特征。

24.根据权利要求23所述的非暂时性计算机可读存储媒体，其进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：

接收第三声音样本；

从所述第三声音样本提取第三声学特征；以及

确定所述第三声学特征是否类似于所述组合式声学特征。

25.根据权利要求21所述的非暂时性计算机可读存储媒体，其进一步包括致使所述电子装置的所述至少一个处理器执行以下操作的指令：

从所述新声音样本提取新声学特征；以及

确定所述新声学特征是否类似于所述第一声学特征。

26.一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置，所述电子装置包括：

用于接收第一声音样本的装置；

用于从所述第一声音样本提取第一声学特征的装置；

用于接收第二声音样本的装置；

用于从所述第二声音样本提取第二声学特征的装置；以及

用于确定所述第二声学特征是否类似于所述第一声学特征的装置。

27.根据权利要求26所述的电子装置，其进一步包括用于响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型的装置。

28.根据权利要求26所述的电子装置，其进一步包括用于响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定组合式声学特征的装置。

29.根据权利要求28所述的电子装置，其进一步包括：

用于接收第三声音样本的装置；

用于从所述第三声音样本提取第三声学特征的装置；以及

用于确定所述第三声学特征是否类似于所述组合式声学特征的装置。

30.根据权利要求26所述的电子装置，其进一步包括：

用于响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本的装置；

用于从所述新声音样本提取新声学特征的装置；以及

用于确定所述新声学特征是否类似于所述第一声学特征的装置。