CN111710337B

CN111710337B - 语音数据的处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN111710337B
Application number: CN202010549158.XA
Authority: CN
Inventors: 元涛; 兰泽华; 林昱
Original assignee: Ringslink Xiamen Network Communication Technologies Co ltd
Current assignee: Ringslink Xiamen Network Communication Technologies Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2023-07-07
Anticipated expiration: 2040-06-16
Also published as: CN111710337A

Abstract

本申请的实施例提供了一种语音数据的处理方法、装置、计算机可读介质及电子设备。该语音数据的处理方法包括：实时获取语音输入信息；对所述语音输入信息进行分帧处理，得到所述语音输入信息所对应的语音帧；采用预训练的声学模型对所述语音帧进行音素识别，以识别出所述语音帧中包含的音素；针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词；若连续识别出相同的关键词的次数大于或等于预定数量，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作。本申请实施例的技术方案可以提高语音识别的效率，进而保证语音控制设备的响应速度。

Description

语音数据的处理方法、装置、计算机可读介质及电子设备

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种语音数据的处理方法、装置、计算机可读介质及电子设备。

背景技术

随着语音识别技术的发展，其应用也越来越广泛。例如汽车设备的语音控制、智能玩具或者智能家居等等。在目前的技术方案中，语音控制设备通过获取用户输入的语音信息，并对语音信息进行语音识别以达到控制设备动作的目的。因此，如何提高语音的识别效率，进而保证语音控制设备响应速度成为了亟待解决的技术问题。

发明内容

本申请的实施例提供了一种语音数据的处理方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以提高语音的识别效率，进而保证语音控制设备的响应速度。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种语音数据的处理方法，该方法包括：

实时获取语音输入信息；

对所述语音输入信息进行分帧处理，得到所述语音输入信息所对应的语音帧；

采用预训练的声学模型对所述语音帧进行音素识别，以识别出所述语音帧中包含的音素；

针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词；

若连续识别出相同的关键词的次数大于或等于预定数量，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作。

根据本申请实施例的一个方面，提供了一种语音数据的处理装置，该处理装置包括：

获取模块，用于实时获取语音输入信息；

分帧模块，用于对所述语音输入信息进行分帧处理，得到所述语音输入信息所对应的语音帧；

第一识别模块，用于采用预训练的声学模型对所述语音帧进行音素识别，以识别出所述语音帧中包含的音素；

第二识别模块，用于针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词；

处理模块，用于若连续识别出相同的关键词的次数大于或等于预定数量，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作。

基于前述方案，在本申请的一些实施例中，所述处理模块被配置为：将首次识别出所述关键词的语音帧确定为起始帧；若在所述起始帧之后的预定数量内的语音帧内未识别出其他关键词，则确定所述关键词为目标关键词。

基于前述方案，在本申请的一些实施例中，所述第一识别模块被配置为：对所述语音帧进行特征提取，得到所述语音帧对应的语音特征；将所述语音特征输入声学模型，以使所述声学模型输出所述语音帧中包含的音素。

基于前述方案，在本申请的一些实施例中，所述第二识别模块被配置为：获取关键词的第一权重，以及与所述关键词发音相近的近音词的第二权重；将所述当前识别出的音素、所述第一权重以及所述第二权重输入至语言模型中，以使所述语言模型输出所述当前识别出的音素所对应的关键词。

基于前述方案，在本申请的一些实施例中，所述第二识别模块包括：

词汇识别单元，用于将所述当前识别出的音素分别输入至多个语言模型中，以使所述多个语言模型分别输出与所述当前识别出的音素对应的待定词汇；

关键词确定单元，用于根据所述待定词汇，确定所述当前识别出的音素所对应的关键词。

基于前述方案，在本申请的一些实施例中，所述处理模块还被配置为：若接收到对关键词的修改请求，则显示关键词编辑界面；根据所述关键词编辑界面接收到的对关键词的修改信息，将所述修改信息进行存储。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的语音数据的处理方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的语音数据的处理方法。

在本申请的一些实施例所提供的技术方案中，通过实时获取语音输入信息，并对该语音输入信息进行分帧处理，得到该语音输入信息所对应的语音帧，采用预训练的声学模型对所述语音帧进行音素识别，以识别出该语音帧中包含的音素，针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词，若连续识别出相同的关键词的次数大于或等于预定数量，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作。由此，实时获取语音输入信息并对语音输入信息进行语音识别，可以在用户进行语音控制操作时即可进行语音识别，当连续识别出相同的关键词时即确定该关键词为目标关键词，提高了语音的识别效率，进而保证了语音控制设备的响应速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图；

图2示出了根据本申请的一个实施例的语音数据的处理方法的流程示意图；

图3示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S250的流程示意图；

图4示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S230的流程示意图；

图5示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S240的流程示意图；

图6示出了根据本申请的另一个实施例的图2的语音数据的处理方法中步骤S240的流程示意图；

图7示出了根据本申请的一个实施例的语音数据的处理方法中还包括的编辑关键词的流程示意图；

图8示出了根据本申请的一个实施例的语音数据的处理装置的框图；

图9示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图。

如图1所示，***架构可以包括终端设备（如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机或者嵌入式设备等等）、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备通过网络104与服务器105交互，以接收或发送信息等。例如用户利用终端设备101（也可以是终端设备102或103）进行语音输入，终端设备101可以实时获取语音输入信息，并对语音输入信息进行分帧处理，得到该语音输入信息所对应的语音帧；采用预训练的声学模型对语音帧进行音素识别，以识别出语音帧中包含的音素，针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定语音输入信息包含的关键词，若连续识别出相同的关键词的次数大于或等于预定数量，则确定该关键词为目标关键词，以根据目标关键词进行相应动作。

需要说明的是，本申请实施例所提供的语音数据的处理方法一般由终端设备执行，相应地，语音数据的输入装置一般设置于终端设备中。但是，在本申请的其它实施例中，服务器105也可以与终端设备具有相似的功能，从而执行本申请实施例所提供的语音数据的处理方法的方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的语音数据的处理方法的流程示意图。参照图2所示，该语音数据的处理方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，实时获取语音输入信息。

在本申请的一个实施例中，用户可以通过终端设备所配置的语音输入装置（例如麦克风等）进行语音输入。当终端设备检测到用户说话时，则可以实时获取用户的语音输入信息。

在一示例中，终端设备可以每隔预定时长获取用户的语音输入信息，该预定时长可以是由本领域技术人员预先进行配置，例如该预定时长可以是0.5S、1S或者2S等等，以上仅为示例性举例，在此不做特殊限定。

在步骤S220中，对所述语音输入信息进行分帧处理，得到所述语音输入信息所对应的语音帧。

在该实施例中，当终端设备实时获取用户的语音输入信息时，则可以实时对所获取到的语音输入信息进行分帧处理，以将该语音输入信息分成至少一个语音帧。

应该理解的，为了保证识别的准确性，语音输入信息的时间长度与其所对应的语音帧的数量呈正相关，即语音输入信息的时间长度越长，则其对应的语音帧的数量也越多，由此保证后续进行语音识别结果的准确性。

在步骤S230中，采用预训练的声学模型对所述语音帧进行音素识别，以识别出所述语音帧中包含的音素。

其中，音素可以是根据语音的自然属性划分出来的最小语音单位。

在本申请的一个实施例中，采用预先训练完成的声学模型对划分得到的语音帧进行音素识别，以识别出每一语音帧中所包含的音素。应该理解的，一个语音帧中可以包含有一个音素或者一个以上任意数量的音素，一个语音帧中也可以不包含有音素（例如该语音帧位于于用户的说话间隙等等）。

在步骤S240中，针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词。

其中，关键词可以是用以控制设备动作的特定词汇，例如关键词可以是“开门”、“熄灯”等等。根据语音输入信息中包含的各个关键词，可以控制设备进行与该关键词对应的动作，例如控制门打开或者熄灭灯光等等。

在本申请的一个实施例中，在每次对语音帧进行音素识别结束之后，可以采用预先训练完成的语言模型对当前所识别出的音素进行关键词识别，以识别出当前所识别出的音素所对应的关键词。具体地，语言模型可以根据声学模型所提取到的语音帧中包含的音素，对该音素的性质进行分析，以识别出当前识别出的音素所对应的词汇，再将该词汇与预设的关键词列表进行比对，其中，该关键词列表中包含有至少一个预设的关键词。若语言模型所识别出的词汇与预设的关键词列表中所包含的关键词相同，则确定当前识别出的音素所对应的词汇为该关键词。

需要说明的是，每针对一个语音帧进行音素识别后，则根据该语音帧所识别出的音素以及在该语音帧之前所识别出的音素（即当前识别出的音素）进行一次关键词识别，即一个语音帧对应于一次音素识别，一次音素识别对应于一次关键词识别。由此达到对音素进行“实时”关键词识别的目的，以提高关键词的识别效率。

在步骤S250中，若连续识别出相同的关键词的次数大于或等于预定数量，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作。

在该实施例中，若在连续多次的关键词识别结果中都识别出同一个关键词，且该连续的关键词识别的次数大于或等于预定数量，则可以表明该关键词大概率为用户所欲进行相应动作的特定词汇，因此将可以该关键词确定为目标关键词，以根据该目标关键词使控制设备进行相应动作。

其中，预定数量可以是预先设定的，该预定数量可以是10、15或者25等，以上仅为示例性举例，本申请对此不作特殊限定。本领域技术人员可以根据实现需要，设置具体的预定数量，例如为了保证目标关键词的识别的准确度，可以设定较大数值的预定数量等等。

在图2所示的实施例中，通过实时获取用户的语音输入信息，并实时对该语音输入信息进行分帧处理以进行语音识别，由此，在用户未结束语音输入时，即可对该语音输入信息进行语音识别，相比于在用户结束语音输入后，再对所获取到的语音输入信息进行语音识别，本申请所提供的语音数据的处理方法可以提高语音输入信息的识别效率。

且若连续识别出相同的关键词的次数大于或等于预定数量，则确定关键词为目标关键词，即若某一次关键词识别所识别出的关键词可以持续一定时间，则表示该关键词大概率为用户所欲进行相应动作的特定词汇，进而保证了语音识别结果的准确性。由此，在用户结束语音输入之前，即可根据该目标关键词控制设备进行相应动作，进而保证了语音控制设备的响应速度。

基于图2所示的实施例，图3示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S250的流程示意图。参照图3所示，步骤S250至少包括步骤S310至步骤S320，详细介绍如下：

在步骤S310中，将首次识别出所述关键词的语音帧确定为起始帧。

在该实施例中，由于一个语音帧对应于一次音素识别，一次音素识别则对应于一次关键词识别，所以每一个语音帧都对应于一个关键词识别结果。当从语音帧中识别出关键词时，若在该语音帧之前预定范围内的语音帧中未识别出关键词，则可以将识别出该关键词的语音帧确定为起始帧。例如从第12帧语音帧中识别出关键词“开门”，预定数量为10帧，则若从第2帧语音帧到第11帧语音帧中未识别出关键词，则可以确定第12帧语音帧为起始帧。

在步骤S320中，若在所述起始帧之后的预定数量内的语音帧内未识别出其他关键词，则确定所述关键词为目标关键词。

在该实施例中，若在所述起始帧之后的预定数量内的语音帧内未识别出其他关键词，即连续识别出相同关键词的次数大于或等于预定数量，则表示该起始帧所识别出的关键词大概率为用户所欲进行相应动作的特定词汇，由此可以将该关键词确定为目标关键词。

在一示例中，若在起始帧之后的预定数量内的语音帧内识别出其他关键词，则可以随机从多个关键词中选定一个关键词作为目标关键词。应该理解的，本文中所提到的多个，可以是两个或者两个以上任意数量，本领域技术人员可以根据实际实现需要进行配置，本申请对此不做特殊限定。

需要说明的，未识别出其他关键词可以是识别出与该关键词相同的关键词。例如在第12帧语音帧中识别出关键词“开门”，在之后的第13帧、第14帧、第15帧、…、第19帧语音帧也识别出关键词“开门”，其余的语音帧并未识别出关键词，由此，将关键词“开门”确定为目标关键词，表示用户欲进行开门操作。

在本申请的一个实施例中，若从语音输入信息中确定了多个目标关键词，则可以分别根据各个目标关键词控制设备进行相应动作。例如确定了目标关键词“熄灯”和“关门”，则按照所识别出的目标关键词的先后顺序对应进行熄灭灯光和关闭门的动作。

在一示例中，本领域技术人员可以预先对关键词的重要程度进行设置，以将关键词划分成不同重要程度，例如“开门”、“关门”的重要程度大于“熄灯”、“加热水温”的重要程度，等等。由此，若从语音输入信息中确定了多个目标关键词，则可以根据各个目标关键词对应的重要程度，按照重要程度从大到小的顺序执行与目标关键词相对应的动作。

具体地，本领域技术人员可以预先对关键词列表中的每一关键词添加重要程度标识，例如“1”表示非常重要、“2”表示重要以及“3”表示一般，等等。需要说明的，重要标识可以是任意形式的标识信息，重要标识可以包括但不限于数字标识、字母标识或者图形标识等等，以上仅为示例性举例，本申请对此不做特殊限定。

在图3所示的实施例中，通过将首次识别出关键词的语音帧确定为起始帧，并判断在该起始帧之后的预定数量内的语音帧内是否识别出其他关键词从而确定目标关键词。应该理解的，用户在进行语音控制时，较低可能会出现在一句话中包含多个关键词的情况，由此可以保证本申请的关键词识别与实际情况相符合，保证了关键词识别结果的准确性。

基于图2所示的实施例，图4示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S230的流程示意图。参照图4所示，步骤S230至少包括步骤S410至步骤S420，详细介绍如下：

在步骤S410中，对所述语音帧进行特征提取，得到所述语音帧对应的语音特征。

在该实施例中，可以采用预先配置的语音特征提取模块对语音帧进行特征提取，以得到该语音帧对应的语音特征。其中，语音特征提取模块可以是现有的任一语音特征提取模块，例如采用线性预测分析、感知线性分析、梅尔频率倒谱系数分析的语音特征提取模块等等，本申请对此不做特殊限定。

在步骤S420中，将所述语音特征输入声学模型，以使所述声学模型输出所述语音帧中包含的音素。

其中，声学模型可以是用以根据语音特征识别出该语音特征所对应的音素的模型。

在该实施例中，将语音帧所对应的语音特征作为声学模型的输入，以使该声学模型输出该语音特征所对应的音素。应该理解的，音素可以是根据语言的自然属性所划分的最小语音单位，例如在英语国际音标中共有48个音素。将语音输入信息划分成多个音素，可以将无限的类别转化为有限的类别，例如假设三个音素组成一个字的发音，则共有48*48*48种可能等，在有限类别中进行识别，由此可以降低语音的识别难度。

在本申请的一个实施例中，可以基于LVCSR（大词汇量连续语音识别技术）建立声学模型，针对于嵌入式平台，可以相应减少该声学模型中的神经网络的层数，在保证声学模型的识别精度的同时减少该声学模型所占的存储空间，便于嵌入式平台的应用。

基于图2所示的实施例，图5示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S240的流程示意图。参照图5所示，步骤S240至少包括步骤S510至步骤S520，详细介绍如下：

在步骤S510中，获取关键词的第一权重，以及与所述关键词发音相近的近音词的第二权重。

其中，第一权重和第二权重可以是用以分别表示关键词和近音词出现概率的数值，应该理解的，出现概率越高，则对应的权重越大，所以第一权重应该大于第二权重，例如第一权重为0.7、第二权重为0.3等等。

在该实施例中，本领域技术人员可以通过终端设备所配置的输入设备（例如输入键盘、可触控式触摸屏等等）对每一词汇的权重即出现概率进行配置，并将所配置的权重存储至终端设备的存储位置中，以供后续获取。

需要说明的是，通过对不同词汇设置不同的权重，可以明确每一词汇的出现概率，根据所识别出的发音，则可以选择出现概率较高的词汇作为识别结果。

在步骤S520中，将所述当前识别出的音素、所述第一权重以及所述第二权重输入至语言模型中，以使所述语言模型输出所述当前识别出的音素所对应的关键词。

在该实施例中，将当前识别出的音素、第一权重以及第二权重作为语言模型的输入，以使该语言模型根据当前识别出的音素、第一权重和第二权重识别出该音素所对应的词汇。

在图5所示的实施例中，通过预设关键词的权重以及近音词的权重，在语言模型进行识别时，可以根据二者的权重，选取权重较大即出现概率较高的词作为语言模型的识别结果。由此，可以防止将与关键词发音相近的近音词作为识别结果的情况发生，保证了语音识别结果的准确性。

在本申请的一个实施例中，在训练语言模型时，可以加入与关键词发音差别较大的预定词汇对语言模型进行训练，以增加语言模型所能识别的词汇量，从而防止由于语言模型所能识别的词汇量较少，使得语音识别的结果都是与关键词相同，而造成误触发。例如，语言模型只能识别一个词汇“开门”，那么不管声学模型输出怎样的音素组合，语言模型只能输出“开门”这一识别结果，因此，添加与关键词发音差别较大的预定词汇对语言模型进行训练，则可以提高语言模型的识别结果的准确性。

基于图2所示的实施例，图6示出了根据本申请的另一个实施例的图2的语音数据的处理方法中步骤S240的流程示意图。参照图6所示，步骤S240至少包括步骤S610至步骤S620，详细介绍如下：

在步骤S610中，将所述当前识别出的音素分别输入至多个语言模型中，以使多个语言模型分别输出与所述当前识别出的音素对应的待定词汇。

在本申请的一个实施例中，可以将预先训练多个语言模型，在进行语音识别时，将当前识别出的音素分别输入至多个语言模型中，以使各个语言模型分别根据该音素输出与该音素对应的待定词汇。应该理解的，多个语言模型所输出的待定词汇可以相同也可以不同。

在本申请的一个实施例中，可以采用不同的训练语音帧集合对多个语言模型进行训练，以降低多个语言模型之间的相关性，从而保证根据多个语言模型进行识别的准确性。在其他实施例中，也可以采用SVM（Support Vector Machine, 支持向量机）等其他分类算法训练出一套分类模型以置换多个语言模型之一，降低二者之间的相关性，本领域技术人员可以根据实际实现需要进行配置，本申请对此不做特殊限定。

在步骤S620中，根据所述待定词汇，确定所述当前识别出的音素所对应的关键词。

在本申请的一个实施例中，将多个语言模型所输出的待定词汇与关键词列表中的每一关键词进行对比，若只存在一个与多个待定词汇之一相匹配关键词，则确定该关键词为最终的识别结果；若存在多个相匹配的关键词，则可以选取重要程度较高的关键词作为最终的识别结果，

在图6所示的实施例中，通过预训练多个语言模型进行识别，将多个语言模型的识别结果进行比较，可以保证语言模型所输出的识别结果的准确性，防止误触发的情况发生。

基于图2所示的实施例，图7示出了根据本申请的一个实施例的语音数据的处理方法中还包括的编辑关键词的流程示意图。参照图7所示，编辑关键词至少包括步骤S710至步骤S720，详细介绍如下：

在步骤S710中，若接收到对关键词的修改请求，则显示关键词编辑界面。

其中，对关键词的修改请求可以是用于请求编辑关键的信息。在一示例中，用户可以通过点击界面上的特定区域（例如“编辑关键词”按键等）或者终端设备上所配置的物理按键（例如物理键盘上的“编辑”键等）以生成对关键词的修改请求。

关键词编辑界面可以是用于编辑关键词的界面，该关键词编辑界面可以包含有关键词编辑选项，例如增加关键词选项和删除关键词选项等。具体地，关键词编辑界面可以显示现有的关键词列表，用户可以通过选择对应的关键词编辑选项进行相应的增删操作，以完成对关键词列表的编辑。

在步骤S720中，根据所述关键词编辑界面接收到的对关键词的修改信息，将所述修改信息进行存储。

在该实施例中，根据关键词编辑界面所获取到的用户对关键词的修改信息，将该修改信息进行存储并同步至现有的关键词列表中，以完成对关键词列表的更新，以供语言模型后续在语音识别时进行比对。

在图7所示的实施例中，通过设置关键词编辑选项，由此可以使用户能够根据实际所需，增加或者删除关键词，提高了该语音数据的识别方法的适用范围。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的语音数据的处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的语音数据的处理方法的实施例。

图8示出了根据本申请的一个实施例的语音数据的处理装置的框图。

参照图8所示，根据本申请的一个实施例的语音数据的处理装置，包括：

获取模块810，用于实时获取语音输入信息；

分帧模块820，用于对所述语音输入信息进行分帧处理，得到所述语音输入信息所对应的语音帧；

第一识别模块830，用于采用预训练的声学模型对所述语音帧进行音素识别，以识别出所述语音帧中包含的音素；

第二识别模块840，用于针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词；

处理模块850，用于若连续识别出相同的关键词的次数大于或等于预定数量，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作。

基于前述方案，在本申请的一些实施例中，所述处理模块850被配置为：将首次识别出所述关键词的语音帧确定为起始帧；若在所述起始帧之后的预定数量内的语音帧内未识别出其他关键词，则确定所述关键词为目标关键词。

基于前述方案，在本申请的一些实施例中，所述第一识别模块830被配置为：对所述语音帧进行特征提取，得到所述语音帧对应的语音特征；将所述语音特征输入声学模型，以使所述声学模型输出所述语音帧中包含的音素。

基于前述方案，在本申请的一些实施例中，所述第二识别模块840被配置为：获取关键词的第一权重，以及与所述关键词发音相近的近音词的第二权重；将所述当前识别出的音素、所述第一权重以及所述第二权重输入至语言模型中，以使所述语言模型输出所述当前识别出的音素所对应的关键词。

基于前述方案，在本申请的一些实施例中，所述第二识别模块840包括：

基于前述方案，在本申请的一些实施例中，所述处理模块850还被配置为：若接收到对关键词的修改请求，则显示关键词编辑界面；根据所述关键词编辑界面接收到的对关键词的修改信息，将所述修改信息进行存储。

需要说明的是，图9示出的电子设备的计算机***仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机***包括中央处理单元（Central Processing Unit，CPU）901，其可以根据存储在只读存储器（Read-Only Memory，ROM）902中的程序或者从存储部分908加载到随机访问存储器（Random Access Memory，RAM）903中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 903中，还存储有***操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（Input /Output，I/O）接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元（CPU）901执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

实时获取语音输入信息；

针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词，关键词是用以控制设备动作的特定词汇；具体包括：获取关键词的第一权重，以及与所述关键词发音相近的近音词的第二权重，第一权重和第二权重是用以分别表示关键词和近音词出现概率的数值，出现概率越高，则对应的权重越大，第一权重大于第二权重；将所述当前识别出的音素、所述第一权重以及所述第二权重输入至语言模型中，以使所述语言模型输出所述当前识别出的音素所对应的关键词；通过预设关键词的权重以及近音词的权重，在语言模型进行识别时，根据二者的权重，选取权重较大即出现概率较高的词作为语言模型的识别结果；其中，每针对一个语音帧进行音素识别后，则根据该语音帧所识别出的音素以及在该语音帧之前所识别出的音素进行一次关键词识别，即一个语音帧对应于一次音素识别，一次音素识别对应于一次关键词识别；

将首次识别出所述关键词的语音帧确定为起始帧：即当从语音帧中识别出关键词时，若在该语音帧之前预定范围内的语音帧中未识别出关键词，则将识别出该关键词的语音帧确定为起始帧；并判断在该起始帧之后的预定数量内的语音帧内是否识别出其他关键词，若在所述起始帧之后的预定数量内的语音帧内未识别出其他关键词：即连续识别出相同的关键词的次数大于或等于预定数量，则表示该起始帧所识别出的关键词大概率为用户所欲进行相应动作的特定词汇，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作；若在起始帧之后的预定数量内的语音帧内识别出其他关键词，则随机从多个关键词中选定一个关键词作为目标关键词；若从语音输入信息中确定了多个目标关键词，则分别根据各个目标关键词控制设备进行相应动作，具体是：按照所识别出的目标关键词的先后顺序对应进行相应的动作或者是预先对关键词的重要程度进行设置，预先对关键词列表中的每一关键词添加重要程度标识，以将关键词划分成不同重要程度，根据各个目标关键词对应的重要程度，按照重要程度从大到小的顺序执行与目标关键词相对应的动作。

2.根据权利要求1所述的处理方法，其特征在于，采用预训练的声学模型对所述语音帧进行音素识别，以识别出所述语音帧中包含的音素，包括：

对所述语音帧进行特征提取，得到所述语音帧对应的语音特征；

将所述语音特征输入声学模型，以使所述声学模型输出所述语音帧中包含的音素。

3.根据权利要求1所述的处理方法，其特征在于，针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词，包括：

将所述当前识别出的音素分别输入至多个语言模型中，以使所述多个语言模型分别输出与所述当前识别出的音素对应的待定词汇；

根据所述待定词汇，确定所述当前识别出的音素所对应的关键词。

4.根据权利要求3所述的处理方法，其特征在于，所述处理方法还包括：

若接收到对关键词的修改请求，则显示关键词编辑界面；

根据所述关键词编辑界面接收到的对关键词的修改信息，将所述修改信息进行存储。

5.一种语音数据的处理装置，其特征在于，包括：

获取模块，用于实时获取语音输入信息；

第二识别模块，用于针对每次音素识别的结果，对当前识别出的音素进行关键词识别，以确定所述语音输入信息包含的关键词，关键词是用以控制设备动作的特定词汇；具体包括：获取关键词的第一权重，以及与所述关键词发音相近的近音词的第二权重，第一权重和第二权重是用以分别表示关键词和近音词出现概率的数值，出现概率越高，则对应的权重越大，第一权重大于第二权重；将所述当前识别出的音素、所述第一权重以及所述第二权重输入至语言模型中，以使所述语言模型输出所述当前识别出的音素所对应的关键词；通过预设关键词的权重以及近音词的权重，在语言模型进行识别时，根据二者的权重，选取权重较大即出现概率较高的词作为语言模型的识别结果；其中，每针对一个语音帧进行音素识别后，则根据该语音帧所识别出的音素以及在该语音帧之前所识别出的音素进行一次关键词识别，即一个语音帧对应于一次音素识别，一次音素识别对应于一次关键词识别；

处理模块，用于将首次识别出所述关键词的语音帧确定为起始帧：即当从语音帧中识别出关键词时，若在该语音帧之前预定范围内的语音帧中未识别出关键词，则将识别出该关键词的语音帧确定为起始帧；并判断在该起始帧之后的预定数量内的语音帧内是否识别出其他关键词，若在所述起始帧之后的预定数量内的语音帧内未识别出其他关键词：即连续识别出相同的关键词的次数大于或等于预定数量，则表示该起始帧所识别出的关键词大概率为用户所欲进行相应动作的特定词汇，则确定所述关键词为目标关键词，以根据所述目标关键词进行相应动作；若在起始帧之后的预定数量内的语音帧内识别出其他关键词，则随机从多个关键词中选定一个关键词作为目标关键词；若从语音输入信息中确定了多个目标关键词，则分别根据各个目标关键词控制设备进行相应动作，具体是：按照所识别出的目标关键词的先后顺序对应进行相应的动作或者是预先对关键词的重要程度进行设置，预先对关键词列表中的每一关键词添加重要程度标识，以将关键词划分成不同重要程度，根据各个目标关键词对应的重要程度，按照重要程度从大到小的顺序执行与目标关键词相对应的动作。

6.根据权利要求5所述的装置，其特征在于，所述的第二识别模块包括：

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音数据的处理方法。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的语音数据的处理方法。