CN114038463A

CN114038463A - 混合语音处理的方法、电子设备、计算机可读介质

Info

Publication number: CN114038463A
Application number: CN202010705959.0A
Authority: CN
Inventors: 曹刚
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-02-11

Abstract

本公开实施例提供了一种混合语音处理的方法，所述混合语音包括同时使用主语言和次语言的混合语句，所述主语言与次语言为两种不同的预定语言；该方法包括：获取所述混合语音；通过预设的主语言语音模型，得到待识别音素序列；所述待识别音素序列为混合语音对应的主语言音素的序列；根据预定的混合字典，查询得到所述待识别音素序列对应的至少一个词序列；所述词序列有多个词组成，每个词为主语言词或次语言词；所述混合字典包括主语言词对应的主语言音素组合，以及次语言词对应的主语言音素组合。本公开实施例还提供了一种电子设备、计算机可读介质。

Description

混合语音处理的方法、电子设备、计算机可读介质

技术领域

本公开实施例涉及语音识别技术领域，特别涉及一种混合语音处理的方法、电子设备、计算机可读介质。

背景技术

随着全球化的发展，混合语句(如中英文混合语句)越来越被频繁的使用，如“下载beyond的歌”、“打开wifi”等。语音识别也越来越在在智能驾驶、智能音箱、手机助手等领域被广泛应用。

使用深度神经网络训练中文和英文混合的语言语音模型对混合词进行语句识别，需要海量的样本数据进行训练，且识别时间长。

发明内容

本公开实施例提供一种混合语音处理的方法以及装置、电子设备、计算机可读介质。

第一方面，本公开实施例提供一种混合语音处理的方法，所述混合语音包括同时使用主语言和次语言的混合语句，所述主语言与次语言为两种不同的预定语言；所述方法包括：获取所述混合语音；通过预设的主语言语音模型，得到待识别音素序列；所述待识别音素序列为混合语音对应的主语言音素的序列；根据预定的混合字典，查询得到所述待识别音素序列对应的至少一个词序列；所述词序列有多个词组成，每个词为主语言词或次语言词；所述混合字典包括主语言词对应的主语言音素组合，以及次语言词对应的主语言音素组合。

在一些实施例中，预定的混合字典的组建过程包括：获取多个次语言词的多个语音样本，并通过预设的主语言语音转换模型获取每个次语言词的每个语音样本的主语言音素组合；对获取的每个次语言词的所有语音样本的主语言音素组合进行聚类决策，获取每个次语言词对应的主语言音素组合。

第二方面，本公开实施例提供一种混合语音处理的装置，所述混合语音包括同时使用主语言和次语言的混合语句，所述主语言与次语言为两种不同的预定语言；所述装置包括：获取模块，用于获取所述混合语音；识别模块，用于通过预设的主语言语音模型，得到待识别音素序列；所述待识别音素序列为混合语音对应的主语言音素的序列；查询模块，用于根据预定的混合字典，查询得到所述待识别音素序列对应的至少一个词序列；所述词序列有多个词组成，每个词为主语言词或次语言词；所述混合字典包括主语言词对应的主语言音素组合，以及次语言词对应的主语言音素组合。

第三方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任意一种的混合语音处理方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，用于实现所述处理器与存储器的信息交互。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意一种混合语音处理的方法。

本公开实施例的混合语音处理的方法以及装置、电子设备、计算机可读介质中，将混合语音看作主语言语音处理，通过已经训练好的主语言语音模型对混合语音进行识别，在识别的过程中只需要对主语言音素进行搜索，搜索空间相对较小，识别响应快，所用时间少。

附图说明

在本公开实施例的附图中：

图1为本公开实施例提供的一种混合语音处理的方法的流程图；

图2为本公开实施例提供的另一种混合语音处理的方法的流程图；

图3为本公开实施例提供的另一种混合语音处理的方法中部分步骤的流程图；

图4为本公开实施例提供的另一种混合语音处理的方法中部分步骤的流程图；

图5为本公开实施例提供的另一种混合语音处理的方法中部分步骤的流程图；

图6为本公开实施例提供的一种混合语音处理的装置的组成框图；

图7为本公开实施例提供的一种电子设备的组成框图；

图8为本公开实施例提供的一种计算机可读介质的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开实施例的技术方案，下面结合附图对本公开实施例提供的混合语音处理的方法以及装置、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述本公开实施例，但是所示的实施例可以以不同形式来体现，且不应当被解释为限于本公开阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本公开实施例的附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，

本公开实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

本公开所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本公开所使用的术语“和/或”包括一个或多个相关列举条目的任何和所有组合。如本公开所使用的单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。如本公开所使用的术语“包括”、“由……制成”，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本公开所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本公开明确如此限定。

本公开实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不是旨在限制性的。

ASR(自动语音识别)是指对用户说出的语音进行分析，以确定其对应的内容(如文本内容)的技术，在识别得到语音对应的内容后，还可进一步通过分析内容的意义，进行相应的操作，如用于在智能驾驶、智能音箱、手机助手等领域进行相应的控制。

而随着时代的发展，混合语音的使用越来越多。混合语音是指包括混合语句的语音，混合语句是指在一个语句(一句话)中，同时使用了两种不同的语言，例如“下载beyond的歌”、“打开wifi”等。

为此，目前使用ASR技术对混合语音进行识别时，需要建立混合语言语音模型，即将多种语言混合看作一种新的语言，该语言的音素集包括了混合语言中所有语言的音素，通过大量包含这些音素的混合语音样本训练模型，可得到混合语言语音模型。因此，该混合语言语音模型既可以对混合语音进行识别，也可以对其中任意一种单一语音进行识别。

如使用自动语音识别技术对中英文混合语音进行识别，是将中英文混合看作一种有别于中文、英文的新的语言，该语言的音素包括中文的所有音素以及英文的所有音素，通过获取大量的中文、英文以及中英文混合语音样本训练模型，得到中英文混合语言语音模型。因此，该中英文混合语言语音模型既可以单独识别中文语音、英文语音，也可以识别中英文混合语音。

其中，“一种语言的音素”是指该语言的正常发音中，所有的最基本的“单音”的要素，从而每种语言语音，都是由其的许多音素组合而成的。

但显然，建立混合语言语音模型要比建立单一语音模型训练时需要的样本数据更多，且由于混合语言语音模型本质上是对两种语言进行识别，在识别时搜索空间更为庞大，因此识别时间要高于单一语音模型识别时间。如中英文混合语言语音模型在进行识别时，即需要对中文音素进行搜索，也需要对英文音素进行搜索，搜索空间要大于单一的中文识别或者英文识别。

第一方面，参照图1，本公开实施例提供一种混合语音处理的方法。

混合语音包括同时使用主语言和次语言的混合语句。其中，主语言与次语言为两种不同的预定语言，主语言和次语言在一次混合语音处理的过程(或者说每个本公开实施例对应的识别模型)中是确定的，但是在不同的混合语音处理过程中可以是不同的。

换言之，本公开实施例的混合语音处理的方法是基于识别模型进行的，该识别模型可识别一种主要的语音(主语音，如中文)，也可识别在一个语句范围内，主要的语音与一种次要的语言(次语言)混合的语音(如中文和英文混合的语音)，或者说可识别掺杂有少量次语言的主语言语音(如掺杂有少量英文的中文语音)，但其不能识别单纯的次语言语音(如一句单纯英文的语音)。

如在一个识别过程(或者说一个识别模型)，混合语音“打开wifi”的主语言可以是中文，对应的次语言为英文；当然对另一个识别过程(或者说另一个识别模型)，也可以主语言是是英文，次语言是中文。

本公开实施例的方法可以包括下述操作：

S101、获取混合语音。

服务器通过终端(如手机、智能音箱、车载音箱)的麦克风等收集声音的装置获取用户发出的混合语音(如“打开wifi”)。

其中，服务器是指一切可以实现本公开实施例方法的器件，其可位于网络侧，也可位于终端。若服务器位于网络侧，则终端在收集到用户发出的混合语音后，将收集到的混合语音通过网络发送至服务器；若服务器位于终端(如服务器为终端的处理器)，则服务器直接获取收集到的混合语音并进行处理。

S102、通过预设的主语言语音模型，得到待识别音素序列；待识别音素序列为混合语音对应的主语言音素的序列。

服务器将得到的混合语音输入主语言语音模型得到混合语音对应的主语言音素的序列，即对混合语音中次语言(如“wifi”)的语音，也作为主语言的语音处理，也转换为主语言音素。

其中，主语言语音模型是通过主语言语音样本预先训练好的可以将语音信号转化为主语言音素的模型，其可以是深度学习模型，如DNN(Deep Neural Networks，深度神经网络)、LSTM(Long Short-Term Memory，长短时记忆网络)、CTC(Connectionist TemporalClassification，联结主义时间分类)等任意合适的语音模型。

S103、根据预定的混合字典，查询得到待识别音素序列对应的至少一个词序列；词序列有多个词组成，每个词为主语言词或次语言词。在一实施方式中，所述混合字典可以包括主语言词对应的主语言音素组合，以及次语言词对应的主语言音素组合。

服务器根据待识别音素序列在预定的混合字典中，查询待识别音素序列对应的词序列。

其中，混合字典中可以既包括主语言词对应的主语言音素组合，也可以包括了次语言词对应的主语言音素组合。也就是说，混合字典中，标注了许多主语言的词对应的主语言音素组合，且将次语言的词，也用主语言音素组合对应。

由于待识别音素序列包括多个音素，其可能组成多个音素组合，且每个音素组合在混合字典中可能对应多个主语言词或副语言词，因此本步骤得到的词序列可能不止一个。故在得到词序列之后可以对得到的词序列进行进一步筛选(后续详细说明)。

本公开实施例的混合语音处理的方法将混合语音看作主语言语音处理，通过已经训练好的主语言语音模型对混合语音进行识别，在识别的过程中只需要对主语言音素进行搜索，搜索空间相对较小，识别响应快，所用时间少。

显然，对在一种语言(主语言)中混杂使用的少量其它语言(次语言)一方面其用到词的数量往往较低，例如在中文中经常混用的英文词主要为wifi、beyond等少量的词；另一方面，以上次语言其实际发音也往往“主语言化”了，例如说语音“打开wifi”时，其中“wifi”的发音往往不同于说纯英文时“wifi”的发音。

因此，以上将混合语音看作主语言语音处理的方式，可获得很好的识别效果。

参照图2，在一些实施例中，根据预定的混合字典，查询得到待识别音素序列对应的至少一个词序列(S103)之后还包括：

S1041、根据预设的主语言语言模型，从多个词序列中确定一个词序列为识别结果。

服务器在获取混合语音对应的多个词序列后，将得到的词序列送入主语言语音模型中，确定多个词序列中的一个词序列为识别结果，这个识别结果显示就是混合语音对应的语句。

其中，主语言语言模型是预先训练好的，其可以计算不同词(包括主语言词和次语言词)之间的关系强度(如出现在同一个语句中的概率)，如“打开”和“wifi”显然有大概率出现在同一个语句中，而“比赛”和“wifi”显然只有极小的概率出现在同一个语句中，并通过判断一个词序列中不同词出现在同一句话的概率，进一步判断词序列是否合理。

使用主语言语言模型可以将根据待识别音素序列在混合字典中查询到多个词序列进行筛选，得到混合语音对应的唯一词序列，也就是识别的结果。

参照图2，在一些实施例中，根据预设的主语言语言模型，从多个词序列中确定一个词序列为识别结果之前还包括：

S1040、使用混合语句训练主语言语言模型。

服务器获取多个预设的、正确的混合语句(如“打开wifi、今晚AC米兰的比赛几点开始、我想听beyond的歌”等)，作为训练样本，对主语言语言模型进行训练，使其获取主语言词与次语言词之间的关系强度，提升其处理混合语音对应词序列的准确率。其中，未使用混合语句训练前的主语言语言模型可以是已经训练好的可以计算不同主语言词之间的关系强度的模型。

参照图3，在一些实施例中，预定的混合字典的组建过程可以包括：

S201、获取多个次语言词的多个语音样本，并通过预设的主语言语音转换模型获取每个次语言词的每个语音样本的主语言音素组合。

服务器获取多个次语言词(如混合语音中常出现的次语言词)的多个语音样本，将获取的所有语音样本都输入主语言语音转换模型中，获取每个语音样本的次语言词的主语言音素组合。

每个次语言词都有一定数量的语音样本，但是并不需要大量样本，以主语言为中文，次语言为英文为例，每个次语言词对应的语言样本一般不超过50个，当然具体的数量也可根据具体的过程调整。

S202、对获取的每个次语言词的所有语音样本的主语言音素组合进行聚类决策，获取每个次语言词对应的主语言音素组合。

服务器对每个次语言词的所有语音样本识别出的主语言音素组合进行聚类决策，获取每一个次语言词对应的主语言音素组合。

在获取每一个次语言词对应的主语言音素组合后，将次语言词以及其对应的主语言音素组合，写入已经写入了主语言词与其对应的主语言音素的字典形成混合字典。

通过对每个次语言词的多个样本的识别结果聚类获取次语言词对应的主语言音素组合，比使用单一样本的识别结果作为次语言词对应的主语言音素组合准确，同时也比使用大量样本简单。

在一些实施例中，主语言语音模型和主语言语音转换模型可以为同样的模型。

即可以使用步骤S102中的主语言语音模型，获取每个语音样本的次语言词的主语言音素组合。

主语言语音模型和主语言语音转换模型为同样的模型，可以减少由于模型不同而造成的同一个次语言词在混合字典中对应的主语言音素组合与识别的主语言音素组合不同。

参照图4，在一些实施例中，对获取的每个次语言词的所有语音样本的主语言音素组合进行聚类决策，获取每个次语言词对应的主语言音素组合(S202)可以包括：

S2021、根据每个次语言词的所有语音样本的主语言音素组合的长度，确定该次语言词对应的主语言音素组合的目标长度。

对于每一个次语言词，服务器首先根据其所有语音样本的主语言音素组合，确定该次语言词对应的主语言音素组合的长度，即该次语言词对应的主语言音素组合包含的主语言音素的个数。

S2022、从每个次语言词的所有语音样本的主语言音素组合中，确定目标主语言音素组合，并根据目标主语言音素组合，确定该次语言词对应的主语言音素组合，目标主语言音素组合的长度与目标长度相同。

服务器在确定该次语言词对应的主语言音素组合的长度后，根据长度为确定的该次语言词对应的主语言音素组合的长度的主语言音素组合(即目标主语言音素组合)，确定该次语言词对应的主语言音素组合。

长度不是该次语言词对应的主语言音素组合的长度的主语言音素组合有大概率可能是识别不准确的，从长度为该次语言词对应的主语言音素组合的长度的主语言音素组合，确定该次语言词对应的主语言音素组合可以提升最终结果的准确性。

参照图5，在一些实施例中，根据每个次语言词的所有语音样本的主语言音素组合的长度，确定该次语言词对应的主语言音素组合的目标长度(S2021)可以包括：

S20211、以每个次语言词的所有语音样本的主语言音素组合的所有长度中，对应的该次语言词的语音样本的数量最多的长度为该次语言词对应的主语言音素组合的目标长度。

服务器统计每个次语言词的所有语音样本的主语言音素组合所包含的音素个数，以这些个数中对应的语音样本的主语言音素组合的数量最多的，为该次语言词对应的主语言音素组合的长度。

根据目标主语言音素组合，确定该次语言词对应的主语言音素组合(S2022)可以包括：

S20221、将该次语言词的所有目标主语言音素组合中，每个位置上数量最多的主语言音素，确定为该次语言词对应的主语言音素组合的该位置的主语言音素。

统计所有长度为确定的该次语言词对应的主语言音素组合的长度的主语言音素组合(即目标主语言音素组合)的第一个音素，以出现次数最多的音素，作为该次语言词对应的主语言音素组合的第一个音素；统计所有长度为确定的该次语言词对应的主语言音素组合的长度的主语言音素组合的第二个音素，以出现次数最多的音素，作为该次语言词对应的主语言音素组合的第二个音素；以此类推，直到确定出该次语言词对应的主语言音素组合中的所有音素。

多于一个次语言词来说，其语音样本的多数对应的主语言音素组合的长度说明大部分该次语言词送入模型后得到的主语言音素组合的长度均为该长度，因此使用语音样本的多数对应的主语言音素组合的长度作为该次语言词对应的主语言音素组合的长度是合理的。在每一个位置上出现次数最多的音素，同样说明大部分该次语言词送入模型后得到的主语言音素组合的该位置为该因素，因此以每一个位置上出现次数最多的音素，作为该次语言词对应的主语言音素组合的该位置的音素也是合理的。

具体实施例：

本公开实施例的混合语音处理方法，可用于中英文混合语音识别，其可包括以下步骤：

A01、构建混合字典

搜集中文口语话中常混含的英文单词或英文缩写，如iPad、wifi、GDP、CPU、WINDOWS等,然后为每个英文词成员录制少量的语音样本。以wifi为例，为它录制的语音样本分别记为W1、W2、W3..Wn,这里的样本数n一般不超过50个。

获取每个英文词的所有样本的中文音素组合，并确定每一个英文词对应的中文音素组合，每一个中文音素可以理解为中文的声母和韵母集合中的成员。以wifi为例，将wifi的语音样本W1、W2、W3..Wn输入到已训练好的中文声学模型(这里使用的中文声学模型是在通过中文语音训练好的单一的中文识别模型)中得到每一个样本对应的中文音素组合Y1、Y2、Y3..Yn，如Y1为{uu uai1 f ai4}，Y2为{uu uai1uu uai1 f ai4}，Y3为{uu uai2 fai4}，Yn为{uu uai1 f ai3}等，其中被空格隔开的字符为中文音素(用国际音标表示)，数字代表对应的声调(指中文的四声声调)。

取Y1、Y2、Y3..Yn中音素长度占得最多一个数，为wifi的最终中文音素组合长度。如Y1的音素长度是4，Y2的音素长度是6，Y3的音素长度是4，Yn的音素长度是4等。通过统计发现在wifi的所有样本获得的中文音素组合中，长度为4的数最多，则wifi的最终中文音素组合长度就为4。

获取wifi的所有样本获得的中文音素组合长度为4的中文音素组合(如Y1、Y3、Yn等)，统计其从第一个位置到第四个位置每个位置出现最多的音素，为wifi的最终中文音素组合该位置的音素。如第一个位置出现音素最多的是uu,则wifi的最终中文音素组合第一个位置的音素为uu；同理第二个位置出现音素最多的是uai1,则wifi的最终中文音素组合第二个位置的音素为uai1；第三个位置出现音素最多的是f,则wifi的最终中文音素组合第三个位置的音素为f；第四个位置出现音素最多的是ai4,则wifi的最终中文音素组合第四个位置的音素为ai4。即wifi的最终中文音素组合为{uu uai1 f ai4}。

同理，获取每一个英文词对应的中文音素组合，并将这些英文词以及其对应的中文音素组合写入中文字典中得到混合字典。这里的中文字典所有中文词与其对应的中文音素组合。

A02、构建中英文语言模型。

构造包含这些英文词的常见中文句子，如“打开wifi”、“今晚AC米兰的比赛几点开始”、“我想听beyond的歌”等。将这些句子组成样本集训练中文语言模型，以得到中英文语言模型。其中，中文语言模型是已经使用中文句子训练好的将中文音素转换为中文句子的模型。

A03、获取待识别混合语音并识别。

通过麦克风等设备获取用户的中英文混合语音，并将该语音输入中文声学模型中获取其对应的中文音素组合，根据该中文音素组合在混合字典中查询其对应的词序列，并将得到的词序列送入中英文语言模型中得到其对应的中英文句子。

第二方面，参照图6，本公开实施例提供一种混合语音处理的装置1，混合语音包括同时使用主语言和次语言的混合语句，主语言与次语言为两种不同的预定语言；

本公开实施例的混合语音处理的装置1可以包括：

获取模块11，用于获取混合语音；

识别模块12，用于通过预设的主语言语音模型，得到待识别音素序列；待识别音素序列为混合语音对应的主语言音素的序列；

查询模块13，用于根据预定的混合字典，查询得到待识别音素序列对应的至少一个词序列；词序列有多个词组成，每个词为主语言词或次语言词；混合字典包括主语言词对应的主语言音素组合，以及次语言词对应的主语言音素组合。

第三方面，参照图7，本公开实施例提供一种电子设备2，其包括：

一个或多个处理器21，

存储器22，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器21执行，使得一个或多个处理器21实现上述任意一项的混合语音处理的方法；

一个或多个I/O接口23，连接在处理器21与存储器22之间，用于实现处理器21与存储器22的信息交互。

其中，处理器21为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器22为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)23连接在处理器21于存储器22间，用于实现存储器22与处理器21的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施方式中，所述存储器22也可以是外接于所述电子设备2的存储装置。

第四方面，参照图8，本公开实施例提供一种计算机可读介质3，其上存储有计算机程序，程序被处理器执行时实现上述任意一种混合语音处理的方法。

本领域普通技术人员可以理解，上文中所公开的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。

某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器(CPU)、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)或其他磁盘存储器；只读光盘(CD-ROM)、数字多功能盘(DVD)或其他光盘存储器；磁盒、磁带、磁盘存储或其他磁存储器；可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本公开已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种混合语音处理的方法，所述混合语音包括同时使用主语言和次语言的混合语句，所述主语言与次语言为两种不同的预定语言；所述方法包括：

获取所述混合语音；

通过预设的主语言语音模型，得到待识别音素序列；所述待识别音素序列为混合语音对应的主语言音素的序列；

根据预定的混合字典，查询得到所述待识别音素序列对应的至少一个词序列；所述词序列有多个词组成，每个词为主语言词或次语言词；所述混合字典包括主语言词对应的主语言音素组合，以及次语言词对应的主语言音素组合。

2.根据权利要求1所述的方法，其中，所述预定的混合字典的组建过程包括：

获取多个次语言词的多个语音样本，并通过预设的主语言语音转换模型获取每个次语言词的每个语音样本的主语言音素组合；

对获取的每个次语言词的所有语音样本的主语言音素组合进行聚类决策，获取每个次语言词对应的主语言音素组合。

3.根据权利要求2所述的方法，其中，所述主语言语音模型和所述主语言语音转换模型为同样的模型。

4.根据权利要求2所述的方法，其中，所述对获取的每个次语言词的所有语音样本的主语言音素组合进行聚类决策，获取每个次语言词对应的主语言音素组合包括：

根据每个次语言词的所有语音样本的主语言音素组合的长度，确定该次语言词对应的主语言音素组合的目标长度；

从每个次语言词的所有语音样本的主语言音素组合中，确定目标主语言音素组合，并根据所述目标主语言音素组合，确定该次语言词对应的主语言音素组合，所述目标主语言音素组合的长度与所述目标长度相同。

5.根据权利要求4所述的方法，其中，所述根据每个次语言词的所有语音样本的主语言音素组合的长度，确定该次语言词对应的主语言音素组合的目标长度包括：

以每个次语言词的所有语音样本的主语言音素组合的所有长度中，对应的该次语言词的语音样本的数量最多的长度为该次语言词对应的主语言音素组合的目标长度。

6.根据权利要求4所述的方法，其中，所述根据所述目标主语言音素组合，确定该次语言词对应的主语言音素组合包括：

将该次语言词的所有目标主语言音素组合中，每个位置上数量最多的主语言音素，确定为该次语言词对应的主语言音素组合的该位置的主语言音素。

7.根据权利要求1所述的方法，其中，所述根据预定的混合字典，查询得到所述待识别音素序列对应的至少一个词序列之后还包括：

根据预设的主语言语言模型，从多个词序列中确定一个词序列为识别结果。

8.根据权利要求7所述的方法，其中，所述根据预设的主语言语言模型，从多个词序列中确定一个词序列为识别结果之前还包括：

使用混合语句训练所述主语言语言模型。

9.一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的混合语音处理方法；

10.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至8中任意一项所述的混合语音处理方法。