CN110534115A

CN110534115A - 多方言混合语音的识别方法、装置、***和存储介质

Info

Publication number: CN110534115A
Application number: CN201910973395.6A
Authority: CN
Inventors: 顾欣欣; 陆文渊; 曾传名
Original assignee: Shanghai Enterprise Information Technology Co Ltd
Current assignee: Shanghai Enterprise Information Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2019-12-03
Anticipated expiration: 2039-10-14
Also published as: CN110534115B

Abstract

本发明实施例公开了一种多方言混合语音的识别方法、装置、***和存储介质。本发明实施例基于已有对应各方言的方言识别子***，通过对多方言混合语音文件进行分块处理，得到整个语音文件可能的方言组合，最后将所有方言组合输入全文辨析子***进行评分选优的方式，得到多方言混合语音文件的语音识别结果，由此可实现对多方言混合语音文件的有效识别，并保证较高的语音识别准确率。

Description

多方言混合语音的识别方法、装置、***和存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种多方言混合语音的识别方法、装置、***和存储介质。

背景技术

语音识别是人工智能领域的一个重要应用分支，语音识别的准确率是语音识别效果的重要评估指标。然而在对混合有多种方言(包括汉语普通话、汉语方言，甚至不同国家的语言)的语音文件进行语音识别时，则很难保证较高的语音识别准确率。

现有的语音识别技术多是对单一种类语言的语音进行针对性的语音识别，无法对混合有多种方言的语音文件进行识别或识别效果很差，更无法保证对多方言混合语音具有较高的语音识别准确率。

发明内容

本发明实施例提供一种多方言混合语音的识别方法、装置、***和存储介质，以实现对多方言混合语音的有效识别。

第一方面，本发明实施例提供了一种多方言混合语音的识别方法，该方法包括：

将初始待识别语音作为目标语音，并获取至少一个方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息，各所述方言识别子***对应方言的种类至少包括所述初始待识别语音所包含方言的种类；

将各所述语义文本及时间线信息加入到相应方言识别子***的历史分词集中；

获取各所述方言识别子***对应的未处理目标语音，依次作为新的目标语音，并返回执行对应所述目标语音的语义文本和时间线信息的获取操作，直至各所述方言识别子***均对应不存在未处理目标语音；

针对各所述方言识别子***对应的历史分词集，根据各所述历史分词集中的语义文本结合对应的时间线信息形成至少一条分词序列，并基于各所述分词序列构成相应方言识别子***的分词序列集；

从各所述方言识别子***所对应的分词序列集中确定所述初始待识别语音的识别结果。。

第二方面，本发明实施例还提供了一种多方言混合语音的识别装置，该装置包括：

语义获取模块，用于将初始待识别语音作为目标语音，并获取至少一个方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息，各所述方言识别子***对应方言的种类至少包括所述初始待识别语音所包含方言的种类；

语义添加模块，用于将各所述语义文本及时间线信息加入到相应方言识别子***的历史分词集中；

未处理获取模块，用于获取各所述方言识别子***对应的未处理目标语音，分别依次作为新的目标语音，并返回执行对应所述目标语音的语义文本和时间线信息的获取操作，直至各所述方言识别子***均对应不存在未处理目标语音；

序列形成模块，用于针对各所述方言识别子***对应的历史分词集，根据各所述历史分词集中的语义文本结合对应的时间线信息形成至少一条分词序列，并基于各所述分词序列构成相对应方言识别子***的分词序列集；

结果确定模块，用于从各所述方言识别子***所对应的分词序列集中确定所述初始待识别语音的识别结果。

第三方面，本发明实施例还提供了一种多方言混合语音的识别***，该***包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例第一方面所述的多方言混合语音的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明实施例第一方面所述的多方言混合语音的识别方法。

本发明实施例基于已有对应各方言的方言识别子***，通过对多方言混合语音文件进行分块处理，得到整个语音文件可能的方言组合，最后将所有方言组合输入全文辨析子***进行评分选优的方式，得到多方言混合语音文件的语音识别结果，由此实现了对多方言混合语音文件的有效识别，并保证了较高的语音识别准确率。

附图说明

图1是本发明实施例一提供的一种多方言混合语音的识别方法的流程示意图；

图2是本发明实施例一提供的一种多方言混合语音的识别方法的流程示例图；

图3是本发明实施例二提供的一种多方言混合语音的识别方法的流程示意图；

图4是本发明实施例三提供的一种多方言混合语音的识别装置的结构示意图；

图5是本发明实施例四提供的一种多方言混合语音的识别***的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种多方言混合语音的识别方法的流程示意图，本实施例可适用于基于已有对应各方言的方言识别子***，实现对多方言混合语音进行有效识别的情况，该方法可以由多方言混合语音的识别装置来执行，该装置可以通过软件和/或硬件的方式实现，并可集成在多方言混合语音的识别***中。

可以理解的是，现有的语音识别技术多是对单一语种的语音进行识别，并可实现较高的语音识别准确率；而对于多方言混合语音则无法进行有效地识别，更无法保证较高的语音识别准确率。本发明的目的即在于利用已有的针对单一语种的语音识别技术，通过多个单一的方言识别子***，以单一分词为识别单位，依次对多方言混合语音文件进行识别，由此将各单一的方言识别子***识别得到的语义分词按照对应的时间线信息进行组合，得到多条对应整个多方言混合语音文件的分词序列，并利用全文辨析子***对所有的分析序列进行打分，由此，依据打分结果，择高选取一条或多条分词选列作为整个多方言混合语音文件的识别结果。

需要说明的是，本发明实施例中，将汉语中的标准普通话、汉语中的各地方言、以及其他国家语言均视为一种方言，相应的，多方言混合语音可以理解为包含至少一种所述方言的语音。对于多方言混合语音的场景，例如语音内容是“我的boss很好”这句话，即中英混合；或者是多个来自不同地域的人，分别用各自当地的方言进行对话等。此外，本发明实施例所述的多方言混合语音的识别方法可由多方言混合语音的识别***来执行，所述多方言混合语音的识别***包含了多个用于对单一类型方言进行语音识别的方言识别子***。

如图1所示，本实施例提供的多方言混合语音的识别方法，具体包括如下步骤：

S101、将初始待识别语音作为目标语音，并获取至少一个方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息。

其中，所述初始待识别语音为包含至少一种方言的语音，即所述多方言混合语音。所述方言识别子***可以理解为能够针对所述初始待识别语音进行单一类型方言的语音识别的子***；可选地，所述方言识别子***以单个词汇为识别单位，即单次识别结果为一个词语。

可以理解的是，为保证多方言混合语音的识别***能有效识别多方言混合语音，并保证较高的识别准确率，所述多方言混合语音的识别***所包含的对应各类型方言的方言识别子***应尽可能地多，可选地，各所述方言识别子***对应方言的种类至少包括所述初始待识别语音所包含方言的种类。可选地，所述多方言混合语音的识别***可随着新的方言识别子***的产生而不断扩充，由此可不断扩大所述多方言混合语音的识别***对多方言混合语音识别的覆盖度。

所述语义文本可以理解为由所述方言识别子***处理所述目标语音后得到的最能够表达所述目标语音的已处理部分所表述内容的标准通用化书面化文本；可选地，所述语义文本可以是一个字或两个及以上的字组成的词。所述时间线信息可以理解为所述语义文本所对应的目标语音的已处理部分在所述初始待识别语音的音频时间轴上的截止点，或所述语义文本所对应的所述初始待识别语音截至当前累积已被处理的音频时长。

可以理解的是，基于各所述方言识别***对所述目标语音以单个词汇为识别单位进行识别的方式，当所述初始待识别语音的总音频时长大于一个词汇所对应的音频时长时，所述方言识别子***将会分多次对所述目标语音进行识别，为避免对所述目标语音中已处理部分重复识别，可在每次识别出语义文本后记录相应的时间线信息，并将所述时间线信息作为下次识别的时间起点，此外，后续步骤中还可依据各所述语义文本对应的时间线信息将各所述语义文本依次串连，从而保证语义文本的语义连贯性。

具体地，本步骤在于通过多方言混合语音的识别***中的各方言识别子***依次对所述目标语音进行处理，以得到至少一个方言识别子***处理所述目标语音所得的语义文本；可选地，当所述目标语音为初始待识别语音时，所述语义文本为所述初始待识别语音对应的首个语义文本。

可以理解的是，在各所述方言识别子***依次处理所述目标语音时，并不是每个方言识别子***都能得到对应的语义文本，例如，所述目标语音对应的第一种方言(或者说是首个待识别的词汇)是汉语普通话，此时用识别英语的方言识别子***处理所述目标语音，该方言识别子***很大几率是没有语义文本输出的。

S102、将各所述语义文本及时间线信息加入到相应方言识别子***的历史分词集中。

其中，所述历史分词集可以理解为用于存储对应方言识别子***处理所述初始待识别语音所得的首个语义文本以及与所述首个语义文本对应的所有后续语义文本的集合。

可以理解的是，在获取各所述方言识别子***处理所述初始待识别语音所得的首个语义文本后，即确定了对应于整个初始待识别语音的分别以各所述首个语义文本为第一识别词汇的所有可能的最终识别结果，而各所述首个语义文本分别对应一个方言识别子***，因此，可在每个对应的方言识别子***中设置对应于所述首个语义文本的历史分词集，该历史分词集用于存储所有以该首个语义文本为第一识别词汇的所有可能的最终识别结果所包含的所有语义文本。

需要说明是，针对任一首个语义文本，对应于所述首个语义文本的所有后续语义文本，得到所述后续语义文本的方言识别子***，既可能包含得到所述首个语义文本的方言识别子***，也可能包含其他方言识别子***。

示例性的，假设初始待识别语音的内容为“我的(普通话)boss(英语)倍儿好(天津话)”，初始待识别语音对应的总音频时长为6s，假设各方言识别子***对应的方言分别有普通话、东北话、天津话、英语，那么分别由各所述方言识别子***处理所述初始待识别语音，普通话和东北话所对应的方言识别子***都有可能得到首个语义文本；假设普通话得到的首个语义文本为“我的”，对应的时间线信息为2s，即普通话方言识别***解析出“我的”所处理的音频时长为总音频时长的前2s；假设东北话方言识别子***得到的首个语义文本为“我”，对应的时间线信息为1s；假设天津话和英语对应的方言识别子***没有识别出首个语义文本；由此，分别将“我的”和“我”，以及各自对应的时间线信息“2s”和“1s”分别存储到普通话方言识别子***和东北话方言识别子***对应的历史分词集中。

S103、获取各所述方言识别子***对应的未处理目标语音，依次作为新的目标语音，并返回执行对应所述目标语音的语义文本和时间线信息的获取操作，直至各所述方言识别子***均对应不存在未处理目标语音。

其中，所述未处理目标语音是指所述目标语音中尚未被处理的部分。

可以理解的是，基于各所述方言识别***对所述目标语音以单个词汇为识别单位进行识别的方式，当所述初始待识别语音的总音频时长大于一个词汇所对应的音频时长时，各所述方言识别子***处理所述目标语音后一定会存在未处理目标语音，此时，针对每个未处理目标语音，可将所述未处理目标语音作为新的目标语音，返回执行对该目标语音所对应语义文本和时间线信息的获取操作，如此循环，直至各所述方言识别子***均对应不存在未处理目标语音。

需要说明的是，在循环执行对目标语音的语义文本和时间线信息的获取操作过程中，会出现某一方言识别子***处理所述目标语音而不存在语义文本的情况，此时该方言识别子***对应的未处理目标语音即为原目标语音(相当于该方言识别子***未对原目标语音进行处理或处理结果无效)，此时即刻停止对该目标语音的后续处理操作，即只对可以得到语义文本的目标语音进行下一步操作。

示例性的，接上例，由于天津话和英语对应的方言识别子***未得到首个语义文本，即表明所述初始待识别语音对应的首个语义文本不可能是天津话或英语，因此，仅对首个语义文本为普通话或东北话这两种可能进行后续的识别确定。由于“我的”对应的时间线信息为“2s”，“我”对应的时间线信息为“1s”，均小于总音频时长“6s”，因此，总音频时长的后4s部分和后5s部分即为分别对应于普通话方言识别子***和东北话方言识别子***的未处理目标语音，将两个未处理目标语音依次确定为新的目标语音(即此时有两个目标语音)，返回执行对两个目标语音的语义文本和时间线信息的获取操作，即分别获取至少一个方言识别子***处理两个新的目标语音所得语义文本和对应的时间线信息。如此循环，直至各所述方言识别子***均对应不存在未处理目标语音。

S104、针对各所述方言识别子***对应的历史分词集，根据各所述历史分词集中的语义文本结合对应的时间线信息形成至少一条分词序列，并基于各所述分词序列构成相应方言识别子***的分词序列集。

其中，所述分词序列可以理解为以各所述历史分词集中的首个语音文本为第一识别词汇，基于各语义文本对应的时间线信息将多个语义文本串连起来的语义文本序列。一条分词序列即为对应整个所述初始待识别语音的一个可能的识别结果。所述分词序列集即为包含所有分词序列的集合，可以表示整个初始待识别语音所对应的所有可能的识别结果的集合。

可以理解的是，对于包含n(n为大于等于1的正整数)个方言识别子***的多方言混合语音的识别***来说，一条初始待识别语音对应的所有可能的识别结果最多为n^m个(即一条初始待识别语音对应的分词序列最多有n^m条)，n，m均为大于等于1的正整数，m代表方言识别子***的最大处理次数。虽然初始待识别语音对应的所有的可能的识别结果数量较大，但随着处理过程的进行，许多可能的分词序列实际上是没有真正形成的，处理过程本身就是一个筛选的过程，例如上例中，一种可能的情况是，处理到最后，可形成的分词序列或许就只有“我的—老板—特别好”这一个(其中，“老板”对应“boss”，“特别好”对应“倍儿好”)。

S105、从各所述方言识别子***所对应的分词序列集中确定所述初始待识别语音的识别结果。

可以理解的是，在获取对于整个初始待识别语音所对应的所有可能的识别结果的集合，即所述分词序列集后，可从所述分词序列集中依据预设的规则筛选出最能表述所述初始待识别语音所表述内容的一条或多条分词序列作为所述初始待识别语音的最终识别结果。

可选地，将各所述方言识别子***所对应的分词序列集中的分词序列汇总至全文辨析子***，以通过所述全文辨析子***基于预设打分规则对各所述分词序列进行打分；

基于所述全文辨析子***对各所述分词序列的打分结果，择高选取至少一个所述分词序列作为所述初始待识别语音的识别结果。

其中，所述全文辨析子***是指能够对所述分词序列进行进一步语义分析，以对各所述分词序列进行筛选、评判的语义分析子***。可选地，所述全文辨析子***为全文辨析自然语言处理(Natural Language Processing，NLP)子***；可选地，所述全文辨析NLP子***可用于对所述分词序列的语义连贯性进行分析，并按照预设规则打分。

进一步地，作为本实施例一的一个可选实施例，本实施例一将所述方言识别子***优选为包括：语音转文组件和语义解析组件。

其中，所述语音转文组件可以理解为在对应方言识别子***中用于将所输入的目标语音的已处理部分转换为初始文本的组件；所述语义解析组件可以理解为在对应方言识别子***中用于将所述语音转文组件得到的初始文本进一步解析，以得到所述初始文本对应的标准通用化书面化文本；可选地，所述语音转文组件可将目标语音中普通话以外的方言转换成对应的音译文本，所述语义解析组件可将所述语音转文组件得到的音译文本转换成标准通用化的书面普通话文本。可选地，所述语义解析组件为对应所述方言识别子***的NLP组件。

进一步地，针对每个方言识别子***，所述方言识别子***处理所述目标语音得到语义文本以及与所述语义文本对应的时间线信息的步骤，包括：

通过所述方言识别子***中的语音转文组件对所述目标语音进行语音识别，得到与所述目标语音对应的语音文本以及与所述语音文本对应的时间线信息；

通过所述方言识别子***中的语义解析组件对所述语音文本进行语义解析，若得到与所述语音文本对应的语义文本，则将所述语义文本确定为与所述目标语音对应的语义文本，并将所述时间线信息确定为与所述语义文本对应的时间线信息；若得不到与所述语音文本对应的语义文本，则判定所述语音文本对应的方言与相应已处理目标语音对应的方言不匹配，并将所述语音文本和时间线信息丢弃。

本可选实施例将所述方言识别子***进一步细化，并给出了所述方言识别子***处理所述目标语音得到语义文本以及与所述语义文本对应的时间线信息的步骤，为语义文本和时间线信息的获取奠定了基础。

示例性的，图2给出了本发明实施例一提供的一种多方言混合语音的识别方法的流程示例图。

实施例二

图3是本发明实施例二提供的一种多方言混合语音的识别方法的流程示意图，本实施例在实施例一的基础上进一步优化。本实施例将所述将各所述语义文本及时间线信息加入到相应方言识别子***的历史分词集中，具体化为：针对每个语义文本，判断所述语义文本对应的目标语音是否为所述初始待识别语音；若所述语义文本对应的目标语音为所述初始待识别语音，则将所述语义文本确定为生成所述语义文本的方言识别子***所对应的首个语义文本，并将所述首个语义文本及时间线信息组成二元信息组加入到生成所述首个语义文本的方言识别子***所对应的历史分词集中；若所述语义文本对应的目标语音不是所述初始待识别语音，则基于所述目标语音确定与所述语义文本对应的邻接语义文本，并将所述语义文本和邻接语义文本以及时间线信息组成三元信息组加入到与所述语义文本对应的首个语义文本所在的历史分词集中。

本实施例还将所述针对各所述方言识别子***对应的历史分词集，根据所述历史分词集中的语义文本结合对应的时间线信息形成至少一条分词序列，并基于各所述分词序列构成相应方言识别子***的分词序列集，具体化为：针对每个方言识别子***对应的历史分词集，获取所述历史分词集中的首个语义文本；针对所述历史分词集中的每个三元信息组，基于所述三元信息组中的邻接语义文本和时间线信息，确定所述三元信息组的邻接三元信息组；将互为邻接三元信息组的各所述三元信息组按照各所述三元信息组中的时间线信息顺序排列，形成至少一条三元信息组序列；针对每个三元信息组序列，顺序从所述三元信息组序列的各所述三元信息组中取出对应的语义文本，并以所述首个语义文本为序列头形成一条分词序列。

如图3所示，本实施例提供的多方言混合语音的识别方法，具体包括如下步骤：

S201、将初始待识别语音作为目标语音，并获取至少一个方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息。

可选地，若所述初始待识别语音所述包含方言的种类已知，则基于已知方言的种类确定对应于各所述已知方言的方言识别子***；

获取所确定的各所述方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息。

可以理解的是，当所述初始待识别语音所述包含方言的种类已知时，只获取对应于各所述已知方言的方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息，可以大大减少后续的处理量。

S202、针对每个语义文本，判断所述语义文本对应的目标语音是否为所述初始待识别语音，若是，则执行S203；否则，执行S204。

可以理解的是，通过判断各所述语义文本对应的目标语音是否为所述初始待识别语音，可以确定所述语义文本是否为各所述方言识别子***所对应的首个语义文本。

S203、将所述语义文本确定为生成所述语义文本的方言识别子***所对应的首个语义文本，并将所述首个语义文本及时间线信息组成二元信息组加入到生成所述首个语义文本的方言识别子***所对应的历史分词集中；转至执行S205。

可以理解的是，对应整个初始待识别语音的所有可能的识别结果必然是以各所述首个语义文本作为第一识别词汇的。

S204、基于所述目标语音确定与所述语义文本对应的邻接语义文本，并将所述语义文本和邻接语义文本以及时间线信息组成三元信息组加入到与所述语义文本对应的首个语义文本所在的历史分词集中；转至执行S205。

其中，所述邻接语义文本可以理解为与所述语义文本关联的前一语义文本。

可以理解的是，由于不同语义文本对应的时间线信息，甚至不同语义文本的组合对应的时间线信息的组合，存在相同的情况，因此，对于所述首个语义文本对应的后续语义文本，在后续的组合语义文本形成分词序列的步骤中，仅依据时间线信息可能会额外形成不必要的分词序列，从而增加对分词序列的处理量。故若在将语义文本及对应的时间线信息加入到与所述语义文本对应的首个语义文本所在的历史分词集中同时，将与所述语义文本对应的邻接语义文本一起加入，则可基于所述邻接语义文本和时间线信息共同确定分词序列，如此即可排除上述不必要分词序列的形成。

S205、获取各所述方言识别子***对应的未处理目标语音，依次作为新的目标语音，并返回执行对应所述目标语音的语义文本和时间线信息的获取操作，直至各所述方言识别子***均对应不存在未处理目标语音。

S206、判断各所述方言识别子***是否均对应不存在未处理目标语音；若是，执行S207；否则，返回执行S205。

S207、针对每个方言识别子***对应的历史分词集，获取所述历史分词集中的首个语义文本。

S208、针对所述历史分词集中的每个三元信息组，基于所述三元信息组中的邻接语义文本和时间线信息，确定所述三元信息组的邻接三元信息组。

其中，若两个所述三元信息组满足时间线信息连贯，并且满足前一个三元信息组中的语义文本为后一个三元信息组中的邻接语义文本，则两个三元信息组互为彼此的邻接三元信息组。

可选地，可先基于所述三元信息组中的时间线信息将确定每个三元信息组所有可能的邻接三元信息组，再基于所述三元信息组所包含的邻接语义文本从所有可能的邻接三元信息组确定出所述三元信息组的邻接三元信息组。

S209、将互为邻接三元信息组的各所述三元信息组按照各所述三元信息组中的时间线信息顺序排列，形成至少一条三元信息组序列。

可以理解的是，根据得到的每个三元信息组的邻接三元信息组，可以很容易地将互为邻接三元信息组的各所述三元信息组串连起来。虽然每个历史分词集中首个语义文本只有唯一的一个，但所述首个语义文本对应的邻接语义文本可能有多个，而与所述首个语义文本对应的邻接语义文本又可能有多个邻接语义文本，因此，由一个历史分词集得到的三元信息组序列可能不只一条。

S210、针对每个三元信息组序列，顺序从所述三元信息组序列的各所述三元信息组中取出对应的语义文本，并以所述首个语义文本为序列头形成一条分词序列。

可以理解的是，一条三元信息组序列唯一对应一条分词序列。

S211、将各所述方言识别子***所对应的分词序列集中的分词序列汇总至全文辨析子***，以通过所述全文辨析子***基于预设打分规则对各所述分词序列进行打分。

S212、基于所述全文辨析子***对各所述分词序列的打分结果，择高选取至少一个所述分词序列作为所述初始待识别语音的识别结果。

实施例三

图4是本发明实施例三提供的一种多方言混合语音的识别装置的结构示意图，本实施例可适用于基于已有对应各方言的方言识别子***，实现对多方言混合语音进行有效识别的情况，该装置可以由软件和/或硬件实现，具体包括：语义获取模块301、语义添加模块302、未处理获取模块303、序列形成模块304、结果确定模块305。其中，

语义获取模块301，用于将初始待识别语音作为目标语音，并获取至少一个方言识别子***处理所述目标语音得到的语义文本以及与所述语义文本对应的时间线信息，各所述方言识别子***对应方言的种类至少包括所述初始待识别语音所包含方言的种类；

语义添加模块302，用于将各所述语义文本及时间线信息加入到相应方言识别子***的历史分词集中；

未处理获取模块303，用于获取各所述方言识别子***对应的未处理目标语音，分别依次作为新的目标语音，并返回执行对应所述目标语音的语义文本和时间线信息的获取操作，直至各所述方言识别子***均对应不存在未处理目标语音；

序列形成模块304，用于针对各所述方言识别子***对应的历史分词集，根据各所述历史分词集中的语义文本结合对应的时间线信息形成至少一条分词序列，并基于各所述分词序列构成相对应方言识别子***的分词序列集；

结果确定模块305，用于从各所述方言识别子***所对应的分词序列集中确定所述初始待识别语音的识别结果。

在上述各实施例的基础上，所述方言识别子***包括：语音转文组件和语义解析组件；

相应地，针对每个方言识别子***，语义获取模块301中，所述方言识别子***处理所述目标语音得到语义文本以及与所述语义文本对应的时间线信息的步骤，包括：

在上述各实施例的基础上，语义添加模块302，包括：

语音判断单元，用于针对每个语义文本，判断所述语义文本对应的目标语音是否为所述初始待识别语音；

二元添加单元，用于若所述语义文本对应的目标语音为所述初始待识别语音，则将所述语义文本确定为生成所述语义文本的方言识别子***所对应的首个语义文本，并将所述首个语义文本及时间线信息组成二元信息组加入到生成所述首个语义文本的方言识别子***所对应的历史分词集中；

三元添加单元，用于若所述语义文本对应的目标语音不是所述初始待识别语音，则基于所述目标语音确定与所述语义文本对应的邻接语义文本，并将所述语义文本和邻接语义文本以及时间线信息组成三元信息组加入到与所述语义文本对应的首个语义文本所在的历史分词集中。

在上述各实施例的基础上，序列形成模块304，包括：

首语获取单元，用于针对每个方言识别子***对应的历史分词集，获取所述历史分词集中的首个语义文本；

邻接确定单元，用于针对所述历史分词集中的每个三元信息组，基于所述三元信息组中的邻接语义文本和时间线信息，确定所述三元信息组的邻接三元信息组；

组序列形成单元，用于将互为邻接三元信息组的各所述三元信息组按照各所述三元信息组中的时间线信息顺序排列，形成至少一条三元信息组序列；

分词序列形成单元，用于针对每个三元信息组序列，顺序从所述三元信息组序列的各所述三元信息组中取出对应的语义文本，并以所述首个语义文本为序列头形成一条分词序列。

在上述各实施例的基础上，结果确定模块305，包括：

序列汇总单元，用于将各所述方言识别子***所对应的分词序列集中的分词序列汇总至全文辨析子***，以通过所述全文辨析子***基于预设打分规则对各所述分词序列进行打分；

结果确定单元，用于基于所述全文辨析子***对各所述分词序列的打分结果，择高选取至少一个所述分词序列作为所述初始待识别语音的识别结果。

本发明实施例所提供的多方言混合语音的识别装置可执行本发明任一实施例所提供的多方言混合语音的识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种多方言混合语音的识别***的结构示意图，如图5所示，该多方言混合语音的识别***包括处理器40、存储器41、输入装置42和输出装置43；多方言混合语音的识别***中处理器40的数量可以是一个或多个，图5中以一个处理器40为例；多方言混合语音的识别***中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的多方言混合语音的识别方法对应的程序指令/模块(例如，多方言混合语音的识别装置中的语义获取模块301、语义添加模块302、未处理获取模块303、序列形成模块304、结果确定模块305)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行多方言混合语音的识别***的各种功能应用以及数据处理，即实现上述的多方言混合语音的识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至多方言混合语音的识别***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与多方言混合语音的识别***的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种多方言混合语音的识别方法，该方法包括：

从各所述方言识别子***所对应的分词序列集中确定所述初始待识别语音的识别结果。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的多方言混合语音的识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述多方言混合语音的识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多方言混合语音的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方言识别子***包括：语音转文组件和语义解析组件；

相应地，针对每个方言识别子***，所述方言识别子***处理所述目标语音得到语义文本以及与所述语义文本对应的时间线信息的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述将各所述语义文本及时间线信息加入到相应方言识别子***的历史分词集中，包括：

针对每个语义文本，判断所述语义文本对应的目标语音是否为所述初始待识别语音；

若所述语义文本对应的目标语音为所述初始待识别语音，则将所述语义文本确定为生成所述语义文本的方言识别子***所对应的首个语义文本，并将所述首个语义文本及时间线信息组成二元信息组加入到生成所述首个语义文本的方言识别子***所对应的历史分词集中；

若所述语义文本对应的目标语音不是所述初始待识别语音，则基于所述目标语音确定与所述语义文本对应的邻接语义文本，并将所述语义文本和邻接语义文本以及时间线信息组成三元信息组加入到与所述语义文本对应的首个语义文本所在的历史分词集中。

4.根据权利要求3所述的方法，其特征在于，所述针对各所述方言识别子***对应的历史分词集，根据所述历史分词集中的语义文本结合对应的时间线信息形成至少一条分词序列，并基于各所述分词序列构成相应方言识别子***的分词序列集，包括：

针对每个方言识别子***对应的历史分词集，获取所述历史分词集中的首个语义文本；

针对所述历史分词集中的每个三元信息组，基于所述三元信息组中的邻接语义文本和时间线信息，确定所述三元信息组的邻接三元信息组；

将互为邻接三元信息组的各所述三元信息组按照各所述三元信息组中的时间线信息顺序排列，形成至少一条三元信息组序列；

针对每个三元信息组序列，顺序从所述三元信息组序列的各所述三元信息组中取出对应的语义文本，并以所述首个语义文本为序列头形成一条分词序列。

5.根据权利要求1所述的方法，其特征在于，所述从各所述方言识别子***所对应的分词序列集中确定所述初始待识别语音的识别结果，包括：

将各所述方言识别子***所对应的分词序列集中的分词序列汇总至全文辨析子***，以通过所述全文辨析子***基于预设打分规则对各所述分词序列进行打分；

6.一种多方言混合语音的识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述语义添加模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述序列形成模块，包括：

9.一种多方言混合语音的识别***，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任一项所述的多方言混合语音的识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的多方言混合语音的识别方法。