CN111192570B

CN111192570B - 语言模型训练方法、***、移动终端及存储介质

Info

Publication number: CN111192570B
Application number: CN202010011026.1A
Authority: CN
Inventors: 张广学; 肖龙源; ***; 李稀敏; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2022-12-06
Anticipated expiration: 2040-01-06
Also published as: CN111192570A

Abstract

本发明提供了一种语言模型训练方法、***、移动终端及存储介质，该方法包括：获取训练文本和训练词汇，对训练文本进行分类，以得到多个语言模块，并根据训练词汇构建对应语言模块的语言词典；根据语言词典对语言模块中的模块语言模型进行模型训练，对训练文本进行训练，以得到文本语言模型；获取待识别语音进行音素识别，得到音素串，将音素串与模块语言模型进行匹配，得到音素匹配结果；通过文本语言模型对音素匹配结果进行概率计算，将最大的概率值对应的句子进行输出。本发明通过进行训练文本的分类和语言词典的构建设计，提高了语言模型的训练效率和准确性，通过基于对模块语言模型和训练文本的训练设计，使得可以有效的进行语言模型的拓展。

Description

语言模型训练方法、***、移动终端及存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种语言模型训练方法、***、移动终端及存储介质。

背景技术

语音识别研究已有几十年的历史，语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分，每一部分都可以成为一个单独的研究方向，并且相对于图像和文本，语音数据的采集和标注难度也大大提升，因此搭建一个完整的语言模型训练***是个耗时极长、难度极高的工作，这极大阻碍了语音识别技术的发展。

现有的语言模型训练过程中，仅能根据数据库中预存储的词汇和句式进行语言模型的训练，在训练过程中不能及时添加词汇和句式，进而导致语言模型训练的效率和拓展性低下。

发明内容

本发明实施例的目的在于提供一种语言模型训练方法、***、移动终端及存储介质，旨在解决现有的语言模型训练的效率和拓展性低下的问题。

本发明实施例是这样实现的，一种语言模型训练方法，所述方法包括：

获取训练文本和训练词汇，对所述训练文本进行分类，以得到多个语言模块，并根据所述训练词汇构建对应所述语言模块的语言词典；

根据所述语言词典对所述语言模块中的模块语言模型进行模型训练，并对所述训练文本进行训练，以得到文本语言模型；

获取待识别语音进行音素识别，得到音素串，并将所述音素串与所述模块语言模型进行匹配，以得到音素匹配结果；

通过所述文本语言模型对所述音素匹配结果进行概率计算，并将最大的概率值对应的句子进行输出。

更进一步的，所述根据所述语言词典对所述语言模块中的模块语言模型进行模型训练的步骤包括：

根据所述语音词典在所述训练文本中抽取所述语言模块对应的语言文本；

根据所述语言文本采用3-gram训练方式对所述模块语言模型进行训练；

获取所述语言模块中被抽取的所述语言文本中对应词语的词频，并根据所述词频和所述语言模型的训练结果构建哈夫曼树模型。

更进一步的，所述将所述音素串与所述模块语言模型进行匹配的步骤包括：

将所述音素串依序与每个所述模块语言模型中的样本音素进行匹配；

当所述音素串与所述模块语言模型中的所述样本音素之间的匹配数量大于或等于预设数量时，将所有匹配成功的所述样本音素进行输出；

当所述匹配数量小于所述预设数量时，将所述模块语言模型对应的所述语言模块的结果进行输出。

更进一步的，所述通过所述文本语言模型对所述音素匹配结果进行概率计算的步骤包括：

将各个所述语言模块输出的所述样本音素进行组合，以得到组合信息，所述组合信息中存储有多个音素组合串；

根据所述文本语言模型分别对所述音素组合串进行概率计算，以得到多个所述概率值。

更进一步的，所述将所述音素串依序与每个所述模块语言模型中的样本音素进行匹配的步骤之后，所述方法还包括：

当所述音素串与所述模块语言模型匹配失败时，根据所述模块语言模型对所述音素串进行错误标记。

更进一步的，所述将所述音素串与所述模块语言模型进行匹配的步骤之后，所述方法还包括：

当所述音素串与所述模块语言模型匹配成功时，对所述音素串进行词汇类型标记；

根据所述音素串上词汇类型标记的标记结果进行类型匹配，以得到语句类型，并根据所述语句类型对所述待识别语音进行语境标记。

本发明实施例的另一目的在于提供一种语言模型训练***，所述***包括：

文本分类模块，用于获取训练文本和训练词汇，对所述训练文本进行分类，以得到多个语言模块，并根据所述训练词汇构建对应所述语言模块的语言词典；

模型训练模块，用于根据所述语言词典对所述语言模块中的模块语言模型进行模型训练，并对所述训练文本进行训练，以得到文本语言模型；

音素匹配模块，用于获取待识别语音进行音素识别，得到音素串，并将所述音素串与所述模块语言模型进行匹配，以得到音素匹配结果；

概率计算模块，用于通过所述文本语言模型对所述音素匹配结果进行概率计算，并将最大的概率值对应的句子进行输出。

更进一步的，所述模型训练模块还用于：

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语言模型训练方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语言模型训练方法的步骤。

本发明实施例，通过进行训练文本的分类和语言词典的构建设计，有效的提高了语言模型的训练效率和准确性，通过基于对所述语言模块中的模块语言模型进行模型训练和对所述训练文本进行训练的设计，使得可以有效的进行语言模型的拓展，通过基于音素识别的方式进行语音识别，有效的提高了语音模型的识别效率。

附图说明

图1是本发明第一实施例提供的语言模型训练方法的流程图；

图2是本发明第二实施例提供的语言模型训练方法的流程图；

图3是本发明第三实施例提供的语言模型训练***的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语言模型训练方法的流程图，包括步骤：

步骤S10，获取训练文本和训练词汇，对所述训练文本进行分类，以得到多个语言模块，并根据所述训练词汇构建对应所述语言模块的语言词典；

其中，该训练文本中的文字语言可以根据需求进行设置，例如该文字语言可以为中文、英文、韩文或日文等，该训练词汇和训练文本均可以基于数据库的方式进行获取，该训练词汇包括名词词汇、动词词汇、形容词词汇、副词词汇等；

具体的，该步骤中可以采用分类器的方式进行该训练文本的分类，该分类器用于将该训练文本中的文本文字按照词语属性的不同进行分类，以对应得到多个语言模块，该语言模块可以为名词模块、动词模块、形容词模块和副词模块等，该步骤中，通过对该训练文本进行分类的设计，有效的方便了后续针对语言模块的训练，提高了语言模型的训练效率；

优选的，该步骤中，通过构建该语言词典的设计，有效的保障了后续针对语言模型训练的稳定进行，提高了语言模型训练的准确性，通过根据所述训练词汇构建对应所述语言模块的语言词典的设计，以使对应得到名词词典、动词词典、形容词词典和副词词典等；

步骤S20，根据所述语言词典对所述语言模块中的模块语言模型进行模型训练，并对所述训练文本进行训练，以得到文本语言模型；

其中，每个语言模块中均设有一个模块语言模型，该模块语言模型用于针对对应语言模块输入的词汇进行识别，以判断当前语言模块中输入的词汇是否是该语言模块中的词汇，因此以达到判断词汇类型的效果；

优选的，该步骤中，针对该模块语言模型和训练文本的训练方式均可以根据需求进行选择，本实施例中采用3-gram的训练方式进行模型训练，以得到训练后的模块语言模型和文本语言模型；

步骤S30，获取待识别语音进行音素识别，得到音素串，并将所述音素串与所述模块语言模型进行匹配，以得到音素匹配结果；

其中，可以通过将该待识别语音输入预设声学模型，以输出该音素串，该音素串由多个音素所组成，每个音素分别于该待识别语音中的文字相对应；

优选的，该步骤中，通过将所述音素串与所述模块语言模型进行匹配的设计，以分别判断该音素串上音素的属性，例如当判断到当前音素与名词模块中的模块语言模型匹配成功时，则判定该当前音素对应的词汇为名词词汇；

具体的，该步骤中，通过将该音素串依序与名词模块、动词模块、形容词模块和副词模块中的模块语言模型进行匹配，以依序判断该音素串中音素的属性，因此，可有效的判断到该音素串所对应的待识别语音中是否存在名词、动词、形容词或副词等词汇；

例如，当该音素串与名词模块、动词模块、形容词模块和副词模块中的模块语言模型均匹配成功时，则判定该音素串对应的待识别语音中均存在名词、动词、形容词和副词，且通过识别该音素串与对应模块语言模型匹配成功的次数，以判定该待识别语音中对应存在词汇的数量；

步骤S40，通过所述文本语言模型对所述音素匹配结果进行概率计算，并将最大的概率值对应的句子进行输出；

其中，该文本语言模型用于对该音素匹配结果进行概率计算，以分别计算所有语言模块之间输出结果所组成语句的概率值，并根据该概率值判定识别结果；

例如所有语言模块之间输出结果包括：语句A、语句B和语句C，通过该文本语言模型分配判断语句A、语句B和语句C的概率值，以得到概率A、概率B和概率C，其中，概率A大于概率B，概率B大于概率C，因此，将该语句A进行输出，得到针对待识别语音的识别结果；

本实施例，通过进行训练文本的分类和语言词典的构建设计，有效的提高了语言模型的训练效率和准确性，通过基于对所述语言模块中的模块语言模型进行模型训练和对所述训练文本进行训练的设计，使得可以有效的进行语言模型的拓展，通过基于音素识别的方式进行语音识别，有效的提高了语音模型的识别效率。

实施例二

请参阅图2，是本发明第二实施例提供的语言模型训练方法的流程图，包括步骤：

步骤S11，获取训练文本和训练词汇，对所述训练文本进行分类，以得到多个语言模块，并根据所述训练词汇构建对应所述语言模块的语言词典；

其中，通过对该训练文本进行分类，以得到名词模块、动词模块、形容词模块和副词模块，优选的，在其他实施例中，该语言模块还可以根据训练文本中文本属性的不同被分为状态词模块等；

具体的，该步骤中，所述语言模块与所述语言词典之间采用一一对应的关系，因此，通过根据所述训练词汇的词典构建，以对应得到名词词典、动词词典、形容词词典和副词词典等；

步骤S21，根据所述语音词典在所述训练文本中抽取所述语言模块对应的语言文本，根据所述语言文本采用3-gram训练方式对所述模块语言模型进行训练；

其中，被抽取的该语言文本可以根据需求进行设置，例如可以采用预设音频的方式进行抽取，即通过编辑该预设音频，并将该预设音频与语音词典进行匹配，最终根据匹配结果对该训练文本进行抽取文本抽取；

具体的，该步骤中，通过基于该语音词典从该训练文本中抽取名词模块、动词模块、形容词模块和副词模块所对应的文本，并根据该语音文本对对应模块语言模型进行训练，进而有效的提高了训练效率和模型训练的准确性；

步骤S31，获取所述语言模块中被抽取的所述语言文本中对应词语的词频，并根据所述词频和所述语言模型的训练结果构建哈夫曼树模型；

其中，基于步骤S21中的语言文本的抽取，以计算各个所述语言模块中对应词语被抽取的词频，并根据该词频抽取结果构建哈夫曼树模型，因此，本实施例通过采用哈夫曼树模型和3-gram训练方式的设计，可以有效的在语言模型训练过程中添加新增词汇和新增句式等内容，进而提高了语言模型训练的拓展性；

步骤S41，对所述训练文本进行训练，以得到文本语言模型；

步骤S51，获取待识别语音进行音素识别，得到音素串，并将所述音素串依序与每个所述模块语言模型中的样本音素进行匹配；

步骤S61，当所述音素串与所述模块语言模型匹配失败时，根据所述模块语言模型对所述音素串进行错误标记；

其中，当判断到所述音素串中的音素与任意语言模块中的模块语言模型中的所有音素均不匹配时，则判定该音素串与当前模块语言模型匹配失败，则通过该模块语言模型的名称或对应语言模块的名称对该音素串进行错误标记；

具体的，该错误标记可以采用文字、编号或图像的方式进行标记，例如当采用文字的方式进行错误标记时，则根据该语言模块的名称进行标记，例如当名词模块与音素串匹配失败时，则在该音素串上标记“缺少名词”，当动词模块与音素串匹配失败时，则在该音素串上标记“缺少动词”；

当采用图像的方式进行音素串的错误标记时，则根据该语言模块的名称查询对应预设图像，以使根据该预设图像对该音素串进行标记，该预设图像可以根据需求进行设置，每个语言模块所对应的预设图像不相同；

步骤S71，当所述音素串与所述模块语言模型中的所述样本音素之间的匹配数量大于或等于预设数量时，将所有匹配成功的所述样本音素进行输出；

其中，该预设数量可以根据需求进行设置，本实施例中，该预设数量为2个，即当判断到所述音素串与所述模块语言模型中的所述样本音素之间的匹配数量大于或等于2时，则将匹配到的所述样本音素全部作为当前语言模块的输出结果进行输出；

例如，该音素串与名词模块中的模块语言模型中的样本音素A、样本音素B和样本音素C均匹配成功时，则将样本音素A、样本音素B和样本音素C作为该名词模块的输出结果；

步骤S81，当所述匹配数量小于所述预设数量时，将所述模块语言模型对应的所述语言模块的结果进行输出，以得到音素匹配结果；

其中，当判断到所述匹配数量小于2且大于0时，即该匹配数量为1个时，则将该语言模块的输出结果直接进行输出；

例如当动词模块中模块语言模型与该音素串之间只匹配成功一次时，直接将该动词模块的结果进行输出；

步骤S91，将各个所述语言模块输出的所述样本音素进行组合，以得到组合信息；

其中，所述组合信息中存储有多个音素组合串，该步骤中，通过将各个所述语言模块输出的所述样本音素进行组合的设计，有效的提高了输出结果的多样性；

例如当所述名词模块与该音素串匹配后得到的输出结果为：样本音素A和样本音素B，动词模块与该音素串匹配后得到的输出结果为：样本音素C；形容词模块与该音素串匹配后得到的输出结果为：样本音素D和样本音素E；副词模块与该音素串不匹配时，则经过组合得到的组合信息包括：

第一音素组合串：样本音素A、样本音素C、样本音素D；

第二音素组合串：样本音素B、样本音素C、样本音素D；

第三音素组合串：样本音素A、样本音素C、样本音素E；

第四音素组合串：样本音素B、样本音素C、样本音素E；

步骤S101，根据所述文本语言模型分别对所述音素组合串进行概率计算，以得到多个所述概率值，并将最大的概率值对应的句子进行输出；

优选的，本实施例中，当完成所述音素串与所述模块语言模型之间的匹配步骤时，所述方法还包括：

根据所述音素串上词汇类型标记的标记结果进行类型匹配，以得到语句类型，并根据所述语句类型对所述待识别语音进行语境标记；

其中，通过对该音素串进行词汇类型标记的设计，有效的方便了用户在数据查询过程中对各个音素所对应词汇类型的查看和了解，优选的，通过根据所述音素串上词汇类型标记的标记结果进行类型匹配的设计，能有效的对该音素串及该音素串对应的待识别语音进行语句类型的标记，例如陈述句标记、疑问句标记或语句结构的标记；

具体的，该语句结构可以根据需求进行设置，例如主语+谓语结构、主语+谓语+宾语结构等，因此，可以通过各个语言模块分析待识别语音中是否缺少对应的语句成分，例如通过动词模块，可以分析该待识别语音是否存在主语和谓语。

本实施例中，通过进行训练文本的分类和语言词典的构建设计，有效的提高了语言模型的训练效率和准确性，通过基于对所述语言模块中的模块语言模型进行模型训练和对所述训练文本进行训练的设计，使得可以有效的进行语言模型的拓展，通过基于音素识别的方式进行语音识别，有效的提高了语音模型的识别效率。

实施例三

请参阅图3，是本发明第三实施例提供的语言模型训练***100的结构示意图，包括：文本分类模块10、模型训练模块11、音素匹配模块12和概率计算模块13，其中：

文本分类模块10，用于获取训练文本和训练词汇，对所述训练文本进行分类，以得到多个语言模块，并根据所述训练词汇构建对应所述语言模块的语言词典；

模型训练模块11，用于根据所述语言词典对所述语言模块中的模块语言模型进行模型训练，并对所述训练文本进行训练，以得到文本语言模型。

其中，所述模型训练模块11还用于：根据所述语音词典在所述训练文本中抽取所述语言模块对应的语言文本；根据所述语言文本采用3-gram训练方式对所述模块语言模型进行训练；获取所述语言模块中被抽取的所述语言文本中对应词语的词频，并根据所述词频和所述语言模型的训练结果构建哈夫曼树模型。

音素匹配模块12，用于获取待识别语音进行音素识别，得到音素串，并将所述音素串与所述模块语言模型进行匹配，以得到音素匹配结果。

其中，所述音素匹配模块12还用于：将所述音素串依序与每个所述模块语言模型中的样本音素进行匹配；当所述音素串与所述模块语言模型中的所述样本音素之间的匹配数量大于或等于预设数量时，将所有匹配成功的所述样本音素进行输出；当所述匹配数量小于所述预设数量时，将所述模块语言模型对应的所述语言模块的结果进行输出。

概率计算模块13，用于通过所述文本语言模型对所述音素匹配结果进行概率计算，并将最大的概率值对应的句子进行输出。

其中，所述概率计算模块13还用于：将各个所述语言模块输出的所述样本音素进行组合，以得到组合信息，所述组合信息中存储有多个音素组合串；根据所述文本语言模型分别对所述音素组合串进行概率计算，以得到多个所述概率值。

优选的，所述语言模型训练***100还包括：

类型标记模块14，用于当所述音素串与所述模块语言模型匹配失败时，根据所述模块语言模型对所述音素串进行错误标记。

此外，所述类型标记模块14还用于：当所述音素串与所述模块语言模型匹配成功时，对所述音素串进行词汇类型标记；根据所述音素串上词汇类型标记的标记结果进行类型匹配，以得到语句类型，并根据所述语句类型对所述待识别语音进行语境标记。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语言模型训练方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

通过所述文本语言模型对所述音素匹配结果进行概率计算，并将最大的概率值对应的句子进行输出。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的语言模型训练***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的语言模型训练方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语言模型训练***中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标语言模型训练***的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语言模型训练方法，其特征在于，所述方法包括：

通过所述文本语言模型对所述音素匹配结果进行概率计算，并将最大的概率值对应的句子进行输出；

所述将所述音素串与所述模块语言模型进行匹配的步骤包括：

2.如权利要求1所述的语言模型训练方法，其特征在于，所述根据所述语言词典对所述语言模块中的模块语言模型进行模型训练的步骤包括：

根据所述语言词典在所述训练文本中抽取所述语言模块对应的语言文本；

3.如权利要求1所述的语言模型训练方法，其特征在于，所述通过所述文本语言模型对所述音素匹配结果进行概率计算的步骤包括：

4.如权利要求1所述的语言模型训练方法，其特征在于，所述将所述音素串依序与每个所述模块语言模型中的样本音素进行匹配的步骤之后，所述方法还包括：

5.如权利要求1所述的语言模型训练方法，其特征在于，所述将所述音素串与所述模块语言模型进行匹配的步骤之后，所述方法还包括：

6.一种语言模型训练***，其特征在于，所述***包括：

音素匹配模块，用于获取待识别语音进行音素识别，得到音素串，并将所述音素串与所述模块语言模型进行匹配，以得到音素匹配结果；所述将所述音素串与所述模块语言模型进行匹配的步骤包括：将所述音素串依序与每个所述模块语言模型中的样本音素进行匹配；当所述音素串与所述模块语言模型中的所述样本音素之间的匹配数量大于或等于预设数量时，将所有匹配成功的所述样本音素进行输出；当所述匹配数量小于所述预设数量时，将所述模块语言模型对应的所述语言模块的结果进行输出；

7.如权利要求6所述的语言模型训练***，其特征在于，所述模型训练模块还用于：

8.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至5任一项所述的语言模型训练方法。

9.一种存储介质，其特征在于，其存储有权利要求8所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至5任一项所述的语言模型训练方法的步骤。