CN113380225B

CN113380225B - 语言模型的训练方法、语音识别方法及相关装置

Info

Publication number: CN113380225B
Application number: CN202110678753.8A
Authority: CN
Inventors: 吴振宗; 徐易楠; 康世胤; 许佳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2024-05-17
Anticipated expiration: 2041-06-18
Also published as: CN113380225A

Abstract

本申请实施例提供的语言模型的训练方法、语音识别方法及相关装置，方法包括：获得口语训练语料集和业务训练语料集；其中，口语训练语料集是在任意场景下采集的文本集；业务数据集是在直播场景下采集的主播用户对应的文本集；根据口语训练语料集，对初始的语言模型进行预训练，获得预训练的语言模型；根据业务训练语料集，对预训练的语言模型进行微调训练，获得训练后的语言模型。本申请的训练样本不仅有业务训练语料，还有口语语料，在训练过程中先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练，从而使得获得的语言模型不仅能够适配业务场景，还能避免出现过拟合。

Description

语言模型的训练方法、语音识别方法及相关装置

技术领域

本申请涉及语音识别领域，具体而言，涉及一种语言模型的训练方法、语音识别方法及相关装置。

背景技术

随着人工智能和自然语言处理技术的不断发展，语音识别技术也得到了快速地发展。采用语音识别技术可以自动将音频信号转变为相应的文本或命令，可以应用在普通的、日常的语音识别场景中，并取得较好的识别效果。

近年来，端到端语音识别(E2E-ASR)已经逐渐成为主流，但是在具体的应用场景中，端到端语音识别用到的语言模型的训练样本仅仅是业务数据，而业务数据通常呈现出短文本多长文本少的分布状态，训练过程容易过拟合，无法适配业务场景。

发明内容

为了解决上述技术问题，本申请的目的在于提供一种语言模型的训练方法、语音识别方法及相关装置。

本申请实采用的技术方案如下：

第一方面，本申请提供一种语言模型的训练方法，所述方法包括：获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务数据集是在直播场景下采集的主播用户对应的文本集；根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。

第二方面，本申请提供一种语音识别方法，所述方法包括：获得待识别语音；基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本；其中，所述语言模型是基于口语训练语料集和业务训练语料集训练而成；所述口语训练语料集是在任意场景下采集的文本集；所述业务训练语料集是在直播场景下采集的主播用户对应的文本集。

第三方面，本申请提供一种语言模型的训练装置，包括：获得模块，用于获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务数据集是在直播场景下采集的主播用户对应的文本集；训练模块，用于根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。

第四方面，本申请提供一种语音识别装置，包括：获得模块，用于获得待识别语音；识别模块，用于基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本；其中，所述语言模型是基于口语训练语料集和业务训练语料集训练而成；所述口语训练语料集是在任意场景下采集的文本集；所述业务数据是在直播场景下采集的主播用户对应的文本集；所述口语训练语料集和所述业务训练语料集中均具有长度大于预设长度的文本。

第五方面，本申请提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现第一方面所述的方法或者第二方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法或者第二方面所述的方法。

本申请实施例提供一种语言模型的训练方法、语音识别方法及相关装置，所述方法包括：获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务数据集是在直播场景下采集的主播用户对应的文本集；根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。与现有技术的区别在于，现有技术仅仅采用业务数据训练语言模型，而业务数据通常呈现出短文本多长文本少的分布状态，训练过程容易过拟合，训练得到的语言模型对应长难句的识别准确率较低，而本申请为了解决上述技术问题，训练样本不仅有业务数据，还有口语化语料，在训练过程中采用了先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练，从而使得获得的语言模型不仅能够适配业务场景，避免出现过拟合。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为业务数据的分布状态图；

图2为本申请实施例提供的应用环境；

图3为本申请实施例提供的语言模型的训练方法的示意性流程图；

图4为一种语言模型的解码示意图；

图5为本申请实施例提供的语言模型的训练方法的另一种示意性流程图；

图6为本申请实施例提供的一种处理长文本的示意图；

图7为本申请实施例提供的一种语音识别方法的示意性流程图；

图8为一种语音识别的示意图；

图9为一种浅融合语音识别示意图；

图10为一种深融合语音识别示意图；

图11为本申请实施例提供的一种用户界面的示意性流程图；

图12为本申请实施例提供的一种语言模型的训练装置的功能模块图；

图13为本申请实施例提供的一种语音识别装置的功能模块图；

图14为本申请实施例提供的一种电子设备结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

自动语音识别(AutomaticSpeechRecognition，简称ASR)指的是将麦克风采集到的自然声音转化为文字的过程。近年来，端到端语音识别(E2E-ASR)已经逐渐成为主流，因为其不但比kaldi更好训练，并且随着数据的增多，性能也逐渐超过kaldi。但是对于端到端语音识别，语音识别模型(ASRModel)其本身并不包含语言模型，所以解码时容易造成多音字，使得解码正确率降低。因此，在实际应用场景中，对于离线场景，可以采用语音识别模型和语言模型的浅融合方案进行语音识别。

然而，现有的训练语言模型的方式只使用业务数据进行训练，而业务数据通常呈现出短文本多长文本少的分布状态，如图1所示，图1为业务数据的分布状态图，因此，训练过程容易过拟合，无法适配业务场景，训练得到的语言模型对应长难句的识别准确率较低。

为了解决上述问题，本申请提出了一种适用于语音识别的语言模型训练框架，不但同时适用于离线模型和流式模型，还对长难句有更好的提升。

下面将结合相关附图对本申请实施例提供的语言模型的训练方法进行详细阐述。

首先请参见图2，图2为本申请实施例提供的应用环境。其中，终端11通过网络与服务器12进行交互。服务器12可以用于构建语言模型，并通过服务器12对构建的语言模型进行训练。具体的，服务器12可以获取口语训练语料集和业务训练语料集；根据口语训练语料集对构建的语言模型进行预训练，然后根据业务训练语料集对预训练的语言模型进行微调训练，最终得到训练后的语言模型；服务器12可以将完成训练的语言模型发布至终端11中。

终端11接收待识别语音信号；通过对待识别语音信号进行处理，得到待识别语音信号对应的文字序列，对文字序列进行分词得到文字序列对应的各词语；将文字序列对应的各词语输入至语音识别模型和语言模型中，对文字序列对应的各词语的语言概率进行预测；根据文字序列对应的各词语的语言概率，得到待识别语音信号对应的目标文本。

其中，终端11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器12可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供的语言模型的训练方法，可以应用在图1所示的服务器，该训练方法的实现过程可以参见图3，图3为本申请实施例提供的语言模型的训练方法的示意性流程图，该方法可以包括：

S300，获得口语训练语料集和业务训练语料集。

在本申请实施例中，口语训练语料集是在任意场景下采集的文本集，可以通过现有任意一种爬虫技术从网络中采集得到，口语训练语料集中涉及任何领域、场景的语料，例如日常日常生活中某个范围(比如微博、微信等)内出现的语料，而在本申请实施例中，业务数据集是在直播场景下采集的主播用户对应的文本集。

S305，根据口语训练语料集，对初始的语言模型进行预训练，获得预训练的语言模型。

可以理解的是，预训练(pre-training/trained)就是指预先训练的一个模型或者指预先训练模型的过程，初始的语言模型可以但不限于是单向长短期记忆模型(LongShort-TermMemory，简称LSTM)，在预训练过程中，可以将文本长度过小的文本剔除，例如，将文本长度小于5的文本剔除掉，将剩余的文本作为训练样本进行训练，当达到收敛条件后就停止训练，获得预训练的语言模型。

S306，根据业务训练语料集，对预训练的语言模型进行微调训练，获得训练后的语言模型。

可以理解的是，微调训练(finetuning)就是指将预训练过的模型作用于自身业务数据集，并使参数适应自身业务数据的过程，在预训练过程中，同预训练过程一样，先剔除文本长度过小的文本，将剩余的文本作为训练样本进行训练，当达到收敛条件后就停止训练，获得期望的语言模型。

在本申请实施例中，为了使获得语言模型能够适应与各个场景，口语训练语料集的文本规模远大于业务训练语料集的文本规模。同时，在上述预训练和微调训练的过程中，可以采用AdamW优化器以及预热过程，以使在训练开始的时候，学习率由很低逐渐开始往上加，防止模型在用业务数据微调的时候出现过拟合。

本申请实施例提供一种语言模型的训练方法，与现有技术的区别在于，现有技术仅仅采用业务数据训练语言模型，而业务数据通常呈现出短文本多长文本少的分布状态，训练过程容易过拟合，训练得到的语言模型对应长难句的识别准确率较低，而本申请为了解决上述技术问题，训练样本不仅有业务数据，还有口语化语料，在训练过程中采用了先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练，从而使得获得的语言模型不仅能够适配业务场景，避免出现过拟合。

可选地，在实际主播场景中，对于长难句而言，现有的语音识别模型的解码效果较差，而现有的语言模型在训练过程中使用的长文本太少，使得模型对于长文本建模较差以及容易产生错误积累，使得语音识别模型对长难句的解码不理想。例如，当语音识别模型开始解码长度为50的长文本时，可能因为梯度累计的问题，解码到20个字的时候就累积了很多的错误梯度，导致累计错误输入到模型，这时候如果按照原有的语言模型进行语音识别，可能会因为累计错误解码出错误的文本。

此外，在一些直播场景中，主播说话的句子经常会缺少开头，尤其是流式解码，当利用语音活动检测(VoiceActivityDetection,VAD)技术进行截断效果不好时，语言模型在实际解码的时候，非常容易出现缺少开头或者结尾的文本，为了解决这个问题，相关技术采取了一种解码方式，即在语言模型的解码过程中，加上了移动窗口进行解码，例如，参见图4，图4为一种语言模型的解码示意图，即每隔一定20个字就重新初始化一遍隐藏层，把隐藏层的错误累计全部清零。同时，会提前5个字初始化隐藏层，用这个初始化后的隐藏层来计算。

然而，在实际使用上述解码方案时，解码效果反而变差了，申请人发现原因是训练模型的时候，模型学到的都是完整的句子，对于移动窗口截断的句子并不能很好的解码。

为了解决上述问题，改善语言模型对长文本的解码效果，下面给出一种口语训练语料集和业务训练语料集中的长文本的处理方式，请参见图5，图5为本申请实施例提供的语言模型的训练方法的另一种示意性流程图，该方法还可以包括：

S301，获得口语训练语料集中的第一待处理文本和业务训练语料集中的第二待处理文本。

其中，第一待处理文本和第二待处理文本各自的文本长度大于预设长度，可以理解的是，根据业务需求，可以自定义预设长度，文本长度大于预设长度的文本可以视为长文本。例如，预设长度可以是17，当文本长度大于17时，则可以认为该文本为待处理文本。

S302，根据预设截断概率和预设截断长度，分别对第一待处理文本和第二待处理文本进行截断。

S303，将截断后的第一待处理文本作为口语训练语料集中的训练语料，将截断后的第二待处理文本作为业务训练语料集中的训练语料。

可以理解的是，在训练过程中，当一句话较长时，就随机去掉一部分开头数据来模拟真实场景，让模型可以更好的学习长文本，或者说，对长文本进行了上采样。具体的上采样方法可以参见图6，图6为本申请实施例提供的一种处理长文本的示意图，每一步都对应一次截断，可以看出，每一长文本可以进行多次截断，每次截断得到的文本都可以作为一个训练语料，例如，在每一步训练的时候，把其中的长度超过17的句子按百分之二十的概率进行截断，截断的长度从一到十随机。这样在多轮训练后，模型可以学到在任意位置截断的句子，即使从句子中间开始解码，模型也能正常解码。

可选地，在获得口语训练语料集和业务训练语料集后，还可以对口语训练语料集和业务训练语料集中的每个文本进行语料清洗，目的是去除文本中的标点符号。

可选地，在训练语言模型的过程中，用来训练语言模型的字典与训练语音识别模型的字典相同，这样可以使得语言模型对语言模型的字典序列进行离线解码时，降低识别错误率。

本申请实施例提供的语言模型的训练方法可以针对不同场景的语音识别***。而且对视频直播场景存在的多音字和错别字，有显著的改善。对于主播业务数据，在离线场景使用浅融合语音识别能够将识别错误率降低10％，对于流式场景使用重打分的语言识别，错误率降低了5％。两者都对长难句有了显著的改善。

基于上述训练方法获得的语言模型，本申请实施例还提供了一种语音识别方法，请参见图7，图7为本申请实施例提供的一种语音识别方法的示意性流程图，该方法可以包括：

S401，获得待识别语音。

S402，基于预训练的语音识别模型和语言模型，获得待识别语音对应的目标文本。

可以理解的是，该语言模型是基于口语训练语料集和业务训练语料集训练而成；口语训练语料集是在任意场景下采集的文本集；业务训练语料集是在直播场景下采集的主播用户对应的文本集。

在一种可能的方式中，基于预训练的语音识别模型和语言模型，获得待识别语音对应的目标文本的实现过程可以如图8所示，图8为一种语音识别的示意图，把解码获得的文本输入到LM中，得到对应的分数，然后将语言模型获得的分数和语言识别模型对这个文本的分数相加，最后重新排列顺序，将分数最高对应的文本作为最终识别的文本。

在另一种可能的实施方式中，结合本申请实施例提供的语言模型，可以采用浅融合(Shallowfusion)技术进行语音识别，该语音识别过程可以是：

步骤1，获得待处理语音对应的音频特征。

可以理解的是，音频特征主要有线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。

步骤2，基于语音识别模型，获得音频特征对应的文字序列以及文字序列中每个词语对应的第一分布概率。

步骤3，基于语言模型，获得每个词语对应的第二分布概率。

步骤4，将第一分布概率和第二分布概率之和最大时对应的词语组成目标文本。

例如，参见图9，图9为一种浅融合语音识别示意图，具体的，将音频特征z输入语音识别模型(ASR)后，能得到第一分布概率P_asr；将上一步解码获得的文本以及语言模型(LM)隐藏层信息H输入到语言模型，就能得到第二分布概率P_lm，按一定权重把LM和ASR模型的第一分布概率P_asr和第二分布概率P_lm相加，直到最后解码结束。其中，图9中的所示的c1和c2分别是每一次解码获得的概率之和最大时对应的词语。

在另一种可能的实现方式中，结合本申请实施例体的语言模型，还可以通过深融合(Deepfusion)进行语音识别，例如，参见图10，图10为一种深融合语音识别示意图，具体地，把训练好的语音模型和语言模型的模型隐藏层加起来，再用一个网络训练他们，这样子可以达到权重自适应。但是问题在于不能随便改变语言模型，不能随便换领域，改进方法是在softmax之前接进来，这样他输出的tokensize是固定的，可以更换语言模型。

可选地，为了方便用户在日常场景中进行语音识别，下面还给出一种用户界面的实现方式，请参见图11，图11为本申请实施例提供的一种用户界面的示意性流程图，其中，用户界面上具有语音录入区域、开始识别标识和文本预览区域，当设备接收到在语音录入区域的录入指令，获得待识别语音，可以看出，用户可以通过操作录音标识实时录制语音信号，或者，用户还可以操作文件上传标识，上传预先录制好的语音信号。当设备接收到针对开始识别标识的操作指令，可以基于语音识别模型和语言模型，获得目标文本，并将目标文本显示在文本预览区域。

为了执行上述实施例及各个可能的方式中的语言模型的训练方法的步骤，下面给出一种语言模型的训练装置的实现方式，请参阅图12，图12为本申请实施例提供的一种语言模型的训练装置的功能模块图。需要说明的是，本实施例所提供的语言模型的训练装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该语言模型的训练装置30包括：

获得模块31，用于获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务数据集是在直播场景下采集的主播用户对应的文本集；

训练模块32，用于根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。

可选地，该语言模型的训练装置30还包括处理模块，用于：获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本；其中，所述第一待处理文本和所述第二待处理文本各自的文本长度大于所述预设长度；根据预设截断概率和预设截断长度，分别对所述第一待处理文本和所述第二待处理文本进行截断；将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料，将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料。

可选地，处理模块，还用于：对所述口语训练语料集和所述业务训练语料集中的每个文本进行语料清洗。

为了执行上述实施例及各个可能的方式中的语音识别方法的步骤，下面给出一种语音识别装置的实现方式，请参阅图13，图13为本申请实施例提供的一种语音识别装置的功能模块图。需要说明的是，本实施例所提供的语音识别装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该语音识别装置40包括：

获得模块41，用于获得待识别语音；

识别模块42，用于基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本；其中，所述语言模型是基于口语训练语料集和业务训练语料集训练而成；所述口语训练语料集是在任意场景下采集的文本集；所述业务训练语料集是在直播场景下采集的主播用户对应的文本集；。

可选地，所述语言模型通过以下方式训练：根据所述口语训练语料集，对初始的所述语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。

可选地，识别模块42，具体用于获得所述待处理语音对应的音频特征；基于所述语音识别模型，获得所述音频特征对应的文字序列以及所述文字序列中每个词语对应的第一分布概率；基于所述语言模型，获得所述每个词语对应的第二分布概率；将所述第一分布概率和所述第二分布概率之和最大时对应的词语组成所述目标文本。

本申请实施例还提供一种电子设备，如图14，图14为本申请实施例提供的一种电子设备结构框图。该电子设备80包括通信接口81、处理器82和存储器83。该处理器82、存储器83和通信接口81相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器83可用于存储软件程序及模块，如本申请实施例所提供的基于语言模型的训练方法或者语音识别方法对应的程序指令/模块，处理器82通过执行存储在存储器83内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口81可用于与其他节点设备进行信令或数据的通信。在本申请中该电子设备80可以具有多个通信接口81。

其中，存储器83可以是但不限于，随机存取存储器(RandomAccessMemory，RAM)，只读存储器(ReadOnlyMemory，ROM)，可编程只读存储器(ProgrammableRead-OnlyMemory，PROM)，可擦除只读存储器(ErasableProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory，EEPROM)等。

处理器82可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

可选地，上述模块可以软件或固件(Firmware)的形式存储于图13所示的存储器中或固化于该电子设备的操作***(OperatingSystem，OS)中，并可由图13中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项语言模型的训练方法或者语音识别方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语言模型的训练方法，其特征在于，所述方法包括：

获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务训练语料集是在直播场景下采集的主播用户对应的文本集；

获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本；其中，所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度；根据预设截断概率和预设截断长度，分别对所述第一待处理文本和所述第二待处理文本进行截断；将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料，将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料；

根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；

根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型；在多轮训练后，所述语言模型能够学到在任意位置截断的句子，能够从所述句子的中间位置开始正常解码。

2.根据权利要求1所述的语言模型的训练方法，其特征在于，获得口语训练语料集和业务训练语料集之后，所述方法还包括：

对所述口语训练语料集和所述业务训练语料集中的每个文本进行语料清洗。

3.一种语音识别方法，其特征在于，所述方法包括：

获得待识别语音；

基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本；

其中，所述语言模型是基于口语训练语料集和业务训练语料集训练而成；所述口语训练语料集是在任意场景下采集的文本集；所述训练语料集是在直播场景下采集的主播用户对应的文本集；

所述语言模型通过以下方式训练：获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本；其中，所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度；根据预设截断概率和预设截断长度，分别对所述第一待处理文本和所述第二待处理文本进行截断；将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料，将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料；根据所述口语训练语料集，对初始的所述语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型；在多轮训练后，所述语言模型能够学到在任意位置截断的句子，能够从所述句子的中间位置开始正常解码。

4.根据权利要求3所述的语音识别方法，其特征在于，基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本，包括：

获得所述待识别语音对应的音频特征；

基于所述语音识别模型，获得所述音频特征对应的文字序列以及所述文字序列中每个词语对应的第一分布概率；

基于所述语言模型，获得所述每个词语对应的第二分布概率；

将所述第一分布概率和所述第二分布概率之和最大时对应的词语组成所述目标文本。

5.根据权利要求3所述的语音识别方法，其特征在于，获得待识别语音，包括：

显示语音识别的用户界面；所述用户界面上具有语音录入区域、开始识别标识和文本预览区域；

当在所述语音录入区域接收到录入指令，获得所述待识别语音；

基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本的步骤，包括：

当接收到针对所述语音开始识别标识的操作指令，基于所述语音识别模型和所述语言模型，获得所述目标文本，并将所述目标文本显示在所述文本预览区域。

6.一种语言模型的训练装置，其特征在于，包括：

获得模块，用于获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务训练语料集是在直播场景下采集的主播用户对应的文本集；

获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本；其中，所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度；根据预设截断概率和预设截断长度，分别对所述第一待处理文本和所述第二待处理文本进行截断；将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料，将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料；根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；

训练模块，用于根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型；在多轮训练后，所述语言模型能够学到在任意位置截断的句子，能够从所述句子的中间位置开始正常解码。

7.一种语音识别装置，其特征在于，包括：

获得模块，用于获得待识别语音；

识别模块，用于基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本；

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1-2任意一所述的方法或者3-5任意一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-2任意一所述的方法或者3-5任意一所述的方法。