CN112116907A

CN112116907A - 语音识别模型建立、语音识别方法、装置、设备和介质

Info

Publication number: CN112116907A
Application number: CN202011140575.5A
Authority: CN
Inventors: 陈顺飞
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2020-12-22

Abstract

本发明公开了一种语音识别模型建立、语音识别方法、装置、设备和存储介质，包括：确定拼音建模单元和汉字词组建模单元；利用拼音建模单元确定音频训练集的拼音标签，利用汉字建模单元确定音频训练集的汉字词组标签；通过预先构建的多任务训练模型，利用拼音标签、汉字词组标签和音频训练集中音频特征进行训练，建立语音识别模型。本实施例中，通过汉字作为基础建模单元，避免出现过多的oov，然后在中文汉字的基础上加入高频词汇进行建模，使得模型在训练过程中对于常用词汇能够进行整体性的学习，同时，在汉字词组建模单元的基础上，引入拼音建模单元，以解决训练数据稀疏问题，使得模型能够更好的区分不同发音的汉字识别，提升模型鲁棒性。

Description

语音识别模型建立、语音识别方法、装置、设备和介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别模型建立、语音识别方法、装置、设备和介质。

背景技术

随着人工智能技术的发展，在音频处理场景下，存在识别出一段音频其对应的文本内容的情况。相关技术中，一般是采用多种训练方式对现有基础模型进行训练，得到训练好的语音识别模型。采用上述语音模型进行语音识别，得到其对应的文本内容。

目前中文端到端语音识别模型中主流的建模单元有：汉字(character)，子词(Sub-words)，单词(word)，音节(Syllables)，上下文相关的音素信息(context dependentphoneme,CDP)，上下文无关的音素信息(context-independent phonemes，CI-phonemes)等。相关技术中通常是以汉字，子词，拼音作为建模单元。

以拼音作为建模单元，可以解决生僻汉字训练集覆盖不充分问题，使得模型对于拼音的区分更具有鲁棒性，但是以拼音作为建模单元，输出识别结果的可读性将会下降。以汉字作为建模单元在汉字训练集覆盖面全的情况下可以训练得到较好的结果，但是以汉字为建模单元，拆散了词组之间的关联性。而以子词或者是词组作为建模单元虽然能够保留词组内在的上下文关联性，但是字节与子词的词汇规模较大，容易造成训练集覆盖不全或者产生过多集外词(out-of-vocabulary，oov)的情况。

发明内容

本发明提供一种语音识别模型建立、语音识别方法、装置、设备和介质，解决训练数据稀疏性分布问题，避免出现过多的oov，对于常用词汇能够进行整体性的学习。

第一方面，本发明实施例提供了一种语音识别模型建立方法，包括：

确定拼音建模单元和汉字词组建模单元；

利用所述拼音建模单元确定音频训练集的拼音标签，利用所述汉字建模单元确定音频训练集的汉字词组标签；

通过预先构建的多任务训练模型，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型。

进一步的，所述确定拼音建模单元，包括：

利用汉字转拼音工具，将文本训练集中的文本转换为拼音；

基于转换后的拼音确定拼音建模单元，其中，所述拼音包括音节和声调。

进一步的，确定汉字词组建模单元，包括：

对第一文本训练集中的文本进行汉字分词，得到汉字词典；

统计所述第一文本训练集中的高频词组；

将所述高频词组添加至所述汉字词典中，得到汉字词组建模单元。

进一步的，将所述高频词组添加至所述汉字词典中，得到汉字词组建模单元之后，还包括：

将第二文本训练集的文本中的所述高频词组进行标记；

对所述文本训练集的文本进行汉字分词；其中，在汉字分词过程后中，如果遇到被标记的高频词组，则被标记的的高频词组不进行分词；

将分词后的汉字添加至所述汉字词组建模单元，得到新的汉字词组建模单元。

进一步的，所述构建多任务训练模型，包括：

以transformer模型作为基础模型；

以transformer模型中的第一预设层作为编码层，以transformer模型中的第二预设层作为解码层；

以修正线性单元函数作为激活函数，构建多任务训练模型结构框架。

进一步的，所述构建多任务训练模型，还包括：

在transformer模型的解码层，构建以所述汉字词组建模单元作为输出的Attention损失函数；

在transformer模型的编码层，构建以所述拼音建模单元作为输出的CTC损失函数。

进一步的，所述Attention损失函数的权重值为第一预设数值，所述CTC损失函数的权重值为第二预设数值，其中，所述第一预设数值大于所述第二预设数值。

进一步的，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型之后，还包括：

将所述音频测试集中的音频输入所述语音识别模型，得到音频测试集对应的识别文本；

将所述对应的识别文本与所述验证文本进行比对，确定识别正确率；

第二方面，本发明实施例还提供了一种语音识别方法，包括：

获取待识别音频；

利用语音识别模型对所述待识别音频进行识别，得到所述待识别音频对应的汉字和拼音，其中，所述语音识别模型采用上述第一方面中所述语音识别模型建立方法建立。

第三方面，本发明实施例还提供了一种语音识别模型建立装置，包括：

建模单元确定模块，用于确定拼音建模单元和汉字词组建模单元；

标签确定模块，用于利用所述拼音建模单元确定音频训练集的拼音标签，利用所述汉字建模单元确定音频训练集的汉字词组标签；

训练模块，用于通过预先构建的多任务训练模型，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型。

进一步的，建模单元确定模块51，包括：

拼音建模单元，用于利用汉字转拼音工具，将文本训练集中的文本转换为拼音；基于转换后的拼音确定拼音建模单元，其中，所述拼音包括音节和声调。

进一步的，建模单元确定模块51，包括：

汉字词组建模单元，用于对第一文本训练集中的文本进行汉字分词，得到汉字词典；统计所述第一文本训练集中的高频词组；将所述高频词组添加至所述汉字词典中，得到汉字词组建模单元。

进一步的，汉字词组建模单元，还用于将第二文本训练集的文本中的所述高频词组进行标记；对所述文本训练集的文本进行汉字分词；其中，在汉字分词过程后中，如果遇到被标记的高频词组，则被标记的的高频词组不进行分词；将分词后的汉字添加至所述汉字词组建模单元，得到新的汉字词组建模单元。

进一步的，所述构建多任务训练模型，包括：以transformer模型作为基础模型；

以transformer模型中的第一预设层作为编码层，以transformer模型中的第二预设层作为解码层；以修正线性单元函数作为激活函数，构建多任务训练模型。

进一步的，所述构建多任务训练模型，还包括：在transformer模型的解码层，构建以所述汉字词组建模单元作为输出的Attention损失函数；在transformer模型的编码层，构建以所述拼音建模单元作为输出的CTC损失函数。

具体的，所述Attention损失函数的权重值为第一预设数值，所述CTC损失函数的权重值为第二预设数值，其中，所述第一预设数值大于所述第二预设数值。

进一步的，所述装置还包括：

输入模块，用于将所述音频测试集中的音频输入所述语音识别模型，得到音频测试集对应的识别文本；

识别正确率确定，用于将所述对应的识别文本与所述验证文本进行比对，确定识别正确率；

训练模块，利用多任务训练方法，将音频文件与对应的汉字词组标签，拼音标签作为训练集，进行模型训练。

第四方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明实施例中任一所述的方法。

上述实施例提供的语音识别模型建立、语音识别方法、装置、设备和存储介质，包括：确定拼音建模单元和汉字词组建模单元；利用拼音建模单元确定音频训练集的拼音标签，利用汉字建模单元确定音频训练集的汉字词组标签；通过预先构建的多任务训练模型，利用拼音标签、汉字词组标签和音频训练集中音频特征进行训练，建立语音识别模型。本实施例中，通过汉字作为基础建模单元，避免出现过多的oov，然后在中文汉字的基础上加入高频词汇进行建模，使得模型在训练过程中对于常用词汇能够进行整体性的学习，在多任务训练中引入拼音建模单元，使得模型对于识别拼音的区分能力更强。

附图说明

图1为本发明实施例提供的语音识别模型建立方法的流程图；

图2是本发明实施例提供的建模单元确定方法的流程图；

图3是本发明实施例提供的音频训练模型的结构图；

图4是本发明实施例提供的语音识别方法的流程图；

图5为本发明实施例提供的语音识别模型建立装置的结构示意图；

图6为本发明实施例提供的语音识别装置的结构示意图；

图7为本发明实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

可选的，端到端语音识别模型是一种语音识别模型结构框架，相比于传统建模方法，减去了发音词典，解码网络等步骤，实现语音特征到文本直接的模型映射。

图1为本发明实施例提供的语音识别模型建立的流程图，本实施例可适用于对建立语音识别模型的情况，该方法可以由语音识别模型建立装置来执行，所述装置可以通过软和/或硬件的方式来实现。所述语音识别模型建立装置例如可以集成在终端设备中。

可选的，本实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

进一步的，如图1所示，本发明实施例提供的语音识别模型建立方法主要包括如下步骤：

S11、确定拼音建模单元和汉字词组建模单元。

在本实施例中，建模单元是指语音识别***中的最小建模单元。在端到端语音识别中，建模单元往往决定了模型输出的最小单元。例如，以汉字的拼音作为建模单元，则端到端模型的输出就是汉字的拼音。

在如下建模单元中，音节，上下文相关的音素信息，上下文无关的音素信息，由于其建模单元的最小颗粒度不是汉字，在实际应用中，往往需要添加额外的模块，比如发音词典模型，将模型的输出转化为汉字，这将会对模型的效果产生影响，同时也会增加端到端模型***的复杂性。其中，音素是指根据语音的自然属性划分出来的最小语音单位。

拼音建模单元是指由拼音构成的建模单元，也可以称为拼音词典。所述拼音包括音节和声调。

其中，音节是指由音素(包含辅音和元音)组合发音的语音单位，拼音语言的音节是由辅音和元音组合发音，汉语的音节是由声母和韵母组合发音，能单独发音的元音也是一个音节。例如：汉字“我”的音节是“wo”。

其中，所述声调是指声音的高低升降的变化，在本实施例中，所述声调是指“平”、“上”、“去”、“入”“轻声”五个类型。进一步的，为了表述方便，在模型训练过程中，“轻声”“平”、“上”、“去”、“入”五类分别用***数字0，1,2,3,4表示。例如：“shi4”则表示4声的“shi”。

汉字词组建模单元是指由单个汉字和常用的高频词组构成的建模单元，也可以称为汉字词组词典，或者汉字+词组建模单元。所述汉字词组建模单元中包括单个汉字和常用词组。汉字可以是任意一个中文汉字，例如：“我”，“是”都是单个汉字。在本实施例中，所述词组可以是两个中文汉字构成的词组，例如“中国”；也可以是多个汉字构成的词组；如：“避风港”“倾国倾城”等。

进一步的，确定拼音建模单元例如可以是直接通过拼音训练集进行获取，再如也可以是通过汉字拼音转换工具将文本训练集中的汉字转换成拼音。其中，所述拼音训练集是指由大量常用拼音构成的数据集。本实施例中，仅对确定拼音建模单元的方法进行说明，而非限定。

进一步的，确定汉字词组建模单元可以是先确定汉字建模单元，再确定词组，将词组添加至汉字建模单元中构成确定汉字词组建模单元。

确定汉字建模单元，可以是将大量汉字依次输入建模单元中，构成汉字建模单元；也可以是对文本训练集进行汉字分词，得到汉字建模单元。所述词组也可以是输入的常用高频词组，也可以是统计文本训练集中的高频词汇。

本实施例中，选择中文汉字作为基础建模单元，避免出现过多的oov，然后在中文汉字的基础上加入高频词组进行建模，使得模型在训练过程中对于常用词汇能够进行整体性的学习，另外，加入拼音建模单元，可以解决生僻汉字训练集覆盖不充分问题，使得模型对于拼音的区分更具有鲁棒性。

S12、利用拼音建模单元确定音频训练集的拼音标签，利用汉字建模单元确定音频训练集的汉字词组标签。

在本实施例中，所述音频训练集是指用于进行模型训练的，大量的音频文件构成的数据集合，是模型进行训练时，输入至模型的数据。所述音频训练集可以是从互联网获取的音频文件或者数据，也可以是通过人工录制的音频文件或者数据。需要说明的是，为了保证模型的识别正确率，音频训练集可以采集多种类型的音频，例如：可以是标准方言，也可以是标准普通话，还可以是方言版普通话。本实施例中，仅对音频训练集进行说明，而非限定。

拼音标签是指模型训练过程中模型期望输出的拼音，汉字词组标签是指模型训练过程中模型期望输出的汉字或者词组。

进一步的，提取音频训练集中一个音频的发音特征数据，基于发音特征数据确定文本特征数据。利用发音特征数据在拼音建模单元依次进行查询，将拼音建模单元与发音特征数据对应的拼音确定为该音频的拼音标签。利用文本特征数据在汉字词组建模单元依次进行查询，将汉字词组建模单元与文本特征数据对应的汉字词组确定为该音频的汉字词组标签。

S13、通过预先构建的多任务训练模型，利用拼音标签、汉字词组标签和音频训练集中音频特征进行训练，建立语音识别模型。

其中，多任务训练模型是指可以并行执行多种任务的训练模型。在本实施例中，以transformer模型为基础模型，在transformer模型的基础上，进行优化和改进，得到本实施例中的多任务训练模型。

本实施例中，模型的训练方法可以是包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost任意机器学习算法中的一种或多种，也可以是深度神经网络算法中的一种或多种。本实施例中仅对模型训练方法进行示例性说明，而非限定。

其中，Transformer模型是一种基于Attention的常用的端到端模型结构，主要由编码层(encoder)和解码层(decoder)两部分组成。在语音识别领域中，encoder部分可以理解为是语音识别模型中的声学模型部分，是为了实现语音到发音的映射关系，decoder部分可以理解为是语音识别模型中的语言模型部分，是对发音到汉字的映射关系。

本实施例中，首先构建以汉字词组的建模单元作为transformer的decoder端输出的损失函数。同时在encoder端，加入以拼音作为建模单元的CTC输出。从而构成不同建模单元下的CTC/Attention联合训练优化模型。

其中，Attention是语音识别模型中的一种注意力机制。CTC(Connectionisttemporal classification)是端到端语音识别模型中常用的一种损失函数。

本实施例中，引入拼音建模方式作为模型训练的辅助次级任务，进行CTC/Attention的联合优化训练。可以使得在模型训练过程中encoder层能够更好地区分不同的发音信息，同时也使得训练集中比较偏僻的汉字可以在模型训练中得到拼音信息。以引入CTC/Attention的方式进行联合训练，只是在模型训练过程中引入了CTC损失函数，对于模型的结构并没有改动，这使得模型的解码效率不会受到影响。

同时，本实施例中结合多种建模单元进行模型训练，充分利用了各个建模单元的优势。相比于以拼音级别的建模单元输出，本实施例中以汉字作为***的主体建模单元输出，不需要考虑在端到端模型后再接发音词典等模块将发音转为汉字，不需要增加额外的模型结构，使得模型结构简单。

最后，本实施例的技术方案相比于传统的单一建模单元的CTC/Attention联合优化方式，在CTC中的建模单元为拼音建模单元，是一种更接近汉语口语发音的建模单元，更有利于模型训练过程中的对齐操作。

本实施例提供的语音识别模型建立方法，首先确定拼音建模单元和汉字词组建模单元；然后利用拼音建模单元确定音频训练集的拼音标签，利用汉字建模单元确定音频训练集的汉字词组标签；最后通过预先构建的多任务训练模型，利用拼音标签、汉字词组标签和音频训练集中音频特征进行训练，建立语音识别模型。本实施例中，通过汉字作为基础建模单元，避免出现过多的oov，然后在中文汉字的基础上加入高频词汇进行建模，使得模型在训练过程中对于常用词汇能够进行整体性的学习，另外，加入拼音建模单元，可以解决生僻汉字训练集覆盖不充分问题，使得模型对于拼音的区分更具有鲁棒性。

在上述实施例的基础上，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型之后，还包括：将所述音频测试集中的音频输入所述语音识别模型，得到音频测试集对应的识别文本；将所述对应的识别文本与所述验证文本进行比对，确定识别正确率；如果所述识别正确率小于正确率阈值，则将所述语音识别模型重新进行训练。

在本实施例中，语音识别模型训练好之后，需要测试该语音识别模型的识别率或者识别正确率。在语音识别模型训练过程中还需要多模型进行优化训练，因此在模型解码的过程，依旧遵循transformer原本的解码方式进行解码。

具体操作如下：完成模型迭代训练后，对测试集进行解码。在解码过程中，计算路径输出得分的时候，忽略CTC计算的拼音得分与路径输出，只考虑decoder端的得分输出与路径输出。统计音频测试集的识别正确率，以汉字为单位统计识别率。

如果识别正确率小于正确率阈值，则表明该模型的识别正确率达不到要求，需要将语音识别模型重新进行优化训练。如果识别正确率大于或等于正确率阈值，则表明该模型的识别正确率满足要求，该语音识别模型不需要再进行训练，可以投入使用。其中，正确率阈值越高，优化后的语音识别模型的识别正确率越高。

需要说明的是，所述正确率阈值可以根据语音识别模型的应用场景进行设置。如果语音识别模型应用在识别要求较高的场景，例如：即时通信软件中的语音转汉字，导航软件中的地址语音识别，可以将正确率阈值设置较大一些。如果语音识别模型应用在识别要求较地的场景，可以将正确率阈值设置较小一些。

图2是本发明实施例提供的建模单元确定方法的流程图，在上述实施例的基础上，本发明实施例对建模单元的确定方法进行了进一步优化。如图2所示，本实施例中提供的建模单元确定方法主要包括如下步骤：

S21、利用汉字转拼音工具，将文本训练集中的文本转换为拼音。

汉字转拼音工具是指可以文本汉字转换成拼音的应用程序。其中，所述汉字转拼音工具可以是在线转换工具，也可以是离线转换工具，本实施例中并不进行限定。

在本实施例中，将文本训练集中的文本依次输入至汉字转拼音工具，汉字转拼音工具依次输出文本对应的拼音。

S22、基于转换后的拼音确定拼音建模单元，其中，拼音包括音节和声调。

其中，所述拼音包括音节和声调。其中，音节是指由音素(包含辅音和元音)组合发音的语音单位，拼音语言的音节是由辅音和元音组合发音，汉语的音节是由声母和韵母组合发音，能单独发音的元音也是一个音节。所述声调是指声音的高低升降的变化，本实施例中，声调是指日常生活中的“一声”，“二声”“三声”“四声”“轻声”五个声调。

在本实施例中，将S21中得到文本训练集中对应的拼音进行汇总，作为拼音词典，即拼音建模单元。

S23、对第一文本训练集中的文本进行汉字分词，得到汉字词典。

在本实施例中，所述第一文本训练集可以理解为需要进行分词，并且统计高频词汇的文本训练集。所述分词是指将连续的字序列按照一定的处理方法，得到汉字或者词组的方法。例如：文本是“我是中国人”，进行分词之后，可以得到5个单独的汉字“我”“是”“中”“国”“人”。

在本实施例中，对第一文本训练集中的文本进行汉字分词的方法可以是现有的规则分词方法，也可以是统计分词方法，还可以是两者结合的混合分词方法。

其中，规则分词主要是通过人工设立字库，按照一定方式进行匹配切分。统计分析是指把每个词看作是由词的最小单位的各个字组成的，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。

进一步的，也可以才有现有的分词工具，直接将文本输入分词工具，得到汉字和词组。

对第一文本训练集中的文本进行汉字分词，将分词后的单个汉字进行汇总，得到汉字词典。

S24、统计第一文本训练集中的高频词组。

S25、将高频词组添加至汉字词典中，得到汉字词组建模单元。

高频词组是指在第一文本训练集中出现次数大于设定阈值的词组。

在本实施例中，利用字节对编码(byte pair encoder，BPE)算法进行分词，对分词后的训练文本进行词频统计，统计筛选出现词频较高的词组作为高频词组。将高频词组添加至上述汉字词典中，得到词组建模单元。

需要说明的是，上述步骤S21、S22需要依次执行，S23，S24，S25需要依次执行。本实施例中并不限定“S21、S22”与“S23，S24，S25”之间的顺序关系，其可以是S21-S25依次执行，也可以是“S23，S24，S25，S21，S22”的顺序执行。还可以是“S21、S22”与“S23，S24，S25”并行执行。

进一步的，将高频词组添加至汉字词典中，得到汉字词组建模单元之后，还包括：将第二文本训练集的文本中的高频词组进行标记；对文本训练集的文本进行汉字分词；其中，在汉字分词过程后中，如果遇到被标记的高频词组，则被标记的的高频词组不进行分词；将分词后的汉字添加至汉字词组建模单元，得到新的汉字词组建模单元。

第二文本集可以理解为需要进行高频词汇标记和分词的文本训练集。需要说明的是，第一文本训练集和第二文本训练集其本质上没有区别，都是一系列的文本组成的集合，其只是用途上的不同。

在本实施例中，基于上述S25中得到的汉字词组建模单元，以汉字词组建模单元中的词组为依次作为检索词，在第二文本训练集的文本中依次进行查找，如果查找到与检索词相同的词组，则将该词组标记为高频词组，直至将所有的第二文本训练集中的文本查询完毕。

然后，对标识后的第二文本训练集中的文本进行以字为单位的分词，在分词过程中，如果遇到被标记的高频词组，则不对该高频词组进行以字为单位的分词。

图3是本发明实施例提供的音频训练模型的结构图。在上述实施例的基础上，本发明实例提供构建多任务训练模型的方法。其中。构建多任务训练模型，包括：以transformer模型作为基础模型；以transformer模型中的第一预设层作为编码层，以transformer模型中的第二预设层作为解码层；以修正线性单元函数作为激活函数，构建多任务训练模型结构框架。

本实施例中，以transformer模型作为基础模型，12层2048为的encoder层，6层2048维的decoder层，其中multi head attention的维数为256维，以修正线性单元函数ReLU作为激活函数。构建如图3所示的多任务训练模型结构。

本实施例中，首先构建以汉字+子词的建模单元作为transformer的decoder端输出的损失函数。同时在encoder端，加入以音节拼音作为建模单元的CTC输出。从而构成不同建模单元下的CTC/Attention联合训练优化模型。模型结构如图3所示。

其中，所述Attention损失函数的权重值为第一预设数值，所述CTC损失函数的权重值为第二预设数值，其中，所述第一预设数值大于所述第二预设数值。

设计模型训练损失函数进行模型训练。如图3所示，本***在transformer模型训练过程中引入CTC，进行联合优化，因此在模型训练过程中的损失函数主要由两部分组成：一部分是以汉字+高频词汇作为建模单元，在decoder端输出的损失函数L_att(Y|X)；另一部分是以音节拼音作为建模单元，在encoder端输出的CTC损失函数L_syllable-CTC(Y|X)；两个损失函数的联合优化公式如式(1)所示,其中λ是超参数用于调整两个损失函数之间的比例。

L_MTL(Y|X)＝λL_att(Y|X)+(1-λ)L_syllable-CTC(Y|X) (1)

模型训练超参数设计，模型训练迭代周期为20个epoch，dropout正则化参数为0.1；warmup参数设置为25000；label smoothing正则化参数设为0.1；在进行两种建模单元的混合多任务训练时，公式(1)中作为次级任务的拼音建模单元CTC损失函数的权值(1-λ)设为0.3，主要训练任务的汉字+词组建模单元损失函数权值λ为0.7.

Dropout，warmup，label smoothing，是模型训练过程中的正则化参数，防止模拟训练过程中出现过拟合现象。

图4是本发明实施例提供的语音识别方法的流程图，本实施例可适用于对进行语音识别的情况，该方法可以由语音识别装置来执行，所述装置可以通过软和/或硬件的方式来实现。所述语音识别装置例如可以集成在终端设备中。

如图4所示，本发明实施例提供的语音识别方法主要包括如下步骤：

S41、获取待识别音频。

S42、利用语音识别模型对所述待识别音频进行识别，得到所述待识别音频对应的汉字和拼音，其中，所述语音识别模型采用上述任意实施例中任一项所述语音识别模型建立方法建立。

在本实施例中，所述待识别音频可以是任意的一段音频，可以是网络上截取的，进行处理的音频；也可以是人工录制的音频，还可以是用户实时输入的语音。本实施例中，仅对待识别音频进行说明，而非限定。

需要说明的是，本实施例提供的语音识别方法识别出的结果不仅包括对应的汉字和/或词组，还包括其对应的拼音。所述拼音包括音节和声调。

图5为本发明实施例提供的语音识别模型建立装置的结构示意图，本实施例可适用于对建立语音识别模型的情况所述装置可以通过软和/或硬件的方式来实现。所述语音识别模型建立装置例如可以集成在终端设备中。

如图5所示，本发明实施例提供的语音识别模型建立装置主要包括建模单元确定模块51、标签确定模块52和训练模块53。

其中，建模单元确定模块51，用于确定拼音建模单元和汉字词组建模单元；

标签确定模块52，用于利用所述拼音建模单元确定音频训练集的拼音标签，利用所述汉字建模单元确定音频训练集的汉字词组标签；

训练模块53，用于通过预先构建的多任务训练模型，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型。

本实施例提供的语音识别模型建立装置，首先确定拼音建模单元和汉字词组建模单元；然后利用拼音建模单元确定音频训练集的拼音标签，利用汉字建模单元确定音频训练集的汉字词组标签；最后通过预先构建的多任务训练模型，利用拼音标签、汉字词组标签和音频训练集中音频特征进行训练，建立语音识别模型。本实施例中，通过汉字作为基础建模单元，避免出现过多的oov，然后在中文汉字的基础上加入高频词汇进行建模，使得模型在训练过程中对于常用词汇能够进行整体性的学习。

进一步的，建模单元确定模块51，包括：

进一步的，所述装置还包括：

训练模块，还用于如果所述识别正确率小于正确率阈值，则将所述语音识别模型重新进行训练。

本发明实施例所提供的语音识别模型建立装置可执行本发明任意实施例所提供的语音识别模型建立方法，具备执行方法相应的功能模块和有益效果。

图6为本发明实施例提供的语音识别装置的结构示意图，本实施例可适用于进行语音识别的情况，所述装置可以通过软和/或硬件的方式来实现。所述语音识别装置例如可以集成在终端设备中。

如图6所示，本发明实施例提供的语音识别装置主要包括获取模块61、识别模块62。

获取模块61，用于获取待识别音频；

识别模块62，用于利用语音识别模型对所述待识别音频进行识别，得到所述待识别音频对应的汉字和拼音，其中，所述语音识别模型采用权利要求1-8中任一项所述语音识别模型建立方法建立。

本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

图7为本发明实施例提供的一种设备的结构示意图，如图7所示，该设备包括处理器710、存储器720、输入装置730和输出装置740；设备中处理器710的数量可以是一个或多个，图7中以一个处理器710为例；设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器720作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的任一方法。

存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器720可进一步包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音识别模型建立方法，包括：

确定拼音建模单元和汉字词组建模单元；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供语音识别模型建立方法中的相关操作。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音识别方法，包括：

获取待识别音频；

利用语音识别模型对所述待识别音频进行识别，得到所述待识别音频对应的汉字和拼音，其中，所述语音识别模型采用上述实施例中任一项所述语音识别模型建立方法建立。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供语音识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别模型建立方法，其特征在于，包括：

确定拼音建模单元和汉字词组建模单元；

2.根据权利要求1中所述的方法，其特征在于，所述确定拼音建模单元，包括：

利用汉字转拼音工具，将文本训练集中的文本转换为拼音；

3.根据权利要求1中所述的方法，其特征在于，确定汉字词组建模单元，包括：

对第一文本训练集中的文本进行汉字分词，得到汉字词典；

统计所述第一文本训练集中的高频词组；

4.根据权利要求3中所述的方法，其特征在于，将所述高频词组添加至所述汉字词典中，得到汉字词组建模单元之后，还包括：

将第二文本训练集的文本中的所述高频词组进行标记；

5.根据权利要求1所述的方法，其特征在于，所述构建多任务训练模型，包括：

以transformer模型作为基础模型；

6.根据权利要求5所述的方法，其特征在于，所述构建多任务训练模型，还包括：

7.根据权利要求6所述的方法，其特征在于，所述Attention损失函数的权重值为第一预设数值，所述CTC损失函数的权重值为第二预设数值，其中，所述第一预设数值大于所述第二预设数值。

8.根据权利要求1所述的方法，其特征在于，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型之后，还包括：

将所述对应的识别文本与所述验证文本进行比对，确定识别正确率。

9.一种语音识别方法，其特征在于，包括：

获取待识别音频；

利用语音识别模型对所述待识别音频进行识别，得到所述待识别音频对应的汉字和拼音，其中，所述语音识别模型采用权利要求1-8中任一项所述语音识别模型建立方法建立。

10.一种语音识别模型建立装置，其特征在于，包括：

11.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述方法。