CN113838467B

CN113838467B - 语音处理方法、装置及电子设备

Info

Publication number: CN113838467B
Application number: CN202110881256.8A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-11-14
Anticipated expiration: 2041-08-02
Also published as: CN113838467A

Abstract

本公开提供了一种语音处理方法、装置及电子设备，涉及人工智能领域，具体涉及语音技术领域。具体实现方案为：将待识别语音输入语音识别模型，以生成所述待识别语音对应的音频特征；根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别；根据所述关键词和所述第一类别确定所述关键词的第二类别；根据所述关键词的第二类别获取所述待识别语音对应的语音文本。本公开实施例可以减少语音转换成文本时的误差，提高语音识别的准确度。

Description

语音处理方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，具体涉及语音技术领域，尤其涉及一种语音处理方法、装置及电子设备。

背景技术

近年来，语音识别技术取得了长足的进展，在许多领域中获得了实际应用，包括用于人机对话和智能助理、用于文字输入、以及用于语音文件的转写等。其中，对于语音到文字的转换在当前有着广泛而迫切的需求。尤其是针对大段语音的语音文件的转写。诸如上述语音文件的转写，往往要求获得高准确度的文本。

发明内容

本公开提供了一种语音处理方法、装置及电子设备。

根据本公开的第一方面，提供了一种语音处理方法，包括：

将待识别语音输入语音识别模型，以生成所述待识别语音对应的音频特征；

根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别；

根据所述关键词和所述第一类别确定所述关键词的第二类别；

根据所述关键词的第二类别获取所述待识别语音对应的识别文本。

可选地，所述根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别，包括：

根据所述音频特征获取所述待识别语音对应的至少一个文本和所述至少一个文本各自对应的文本置信度；

将所述文本置信度按从大到小的顺序排列得到文本置信度序列，并将所述文本置信度序列中前N个所述文本置信度对应的文本确定为推荐文本，其中，N为正整数；

根据所述推荐文本获取所述关键词和所述关键词的第一类别。

可选地，还包括：

根据所述音频特征生成初始文本；

对所述初始文本进行文本清洗和/或符号归一化以得到所述待识别语音对应的至少一个文本。

可选地，所述根据所述推荐文本获取所述关键词和所述关键词的第一类别，包括：

将所述推荐文本切分，得到至少一个文本段；

获取所述至少一个文本段各自对应的类别和类别置信度；

将所述类别置信度大于预设置信度阈值的文本段确定为所述关键词，并将所述类别确定为所述关键词的第一类别。

可选地，所述第二类别为所述第一类别包含的小类。

可选地，所述根据所述关键词和所述第一类别确定所述关键词的第二类别，包括：

根据所述关键词对应的第一类别获取所述关键词对应的待定第二类别和所述待定第二类别对应的待定第二类别置信度，所述待定第二类别为所述第一类别包含的小类；

根据所述待定第二类别置信度确定所述关键词对应的第二类别。

可选地，所述根据所述待定第二类别置信度确定所述关键词对应的第二类别，包括：

将所述待定第二类别置信度按从大到小的顺序排列，得到类别置信度序列；

将所述类别置信度序列中的前M个所述待定第二类别置信度对应的待定第二类别确定为所述关键词对应的第二类别，其中，M为正整数。

可选地，所述根据所述关键词的第二类别获取所述待识别语音对应的识别文本，包括：

根据所述关键词的所述第二类别获取所述关键词对应的关键词文本；

根据所述关键词文本和所述推荐文本获取所述识别文本。

根据本公开的第二方面，提供了一种模型训练方法，用于训练如上述第一方面中所述语音识别模型，包括；

标注训练语音对应的训练文本，并标注所述训练文本中关键词对应的第一类别和第二类别；

根据所述训练语音、所述训练文本、所述第一类别和所述第二类别构建训练数据集；

根据所述训练数据集训练所述语音识别模型，直到所述语音识别模型收敛。

根据本公开的第三方面，提供了一种语音处理装置，包括：

特征提取模块，用于将待识别语音输入语音识别模型，以生成所述待识别语音对应的音频特征；

第一类别获取模块，用于根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别；

第二类别确定模块，用于根据所述关键词和所述第一类别确定所述关键词的第二类别；

识别文本获取模块，用于根据所述关键词的第二类别获取所述待识别语音对应的识别文本。

可选地，所述第一类别获取模块，包括：

文本置信度生成子模块，用于根据所述音频特征获取所述待识别语音对应的至少一个文本和所述至少一个文本各自对应的文本置信度；

推荐文本生成子模块，用于将所述文本置信度按从大到小的顺序排列得到文本置信度序列，并将所述文本置信度序列中前N个所述文本置信度对应的文本确定为推荐文本，其中，N为正整数；

第一类别获取子模块，用于根据所述推荐文本获取所述关键词和所述关键词的第一类别。

可选地，还包括：

初始文本生成子模块，用于根据所述音频特征生成初始文本；

文本预处理子模块，用于对所述初始文本进行文本清洗和/或符号归一化以得到所述待识别语音对应的至少一个文本。

可选地，所述第一类别获取子模块，包括：

文本切分单元，用于将所述推荐文本切分，得到至少一个文本段；

类别获取单元，用于获取所述至少一个文本段各自对应的类别和类别置信度；

第一类别获取单元，用于将所述类别置信度大于预设置信度阈值的文本段确定为所述关键词，并将所述类别确定为所述关键词的第一类别。

可选地，所述第二类别为所述第一类别包含的小类。

可选地，所述第二类别确定模块，包括：

置信度获取子模块，用于根据所述关键词对应的第一类别获取所述关键词对应的待定第二类别和所述待定第二类别对应的待定第二类别置信度，所述待定第二类别为所述第一类别包含的小类；

第二类别确定子模块，用于根据所述待定第二类别置信度确定所述关键词对应的第二类别。

可选地，所述第二类别确定子模块，包括：

排序单元，用于将所述待定第二类别置信度按从大到小的顺序排列，得到类别置信度序列；

第二类别获取单元，用于将所述类别置信度序列中的前M个所述待定第二类别置信度对应的待定第二类别确定为所述关键词对应的第二类别，其中，M为正整数。

可选地，所述识别文本获取模块，包括：

关键词文本获取子模块，用于根据所述关键词的所述第二类别获取所述关键词对应的关键词文本；

识别文本获取子模块，用于根据所述关键词文本和所述推荐文本获取所述识别文本。

根据本公开的第四方面，提供了一种模型训练装置，用于训练如上述第三方面中所述语音识别模型，其特征在于，包括；

标注模块，用于标注训练语音对应的训练文本，并标注所述训练文本中关键词对应的第一类别和第二类别；

数据集构建模块，用于根据所述训练语音、所述训练文本、所述第一类别和所述第二类别构建训练数据集；

训练模块，用于根据所述训练数据集训练所述语音识别模型，直到所述语音识别模型收敛。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面中任一项所述的方法。

根据本公开的第六方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第二方面中任一项所述的方法。

根据本公开的第七方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述第一方面中任一项所述的方法。

根据本公开的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述第二方面中任一项所述的方法。

根据本公开的第九方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述第一方面中任一项所述的方法。

根据本公开的第十方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述第二方面中任一项所述的方法。

本公开具有以下有益效果：

通过关键词类别的识别，对所述关键词识别中的误差进行修正，减少待识别语音中关键词转换为关键词文本的误差，提高关键词转换的准确率。进一步地，提高了将所述待识别语音转换为所述识别文本的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种语音处理方法的流程示意图；

图2是根据本公开实施例提供的一种语音处理方法的流程示意图；

图3是根据本公开实施例提供的一种语音处理方法的流程示意图；

图4是根据本公开实施例提供的一种语音处理方法的流程示意图；

图5是根据本公开实施例提供的一种语音处理方法的流程示意图；

图6是根据本公开实施例提供的一种语音处理方法的流程示意图；

图7是根据本公开实施例提供的一种语音处理方法的流程示意图；

图8是根据本公开实施例提供的一种模型训练方法的流程示意图；

图9是根据本公开实施例提供的一种语音处理装置的结构示意图；

图10是根据本公开实施例提供的一种语音处理装置的结构示意图；

图11是根据本公开实施例提供的一种语音处理装置的结构示意图；

图12是根据本公开实施例提供的一种语音处理装置的结构示意图；

图13是根据本公开实施例提供的一种语音处理装置的结构示意图；

图14是根据本公开实施例提供的一种语音处理装置的结构示意图；

图15是根据本公开实施例提供的一种语音处理装置的结构示意图；

图16是根据本公开实施例提供的一种模型训练装置的结构示意图；

图17是根据本公开实施例提供的一种语音处理装置的结构示意图；

图18是用来实现本公开实施例的语音处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

近年来，语音识别技术取得了长足的进展，在许多领域中获得了实际应用，包括用于人机对话和智能助理、用于文字输入(如语音输入法)、以及用于语音文件的转写等。其中，对于语音文件的转写(即将一个语音文件的语音内容全部转写为相应的文本)在当前有着广泛而迫切的需求，尤其是针对大段语音的语音文件的转写，例如广播电视节目的音频、演讲/会议/课程录音、法庭庭审录音等需要进行当场或事后的转写以得到对应的文本，从而用于字幕生成、文件存档和检索等。诸如上述语音文件的转写，往往要求获得高准确度的文本，因而目前大多数语音文件的转写采用的是人工转写的方式，即人工收听音频内容并录入相应的文字。显然，这种方式效率很低，且需要耗费大量的人力和物力。

为此，有研究者尝试将语音识别技术用于上述语音文件的转写，即采用语音识别***对上述语音文件进行自动识别以得到语音对应的文本。但是，由于受到环境噪音、口音差异、说话风格差异、主题偏差、未登录词等因素的影响，语音识别中的错误难以避免，导致采用自动语音识别技术产生的转写文本体验不是那么友好，而且缺乏便捷的实时的修正手段，来辅助提升识别效果。

例如在电话运营商领域，一些新的套餐名称，如流邦卡。或者在公安报警电话里面，一些地名，人名等很容易识别出错，因此需要一种方案去实时的修正对于关键词的识别，整体提升识别效果。

图1是根据本公开实施例提供的一种语音处理方法的流程示意图，如图1所示，所述语音处理方法包括：

步骤101，将待识别语音输入语音识别模型，以生成所述待识别语音对应的音频特征；

所述语音识别模型为声学模型，可以根据所述待识别语音生成对应的音频特征。在一种可能的实施例中，所述语音识别模型为延时神经网络注意力(TDNN-Attention，TimeDelay Neural Network-Attention)结构，所述语音识别模型可以基于输入的语音信号，预测每个声学建模单元的后验概率，所述TDNN相当于一维卷积，可以观察到更广的上下文特征，学习到更多的信息。

将所述待识别语音输入语音识别模型后，通过语音编码器提取语音特征向量，再通过语音解码器解码所述语音特征向量，即可输出所述待识别语音对应的音频特征。例如，输入的语音对应的文本为“你好”，则输出的音频特征可能为“nihao”。

步骤102，根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别；

根据所述音频特征可以生成对应的文本，但是由于所述音频特征的分割方法多样，且同音字的存在。生成的所述文本可能会有很多种，如何生成最符合所述待识别语音的文本是很重要的问题。本公开利用汉语语言模型(CLM,Chinese Language Model)来解决上述问题，所述汉语语言模型为N-gram模型。N-Gram是一种基于统计语言模型的算法，它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。N-Gram模型基于这样一种假设，即第A个词的出现只与前面A-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计A个词同时出现的次数得到。

首先将所述音频特征输入所述CLM，以生成若干个所述待识别语音对应的文本和其对应的文本置信度，通过对比所述文本置信度的大小，将所述文本置信度较大的文本作为推荐文本。再将所述推荐文本进行切分，生成一个个文本段，进一步地，生成所述文本段对应的类别和类别置信度。将所述类别置信度大于预设置信度阈值的文本段确定为所述关键词，并将所述类别确定为所述关键词的第一类别。这样就得到了所述关键词和所述关键词的第一类别。

步骤103，根据所述关键词和所述第一类别确定所述关键词的第二类别。

为了进一步区分所述关键词的类别，本公开对所述关键词进行二次分类，生成所述关键词的待定第二类别置信度，对比所述关键词的待定第二类别置信度大小，将置信度较大的待定第二类别作为所述关键词的第二类别。需要说明的是，所述第二类别为所述第一类别的子类，即各所述第一类别中均包含若干个所述第二类别。

步骤104，根据所述关键词的第二类别获取所述待识别语音对应的识别文本。

可选的，根据所述关键词的第二类别可以获取准确的关键词文本，将所述关键词文本与所述待识别语音对应的文本进行结合，即可获取所述识别文本，所述识别文本准确率较高，更加符合所述待识别语音。

本实施例，通过基于所述待识别语音对应的音频特征获取其中关键词对应的第一类别和第二类别，以实现对所述待识别语音的文本转换。通过精准识别待识别语音中关键词对应的类别，提高了语音转换成文本的准确度。

图2是根据本公开实施例提供的一种语音处理方法的流程示意图，如图2所示，所述语音处理方法包括：

步骤201，根据所述音频特征获取所述待识别语音对应的至少一个文本和所述至少一个文本各自对应的文本置信度；

所述待识别语音输入语音识别模型，以生成对应的文本和所述文本的文本置信度。所述文本的文本置信度反映了所述文本符合表达习惯的程度，所述文本的文本置信度越高，说明所述文本越符合我们的日常表达习惯，其取值范围为[0,1]。

步骤202，将所述文本置信度按从大到小的顺序排列得到文本置信度序列，并将所述文本置信度序列中前N个所述文本置信度对应的文本确定为推荐文本，其中，N为正整数；

由上述内容可知，我们需要筛选出较大的文本置信度对应的文本以生成所述推荐文本。本公开将所述文本置信度按从大到小的顺序排列以生成文本置信度序列。取前N个所述文本置信度对应的文本，将其作为所述推荐文本。需要说明的是，所述N可以由实施者根据实际情况确定，本公开不对所述N的数值进行限定，在一种可能的实施例中，所述N＝3。

步骤203，根据所述推荐文本获取所述关键词和所述关键词的第一类别。

生成所述推荐文本后，就需要对所述推荐文本进行切分，识别其中的关键词，并生成所述关键词对应的第一类别。根据所述音频特征获取所述文本置信度，并根据所述文本置信度生成推荐文本，提高了语音转换成文本的准确度。

图3是根据本公开实施例提供的一种语音处理方法的流程示意图，如图3所示，所述语音处理方法包括：

步骤301，根据所述音频特征生成初始文本；

本公开通过音频特征解码器来根据所述音频特征生成所述初始文本。利用所述音频特征解码器对所述音频特征进行解码，以生成其对应的初始文本。所述初始文本为较为不精确的翻译文本，需要去除其中的干扰。

步骤302，对所述初始文本进行文本清洗和/或符号归一化以得到所述待识别语音对应的至少一个文本。

生成所述音频特征后，即可根据所述音频特征生成对应的初始文本，由于所述音频特征中包含一定的噪声，初始文本中会包含一定的干扰。本公开通过文本清洗和符号归一化，去除所述初始文本中的特殊符号，并规整数字单位符号(如2010年、15千克)。输出所述待识别语音对应的文本。通过本步骤可以降低初始文本中的干扰和噪声，提高语音转换的准确度。

图4是根据本公开实施例提供的一种语音处理方法的流程示意图，如图4所示，所述语音处理方法包括：

步骤401，将所述推荐文本切分，得到至少一个文本段；

所述文本包含若干个词语，其中有一部分是普通词语，所述普通词语并不是关键词；另一类就是关键词。

本公开通过对所述推荐文本进行切分生成若干个文本段，也即所述词语。通过所述文本段的类别置信度来判断所述文本段是否是关键词，以及属于哪一类关键词。

所述文本切分的方法多样，本公开利用所述N-gram模型生成所述文本的最佳切分方案。将所述推荐文本按照所述最佳切分方案进行切分，以生成所述文本段。

步骤402，获取所述至少一个文本段各自对应的类别和类别置信度；

生成所述文本段属于的所述类别和属于该类别的置信度。所述类别置信度反映了所述文本段属于所述类别的概率，其取值范围为[0,1]。需要说明的是，一个文本段可能属于多个类别。

步骤403，将所述类别置信度大于预设置信度阈值的文本段确定为所述关键词，并将所述类别确定为所述关键词的第一类别。

本公开通过预设的所述置信度阈值来筛选所述类别置信度，如果所述类别置信度大于所述置信度阈值，即可确定所述文本段为所述关键词，将所述类别确定为所述关键词的第一类别。需要说明的是，所述关键词可以属于多个第一类别。例如关键词“桔”既属于颜色，也属于水果。

通过对所述文本段的类别置信度获取其中的关键词和所述关键词的第一类别，提高了文本中关键词识别的准确度。

可选地，所述第二类别为第一类别包含的小类。

为了进一步对所述关键词分类，本公开需要识别所述关键词的第二类别，所述第二类别包含在所述第一类别中。例如第二类别“苹果”包含在第一类别“水果”中。这样可以减小识别所述关键词对应第二类别时的范围，提高了识别效率。

图5是根据本公开实施例提供的一种语音处理方法的流程示意图，如图5所示，所述语音处理方法包括：

步骤501，根据所述关键词对应的第一类别获取所述关键词对应的待定第二类别和所述待定第二类别对应的待定第二类别置信度，所述待定第二类别为所述第一类别包含的小类；

所述第二待定类别为所述第一类别的下位类别，之前确定了所述关键词的第一类别，所以只需要判断所述关键词属于所述第一类别的哪个下位类别即可。所述第二类别置信度反映了所述关键词属于所述待定第二类别的概率，其取值范围为[0,1]。

步骤502，根据所述待定第二类别置信度生成所述关键词对应的第二类别。

本公开实施例通过对比所述关键词对应的所述待定第二类别置信度的大小来判断所述关键词对应的第二类别，所述待定第二类别置信度越大，说明所述关键词属于所述待定第二类别的概率越大。根据所述待定第二类别置信度筛选获取所述关键词对应的第二类别，提高了关键词第二类别识别的准确率。

图6是根据本公开实施例提供的一种语音处理方法的流程示意图，如图6所示，所述语音处理方法包括：

步骤601，将所述待定第二类别置信度按从大到小的顺序排列，得到类别置信度序列；

将所述待定第二类别置信度按从大到小的顺序排列，来方便后续筛选得到所述第二类别。

步骤602，将所述第二置信度序列中的前M个所述待定第二类别置信度对应的待定第二类别确定为所述关键词对应的第二类别，其中，M为正整数。

需要说明的是，所述关键词可能对应多个第二类别，本公开中，所述关键词对应M个第二类别。所述M可以由实施者根据实际情况设置，本公开不对所述M的具体数值进行限定，在一种可能的实施例中，所述M＝3。

本公开实施例通过所述类别置信度序列筛选得到待定第二类别置信度较高的待定第二类别，进一步地获取所述关键词的第二类别。获取的第二类别更符合所述关键词，提高了语音转换的准确度。

图7是根据本公开实施例提供的一种语音处理方法的流程示意图，如图7所示，所述语音处理方法包括：

步骤701，根据所述关键词的所述第二类别获取所述关键词对应的关键词文本；

根据所述关键词的第二类别，可以获取所述第二类别中对应的关键词文本，第二类别更为贴近所述关键词的分类，所以所述关键词文本的准确度很高。

步骤702，根据所述关键词文本和所述推荐文本获取所述识别文本。

获取所述关键词文本后，即可在所述推荐文本中对应的位置中的文本替换为所述关键词文本。

通过关键词类别的识别，对所述关键词识别中的误差进行修正，减少待识别语音中关键词转换为关键词文本的误差，提高关键词转换的准确率。进一步地，提高了将所述待识别语音转换为所述识别文本的准确率。图8是根据本公开实施例提供的一种模型训练方法的流程示意图，用于训练所述语音识别模型，如图8所示，所述模型训练方法包括：

步骤801，标注训练语音对应的训练文本，并标注所述训练文本中关键词对应的第一类别和第二类别；

所述语音识别模型为神经网络模型，训练所述语音识别模型需要准备对应的训练数据集。本公开通过标注训练语音对应的训练文本，标注文本中的关键词和关键词对应的第一类别和第二类别来构建训练数据集。

步骤802，根据所述训练语音、所述训练文本、所述第一类别和所述第二类别构建训练数据集；

获取所述训练语音、所述训练文本、所述第一类别和所述第二类别后即可构建所述训练数据集，来进一步对所述语音识别模型进行训练。

步骤803，根据所述训练数据集训练所述语音识别模型，直到所述语音识别模型收敛。

将所述训练数据集中的数据输入所述语音识别模型，通过不断地迭代训练，使所述语音识别模型中的损失函数减小，也即使所述语音识别模型收敛。这样就完成了训练的过程。

在一种可能的实施方式中，在训练完成后。如果实施者需要所述语音识别模型识别其他不在所述训练数据集中的关键词，可以在所述数据集中加入新的训练语音和其对应的所述训练文本、所述第一类别和所述第二类别，以根据实施者的实际需求进行更新所述语音识别模型。

本实施例通过所述训练语音、所述训练文本、所述第一类别和所述第二类别训练所述语音识别模型，将不常见的关键词归类统一处理，降低了训练成本。另外可以便捷地在所述数据集中添加新的关键词，使其实时生效，使所述语音识别模型适应实施者的个性化需求，提高了语音识别模型识别语音对应文本的准确率。

在如图8所示的模型训练方法一种可能的实施方式中，包括如下步骤：

对训练语音进行标注，得到对应的文本，然后对所述音频进行预处理，包括去除噪声(包括环境噪声，忙音，彩铃声等)，数据增强(包括改变语音速率，混合回声等)，对文本进行清洗符号归一化，分词，并将人名地名套餐名等用相应的通配符代替，以获取训练文本。

对处理后的所述训练语音进行特征提取，例如MFCC，Fbank等，然后训练声学模型，迭代多轮至网络收敛，这样得到一个性能稳定的模型AM

根据所述训练文本，训练得到N-gram，然后结合词典，HMM模型构建基础的WFST网络LM1

根据所述通配符对应的词语的集合，构建出关键词WFST网络LM2利用AM结合LM1通过解码器得到初始的识别结果，在解码过程中如果遇到所述通配符那么再在关键词网络LM2中再进行二次搜索确认，即哪个词是最佳候选，这样一个句子解码完毕后，再输入到纠错网络上，对其进行训练，这样迭代多轮后，得到一个性能稳定的纠错模型TM，这样所有的网络训练完毕。

图9是根据本公开实施例提供的一种语音处理装置的结构示意图，如图9所示，所述语音处理装置900包括：

特征提取模块910，用于将待识别语音输入语音识别模型，以生成所述待识别语音对应的音频特征；

第一类别获取模块920，用于根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别；

第二类别确定模块930，用于根据所述关键词和所述第一类别确定所述关键词的第二类别；

识别文本获取模块940，用于根据所述关键词的第二类别获取所述待识别语音对应的识别文本。

通过所述待识别语音对应的音频特征获取其中关键词对应的第一类别和第二类别，以实现对所述待识别语音的文本转换。通过精准识别待识别语音中关键词对应的类别，提高了语音转换成文本的准确度。

图10是根据本公开实施例提供的一种语音处理装置的结构示意图，如图10所示，所述语音处理装置1000包括：

文本置信度生成子模块1010，用于根据所述音频特征获取所述待识别语音对应的至少一个文本和所述至少一个文本各自对应的文本置信度；

推荐文本生成子模块1020，用于将所述文本置信度按从大到小的顺序排列得到文本置信度序列，并将所述文本置信度序列中前N个所述文本置信度对应的文本确定为推荐文本，其中，N为正整数。

第一类别获取子模块1030，用于根据所述推荐文本获取所述关键词和所述关键词的第一类别。

图11是根据本公开实施例提供的一种语音处理装置的结构示意图，如图11所示，所述语音处理装置1100包括：

初始文本生成子模块1110，用于根据所述音频特征生成初始文本。

生成所述音频特征后，即可根据所述音频特征生成对应的初始文本，由于所述音频特征中包含一定的噪声，初始文本中会包含一定的干扰。本公开通过文本清洗和符号归一化，去除所述初始文本中的特殊符号，并规整数字单位符号(如2010年、15千克)。输出所述待识别语音对应的文本。

文本预处理子模块1120，用于对所述初始文本进行文本清洗和/或符号归一化以得到所述待识别语音对应的至少一个文本。

图12是根据本公开实施例提供的一种语音处理装置的结构示意图，如图12所示，所述语音处理装置1200包括：

文本切分单元1210，用于将所述推荐文本切分，得到至少一个文本段；

类别获取单元1220，用于获取所述至少一个文本段各自对应的类别和类别置信度；

第一类别获取单元1230，用于将所述类别置信度大于预设置信度阈值的文本段确定为所述关键词，并将所述类别确定为所述关键词的第一类别。

可选地，所述第二类别为所述第一类别包含的小类

图13是根据本公开实施例提供的一种语音处理装置的结构示意图，如图13所示，所述语音处理装置1300包括：

置信度获取子模块1310，用于根据所述关键词对应的第一类别获取所述关键词对应的待定第二类别和所述待定第二类别对应的待定第二类别置信度，所述待定第二类别为所述第一类别包含的小类；

第二类别确定子模块1320，用于根据所述待定第二类别置信度确定所述关键词对应的第二类别。

图14是根据本公开实施例提供的一种语音处理装置的结构示意图，如图14所示，所述语音处理装置1400包括：

排序单元1410，用于将所述待定第二类别置信度按从大到小的顺序排列，得到类别置信度序列；

第二类别获取单元1420，用于将所述类别置信度序列中的前M个所述待定第二类别置信度对应的待定第二类别确定为所述关键词对应的第二类别，其中，M为正整数。

图15是根据本公开实施例提供的一种语音处理装置的结构示意图，如图15所示，所述语音处理装置1500包括：

关键词文本获取子模块1510，用于根据所述关键词的所述第二类别获取所述关键词对应的关键词文本；

识别文本获取子模块1520，用于根据所述关键词文本和所述推荐文本获取所述识别文本。

通过所述关键词的第二类别生成准确的关键词文本，根据所述关键词文本和所述推荐文本获取所述识别文本，提高了语音转换为文本的准确度。

根据音频特征生成所述关键词的第一类别和第二类别。通过两次关键词类别的识别，减少关键词类别分类的误差，提高关键词分类的准确率。

图16是根据本公开实施例提供的一种模型训练装置的结构示意图，如图16所示，所述模型训练装置1600包括：

在转换语音的场景下，如图9所示的语音处理装置900的具体实施方式如图17所示。图17是根据本公开实施例提供的一种语音处理装置的结构示意图。如图17所示，所述语音处理装置包括：声学模型，采用TDNN-Attention结构，基于输入的语音信号，预测每个声学建模单元的后验概率，TDNN相当于一维卷积，可以观察到更广的上下文特征，学习到更多的信息，而注意力attention结构，则关注的是各个特征的重要性，增强更重要的特征。

基础语言模型，我们采用所述N-gram模型，结合词典，隐马尔可夫模型(HiddenMarkov Model，HMM)模型构建出静态网络。

关键词模型，基于key对应的词语集合构建的一个小网络。

Transformer迁移纠错模型，其原理和机器翻译有异曲同工之处。它的输入是前端解码器的解码结果，预测的是真实的标注。由于Transformer具有很强的语义建模能力，可以有效地利用上下文信息，自动纠正识别结果中的很多错误，提升识别性能。

所述语音处理装置的训练步骤包括：

准备文本标注数据，对文本进行清洗，去除特殊符号，如“@*％”；规整数字单位符号，如2010年,151kg；去除分词。然后将人名，地名，套餐名等分别用通配符，比如key1，key2，key3等表示，所述通配符代表所述第一类别。某个通配符表示一类属性的词语，然后训练得到一个基础的类语言模型(Classed LM)；将key对应词语的集合构建成一个关键词网络(Keywords model)，用于在解码过程中确认是哪一类，即第一类别，并且是该第一类别中的哪一个类，也即第二类别。

最后我们加上了纠错模型(transformer)进一步发现识别结果的错误，提升语音识别的性能。根据音频特征生成所述关键词的第一类别和第二类别。通过两次关键词类别的识别，减少关键词类别分类的误差，提高关键词分类的准确率。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图18示出了可以用来实施本公开的实施例的示例电子设备1800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图18所示，设备1800包括计算单元1801，其可以根据存储在只读存储器(ROM)1802中的计算机程序或者从存储单元1808加载到随机访问存储器(RAM)1803中的计算机程序，来执行各种适当的动作和处理。在RAM 1803中，还可存储设备1800操作所需的各种程序和数据。计算单元1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出(I/O)接口1805也连接至总线1804。

设备1800中的多个部件连接至I/O接口1805，包括：输入单元1806，例如键盘、鼠标等；输出单元1807，例如各种类型的显示器、扬声器等；存储单元1808，例如磁盘、光盘等；以及通信单元1809，例如网卡、调制解调器、无线通信收发机等。通信单元1809允许设备1800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1801执行上文所描述的各个方法和处理，例如所述语音处理方法。例如，在一些实施例中，所述语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1802和/或通信单元1809而被载入和/或安装到设备1800上。当计算机程序加载到RAM 1803并由计算单元1801执行时，可以执行上文描述的所述语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行所述语音处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音处理方法，包括：

根据所述关键词和所述第一类别确定所述关键词的第二类别，所述第二类别为所述第一类别包含的小类；

根据所述关键词的第二类别获取所述关键词对应的关键词文本，将所述关键词文本与所述待识别语音对应的文本进行结合，获取所述待识别语音对应的识别文本。

2.根据权利要求1所述的方法，其中，所述根据所述音频特征获取所述音频特征对应的关键词和所述关键词的第一类别，包括：

3.根据权利要求2所述的方法，其中，所述根据所述音频特征获取所述待识别语音对应的至少一个文本，包括：

根据所述音频特征生成初始文本；

4.根据权利要求2所述的方法，其中，所述根据所述推荐文本获取所述关键词和所述关键词的第一类别，包括：

将所述推荐文本切分，得到至少一个文本段；

获取所述至少一个文本段各自对应的类别和类别置信度；

5.根据权利要求1所述的方法，其中，所述根据所述关键词和所述第一类别确定所述关键词的第二类别，包括：

6.根据权利要求5所述的方法，其中，所述根据所述待定第二类别置信度确定所述关键词对应的第二类别，包括：

7.根据权利要求2所述的方法，其中，所述将所述关键词文本与所述待识别语音对应的文本进行结合，获取所述待识别语音对应的识别文本，包括：

根据所述关键词文本和所述推荐文本获取所述识别文本。

8.一种模型训练方法，用于训练如权利要求1－7中所述语音识别模型，包括；

标注训练语音对应的训练文本，并标注所述训练文本中关键词对应的第一类别和第二类别，所述第二类别为所述第一类别包含的小类；

9.一种语音处理装置，包括：

第二类别确定模块，用于根据所述关键词和所述第一类别确定所述关键词的第二类别，所述第二类别为所述第一类别包含的小类；

识别文本获取模块，用于根据所述关键词的第二类别获取所述关键词对应的关键词文本，将所述关键词文本与所述待识别语音对应的文本进行结合，获取所述待识别语音对应的识别文本。

10.根据权利要求9所述的装置，其中，所述第一类别获取模块，包括：

11.根据权利要求10所述的装置，其中，所述文本置信度生成子模块，包括：

12.根据权利要求10所述的装置，其中，所述第一类别获取子模块，包括：

13.根据权利要求9所述的装置，其中，所述第二类别确定模块，包括：

14.根据权利要求13所述的装置，其中，所述第二类别确定子模块，包括：

15.根据权利要求10所述的装置，其中，所述识别文本获取模块，包括：

16.一种模型训练装置，用于训练如权利要求9－15中所述语音识别模型，其特征在于，包括；

标注模块，用于标注训练语音对应的训练文本，并标注所述训练文本中关键词对应的第一类别和第二类别，所述第二类别为所述第一类别包含的小类；

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1－8中任一项所述的方法。