CN114444479B

CN114444479B - 一种端到端中文语音文本纠错方法、装置和存储介质

Info

Publication number: CN114444479B
Application number: CN202210371315.1A
Authority: CN
Inventors: 杜振东
Original assignee: Nanjing Yunwen Network Technology Co ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-24
Anticipated expiration: 2042-04-11
Also published as: CN114444479A

Abstract

本发明提出了一种端到端中文语音文本纠错方法、装置和存储介质，该方法包括如下步骤：基于语音识别数据集构建语音纠错数据集，语音纠错数据集包括待纠错样本和正确样本；获取纯文本数据，并对纯文本数据进行预处理；采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；从待纠错样本的句子中提取拼音和字，输入至融入语音信息的预训练语言模型，获得语义序列表征；采用语义序列表征进行模型训练，获得端到端语音文本纠错模型；将待纠错文本输入至端到端语音文本纠错模型中，获得纠错后文本。本发明实现了语音信息的融入，语义和拼音信息的双重编码，以及针对语音文本的实时纠错，同时提升了针对语音文本的纠错效果。

Description

一种端到端中文语音文本纠错方法、装置和存储介质

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种端到端中文语音文本纠错方法、装置和存储介质。

背景技术

中文语音文本纠错是对语音转换后的中文文本进行错误检测和纠正。当前语音转文本容易出现记录噪音或者识别错误等情况，将极大地影响意图识别、文本检索等任务的效果。因此，中文语音文本纠错一直受到业界的广泛关注。

语音文本纠错和普通错别字纠错有较大区别，普通错别字纠错针对的问题是字音错误和字形错误，而语音纠错主要针对的仅是字音错误。因此相比较普通错别字纠错，语音文本纠错需要更聚焦于字音的错误建模。

传统的语音文本纠错方法首先检测拼写错误的字符，并使用统计语言模型生成候选集，然后通过计算文本困惑度或设定规则等方法过滤错误的候选字符。但是由于统计语言模型的语义表征效果限制，导致需要通过大量的规则来进行候选字符过滤，该方法不仅耗时耗力且泛化性不高。

发明内容

本发明的目的在于提供一种端到端中文语音文本纠错方法、装置和存储介质，解决了现有技术中传统的语音文本纠错方法不仅耗时耗力且泛化性不高的问题。

为解决上述技术问题，本发明采用的技术方案是：一种端到端中文语音文本纠错方法，包括如下步骤：基于语音识别数据集构建语音纠错数据集，所述语音纠错数据集包括待纠错样本和正确样本；获取纯文本数据，并对所述纯文本数据进行预处理；采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；从所述待纠错样本的句子中提取拼音和字，输入至所述融入语音信息的预训练语言模型，获得语义序列表征；采用所述语义序列表征进行模型训练，获得端到端语音文本纠错模型；将待纠错文本输入至所述端到端语音文本纠错模型中，获得纠错后文本。

作为优选方案，所述基于语音识别数据集构建语音纠错数据集，包括：获取语音识别数据集，所述语音识别数据集包括音频数据及与其对应的参考文本；基于语音转文本工具将所述音频数据转化为中文文本；比对所述中文文本及其对应的参考文本，判断是否一致；若一致，则通过拼音替换规则对所述中文文本进行随机替换，生成待纠错样本，并将参考文本作为正确样本；若不一致，则将所述中文文本作为待纠错样本，将参考文本作为正确样本；将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。

作为优选方案，所述拼音替换规则，包括：替换拼音完全相同的字；替换鼻音、平卷舌的字；替换拼音编辑距离为1的字。

作为优选方案，对所述纯文本数据进行预处理，包括：采用多种字符替换策略对所述纯文本数据的句子进行替换，将替换后的错误文本作为待纠错样本，替换前的纯文本作为正确样本；所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。

作为优选方案，所述融入语音信息的预训练语言模型的训练过程，包括：通过词表将所述待纠错样本编码为独热序列向量；使用词嵌入将所述独热序列向量映射为固定长度的字序列向量；将所述字序列向量输入至Transformer编码模块中，输出待纠错样本的语义编码；根据所述待纠错样本的语义编码，分别进行错误字符检测任务和错误字符纠正任务，获得字符检测损失和字符纠正损失；根据所述字符检测损失和字符纠正损失计算两者损失之和，即模型损失，根据所述模型损失进行模型梯度更新。

作为优选方案，所述语义序列表征记为

，则

上式中，

表示融入语音信息的预训练语言模型的函数，

表示第

个句子的字序列向量，

表示第

个句子的拼音序列向量。

作为优选方案，所述端到端语音文本纠错模型包括检错网络和纠错网络，则所述端到端语音文本纠错模型的训练过程，包括：在检错网络中，将所述语义序列表征通过全连接层进行映射，获得检错网络的隐层表征，然后通过Softmax函数得到检错的概率标签，用于判断所述待纠错样本的句子中每一个字是否为错别字；在纠错网络中，将所述语义表征通过全连接层进行映射，获得纠错网络的隐层表征，然后通过Softmax函数得到每个字纠错的词表概率标签，用于将句子中错误的字修改为正确的字；根据所述检错的概率标签和纠错的词表概率标签，判断是否进行文本纠错。

作为优选方案，所述检错网络的隐层表征记为

，纠错网络的隐层表征记为

，则：

上式中，

表示检错的概率标签，

表示每个字纠错的词表概率标签，

表示激活函数，

表示Softmax分类器函数，

和

分别为参数矩阵和参数向量，

为待纠错样本的语义序列表征。

本发明还公开了一种端到端中文语音文本纠错装置，包括：数据集构建模块，用于基于语音识别数据集构建语音纠错数据集，所述语音纠错数据集包括待纠错样本和正确样本；预处理模块，用于获取纯文本数据，并对所述纯文本数据进行预处理；第一训练模块，用于采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；序列表征模块，用于从所述待纠错样本的句子中提取拼音和词语，输入至所述融入语音信息的预训练语言模型，获得语义序列表征；第二训练模块，用于采用所述语义序列表征进行模型训练，获得端到端语音文本纠错模型；文本纠错模块，用于将待纠错文本输入至所述端到端语音文本纠错模型中，获得纠错后文本。

本发明还公开了一种存储介质，其上存储有计算机程序，所述存储介质中存储有至少一可执行指令，所述执行指令使处理器执行如上任一项所述的端到端中文语音文本纠错方法对应的操作。

与现有技术相比，本发明的有益效果包括：在训练语言模型时，通过设置拼音替换规则，实现语音信息的融入，提升针对语音文本的纠错效果。在训练端到端语音纠错模型时，将字符和拼音作为输入到语言模型中，实现语义和拼音信息的双重编码。并且构建了检测-纠错网络，实现针对语音文本的实时纠错。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明实施例端到端中文语音文本纠错方法的流程示意图；

图2为本发明实施例构建语音纠错数据集的流程示意图；

图3为本发明实施例融入语音信息的预训练语言模型的训练流程示意图；

图4为本发明实施例纯文本数据的句子进行替换的流程示意图；

图5为本发明实施例待纠错样本编码的流程示意图；

图6为本发明实施例Transformer编码模块的结构示意图；

图7为本发明实施例进行错误字符检测任务和错误字符纠正任务的流程示意图；

图8为本发明实施例端到端语音文本纠错模型的架构图；

图9为本发明实施例端到端中文语音文本纠错装置的结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

根据本发明的一实施方式结合图1示出。一种端到端中文语音文本纠错方法，包括如下步骤：

S101，基于语音识别数据集构建语音纠错数据集，语音纠错数据集包括待纠错样本和正确样本。

参见图2，上述基于语音识别数据集构建语音纠错数据集，包括：

1)获取语音识别数据集，语音识别数据集包括音频数据及与其对应的参考文本。该语音纠错数据集基于已公开的大型普通话语音识别数据集进行构建，包括10000小时普通话音频数据以及对应的中文参考文本。

2)基于语音转文本工具（ASR工具）将音频数据转化为中文文本。

3)比对中文文本及其对应的参考文本，判断是否一致。

4)若一致，则通过拼音替换规则对中文文本进行随机替换，生成待纠错样本，并将参考文本作为正确样本。

5)若不一致，则将中文文本作为待纠错样本，将参考文本作为正确样本。将待纠错样本和正确样本作为样本对加入到语音纠错数据集中。

具体的，拼音替换规则，包括：

(a) 替换拼音完全相同的字，比如“在：zai”和“再：zai”。

(b) 替换常见鼻音、平卷舌等模糊情况。比如“南宁：nan ning”和“南岭：nanling”。

(c) 替换拼音编辑距离为1的字。比如 “暂时：zan shi”和“战时：zhan shi”。编辑距离是指两个字符串之间，由一个转成另一个所需的最小编辑次数。比如“暂”和“战”的拼音分别为“zan”和“zhan”，那么只需要将拼音字符“h”进行一次删除即可，因此“暂”和“战”的拼音编辑距离为1。

S102，获取纯文本数据，并对纯文本数据进行预处理。纯文本数据主要由wiki公开数据集（100万中文wiki语料）和100万篇新闻文本构成。

参见图4，对纯文本数据进行预处理，包括：采用多种字符替换策略对纯文本数据的句子进行替换，将替换后的错误文本作为待纠错样本，替换前的纯文本作为正确样本。字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。

通过4种不同的字符替换策略，对中文纯文本中每条文本的字符都按照20%概率进行字符替换。将字符替换后的错误文本（即待纠错样本）作为预训练语言模型的输入，替换前的纯文本（即正确样本）作为预训练语言模型的输出。该字符替换策略可以将发音相似的字符与其对应的拼音进行语义关联。

本发明实施例中，替换的词语仅替换原句词语中的20%，且4种字符替换策略占比如下表所示。

字符替换策略	替换比例(占总句)
		字音混淆词替换策略	8%
混淆字符的拼音替换策略	4%
		随机替换策略	4%
原词不变策略	4%

S103，采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型。

参见图3和4，上述融入语音信息的预训练语言模型的训练过程，包括：

1)通过词表将待纠错样本编码为独热序列向量。

2)使用词嵌入将独热序列向量映射为固定长度的字序列向量。

3)将字序列向量输入至Transformer编码模块中，输出待纠错样本的语义编码。

参见图6，上述预训练语言模型的Transformer编码模块结构堆叠了12层Transformer编码器对文本进行语义编码。Transformer编码模块的输入是词向量编码模块输出的字序列向量。Transformer编码模块的输出是输出是待纠错文本的语义编码。

其中，每层Transformer编码器结构，具体包括以下部分：

A.多头注意力机制：通过设置多个不同的自注意力机制，对输入句子的上下文进行语义编码。

B.残差网络&正则化：残差网络通过将多头注意力机制输出的语义编码和词嵌入输入表征进行融合，可以缓解训练过程中梯度消失以及深层网络的语义信息丢失问题。

C.全连接层：全连接层可以对维度进行变化，并且可以学习到复杂的非线性表征。

4)根据待纠错样本的语义编码，分别进行错误字符检测任务和错误字符纠正任务，获得字符检测损失和字符纠正损失。

参见图7，融入语音信息的预训练语言模型主要训练2个任务：错误字符检测任务和错误字符纠正任务。错误字符检测任务是判断待纠错句子中每一个字符是否是错误的，即该字符在数据预处理模块中是否被替换为错误字符。错误字符纠正任务是对待纠错句子中的错误字符进行纠正，修改为正确的字符。

5)根据字符检测损失和字符纠正损失计算两者损失之和，即模型损失，根据模型损失进行模型梯度更新。

预训练语言模型的损失是错误字符检测任务的损失和错误字符纠正任务的损失之和。具体公式如下：

字符检测损失：

其中，

为检错概率的交叉熵，

是预测的错误标签，

是真实的错误标签，X为输入序列，即自变量。

字符纠正损失：

其中，

为纠错概率的交叉熵，

是预测的字符，

是真实的字符标签，X为输入序列，即自变量。

预训练语言模型的损失L：

S104，从待纠错样本的句子中提取拼音和字，输入至融入语音信息的预训练语言模型，获得语义序列表征。

语义序列表征记为

，则

上式中，

表示融入语音信息的预训练语言模型的函数，

表示第

个句子的字序列向量，

表示第

个句子的拼音序列向量。

S105，采用语义序列表征进行模型训练，获得端到端语音文本纠错模型。

参见图8，上述端到端语音文本纠错模型包括检错网络和纠错网络，则端到端语音文本纠错模型的训练过程，包括：

在检错网络中，将语义序列表征通过全连接层进行映射，获得检错网络的隐层表征，然后通过Softmax函数得到检错的概率标签，用于判断待纠错样本的句子中每一个字是否为错别字。

在纠错网络中，将语义表征通过全连接层进行映射，获得纠错网络的隐层表征，然后通过Softmax函数得到每个字纠错的词表概率标签，用于将句子中错误的字修改为正确的字；根据检错的概率标签和纠错的词表概率标签，判断是否进行文本纠错。

检错网络的隐层表征记为

，纠错网络的隐层表征记为

，则：

上式中，

表示检错的概率标签，

表示每个字纠错的词表概率标签，

表示激活函数，

表示Softmax分类器函数，

和

分别为参数矩阵和参数向量，

为待纠错样本的语义序列表征。

S106，将待纠错文本输入至端到端语音文本纠错模型中，获得纠错后文本。

为了降低该方法的错纠率，仅在同时满足以下2个条件下对字符进行纠错：（1）检错网络识别字符为错误字符；（2）在纠错网络生成的修改后句子中，该字符与原字符不一致。当满足这2个条件时，才将该字符替换为纠错网络修改后的字符，实现语音文本的纠错。

举例：

待纠错文本：我要配一副眼睛

检错结果：错误字符- 副、睛

纠错结果：纠错字符- 睛->镜

同时满足两个纠错条件的只有 “睛”->“镜”，因此纠错后的结果是“我要配一副眼镜”。

参见图9，本发明还公开了一种端到端中文语音文本纠错装置，包括：

数据集构建模块101，用于基于语音识别数据集构建语音纠错数据集，语音纠错数据集包括待纠错样本和正确样本。

预处理模块102，用于获取纯文本数据，并对纯文本数据进行预处理。

第一训练模块103，用于采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型。

序列表征模块104，用于从待纠错样本的句子中提取拼音和词语，输入至融入语音信息的预训练语言模型，获得语义序列表征。

第二训练模块105，用于采用语义序列表征进行模型训练，获得端到端语音文本纠错模型。

文本纠错模块106，用于将待纠错文本输入至端到端语音文本纠错模型中，获得纠错后文本。

本发明还公开了一种存储介质，其上存储有计算机程序，存储介质中存储有至少一可执行指令，执行指令使处理器执行如上任一项的端到端中文语音文本纠错方法对应的操作。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明的有益效果包括：在训练语言模型时，通过设置拼音替换规则，实现语音信息的融入，提升针对语音文本的纠错效果。在训练端到端语音纠错模型时，将字符和拼音作为输入到语言模型中，实现语义和拼音信息的双重编码。并且构建了检测-纠错网络，实现针对语音文本的实时纠错。上述方法通过构建中文语音文本纠错模型，可以有效提升中文语音文本纠错的效果。该方法可以有效应用于智能对话、搜索引擎、问答匹配等不同的业务场景。

应理解，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种端到端中文语音文本纠错方法，其特征在于，包括如下步骤：

基于语音识别数据集构建语音纠错数据集，所述语音纠错数据集包括待纠错样本和正确样本；

获取纯文本数据，并对所述纯文本数据进行预处理；其中，对所述纯文本数据进行预处理，包括：采用多种字符替换策略对所述纯文本数据的句子进行替换，将替换后的错误文本作为待纠错样本，替换前的纯文本作为正确样本；

采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；

从所述待纠错样本的句子中提取拼音和字，输入至所述融入语音信息的预训练语言模型，获得语义序列表征；

采用所述语义序列表征进行模型训练，获得端到端语音文本纠错模型；

将待纠错文本输入至所述端到端语音文本纠错模型中，获得纠错后文本；

其中，所述融入语音信息的预训练语言模型的训练过程，包括：

通过词表将所述待纠错样本编码为独热序列向量；

使用词嵌入将所述独热序列向量映射为固定长度的字序列向量；

将所述字序列向量输入至Transformer编码模块中，输出待纠错样本的语义编码；

根据所述待纠错样本的语义编码，分别进行错误字符检测任务和错误字符纠正任务，获得字符检测损失和字符纠正损失；

根据所述字符检测损失和字符纠正损失计算两者损失之和，即模型损失，根据所述模型损失进行模型梯度更新。

2.根据权利要求1所述的端到端中文语音文本纠错方法，其特征在于，所述基于语音识别数据集构建语音纠错数据集，包括：

获取语音识别数据集，所述语音识别数据集包括音频数据及与其对应的参考文本；

基于语音转文本工具将所述音频数据转化为中文文本；

比对所述中文文本及其对应的参考文本，判断是否一致；

若一致，则通过拼音替换规则对所述中文文本进行随机替换，生成待纠错样本，并将参考文本作为正确样本；

若不一致，则将所述中文文本作为待纠错样本，将参考文本作为正确样本；

将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。

3.根据权利要求2所述的端到端中文语音文本纠错方法，其特征在于，所述拼音替换规则，包括：

替换拼音完全相同的字；

替换鼻音、平卷舌的字；

替换拼音编辑距离为1的字。

4.根据权利要求1所述的端到端中文语音文本纠错方法，其特征在于，所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。

5.根据权利要求1所述的端到端中文语音文本纠错方法，其特征在于，所述语义序列表征记为

，则

上式中，

表示融入语音信息的预训练语言模型的函数，

表示第

个句子的字序列向量，

表示第

个句子的拼音序列向量。

6.根据权利要求1所述的端到端中文语音文本纠错方法，其特征在于，所述端到端语音文本纠错模型包括检错网络和纠错网络，则所述端到端语音文本纠错模型的训练过程，包括：

在检错网络中，将所述语义序列表征通过全连接层进行映射，获得检错网络的隐层表征，然后通过Softmax函数得到检错的概率标签，用于判断所述待纠错样本的句子中每一个字是否为错别字；

在纠错网络中，将所述语义表征通过全连接层进行映射，获得纠错网络的隐层表征，然后通过Softmax函数得到每个字纠错的词表概率标签，用于将句子中错误的字修改为正确的字；

根据所述检错的概率标签和纠错的词表概率标签，判断是否进行文本纠错。

7.根据权利要求6所述的端到端中文语音文本纠错方法，其特征在于，所述检错网络的隐层表征记为

，纠错网络的隐层表征记为

，则：

上式中，

表示检错的概率标签，

表示每个字纠错的词表概率标签，

表示激活函数，

表示Softmax分类器函数，

和

分别为参数矩阵和参数向量，

为待纠错样本的语义序列表征。

8.一种端到端中文语音文本纠错装置，其特征在于，包括：

数据集构建模块，用于基于语音识别数据集构建语音纠错数据集，所述语音纠错数据集包括待纠错样本和正确样本；

预处理模块，用于获取纯文本数据，并对所述纯文本数据进行预处理；其中，对所述纯文本数据进行预处理，包括：采用多种字符替换策略对所述纯文本数据的句子进行替换，将替换后的错误文本作为待纠错样本，替换前的纯文本作为正确样本；

第一训练模块，用于采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；

序列表征模块，用于从所述待纠错样本的句子中提取拼音和词语，输入至所述融入语音信息的预训练语言模型，获得语义序列表征；

第二训练模块，用于采用所述语义序列表征进行模型训练，获得端到端语音文本纠错模型；

文本纠错模块，用于将待纠错文本输入至所述端到端语音文本纠错模型中，获得纠错后文本；

通过词表将所述待纠错样本编码为独热序列向量；

9.一种存储介质，其上存储有计算机程序，所述存储介质中存储有至少一可执行指令，所述执行指令使处理器执行如权利要求1-7中任一项所述的端到端中文语音文本纠错方法对应的操作。