CN114444479B - 一种端到端中文语音文本纠错方法、装置和存储介质 - Google Patents

一种端到端中文语音文本纠错方法、装置和存储介质 Download PDF

Info

Publication number
CN114444479B
CN114444479B CN202210371315.1A CN202210371315A CN114444479B CN 114444479 B CN114444479 B CN 114444479B CN 202210371315 A CN202210371315 A CN 202210371315A CN 114444479 B CN114444479 B CN 114444479B
Authority
CN
China
Prior art keywords
text
error correction
corrected
character
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210371315.1A
Other languages
English (en)
Other versions
CN114444479A (zh
Inventor
杜振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN202210371315.1A priority Critical patent/CN114444479B/zh
Publication of CN114444479A publication Critical patent/CN114444479A/zh
Application granted granted Critical
Publication of CN114444479B publication Critical patent/CN114444479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种端到端中文语音文本纠错方法、装置和存储介质,该方法包括如下步骤:基于语音识别数据集构建语音纠错数据集,语音纠错数据集包括待纠错样本和正确样本;获取纯文本数据,并对纯文本数据进行预处理;采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;从待纠错样本的句子中提取拼音和字,输入至融入语音信息的预训练语言模型,获得语义序列表征;采用语义序列表征进行模型训练,获得端到端语音文本纠错模型;将待纠错文本输入至端到端语音文本纠错模型中,获得纠错后文本。本发明实现了语音信息的融入,语义和拼音信息的双重编码,以及针对语音文本的实时纠错,同时提升了针对语音文本的纠错效果。

Description

一种端到端中文语音文本纠错方法、装置和存储介质
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种端到端中文语音文本纠错方法、装置和存储介质。
背景技术
中文语音文本纠错是对语音转换后的中文文本进行错误检测和纠正。当前语音转文本容易出现记录噪音或者识别错误等情况,将极大地影响意图识别、文本检索等任务的效果。因此,中文语音文本纠错一直受到业界的广泛关注。
语音文本纠错和普通错别字纠错有较大区别,普通错别字纠错针对的问题是字音错误和字形错误,而语音纠错主要针对的仅是字音错误。因此相比较普通错别字纠错,语音文本纠错需要更聚焦于字音的错误建模。
传统的语音文本纠错方法首先检测拼写错误的字符,并使用统计语言模型生成候选集,然后通过计算文本困惑度或设定规则等方法过滤错误的候选字符。但是由于统计语言模型的语义表征效果限制,导致需要通过大量的规则来进行候选字符过滤,该方法不仅耗时耗力且泛化性不高。
发明内容
本发明的目的在于提供一种端到端中文语音文本纠错方法、装置和存储介质,解决了现有技术中传统的语音文本纠错方法不仅耗时耗力且泛化性不高的问题。
为解决上述技术问题,本发明采用的技术方案是:一种端到端中文语音文本纠错方法,包括如下步骤:基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;获取纯文本数据,并对所述纯文本数据进行预处理;采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;从所述待纠错样本的句子中提取拼音和字,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;采用所述语义序列表征进行模型训练,获得端到端语音文本纠错模型;将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本。
作为优选方案,所述基于语音识别数据集构建语音纠错数据集,包括:获取语音识别数据集,所述语音识别数据集包括音频数据及与其对应的参考文本;基于语音转文本工具将所述音频数据转化为中文文本;比对所述中文文本及其对应的参考文本,判断是否一致;若一致,则通过拼音替换规则对所述中文文本进行随机替换,生成待纠错样本,并将参考文本作为正确样本;若不一致,则将所述中文文本作为待纠错样本,将参考文本作为正确样本;将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。
作为优选方案,所述拼音替换规则,包括:替换拼音完全相同的字;替换鼻音、平卷舌的字;替换拼音编辑距离为1的字。
作为优选方案,对所述纯文本数据进行预处理,包括:采用多种字符替换策略对所述纯文本数据的句子进行替换,将替换后的错误文本作为待纠错样本,替换前的纯文本作为正确样本;所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。
作为优选方案,所述融入语音信息的预训练语言模型的训练过程,包括:通过词表将所述待纠错样本编码为独热序列向量;使用词嵌入将所述独热序列向量映射为固定长度的字序列向量;将所述字序列向量输入至Transformer编码模块中,输出待纠错样本的语义编码;根据所述待纠错样本的语义编码,分别进行错误字符检测任务和错误字符纠正任务,获得字符检测损失和字符纠正损失;根据所述字符检测损失和字符纠正损失计算两者损失之和,即模型损失,根据所述模型损失进行模型梯度更新。
作为优选方案,所述语义序列表征记为
Figure DEST_PATH_IMAGE001
,则
Figure 359209DEST_PATH_IMAGE002
上式中,
Figure DEST_PATH_IMAGE003
表示融入语音信息的预训练语言模型的函数,
Figure 562658DEST_PATH_IMAGE004
表示第
Figure 14630DEST_PATH_IMAGE006
个句子的字序列向量,
Figure DEST_PATH_IMAGE007
表示第
Figure 910910DEST_PATH_IMAGE006
个句子的拼音序列向量。
作为优选方案,所述端到端语音文本纠错模型包括检错网络和纠错网络,则所述端到端语音文本纠错模型的训练过程,包括:在检错网络中,将所述语义序列表征通过全连接层进行映射,获得检错网络的隐层表征,然后通过Softmax函数得到检错的概率标签,用于判断所述待纠错样本的句子中每一个字是否为错别字;在纠错网络中,将所述语义表征通过全连接层进行映射,获得纠错网络的隐层表征,然后通过Softmax函数得到每个字纠错的词表概率标签,用于将句子中错误的字修改为正确的字;根据所述检错的概率标签和纠错的词表概率标签,判断是否进行文本纠错。
作为优选方案,所述检错网络的隐层表征记为
Figure 64811DEST_PATH_IMAGE008
,纠错网络的隐层表征记为
Figure DEST_PATH_IMAGE009
,则:
Figure 101644DEST_PATH_IMAGE010
上式中,
Figure DEST_PATH_IMAGE011
表示检错的概率标签,
Figure 578762DEST_PATH_IMAGE012
表示每个字纠错的词表概 率标签,
Figure DEST_PATH_IMAGE013
表示激活函数,
Figure 412988DEST_PATH_IMAGE014
表示Softmax分类器函数,
Figure DEST_PATH_IMAGE015
Figure 241135DEST_PATH_IMAGE016
分别为参数 矩阵和参数向量,
Figure 599436DEST_PATH_IMAGE001
为待纠错样本的语义序列表征。
本发明还公开了一种端到端中文语音文本纠错装置,包括:数据集构建模块,用于基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;预处理模块,用于获取纯文本数据,并对所述纯文本数据进行预处理;第一训练模块,用于采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;序列表征模块,用于从所述待纠错样本的句子中提取拼音和词语,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;第二训练模块,用于采用所述语义序列表征进行模型训练,获得端到端语音文本纠错模型;文本纠错模块,用于将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本。
本发明还公开了一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如上任一项所述的端到端中文语音文本纠错方法对应的操作。
与现有技术相比,本发明的有益效果包括:在训练语言模型时,通过设置拼音替换规则,实现语音信息的融入,提升针对语音文本的纠错效果。在训练端到端语音纠错模型时,将字符和拼音作为输入到语言模型中,实现语义和拼音信息的双重编码。并且构建了检测-纠错网络,实现针对语音文本的实时纠错。
附图说明
参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:
图1为本发明实施例端到端中文语音文本纠错方法的流程示意图;
图2为本发明实施例构建语音纠错数据集的流程示意图;
图3为本发明实施例融入语音信息的预训练语言模型的训练流程示意图;
图4为本发明实施例纯文本数据的句子进行替换的流程示意图;
图5为本发明实施例待纠错样本编码的流程示意图;
图6为本发明实施例Transformer编码模块的结构示意图;
图7为本发明实施例进行错误字符检测任务和错误字符纠正任务的流程示意图;
图8为本发明实施例端到端语音文本纠错模型的架构图;
图9为本发明实施例端到端中文语音文本纠错装置的结构示意图。
具体实施方式
容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
根据本发明的一实施方式结合图1示出。一种端到端中文语音文本纠错方法,包括如下步骤:
S101,基于语音识别数据集构建语音纠错数据集,语音纠错数据集包括待纠错样本和正确样本。
参见图2,上述基于语音识别数据集构建语音纠错数据集,包括:
1)获取语音识别数据集,语音识别数据集包括音频数据及与其对应的参考文本。该语音纠错数据集基于已公开的大型普通话语音识别数据集进行构建,包括10000小时普通话音频数据以及对应的中文参考文本。
2)基于语音转文本工具(ASR工具)将音频数据转化为中文文本。
3)比对中文文本及其对应的参考文本,判断是否一致。
4)若一致,则通过 拼音替换规则对中文文本进行随机替换,生成待纠错样本,并将参考文本作为正确样本。
5)若不一致,则将中文文本作为待纠错样本,将参考文本作为正确样本。将待纠错样本和正确样本作为样本对加入到语音纠错数据集中。
具体的,拼音替换规则,包括:
(a) 替换拼音完全相同的字,比如“在:zai”和“再:zai”。
(b) 替换常见鼻音、平卷舌等模糊情况。比如“南宁:nan ning”和“南岭:nanling”。
(c) 替换拼音编辑距离为1的字。比如 “暂时:zan shi”和“战时:zhan shi”。 编辑距离是指两个字符串之间,由一个转成另一个所需的最小编辑次数。比如“暂”和“战”的拼音分别为“zan”和“zhan”,那么只需要将拼音字符“h”进行一次删除即可,因此“暂”和“战”的拼音编辑距离为1。
S102,获取纯文本数据,并对纯文本数据进行预处理。纯文本数据主要由wiki公开数据集(100万中文wiki语料)和100万篇新闻文本构成。
参见图4,对纯文本数据进行预处理,包括:采用多种字符替换策略对纯文本数据的句子进行替换,将替换后的错误文本作为待纠错样本,替换前的纯文本作为正确样本。字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。
通过4种不同的字符替换策略,对中文纯文本中每条文本的字符都按照20%概率进行字符替换。将字符替换后的错误文本(即待纠错样本)作为预训练语言模型的输入,替换前的纯文本(即正确样本)作为预训练语言模型的输出。该字符替换策略可以将发音相似的字符与其对应的拼音进行语义关联。
本发明实施例中,替换的词语仅替换原句词语中的20%,且4种字符替换策略占比如下表所示。
字符替换策略 替换比例(占总句)
字音混淆词替换策略 8%
混淆字符的拼音替换策略 4%
随机替换策略 4%
原词不变策略 4%
S103,采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型。
参见图3和4,上述融入语音信息的预训练语言模型的训练过程,包括:
1)通过词表将待纠错样本编码为独热序列向量。
2)使用词嵌入将独热序列向量映射为固定长度的字序列向量。
3)将字序列向量输入至Transformer编码模块中,输出待纠错样本的语义编码。
参见图6,上述预训练语言模型的Transformer编码模块结构堆叠了12层Transformer编码器对文本进行语义编码。Transformer编码模块的输入是词向量编码模块输出的字序列向量。Transformer编码模块的输出是输出是待纠错文本的语义编码。
其中,每层Transformer编码器结构,具体包括以下部分:
A.多头注意力机制:通过设置多个不同的自注意力机制,对输入句子的上下文进行语义编码。
B.残差网络&正则化:残差网络通过将多头注意力机制输出的语义编码和词嵌入输入表征进行融合,可以缓解训练过程中梯度消失以及深层网络的语义信息丢失问题。
C.全连接层:全连接层可以对维度进行变化,并且可以学习到复杂的非线性表征。
4)根据待纠错样本的语义编码,分别进行错误字符检测任务和错误字符纠正任务,获得字符检测损失和字符纠正损失。
参见图7,融入语音信息的预训练语言模型主要训练2个任务:错误字符检测任务和错误字符纠正任务。错误字符检测任务是判断待纠错句子中每一个字符是否是错误的,即该字符在数据预处理模块中是否被替换为错误字符。错误字符纠正任务是对待纠错句子中的错误字符进行纠正,修改为正确的字符。
5)根据字符检测损失和字符纠正损失计算两者损失之和,即模型损失,根据模型损失进行模型梯度更新。
预训练语言模型的损失是错误字符检测任务的损失和错误字符纠正任务的损失之和。具体公式如下:
字符检测损失:
Figure DEST_PATH_IMAGE017
其中,
Figure 960753DEST_PATH_IMAGE018
为检错概率的交叉熵,
Figure DEST_PATH_IMAGE019
是预测的错误标签,
Figure 729995DEST_PATH_IMAGE020
是真实的错误标签,X为 输入序列,即自变量。
字符纠正损失:
Figure DEST_PATH_IMAGE021
其中,
Figure 546904DEST_PATH_IMAGE022
为纠错概率的交叉熵,
Figure DEST_PATH_IMAGE023
是预测的字符,
Figure 161425DEST_PATH_IMAGE024
是真实的字符标签,X为输入 序列,即自变量。
预训练语言模型的损失L:
Figure DEST_PATH_IMAGE025
S104,从待纠错样本的句子中提取拼音和字,输入至融入语音信息的预训练语言模型,获得语义序列表征。
语义序列表征记为
Figure 629446DEST_PATH_IMAGE001
,则
Figure 599283DEST_PATH_IMAGE002
上式中,
Figure 215072DEST_PATH_IMAGE003
表示融入语音信息的预训练语言模型的函数,
Figure 695601DEST_PATH_IMAGE004
表示第
Figure 80446DEST_PATH_IMAGE006
个句子的字序列向量,
Figure 473381DEST_PATH_IMAGE007
表示第
Figure 61619DEST_PATH_IMAGE006
个句子的拼音序列向量。
S105,采用语义序列表征进行模型训练,获得端到端语音文本纠错模型。
参见图8,上述端到端语音文本纠错模型包括检错网络和纠错网络,则端到端语音文本纠错模型的训练过程,包括:
在检错网络中,将语义序列表征通过全连接层进行映射,获得检错网络的隐层表征,然后通过Softmax函数得到检错的概率标签,用于判断待纠错样本的句子中每一个字是否为错别字。
在纠错网络中,将语义表征通过全连接层进行映射,获得纠错网络的隐层表征,然后通过Softmax函数得到每个字纠错的词表概率标签,用于将句子中错误的字修改为正确的字;根据检错的概率标签和纠错的词表概率标签,判断是否进行文本纠错。
检错网络的隐层表征记为
Figure 830992DEST_PATH_IMAGE008
,纠错网络的隐层表征记为
Figure 585190DEST_PATH_IMAGE009
,则:
Figure 883448DEST_PATH_IMAGE026
上式中,
Figure 473829DEST_PATH_IMAGE011
表示检错的概率标签,
Figure 794696DEST_PATH_IMAGE012
表示每个字纠错的词表概 率标签,
Figure 888554DEST_PATH_IMAGE013
表示激活函数,
Figure 872559DEST_PATH_IMAGE014
表示Softmax分类器函数,
Figure 684657DEST_PATH_IMAGE015
Figure 61412DEST_PATH_IMAGE016
分别为参数 矩阵和参数向量,
Figure 26088DEST_PATH_IMAGE001
为待纠错样本的语义序列表征。
S106,将待纠错文本输入至端到端语音文本纠错模型中,获得纠错后文本。
为了降低该方法的错纠率,仅在同时满足以下2个条件下对字符进行纠错:(1)检错网络识别字符为错误字符;(2)在纠错网络生成的修改后句子中,该字符与原字符不一致。 当满足这2个条件时,才将该字符替换为纠错网络修改后的字符,实现语音文本的纠错。
举例:
待纠错文本:我要配一副眼睛
检错结果:错误字符- 副、睛
纠错结果:纠错字符- 睛->镜
同时满足两个纠错条件的只有 “睛”->“镜”,因此纠错后的结果是“我要配一副眼镜”。
参见图9,本发明还公开了一种端到端中文语音文本纠错装置,包括:
数据集构建模块101,用于基于语音识别数据集构建语音纠错数据集,语音纠错数据集包括待纠错样本和正确样本。
预处理模块102,用于获取纯文本数据,并对纯文本数据进行预处理。
第一训练模块103,用于采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型。
序列表征模块104,用于从待纠错样本的句子中提取拼音和词语,输入至融入语音信息的预训练语言模型,获得语义序列表征。
第二训练模块105,用于采用语义序列表征进行模型训练,获得端到端语音文本纠错模型。
文本纠错模块106,用于将待纠错文本输入至端到端语音文本纠错模型中,获得纠错后文本。
本发明还公开了一种存储介质,其上存储有计算机程序,存储介质中存储有至少一可执行指令,执行指令使处理器执行如上任一项的端到端中文语音文本纠错方法对应的操作。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,本发明的有益效果包括:在训练语言模型时,通过设置拼音替换规则,实现语音信息的融入,提升针对语音文本的纠错效果。在训练端到端语音纠错模型时,将字符和拼音作为输入到语言模型中,实现语义和拼音信息的双重编码。并且构建了检测-纠错网络,实现针对语音文本的实时纠错。上述方法通过构建中文语音文本纠错模型,可以有效提升中文语音文本纠错的效果。该方法可以有效应用于智能对话、搜索引擎、问答匹配等不同的业务场景。
应理解,所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括 :U 盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。

Claims (9)

1.一种端到端中文语音文本纠错方法,其特征在于,包括如下步骤:
基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;
获取纯文本数据,并对所述纯文本数据进行预处理;其中,对所述纯文本数据进行预处理,包括:采用多种字符替换策略对所述纯文本数据的句子进行替换,将替换后的错误文本作为待纠错样本,替换前的纯文本作为正确样本;
采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;
从所述待纠错样本的句子中提取拼音和字,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;
采用所述语义序列表征进行模型训练,获得端到端语音文本纠错模型;
将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本;
其中,所述融入语音信息的预训练语言模型的训练过程,包括:
通过词表将所述待纠错样本编码为独热序列向量;
使用词嵌入将所述独热序列向量映射为固定长度的字序列向量;
将所述字序列向量输入至Transformer编码模块中,输出待纠错样本的语义编码;
根据所述待纠错样本的语义编码,分别进行错误字符检测任务和错误字符纠正任务,获得字符检测损失和字符纠正损失;
根据所述字符检测损失和字符纠正损失计算两者损失之和,即模型损失,根据所述模型损失进行模型梯度更新。
2.根据权利要求1所述的端到端中文语音文本纠错方法,其特征在于,所述基于语音识别数据集构建语音纠错数据集,包括:
获取语音识别数据集,所述语音识别数据集包括音频数据及与其对应的参考文本;
基于语音转文本工具将所述音频数据转化为中文文本;
比对所述中文文本及其对应的参考文本,判断是否一致;
若一致,则通过拼音替换规则对所述中文文本进行随机替换,生成待纠错样本,并将参考文本作为正确样本;
若不一致,则将所述中文文本作为待纠错样本,将参考文本作为正确样本;
将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。
3.根据权利要求2所述的端到端中文语音文本纠错方法,其特征在于,所述拼音替换规则,包括:
替换拼音完全相同的字;
替换鼻音、平卷舌的字;
替换拼音编辑距离为1的字。
4.根据权利要求1所述的端到端中文语音文本纠错方法,其特征在于,所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。
5.根据权利要求1所述的端到端中文语音文本纠错方法,其特征在于,所述语义序列表 征记为
Figure 443397DEST_PATH_IMAGE001
,则
Figure 675664DEST_PATH_IMAGE002
上式中,
Figure 211819DEST_PATH_IMAGE003
表示融入语音信息的预训练语言模型的函数,
Figure 213142DEST_PATH_IMAGE004
表示 第
Figure 973287DEST_PATH_IMAGE005
个句子的字序列向量,
Figure 427271DEST_PATH_IMAGE006
表示第
Figure 563855DEST_PATH_IMAGE007
个句子的拼音序列向量。
6.根据权利要求1所述的端到端中文语音文本纠错方法,其特征在于,所述端到端语音文本纠错模型包括检错网络和纠错网络,则所述端到端语音文本纠错模型的训练过程,包括:
在检错网络中,将所述语义序列表征通过全连接层进行映射,获得检错网络的隐层表征,然后通过Softmax函数得到检错的概率标签,用于判断所述待纠错样本的句子中每一个字是否为错别字;
在纠错网络中,将所述语义表征通过全连接层进行映射,获得纠错网络的隐层表征,然后通过Softmax函数得到每个字纠错的词表概率标签,用于将句子中错误的字修改为正确的字;
根据所述检错的概率标签和纠错的词表概率标签,判断是否进行文本纠错。
7.根据权利要求6所述的端到端中文语音文本纠错方法,其特征在于,所述检错网络的 隐层表征记为
Figure 702841DEST_PATH_IMAGE008
,纠错网络的隐层表征记为
Figure 368309DEST_PATH_IMAGE009
,则:
Figure 309589DEST_PATH_IMAGE010
上式中,
Figure 984284DEST_PATH_IMAGE011
表示检错的概率标签,
Figure 881571DEST_PATH_IMAGE012
表示每个字纠错的词表概率标 签,
Figure 346968DEST_PATH_IMAGE013
表示激活函数,
Figure 182069DEST_PATH_IMAGE014
表示Softmax分类器函数,
Figure 581826DEST_PATH_IMAGE015
Figure 943406DEST_PATH_IMAGE016
分别为参数矩阵 和参数向量,
Figure 216256DEST_PATH_IMAGE001
为待纠错样本的语义序列表征。
8.一种端到端中文语音文本纠错装置,其特征在于,包括:
数据集构建模块,用于基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;
预处理模块,用于获取纯文本数据,并对所述纯文本数据进行预处理;其中,对所述纯文本数据进行预处理,包括:采用多种字符替换策略对所述纯文本数据的句子进行替换,将替换后的错误文本作为待纠错样本,替换前的纯文本作为正确样本;
第一训练模块,用于采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;
序列表征模块,用于从所述待纠错样本的句子中提取拼音和词语,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;
第二训练模块,用于采用所述语义序列表征进行模型训练,获得端到端语音文本纠错模型;
文本纠错模块,用于将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本;
其中,所述融入语音信息的预训练语言模型的训练过程,包括:
通过词表将所述待纠错样本编码为独热序列向量;
使用词嵌入将所述独热序列向量映射为固定长度的字序列向量;
将所述字序列向量输入至Transformer编码模块中,输出待纠错样本的语义编码;
根据所述待纠错样本的语义编码,分别进行错误字符检测任务和错误字符纠正任务,获得字符检测损失和字符纠正损失;
根据所述字符检测损失和字符纠正损失计算两者损失之和,即模型损失,根据所述模型损失进行模型梯度更新。
9.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-7中任一项所述的端到端中文语音文本纠错方法对应的操作。
CN202210371315.1A 2022-04-11 2022-04-11 一种端到端中文语音文本纠错方法、装置和存储介质 Active CN114444479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371315.1A CN114444479B (zh) 2022-04-11 2022-04-11 一种端到端中文语音文本纠错方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371315.1A CN114444479B (zh) 2022-04-11 2022-04-11 一种端到端中文语音文本纠错方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN114444479A CN114444479A (zh) 2022-05-06
CN114444479B true CN114444479B (zh) 2022-06-24

Family

ID=81359469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371315.1A Active CN114444479B (zh) 2022-04-11 2022-04-11 一种端到端中文语音文本纠错方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114444479B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781377B (zh) * 2022-06-20 2022-09-09 联通(广东)产业互联网有限公司 非对齐文本的纠错模型、训练及纠错方法
CN115132208A (zh) * 2022-07-07 2022-09-30 湖南三湘银行股份有限公司 一种基于ctc算法构建的人工智能催收方法
CN115270770B (zh) * 2022-07-08 2023-04-07 名日之梦(北京)科技有限公司 基于文本数据的纠错模型的训练方法及装置
CN115358217A (zh) * 2022-09-02 2022-11-18 美的集团(上海)有限公司 词句的纠错方法、装置、可读存储介质和计算机程序产品
CN115688703B (zh) * 2022-10-31 2024-03-12 国网山东省电力公司烟台供电公司 一种特定领域文本纠错方法、存储介质和装置
CN115659959B (zh) * 2022-12-27 2023-03-21 苏州浪潮智能科技有限公司 图像的文本纠错方法、装置、电子设备及存储介质
CN116090441B (zh) * 2022-12-30 2023-10-20 永中软件股份有限公司 一种融合局部语义特征和全局语义特征的中文拼写纠错方法
CN116227468B (zh) * 2023-01-06 2023-10-31 杭州健海科技有限公司 基于拼音转写翻译的语音识别模型纠错训练方法及装置
CN115796189B (zh) * 2023-01-31 2023-05-12 北京面壁智能科技有限责任公司 语义确定方法、装置、电子设备及介质
CN115862674A (zh) * 2023-02-21 2023-03-28 山东山大鸥玛软件股份有限公司 英语口语评测的语音识别及纠错方法、***、设备及介质
CN116665675B (zh) * 2023-07-25 2023-12-12 上海蜜度信息技术有限公司 语音转写方法、***、电子设备和存储介质
CN116757184B (zh) * 2023-08-18 2023-10-20 昆明理工大学 融合发音特征的越南语语音识别文本纠错方法及***
CN117453867B (zh) * 2023-09-25 2024-04-23 云启智慧科技有限公司 一种基于自然语言处理的智能育儿***和装置
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN117634473B (zh) * 2023-12-12 2024-06-18 郑州大学 一种融入源信息的语法纠错早停多轮解码方法和***
CN117636877B (zh) * 2024-01-24 2024-04-02 广东铭太信息科技有限公司 一种基于语音指令的智能***操作方法及***
CN117744633A (zh) * 2024-02-21 2024-03-22 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文本纠错方法、装置及电子设备
CN118133813A (zh) * 2024-05-08 2024-06-04 北京澜舟科技有限公司 中文拼写纠错模型的训练方法以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395861A (zh) * 2020-11-18 2021-02-23 平安普惠企业管理有限公司 中文文本的纠错方法、装置和计算机设备
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质
CN113642316B (zh) * 2021-07-28 2023-11-28 平安国际智慧城市科技股份有限公司 中文文本纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114444479A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN114444479B (zh) 一种端到端中文语音文本纠错方法、装置和存储介质
CN111062376A (zh) 基于光学字符识别与纠错紧耦合处理的文本识别方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及***
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
JP2022552029A (ja) Transformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法
O'Neill et al. Spgispeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition
CN111062397A (zh) 一种智能票据处理***
CN114386371B (zh) 中文拼写纠错方法、***、设备及存储介质
CN109410949B (zh) 基于加权有限状态转换器的文本内容添加标点方法
CN112632996A (zh) 一种基于对比学习的实体关系三元组抽取方法
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN115438154A (zh) 基于表征学习的中文自动语音识别文本修复方法及***
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN116127953A (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN113609824A (zh) 基于文本编辑和语法纠错的多轮对话改写方法及***
CN115658898A (zh) 一种中英文本实体关系抽取方法、***及设备
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及***
CN116502628A (zh) 基于知识图谱的政务领域多阶段融合的文本纠错方法
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN114997148B (zh) 一种基于对比学习的中文拼写校对预训练模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant