WO2020186778A1

WO2020186778A1 - 错词纠正方法、装置、计算机装置及存储介质

Info

Publication number: WO2020186778A1
Application number: PCT/CN2019/117237
Authority: WO
Inventors: 解笑; 徐国强; 邱寒
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-03-15
Filing date: 2019-11-11
Publication date: 2020-09-24
Also published as: CN110110041B; CN110110041A

Abstract

一种错词纠正方法、装置、计算机装置及存储介质。所述错词纠正方法包括：获取通用自然语言数据集（101）；将自然语言数据集包含的每个句子转换为拼音序列，得到通用自然语言数据集的拼音-句子对（102）；将通用自然语言数据集的部分拼音-句子对进行拼音替换，得到第一样本集（103）；利用第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型（104）；获取多个与特定领域相关的含相近拼音的拼音-句子对作为第二样本集（105）；利用第二样本集对预训练后的神经网络模型进行微调，得到微调后的神经网络模型（106）；将待纠错句子的拼音序列输入微调后的神经网络模型进行纠错，得到纠错后的句子（107）。该方法可以对语言识别中专有词语被识别为常用词进行纠错。

Description

错词纠正方法、装置、计算机装置及存储介质

本申请要求于2019年03月15日提交中国专利局，申请号为201910199221.9申请名称为“错词纠正方法、装置、计算机装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别技术领域，具体涉及一种错词纠正方法、装置、计算机装置及非易失性可读存储介质。

背景技术

随着语音识别应用场景的迅猛拓宽，语音识别技术越来越成熟，市场对高准确度的语音识别需求越来越强烈。对于一些开发具有语音识别功能产品的公司，更多的情况是使用通用***的语音识别模块，不针对其具体应用场景进行识别，就会很容易出现将某些专有词语识别为常用词。例如将“需要为谁投保”识别为“需要为谁淘宝”，由于其并没有明显的错误，现有错词纠正***难以发现此类错误。

目前，对于如何提升语言识别在实际应用场景中的纠正效果并没有一个有效的解决方法。如何制定合适的方案，以减少语音识别的偏差，提升用户体验，是相关技术人员目前需要解决的技术问题。

发明内容

鉴于以上内容，有必要提出一种错词纠正方法、装置、计算机装置及非易失性可读存储介质，可以对语言识别中专有词语被识别为常用词进行纠错。

本申请的第一方面提供一种错词纠正方法，所述方法包括：

获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。

本申请的第二方面提供一种错词纠正装置，所述装置包括：

第一获取模块，用于获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

转换模块，用于将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

生成模块，用于从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

预训练模块，用于用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

第二获取模块，用于获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

微调模块，用于利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

纠错模块，用于将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机可读指令时实现所述错词纠正方法。

本申请的第四方面提供一种非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述错词纠正方法。

本申请获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。本实施例可以解决由于语音识别***的通用性在特定领域内无法准确预测专有词语的问题，能够对语言识别中专有词语被识别为常用词进行纠错。

附图说明

图1是本申请实施例提供的错词纠正方法的流程图。

图2是本申请实施例提供的错词纠正装置的结构图。

图3是本申请实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

优选地，本申请的错词纠正方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本申请实施例一提供的错词纠正方法的流程图。所述错词纠正方法应用于计算机装置。

本申请的错词纠正方法是对语言识别得到的句子进行纠错。所述错词纠正方法可以解决由于语音识别***的通用性在特定领域内无法准确预测专有词语的问题，同时增强了纠错***在专有词语被替换为常用词时的错词寻找能力，提升用户的使用体验。

如图1所示，所述错词纠正方法包括：

步骤101，获取通用自然语言数据集，所述通用自然语言数据集包含多个句子。

所述通用自然语言数据集是包含日常用语的中文文本。

可以从书籍、新闻、网页(例如百度百科、***等)等数据源中收集所述通用自然语言数据集。例如，可以对书籍中的文字进行文字识别，得到所述通用自然语言数据集。又如，可以对播报的新闻进行语言识别，得到所述通用自然语言数据集。再如，可以从网页中抓取文本，得到所述通用自然语言数据集。

或者，可以从预设数据库读取所述通用自然语言数据集。所述预设数据库可以预先存储大量的中文文本。

或者，可以接收用户输入的中文文本，将用户输入的中文文本作为所述通用自然语言数据集。

步骤102，将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对。

在本实施例中，所述通用自然语言数据集可以包括多个中文文本，每个中文文本可以包括多个句子(即多句话)。这种情况下，可以根据标点符号(例如逗号、分号、句号等)将每个中文文本划分为多个句子，将划分得到的每个句子转换为拼音序列，即得到每个句子对应的拼音-句子对。

可以根据汉字的ASCII码将所述句子转换为拼音序列。由于汉字在计算机***中以ASCII码表示，只需要利用计算机***中已有的或用户建立的每个拼音与每个ASCII码对应关系，即可实现将句子转换成拼音序列。若句子含有多音字，可以列出多音字的多个拼音，接收用户选择的正确拼音。

或者，可以根据汉字的Unicode值将所述句子转换为拼音序列。具体步骤如下：

(1)建立拼音-编号对照表，对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中。所有汉字的拼音不超过512个，可以用两个字节对拼音进行编号。每个拼音对应一个编号。

(2)建立Unicode值-拼音编号对照表，将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中。

(3)逐一读取所述句子中的待转换汉字，确定所述待转换汉字的Unicode值，根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号，根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音，从而将所述句子中的每个汉字转换为拼音。

若所述句子中含有多音字，可以在上述步骤(2)中将所述多音字对应的多个拼音的编号按照所述多音字的Unicode值添加到所述Unicode值-拼音编号对照表中，在上述(3)中确定所述多音字的Unicode值，根据所述多音字的Unicode值从所述Unicode值-拼音编号对照表中获取所述多音字对应的多个拼音的编号，根据所述多音字对应的多个拼音的编号从所述拼音-编号对照表获得所述多音字对应的多个拼音。可以接收用户从所述多个拼音中选择的正确拼音，将用户选择的拼音作为所述多音字在所述句子中的正确拼音。

步骤103，从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集。

可以从所述通用自然语言数据集的拼音-句子对中随机选择所述多个拼音-句子对，将选择的每个拼音-句子中的部分拼音替换为相近拼音。

可以按照预设比例从通用自然语言数据集的拼音-句子对中选择多个拼音-句子对。例如，可以从所述通用自然语言数据集的拼音-句子对中选择20％的拼音-句子对进行拼音替换。举例来说，若所述通用自然语言数据集包括100个句子(即包括100个拼音-句子对)，则选择20个拼音-句子对进行拼音替换。

所述第一样本集的训练样本包括未选择的拼音-句子对，即正确的拼音-句子对，还包括替换后的拼音-句子对，即将部分拼音替换为相近拼音的拼音-句子对。

本申请主要用于对语言识别得到的句子进行纠错。由于语音识别得到的句子错误大多是句子中的词语有意义而句子无意义，例如“需要为谁投保”有时会被识别成“需要为谁淘宝”。因此，不仅需要正确的拼音-句子对作为训练样本，还需要将部分拼音替换为相近拼音的拼音-句子对作为模型的训练样本。

步骤104，利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型。

所述神经网络模型的输入为拼音序列，输出为对应的句子(即汉字序列)，对拼音序列中的每一个拼音，预测其对应的汉字。

在对神经网络模型进行训练时，以每个未选择的拼音-句子对(即未替换的拼音-句子对)和每个替换后的拼音-句子对作为训练样本。拼音-句子对中的拼音序列为神经网络模型的输入，拼音-句子对中的句子为真实结果。

在本实施例中，所述神经网络模型可以是transformer模型。

transformer模型可以接受一串序列作为输入，同时输出一串序列，在本申请中，Transformer模型将拼音序列作为输入，输出汉字序列。

transformer模型包含编码层、自注意力层、解码层。其中编码层和解码层分别对应拼音的编码和到汉字的解码。自注意力层则用于重复拼音的汉字预测。由于汉字拼音有大量重复，不同的汉字和词语对应于相同的拼音，例如“爆笑”和“报效”拥有同样的拼音和声调，因此在每一个拼音所在进行预测时，需要“关注”整个句子的拼音序列，而不是只看当前位置的拼音。自注意力机制可以使得某一位置的拼音获得其它所有位置的拼音表示，从而做出更符合该句子场景的汉字预测。

在经过大量样本的训练后，该Ttransformer模型可以通过输入拼音序列来输出对应的汉字序列。

步骤105，获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集。

所述第二样本集中的每个训练样本是与特定领域相关的一个拼音-句子对，该拼音-句子对中包含与所述特定领域相关的相近拼音。

特定领域是本方法所要应用的专有领域，例如法律、保险等。

步骤101获得的语言数据集是通用自然语言数据集，主要包含一些日常用语，根据通用自然语言数据集得到的第一样本集是关于日常用语的训练样本，因此预训练得到的神经网络模型在当日常生活中的句子有明显的语音识别错误时，可以进行很好地纠错。但当遇到某些例如法律、保险等专有领域，则神经网络模型的纠错效果有所下降，会将很多专有词语识别为日常用语。例如将“需要为谁投保”中的“投保”识别为“淘宝”。因此要应用到特定领域进行错词纠错时，需要该特定领域的样本数据。

可以按照下述方法获取多个与特定领域相关的包含相近拼音的拼音-句子对：

获取所述特定领域的文本数据集，所述文本数据集包含多个句子；

将所述文本数据集包含的每个句子转换为拼音序列，得到所述文本数据集的拼音-句子对；

将所述文本数据集的拼音-句子对中所述特定领域的专有词语的拼音替换为相近拼音，得到与特定领域相关的包含相近拼音的拼音-句子对。例如，将“需要为谁投保”中的“投保”的拼音(tou，二声，bao，三声)替换为“淘宝”的拼音(tao，二声，bao，三声)。

或者，可以预先建立数据库，用于存储所述特定领域识别错误的拼音-句子对，从所述数据库获取多个与特定领域相关的包含相近拼音的拼音-句子对。

步骤106，利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型。

利用所述第二样本集对所述神经网络模型进行微调的目的是使所述神经网络模型更适用于特定领域，提高特定领域的纠错准确率。

微调训练后的模型在拼音近似的情况下，更倾向于预测为该特定领域的专有词语，从而提高语音识别错误的错词纠正效果。

可以固定所述神经网络模型的前面几层神经元的权值，微调神经网络模型的后面几层神经元的权值。这样做主要是为了避免第二样本集过小出现过拟合现象，神经网络模型前几层神经元一般包含更多的一般特征，对于许多任务而言非常重要，但是后面几层神经元的特征学习注重高层特征，不同的数据集间差异较大。

步骤107，将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。

语言识别得到的结果可以包括多个中文文本，每个中文文本可以包括多个待纠错句子(即多句话)。这种情况下，可以根据标点符号(例如逗号、分号、句号等)将语言识别得到的中文文本划分为多个待纠错句子，将划分得到的每个待纠错句子转换为拼音序列。

可以根据汉字的ASCII码将所述待纠错句子转换为拼音序列。或者，可以根据汉字的Unicode值将所述待纠错句子转换为拼音序列。将待纠错句子转换为拼音序列的方法可以参考步骤102。

或者，可以接收用户输入的待纠错句子，将所述待纠错句子转换为拼音序列。例如，可以生成用户界面，从所述用户界面接收用户输入的待纠错句子。也可以直接接收用户输入的待纠错句子的拼音序列。

实施例一的错词纠正方法获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。本实施例可以解决由于语音识别***的通用性在特定领域内无法准确预测专有词语的问题，能够对语言识别中专有词语被识别为常用词进行纠错。

在另一实施例中，所述错词纠正方法还可以包括：对输入的语音进行识别，得到所述待纠错句子。可以采用各种语音识别技术，例如动态时间规整(Dynamic Time Warping， DTW)、隐马尔可夫模型(Hidden Markov Model，HMM)、矢量量化(Vector Quantization，VQ)、人工神经网络(Artificial Neural Network，ANN)等技术对所述语音进行识别。

实施例二

图2是本申请实施例二提供的错词纠正装置的结构图。所述错词纠正装置20应用于计算机装置。如图2所示，所述错词纠正装置20可以包括第一获取模块201、转换模块202、生成模块203、预训练模块204、第二获取模块205、微调模块206、纠错模块207。

第一获取模块201，用于获取通用自然语言数据集，所述通用自然语言数据集包含多个句子。

所述通用自然语言数据集是包含日常用语的中文文本。

转换模块202，用于将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对。

生成模块203，用于从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集。

预训练模块204，用于利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型。

在本实施例中，所述神经网络模型可以是transformer模型。

transformer模型包含编码层、自注意力层、解码层。其中编码层和解码层分别对应拼音的编码和到汉字的解码。

自注意力层则用于重复拼音的汉字预测。由于汉字拼音有大量重复，不同的汉字和词语对应于相同的拼音，例如“爆笑”和“报效”拥有同样的拼音和声调，因此在每一个拼音所在进行预测时，需要“关注”整个句子的拼音序列，而不是只看当前位置的拼音。自注意力机制可以使得某一位置的拼音获得其它所有位置的拼音表示，从而做出更符合该句子场景的汉字预测。

第二获取模块205，用于获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集。

第一获取模块201获得的语言数据集是通用自然语言数据集，主要包含一些日常用语，根据通用自然语言数据集得到的第一样本集是关于日常用语的训练样本，因此预训练得到的神经网络模型在当日常生活中的句子有明显的语音识别错误时，可以进行很好地纠错。但当遇到某些例如法律、保险等专有领域，则神经网络模型的纠错效果有所下降，会将很多专有词语识别为日常用语。例如将“需要为谁投保”中的“投保”识别为“淘宝”。因此要应用到特定领域进行错词纠错时，需要该特定领域的样本数据。

将所述文本数据集包含的每个句子转换为拼音序列，得到所述文本数据集的拼音- 句子对；

微调模块206，用于利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型。

纠错模块207，用于将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。

可以根据汉字的ASCII码将所述待纠错句子转换为拼音序列。或者，可以根据汉字的Unicode值将所述待纠错句子转换为拼音序列。将待纠错句子转换为拼音序列的方法可以参考转换模块202的描述。

本实施例的错词纠正装置20获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。本实施例可以解决由于语音识别***的通用性在特定领域内无法准确预测专有词语的问题，能够对语言识别中专有词语被识别为常用词进行纠错。

在另一实施例中，所述错词纠正装置20还可以包括：识别模块，对输入的语音进行识别，得到所述待纠错句子。可以采用各种语音识别技术，例如动态时间规整(Dynamic Time Warping，DTW)、隐马尔可夫模型(Hidden Markov Model，HMM)、矢量量化(Vector Quantization，VQ)、人工神经网络(Artificial Neural Network，ANN)等技术对所述语音进行识别。

实施例三

本实施例提供一种非易失性可读存储介质，该非易失性可读存储介质上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述错词纠正方法实施例中的步骤，例如图1所示的步骤101-107：

步骤101，获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

步骤102，将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

步骤103，从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

步骤104，利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

步骤105，获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

步骤106，利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

或者，该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-207：

第一获取模块201，用于获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

转换模块202，用于将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

生成模块203，用于从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

预训练模块204，用于利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

第二获取模块205，用于获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

微调模块206，用于利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

实施例四

图3为本申请实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令303，例如错词纠正程序。所述处理器302执行所述计算机可读指令303时实现上述错词纠正方法实施例中的步骤，例如图1所示的步骤101-107：

示例性的，所述计算机可读指令303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。例如，所述计算机可读指令303可以被分割成图2中的第一获取模块201、转换模块202、生成203、预训练模块204、第二获取模块205、微调模块206、纠错模块207，各模块具体功能参见实施例二。

所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机装置30的示例，并不构成对计算机装置30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机装置30的控制中心，利用各种接口和线路连接整个计算机装置30的各个部分。

所述存储器301可用于存储所述计算机可读指令303，所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置30的使用所创建的数据。此外，存储器301可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、只读存储器(ROM，Read-Only Memory)。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种错词纠正方法，其特征在于，所述方法包括：

获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。
如权利要求1所述的方法，其特征在于，所述将所述通用自然语言数据集包含的每个句子转换为拼音序列包括：

根据汉字的ASCII码将所述句子转换为拼音序列；或

根据汉字的Unicode值将所述句子转换为拼音序列。
如权利要求2所述的方法，其特征在于，所述根据汉字的Unicode值将所述句子转换为拼音序列包括：

建立拼音-编号对照表，对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中；

建立Unicode值-拼音编号对照表，将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中；

逐一读取所述句子中的待转换汉字，确定所述待转换汉字的Unicode值，根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号，根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音，从而将所述句子中的每个汉字转换为拼音。
如权利要求1所述的方法，其特征在于，所述从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对包括：

从所述通用自然语言数据集的拼音-句子对中随机选择所述多个拼音-句子对；和/或

按照预设比例从所述通用自然语言数据集的拼音-句子对中选择所述多个拼音-句子对。
如权利要求1所述的方法，其特征在于，所述神经网络模型是transformer模型。
如权利要求1所述的方法，其特征在于，所述对所述预训练后的神经网络模型进行微调包括：

固定所述神经网络模型的前面几层神经元的权值，微调所述神经网络模型的后面几层神经元的权值。
如权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

对输入的语音进行识别，得到所述待纠错句子。
一种错词纠正装置，其特征在于，所述装置包括：

第一获取模块，用于获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

转换模块，用于将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

生成模块，用于从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

预训练模块，用于用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

第二获取模块，用于获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

微调模块，用于利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

纠错模块，用于将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。
一种计算机装置，其特征在于，所述计算机装置包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机可读指令以实现以下步骤：

获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。
如权利要求9所述的计算机装置，其特征在于，所述处理器执行所述存储器中存储的计算机可读指令以实现所述将所述通用自然语言数据集包含的每个句子转换为拼音序列时，包括：

根据汉字的ASCII码将所述句子转换为拼音序列；或

根据汉字的Unicode值将所述句子转换为拼音序列。
如权利要求10所述的计算机装置，其特征在于，所述处理器执行所述存储器中存储的计算机可读指令以实现所述根据汉字的Unicode值将所述句子转换为拼音序列时，包括：

建立拼音-编号对照表，对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中；

建立Unicode值-拼音编号对照表，将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中；

逐一读取所述句子中的待转换汉字，确定所述待转换汉字的Unicode值，根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号，根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音，从而将所述句子中的每个汉字转换为拼音。
如权利要求9所述的计算机装置，其特征在于，所述处理器执行所述存储器中存储的计算机可读指令以实现所述从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对时，包括：

从所述通用自然语言数据集的拼音-句子对中随机选择所述多个拼音-句子对；和/或

按照预设比例从所述通用自然语言数据集的拼音-句子对中选择所述多个拼音-句子对。
如权利要求9所述的计算机装置，其特征在于，所述处理器执行所述存储器中存储的计算机可读指令以实现所述对所述预训练后的神经网络模型进行微调时，包括：

固定所述神经网络模型的前面几层神经元的权值，微调所述神经网络模型的后面几层神经元的权值。
如权利要求9-13中任一项所述的计算机装置，其特征在于，所述处理器执行所述存储器中存储的计算机可读指令还用以实现以下步骤：

对输入的语音进行识别，得到所述待纠错句子。
一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现以下步骤：

获取通用自然语言数据集，所述通用自然语言数据集包含多个句子；

将所述通用自然语言数据集包含的每个句子转换为拼音序列，得到所述通用自然语言数据集的拼音-句子对；

从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对，将选择的每个拼音-句子对的部分拼音替换为相近拼音，得到替换后的拼音-句子对，将所述通用自然语言数据集的未选择的拼音-句子对和所述替换后的拼音-句子对组成第一样本集；

利用所述第一样本集对神经网络模型进行预训练，得到预训练后的神经网络模型；

获取多个与特定领域相关的包含相近拼音的拼音-句子对作为第二样本集；

利用所述第二样本集对所述预训练后的神经网络模型进行微调，得到微调后的神经网络模型；

将待纠错句子的拼音序列输入所述微调后的神经网络模型进行纠错，得到纠错后的句子。
如权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行以实现所述将所述通用自然语言数据集包含的每个句子转换为拼音序列时，包括：

根据汉字的ASCII码将所述句子转换为拼音序列；或

根据汉字的Unicode值将所述句子转换为拼音序列。
如权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行以实现所述根据汉字的Unicode值将所述句子转换为拼音序列时，包括：

建立拼音-编号对照表，对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中；

建立Unicode值-拼音编号对照表，将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中；

逐一读取所述句子中的待转换汉字，确定所述待转换汉字的Unicode值，根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号，根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音，从而将所述句子中的每个汉字转换为拼音。
如权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行以实现所述从所述通用自然语言数据集的拼音-句子对中选择多个拼音-句子对时，包括：

从所述通用自然语言数据集的拼音-句子对中随机选择所述多个拼音-句子对；和/或

按照预设比例从所述通用自然语言数据集的拼音-句子对中选择所述多个拼音-句子对。
如权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行以实现所述对所述预训练后的神经网络模型进行微调时，包括：

固定所述神经网络模型的前面几层神经元的权值，微调所述神经网络模型的后面几层神经元的权值。
如权利要求15-18中任一项所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行还用以实现以下步骤：

对输入的语音进行识别，得到所述待纠错句子。