CN114154485A

CN114154485A - 一种文本纠错方法和装置

Info

Publication number: CN114154485A
Application number: CN202111305897.5A
Authority: CN
Inventors: 凡子威
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-08

Abstract

本申请实施例提供了一种文本纠错方法和装置，所述方法包括：获取待纠错文本；确定所述待纠错文本中各个词语的文本特征信息；确定所述各个词语的错误概率；根据所述词语的错误概率，对所述词语设置拼音特征信息；基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语进行纠错，从而限定纠错模型对错误的词语的召回集，从而可以提高纠错模型的精度。

Description

一种文本纠错方法和装置

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种文本纠错方法和一种文本纠错装置。

背景技术

ASR(Automatic Speech Recognition，自动语音识别)是指把语音识别为文本的技术。由于语音直译的文本因用户口音、环境噪音、本身识别率的问题，会导致生成文本含有错误的字，使得句子难以理解，用户的体验不好，导致语音识别的结果难以正常的应用到下游任务中。

故需要使用自动纠错技术对语音识别结果进行机器自动纠错，自动纠正错误的词或字，让语音识别的句子更易读懂。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本纠错方法和相应的一种文本纠错装置。

为了解决上述问题，本申请实施例公开了一种文本纠错方法，包括：

获取待纠错文本；

确定所述待纠错文本中各个词语的文本特征信息；

确定所述各个词语的错误概率；

根据所述词语的错误概率，对所述词语设置拼音特征信息；

基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语进行纠错。

可选地，所述根据所述词语的错误概率，对所述词语设置拼音特征信息，包括：

确定所述各个词语对应的拼音特征向量，以及针对所述各个词语生成对应的拼音掩码向量；

将所述词语对应的拼音特征向量乘以错误概率P，将所述拼音掩码向量乘以(1-P)，相加得到所述词语的目标拼音向量，其中所述P的取值范围为0-100％。

可选地，所述确定所述待纠错文本中各个词语的文本特征信息，包括：

确定所述待纠错文本中各个词语的文本特征向量，以及针对所述各个词语生成对应的文本掩码向量；

将所述词语的文本特征向量乘以(1-P)，将所述文本掩码向量乘以P，相加得到所述词语的目标文本向量。

可选地，所述基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语基于对应的拼音进行纠错，包括：

基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

可选地，所述确定所述各个词语的错误概率，包括：

基于检错模型根据所述各个词语的文本特征向量，确定所述各个词语的错误概率。

可选地，所述检错模型和所述纠错模型通过如下方式训练得到：

获取纠错语料训练文本；所述纠错语料训练文本包括错误文本和纠正文本；

确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签；

将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入，以及将所述错误文本的各个字发生错误的概率作为输出；

确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量；

将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入，以及将所述错误文本的每个字对应的纠正词的概率作为输出；

根据所述检错模型的损失函数和所述纠错模型的损失函数，对所述检错模型和所述纠错模型进行联合训练。

本申请实施例还公开了一种文本纠错装置，包括：

文本获取模块，用于获取待纠错文本；

文本特征确定模块，用于确定所述待纠错文本中各个词语的文本特征信息；

概率确定模块，用于确定所述各个词语的错误概率；

拼音特征设置模块，用于根据所述词语的错误概率，对所述词语设置拼音特征信息；

纠错模块，用于基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

可选地，所述拼音特征设置模块包括：

第一拼音向量确定子模块，用于确定所述各个词语对应的拼音特征向量，以及针对所述各个词语生成对应的拼音掩码向量；

第二拼音向量确定子模块，用于将所述词语对应的拼音特征向量乘以错误概率P，将所述拼音掩码向量乘以(1-P)，相加得到所述词语的目标拼音向量，其中所述P的取值范围为0-100％。

可选地，所述文本特征确定模块包括：

第一文本向量确定子模块，用于确定所述待纠错文本中各个词语的文本特征向量，以及针对所述各个词语生成对应的文本掩码向量；

第二文本向量确定子模块，用于将所述词语的文本特征向量乘以(1-P)，将所述文本掩码向量乘以P，相加得到所述词语的目标文本向量。

可选地，所述纠错模块包括：

模型纠错子模块，用于基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

可选地，所述概率确定模块包括：

错误概率确定子模块，用于基于检错模型根据所述各个词语的文本特征向量，确定所述各个词语的错误概率。

可选地，所述检错模型和所述纠错模型通过如下模块训练得到：

训练文本获取模块，用于获取纠错语料训练文本；所述纠错语料训练文本包括错误文本和纠正文本；

标签确定模块，用于确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签；

第一模型设置模块，用于将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入，以及将所述错误文本的各个字发生错误的概率作为输出；

参数确定模块，用于确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量；

第二模型设置模块，用于将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入，以及将所述错误文本的每个字对应的纠正词的概率作为输出；

训练模块，用于根据所述检错模型的损失函数和所述纠错模型的损失函数，对所述检错模型和所述纠错模型进行联合训练。

本申请实施例还公开了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如上所述的文本纠错方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如上所述文本纠错的方法。

本申请实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机程序或者计算机指令，所述计算机程序或所述计算机指令被处理器执行时实现如上所述文本纠错的方法。

本申请实施例包括以下优点：

本申请实施例可以根据待纠错文本中各个词语的文本特征信息和错误概率，对词语设置拼音特征信息，基于纠错模型根据词语的文本特征信息和拼音特征信息，对待纠错文本中错误的词语基于对应的拼音进行纠错。由于在文本特征信息的基础上，基于词语的错误概率选择性地对词语设置拼音特征信息，可以提高纠错模型的精度。

附图说明

图1是本申请实施例的一种文本纠错方法的步骤流程图；

图2是本申请实施例的另一种文本纠错方法的步骤流程图

图3是本申请实施例中ASR纠错***的示意图；

图4是本申请实施例中检错模型和纠错模型的训练方法的步骤流程图；

图5是本申请实施例的一种文本纠错装置的结构框图；

图6是本申请一种文本纠错装置可选实施例的结构框图；

图7是根据一示例性实施例示出的一种用于显示的电子设备的结构框图；

图8是本申请根据另一示例性实施例示出的一种用于显示的电子设备的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

ASR自动纠错可以依据ASR识别可能产生的替换错误、***错误、删除错误这三种错误类型进行针对性的优化。替换错误例如：ASR识别结果：“我感觉耳机待久了耳朵疼”，正确结果为“我感觉耳机戴久了耳朵疼”；***错误例如：ASR识别结果：“寨子的部首”，正确结果为“寨的部首”；删除错误例如：ASR识别结果：“天下午你没课呀”，正确结果：“{“今天、明天、后天……”}天下午你没课呀”，此处是天前面漏识别了一个字。以上的识别结果经过ASR自动纠错后的结果用户可懂度更高，用户体验更好。

现有的ASR纠错***可以是基于字单元建模的Softmasked-Macbert模型，该模型检错、纠错模型在同一个框架内，并且结合了预训练语言模型的优势。现有的中文预训练语言模型(Teacher模型)如Bert、GPT、ELECTRA等中文的模型都是在基于字的建模单元下训练得到。预训练语言模型在预训练阶段使用了较大的模型结构和大量的无监督训练数据，获得了强大的基础模型，再经过ASR中文标点数据Finetune(微调)之后取得了远超现有模型的优异效果。使用预训练语言模型可以在真实数据量不大的ASR自动纠错任务中提供更大的背景信息量，很有效的提高模型的召回率，但是在高召回率的情况，ASR纠错***无法保证精准度。

对此，本申请实施例提供一种文本纠错方法，能够根据词语发生错误的概率，为词语设置拼音特征信息，对发生错误的词语能够结合文本特征信息和拼音特征信息进行纠错，限定召回集，从而提高纠错的精度。

参照图1，示出了本申请实施例的一种文本纠错方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取待纠错文本。

待纠错文本可以是通过ASR识别***对用户语音识别得到的文本。

步骤102，确定所述待纠错文本中各个词语的文本特征信息。

由于模型不能直接对文本进行处理，需要将文本转换为易于计算的特征信息，从而可以输入模型进行处理。特征信息可以包括文本特征信息，文本特征信息可以是从文本维度表征词语特征的信息。

步骤103，确定所述各个词语的错误概率。

词语错误的概率P是指每个词语在ASR识别的时候发生错误的概率。示例性地，可以通过检错模型确定待纠错文本中各个词语的错误概率。

步骤104，根据所述词语的错误概率，对所述词语设置拼音特征信息。

拼音特征信息可以是从拼音维度表征词语特征的信息，在对词语设置拼音特征信息时，可以确定词语对应的拼音，基于词语对应的拼音设置拼音特征信息。

示例性地，可以根据词语的错误概率，确定发生错误的词语，对发生错误的词语设置拼音特征信息，对不发生错误的词语设置拼音特征信息，从而选择性地对词语设置拼音特征信息。例如，错误概率P可以为[0-100％]的数值，若词语的错误概率P大于或等于50％，则可以认为词语发生错误，对该词语设置拼音特征信息；若词语的错误概率P小于50％，则可以认为词语准确，不对该词语设置拼音特征信息。上述数值仅仅是举例表示，本领域技术人员可以根据实际需要设定。

示例性地，可以根据词语的错误概率P的大小，为词语设置相应信息量的拼音特征信息。错误概率越大，为词语设置的拼音特征信息的信息量越大；错误概率越小，为词语设置的拼音特征信息的信息量越小，从而选择性地对词语设置拼音特征信息。

步骤105，基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

可以将文本特征信息和拼音特征信息输入纠错模型，纠错模型可以根据文本特征信息和拼音特征信息，对待纠错文本中错误的词语基于对应的拼音进行纠错，对错误的词语在该词语的拼音所对应的召回集内进行召回。示例性地，纠错模型可以为预训练模型，基于预训练模型可以有效提供模型的召回率。

本申请实施例可以根据确定的待纠错文本中各个词语的文本特征信息和错误概率，对词语设置拼音特征信息，基于纠错模型根据词语的文本特征信息和拼音特征信息，对待纠错文本中错误的词语基于对应的拼音进行纠错。由于在文本特征信息的基础上，基于词语的错误概率选择性地对词语设置拼音特征信息，从而限定纠错模型对错误的词语的召回集，从而可以提高纠错模型的精度。

参照图2，示出了本申请实施例的另一种文本纠错方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取待纠错文本。

步骤202，确定所述待纠错文本中各个词语的文本特征向量，以及针对所述各个词语生成对应的文本掩码向量。

在本申请实施例中，针对词语的文本特征信息可以包括文本特征向量和文本掩码向量。

文本掩码向量可以是设置为用于消除文本信息的向量，将词语的文本特征向量与文本掩码向量相加后，可以消除一些文本特征向量所提供的信息。示例性地，文本掩码向量可以随机生成，文本掩码向量的维度需要与文本特征向量的维度相同。

示例性地，文本特征向量可以使用embedding(嵌入)向量来表示，具体的，可以基于预设文本词典生成文本embedding矩阵，预设文本词典中按位置顺序记录了各个词语，文本embedding矩阵中的每一行为一个词语对应的文本特征向量。embedding向量可以表示词语在文本词典中的索引位置，可以根据词语在预设文本词典中的索引位置，在为文本embedding矩阵中索引得到对应的文本特征向量。

例如，假设文本词典大小为6000，即文本词典包括6000个词，文本词典由词和词的位置顺序组成，如{“你”：1，“好”：2，......}。相应的文本embedding矩阵的大小为(6000，100)，表示有6000个100维的向量。假设“你”、“好”在词典中的位置分别是1和2，在文本embedding矩阵中找到1这个索引对应的是第一行，是“你”的文本特征向量；在文本embedding矩阵中找到2这个索引对应的是第二行，是“好”的文本特征向量。

步骤203，基于检错模型根据所述各个词语的文本特征向量，确定所述各个词语的错误概率P。

示例性地，检错模型可以包括输入层、BiGRU(Bidirectional Gating RecurrentUnit，双向门控循环单元)神经网络层、一个全连接分类输出层。输入层输入的是文本特征向量，输出层输出的可以是未经归一化的标签概率值向量。当然本领域技术人员还可以其他结构的检错模型，本申请对此不做限定。

步骤204，将所述词语的文本特征向量乘以(1-P)，将所述文本掩码向量乘以P，相加得到所述词语的目标文本向量。

假设文本特征向量为V，文本掩码向量为Vmask，目标文本向量可以为[V*(1-P)+Vmask*P]。当错误概率P较大时，可以减少文本特征向量提供的信息；增加文本掩码向量提供的信息，从而进一步弱化文本特征向量提供的信息。当错误概率P较小时，可以尽量保留文本特征向量提供的信息；减少文本掩码向量提供的信息，从而进一步保留文本特征向量提供的信息。

步骤205，确定所述各个词语对应的拼音特征向量，以及针对所述各个词语生成对应的拼音掩码向量。

在本申请实施例中，针对词语的拼音特征信息可以包括拼音特征向量和拼音掩码向量。

拼音掩码向量可以是设置为用于消除拼音信息的向量，将词语的拼音特征向量与拼音掩码向量相加后，可以消除一些拼音特征向量所提供的信息。示例性地，拼音掩码向量可以随机生成，拼音掩码向量的维度需要与拼音特征向量的维度相同。

示例性地，拼音特征向量可以使用embedding(嵌入)向量来表示，具体的，可以基于预设拼音词典生成拼音embedding矩阵，预设拼音词典中按位置顺序记录了各个词语的拼音，拼音embedding矩阵中的每一行为一个拼音对应的拼音特征向量。embedding向量可以表示拼音在拼音词典中的索引位置，可以根据拼音在预设拼音词典中的索引位置，在拼音embedding矩阵中索引得到对应的拼音特征向量。

例如，拼音词典＝{“我”:“wo”,“是”:“shi”,“中”:“zhong”,“国”:“guo”,“人”:“ren”，…}，可以基于拼音词典生成拼音embedding矩阵，在拼音embedding矩阵中可以确定“我”的拼音“wo”经过索引转换成对应的100维拼音特征向量。

步骤206，将所述词语对应的拼音特征向量乘以P，将所述拼音掩码向量乘以(1-P)，相加得到所述词语的目标拼音向量。

假设拼音特征向量为Q，拼音掩码向量为Qmask，目标拼音向量可以为[Q*P+Vmask*(1-P)]。当错误概率P较大时，可以增加拼音特征向量提供的信息；减小拼音掩码向量提供的信息，从而进一步保留拼音特征向量提供的信息。当错误概率P较小时，可以减少拼音特征向量提供的信息；增加拼音掩码向量提供的信息，从而进一步弱化拼音特征向量提供的信息。

步骤207，基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

将各个词语的目标文本向量和目标拼音向量可以输入纠错模型，纠错模型可以根据词语的目标文本向量和目标拼音向量，对待纠错文本中错误的词语基于对应的拼音进行纠错，对错误的词语在该词语的拼音所对应的召回集内进行召回。

示例性地，纠错模型可以包括输入层、多个自注意力(Self-Attention)层、前馈神经网络FNN(Feed-forward Neural Network)层和一个全连接分类输出层。当然本领域技术人员还可以其他结构的检错模型，本申请对此不做限定。

示例性地，纠错模型可以使用预训练语言模型作为初始化。例如，预训练语言模型可以为Bert、GPT、ELECTRA等。

在本申请实施例中，可以确定待纠错文本中各个词语的文本特征向量，以及针对各个词语生成对应的文本掩码向量，基于检错模型根据各个词语的文本特征向量确定各个词语的错误概率P；将词语的文本特征向量乘以(1-P)，将文本掩码向量乘以P，相加得到词语的目标文本向量；确定各个词语对应的拼音特征向量，以及针对各个词语生成对应的拼音掩码向量；将词语对应的拼音特征向量乘以P，将拼音掩码向量乘以(1-P)，相加得到词语的目标拼音向量；基于纠错模型根据各个词语的目标文本向量和目标拼音向量，对待纠错文本中错误的词语基于对应的拼音进行纠错。由于在文本特征信息的基础上，基于词语的错误概率P选择性地对词语设置拼音特征信息，从而限定纠错模型对错误的词语的召回集，从而可以提高纠错模型的精度。

参照图3所示为本申请实施例中ASR纠错***的示意图。其中ASR纠错***包括检错模型、纠错模型。其中，检错模型的输入层可以为待纠错文本的各个词语的文本特征向量，输出层可以表示待纠错文本的各个词语的错误概率。

例如，错误文本为：“我是众国人”，“我”对应的文本特征向量为E1，“是”对应的文本特征向量为E2，“众国”对应的文本特征向量为E3，“人”对应的文本特征向量为E4。将错误文本的各个词语的文本特征向量输入检错模型。检错模型输出各个词语的错误概率，“我”对应的错误概率P1，“是”对应的错误概率P2，“众国”对应的错误概率P3，“人”对应的错误概率P4。

纠错模型的输入层可以包括文本输入层和拼音输入层。文本输入层可以由文本特征向量和文本掩码向量组成，将文本特征向量乘以(1-P)，将文本掩码向量乘以P，相加得到目标文本向量作为文本输入层。

例如，对词语“我”、“是”、“众国”、“人”分别生成对应的文本掩码向量M1、M2、M3、M4。将“我”对应的文本特征向量E1乘以(1-P1)，加上对应的文本掩码向量M1乘以P1；将“是”对应的文本特征向量E2乘以(1-P2)，加上对应的文本掩码向量M2乘以P2；将“众国”对应的文本特征向量E3乘以(1-P3)，加上对应的文本掩码向量M3乘以P3；将“人”对应的文本特征向量E4乘以(1-P4)，加上对应的文本掩码向量M4乘以P4，得到目标文本向量为[(E1*(1-P1)+M1*P1)，(E2*(1-P2)+M2*P2)，(E3*(1-P3)+M3*P3)，(E4*(1-P4)+M4*P4)]。

拼音输入层可以由拼音特征向量和拼音掩码向量组成，将拼音特征向量乘以P，将拼音掩码向量乘以(1-P)，相加得到目标拼音向量作为拼音输入层。纠错模型的输出层可以表示各个字对应的多个纠正词的概率，根据字对应的多个纠正词的概率，可以确定其中一个纠正词为该字对应的输出结果。

例如，词语“我”、“是”、“众国”、“人”分别为“wo”、“shi”、“zhongguo”、“ren”，分别对拼音生成对应的拼音特征向量S1、S2、S3、S4；分别生成对应的拼音掩码向量M′1、M′2、M′3、M′4。

将“wo”对应的拼音特征向量S1乘以(1-P1)，加上对应的拼音掩码向量M′1乘以P1；将“shi”对应的拼音特征向量S2乘以(1-P2)，加上对应的拼音掩码向量M′2乘以P2；将“zhongguo”对应的拼音特征向量S3乘以(1-P3)，加上对应的拼音掩码向量M′3乘以P3；将“ren”对应的拼音特征向量S4乘以(1-P4)，加上对应的拼音掩码向量M′4乘以P4，得到目标拼音向量为[(S1*(1-P1)+M′1*P1)，(S2*(1-P2)+M′2*P2)，(S3*(1-P3)+M′3*P3)，(S4*(1-P4)+M′4*P4)]。

示例性地，可以以一个(N，vocab_size)维度的向量作为纠错模型的输出，N代表的输出句子中的字的数量，vocab_size可以表示每个词输出的是词典大小的向量，向量的每个位置代表了该输入词对应的词典中各个词的概率。“我”对应的概率为P′1，其中P′1可以为一个词典大小维度的向量，包括词典中各个词的概率；其中，词典中“我”这个词的概率最大，因此输出该词。“是”对应的概率为P′2，其中P′2可以为一个词典大小维度的向量，包括词典中各个词的概率；其中，词典中“是”这个词的概率最大，因此输出该词。“众国”对应的概率为P′3，其中P′3可以为一个词典大小维度的向量，包括词典中各个词的概率；其中，词典中“中国”这个词的概率最大，因此输出该词。“人”对应的概率为P′4，其中P′3可以为一个词典大小维度的向量，包括词典中各个词的概率；其中，词典中“人”这个词的概率最大，因此输出该词。

参照图4所示为本申请实施例中检错模型和纠错模型的训练方法的步骤流程图，具体可以包括如下步骤：

步骤401，获取纠错语料训练文本；所述纠错语料训练文本包括错误文本和纠正文本。

纠错语料训练文本可以包括错误文本和纠正文本。错误文本可以是存在ASR识别错误的文本，纠正文本可以为对错误文本进行纠正后的文本。

例如，错误文本为：“我感觉耳机待久了耳朵疼”，对应的纠正文本为：“我感觉耳机戴久了耳朵疼”。

步骤402，确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签。

错误文本的各个字对应的检错标签可以通过如下方式得到：对错误文本进行切字处理，并将得到的每一个字转换为检错标签。检测标签可以包括T、F，T可以表示该字正确，不用纠正；F可以表示该字错误。

例如，对错误文本切字后得到：“我感觉耳机待久了耳朵疼”，转换为对应的检错标签：“T T T T T F T T T T T”。

步骤403，将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入，以及将所述错误文本的各个字发生错误的概率作为输出。

将错误文本对应的文本特征向量和对应的检错标签作为检错模型的输入，将错误文本的各个字发生错误的概率P作为输出。

示例性地，可以以一个(N，1)维度的向量作为检错模型的输出，N代表的输出句子中的字的数量，1代表每个词输出的是一个浮点数，代表的实际意义是被预测的词的位置是否是错误的，例如，选定大于50％则代表该位置为错误，小于50％代表该位置为正确。

步骤404，确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量。

纠正文本的各个字对应的纠错标签可以通过如下方式得到：对纠正文本进行切字处理，并将得到的每一个字转换为纠错标签，其中纠错标签可以是该字作为标签。例如，对纠正文本切字后得到：“我感觉耳机戴久了耳朵疼”，转换为对应的纠错标签为“我感觉耳机戴久了耳朵疼”。

错误文本对应的目标拼音向量可以通过如下方式得到：确定错误文本各个词语对应的拼音特征向量，以及针对错误文本的各个词语生成对应的拼音掩码向量；将错误文本各个词语对应的拼音特征向量乘以P，将错误文本各个词语对应的拼音掩码向量乘以(1-P)，相加得到错误文本的各个词语的目标拼音向量。

步骤405，将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入，以及将所述错误文本的每个字对应的纠正词的概率作为输出。

示例性地，可以以一个(N，vocab_size)维度的向量作为纠错模型的输出，N代表的输出句子中的字的数量，vocab_size代表每个词输出的是词典大小的向量，向量的每个位置代表了该输入对应的纠正词的概率。

步骤406，根据所述检错模型的损失函数和所述纠错模型的损失函数，对所述检错模型和所述纠错模型进行联合训练。

示例性地，检错模型的损失函数detect-loss可以基于检错模型输出的各个字发生错误的概率P和检错标签确定。纠错模型的损失函数correct-loss可以根据纠错模型输出的错误文本的每个字对应的纠正词的概率和纠错标签确定。最终总得模型的目标loss＝detect-loss+correct-loss。可以使用目标loss对检错模型和纠错模型进行优化即可得到获得联合训练模型结果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图5，示出了本申请实施例的一种文本纠错装置的结构框图，具体可以包括如下模块：

文本获取模块501，用于获取待纠错文本；

文本特征确定模块502，用于确定所述待纠错文本中各个词语的文本特征信息；

概率确定模块503，用于确定所述各个词语的错误概率；

拼音特征设置模块504，用于根据所述词语的错误概率，对所述词语设置拼音特征信息；

纠错模块505，用于基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

参照图6，示出了本申请一种文本纠错装置可选实施例的结构框图，其中，所述拼音特征设置模块504可以包括：

第一拼音向量确定子模块5041，用于确定所述各个词语对应的拼音特征向量，以及针对所述各个词语生成对应的拼音掩码向量；

第二拼音向量确定子模块5042，用于将所述词语对应的拼音特征向量乘以错误概率P，将所述拼音掩码向量乘以(1-P)，相加得到所述词语的目标拼音向量，其中所述P的取值范围为0-100％。

本申请一个可选的实施例中，所述文本特征确定模块502可以包括：

第一文本向量确定子模块5021，用于确定所述待纠错文本中各个词语的文本特征向量，以及针对所述各个词语生成对应的文本掩码向量；

第二文本向量确定子模块5022，用于将所述词语的文本特征向量乘以(1-P)，将所述文本掩码向量乘以P，相加得到所述词语的目标文本向量。

本申请一个可选的实施例中，所述纠错模块505可以包括：

模型纠错子模块5051，用于基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量，对所述待纠错文本中错误的词语基于对应的拼音进行纠错。

本申请一个可选的实施例中，所述概率确定模块503可以包括：

错误概率确定子模块5031，用于基于检错模型根据所述各个词语的文本特征向量，确定所述各个词语的错误概率。

本申请一个可选的实施例中，所述检错模型和所述纠错模型通过如下模块训练得到：

训练文本获取模块506，用于获取纠错语料训练文本；所述纠错语料训练文本包括错误文本和纠正文本；

标签确定模块507，用于确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签；

第一模型设置模块508，用于将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入，以及将所述错误文本的各个字发生错误的概率作为输出；

参数确定模块509，用于确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量；

第二模型设置模块510，用于将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入，以及将所述错误文本的每个字对应的纠正词的概率作为输出；

训练模块511，用于根据所述检错模型的损失函数和所述纠错模型的损失函数，对所述检错模型和所述纠错模型进行联合训练。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是根据一示例性实施例示出的一种用于文本纠错的电子设备700的结构框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，智能穿戴设备等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管理***，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件714经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件714还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种文本纠错方法，所述方法包括：

获取待纠错文本；

确定所述待纠错文本中各个词语的文本特征信息；

确定所述各个词语的错误概率；

根据所述词语的错误概率，对所述词语设置拼音特征信息；

可选地，所述确定所述各个词语的错误概率P，包括：

基于检错模型根据所述各个词语的文本特征向量，确定所述各个词语的错误概率P。

图8是本申请根据另一示例性实施例示出的一种用于文本纠错的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，服务器经配置以由一个或者一个以***处理器822执行一个或者一个以上程序包含用于进行以下操作的指令：

获取待纠错文本；

确定所述待纠错文本中各个词语的文本特征信息；

确定所述各个词语的错误概率；

根据所述词语的错误概率，对所述词语设置拼音特征信息；

可选地，所述确定所述各个词语的错误概率P，包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的机器可读介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种文本纠错方法和一种文本纠错装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本纠错方法，其特征在于，包括：

获取待纠错文本；

确定所述待纠错文本中各个词语的文本特征信息；

确定所述各个词语的错误概率；

根据所述词语的错误概率，对所述词语设置拼音特征信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述词语的错误概率，对所述词语设置拼音特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述待纠错文本中各个词语的文本特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息，对所述待纠错文本中错误的词语基于对应的拼音进行纠错，包括：

5.根据权利要求3所述的方法，其特征在于，所述确定所述各个词语的错误概率，包括：

6.根据权利要求4所述的方法，其特征在于，所述检错模型和所述纠错模型通过如下方式训练得到：

7.一种文本纠错装置，其特征在于，包括：

文本获取模块，用于获取待纠错文本；

概率确定模块，用于确定所述各个词语的错误概率；

8.根据权利要求7所述的装置，其特征在于，所述拼音特征设置模块包括：

9.根据权利要求8所述的装置，其特征在于，所述文本特征确定模块包括：

10.根据权利要求9所述的装置，其特征在于，所述纠错模块包括：

11.根据权利要求9所述的装置，其特征在于，所述概率确定模块包括：

12.根据权利要求10所述的装置，其特征在于，所述检错模型和所述纠错模型通过如下模块训练得到：

13.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1-6任一项所述的文本纠错方法。

14.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-6任一项所述文本纠错的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或者计算机指令，所述计算机程序或所述计算机指令被处理器执行时实现权利要求1-6任一项所述文本纠错的方法。