CN113435180A

CN113435180A - 文本纠错方法、装置、电子设备及存储介质

Info

Publication number: CN113435180A
Application number: CN202110737309.9A
Authority: CN
Inventors: 颜泽龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-24

Abstract

本发明涉及人工智能技术领域，提供一种文本纠错方法、装置、电子设备及存储介质，在获取到待处理文本时，分别提取所述待处理文本的语义信息、语音信息及视觉信息，从而将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息，最后调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。由于多模态信息融合了待处理文本本身的语义、听觉及视觉等三个方面的特征表示，因此更能准确且多方面的表征待处理文本的特征，从而提高了文本纠错的准确性。

Description

文本纠错方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种文本纠错方法、装置、电子设备及存储介质。

背景技术

文本纠错是自然语言处理中的一个任务，是对文本中出现错误的内容进行纠正的过程。

现有技术通过训练机器学习模型，并提取文本的语义信息，通过机器学习模型和语音信息进行文本纠错。如果提取的语义信息不准确或者根本无法用以表征文本，则会导致文本纠错的准确性较低，甚至无法进行纠错。

发明内容

鉴于以上内容，有必要提出一种文本纠错方法、装置、电子设备及存储介质，能够提高文本纠错的准确性。

本发明的第一方面提供一种文本纠错方法，所述方法包括：

获取待处理文本；

提取所述待处理文本的语义信息；

提取所述待处理文本的语音信息；

提取所述待处理文本的视觉信息；

将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息；

调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。

根据本发明的一个可选的实施方式，所述提取所述待处理文本的语音信息包括：

获取所述待处理文本中每个字符的拼音及声调；

根据每个字符的拼音及声调生成多个拼音结构；

依次将所述多个拼音结构输入至预设的长短记忆模型中，得到每个字符的字符信息；

将所述每个字符的字符信息依次输入至Transfomer模型，得到语言信息。

根据本发明的一个可选的实施方式，所述提取所述待处理文本的视觉信息包括：

对所述待处理文本进行字粒度的分割，得到待处理文本中的每个字符；

为分割后的每个字符生成字符图片；

输入所述字符图片至卷积神经网络中，得到视觉信息；

将每个字符的视觉信息进行组合得到待处理文本的视觉信息。

根据本发明的一个可选的实施方式，所述将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息包括：

获取所述语义信息的均值信息；

使用第一激活函数对所述语义信息、所述语音信息、所述视觉信息及所述均值信息进行计算得到第一函数值；

使用第二激活函数对所述语义信息、所述语音信息、所述视觉信息及所述均值信息进行计算得到第二函数值；

使用第三激活函数对所述语义信息、所述语音信息、所述视觉信息及所述均值信息进行计算得到第三函数值；

根据所述第一函数值及所述语义信息计算得到第一乘积、根据所述第二函数值及所述语音信息计算得到第二乘积，根据所述第三函数值及所述视觉信息计算得到第三乘积；

对所述第一乘积、所述第二乘积及所述第三乘积进行加和计算得到多模态信息。

根据本发明的一个可选的实施方式，所述基于所述预测结果进行计算得到纠错文本信息包括：

将预测结果输入到softmax函数中进行计算，得到第i个位置属于每个字符的概率，1≤i≤n，n为所述待处理文本中字符的总数量；

当概率最大的字符与当前位置的字符相同，则输出所述当前位置的字符是正确的结果；

当概率最大的字符与所述当前位置的字符不相同，则输出所述当前位置的字符是错误的结果。

根据本发明的一个可选的实施方式，所述提取所述待处理文本的语义信息包括：

对所述待处理文本进行字粒度的切分，得到待处理文本中的每个字符；

将每个字符输入预训练语言模型中，得到语义向量；

将每个字符的语义向量进行组合得到所述待处理文本的语义信息。

根据本发明的一个可选的实施方式，当确定所述当前位置的字符是错误的，所述方法还包括：

根据所述当前位置的字符的拼音结构获取多个候选字符；

计算每个候选字符与所述当前位置的字符的相似度；

判断最大的相似度是否大于预设相似度阈值；

当最大的相似度大于所述预设相似度阈值，使用所述最大的相似度对应的候选字符对所述当前位置的字符进行纠正。

本发明的第二方面提供一种文本纠错装置，所述装置包括：

文本获取模块，用于获取待处理文本；

第一提取模块，用于提取所述待处理文本的语义信息；

第二提取模块，用于提取所述待处理文本的语音信息；

第三提取模块，用于提取所述待处理文本的视觉信息；

信息聚合模块，用于将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息；

文本纠错模块，用于用于调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述文本纠错方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述文本纠错方法。

综上所述，本发明所述的文本纠错方法、装置、电子设备及存储介质，在获取到待处理文本时，分别提取所述待处理文本的语义信息、语音信息及视觉信息，从而将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息，最后调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。由于多模态信息融合了待处理文本本身的语义、听觉及视觉等三个方面的特征表示，因此更能准确且多方面的表征待处理文本的特征，从而提高了文本纠错的准确性。

附图说明

图1是本发明实施例一提供的文本纠错方法的流程图。

图2是本发明实施例二提供的文本纠错装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的，不是旨在于限制本发明。

本发明实施例提供的文本纠错方法由电子设备执行，相应地，文本纠错装置运行于电子设备中。

实施例一

图1是本发明实施例一提供的文本纠错方法的流程图。所述文本纠错方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取待处理文本。

计算机设备可以将用户输入的文本作为待处理文本，也可以将用户输入的图像进行OCR光学字符识别所得到的文本作为待处理文本，还可以将用户输入的语音进行语音识别所得到的文本作为待处理文本。因此，本实施例的文本纠错方法可以适用于多种应用场景，例如用户进行文本编辑、用户进行语音交互等。

对于待处理文本X＝(x₁,x₂，…,x_n)，其中，x_i为待处理文本的第i个字符，1≤i≤n，n为待处理文本中字符的总数量。

S12，提取所述待处理文本的语义信息。

在获取了待处理文本之后，从所获取的待处理文本中提取语义向量，提取得到的语义向量用于表示待处理文本的语义信息。语义信息为对待处理文本的最直观的特征表示，是第一维度上的特征表示。

在一个可选的实施方式中，从待处理文本中提取语义向量时，可以对待处理文本进行词粒度的切分，得到待处理文本中的每个词，获取待处理文本中每个词的语义向量，例如使用基于词粒度的预训练语言模型来提取待处理文本中各词语的语义向量，将每个词的语义向量进行组合得到待处理文本的语义信息。

在另一个可选的实施方式中，从待处理文本中提取语义向量时，可以对待处理文本进行字粒度的切分，得到待处理文本中的每个字符，将待处理文本中每个字符输入预训练语言模型，得到预训练语言模型输出的对应每个字符的语义向量，将每个字符的语义向量进行组合得到待处理文本的语义信息。

在另一个可选的实施方式中，从待处理文本中提取语义向量时，可以通过预训练模型BERT获得待处理文本的句向量，将所述句向量作为待处理文本的语义信息。

语义信息可以记为V_s＝(v_1,s,v_2,s,…,v_n,s)，v_i,s为第i个字符的语义信息。

本实施例所使用的预训练语言模型可以为BERT模型，通过在大量的优质文本上基于字粒度的建模而训练得到，因此该预训练语言模型无需依赖其他信息，即可学习到文本中每个字的语义向量。因此，本实施例通过预训练语言模型来基于字粒度对待处理文本中的语义向量进行提取，能够提升语义向量提取的准确性以及便捷性，从而进一步提高文本纠错的准确性。

S13，提取所述待处理文本的语音信息。

本实施例中可以结合长短记忆模型模型和transformer模型来提取待处理文本的语音信息。语音信息用于表示待处理文本在语音方面的特征表示，是第二维度上的特征表示。

在一个具体的实施方式中，所述提取所述待处理文本的语音信息包括：

获取所述待处理文本中每个字符的拼音及声调；

根据每个字符的拼音及声调生成多个拼音结构；

该可选的实施例中，待处理文本为中文文本，待处理文本中的每个字符为中文字符。

可以通过汉字输入法获取每个中文字符的拼音及声调，从而根据拼音及声调生成拼音结构，拼音结构用以表示中文字符的拼音组成结构。示例性的，假设待处理文本为“这个是感冒”，字符“这”的拼音为“zhe”，声调为第4声，则生成字符“这”的拼音结构为“zhe4”。字符“感”的拼音为“gan”，声调为第3声，则生成字符“这”的拼音结构为“gan3”。

将待处理文本中多个字符的拼音结构组成第一输入序列输入至长短记忆模型(Long Short-Term Memory，LSTM)中，通过长短记忆模型输出每个字符的字符信息。LSTM考虑输入序列中每一个单元的上下文信息。LSTM的输入序列经过遗忘门、输入门及输出门，最后输出隐状态向量。

将待处理文本中多个字符的字符信息组成第二输入序列输入至transfomer模型中，通过transfomer模型输出编码向量，作为待处理文本的语音信息。

语音信息可以记为V_p＝(v_1,p,v_2,p,…,v_n,p)，v_i,p为第i个字符的语音信息。

S14，提取所述待处理文本的视觉信息。

除了提取待处理文本的语义信息和语音信息，还可以提取待处理文本的视觉信息。视觉信息用于表示待处理文本在视觉方面的特征表示，是第三维度上的特征表示。

在一个可选的实施方式中，所述提取所述待处理文本的视觉信息包括：

为分割后的每个字符生成字符图片；

输入所述字符图片至卷积神经网络中，得到视觉信息；

将待处理文本的每个字符对应的图片输入到一个卷积神经网络(ConvolutionalNeural Networks，CNN)中，通过卷积神经网络输出每个字符对应的视觉信息。

将所有字符的视觉信息拼接起来作为待处理文本最终的视觉信息。

视觉信息可以记为V_g＝(v_1,g,v_2,g,…,v_n,g)，v_i,g为第i个字符的视觉信息。

S15，将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息。

由于语音信息是从听觉方面来表达待处理文本，视觉信息是从视觉方面来表达待处理文本，将语义信息、语音信息及视觉信息进行聚合，实现了将待处理文本本身的语义、听觉及视觉等三个方面的特征表示进行融合，得到的多模态信息更能准确且多方面的表征待处理文本的特征，从而有助于提高文本纠错的准确性。

将提取的语义信息，语音信息和视觉信息进行加权求和，得到多模态信息。

在一个可选的实施方式中，所述将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息包括：

获取所述语义信息的均值信息；

具体可以通过如下公式将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息：

g_i,s＝sigmoid(w^s·[v_i,s,v_i,p,v_i,g,v_s]+b^s)，

g_i,p＝sigmoid(w^p·[v_i,s,v_i,p,v_i,g,v_s]+b^p)，

g_i,g＝sigmoid(w^g·[v_i,s,v_i,p,v_i,g,v_s]+b^g)，

h_i＝g_i,s·v_i，s+g_i,p·v_i,p+g_i,g·v_i,g。

其中，v_s是语义信息的均值信息，可以理解为待处理文本的句向量。w^s,w^p,w^g,b^s,b^p,b^g是训练过程中可以学习的参数。sigmoid是激活函数。h_i是第i个字符的多模态信息，则待处理文本的多模态信息记为(h₁,h₂,…,h_n)。

S16，调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。

将待处理文本的多模态信息(h₁,h₂,…,h_n)输入到Transformer模型中进行预测，通过Transformer模型输出预测结果(h_1,t,h_2,t,…,h_n,t)，h_i,t表示第i个字符的隐状态。

接着将预测结果输入到softmax函数中进行计算，得到纠错文本信息。所述纠错文本信息包括待处理文本中每个字符是正确的或者错误的结果。

经过softmax函数的计算，得到当前位置的输出y_i＝softmax(w^yh_i,t+b^y)，y_i表示第i个位置属于每个字符的概率。每个字符对应n个概率。

如果概率最大的字符与当前位置的字符相同，则输出所述当前位置的字符是正确的。如果概率最大的字符与当前位置的字符不相同，则输出所述当前位置的字符是错误的。

举例来说，若本实施例中的编码信息为(萌，们，我，莪)，若待处理文本为“我门”，在将从待处理文本“我门”提取的多模态信息输入至Transformer模型进行预测并经过softmax函数的计算之后，softmax函数针对当前位置的字符“我”的输出可以为(0，0，0.9，0.1)，由于概率最大为0.9，概率最大的字符“我”与当前位置的字符“我”相同，则当前位置的字符“我”是正确的。又如，softmax函数针对当前位置的字符“门”的输出可以为(0.2，0.8，0，0)，由于概率最大为0.8，概率最大的字符“们”与当前位置的字符“门”不相同，则当前位置的字符“门”是错误的。

在一个可选的实施方式中，当确定所述当前位置的字符是错误的，所述方法还包括：

根据所述当前位置的字符的拼音结构获取多个候选字符；

计算每个候选字符与所述当前位置的字符的相似度；

判断最大的相似度是否大于预设相似度阈值；

根据当前位置的字符的拼音结构获取的多个候选字符具有与当前位置的字符相同的拼音及声调。

可以使用BERT模型提取每个候选字符的第一特征表示及当前位置的字符的第二特征表示，计算每个第一特征表示与第二特征表示之间的相似度。相似度越大，表明候选字符与当前位置的字符越为同一个字符。相似度越小，表明候选字符与当前位置的字符越为不同的字符。

为了进一步确保对当前位置的字符的纠正的正确性，还可以预先设置相似度阈值，只有当最大的相似度大于预设相似度阈值，才使用最大的相似度对应的候选字符对所述当前位置的字符进行纠正。当最大的相似度不大于预设相似度阈值，则不使用最大的相似度对应的候选字符对所述当前位置的字符进行纠正。

使用最大的相似度对应的候选字符对所述当前位置的字符进行纠正是指使用最大的相似度对应的候选字符替换或者覆盖所述当前位置的字符。

本发明提供的文本纠错方法在获取到待处理文本时，分别提取所述待处理文本的语义信息、语音信息及视觉信息，从而将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息，最后基于所述多模态信息进行编码得到编码信息，并基于所述编码信息进行计算得到所述待处理文本的文本纠错结果。由于多模态信息融合了待处理文本本身的语义、听觉及视觉等三个方面的特征表示，因此更能准确且多方面的表征待处理文本的特征，从而提高了文本纠错的准确性。

本发明提供的文本纠错方法可以应用于医疗领域中的文本纠错，可以实现错误检测与错误纠正的功能，可以提示医生输入文字中可能的错误位置，并提供相应的候选项，辅助用户的最终判断和选择。

实施例二

图2是本发明实施例二提供的文本纠错装置的结构图。

在一些实施例中，所述文本纠错装置20可以包括多个由计算机程序段所组成的功能模块。所述文本纠错装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)文本纠错的功能。

本实施例中，所述文本纠错装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：文本获取模块201、第一提取模块202、第二提取模块203、第三提取模块204、信息聚合模块205、文本纠错模块206、字符获取模块207及字符纠正模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述文本获取模块201，用于获取待处理文本。

对于待处理文本X＝(x₁,x₂,…,x_n)，其中，x_i为待处理文本的第i个字符，1≤i≤n，n为待处理文本中字符的总数量。

所述第一提取模块202，用于提取所述待处理文本的语义信息。

所述第二提取模块203，用于提取所述待处理文本的语音信息。

在一个具体的实施方式中，所述第二提取模块203提取所述待处理文本的语音信息包括：

获取所述待处理文本中每个字符的拼音及声调；

根据每个字符的拼音及声调生成多个拼音结构；

所述第三提取模块204，用于提取所述待处理文本的视觉信息。

在一个可选的实施方式中，所述第三提取模块204提取所述待处理文本的视觉信息包括：

为分割后的每个字符生成字符图片；

输入所述字符图片至卷积神经网络中，得到视觉信息；

所述信息聚合模块205，用于将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息。

在一个可选的实施方式中，所述信息聚合模块205将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息包括：

获取所述语义信息的均值信息；

g_i,s＝sigmoid(w^s·[v_i,s,v_i,p,v_i,g,vs]+b^s)，

g_i,p＝sigmoid(w^p·[v_i,s,v_i,p,v_i,g,v_s]+b^p)，

g_i,g＝sigmoid(w^g·[v_i,s,v_i,p,v_i,g,v_s]+b^g)，

h_i＝g_i,s·v_i,s+g_i,p·v_i,p+g_i,g·v_i,g。

所述文本纠错模块206，用于调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。

在一个可选的实施方式中，当确定所述当前位置的字符是错误的，所述字符获取模块207，用于根据所述当前位置的字符的拼音结构获取多个候选字符。

所述字符纠正模块208，用于计算每个候选字符与所述当前位置的字符的相似度；判断最大的相似度是否大于预设相似度阈值；当最大的相似度大于所述预设相似度阈值，使用所述最大的相似度对应的候选字符对所述当前位置的字符进行纠正。

本发明提供的文本纠错装置在获取到待处理文本时，分别提取所述待处理文本的语义信息、语音信息及视觉信息，从而将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息，最后基于所述多模态信息进行编码得到编码信息，并基于所述编码信息进行计算得到所述待处理文本的文本纠错结果。由于多模态信息融合了待处理文本本身的语义、听觉及视觉等三个方面的特征表示，因此更能准确且多方面的表征待处理文本的特征，从而提高了文本纠错的准确性。

本发明提供的文本纠错装置可以应用于医疗领域中的文本纠错，可以实现错误检测与错误纠正的功能，可以提示医生输入文字中可能的错误位置，并提供相应的候选项，辅助用户的最终判断和选择。

实施例三

本实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述文本纠错方法实施例中的步骤，例如图1所示的S11-S16：

S11，获取待处理文本；

S12，提取所述待处理文本的语义信息；

S13，提取所述待处理文本的语音信息；

S14，提取所述待处理文本的视觉信息；

S15，将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息；

或者，该计算机程序被处理器执行时实现上述文本纠错装置实施例中的功能，例如图2所示的201-206：

所述文本获取模块201，用于获取待处理文本；

所述第一提取模块202，用于提取所述待处理文本的语义信息；

所述第二提取模块203，用于提取所述待处理文本的语音信息；

所述第三提取模块204，用于提取所述待处理文本的视觉信息；

所述信息聚合模块205，用于将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息；

实施例四

参阅图3所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的文本纠错方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的文本纠错方法的全部或者部分步骤；或者实现文本纠错装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来信息名称，而并不信息任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种文本纠错方法，其特征在于，所述方法包括：

获取待处理文本；

提取所述待处理文本的语义信息；

提取所述待处理文本的语音信息；

提取所述待处理文本的视觉信息；

2.如权利要求1所述的文本纠错方法，其特征在于，所述提取所述待处理文本的语音信息包括：

获取所述待处理文本中每个字符的拼音及声调；

根据每个字符的拼音及声调生成多个拼音结构；

3.如权利要求1所述的文本纠错方法，其特征在于，所述提取所述待处理文本的视觉信息包括：

为分割后的每个字符生成字符图片；

输入所述字符图片至卷积神经网络中，得到视觉信息；

4.如权利要求1所述的文本纠错方法，其特征在于，所述将所述语义信息、所述语音信息及所述视觉信息进行聚合，得到所述待处理文本的多模态信息包括：

获取所述语义信息的均值信息；

5.如权利要求1所述的文本纠错方法，其特征在于，所述基于所述预测结果进行计算得到纠错文本信息包括：

将所述预测结果输入到softmax函数中进行计算，得到第i个位置属于每个字符的概率，1≤i≤n，n为所述待处理文本中字符的总数量；

6.如权利要求1所述的文本纠错方法，其特征在于，所述提取所述待处理文本的语义信息包括：

将每个字符输入预训练语言模型中，得到语义向量；

7.如权利要求1至6中任意一项所述的文本纠错方法，其特征在于，当确定所述当前位置的字符是错误的，所述方法还包括：

根据所述当前位置的字符的拼音结构获取多个候选字符；

计算每个候选字符与所述当前位置的字符的相似度；

判断最大的相似度是否大于预设相似度阈值；

8.一种文本纠错装置，其特征在于，所述装置包括：

文本获取模块，用于获取待处理文本；

第一提取模块，用于提取所述待处理文本的语义信息；

第二提取模块，用于提取所述待处理文本的语音信息；

第三提取模块，用于提取所述待处理文本的视觉信息；

文本纠错模块，用于调用Transformer模型基于所述多模态信息进行预测得到预测结果，并基于所述预测结果进行计算得到纠错文本信息。

9.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述文本纠错方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述文本纠错方法。