CN111460827B

CN111460827B - 文本信息处理方法、***、设备及计算机可读存储介质

Info

Publication number: CN111460827B
Application number: CN202010248972.8A
Authority: CN
Inventors: 邬国锐; 李杨
Original assignee: Beijing Aikaka Information Technology Co ltd
Current assignee: Beijing Aikaka Information Technology Co ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-12-15
Anticipated expiration: 2040-04-01
Also published as: CN111460827A

Abstract

本发明公开一种文本信息处理方法、***、设备及计算机可读存储介质。本发明的方法，通过预先采用与所述待处理文本的类型对应的纠错训练集训练得到的纠错模型，对待处理文本进行纠错处理，得到所述待处理文本的至少一个纠正文本，实现对待处理文本中的字形错误等进行纠正；通过预先采用与所述待处理文本的类型对应的结构化特征训练集训练得到的命名实体识别模型，提取所述纠正文本的结构化特征，并将所述纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与所述纠正文本对应的标准文本信息，实现进一步地通过结构化特征对纠正文本中存在的命名实体错误进行纠正，提高了文本信息识别的准确率。

Description

文本信息处理方法、***、设备及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本信息处理方法、***、设备及计算机可读存储介质。

背景技术

在日常工作或生活中，会用到各种票据和证件等纸质文件，例如***、营业执照等，为了实现对纸质文件的识别，利用计算机技术自动对印在纸上的文本信息进行识别成为一种趋势。尤其是对于公司名称等关键文本信息，具有特定的结构特征，并且对识别的准确率要求很高，在很多金融场合，公司名称和与其类似的文本信息是不允许有任何错误的。

目前对印在纸上的文本信息的识别主要采用光学字符识别(Optical CharacterRecognition，以下简称：OCR)技术，其利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。OCR的处理步骤主要包括：图像预处理、版面分析、文本定位(或叫图像切割)、字符切割和识别等。

但是在通过OCR技术进行文本识别的过程中往往会出现以下识别错误的情况：对于纸质文件上的某些长文本信息，因文本定位偏差导致文本的头和/或尾被切割；由于汉字是结构性字体，容易将文本信息中的左右结构或者左右中结构的汉字错误地识别成两个或者多个字，例如将“咔”识别成“口卡”等；因纸质文件不清晰、打印倾斜、文本被部分遮盖、文本覆盖重叠、亮度低等造成识别困难，导致将某些复杂机构的字识别成其他字等，以及对于中英文混合字识别错误，例如将“IBM”识别成“18M”等。现有的对于纸质文件上的文本信息的识别的错误率较高，如何识别结果进行纠错处理、提高文本信息识别的准确率，成为一个亟待解决的技术问题。

发明内容

本发明提供一种文本信息处理方法、***、设备及计算机可读存储介质，用以克服上述现有技术中存在的技术问题，以提高对于纸质文件上的文本信息的识别的准确率。

本发明提供的一种文本信息处理方法，包括：

通过纠错模型对待处理文本中的字形或词形错误进行纠错处理，得到所述待处理文本的至少一个纠正文本，所述纠错模型通过与所述待处理文本的类型对应的纠错训练集训练得到，所述待处理文本为光学字符识别对图像中文本信息的识别结果，所述纠错模型中解码器包括3个分类器，分别对应删除、***和替换操作，每个分类器包括一个两层transformer，通过删除操作对词向量一个或多个维度进行破坏，并通过***和生成操作对每个维度进行恢复生成新的词向量实现模型训练；

通过命名实体识别模型提取所述纠正文本的结构化特征，所述命名实体识别模型通过与所述待处理文本的类型对应的结构化特征训练集训练得到；

将所述纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与所述纠正文本对应的标准文本信息。

本发明还提供一种文本信息处理***，包括：

第一纠错模块，用于通过纠错模型对待处理文本中的字形或词形错误进行纠错处理，得到所述待处理文本的至少一个纠正文本，所述纠错模型通过与所述待处理文本的类型对应的纠错训练集训练得到，所述待处理文本为光学字符识别对图像中文本信息的识别结果，所述纠错模型中解码器包括3个分类器，分别对应删除、***和替换操作，每个分类器包括一个两层transformer，通过删除操作对词向量一个或多个维度进行破坏，并通过***和生成操作对每个维度进行恢复生成新的词向量实现模型训练；

结构化特征提取模块，用于通过命名实体识别模型提取所述纠正文本的结构化特征，所述命名实体识别模型通过与所述待处理文本的类型对应的结构化特征训练集训练得到；

第二纠错模块，用于将所述纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与所述纠正文本对应的标准文本信息。

本发明还提供一种文本信息处理设备，包括：

处理器，存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述处理器运行所述计算机程序时实现如上述所述的文本信息处理方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被执行上述所述的文本信息处理方法。

本发明通过预先采用与所述待处理文本的类型对应的纠错训练集训练得到的纠错模型，对待处理文本进行纠错处理，得到所述待处理文本的至少一个纠正文本，实现对待处理文本中的字形错误等进行纠正；通过预先采用与所述待处理文本的类型对应的结构化特征训练集训练得到的命名实体识别模型，提取所述纠正文本的结构化特征，并将所述纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与所述纠正文本对应的标准文本信息，实现进一步地通过结构化特征对纠正文本中存在的命名实体错误进行纠正，提高了文本信息识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种文本信息处理方法流程图；

图2为本发明实施例二提供的一种文本信息处理方法流程图；

图3为本发明实施例三提供的一种文本信息处理***的结构示意图；

图4为本发明实施例四提供的一种文本信息处理***的结构示意图；

图5为本发明实施例五提供的文本信息处理设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所涉及的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

为使本发明的技术方案更加清楚，以下结合附图对本发明的实施例进行详细说明。

本发明具体可以应用于对纸质文件上的具有结构化特征的文本信息的识别结果进行进一步纠错。其中，纸质文件可以是***等票据、营业执照等证件、或者其他包含文本信息的纸质文件等等。具有结构化特征的文本信息可以是具有规定的或者约定俗成的结构化特征的文本信息，可以是***或者营业执照上的公司名称、营业执照上的公司地址等等。

例如，以公司名称为例，公司名称的结构化特征是根据市场监督管理总局发布的《公司名称管理方法》确定的，所有的公司名称都具有这种结构化特征。公司名称通常包括地点、字号、行业、组织结构等部分，每一部分作为一个特征项，其中通常字号具有唯一性，能够唯一标识一家公司。对于公司名称，其文字的排列顺序是唯一的，不允许有相同的公司名称存在，在很多金融场合，公司名称是不允许出现错误的，公司名称错一个字都算错。

例如，地址通常包括省、市、区/县、乡镇等等。

对于这些具有结构化特征的文本信息，现有的OCR识别模型，即使是识别效果很好的OCR识别模型，也不可避免地会出现字形或者词形的错误，本发明提供的文本信息处理方法，能够实现对OCR识别结果进行进一步的纠错处理，进一步提高这类文本信息识别的准确率。

本发明可以将对纸质文本的识别结果作为待处理文本，通过纠错模型对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本，来实现对待处理文本中的字形错误进行纠正；然后通过命名实体识别模型提取纠正文本的结构化特征，将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息，来实现对纠正文本中的命名实体识别错误进行进一步地纠正，从而可以提高文本信息识别的准确率。

本发明中以待处理文本为公司名称为例，也即是，以待处理文本的类型为公司名称为例，对本发明的文本信息处理方法进行详细地说明。

图1为本发明实施例一提供的一种文本信息处理方法流程图，如图1所示，本实施例中的文本信息处理方法，包括如下步骤：

步骤101、通过纠错模型对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本，纠错模型通过与待处理文本的类型对应的纠错训练集训练得到。

其中，待处理文本具体可以是通过OCR技术等从纸质文件上的文本信息的识别结果。

待处理文本可以是公司名称、地址、或者账户等具有结构化特征的文本信息，也即是待处理文本的类型可以是公司名称、地址、或者账户等。另外，待处理文本的类型还可以是其他类型，具体可以由技术人员根据实际应用场景和需要进行设定和调整，本实施例此处不做具体限定。

本实施例中，纠错模型是预先训练好的深度学习模型，用于对待处理文本中的字形错误、词形错误等进行纠正，以实现对待处理文本的纠错处理。

示例性地，对于待处理文本的不同类型，可以预先训练好对应的纠错模型。具体地，可以针对待处理文本的每种类型，获取该类型对应的纠错训练集，并采用对应的纠错训练集训练该类型对应的纠错模型，这样可以针对不同类型的待处理文本的常见错误有针对性地训练纠错模型，使得纠错模型对待处理文本的纠错效果更好。

可选的，也可以针对两个或者多个类型，训练统一的纠错模型，该统一的纠错模型可以用于对这两个或者多个类型的待处理文本进行纠错处理。

示例性地，本实施例中纠错训练集包括多条纠错训练数据，每条纠错训练数据包括：包含至少一处错误的错误文本信息，以及其对应的标准文本信息。

步骤102、通过命名实体识别模型提取纠正文本的结构化特征，命名实体识别模型通过与待处理文本的类型对应的结构化特征训练集训练得到。

其中，命名实体识别模型是预先训练好的能够提取对应类型的文本的结构化特征的命名实体识别模型。例如，命名实体识别模型可以是LSTM+CRF模型，LSTM+CRF模型是基于词频特征和概率图的一种命名实体识别方法，它的应用假设是无错别字和正常语义的短语进行命名实体识别是有效的。

示例性地，结构化特征训练集可以是预先获取的与待处理文本的类型对应的训练集，结构化特征训练集包括多条结构化特征训练数据，每条结构化特征训练数据包括：标准文本信息及其结构化特征。

步骤103、将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息。

其中，可信数据集是预先建立的与待处理文本的类型对应的数据集，待处理文本的类型不同，对应的可信数据集不同。可信数据集包括：标准文本信息及其结构化特征。

例如，对于公司名称，对应的可信数据集包括正确的公司名称，以及各个公司名称对应的结构化特征。

本实施例中，对于纠错处理后的纠正文本，进步提取纠正文本的结构化特征，并将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定纠正文本与各个标准文本信息的匹配度，并将各标准文本信息按照与纠正文本的匹配度排序，确定排序最靠前的一个或者多个标准文本信息作为与纠正文本对应的标准文本信息，也即是，确定与纠正文本的结构化特征匹配度最高的一个或者多个标准文本信息，作为对待处理文本处理后的目标文本，得到最终的识别结果。

本发明实施例通过预先采用与待处理文本的类型对应的纠错训练集训练得到的纠错模型，对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本，实现对待处理文本中的字形错误等进行纠正；通过预先采用与待处理文本的类型对应的结构化特征训练集训练得到的命名实体识别模型，提取纠正文本的结构化特征，并将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息，实现进一步地通过结构化特征对纠正文本中存在的命名实体错误进行纠正，提高了文本信息识别的准确率。

图2为本发明实施例二提供的一种文本信息处理方法流程图，在上述实施例一的基础上，本实施例中，在通过纠错模型对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本之前，还包括：获取与待处理文本的类型对应的纠错训练集，纠错训练集包括多条纠错训练数据；通过纠错训练集进行深度学习模型训练，得到纠错模型。在通过命名实体识别模型提取纠正文本的结构化特征之前，还包括：获取与待处理文本的类型对应的结构化特征训练集，结构化特征训练集包括多条结构化特征提取训练数据；通过结构化特征训练集对初始的命名实体识别模型进行模型训练，得到命名实体识别模型。

如图2所示，本实施例中的文本信息处理方法，包括如下步骤：

步骤201、获取与待处理文本的类型对应的纠错训练集，纠错训练集包括多条纠错训练数据。

本实施例中，该步骤具体可以采用如下方式实现：

获取与待处理文本的类型对应的多个标准文本信息；构建每个标准文本信息对应的错误文本，每个错误文本及其对应的标准文本信息构成一条纠错训练数据。

可选的，构建标准文本信息对应的错误文本，可以通过对待处理文本类型的文本在使用过程中曾出现过的错误类型，以及各个错误类型出现的频数、概率等进行统计，根据这些统计结果将标准文本进行至少一个错误类型的变形，生成对应错误文本。其中，这些错误情况至少包括缺字、多字、字形相近字或词的替换等等。

可选的，与待处理文本的类型对应的多个标准文本信息的获取方法，可以通过爬虫技术收集海量的(千万级)的文本语料，或者还可以采用其他的大数据采集的方法实现，本实施例此处不做具体限定。例如，对于公司名称，可以获取尽可能多的符合公司法注册的有效公司名称，目前可以获取到约2200万有效公司名称。

步骤202、通过纠错训练集进行深度学习模型训练，得到纠错模型。

本实施例中，纠错模型可以是对深度学习模型训练得到的，用于对待处理文本中的字形错误、词形错误等进行纠正，以实现对待处理文本的纠错处理。示例性地，纠错模型可以为transformer模型，该transformer模型是一个应用在自然语言处理(NaturalLanguage Processing，简称NLP)翻译领域中有效的实体识别方法，能够利用词袋遮蔽形成特征来进行交叉验证，最后对实体有效识别。

在获取到纠错训练集之后，该步骤中通过纠错训练集训练transformer模型，得到对待处理文本的纠错处理的纠错模型，以通过纠错模型对待处理文本的字形错误、词形错误等进行纠正。

其中，transformer模型的序列生成流程包括：将输入文本编码成词向量；transformer解码器将词向量解码成语义向量；使用transformer解码器和attention机制将语义向量解码，得到生成结果。

基于对于“公司名称”等结构化文本信息进行识别的应用场景，OCR识别与正确结果的差距一般很小，常规的用于神经网络翻译的transformer模型处理的输入和输出差别很大。为了使得transformer模型应用于当前的应用场景时的纠错效果更好，本发明实施例中，transformer模型的解码器在解码器解码词向量之前，先随机删除词向量中的一个或者多个维度，以对词向量进行进一步破坏，然后再将词向量的每个维度进行恢复，以提高词向量的正确性和完整性，能够进一步使得词向量的可用性和完整性更好，可以进一步改善纠错模型的纠错效果。本发明实施例中，对于OCR经常识别错误的行字，利用我们改进的transformer模型把错字当成遮蔽实现纠偏来训练提高正确性的对应关系。

示例性地，模型中编码器的部分使用6层的transformer作为编码器，解码器的部分使用3个两层的transformer，分别对应删除，***，替换三项操作。

具体地，transformer模型的解码器可以包括三个分类器，每个分类器包括一个两层transformer。这三个分类器分别用于对词向量的一个维度实现以下功能：删除字符(也即是将其他字符替换成空白字符)，***空白字符，将空白符替换成其他字符。

示例性地，可以用一个五元组(y,A,∈,R,y⁰)来描述transformer模型的解码器，其中，∈是媒介，类似黑盒子，输入行为和旧序列，返回新序列；A是行为集合，代表所有可能的行为；

是长度为N_max的所有可能序列的集合；R代表反馈函数(reward)，度量真实序列和错误序列之间的距离；y⁰代表初始序列，初始序列可以为空。

例如，输入序列可以为n维词向量，可以表示为：y^k＝y_1：n，将要生成的输出序列可以表示为y^k+1＝∈(y^k，α^k+1)，其中k为零或正整数，用于区分不同的序列，α^k+1表示作用于y^k的行为。

具体地，行为集合可以包括删除和***两个行为。其中，删除行为用于对于输入序列的每个字符，通过删除策略确定是否删除该字符。删除行为可以描述为：对于序列y的每一个字符y_i∈y，下标i表示字符在序列中的位置，删除策略可以表示为π^del(d|i，y)，其中d|i表示删除字符y_i的行为，删除策略做出一个二值决定，确定是否删除字符y_i。示例性地，删除策略可以采用二分类模型实现。例如，π^del(d|i，y)可以表示删除序列y中的字符y_i的概率，当概率满足预设条件时，可以删除序列y中的字符y_i。

***行为用于对于输入序列中的每个槽，通过***策略确定是否在槽中***占位符，以及通过生成策略确定在***的占位符处生成的字符。***行为可以描述为：对于序列y中的所有的槽(y_i，y_i+1)，其中y_i∈y，下标i表示字符在序列中的位置，***策略给出在槽(y_i，y_i+1)中***一个占位符的概率，***策略可以表示为π^plh(p|i，y)，其中，p|i表示在槽(y_i，y_i+1)中***一个占位符的行为；生成策略给出在该生成的占位符生成其他字符的策略，其中t|i表示对于在槽(y_i，y_i+1)中***的占位符在该占位符生成其他字符的行为，生成策略可以表示为π^tok(t|i，y)，表示在槽(y_i，y_i+1)中***的占位符生成其他字符的概率。

示例性地，***策略可以采用二分类模型实现；生成策略可以采用多分类模型实现，对于一个占位符生成策略可以给出将其他字符***该占位符的概率，选取概率最大的一个字符***到占位符。

综上，transformer模型的解码器对于输入序列的整体行为可以表示为：

其中，下标0-n表示字符在序列中的位置，y_i表示序列中第i个位置的字符，d₀，...，d_n表示序列中对应位置的字符被删除的行为；p₀，...，p_n-1表示在序列中的各个槽中***占位符的行为，例如p_i表示在槽(y_i，y_i+1)中***占位符的行为；

表示在各个占位符生成对应字符的行为，例如

表示p_i行为发生在(y_i，y_i+1)中***占位符后，在该占位符生成其他字符的行为。整体策略可以表示为：π(a|y)＝Ππ^del(d_i|i，y)*Ππ^plh(p_i|i，y′)*Ππ^tok(t_i|i，y″)，其中，y′＝∈(y，d)，表示通过删除策略对序列y进行删除操作后得到的序列，y″＝∈(y′，p)表示通过***策略对y′进行***操作后得到的序列。

本发明实施例中，transformer模型的解码器对于输入序列的整体处理操作可以包括删除、***和生成，通过删除操作对待解码的词向量进一步破坏，然后通过***和生成操作进行恢复生成新的词向量，以提高词向量的正确性和完整性，能够进一步使得词向量的可用性和完整性更好，可以进一步改善纠错模型的纠错效果。

该步骤中，在transformer模型的训练过程中，对transformer模型的解码器的三个分类器也进行训练，可以提高训练得到的纠错模型的纠错能力。

步骤203、通过纠错模型对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本。

获取到待处理文本的类型对应的纠错模型之后，通过纠错模型对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本，这是对待处理文本的一次初步纠错的过程。

本实施例中，通过后续步骤205-208，实现对纠正文本的进一步纠错，得到与纠正文本对应的标准文本信息，得到的标准文本信息也就与待处理文本对应的没有任何错误的文本，从而成功实现对待处理文本的纠错。

步骤204、获取与待处理文本的类型对应的结构化特征训练集，结构化特征训练集包括多条结构化特征提取训练数据。

本实施例中，该步骤具体可以采用如下方式实现：

获取与待处理文本的类型对应的多个标准文本信息；对每个标准文本信息进行分词处理，得到分词结果；根据与待处理文本的类型对应的结构化特征规则，将每个标准文本信息的分词结果转换为对应的结构化特征，每个标准文本信息及其对应的结构化特征构成一条结构化特征提取训练数据。

示例性地，对每个标准文本信息进行分词处理，可以采用结巴分词，它是一种使用隐马尔可夫模型的分词工具，它的优势是不需要训练，开箱即用，并且相比于其他的分词工具来说接口最完善，功能最丰富。另外，对每个标准文本信息进行分词处理还可以采用HanLP分词器、或者北京大学的分词工具等等其他分词工具，本实施例对于分词工具的选择不做具体限定。

本实施例中，与待处理文本的类型结构化特征可以包括多个特征项。例如，公司名称通常包括地点、字号、行业、组织结构等部分，每一部分作为一个特征项。

该步骤中，在得到标准文本信息的分词结果之后，可以根据与待处理文本的类型对应的结构化特征规则，分析确定分词结果中的各个分词对应的特征项，从而将标准文本信息的分词结果中的各个分词映射到结构化特征的各个特征项，得到标准文本信息对应的结构化特征。

可选地，将分词结果映射到结构化特征的各个特征项，可以通过预先训练的分类模型对每个分词进行分类实现。例如，对于公司名称的“行业”这一特征项，可以采用用于识别输入词是否用于描述一个行业分类的分类模型，对分词进行处理得到分类结果来实现。

示例性地，与待处理文本的类型对应的多个标准文本信息的获取方法，可以通过爬虫技术收集海量的(千万级)的文本语料，或者还可以采用其他的大数据采集的方法实现，本实施例此处不做具体限定。例如，对于公司名称，可以获取尽可能多的符合公司法注册的有效公司名称，目前可以获取到约2200万有效公司名称。利用后续步骤的LSTM+CRF模型形成公司名称的命名实体分布概率和特征模型。

另外，对于无效的命名实体，可以通过人工标注构成训练数据，来训练提高模型的准确度。

步骤205、通过结构化特征训练集对初始的命名实体识别模型进行模型训练，得到命名实体识别模型。

在获取到结构化特征训练集之后，该步骤通过结构化特征训练集对初始的命名实体识别模型进行模型训练，得到命名实体识别模型。

其中，初始的命名实体识别模型可以为LSTM+CRF模型。长短时记忆网络(LongShort Term Memory Network，简称LSTM))是循环神经网络的一种变体，LSTM模型的优势在于经过训练后能够自动提取数据特别是时序类型数据的特征，不需要自己构造特征。条件随机场(conditional random field，简称CRF)是一种概率图模型，使用CRF的目的是解码LSTM模型提取出的特征，输出标签。CRF的优势在于能够模型具有观测独立假设以及条件独立假设，这两种假设非常契合命名实体任务。因此，LSTM+CRF模型在命名实体识别任务中效果很好。

LSTM+CRF模型的命名实体识别流程包括：输入文本编码成词向量，通过LSTM模型将词向量编码成语义向量，通过CRF解码器对语义向量进行解码得到命名实体识别结果。

现有的LSTM+CRF模型多用于篇章级的文本处理。本实施例中，为了进一步提高训练得到的命名实体识别模型提取结构化特征的准确性，在命名实体识别模型的训练过程中对用于将输入文本编码成词向量的网络层进行训练，通过在训练过程中调整神经元的长度，使得训练得到的命名实体识别模型的这一网络层更加适用于短文本，并且使得该层编码生成的词向量更加符合结构化特征的特点，进一步使得训练得到的命名实体识别模型提取结构化特征更加准确。

步骤206、通过命名实体识别模型提取纠正文本的结构化特征。

本实施例中，在得到待处理文本的至少一个纠正文本之后，通过命名实体识别模型提取纠正文本的结构化特征，然后可以通过步骤207将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息。

步骤207、将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息。

其中，可信数据集可以存储在数据库中，以方便数据的读取和存储。

在该步骤之前，预先生成可信数据集，具体包括：获取与待处理文本的类型对应的标准文本信息；通过命名实体识别模型提取每个标准文本信息对应的结构化特征，得到可信数据集。

可选的，上述步骤204中获取的与待处理文本的类型对应的结构化特征训练集包括多条结构化特征提取训练数据，每条结构化特征提取训练数据包括标准文本信息及其对应的结构化特征，本实施例中可以将待处理文本的类型对应的结构化特征训练集存入数据库，作为可信数据集。

本实施例中，与待处理文本的类型对应的结构化特征可以包括多个特征项。该步骤具体可以采用如下方式实现：

确定纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度；根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定至少一个与纠正文本对应的标准文本信息。

示例性地，确定纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，可以采用最小编辑距离算法实现，或者还可以现有的任意一种计算两个短文本之间的相似度的方法实现，本实施例此处不再赘述。

示例性地，根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定至少一个与纠正文本对应的标准文本信息，可以采用如下方式实现：

根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定纠正文本与可信数据集中各个标准文本信息的整体匹配度；根据纠正文本与可信数据集中各个标准文本信息的整体匹配度，确定至少一个与纠正文本对应的标准文本信息。

进一步地，根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定纠正文本与可信数据集中各个标准文本信息的整体匹配度，具体可以通过对各个特征项赋予对应的权重，通过加权求和、加权平均等方法计算得到整体匹配度。

可选的，还可以设定部分特征项为硬性匹配项，其他特征项为软性匹配项。在根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定至少一个与纠正文本对应的标准文本信息时，可以先根据硬性匹配项是否完全匹配对可信数据集中各个标准文本信息进行筛选，保留硬性匹配项与纠正文本完全匹配的标准文本信息；然后在通过计算保留的标准文本信息的软性匹配项与纠正文本的相似度，并综合计算保留的标准文本信息与纠正文本的整体匹配度，根据与纠正文本的整体匹配度，进一步确定至少一个与纠正文本对应的标准文本信息。

进一步地，根据纠正文本与可信数据集中各个标准文本信息的整体匹配度，确定至少一个与纠正文本对应的标准文本信息，具体可以采用如下任意一种方式实现：

第一种可能的实现方式：将各标准文本信息按照与纠正文本的匹配度排序，确定排序最靠前的一个或者多个标准文本信息作为与纠正文本对应的标准文本信息，也即是，确定与纠正文本的结构化特征匹配度最高的一个或者多个标准文本信息，作为对待处理文本处理后的目标文本，得到最终的识别结果。

第二种可能的实现方式：如果存在唯一一个标准文本信息与纠正文本的各特征项均完全匹配，则确定该标准文本信息为与纠正文本对应的标准文本信息。如果不存在与纠正文本的各特征项均完全匹配的标准文本信息，则按照上述第一种可能的实现方式，将各标准文本信息按照与纠正文本的匹配度排序，确定排序最靠前的一个或者多个标准文本信息作为与纠正文本对应的标准文本信息。

本发明实施例的方法有效解决了当头尾切字时出现的OCR识别错误，如果命名实体出现错误时也能通过可信数据集推理得出，如果文本错误程度过大，也可以推荐出几个相似度高的命名实体。

另外，为了评价本发明对于文本信息的纠错能力，可以采用第一次正确率和前n命中正确率作为两个评价指标，其中n为正整数，n是确定的与待处理文本对应的标准文本信息的个数，例如n可以为5。其中，第一次正确率是指经过本发明确定的标准文本信息中的第一个正确的百分比，前n命中正确率是指经过本发明确定的n个标准文本信息中包括正确名称的百分比。

本发明通过预先采用与待处理文本的类型对应的纠错训练集训练得到的纠错模型，对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本，实现对待处理文本中的字形错误等进行纠正；通过预先采用与待处理文本的类型对应的结构化特征训练集训练得到的命名实体识别模型，提取纠正文本的结构化特征，并将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息，实现进一步地通过结构化特征对纠正文本中存在的命名实体错误进行纠正，提高了文本信息识别的准确率。本实施例对于OCR识别结果的纠偏效果可以通过OCR来验证，经验证经过本实施例的文本信息处理方进行纠偏之后，有效地提高了识别的准确性。

图3为本发明实施例三提供的一种文本信息处理***的结构示意图，如图3所示，本实施例中的文本信息处理***，包括：第一纠错模块301，结构化特征提取模块302和第二纠错模块303。

具体地，第一纠错模块301用于通过纠错模型对待处理文本进行纠错处理，得到待处理文本的至少一个纠正文本，纠错模型通过与待处理文本的类型对应的纠错训练集训练得到。

结构化特征提取模块302用于通过命名实体识别模型提取纠正文本的结构化特征，命名实体识别模型通过与待处理文本的类型对应的结构化特征训练集训练得到。

第二纠错模块303用于将纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与纠正文本对应的标准文本信息。

上述各个功能模块分别用于完成本发明方法实施例一对应的操作功能，也达到类似的功能效果，详细内容不再赘述。

图4为本发明实施例四提供的一种文本信息处理***的结构示意图，在上述实施例三的基础上，本实施例中，文本信息处理***还包括纠错模型训练模块304。

纠错模型训练模块304用于：获取与待处理文本的类型对应的纠错训练集，纠错训练集包括多条纠错训练数据；通过纠错训练集进行深度学习模型训练，得到纠错模型。

可选的，纠错模型训练模块304还用于：获取与待处理文本的类型对应的多个标准文本信息；构建每个标准文本信息对应的错误文本，每个错误文本及其对应的标准文本信息构成一条纠错训练数据。

可选的，文本信息处理***还包括命名实体识别模型训练模块305。命名实体识别模型训练模块305用于：获取与待处理文本的类型对应的结构化特征训练集，结构化特征训练集包括多条结构化特征提取训练数据；通过结构化特征训练集对初始的命名实体识别模型进行模型训练，得到命名实体识别模型。

可选的，命名实体识别模型训练模块305还用于：获取与待处理文本的类型对应的多个标准文本信息；对每个标准文本信息进行分词处理，得到分词结果；根据与待处理文本的类型对应的结构化特征规则，将每个标准文本信息的分词结果转换为对应的结构化特征，每个标准文本信息及其对应的结构化特征构成一条结构化特征提取训练数据。

可选的，文本信息处理***还包括可信数据集获取模块306。可信数据集获取模块306用于：获取与待处理文本的类型对应的标准文本信息；通过命名实体识别模型提取每个标准文本信息对应的结构化特征，得到可信数据集。

可选的，与待处理文本的类型结构化特征包括多个特征项，第二纠错模块304还用于：确定纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度；根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定至少一个与纠正文本对应的标准文本信息。

可选的，第二纠错模块304还用于：根据纠正文本的每个特征项与可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定纠正文本与可信数据集中各个标准文本信息的整体匹配度；根据纠正文本与可信数据集中各个标准文本信息的整体匹配度，确定至少一个与纠正文本对应的标准文本信息。

可选的，纠错模型为transformer模型。

可选的，初始的命名实体识别模型为LSTM+CRF模型。

上述各个功能模块分别用于完成本发明方法实施例二对应的操作功能，也达到类似的功能效果，详细内容不再赘述。

图5为本发明实施例五提供的文本信息处理设备的结构示意图。如图5所示，该设备50包括：处理器501，存储器502，以及存储在存储器502上并可在处理器501上运行的计算机程序。

其中，处理器501运行计算机程序时实现上述任一方法实施例提供的文本信息处理方法。

本发明实施例还提供一种计算机可读存储介质，该可读存储介质如：ROM/RAM、磁碟、光盘等，计算机可读存储介质存储有计算机程序，所述计算机程序可被终端设备、计算机或服务器等硬件设备执行上述任一实施例提供的文本信息处理方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过纠错模型对待处理文本中的字形或词形错误进行纠错处理，得到所述待处理文本的至少一个纠正文本之前，还包括：

获取与所述待处理文本的类型对应的纠错训练集，所述纠错训练集包括多条纠错训练数据；

通过所述纠错训练集进行深度学习模型训练，得到所述纠错模型。

3.根据权利要求2所述的方法，其特征在于，所述获取与所述待处理文本的类型对应的纠错训练集，所述纠错训练集包括多条纠错训练数据，包括：

获取与所述待处理文本的类型对应的多个标准文本信息；

构建每个所述标准文本信息对应的错误文本，每个所述错误文本及其对应的标准文本信息构成一条所述纠错训练数据。

4.根据权利要求1所述的方法，其特征在于，所述通过命名实体识别模型提取所述纠正文本的结构化特征之前，还包括：

获取与所述待处理文本的类型对应的结构化特征训练集，所述结构化特征训练集包括多条结构化特征提取训练数据；

通过所述结构化特征训练集对初始的命名实体识别模型进行模型训练，得到所述命名实体识别模型。

5.根据权利要求4所述的方法，其特征在于，所述获取与所述待处理文本的类型对应的结构化特征训练集，所述结构化特征训练集包括多条结构化特征提取训练数据，包括：

获取与所述待处理文本的类型对应的多个标准文本信息；

对每个所述标准文本信息进行分词处理，得到分词结果；

根据与所述待处理文本的类型对应的结构化特征规则，将每个所述标准文本信息的分词结果转换为对应的结构化特征，每个所述标准文本信息及其对应的结构化特征构成一条所述结构化特征提取训练数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与所述纠正文本对应的标准文本信息之前，还包括：

获取与所述待处理文本的类型对应的标准文本信息；

通过所述命名实体识别模型提取每个所述标准文本信息对应的结构化特征，得到所述可信数据集。

7.根据权利要求1所述的方法，其特征在于，所述与所述待处理文本的类型对应的结构化特征包括多个特征项，

所述将所述纠正文本的结构化特征与可信数据集中各个标准文本信息的结构化特征进行匹配，确定与所述纠正文本对应的标准文本信息，包括：

确定所述纠正文本的每个特征项与所述可信数据集中各个标准文本信息的对应特征项之间的匹配度；

根据所述纠正文本的每个特征项与所述可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定至少一个与所述纠正文本对应的标准文本信息。

8.根据权利要求7所述的方法，其特征在于，所述根据所述纠正文本的每个特征项与所述可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定至少一个与所述纠正文本对应的标准文本信息，包括：

根据所述纠正文本的每个特征项与所述可信数据集中各个标准文本信息的对应特征项之间的匹配度，确定所述纠正文本与所述可信数据集中各个标准文本信息的整体匹配度；

根据所述纠正文本与所述可信数据集中各个标准文本信息的整体匹配度，确定至少一个与所述纠正文本对应的标准文本信息。

9.一种文本信息处理***，其特征在于，包括：

10.一种文本信息处理设备，其特征在于，包括：

处理器，存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；

其中，所述处理器运行所述计算机程序时实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被执行如权利要求1至8中任一项权利要求所述的方法。