CN111339910B

CN111339910B - 文本的处理、文本分类模型的训练方法及装置

Info

Publication number: CN111339910B
Application number: CN202010111039.6A
Authority: CN
Inventors: 李哲; 李若愚
Original assignee: Alipay Labs Singapore Pte Ltd
Current assignee: Alipay Labs Singapore Pte Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-11-28
Anticipated expiration: 2040-02-24
Also published as: CN111339910A

Abstract

本说明书实施例提供了一种文本的处理、文本分类模型的训练方法及装置，包括：获取目标证件的目标OCR文本数据；针对目标OCR文本数据中的文本行或者文本列的文本内容，使用文本分类模型识别该文本内容可能所属的数据类型；根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；其中，文本分类模型基于各个证件对应的样本OCR文本数据集合训练得到，该样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

Description

文本的处理、文本分类模型的训练方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本的处理、文本分类模型的训练方法及装置。

背景技术

随着计算机及互联网技术的快速发展，光学字符识别(Optical CharacterRecognition，OCR)技术得到了广泛的应用。如在业务办理过程中，当需要对用户进行身份验证时，大都是通过扫描用户的证件或者用户上传自己的证件照片，然后通过后台使OCR技术对证件图像进行识别，将证件图像翻译成计算机文字。最后，需要从OCR识别得到的文本中提取出当前身份验证所需要的信息，如姓名、证件号等等。

因此，亟需提出一种技术方案，以便能够可靠的从OCR文本中提取出所需要的信息。

发明内容

本说明书实施例的目的是提供一种文本的处理、文本分类模型的训练方法及装置，以便能够可靠的从OCR文本中提取所需要的信息。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供了一种文本的处理方法，包括：

获取目标证件的目标OCR文本数据；

针对所述目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别所述文本内容可能所属的数据类型；其中，所述文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且所述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

根据各个所述数据类型和类型确定模型，确定所述目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

本说明书实施例还提供了一种文本分类模型的训练方法，包括：

基于各个证件的版式排布，确定所述证件所对应的版式排布模板；

针对每种版式排布的证件，给所述证件所对应的版式排布模板配置样本OCR文本数据集合；其中，所述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

基于各个证件所对应的所述样本OCR文本数据集合，训练所述文本分类模型。

本说明书实施例还提供了一种文本的处理装置，所述装置包括：

获取模块，获取目标证件的目标OCR文本数据；

识别模块，针对所述目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别所述文本内容可能所属的数据类型；其中，所述文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且所述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

第一确定模块，根据各个所述数据类型和类型确定模型，确定所述目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

本说明书实施例还提供了一种文本分类模型的训练装置，所述装置包括：

第二确定模块，基于各个证件的版式排布，确定所述证件所对应的版式排布模板；

配置模块，针对每种版式排布的证件，给所述证件所对应的版式排布模板配置样本OCR文本数据集合；其中，所述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

训练模块，基于各个证件所对应的所述样本OCR文本数据集合，训练所述文本分类模型。

本说明书实施例还提供了一种文本的处理设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

获取目标证件的目标OCR文本数据；

本说明书实施例还提供了一种文本分类模型的训练设备，包括：

处理器；以及

本说明书实施例还提供了一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：

获取目标证件的目标OCR文本数据；

本实施例中的技术方案，基于训练的文本分类模型识别目标OCR文本数据中每个文本行或者文本列的文本内容可能所属的数据类型，然后根据各个数据类型和类型确定模型从可能所属的数据类型中确定该文本内容所属的数据类型；在本技术方案中，在训练文本分类模型时，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的文本的处理方法的方法流程图之一；

图2为本说明书实施例提供的文本的处理方法的方法流程图之二；

图3为本说明书实施例提供的文本的处理方法中，版式排布模板的示意图；

图4(a)为本说明书实施例提供的文本的处理方法中，样本OCR文本数据的示意图之一；

图4(b)为本说明书实施例提供的文本的处理方法中，样本OCR文本数据的示意图之二；

图4(c)为本说明书实施例提供的文本的处理方法中，样本OCR文本数据的示意图之三；

图5为本说明书实施例提供的文本的处理方法的方法流程图之三；

图6为本说明书实施例提供的文本分类模型的训练方法的方法流程图；

图7为本说明书实施例提供的文本的处理装置的模块组成示意图；

图8为本说明书实施例提供的文本分类模型的训练装置的模块组成示意图；

图9为本说明书实施例提供的文本的处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本说明书实施例的思想在于，采用文本分类模型识别OCR文本数据中各个文本行或者文本列的文本内容可能所属的数据类型，且该文本分类模型是基于各个版式排布的证件所对应的样本数据集合生成的，从而可以同时识别多种版式排布的证件，避免不同的版式排布所带来的影响，该样本数据集合中还包基于OCR识别过程中可能出现的错误所生成错误样本数据，从而可以提高文本分类模型的适用性。基于此，本说明书实施例提供了一种文本的处理方法、装置、设备及存储介质，用于对OCR文本数据进行处理，下述将一一详细进行论述。

在一种具体应用场景中，本说明书实施例提供的文本的处理方法可以应用于身份验证设备，即该方法的执行主体可以为一种身份验证设备，具体的，可以为安装在该身份验证设备上的文本的处理装置。其中，上述身份验证设备可以为身份验证客户端，也可以为身份验证服务器。

图1为本说明书实施例提供的文本的处理方法的方法流程图之一，图1所示的方法至少包括如下步骤：

步骤102，获取目标证件的目标OCR文本数据。

其中，上述目标证件可以为身份证、护照、驾驶证等证件。

在一种具体实施方式中，当需要对用户进行身份验证时，采集用户的目标证件的证件图像，通过OCR识别模块对证件图像进行识别，得到目标证件所对应的目标OCR文本数据。

另外，需要说明的是，在本说明书实施例中，在对目标证件进行OCR识别时，并不改变目标证件的版式排布，即所得到的目标OCR文本数据的版式排布与目标证件的版式排布保持一致。

例如，若是目标证件为按照行进行排布的，则识别得到的目标OCR文本也为按照行进行排布，并且各行排布的顺序、内容与目标证件一致，行数保持不变；若是目标证件为按照列进行排布的，则识别得到的目标OCR文本也为按照列进行排布，并且各列排布的顺序、内容与目标证件一致，列数保持不变。

步骤104，针对目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别该文本内容可能所属的数据类型；其中，该文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且该样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

其中，上述数据类型指的是“姓名”、“性别”、“证件号码”、“住址”等字段。

针对目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型进行类型识别，文本分类模型输出的结果包括各个文本内容所对应的各个可能的数据类型，以及文本内容可能属于各个数据类型的概率。在具体实施时，针对每个文本内容，可以根据概率从高到低的顺序从文本分类模型输出的多个可能所属的数据类型中截取设定数量个数据类型作为该文本内容可能所属的数据类型。

为便于理解，下述将举例进行说明。

例如，针对目标OCR文本数据中某个文本行的文本内容A，通过文本分类模型所得到的一种可能的识别结果如下所示：

文本内容A属于“姓名”的概率为96％；

文本内容A属于“性别”的概率为28％；

文本内容A属于“民族”的概率为65％；

文本内容A属于“证件号码”的概率为54％；

文本内容A属于“住址”的概率为38％。

按照概率从高到低的顺序对识别出的文本内容A所对应的各个数据类型进行排序，排序后的顺序为：姓名、民族、证件号码、住址、性别，然后从排序后的序列中截取前3个数据类型作为文本内容A可能所属的数据类型，即文本内容A可能所属的数据类型为姓名、民族和证件号码。

当然，上述举例中的数据类型、概率值以及所截取的数据类型的数量只是示例性说明，并不构成对本说明书实施例的限定。

其中，证件的版式排布则指的是证件中各个文本内容在证件上的排布。

另外，需要说明的是，在本说明书实施例中，在生成文本分类模型时，所采用的样本OCR数据为各个版式排布的证件所对应的样本OCR文本数据集合。由于同一种证件可能会存在多种版式排布，因此，针对同一个证件可能会出现多个样本OCR文本数据集合。这样，所生成的文本分类模型可以适用于多种版式排布的证件，因此，可以实现对同一种证件的多种版式排布的识别。

另外，由于在使用OCR技术进行文字识别时，经常会出现文字行漏过或者相似文字识别错误的情况。例如，在某些情况下，可能会把证件中的N识别成M，或者把证件中的S识别成5等。因此，在本说明书实施例中，可以在获取证件所对应的样本OCR文本数据集合时，可以基于OCR识别中经常会出现的错误生成一些错误样本OCR文本数据，基于正确样本OCR文本数据和错误OCR文本样本数据一起训练文本分类模型，这样所得所训练得到的文本分类模型可以更好的处理OCR文本漏检或者错检的特殊情况，提高了文本分类模型的适用性。

步骤106，根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

在本说明书实施例中，当确定出目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型之后，则根据上述各个文本内容所属的数据类型，从目标OCR文本数据中提取出指定数据类型的文本内容。

例如，在一种具体实施方式中，需要获取用户的证件号，在识别出目标证件所对应的目标OCR文本数据中各个文本内容所属的数据类型后，找到“证件号”所对应的文本行或者文本列，该文本行或者文本列所对应的文本内容则为证件号。

可选的，在上述步骤106中，可以根据每个文本内容可能所属的数据类型，和属于各个数据类型的概率，从中选择各个文本内容所对应的概率中的最大概率所对应的数据类型作为该文本内容所属的数据类型，若是存在两个文本内容的数据类型一致，则将上述两个文本内容所对应的概率中第二大概率进行比较，将较大的一个概率所对应的数据类型作为该文本内容所属的数据类型。

在一种具体实施方式中，上述步骤106中，根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型，具体包括如下过程：

将各个文本内容可能所属的数据类型进行组合，得到目标OCR文本数据所对应的多个可能的数据类型组合序列；将多个可能的数据类型组合序列输入至类型确定模型中进行处理，将类型确定模型输出的一个数据类型组合序列确定为目标OCR文本数据所对应的数据类型组合序列；根据目标OCR文本数据所对应的数据类型组合序列，确定各个文本内容所属的数据类型。

一般的，针对证件而言，证件上会包含多种数据类型的文本内容，如，就身份证而言，需要包含“姓名”、“性别”、“民族”、“地址”、“身份证号码”等等。但是，每个文本行或者文本列的文本内容所属的数据类型均不相同，在确定各个文本行或者文本列的文本内容所属的数据类型时，若是将各个文本内容分割开来，单单从各个文本内容属于各个数据类型的概率考虑，可能会出现存在两个或者多个文本都对应同一种数据类型的情况。因此，在本说明书实施例中，将目标OCR文本数据中各个文本内容可能所属的数据类型进行组合，得到目标OCR文本数据可能所属的数据类型组合序列，即以目标OCR文本数据作为整体进行数据类型的确定，这样可以避免出现存在两个或者多个文本都对应同一种数据类型的情况。

由于各个证件中的文字是按照某种规则进行排布的，例如，第一行是姓名、第二行是性别等等，而通过OCR识别后得到的OCR文本数据中各个文本内容的排布与原证件保持一致。为了便于从目标OCR文本数据所对应的数据类型组合序列中确定各个文本内容所属的数据类型，在一种具体实施方式中，可以按照各个文本内容在目标OCR文本数据中的排列顺序对数据类型组合序列中的各个数据类型进行排列。

例如，目标OCR文本数据中包括三个文本行的文本内容，分别记为文本内容1、文本内容2和文本内容3，且文本内容1排布在文本内容2的前一行，文本内容2排布在文本内容3的前一行。所以在生成数据类型组合序列时，可以按照文本内容1所属的数据类型、文本内容2所属的数据类型、文本内容3所属的数据类型的顺序生成目标OCR文本数据可能所述的多个数据类型组合序列。

为便于理解上述数据类型组合的具体过程，下述将举例进行说明。

例如，在一种具体实施方式中，目标OCR文本数据中所包含的文本内容包括文本内容A、文本内容B和文本内容C，且文本内容A排布在目标OCR文本数据中的第一行，文本内容B排布在目标OCR文本数据中的第二行，文本内容C排布在目标OCR文本数据中的第三行，通过文本分类模型对文本内容A、文本内容B和文本内容C的可能所属的数据类型如下所示：

文本内容A可能属于“姓名”、“性别”和“民族”；

文本内容B可能属于“性别”和“姓名”；

文本内容C可能属于“民族”和“性别”。

对文本内容A、文本内容B和文本内容C分别可能所属的数据类型进行组合，所得到的目标OCR文本数据所对应的可能的数据类型组合序列如下所示：

序列1：姓名、性别、民族

序列2：姓名、姓名、民族

序列3：姓名、性别、性别

序列4：姓名、姓名、性别

序列5：性别、性别、民族

序列6：性别、性别、性别

序列7：性别、姓名、民族

序列8：性别、姓名、性别

序列9：民族、性别、民族

序列10：民族、性别、性别

序列11：民族、姓名、民族

序列12：民族、姓名、性别

然后将上述得到的各个数据类型组合序列，输入至预先训练的类型确定模型中，通过该类型确定模型从上述多个数据类型组合序列中确定一种数据类型组合序列作为目标OCR文本数据所属的数据类型。

图2为本说明书实施例提供的文本的处理方法的方法流程图之二，图2所示的方法，至少包括如下步骤：

步骤202，获取目标证件的目标OCR文本数据。

步骤204，针对目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别该文本内容可能所属的数据类型。

步骤206，将各个文本内容可能所属的数据类型进行组合，得到目标OCR文本数据所对应的多个可能的数据类型组合序列。

步骤208，根据多个可能的数据类型组合序列，使用训练的类型确定模型确定目标OCR文本数据所对应的数据类型组合序列。

步骤210，根据目标OCR文本数据所对应的数据类型组合序列，确定各个文本内容所属的数据类型。

在具体实施时，在执行本说明书实施例提供的方法之前，则需要训练文本分类模型，因此，在执行步骤102，获取目标证件的目标OCR文本数据之前，本说明书实施例提供的方法还包括如下步骤：

基于各个证件的版式排布，确定该证件所对应的版式排布模板；针对每种版式排布的证件，给该证件所对应的版式排布模板配置样本OCT文本数据集合；基于各个证件所对应的样本OCR文本数据集合，训练文本分类模型；其中，上述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本样本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

其中，上述版式模板用于表征证件中各个类型的文本内容所在的文本行。上述版式模板的一种示意图如图3所示。

在具体实施时，若是某种证件存在多种版式排布，则针对该证件的每种版式排布，确定一个版式排布模板。即在本说明书实施例中，一个版式排布对应一个模板。例如，对于证件A，若是证件A存在三种版式排布，分别记为版式排布1、版式排布2和版式排布3，在配置样本OCR文本数据集合时，分别为版式排布1所对应的模板配置样本OCR文本数据集合、为版式排布2所对应的模板配置样本OCR文本数据集合、为版式排布3所对应的模板配置样本OCR文本数据集合。

在本说明书实施例中，预先建立有姓名、地址数据库，在给各个版式排布模板配置样本OCR文本数据集合时，可以从上述姓名、地址数据库中选取姓名、地址等信息进行样本OCR文本数据集合的配置。

另外，需要说明的是，在本说明书实施例中，在给版式排布模板配置样本OCR文本数据集合时，既需要给版式排布模板配置正确样本OCR文本数据，还需要基于OCR识别过程中经常会出现的错误配置错误样本OCR文本数据。

在本说明书实施例中，上述错误样本OCR文本数据包括以下样本数据中的至少一种或者多种：

删除正确样本OCR文本数据中至少一个文本行或者文本列的文本内容所得到的样本数据；

使用相似字符替换正确样本OCR文本数据中的字符所得到的样本数据。

在具体实施时，对于每个版式排布模板所对应的正确样本数据而言，可以基于OCR识别时出现漏行的概率选取设定数量个正确样本OCR文本数据生成错误样本OCR文本数据。

为便于理解，下述将举例进行说明。

例如，在一种具体实施方式中，给某版式排布模板配置的正确样本OCR文本数据的个数为1000个，假设在OCR识别过程中，出现漏行的概率为5％，则删除正确样本OCR文本数据中的50个样本数据中的任意一行或者多行文本内容；然后将其余正确样本OCR文本数据中经常出现识别错误的相似字符进行替换。例如，若是某正确样本OCR文本数据中出现了字符M，则可以将字符M替换为字符N，得到错误样本OCR文本数据；若是某正确样本OCR文本数据中个出现了字符S，则可以将字符S替换为数字5，得到错误样本OCR文本数据；若是某正确样本OCR文本数据中出现了数字8，则可以将8替换为9，得到错误样本OCR文本数据。

其中，一种正确样本OCR文本数据的示意图如图4(a)所示，漏行模拟后得到的错误样本OCR文本数据的示意图如图4(b)所示，相似字符替换(使用0替换o，使用S替换5，使用8替换9)后得到的错误样本OCR文本数据的示意图如图4(c)所示。

然后分别标记出正确样本OCR文本数据和错误样本OCR文本数据中各行文本内容所属的数据类型，得到各个版式排布模板所对应的样本OCR文本数据集合，基于各个版式排布模板所对应的样本OCR文本数据集合进行文本分类模型的训练。

需要说明的是，在本说明书实施例中，所采用的文本分类模型为双向长短时记忆循环神经网络(Bi-directional long short-term memory，BiLSTM)文本分类模型。除此之外，还可以采用目前已经存在的其他文本分类模型，只要可以实现文本分类的模型均可以应用到本说明书实施例中，本说明书实施例并不对文本分类模型的具体模型进行限定。

另外，在本说明书实施例中，上述类型确定模型为马尔科夫(Markov)概率模型。其训练过程具体如下：

在得到各个版式排布模板所对应的样本OCR文本数据集合后，然后基于样本OCR文本数据集合中的各个样本OCR文本数据(包括正确样本OCR文本数据和错误样本OCR文本数据)中每个文本行或者文本列的文本内容所属的数据类型生成该样本OCR文本数据所对应的数据类型组合序列。

例如，针对图4(a)所示的OCR文本数据，其所对应的数据类型组合序列为：姓名、证件号码、出生年月、地址、签发日期。

为便于理解本说明书实施例提提供的方法，下述将结合具体应用场景介绍本说明书实施例提供的方法。在一种具体应用场景中，在对用户A进行身份验证时需要从用户A的证件中提取用户A的证件号码。基于该应用场景，图5示出了本说明书实施例提供的文本的处理方法的方法流程图之三，图5所示的方法，至少包括如下步骤：

步骤502，采集用户A的证件图像，并对该证件图像进行OCR识别，得到用户A的证件的OCR文本数据。

步骤504，针对上述OCR文本数据中的每个文本行的文本内容，使用预先训练的BiLSTM分类模型识别该文本内容所对应的各个数据类型以及文本内容属于各个数据类型的概率。

步骤506，针对每个文本内容，按照该文本内容属于各个数据类型的概率从高到低的顺序截取设定数量个数据类型作为所述文本内容可能所属的数据类型。

步骤508，将各个文本内容可能所属的数据类型进行组合，得到用户A的OCR文本数据所对应的多个可能的数据类型组合序列。

步骤510，根据上述多个可能的数据类型组合序列，使用预先训练的Markov概率模型确定该OCR文本数据所对应的数据类型组合序列。

步骤512，根据该OCR文本数据所对应的数据类型组合序列确定各个文本行的文本内容所属的数据类型。

步骤514，基于各个文本行的文本内容所属的数据类型确定证件号码所对应的文本行，并提取该文本行的文本内容。

本说明书实施例提供的OCR文本的处理方法，基于训练的文本分类模型识别目标OCR文本数据中每个文本行或者文本列的文本内容可能所属的数据类型，然后根据各个数据类型从可能所属的数据类型中确定该文本内容所属的数据类型；在本技术方案中，在训练文本分类模型时，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

对应于本说明书实施例提供为文本的处理方法，本说明书实施例还体用了一种文本分类模型的训练方法，所训练的文本分类模型应用于图1-图5所示实施例。图6为本说明书实施例提供的文本分类模型的训练方法的方法流程图之一，图6所示的方法至少包括如下步骤：

步骤602，基于各个证件的版式排布，确定该证件所对应的版式排布模板；

步骤604，针对每种版式排布的证件，给该证件所对应的版式排布模板配置样本OCR文本数据集合；其中，该样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

步骤606，基于各个证件所对应的样本OCR文本数据集合，训练文本分类模型。

具体的，在本说明书实施例中，上述步骤604中，针对每种版式排布的证件，给该证件所对应的版式排布模板配置样本OCR文本数据集合，包括如下步骤：

根据预先建立的样本用户数据库，给每个版式排布模板配置多个样本用户数据，得到该版式排布模板所对应的多个正确样本OCR文本数据；按照设定规则对正确样本OCR文本数据进行处理，得到该版式排布模板所对应的多个错误样本OCR样本数据；将多个正确样本OCR文本数据、多个错误样本OCT文本数据、正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型组合，作为样本OCR文本数据集合。

具体的，上述按照设定规则对正确样本OCR文本数据进行处理，包括：

删除正确样本OCR文本数据中的至少一个文本行或者文本列的文本内容；

和/或，

使用相似字符替换正确样本OCR文本数据中的字符。

其中，上述按照设定规则对正确样本OCR文本数据进行处理，至少包括如下三种实施方式：

删除正确样本OCR文本数据中的至少一个文本行或者文本列的文本内容。

使用相似字符替换正确文本OCR文本数据中的字符；

删除正确样本OCR文本数据中的至少一个文本行或者文本列的文本内容，以及，使用相似字符替换正确文本OCR文本数据中的字符。

其中，本说明书实施例中各个步骤的具体实现过程可参考图1-图5所示实施例，此处不再赘述。

本说明书实施例提供的文本分类模型的训练方法，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

对应于本说明书实施例图1-图5所示实施例提供的文本的处理方法，基于相同的思路，本说明书实施例还提供了一种文本的处理装置，用于执行本说明书实施例图1-图5所示实施例提供的文本的处理装置。图7为本说明书实施例提供的文本的处理装置的模块组成示意图，图7所示的装置，至少包括如下模块：

获取模块702，用于获取目标证件的目标OCR文本数据；

识别模块704，用于针对目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别文本内容可能所属的数据类型；其中，文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

第一确定模块706，用于根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

可选的，上述第一确定模块706，包括：

组合单元，将各个文本内容可能所属的数据类型进行组合，得到目标OCR文本数据所对应的多个可能的数据类型组合序列；

第一确定单元，将多个可能的所述数据类型组合序列输入至所述类型确定模型中进行处理，将所述类型确定模型输出的一个所述数据类型组合序列确定为所述目标OCR文本数据所对应的数据类型组合序；

第二确定单元，根据目标OCR文本数据所属的数据类型组合序列，确定各个文本内容所属的数据类型。

可选的，本说明书实施例提供的装置还包括：

第三确定模块，用于基于各个证件的版式排布，确定证件所对应的版式排布模板；

配置模块，用于针对每种版式排布的证件，给证件所对应的版式排布模板配置样本OCR文本数据集合；其中，样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

训练模块，用于基于各个证件所对应的样本OCR文本数据集合，训练文本分类模型。

可选的，上述错误样本OCR文本数据包括以下样本数据中的至少一种或者多种：

可选的，本说明书实施例提供的装置，还包括：

提取模块，用于根据目标OCR文本数据中各个文本内容对应的数据类型，从目标OCR文本数据中提取指定数据类型的文本内容。

可选的，文本分类模型为双向长短时记忆循环神经网络Bi LSTM模型；

类型确定模型为马尔科夫Markov概率模型。

需要说明的是，本说明书实施例提供的文本的处理装置与本说明书实施例图1-图5所示实施例提供的文本的处理方法基于同一发明沟通，因此，该实施例的具体实施可参考前述文本的处理方法的实施，重复之处不再赘述。

本说明书实施例提供的文本的处理装置，基于训练的文本分类模型识别目标OCR文本数据中每个文本行或者文本列的文本内容可能所属的数据类型，然后根据各个数据类型从可能所属的数据类型中确定该文本内容所属的数据类型；在本技术方案中，在训练文本分类模型时，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

对应于本说明书图6所示实施例提供的方法，基于相同的思路，本说明书实施例还提供了一种文本分类模型的训练装置，用于执行本说明书图6所示实施例提供的方法，图8为本说明书实施例提供的文本分类模型的训练装置的模块组成示意图，图8所示的装置，至少包括：

第二确定模块802，用于基于各个证件的版式排布，确定证件所对应的版式排布模板；

配置模块804，用于针对每种版式排布的证件，给证件所对应的版式排布模板配置样本OCR文本数据集合；其中，样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

训练模块806，用于基于各个证件所对应的样本OCR文本数据集合，训练文本分类模型。

可选的，上述配置模块804，包括：

配置单元，用于根据预先建立的样本用户数据库，给每个版式排布模板配置多个样本用户数据，得到版式排布模板所对应的多个正确样本OCR文本数据；

处理单元，用于按照设定规则对正确样本OCR文本数据进行处理，得到版式排布模板所对应的多个错误样本OCR文本数据；

组合单元，用于将多个正确样本OCR文本数据、多个错误样本OCR文本数据、正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型组合，作为样本OCR文本数据集合。

可选的，上述处理单元，具体用于：

和/或，

使用相似字符替换正确样本OCR文本数据中的字符。

需要说明的是，本说明书实施例提供的文本分类模型的训练装置与本说明书实施例图6所示实施例提供的文本分类模型的训练方法基于同一发明沟通，因此，该实施例的具体实施可参考前述文本分类模型的训练方法的实施，重复之处不再赘述。

本说明书实施例提供的文本分类模型的训练装置，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

进一步地，基于上述图1至图5所示的方法，本说明书实施例还提供了一种文本的处理设备，如图9所示。

文本的处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器901和存储器902，存储器902中可以存储有一个或一个以上存储应用程序或数据。其中，存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对文本的处理设备中的一系列计算机可执行指令信息。更进一步地，处理器901可以设置为与存储器902通信，在文本的处理设备上执行存储器902中的一系列计算机可执行指令信息。文本的处理设备还可以包括一个或一个以上电源903，一个或一个以上有线或无线网络接口904，一个或一个以上输入输出接口905，一个或一个以上键盘906等。

在一个具体的实施例中，文本的处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对文本的处理设备中的一系列计算机可执行指令信息，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令信息：

获取目标证件的目标OCR文本数据；

针对目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别文本内容可能所属的数据类型；其中，文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型。

可选的，计算机可执行指令信息在被执行时，根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型，包括：

将各个文本内容可能所属的数据类型进行组合，得到目标OCR文本数据所对应的多个可能的数据类型组合序列；

将多个可能的数据类型组合序列输入至类型确定模型中进行处理，将类型确定模型输出的一个所述类型组合序列确定为目标OCR文本数据所属的数据类型组合序列；

根据目标OCR文本数据所属的数据类型组合序列，确定各个文本内容所属的数据类型。

可选的，计算机可执行指令信息在被执行时，获取目标证件的目标OCR文本数据之前，还可执行如下步骤：

基于各个证件的版式排布，确定证件所对应的版式排布模板；

针对每种版式排布的证件，给证件所对应的版式排布模板配置样本OCR文本数据集合；其中，样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

基于各个证件所对应的样本OCR文本数据集合，训练文本分类模型。

可选的，计算机可执行指令信息在被执行时，错误样本OCR文本数据包括以下样本数据中的至少一种或者多种：

可选的，计算机可执行指令信息在被执行时，根据各个数据类型及数据类型所对应的概率，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型之后，还可执行如下步骤：

根据目标OCR文本数据中各个文本内容对应的数据类型，从目标OCR文本数据中提取指定数据类型的文本内容。

可选的，计算机可执行指令信息在被执行时，文本分类模型为双向长短时记忆循环神经网络Bi LSTM模型；

类型确定模型为马尔科夫Markov概率模型。

本说明书实施例提供的文本的处理设备，基于训练的文本分类模型识别目标OCR文本数据中每个文本行或者文本列的文本内容可能所属的数据类型，然后根据各个数据类型从可能所属的数据类型中确定该文本内容所属的数据类型；在本技术方案中，在训练文本分类模型时，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

进一步地，基于上述图1至图5所示的方法，本说明书实施例还提供了一种文本分类模型的训练设备，其具体结构可参考图9所示的文本的处理设备。

在一个具体的实施例中，文本分类模型的训练设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对文本分类模型的训练设备中的一系列计算机可执行指令信息，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令信息：

可选的，计算机可执行指令信息在被执行时，针对每种版式排布的证件，给证件所对应的版式排布模板配置样本OCR文本数据集合，包括：

根据预先建立的样本用户数据库，给每个版式排布模板配置多个样本用户数据，得到版式排布模板所对应的多个正确样本OCR文本数据；

按照设定规则对正确样本OCR文本数据进行处理，得到版式排布模板所对应的多个错误样本OCR文本数据；

将多个正确样本OCR文本数据、多个错误样本OCR文本数据、正确样本OCR文本数据和错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型组合，作为样本OCR文本数据集合。

可选的，计算机可执行指令信息在被执行时，按照设定规则对正确样本OCR文本数据进行处理，包括：

和/或，

使用相似字符替换正确样本OCR文本数据中的字符。

本说明书实施例提供的文本分类模型的训练设备，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

进一步地，基于上述图1至图5所示的方法，本说明书实施例还提供了一种存储介质，用于存储计算机可执行指令信息，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令信息在被处理器执行时，能实现以下流程：

获取目标证件的目标OCR文本数据；

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，根据各个数据类型和类型确定模型，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型，包括：

将多个可能的所述数据类型组合序列输入至所述类型确定模型中进行处理，将所述类型确定模型输出的一个所述数据类型组合序列确定为所述目标OCR文本数据所对应的数据类型组合序列；

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，获取目标证件的目标OCR文本数据之前，还可执行如下步骤：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，错误样本OCR文本数据包括以下样本数据中的至少一种或者多种：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，根据各个数据类型及数据类型所对应的概率，确定目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型之后，还可执行如下步骤：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，文本分类模型为双向长短时记忆循环神经网络Bi LSTM模型；

类型确定模型为马尔科夫Markov概率模型。

本说明书实施例提供的存储介质存储的计算机可执行指令信息在被处理器执行时，基于训练的文本分类模型识别目标OCR文本数据中每个文本行或者文本列的文本内容可能所属的数据类型，然后根据各个数据类型从可能所属的数据类型中确定该文本内容所属的数据类型；在本技术方案中，在训练文本分类模型时，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

进一步地，基于上述图6所示的方法，本说明书实施例还提供了一种存储介质，用于存储计算机可执行指令信息，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令信息在被处理器执行时，能实现以下流程：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，针对每种版式排布的证件，给证件所对应的版式排布模板配置样本OCR文本数据集合，包括：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，按照设定规则对正确样本OCR文本数据进行处理，包括：

和/或，

使用相似字符替换正确样本OCR文本数据中的字符。

本说明书实施例提供的存储介质存储的计算机可执行指令信息在被处理器执行时，针对不同版式排布的各个证件，分别配置其对应的样本OCR文本数据集合，这样，训练出的文本分类模型可以识别多种版式排布的证件，因此，在进行文本的处理时，可以同时进行多种版式排布证件所对应的OCR文本数据的处理；并且，由于在进行模型训练时，将OCR识别过程中可能会遇到的错误作为错误样本OCR文本数据考虑在内，即使是针对OCR识别过程中得到的错误OCR文本数据也能进行处理，提高了文本分类模型的适用性，可以更好地处理各种OCR场景下的特殊问题，并且还可以提高文本类型识别的准确性，从而使得可以准确的提取所需要数据类型的文本内容。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令信息实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令信息到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令信息产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令信息也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令信息产生包括指令信息装置的制造品，该指令信息装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令信息也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令信息提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令信息、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令信息的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本的处理方法，所述方法包括：

获取目标证件的目标OCR文本数据；

针对所述目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别所述文本内容所对应的各个可能所属的数据类型；其中，所述文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且所述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

根据各个所述数据类型和类型确定模型，确定所述目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

所述根据各个所述数据类型和类型确定模型，确定所述目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型，包括：

将各个所述文本内容可能所属的所述数据类型进行组合，得到所述目标OCR文本数据所对应的多个可能的数据类型组合序列；

根据所述目标OCR文本数据所对应的数据类型组合序列，确定各个所述文本内容所属的数据类型。

2.如权利要求1所述的方法，所述获取目标证件的目标OCR文本数据之前，所述方法还包括：

3.如权利要求2所述的方法，所述错误样本OCR文本数据包括以下样本数据中的至少一种或者多种：

删除所述正确样本OCR文本数据中至少一个文本行或者文本列的文本内容所得到的样本数据；

使用相似字符替换所述正确样本OCR文本数据中的字符所得到的样本数据。

4.如权利要求1所述的方法，所述根据各个所述数据类型和类型确定模型，确定所述目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型之后，所述方法还包括：

根据所述目标OCR文本数据中各个文本内容所属的数据类型，从所述目标OCR文本数据中提取指定数据类型的文本内容。

5.如权利要求1所述的方法，所述文本分类模型为双向长短时记忆循环神经网络BiLSTM模型；

所述类型确定模型为马尔科夫Markov概率模型。

6.如权利要求2所述的方法，所述针对每种版式排布的证件，给所述证件所对应的版式排布模板配置样本OCR文本数据集合，包括：

根据预先建立的样本用户数据库，给每个版式排布模板配置多个样本用户数据，得到所述版式排布模板所对应的多个正确样本OCR文本数据；

按照设定规则对所述正确样本OCR文本数据进行处理，得到所述版式排布模板所对应的多个错误样本OCR文本数据；

将所述多个正确样本OCR文本数据、所述多个错误样本OCR文本数据、所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型组合，作为所述样本OCR文本数据集合。

7.如权利要求6所述的方法，所述按照设定规则对所述正确样本OCR文本数据进行处理，包括：

删除所述正确样本OCR文本数据中的至少一个文本行或者文本列的文本内容；

和/或，

使用相似字符替换所述正确样本OCR文本数据中的字符。

8.一种文本的处理装置，所述装置包括：

获取模块，获取目标证件的目标OCR文本数据；

识别模块，针对所述目标OCR文本数据中的每个文本行或者文本列的文本内容，使用文本分类模型识别所述文本内容所对应的各个可能所属的数据类型；其中，所述文本分类模型基于各个版式排布的证件所对应的样本OCR文本数据集合训练得到的，且所述样本OCR文本数据集合包括正确样本OCR文本数据和错误样本OCR文本数据，以及所述正确样本OCR文本数据和所述错误样本OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

第一确定模块，根据各个所述数据类型和类型确定模型，确定所述目标OCR文本数据中每个文本行或者文本列的文本内容所属的数据类型；

所述第一确定模块，包括：

组合单元，将各个所述文本内容可能所属的所述数据类型进行组合，得到所述目标OCR文本数据所对应的多个可能的数据类型组合序列；

第一确定单元，将多个可能的所述数据类型组合序列输入至所述类型确定模型中进行处理，将所述类型确定模型输出的一个所述数据类型组合序列确定为所述目标OCR文本数据所对应的数据类型组合序列；

第二确定单元，根据所述目标OCR文本数据所对应的数据类型组合序列，确定各个所述文本内容所属的数据类型。

9.如权利要求8所述的装置，所述装置还包括：

10.一种文本的处理设备，包括：

处理器；以及

获取目标证件的目标OCR文本数据；

11.如权利要求10所述的设备，还包括：

所述可执行指令在被执行时使所述处理器：

12.一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：

获取目标证件的目标OCR文本数据；

13.如权利要求12所述的存储介质，所述可执行指令在被执行时还实现以下流程：

基于各个证件所对应的所述样本OCR文本数据集合，训练文本分类模型。