CN111626076A

CN111626076A - 信息处理方法、信息处理设备和扫描仪

Info

Publication number: CN111626076A
Application number: CN201910146080.4A
Authority: CN
Inventors: 王涛; 孙俊; 于小亿
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-04
Also published as: JP2020140706A

Abstract

本公开提供了信息处理方法、信息处理设备和扫描仪。信息处理设备包括处理器，该处理器被配置为：在多个扫描图像中分别识别标题文本；根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

Description

信息处理方法、信息处理设备和扫描仪

技术领域

本公开总体上涉及信息处理领域，具体而言，涉及用于处理包含文本内容的多个扫描图像的信息处理方法以及能够实现该信息处理方法的信息处理设备和扫描仪。

背景技术

银行、旅游服务中心、街道办事处、出入境大厅等组织机构通常需要每天收集来自不同客户或申请人的大量文件并进行分类。每个客户或申请人可能提供不同类型的多项文件，如身份证、银行卡、婚姻证明、户籍证明、申请表格、相关合同及其他证明文件等，并且自行扫描或由相关机构的工作人员扫描，从而保存电子版。

借助于现有的扫描仪等设备，可以自动收集所有文档图像。然而，扫描文档图像的后续分类工作仍需要手动完成。对于相关机构而言，这是一项庞大而繁重的工作，耗费了大量的人力资源。

因此，期望提供一种能对扫描文档图像(也可称为包含文本内容的扫描图像)进行自动分类的方法，以提高处理效率。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于对能够将扫描文档图像自动分类的方法的需求，本发明的目的之一是提供一种信息处理方法以及能够实现该信息处理方法的信息处理设备和扫描仪，其能够对包含文本内容的多个扫描图像进行自动分类。

根据本公开的一个方面，提供了一种信息处理方法，其包括：在多个扫描图像中分别识别标题文本；根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

根据本公开的另一方面，提供了一种信息处理设备，其包括处理器，所述处理器被配置为：在多个扫描图像中分别识别标题文本；根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

根据本公开的再一方面，提供了一种扫描仪，其包括根据本公开的上述信息处理设备。

依据本公开的其它方面，还提供了一种使得计算机实现如上所述的信息处理方法的程序。

依据本公开的又一方面，还提供了相应的存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述信息处理方法。

上述根据本公开实施例的各个方面，至少能够获得以下益处：利用本公开所提供的信息处理方法、信息处理设备、扫描仪、程序和存储介质，可以对多个包含文本内容的扫描图像进行自动分类。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。

图2是用于说明图1的信息处理方法中在识别标题文本的步骤中执行的示例处理的说明图。

图3是用于说明CTPN文本检测方法的说明图。

图4是用于说明扫描图像中的标题文本的示例的示意图。

图5是示意性地示出根据本公开实施例的信息处理方法的另一个示例流程的流程图。

图6是示意性地示出根据本公开实施例的信息处理装置的一个示例结构的示意性框图。

图7是用于说明图6的信息处理装置中的标题文本识别单元的示例结构的示意性框图。

图8是示意性地示出根据本公开实施例的信息处理装置的另一个示例结构的示意性框图。

图9是示出了可用来实现根据本公开实施例的信号处理方法、装置和设备的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

根据本公开的一个方面，提供了一种信息处理方法。图1是示意性地示出根据本公开实施例的信息处理方法100的示例流程的流程图。

如图1所示，信息处理方法100可以用于处理包含文本内容的多个扫描图像，并且可以包括：步骤S101，在多个扫描图像中分别识别标题文本；步骤S103，根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；步骤S105，利用基于卷积神经网络(CNN)的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及步骤S107，根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

作为示例，本实施例的信息处理方法所处理的扫描图像可以是银行、旅游服务中心、街道办事处、出入境大厅等组织机构从客户或申请人接收的各种文件的扫描图像。例如，扫描图像可以包括证件、登记文件、表格、合同、和/或银行卡等的扫描图像。

上述组织机构处理的扫描图像的种类和格式很多，这些扫描图像混合在一起，并且有些图像之间可能非常相似，难以通过现有的文本或图像分类的方式进行分类。

鉴于上述情况，发明人提出了本公开的信息处理方法。以下将结合银行贷款中心所处理的扫描图像作为示例，描述本实施例的信息处理方法。在本公开的基础上，本领域技术人员可以理解，本实施例的信息处理方法可以应用于需要对包含文本内容的扫描图像进行分类的任何可能场景，在此不再赘述。

在应用本实施例的信息处理方法之前，可以针对目标应用场景中要处理的扫描图像预先定义M个文本类别和N个结构类别，其中，M、N均为大于1的自然数。文本类别可以对应于没有固定格式的表格、合同等以文本内容为主的扫描图像，即非结构化扫描图像；结构类别可以对应于具有相对固定的格式或结构的扫描图像，即结构化扫描图像。在银行贷款中心的示例场景中，预定义的文本类别可以包括还贷申请表、信息变更表、申请委托书、贷款合同等，而预定义的结构类别可以包括身份证、结婚证、银行卡、房产证等。

以下将描述信息处理方法100中的各个步骤S101-S107中执行的示例处理。

在步骤S101中，首先在多个待处理的扫描图像中的每个扫描图像中识别标题文本。对于文本内容为主的非结构化扫描图像，标题文本相较于正文文本在格式和内容方面都具有更高的辨识度，是区分不同文件的重要特征。因此，在此可以仅识别标题文本，以降低处理负荷。

以下参照图2描述在步骤S101中执行的示例处理。图2是用于说明图1的信息处理方法中的步骤S101中执行的示例处理的说明图。

作为示例，如图2所示，用于识别标题文本的步骤S101可以包括：步骤S1011，在每个扫描图像中分别检测标题文本行；以及步骤S1013，在检测到的标题文本行中，利用序列文本识别方法识别标题文本。

在一个优选实施例中，在步骤S1011中，可以利用基于连接文本提议网络(CTPN)的文本行检测方法，在多个扫描图像中分别检测标题文本行。

在本公开的应用场景中，不同扫描文档的标题文本的格式(长度、宽度、位置、字体等)可能变化很大，无法对标题文本格式做出过多假设或使用简单的固定算法。因此，在步骤S1011中，可以针对每个扫描图像使用适于通用文本检测的CTPN文本行检测方法，先检测出文档中的所有文本行。

图3是用于说明CTPN文本行检测方法的说明图。如图3所示，CTPN采用小尺度检测提议的固定宽度的检测框(图中示出为多个小纵向矩形框301等)对图像中的文本进行检测，从而可以对非规定长度的文本给出更精细、更准确的检测结果。在本公开内容的基础上，本领域技术人员可以采用各种现有的基于CTPN的文本检测技术实现文本行检测，在此不进行展开描述。

当利用CTPN等文本行检测方式检测出扫描图像中的文本行之后，可以结合预设的位置规则，在检测出的所有文本行当中确定标题文本行。作为示例，可以将位于扫描图像的最上方的文本行作为标题文本行，或者将位于扫描图像的最上方且位于中间线的文本行作为标题文本行。

图4是用于说明扫描图像中的标题文本的示例的示意图。如图4所示，在示例扫描图像的以外界矩形框示出的多个文本行中，将位于图像最上方且位于中间线的文本行401检测为标题文本行。

接下来，返回参照图2。当在步骤S1011中检测出标题文本行之后，可以执行步骤S1013中的处理。例如，可以在如图4所示的检测到的标题文本行401中，利用序列文本识别方法识别标题文本“个人住房商业贷款转公积金个人住房抵押贷款申请表”。

在一个优选实施例中，可以利用基于卷积循环神经网络(CRNN)的序列文本识别方法，从所检测到的标题文本行中识别标题文本。

卷积循环神经网络(CRNN)是一种将卷积神经网络(CNN)和循环神经网络(RNN)相结合以用于序列识别的网络框架。与传统的基于字符的光学字符识别(OCR)方法相比，CRNN将文本作为连续的序列信号而非分离的字符进行处理。通过以连续序列信号的方式进行识别处理，CRNN利用了文本的上下文信息，并且在本实施例中的标题文本的字体、长度和大小等变化很大的情况下，仍可以给出准确的识别结果。在本公开内容的基础上，本领域技术人员可以采用各种现有的基于CRNN的文本识别技术实现标题文本识别的处理，在此不进行展开描述。

注意，尽管以CTPN文本行检测方法和CRNN序列文本识别方法为例描述了图2中的相应处理，但在本公开内容的基础上，本领域技术人员可以理解，可以采用其他的文本行检测方式和序列文本识别方法进行图2中的相应处理。

以上参照图2描述了步骤S101中执行的示例处理。接着，返回参照图1继续描述本实施例的信息处理方法。

当在步骤S101中例如通过参照图2描述的示例方式从每个扫描图像中识别出如图4的示例中所示的标题文本之后，图1的示例流程100可以进行到步骤S103。在步骤S103中，可以将各个扫描图像的所识别的标题文本与预定义的多个文本类别中的每个类别的标题文本进行比较，并基于比较结果对相应的扫描图像进行分类。

作为示例，可以计算步骤S101识别出的标题文本与M个文本类别中的每个文本类别的标题文本之间的编辑距离(Levenshtein Distance)。这里，M个文本类别各自的标题文本“还贷申请表”、“信息变更表”、“申请委托书”、“个人住房商业贷款转公积金个人住房抵押贷款申请表”等等例如可以预先存储在预定义的字典中，或者替选地以表格的方式进行存储，其中，每个文本类别与其标题文本相关联。

对于每个扫描图像的标题文本，在针对M个文本类别计算出M个编辑距离之后，可以将这M个编辑距离分别与预定阈值T₁进行比较。如果这M个编辑距离当中，对应于某个文本类别的编辑距离小于阈值T₁，则可以将相应的扫描图像分类为该文本类别。反之，如果每个编辑距离都大于阈值T₁，则将该扫描图像分类为未知文本类别以供进一步处理。

当对多个待处理的扫描图像均进行了步骤S101至S103的处理之后，所有扫描图像已分别分类为预定义的M个文本类别之一或者未知文本类别。接下来，将针对所有被分类为未知文本类别的扫描图像进行步骤S105至S107的处理。

在步骤S105中，首先，利用基于卷积神经网络(CNN)的特征提取器，从被分类为未知文本类别的每个扫描图像中分别提取图像特征。

在一个优选实施例中，上述基于CNN的特征提取器是通过针对预定义的多个结构类别，基于标记好的训练图像对基于CNN的分类器进行训练而获得的。

例如，如果针对目标应用场景预先定义了N个结构类别(N为大于1的自然数)，则构建针对这N个结构类别对扫描图像进行分类的CNN分类器。举例而言，可以构造包括若干个卷积层、若干个池化层、以及全连接层等的CNN分类器。向该CNN分类器输入分别属于N个结构类别的、预先标记好类别的多个训练扫描图像，并且通过训练使得CNN分类器对这些训练扫描图像的分类结果接近其预先标记好的真实类别。可以通过已知的构建基于卷积神经网络的图像分类器的方式构造此处使用的CNN分类器，并且通过已知的训练方式获得该分类器的优化参数，在此不再赘述。

当获得训练好的CNN分类器之后，可以将其用作特征提取器。更具体地，可以将待处理的扫描图像输入该CNN分类器，并将其中一个层(例如，一个卷积层，优选地，靠近全连接层的一个卷积层)的输出作为从该扫描图像提取的图像特征。

由于经过步骤S101至S103的处理之后被分类为未知文本类别的图像很可能是结构化扫描图像，例如身份证、结婚证、银行卡、房产证等的扫描图像，因此，对于这些图像，采用图像分类的方式提取图像特征并且相应地进行后续分类可以获得很好的分类效果。在步骤S105中，使用了基于CNN的特征提取器，可以利用CNN强大的图像处理能力，有助于进一步改进分类结果。

当在步骤S105中从被分类为未知文本类别的每个扫描图像中分别提取了图像特征之后，处理进行到步骤S107。在步骤S107中，可以将每个被分类为未知文本类别的扫描图像的图像特征与预定义的多个结构类别中的每个结构类别的图像特征分别进行比较，并根据比较结果将相应的扫描图像分类为上述多个结构类别之一或者未知结构类别。

注意，步骤S107中使用的预定义的多个结构类别中的每个结构类别的图像特征是利用步骤S105中所使用的基于CNN的特征提取器预先获得的。作为示例，可以利用上述基于CNN的特征提取器从每个结构类别的训练扫描图像(或样本扫描图像)中预先提取相应的图像特征，并且例如以表格的形式与结构类别相关联地存储，在此不再展开描述。

这里，当对未知文本类别的扫描图像进行关于结构类别的分类时，使用了开集分类的方法。换言之，在步骤S105中使用的基于CNN的特征提取器是针对预定义的N个结构类别、采用这N个结构类别的训练扫描图像训练基于CNN的N分类器而得到的；而当在步骤S107中对待处理扫描图像进行分类时，不仅考虑上述N个结构类别，还另外考虑了未知结构类别，即对待处理扫描图像进行了N+1分类(N个结构类别+未知结构类别)。以此方式，可以避免除了已知的N个结构类别之外的未知类型的图像或噪声图像的干扰，从而使得本实施的信息处理方法具有更好的鲁棒性。

作为示例，在步骤S107中，可以计算每个待处理的未知文本类别的扫描图像的图像特征与预定义的N个结构类别中的每个结构类别的图像特征之间的相似度，例如余弦相似度或欧式距离等。接着，可以将这N个相似度与预定阈值T₂进行比较。举例而言，如果这N个相似度当中，对应于某个结构类别的余弦相似度小于阈值T₂，则可以将相应扫描图像分类为该结构类别。反之，如果每个余弦相似度都大于阈值T₂，则将该扫描图像分类为未知结构类别。

当对所有被分类为未知文本类别的扫描图像均进行了步骤S105至步骤S107的处理之后，示例流程100结束，并且所有扫描图像可以被分类为预定义的多个文本类别之一、预定义的多个结构类别之一、或者未知结构类别。对于未知结构类别的扫描图像，可以将其视为噪声，也可以利用可选的后续处理对其分类进行优化(稍后将参照图5进行详细描述)。

以上参照图1至图4描述了根据本公开实施的信息处理方法的示例流程。如以上所描述的，本实施例的信息处理方法首先在步骤S101和步骤S103中识别标题文本，并且基于识别结果分类出已知文本类别的扫描图像和未知文本类别的扫描图像。此后，在步骤S105和步骤S107中，针对被分类为未知文本类别的扫描图像，利用基于CNN的特征提取器提取图像特征，并基于图像特征分类出已知结构类别的扫描图像和未知结构类别的扫描图像。

以此方式，本实施例的信息处理方法可以针对不同类型的扫描图像优先适用不同的分类方式，从而实现准确分类。此外，优先通过标题文本识别的方式对文本类别的扫描图像进行分类、之后再对无法分类为文本类别的扫描图像进行图像特征提取并以图像分类方式进行分类，可以降低处理负荷并提高处理精度。

接下来，考虑本公开实施例的一个应用场景，即，需要分类的多个扫描图像是通过批扫描获得的。在本公开实施例的各种可能应用场景中，批扫描是一种典型场景。诸如银行等组织机构接收的每个客户或申请人的文件的扫描图像很可能是通过批量扫描、而非每页文件单张扫描的方式获得的。鉴于此，发明人提出了在批扫描的场景下利用多个扫描图像之间的关系来优化分类结果的实施例。

以下将参照图5描述上述应用于批扫描场景的实施例的一个示例流程。图5是示意性地示出根据本公开实施例的应用于批扫描场景的信息处理方法的示例流程的流程图。

如图5所示，本实施例的信息处理方法500与图1的信息处理方法100的区别在于，除了与图1中的步骤S101至S107分别对应的步骤S501至S507之外，还另外地包括：步骤S509，在多个扫描图像中分别提取页码相关信息；以及步骤S511，针对未知结构类别的扫描图像，基于通过批扫描获得的扫描图像序列中的相关扫描图像的分类结果和页码相关信息，进行优化分类。

除了上述区别之外，本实施例的图像处理方法500中的其余步骤S501至S507与图1的信息处理方法100的相应步骤S101至S107基本相同或类似。因此，以下将在参照图1至图4描述的实施例和示例的基础上进行描述，并且主要描述本实施例的不同之处，而省略对共同之处的描述。

首先，利用图像处理方法500中的步骤S501至S507，如以上参照图1的图像处理方法100所描述的那样，可以将带有标题的非结构化扫描图像和绝大多数结构化扫描图像分类为预定义的多个文本类别之一、预定义的多个结构类别之一、或者未知结构类别。

在被分类为未知结构类别的扫描图像中，可能包括混入不属于期望图像的噪声图像，例如，申请人或客户递交给银行贷款中心等组织机构的文件中可能混有不属于预定文本类别、也不属于预定结构类别的其他图像。这些图像可以作为噪声图像被删除。

另一方面，被分类为未知结构类别的扫描图像中还可能存在其他情况。例如，非结构化扫描图像诸如较长的合同文件等可能包含多个页面，如P页(P为大于等于2的自然数)，其中只有第1页包含标题文本。这样，没有标题的第2页至第P页可能在步骤S503中被分类为未知文本类别、继而在步骤S507中被分类为未知结构类别。再例如，诸如房产证的结构化扫描图像可能具有多页，如果除了封面页、封底页以外的中间页当中存在与用于训练基于CNN的特征提取器的训练扫描图像差异较大的不规范格式，则可能会导致这些中间页的扫描图像也被分类为未知结构类别。

针对上述情况，发明人发现，当扫描图像是通过批扫描获得时，可以通过步骤S509和S511中的处理，利用通过批扫描获得的扫描图像序列中的相关扫描图像的分类结果和页码相关信息，对被分类为未知结构类别的扫描图像的分类进行优化。

实际上，当进行批扫描时，无论是申请人或客户还是诸如银行的组织机构的工作人员，一般会将相同文件的各个页面组织在一起，按顺序进行扫描。换言之，通过批扫描获得的不仅仅是每个页面的扫描图像，还获得了包含顺序信息的文档图像序列，在本实施例中，将这样的顺序信息用于对多页文档的扫描图像进行分类。

更具体地，在步骤S511中，针对被分类为未知结构类别的当前扫描图像，可以取决于当前扫描图像之前最近的被分类为已知类别(即，预定义的多个文本类别或预定义的多个结构类别之一)的扫描图像的类别、以及从该最近的被分类为已知类别的扫描图像到当前扫描图像的各个扫描图像的页码相关信息，确定是将当前扫描图像归类为该最近的被分类为已知类别的扫描图像的相同类别还是仍保持分类为未知结构类别。

例如，如果当前扫描图像之前最近的被分类为已知类别的扫描图像的类别为预期包含P个页面(P为大于2的自然数)的已知文本类别或已知结构类别(例如，预计为多页的合同等)，并且从该已知类别的扫描图像到当前扫描图像的各个扫描图像的页码相关信息表示各个页码是连续递增的并且当前扫描图像的页码小于等于P，则认为当前扫描图像是该已知类别的扫描图像的后续页面。此时，可以将当前扫描图像归类为该最近的被分类为已知类别的扫描图像的相同类别。

反之，例如，如果当前扫描图像之前最近的被分类为已知类别的扫描图像的类别为预期包含单个页面的已知文本类别或已知结构类别(例如身份证、银行卡等)，则认为当前扫描图像不是该已知类别的扫描图像的后续页面。此时，可以将当前扫描图像保持分类为未知结构类别。

另外，例如，尽管当前扫描图像之前最近的被分类为已知类别的扫描图像的类别为预期包含P个页面(P为大于2的自然数)的已知文本类别或已知结构类别，但从该已知类别的扫描图像到当前扫描图像的各个扫描图像的页码相关信息表示各个页码不是连续递增的，或者当前扫描图像的页码已大于P，则认为当前扫描图像不是该已知类别的扫描图像的后续页面，并且将当前扫描图像保持分类为未知结构类别。

以上给出了在步骤S511中利用通过批扫描获得的扫描图像序列中的相关扫描图像的分类结果和页码相关信息、对被分类为未知结构类别的扫描图像的分类进行优化的几个具体示例。在本公开内容的基础上，本领域技术人员可以针对具体应用场景，构建其他优化方式，这些优化方式应被视为落入本申请的保护范围之内。

当针对所有被分类为未知结构类别的扫描图像进行步骤S511的处理之后，示例流程500可以结束。此时，利用通过批扫描获得的扫描图像序列中的相关扫描图像的分类信息和页码相关信息，对被分类为未知结构类别的扫描图像的分类进行了优化。

可选地，尽管图中未示出的，但在步骤S511的处理之后，还可以包括删除被分类为未知结构类别的当前扫描图像的处理。具体地，如果在步骤S511中，当前扫描图像被保持分类为未知结构类别，则该扫描图像可以作为噪声图像从批扫描获得的扫描图像序列中删除。可以针对删除该噪声图像之后的扫描图像序列重复执行步骤S511的处理，直到不存在未知结构类别的图像为止。以此方式，可以从扫描图像序列中删除噪声图像。

注意，尽管在图5的示例流程500中示出了提取页码相关信息的步骤S509位于针对结构类别进行分类的步骤S507之后，但可以按照不同于该顺序的方式执行示例流程500的处理。例如，步骤S509可以处于示例流程500中的任意位置，只要该步骤在用于优化分类的步骤S511之前执行即可。

以上参照图5描述了根据本公开实施例的应用于批扫描场景的信息处理方法的一个示例流程。利用本实施例的信息处理方法，利用通过批扫描获得的扫描图像序列中的相关扫描图像的分类信息和页码相关信息，对被分类为未知结构类别的扫描图像的分类进行了优化，从而进一步改进了分类结果的准确性。

根据根本公开的另一方面，提供了一种信息处理装置。图6是示意性地示出根据本公开实施例的信息处理装置的一个示例结构的示意性框图。

如图6所示，信息处理装置600可以包括：标题文本识别单元601，用于在多个扫描图像中分别识别标题文本；文本类别分类单元602，用于根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；图像特征提取单元603，用于利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及结构类别分类单元604，用于根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

上述信息处理装置及其各个单元例如可以进行以上参照图1至图4描述的信号处理方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

作为示例，图7示出了图6的信息处理装置600中的标题文本识别单元601的一个示例结构，即，标题文本识别单元601可以包括：标题文本行检测单元6011，用于在每个扫描图像中分别检测标题文本行；以及标题文本序列识别单元6012，用于在检测到的标题文本行中，利用序列文本识别方法识别标题文本。

上述标题文本识别单元及其各个单元例如可以进行以上参照图2至图4描述的信息处理方法100的步骤S101中的操作和/或处理并实现类似的效果，在此不再进行重复说明。

如图8所示，本实施例的信息处理装置800与图6的信息处理装置600的区别在于，除了与图6中的单元601至604分别对应的单元801至804之外，还另外地包括：页码相关信息提取单元805，用于在多个扫描图像中分别提取页码相关信息；以及分类优化单元806，用于针对未知结构类别的扫描图像，基于通过批扫描获得的扫描图像序列中的相关扫描图像的分类结果和页码相关信息，进行优化分类。

与以上参照图5描述的信息处理方法类似，上述信息处理装置800适用于扫描图像是通过批扫描获得的情况，并且上述信息处理装置及其各个单元例如可以进行以上参照图5描述的信息处理方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

以上参照图5至图8描述了根据本公开的信息处理装置。

根据本公开的再一方面，提供了一种扫描仪，其可以包括根据本公开的上述信息处理装置。相应地，该扫描仪可以实现本公开的信息处理方法和装置的各种功能、处理及效果，在此不再展开描述。

根据根本公开的又一方面，提供了一种信息处理设备。该信息处理设备可以实现根据本公开实施例的信息处理方法，其可以包括处理器，该处理器被配置为：在多个扫描图像中分别识别标题文本；根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

信息处理设备的处理器例如可以被配置为进行以上参照图1至图5描述的信息处理方法及其各个步骤的操作和/或处理、以及以上参照图6至图8描述的信息处理装置及其各个单元的功能，并且可以实现类似的效果，在此不再进行重复说明。

举例而言，处理器所处理的多个扫描图像可以包括证件、登记文件、表格、合同和/或银行卡等的扫描图像。

在一个示例中，处理器可以被进一步配置为：利用基于连接文本提议网络的文本行检测方法，在多个扫描图像中分别检测标题文本行。

优选地，处理器可以被进一步配置为：利用基于卷积循环神经网络的序列文本识别方法，从所检测到的标题文本行中识别标题文本。

在一个示例中，处理器在提取图像特征时所使用的基于神经网络的特征提取器是通过针对预定义的多个结构类别、基于标记好的训练图像训练基于卷积神经网络的分类器而获得的。

在一个示例场景中，多个扫描图像是通过批扫描获得的。

此时，优选地，处理器可以被进一步配置为：在多个扫描图像中分别提取页码相关信息；以及针对被分类为未知结构类别的当前扫描图像，取决于当前扫描图像之前最近的被分类为已知类别的扫描图像的类别、以及从该最近的被分类为已知类别的扫描图像到当前扫描图像的各个扫描图像的页码相关信息，确定是将当前扫描图像归类为该最近的被分类为已知类别的扫描图像的相同类别还是仍保持分类为未知结构类别。

这里，已知类别可以包括预定义的多个文本类别之一或预定义的多个结构类别之一，即已知文本类别或已知结构类别。

根据本公开的再一方面，提供了一种扫描仪，其可以包括根据本公开的上述信息处理设备。

图9是示出了可用来实现根据本公开实施例的信息处理方法、装置、以及设备的一种可能的硬件配置900的结构简图。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中，还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件也连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序可根据需要被安装到存储部分908中。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开实施例的信息处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

即，本公开还提出了一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述根据本公开实施例的信息处理方法。所述指令代码包括指令代码部分，用于进行下述操作：在多个扫描图像中分别识别标题文本；根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给***或设备，并且该***或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该***或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作***的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，根据本公开实施例，本公开提供了如下方案，但不限于此：

方案1.一种信息处理设备，用于处理包含文本内容的多个扫描图像，所述装置包括：

处理器，被配置为

在多个扫描图像中分别识别标题文本；

根据识别的结果，将每个扫描图像分类为预定义的多个文本类别之一或者未知文本类别；

利用基于卷积神经网络的特征提取器，从被分类为未知文本类别的扫描图像中分别提取图像特征；以及

根据所提取的图像特征，将每个被分类为未知文本类别的扫描图像分类为预定义的多个结构类别之一或者未知结构类别。

方案2.如方案1所述的信息处理设备，其中，处理器被进一步配置为：

利用基于连接文本提议网络的文本行检测方法，在多个扫描图像中分别检测标题文本行。

方案3.如方案2所述的信息处理设备，其中，处理器被进一步配置为：

利用基于卷积循环神经网络的序列文本识别方法，从所检测到的标题文本行中识别标题文本。

方案4.如方案1所述的信息处理设备，其中，通过针对预定义的多个结构类别，基于标记好的训练图像对基于卷积神经网络的分类器进行训练而获得基于神经网络的特征提取器。

方案5.如方案1至4中任一项所述的信息处理设备，其中，多个扫描图像是通过批扫描获得的。

方案6.如方案5所述的信息处理设备，其中，处理器被进一步配置为：

在多个扫描图像中分别提取页码相关信息；以及

针对被分类为未知结构类别的当前扫描图像，取决于当前扫描图像之前最近的被分类为已知类别的扫描图像的类别、以及从该最近的被分类为已知类别的扫描图像到当前扫描图像的各个扫描图像的页码相关信息，确定是将当前扫描图像归类为该最近的被分类为已知类别的扫描图像的相同类别还是仍保持分类为未知结构类别。

方案7.如方案1至4中任一项所述的信息处理设备，其中，多个扫描图像包括证件、登记文件、表格或合同的扫描图像。

方案8.一种扫描仪，包括如方案1至7中任一项所述的信息处理设备。

方案9.一种信息处理方法，用于处理包含文本内容的多个扫描图像，所述方法包括：

在多个扫描图像中分别识别标题文本；

方案10.如方案9所述的信息处理方法，其中，利用基于连接文本提议网络的文本行检测方法，在多个扫描图像中分别检测标题文本行。

方案11.如方案10所述的信息处理方法，其中，利用基于卷积循环神经网络的序列文本识别方法，从所检测到的标题文本行中识别标题文本。

方案12.如方案9至11中任一项所述的信息处理方法，其中，多个扫描图像是通过批扫描获得的。

方案13.如方案12所述的信息处理方法，其中，处理器被进一步配置为：

在多个扫描图像中分别提取页码相关信息；以及

方案14.如方案9至13中任一项所述的信息处理方法，其中，多个扫描图像包括证件、登记文件、表格或合同的扫描图像。

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种信息处理设备，用于处理包含文本内容的多个扫描图像，所述装置包括：

处理器，被配置为

在多个扫描图像中分别识别标题文本；

2.如权利要求1所述的信息处理设备，其中，处理器被进一步配置为：

3.如权利要求2所述的信息处理设备，其中，处理器被进一步配置为：

4.如权利要求1所述的信息处理设备，其中，通过针对预定义的多个结构类别，基于标记好的训练图像对基于卷积神经网络的分类器进行训练而获得基于神经网络的特征提取器。

5.如权利要求1至4中任一项所述的信息处理设备，其中，多个扫描图像是通过批扫描获得的。

6.如权利要求5所述的信息处理设备，其中，处理器被进一步配置为：

在多个扫描图像中分别提取页码相关信息；以及

7.如权利要求1至4中任一项所述的信息处理设备，其中，多个扫描图像包括证件、登记文件、表格或合同的扫描图像。

8.一种扫描仪，包括如权利要求1至7中任一项所述的信息处理设备。

9.一种信息处理方法，用于处理包含文本内容的多个扫描图像，所述方法包括：

在多个扫描图像中分别识别标题文本；

10.如权利要求9所述的信息处理方法，其中，利用基于连接文本提议网络的文本行检测方法，在多个扫描图像中分别检测标题文本行。