WO2022001637A1

WO2022001637A1 - 文档处理方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2022001637A1
Application number: PCT/CN2021/099799
Authority: WO
Inventors: 詹明捷; 许严; 梁鼎; 刘学博
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-06-29
Filing date: 2021-06-11
Publication date: 2022-01-06
Also published as: JP2022543052A; CN111782808A; KR20220031097A

Abstract

一种文档处理方法、装置、设备及计算机可读存储介质。所述方法包括：获取待处理文档的语义特征以及视觉特征（101）；根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征（102）；根据所述待处理文档的通用特征确定所述待处理文档的类别（103）。

Description

文档处理方法、装置、设备及计算机可读存储介质

相关申请的交叉引用

本专利申请要求于2020年6月29日提交的、申请号为202010610080.8、发明名称为“文档处理方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术，尤其涉及一种文档处理方法、装置、设备及计算机可读存储介质。

背景技术

目前通常应用OCR(Optical Character Recognition，光学字符识别)技术对文档进行识别。利用该技术识别时，需要准确获取文档的类别，并使用相应的模板，但是相关技术中文档的分类结果并不准确。

因此，如何对文档进行准确分类，已成为一个亟待解决的问题。

发明内容

本公开实施例提供了一种文档分类方案。

根据本公开的一方面，提供一种文档处理方法，所述方法包括：获取待处理文档的语义特征以及视觉特征；根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征；根据所述待处理文档的通用特征确定所述待处理文档的类别。

结合本公开提供的任一实施方式，所述获取待处理文档的语义特征，包括：获取所述待处理文档的文本识别结果；基于所述文本识别结果，获得所述待处理文档的语义特征。

结合本公开提供的任一实施方式，所述获取所述待处理文档的文本识别结果，包括：确定所述待处理文档中的目标文本框以及所述目标文本框所包含的文本内容；获得各个所述目标文本框中的文本内容的分词处理结果；获得所述分词处理结果对应的特征向量。

结合本公开提供的任一实施方式，所述根据所述视觉特征和所述语义特征确定所述待处理文档的通用特征，包括：分别对所述视觉特征和所述语义特征进行正则化处理；对正则化处理后的所述视觉特征和正则化处理后的所述语义特征进行加权求和，得到所述待处理文档的通用特征。

结合本公开提供的任一实施方式，所述文档处理方法利用神经网络执行，所述神经网络包括用于提取所述待处理文档的通用特征的特征提取子网络和用于根据所述通用特征确定所述待处理文档的类别的第一分类子网络，其中，所述第一分类子网络具体用于：比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度；根据所获得的至少一个相似度确定所述待处理文档的类别。

结合本公开提供的任一实施方式，所述根据所获得的至少一个相似度确定所述待处理文档的类别，包括：获得所述至少一个相似度中最高的相似度；应于所述最高的相似度大于或等于预设的相似度阈值，确定所述最高的相似度对应的标准特征所属文档的类别为所述待处理文档的类别。

结合本公开提供的任一实施方式，所述方法还包括对所述神经网络中的特征提取子网络进行训练，具体包括：将样本文档输入至所述特征提取子网络，获得所述样本文档的通用特征，其中，所述样本文档标注有类别；将所述通用特征输入至第二分类子网络，获得所述样本文档的预测类别；根据所述样本文档的预测类别和所述样本文档的标注类别之间的差异，对所述特征提取子网络的网络参数进行调整。

结合本公开提供的任一实施方式，所述至少一类文档的标准特征是利用训练完成的特征提取子网络，对所述至少一类文档进行特征提取而获得的。

结合本公开提供的任一实施方式，所述方法还包括：响应于所述最高的相似度小于所述预设的相似度阈值，增加所述待处理文档为标准模板，并确定所述待处理文档的通用特征为新增标准模板对应类别的标准特征。

结合本公开提供的任一实施方式，所述方法还包括：响应于选择指令，从预设的文档类别中选择至少一个类别作为目标类别；所述比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度，包括：比较所述待处理文档的通用特征与预设的至少一个目标类别的文档的标准特征，确定所述待处理文档的通用特征与所述至少一个目标类别的文档的标准特征的相似度。

结合本公开提供的任一实施方式，所述方法还包括：根据所述待处理文档的类别获取对应的预设的标准模板；基于所述标准模板，对所述待处理文档进行版式识别处理，得到文档的版式识别结果。

根据本公开的一方面，提供一种文档处理装置，所述装置包括：获取模块，用于获取待处理文档的语义特征以及视觉特征；通用模块，用于根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征；分类模块，用于根据所述待处理文档的通用特征确定所述待处理文档的类别。

根据本公开的一方面，提供一种文档处理设备，所述设备包括非易失性存储介质、处理器，所述存储介质用于存储可在处理器上运行的计算机指令，所述处理器用于在执行本公开任一实施方式所述的方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的方法。

根据本公开的一方面，提供一种计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的方法。

本公开一个或多个实施例的文档处理方法、装置、设备、计算机可读介质及计算机程序，根据获得的文档的视觉特征和语义特征确定文档的通用特征，并根据通用特征确定文档的类别。本公开的文档处理方法，能够实现对任意文档的准确分类；通过结合语义特征和视觉特征得到文档的通用特征，提高了视觉特征相似的不同类别文档的分类结果准确性，也提高了文档分类的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开实施例示出的一种文档处理方法的流程图；

图2示意性示出了根据本公开实施例的用于提取视觉特征的神经网络的部分网络结构；

图3示意性示出了根据本公开实施例的用于提取语义特征的神经网络的部分网络结构；

图4是本公开实施例示出的表单的文本识别过程的示意图；

图5是本公开实施例示出的用户选择界面示意图；

图6是本公开实施示出的一种文档处理装置的示意图；

图7是本公开实施例示出的一种文档处理设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

基于此，本公开至少一个实施例提供了一种文档处理方法，请参照图1，其示出了该文档处理方法的流程，包括步骤S101至步骤S103。

其中，所述文档可以包括书籍、文件、表单、票据、证件和射频卡等中的一项或是多项，具体的，例如通用文字、身份证、银行卡、行驶证、驾驶证、护照、表单、***、营业执照和手写文件等。该文档处理方法可以自动识别上述文档的类别，例如能够自动将一张银行卡识别为银行卡类别，或自动将一张身份证识别为身份证类别，或自动将一张***识别为***类别。需要说明的是，在实现过程中，待处理文档可以为一个或是多个。也就意味着，用户可以基于自身需求，选择待处理文档的批量处理或是单件处理。在实现过程中，批量处理中每件待处理文档的处理过程，与单件待处理文档的处理过程类似，可以参考单件待处理文档的处理过程。在本申请中，为了方便表述，以待处理文档是单件为例，进行说明，但并不作为对本申请技术方案的限定。

在步骤S101中，获取待处理文档的语义特征以及视觉特征。

本步骤无意对获取语义特征和获取视觉特征的先后顺序进行具体限制，也就是说，可以先获取语义特征，再获取视觉特征，或先获取视觉特征，再获取语义特征，或同时获取语义特征和视觉特征。

本步骤中，可以采用神经网络提取待处理文档的视觉特征。具体的，可以先采用卷积核(例如3*3的卷积核)提取待处理文档的初始特征，然后初始特征经过多个(例如7个)逆向残差块依次提取中间特征，最后一个逆向残差块输出的中间特征再经过一个卷积核(例如1*1的卷积核)进行卷积，从而输出指定维度的特征，作为待处理文档的视觉特征。每一个逆向残差块都包括一个1*1的卷积核和激活函数(例如Relu6)组成的升通道模块(用于扩展输入的特征的通道数)、一个深度可分的卷积层和激活函数组成的提取模块(用于提取每个通道的特征和将各个通道的特征进行连接)，以及一个1*1的卷积核构成的降通道模块(用于还原输入的特征的通道数)。每个逆向残差块均将其输入和降通道模块的输出相加作为逆向残差块的输出。除最后一个逆向残差块之外的每个逆向残差块的输出均作为下一个逆向残差块的输入。

在一个示例中，图2示意性示出了用于提取待处理文档的视觉特征的网络结构的一部分。图2所示的部分网络结构包含两个逆向残差块，即第一逆向残差块201和第二逆向残差块202。第一逆向残差块201包括依次连接的第一升通道模块2011、第一提取模块2012、第一降通道模块2013。其中，第一升通道模块2011例如可以由一个1*1的卷积核(Conv1*1)和激活函数(例如Relu6)组成，第一提取模块2012例如可以由深度可分的3*3卷积层(Dwise3*3)和激活函数(例如Relu6)组成，第一降通道模块2013例如可以由一个1*1的卷积核(Conv1*1)组成。第一逆向残差块201的第一输入为待处理文档的初始特征，其例如可以采用3*3的卷积核提取得到。第一逆向残差块201的第一输出为第一输入和第一降通道模块的输出的和，且第一输出即为第二逆向残差块 202的第二输入。第二逆向残差块202包括依次连接的第二升通道模块2021、第二提取模块2022、第二降通道模块2023。其中，第二升通道模块2021例如可以由一个1*1的卷积核(Conv1*1)和激活函数(例如Relu6)组成，第二提取模块2022例如可以由深度可分的卷积层(Dwise3*3)和激活函数(例如Relu6)组成，第二降通道模块例如可以由一个1*1的卷积核(Conv1*1)组成。第二逆向残差块202的第二输出为第二输入和第二降通道模块的输出的和。

本步骤中，可以采用下述方式获取待处理文档的语义特征：首先，获取所述待处理文档的文本识别结果；接下来，基于所述文本识别结果，获得所述待处理文档的语义特征。

其中，文本识别结果可以是将待处理文档中的文本内容进行提取并采用特定方式进行表示的结果。在一个示例中，可以采用OCR技术获取待处理文档的文本识别结果。

其中，可以采用神经网络提取文本识别结果的语义特征。具体的，可以先提取文本识别结果的不同层次的特征，再对上述不同层次的特征进行连接以及提取，最后得到文本识别结果的语义特征。

请参照附图3，在一个示例中，首先利用至少一个第三提取模块301获取文本识别结果的中间特征，其中，各个第三提取模块301可以是感受野不同的卷积核。例如，可以采用感受野为1的卷积核、感受野为3的卷积核和感受野为5的卷积核提取文本识别结果的三个不同层次的特征(例如通过卷积和/或池化等操作)，然后将三个不同层次的特征进行连接，以得到中间特征。再利用第四提取模块302(例如1*1的卷积核)对中间特征进行进一步的特征提取(例如通过卷积和/或池化等操作)，以得到文本识别结果的语义特征。

上述附图3对应的特征提取过程，只是提取语义特征的一个示例，并非对提取文本识别结果的语义特征的方式的具体限定，可以采用更多数量或更少数量的卷积核以及其他的感受野组合提取不同层次的特征。

其中，待处理文档的语义特征能够用于区分视觉特征相似但文本内容不同的多种文档。而上述的多种文档恰恰是相关技术中无法准确分类的情况之一，本实施例通过加入语义特征解决了相关技术中的这一问题。

在步骤S102中，根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征。

其中，步骤S101在提取视觉特征和提取语义特征时，可以输出维度相同的视觉特征和语义特征，从而方便两种特征的融合。当然，本实施例无意对步骤S101中提取到的视觉特征和语义特征的维度关系进行限定。

其中，步骤S101在提取视觉特征和提取语义特征时，还可以输出不同维度的视觉特征和语义特征。这种情况下，可以比较两种特征的维度，然后对两种特征中维度较高的特征进行降维以使两种特征的维度相同，再进行两种特征的融合。降维方式例如可以采用线性降维和非线性降维。

在一个示例中，首先，分别对所述视觉特征和所述语义特征进行正则化处理；接下来，对正则化处理后的所述视觉特征和正则化处理后的所述语义特征进行加权求和，得到所述待处理文档的通用特征。

还可以采用其他方式获得待处理文档的通用特征，例如对视觉特征和语义特征进行归一化或标准化后，进行加权求和，或者采用按点逐位相加或向量拼接的方式对语义特征和视觉特征进行融合，以得到待处理文档的通用特征，等等。

在本公开的实施例中，通过融合待处理文档的语义特征和视觉特征，能够获得待处理文档的通用特征。其中，待处理文档的通用特征可以用于步骤S103中的文档分类，还可以用于文档比对以匹配文档图片。

在步骤S103中，根据所述待处理文档的通用特征确定所述待处理文档的类别。

在本公开实施例中，根据获得的文档的视觉特征和语义特征确定文档的通用特征，并根据通用特征确定文档的类别。本公开的文档处理方法，能够实现对任意文档的准确分类；通过结合语义特征和视觉特征得到文档的通用特征，提高了视觉特征相似的不同类别文档的分类结果准确性，也提高了文档分类的鲁棒性。

在一些实施例中，可以通过以下方式获取所述待处理文档的文本识别结果：

首先，确定所述待处理文档中的目标文本框以及所述目标文本框所包含的文本内容。

接下来，获得各个所述目标文本框中的文本内容的分词处理结果。

最后，获得所述分词处理结果对应的特征向量。

请参照附图4，其示出了一个待处理文档(即，表单)的文本识别过程。通过文本识别，确定待处理文档中的目标文本框，即401至415这15个文本框，以及每个目标文本框中包含的文本内容。例如，文本框401中包含办公用品请购表，文本框402中包含填表时间年月日，文本框415中包含总经理意见。通过对各个文本框中的文本内容进行分词处理，得到多个分词处理结果，例如，416至426这11个分词处理结果，也就是对上述15个文本框中的文本内容进行分词处理后得到的部分分词处理结果。分词处理结果可以包括字或词，例如，分词处理结果416(办公)、417(用品)、418(请购)和419(表)就是文本框401中的文本内容经过分词处理后得到的4个分词处理结果；分词处理结果420(填表)、421(时间)、422(年)、423(月)和424(日)为文本框402中的文本内容经过分词处理后得到的5个分词处理结果；分词处理结果425(总经理)和426(意见)是文本框415中的文本内容经过分词处理后得到的2个分词处理结果。427至438为12个特征向量，每个特征向量都是一个分词处理结果经过特征向量表示后得到的结果。

在本公开实施例中，通过确定文档中的目标文本框以及目标文本框内的文本内容，并对文本内容经过分词处理和特征向量表示后得到文本识别结果。不仅提取了文档中的文本内容(比如，文档中的部分或是全部文本内容)，而且经过文本框的划分以及分词处理，能够得到文本中的最小字/词单位，因此确定语义特征非常准确，进一步提高了文档分类的准确性；而且文本识别结果为特征向量表示，便于进行语义特征的提取，进一步提高了文档分类的效率。

在一些实施例中，所述文档处理方法可以利用神经网络执行，所述神经网络可以包括用于提取所述待处理文档的通用特征的特征提取子网络和用于根据所述通用特征确定所述待处理文档的类别的第一分类子网络。其中，所述第一分类子网络可以具体用于：比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的至少一个相似度；根据至少一个相似度确定所述待处理文档的类别。

其中，待处理文档的通用特征和标准特征的维度可以相同，从而便于通用特征和标准特征的比较。通用特征和标准特征的相似度可以通过计算二者的欧氏距离获得，或通过一个能够输出二者的相似度的神经网络获得，该神经网络通过训练得到。

在本公开实施例中，神经网络内预设了各类文档的标准特征。利用待处理文档的通用特征和不同标准特征的相似度确定待处理文档的类别。通过相似度表征了待处理文档与各类标准文档的关系，即是否相似以及相似的程度，提高了分类结果的准确性，而且运算简单，分类效率得到进一步提高。

在一些实施例中，根据至少一个相似度确定所述待处理文档的类别具体采用下述方式：

首先，获得所述至少一个相似度中最高的相似度。

接下来，响应于所述最高的相似度大于或等于预设的相似度阈值，则确定所述最高的相似度对应的所述标准特征所属文档的类别为所述待处理文档的类别。

其中，通过比较各个相似度确定最高的相似度。当出现至少两个相同的最高的相似度时，可以返回计算相似度的步骤，将以更高的精度重新计算相似度，然后再次将计算结果进行比较，从而得到一个最高的相似度。如果重复计算一次或多次，依然包括至少两个相同的最高的相似度，则继续重复计算，直至仅剩一个最高相似度为止。

需要说明的是，在实现过程中，还可以先将相似度与预设的相似度阈值进行比较，以筛选出取值大于或等于相似度阈值的一个或是多个相似度，而后从筛选出的相似度中得到最高的相似度。由此可见，确定唯一最高相似度的实现方式，可以包括但不限于上述例举的两种情况，在实现过程中，还可以采用其他可以达到相同或是相似效果的实现方式，在此不一一例举。

本实施例中，只有高于相似度阈值的相似度才被认为是有效的相似度，也就是说，待处理文档的通用特征与标准特征的相似度高于或等于相似度阈值，才被认为待处理文档与标准文档间相似，进而相似度高于相似度阈值越多，则被认为待处理文档与标准文档间的相似程度越高；待处理文档的通用特征与标准特征的相似度低于相似度阈值，则被认为待处理文档与标准文档间不相似。

在本公开实施例中，神经网络内预设了相似度阈值。通过比较最高相似度与相似度阈值，并在最高相似度大于相似度阈值时才将待处理文档分类至标准文档对应的类别。避免了待处理文档的通用特征与全部标准特征的相似度都较低时，也就是待处理文档不属于任何一个标准文档对应的类别时发生分类错误。进一步提高了分类的准确性，避免了预设类别之外的文档被误分类的问题。

在一些实施例中，采用下述方式对对所述神经网络中的特征提取子网络进行训练：

首先，将样本文档输入至所述特征提取子网络，获得所述样本文档的通用特征，其中，所述样本文档标注有类别；

接下来，将所述通用特征输入至第二分类子网络，获得所述样本文档的预测类别；

最后，根据所述样本文档的预测类别和所述样本文档的标注类别间的差异，对所述特征提取子网络的网络参数进行调整。

其中，所述特征提取子网络的网络结构使其能够提取输入至其内的文档的通用特征，训练特征提取子网络就是希望提高其提取特征的准确性。

其中，第二分类子网络为一个分类器，例如其可以由至少一个全连接层和归一化层构成；第二分类子网络分类的类别数量固定，对应于样本文档的类别数量，例如5个、8个或10个等，也就是说，第二分类子网络的输出为各个预设类别的概率，概率最高的一个类别即为分类结果。例如，共有10类样本文档，分别为A、B、C、D、E、F、G、H、I、J，第二分类子网络的输出维度为10，分别对应上述10个类别。当特征提取子网络所提取到的一个样本文档的通用特征输入至第二分类子网络后，第二分类子网络输出了10个概率，分别为83％、2％、1％、3％、0.5％、0.2％、0.3％、5％、4％、1％，上述10个概率为该样本文档分别为A、B、C、D、E、F、G、H、I、J类的概率，因此第二分类子网络输出样本概率的预测类别为A。

其中，可以当网络损失值小于预设损失值阈值时，停止对所述特征提取子网络的网络参数的调整，和/或当调整次数超过预设次数阈值时，停止对所述特征提取子网络的网络参数的调整。

其中，可以预先准备样本文档集。首先，获取多个样本文档；接下来，分别标记每个所述样本文档的类别；最后，根据多个标记类别后的样本文档确定样本文档集。另外，还可以从每种样本文档中选择一个作为该类文档的标准模板，以备后续存储标准特征使用。

本公开的实施例中，特征提取子网络的提取能力决定了提取的通用特征的准确性，而通用特征的准确性又决定了分类结果的准确性，因此第二分类子网络输出的预测类别的准确性可以表征特征提取子网络提取能力的强弱。借助第二分类子网络实现特征提取子网络的提取能力的表征，进而反馈调节特征提取子网络的网络参数，不断优化网络参数以提高了特征提取子网络的提取能力，进而提高了提取的通用特征的准确性，以及提高了文档分类的准确性。

在一些实施例中，所述至少一类文档的标准特征是利用训练完成的特征提取子网络，对所述至少一类文档的标准模板进行处理获得。

其中，特征提取子网络训练完成后，具备准确提取输入至其内的文档的通用特征的能力。可以先确定每类文档的标准模板，标准模板的版式清晰，文本框和/或文本块的界限清晰，文本内容完整，提取每类文档的标准模板的通用特征后，存储为该类文档的标准特征。还可以对标准模板进行标注，也就是对标准模板的每个位置、文本框和/或文本块等的属性进行标注，从而该标准模板能够用于进行文档的版式识别(document recognition)。

本公开实施例中，标准模板和待处理文档的通用文档均采用特征提取子网络进行提取，因此通用特征和标准特征同源，规则标准一致，因此通过二者确定的相似度准确性较高，进一步提高了文档分类的准确性。

通过上述方式存储的标准特征是有限的，不能涵盖所有文档的类别。而且根据前述一些实施例的介绍，只有当最高相似度阈值大于或等于相似度阈值时，才能将待处理文档分类至最高相似度对应的文档类别中。基于上述两方面的原因，当一个文档的类别未被预设的标准模板涵盖时，便无法完成分类。

因此，在一些实施例中，采用下述方式增加标准特征：

响应于所述最高的相似度小于预设的相似度阈值，则增加所述待处理文档为标准模板，并确定所述待处理文档的通用特征为新增标准模板对应类别的标准特征。

其中，最高相似度小于相似度阈值，说明待处理文档不属于任何一个预设的文档类别，也就是该待处理文档为一个新的文档类别。分类失败时，将未能完成分类的待处理文档作为一个新的类别存储至神经网络，即存储待处理文档为标准模板，存储提取的通用特征为该新类别文档的标准特征。还可以在存储该类别后，生成提醒信息，以提醒用户对该类别的标准模板进行标注，以使其能够用于版式识别。

本公开实施例中，由于特征提取子网络能够准确的提取待处理文档的通用特征，因此第一分类子网络能够自动扩展分类维度或数量。

本公开的实施例中，通过将分类失败的待处理文档存储并设置为一个新的类别，能够自动扩展预设文档类别的数量，不断提高分类能力。

在一些实施例中，还包括：响应于选择指令，从预设的文档类别中选择至少一个类别作为目标类别；其中，所述选择指令可以是用户通过选择操作触发的，也可以预设触发条件，当满足触发条件时自动触发。

采用下述方式确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度：比较所述待处理文档的通用特征与预设的至少一个目标类别的文档的标准特征，确定所述待处理文档的通用特征与所述至少一个目标类别的文档的标准特征的相似度。

在一个示例中，请参照附图5，其示出了一个用户选择界面中的部分内容，从图中可以看出，预设的文档类别包括通用文字、身份证、银行卡、行驶证驾驶证、护照、通用表单、增值税***、营业执照和手写文字；用户通过操作选择了身份证、银行卡、通用表单、增值税***和手写文字作为目标类别。那么在后续基于待识别文档进行处理过程中，会将用户选定的多个类别作为参考。

需要说明的是，图5所示内容仅为一种可能的实现方式，在实际应用过程中，用户还可以自主创建模板，以建立新的目标类别，并将新的目标类别作为待识别文档处理过程中的参考。此外，目标类别可以包括图5所示的多种类别中的至少部分，即可以是多于或是少于图5中所示的情况，在此不予限定。

本公开还提供了一种文档处理装置，请参照附图6，其示出了该装置的结构，所述装置包括：获取模块601，用于获取待处理文档的语义特征以及视觉特征；通用模块602，用于根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征；分类模块603，用于根据所述待处理文档的通用特征确定所述待处理文档的类别。

在一些实施例中，所述获取模块具体用于：获取所述待处理文档的文本识别结果；基于所述文本识别结果，获得所述待处理文档的语义特征。

在一些实施例中，所述获取所述待处理文档的文本识别结果，包括：确定所述待处理文档中的目标文本框以及所述目标文本框所包含的文本内容；获得各个所述目标文本框中的文本内容的分词处理结果；获得所述分词处理结果对应的特征向量。

在一些实施例中，所述通用模块具体用于：分别对所述视觉特征和所述语义特征进行正则化处理；对正则化处理后的所述视觉特征和正则化处理后的所述语义特征进行加权求和，得到所述待处理文档的通用特征。

在一些实施例中，所述文档处理装置包括神经网络，所述神经网络包括用于提取所述待处理文档的通用特征的特征提取子网络和用于根据所述通用特征确定所述待处理文档的类别的第一分类子网络，其中，所述第一分类子网络具体用于：比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度；根据所获得的至少一个相似度确定所述待处理文档的类别。

在一些实施例中，所述第一分类子网络在用于根据所获得的至少一个相似度确定所述待处理文档的类别时，具体用于：获得所述至少一个相似度中最高的相似度；响应于所述最高的相似度大于或等于预设的相似度阈值，确定所述最高的相似度对应的标准特征所属文档的类别为所述待处理文档的类别。

在一些实施例中，所述装置还包括用于对所述神经网络中的特征提取子网络进行训练的训练模块，用于：将样本文档输入至所述特征提取子网络，获得所述样本文档的通用特征，其中，所述样本文档标注有类别；将所述通用特征输入至第二分类子网络，获得所述样本文档的预测类别；根据所述样本文档的预测类别和所述样本文档的标注类别之间的差异，对所述特征提取子网络的网络参数进行调整。

在一些实施例中，所述至少一类文档的标准特征是利用训练完成的特征提取子网络，对所述至少一类文档进行特征提取而获得的。

在一些实施例中，所述装置还包括扩展模块，用于：响应于所述最高的相似度小于所述预设的相似度阈值，增加所述待处理文档为标准模板，并确定所述待处理文档的通用特征为新增标准模板对应类别的标准特征。

在一些实施例中，所述装置还包括目标模块，用于：响应于选择指令，从预设的文档类别中选择至少一个类别作为目标类别；所述第一分类子网络在用于比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度时，具体用于：比较所述待处理文档的通用特征与预设的至少一个目标类别的文档的标准特征，确定所述待处理文档的通用特征与所述至少一个目标类别的文档的标准特征的相似度。

在一些实施例中，所述装置还包括识别模块，用于：根据所述待处理文档的类别获取对应的预设的标准模板；基于所述标准模板，对所述待处理文档进行版式识别处理，得到文档的版式识别结果。

本公开还提供了一种文档处理设备，请参照附图7，其示出了该设备的结构，所述设备包括非易失性存储介质701、处理器702，所述存储介质701用于存储可在处理器702上运行的计算机指令，所述处理器702用于在执行所述计算机指令时实现本公开任一实施例所述的方法。

本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的方法。

在本公开的实施例中，根据已知的多种类别的文档利用本实施例的分类方法对待处理文档进行分类时，可以选定这多种类别中的至少一个目标类别作为参考，从而降低确定相似度的步骤的运算负荷以及比较相似度的步骤的运算负荷，提高了分类的效率。

在一些实施例中，还包括：根据所述待处理文档的类别获取对应的预设的标准模板；基于所述标准模板，对所述待处理文档进行版式识别处理，得到文档的版式识别结果。

其中，通过分类结果自动准确调取对应的标准模板进行版式识别，不仅提高了版式识别的准确性，而且提高了版式识别的效率。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

Claims

一种文档处理方法，其特征在于，所述方法包括：

获取待处理文档的语义特征以及视觉特征；

根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征；

根据所述待处理文档的通用特征确定所述待处理文档的类别。
根据权利要求1所述的文档处理方法，其特征在于，所述获取待处理文档的语义特征，包括：

获取所述待处理文档的文本识别结果；

基于所述文本识别结果，获得所述待处理文档的语义特征。
根据权利要求2所述的文档处理方法，其特征在于，所述获取所述待处理文档的文本识别结果，包括：

确定所述待处理文档中的目标文本框以及所述目标文本框所包含的文本内容；

获得各个所述目标文本框中的文本内容的分词处理结果；

获得所述分词处理结果对应的特征向量。
根据权利要求1所述的文档处理方法，其特征在于，所述根据所述视觉特征和所述语义特征确定所述待处理文档的通用特征，包括：

分别对所述视觉特征和所述语义特征进行正则化处理；

对正则化处理后的所述视觉特征和正则化处理后的所述语义特征进行加权求和，得到所述待处理文档的通用特征。
根据权利要求1至4任一项所述的文档处理方法，其特征在于，所述文档处理方法利用神经网络执行，所述神经网络包括用于提取所述待处理文档的通用特征的特征提取子网络和用于根据所述通用特征确定所述待处理文档的类别的第一分类子网络，其中，所述第一分类子网络具体用于：

比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度；

根据所获得的至少一个相似度确定所述待处理文档的类别。
根据权利要求5所述的文档处理方法，其特征在于，所述根据所获得的至少一个相似度确定所述待处理文档的类别，包括：

获得所述至少一个相似度中最高的相似度；

响应于所述最高的相似度大于或等于预设的相似度阈值，确定所述最高的相似度对应的标准特征所属文档的类别为所述待处理文档的类别。
根据权利要求5或6所述的文档处理方法，其特征在于，所述方法还包括对所述神经网络中的特征提取子网络进行训练，具体包括：

将样本文档输入至所述特征提取子网络，获得所述样本文档的通用特征，其中，所述样本文档标注有类别；

将所述通用特征输入至第二分类子网络，获得所述样本文档的预测类别；

根据所述样本文档的预测类别和所述样本文档的标注类别之间的差异，对所述特征提取子网络的网络参数进行调整。
根据权利要求7所述的文档处理方法，其特征在于，所述至少一类文档的标准特征是利用训练完成的特征提取子网络，对所述至少一类文档进行特征提取而获得的。
根据权利要求6至8任一项所述的文档处理方法，其特征在于，所述方法还包括：

响应于所述最高的相似度小于所述预设的相似度阈值，增加所述待处理文档为标准模板，并确定所述待处理文档的通用特征为新增标准模板对应类别的标准特征。
根据权利要求5至9任一项所述的文档处理方法，其特征在于，所述方法还包括：

响应于选择指令，从预设的文档类别中选择至少一个类别作为目标类别；

所述比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度，包括：

比较所述待处理文档的通用特征与预设的至少一个目标类别的文档的标准特征，确定所述待处理文档的通用特征与所述至少一个目标类别的文档的标准特征的相似度。
根据权利要求1至10任一项所述的文档处理方法，其特征在于，所述方法还包括：

根据所述待处理文档的类别获取对应的预设的标准模板；

基于所述标准模板，对所述待处理文档进行版式识别处理，得到文档的版式识别结果。
一种文档处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理文档的语义特征以及视觉特征；

通用模块，用于根据所述语义特征和所述视觉特征确定所述待处理文档的通用特征；

分类模块，用于根据所述待处理文档的通用特征确定所述待处理文档的类别。
根据权利要求12所述的文档处理装置，其特征在于，所述获取模块具体用于：

获取所述待处理文档的文本识别结果；

基于所述文本识别结果，获得所述待处理文档的语义特征。
根据权利要求13所述的文档处理装置，其特征在于，所述获取所述待处理文档的文本识别结果，包括：

确定所述待处理文档中的目标文本框以及所述目标文本框所包含的文本内容；

获得各个所述目标文本框中的文本内容的分词处理结果；

获得所述分词处理结果对应的特征向量。
根据权利要求12所述的文档处理装置，其特征在于，所述通用模块具体用于：

分别对所述视觉特征和所述语义特征进行正则化处理；

对正则化处理后的所述视觉特征和正则化处理后的所述语义特征进行加权求和，得到所述待处理文档的通用特征。
根据权利要求12至15任一项所述的文档处理装置，其特征在于，所述文档处理装置包括神经网络，所述神经网络包括用于提取所述待处理文档的通用特征的特征提取子网络和用于根据所述通用特征确定所述待处理文档的类别的第一分类子网络，其中，所述第一分类子网络具体用于：

比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度；

根据所获得的至少一个相似度确定所述待处理文档的类别。
根据权利要求16所述的文档处理装置所述的文档处理装置，其特征在于，所述第一分类子网络在用于根据所获得的至少一个相似度确定所述待处理文档的类别时，具体用于：

获得所述至少一个相似度中最高的相似度；

响应于所述最高的相似度大于或等于预设的相似度阈值，确定所述最高的相似度对应的标准特征所属文档的类别为所述待处理文档的类别，或

响应于所述最高的相似度小于所述预设的相似度阈值，增加所述待处理文档为标准模板，并确定所述待处理文档的通用特征为新增标准模板对应类别的标准特征。
根据权利要求16或17所述的文档处理装置，其特征在于，还包括：

目标模块，用于响应于选择指令，从预设的文档类别中选择至少一个类别作为目标类别；

所述第一分类子网络在用于比较所述待处理文档的通用特征与预设的至少一类文档的标准特征，确定所述待处理文档的通用特征与所述至少一类文档的标准特征的相似度时，具体用于：

比较所述待处理文档的通用特征与预设的至少一个目标类别的文档的标准特征，确定所述待处理文档的通用特征与所述至少一个目标类别的文档的标准特征的相似度。
一种文档处理设备，其特征在于，所述设备包括非暂时性存储介质、处理器，所述存储介质用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至11任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至11任一所述的方法。
一种计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至11任一所述的方法。