CN112101367A

CN112101367A - 文本识别方法、图像识别分类方法、文档识别处理方法

Info

Publication number: CN112101367A
Application number: CN202010968750.3A
Authority: CN
Inventors: 徐青松; 李青
Original assignee: Hangzhou Glority Software Ltd
Current assignee: Hangzhou Glority Software Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-18
Also published as: WO2022057707A1

Abstract

本发明提供一种文本识别方法、图像识别分类方法、文档识别处理方法。在进行文本识别时，首先对文本图像中待识别文本中的文本行进行通用文本行框标注，再采用字符识别模型对各个文本行进行识别，得到待识别文本的初步识别结果，然后对初步识别结果进行语言类型的识别，根据识别出的语言类型调用相应的语言识别模型对该语言类型对应的字符部分进行进一步识别，得到优化后的字符识别结果。由于本实施例在得到待识别文本的初步识别结果之后，还根据其中涉及的语言类型采用单独的语言识别模型进行精准识别，从而提高了文本识别的准确度。

Description

文本识别方法、图像识别分类方法、文档识别处理方法

技术领域

本发明涉及机器学习技术领域，特别涉及一种文本识别方法、图像识别分类方法、文档识别处理方法及电子设备、计算机可读存储介质。

背景技术

OCR（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

在OCR识别时，通常可采用识别模型来识别文档中的字符，然而针对各种不同语言的文档无法使用同一个模型识别，需要知道文档是何种语言才能调用相应的识别模型，如果是混合语言的文档则更加难以识别，可见现有的OCR识别技术针对不同语言的文档存在文本识别准确率不高的问题。

此外，还存在识别后的文档无法有效分类的问题，导致识别后的文档管理较为凌乱，而且不便于查找；由于待识别的文档存在曲线弧度等问题，导致识别后的排版出现与原文档不一致的情况，甚至出现乱码。

发明内容

本发明的目的在于提供一种文本识别方法、图像识别分类方法、文档识别处理方法及电子设备、计算机可读存储介质。具体技术方案如下：

为达到上述目的，本发明提供一种文本识别方法，包括：

识别文本图像中待识别文本中的文本行，并对每一所述文本行以通用文本行框进行标注；

采用字符识别模型识别每一所述文本行中的字符，得到所述待识别文本的初步识别结果；

采用语言分类模型对所述初步识别结果进行语言识别，获取所述初步识别结果中涉及的语言类型，并根据所述语言类型将所述初步识别结果划分为多个不同的字符部分；

根据所述语言类型调用相应的语言识别模型，对相应的字符部分进行识别，得到所述待识别文本的目标识别结果。

可选的，在上述文本识别方法中，还包括：识别文本图像中待识别文本的方向，若方向不符合预设条件，则对所述待识别文本的方向进行校正处理；

其中，所述识别文本图像中的待识别文本的方向，包括：

采用方向识别模型识别所述文本图像中的待识别文本的方向，所述方向识别模型为基于CNN的神经网络模型。

可选的，在上述文本识别方法中，所述字符识别模型为基于CTC联结主义时间分类技术和Attention注意力机制的神经网络模型。

可选的，在上述文本识别方法中，所述字符识别模型采用包含CJK字符集和ISO8859 1-16字符集的训练样本集训练得到。

可选的，在上述文本识别方法中，所述语言分类模型为基于wiki数据集的fasttext < N-Gram >语言分类模型。

基于同一发明构思，本发明还提供一种图像识别分类方法，包括：

采用图像识别模型对待分类图像进行识别，识别出文本类图像或非文本类图像；

采用如上文所述的文本识别方法对所述文本类图像或非文本类图像中的文本进行识别，得到所述文本类图像或非文本类图像的文本识别结果；

根据所述文本识别结果确定关键词，根据所述关键词确定所述文本类图像的内容的第一细分类型或所述非文本类图像的内容的第二细分类型，并将所述文本类图像归类到所述第一细分类型对应的文件夹中，将所述非文本类图像归类到所述第二细分类型对应的文件夹中。

可选的，在上述图像识别分类方法中，在确定所述关键词之后，还包括：

利用所述关键词对所述文本类图像或所述非文本类图像进行自动命名。

可选的，在上述图像识别分类方法中，在识别出文本类图像或非文本类图像之后，还包括：

将所述文本类图像归类到文本类图像文件夹中，将所述非文本类图像归类到非文本类图像文件夹中；

相应的，所述将所述文本类图像归类到所述第一细分类型对应的文件夹中，将所述非文本类图像归类到所述第二细分类型对应的文件夹中，包括：

将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中，将所述非文本类图像文件夹中的所述非文本类图像归类到所述第二细分类型对应的文件夹中。

可选的，在上述图像识别分类方法中，所述第一细分类型包括：笔记、证件、收据、截屏、文档、证书中的一种或多种。

可选的，在上述图像识别分类方法中，对于识别出的所述非文本类图像，所述图像识别模型识别出所述非文本类图像中的内容；

所述方法还包括：

根据所述非文本类图像的内容确定所述第二细分类型，并将所述非文本类图像归类到所述第二细分类型对应的文件夹中。

可选的，在上述图像识别分类方法中，在识别出所述非文本类图像中的内容之后，还包括：

根据所述非文本类图像中的内容对所述非文本类图像进行自动命名。

可选的，在上述图像识别分类方法中，在将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中之后，还包括：

响应于用户输入搜索词的操作，搜索是否存在与所述搜索词相匹配的关键词，如果存在，则输出所述相匹配的关键词对应的文本类图像。

响应于用户的打印操作，根据预先配置的一键导入功能，导入所述第一细分类型对应的文件夹中的所有文本类图像以便于打印。

可选的，在上述图像识别分类方法中，在执行打印前，还包括：

若导入的所有文本类图像中存在需要签名的文本类图像，则在所述需要签名的文本类图像中预设的签名区域进行签名；

和/或，若导入的所有文本类图像中存在具有缺陷的文本类图像，则对具有缺陷的文本类图像进行滤镜处理。

基于同一发明构思，本发明还提供一种文档识别处理方法，包括：

获取输入图像，所述输入图像中包含待识别的原始文档；

采用如上文所述的文本识别方法对所述输入图像中的所述原始文档进行识别，得到所述原始文档的字符识别结果；

根据所述输入图像中所述原始文档的各个字符的位置信息，对所述原始文档的字符识别结果进行排布，得到识别文档。

可选的，在上述文档识别处理方法中，根据所述输入图像中所述原始文档的各个字符的位置信息，对所述原始文档的字符识别结果进行排布，得到识别文档，包括：

根据所述输入图像中所述原始文档的各个字符的位置信息，将所述原始文档的字符识别结果替换所述原始文档中的原始文本，得到识别文档。

可选的，在上述文档识别处理方法中，在得到识别文档之后，还包括：

将所述原始文档与所述识别文档进行对比，判断所述识别文档与所述原始文档是否存在区别点，如果存在则在所述识别文档中对所述区别点进行修正。

可选的，在上述文档识别处理方法中，在对所述输入图像进行识别之前，还包括：

采用校正模型识别所述输入图像中所述原始文档的曲线弧度，若所述曲线弧度满足预设的校正条件，则对所述输入图像中所述原始文档进行校正处理以去除所述原始文档的曲线弧度。

采用标注识别模型对所述输入图像进行识别，以识别出所述原始文档中的标注内容；

在所述识别文档中，将所述标注内容对应的字符识别结果排版成与所述原始文档一致的格式。

本发明还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上文所描述的文本识别方法中的步骤，或者实现如上文所描述的图像识别分类方法中的步骤，或者实现如上文所描述的文档识别处理方法中的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令被执行时，实现如上文所描述的文本识别方法中的步骤，或者实现如上文所描述的图像识别分类方法中的步骤，或者实现如上文所描述的文档识别处理方法中的步骤。

与现有技术相比，本发明提供的文本识别方法、图像识别分类方法、文档识别处理方法及电子设备、计算机可读存储介质具有以下优点：

本发明提供的文本识别方法以及对应的及电子设备、计算机可读存储介质，在进行文本识别时，首先对待识别文本中的文本行进行通用文本行框标注，再采用字符识别模型对各个文本行进行识别，得到待识别文本的初步识别结果，然后对初步识别结果进行语言类型的识别，根据识别出的语言类型调用相应的语言识别模型对该语言类型对应的字符部分进行进一步识别，得到优化后的字符识别结果。由于本实施例在得到待识别文本的初步识别结果之后，还根据其中涉及的语言类型采用单独的语言识别模型进行精准识别，从而提高了文本识别的准确度。

本发明提供的图像识别分类方法以及对应的及电子设备、计算机可读存储介质，对于文本类图像和非文本类图像，均可采用上文所述的OCR文本识别方法进行文本识别，得到所述文本类图像和所述非文本类图像的文本识别结果，并根据文本识别结果确定关键词进而对所述文本类图像和所述非文本类图像进行分类，由于根据图像中的文字内容进行图像分类，分类结果更加准确，同时所确定的关键词为后续采用关键词搜索图像提供了便利，实现了图像的快速搜索。此外，对非文本类图像还可以采用图像内容进行分类，也提高了分类结果的准确性。

本发明提供的文档识别处理方法以及对应的及电子设备、计算机可读存储介质，对输入图像中的待识别文档采用OCR文本识别方法进行识别，从而得到识别文档，由于将不可编辑的文档转换为可编辑的文档，为后续采用文档中的关键词搜索得到该文档提供了便利，实现了文件的快速搜索。此外，通过对输入图像的弧度校正、对文档中标注引用的字体进行识别和调整，降低了输入图像中待识别文档转化成可编辑电子文本过程中的错误，提高了转化的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的文本识别方法的流程示意图；

图2是本发明一实施例提供的图像识别分类方法的流程示意图；

图3是图像识别分类展示的一种示例图；

图4是本发明一实施例提供的文档识别处理方法的流程示意图；

图5a是包含原始文档的输入图像的一个示例图；

图5b是采用本发明的方法对图5a所示的输入图像进行识别后得到识别文档的示例图；

图6a是包含原始文档的输入图像的另一个示例图；

图6b是采用现有的方法对图6a所示的输入图像进行识别后得到识别文档的示例图；

图6c是采用本发明的方法对图6a所示的输入图像进行识别后得到识别文档的示例图；

图7是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种文本识别方法、图像识别分类方法、文档识别处理方法及电子设备、计算机可读存储介质作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

为解决现有技术中的问题，本发明提供了一种文本识别方法。图1示出了根据本发明一示例性实施例的文本识别方法的流程图，该方法可以在例如手机、平板电脑等智能终端上安装的应用程序（app）中实现。如图1所示，该方法可以包括：

步骤S101，识别文本图像中待识别文本中的文本行，并对每一所述文本行以通用文本行框进行标注。

本发明中，文本图像指的是图像内容以文字为主的图像，例如：名片图像、单据图像、证件图像、证书图像、笔记图像，其可以是对文本进行拍照后所得的图像，也可以是对文本进行扫描后所得的图像。举例而言，笔记图像可以是对纸张上的手写字体文字内容进行拍照后所得的图像。

一般来说，所述文本图像中所述待识别文本包含一个或多个文本行，本发明是采用文字OCR识别方法进行文本识别的，在进行识别时，是对每一文本行分别进行识别，最后结合所有文本行的识别结果得到整个待识别文本的识别结果。因此，在识别时，需要识别出所述文本图像中所述待识别文本中的各个文本行，同时对每一文本行采用通用文本行框进行标注。

需要说明的是，在识别文本行时，并不对文本行中的语言进行限制，而是仅按照字行进行处理，即，当一个文本行中的字符有多种语言类型时，只要这些字符位于同一文本行中，就将其标注在同一个通用文本行框中。

需要说明的是，一个图片中可能会有多个文档，例如一张文本图像中有身份证的正反面，而这两个文档需要分别进行识别，因此在执行步骤S101之前，还可以识别所述文本图像中的文档区域（即待识别文本所在的区域），并对文档区域进行切片处理，例如可以通过标注框进行切片，还可以通过边缘识别方法识别出文档区域的边缘然后再根据边缘进行切片。

优选的，在执行步骤S101之前，所述方法还包括：识别文本图像中待识别文本的方向，若方向不符合预设条件，则对所述待识别文本的方向进行校正处理。

可以理解的是，在对文本图像中的待识别文本进行识别之前，需要保证待识别文本在文本图像中的方向满足预设条件，例如，确保待识别文本的文本行中的字符在文本图像中是沿某一参考方向排列。因此首先需要对文本图像待识别文本的方向进行校正处理。具体的，可以采用一方向识别模型来识别文本图像中待识别文本的方向，所述方向识别模型可以为基于CNN的神经网络模型。

所述参考方向可以设定为沿水平方向的正方向。所述方向识别模型可以识别出文本行中字符的排列方向在文本图像中与水平向正方向的夹角，若夹角为0则不需要校正，若夹角不为0，则需要对所述文本图像进行校正处理。校正处理的方法具体是对所述文本图像进行翻转，以使所述待识别文本的文本行中的字符在文本图像中与水平向正方向的夹角为0。在本实施例中，可以认为沿水平方向向右的方向为水平向正方向，在其它实施例中也可以设定其它方向为正方向，本发明对此不做限定。

校正处理的方法也可以采用根据多个文本行的平均斜率作为校正参考，或者采用其它的校正方法，本发明对此不做限定。

步骤S102，采用字符识别模型识别每一所述文本行中的字符，得到所述待识别文本的初步识别结果。

本实施例中，所述字符识别模型为一种All in one模型，其采用多种字符集训练得到，例如 CJK字符集和 ISO8859 1-16 字符集等，因此所述字符识别模型可以支持CJK和拉丁系字体的识别。所述字符识别模型为基于CTC联结主义时间分类技术和Attention注意力机制的神经网络模型。将每一文本行分别输入所述字符识别模型，则所述字符识别模型可以输出该文本行的字符识别结果，然后结合各个文本行的字符识别结果可以得到所述待识别文本的字符识别结果，作为初步识别结果。

联结主义时间分类(Connectionist Temporal Classification，CTC)是一种数据单元与标注单元不存在严格对齐信息下的时间序列分类算法，该算法目前被广泛应用于光学文字识别(OCR)和语音识别中，CTC模型的主要作用是构造出一种针对序列的损失函数，并在反向传播过程中将依据损失函数确定的梯度回传给上一层以完成CTC模型的训练。

Attention注意力机制在序列学习任务上具有巨大的提升作用，在编解码器框架内，通过在编码段加入A模型，对源数据序列进行数据加权变换，或者在解码端引入A模型，对目标数据进行加权变化，可以有效提高序列对序列的自然方式下的***表现。

本发明采用CTC联结主义时间分类技术和Attention注意力机制结合来构建字符识别模型，能够提高字符识别的准确度。

步骤S103，采用语言分类模型对所述初步识别结果进行语言识别，获取所述初步识别结果中涉及的语言类型，并根据所述语言类型将所述初步识别结果划分为多个不同的字符部分。

由于步骤S102中采用的字符识别模型是由多个不同语言的字符集训练得到的，因此所述字符识别模型对文本行中字符识别结果的准确性不高，因此需要对所述初步识别结果进行优化，对字符中不同语言的字符分别进行进一步识别，以提高字符识别的准确性。

首先，采用语言分类模型对所述初步识别结果进行语言识别，获取所述初步识别结果中涉及的语言类型，其中，可采用langid技术进行语言类型（即语种）识别，所述语言分类模型为基于wiki数据集的fasttext <N-Gram>语言分类模型。

fasttext是一个词向量与文本分类工具，典型应用场景是“带监督的文本分类问题”，提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。

N-Gram是大词汇连续语言识别中常用的一种语言模型，对中文而言，可称之为汉语语言模型(CLM，Chinese Language Model)，其利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换。具体的，利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔划串，或数字串)的重码问题。

采用上述的语言分类模型对初步识别结果进行语言识别，能够更准确地获得所述初步识别结果中涉及的语言类型。在识别出语言类型后，可以将所述初步识别结果划分为多个不同的字符部分，即每种语言类型的字符划分成为同一字符部分。

步骤S104，根据所述语言类型调用相应的语言识别模型，对相应的字符部分进行识别，得到所述待识别文本的目标识别结果。

本实施例中，每种语言类型具有对应的语言识别模型，在步骤S103获得所述待识别文本中涉及的语言类型及其各个语言类型对应的字符部分后，调用相应的语言识别模型对相应的字符部分进行识别，即可得到各个字符部分的更加精确的字符识别结果，进而得到所述待识别文本的目标识别结果。

综上所述，本发明提供的文本识别方法，在进行文本识别时，首先对待识别文本中的文本行进行通用文本行框标注，再采用字符识别模型对各个文本行进行识别，得到待识别文本的初步识别结果，然后对初步识别结果进行语言类型的识别，根据识别出的语言类型调用相应的语言识别模型对该语言类型对应的字符部分进行进一步识别，得到优化后的字符识别结果。由于本实施例在得到待识别文本的初步识别结果之后，还根据其中涉及的语言类型采用单独的语言识别模型进行精准识别，从而提高了文本识别的准确度。

在上述文本识别方法的基础上，本发明还提出了一种图像识别分类方法，用于对大量图像进行分类整理，将内容相似的图像归类在同一个文件夹中，以便于用户查阅和搜索。

如图2所示，所述图像识别分类方法包括以下步骤：

步骤S201，采用图像识别模型对待分类图像进行识别，识别出文本类图像或非文本类图像。

本实施例中，所述待分类图像可以为新拍摄的图像，也可以为已拍摄并保存在一文件夹中的图像，例如保存在手机相册中的图像。文本类图像指的是图像内容以文字为主的图像，例如：名片图像、单据图像、证件图像、证书图像、笔记图像，其可以是对文本进行拍照后所得的图像，也可以是对文本进行扫描后所得的图像。举例而言，笔记图像可以是对纸张上的手写字体文字内容进行拍照后所得的图像。非文本类图像指的是图像内容以非文字为主的图像，例如人物生活照、风景照、动植物照片等。

通过图像识别模型对待分类图像进行识别，可以识别出该待分类图像是属于文本类图像还是非文本类图像，从而可以分类出文本类图像和非文本类图像。

在识别分类出文本类图像和非文本类图像之后，将图像自动归类存储至预先设置好的不同文件夹中。即，在识别出文本类图像后，将该文本类图像归类到文本类图像文件夹中，在识别出非文本类图像后，将该非文本类图像归类到非文本类文件夹中。

步骤S202，对所述文本类图像或非文本类图像中的文本进行识别，得到所述文本类图像或非文本类图像的文本识别结果。

具体的，可采用如图1所示的文本识别方法对所述文本类图像或非文本类图像中的文本进行识别。具体识别过程在此不做赘述。还可以根据文本识别结果的语言类型将不同的图片进行分类。

步骤S203，根据所述文本识别结果确定关键词，根据所述关键词确定所述文本类图像的内容的第一细分类型或所述非文本类图像的第二细分类型，并将所述文本类图像归类到所述第一细分类型对应的文件夹中，将所述非文本类图像归类到所述第二细分类型对应的文件夹中。

具体的，可以采用关键词分类模型从所述文本识别结果中获取关键词，再根据所述关键词确定所述文本类图像的内容的第一细分类型或所述非文本类图像的内容的第二细分类型，进而将所述文本类图像归类到所述第一细分类型对应的文件夹中，将所述非文本类图像归类到所述第二细分类型对应的文件夹中。

所述第一细分类型包括：笔记、证件、收据、截屏、文档、证书中的一种或多种，但不以此为限。

例如，所述文本类图像为身份证图像，所述文本识别结果中包含字符“中华人民共和国居民身份证”等字样，则所述关键词分类模型可以从所述文本识别结果中获取关键词“身份证”，由此可根据所述关键词确定该文本类图像的内容的第一细分类型为证件图像，进而可以将该文本类图像归类到“证件图像”这一细分类型的文件夹中。

此外，“证件图像”这一细分类型中还可以进一步划分，例如可以进一步划分为包括身份证、驾驶证、护照、军官照、工作证、出生证、户口本等多种具体类型。因此，还可以根据所述关键词确定文本类图像的具体类型，并将该文本类图像进一步归类到所述第一细分类型对应的文件夹下该具体类型的子文件夹中。例如，对于前述举例中的文本类图像，所述关键词分类模型可以从所述文本识别结果中获取关键词“身份证”，则可以将该文本类图像进一步归类到“证件图像”这一细分类型的文件夹下的“身份证”这一具体类型的子文件夹中。可以理解的是，“证件图像”这一细分类型的文件夹下可设置身份证、驾驶证、护照、军官照、工作证、出生证、户口本等多个具体类型的子文件夹。

通过上述方法，可以将分类后的文本类图像设置成文件树，其中各个文件夹层层递进命名，从而可以将各个待分类的文本类图像自动归类到相应的文件夹中。此外，为便于所述文本类图像的查找，还可以利用所述关键词对所述文本类图像进行自动命名。

例如，可以按照如图3所示的方式进行分类，将相册中的所有图像进行分类：首先展示All Documents（所有文件），然后依次展示Handwritten notes（笔记图像），ID Card &Passport（证件图像）、Receipt（收据图像）、Screens（截屏图像），Certificate（证书图像），Other Card（其它图像）等。当然这仅仅是一种示例，在实际应用中也可以按照其它方式进行分类。归类后的图像可以按照修改的时间顺序排序，也可以按照拍摄的时间顺序排序，或者排序方式也可以根据需要进行设置。

在实际应用中，用户可以根据关键词对分类后的所述文本类图像进行搜索，以便于快速找到目标文件。具体的，响应于用户输入一搜索词的操作，搜索是否存在与所述搜索词相匹配的关键词，如果存在则输出该关键词对应的文本类图像。例如，当用户输入的搜索词为“身份”时，则搜索是否存在与该搜索词相匹配的关键词，如果存在相匹配的关键词“身份证”，则将关键词“身份证”对应的文本类图像输出显示给用户。

所述第二细分类型可以包括：人物生活照、风景照、动物照片、植物照片等。

例如，所述非文本图像为雷峰塔照片，且图像中包含“雷峰塔”三个字，则对该非文本图像的文本识别结果为“雷峰塔”，进而可确定关键词为雷峰塔，由此可根据该关键词确定该非文本类图像的内容的第二细分类型为风景照，进而可以将该非文本类图像归类到“风景照”这一细分类型的文件夹中。

此外，“风景照”这一细分类型中还可以进一步划分，例如根据景点名称对风景照进行进一步划分。因此，还可以根据识别出的景点名称确定该非文本类图像的具体类型，并将该非文本类图像进一步归类到所述第二细分类型对应的文件夹下该具体类型的子文件夹中。例如，对于前述举例中的非文本类图像，由于识别出该非文本图像为雷峰塔照片，则可以将该非文本类图像进一步归类到“风景照”这一细分类型的文件夹下的“雷峰塔照片”这一具体类型的子文件夹中。可以理解的是，“风景照”这一细分类型的文件夹下可设置不同景点对应的具体类型的子文件夹。

在其它实施例中，对于识别出的所述非文本类图像，步骤S201在采用图像识别模型进行识别时，所述图像识别模型还可以识别出所述非文本类图像中的内容，因此还可以根据所述非文本类图像的内容确定所述第二细分类型，并将所述非文本类图像归类到所述第二细分类型对应的文件夹中。例如，所述图像识别模型识别出所述非文本类图像显示的内容为雷峰塔，则可以确定该非文本类图像的内容的第二细分类型为风景照，进而可以将该非文本类图像归类到“风景照”这一细分类型的文件夹中。

通过上述方法，可以将分类后的非文本类图像设置成文件树，其中各个文件夹层层递进命名，从而可以将各个待分类的非文本类图像自动归类到相应的文件夹中。

根据所述非文本类图像的内容可以对所述非文本类图像进行自动命名。例如，所述非文本图像的内容可以包括识别出的动植物名称、风景点的名称等，故可根据识别出的动植物名称、风景点的名称等对所述非文本类图像进行自动命名。或者根据关键词分类模型获取的关键词对所述非文本类图像进行自动命名。通过自动命名，可以便于所述非文本类图像的查找。

此外，对非文本类图像的分类，还可以按照拍摄的时间、地点、人物的关联性以及名称等进行分类。

优选的，对于分类后的文本类图像和非文本类图像，可以进行加密处理以保证文件的安全性，例如对于证照类的重要文件进行加密处理，或者对于私密的人物生活照进行加密处理，在加密时可以对单个文件进行加密，也可以对相应的文件夹进行加密。

优选的，为便于用户操作，当用户需要打印时，对需要打印的文档可以根据分类的结果进行一键导入及对文档的相关处理，例如需要对某时间、某地拍摄的证件照进行打印时，可以通过关键词搜索图片从而导入需要打印的图片，实现打印功能。

此外，在执行打印前，还包括：若导入的所有文本类图像中存在需要签名的文本类图像，则在所述需要签名的文本类图像中预设的签名区域进行签名；和/或，若导入的所有文本类图像中存在具有缺陷的文本类图像，则对具有缺陷的文本类图像进行滤镜处理。

具体的，对于有些要签名的文件设置有签名区域，可以直接在图像上进行签字，签字后的文件再进行打印。

对存在缺陷的图像进行滤镜处理，例如进行以下处理：

a）有些文本类图像在拍摄时由于光线等问题，存在阴影，打印时为了保证效果，可以将阴影去除；

b）对于年代久、失真的照片可以进行补全；

c）对于文本中的手写文字以及涂抹、油污等可以在打印的时候自动去除；

d）为了节省在打印时的用墨量，还可以对图像进行二值化处理。

综上所述，本发明提供的图像识别分类方法，对于文本类图像和非文本类图像，均可采用上文所述的OCR文本识别方法进行文本识别，得到所述文本类图像和所述非文本类图像的文本识别结果，并根据文本识别结果确定关键词进而对所述文本类图像和所述非文本类图像进行分类，由于根据图像中的文字内容进行图像分类，分类结果更加准确，同时所确定的关键词为后续采用关键词搜索图像提供了便利，实现了图像的快速搜索。此外，对非文本类图像还可以采用图像内容进行分类，也提高了分类结果的准确性。

在上述文本识别方法的基础上，本发明还提出了一种文档识别处理方法，用于将不同类型的文件，如扫描文件、PDF文件或者图片，转换为可以随时搜索或编辑的文本。当用户想找一个文件或图片，但是不记得标题，只能想起文档中的几个词，然而由于文档为不可编辑的格式，因此无法根据文档中的词来搜索到该文档。采用本发明提供的文档识别处理方法，由于将不可编辑的文档转换为可编辑的文档，因此当根据文档内容进行搜索时，此时可以根据文件内容或图片上的文字进行搜索，即只需要在搜索框中输入关键词，不论标题、内容、备注、还是图片上的文字，都能被智能搜索到。

如图4所示，所述图像识别分类方法包括以下步骤：

步骤S301，获取输入图像，所述输入图像中包含待识别的原始文档。

原始文档的类型可以是纸质文档，所述输入图像可以通过拍照或者扫描的方式形成，原始文档的类型也可以是电子文档，例如不可编辑文字的PDF文档或图片文档，此时所述输入图像可以直接获取。

步骤S302，对所述输入图像中的所述原始文档进行识别，得到所述原始文档的字符识别结果。

具体的，可采用如图1所示的文本识别方法对所述输入图像中的所述原始文档进行识别。具体识别过程在此不做赘述。

步骤S303，根据所述输入图像中所述原始文档的各个字符的位置信息，对所述原始文档的字符识别结果进行排布，得到识别文档。

具体的，所述根据所述输入图像中所述原始文档的各个字符的位置信息，对所述原始文档的字符识别结果进行排布，得到识别文档，包括：

如图5a、5b所示，图5a示出了包含原始文档的输入图像，图5b示出了最终得到的识别文档，由图5a、5b可知，在处理时可以获取所述原始文档的各个字符在所述输入图像中的坐标信息，从而在得到所述原始文档的字符识别结果之后，根据字符的坐标信息将各个字符放到所述输入图像中的相应位置以替换原始文档中的字符，从而得到识别文档。

由以上可知，采用OCR可以将输入图像上的字符转换为可编辑的字符，智能识别，不用手动打字输入，可以将PPT、PDF文件、图片、名片、试卷等瞬间转变为可以编辑修改的电子稿识别文档。为了保证转换字符的准确性，还可以将所述原始文档与所述识别文档进行对比，判断所述识别文档与所述原始文档是否存在区别点，如果存在则在所述识别文档中对所述区别点进行修正。例如，可以使用人工校验的方法将原始文档与输出的识别文档的可编辑电子文本进行对比，找出可编辑电子文本在转化过程中与原始文档的区别点。

优选的，在扫描较厚的书本时，由于文件是在有弧度存在的情况下进行的拍摄的，则获取的输入图像中所述原始文档由于弧度等问题无法识别，或者识别出的识别文档会输出乱码，这种情况下需要对输入图像中所述原始文档的弧度进行校正，将校正去除弧度后的输入图像再进行文本识别及输出，从而避免乱码的发生。具体的，可以采用校正模型识别所述输入图像中所述原始文档的曲线弧度，若所述曲线弧度满足预设的校正条件，则对所述输入图像中所述原始文档进行校正处理以去除所述原始文档的曲线弧度，在实际应用中可以采用人工校正的方法进行校正处理，也可以采用其它校正方法。

如图6a、6b所示，对于原始文档中具有标注引用的字体（其字体大小一般小于文本文字），目前的文档识别处理方法在识别后，标注的内容会出现与原始文档不一致的情况，如图6a、6b中被框选中的若干处内容所示，这需要用户一一核对并且手动修改，大大降低了效率。对于这种情况，本发明采用标注识别模型对所述输入图像进行识别，以识别出所述原始文档中的标注内容，在所述识别文档中，将所述标注内容对应的字符识别结果排版成与所述原始文档一致的格式。本发明通过标注识别模型对输入图像进行识别，将标注内容从原始文档的字符中区分开，将标注内容不是以与其它字符内容相同的文字形式输出，而是以与原始文档一致的形式输出来。图6c为采用本发明的方法进行处理后的识别文档，由图6a、6c可知，在OCR识别的过程中通过所述标注识别模型对标注进行自动识别，再根据识别结果对识别文档在校验后自动排版成与原文本一致的格式，从而达到OCR识别后的文本与原图片一致，不需要再进行人工校对。

综上所述，本发明提供的文档识别处理方法，对输入图像中的待识别文档采用OCR文本识别方法进行识别，从而得到识别文档，由于将不可编辑的文档转换为可编辑的文档，为后续采用文档中的关键词搜索得到该文档提供了便利，实现了文件的快速搜索。此外，通过对输入图像的弧度校正、对文档中标注引用的字体进行识别和调整，降低了输入图像中待识别文档转化成可编辑电子文本过程中的错误，提高了转化的正确率。

基于同一发明构思，本发明还提供了一种电子设备。如图7所示，所述电子设备包括处理器301、通信接口302、存储器303和通信总线304，其中，所述处理器301、所述通信接口302、所述存储器303通过所述通信总线304完成相互间的通信；

所述存储器303，用于存放计算机程序；

所述处理器301，用于执行所述存储器303上所存放的程序时，可以实现如上文所描述的文本识别方法中的步骤，或者实现如上文所描述的图像识别分类方法中的步骤，或者实现如上文所描述的文档识别处理方法中的步骤。

上述电子设备提到的所述通信总线304可以是外设部件互连标准（PeripheralComponent Interconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

所称处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器301是所述电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

所述存储器303可用于存储所述计算机程序，所述处理器301通过运行或执行存储在所述存储器303内的计算机程序，以及调用存储在存储器303内的数据，实现所述电子设备的各种功能。

所述存储器303可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

基于同一发明构思，本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，当指令被执行时，可以实现如上文所描述的文本识别方法中的步骤，或者实现如上文所描述的图像识别分类方法中的步骤，或者实现如上文所描述的文档识别处理方法中的步骤。

类似地，本发明实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是，附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、***、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

需要说明的是，本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备、计算机可读存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种文本识别方法，其特征在于，包括：

2.如权利要求1所述的文本识别方法，其特征在于，还包括：识别文本图像中待识别文本的方向，若方向不符合预设条件，则对所述待识别文本的方向进行校正处理；

其中，所述识别文本图像中的待识别文本的方向，包括：

3.如权利要求1所述的文本识别方法，其特征在于，所述字符识别模型为基于CTC联结主义时间分类技术和Attention注意力机制的神经网络模型。

4.如权利要求1所述的文本识别方法，其特征在于，所述字符识别模型采用包含CJK字符集和ISO8859 1-16字符集的训练样本集训练得到。

5.如权利要求1所述的文本识别方法，其特征在于，所述语言分类模型为基于wiki数据集的fasttext<N-Gram>语言分类模型。

6.一种图像识别分类方法，其特征在于，包括：

采用如权利要求1-5任一项所述的文本识别方法对所述文本类图像或所述非文本类图像中的文本进行识别，得到所述文本类图像或所述非文本类图像的文本识别结果；

7.如权利要求6所述的图像识别分类方法，其特征在于，在确定所述关键词之后，还包括：

8.如权利要求6所述的图像识别分类方法，其特征在于，在识别出文本类图像或非文本类图像之后，还包括：

9.如权利要求6所述的图像识别分类方法，其特征在于，所述第一细分类型包括：笔记、证件、收据、截屏、文档、证书中的一种或多种。

10.如权利要求6所述的图像识别分类方法，其特征在于，对于识别出的所述非文本类图像，所述图像识别模型识别出所述非文本类图像中的内容；

所述方法还包括：

11.如权利要求10所述的图像识别分类方法，其特征在于，在识别出所述非文本类图像中的内容之后，还包括：

12.如权利要求6所述的图像识别分类方法，其特征在于，在将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中之后，还包括：

13.如权利要求6所述的图像识别分类方法，其特征在于，在将所述文本类图像文件夹中的所述文本类图像归类到所述第一细分类型对应的文件夹中之后，还包括：

14.如权利要求13所述的图像识别分类方法，其特征在于，在执行打印前，还包括：

15.一种文档识别处理方法，其特征在于，包括：

获取输入图像，所述输入图像中包含待识别的原始文档；

采用如权利要求1-5任一项所述的文本识别方法对所述输入图像中的所述原始文档进行识别，得到所述原始文档的字符识别结果；

16.如权利要求15所述的文档识别处理方法，其特征在于，所述根据所述输入图像中所述原始文档的各个字符的位置信息，对所述原始文档的字符识别结果进行排布，得到识别文档，包括：

17.如权利要求15所述的文档识别处理方法，其特征在于，在得到识别文档之后，还包括：

18.如权利要求15所述的文档识别处理方法，其特征在于，在对所述输入图像进行识别之前，还包括：

19.如权利要求15所述的文档识别处理方法，其特征在于，在得到识别文档之后，还包括：

20.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如权利要求1至19中任一项所述的方法的步骤。