CN108334805B - 检测文档阅读顺序的方法和装置 - Google Patents

检测文档阅读顺序的方法和装置 Download PDF

Info

Publication number
CN108334805B
CN108334805B CN201710134711.1A CN201710134711A CN108334805B CN 108334805 B CN108334805 B CN 108334805B CN 201710134711 A CN201710134711 A CN 201710134711A CN 108334805 B CN108334805 B CN 108334805B
Authority
CN
China
Prior art keywords
block
text block
text
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710134711.1A
Other languages
English (en)
Other versions
CN108334805A (zh
Inventor
朱传聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710134711.1A priority Critical patent/CN108334805B/zh
Priority to TW107101731A priority patent/TWI667054B/zh
Priority to PCT/CN2018/075626 priority patent/WO2018161764A1/zh
Publication of CN108334805A publication Critical patent/CN108334805A/zh
Application granted granted Critical
Publication of CN108334805B publication Critical patent/CN108334805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及检测文档阅读顺序的方法和装置。所述方法包括:识别文档图片中包含的文本块,构建一个块集合;从所述块集合中确定出一起始文本块;根据该起始文本块的特征信息对该起始文本块执行寻径操作,以确定出所述块集合中与该起始文本块对应的第一文本块;文本块的特征信息包括该文本块在文档图片中的位置信息以及该文本块的版面布局信息;依此类推直到所述块集合中每一个文本块对应的寻径操作的执行顺序能够唯一确定;确定所述块集合中文本块对应的寻径操作的执行顺序,根据所述执行顺序得到所述文档图片中文本块的阅读顺序。本发明能够准确识别各类文档图片的文档阅读顺序。

Description

检测文档阅读顺序的方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及检测文档阅读顺序的方法和装置。
背景技术
OCR(Optical Character Recognition光学字符识别),是描述文档图片识别 的一类算法,其是针对印刷体字符,采用光学的方式将纸质文档中的文字转换 成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式, 供文字处理软件进一步编辑加工的技术。
在OCR技术中,普遍采用基于有向图、固定规则、语义分析等方法来识别 文档的阅读顺序,然而这些方法在复杂环境下或者对于复杂文档图片来说,其 阅读顺序的识别错误率较高,存在识别性能不稳定的问题。
发明内容
本发明实施例提供了检测文档阅读顺序的方法和装置,能够准确识别各类 文档图片的文档阅读顺序。
本发明一方面提供检测文档阅读顺序的方法,包括:
识别文档图片中包含的文本块,构建一个块集合;
从所述块集合中确定出一起始文本块;
根据该起始文本块的特征信息对该起始文本块执行寻径操作,以确定出所 述块集合中与该起始文本块对应的第一文本块;文本块的特征信息包括该文本 块在文档图片中的位置信息以及该文本块的版面布局信息;
根据所述第一文本块的特征信息对该第一文本块执行寻径操作,以确定出 所述块集合中与该第一文本块对应的文本块;并依此类推直到所述块集合中每 一个文本块对应的寻径操作的执行顺序能够唯一确定;及
确定所述块集合中文本块对应的寻径操作的执行顺序,根据所述执行顺序 得到所述文档图片中文本块的阅读顺序。
本发明另一方面提供一种检测文档阅读顺序的装置,包括:
块识别模块,用于识别文档图片中包含的文本块,构建一个块集合;
起始块选择模块,用于从所述块集合中确定出一起始文本块;
自动寻径模块,用于根据该起始文本块的特征信息对该起始文本块执行寻 径操作,以确定出所述块集合中与该起始文本块对应的第一文本块;文本块的 特征信息包括该文本块在文档图片中的位置信息以及该文本块的版面布局信 息;根据所述第一文本块的特征信息对该第一文本块执行寻径操作,以确定出 所述块集合中与该第一文本块对应的文本块;并依此类推直到所述块集合中每 一个文本块对应的寻径操作的执行顺序能够唯一确定;及
顺序确定模块,用于确定所述块集合中文本块对应的寻径操作的执行顺序, 根据所述执行顺序得到所述文档图片中文本块的阅读顺序。
基于上述实施例提供的检测文档阅读顺序的方法和装置,首先识别文档图 片中包含的文本块,构建一个块集合;从块集合中确定出一起始文本块;从起 始文本块开始寻径,根据文本块的位置信息以及版面布局信息决定下一步应该 走到哪一个文本块,依次类推得出文档图片包含的全部文本块的阅读顺序。该 方案能够兼容多种场景,对文档图片的尺寸、噪声、样式具有更好的鲁棒性, 因此能够准确识别各类文档图片对应的文档阅读顺序。
附图说明
图1为一个实施例中的本发明方案的工作环境示意图;
图2为一实施例的检测文档阅读顺序的方法的示意性流程图;
图3为一实施例的文档图片包含的文本块示意图;
图4为一实施例的神经网络模型的示意图;
图5为一实施例的根据训练样本训练神经网络模型的示意流程图;
图6为一实施例的检测文档阅读顺序的装置的示意性结构图;
图7为另一实施例的检测文档阅读顺序的装置的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中的本发明方案的工作环境示意图;实现本发明实施例 的检测文档阅读顺序的方法的工作环境为设置有OCR***的智能终端,并且所 述智能终端至少还包括通过***总线连接的处理器、显示模组、电源接口和存 储介质,所述智能终端通过OCR***将文档图片中包含的文本信息识别并显示 出来。其中,显示模组可对OCR***识别出的文本信息进行显示;电源接口用 于与外部电源连接,外部电源通过该电源接口向智能终端电池供电;所述存储 介质中至少存储有操作***、OCR***、数据库以及一种检测文档阅读顺序的 装置,该装置可用于实现本发明实施例的检测文档阅读顺序的方法。所述智能终端可以为手机、平板电脑等,也可以是其他具有上述结构的设备。
结合图1及上述对工作环境的说明,以下对检测文档阅读顺序的方法的实 施例进行说明。
图2为一实施例的检测文档阅读顺序的方法的示意性流程图;如图2所示, 本实施例中的检测文档阅读顺序的方法包括步骤:
S110,识别文档图片中包含的文本块,构建一个块集合;
本实施例中,可先对文档图片进行二值化处理,得到二值化文档图片,在 二值化文档图片中,各个像素点的值均用0或者1表示。然后基于二值化文档 图片进行尺度分析和版面分析,得出文档包含的全部文本块。其中的尺度分析 是指寻找二值化文档图片中每个字符的尺度信息,尺度以像素为单位,其值为 字符所占用的矩形区域面积的平方根。版面分析是指在OCR中,将文档图片中 的内容按照段落、分页等信息划分为多个不重叠的区域的算法。由此可得出文 档中包含的全部文本块,例如图3所示或者图5所示。
在另一优选实施例中,对文档图片进行预处理的过程中,还包括对校正文 档图片的步骤。即若待检测的文档图片的初始状态相对于预设的标准状态存在 偏差时,校正所述文档图片使其符合所述标准状态。例如:若检测到文档图片 的初始状态下存在倾斜、上下颠倒等情况,则需先对所述文档图片的方向进行 校正。
S120,从全部文本块中(即所述块集合中)确定出一起始文本块。
通常情况下,人们在阅读文档时会从文档的一顶点(例如左上角)开始进 行阅读,基于此,在一优选实施例中,可从所述块集合中选择出中心点坐标位 于所述文档图片的一个顶点的文本块,并将该文本块确定为所述起始文本块。 例如:将位于文档图片的左侧且最上方的一文本块确定为起始文本块,如图3 中所示的文本块R1,或者图5中所示的文本块R1
可以理解的,在其他实施例中,对于不同的文档和实际的阅读习惯(例如 从右到左排版的文档),也可将其他文本块确定为起始文本块。
S130,从起始文本块开始寻径;根据该起始文本块的特征信息对该起始文 本块执行寻径操作,以确定出所述块集合中与该起始文本块对应的第一文本块; 根据所述第一文本块的特征信息对该第一文本块执行寻径操作,以确定出所述 块集合中与该第一文本块对应的文本块;并依此类推直到所述块集合中每一个 文本块对应的寻径操作的执行顺序能够唯一确定。
其中,文本块的特征信息包括该文本块在文档图片中的位置信息以及该文 本块的版面布局信息。
对文本块进行寻径操作实际上是基于该文本块的特征信息得出其对应的下 一文本块的特征预测信息。在一实施例中,对文本块的寻径操作包括:通过预 先训练好的机器学习模型对所述文本块的特征信息进行学习,得出与该文本块 对应的文本块的特征预测信息;计算所述块集合中未执行寻径操作的各文本块 的特征信息与所述特征预测信息的相关度;然后根据上述计算出的相关度确定 出所述文本块对应的文本块。
本实施例中,步骤S130即是一个自起始文本块起,对文档包含的文本块进 行自动寻径的过程,每次寻径只需确定当前文本块对应的下一文本块。例如图3 所示的文档图片,当前文本块为R1,通过本次寻径可确定文本块R1的下一文本块 为R2;然后将R2作为当前文本再次进行寻径,得到R2的下一文本块为R4;以此 类推,直到对R6执行完寻径操作,并确定出R6对应的下一文本块为R7,虽然此 时R7和R8未执行寻径操作,但由于已经确定出R6对应的下一文本块为R7,因此R7和R8对应的寻径操作的执行顺序已经能够唯一确定(即先R7后R8)。通过上述自 动寻径方式,对文档图片的尺寸、样式具有更好的鲁棒性。并且自动寻径的依据是基于文本块之间位置以及版面布局信息的相关性,因此能够较好的克服图 片噪声或者识别环境对检测结果的影响,有利于保证检测结果的准确性。
本实施例中,预先通过合适的训练样本对所述机器学习模型进行训练,可 使得所述机器学习模型输出较为准确的预测结果,然后基于相关性可确定出准 确的下一文本块,适用于各种混合文档类型的文档阅读顺序检测。其中,所述 机器学习模型可以为神经网络模型,也可以为其他非神经网络的概率模型。
S140,确定所述块集合中文本块对应的寻径操作的执行顺序,根据所述执 行顺序得到所述文档图片中文本块的阅读顺序。
通过步骤S130的自动寻径,可得到每一个文本块及其对应的下一文本块, 当自动寻径结束时,根据所有文本块以及各文本块对应的下一文本块,便可得 到全部文本块的阅读顺序。例如在自动寻径结束后,可得到图3所示的文档图 片中文本块的阅读顺序为R1→R2→R4→R5→R3→R6→R7→R8
基于上述实施例的检测文档阅读顺序的方法,首先识别文档图片中包含的 全部文本块;从全部文本块中确定出一起始文本块,从起始文本块开始寻径, 根据文本块在文档图片中的位置信息以及该文本块的版面布局信息决定下一步 应该走到哪个文本块区域,直到得出全部文本块的阅读顺序。由此能够兼容多 种场景,对文档图片的尺寸、噪声、样式具有更好的鲁棒性,因此能够准确识 别各类文档图片对应的文档阅读顺序。
在一优选实施例中,所述机器学习模块中包含多个参数,在所述检测文档 阅读顺序的方法中,还包括对所述机器学习模型进行训练的步骤,以使得训练 之后的机器学习模型输出的特征预测信息与对应的样本信息的欧式距离满足设 定条件。欧式距离指的是欧几里得度量,表示两个相同维度向量的空间距离。
在一优选实施例中,对机器学习模块进行训练的方式可包括如下过程:
首先,获取训练样本。样本是指在机器学习过程中,已经标定好了的数据, 包括输入数据和输出数据。本实施例中训练样本即参与机器学习模块训练的若 干样本块,且所述若干样本块的阅读顺序为已知的。
然后,基于训练样本建立对应的样本库M={G,S,T}。其中G表示样本块的集 合,S表示样本块在先后各次训练中的顺序状态的集合,T表示训练过程中需确 定的状态变化序列。若G中样本块的总数为n,则有,
S={si;i∈[1,n],si∈[0,n]};
T={{R1,S1,S2},{R2,S2,S3},...{Rn-2,Sn-2,Sn-1}};
若si=0表示样本块Ri的阅读顺序未确定(即执行寻径操作的顺序未确定), 若si>0表示样本块Ri的阅读顺序已确定(即执行寻径操作的顺序已确定),且 阅读顺序为si的值,表示为S(Ri)=si。上述T中的每一个序列中的各项分别表 示当前参与训练的样本块、G中每个样本块当前的顺序状态的集合和需预测出的 G中每个样本块的下一顺序状态的集合。具体的,以{R2,S2,S3}序列为例,R2表示 当前参与训练的样本块为R2,S2表示R2参与训练时G中各个样本块对应的顺序状 态,S3表示采用R2参与训练时需预测出的G中每个样本块的下一个顺序状态。其 中,由于剩余的最后两个样本块可采用排除法直接确定出来,因此其不需要训 练,故在T中只需包括n-2个序列。
然后,基于上述的样本库M={G,S,T},依次采用T中的各个状态变化序列对 机器学习模型进行训练;当T中的所有状态变化序列均参与训练之后,保存所述 机器学习模型中的参数。
在一优选实施例中,根据T中的第k个序列{Rk,Sk,Sk+1}对机器学习模型中的 参数进行训练的具体实施方式可包括如下步骤1~步骤5:
步骤1,将样本块Rk的特征信息输入机器学习模型,获取机器学习模型输出 的Rk的下一文本块的特征预测信息Ok,k∈[1,n-2];
步骤2,获取Sk中顺序状态为0的样本块Ri,得到集合G*
G*={Ri;Sk(Ri)=0};i∈[1,n];
集合G*的维度为n-k;.
步骤3,将G*中各项分别与Ok进行点积运算,得到集合V*={vi=Ri·Ok};
步骤4,获取G*中各样本块Ri在Sk+1中对应的顺序状态,得到集合 Vπ={vi′=Sk+1(Ri)};集合Vπ的维度与集合G*的维度相等.
步骤5,对V*进行归一化处理可得到
Figure BDA0001241017240000081
对Vπ进行归一 化处理得到集合Vππ={vi″=vi′/sum(Vπ)};根据V**和Vππ构建所述样本块Rk参与训 练时对应的损失函数loss,基于该损失函数通过BP算法更新所述机器学习模型 中的参数。其中所述损失函数loss为:
Figure BDA0001241017240000082
本实施例中,损失函数是指在机器学习过程中,通过机器学习计算所得到 的误差,误差可以使用多种函数进行度量,且该函数一般为凸函数。即根据V**和 Vππ的欧式距离构建所述样本块Rk参与训练时对应的损失函数。欧式距离即欧几 里得度量,表示两个多为维向量的空间距离。通过每次学习过程中得到的损失 函数,使用BP算法对机器学习模型的参数进行调整,当损失函数收敛到一定程 度时,机器学习模型的输出准确度也会提高到某个程度。其中BP算法即误差反 向传播算法(Error Back Propagation),尤其适用于多层前馈网络模型的训练, 是指在训练过程中误差会累积到输出层,然后通过输出层将误差反向传递到每 一个前馈网络层,从而达到调节各前馈网络层参数的目的。
在一优选实施例中,为了准确的对各个文本块的特征信息进行学习,对识 别出的文本块采用文本框进行标记,并将每个文本块的特征信息用特征向量的 形式表示为:
R={x,y,w,h,s,d};
R表示文本块的特征向量,包含6个特征信息;x表示文本块的中心点的x 坐标;y表示文本块的中心点的y坐标;w表示文本块的宽度;h表示文本块的 高度;s表示文本块中所有连通区域的尺度均值;d表示文本块的密度信息。所 述连通区域是指在二值化图像中,能够通过像素之间的连接形成的区域;像素 之间的连接有4邻域和8邻域算法,例如8邻域连通算法,即在(x,y)位置的像素 点,如果与其相邻的8个点中的某一个与(x,y)的像素值相同,则两者是8邻域连 通的,递归查找所有连通的点,这些点的集合即为一个连通区域。
其中,
Figure BDA0001241017240000091
Figure BDA0001241017240000092
W、H分别表示取长度和取宽度的函数,ri为连通区域i,K表示文本块中包 含的连通区域的总量;p表示像素点的像素值。
在一优选实施例中,在识别文档图片中包含的文本块之后,还包括获取各 文本块的特征向量R={x,y,w,h,s,d}的步骤。为了让机器学习的模型对尺度信息 不敏感,进一步将文本块的对应特征信息做归一化处理,例如约定:
w=1.0;h=1.0;max(p)=1.0。
在一优选实施例中,从全部文本块中确定出一起始文本块的方式可包括:
以文档图片左上角顶点为原点建立XOY坐标系(参考图3、图5所示),并 且该XOY坐标系的x轴正方向指向文档图片的宽度方向,y轴正方向指向文档 图片的长度方向。首先,从所述块集合中获取中心点的x坐标最小的一个文本 块,作为文本块A。然后,获取中心点的y坐标小于所述文本块A的文本块, 构建一个文本块集合G′;并依次将该集合G′中的每一个文本块B与所述文本块A 进行对比;若所述文本块B与该文本块A在x轴方向的投影不存在交集,则将 所述文本块B从集合G′中删除;若所述文本块B与该文本块A在x轴方向的投 影存在交集,则更新所述文本块A为所述文本块B,并将所述文本块B从集合G′ 中删除。在每次文本块对比之后检测集合G′是否为空;若是,则将当前的文本 块A确定为起始文本块;若否,则在所述文本块A发生更新时更新集合G′,并 将更新后的集合G′中的每一个文本块与当前的文本块A进行上述对比;依次类 推直到集合G′为空。本实施例的起始文本块的确定方法,适用于各类复杂的文 档,并能准确识别出起始文本块。
在一优选实施例中,假设将每个文本块的特征向量表示为 R={r1,r2,r3,r4,r5,r6}={x,y,w,h,s,d},简记为R={rj;j∈[0,6)},rj为样本块的特征信息 j。所述机器学习模型选为神经网络模型。对应的,如图4所示,所述神经网络 模型可包括6维输入层、6维输出层、第一隐层以及第二隐层。在神经网络模型 中,输入层负责接收输入及分发到隐层(因为用户看不见这些层,所以见做隐 层),隐层负责所需的计算及输出结果给输出层,而用户则可以看到最终结果。
优先的,所述第一隐层、第二隐层分别为12维和20维的隐层。将所述 R={rj;j∈[0,6)}输入所述神经网络模型,则所述第一隐层的输出为K1
Figure BDA0001241017240000102
所述第二隐层的输出为K2
Figure BDA0001241017240000103
所述6维输出层的输出为O:
O={on=sigmoid∑aonk2m+bon;n∈[0,6),m∈[0,20)};
其中a1i、b1i为第一隐层对应的参数,k1i为第一隐层的第i维输出;a2m、b2m为第二隐层对应的参数,k2m为第二隐层的第m维输出;aon、bon为6维输出层 对应的参数,on为第n维输出,Sigmoid表示S型的非线性函数。
对于上述的神经网络模型的训练,以图5中的文本块为例,将图5中的文 本块作为样本块进行所述神经网络模型的训练,样本块包括R1,R2,R3,R4以及R5, 可分别表示为:
R1={x1,y1,w1,h1,s1,d1}
R2={x2,y2,w2,h2,s2,d2};
R3={x3,y3,w3,h3,s3,d3};
R4={x4,y4,w4,h4,s4,d4};
R5={x5,y5,w5,h5,s5,d5};
且已知R1,R2,R3,R4,R5的正确阅读顺序为R1→R3→R2→R4→R5
根据所述训练样本,设定每个样本块的当前顺序状态的集合为 S={si;i∈[1,5],si∈[0,5]},其中当si=0时表示对应的文本块Ri还未确定执行 寻径操作的顺序(即Ri的阅读顺序未确定),si>0表示对应的文本块Ri已确定 执行寻径操作的顺序(即Ri的阅读顺序已确定),且确定执行寻径操作的顺序为 si的值,表示为S(Ri)=si。因此所述训练样本在训练过程中对应的阅读状态可 包括:
S0=(0,0,0,0,0);
S1=(1,0,0,0,0);
S2=(1,0,2,0,0);
S3=(1,3,2,0,0);
S4=(1,3,2,4,0);
S5=(1,3,2,4,5);
进一步的,所述训练样本R1,R2,R3,R4,R5还可描述为以下状态序列:
{R1,S1,S2},{R3,S2,S3},{R2,S3,S4},{R4,S4,S5};
其中由于{R4,S4,S5}序列可以直接确定出来,因此其不需要训练,因此在样 本库中,T={{R1,S1,S2},{R3,S2,S3},{R2,S3,S4}}。基于所述样本库,首先采用 {R1,S1,S2}序列进行所述神经网络模型的训练,过程如下:
将R1输入到神经网络模型中,获取神经网络模型输出的下一阅读状态的预 测信息O1。选取S1中值为0所对应的样本块,可得到集合G*={R2,R3,R4,R5}。将 集合G*中的各项分别与O1进行点积,可得到V*={v2,v3,v4,v5},归一化后得到
Figure BDA0001241017240000121
获取G*中各项在S2中对应的状态值,可得到集合Vπ:
Vπ={v2′,v3′,v4′,v5′}={0,2,0,0};
归一化处理可得到Vππ={v2″,v3″,v4″,v5″}={0,1,0,0}。
根据集合V**和集合Vππ可构建样本块R1参与训练时对应的损失函数:
Figure BDA0001241017240000122
通过BP算法可更新所述神经网络模型中的所有参数。
按照上述步骤继续训练,即根据序列{R3,S2,S3},{R2,S3,S4}也按照上述步骤继 续训练,由此可完成所述神经网络模型的训练。本实施例中,通过选取适当的 训练样本,可得到性能稳定的神经网络模型;基于训练后的神经网络模型进行 文本块寻径,可准确得到当前文本块的下一文本块,有利于准确检测出各类型 文档图片中的文档阅读顺序。
本发明上述实施例的检测文档阅读顺序的方法,可应用于OCR***中自动 文档分析模块,所述自动文档分析模块在识别出文档图片包含的文本块之后, 对识别出的文本块进行排序,然后将文本块的阅读顺序输出给文本识别模块, 在文本识别模块中进行文本识别后,基于已经得到的阅读顺序,整理成最终的 可阅读文档,从而进行自动分析和存储。具体的,所述自动文档分析模块在对 文本块进行排序时,涉及信息处理过程包括:
设定选择算法A=A(R,S),该算法根据当前文本块R和当前的阅读顺序的状 态S,推导出下一个阅读顺序的状态S,可以表示为:
Figure BDA0001241017240000131
其中S0={si=0;i∈[1,n]},Sn={si=i;i∈[1,n]},n表示文档图片包含的 文本块的总数。
进一步的,所述算法A可分成三个部分:
1)Rstart选择器Ψ1
Ψ1用于对起始文本块进行选择,起始文本块用Rstart标记。在所有的文本块R 中,选取中心点坐标位于文档图片最左边的一个R,标记为Rl,然后对剩余的R 相对于Rl进行计算,选取y(R)<y(Rl)的文本块构建集合G′,优先的,还可对G′中 的R按照y坐标降序排列,然后按照顺序将G′中的每一个R与Rl进行对比,如 果R与Rl在x轴方向的投影有交集,则将此R标记为Rl,将所述R从G′中删除; 否则,不更新Rl,直接将此R从G′中删除;重复上述动作,直到G′为空,可确 定Rstart=Rl
在一优选实施例中,每次在将新的R标记为Rl,将所述R从G′中删除之后, 若检测到此时集合G′不为空,则更新集合G′(即获取所有中心点y坐标小于更新 后R1中心点y坐标的文本块得到新的集合G′),通过更新集合G′,可进一步减少 选择起始文本块的时间。
2)特征生成器Ψ2
Ψ2用于根据当前文本块Ri得出下一个阅读顺序状态的特征预测信息Oi+1,可 以描述为:
Figure BDA0001241017240000132
如上所述,各文本块可描述为R={x,y,w,h,s,d},对应的Ψ2可选用一个 包括6维输入、6维输出和两个分别为12维和20维的隐层的全连神经网络,其 结构如图4所示,其中每个圆圈表示一个神经元。对于每个样本块,若表示为 R={ri;i∈[0,6)},则第一个隐层的输出K1为:
Figure BDA0001241017240000141
第二隐层的输出为:
Figure BDA0001241017240000142
6维输出层的输出为:
O={oi=sigmoid∑aoik2j+boi;i∈[0,6),j∈[0,20)}
其中a、b均为需要训练的参数。O即为Ψ2的输出。
3)特征合成器Ψ3
通过Ψ2得到下一阅读顺序状态的特征预测信息之后,按照如下方式更新当前 的阅读顺序状态S,以得到的下一阅读顺序状态:
I)获取在当前阅读顺序状态S状态中为值0的文本块,构建集合G*
G*={Ri;Sk(Ri)=0};i∈[1,n];
II)对于每一个Ri∈G*,计算vi=Ri·O,得到集合V*,V*={vi=Ri·O};
III)找出V*中的最大值,并找出该值对应的文本块,记为R*
IV)更新当前阅读顺序状态S,即更新S中的S(R*)的值为S(R*)=max(S)+1; 由此可得到对应的下一阅读顺序状态,即得到对应的下一文本块。以此类推, 可到全部文本块的排序。
结合上述实施例所述,下面以图5所示的文档图片为例,对本发明的检测 文档阅读顺序的方法进行举例说明。包括步骤一~步骤五,各步骤具体说明如下:
步骤一,对原始的文档图片进行二值化处理和方向校正处理;再对经过二 值化处理及方向校正处理的文档图片进行版面分析,得到文档中包含的全部文 本块。如图5所示,得到文档中包含的文本块为R1,R2,R3,R4以及R5
步骤二,确定起始文本块。
由于在R1,R2,R3,R4以及R5中,R3的中心点x坐标位于最左侧,因此初始时将 Rstart赋值为R3
获取所有中心点y坐标小于R3中心点y坐标的文本块,并按照y坐标增序 排列,可得到集合G′=(R2,R1)。
循环更新Rstart。检测到文本块R2与R3在x轴方向的投影没有交集,因此从 集合G′中删除R2;检测到文本块R1与R3在x轴方向的投影有交集,因此将Rstart更 新为R1,并从集合G′中删除R1,由于此时集合G′已经为空,因此无需更新集合G′ (即无需获取所有中心点y坐标小于R1中心点y坐标的文本块以更新集合G′), 循环结束。获取当前Rstart对应的文本块为R1,由此可确定出图5所示文档的起 始文本块为R1
步骤三,从起始文本块R1开始自动寻径。
当前文本块为R1={x1,y1,w1,h1,s1,d1},当前状态为S1=(1,0,0,0,0);将 R1={x1,y1,w1,h1,s1,d1}输入到训练好的神经网络模型,获取神经网络模型输出的 预测信息为O={o1,o2,o3,o4,o5,o6};
基于当前状态为S1=(1,0,0,0,0),可得到集合G*={R2,R3,R4,R5};
进一步可得到:
V*={R2·O,R3·O,R4·O,R5·O,};
Ri·O=xi×o1+yi×o2+wi×o3+hi×o4+di×o5
选取V*中的最大值所对应的文本块,本实施例中可得出R3·O的值最大,更新 当前阅读顺序状态S1=(1,0,0,0,0)中文本块R3对应的值为s3=1+1=2,由此可 得出下一状态为S2=(1,0,2,0,0),确定出下一文本块为R3
然后将R3作为当前文本块,按照同样的方式,可得到R3对应的下一状态为 S3=(1,3,2,0,0),即R3对应的下一文本块为R2;再将R2作为当前文本块,按照同 样的方式,可得到R2对应的下一状态为S4=(1,3,2,4,0),即R2对应的下一文本块 为R4;然后将R4作为当前文本块,由于此时对应的集合G*中只有一个文本块(即 R5),可直接将该文本块作为当前文本块的下一文本块并得到对应的下一状态为 S5=(1,3,2,4,5);自此自动寻径结束。
步骤四,根据自动寻径的结果,可得到文档阅读顺序为 R1→R3→R2→R4→R5
步骤五:按照R1→R3→R2→R4→R5的顺序依次对文本块进行文本识别, 得到文档对应的可阅读文本信息,对可阅读文本信息进行保存以及输出显示。
其中,对文本块的文本识别包括行分割和行识别等步骤,依次以行为单位 进行字符识别,由此可得到整个文本块的文本信息。
通过上述实施例检测文档阅读顺序的方法,由于神经网络算法拥有大量的 参数,根据训练好的神经网络模型,能够兼容多种场景,对文档图片的尺寸、 噪声、样式具有更好的鲁棒性。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为 一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动 作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。 此外,还可对上述实施例进行任意组合,得到其他的实施例。
基于与上述实施例中的检测文档阅读顺序的方法相同的思想,本发明还提供 检测文档阅读顺序的装置,该装置可用于执行上述检测文档阅读顺序的方法。 为了便于说明,检测文档阅读顺序的装置实施例的结构示意图中,仅仅示出了 与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对 装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不 同的部件布置。
图6为本发明一实施例的检测文档阅读顺序的装置的示意性结构图;如图6 所示,本实施例的检测文档阅读顺序的装置包括:块识别模块610、起始块选择 模块620、自动寻径模块630以及顺序确定模块640,各模块详述如下:
所述块识别模块610,用于识别文档图片中包含的文本块,构建一个块集合;
在一优选实施例中,所述块识别模块610具体可包括:预处理子模块,用 于对所述文档图片进行二值化处理和方向校正处理;以及,版面识别子模块, 用于对经过二值化处理及方向校正处理的文档图片进行版面分析,得到文档中 包含的文本块。其中,版面分析是指在OCR中,将文档图片中的内容按照段落、 分页等信息划分为多个不重叠的区域的算法。由此可得出文档中包含的全部文 本块,例如图3所示或者图5所示。
所述起始块选择模块620,用于从所述块集合中确定出一起始文本块。
通常情况下,人们在阅读文档时会从文档的一角开始进行阅读,基于此, 在一优选实施例中,所述起始块选择模块620可用于从所述块集合中选择出中 心点坐标位于所述文档图片的一个顶点的文本块,并将该文本块确定为所述起 始文本块。例如,所述起始块选择模块620可用于从全部文本块中选择出中心 点坐标位于文档图片的左侧且最上方的一文本块(即左上角的文本块),将该文 本块确定为起始文本块。如图3中所示的文本块R1,或者图5中所示的文本块R1
可以理解的,在其他实施例中,对于不同的文档和实际的阅读习惯(例如 从右到左排版的文档),所述起始块选择模块620也可将其他文本块确定为起始 文本块。
所述自动寻径模块630,用于根据该起始文本块的特征信息对该起始文本块 执行寻径操作,以确定出所述块集合中与该起始文本块对应的第一文本块;文 本块的特征信息包括该文本块在文档图片中的位置信息以及该文本块的版面布 局信息;根据所述第一文本块的特征信息对该第一文本块执行寻径操作,以确 定出所述块集合中与该第一文本块对应的文本块;并依此类推直到所述块集合 中每一个文本块对应的寻径操作的执行顺序能够唯一确定。
本实施例中,所述自动寻径模块630用于执行一个自起始文本块起,对文 档包含的文本块进行自动寻径的过程,且每次寻径只需确定当前文本块对应的 下一文本块。例如图3所示的文档图片,当前文本块为R1,通过本次寻径可确 定文本块R1的下一文本块为R2;然后将R2作为当前文本再次进行寻径,得到R2的 下一文本块为R4;以此类推,直到确定出R6的下一文本块为R7为止,每一个文 本块对应的寻径操作的执行顺序能够唯一确定。
所述顺序确定模块640,用于确定所述块集合中文本块对应的寻径操作的执 行顺序,根据所述执行顺序得到所述文档图片中文本块的阅读顺序。
例如所述顺序确定模块640可得到图3所示的文档图片中文本块的阅读顺 序为R1→R2→R4→R5→R3→R6→R7→R8
在一优选实施例中,所述起始块选择模块620具体可用于以文档图片左上 角顶点为原点建立XOY坐标系,并且该XOY坐标系x轴正方向指向文档图片 的宽度方向,y轴正方向指向文档图片的长度方向;从所述块集合中获取中心点 的x坐标最小的一个文本块,作为文本块A;
获取中心点的y坐标小于所述文本块A的文本块,构建一个文本块集合G′; 并依次将该集合G′中的每一个文本块B与所述文本块A进行对比;
若所述文本块B与该文本块A在x轴方向的投影不存在交集,则将所述文 本块B从集合G′中删除;若所述文本块B与该文本块A在x轴方向的投影存在 交集,则更新所述文本块A为所述文本块B,并将所述文本块B从集合G′中删 除;在每次文本块对比之后检测集合G′是否为空;若是,则将当前的文本块A 确定为起始文本块;若否,则在所述文本块A发生更新时更新集合G′,并将更 新后的集合G′中的每一个文本块与当前的文本块A进行上述对比;依次类推直 到集合G′为空。
在一优选实施例中,每次在用新的文本块B更新所述文本块A,将所述文 本块B从G′中删除之后,若检测到此时集合G′不为空,则更新集合G′(即获取 所有中心点y坐标小于更新后的文本块A中心点y坐标的文本块得到新的集合 G′),通过更新集合G′,可进一步减少选择起始文本块的时间。
在一优选实施例中,如图7所示,所述检测文档阅读顺序的装置还包括: 训练模块650,用于预先训练机器学习模型,使得训练之后的机器学习模型输出 的特征预测信息与对应的样本信息的欧式距离满足设定条件。
在一优选实施例中,所述训练模块650可包括样本库构建子模块和训练子 模块。其中,样本库构建子模块,用于获取训练样本,建立样本库M={G,S,T}, 其中G表示样本块的集合,S表示样本块在先后各次训练中的顺序状态的集合, T表示训练过程中需确定的状态变化序列;若G中样本块的总数为n,则有,
S={si;i∈[1,n],si∈[0,n]};
T={{R1,S1,S2},{R2,S2,S3},...{Rn-2,Sn-2,Sn-1}};
si=0表示样本块Ri的阅读顺序未确定(即执行寻径操作的顺序未确定), 若si>0表示样本块Ri的阅读顺序已确定(即执行寻径操作的顺序已确定),且 阅读顺序为si的值,表示为S(Ri)=si;T中的每一个序列中的各项分别表示当 前参与训练的样本块、当前所有样本块的顺序状态的集合和需预测出的所有样 本块的下一顺序状态的集合。
其中,训练子模块,用于依次采用T中的各个序列对机器学习模型中的参数 进行训练;当T中的所有序列均参与训练之后,保存所述机器学习模型中的参数。
在一优选实施例中,所述训练子模块在根据T中的第k个序列{Rk,Sk,Sk+1}对 机器学习模型中的参数进行训练时,用于实现以下过程:
将样本块Rk的特征信息输入机器学习模型,获取机器学习模型输出的Rk的 下一文本块的特征预测信息Ok,k∈[1,n-2];
获取Sk中顺序状态为0的样本块Ri,得到集合G*,
G*={Ri;Sk(Ri)=0};i∈[1,n];
将集合G*中各项分别与Ok进行点积运算,得到集合V*={vi=Ri·Ok};
获取集合G*中各项在Sk+1中对应的顺序状态,得到集合Vπ={vi′=Sk+1(Ri)};
对集合V*进行归一化处理得到集合V**,对集合Vπ进行归一化处理得到集合 Vππ;根据集合V**和集合Vππ构建样本块Rk参与训练时对应的损失函数,基于该损 失函数通过BP算法更新所述机器学习模型中的参数,其中所述损失函数为:
loss=|V**-Vππ|。
在一优选实施例中,所述块识别模块610还用于获取各文本块的特征向量 R={x,y,w,h,s,d};其中x表示文本块的中心点的x坐标,y表示文本块的中心 点的y坐标,w表示文本块的宽度,h表示文本块的高度,s表示文本块中所有 连通区域的尺度均值,d表示文本块的密度信息。
对应的,所述机器学习模型为6维输入且6维输出的神经网络模型。例如: 所述神经网络模型包括6维输入层、6维输出层、第一隐层以及第二隐层,所述 第一隐层、第二隐层分别为12维和20维的隐层;
若每个文本块的特征信息表示为R={rj;j∈[0,6)},rj表示样本块的特征信息 j,则所述第一隐层的输出K1和第二隐层的输出K2分别为:
Figure BDA0001241017240000211
Figure BDA0001241017240000212
所述6维输出层的输出为O:
O={on=sigmoid∑aonk2m+bon;n∈[0,6),m∈[0,20)};
其中a1i、b1i为第一隐层对应的参数,k1i为第一隐层的第i维输出;a2m、b2m为第二隐层对应的参数,k2m为第二隐层的第m维输出;aon、bon为6维输出层 对应的参数,on为第n维输出,Sigmoid表示S型的非线性函数。
在一优选实施例中,所述的检测文档阅读顺序的装置还包括:文本识别模 块660,用于对各个文本块进行文本识别,并按照确定出的阅读顺序得到所述文 档图片的文本信息。
基于上述实施例提供的检测文档阅读顺序的装置,可识别文档图片中包含 的全部文本块,并从全部文本块中确定出一起始文本块;接下来从起始文本块 开始寻径,根据预先训练好的机器学习模型决定下一步应该走到哪个文本块区 域,直到得出全部文本块的阅读顺序。根据文本块在文档图片中的位置信息以 及该文本块的版面布局信息执行寻径能够兼容多种场景,对文档图片的尺寸、 噪声、样式具有更好的鲁棒性,能够准确识别各类文档图片对应的文档阅读顺 序。
需要说明的是,上述示例的检测文档阅读顺序的装置的实施方式中,各模 块之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一 构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发 明方法实施例中的叙述,此处不再赘述。
此外,上述示例的检测文档阅读顺序的装置的实施方式中,各功能模块的 逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置 要求或者软件的实现的便利考虑,将上述功能分配由不同的功能模块完成,即 将所述检测文档阅读顺序的装置的内部结构划分成不同的功能模块,以完成以 上描述的全部或者部分功能。其中各功能模既可以采用硬件的形式实现,也可 以采用软件功能模块的形式实现。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执 行如上述各方法的实施例的全部或部分步骤。其中,所述的存储介质可为磁碟、 光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详 述的部分,可以参见其它实施例的相关描述。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专 利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本 发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范 围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (21)

1.一种检测文档阅读顺序的方法,其特征在于,包括:
识别文档图片中包含的文本块,构建一个块集合;
从所述块集合中确定出一起始文本块;
根据该起始文本块的特征信息对该起始文本块执行寻径操作,以确定出所述块集合中与该起始文本块对应的第一文本块;文本块的特征信息包括该文本块在文档图片中的位置信息以及该文本块的版面布局信息;
根据所述第一文本块的特征信息对该第一文本块执行寻径操作,以确定出所述块集合中与该第一文本块对应的文本块;并依此类推直到所述块集合中每一个文本块对应的寻径操作的执行顺序能够唯一确定;及
确定所述块集合中文本块对应的寻径操作的执行顺序,根据所述执行顺序得到所述文档图片中文本块的阅读顺序;
其中,所述寻径操作包括:
通过预先训练好的机器学习模型对所述文本块的特征信息进行学习,得出与该文本块对应的文本块的特征预测信息;
计算所述块集合中未执行寻径操作的各文本块的特征信息与所述特征预测信息的相关度;及
根据上述计算出的相关度确定出所述文本块对应的文本块。
2.根据权利要求1所述的检测文档阅读顺序的方法,其特征在于,所述从所述块集合中确定出一起始文本块,包括:
从所述块集合中选择出中心点坐标位于所述文档图片的一个顶点的文本块,并将该文本块确定为所述起始文本块。
3.根据权利要求1所述的检测文档阅读顺序的方法,其特征在于,从所述块集合中确定出一起始文本块,包括:
以所述文档图片的一个顶点为原点建立XOY坐标系,该XOY坐标系的x轴正方向指向所述文档图片的宽度方向,y轴正方向指向所述文档图片的长度方向;
从所述块集合中获取中心点的x坐标最小的一个文本块,作为文本块A;
获取中心点的y坐标小于所述文本块A的文本块,构建一个文本块集合G′;并依次将该集合G′中的每一个文本块B与所述文本块A进行对比;
若所述文本块B与该文本块A在x轴方向的投影不存在交集,则将所述文本块B从集合G′中删除;若所述文本块B与该文本块A在x轴方向的投影存在交集,则更新所述文本块A为所述文本块B,并将所述文本块B从集合G′中删除;
在每次文本块对比之后检测集合G′是否为空;若是,则将当前的文本块A确定为起始文本块;若否,则在所述文本块A发生更新时更新集合G′,并将更新后的集合G′中的每一个文本块与当前的文本块A进行上述对比;依次类推直到集合G′为空。
4.根据权利要求1所述的检测文档阅读顺序的方法,其特征在于,还包括:
预先训练机器学习模型,使得训练之后的机器学习模型输出的特征预测信息与对应的样本信息的欧式距离满足设定条件。
5.根据权利要求4所述的检测文档阅读顺序的方法,其特征在于,预先训练机器学习模型,包括:
建立样本库,所述样本库中的信息包含:样本块的集合,该集合中每个样本块在先后各次训练中的顺序状态,以及训练需确定的状态变化序列;若所述样本块的集合中样本块的总数为n,则训练需确定的状态变化序列为n-2个,且每个状态变化序列中的信息包括:当前参与训练的样本块,所述样本块的集合中每个样本块的当前顺序状态,以及所述样本块的集合中每个样本块的下一顺序状态;
依次采用各个状态变化序列对机器学习模型进行训练;当n-2个状态变化序列均参与训练之后,保存所述机器学习模型中的参数。
6.根据权利要求5所述的检测文档阅读顺序的方法,其特征在于,采用第k个状态变化序列对机器学习模型进行训练,包括:
将所述样本块的集合中第k个样本块Rk的特征信息输入机器学习模型,获取机器学习模型输出的所述样本块Rk对应的文本块的特征预测信息Ok,k∈[1,n-2];
根据所述样本块的集合中每个样本块在所述样本块Rk参与训练时的顺序状态,获取其中阅读顺序未确定的样本块,得到集合G*
将所述集合G*中各样本块的特征信息分别与Ok进行点积运算,得到集合V*
获取所述集合G*中各样本块在第k+1个样本块参与训练时的顺序状态,得到集合Vπ
对集合V*进行归一化处理得到集合V**,对集合Vπ进行归一化处理得到集合Vππ;根据集合V**和集合Vππ构建所述样本块Rk参与训练时对应的损失函数,基于该损失函数通过BP算法更新所述机器学习模型中的参数。
7.根据权利要求1所述的检测文档阅读顺序的方法,其特征在于,
文本块在文档图片中的位置信息包括:文本块的中心点在文档图片中的x坐标,文本块的中心点在文档图片中的y坐标;
文本块的版面布局信息包括:文本块的宽度,文本块的高度,文本块中所有连通区域的尺度均值以及文本块的密度信息;
所述机器学习模型为6维输入且6维输出的神经网络模型。
8.根据权利要求7所述的检测文档阅读顺序的方法,其特征在于,所述神经网络模型包括6维输入层、6维输出层、第一隐层以及第二隐层,所述第一隐层、第二隐层分别为12维和20维的隐层。
9.根据权利要求1至8任一所述的检测文档阅读顺序的方法,其特征在于,识别文档图片中包含的文本块,包括:
对所述文档图片进行二值化处理和方向校正处理;
对经过二值化处理及方向校正处理的文档图片进行版面分析,得到文档图片中包括的文本块。
10.根据权利要求1至8任一所述的检测文档阅读顺序的方法,其特征在于,还包括:
对各个文本块进行文本识别,并按照所述确定出的阅读顺序得到所述文档图片的文本信息。
11.一种检测文档阅读顺序的装置,其特征在于,包括:
块识别模块,用于识别文档图片中包含的文本块,构建一个块集合;
起始块选择模块,用于从所述块集合中确定出一起始文本块;
自动寻径模块,用于根据该起始文本块的特征信息对该起始文本块执行寻径操作,以确定出所述块集合中与该起始文本块对应的第一文本块;文本块的特征信息包括该文本块在文档图片中的位置信息以及该文本块的版面布局信息;根据所述第一文本块的特征信息对该第一文本块执行寻径操作,以确定出所述块集合中与该第一文本块对应的文本块;并依此类推直到所述块集合中每一个文本块对应的寻径操作的执行顺序能够唯一确定;及
顺序确定模块,用于确定所述块集合中文本块对应的寻径操作的执行顺序,根据所述执行顺序得到所述文档图片中文本块的阅读顺序;
其中,所述自动寻径模块在对文本块执行寻径操作时,通过预先训练好的机器学习模型对所述文本块的特征信息进行学习,得出与该文本块对应的文本块的特征预测信息;计算所述块集合中未执行寻径操作的各文本块的特征信息与所述特征预测信息的相关度;以及根据上述计算出的相关度确定出所述文本块对应的文本块。
12.根据权利要求11所述的检测文档阅读顺序的装置,其特征在于,所述起始块选择模块,用于从所述块集合中选择出中心点坐标位于所述文档图片的一个顶点的文本块,并将该文本块确定为所述起始文本块。
13.根据权利要求11所述的检测文档阅读顺序的装置,其特征在于,所述起始块选择模块,用于
以所述文档图片的一个顶点为原点建立XOY坐标系,该XOY坐标系的x轴正方向指向所述文档图片的宽度方向,y轴正方向指向所述文档图片的长度方向;
从所述块集合中获取中心点的x坐标最小的一个文本块,作为文本块A;
获取中心点的y坐标小于所述文本块A的文本块,构建一个文本块集合G′;并依次将该集合G′中的每一个文本块B与所述文本块A进行对比;
若所述文本块B与该文本块A在x轴方向的投影不存在交集,则将所述文本块B从集合G′中删除;若所述文本块B与该文本块A在x轴方向的投影存在交集,则更新所述文本块A为所述文本块B,并将所述文本块B从集合G′中删除;
在每次文本块对比之后检测集合G′是否为空;若是,则将当前的文本块A确定为起始文本块;若否,则在所述文本块A发生更新时更新集合G′,并将更新后的集合G′中的每一个文本块与当前的文本块A进行上述对比;依次类推直到集合G′为空。
14.根据权利要求11所述的检测文档阅读顺序的装置,其特征在于,还包括:
训练模块,用于预先训练机器学习模型,使得训练之后的机器学习模型输出的特征预测信息与对应的样本信息的欧式距离满足设定条件。
15.根据权利要求14所述的检测文档阅读顺序的装置,其特征在于,所述训练模块,包括:
样本库构建子模块,用于建立样本库,所述样本库中的信息包含:样本块的集合,该集合中每个样本块在先后各次训练中的顺序状态,以及训练需确定的状态变化序列;若所述样本块的集合中样本块的总数为n,则训练需确定的状态变化序列为n-2个,且每个状态变化序列中的信息包括:当前参与训练的样本块,所述样本块的集合中每个样本块的当前顺序状态,以及所述样本块的集合中每个样本块的下一顺序状态;
以及,训练子模块,用于依次采用各个状态变化序列对机器学习模型进行训练;当n-2个状态变化序列均参与训练之后,保存所述机器学习模型中的参数。
16.根据权利要求15所述的检测文档阅读顺序的装置,其特征在于,
所述训练子模块在采用第k个状态变化序列对机器学习模型进行训练时,将所述样本块的集合中第k个样本块Rk的特征信息输入机器学习模型,获取机器学习模型输出的所述样本块Rk对应的文本块的特征预测信息Ok,k∈[1,n-2];
根据所述样本块的集合中每个样本块在所述样本块Rk参与训练时的顺序状态,获取其中阅读顺序未确定的样本块,得到集合G*
将所述集合G*中各样本块的特征信息分别与Ok进行点积运算,得到集合V*
获取所述集合G*中各样本块在第k+1个样本块参与训练时的顺序状态,得到集合Vπ
对集合V*进行归一化处理得到集合V**,对集合Vπ进行归一化处理得到集合Vππ;根据集合V**和集合Vππ构建所述样本块Rk参与训练时对应的损失函数,基于该损失函数通过BP算法更新所述机器学习模型中的参数。
17.根据权利要求11所述的检测文档阅读顺序的装置,其特征在于,
所述块识别模块,还用于获取各文本块的特征信息,包括:文本块的中心点在文档图片中的x坐标,文本块的中心点在文档图片中的y坐标,文本块的宽度,文本块的高度,文本块中所有连通区域的尺度均值以及文本块的密度信息;
所述机器学习模型为6维输入且6维输出的神经网络模型。
18.根据权利要求11至17任一所述的检测文档阅读顺序的装置,其特征在于,所述块识别模块,包括:
预处理子模块,用于对所述文档图片进行二值化处理和方向校正处理;
以及,版面识别子模块,用于对经过二值化处理及方向校正处理的文档图片进行版面分析,得到文档图片中包含的文本块。
19.根据权利要求11至17任一所述的检测文档阅读顺序的装置,其特征在于,还包括:
文本识别模块,用于对各个文本块进行文本识别,并按照所述确定出的阅读顺序得到所述文档图片的文本信息。
20.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现如权利要求1至10中任一项所述的检测文档阅读顺序的方法。
21.一种终端设备,包括存储介质,处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至10中任一项所述的检测文档阅读顺序的方法。
CN201710134711.1A 2017-01-24 2017-03-08 检测文档阅读顺序的方法和装置 Active CN108334805B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710134711.1A CN108334805B (zh) 2017-03-08 2017-03-08 检测文档阅读顺序的方法和装置
TW107101731A TWI667054B (zh) 2017-01-24 2018-01-17 飛行器飛行控制方法、裝置、飛行器及系統
PCT/CN2018/075626 WO2018161764A1 (zh) 2017-03-08 2018-02-07 检测文档阅读顺序的方法、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710134711.1A CN108334805B (zh) 2017-03-08 2017-03-08 检测文档阅读顺序的方法和装置

Publications (2)

Publication Number Publication Date
CN108334805A CN108334805A (zh) 2018-07-27
CN108334805B true CN108334805B (zh) 2020-04-03

Family

ID=62923005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710134711.1A Active CN108334805B (zh) 2017-01-24 2017-03-08 检测文档阅读顺序的方法和装置

Country Status (2)

Country Link
CN (1) CN108334805B (zh)
WO (1) WO2018161764A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423828B2 (en) * 2017-12-15 2019-09-24 Adobe Inc. Using deep learning techniques to determine the contextual reading order in a form document
CN109934229B (zh) * 2019-03-28 2021-08-03 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110059146B (zh) * 2019-04-16 2021-04-02 珠海金山网络游戏科技有限公司 一种数据采集方法、服务器、计算设备及存储介质
CN111079641B (zh) * 2019-12-13 2024-04-16 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN113282779A (zh) * 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 图像搜索方法、装置、设备
CN113283432A (zh) * 2020-02-20 2021-08-20 阿里巴巴集团控股有限公司 图像识别、文字排序方法及设备
CN111507267B (zh) * 2020-04-17 2023-05-26 北京百度网讯科技有限公司 文档朝向检测方法、装置、设备以及存储介质
CN112966676B (zh) * 2021-02-04 2023-10-20 北京易道博识科技有限公司 一种基于零样本学习的文档关键信息抽取方法
CN114495147B (zh) * 2022-01-25 2023-05-05 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN115641573B (zh) * 2022-12-22 2023-07-14 苏州浪潮智能科技有限公司 一种文本排序方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866418A (zh) * 2009-04-17 2010-10-20 株式会社理光 确定文档阅读顺序的方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1152973A (ja) * 1997-08-07 1999-02-26 Ricoh Co Ltd 文書読み上げ方式
JP4615385B2 (ja) * 2005-07-12 2011-01-19 株式会社沖データ 画像読取装置
US8325362B2 (en) * 2008-12-23 2012-12-04 Microsoft Corporation Choosing the next document
CN104268127B (zh) * 2014-09-22 2018-02-09 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN105512647A (zh) * 2016-01-19 2016-04-20 同方知网(北京)技术有限公司 扫描版文件在小屏幕设备智能分版的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866418A (zh) * 2009-04-17 2010-10-20 株式会社理光 确定文档阅读顺序的方法和设备

Also Published As

Publication number Publication date
WO2018161764A1 (zh) 2018-09-13
CN108334805A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN108334805B (zh) 检测文档阅读顺序的方法和装置
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
CN109359564B (zh) 一种图像场景图生成方法及装置
CN110276406B (zh) 表情分类方法、装置、计算机设备及存储介质
CN110717366A (zh) 文本信息的识别方法、装置、设备及存储介质
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
JP6426441B2 (ja) 密度計測装置、密度計測方法、およびプログラム
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN111597943B (zh) 一种基于图神经网络的表格结构识别方法
CN114387608B (zh) 一种联合卷积与图神经网络的表格结构识别方法
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113780365A (zh) 样本生成方法和装置
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
CN112287140A (zh) 一种基于大数据的图像检索方法及***
CN110210572B (zh) 图像分类方法、装置、存储介质及设备
CN116704511A (zh) 设备清单文字识别方法和装置
US11816909B2 (en) Document clusterization using neural networks
CN113239909B (zh) 一种题目处理方法、装置、设备及介质
CN115690795A (zh) 简历信息提取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant