CN112329548A - 一种文档章节分割方法、装置及存储介质 - Google Patents

一种文档章节分割方法、装置及存储介质 Download PDF

Info

Publication number
CN112329548A
CN112329548A CN202011106303.3A CN202011106303A CN112329548A CN 112329548 A CN112329548 A CN 112329548A CN 202011106303 A CN202011106303 A CN 202011106303A CN 112329548 A CN112329548 A CN 112329548A
Authority
CN
China
Prior art keywords
information
chapter
picture
electronic document
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011106303.3A
Other languages
English (en)
Inventor
薛晗庆
潘红九
李昊星
陈超
窦小明
施卫科
雷净
李萌萌
杨飞
尹琼
底亚峰
皮彬睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Near Space Vehicles System Engineering
Original Assignee
Beijing Institute of Near Space Vehicles System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Near Space Vehicles System Engineering filed Critical Beijing Institute of Near Space Vehicles System Engineering
Priority to CN202011106303.3A priority Critical patent/CN112329548A/zh
Publication of CN112329548A publication Critical patent/CN112329548A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文档章节分割方法、装置及存储介质,用于提高图片电子文档的章节内容分割的速度和准确性。本申请提供的文档章节分割方法包括:读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;识别所述待识别单元中的文字信息,得到待处理文本;将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。本申请还提供了一种文档章节分割装置及存储介质。

Description

一种文档章节分割方法、装置及存储介质
技术领域
本申请涉及信息处理领域,尤其涉及一种文档章节分割方法、装置和存储介质。
背景技术
随着信息技术的不断发展,电子化图书、文档的使用愈发广泛和普遍。图片电子文档是指对纸质图书、稿件、文档等通过拍照、扫描等方式转存成图片格式存储的电子文档。图片电子文档通常由一张张独立的图片组成,使得图片电子文档的使用者很难了解文档的整体结构分布,特别是每一级章节标题下所包含的内容查找起来十分不便。这使得基于图片电子文档章节结构分布的任务 (如章节内容分类、章节内容匹配等)变得难以处理。为了得到图片电子文档的整体结构分布需要将图片电子文档每一级章节标题的内容分割出来。现有技术中,基于图片内容中每一行黑色像素的稀疏程度来确定章节标题所含内容并进行分割,分割结果准确率较低,而且分割后人工确认分割结果所属章节标题,效率低下。
发明内容
针对上述技术问题,本申请实施例提供了一种文档章节分割方法、装置及存储介质,用以图片电子文档的章节内容分割的速度和准确性。
第一方面,本申请实施例提供的一种文档章节分割方法,包括:
读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;
根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;
识别所述待识别单元中的文字信息,得到待处理文本;
将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。
进一步的,所述输入图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息包括:
读取图片电子文档,确定页码页数信息;
读取所述图片电子文档对应的树形目录结构信息,所述树形目录结构信息包括层级信息,所述层级信息对应的章节标题信息和同级章节标题信息之间的分隔符;
判断所述分隔符是否正确,若不正确则提示重新输入所述树形目录结构信息;
读取所述图片电子文档对应的栏位信息;
判断所述栏位信息是否正确,若不正确则提示重新输入所述栏位信息。
进一步的,所述根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元包括:
对所述图片电子文档中的每一张图片,执行以下操作:
读取当前图片对应的栏位信息;
若所述栏位信息的栏位数目小于1,则不执行栏位分割,否则进行栏位分割。
优选的,所述栏位分割包括:
对所述当前图片进行图像二值化处理,得到第一图片;
确定所述第一图片中纵向的黑色像素分布信息和栏位数目信息,确定栏位符所处的位置信息;
根据所述栏位所处的位置信息,对当前图片进行分割,得到待识别单元。
进一步的,所述识别所述待识别单元中的文字信息,得到待处理文本包括:
对所述图片电子文档的所有待识别单元,执行以下操作:
识别所述待识别单元中的文本内容,确定所述文本内容的坐标位置;
存储所述坐标位置和所述文本内容。
进一步的,所述将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容包括:
判断所述正则匹配是否成功,若成功,则记录章节标题信息,所述章节标题的层级和对应的页面位置;
根据所述章节标题信息,所述章节标题的层级和对应的页面位置,记录所述章节的内容,并对章节对应的图片进行分割操作;
存储分割结果,所述分割结果包括章节标题信息,所述章节比套提包含的内容,所述章节的起始页码,所述章节的截止页码。
优选的,所述根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节包括:
对所有章节按所述页码大小升序排序;
根据所述树形目录结构信息和所述起始页码的排列顺序,确定不同章节的内容。
使用本发明提供的文档章节分割方法,能识别电子图片文档中的文字内容信息,并将这些文字内容信息与电子图片文档的树形目录结构进行正则匹配,从而提高章节内容分割的正确性。使用本发明提供的文档章节分割方法,分割过程无需人工参与,提高了电子图片文档章节分割的效率。
第二方面,本申请实施例还提供一种文档章节分割装置,包括:
用户输入模块,用于输入图片电子文档,所述图片电子文档对应的树形目录结构信息和页内栏位信息;
页内栏位分割模块,用于根据所述页内栏位信息,将所述图片电子文档进行分割,得到待识别单元;
光学字符识别模块,用于识别所述待识别单元中的文字信息,得到待处理文本,确定所述文字信息的坐标位置;
章节标题匹配分割模块,将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
分割结果组织模块,用于根据所述章节标题匹配分割模块确定的章节内容和页码信息,确定所述图片电子文档的章节。
第三方面,本申请实施例还提供一种手写汉字识别装置,包括:存储器、处理器和用户接口;
所述存储器,用于存储计算机程序;
所述用户接口,用于与用户实现交互;
所述处理器,用于读取所述存储器中的计算机程序,所述处理器执行所述计算机程序时,实现本发明提供的文档章节分割方法。
第四方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现本发明提供的文档章节分割方法。
通过本发明提供的文档章节分割方法、装置和存储介质,可提高图片电子文档章节分割的准确性和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文档章节分割方法示意图;
图2为本申请实施例提供的信息输入流程示意图;
图3为本申请实施例提供的栏位分割流程示意图;
图4为本申请实施例提供的文字识别流程示意图;
图5为本申请实施例提供的文字信息与树形目录结构信息正则匹配流程示意图;
图6为本申请实施例提供的分割结果输出流程示意图;
图7为本申请实施例提供的一种文档分割装置结构示意图;
图8为本申请实施例提供的另一种文档分割装置结构示意图;
图9为本申请实施例提供的文本内容坐标位置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面对文中出现的一些词语进行解释:
1、本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
2、本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
3、图片电子文档是指对纸质图书、稿件、文档等通过拍照、扫描等方式转存成图片格式存储的电子文档。
4、树形目录结构信息,是指以树形结构组织的目录,例如:
第一章:标题1
1.1标题2
1.1.1标题3
1.1.2标题4
1.2标题5
1.2.1标题6
1.2.2标题7
第二章:标题8
第三章:标题9
3.1标题10
3.2标题11
3.2.1标题12
3.2.1.1标题13
3.2.1.2标题14
在上述树形结构组织目录中,包括了目录层级关系,以及各层级的标题。
5、栏位信息是指:指图片电子文档的页面内容存在分栏符,将一页信息分成多栏。
6、文本内容坐标位置:某个字符对象出现在图像中其左上角的像素坐标,及字符宽度、高度。例如图9所示;
7、非法值:软件不期望得到输入值,如类型异常值、数值异常等,例如小汽车轮子的个数一般为整数4,不可为小数如4.2,字符X等。
8、合法值:软件期望得到的输入值。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例的展示顺序仅代表实施例的先后顺序,并不代表实施例所提供的技术方案的优劣。
实施例一
参见图1,本申请实施例提供的一种文档章节分割方法示意图,如图所示,该方法包括步骤S101到S105:
S101,读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;
本发明提供的文档章节分割方法,需要的输入信息包括待处理的图片电子文档,该图片电子文档对应的树形目录结构信息和页内栏位信息。图片电子文档可以由多张图片组成。
需要说明的是,页内栏位信息数量可以为0,即表示没有页内栏位分割。每一张图片都有相应的页内栏位信息。
作为一种优选的示例,图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息的输入流程如图2所示,包括:
S201、读取图片电子文档,确定页码页数信息;
S202、读取所述图片电子文档对应的树形目录结构信息,所述树形目录结构信息包括层级信息,所述层级信息对应的章节标题信息和同级章节标题信息之间的分隔符;
S203、判断所述分隔符是否正确,若不正确则提示重新输入所述树形目录结构信息;
S204、读取所述图片电子文档对应的栏位信息;
S205、判断所述栏位信息是否正确,若不正确则提示重新输入所述栏位信息。
需要说明的是,上述判断栏位信息是否正确,可以通过读取的值是否为非法值来判断,即如果为非法值,则不正确,提示再次输入。下面结合具体步骤,给出一个优选示例:
A1、提示录入图片电子化文档,并对其进行读取,确定图片电子化文档的基本信息。基本信息包括页码,页数等。
A2、提示录入目录结构信息,并对其进行读取。目录结构信息按照层级进行划分,需按照层级分别录入对应章节标题信息。同级章节标题信息之间以预定的分隔符分隔开;
A3、判断用户输入的同级目录的分隔符是否正确,若分隔符正确,则继续执行步骤A5;
A4、步骤A3中,若输入的同级目录的分隔符信息判断为不正确,返回执行步骤A2,提示重新录入目录结构信息;
A5、提示录入栏位信息,并对其进行读取。栏位信息是一个大于等于零的整数值;
A6、判断输入的栏位信息是否一个合法值,若为合法值,继续执行步骤 A8;
A7、步骤A6中,若输入的栏位信息判断为一个非法值,返回执行步骤 A5;
A8、对录入的图片电子文档,目录结构信息和栏位信息进行存储。
S102,根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;
需要说明的是,栏位分割需要针对每一张图片分别进行。作为一种优选示例,对每一张图片的栏位分割包括如图3所示的步骤S301到S305:
S301、读取当前图片对应的栏位信息;
S302、判断栏位数据是否小于1,若是则执行步骤S306,否则执行S303;
S303、对所述当前图片进行图像二值化处理,得到第一图片;
S304、确定所述第一图片中纵向的黑色像素分布信息和栏位数目信息,确定栏位符所处的位置信息;
S305、根据所述栏位所处的位置信息,对当前图片进行分割,得到待识别单元。
S306、结束。
作为一种优选示例,下面给出整个图片电子文档的栏位分割过程:
B1、读取存储的栏位信息;
B2、判断栏位数目是否大于1,若数目大于1,继续执行步骤B4;
B3、步骤B2中,若栏位数目小于1,则结束。需要说明的是,栏位数目小于1则表明页内不存在分栏符,无需进行分割操作;
B4、对图片电子化文档的页面进行图像二值化处理。此处所述的图像二值化处理是将页面图像上的像素点的灰度值设置为0或255,使整个页面图像呈现出明显的非黑即白的效果;
B5、读取一页经过二值化处理的页面图像,统计该页上的纵向黑色像素点的分布信息;
B6、根据步骤B5中纵向黑色像素点的分布信息和栏位数目信息,综合判断当前页面图像上栏位符所处的位置信息;
B7、根据步骤B6中得到的当前页面图像上栏位符所处的位置信息,对当前页面图像进行栏位分割处理,每个分割出来的图像是后续步骤待处理单元;
B8、对步骤B7分割出来的待处理单元进行存储;
B9、判断是否已经对所有图片电子文档的页面图像均进行了栏位分割处理,若没有处理完毕,继续执行步骤B11;
B10、步骤B9中,若判断已经处理完毕,结束分割操作;
B11、对当前需要进行栏位分割处理的页面图像进行更新,返回执行步骤 B5。
S103,识别所述待识别单元中的文字信息,得到待处理文本;
本步骤中,识别待识别单元中的文字信息,可以基于卷积循环神经网络 (CRNN)和注意力(attention)机制的端到端光学字符识别技术,也可以通过其他技术实现,本实施例不做限定。
作为一种优选示例,识别过程如图4所示,包括步骤S401到S405:
S401、读取待识别单元;
S402、对待识别单元进行光学字符识别;本步骤中,还确定文本内容的坐标位置。
S403、存储文字内容识别结果;本步骤中,存储的内容包括坐标位置和文本内容。
S404、判断是否处理完毕全部待识别单元,若是则执行S405,否则执行S401。
S405、结束。
经过本步骤处理后,识别出经过栏位分割后的所有待处理单元的文字内容和坐标位置信息。
S104,将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
作为一种优选的示例,正则匹配过程可包括如图5所示的S501到S503 步骤:
S501、判断所述正则匹配是否成功,若成功,则记录章节标题信息,所述章节标题的层级和对应的页面位置;
S502、根据所述章节标题信息,所述章节标题的层级和对应的页面位置,记录所述章节的内容,并对章节对应的图片进行分割操作;作为一种优选示例,进行分割是指按照某行坐标位置,对图像进行横向分割,而栏位分割是纵向的分割。
S503、存储分割结果,所述分割结果包括章节标题信息,所述章节比套提包含的内容,所述章节的起始页码,所述章节的截止页码。
下面给出一个具体的示例:
C1、读取存储的目录结构信息;
C2、根据目录结构信息中所包含的章节标题层级信息和章节标题内容信息,为不同级别中的各个章节标题分别构造匹配正则表达式;
C3、读取一个待处理单元的文字内容信息;
C4、根据步骤C2得到的正则表达式信息,在当前处理单元中执行正则匹配;
C5、判断当前待处理单元中是否有正则表达式匹配成功,若有正则表达式匹配成功,则执行步骤C8,若没有正则表达式匹配成功则执行步骤C6;有正则表达式匹配成功即在当前处理单元中找到了章节标题;没有正则表达式匹配成功则表明在当前处理单元中没有找到章节标题。
C6、判断当前是否全部待处理单元都已经进行过关于章节标题内容的正则查找匹配,若全部处理单元均已经过正则匹配,则结束;
C7、步骤C6中,若不是全部处理单元都已经进行过正则匹配,则表明还有待处理单元需要进行章节标题匹配分割处理,返回执行步骤C3;
C8、步骤C5中,若在当前待处理单元中找到了章节标题,则需要对章节标题信息及其所属章节层级和页面位置信息进行记录;
C9、根据步骤C8中记录的章节标题信息及其所属章节层级和页面位置信息,判断是否可以确定某些层级的章节内容,若可以确定出某些层级的章节内容,继续执行步骤C11;
C10、步骤C9中,若无法确定全部层级的章节内容,返回执行步骤C6;
C11、对步骤C9中确定出的某些层级的章节内容进行记录,并执行页面图形单元分割操作;
C12、对分割结果进行存储,分割结果包括章节标题,该标题所包含的内容及其起始页码、截止页码等,返回执行步骤C6。
经过上述正则匹配后,完成所有待处理单元的标题搜索匹配过程。
S105,根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。
本步骤中,可以按照目录结构或者按页重新组织分割结果。
其中,案页中心组织分割结果可包括:
对所有章节按所述页码大小升序排序;
根据所述树形目录结构信息和所述起始页码的排列顺序,确定不同章节的内容。本实施例中,确定不同章节的内容,按目录组织输出结果过程即根据所述内容与章节号之间的映射关系,组织得到图片电子文档的目录信息。
通过本实施例的方法,对图片文档进行栏位分割后,对文字信息进行识别,并确定文字信息的坐标位置,然后将文字信息与树形目录结构信息进行正则匹配,从而实现了高效的章节内容分割。
通过本发明的方法提高通过本发明的方法,分割过程无需人工参与,提高了分割的效率。通过对图片文字内容的自动识别和正则匹配,与树形目录结构进行严格匹配,从而提高了章节分割的准确性。
实施例二
基于同一个发明构思,本发明实施例还提供了一种文档章节分割装置,如图7所示,该装置包括:
用户输入模块701,用于输入图片电子文档,所述图片电子文档对应的树形目录结构信息和页内栏位信息;
页内栏位分割模块702,用于根据所述页内栏位信息,将所述图片电子文档进行分割,得到待识别单元;
光学字符识别模块703,用于识别所述待识别单元中的文字信息,得到待处理文本,确定所述文字信息的坐标位置;
章节标题匹配分割模块704,将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
分割结果组织模块705,用于根据所述章节标题匹配分割模块确定的章节内容和页码信息,确定所述图片电子文档的章节。
需要说明的是,本实施例提供的用户输入模块701,能实现图2信息输入过程,解决相同技术问题,达到相同技术效果,在此不再赘述;
相应的,本实施例提供的页内栏位分割模块702,能实现图3所示的页内栏位分割全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述;
相应的,本实施例提供的光学字符识别模块703,能实现图4所示的光学识别全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述;
相应的,本实施例提供的章节标题匹配分割模块704,能实现图5所示的正则匹配过程,解决相同技术问题,达到相同技术效果,在此不再赘述;
相应的,本实施例提供的分割结果组织模块705,能实现图6所示的分割结果组织的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
需要说明的是,实施例二提供的装置与实施例一提供的方法属于同一个发明构思,解决相同的技术问题,达到相同的技术效果,实施例二提供的装置能实现实施例一的所有方法,相同之处不再赘述。
实施例三
基于同一个发明构思,本发明实施例还提供了一种文档章节分割装置,如图8所示,该装置包括:
包括存储器802、处理器801和用户接口803;
所述存储器802,用于存储计算机程序;
所述用户接口803,用于与用户实现交互;
所述处理器801,用于读取所述存储器802中的计算机程序,所述处理器 801执行所述计算机程序时,实现:
读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;
根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;
识别所述待识别单元中的文字信息,得到待处理文本;
将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。
其中,在图8中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器801代表的一个或多个处理器和存储器802代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器801负责管理总线架构和通常的处理,存储器802可以存储处理器801在执行操作时所使用的数据。
处理器801可以是CPU、ASIC、FPGA或CPLD,处理器801也可以采用多核架构。
处理器801执行存储器802存储的计算机程序时,实现图1到图6所示的任一文档章节分割方法。
需要说明的是,实施例三提供的装置与实施例一提供的方法属于同一个发明构思,解决相同的技术问题,达到相同的技术效果,实施例三提供的装置能实现实施例一的所有方法,相同之处不再赘述。
本申请还提出一种处理器可读存储介质。其中,该处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现实现图1到图6所示的任一手文档章节分割方法。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文档章节分割方法,其特征在于,包括:
读取图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息;
根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元;
识别所述待识别单元中的文字信息,得到待处理文本;
将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节。
2.根据权利要求1所述的方法,其特征在于,所述输入图片电子文档,所述图片电子文档的树形目录结构信息和页内栏位信息包括:
读取图片电子文档,确定页码页数信息;
读取所述图片电子文档对应的树形目录结构信息,所述树形目录结构信息包括层级信息,所述层级信息对应的章节标题信息和同级章节标题信息之间的分隔符;
判断所述分隔符是否正确,若不正确则提示重新输入所述树形目录结构信息;
读取所述图片电子文档对应的栏位信息;
判断所述栏位信息是否正确,若不正确则提示重新输入所述栏位信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述页内栏位信息,对所述图片电子文档进行栏位分割,得到待识别单元包括:
对所述图片电子文档中的每一张图片,执行以下操作:
读取当前图片对应的栏位信息;
若所述栏位信息的栏位数目小于1,则不执行栏位分割,否则进行栏位分割。
4.根据权利要求3所述的方法,其特征在于,所述栏位分割包括:
对所述当前图片进行图像二值化处理,得到第一图片;
确定所述第一图片中纵向的黑色像素分布信息和栏位数目信息,确定栏位符所处的位置信息;
根据所述栏位所处的位置信息,对当前图片进行分割,得到待识别单元。
5.根据权利要求1所述的方法,其特征在于,所述识别所述待识别单元中的文字信息,得到待处理文本包括:
对所述图片电子文档的所有待识别单元,执行以下操作:
识别所述待识别单元中的文本内容,确定所述文本内容的坐标位置;
存储所述坐标位置和所述文本内容。
6.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容包括:
判断所述正则匹配是否成功,若成功,则记录章节标题信息,所述章节标题的层级和对应的页面位置;
根据所述章节标题信息,所述章节标题的层级和对应的页面位置,记录所述章节的内容,并对章节对应的图片进行分割操作;
存储分割结果,所述分割结果包括章节标题信息,所述章节比套提包含的内容,所述章节的起始页码,所述章节的截止页码。
7.根据权利要求6所述的方法,其特征在于,所述根据所述章节内容和所述树形目录结构信息,确定所述图片电子文档的章节包括:
对所有章节按所述页码大小升序排序;
根据所述树形目录结构信息和所述起始页码的排列顺序,确定不同章节的内容。
8.一种文档章节分割装置,其特征在于,包括:
用户输入模块,用于输入图片电子文档,所述图片电子文档对应的树形目录结构信息和页内栏位信息;
页内栏位分割模块,用于根据所述页内栏位信息,将所述图片电子文档进行分割,得到待识别单元;
光学字符识别模块,用于识别所述待识别单元中的文字信息,得到待处理文本,确定所述文字信息的坐标位置;
章节标题匹配分割模块,将所述待处理文本与所述树形目录结构信息进行正则匹配,根据匹配结果确定章节内容;
分割结果组织模块,用于根据所述章节标题匹配分割模块确定的章节内容和页码信息,确定所述图片电子文档的章节。
9.一种文档章节分割装置,其特征在于,包括存储器、处理器和用户接口;
所述存储器,用于存储计算机程序;
所述用户接口,用于与用户实现交互;
所述处理器,用于读取所述存储器中的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1到8之一所述的文档章节分割方法。
10.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8之一所述的文档章节分割方法。
CN202011106303.3A 2020-10-16 2020-10-16 一种文档章节分割方法、装置及存储介质 Pending CN112329548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011106303.3A CN112329548A (zh) 2020-10-16 2020-10-16 一种文档章节分割方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011106303.3A CN112329548A (zh) 2020-10-16 2020-10-16 一种文档章节分割方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112329548A true CN112329548A (zh) 2021-02-05

Family

ID=74313851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011106303.3A Pending CN112329548A (zh) 2020-10-16 2020-10-16 一种文档章节分割方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112329548A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204950A (zh) * 2021-06-08 2021-08-03 中国银行股份有限公司 需求拆分方法、装置、计算机设备及可读存储介质
CN113221792A (zh) * 2021-05-21 2021-08-06 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN113282811A (zh) * 2021-05-27 2021-08-20 广州文石信息科技有限公司 一种mobi文档显示方法、装置及设备
CN113408660A (zh) * 2021-07-15 2021-09-17 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN115393198A (zh) * 2022-10-27 2022-11-25 国泰新点软件股份有限公司 文件中图片的处理方法、设备及存储介质
CN118015645A (zh) * 2023-12-27 2024-05-10 中铁建工集团有限公司 层次数据采集方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110728687A (zh) * 2019-10-15 2020-01-24 卓尔智联(武汉)研究院有限公司 文件图像分割方法、装置、计算机设备和存储介质
CN111753534A (zh) * 2019-03-29 2020-10-09 柯尼卡美能达美国商务解决方案有限公司 标识文档中的序列标题

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
CN111753534A (zh) * 2019-03-29 2020-10-09 柯尼卡美能达美国商务解决方案有限公司 标识文档中的序列标题
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110728687A (zh) * 2019-10-15 2020-01-24 卓尔智联(武汉)研究院有限公司 文件图像分割方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LAOYEZHA: "python3 opencv 基于二值化图像素投影的图片切割方法", pages 1 - 8, Retrieved from the Internet <URL:https://blog.csdn.net/laoyezha/article/details/106587854> *
XIAOYU TANG等: "Regular expression-based reference metadata extraction from the web", 《2010 IEEE 2ND SYMPOSIUM ON WEB SOCIETY》, pages 346 - 350 *
喜欢敲代码的一歪风: "一招解决99%小说目录生成--TXT小说目录正则匹配分割", pages 1 - 5, Retrieved from the Internet <URL:https://blog.csdn.net/qq_43257319/article/details/108530208> *
王威: "基于本体的信息***知识建模与表示框架的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 03, pages 138 - 7971 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221792A (zh) * 2021-05-21 2021-08-06 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN113221792B (zh) * 2021-05-21 2022-09-27 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN113282811A (zh) * 2021-05-27 2021-08-20 广州文石信息科技有限公司 一种mobi文档显示方法、装置及设备
CN113204950A (zh) * 2021-06-08 2021-08-03 中国银行股份有限公司 需求拆分方法、装置、计算机设备及可读存储介质
CN113408660A (zh) * 2021-07-15 2021-09-17 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN115393198A (zh) * 2022-10-27 2022-11-25 国泰新点软件股份有限公司 文件中图片的处理方法、设备及存储介质
CN118015645A (zh) * 2023-12-27 2024-05-10 中铁建工集团有限公司 层次数据采集方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112329548A (zh) 一种文档章节分割方法、装置及存储介质
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110516208B (zh) 一种针对pdf文档表格提取的***及方法
US20200279107A1 (en) Digital image-based document digitization using a graph model
US8693790B2 (en) Form template definition method and form template definition apparatus
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
US20070081179A1 (en) Image processing device, image processing method, and computer program product
JPH09134406A (ja) 文書画像からのタイトル抽出装置および方法
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
KR101235226B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
WO2000052645A1 (fr) Dispositif de traitement d&#39;image document, procede d&#39;extraction de titre de document et procede d&#39;information d&#39;etiquetage de document
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
CN113343740B (zh) 表格检测方法、装置、设备和存储介质
WO2020186779A1 (zh) 图片信息识别方法、装置、计算机设备和存储介质
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN108334805A (zh) 检测文档阅读顺序的方法和装置
JP5380040B2 (ja) 文書処理装置
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN101833546A (zh) 从可移植电子文档中提取表格的方法和装置
JPH0314184A (ja) 文書画像再配置ファイリング装置
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
Handley Table analysis for multiline cell identification
CN110688998A (zh) 票据识别方法及装置
US20170154025A1 (en) Method and system for generating a graphical organization of a page

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination