CN113688872A - 一种基于多模态融合的文档版面分类方法 - Google Patents
一种基于多模态融合的文档版面分类方法 Download PDFInfo
- Publication number
- CN113688872A CN113688872A CN202110854557.1A CN202110854557A CN113688872A CN 113688872 A CN113688872 A CN 113688872A CN 202110854557 A CN202110854557 A CN 202110854557A CN 113688872 A CN113688872 A CN 113688872A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- detection
- frame
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态融合的文档版面分类方法,其特征在于,针对目标文档,包括:检测目标文档,获取待分类的检测框;获取检测框的文本信息、框坐标信息和图像特征;采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。本发明通过将文本、位置和图像信息的多模态融合,提升了文档版面分类的准确率。
Description
技术领域
本发明属于深度学习领域,具体涉及一种基于多模态融合的文档版面分类方法。
背景技术
分析抽取文档中的信息需要用到文档的版面信息,版面信息一般包括几类:页眉、页脚、标题、段落、目录、表格和图像。
文档一般分为电子文档和图像文档,电子文档可以通过解析获取文档中字符信息,包括文本和位置信息,但无法直接获取文档的版面信息。图像文档中的文本和位置信息不能直接获取,需要通过OCR(Optical Character Recognition)技术获取。
电子文档的版面信息可根据解析获得的文本和位置信息来制定规则划分。但由于文档类型多变,特别对于双栏文档,规则比较复杂且不能完全覆盖所有情况。图像文档和电子文档转为图像的文档可以用目标检测的方法来定位及分类版面信息。目标检测对表格,图像和目录可以根据图像特征进行较好的分类,而对于其它类别不仅要考虑图像信息,还要涉及到文本和位置信息,用目标检测方法仅考虑图像信息会降低分类的准确率。
对文档中的版面进行分类目前可以用目标检测的方法,但是会存在以下问题:
1、对于页眉页脚目标检测方法不能很好的提取到位置特征,页眉页脚的图像特征与部分段落的图像特征相似,仅根据图像特征不易区分;
2、段落和标题会存在图像特征相似的情况,需要依靠文本才能更好地区分。
发明内容
针对现有技术中存在的问题,本发明提供一种基于多模态融合的文档版面分类方法。
为实现上述目的,本发明采用以下技术方案:
一种基于多模态融合的文档版面分类方法,针对目标文档,所述分类方法包括:检测目标文档,获取待分类的检测框;获取检测框的文本信息、框坐标信息和图像特征;采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
优选地,所述目标文档是图像类型的;获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术(OCR技术)获取目标文档的文本信息和文本坐标信息;根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。
优选地,所述检测框仅采用框内的第一行文本作为其文本信息。
优选地,所述目标文档是可直接读取文本信息类型的;获取检测框的图像特征时需要将所述目标文档转化为图像类型。
优选地,获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。
优选地,以所述文本信息、框坐标信息和图像特征作为输入还包括:将框坐标信息进行位置编码,将文本信息进行分词并进行文本编码,以位置编码信息、文本编码信息和图像特征作为输入。
一种存储介质,存储有计算机程序,所述计算机程序被执行时实现所述的分类方法。
一种基于多模态融合的文档版面分类装置,针对目标文档,所述分类装置包括:目标检测模块,所述检测模块检测目标文档,获取待分类的检测框;信息获取模块,所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征;多模态融合模型模块,所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
与现有技术相比,本发明的有益效果为:
1、通过将文本、位置和图像信息的多模态融合,提升了文档版面分类的准确率;
2、比较贴合实际情况,标题和段落仅根据图像信息不好区分,页眉、页脚需要加入位置信息才能更好进行判别;
3、不仅能在文档版面分析场景中使用,可以方便扩展到其它需要多模态融合的场景中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
多模态融合的文档版面分类方法主要由四个部分组成:
一、目标检测模块
这个模块主要的功能在于定位到各个版面类型的位置。
目标检测任务包括定位目标和对目标分类。需要检测的目标包括页眉、页脚、段落、标题、表格、图像、目录。
目标检测模型包括特征提取层(backbone)和预测层(head),特征提取层主要包括卷积操作,不改变相对位置信息。预测层包括对检测框的坐标回归以及类型判别。
二、文本信息获取
对于图像文档数据,需要通过OCR技术来获取文本信息。输入全图到OCR,获取到检测文本框和其对应的文本信息。
对于电子文档数据,此类型数据已包含文本信息以及每个文字的坐标信息,可直接获取。
根据获取的文本信息及坐标和目标检测的框坐标信息,根据坐标框来将文本信息与目标检测框进行匹配,对于表格、目录和图像数据此类文本信息比较特殊且目标检测能较好判别,这三种类型不予考虑。
由于部分段落文本信息较长,这里仅取所有目标检测框中的第一行文本来作为此框的文本信息。
三、图像特征获取
从训练的目标检测模型中获取backbone层输出的图像特征,使用RoIAlign将每个目标检测框转为特定大小的输出,便于后续模型的分类。
四、多模态融合模型
将获取的坐标框信息进行位置编码,文本信息进行分词并进行文本编码,融合位置编码信息、文本编码信息和目标检测网络backbone提取的图像特征,用多模态融合模型完成对检测框的分类。
多模态仅对页眉、页脚、段落和标题进行分类,结合目标检测对表格、图像和目录的结果来作为最终的文档版面分类结果。
五、训练流程
整体的训练流程:
Step1.首先需要训练目标检测模型。
Step2.融合文本、位置和图像信息训练多模态融合模型。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。
Claims (8)
1.一种基于多模态融合的文档版面分类方法,其特征在于,针对目标文档,所述分类方法包括:
检测目标文档,获取待分类的检测框;
获取检测框的文本信息、框坐标信息和图像特征;
采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
2.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,所述目标文档是图像类型的;
获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术获取目标文档的文本信息和文本坐标信息;
根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。
3.根据权利要求2所述的基于多模态融合的文档版面分类方法,其特征在于,所述检测框仅采用框内的第一行文本作为其文本信息。
4.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,所述目标文档是可直接读取文本信息类型的;
获取检测框前需要将所述目标文档转化为图像类型。
5.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。
6.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,以所述文本信息、框坐标信息和图像特征作为输入还包括:
将框坐标信息进行位置编码,将文本信息进行分词并进行文本编码,以位置编码信息、文本编码信息和图像特征作为输入。
7.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时实现权利要求1-6中任一所述的分类方法。
8.一种基于多模态融合的文档版面分类装置,其特征在于,针对目标文档,所述分类装置包括:
目标检测模块,所述检测模块检测目标文档,获取待分类的检测框;
信息获取模块,所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征;
多模态融合模型模块,所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854557.1A CN113688872A (zh) | 2021-07-28 | 2021-07-28 | 一种基于多模态融合的文档版面分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854557.1A CN113688872A (zh) | 2021-07-28 | 2021-07-28 | 一种基于多模态融合的文档版面分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113688872A true CN113688872A (zh) | 2021-11-23 |
Family
ID=78578033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110854557.1A Pending CN113688872A (zh) | 2021-07-28 | 2021-07-28 | 一种基于多模态融合的文档版面分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688872A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821568A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
CN114898388A (zh) * | 2022-03-28 | 2022-08-12 | 支付宝(杭州)信息技术有限公司 | 文档图片分类方法、装置、存储介质及电子设备 |
CN115393854A (zh) * | 2022-10-27 | 2022-11-25 | 粤港澳大湾区数字经济研究院(福田) | 一种视觉对齐处理方法、终端及存储介质 |
CN115937655A (zh) * | 2023-02-24 | 2023-04-07 | 城云科技(中国)有限公司 | 多阶特征交互的目标检测模型及其构建方法、装置及应用 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060738A1 (en) * | 2015-08-25 | 2017-03-02 | Sandisk Technologies Inc. | Memory System and Method for Performing Garbage Collection on Blocks Based on Their Obsolescence Patterns |
CN109344815A (zh) * | 2018-12-13 | 2019-02-15 | 深源恒际科技有限公司 | 一种文档图像分类方法 |
CN110298338A (zh) * | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN112733658A (zh) * | 2020-12-31 | 2021-04-30 | 北京华宇信息技术有限公司 | 电子文档归档方法及其装置 |
CN112966522A (zh) * | 2021-03-03 | 2021-06-15 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
-
2021
- 2021-07-28 CN CN202110854557.1A patent/CN113688872A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060738A1 (en) * | 2015-08-25 | 2017-03-02 | Sandisk Technologies Inc. | Memory System and Method for Performing Garbage Collection on Blocks Based on Their Obsolescence Patterns |
CN109344815A (zh) * | 2018-12-13 | 2019-02-15 | 深源恒际科技有限公司 | 一种文档图像分类方法 |
CN110298338A (zh) * | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN112733658A (zh) * | 2020-12-31 | 2021-04-30 | 北京华宇信息技术有限公司 | 电子文档归档方法及其装置 |
CN112966522A (zh) * | 2021-03-03 | 2021-06-15 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898388A (zh) * | 2022-03-28 | 2022-08-12 | 支付宝(杭州)信息技术有限公司 | 文档图片分类方法、装置、存储介质及电子设备 |
CN114898388B (zh) * | 2022-03-28 | 2024-05-24 | 支付宝(杭州)信息技术有限公司 | 文档图片分类方法、装置、存储介质及电子设备 |
CN114821568A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
CN115393854A (zh) * | 2022-10-27 | 2022-11-25 | 粤港澳大湾区数字经济研究院(福田) | 一种视觉对齐处理方法、终端及存储介质 |
CN115393854B (zh) * | 2022-10-27 | 2023-02-21 | 粤港澳大湾区数字经济研究院(福田) | 一种视觉对齐处理方法、终端及存储介质 |
CN115937655A (zh) * | 2023-02-24 | 2023-04-07 | 城云科技(中国)有限公司 | 多阶特征交互的目标检测模型及其构建方法、装置及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113688872A (zh) | 一种基于多模态融合的文档版面分类方法 | |
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
US20200074169A1 (en) | System And Method For Extracting Structured Information From Image Documents | |
US20210064860A1 (en) | Intelligent extraction of information from a document | |
CN103995904B (zh) | 一种影像档案电子资料的识别*** | |
US8300942B2 (en) | Area extraction program, character recognition program, and character recognition device | |
Zagoris et al. | A document image retrieval system | |
Bhunia et al. | Text recognition in scene image and video frame using color channel selection | |
US8620079B1 (en) | System and method for extracting information from documents | |
CN110889310A (zh) | 金融文档信息智能提取***及方法 | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和*** | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN112445926B (zh) | 一种图像检索方法以及装置 | |
CN114821620A (zh) | 基于行文本框纵向合并的文本内容提取识别方法 | |
Ghosh et al. | R-phoc: segmentation-free word spotting using cnn | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
CN115761781A (zh) | 一种用于工程电子档案笔记图像数据识别*** | |
CN115965979A (zh) | 手绘场景下的图像识别与智能转化方法、***及计算机可读介质 | |
Nguyen et al. | Vietnamese document analysis: dataset, method and benchmark suite | |
Akhter et al. | Semantic segmentation of printed text from marathi document images using deep learning methods | |
JP3529036B2 (ja) | 文書付き画像の分類方法 | |
CN107545261A (zh) | 文本检测的方法及装置 | |
Rasheed et al. | Automatic Video Indexing and Retrieval System for Turkish Videos | |
Wahlberg et al. | Data mining medieval documents by word spotting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |