CN113806472A - 一种对文字图片和图像型扫描件实现全文检索的方法及设备 - Google Patents

一种对文字图片和图像型扫描件实现全文检索的方法及设备 Download PDF

Info

Publication number
CN113806472A
CN113806472A CN202010555019.8A CN202010555019A CN113806472A CN 113806472 A CN113806472 A CN 113806472A CN 202010555019 A CN202010555019 A CN 202010555019A CN 113806472 A CN113806472 A CN 113806472A
Authority
CN
China
Prior art keywords
text
picture
type scanning
image type
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010555019.8A
Other languages
English (en)
Other versions
CN113806472B (zh
Inventor
翟晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Insurance Asset Management Co ltd
Original Assignee
China Life Insurance Asset Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Insurance Asset Management Co ltd filed Critical China Life Insurance Asset Management Co ltd
Priority to CN202010555019.8A priority Critical patent/CN113806472B/zh
Publication of CN113806472A publication Critical patent/CN113806472A/zh
Application granted granted Critical
Publication of CN113806472B publication Critical patent/CN113806472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及文档处理领域,公开了一种对文字图片和图像型扫描件实现全文检索的方法及设备,本地GPU服务器上加载文字图片和图像型扫描件全文检索***,用户上传待全文检索的文字图片或者长文本图像型PDF格式扫描件文档,***采用基于深度学技术的OCR文字识别子***、视觉信息分析算法,然后用户输入待检索的关键词,最后文字图片和长文本图像型PDF扫描件上高亮显示出关键词,***支持上一处、下一处查看检索结果。本发明通过使用本方法能够准确、快速对文字图像或者长文本图像型PDF扫描件进行全文检索。

Description

一种对文字图片和图像型扫描件实现全文检索的方法及设备
技术领域
本发明涉及文档处理领域,尤其涉及一种对文字图片和图像型扫描件实现全文检索的方法及设备。
背景技术
PDF(Portable Document Format,译为可移植文档格式),是一种常用的电子文件格式,在多类型操作***具有较高的通用性和兼容性,可保证文件传输过程中数据信息不被修改或不因为编码类型导致发生变化,因此PDF被作为一种文件信息传递的主流形式。PDF主要用于公司商务合同,承载了大量的文字内容,但由于扫描件PDF文件的图片内容局限,无法像word进行全文检索,因此需要提供一种能够对文字图片和图像型扫描件进行全文检索,提高业务人员在商务合同上进行检索出所需要内容的效率,随着业务开展范围的不断扩大,商务合同内容和数量也随之不断扩大,解决长本文图片和图像型扫描件无法检索的问题,因此本发明提出了一种对文字图片和图像型扫描件实现全文检索的解决方案,高效并准确高亮显示检索内容。
发明内容
针对文字图片与长文本图像型扫描件PDF页数和内容多,业务处理要求能够快速、准确检索出所需内容等问题,本发明实施的一个目的旨在提供一种对文字图片和图像型扫描件实现全文检索的方法及设备,其处理效果较为高效准确,并能在处理后***可迭代优化,提高检索效率和准确率。
为解决上述技术问题,本发明提供以下技术方案:
一种对文字图片和图像型扫描件实现全文检索的方法,包括以下步骤:
S1:在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索***;
S2:用户上传文字图片和图像型扫描件PDF到***上;
S3:***对上传的文字图片和图像型扫描件PDF进行预处理;
S4:通过基于深度学习的OCR文字识别子***对文字图片和图像型扫描件的全文本进行文字区域行检测,计算出行检测的位置信息像素值并进行位置信息的记录,记录行区域的左上、右下两个坐标;
S5:通过基于深度学习的OCR文字识别子***对所有行区域内的文字内容进行识别;
S6:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应;
S7:对步骤S4-S6的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字;
S8:在页面检索框内输入待检索关键词,根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
S9:根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。
进一步的,所述步骤S1包括:多用户并发使用该***上传文字图片或者图像型扫描件PDF开展全文检索。
进一步的,所述步骤S3预处理包括:使用***去除、倾斜校正、噪音去除。
进一步的,所述步骤S4包括:所述文字图片和图像型扫描件PDF都是长文本,需要对长文本图像型扫描件进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息。
进一步的,所述步骤S5包括:所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容。
进一步的,所述步骤S7包括:在前端页面展示所识别的文字包括相应的视觉信息。
一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
本发明提供的一种对文字图片和图像型扫描件实现全文检索的方法及设备,通过使用本方法能够准确、快速对文字图像或者长文本图像型扫描件PDF进行检索,提高业务人员在商务合同上进行检索出所需要内容的效率,解决长本文图片和图像型扫描件无法检索的问题,且检索准确率高。
附图说明
图1为本发明的实施例架构示意图。
图2为本发明实施例实施流程图。
图3为本发明实施例文本行区域检测结果示意图。
图4为本发明实施例深度学习处理结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种对文字图片和图像型扫描件实现全文检索的方法,包括以下步骤:
S1:在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索***;
S2:用户上传文字图片和图像型扫描件PDF到***上;
S3:***对上传的文字图片和图像型扫描件PDF进行预处理;
S4:通过基于深度学习的OCR文字识别子***对文字图片和图像型扫描件的全文本进行文字区域行检测,计算出行检测的位置信息像素值并进行位置信息的记录,记录行区域的左上、右下两个坐标;
S5:通过基于深度学习的OCR文字识别子***对所有行区域内的文字内容进行识别;
S6:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应;
S7:对步骤S4-S6的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字;
S8:在页面检索框内输入待检索关键词,根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
S9:根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。
进一步的,所述步骤S1包括:多用户并发使用该***上传文字图片或者图像型扫描件PDF开展全文检索。
进一步的,所述步骤S3预处理包括:使用***去除、倾斜校正、噪音去除。
进一步的,所述步骤S4包括:所述文字图片和图像型扫描件PDF都是长文本,需要对长文本图像型扫描件PDF进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息。
进一步的,所述步骤S5包括:所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容。
进一步的,所述步骤S7包括:在前端页面展示所识别的文字包括相应的视觉信息。
一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
实施例1
下面结合图1-图4对本发明的实施例进行详细的解释说明。
如图1至图2所示,一种对文字图片和图像型扫描件实现全文检索的方法,包括以下步骤:
步骤一:加载文字图片和图像型扫描件PDF全文检索***,该***运行加载在本地GPU服务器上;
步骤二:用户上传文字图片或图像型扫描件PDF到***上;
步骤三:***对用户上传的文字图片和图像型扫描文件PDF进行全量预处理,调用***中图像算法完成扫描文件切页以及签章去除、倾斜纠正、噪音去除等算法实现预处理,预处理后图片作为后续基于深度学习的OCR文字识别子***的高质量输入;
步骤四:如图3所示,通过使用基于深度学习的OCR文字识别子***对预处理图片进行行检测,记录行高、行宽在原文件中的起始坐标信息和终点坐标信息,所有页面行区域坐标信息汇总形成整个文件的页码与行区域列表;
文字图片和图像型扫描件PDF都是长文本,需要对长文本图像型扫描件进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息,记录行区域的左上、右下两个坐标;
步骤五:根据行区域列表开展逐页切分图片并通过深度学习的OCR文字识别子***对所有行区域内的文字内容进行识别,所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容;
步骤六:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测位置信息进行一一对应;
步骤七:对完成步骤四至六的文字图片或图像型扫描件PDF文件的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字,以及包括展示所识别的文字的相应的视觉信息;
步骤八:在页面检索框内输入待检索关键词,根据步骤四至五的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
步骤九:根据步骤八的结果在前端页面显示的文字图片或者图像型扫描件PDF原文件上高亮显示出检索到的内容。
如图1所示,该***为多用户并发使用,用户上传需要检索的文字图片或者图像型扫描件PDF文件以及所要检索的内容后,等待***执行完毕该文字图片或者图像型扫描件PDF文件中所要检索的内容,并在全本高亮显示出检索内容,随后用户可以通过***进行上一处、下一处查看相应的其他页的检索内容,本地化***的实现可更好地满足用户数据安全性的需求。
例如,用户想在一个图像型扫描件PDF文件上检索某个关键词,首先通过结合附图2所示的流程图,用户先将图像型扫描件PDF文件上传至本地CPU服务器上加载图像型扫描件PDF全文检索***,完成预处理,并通过基于深度学习的OCR文字识别子***进行全文本的文字区域行检测,计算出行检测的位置信息像素值且进行位置信息的记录,同时通过基于深度学习的OCR文字识别子***对所有行区域内的文字内容进行识别,再通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测位置信息进行一一对应,实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示此图像型扫描件PDF文件;其后结合附图4所示,用户在图像型扫描件PDF文件的页面检索框内输入检索词“付息日”,前端页面的图像型扫描件PDF文件上高亮显示出检索词“付息日”,用户还可以通过图像型扫描件PDF文件的上一处、下一处查看相应的其他页的检索内容。
一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
本发明提供的一种对文字图片和图像型扫描件实现全文检索的方法及设备,提高业务人员在商务合同上进行检索出所需要内容的效率,解决长本文图片和图像型扫描件无法检索的问题,且检索准确率高。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:包括以下步骤:
S1:在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索***;
S2:用户上传文字图片和图像型扫描件PDF到***上;
S3:***对上传的文字图片和图像型扫描件PDF进行预处理;
S4:通过基于深度学习的OCR文字识别子***对文字图片和图像型扫描件PDF的全文本进行文字区域行检测,计算出行检测的位置信息像素值并进行位置信息的记录,记录行区域的左上、右下两个坐标;
S5:通过基于深度学习的OCR文字识别子***对所有行区域内的文字内容进行识别;
S6:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应;
S7:对步骤S4-S6的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字;
S8:在页面检索框内输入待检索关键词,根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
S9:根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。
2.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S1包括:多用户并发使用该***上传文字图片或者图像型扫描件PDF开展全文检索。
3.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S3预处理包括:使用***去除、倾斜校正、噪音去除。
4.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S4包括:所述文字图片和图像型扫描件PDF都是长文本文件,需要对长文本图像型扫描件PDF进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息。
5.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S5包括:所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容。
6.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S7包括:在前端页面展示所识别的文字包括相应的视觉信息。
7.一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
CN202010555019.8A 2020-06-17 2020-06-17 一种对文字图片和图像型扫描件实现全文检索的方法及设备 Active CN113806472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555019.8A CN113806472B (zh) 2020-06-17 2020-06-17 一种对文字图片和图像型扫描件实现全文检索的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555019.8A CN113806472B (zh) 2020-06-17 2020-06-17 一种对文字图片和图像型扫描件实现全文检索的方法及设备

Publications (2)

Publication Number Publication Date
CN113806472A true CN113806472A (zh) 2021-12-17
CN113806472B CN113806472B (zh) 2023-12-26

Family

ID=78892683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555019.8A Active CN113806472B (zh) 2020-06-17 2020-06-17 一种对文字图片和图像型扫描件实现全文检索的方法及设备

Country Status (1)

Country Link
CN (1) CN113806472B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610777A (zh) * 2022-03-06 2022-06-10 浙江数秦科技有限公司 基于区块链的民生档案智慧管理***
CN115952278A (zh) * 2023-03-14 2023-04-11 北京有生博大软件股份有限公司 一种基于关键词定位的版式文件高亮方法及高亮***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和***
JP2011170392A (ja) * 2009-11-30 2011-09-01 Int Kk 画像検索システム、画像検索方法および画像検索プログラム
CN108897862A (zh) * 2018-07-02 2018-11-27 广东飞企互联科技股份有限公司 一种基于政府公文图片检索方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和***
JP2011170392A (ja) * 2009-11-30 2011-09-01 Int Kk 画像検索システム、画像検索方法および画像検索プログラム
CN108897862A (zh) * 2018-07-02 2018-11-27 广东飞企互联科技股份有限公司 一种基于政府公文图片检索方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610777A (zh) * 2022-03-06 2022-06-10 浙江数秦科技有限公司 基于区块链的民生档案智慧管理***
CN115952278A (zh) * 2023-03-14 2023-04-11 北京有生博大软件股份有限公司 一种基于关键词定位的版式文件高亮方法及高亮***

Also Published As

Publication number Publication date
CN113806472B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
US11514698B2 (en) Intelligent extraction of information from a document
US7801358B2 (en) Methods and systems for analyzing data in media material having layout
US9613267B2 (en) Method and system of extracting label:value data from a document
US8254681B1 (en) Display of document image optimized for reading
US8290269B2 (en) Image document processing device, image document processing method, program, and storage medium
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
JPS61267177A (ja) 文書画像追加情報の蓄積方法
US20130060786A1 (en) Text-based searching of image data
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US8208737B1 (en) Methods and systems for identifying captions in media material
US20110043869A1 (en) Information processing system, its method and program
KR19990036515A (ko) 문자 인식/수정 방법 및 장치
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
US9798711B2 (en) Method and system for generating a graphical organization of a page
US9672438B2 (en) Text parsing in complex graphical images
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
Gupta et al. Table detection and metadata extraction in document images
Alzuru et al. Cooperative human-machine data extraction from biological collections
JP2000259847A (ja) 情報検索方法、装置および記録媒体
WO2021117128A1 (ja) 帳票画像処理システム
JP2004133841A (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant