CN108897862A - 一种基于政府公文图片检索方法及*** - Google Patents

一种基于政府公文图片检索方法及*** Download PDF

Info

Publication number
CN108897862A
CN108897862A CN201810705428.4A CN201810705428A CN108897862A CN 108897862 A CN108897862 A CN 108897862A CN 201810705428 A CN201810705428 A CN 201810705428A CN 108897862 A CN108897862 A CN 108897862A
Authority
CN
China
Prior art keywords
picture
text
government
terminal
official document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810705428.4A
Other languages
English (en)
Inventor
李军
史玉洁
袁志远
吴恺
俞勋勋
雷久滩
蔡天祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHUHAI FLYRISE SOFTWARE CO Ltd
Original Assignee
ZHUHAI FLYRISE SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHUHAI FLYRISE SOFTWARE CO Ltd filed Critical ZHUHAI FLYRISE SOFTWARE CO Ltd
Priority to CN201810705428.4A priority Critical patent/CN108897862A/zh
Publication of CN108897862A publication Critical patent/CN108897862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于政府公文图片检索方法及***,其可实现对政务图片文件全文检索,快速找到图片里面包括的关键信息,提高检索利用者,通过关键字,能检索到文本文件,还可以检索到图片文件,提高检索查全率。本发明中的公文图片检索技术,针对电子政务行业政务上传图片特点,大部分图片都是文字,部分图片还是扫描的公文的副本,可以通过ORC识别技术,算法校验,完成图片文字识别转换文本数据,建立全文索引与图片对应关系,公文图片全文检索技术推出后,极大方便政府工作人员在检索效率,提高检索查全率,查全率达到99.11%,查准率>95%,很好解决了图片内公文文字不能检索问题。

Description

一种基于政府公文图片检索方法及***
技术领域
本发明公开一种图片检索方法及***,特别是一种基于政府公文图片检索方法及***。
背景技术
图片文件数量占电子政务文件数据总量的1/3,如果不能支持对图片的全文检索,将直接影响电子政务管理平台所有文档的全文检索的查全率。针对公文存在的现实情况,相当一部分是以TIF、JPG、BMP等图形格式存在,一般的检索技术是不能对图形文字进行检索的,如果不能解决该难题,***是不完整的,提供给使用者的信息也是不全面的。现有技术方案是采取大多数都是基于数据库结构化数据的检索式,基本上都是基于文件检索,虽然现有技术中也有存在基于图片检索的应用,但是其做图片识别基本上是识别图片的内容,算法极为复杂,对设备硬件要求很高,针对电子政务行业特点,并且结合政务特殊文字算法识别,暂时还没有。
现有技术中的基于图片简单识别,识别后文字的识别率和正确率比较低,检索的大部分基于数据库检索,查全率低,与电子政务***结合率不高,政府公文源数据特点无法体现。
发明内容
针对上述提到的现有技术中的政务公文检索中,无法采用图片检索的缺点,本发明提供一种基于政府公文图片检索方法及***,其可实现对政务图片文件全文检索,快速找到图片里面包括的关键信息,提高检索利用者,通过关键字,能检索到文本文件,还可以检索到图片文件,提高检索查全率。
本发明解决其技术问题采用的技术方案是:一种基于政府公文图片检索方法,该检索方法包括下述步骤:
步骤S1:通过政务终端上传电子公文图片,通过互联网、局域网或电信网络传输给后台服务器;
步骤S2:后台服务器通过监听程序对政务终端上传内容进行监听,当其监听接收到政务终端上传的图片文件后,通过调用OCR程序组件对上传的公文图片上的文字进行识别;
步骤S3:识别公文图片中的非标准字符元素,并通过比对算法将非标准字符元素转换成特殊的文本文字进行存储;
步骤S4:对识别的文字进行分词处理;
步骤S5:将识别的文字以及非标准字符元素保存到数据库中;
步骤S6:在数据库中建立全文索引库,并将公文图片与识别出来的文字、非标准字符元素进行映射处理;
步骤S7:在政务办公平台中输入待检索关键词,利用输入的关键词在数据库中进行全文检索;
步骤S8:返回检索到与关键词对应的公文图片以及附件列表。
一种基于政府公文图片检索***,该***包括:
输入模块:用于输入电子公文图片,并通过互联网、局域网或电信网络传输给后台服务器;
监听模块:用于在后台服务器中监听政务终端是否有图片输入并对输入的图片进行文字识别,当监听模块监听接收到政务终端上传的图片文件后,通过调用OCR程序组件对上传的公文图片上的文字进行识别;
非标准字符元素识别模块:用于识别公文图片中的非标准字符元素,并通过比对算法将非标准字符元素转换成特殊的文本文字进行存储;
数据库模块:用于文字、非标准字符元素以及其它辅助信息;
映射模块:用于在数据库中建立全文索引库,并将公文图片与识别出来的文字、非标准字符元素以及其它辅助信息进行映射处理;
检索模块:用于在政务办公平台中输入待检索关键词,利用输入的关键词在数据库中进行全文检索;
结果返回模块:用于返回检索到的公文图片以及附件列表。
本发明解决其技术问题采用的技术方案进一步还包括:
所述的政务终端为政务办公平台,政务办公平台包括电脑终端、手机终端、手持设备终端或固定设备终端。
所述的监听程序采用多线程监听程序。
所述的输入模块为政务办公平台,政务办公平台包括电脑终端、手机终端、手持终端或固定终端。
所述的***还包括分词模块:用于对监听模块识别的文字进行分词处理。
本发明的有益效果是:本发明中的公文图片检索技术,针对电子政务行业政务上传图片特点,大部分图片都是文字,部分图片还是扫描的公文的副本,可以通过ORC识别技术,算法校验,完成图片文字识别转换文本数据,建立全文索引与图片对应关系,公文图片全文检索技术推出后,极大方便政府工作人员在检索效率,提高检索查全率,查全率达到99.11%,查准率>95%,很好解决了图片内公文文字不能检索问题。
下面将结合附图和具体实施方式对本发明做进一步说明。
附图说明
图1为本发明流程图。
具体实施方式
本实施例为本发明优选实施方式,其他凡其原理和基本结构与本实施例相同或近似的,均在本发明保护范围之内。
本发明主要为一种基于政府公文图片检索方法,其主要包括如下步骤:
步骤S1:通过政务终端上传电子公文图片(文书、参考资料扫描图片),本实施例中,政务终端通常为政务办公平台(包括电脑终端、手机终端或其他手持或固定终端等),通过终端上传的电子公文图片通过互联网、局域网或电信网络传输给后台服务器。
步骤S2:后台服务器通过监听程序对政务终端上传内容进行监听,当其监听接收到政务终端上传的图片文件后,通过调用OCR程序组件(OCR即OpticalCharacterRecognition,又称为光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术)对上传的公文图片上的文字进行识别,本实施例中,监听程序可采用多线程监听程序,具体实施时,也可以采用单线程监听程序。
步骤S3:识别公文图片中的产生电子***和手写签名等非标准字符元素,并通过比对算法将非标准字符元素转换成特殊的文本文字进行存储。
步骤S4:对步骤S2中识别的文字进行分词处理(分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术)。
步骤S5:将步骤S4中识别的文字、步骤S3中识别的电子政务公文ID(身份识别,是一种身份证明,即公文的标识)以及其它辅助信息保存到数据库中;
步骤S6:在数据库中建立全文索引库,并将公文图片与识别出来的文字、特殊的文本文字、公文ID以及其它辅助信息进行映射处理。
步骤S7:在政务办公平台中输入待检索关键词,利用输入的关键词在数据库中进行全文检索。
步骤S8:返回检索到的与关键词对应的公文图片以及附件列表(包括但不限于相应图片中识别的文字、公文ID以及其它辅助信息等)。
本发明同时还保护一种基于政府公文图片检索***,其主要包括:
输入模块:用于输入电子公文图片,本实施例中,通过政务终端上传电子公文图片(文书、参考资料扫描图片),本实施例中,政务终端通常为政务办公平台(包括电脑终端、手机终端或其他手持或固定终端等),通过终端上传的电子公文图片通过互联网、局域网或电信网络传输给后台服务器。
监听模块:用于在后台服务器中监听政务终端是否有图片输入并对输入的图片进行文字识别,当监听模块监听接收到政务终端上传的图片文件后,通过调用OCR程序组件(OCR即Optical Character Recognition,又称为光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术)对上传的公文图片上的文字进行识别,本实施例中,监听程序可采用多线程监听程序,具体实施时,也可以采用单线程监听程序。
非标准字符元素识别模块:用于识别公文图片中的产生电子***和手写签名等非标准字符元素,并通过比对算法将非标准字符元素转换成特殊的文本文字进行存储。
分词模块:用于对监听模块识别的文字进行分词处理(分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术)。
数据库模块:用于存储分词模块分词处理后的文字、非标准字符元素识别模块识别的电子政务公文ID(身份识别,是一种身份证明,即公文的标识)以及其它辅助信息;
映射模块:用于在数据库中建立全文索引库,并将公文图片与识别出来的文字、特殊的文本文字、公文ID以及其它辅助信息进行映射处理。
检索模块:用于在政务办公平台中输入待检索关键词,利用输入的关键词在数据库中进行全文检索。
结果返回模块:用于返回检索到的公文图片以及附件列表(包括但不限于相应图片中识别的文字、公文ID以及其它辅助信息等)。
本发明中的公文图片检索技术,针对电子政务行业政务上传图片特点,大部分图片都是文字,部分图片还是扫描的公文的副本,可以通过ORC识别技术,算法校验,完成图片文字识别转换文本数据,建立全文索引与图片对应关系,公文图片全文检索技术推出后,极大方便政府工作人员在检索效率,提高检索查全率,查全率达到99.11%,查准率>95%,很好解决了图片内公文文字不能检索问题。

Claims (7)

1.一种基于政府公文图片检索方法,其特征是:所述的检索方法包括下述步骤:
步骤S1:通过政务终端上传电子公文图片,通过互联网、局域网或电信网络传输给后台服务器;
步骤S2:后台服务器通过监听程序对政务终端上传内容进行监听,当其监听接收到政务终端上传的图片文件后,通过调用OCR程序组件对上传的公文图片上的文字进行识别;
步骤S3:识别公文图片中的非标准字符元素,并通过比对算法将非标准字符元素转换成特殊的文本文字进行存储;
步骤S4:对识别的文字进行分词处理;
步骤S5:将识别的文字以及非标准字符元素保存到数据库中;
步骤S6:在数据库中建立全文索引库,并将公文图片与识别出来的文字、非标准字符元素进行映射处理;
步骤S7:在政务办公平台中输入待检索关键词,利用输入的关键词在数据库中进行全文检索;
步骤S8:返回检索到与关键词对应的公文图片以及附件列表。
2.根据权利要求1所述的基于政府公文图片检索方法,其特征是:所述的政务终端为政务办公平台,政务办公平台包括电脑终端、手机终端、手持设备终端或固定设备终端。
3.根据权利要求1所述的基于政府公文图片检索方法,其特征是:所述的监听程序采用多线程监听程序。
4.一种基于政府公文图片检索***,其特征是:所述的***包括:
输入模块:用于输入电子公文图片,并通过互联网、局域网或电信网络传输给后台服务器;
监听模块:用于在后台服务器中监听政务终端是否有图片输入并对输入的图片进行文字识别,当监听模块监听接收到政务终端上传的图片文件后,通过调用OCR程序组件对上传的公文图片上的文字进行识别;
非标准字符元素识别模块:用于识别公文图片中的非标准字符元素,并通过比对算法将非标准字符元素转换成特殊的文本文字进行存储;
数据库模块:用于文字、非标准字符元素以及其它辅助信息;
映射模块:用于在数据库中建立全文索引库,并将公文图片与识别出来的文字、非标准字符元素以及其它辅助信息进行映射处理;
检索模块:用于在政务办公平台中输入待检索关键词,利用输入的关键词在数据库中进行全文检索;
结果返回模块:用于返回检索到的公文图片以及附件列表。
5.根据权利要求4所述的基于政府公文图片检索***,其特征是:所述的输入模块为政务办公平台,政务办公平台包括电脑终端、手机终端、手持终端或固定终端。
6.根据权利要求4所述的基于政府公文图片检索***,其特征是:所述的监听程序采用多线程监听程序。
7.根据权利要求4所述的基于政府公文图片检索***,其特征是:所述的***还包括分词模块:用于对监听模块识别的文字进行分词处理。
CN201810705428.4A 2018-07-02 2018-07-02 一种基于政府公文图片检索方法及*** Pending CN108897862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810705428.4A CN108897862A (zh) 2018-07-02 2018-07-02 一种基于政府公文图片检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810705428.4A CN108897862A (zh) 2018-07-02 2018-07-02 一种基于政府公文图片检索方法及***

Publications (1)

Publication Number Publication Date
CN108897862A true CN108897862A (zh) 2018-11-27

Family

ID=64347397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810705428.4A Pending CN108897862A (zh) 2018-07-02 2018-07-02 一种基于政府公文图片检索方法及***

Country Status (1)

Country Link
CN (1) CN108897862A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175256A (zh) * 2019-05-30 2019-08-27 上海联影医疗科技有限公司 一种图像数据检索方法、装置、设备和存储介质
CN110516037A (zh) * 2019-07-29 2019-11-29 广东鼎义互联科技股份有限公司 一种政务领域的招标文件分析***
CN112949471A (zh) * 2021-02-27 2021-06-11 浪潮云信息技术股份公司 基于国产cpu的电子公文识别复现方法及***
CN113806472A (zh) * 2020-06-17 2021-12-17 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备
CN114611507A (zh) * 2022-03-10 2022-06-10 北京思源智通科技有限责任公司 一种文本关键词分析方法、***及计算机可读介质
CN117688162A (zh) * 2024-01-16 2024-03-12 广东铭太信息科技有限公司 一种基于ocr识别的全文检索方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和***
CN102262640A (zh) * 2010-05-31 2011-11-30 ***通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和***
CN102262640A (zh) * 2010-05-31 2011-11-30 ***通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175256A (zh) * 2019-05-30 2019-08-27 上海联影医疗科技有限公司 一种图像数据检索方法、装置、设备和存储介质
CN110175256B (zh) * 2019-05-30 2024-06-07 上海联影医疗科技股份有限公司 一种图像数据检索方法、装置、设备和存储介质
CN110516037A (zh) * 2019-07-29 2019-11-29 广东鼎义互联科技股份有限公司 一种政务领域的招标文件分析***
CN113806472A (zh) * 2020-06-17 2021-12-17 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备
CN113806472B (zh) * 2020-06-17 2023-12-26 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备
CN112949471A (zh) * 2021-02-27 2021-06-11 浪潮云信息技术股份公司 基于国产cpu的电子公文识别复现方法及***
CN114611507A (zh) * 2022-03-10 2022-06-10 北京思源智通科技有限责任公司 一种文本关键词分析方法、***及计算机可读介质
CN117688162A (zh) * 2024-01-16 2024-03-12 广东铭太信息科技有限公司 一种基于ocr识别的全文检索方法及***

Similar Documents

Publication Publication Date Title
CN108897862A (zh) 一种基于政府公文图片检索方法及***
US9767379B2 (en) Systems, methods and computer program products for determining document validity
CN102622592B (zh) 一种基于云技术的名片识别方法
US7245765B2 (en) Method and apparatus for capturing paper-based information on a mobile computing device
US7450760B2 (en) System and method for capturing and processing business data
US9530050B1 (en) Document annotation sharing
US8989431B1 (en) Ad hoc paper-based networking with mixed media reality
WO2013004036A1 (zh) 结合文字识别和图像匹配的名片识别方法
CN110942061A (zh) 文字识别方法、装置、设备和计算机可读介质
US10579653B2 (en) Apparatus, method, and computer-readable medium for recognition of a digital document
CN114445836A (zh) 结合rpa和ai的信息审核方法、装置及电子设备
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理***、方法及存储介质
CN112464907A (zh) 一种文档处理***及方法
CN114238731A (zh) 一种国产cpu检索方法、***、装置及计算机可读介质
US7532368B2 (en) Automated processing of paper forms using remotely-stored form content
CN115146583A (zh) 一种术语自主结构化提取及关联方法、装置及存储介质
CN112149679B (zh) 一种基于ocr文字识别提取公文要素的方法及装置
US20150030241A1 (en) Method and system for data identification and extraction using pictorial representations in a source document
CN115640952B (zh) 一种数据导入上传的方法及***
WO2015012820A1 (en) Method and system for data identification and extraction using pictorial representations in a source document
KR101659886B1 (ko) 명함 주문 시스템 및 방법
CN113516044A (zh) 一种基于ocr与哈希算法的纸质合同信用增强方法及***
WO2024115773A1 (en) Computer implemented method for an automated search of an article of a printed medium
CN116052186A (zh) 多模态***自动分类识别方法、校验方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination