CN110705515A - 一种基于ocr文字识别的医院纸质档案归档方法及*** - Google Patents

一种基于ocr文字识别的医院纸质档案归档方法及*** Download PDF

Info

Publication number
CN110705515A
CN110705515A CN201910992909.2A CN201910992909A CN110705515A CN 110705515 A CN110705515 A CN 110705515A CN 201910992909 A CN201910992909 A CN 201910992909A CN 110705515 A CN110705515 A CN 110705515A
Authority
CN
China
Prior art keywords
file
paper
archive
hospital
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910992909.2A
Other languages
English (en)
Inventor
罗述岭
吴玉雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health And Medical Big Data Co Ltd
Original Assignee
Shandong Health And Medical Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health And Medical Big Data Co Ltd filed Critical Shandong Health And Medical Big Data Co Ltd
Priority to CN201910992909.2A priority Critical patent/CN110705515A/zh
Publication of CN110705515A publication Critical patent/CN110705515A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于OCR文字识别的医院纸质档案归档方法及***,属于模式识别技术领域。本发明的基于OCR文字识别的医院纸质档案归档方法,建立关键字字典库,对纸质档案进行扫描,对扫描件进行文字定位和分割,识别档案中的关键字,根据档案的头部标题识别档案类型,进行档案种类区分,再进一步识别预定义的重要字段,进行数据识别并录入数据库。该发明的基于OCR文字识别的医院纸质档案归档方法能够节约时间及人力成本,以高效优良的方式实现医院纸质档案录入数据库,具有很好的推广应用价值。

Description

一种基于OCR文字识别的医院纸质档案归档方法及***
技术领域
本发明涉及模式识别技术领域,具体提供一种基于OCR文字识别的医院纸质档案归档方法及***。
背景技术
随着深度学习技术的不断成熟,文字识别的准确度也已经达到了工业应用和商业应用的标准,目前文字识别广泛应用于车牌号识别,身份证识别,快递地址识别等场景,使这些活动地效率获得了极大的提升,越来越多的应用选择文字识别来减轻工作人员的压力和节约成本。
虽然现在医院信息化水平有了极大地提高,尤其是电子档案的建立。将档案信息数据化,不仅方便保存,而且读取更加便利,但是有些档案信息需要从纸质档案录入到数据库,整个录入过程目前还是处于人工录入阶段。
众所周知,在现实应用中,医院档案的种类从日常护理信息,到手术信息,种类繁多,医院一天之内产生的纸质档案就是一个非常大的数量,每个岗位的工作人员单独录入本岗位的档案信息也是一件十分耗费时间的工作,在进行纸质档案数据化归档时,还是以人工输入为主,不仅人力成本高,而且效率低。为了节约时间以及人力上的成本,医院引入文字识别进行纸质档案录入的手段是必要的。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够节约时间及人力成本,以高效优良的方式实现医院纸质档案录入数据库的基于OCR文字识别的医院纸质档案归档方法。
本发明进一步的技术任务是提供一种基于OCR文字识别的医院纸质档案归档***。
为实现上述目的,本发明提供了如下技术方案:
一种基于OCR文字识别的医院纸质档案归档方法,建立关键字字典库,对纸质档案进行扫描,对扫描件进行文字定位和分割,识别档案中的关键字,根据档案的头部标题识别档案类型,进行档案种类区分,再进一步识别预定义的重要字段,进行数据识别并录入数据库。
该基于OCR文字识别的医院纸质档案归档方法,为医院纸质档案归档过程节约了时间及人力上的成本,并且能够极大大提高纸质档案归档的效率和准确性。
作为优选,该基于OCR文字识别的医院纸质档案归档方法具体包括以下步骤:
S1、建立关键字字典库,来建立档案信息规范;
S2、纸质档案扫描,将纸质档案录入到存储***,对扫描文件进行预处理;
S3、文字定位和分割,利用水平投影和垂直投影对医院档案的扫描文件切割成单文字图片;
S4、关键字段识别与内容校验;
S5、将获取的内容,录入数据库保存。
作为优选,所述建立档案信息规范包括用于档案文件分类的档案文件头部名称、关键字段名称和复选框是否被选中的表示,其中用√表示选中。
作为优选,纸质档案扫描时,将纸质档案录入到计算机***,扫描文件格式为jpg,对扫描文件进行预处理,去除噪声和文本方向矫正。
作为优选,文字定位和分割时,对于表格类型的档案,利用水平投影和垂直投影,单独分割出文件头名称,表格部分被分割成单元格,再利用水平投影和垂直投影分割单元格文本,分割出单字图片;对于文本类型的档案,利用水平投影和垂直投影,将扫描文件切割成单文字图片。
作为优选,关键字段识别与内容校验包括以下过程:
1)通过深度学习的卷积神经网络,训练文字识别的模型;
2)将切割得到的单文字图片输入模型进行识别;
3)对于表格类型档案,对识别出的内容进行词法分析,与字典中的关键字进行比对,将相对应的单元格中的文本与之关联,默认使用map,对于具有固定格式的内容,进行校验,不规范则驳回此份档案;
4)对于文本类型档案,对识别出的内容进行词法分析,与字典中的关键字进行比对,将其后面的内容与之关联,对于内容信息,取固定格式或通过字体区别,对于具有固定格式的内容,进行校验,不规范则驳回此份档案。
一种基于OCR文字识别的医院纸质档案归档***,包括关键字字段建立模块、纸质档案扫描模块、文字定位和分割模块、关键字段识别与内容校验模块和数据存储模块:
关键字字段建立模块用于建立关键字字典库,来建立档案信息规范;
纸质档案扫描模块,负责将纸质档案录入到存储***,对扫描文件进行预处理;
文字定位和分割模块,负责利用水平投影和垂直投影对医院档案的扫描文件切割成单文字图片;
关键字段识别与内容校验模块用于关键字段识别与内容校验;
数据存储模块用于将获取的内容,录入数据库保存。
作为优选,所述关键字字段建立模块建立档案信息规范,包括用于档案文件分类的档案文件头部名称、关键字段名称和复选框是否被选中的表示,其中用√表示选中。
作为优选,纸质档案扫描模块在纸质档案扫描时,将纸质档案录入到计算机***,扫描文件格式为jpg,对扫描文件进行预处理,去除噪声和文本方向矫正。
作为优选,文字定位和分割模块在进行文字定位和分割时,对于表格类型的档案,利用水平投影和垂直投影,单独分割出文件头名称,表格部分被分割成单元格,再利用水平投影和垂直投影分割单元格文本,分割出单字图片;对于文本类型的档案,利用水平投影和垂直投影,将扫描文件切割成单文字图片。
与现有技术相比,本发明的基于OCR文字识别的医院纸质档案归档方法具有以下突出的有益效果:所述基于OCR文字识别的医院纸质档案归档方法为医院纸质档案归档过程节约了时间及人力上的成本,并且能够极大大提高纸质档案归档的效率和准确性,具有良好的推广应用价值。
具体实施方式
下面将结合实施例,对本发明的基于OCR文字识别的医院纸质档案归档方法及***作进一步详细说明。
实施例
本发明的基于OCR文字识别的医院纸质档案归档方法,建立关键字字典库,对纸质档案进行扫描,对扫描件进行文字定位和分割,识别档案中的关键字,根据档案的头部标题识别档案类型,进行档案种类区分,再进一步识别预定义的重要字段,进行数据识别并录入数据库。
该基于OCR文字识别的医院纸质档案归档方法具体包括以下步骤:
S1、建立关键字字典库,来建立档案信息规范。
建立档案信息规范包括用于档案文件分类的档案文件头部名称、关键字段名称和复选框是否被选中的表示,其中用√表示选中。
S2、纸质档案扫描,将纸质档案录入到存储***,对扫描文件进行预处理。
纸质档案扫描时,将纸质档案录入到计算机***,扫描文件格式为jpg,对扫描文件进行预处理,去除噪声和文本方向矫正。
S3、文字定位和分割,利用水平投影和垂直投影对医院档案的扫描文件切割成单文字图片。
文字定位和分割时,对于表格类型的档案,利用水平投影和垂直投影,单独分割出文件头名称,表格部分被分割成单元格,再利用水平投影和垂直投影分割单元格文本,分割出单字图片;对于文本类型的档案,利用水平投影和垂直投影,将扫描文件切割成单文字图片。
S4、关键字段识别与内容校验。
包括以下过程:
1)通过深度学习的卷积神经网络,训练文字识别的模型;
2)将切割得到的单文字图片输入模型进行识别;
3)对于表格类型档案,对识别出的内容进行词法分析,与字典中的关键字进行比对,将相对应的单元格中的文本与之关联,默认使用map,对于具有固定格式的内容,进行校验,不规范则驳回此份档案;
4)对于文本类型档案,对识别出的内容进行词法分析,与字典中的关键字进行比对,将其后面的内容与之关联,对于内容信息,取固定格式或通过字体区别,对于具有固定格式的内容,进行校验,不规范则驳回此份档案。
S5、将获取的内容,录入数据库保存。
本发明的基于OCR文字识别的医院纸质档案归档***,包括关键字字段建立模块、纸质档案扫描模块、文字定位和分割模块、关键字段识别与内容校验模块和数据存储模块。
其中,关键字字段建立模块用于建立关键字字典库,来建立档案信息规范。
关键字字段建立模块建立档案信息规范,包括用于档案文件分类的档案文件头部名称、关键字段名称和复选框是否被选中的表示,其中用√表示选中。
纸质档案扫描模块,负责将纸质档案录入到存储***,对扫描文件进行预处理。
纸质档案扫描模块在纸质档案扫描时,将纸质档案录入到计算机***,扫描文件格式为jpg,对扫描文件进行预处理,去除噪声和文本方向矫正。
文字定位和分割模块,负责利用水平投影和垂直投影对医院档案的扫描文件切割成单文字图片。
文字定位和分割模块在进行文字定位和分割时,对于表格类型的档案,利用水平投影和垂直投影,单独分割出文件头名称,表格部分被分割成单元格,再利用水平投影和垂直投影分割单元格文本,分割出单字图片;对于文本类型的档案,利用水平投影和垂直投影,将扫描文件切割成单文字图片。
关键字段识别与内容校验模块用于关键字段识别与内容校验。
数据存储模块用于将获取的内容,录入数据库保存。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种基于OCR文字识别的医院纸质档案归档方法,其特征在于:建立关键字字典库,对纸质档案进行扫描,对扫描件进行文字定位和分割,识别档案中的关键字,根据档案的头部标题识别档案类型,进行档案种类区分,再进一步识别预定义的重要字段,进行数据识别并录入数据库。
2.根据权利要求1所述的基于OCR文字识别的医院纸质档案归档方法,其特征在于:具体包括以下步骤:
S1、建立关键字字典库,来建立档案信息规范;
S2、纸质档案扫描,将纸质档案录入到存储***,对扫描文件进行预处理;
S3、文字定位和分割,利用水平投影和垂直投影对医院档案的扫描文件切割成单文字图片;
S4、关键字段识别与内容校验;
S5、将获取的内容,录入数据库保存。
3.根据权利要求2所述的基于OCR文字识别的医院纸质档案归档方法,其特征在于:所述建立档案信息规范包括用于档案文件分类的档案文件头部名称、关键字段名称和复选框是否被选中的表示。
4.根据权利要求3所述的基于OCR文字识别的医院纸质档案归档方法,其特征在于:纸质档案扫描时,将纸质档案录入到计算机***,扫描文件格式为jpg,对扫描文件进行预处理,去除噪声和文本方向矫正。
5.根据权利要求4所述的基于OCR文字识别的医院纸质档案归档方法,其特征在于:文字定位和分割时,对于表格类型的档案,利用水平投影和垂直投影,单独分割出文件头名称,表格部分被分割成单元格,再利用水平投影和垂直投影分割单元格文本,分割出单字图片;对于文本类型的档案,利用水平投影和垂直投影,将扫描文件切割成单文字图片。
6.根据权利要求5所述的基于OCR文字识别的医院纸质档案归档方法,其特征在于:关键字段识别与内容校验包括以下过程:
1)通过深度学习的卷积神经网络,训练文字识别的模型;
2)将切割得到的单文字图片输入模型进行识别;
3)对于表格类型档案,对识别出的内容进行词法分析,与字典中的关键字进行比对,将相对应的单元格中的文本与之关联;
4)对于文本类型档案,对识别出的内容进行词法分析,与字典中的关键字进行比对,将其后面的内容与之关联,对于内容信息,取固定格式或通过字体区别。
7.一种基于OCR文字识别的医院纸质档案归档***,其特征在于:包括关键字字段建立模块、纸质档案扫描模块、文字定位和分割模块、关键字段识别与内容校验模块和数据存储模块:
关键字字段建立模块用于建立关键字字典库,来建立档案信息规范;
纸质档案扫描模块,负责将纸质档案录入到存储***,对扫描文件进行预处理;
文字定位和分割模块,负责利用水平投影和垂直投影对医院档案的扫描文件切割成单文字图片;
关键字段识别与内容校验模块用于关键字段识别与内容校验;
数据存储模块用于将获取的内容,录入数据库保存。
8.根据权利要求7所述的基于OCR文字识别的医院纸质档案归档***,其特征在于:所述关键字字段建立模块建立档案信息规范,包括用于档案文件分类的档案文件头部名称、关键字段名称和复选框是否被选中的表示。
9.根据权利要求8所述的基于OCR文字识别的医院纸质档案归档***,其特征在于:纸质档案扫描模块在纸质档案扫描时,将纸质档案录入到计算机***,扫描文件格式为jpg,对扫描文件进行预处理,去除噪声和文本方向矫正。
10.根据权利要求9所述的基于OCR文字识别的医院纸质档案归档***,其特征在于:文字定位和分割模块在进行文字定位和分割时,对于表格类型的档案,利用水平投影和垂直投影,单独分割出文件头名称,表格部分被分割成单元格,再利用水平投影和垂直投影分割单元格文本,分割出单字图片;对于文本类型的档案,利用水平投影和垂直投影,将扫描文件切割成单文字图片。
CN201910992909.2A 2019-10-18 2019-10-18 一种基于ocr文字识别的医院纸质档案归档方法及*** Pending CN110705515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910992909.2A CN110705515A (zh) 2019-10-18 2019-10-18 一种基于ocr文字识别的医院纸质档案归档方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910992909.2A CN110705515A (zh) 2019-10-18 2019-10-18 一种基于ocr文字识别的医院纸质档案归档方法及***

Publications (1)

Publication Number Publication Date
CN110705515A true CN110705515A (zh) 2020-01-17

Family

ID=69201569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910992909.2A Pending CN110705515A (zh) 2019-10-18 2019-10-18 一种基于ocr文字识别的医院纸质档案归档方法及***

Country Status (1)

Country Link
CN (1) CN110705515A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405138A (zh) * 2020-03-15 2020-07-10 上海派申网络技术有限公司 跨境电商用文件扫描自动归档设备
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112052749A (zh) * 2020-08-20 2020-12-08 中国建设银行股份有限公司 档案的归档方法、装置、电子设备及计算机可读存储介质
CN112686262A (zh) * 2020-12-28 2021-04-20 广州博士信息技术研究院有限公司 一种基于图像识别技术的手册提取结构化数据并快速归档的方法
CN112766266A (zh) * 2021-01-29 2021-05-07 云从科技集团股份有限公司 基于分阶段概率统计的文本方向矫正方法、***及装置
CN112836073A (zh) * 2021-02-02 2021-05-25 嘉应学院 一种历史文献数字化方法、***、装置及存储介质
CN113342883A (zh) * 2021-05-25 2021-09-03 国网上海市电力公司 一种电力设备检测数据结构化方法、装置、介质及设备
CN115019326A (zh) * 2022-08-02 2022-09-06 北京杭升科技有限公司 档案录入***、方法、装置以及存储介质
CN115101186A (zh) * 2022-07-25 2022-09-23 武汉大学人民医院(湖北省人民医院) 基于大数据的医院就诊信息管理方法及装置
CN115794496A (zh) * 2023-02-07 2023-03-14 中信天津金融科技服务有限公司 一种基于信息抽取的档案存储方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041786A1 (en) * 2009-04-29 2012-02-16 Onemednet Corporation Methods, systems, and devices for managing medical images and records
CN104408678A (zh) * 2014-10-31 2015-03-11 中国科学院苏州生物医学工程技术研究所 一种供个人使用的电子病历***
CN104715436A (zh) * 2013-12-13 2015-06-17 北京美智医疗科技有限公司 一种医疗信息采集和归档方法及***
US20180011974A1 (en) * 2010-09-01 2018-01-11 Apixio, Inc. Systems and methods for improved optical character recognition of health records
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及***
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN110263740A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的不同类型印刷体文档转录方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041786A1 (en) * 2009-04-29 2012-02-16 Onemednet Corporation Methods, systems, and devices for managing medical images and records
US20180011974A1 (en) * 2010-09-01 2018-01-11 Apixio, Inc. Systems and methods for improved optical character recognition of health records
CN104715436A (zh) * 2013-12-13 2015-06-17 北京美智医疗科技有限公司 一种医疗信息采集和归档方法及***
CN104408678A (zh) * 2014-10-31 2015-03-11 中国科学院苏州生物医学工程技术研究所 一种供个人使用的电子病历***
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及***
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN110263740A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的不同类型印刷体文档转录方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李鹏等: "无纸化病案归档***的研究与应用", 《中国数字医学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405138A (zh) * 2020-03-15 2020-07-10 上海派申网络技术有限公司 跨境电商用文件扫描自动归档设备
CN111405138B (zh) * 2020-03-15 2022-02-01 上海派申网络技术有限公司 跨境电商用文件扫描自动归档设备
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112052749A (zh) * 2020-08-20 2020-12-08 中国建设银行股份有限公司 档案的归档方法、装置、电子设备及计算机可读存储介质
CN112686262B (zh) * 2020-12-28 2024-07-02 广州博士信息技术研究院有限公司 一种基于图像识别技术的提取数据并快速归档的方法
CN112686262A (zh) * 2020-12-28 2021-04-20 广州博士信息技术研究院有限公司 一种基于图像识别技术的手册提取结构化数据并快速归档的方法
CN112766266A (zh) * 2021-01-29 2021-05-07 云从科技集团股份有限公司 基于分阶段概率统计的文本方向矫正方法、***及装置
CN112836073A (zh) * 2021-02-02 2021-05-25 嘉应学院 一种历史文献数字化方法、***、装置及存储介质
CN113342883A (zh) * 2021-05-25 2021-09-03 国网上海市电力公司 一种电力设备检测数据结构化方法、装置、介质及设备
CN115101186A (zh) * 2022-07-25 2022-09-23 武汉大学人民医院(湖北省人民医院) 基于大数据的医院就诊信息管理方法及装置
CN115101186B (zh) * 2022-07-25 2022-11-08 武汉大学人民医院(湖北省人民医院) 基于大数据的医院就诊信息管理方法及装置
CN115019326B (zh) * 2022-08-02 2023-08-22 北京杭升科技有限公司 档案录入***、方法、装置以及存储介质
CN115019326A (zh) * 2022-08-02 2022-09-06 北京杭升科技有限公司 档案录入***、方法、装置以及存储介质
CN115794496A (zh) * 2023-02-07 2023-03-14 中信天津金融科技服务有限公司 一种基于信息抽取的档案存储方法及***

Similar Documents

Publication Publication Date Title
CN110705515A (zh) 一种基于ocr文字识别的医院纸质档案归档方法及***
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
US9633257B2 (en) Method and system of pre-analysis and automated classification of documents
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
US8620079B1 (en) System and method for extracting information from documents
US20110188759A1 (en) Method and System of Pre-Analysis and Automated Classification of Documents
US8208737B1 (en) Methods and systems for identifying captions in media material
CN106846961B (zh) 电子试卷的处理方法和装置
CN112052749A (zh) 档案的归档方法、装置、电子设备及计算机可读存储介质
CN114117171A (zh) 一种基于赋能思维的工程档案智能收整方法及***
CN112926299B (zh) 一种文本比对方法、合同审阅方法、审核***
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN112084748A (zh) 一种文本比对方法
KR101019627B1 (ko) 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
CN101833545A (zh) 数字资源加工过程中的数据标引方法
CN113269101A (zh) 一种票据识别方法、装置和设备
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
CN102207947B (zh) 一种直接引语素材库的生成方法
CN115730119A (zh) 一种档案智能化辅助编研方法、***及相关设备
CN113935296A (zh) 一种使用滑动模板技术进行纸质银行流水信息提取的方法
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理***
CN113657373A (zh) 一种文书自动编目方法
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
CN112348022A (zh) 一种基于深度学习的自由格式文档识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117