CN116704540A - 将纸质文件内容进行标识并高保真的转换为ofd文件的技术 - Google Patents

将纸质文件内容进行标识并高保真的转换为ofd文件的技术 Download PDF

Info

Publication number
CN116704540A
CN116704540A CN202310996818.2A CN202310996818A CN116704540A CN 116704540 A CN116704540 A CN 116704540A CN 202310996818 A CN202310996818 A CN 202310996818A CN 116704540 A CN116704540 A CN 116704540A
Authority
CN
China
Prior art keywords
picture
file
ofd
content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310996818.2A
Other languages
English (en)
Inventor
严伟
何冉冉
何中
朱聪聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Zhongwei Technology Software System Co ltd
Original Assignee
Jiangsu Zhongwei Technology Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Zhongwei Technology Software System Co ltd filed Critical Jiangsu Zhongwei Technology Software System Co ltd
Priority to CN202310996818.2A priority Critical patent/CN116704540A/zh
Publication of CN116704540A publication Critical patent/CN116704540A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Character Input (AREA)

Abstract

本发明提出将纸质文件内容进行标识并高保真的转换为OFD文件的技术,读取待处理图片,对图片中存在的文字的内容以及位置进行检测识别;对图片中的线条元素进行识别;对图片中的图形元素的位置和内容进行识别;将识别的图片中的文字、线条、图形信息建立识别结果的信息库;创建OFD文件,将识别的图片信息一一对应的转换为OFD文件;转换完成后在OFD文件上各文字、线条、图形信息上覆盖透明信息层,本发明可以将纸质文件加工为电子文件,为纸质文件识别为电子文件后的利用做好了坚实的基础,既将内容提取出来,有利于数字化的利用,又原模原样高保真的保存了文件加工前的状态,通过覆盖透明信息层的方式能够使得文件在利用时通过各种工具快速找到并定位到文件的具***置。

Description

将纸质文件内容进行标识并高保真的转换为OFD文件的技术
技术领域
本发明涉及图片转换领域,特别涉及将纸质文件内容进行标识并高保真的转换为OFD文件的技术。
背景技术
平板电脑、电纸书等技术的出现,使得阅读对象逐渐从纸质文件转换为电子文件,而目前纸质文件浩如烟海,这就需要有将纸质文件转换为电子文件的技术与之相适应来满足读者的阅读需求。
常见的将纸质文件转换为电子文件的技术为OCR(Opt ical CharacterRecognition,光学字符识别)技术,OCR技术的核心是对字符图片逐个识别,其判断依据是字符图片的轮廓。现有的图片转换还存在以下问题:
(1)直接将图片生成的OFD文件无法提取图片中的文字、直线信息,仅能进行展示;
(2)图片中图形中的内容无法进行识别定位,需要在图片文件中查询图形信息时无法做到快速定位;
(3)通过人工提取图片文件中的文字、直线、图形信息等内容生成OFD文件需要花费较多时间和精力。
发明内容
本发明的目的在于提供将纸质文件内容进行标识并高保真的转换为OFD文件的技术,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于,包括以下步骤:
步骤S1:将纸质文件扫描为图片,读取待处理图片,对图片中存在的文字的内容、字号以及位置进行检测识别;
步骤S2:对图片中的线条元素进行识别;
步骤S3:对图片中的图形元素的位置和内容进行识别;
步骤S4:将识别的图片中的文字、线条、图形信息建立识别结果的信息库;
步骤S5:创建OFD文件,将识别的文字、线条及其他信息以图片的方式原模原样的一一对应的转换为OFD文件;
步骤S6:转换完成后在OFD文件上各文字、线条、图形信息上覆盖透明信息层。
优选的,所述文字检测包括以下步骤:
步骤1:获取图片中存在文字的部分,使用文字检测算法对图片中的文字进行检测,所述文字检测的算法包括但不限于CTPN、 DBNet、Faster-RCNN、YoLo等文字检测、目标检测算法;
步骤2:检测完毕后返回当前文字的位置以及文字的高度的检测结果;
步骤3:使用文字识别的算法识别出图片上的文字内容,所述文字识别的算法包括但不限于CRNN、2D-CTC、SVTR、SVR等可用于文字识别的算法;
步骤4:根据文字高度在纸张中所占像素尺寸比例计算当前文字字号。
优选的,所述线条元素的检测包括以下步骤:
步骤1:通过图像分割算法对图片中的线条位置进行分割检测,所述图像分割算法包括但不限于Unet、Mask-RCNN、SegNet、FCN等可以用于图像分割的算法;
步骤2:检测完成后返回当前线条的位置信息。
优选的,所述图片中的图形识别包括以下步骤:
步骤1:截取图片中存在图形的部分,使用目标检测算法对图片中的图形元素进行检测,所述目标检测算法包括但不限于Faster-RCNN、Yolo等目标检测算法;
步骤2:检测完成后返回当前图形的位置信息。
优选的,所述信息库的建立包括以下步骤:
步骤1:创建图片内容信息库;
步骤2:将识别的文字、线条、图形信息分别分类导入信息库内,对图形内容进行分类标识后导入信息库,所述信息库对各类内容分别进行存储。
优选的,所述图片信息转换包括以下步骤:
步骤1:识别图片的位置和大小;
步骤2:根据识别到的图片大小创建规范化的OFD空白页;
步骤3:将以及建立好的信息库内对应的图片按照OFD文件格式进行导入,将文字、线条以及图片信息一一对应的转换到空白OFD文件上。
优选的,所述在OFD文件上覆盖透明信息层包括以下步骤:
步骤1:导入图片时,将识别结果的信息库按照OFD文件标准格式生成文件并设置图层透明度;
步骤2:在根据识别的结果在图片上覆盖透明的“文字”和“线条”的字样,所述覆盖的字样的文字字号与图片上字体字号相同;
步骤3:在识别的图形的上覆盖透明的图形的具体内容的字样;
优选的,所述图片搜索定位的特征在于:在OFD文件的搜索框中输入关键词,关键词输入完毕后点击搜索对全文检索,检索完毕后自动跳转定位到OFD文件中图片的具***置。
优选的,所述图片转换的方法还适用于版式数据流文件以及PDF文件,所述覆盖透明信息层适用于版式数据流文件。
与现有技术相比,本发明的有益效果是:
(1)本发明可以将纸质文件加工为电子文件,为纸质文件识别为电子文件后的利用做好了坚实的基础;
(2)纸质文件加工为电子文件的过程中,既将内容提取出来,有利于数字化的利用,又原模原样高保真的保存了文件加工前的状态;
(3)本发明将图片转换为OFD文件的同时在图片的文字、线条、图形等元素上覆盖透明的内容标识字样,在OFD阅读器中对图片中内容进行检索时能够自动定位到图片中文字所在位置,若检索的内容为图片中的图形内容时能够定位到图形所在位置,通过这种方式能够使得文件在利用时通过各种工具快速找到并定位到文件的具***置。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
纸质文件转换为OFD文件时,文件内容为文字时采用以下方法,此方法包括以下步骤:
步骤S1:将纸质文件扫描为图片,读取待处理图片,获取图片中存在文字的部分,使用文字检测算法对图片中的文字进行检测,所述文字检测的算法包括但不限于CTPN、DBNet、Faster-RCNN、YoLo等文字检测、目标检测算法;
步骤S2:检测完毕后返回当前文字的位置以及文字的高度的检测结果;
步骤S3:使用文字识别的算法识别出图片上的文字内容,所述文字识别的算法包括但不限于CRNN、2D-CTC、SVTR、SVR等可用于文字识别的算法;
步骤S4:根据文字高度在纸张中所占像素尺寸比例计算当前文字字号;
步骤S5:创建图片内容信息库,将识别的文字信息分别导入信息库内,对文字内容进行标识后导入信息库,所述信息库对各类内容分别进行存储;
步骤S6:识别图片的位置和大小,根据识别到的图片大小创建规范化的OFD空白页;
步骤S7:将以及建立好的信息库内对应的图片按照OFD文件格式进行导入,将识别的文字信息以图片的方式原模原样的一一对应的转换为OFD文件;
步骤S8:导入图片时,将识别结果的信息库按照OFD文件标准格式生成文件并设置图层透明度;
步骤S9:在根据识别的结果在图片上覆盖透明的“文字”,所述覆盖的字样的文字字号与图片上字体字号相同;
实施例二
纸质文件转换为OFD文件时,文件内容为线条时采用以下方法,此方法包括以下步骤:
步骤S1:将纸质文件扫描为图片,读取待处理图片,通过图像分割算法对图片中的线条位置进行分割检测,所述图像分割算法包括但不限于Unet、Mask-RCNN、SegNet、FCN等可以用于图像分割的算法;
步骤S2:检测完成后返回当前线条的位置信息;
步骤S3:创建图片内容信息库,将识别的线条信息导入信息库内,对图形内容进行分类标识后导入信息库,信息库对识别内容进行存储;
步骤S4:识别图片的位置和大小,根据识别到的图片大小创建规范化的OFD空白页;
步骤S5:将以及建立好的信息库内对应的图片按照OFD文件格式进行导入,将识别的线条信息以图片的方式原模原样的一一对应的转换为OFD文件;
步骤S6:导入图片时,将识别结果的信息库按照OFD文件标准格式生成文件并设置图层透明度;
步骤S7:在根据识别的结果在图片上覆盖透明的“线条”的字样;
实施例三
纸质文件转换为OFD文件时,文件内容为图形时采用以下方法,此方法包括以下步骤:
步骤S1:将纸质文件扫描为图片,读取待处理图片,截取图片中存在图形的部分,使用目标检测算法对图片中的图形元素进行检测,所述目标检测算法包括但不限于Faster-RCNN、Yolo等目标检测算法;
步骤S2:检测完成后返回当前图形的位置信息;
步骤S3:创建图片内容信息库,将识别的图形信息导入信息库内,对图形内容进行分类标识后导入信息库,信息库对各类内容分别进行存储;
步骤S4:识别图片的位置和大小,根据识别到的图片大小创建规范化的OFD空白页;
步骤S5:将以及建立好的信息库内对应的图片按照OFD文件格式进行导入,将识别的图形信息以图片的方式原模原样的一一对应的转换为OFD文件;
步骤S6:导入图片时,将识别结果的信息库按照OFD文件标准格式生成文件并设置图层透明度;
步骤S7:在根据识别的结果在图片上覆盖透明的图形的内容字样;
对转换后的图片内容进行检索时,需要检索文字信息时,在OFD文件的搜索框中输入需要检索的文字关键词,点击搜索,关键词输入完毕后点击搜索对全文检索,检索完毕后自动跳转定位到OFD文件中图片的文字具***置。
对转换后的图片内容进行检索时,需要检索线条信息时,在OFD文件的搜索框中输入需要检索的线条信息,点击搜索,关键词输入完毕后点击搜索对全文检索,检索完毕后自动跳转定位到OFD文件中图片的线条具***置。
对转换后的图片内容进行检索时,需要检索图片中的图形信息时,在OFD文件的搜索框中输入需要检索的图形的内容信息,点击搜索,关键词输入完毕后点击搜索对全文检索,检索完毕后自动跳转定位到OFD文件中图片的图形的具***置。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于,包括以下步骤:
步骤S1:将纸质文件扫描为图片,读取待处理图片,对图片中存在的文字的内容、字号以及位置进行检测识别;
步骤S2:对图片中的线条元素进行识别;
步骤S3:对图片中的图形元素的位置和内容进行识别;
步骤S4:将识别的图片中的文字、线条、图形信息建立识别结果的信息库;
步骤S5:创建OFD文件,将识别的文字、线条及其他信息以图片的方式原模原样的一一对应的转换为OFD文件;
步骤S6:转换完成后在OFD文件上各文字、线条、图形信息上覆盖透明信息层。
2.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述文字检测包括以下步骤:
步骤1:获取图片中存在文字的部分,使用文字检测算法对图片中的文字进行检测,所述文字检测的算法包括但不限于CTPN、 DBNet、Faster-RCNN、YoLo等文字检测、目标检测算法;
步骤2:检测完毕后返回当前文字的位置以及文字的高度的检测结果;
步骤3:使用文字识别的算法识别出图片上的文字内容,所述文字识别的算法包括但不限于CRNN、2D-CTC、SVTR、SVR等可用于文字识别的算法;
步骤4:根据文字高度在纸张中所占像素尺寸比例计算当前文字字号。
3.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述线条元素的检测包括以下步骤:
步骤1:通过图像分割算法对图片中的线条位置进行分割检测,所述图像分割算法包括但不限于Unet、Mask-RCNN、SegNet、FCN等可以用于图像分割的算法;
步骤2:检测完成后返回当前线条的位置信息。
4.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述图片中的图形识别包括以下步骤:
步骤1:截取图片中存在图形的部分,使用目标检测算法对图片中的图形元素进行检测,所述目标检测算法包括但不限于Faster-RCNN、Yolo等目标检测算法;
步骤2:检测完成后返回当前图形的位置信息。
5.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述信息库的建立包括以下步骤:
步骤1:创建图片内容信息库;
步骤2:将识别的文字、线条、图形信息分别分类导入信息库内,对图形内容进行分类标识后导入信息库,所述信息库对各类内容分别进行存储。
6.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述图片信息转换包括以下步骤:
步骤1:识别图片的位置和大小;
步骤2:根据识别到的图片大小创建规范化的OFD空白页;
步骤3:将以及建立好的信息库内对应的图片按照OFD文件格式进行导入,将文字、线条以及图片信息一一对应的转换到空白OFD文件上。
7.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述在OFD文件上覆盖透明信息层包括以下步骤:
步骤1:导入图片时,将识别结果的信息库按照OFD文件标准格式生成文件并设置图层透明度;
步骤2:在根据识别的结果在图片上覆盖透明的“文字”和“线条”的字样,所述覆盖的字样的文字字号与图片上字体字号相同;
步骤3:在识别的图形的上覆盖透明的图形的具体内容的字样。
8.将纸质文件内容进行标识并高保真的转换为OFD文件的技术,图片搜索定位的特征在于:在OFD文件的搜索框中输入关键词,关键词输入完毕后点击搜索对全文检索,检索完毕后自动跳转定位到OFD文件中图片的具***置。
9.根据权利要求1所述的将纸质文件内容进行标识并高保真的转换为OFD文件的技术,其特征在于:所述图片转换的方法还适用于版式数据流文件以及PDF文件,所述覆盖透明信息层适用于版式数据流文件。
CN202310996818.2A 2023-08-09 2023-08-09 将纸质文件内容进行标识并高保真的转换为ofd文件的技术 Pending CN116704540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310996818.2A CN116704540A (zh) 2023-08-09 2023-08-09 将纸质文件内容进行标识并高保真的转换为ofd文件的技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310996818.2A CN116704540A (zh) 2023-08-09 2023-08-09 将纸质文件内容进行标识并高保真的转换为ofd文件的技术

Publications (1)

Publication Number Publication Date
CN116704540A true CN116704540A (zh) 2023-09-05

Family

ID=87836113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310996818.2A Pending CN116704540A (zh) 2023-08-09 2023-08-09 将纸质文件内容进行标识并高保真的转换为ofd文件的技术

Country Status (1)

Country Link
CN (1) CN116704540A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
CN109829139A (zh) * 2019-01-30 2019-05-31 中国软件与技术服务股份有限公司 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置
CN111898433A (zh) * 2020-06-22 2020-11-06 百望股份有限公司 一种纸质票据数字化方法和装置
CN114463758A (zh) * 2022-01-28 2022-05-10 南京云档信息科技有限公司 一种保留原生内容的ocr双层文件生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
CN109829139A (zh) * 2019-01-30 2019-05-31 中国软件与技术服务股份有限公司 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置
CN111898433A (zh) * 2020-06-22 2020-11-06 百望股份有限公司 一种纸质票据数字化方法和装置
CN114463758A (zh) * 2022-01-28 2022-05-10 南京云档信息科技有限公司 一种保留原生内容的ocr双层文件生成方法

Similar Documents

Publication Publication Date Title
US10353997B1 (en) Freeform annotation transcription
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
US9916499B2 (en) Method and system for linking printed objects with electronic content
KR101552525B1 (ko) 폰트를 인식하고 폰트정보를 제공하는 시스템 및 그 방법
Isheawy et al. Optical character recognition (OCR) system
CN113221711A (zh) 一种信息提取方法及装置
Singla et al. Optical character recognition based speech synthesis system using LabVIEW
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN112464907A (zh) 一种文档处理***及方法
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN110929479A (zh) 转换pdf扫描件的方法、装置、电子设备及存储介质
CN115909449A (zh) 文件处理方法、装置、电子设备、存储介质及程序产品
JP2013152564A (ja) 文書処理装置及び文書処理方法
CN116704540A (zh) 将纸质文件内容进行标识并高保真的转换为ofd文件的技术
CN111241955B (zh) 一种票据信息提取方法及***
CN109409359A (zh) 一种基于深度学习的视频字幕提取方法
CN115203474A (zh) 一种数据库自动分类提取技术
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
US20220237397A1 (en) Identifying handwritten signatures in digital images using ocr residues
US9483694B2 (en) Image text search and retrieval system
JPH05303619A (ja) 電子スクラップブック
CN114429573A (zh) 一种基于数据增强的生活垃圾数据集生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230905

RJ01 Rejection of invention patent application after publication