CN111507351A - 一种古籍文档数字化的方法 - Google Patents

一种古籍文档数字化的方法 Download PDF

Info

Publication number
CN111507351A
CN111507351A CN202010298720.6A CN202010298720A CN111507351A CN 111507351 A CN111507351 A CN 111507351A CN 202010298720 A CN202010298720 A CN 202010298720A CN 111507351 A CN111507351 A CN 111507351A
Authority
CN
China
Prior art keywords
single character
document
ancient book
training
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010298720.6A
Other languages
English (en)
Other versions
CN111507351B (zh
Inventor
马伟洪
金连文
汪嘉鹏
伍思航
毛慧芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202010298720.6A priority Critical patent/CN111507351B/zh
Publication of CN111507351A publication Critical patent/CN111507351A/zh
Application granted granted Critical
Publication of CN111507351B publication Critical patent/CN111507351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种古籍文档数字化的方法,包括:收集数据,再利用收集的数据训练单字检测模型,得到单字输出结果;同时训练单字分类模型,对检测后的单字输出分类结果,结合单字的检测以及识别结果最终得到文档的识别结果;利用图形形态学的方法提取文档版面的直线,并设计算法解决文档双列夹注的问题,为文档结构化输出提供条件,最后输出图片对应的文档数字化结果,完成文档数字化的工作。本发明方法解决了版面复杂,密集文档下的单字检测以及较大的文档背景中包括污渍干扰等问题,具有简单高效,识别精度高的优点,将现代计算机信息技术与传统人文文化相结合,对于数字遗产保护,信息发现,纸质文档转录等工作具有重要的积极作用。

Description

一种古籍文档数字化的方法
技术领域
本发明涉及图像精确定位及分类技术领域,特别是涉及一种古籍文档数字化的方法。
背景技术
中华文化源远流长,广博精深,古籍文献蕴藏着我国五千年历史的全部智慧精髓,它不仅是中国悠久文化的传统明证,也是中华民族的立世之本,更是我们不可或缺的精神力量。古籍文献本身所具有的历史文物性、学术资料性以及艺术代表性,对研究我国古代的社会风貌以及生产、科学文化的发展都具有极其重要的作用。中国拥有的古籍文献数量多达几万册,其记载了中国的悠久历史文化,是非常宝贵的非物质文化遗产。为避免馆藏中古籍文献由于时间的流逝而老化或消失,也为了挖掘和利用古籍文献中蕴含的丰富知识,古籍文档数字化的工作就显得尤为重要。与古籍文档数字化工作密切相关的是光学字符识别(OCR)技术,即对纸上的文字利用光学技术和计算机技术读取出来,从而得到对应的文字输出结果。
近年来,随着深度神经网络的发展,基于深度学习的OCR技术在固定版式上,如身份证验证、车牌识别等都取得显著的成果,既降低了人力成本,同时也很大程度的提高了人们的工作效率。然而古籍文档转录方面的研究却发展缓慢,主要的技术难点包括古籍文档排版复杂,很难提取结构化的输出信息;图像较为模糊,分辨率低,背景的干扰严重等因素,这些技术难点严重影响了文字的检测和识别。
因此,急需一种简单高效的古籍文档数字化的方法,以及时地对古籍文档进行纸质文档转录,以保护古籍文档。
发明内容
本发明的目的是提供一种古籍文档数字化的方法,以解决上述现有技术存在的问题,使古籍文档被精确地进行纸质文档转录。
为实现上述目的,本发明提供了如下方案:本发明提供一种古籍文档数字化的方法,包括如下内容:
S1.获取数据:收集古籍文档的图像数据,对所述图像数据进行篇幅级别的单字标注以及文本行标注,得到训练数据集;
S2.训练单字检测模型并进行检测:对所述训练数据集进行预处理;基于通用目标检测框架YOLO-v3,设置尺度不同的anchor大小,然后将所述预处理后的训练数据集在所述YOLO-v3检测框架下进行训练,得到单字检测模型;利用训练好的单字检测模型,直接输入整图图像进行检测得到单字检测结果;
S3.训练单字分类模型并进行分类:步骤S1中所述单字标注会得到单个字符的图片,利用卷积神经网络构建单字分类模型,利用所述单个字符的图片对所述单字分类模型进行训练,得到单字分类模型;利用训练好的单字分类模型,输入单字图片得到分类识别结果;
S4.提取版面直线:检测所述古籍文档中的直线位置,将古籍文档内容不同区域块的部分提取出来,得到各个区域块间的位置关系;
S5.结构化输出文档:结合单字检测以及单字分类结果,再利用步骤S4得到的所述各个区域块间的位置关系,输出数字化的古籍文档内容。
优选地,步骤S1中收集的古籍包括版面简单的图片TKH、版面复杂的图片MTH1000及MTH1200。
优选地,步骤S1中所述单字标注的内容包括单字符的位置、单字符对应的分类类别;文本行标注即按照古籍文档的阅读顺序从右到左,从上到下标注文本行的坐标以及对应的序列内容。
优选地,步骤S3中数据预处理包括对步骤S1中图像数据进行自适应阈值二值化、添加高斯噪声、随机补白或切掉部分像素区域。
优选地,步骤S3中,根据形态学膨胀腐蚀的方法,同时结合投影法,提取古籍文档版面的直线,得到各个区块间的位置关系。
优选地,步骤S5中根据单字检测的坐标以及版面提取出来的位置,对双列下的字进行排序,从而进行输出。
本发明公开了以下技术效果:本发明解决了版面复杂、文档密集的古籍文档的单字检测以及在较大的文档背景中存在污渍干扰的问题,可以简单、高效地识别古籍文档中的内容,将现代计算机信息技术和传统的人文文化巧妙地相结合,对于数字遗产保护、信息发现、纸质文档转录等工作具有重要的作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明古籍文档数字化方法的流程图;
图2是本发明使用的数据集采样介绍;
图3是本发明单字符分类模型示意图;
图4是本发明的检测结果实例示意图;
图5是本发明的版面提取结果实例示意图;
图6是本发明的结构化输出结果实例示意图;
图7是通过本发明古籍文档数字化方法得到的最终结果实例示意图;
图8为图2中标号为c的图片的局部放大图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1-8所示,本发明提供一种古籍文档数字化的方法,具体内容如下:图1为本发明古籍文档数字化方法的流程图,首先,获取待文档内容数字化的古籍数据集,本实施例古籍数据集由简单版面的图片以及复杂版面的图片组成,分别命名为TKH、MTH1000及MTH1200,其依次分别有1000、1000、1200共计3200张图像数据,然后对这3200张图像数据进行篇幅级别的标注,具体包括符合阅读顺序的文本行级别标注、单字级别的标注,古籍数据集采样的图片如图2所示,图8为图2中标号为c的图片的放大图。文字分为常用字以及生僻字,生僻字出现的频次较低,只有部分的常用字出现的次数达到最高,最多的一个数据集中单字有1000张图片的类别,MTH1200的类别数最多,TKH出现的类别数最少,具体的数据统计如表1所示。
表1.古籍数据集分布情况统计
TKH MTH1000 MTH1200
页面总数 1000 1000 1200
文本行总数 23468 27559 21416
字符总数 323501 420548 337613
字符种类数 1487 5341 5292
双列文本行占比 0 9.0% 27%
训练单字检测模型:将获取的古籍数据集中的所有3200张图片按照4:1的比例随机分成训练数据集和测试数据集两部分,即训练数据集中有2560张图片,测试数据集中有640张图片。基于YOLO-v3检测模型,对比全图级别(Full input)以及基于滑动窗口(Sliceinput)的方法来分析检测结果。在训练过程中将训练数据集的所有2560张图片缩放到固定的2048x2048大小,再利用K-means聚类方法来设置anchor的大小。经过利用训练数据集中的图片数据对单字符检测模型进行训练后,再利用测试数据集中的640张图片对训练完毕的单字符检测模型进行测试,得到如表2所示的测试结果。从表2可以看出,滑动窗口的输入能够减少单张图片中的文字框的个数,显著地提高高IoU下的指标,并且滑动窗口作为一种数据预处理操作,在解决密集物体以及高分辨率图片的检测时效果是显著和通用的。本实施例单字符检测结果如附图4所示。
表2.单字检测对比试验结果
IoU=0.5 IoU=0.6 IoU=0.7 IoU=0.8
全图输入 98.32% 97.36% 93.55% 73.28%
滑窗后图片输入 99.22% 98.61% 96.40% 86.66%
训练单字分类网络模型:通过数据预处理,利用旋转变换来做数据增强操作处理后,采用的单字符分类网络模型如图3所示,具体包括卷积层(卷积核大小为3x3,输入通道数为1,输出通道数为32)、正则化层+Relu激活层+池化层(池化核大小为2x2)、卷积层(卷积核大小为3x3,输入通道数32,输出通道数为64);正则化层+Relu激活层+池化层(池化核大小为2x2);卷积层(卷积核大小为3x3,输入通道数为64,输出通道数为128);正则化层+Relu激活层+池化层(池化核大小为2x2);卷积层(卷积核大小为3x3,输入通道数为128,输出通道数为256),正则化层+Relu激活层+池化层(池化核大小为2x2);全连接层(输出节点数为512);正则化层+Relu激活层+dropout层(dropout比例为0.3,防止过拟合),全连接(输入节点数为512,输出节点数为单字类别数)。最后训练单字分类网络的Top1准确率为97.111%,Top-5准确率为98.87%。
其中,数据预处理操作包括对步骤S1中图像数据进行自适应阈值二值化、添加高斯噪声、随机补白或切掉部分像素区域。通过对图像数据进行自适应阈值二值化可以避免不同图片背景造成的干扰,由于二值化常会引入噪声,添加高斯噪声可以增加模型的泛化能力,由于单字检测模型不能保证单字能够回归的特别精准,随机补白可以提高单字分类网络模型的鲁棒性。
提取版面直线:通过图像处理方法,结合投影法检测文档中的直线位置,将古籍文档内容不同区域块的部分提取出来,最终得到各个区域块的位置关系,得到的效果图如附图5所示。
文档结构化输出:古籍文档结构化输出需要还原出文本的位置以及文档内容,特别地,古籍文档结构化输出重点需要解决的一个技术问题是如何解决文档中双列夹住的问题,解决这个问题需要对单列按照从上到下的顺序输出,再对双列中的内容按照从右到左的顺序进行输出。本发明为解决这个问题,设计了如下表伪代码所示的算法:
Figure BDA0002453188220000061
Figure BDA0002453188220000071
最后通过输入一张古籍文档图片,经过文档数字化方法,得到的最后的结果如附图6所示。
本发明通过分析传统方法以及深度学习方法的不足之处,提出了一些针对古籍文档数字化的新思路,主要包括利用滑动窗口的方法来提高文字检测的精度,以及通过形态学的方法较快的得到版面提取的结果,最后通过设计的识别网络以及数据增强技巧,结构化的输出双列的文字内容,具有实现简单、识别精度高、识别速度快的优点。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (6)

1.一种古籍文档数字化的方法,其特征在于,包括如下步骤:
S1.获取数据:收集古籍文档的图像数据,对所述图像数据进行篇幅级别的单字标注以及文本行标注,得到训练数据集;
S2.训练单字检测模型并进行检测:对所述训练数据集进行预处理;基于通用目标检测框架YOLO-v3,设置尺度不同的anchor大小,然后将所述预处理后的训练数据集在所述YOLO-v3检测框架下进行训练,得到单字检测模型;利用训练好的单字检测模型,直接输入整图图像进行检测得到单字检测结果;
S3.训练单字分类模型并进行分类:步骤S1中所述单字标注会得到单个字符的图片,利用卷积神经网络构建单字分类模型,利用所述单个字符的图片对所述单字分类模型进行训练,得到单字分类模型;利用训练好的单字分类模型输入单字图片得到分类识别结果;
S4.提取版面直线:检测所述古籍文档中的直线位置,将古籍文档内容不同区域块的部分提取出来,得到各个区域块间的位置关系;
S5.结构化输出文档。
2.根据权利要求1所述的古籍文档数字化的方法,其特征在于,步骤S1中收集的古籍包括版面简单的图片TKH、版面复杂的图片MTH1000及MTH1200。
3.根据权利要求1所述的古籍文档数字化的方法,其特征在于,步骤S1中所述单字标注的内容包括单字符的位置、单字符对应的分类类别;文本行标注即按照古籍文档的阅读顺序从右到左,从上到下标注文本行的坐标以及对应的序列内容。
4.根据权利要求1所述的古籍文档数字化的方法,其特征在于,步骤S3中数据预处理包括对步骤S1中图像数据进行自适应阈值二值化、添加高斯噪声、随机补白或切掉部分像素区域。
5.根据权利要求1所述的古籍文档数字化的方法,其特征在于,步骤S3中,根据形态学膨胀腐蚀的方法,同时结合投影法,提取古籍文档版面的直线,得到各个区块间的位置关系。
6.根据权利要求1所述的古籍文档数字化的方法,其特征在于,步骤S5:结合单字检测以及单字分类结果,再利用步骤S4得到的所述各个区域块间的位置关系,输出数字化的古籍文档内容。
CN202010298720.6A 2020-04-16 2020-04-16 一种古籍文档数字化的方法 Active CN111507351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010298720.6A CN111507351B (zh) 2020-04-16 2020-04-16 一种古籍文档数字化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010298720.6A CN111507351B (zh) 2020-04-16 2020-04-16 一种古籍文档数字化的方法

Publications (2)

Publication Number Publication Date
CN111507351A true CN111507351A (zh) 2020-08-07
CN111507351B CN111507351B (zh) 2023-05-30

Family

ID=71876140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010298720.6A Active CN111507351B (zh) 2020-04-16 2020-04-16 一种古籍文档数字化的方法

Country Status (1)

Country Link
CN (1) CN111507351B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837329A (zh) * 2021-03-01 2021-05-25 西北民族大学 一种藏文古籍文档图像二值化方法及***
CN113609365A (zh) * 2021-08-11 2021-11-05 陕西中医药大学 一种中医古籍数据收集整理***
CN113723330A (zh) * 2021-09-06 2021-11-30 华南理工大学 一种图表文档信息理解的方法及***
CN115147852A (zh) * 2022-03-16 2022-10-04 北京有竹居网络技术有限公司 一种古籍识别方法、装置、存储介质及设备
CN115410216A (zh) * 2022-10-31 2022-11-29 天津恒达文博科技股份有限公司 古籍文本信息化处理方法、***、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664996A (zh) * 2018-04-19 2018-10-16 厦门大学 一种基于深度学习的古文字识别方法及***
CN109800761A (zh) * 2019-01-25 2019-05-24 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN110134953A (zh) * 2019-05-05 2019-08-16 北京科技大学 基于中医古籍文献的中医命名实体识别方法及识别***
CN110765907A (zh) * 2019-10-12 2020-02-07 安徽七天教育科技有限公司 一种基于深度学习的视频中试卷纸质文档信息提取***及方法
CN110852326A (zh) * 2019-11-06 2020-02-28 贵州工程应用技术学院 一种手写体版面分析和多风格古籍背景融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664996A (zh) * 2018-04-19 2018-10-16 厦门大学 一种基于深度学习的古文字识别方法及***
CN109800761A (zh) * 2019-01-25 2019-05-24 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN110134953A (zh) * 2019-05-05 2019-08-16 北京科技大学 基于中医古籍文献的中医命名实体识别方法及识别***
CN110765907A (zh) * 2019-10-12 2020-02-07 安徽七天教育科技有限公司 一种基于深度学习的视频中试卷纸质文档信息提取***及方法
CN110852326A (zh) * 2019-11-06 2020-02-28 贵州工程应用技术学院 一种手写体版面分析和多风格古籍背景融合方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837329A (zh) * 2021-03-01 2021-05-25 西北民族大学 一种藏文古籍文档图像二值化方法及***
CN112837329B (zh) * 2021-03-01 2022-07-19 西北民族大学 一种藏文古籍文档图像二值化方法及***
CN113609365A (zh) * 2021-08-11 2021-11-05 陕西中医药大学 一种中医古籍数据收集整理***
CN113723330A (zh) * 2021-09-06 2021-11-30 华南理工大学 一种图表文档信息理解的方法及***
CN113723330B (zh) * 2021-09-06 2023-11-07 华南理工大学 一种图表文档信息理解的方法及***
CN115147852A (zh) * 2022-03-16 2022-10-04 北京有竹居网络技术有限公司 一种古籍识别方法、装置、存储介质及设备
WO2023173949A1 (zh) * 2022-03-16 2023-09-21 北京有竹居网络技术有限公司 一种古籍识别方法、装置、存储介质及设备
CN115410216A (zh) * 2022-10-31 2022-11-29 天津恒达文博科技股份有限公司 古籍文本信息化处理方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN111507351B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111507351B (zh) 一种古籍文档数字化的方法
Marinai Introduction to document analysis and recognition
Boukharouba A new algorithm for skew correction and baseline detection based on the randomized Hough Transform
CN112016481B (zh) 基于ocr的财务报表信息检测和识别方法
Chamchong et al. Character segmentation from ancient palm leaf manuscripts in Thailand
Zoizou et al. A new hybrid method for Arabic multi-font text segmentation, and a reference corpus construction
Yadav et al. Text extraction in document images: highlight on using corner points
Ranjan et al. OCR using computer vision and machine learning
CN112560850A (zh) 基于自定义模板的身份证信息自动提取和真伪校验方法
Kaundilya et al. Automated text extraction from images using OCR system
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Rigaud et al. What do we expect from comic panel extraction?
Lyu et al. The early japanese books text line segmentation base on image processing and deep learning
CN114386413A (zh) 处理数字化的手写
Dhandra et al. Kannada handwritten vowels recognition based on normalized chain code and wavelet filters
Ahmed et al. Enhancing the character segmentation accuracy of bangla ocr using bpnn
CN116189212A (zh) 一种基于图像的表格智能识别与计分方法
Zhang et al. Text string detection for loosely constructed characters with arbitrary orientations
Dongre et al. Segmentation of printed Devnagari documents
Walawage et al. Segmentation of overlapping and touching sinhala handwritten characters
Kumar et al. Line based robust script identification for indianlanguages
AU2021104475A4 (en) Methods of digitizing ancient documents
Zaw et al. Character segmentation and recognition for Myanmar warning signboard images
Radzid et al. Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation
Zaw et al. Y-position based Myanmar touching character segmentation and sub-components based character classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant