CN110852359A - 基于深度学习的家谱识别方法及*** - Google Patents

基于深度学习的家谱识别方法及*** Download PDF

Info

Publication number
CN110852359A
CN110852359A CN201911035972.3A CN201911035972A CN110852359A CN 110852359 A CN110852359 A CN 110852359A CN 201911035972 A CN201911035972 A CN 201911035972A CN 110852359 A CN110852359 A CN 110852359A
Authority
CN
China
Prior art keywords
family tree
deep learning
word
module
tree image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911035972.3A
Other languages
English (en)
Other versions
CN110852359B (zh
Inventor
车群
柳泽辰
尹文志
郭晓天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Publication of CN110852359A publication Critical patent/CN110852359A/zh
Application granted granted Critical
Publication of CN110852359B publication Critical patent/CN110852359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的家谱识别方法及***,本发明面向家谱数字化领域,基于深度学习的方法,设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案,首先通过分别训练目标位置检测和目标分类两个卷积神经网络,以此判断出家谱中汉字的位置与内容,最后通过正则表达式分析出家谱中人物关系来绘制出数字化的家谱。基于此深度学习的家谱识别方案不仅减免了大量人力识别,同时保证数据数字化结果的准确度。

Description

基于深度学习的家谱识别方法及***
技术领域
本发明涉及一种基于深度学习的家谱识别方法及***。
背景技术
“国有史,地有志,家有谱”,作为与正史、地方志并列的三大***性历史文献记载之一,目前家谱的数字化程度远远落后于前二者。正史的数字化早已完成,地方志正在进行之中,目前已经完成并进入商业化领域的已占总量的三分之一。而家谱的数字化工作则尚未开始。
其原因在于家谱的数字化存在几个难点:
1、我国现存的谱谍数量极多且在不断扩张,依靠人力去提取族谱数据中的大量信息十分消耗人力物力。
2、家谱中往往存在大量的生冷僻字,其本身也缺乏大量的已标注的数据集,而已有的大部分深度学习数据集则不包含生僻字,因此已有的OCR工具在识别上存在大量错漏。
3、家谱的记载存在结构性,其各个板块内容的关联性和含义很难识别。
发明内容
本发明的目的在于提供一种基于深度学习的家谱识别方法及***。
为解决上述问题,本发明提供一种基于深度学习的家谱识别方法,包括:
获取家谱图像;
通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置;
通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容。
进一步的,在上述方法中,通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置之前,还包括:
通过已标注文字位置的文档训练集来训练所述目标位置检测网络;
通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容之前,还包括:
通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。
进一步的,在上述方法中,通过已标注文字位置的文档训练集来训练所述目标位置检测网络,包括:
通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。
进一步的,在上述方法中,通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络,包括:
将繁体字、生僻字字典中每个字都编码,并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片,并且在所述图片中加入噪声来增强扩充图片,以得到训练集;
采用分类神经网络来训练所述训练集,以得到所述生僻字分类网络。
进一步的,在上述方法中,通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容之后,还包括:
基于每个汉字的位置和所述家谱图像中汉字的内容,通过正则表达式,提取所述家谱图像中的人名信息和人物之间关系词;
基于所述人名信息和人物之间关系词绘制对应的家族树形图。
根据本发明的另一面,还提供一种基于深度学习的家谱识别***,包括:
第一模块,用于获取家谱图像;
第二模块,用于通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置;
第三模块,用于通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容。
进一步的,在上述***中,所述第二模块,还用于通过已标注文字位置的文档训练集来训练所述目标位置检测网络;
所述第三模块,还用于通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。
进一步的,在上述***中,所述第二模块,用于通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。
进一步的,在上述***中,所述第三模块,用于将繁体字、生僻字字典中每个字都编码,并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片,并且在所述图片中加入噪声来增强扩充图片,以得到训练集;采用分类神经网络来训练所述训练集,以得到所述生僻字分类网络。
进一步的,在上述***中,还包括第四模块,用于基于每个汉字的位置和所述家谱图像中汉字的内容,通过正则表达式,提取所述家谱图像中的人名信息和人物之间关系词;基于所述人名信息和人物之间关系词绘制对应的家族树形图。
与现有技术相比,谱牒一方面包含繁体字和生僻字且缺少数据集,另一方面,家谱中各个板块内容的关联以及含义难以被机器识别。因此,本发明将目标位置检测与目标分类两个深度学习任务分离的方式进行家谱识别。基本流程如图1所示。先通过深度学习训练一个卷积神经网络来确定家谱中每个汉字的位置,同时训练另一个专门针对生僻字繁体字识别的卷积神经网络来确定每个汉字的内容,最后结合各个汉字的位置以及内容,通过正则表达式提取,来最终得到家谱中反应的家族树形关系。
本发明面向家谱数字化领域,基于深度学习的方法,设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案,首先通过分别训练目标位置检测和目标分类两个卷积神经网络,以此判断出家谱中汉字的位置与内容,最后通过正则表达式分析出家谱中人物关系来绘制出数字化的家谱。基于此深度学习的家谱识别方案不仅减免了大量人力识别,同时保证数据数字化结果的准确度。
附图说明
图1是本发明一实施例的基于深度学习的家谱识别方法及***的原理图;
图2是本发明一实施例的目标汉字位置检测的示意图;
图3是本发明一实施例的家谱汉字内容结构划分的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于深度学习的家谱识别方法,包括:
步骤S1,获取家谱图像;
步骤S2,通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置;
步骤S3,通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容。
在此,本发明面向家谱数字化领域,基于深度卷积神经网络,设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案,基于此深度学习的家谱识别方案不仅减免了大量人力识别,同时保证数据数字化结果的准确度。
如图2所示,本发明的基于深度学习的家谱识别方法一实施例中,步骤S2,通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置之前,还包括:
通过已标注文字位置的文档训练集来训练所述目标位置检测网络
本发明的基于深度学习的家谱识别方法一实施例中,通过已标注文字位置的文档训练集来训练所述目标位置检测网络,包括:
通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。
在此,中文字的形态大多统一,考虑日常人脑的思考方式,哪怕遇到不认识的中文字时,也能清晰地判断出这个字的位置以及这个字的大小,这是因为汉字具有相对固定的特征。因此,在没有家谱数据集的情况下,本发明借助一般的带位置信息的文字数据集的集合来训练一个卷积神经网络,以获得每个字的位置信息。
家谱识别任务由于对神经网络没有实时性的要求,因此本发明将追求极致的准确度。本发明旨在提出一种新型的深度学习方案,使得在目前家谱已标注数据集较少的情况下,尽可能地满足高识别率与高效率的要求。本发明采用可以当今识别率较高也相对成熟的任何网络结构来进行训练。训练后的网络可以检测出不同尺度的汉字以及它们的位置,如图2所示。
本发明面向家谱数字化领域,基于深度卷积神经网络,设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案,基于深度学习的家谱识别方案不仅减免了大量人力识别,同时保证数据结果的准确度。
本发明将提出一种全新的方案来解决上述家谱识别中存在的挑战,采取将目标位置检测与目标分类两个深度学习任务分离的方式,这两步分别进行,规避了使用有限的已标注的家谱数据集训练,又能保证最终网络的识别精度远超主流的OCR软件。
本发明的基于深度学习的家谱识别方法一实施例中,步骤S3,通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容之前,还包括:
通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。
本发明的基于深度学习的家谱识别方法一实施例中,通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络,包括:
将繁体字、生僻字字典中每个字都编码,并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片,并且在所述图片中加入噪声来增强扩充图片,以得到训练集;
采用分类神经网络来训练所述训练集,以得到所述生僻字分类网络。
在此,通过卷积神经网络把每个字的位置标注出来后,需要做的就是识别每个框内的汉字。虽然利用卷积神经网络进行分类任务相比目标检测任务更为成熟,但对于家谱中的繁体字和生僻字,没有很好的数据库,而且不同的文体会给训练结果带来极大地不同。不同的家谱印刷风格都会存在差异。本发明自行制作数据集,将繁体字、生僻字字典中每个字都编码,并软件制作相应每个字对应的图片,并使用不同风格的字体来制作这些图片,并且加入各种各样的噪声来增强扩充数据集。数据集制作完毕后,采用当今比较主流的分类神经网络来训练,达到较好的效果。
本发明的基于深度学习的家谱识别方法一实施例中,步骤S3,通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容之后,还包括:
基于每个汉字的位置和所述家谱图像中汉字的内容,通过正则表达式,提取所述家谱图像中的人名信息和人物之间关系词;
基于所述人名信息和人物之间关系词绘制对应的家族树形图。
在此,本发明通过前两步骤的深度学习得到汉字的位置信息与内容后,如图3所示根据不同种类的家谱可以通过定制的算法来划分每个区域的内容。家谱中通过正则表达式,提取家谱中的人名信息和人物之间关系词,最终绘制家族树形图,完成家谱的数字化。
根据本发明的另一面,还提供一种基于深度学习的家谱识别***,包括:
第一模块,用于获取家谱图像;
第二模块,用于通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置;
第三模块,用于通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容。
进一步的,在上述***中,所述第二模块,还用于通过已标注文字位置的文档训练集来训练所述目标位置检测网络;
所述第三模块,还用于通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。
进一步的,在上述***中,所述第二模块,用于通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。
进一步的,在上述***中,所述第三模块,用于将繁体字、生僻字字典中每个字都编码,并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片,并且在所述图片中加入噪声来增强扩充图片,以得到训练集;采用分类神经网络来训练所述训练集,以得到所述生僻字分类网络。
进一步的,在上述***中,还包括第四模块,用于基于每个汉字的位置和所述家谱图像中汉字的内容,通过正则表达式,提取所述家谱图像中的人名信息和人物之间关系词;基于所述人名信息和人物之间关系词绘制对应的家族树形图。
综上所述,谱牒一方面包含繁体字和生僻字且缺少数据集,另一方面,家谱中各个板块内容的关联以及含义难以被机器识别。因此,本发明将目标位置检测与目标分类两个深度学习任务分离的方式进行家谱识别。基本流程如图1所示。先通过深度学习训练一个卷积神经网络来确定家谱中每个汉字的位置,同时训练另一个专门针对生僻字繁体字识别的卷积神经网络来确定每个汉字的内容,最后结合各个汉字的位置以及内容,通过正则表达式提取,来最终得到家谱中反应的家族树形关系。
本发明面向家谱数字化领域,基于深度学习的方法,设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案,首先通过分别训练目标位置检测和目标分类两个卷积神经网络,以此判断出家谱中汉字的位置与内容,最后通过正则表达式分析出家谱中人物关系来绘制出数字化的家谱。基于此深度学习的家谱识别方案不仅减免了大量人力识别,同时保证数据数字化结果的准确度。
本发明的各***实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于深度学习的家谱识别方法,其特征在于,包括:
获取家谱图像;
通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置;
通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容。
2.如权利要求1所述的基于深度学习的家谱识别方法,其特征在于,通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置之前,还包括:
通过已标注文字位置的文档训练集来训练所述目标位置检测网络;
通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容之前,还包括:
通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。
3.如权利要求2所述的基于深度学习的家谱识别方法,其特征在于,通过已标注文字位置的文档训练集来训练所述目标位置检测网络,包括:
通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。
4.如权利要求2所述的基于深度学习的家谱识别方法,其特征在于,通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络,包括:
将繁体字、生僻字字典中每个字都编码,并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片,并且在所述图片中加入噪声来增强扩充图片,以得到训练集;
采用分类神经网络来训练所述训练集,以得到所述生僻字分类网络。
5.如权利要求1所述的基于深度学习的家谱识别方法,其特征在于,通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容之后,还包括:
基于每个汉字的位置和所述家谱图像中汉字的内容,通过正则表达式,提取所述家谱图像中的人名信息和人物之间关系词;
基于所述人名信息和人物之间关系词绘制对应的家族树形图。
6.一种基于深度学习的家谱识别***,其特征在于,包括:
第一模块,用于获取家谱图像;
第二模块,用于通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置;
第三模块,用于通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置,得到所述家谱图像中汉字的内容。
7.如权利要求6所述的基于深度学习的家谱识别***,其特征在于,所述第二模块,还用于通过已标注文字位置的文档训练集来训练所述目标位置检测网络;
所述第三模块,还用于通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。
8.如权利要求7所述的基于深度学习的家谱识别***,其特征在于,所述第二模块,用于通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。
9.如权利要求7所述的基于深度学习的家谱识别***,其特征在于,所述第三模块,用于将繁体字、生僻字字典中每个字都编码,并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片,并且在所述图片中加入噪声来增强扩充图片,以得到训练集;采用分类神经网络来训练所述训练集,以得到所述生僻字分类网络。
10.如权利要求6所述的基于深度学习的家谱识别***,其特征在于,还包括第四模块,用于基于每个汉字的位置和所述家谱图像中汉字的内容,通过正则表达式,提取所述家谱图像中的人名信息和人物之间关系词;基于所述人名信息和人物之间关系词绘制对应的家族树形图。
CN201911035972.3A 2019-07-24 2019-10-29 基于深度学习的家谱识别方法及*** Active CN110852359B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910675094 2019-07-24
CN2019106750945 2019-07-24

Publications (2)

Publication Number Publication Date
CN110852359A true CN110852359A (zh) 2020-02-28
CN110852359B CN110852359B (zh) 2023-05-26

Family

ID=69598359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911035972.3A Active CN110852359B (zh) 2019-07-24 2019-10-29 基于深度学习的家谱识别方法及***

Country Status (1)

Country Link
CN (1) CN110852359B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612081A (zh) * 2020-05-25 2020-09-01 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025760A (zh) * 2007-01-31 2007-08-29 王宏源 一种关于家谱数字化的方法
CN102036018A (zh) * 2009-10-02 2011-04-27 索尼公司 信息处理装置和方法
CN107220638A (zh) * 2017-07-03 2017-09-29 深圳市唯特视科技有限公司 一种基于深度学习卷积神经网络的车牌检测识别方法
CN108664996A (zh) * 2018-04-19 2018-10-16 厦门大学 一种基于深度学习的古文字识别方法及***
US20190147304A1 (en) * 2017-11-14 2019-05-16 Adobe Inc. Font recognition by dynamically weighting multiple deep learning neural networks
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025760A (zh) * 2007-01-31 2007-08-29 王宏源 一种关于家谱数字化的方法
CN102036018A (zh) * 2009-10-02 2011-04-27 索尼公司 信息处理装置和方法
CN107220638A (zh) * 2017-07-03 2017-09-29 深圳市唯特视科技有限公司 一种基于深度学习卷积神经网络的车牌检测识别方法
US20190147304A1 (en) * 2017-11-14 2019-05-16 Adobe Inc. Font recognition by dynamically weighting multiple deep learning neural networks
CN108664996A (zh) * 2018-04-19 2018-10-16 厦门大学 一种基于深度学习的古文字识别方法及***
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOHAMMED ALMUASHI 等: "Automated kinship verification and identification through human facial images: a survey", MULTIMEDIA TOOLS AND APPLICATIONS *
徐丰;王海鹏;金亚秋: "深度学习在SAR目标识别与地物分类中的应用", 《雷达学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612081A (zh) * 2020-05-25 2020-09-01 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111612081B (zh) * 2020-05-25 2024-04-02 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110852359B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US7310773B2 (en) Removal of extraneous text from electronic documents
WO2007086059A2 (en) Determining near duplicate 'noisy' data objects
KR20140053888A (ko) 판식 파일중 구조화 정보 획득방법 및 장치
CN111460091B (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN106372053B (zh) 句法分析的方法和装置
US9558400B2 (en) Search by stroke
CN113901933B (zh) 基于人工智能的电子***信息抽取方法、装置及设备
CN106650664A (zh) 一种高招大本数据采集***及方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN111104159A (zh) 一种基于程序分析和神经网络的注释定位方法
CN111506595A (zh) 一种数据查询方法、***及相关设备
CN109472020B (zh) 一种特征对齐中文分词方法
CN1342942A (zh) 中文姓名的计算机识别及检索方法
CN109670365B (zh) 一种书法鉴定***及方法
CN113642562A (zh) 基于图像识别的数据解读方法、装置、设备及存储介质
CN110852359A (zh) 基于深度学习的家谱识别方法及***
WO2007070010A1 (en) Improvements in electronic document analysis
KR100655916B1 (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
CN115830620A (zh) 一种基于ocr的档案文本数据处理方法及***
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、***和存储介质
CN1029534C (zh) 自由书写联机手写汉字识别方法及其***
CN112560849B (zh) 基于神经网络算法的文理分割方法及***
CN109740097A (zh) 一种基于逻辑链接块的网页正文抽取方法
CN115438645A (zh) 一种序列标注任务的文本数据增强方法及***
CN1955979A (zh) 文章标题及关联信息的自动抽取装置、抽取方法及抽取程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant