CN117593755A - 一种基于骨架模型预训练的金文图像识别方法和*** - Google Patents
一种基于骨架模型预训练的金文图像识别方法和*** Download PDFInfo
- Publication number
- CN117593755A CN117593755A CN202410071885.8A CN202410071885A CN117593755A CN 117593755 A CN117593755 A CN 117593755A CN 202410071885 A CN202410071885 A CN 202410071885A CN 117593755 A CN117593755 A CN 117593755A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- skeleton model
- text image
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 title claims abstract description 82
- 239000010931 gold Substances 0.000 title claims abstract description 82
- 229910052737 gold Inorganic materials 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000011176 pooling Methods 0.000 claims description 40
- 230000009467 reduction Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 claims description 2
- 239000000306 component Substances 0.000 description 105
- 238000002372 labelling Methods 0.000 description 29
- 238000000605 extraction Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000008358 core component Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 229910000906 Bronze Inorganic materials 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241001354491 Lasthenia californica Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000010974 bronze Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于骨架模型预训练的金文图像识别方法和***,所述方法包括:采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;使用无标签古文图像对骨架模型进行预训练,得到训练后的骨架模型;将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果。本发明克服了金文数据集中数据质量差,类别不均衡等问题,实现了金文图像识别。
Description
技术领域
本发明涉及数字人文和图像处理技术领域,具体涉及一种基于骨架模型预训练的金文图像识别方法和***。
背景技术
金文是先秦时期中国古人铸造或刻写在青铜器上的铭文,反映了当时社会的经济、文化、风貌、政治、习俗等各个方面的情况。金文文字的研究具有非常重要的历史、文化、学术和艺术价值。近年来,人工智能的热潮席卷了各个领域,但是针对于金文领域的研究极为稀缺。一方面,设计基于人工智能的金文识别方法可以给金文研究和解读提供更加准确和可靠的基础,方便金文学者及古文字学家的研究;另一方面,基于计算机技术的方法可以更好地保存和传播古文字学家的智慧。因此,目前亟需一种基于人工智能的金文图像识别算法。
然而在实际任务中,设计一种基于人工智能的金文识别算法存在很多困难。虽然通过深度学习模型对字符文本进行识别取得了巨大的成功。但由于金文图像的文字的种类繁多,金文图像的数据总量却不多,这给深度学习模型的学习带来了很大的困难。除此之外,文字种类之间样本分布不均衡,得到的数据集质量较差,使得深度学习模型很难在少数类中学习到重要的特征。
同时,数据方面的获取难度也成为目前研究人员的一大困难。由于地下掩埋时间较长,金文图像的噪声较大,图像质量较差,对金文识别任务造成了极大的挑战,目前的图像降噪方法只能去除一些椒盐噪声等简单的噪声,难以处理金文图像中的复杂噪声,需要针对金文图像来设计降噪方法。
综上,现有技术的不足与缺陷包括:1.金文图像的数据量有限;2.金文图像的数据质量差,噪声严重;3.金文图像存在很强的长尾效应。
发明内容
本发明提供了一种基于骨架模型预训练的金文图像识别方法和***,所述方法包括:
S1、采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;
S2、使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型;
S3、将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果。
可选的,所述S1中,所述预处理主要包括对所述金文文字图像进行降噪、部件拆分和金文数据集的扩充。
可选的,所述降噪的方法具体包括:
使用带有泄露线性整流单元的3×3卷积层提取金文文字图像的浅层特征,恢复所述金文文字图像的细节部分,得到初始特征图;
使用带有金文拓片图像图像降噪方法的字符增强模型实现对所述初始特征图进行深度特征的降噪。
可选的,所述带有金文拓片图像降噪方法具体包括:
将所述初始特征图经过最大池化层和平均池化层后在通道的维度上进行拼接,得到拼接后的特征图;
对所述拼接后的特征图进行多尺度卷积,得到尺度卷积特征图;
将所述尺度卷积特征图进行尺度调整后进行拼接,将拼接后的尺度卷积特征图通过池化层,完成对所述金文文字图像中字形特征的学习,实现对所述金文文字图像的降噪处理。
可选的,所述S2中,使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型的具体方法包括:
对所述无标签古文图像数据集进行数据增强,得到增强后的无标签古文图像数据集;
使用所述增强后的无标签古文图像数据集进行骨架模型预训练,得到训练后的骨架模型。
可选的,所述增强后的无标签古文图像数据集的获取方法具体包括:
将无标签古文图像数据在金文文字部件库中进行部件识别,若在部件库中识别到对应部件,则对对应部件进行替换实现数据增强后的/>和/>,若查询不到,则使用随机数据增强得到增强后的/>和/>:
其中,代表基于YOLO的部件检测器,/>分别代表的是此部件在图像/>中左上、左下、右上和右下的坐标位置。/>是图像混合操作。
可选的,使用所述增强后的无标签古文图像数据集进行骨架模型预训练,得到训练后的骨架模型的方法包括;
将无标签古文图像进行数据增强后得到增强后的无标签古文图像数据集/>和;
将所述无标签古文图像数据集和/>经过骨架模型/>,得到对应表征向量/>和,公式为:
是平均池化之后的表征向量,余弦相似度度量两个图像向量,对/>和的损失函数定义为:
其中,是一个指示函数,/>为温度参数,/>代表是L2归一化。
可选的,将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果的方法具体包括:
将所述待识别预处理图像输入所述训练后的骨架模型提取金文文字图像的字符深度特征;
将所述字符深度特征输入所述文字信息推理器生成所述金文文字图像的候选偏旁部首集和候选字体结构集;
将所述候选偏旁部首集和候选字体结构集输入所述文字识别器实现对金文文字图像的识别。
可选的,将所述候选偏旁部首集和候选字体结构集输入所述文字识别器实现对金文文字图像的识别的方法具体包括:
使用查询列表选择器对所述候选偏旁部首集和候选字体结构集进行构造,所述构造方法为选择一组偏旁部首组合与一个字体结构,构成一个待检索列表,获得M*N个元素的集合I;
将所述待检索列表传输到检索策略选择器中进行逐条分析,得到候选列表集合,将所述候选列表集合/>返回给所述查询列表选择器进行重新排序;
识别结果存储器从排序后的候选查询列表中依次选择元素在知识图谱中进行查询,得到知识图谱检索识别结果,将所述检索识别结果进行保存,实现对金文文字图像的识别。
本发明还公开一种基于骨架模型预训练的金文图像识别***,***包括:数据预处理模块、骨架网络预训练模块和图像识别模块;
所述数据预处理模块用于采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;
所述骨架模型预训练模型用于使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型;
所述图像识别模块用于将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果。
与现有技术相比,本发明的有益效果为:
本发明针对金文图像的噪声设计了降噪模型,并通过引入字形信息的注意力深度学习框架来学习金文字符的字形信息,用于提取字符的特征和固有字形,提高图像的重建功能。本发明在保证获得高质量数据集的情况下,节省了人工标注成本。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种基于骨架模型预训练的金文图像识别方法和***的方法步骤图;
图2为本发明实施例的金文图像降噪前后对比图;
图3为本发明实施例的字符增强模型的流程图;
图4为本发明实施例的古文拓片图像降噪模块的流程图;
图5为本发明实施例的部件标注流程图;
图6为本发明实施例的数据集扩充流程图;
图7为本发明实施例的字符与部件的对比图;
图8为本发明实施例的骨架模型预训练流程图;
图9为本发明实施例的文字深度特征提取器的工作流程图;图a为本发明实施例文字深度特征提取网络的工作流程图;图b是为本发明实施例双重注意力层的工作流程图;
图10为本发明实施例的文字识别器的工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
一种基于骨架模型预训练的金文图像识别方法,如图1所示,所述方法包括:
S1、采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;
S1中,所述预处理主要包括对所述金文文字图像进行降噪、部件拆分和金文数据集的扩充。
降噪的方法具体包括:
降噪的方法具体包括:使用带有泄露线性整流单元的3×3卷积层来提取浅层特征,恢复字符图像的细节部分;使用带有金文拓片图像降噪模块的字符增强模型对字符图像进行深度特征的降噪;字符增强模型采用一个U-Net结构的编码器-解码器,其中包含其中编码器部分和解码器部分包含多个金文拓片图像降噪模块。这种U-Net结构可以有效捕捉输入特征图的局部和全局信息,从而提高模型的性能。在编码器和解码器的每个阶段,特征图会通过相应的进行处理,以提取更丰富的特征表示。
将特征图经过最大池化层和平均池化层后进行拼接,得到拼接后的特征图;将拼接后的特征图经过多尺度卷积层进行卷积,将卷积后的数据通过尺度调整后进行拼接,将拼接后的特征图通过池化层;实现对所述金文文字图像的降噪处理。降噪后的图像如图2所示。
如图4所示,古文拓片图像降噪模块将输入的特征图分别经过最大池化层和平均池化层后在通道的纬度上拼接到一起,最大池化层选择每个区域的最大值作为输出,可以帮助提取主要的特征,平均池化层计算每个区域的平均值作为输出,可以提取整体的特征。使用两个池化层的结果进行拼接,可以帮助模型更好的提取金文字符的局部的特征和全局的特征。拼接后的特征图分别经过多尺度的卷积层进行卷积。我们分别采用了1x1、3x3、5x5、7x7的卷积核对特征图进行卷积,不同尺度的卷积核可以捕捉输入图像中的各种尺度特征。较大的卷积核能够捕捉到更广泛的全局特征,而较小的卷积核则擅长捕捉局部特征和细节。通过结合不同尺度的卷积,模型可以学习到更丰富的特征表示。多尺度卷积后的数据通过尺度调整后拼接到一起,再次通过池化层,完成对金文字符图像中字形特征的学习。
公式如下:
其中,MaxPool( )和AvgPool( )分别是最大池化和平均池化。Concat( )是拼接操作,y是特征图x在经过最大池化和平均池化的拼接后的特征图,Conv1x1、Conv3x3、Conv5x5、Conv7x7分别是y经过1x1、3x3、5x5、7x7的卷积核的结果。多尺度卷积后的结果拼接到一起得到特征图z,z通过Pool( )池化操作得到最后的输出Final。
在前向传播过程中,输入特征首先经过编码器部分的古文拓片图像降噪模块,然后传递到解码器部分。在编码器阶段,特征图会通过下采样操作实现尺寸的缩小,从而捕捉到更抽象的特征表示。在解码器阶段,特征图会通过上采样操作进行尺寸放大,以便与来自编码器部分的对应特征图进行融合。
融合操作的公式:
其中代表的是第i个古文拓片图像降噪模块古文图像的深度特征图,ONB( )是古文拓片图像降噪模块的降噪操作。在/>时,特征图处在编码器部分,通过古文拓片图像降噪模块进行特征的提取,在/>时,特征图处在解码器部分,通过跳跃连接实现融合操作,将解码器部分的上采样特征图与对应的编码器部分的下采样特征图相加,从而实现更精确的图像重建。
在解码器部分,特征图会依次经过多个古文拓片图像降噪模块进行处理。将特征图传递给下一个古文拓片图像降噪模块的目的是进一步融合来自编码器部分的高级特征信息,同时利用解码器部分的上采样特征图恢复更丰富的空间细节。这种操作有助于在保持特征图信息的同时,逐步恢复图像的空间分辨率,最终实现对金文字符深度特征的提取及字符字形结构的学习。
实现降噪后,对金文部件进行拆分。定义了三种类别的标注,部件类别标注,部件坐标标注,结构类别标注。其中部件坐标标注是完成包含部件的标注框,结构类别包含十二种结构类别,分别是独体结构、上下结构、左右结构、上中下结构、左中右结构、包围结构、上下包围结构、左右包围结构、三角结构、左部上下结构、右部上下结构、下部左右结构。在金文字符中可以分为包含一个部件的单部件字符和包含两个或多个的多部件字符。其中单部件字符也可以演变成部件。
在对部件进行标注时,首先使用部件数量获取函数从字符分解字典中得到字符的部件数量 k。根据部件数量 k,可以分为以下两种标注方案。(1)对于部件数量为一的单部件字符,将字符类别标签设置为该部件类别标签,结构类别标签设置为独体结构。部件坐标通过使用YOLO目标检测模型来对部件进行识别定位目标检测模型会识别金文样本图像中的单个金文部件并返回(xmin,ymin)、(xmax,ymax)以及该部件的类别结果,(xmin,ymin)、(xmax,ymax)分别代表该边界框的左上角以及右下角的坐标点,标注框为矩形,由此实现了对单部件字符的自动标注。(2)对于部件数量大于一的多部件字符。如图5所示,采用专家标注的方法来对部件进行信息标注。具体来说,通过两位专家来对字符图像中的每个部件的类别与位置信息进行标注,如果两位专家标注信息一致,则通过此标注,如果两位专家标注信息不一致,则邀请一位资深专家对部件标注进行校对,确定最终的标注信息。完成对字符图像中部件类别和部件位置的标注后,由两位专家对字符的结构类别进行标注,如两位专家做出的判断不一致,则由一位资深专家对结构类别重新标注确定最终的结果。
通过上述标注方案,在保证获得高质量数据集的情况下,节省了人工标注成本。
根据金文的字形结构和字符分解字典中的部件,采用拼接合成策略对金文字符进行扩充。如图6所示,通过合成新的金文字符图像,增加训练数据的多样性,从而提高模型在金文字符和部首识别任务上的性能。针对除独体结构以外的十一种结构类型,设计了一套详细的流程来实现金文字符的拼接合成,进而实现金文数据集的扩充。
如图7所示,首先,使用字符结构模板函数来分析除独体结构以外的各种结构类型,获取每个结构模板所需的部件数量以及部件间的相对位置信息。这些结构模板有助于了解金文字符的组成规律,为后续的拼接合成提供指导。
然后,根据对应的结构模板中的部件数量,从部件字典中随机获取相应数量的部件列表。为了增加合成金文字符样本的多样性,使用增强处理函数对部件列表进行随机操作,如放大、缩小、旋转和扭曲等。对部件进行按比例放大或缩小,有助于模拟不同尺寸的金文字符图像;对部件进行旋转,可以改变部件的朝向,有助于提高模型学习不同角度的字符特征;对部件图像进行扭曲,可以模拟金文字符因为历史环境等因素造成的形变。这些操作可以模拟不同尺寸、角度和形变的金文字符图像,有助于提高金文识别模型更具泛化能力。在完成部件的随机选择和增强处理后,根据字符结构模板函数提供的相对位置信息,确定各个部件在合成字符图像中的位置和大小。这一步骤确保了合成字符图像的结构符合金文的字形规律,便于模型学习字符的组成特征。
最后,利用增强处理后的部件列表和结构模板相对位置信息,通过字符生成函数实现最终的合成字符图像。将这些合成字符图像添加到合成字符图像集中,从而实现对金文图像数据集的扩充。经过扩充后的数据集相比较于原始的金文字符图像数据集,图像的类别减少,总样本数量增多,数据更加集中。其中最大样本数量与最小样本数量都有明显的增长,可以减轻在金文图像训练任务中的长尾效应问题。
S2、使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型;
S2中,使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型的具体方法包括:
对所述无标签古文图像数据集进行数据增强,得到增强后的无标签古文图像数据集;
使用所述增强后的无标签古文图像数据集进行骨架模型预训练,得到训练后的骨架模型。
由于金文数据集样本量较少,因此在训练分类模型之前,进行骨架模型的预训练,从而使分类的骨架模型可以提取更紧凑的金文图像表征。与直接在金文数据集上做微调训练不同的是,本发明中的骨架模型的预训练是在大规模无标签数据上进行的。在具体实施过程中,本发明使用大量无标签古文字图像数据集上进行预训练。在此数据集内包含了甲骨文,金文,战国文字等众多种类的文字数据。
如图3所示,将金文文字部件在部件库中对应的部件进行替换实现数据增强,得到数据增强图像;使用数据增强后的无标签古文图像数据集进行骨架模型的预训练,得到训练后的骨架模型。将金文文字部件在部件库中对应的部件进行替换实现数据增强,得到数据增强图像的方法包括;由于金文文字图像的特殊性,本发明提出了一种基于部件的数据增强方法。针对于图像,先做部件识别(基于YOLO的部件检测算法,与上文一致),如果识别到该文字中存在部件库中已有的部件,则将相应的部件进行替换以实现数据增强,得到增强后的/>和/>。对于不存在部件的古文字图像,使用随机数据增强得到增强后的/>和。公式如下:
其中,代表基于YOLO的部件检测器,/>分别代表的是此部件在图像/>中左上、左下、右上和右下的坐标位置。/>是图像混合操作,它的输入有两个,第一个输入是图像/>中部件的四个点坐标,第二个输入是部件库/>中与该部件相同类的部件图像。该函数的目的是将从部件库/>中的同类但不同形的部件替换到原古文字图像。是一个随机函数,目的是从部件库/>中随机选取与当前部件类别但不同形的部件。/>是一个索引函数,其目的是在部件库/>索引出所有与当前部件相同类的部件。
由于古文字图像的复杂性,有些古文字不是由多个部件构成的,而是由独体或者比较特殊的结构构成,不在部件库中。这种情况下,本发明使用随机数据增强的方法。/>是由5种图像增强方法构成的,包括中心裁剪、随机水平翻转、颜色扰动、随机灰度化,高斯滤波。在具体实施过程中,使用不同的发生概率去进行随机增强。
如图8所示,预训练的方法具体如下:
是平均池化之后的向量,/>是池化后的维度。我们定义同一个原始图像经过数据增强得到的两个数据增强样本/>和/>为正样本对,在同一个批次中其他个数据增强视为负样本。本发明使用余弦相似度去度量两个图像向量。对正样本的一对例子/>和/>的损失函数定义为:
是一个指示函数,/>为温度参数。/>代表是L2归一化。
S3、将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果。
将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果的方法具体包括:
将所述待识别预处理图像输入所述训练后的骨架模型提取金文文字图像的字符深度特征;
将所述字符深度特征输入所述文字信息推理器生成所述金文文字图像的候选偏旁部首集和候选字体结构集;
将所述候选偏旁部首集和候选字体结构集输入所述文字识别器实现对金文文字图像的识别。
文字深度特征提取器
待识别字符图像输入到文字深度特征提取器(CIDFE,Character Image DeepFeature Extractor)网络中。CIDFE网络由多个特征提取子层(CIDFE Blocks)组成。
如图9中的图a所示,在CIDFE中,一组文字深度特征提取块被设计为从输入的图像中提取深度特征。其中每个CIDFE Block由多个双重注意力层(DAL,Dual AttentionLayer)和一个批归一化层(BN,Batch Norm)构成。如图9中的图b所示,DAL是计算机视觉领域常用的模块,在本发明中主要是应用DAL解决偏旁部首之前的边界划分问题。本发明中CIDFE每个CIDFE Block中的多层的DAL之间,并使用残差连接(即上一层的输出与本层输出相加,作为下一层的输入)进一步强化长距离特征捕捉能力,使得单个Block可以做得更深,从而构建特征提取能力更强的网络。由于文字中的偏旁部首和结构密切相关,且均包含丰富的语义信息。多层CIDFE Block堆叠构成的CIDFE网络可以有效地学习文字中蕴含的偏旁部首和字体结构特征,从而有效地提取深层全局特征表示,以便供给下游的文字推理模块来推理出可能的偏旁部首和结构信息。
文字信息推理器
CIDFE网络提取出的字符深度特征输入到文字信息推理模块中。文字信息推理模块包含两个主要部分,分别是偏旁部首推理器和文字结构推理器,二者的输入均为CIDFE网络所提取的深层全局特征。文字信息推理模块最终会根据深层全局特征/>来生成输入的文字图片可能的偏旁部首和字体结构。
偏旁部首推理器是一个由四个卷积层和一个具有输入维度为的全连接层组成的模型。其中,/>表示输入字符图像被分割成的网格数,K表示每个网格中的锚框数量。该模型用于推断字符图像中的偏旁部首信息,包括部首类别和位置坐标/>,以及部首检测的置信度。通过预测部首类别和位置来约束CIDFE(字符图像深度特征提取器)的训练。
字体结构推理器用于预测字符图像的字体结构。它利用浅层特征(即CIDFE块的第一个输出特征)和深层特征(由CIDFE提取的特征,包括部首位置信息)来捕捉全局和局部结构信息。该推理器由五个卷积层和一个全连接层组成,用于进一步处理连接的浅层和深层特征,以生成待识别字符的候选字体结构。字体结构推理器通过预测字体结构来约束CIDFE的训练。
文字识别器
在第二步中,通过偏旁部首推理器和字体结构推理器得到了候选偏旁部首和字体结构的集合。集合中包括偏旁的组合、字体结构以及模型输出的对这些信息的置信度。接下来关于文字的偏旁部首组成信息和文字结构信息作为文字识别模块的输入以完成文字图像的识别。文字识别模块的核心是识别控制单元,识别控制单元和文字知识图谱协同完成文字图像的识别功能。在识别控制单元中包含三个核心组件,它们分别为查询列表选择器、检索策略选择器、识别结果存储器。
查询列表选择器与检索策略选择器:图片在经过文字信息推理模块后,会分别得到M组偏旁部首组合以及N种字体结构。查询列表选择器将这M组偏旁部首组合以及N种字体结构进行构造,构造方法即选择一组偏旁部首与一个字体结构,构成一个待检索列表,最终获得拥有/>个元素的集合/>。而后查询列表选择器将待检索列表集合/>交付给检索策略选择器进行分析。检索策略选择器针对查询列表选择器送来的组合逐条进行分析。分析工作主要由检索策略选择器中的集合信息分析单元完成。如图10所示,具体分析过程如下:
第一阶段,集合信息分析单元首先会对检索列表集合中的每条元素计算置信度。/>由偏旁部首列表与字体两部分构成,整个/>的置信度/>的计算也分为偏旁部首列表置信度/>与字体结构置信度/>两部分。偏旁部首列表置信度/>,其中n为列表中偏旁部首的个数,/>为列表中第i个位置的偏旁部首的置信度(来自第二步中偏旁部首推理器的输出)。字体结构置信度/>,其中/>来自第二步中字体结构推理器的输出。得到/>与/>后,/>。/>为可调节参数,通常认为文字的偏旁部首信息更为重要,因此/>通常取大于0.5的值。
第二阶段,集合信息分析单元,分析每条元素的/>。分析规则如下:给定阈值/>,若某/>中某候选列表/>的/>高于给定阈值时,检索策略选择器为此候选检索列表选择完全匹配检索策略。若某/>中某候选列表/>的/>低于给定阈值时,给定阈值/>,若某/>中某候选列表/>的/>高于给定阈值时,此时认为此候选列表/>是结构不可信的,检索策略选择器为此条候选检索列表选择部首优先的模糊检索策略。当某/>中某元素/>的/>低于给定阈值/>,元素/>的/>也低于给定阈值/>时,则认为此条/>是不可信的,检索策略选择器为此条候选检索列表选择低优先级的检索策略。
第三阶段,集合信息分析单元为每条候选列表分配好策略后,将整个候选列表集合返回给查询列表选择器。此时检索策略选择器的工作结束。
新的候选查询列表集合中每条查询列表除了基本的偏旁部首组合信息、字体结构信息之外,还包括新加入的置信度信息以及检索策略信息。查询列表选择器根据这些信息将候选查询列表重新进行排序。排序规则如下:对于拥有完全匹配检索策略的候选查询列表,按照每条候选查询列表的进行降序排列。对于拥有部首优先的模糊检索策略的候选查询列表,按照每条候选查询列表的/>进行降序排列。对于拥有低优先级的检索策略的候选查询列表,按照每条候选查询列表的/>进行降序排列。
此时,查询列表选择器从排序后的候选查询列表集合中依次选择元素在知识图谱中进行查询。如果查询成功,则将候选列表的置信度认定为查询结果置信度。对于拥有完全匹配检索策略的候选查询列表,严格按照部首组合和字体结构进行查询检索。如果知识图谱检索成功则将结果标记为/>,将(结果置信度,结果值,结果标记值)三元组添加到识别结果存储器中。对于拥有部首优先的模糊检索策略的候选查询列表,知识图谱查询时忽略结构信息,直接依据部首组合从知识图谱中查询前K个候选字,并全部标记为并添加到识别结果存储器中。对于拥有低优先级的检索策略的候选查询列表,只有在前两种策略检索完毕且识别结果存储器仍未达到规定元素数目进行检索(低优先级检索策略的具体检索方法也采用严格完全匹配的方法在知识图谱中进行查询),否则则忽略。如果知识图谱检索失败,则进行下一次查询检索。将所述识别结果放入存储器中,并反馈给用户,实现对金文文字的识别。至此本发明的整个古文字识别过程结束。
实施例二
一种基于骨架模型预训练的金文图像识别***,***包括:数据预处理模块、骨架网络预训练模块和图像识别模块;
所述数据预处理模块用于采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;
降噪的方法具体包括:使用带有泄露线性整流单元的3×3卷积层来提取浅层特征,恢复字符图像的细节部分;使用带有金文拓片图像降噪模块的字符增强模型对字符图像进行深度特征的降噪;字符增强模型采用一个U-Net结构的编码器-解码器,其中包含其中编码器部分和解码器部分包含多个金文拓片图像降噪模块。这种U-Net结构可以有效捕捉输入特征图的局部和全局信息,从而提高模型的性能。在编码器和解码器的每个阶段,特征图会通过相应的进行处理,以提取更丰富的特征表示。
将特征图经过最大池化层和平均池化层后进行拼接,得到拼接后的特征图;将拼接后的特征图经过多尺度卷积层进行卷积,将卷积后的数据通过尺度调整后进行拼接,将拼接后的特征图通过池化层;实现对所述金文文字图像的降噪处理。降噪后的图像如图2所示。
如图4所示,古文拓片图像降噪模块将输入的特征图分别经过最大池化层和平均池化层后在通道的纬度上拼接到一起,最大池化层选择每个区域的最大值作为输出,可以帮助提取主要的特征,平均池化层计算每个区域的平均值作为输出,可以提取整体的特征。使用两个池化层的结果进行拼接,可以帮助模型更好的提取金文字符的局部的特征和全局的特征。拼接后的特征图分别经过多尺度的卷积层进行卷积。我们分别采用了1x1、3x3、5x5、7x7的卷积核对特征图进行卷积,不同尺度的卷积核可以捕捉输入图像中的各种尺度特征。较大的卷积核能够捕捉到更广泛的全局特征,而较小的卷积核则擅长捕捉局部特征和细节。通过结合不同尺度的卷积,模型可以学习到更丰富的特征表示。多尺度卷积后的数据通过尺度调整后拼接到一起,再次通过池化层,完成对金文字符图像中字形特征的学习。
公式如下:
其中,MaxPool( )和AvgPool( )分别是最大池化和平均池化。Concat( )是拼接操作,y是特征图x在经过最大池化和平均池化的拼接后的特征图,Conv1x1、Conv3x3、Conv5x5、Conv7x7分别是y经过1x1、3x3、5x5、7x7的卷积核的结果。多尺度卷积后的结果拼接到一起得到特征图z,z通过Pool( )池化操作得到最后的输出Final。
在前向传播过程中,输入特征首先经过编码器部分的古文拓片图像降噪模块,然后传递到解码器部分。在编码器阶段,特征图会通过下采样操作实现尺寸的缩小,从而捕捉到更抽象的特征表示。在解码器阶段,特征图会通过上采样操作进行尺寸放大,以便与来自编码器部分的对应特征图进行融合。
融合操作的公式:
其中代表的是第i个古文拓片图像降噪模块古文图像的深度特征图,ONB( )是古文拓片图像降噪模块的降噪操作。在/>时,特征图处在编码器部分,通过古文拓片图像降噪模块进行特征的提取,在/>时,特征图处在解码器部分,通过跳跃连接实现融合操作,将解码器部分的上采样特征图与对应的编码器部分的下采样特征图相加,从而实现更精确的图像重建。
在解码器部分,特征图会依次经过多个古文拓片图像降噪模块进行处理。将特征图传递给下一个古文拓片图像降噪模块的目的是进一步融合来自编码器部分的高级特征信息,同时利用解码器部分的上采样特征图恢复更丰富的空间细节。这种操作有助于在保持特征图信息的同时,逐步恢复图像的空间分辨率,最终实现对金文字符深度特征的提取及字符字形结构的学习。
实现降噪后,对金文部件进行拆分。定义了三种类别的标注,部件类别标注,部件坐标标注,结构类别标签。其中部件坐标标注是完成包含部件的标注框,结构类别包含十二种结构类别,分别是独体结构、上下结构、左右结构、上中下结构、左中右结构、包围结构、上下包围结构、左右包围结构、三角结构、左部上下结构、右部上下结构、下部左右结构。在金文字符中可以分为包含一个部件的单部件字符和包含两个或多个的多部件字符。其中单部件字符也可以演变成部件。
在对部件进行标注时,首先使用部件数量获取函数从字符分解字典中得到字符的部件数量 k。根据部件数量 k,可以分为以下两种标注方案。(1)对于部件数量为一的单部件字符,将字符类别标签设置为该部件类别标签,结构类别标签设置为独体结构。部件坐标通过使用YOLO目标检测模型来对部件进行识别定位目标检测模型会识别金文样本图像中的单个金文部件并返回(xmin,ymin)、(xmax,ymax)以及该部件的类别结果,(xmin,ymin)、(xmax,ymax)分别代表该边界框的左上角以及右下角的坐标点,标注框为矩形,由此实现了对单部件字符的自动标注。(2)对于部件数量大于一的多部件字符。如图5所示,采用专家标注的方法来对部件进行信息标注。具体来说,通过两位专家来对字符图像中的每个部件的类别与位置信息进行标注,如果两位专家标注信息一致,则通过此标注,如果两位专家标注信息不一致,则邀请一位资深专家对部件标注进行校对,确定最终的标注信息。完成对字符图像中部件类别和部件位置的标注后,由两位专家对字符的结构类别进行标注,如两位专家做出的判断不一致,则由一位资深专家对结构类别重新标注确定最终的结果。
通过上述标注方案,在保证获得高质量数据集的情况下,节省了人工标注成本。
根据金文的字形结构和字符分解字典中的部件,采用拼接合成策略对金文字符进行扩充。通过合成新的金文字符图像,增加训练数据的多样性,从而提高模型在金文字符和部首识别任务上的性能。针对除独体结构以外的十一种结构类型,设计了一套详细的流程来实现金文字符的拼接合成,进而实现金文数据集的扩充。
如图7所示,首先,使用字符结构模板函数来分析除独体结构以外的各种结构类型,获取每个结构模板所需的部件数量以及部件间的相对位置信息。这些结构模板有助于了解金文字符的组成规律,为后续的拼接合成提供指导。
然后,根据对应的结构模板中的部件数量,从部件字典中随机获取相应数量的部件列表。为了增加合成金文字符样本的多样性,使用增强处理函数对部件列表进行随机操作,如放大、缩小、旋转和扭曲等。对部件进行按比例放大或缩小,有助于模拟不同尺寸的金文字符图像;对部件进行旋转,可以改变部件的朝向,有助于提高模型学习不同角度的字符特征;对部件图像进行扭曲,可以模拟金文字符因为历史环境等因素造成的形变。这些操作可以模拟不同尺寸、角度和形变的金文字符图像,有助于提高金文识别模型更具泛化能力。在完成部件的随机选择和增强处理后,根据字符结构模板函数提供的相对位置信息,确定各个部件在合成字符图像中的位置和大小。这一步骤确保了合成字符图像的结构符合金文的字形规律,便于模型学习字符的组成特征。
最后,利用增强处理后的部件列表和结构模板相对位置信息,通过字符生成函数实现最终的合成字符图像。将这些合成字符图像添加到合成字符图像集中,从而实现对金文图像数据集的扩充。经过扩充后的数据集相比较于原始的金文字符图像数据集,图像的类别减少,总样本数量增多,数据更加集中。其中最大样本数量与最小样本数量都有明显的增长,可以减轻在金文图像训练任务中的长尾效应问题。
所述骨架模型预训练模型用于使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型;
将金文文字部件在部件库中对应的部件进行替换实现数据增强,得到数据增强图像;使用数据增强后的无标签古文图像数据集进行骨架模型的预训练,得到训练后的骨架模型。将金文文字部件在部件库中对应的部件进行替换实现数据增强,得到数据增强图像的方法包括;由于金文文字图像的特殊性,本发明提出了一种基于部件的数据增强方法。针对于图像,先做部件识别(基于YOLO的部件检测算法,与上文一致),如果识别到该文字中存在部件库中已有的部件,则将相应的部件进行替换以实现数据增强,得到增强后的/>和/>。对于不存在部件的古文字图像,使用随机数据增强得到增强后的/>和/>。公式如下:
其中,代表基于YOLO的部件检测器,/>分别代表的是此部件在图像/>中左上、左下、右上和右下的坐标位置。/>是图像混合操作,它的输入有两个,第一个输入是图像/>中部件的四个点坐标,第二个输入是部件库/>中与该部件相同类的部件图像。该函数的目的是将从部件库/>中的同类但不同形的部件替换到原古文字图像。是一个随机函数,目的是从部件库/>中随机选取与当前部件类别但不同形的部件。/>是一个索引函数,其目的是在部件库/>索引出所有与当前部件相同类的部件。
由于古文字图像的复杂性,有些古文字不是由多个部件构成的,而是由独体或者比较特殊的结构构成,不在部件库中。这种情况下,本发明使用随机数据增强的方法。/>是由5种图像增强方法构成的,包括中心裁剪、随机水平翻转、颜色扰动、随机灰度化,高斯滤波。在具体实施过程中,使用不同的发生概率去进行随机增强。
预训练的方法具体如下:
是平均池化之后的向量,/>是池化后的维度。我们定义同一个原始图像/>经过数据增强得到的两个数据增强样本/>和/>为正样本对,在同一个批次中其他个数据增强视为负样本。本发明使用余弦相似度去度量两个图像向量。对正样本的一对例子/>和/>的损失函数定义为:
/>
是一个指示函数,/>为温度参数。/>代表是L2归一化。
所述图像识别模块用于将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果。
图像识别模块还包括:文字深度特征提取子模块、文字信息推理子模块和文字识别子模块;
所述文字深度特征提取子模块用于将所述待识别预处理图像输入所述训练后的骨架模型提取金文文字图像的字符深度特征;
所述文字信息推理子模块用于将所述字符深度特征输入所述文字信息推理器生成所述金文文字图像的候选偏旁部首集和候选字体结构集;
所述文字识别子模块用于将所述候选偏旁部首集和候选字体结构集输入所述文字识别器实现对金文文字图像的识别。
文字深度特征提取子模块
待识别字符图像输入到文字深度特征提取器(CIDFE,Character Image DeepFeature Extractor)网络中。CIDFE网络由多个特征提取子层(CIDFE Blocks)组成。
如图9中的图a所示,在CIDFE中,一组文字深度特征提取块被设计为从输入的图像中提取深度特征。其中每个CIDFE Block由多个双重注意力层(DAL,Dual AttentionLayer)和一个批归一化层(BN,Batch Norm)构成。如图9中的图b所示,DAL是计算机视觉领域常用的模块,在本发明中主要是应用DAL解决偏旁部首之前的边界划分问题。本发明中CIDFE每个CIDFE Block中的多层的DAL之间,并使用残差连接(即上一层的输出与本层输出相加,作为下一层的输入)进一步强化长距离特征捕捉能力,使得单个Block可以做得更深,从而构建特征提取能力更强的网络。由于文字中的偏旁部首和结构密切相关,且均包含丰富的语义信息。多层CIDFE Block堆叠构成的CIDFE网络可以有效地学习文字中蕴含的偏旁部首和字体结构特征,从而有效地提取深层全局特征表示,以便供给下游的文字推理模块来推理出可能的偏旁部首和结构信息。
文字信息推理子模块
CIDFE网络提取出的字符深度特征输入到文字信息推理模块中。文字信息推理模块包含两个主要部分,分别是偏旁部首推理器和文字结构推理器,二者的输入均为CIDFE网络所提取的深层全局特征。文字信息推理模块最终会根据深层全局特征/>来生成输入的文字图片可能的偏旁部首和字体结构。
偏旁部首推理器是一个由四个卷积层和一个具有输入维度为的全连接层组成的模型。其中,/>表示输入字符图像被分割成的网格数,K表示每个网格中的锚框数量。该模型用于推断字符图像中的偏旁部首信息,包括部首类别和位置坐标/>,以及部首检测的置信度。通过预测部首类别和位置来约束CIDFE(字符图像深度特征提取器)的训练。
字体结构推理器用于预测字符图像的字体结构。它利用浅层特征(即CIDFE块的第一个输出特征)和深层特征(由CIDFE提取的特征,包括部首位置信息)来捕捉全局和局部结构信息。该推理器由五个卷积层和一个全连接层组成,用于进一步处理连接的浅层和深层特征,以生成待识别字符的候选字体结构。字体结构推理器通过预测字体结构来约束CIDFE的训练。
文字识别子模块
在第二步中,通过偏旁部首推理器和字体结构推理器得到了候选偏旁部首和字体结构的集合。集合中包括偏旁的组合、字体结构以及模型输出的对这些信息的置信度。接下来关于文字的偏旁部首组成信息和文字结构信息作为文字识别模块的输入以完成文字图像的识别。文字识别模块的核心是识别控制单元,识别控制单元和文字知识图谱协同完成文字图像的识别功能。在识别控制单元中包含三个核心组件,它们分别为查询列表选择器、检索策略选择器、识别结果存储器。
查询列表选择器与检索策略选择器:图片在经过文字信息推理模块后,会分别得到M组偏旁部首组合以及N种字体结构。查询列表选择器将这M组偏旁部首组合以及N种字体结构进行构造,构造方法即选择一组偏旁部首与一个字体结构,构成一个待检索列表,最终获得拥有/>个元素的集合/>。而后查询列表选择器将待检索列表集合/>交付给检索策略选择器进行分析。检索策略选择器针对查询列表选择器送来的组合逐条进行分析。分析工作主要由检索策略选择器中的集合信息分析单元完成。具体分析过程如下:
第一阶段,集合信息分析单元首先会对检索列表集合中的每条元素计算置信度。/>由偏旁部首列表与字体两部分构成,整个/>的置信度/>的计算也分为偏旁部首列表置信度/>与字体结构置信度/>两部分。偏旁部首列表置信度/>,其中n为列表中偏旁部首的个数,/>为列表中第i个位置的偏旁部首的置信度(来自第二步中偏旁部首推理器的输出)。字体结构置信度/>,其中/>来自第二步中字体结构推理器的输出。得到/>与/>后,/>。/>为可调节参数,通常认为文字的偏旁部首信息更为重要,因此/>通常取大于0.5的值。
第二阶段,集合信息分析单元,分析每条元素的/>、/>、/>。分析规则如下:给定阈值/>,若某/>中某候选列表/>的/>高于给定阈值时,检索策略选择器为此候选检索列表选择完全匹配检索策略。若某/>中某候选列表/>的/>低于给定阈值时,给定阈值/>,若某/>中某候选列表/>的/>高于给定阈值时,此时认为此候选列表/>是结构不可信的,检索策略选择器为此条候选检索列表选择部首优先的模糊检索策略。当某/>中某元素/>的/>低于给定阈值/>,元素/>的/>也低于给定阈值/>时,则认为此条/>是不可信的,检索策略选择器为此条候选检索列表选择低优先级的检索策略。/>
第三阶段,集合信息分析单元为每条候选列表分配好策略后,将整个候选列表集合返回给查询列表选择器。此时检索策略选择器的工作结束。
新的候选查询列表集合中每条查询列表除了基本的偏旁部首组合信息、字体结构信息之外,还包括新加入的置信度信息以及检索策略信息。查询列表选择器根据这些信息将候选查询列表重新进行排序。排序规则如下:对于拥有完全匹配检索策略的候选查询列表,按照每条候选查询列表的进行降序排列。对于拥有部首优先的模糊检索策略的候选查询列表,按照每条候选查询列表的/>进行降序排列。对于拥有低优先级的检索策略的候选查询列表,按照每条候选查询列表的/>进行降序排列。
此时,查询列表选择器从排序后的候选查询列表集合中依次选择元素在知识图谱中进行查询。如果查询成功,则将候选列表的置信度认定为查询结果置信度。对于拥有完全匹配检索策略的候选查询列表,严格按照部首组合和字体结构进行查询检索。如果知识图谱检索成功则将结果标记为/>,将(结果置信度,结果值,结果标记值)三元组添加到识别结果存储器中。对于拥有部首优先的模糊检索策略的候选查询列表,知识图谱查询时忽略结构信息,直接依据部首组合从知识图谱中查询前K个候选字,并全部标记为并添加到识别结果存储器中。对于拥有低优先级的检索策略的候选查询列表,只有在前两种策略检索完毕且识别结果存储器仍未达到规定元素数目进行检索(低优先级检索策略的具体检索方法也采用严格完全匹配的方法在知识图谱中进行查询),否则则忽略。如果知识图谱检索失败,则进行下一次查询检索。将所述识别结果放入存储器中,并反馈给用户,实现对金文文字的识别。至此本发明的整个古文字识别过程结束。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种基于骨架模型预训练的金文图像识别方法,其特征在于,所述方法包括:
S1、采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;
S2、使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型;
S3、将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果;
所述S2中,使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型的具体方法包括:
对所述无标签古文图像数据集进行数据增强,得到增强后的无标签古文图像数据集;
使用所述增强后的无标签古文图像数据集进行骨架模型预训练,得到训练后的骨架模型;
所述增强后的无标签古文图像数据集的获取方法具体包括:
将无标签古文图像数据在金文文字部件库中进行部件识别,若在部件库中识别到对应部件,则对对应部件进行替换实现数据增强后的/>和/>,若查询不到,则使用随机数据增强得到增强后的/>和/>:
其中,/>代表基于YOLO的部件检测器,分别代表的是此部件在图像/>中左上、左下、右上和右下的坐标位置;/>是图像混合操作。
2.根据权利要求1所述的基于骨架模型预训练的金文图像识别方法,其特征在于,所述S1中,所述预处理主要包括对所述金文文字图像进行降噪、部件拆分和金文数据集的扩充。
3.根据权利要求2所述的基于骨架模型预训练的金文图像识别方法,其特征在于,所述降噪的方法具体包括:
使用带有泄露线性整流单元的3×3卷积层提取金文文字图像的浅层特征,恢复所述金文文字图像的细节部分,得到初始特征图;
使用带有金文拓片图像降噪方法的字符增强模型实现对所述初始特征图进行深度特征的降噪。
4.根据权利要求3所述的基于骨架模型预训练的金文图像识别方法,其特征在于,所述带有金文拓片图像降噪方法具体包括:
将所述初始特征图经过最大池化层和平均池化层后在通道的维度上进行拼接,得到拼接后的特征图;
对所述拼接后的特征图进行多尺度卷积,得到尺度卷积特征图;
将所述尺度卷积特征图进行尺度调整后进行拼接,将拼接后的尺度卷积特征图通过池化层,完成对所述金文文字图像中字形特征的学习,实现对所述金文文字图像的降噪处理。
5.根据权利要求1所述的基于骨架模型预训练的金文图像识别方法,其特征在于,使用所述增强后的无标签古文图像数据集进行骨架模型预训练,得到训练后的骨架模型的方法包括;
将无标签古文图像进行数据增强后得到增强后的无标签古文图像数据集/>和/>;
将所述无标签古文图像数据集和/>经过骨架模型/>,得到对应表征向量/>和/>,公式为:
是平均池化之后的表征向量,余弦相似度度量两个图像向量,对/>和/>的损失函数定义为:
其中,/>是一个指示函数,/>为温度参数,代表是L2归一化。
6.根据权利要求1所述的基于骨架模型预训练的金文图像识别方法,其特征在于,将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果的方法具体包括:
将所述待识别预处理图像输入所述训练后的骨架模型提取金文文字图像的字符深度特征;
将所述字符深度特征输入所述文字信息推理器生成所述金文文字图像的候选偏旁部首集和候选字体结构集;
将所述候选偏旁部首集和候选字体结构集输入所述文字识别器实现对金文文字图像的识别。
7.根据权利要求6所述的基于骨架模型预训练的金文图像识别方法,其特征在于,将所述候选偏旁部首集和候选字体结构集输入所述文字识别器实现对金文文字图像的识别的方法具体包括:
使用查询列表选择器对所述候选偏旁部首集和候选字体结构集进行构造,构造方法为选择一组偏旁部首组合与一个字体结构,构成一个待检索列表,获得M*N个元素的集合I;
将所述待检索列表传输到检索策略选择器中进行逐条分析,得到候选列表集合/>,将所述候选列表集合/>返回给所述查询列表选择器进行重新排序;
识别结果存储器从排序后的候选查询列表中依次选择元素在知识图谱中进行查询,得到知识图谱检索识别结果,将所述检索识别结果进行保存,实现对金文文字图像的识别。
8.一种基于骨架模型预训练的金文图像识别***,所述***用于实现权利要求1-7任一项所述的基于骨架模型预训练的金文图像识别方法,其特征在于,***包括:数据预处理模块、骨架网络预训练模块和图像识别模块;
所述数据预处理模块用于采集金文文字图像,对所述金文文字图像进行预处理,得到待识别预处理图像;
所述骨架模型预训练模型用于使用无标签古文图像数据集对骨架模型进行预训练,得到训练后的骨架模型;
所述图像识别模块用于将所述待识别预处理图像输入训练后的骨架模型、文字信息推理器和文字识别器中,得到待识别文字的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410071885.8A CN117593755B (zh) | 2024-01-18 | 2024-01-18 | 一种基于骨架模型预训练的金文图像识别方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410071885.8A CN117593755B (zh) | 2024-01-18 | 2024-01-18 | 一种基于骨架模型预训练的金文图像识别方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593755A true CN117593755A (zh) | 2024-02-23 |
CN117593755B CN117593755B (zh) | 2024-04-02 |
Family
ID=89916994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410071885.8A Active CN117593755B (zh) | 2024-01-18 | 2024-01-18 | 一种基于骨架模型预训练的金文图像识别方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593755B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
CN111985462A (zh) * | 2020-07-28 | 2020-11-24 | 天津恒达文博科技股份有限公司 | 基于深度神经网络的古文字检测、识别和检索*** |
CN112613348A (zh) * | 2020-12-01 | 2021-04-06 | 浙江华睿科技有限公司 | 一种字符识别方法及电子设备 |
WO2021206338A1 (ko) * | 2020-04-09 | 2021-10-14 | 엘케이시스(주) | 컨테이너 문자 인식 방법 및 장치 |
CN114092700A (zh) * | 2021-11-25 | 2022-02-25 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN116935411A (zh) * | 2023-09-18 | 2023-10-24 | 吉林大学 | 一种基于字符分解和重构的部首级古文字识别方法 |
-
2024
- 2024-01-18 CN CN202410071885.8A patent/CN117593755B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
WO2021206338A1 (ko) * | 2020-04-09 | 2021-10-14 | 엘케이시스(주) | 컨테이너 문자 인식 방법 및 장치 |
CN111985462A (zh) * | 2020-07-28 | 2020-11-24 | 天津恒达文博科技股份有限公司 | 基于深度神经网络的古文字检测、识别和检索*** |
CN112613348A (zh) * | 2020-12-01 | 2021-04-06 | 浙江华睿科技有限公司 | 一种字符识别方法及电子设备 |
CN114092700A (zh) * | 2021-11-25 | 2022-02-25 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN116935411A (zh) * | 2023-09-18 | 2023-10-24 | 吉林大学 | 一种基于字符分解和重构的部首级古文字识别方法 |
Non-Patent Citations (2)
Title |
---|
李春桃等: ""基于人工智能技术的古文字研究"", 《吉林大学社会科学学报》, vol. 63, no. 2, 31 March 2023 (2023-03-31) * |
赵若晴;王慧琴;王可;王展;刘文腾;: "基于方向梯度直方图和灰度共生矩阵混合特征的金文图像识别", 激光与光电子学进展, no. 12, 25 June 2020 (2020-06-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN117593755B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN110428428B (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN108304873A (zh) | 基于高分辨率光学卫星遥感影像的目标检测方法及其*** | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、***及介质 | |
CN109740686A (zh) | 一种基于区域池化和特征融合的深度学习图像多标记分类方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及*** | |
CN111563563B (zh) | 一种手写体识别的联合数据的增强方法 | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、***及设备 | |
CN113516116B (zh) | 一种适用于复杂自然场景的文本检测方法、***和介质 | |
CN116994140A (zh) | 基于遥感影像的耕地提取方法、装置、设备和介质 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN117726809A (zh) | 一种基于信息交互增强的小样本语义分割方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN117152768A (zh) | 用于扫读笔的离线识别方法及*** | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN117593755B (zh) | 一种基于骨架模型预训练的金文图像识别方法和*** | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 | |
CN112329389B (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 | |
CN113837015A (zh) | 一种基于特征金字塔的人脸检测方法及*** | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |