CN117058266A - 一种基于骨架和轮廓的书法字生成方法 - Google Patents

一种基于骨架和轮廓的书法字生成方法 Download PDF

Info

Publication number
CN117058266A
CN117058266A CN202311313408.XA CN202311313408A CN117058266A CN 117058266 A CN117058266 A CN 117058266A CN 202311313408 A CN202311313408 A CN 202311313408A CN 117058266 A CN117058266 A CN 117058266A
Authority
CN
China
Prior art keywords
image
skeleton
loss
style
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311313408.XA
Other languages
English (en)
Other versions
CN117058266B (zh
Inventor
曾锦山
章燕
汪叶飞
熊佳鹭
汪蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202311313408.XA priority Critical patent/CN117058266B/zh
Publication of CN117058266A publication Critical patent/CN117058266A/zh
Application granted granted Critical
Publication of CN117058266B publication Critical patent/CN117058266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于骨架和轮廓的书法字生成方法,包括下列步骤:建立模型;所述模型以CycleGAN模型为骨干网络,CycleGAN模型包含两组生成对抗网络,所述模型还包括Con、Ske、IPaD和SCF;步骤二、对所述模型进行训练;源域风格的汉字图像作为原始图像输入模型,通过第一组生成对抗网络将原始图像转化为目标风格图像,通过第二组生成对抗网络将第一组生成对抗网络输出的目标风格图像转化为重构图像,训练过程中通过计算整个模型的损失,对模型进行优化;步骤三、获得优化后的模型用于书法字体自动生成。本发明引入有效的骨架‑轮廓融合模块来融合骨架信息和轮廓信息,在缺少精确配对字体样本的情况下能实现高质量的内容风格表现。

Description

一种基于骨架和轮廓的书法字生成方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于骨架和轮廓的书法字生成方法。
背景技术
中国书法是一种以汉字为基础的艺术形式,主要用画笔书写。近年来,随着人工智能技术的快速发展,对中国书法自动生成的研究逐渐出现,致力于文化遗产的数字保护和继承,并建立了一个可广泛应用的中国书法文本数据库。然而,书法汉字的自动生成在技术上具有相当大的挑战性,主要体现有以下两个方面:1、书法字符的形状多种多样,而书法字体的整体形状也非常不同。2、书法字大多是传统字,其结构比简化字更复杂。
针对上述两个挑战,现有的汉字生成方法通常被认为是图像到图像的转换问题。现有技术中,有些采用Pix2Pix模型进行中文字体生成,通过构建直接从标准字体字符中生成书法字符的深度神经网络模型实现书法字体的生成。另一种现有技术则构建了有效的书法生成模型LF-Font,通过利用成对的字符和组件来提取内容和风格表示,但是这些模型需要成对的数据进行训练,收集大量成对的样本往往是不切实际和繁重的,特别是对于某些字体生成问题,如古代书法字体,这导致现有技术在小样本情况下难以得到足够的配对字体,导致这些模型难以得到准确可靠的结果。
为了解决数据配对的问题,一些技术人员采用CycleGAN模型来基于未配对的数据生成中文字体,如可变形生成模型DG-Font。该技术引入了某些笔画编码来缓解模式崩溃的问题,有些现有技术还通过使用少量配对样本作为监督,提出了其半监督变量,另一些则利用多个分块变换(square-block transformations)来捕捉汉字的字形结构,还有的现有技术使用了汉字的轮廓来获取全局信息。
尽管这些有监督、无监督和自我监督的模型对一般中文字体的生成非常有效,但由于汉字多样的形状和不同字体件非常不同的风格,这些现有技术在应用于中国书法生成时的效果仍然不令人满意,特别是难以产生高质量的内容风格的表现,这也是中国书法生成的关键。上述技术中有些仍需要一定量成对的数据为生成结果提供重要的监督,但是收集成对数据的数量是非常困难的。而单纯利用文字的骨架或轮廓,生成字体的风格或内容上常常有一些缺陷,仍不能满足中国书法字体的自动生成需求。
发明内容
本发明的目的是提供一种基于骨架和轮廓的书法字生成方法,用于解决现有技术中在没有足够成对字体监督的情况下,生成的中国书法字体难以产生高质量的内容风格表现的技术问题。
所述的一种基于骨架和轮廓的书法字生成方法,包括下列步骤。
步骤一、建立模型;所述模型以CycleGAN模型为骨干网络,CycleGAN模型包含两组生成对抗网络。
步骤二、对所述模型进行训练;输入模型的汉字字体风格为源域风格,源域风格的汉字图像即源域图像,采集源域风格的汉字图像做训练样本,需要生成的书法字体图像的字体风格为目标风格,目标风格的书法字体图像即目标域图像,采集目标域图像形成书法数据集;源域图像在训练时作为原始图像输入模型,通过第一组生成对抗网络将原始图像转化为目标风格图像,通过第二组生成对抗网络将第一组生成对抗网络输出的目标风格图像转化为重构图像,目标风格图像的字体风格应与目标风格一致,重构图像的字体风格应与源域风格一致,训练过程中通过计算整个模型的损失,对模型进行优化,优化目标是让整个模型的损失最小化。
步骤三、获得优化后的模型用于书法字体自动生成。
其中,两组生成对抗网络中均包括轮廓提取模块Con、骨架提取模块Ske和骨架-轮廓融合模块SCF,所述模型还包括不精确配对数据模块IPaD。
所述步骤二中,两组生成对抗网络均通过轮廓提取模块Con和骨架提取模块Ske分别提取骨架信息和轮廓信息,并将骨架信息和轮廓信息通过骨架-轮廓融合模块SCF融合后在生成器中与输入生成器的图像拼接,再由相应生成器处理生成图像。
不精确配对数据模块IPaD自动识别书法数据集中的字符并记录为识别标签,再根据目标风格图像在书法数据集中进行不精确配对,配对时允许对有关的书法数据集使用错误的识别标签,从而得到不精确配对数据。
整个模型的损失包括第一代对抗性损失L advy 、第二代对抗性损失L advx 、循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 和不精确的配对损失L inex
优选的,所述步骤一中,第一组生成对抗网络包括构建的生成器一G y 和鉴别器一D y ,第二组生成对抗网络包括构建的生成器二G x 和鉴别器二D x ;生成器一G y 用于将原始图像转化为目标风格图像,鉴别器一D y 用来判别生成的目标风格图像与目标域图像之间字体风格是否一致;第二组生成对抗网络采用相反的过程对第一组生成对抗网络输出的结果进行重构,即通过生成器二G x 将目标风格图像转化为源域风格的重构图像,鉴别器二D x 用来判别生成的重构图像与源域图像之间字体风格是否一致。
优选的,所述步骤二中,在第一组生成对抗网络中,源域图像x作为输入的原始图像分别通过骨架提取模块Ske和轮廓提取模块Con处理,对应提取到骨架信息sx和轮廓信息cx,骨架信息sx和轮廓信息cx二者通过骨架-轮廓融合模块SCF融合;原始图像x输入生成器一G y ,生成器一G y 在处理过程中,将原始图像x与骨架-轮廓融合模块SCF所得的骨架特征E asx 和轮廓特征E bcx 在通道层次进行拼接,处理后生成目标风格图像,采集目标域图像y组成目标域数据集Y,将目标风格图像/>和目标域数据集Y中的目标域图像y分别输入鉴别器一D y 判断二者经鉴别器一D y 返回的结果是否一致,以此评估目标风格图像/>的真实性。
优选的,向骨架-轮廓融合模块SCF输入给定一个汉字的骨架信息和轮廓信息后,骨架-轮廓融合模块SCF首先将它们输入对应的骨架编码器和轮廓编码器,以产生对应的骨架特征E sx 和轮廓特征E cx ;然后将编码的骨架特征E sx 和轮廓特征E cx 相加得到特征E scx 并使用SoftMax函数得到归一化特征c Z ;基于归一化特征c Z ,使用注意力权重公式计算相应的骨架特征E sx 的权重a c 和轮廓特征E cx 的权重b c ;最后,将计算出的权重a c b c 乘以对应的骨架特征E sx 和轮廓特征E cx ,得到融合权重的骨架特征E asx 和融合权重的轮廓特征E bcx ,计算式描述如下所示:
,/>
其中,a c b c c Z 中的c都表示的通道c上的计算,AB是两个可学习参数的矩阵。
优选的,在第二组生成对抗网络中,目标风格图像再通过骨架提取模块Ske和轮廓提取模块Con处理,提取到相应的骨架信息/>和轮廓信息/>,骨架信息/>和轮廓信息/>二者通过骨架-轮廓融合模块SCF融合;目标风格图像/>输入生成器二G x ,生成器二G x 在处理过程中,将目标风格图像/>与骨架-轮廓融合模块SCF融合所得的相应骨架特征和相应轮廓特征在通道层次进行拼接,重构生成与源域风格一致的重构图像/>;采集源域图像x组成源域数据集X,重构图像/>和源域数据集X中的源域图像x输入鉴别器二D x 后判断二者经鉴别器二D x 返回的结果是否一致,以此评估目标重构图像/>的真实性。
优选的,所述步骤二中,CycleGAN模型中第一组生成对抗网络中,由鉴别器一D y 计算得到目标风格图像与目标域图像之间在字体风格上的差异,即第一代对抗性损失L advy ,用于优化生成器一G y ;第二组生成对抗网络的输入是基于第一组生成对抗网络中生成器一G y 的输出,第二组生成对抗网络中鉴别器二D x 计算源域图像和重构图像之间在字体风格上的差异,即第二代对抗性损失L advx ,用于优化生成器二G x
循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 均对应优化生成器二G x 和生成器一G y ;循环一致性损失L cyc 是源域风格的原始图像x和重构图像间的损失;骨架一致性损失L ske 是原始图像x的骨架信息sx和重构图像/>中提取出的骨架信息/>间的损失;轮廓一致性损失L con 是原始图像x的轮廓信息cx和重构图像/>中提取出的轮廓信息/>间的损失,不精确的配对损失L inex 是不精确配对数据y inex 和对应到不精确配对数据的目标风格图像/>之间的损失。
优选的,第二代对抗性损失L advx 、第一代对抗性损失L advy 、循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 的算式依次如下:
其中,E x~X [ ]表示在给定源域数据集X中的源域图像x分布下对[ ]里面数据的期望值,表示在给定重构图像集合/>中的重构图像/>分布下对[ ]里面数据的期望值,logD x (x)表示鉴别器二D x 将源域图像x识别为源域图像的概率,log(1-logD x (/>))表示鉴别器二D x 将重构图像/>识别为不是源域图像的概率;E y~Y [ ]表示在给定目标域数据集Y中的目标域图像y分布下对[ ]里面数据的期望值,/>表示在给定目标风格图像集合/>中的目标风格图像/>分布下对[ ]里面数据的期望值,logD y (y)表示鉴别器一D y 将目标域图像y识别为目标域图像的概率,log(1-logD y (/>))表示鉴别器一D y 将目标风格图像/>识别为不是目标域图像的概率;/>表示在给定源域数据集X中的源域图像x以及给定重构图像集合/>中的重构图像/>的分布下对|| ||1里面数据的范数的期望值,Ske(x)和Ske(/>)分别表示通过骨架提取模块Ske对源域图像x和重构图像/>处理所得的结果,Con(x)和Con(/>)分别表示通过轮廓提取模块Con对源域图像x和重构图像/>处理所得的结果;/>表示重构图像/>的集合,Y inex 表示不精确配对数据y inex 的集合,/>表示对应到不精确配对数据的目标风格图像,/>表示对应到不精确配对数据的目标风格图像/>的集合,表示在给定集合Y inex 中的不精确配对数据y inex 以及给定集合/>中的对应到不精确配对数据的目标风格图像/>的分布下对|| ||1里面数据的范数的期望值。
优选的,整个模型的模型损失的算式如下:
该式中,λ cyc λ ske λ con λ inex 分别是对应循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 的四个可调的超参数,表示相应损失在整个模型损失中的权重。
本发明具有以下优点:由于书法字体更加复杂,包括连笔画、笔画锐度、粗细等多种书法风格特征,这些特征很难单独使用骨架、笔画编码或其他组件来表征。因此,本方案引入轮廓来表示这些风格特征。而单纯的轮廓信息也不能确定字符的内容,因此引入了一个有效的骨架-轮廓融合模块来融合骨架信息和轮廓信息。本方案还由不精确配对数据模块IPaD自动识别书法数据集中的字符并记录为识别标签,得到不精确配对数据集。不精确配对数据集用于计算所生成图像与不精确配对数据集中相应的不精确配对图像之间的图像级损失。基于上述技术特点,本方案能综合利用骨架或轮廓信息,并且无需较多数量的配对样本即可实现对中国书法字体的自动生成,并能实现高质量的内容风格表现。
附图说明
图1为本发明一种基于骨架和轮廓的书法字生成方法的模型流程图。
图2为本发明中骨架-轮廓融合模块SCF的工作流程示意图。
图3为本发明与现有技术在汉字生成结果上的比较图。
图4为正楷字体和于右任、诸遂良二人书法字体的对比图。
图5为本发明将正楷字体的四组不同汉字分别转化为八大山人、黄庭坚、诸遂良和弘一法师的书法字体的效果图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。
如图1-图2所示,本发明提供了一种基于骨架和轮廓的书法字生成方法,包括下列步骤。
步骤一、建立模型。
CycleGAN模型,即循环生成对抗模型,该模型是一种非监督学习模型。CycleGAN模型包含两组生成对抗网络,第一组包括构建的生成器一G y 和鉴别器一D y ,第二组生成对抗网络包括构建的生成器二G x 和鉴别器二D x 。在本方案中,生成器一G y 用于将原始图像转化为目标风格图像,鉴别器一D y 用来判别生成的目标风格图像与目标域图像之间字体风格是否一致,即判别目标风格图像的真实性。第二组生成对抗网络采用相反的过程对第一组生成对抗网络输出的结果进行重构,即通过生成器二G x 将目标风格图像转化为源域风格的重构图像,鉴别器二D x 用来判别生成的重构图像与源域图像之间字体风格是否一致,即判别重构图像的真实性。
上述生成对抗网络中的生成器均包括括编码器、转换器和解码器。CycleGAN模型中第一组生成对抗网络中通过鉴别器一D y 计算得到目标风格图像与目标域图像之间在字体风格上的差异,鉴别器一D y 的损失结合生成器一G y 的损失形成第一代对抗性损失L advy ,用于优化生成器一G y ;第二组生成对抗网络的输入是基于第一组生成对抗网络中生成器一G y 的输出,第二组生成对抗网络中鉴别器二D x 计算源域图像和重构图像之间在字体风格上的差异,鉴别器二D x 的损失结合生成器二G x 的损失形成第二代对抗性损失L advx ,用于优化生成器二G x 。训练时一般先训练鉴别器一D y 和鉴别器二D x ,再基于鉴别器处理得到的两代对抗性损失分别对相应的生成器进行优化。常规CycleGAN模型中对生成器的训练,实质上是让上述两代对抗性损失最小化的过程。训练过程还可以交替的训练鉴别器和生成器。
在本方案中,以CycleGAN模型作为基础模型,从而能够学习源域和目标域之间的两个映射,CycleGAN模型能够引入循环一致性损失来帮助克服配对数据的限制。本方案建立的模型以CycleGAN模型为骨干网络,CycleGAN模型包含两组生成对抗网络,两组生成对抗网络中均包括轮廓提取模块Con、骨架提取模块Ske和骨架-轮廓融合模块SCF。在轮廓提取模块中,由于书法特征图像通常以灰色表示,因此能通过使用著名的Canny算子很容易地实现轮廓信息的提取。在骨架提取模块中,采用了现有的一些简单规则相同的骨架方案(如论文:Jie Zhou, Yefei Wang, Yiyang Yuan, Qing Huang, and Jinshan Zeng, “Sgce-font: Skeleton guided channel expansion for chinese font generation,”arXivpreprint arXiv:2211.14475,2022.中所公开的提取方法)来有效地提取骨架信息。此外,本模型还设有不精确配对数据模块IPaD,对于不精确配对数据模块,使用现有的汉字识别方法(ChineseCharacter Recognition,简写CCR,例如论文:Jinshan Zeng, Ruiying Xu,Yu Wu, Hongwei Li, and Jiaxing Lu, “Zero-shot chinese character recognitionwith stroke and radical-level decompositions,”in Proceedings of theInternational Joint Conference on Neural Networks,2023.中所公开的识别方法)来自动识别书法数据集中的字符并记录为识别标签,在生成目标风格图像后依据目标风格图像进行相似性配对。不精确配对数据模块IPaD与现有技术不同之处在于:配对时允许对有关的书法数据集使用错误的识别标签,即配对结果是与原始图像相似但不同的汉字。这里虽然有些书法汉字被识别出是错误的,但它们仍然可以为相关的书法汉字提供一些重要的参考信息。
与简体中文字体相比,书法字体更加复杂,包括连笔画、笔画锐度、粗细等多种书法风格特征,这些特征很难单独使用骨架、笔画编码或其他组件来表征。因此,引入轮廓来表示这些风格特征。而单纯的轮廓信息也不能确定字符的内容,因此引入了一个有效的骨架-轮廓融合模块来融合骨架信息和轮廓信息。骨架-轮廓融合模块的架构如图2所示。
步骤二、对所述模型进行训练。
上述模型将骨架-轮廓融合模块SCF与不精确配对数据模块IPaD集成在一起。所提出的模型融合了汉字的骨架和轮廓信息,提供了全面的结构监督信息。
训练的基本工作流程包括:对所述模型进行训练;输入模型的汉字字体风格为源域风格,源域风格的汉字图像即源域图像,采集源域风格的汉字图像做训练样本,需要生成的书法字体图像的字体风格为目标风格,目标风格的书法字体图像即目标域图像,采集目标域图像形成书法数据集;源域图像在训练时作为原始图像输入模型,通过第一组生成对抗网络将原始图像转化为目标风格图像,通过第二组生成对抗网络将第一组生成对抗网络输出的目标风格图像转化为重构图像,目标风格图像的字体风格应与目标风格一致,重构图像的字体风格应与源域风格一致,训练过程中通过计算整个模型的损失,对模型进行优化,优化目标是让整个模型的损失最小化。同时不精确配对数据模块IPaD自动识别书法数据集中的字符并记录为识别标签,再根据目标风格图像在书法数据集中进行不精确配对,即配对时允许对有关的书法数据集使用错误的识别标签。
具体来说,在第一组生成对抗网络中,源域图像x作为输入的原始图像分别通过骨架提取模块Ske和轮廓提取模块Con处理,对应提取到骨架信息sx和轮廓信息cx,骨架信息sx和轮廓信息cx二者通过骨架-轮廓融合模块SCF融合。骨架-轮廓融合模块SCF属于一种交叉注意力模块,向骨架-轮廓融合模块SCF输入给定一个汉字的骨架信息和轮廓信息后,骨架-轮廓融合模块SCF首先将它们输入相关的编码器(即对应的骨架编码器和轮廓编码器)以产生对应的骨架特征E sx 和轮廓特征E cx ;然后将编码的骨架特征E sx 和轮廓特征E cx 相加得到特征E scx 并使用SoftMax函数得到归一化特征c Z 。基于归一化特征c Z ,使用注意力权重公式计算相应的骨架特征E sx 的权重a c 和轮廓特征E cx 的权重b c 。最后,将计算出的权重a c b c 乘以对应的骨架特征E sx 和轮廓特征E cx ,得到融合权重的骨架特征E asx 和融合权重的轮廓特征E bcx ,这里计算式描述如下所示:
,/>
其中,a c b c c Z 中的c都表示的通道c上的计算,AB是两个可学习参数的矩阵。
原始图像x输入生成器一G y ,生成器一G y 在处理过程中,将原始图像x与骨架-轮廓融合模块SCF所得的骨架特征E asx 和轮廓特征E bcx 在通道层次进行拼接,处理后生成目标风格图像,之后通过鉴别器一D y 评估目标风格图像/>的真实性,即目标风格图像/>和目标域图像分别输入鉴别器一D y 判断二者经鉴别器一D y 返回的结果是否一致。
之后在第二组生成对抗网络中,目标风格图像再通过骨架提取模块Ske和轮廓提取模块Con处理,提取到相应的骨架信息/>和轮廓信息/>,骨架信息/>和轮廓信息/>二者通过骨架-轮廓融合模块SCF融合。目标风格图像/>输入生成器二G x ,生成器二G x 在处理过程中,将目标风格图像/>与骨架-轮廓融合模块SCF融合所得的相应骨架特征和相应轮廓特征在通道层次进行拼接,重构生成与源域风格一致的重构图像/>。之后在鉴别器二D x 评估重构图像/>的真实性,将重构图像/>和源域数据集X输入鉴别器二D x 后判断二者经鉴别器二D x 返回的结果是否一致。
根据上面描述的工作流程,本方案提出的模型损失包括循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 、以及两代对抗性损失L advx L advy 六个主要组成部分。两代对抗性损失中,L advx 对应生成器二G x 和鉴别器二D x 的第二代对抗性损失,L advy 对应生成器一G y 和鉴别器一D y 的第一代对抗性损失;循环一致性损失L cyc 是源域风格的原始图像x和重构图像间的损失。上述两代对抗性损失和循环一致损失是CycleGAN模型自身存在的损失函数,在训练中通过损失函数最小化实现对模型的优化,完成相应模型训练。
由于本申请方案还分别提取了图像的骨架信息和轮廓信息,因此本模型还存在轮廓一致性损失和骨架一致性损失。骨架一致性损失L ske 是原始图像x的骨架信息sx和重构图像中提取出的骨架信息/>间的损失;轮廓一致性损失L con 是原始图像x的轮廓信息cx和重构图像/>中提取出的轮廓信息/>间的损失。最后由于本方案对目标域数据集采用了不精确配对数据模块IPaD对书法数据集进行不精确配对,因此损失中还包含不精确的配对损失。
生成器一G y 生成的目标风格图像如果无法从目标域图像中实现精确配对,则进行不精确配对,即配对时允许对有关的书法数据集使用错误的识别标签,由此得到不精确配对数据y inex ,此时相应的目标风格图像/>即为对应到不精确配对数据y inex 的目标风格图像/>。而不精确的配对损失L inex 是不精确配对数据y inex 和对应到不精确配对数据的目标风格图像/>之间的损失。上述损失中循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 和不精确的配对损失L inex 均用于优化生成器一G y 和生成器二G x 。上述损失函数的算式具体如下:
其中,E x~X [ ]表示在给定源域数据集X中的源域图像x分布下对[ ]里面数据的期望值,表示在给定重构图像集合/>中的重构图像/>分布下对[ ]里面数据的期望值,logD x (x)表示鉴别器二D x 将源域图像x识别为源域图像的概率,鉴别器二D x 的损失越小,logD x (x)越大,第二代对抗性损失越小。log(1-logD x (/>))表示鉴别器二D x 将重构图像/>识别为不是源域图像的概率;随训练过程对生成器二G x 的优化,生成器二G x 的损失越小,就表明重构图像/>与源域图像x在字体风格上差异越小,log(1-logD x (/>))越小,鉴别器二D x 将重构图像/>正确识别的概率也越小,这导致鉴别器二D x 的损失越大,同时第二代对抗性损失也越小。E y~Y [ ]表示在给定目标域数据集Y中的目标域图像y分布下对[ ]里面数据的期望值,表示在给定目标风格图像集合/>中的目标风格图像/>分布下对[ ]里面数据的期望值,logD y (y)表示鉴别器一D y 将目标域图像y识别为目标域图像的概率,鉴别器一D y 的损失越小,logD y (y)越大,第一代对抗性损失越小。log(1-logD y (/>))表示鉴别器一D y 将目标风格图像/>识别为不是目标域图像的概率;随训练过程对生成器一G y 的优化,生成器一G y 的损失越小,就表明目标风格图像/>与目标域图像y在字体风格上差异越小,log(1-logD y (/>))越小,鉴别器一D y 将目标风格图像/>正确识别的概率也越小,这导致鉴别器一D y 的损失越大,同时第一代对抗性损失也越小。/>表示在给定源域数据集X中的源域图像x以及给定重构图像集合/>中的重构图像/>的分布下对|| ||1里面数据的范数的期望值,Ske(x)和Ske(/>)分别表示通过骨架提取模块Ske对源域图像x和重构图像/>处理所得的结果,Con(x)和Con(/>)分别表示通过轮廓提取模块Con对源域图像x和重构图像/>处理所得的结果;/>表示重构图像/>的集合,Y inex 表示不精确配对数据y inex 的集合,/>表示对应到不精确配对数据的目标风格图像,/>表示对应到不精确配对数据的目标风格图像/>的集合,表示在给定集合Y inex 中的不精确配对数据y inex 以及给定集合/>中的对应到不精确配对数据的目标风格图像/>的分布下对|| ||1里面数据的范数的期望值。
在CycleGAN模型中,整个模型(该模型即基于骨架、轮廓和不精确配对数据的书法字生成方法的模型,英文简写SCI-Font,其中S、C、I依次对应骨架提取模块Ske、轮廓提取模块Con和不精确配对数据模块IPaD)的模型损失、所有生成器G的损失以及所有鉴别器D的损失之间的关系可以通过下面的表达式描述:
其中,表示模型中鉴别器D损失越大,生成器G损失越小,该表达式的含义是要在所有生成器G的损失以及所有鉴别器D损失这二者的取值范围内,找到能够使取得最小值的情况。此时所有生成器G的损失为最小值,所有鉴别器D的损失为最大值,并且同时使/>取得最优解。依据该关系对该模型训练时利用训练中反馈的模型损失对模型进行优化,减少模型损失。
结合其他损失函数,整个模型的模型损失的算式如下:
该式中,λ cyc λ ske λ con λ inex 分别是对应循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 的四个可调的超参数,表示相应损失在整个模型损失中的权重,对超参数进行优化,选择一组最优超参数,以提高学习的性能和效果。
步骤三、获得优化后的模型用于书法字体自动生成。
基于上述模型和训练方式,本方案模型融合了汉字的骨架和轮廓信息,然后用作显式表示以增强由解码器产生的潜在内容风格表示,这样能有效捕捉书法字体的内容和风格特性。注意到收集配对数据的困难,利用了一些自动的中文字符识别技术生成不精确的配对数据集进一步用于监督模型性能,不精确的成对数据能更好的监督源域与目标域之间的字形差异,虽然有些书法汉字被识别出是错误的,但它们仍然可以为相关的书法汉字提供一些重要的参考信息,这些都为生成书法字的内容提供重要技术支持。
应用本发明提供的方法进行字体生成实验,并与其他现有的字体生成技术进行对比,所得生成字体的对比结果如图3所示,不同生成方法的生成结果则由上至下排列,所用汉字由左至右依次分为三组,每组四个不同汉字,由左至右依次为由正楷字体生成柳公权的书法字体、由正楷字体生成颜真卿的书法字体和由正楷字体生成欧阳修的书法字体;图中标记的圆圈表示生成字体时出现的缺损错误,图中用方框框选出的汉字表示生成字体的形状不准确,出现了模式坍塌现象。其中倒数第二行即采用本发明的方法及模型(英文简写SCI-Font)。该图体现了本方法对书法字的生成效果较好。图4为正楷字体和于右任、诸遂良二人书法字体的对比图,可见相同汉字在不同书法字体中笔画和风格变化很大,还存在简繁体变化,体现书法字体的笔画复杂和风格多变。图5为应用本方法将正楷字体的四组不同汉字分别转化为八大山人、黄庭坚、诸遂良和弘一法师的书法字体的效果图,四组字体中,第一组的“悼”、第二组的“秉”、第三组的“蜀”和第四组的“郝”均生成了与输入的汉字不同的汉字,而书法字体风格则符合要求,从而体现本方法中存在不精确配对现象。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。

Claims (8)

1.一种基于骨架和轮廓的书法字生成方法,包括下列步骤:
步骤一、建立模型;所述模型以CycleGAN模型为骨干网络,CycleGAN模型包含两组生成对抗网络;
步骤二、对所述模型进行训练;输入模型的汉字字体风格为源域风格,源域风格的汉字图像即源域图像,采集源域风格的汉字图像做训练样本,需要生成的书法字体图像的字体风格为目标风格,目标风格的书法字体图像即目标域图像,采集目标域图像形成书法数据集;源域图像在训练时作为原始图像输入模型,通过第一组生成对抗网络将原始图像转化为目标风格图像,通过第二组生成对抗网络将第一组生成对抗网络输出的目标风格图像转化为重构图像,目标风格图像的字体风格应与目标风格一致,重构图像的字体风格应与源域风格一致,训练过程中通过计算整个模型的损失,对模型进行优化,优化目标是让整个模型的损失最小化;
步骤三、获得优化后的模型用于书法字体自动生成;
其特征在于:两组生成对抗网络中均包括轮廓提取模块Con、骨架提取模块Ske和骨架-轮廓融合模块SCF,所述模型还包括不精确配对数据模块IPaD;
所述步骤二中,两组生成对抗网络均通过轮廓提取模块Con和骨架提取模块Ske分别提取骨架信息和轮廓信息,并将骨架信息和轮廓信息通过骨架-轮廓融合模块SCF融合后在生成器中与输入生成器的图像拼接,再由相应生成器处理生成图像;
不精确配对数据模块IPaD自动识别书法数据集中的字符并记录为识别标签,再根据目标风格图像在书法数据集中进行不精确配对,配对时允许对有关的书法数据集使用错误的识别标签,从而得到不精确配对数据;
整个模型的损失包括第一代对抗性损失L advy 、第二代对抗性损失L advx 、循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 和不精确的配对损失L inex
2.根据权利要求1所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:所述步骤一中,第一组生成对抗网络包括构建的生成器一G y 和鉴别器一D y ,第二组生成对抗网络包括构建的生成器二G x 和鉴别器二D x ;生成器一G y 用于将原始图像转化为目标风格图像,鉴别器一D y 用来判别生成的目标风格图像与目标域图像之间字体风格是否一致;第二组生成对抗网络采用相反的过程对第一组生成对抗网络输出的结果进行重构,即通过生成器二G x 将目标风格图像转化为源域风格的重构图像,鉴别器二D x 用来判别生成的重构图像与源域图像之间字体风格是否一致。
3.根据权利要求2所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:所述步骤二中,在第一组生成对抗网络中,源域图像x作为输入的原始图像分别通过骨架提取模块Ske和轮廓提取模块Con处理,对应提取到骨架信息sx和轮廓信息cx,骨架信息sx和轮廓信息cx二者通过骨架-轮廓融合模块SCF融合;原始图像x输入生成器一G y ,生成器一G y 在处理过程中,将原始图像x与骨架-轮廓融合模块SCF所得的骨架特征E asx 和轮廓特征E bcx 在通道层次进行拼接,处理后生成目标风格图像,采集目标域图像y组成目标域数据集Y,将目标风格图像/>和目标域数据集Y中的目标域图像y分别输入鉴别器一D y 判断二者经鉴别器一D y 返回的结果是否一致,以此评估目标风格图像/>的真实性。
4. 根据权利要求3所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:向骨架-轮廓融合模块SCF输入给定一个汉字的骨架信息和轮廓信息后,骨架-轮廓融合模块SCF首先将它们输入对应的骨架编码器和轮廓编码器,以产生对应的骨架特征E sx 和轮廓特征E cx ;然后将编码的骨架特征E sx 和轮廓特征E cx 相加得到特征E scx 并使用SoftMax函数得到归一化特征c Z ;基于归一化特征c Z ,使用注意力权重公式计算相应的骨架特征E sx 的权重a c 和轮廓特征E cx 的权重b c ;最后,将计算出的权重a c b c 乘以对应的骨架特征E sx 和轮廓特征E cx ,得到融合权重的骨架特征E asx 和融合权重的轮廓特征E bcx ,计算式描述如下所示:
,/>
其中,a c b c c Z 中的c都表示的通道c上的计算,AB是两个可学习参数的矩阵。
5.根据权利要求4所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:在第二组生成对抗网络中,目标风格图像再通过骨架提取模块Ske和轮廓提取模块Con处理,提取到相应的骨架信息/>和轮廓信息/>,骨架信息/>和轮廓信息/>二者通过骨架-轮廓融合模块SCF融合;目标风格图像/>输入生成器二G x ,生成器二G x 在处理过程中,将目标风格图像/>与骨架-轮廓融合模块SCF融合所得的相应骨架特征和相应轮廓特征在通道层次进行拼接,重构生成与源域风格一致的重构图像/>;采集源域图像x组成源域数据集X,重构图像/>和源域数据集X中的源域图像x输入鉴别器二D x 后判断二者经鉴别器二D x 返回的结果是否一致,以此评估目标重构图像/>的真实性。
6.根据权利要求5所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:所述步骤二中,CycleGAN模型中第一组生成对抗网络中,由鉴别器一D y 计算得到目标风格图像与目标域图像之间在字体风格上的差异,即第一代对抗性损失L advy ,用于优化生成器一G y ;第二组生成对抗网络的输入是基于第一组生成对抗网络中生成器一G y 的输出,第二组生成对抗网络中鉴别器二D x 计算源域图像和重构图像之间在字体风格上的差异,即第二代对抗性损失L advx ,用于优化生成器二G x
循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 均对应优化生成器二G x 和生成器一G y ;循环一致性损失L cyc 是源域风格的原始图像x和重构图像间的损失;骨架一致性损失L ske 是原始图像x的骨架信息sx和重构图像/>中提取出的骨架信息/>间的损失;轮廓一致性损失L con 是原始图像x的轮廓信息cx和重构图像/>中提取出的轮廓信息/>间的损失,不精确的配对损失L inex 是不精确配对数据y inex 和对应到不精确配对数据的目标风格图像/>之间的损失。
7.根据权利要求6所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:第二代对抗性损失L advx 、第一代对抗性损失L advy 、循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 的算式依次如下:
其中,E x~X [ ]表示在给定源域数据集X中的源域图像x分布下对[ ]里面数据的期望值,表示在给定重构图像集合/>中的重构图像/>分布下对[ ]里面数据的期望值,logD x (x)表示鉴别器二D x 将源域图像x识别为源域图像的概率,log(1-log D x (/>))表示鉴别器二D x 将重构图像/>识别为不是源域图像的概率;E y~Y [ ]表示在给定目标域数据集Y中的目标域图像y分布下对[ ]里面数据的期望值,/>表示在给定目标风格图像集合/>中的目标风格图像/>分布下对[ ]里面数据的期望值,logD y (y)表示鉴别器一D y 将目标域图像y识别为目标域图像的概率,log(1-logD y (/>))表示鉴别器一D y 将目标风格图像/>识别为不是目标域图像的概率;/>表示在给定源域数据集X中的源域图像x以及给定重构图像集合/>中的重构图像/>的分布下对|| ||1里面数据的范数的期望值,Ske(x)和Ske(/>)分别表示通过骨架提取模块Ske对源域图像x和重构图像/>处理所得的结果,Con(x)和Con(/>)分别表示通过轮廓提取模块Con对源域图像x和重构图像/>处理所得的结果;/>表示重构图像/>的集合,Y inex 表示不精确配对数据y inex 的集合,/>表示对应到不精确配对数据的目标风格图像,/>表示对应到不精确配对数据的目标风格图像/>的集合,表示在给定集合Y inex 中的不精确配对数据y inex 以及给定集合/>中的对应到不精确配对数据的目标风格图像/>的分布下对|| ||1里面数据的范数的期望值。
8.根据权利要求7所述的一种基于骨架和轮廓的书法字生成方法,其特征在于:
整个模型的模型损失的算式如下:
该式中,λ cyc λ ske λ con λ inex 分别是对应循环一致性损失L cyc 、骨架一致性损失L ske 、轮廓一致性损失L con 、不精确的配对损失L inex 的四个可调的超参数,表示相应损失在整个模型损失中的权重。
CN202311313408.XA 2023-10-11 2023-10-11 一种基于骨架和轮廓的书法字生成方法 Active CN117058266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311313408.XA CN117058266B (zh) 2023-10-11 2023-10-11 一种基于骨架和轮廓的书法字生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311313408.XA CN117058266B (zh) 2023-10-11 2023-10-11 一种基于骨架和轮廓的书法字生成方法

Publications (2)

Publication Number Publication Date
CN117058266A true CN117058266A (zh) 2023-11-14
CN117058266B CN117058266B (zh) 2023-12-26

Family

ID=88655783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311313408.XA Active CN117058266B (zh) 2023-10-11 2023-10-11 一种基于骨架和轮廓的书法字生成方法

Country Status (1)

Country Link
CN (1) CN117058266B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117830074A (zh) * 2023-12-20 2024-04-05 广州美术学院 一种基于字体轮廓信息的汉字字体生成方法
CN118036555A (zh) * 2024-04-11 2024-05-14 江西师范大学 基于骨架式转移和结构对比学习的少样本字体生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408776A (zh) * 2018-10-09 2019-03-01 西华大学 一种基于生成式对抗网络的书法字体自动生成算法
CN109746916A (zh) * 2019-01-28 2019-05-14 武汉科技大学 一种机器人书写书法的方法及***
US20210390686A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Unsupervised content-preserved domain adaptation method for multiple ct lung texture recognition
CN116823983A (zh) * 2023-06-15 2023-09-29 西北大学 基于风格收集机制的一对多风格书法图片生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408776A (zh) * 2018-10-09 2019-03-01 西华大学 一种基于生成式对抗网络的书法字体自动生成算法
CN109746916A (zh) * 2019-01-28 2019-05-14 武汉科技大学 一种机器人书写书法的方法及***
US20210390686A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Unsupervised content-preserved domain adaptation method for multiple ct lung texture recognition
CN116823983A (zh) * 2023-06-15 2023-09-29 西北大学 基于风格收集机制的一对多风格书法图片生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓红;卢辉;麻祥才;: "基于生成对抗网络的风格化书法图像生成", 包装工程, no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117830074A (zh) * 2023-12-20 2024-04-05 广州美术学院 一种基于字体轮廓信息的汉字字体生成方法
CN118036555A (zh) * 2024-04-11 2024-05-14 江西师范大学 基于骨架式转移和结构对比学习的少样本字体生成方法

Also Published As

Publication number Publication date
CN117058266B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN110503598B (zh) 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN117058266B (zh) 一种基于骨架和轮廓的书法字生成方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
WO2023116635A1 (zh) 一种基于互学习的半监督医学图像分割方法及其***
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114092742B (zh) 一种基于多角度的小样本图像分类装置和方法
CN114359938B (zh) 一种表格识别方法及装置
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114332466A (zh) 图像语义分割网络持续学习方法、***、设备及存储介质
CN113538472B (zh) 一种基于编码-解码网络的向量场引导精细化分割方法
CN115170403A (zh) 基于深度元学习和生成对抗网络的字体修复方法及***
CN112084319B (zh) 一种基于动作的关系网络视频问答***及方法
CN112633100B (zh) 行为识别方法、装置、电子设备和存储介质
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
CN112163605A (zh) 一种基于生成注意力网络的多域图像翻译方法
CN116823983A (zh) 基于风格收集机制的一对多风格书法图片生成方法
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN110717068A (zh) 一种基于深度学习的视频检索方法
CN113095319B (zh) 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN114298022A (zh) 一种用于大规模复杂语义网络的子图匹配的方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
Sun et al. A mongolian handwritten word images generation approach based on generative adversarial networks
CN103793720A (zh) 一种眼睛定位方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant