CN111753859A - 样本生成方法、装置及设备 - Google Patents

样本生成方法、装置及设备 Download PDF

Info

Publication number
CN111753859A
CN111753859A CN201910233792.XA CN201910233792A CN111753859A CN 111753859 A CN111753859 A CN 111753859A CN 201910233792 A CN201910233792 A CN 201910233792A CN 111753859 A CN111753859 A CN 111753859A
Authority
CN
China
Prior art keywords
vector
neural network
feature
standard
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910233792.XA
Other languages
English (en)
Other versions
CN111753859B (zh
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201910233792.XA priority Critical patent/CN111753859B/zh
Publication of CN111753859A publication Critical patent/CN111753859A/zh
Application granted granted Critical
Publication of CN111753859B publication Critical patent/CN111753859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种样本生成方法、装置及设备,样本生成方法包括:获取指定标准字的特征描述向量,特征描述向量用于指示所述指定标准字的内容;利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量表示的风格相同。无需采集所需字体风格的字符图像便可生成该字体风格的样本,提升样本生成效率。

Description

样本生成方法、装置及设备
技术领域
本发明涉及图像处理技术领域,尤其涉及的是一种样本生成方法、装置及设备。
背景技术
随着科学技术的发展,深度学习算法在分类、检测、识别等任务中表现优异。但该性能的取得依赖于计算机算力的提升、大量的训练样本等多个方面因素,其中训练样本作为“燃料”是算法开发中不可或缺的一环。在文本识别技术中,同样需要大量的包含字符的样本来实现训练。
相关的样本生成方式中,通过将字符图像贴到背景图像合成为样本,在真实场景中,文本字符的字体是多样化的,为了使得算法能够更准确地识别真实场景中的文本字符,需要生成训练所需的各种字体风格的样本,该方式中,每需要一种字体风格的样本,就需要采集相应字体风格的字符图像来合成所需的样本,样本生成效率过低。
发明内容
有鉴于此,本发明提供一种样本生成方法、装置及设备,无需采集所需字体风格的字符图像便可生成该字体风格的样本,提升样本生成效率。
本发明第一方面提供一种样本生成方法,包括:
获取指定标准字的特征描述向量,特征描述向量用于指示所述指定标准字的内容;
利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量表示的风格相同。
根据本发明的一个实施例,所述获取指定标准字的特征描述向量,包括:
将包含有所述指定标准字的第一图像输入至已训练的学生网络中的第一神经网络,以由所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量。
根据本发明的一个实施例,所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量,包括:
所述第一神经网络至少通过用于执行卷积处理的卷积层、及用于执行非线性变换处理的第一非线性变换层对所述第一图像进行特征提取得到特征描述向量。
根据本发明的一个实施例,利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,包括:
将所述特征描述向量与所述非标准特征向量输入至已训练的学生网络中的第二神经网络,以由所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,利用所述融合向量生成第二图像;
将所述第二图像确定为所述目标样本。
根据本发明的一个实施例,所述第二神经网络包括融合层;所述特征描述向量与所述非标准特征向量的维度相同;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,包括:
所述第二神经网络利用融合层将所述特征描述向量与所述非标准特征向量执行叠加处理得到所述融合向量。
根据本发明的一个实施例,所述第二神经网络包括全连接层和融合层;所述特征描述向量与所述非标准特征向量的维度不同;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,包括:
所述第二神经网络利用全连接层将所述非标准特征向量映射为维度与所述特征描述向量的维度相同的参考向量;
所述第二神经网络利用融合层将所述特征描述向量与参考向量执行叠加处理得到所述融合向量。
根据本发明的一个实施例,所述第二神经网络包括融合层;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,包括:
所述第二神经网络利用融合层将所述特征描述向量与所述非标准特征向量进行合并得到所述融合向量。
根据本发明的一个实施例,所述第二神经网络还包括:用于执行反卷积处理的反卷积层、及用于执行非线性变换的第二非线性变换层;
所述第二神经网络利用所述融合向量生成第二图像包括:
所述第二神经网络利用所述反卷积层、第二非线性变换层生成与所述融合向量对应的第二图像。
根据本发明的一个实施例,所述学生网络是在已训练的教师网络监督下训练得到的;
所述第二神经网络中至少一层的网络参数应用了所述教师网络中对应层的网络参数。
本发明第二方面提供一种样本生成装置,包括:
特征描述向量获取模块,用于获取指定标准字的特征描述向量,特征描述向量用于指示所述指定标准字的内容;
目标样本生成模块,用于利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量表示的风格相同。
根据本发明的一个实施例,所述特征描述向量获取模块具体用于:
将包含有所述指定标准字的第一图像输入至已训练的学生网络中的第一神经网络,以由所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量。
根据本发明的一个实施例,所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量,包括:
所述第一神经网络至少通过用于执行卷积处理的卷积层、及用于执行非线性变换处理的第一非线性变换层对所述第一图像进行特征提取得到特征描述向量。
根据本发明的一个实施例,所述目标样本生成模块包括:
图像生成单元,用于将所述特征描述向量与所述非标准特征向量输入至已训练的学生网络中的第二神经网络,以由所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,利用所述融合向量生成第二图像;
目标样本确定单元,用于将所述第二图像确定为所述目标样本。
根据本发明的一个实施例,所述第二神经网络包括融合层;所述特征描述向量与所述非标准特征向量的维度相同;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量时,具体用于:
所述第二神经网络利用融合层将所述特征描述向量与所述非标准特征向量执行叠加处理得到所述融合向量。
根据本发明的一个实施例,所述第二神经网络包括全连接层和融合层;所述特征描述向量与所述非标准特征向量的维度不同;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量时,具体用于:
所述第二神经网络利用全连接层将所述非标准特征向量映射为维度与所述特征描述向量的维度相同的参考向量;
所述第二神经网络利用融合层将所述特征描述向量与参考向量执行叠加处理得到所述融合向量。
根据本发明的一个实施例,所述第二神经网络包括融合层;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量时,具体用于:
所述第二神经网络利用融合层将所述特征描述向量与所述非标准特征向量进行合并得到所述融合向量。
根据本发明的一个实施例,所述第二神经网络还包括:用于执行反卷积处理的反卷积层、及用于执行非线性变换的第二非线性变换层;
所述第二神经网络利用所述融合向量生成第二图像时,具体用于:
所述第二神经网络利用所述反卷积层、第二非线性变换层生成与所述融合向量对应的第二图像。
根据本发明的一个实施例,所述学生网络是在已训练的教师网络监督下训练得到的;
所述第二神经网络中至少一层的网络参数应用了所述教师网络中对应层的网络参数。
本发明第三方面提供一种电子设备,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如前述实施例中所述的样本生成方法。
本发明第四方面提供一种机器可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现如前述实施例中所述的样本生成方法。
本发明实施例具有以下有益效果:
本发明实施例中,可利用用于指示指定标准字的内容的特征描述向量、及表示某种风格的非标准特征向量,将指定标准字转换成该风格的目标样本,无需采集该风格下的字符图像来合成样本,提升了样本的生成效率,而且可根据需要生成各种风格下的包含不同文字内容的样本,实现样本的多样性。
附图说明
图1是本发明一实施例的样本生成方法的流程示意图;
图2是本发明一实施例的样本生成装置的结构框图;
图3是本发明一实施例的第一神经网络与第二神经网络的连接结构框图;
图4是本发明一实施例的第一神经网络与第二神经网络的一种训练方式的示意图;
图5是本发明一实施例的第一神经网络与第二神经网络的另一种训练方式的示意图;
图6是本发明一实施例的电子设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种器件,但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如,在不脱离本发明范围的情况下,第一器件也可以被称为第二器件,类似地,第二器件也可以被称为第一器件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使得本发明的描述更清楚简洁,下面对本发明中的一些技术术语进行解释:
神经网络:一种通过模仿大脑结构抽象而成的技术,该技术将大量简单的函数进行复杂的连接,形成一个网络***,该***可以拟合极其复杂的函数关系,一般可以包括卷积/反卷积操作、激活操作、池化操作,以及加减乘除、通道合并、元素重新排列等操作。使用特定的输入数据和输出数据对网络进行训练,调整其中的连接,可以让神经网络学习拟合输入和输出之间的映射关系。
下面对本发明实施例的样本生成方法进行更具体的描述,但不应以此为限。在一个实施例中,参看图1,一种样本生成方法,可以包括以下步骤:
S100:获取指定标准字的特征描述向量C,特征描述向量C用于指示所述指定标准字的内容;
S200:利用所述特征描述向量C和指定的非标准特征向量S将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量S表示的风格相同。
本发明实施例的样本生成方法的执行主体可以是电子设备,更具体的可以是电子设备的处理器。电子设备例如可以是计算机设备或者嵌入式设备,具体类型不限,只要是具备数据处理能力即可。
步骤S100中,获取指定标准字的特征描述向量C,特征描述向量C用于指示所述指定标准字的内容。
指定标准字的字体可以为宋体、黑体等,具体字体风格不限,只要是指定标准字的内容是样本所需的文字内容即可。获取指定标准字的特征描述向量C之前,可以先从相应字体的字库中获取该指定标准字。得到指定标准字之后,可对该指定标准字进行特征提取得到描述该指定标准字的内容的特征描述向量C。
可以通过特征提取算法对指定标准字进行特征提取,特征提取算法具体不限,比如LBP特征提取算法、HOG特征提取算法、SIFT特征提取算子等,还可以采用深度学习的方式实现特征提取。
指定标准字是指定字体字库中的任一个标准字。通常来说,在计算机设备中会默认配置有常用字体字库、或者也可以从网络上下载常用字体字库,指定字库可以是常用字体字库中的任一个。以指定字体字库是宋体字库为例,宋体字库包含超过20000个宋体字,指定标准字可以是这20000多个宋体字中的任一个,根据样本所需的文字内容而定。如果针对20000多个宋体字中的每一个,采用本发明实施例来生成对应样本,则可以生成超过20000个所需风格的包含不同文字内容的样本。
若指定字体字库中存在N1个标准字,则可以转换得到N1个所需风格的包含不同文字内容的样本,每个样本中的文字内容与标准字的内容相同但风格不同。因此,本发明实施例中,能够较为容易地生成多个所需风格的样本,可克服目前一些字体风格样本较少的问题,比如在书法作品中的字体风格等。
步骤S200中,利用所述特征描述向量C和指定的非标准特征向量S将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量S表示的风格相同。
非标准特征向量S表示的风格(简称为目标风格)可以为一些常用或不常用的书法风格,比如可以包括黑体、柳宗元体、或米芾体等字体风格,甚至,目标风格还可以为某个人的手写字体。通常来说,每个人的书写风格都存在着一定的差异,每个人的书写风格都可作为目标风格。
可以预设多种表示不同风格的非标准特征向量,非标准特征向量S是其中的一个。若预设的非标准特征向量的总数为N2,如果针对每个非标准特征向量均进行指定标准字的转换,最终可以生成N2种不同风格的包含同一文字内容的目标样本,样本更具多样性,可反映更多真实场景,用这些样本对神经网络训练,可使得神经网络文本识别结果更准确。
各非标准特征向量的编码形式不限,比如可以依据风格总数N2来进行编码,可采用one-hot编码(独热码)方式对向量进行编码。
以one-hot编码为例,假设要生成的风格共N2种,如黑体、柳宗元体、米芾体等,当需要生成柳宗元体的样本时,非标准特征向量S中可仅将对应柳宗元体维度(第2维度)上的数值编码为1,其余维度上的数值编码为0,最终非标准特征向量S=[0,1,0…0];当需要生成米芾体的样本时,非标准特征向量S中可仅将对应米芾体维度(第3维度)上的数值编码为1,其余维度上的数值编码为0,最终非标准特征向量S=[0,0,1…0];其他风格也可以此类推。
结合前述内容而言,在指定字体字库中存在N1个标准字,并编码有N2个非标准特征向量的情况下,总共可生成的目标样本数量为N1与N2的乘积,其中,所有目标样本的风格总数为N2,每种风格有N1个目标样本且每个目标样本包含的文字内容不同。
本发明实施例中,可利用用于指示指定标准字的内容的特征描述向量C、及表示某种风格的非标准特征向量S,将指定标准字转换成该风格的目标样本,无需采集该风格下的字符图像来合成样本,提升了样本的生成效率,而且可根据需要生成各种风格下的包含不同文字内容的样本,实现样本的多样性。
在一个实施例中,上述方法流程可由样本生成装置100执行,如图2所示,样本生成装置100可以包含2个模块:特征描述向量获取模块101、目标样本生成模块102。特征描述向量获取模块101用于执行上述步骤S100,目标样本生成模块102用于执行上述步骤S200。
在一个实施例中,步骤S100中,所述获取指定标准字的特征描述向量C,包括:
将包含有所述指定标准字的第一图像输入至已训练的学生网络中的第一神经网络,以由所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量C。
学生网络是预先训练好的,可以预存在电子设备中、或者存储在外部设备中,在需要执行上述方法时电子设备调用该学生网络中的第一神经网络。
第一图像可以是通过采集真实场景中的指定标准字得到的,也可以是通过指定字体字库中的指定标准字经格式转换得到的,具体方式不限。第一图像可预设在电子设备中,在执行时从电子设备中获取第一图像。
宋体字库中存在20000多个宋体字(格式为ttf),可以依据宋体字库中已有的宋体字获取第一图像。比如,可以将宋体字库中的宋体字从ttf格式直接转换为图像格式得到第一图像;或者,可将宋体字库中宋体字与背景数据(比如表示白色背景的背景数据)融合生成第一图像。
将第一图像输入至第一神经网络,第一神经网络对该第一图像进行特征提取后,可得到指定标准字的特征描述向量C。第一神经网络的这一功能可通过训练而具备。
具体的,参看图3,第一图像比如是大小为64*64的图像,第一图像中的指定标准字比如为宋体的“睛”,第一神经网络对第一图像进行特征提取得到指示“睛”的512维的特征描述向量C。
在一个实施例中,所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量C,包括:
所述第一神经网络至少通过用于执行卷积处理的卷积层、及用于执行非线性变换处理的第一非线性变换层对所述第一图像进行特征提取得到特征描述向量C。
第一神经网络可以包括多层卷积层,卷积层执行的是卷积操作,可以对第一图像进行特征提取得到特征描述向量,并将特征描述向量输出至第一非线性变换层。第一非线性变换层可以增强神经网络的拟合能力,第一非线性变换层输出拟合后的特征描述向量作为特征描述向量。当然,第一神经网络中的层结构也不限于此,还可以包括其他层比如池化层(Pooling),池化层是一种特殊的下采样层,即对卷积得到的特征描述向量进行降维。
第一神经网络比如可以采用VGG、Inception、ResNet等卷积神经网络架构来实现,具体不限于此。卷积神经网络是一种前馈的神经网络,其神经元可以响应有限覆盖范围内周围单元,并通过权值共享和特征汇聚,有效提取图像的结构信息。
在一个实施例中,步骤S200中,利用所述特征描述向量C和指定的非标准特征向量S将指定标准字转换成目标样本,包括:
S201:将所述特征描述向量C与所述非标准特征向量S输入至已训练的学生网络中的第二神经网络,以由所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T,利用所述融合向量T生成第二图像;
S202:将所述第二图像确定为所述目标样本。
学生网络是预先训练好的,可以预存在电子设备中或者存储在外部设备中,在需要执行上述方法时电子设备再调用该学生网络中的第二神经网络。
将特征描述向量C与非标准特征向量S输入至第二神经网络后,第二神经网络会将输入的特征描述向量C与所述非标准特征向量S进行融合得到融合向量T,利用所述融合向量T生成第二图像。该第二图像作为目标样本,其风格与非标准特征向量S一致且包含的文字内容与指定标准字的内容一致。
基于对第二神经网络的训练,可以通过输入不同的非标准特征向量来指定第二图像对应的风格,可适用于生成不同字体风格的样本。比如,输入的非标准特征向量S表示的风格为柳宗元体,那么生成的第二图像的风格为柳宗元体;输入的非标准特征向量S表示的风格为米芾体,那么生成的第二图像的风格为米芾体,等等。
继续参看图3,第一神经网络对第一图像进行特征提取得到指示“睛”的512维的特征描述向量C,并将特征描述向量C输入到第二神经网络中,一并将非标准特征向量S输入到第二神经网络。非标准特征向量S表示的风格比如为指定风格风格,非标准特征向量S的维度比如为100维。第二神经网络将输入的512维的特征描述向量C和100维的非标准特征向量S融合为一个融合向量T,并利用融合得到的融合向量T生成第二图像,第二图像比如是大小为64*64的图像,第二图像中包含指定风格风格的“睛”,该第二图像作为目标样本。步骤S201中,第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T的实现方式不止一种,比如包括以下三种实现方式:
第一种实现方式中,所述第二神经网络包括融合层;所述特征描述向量C与所述非标准特征向量S的维度相同;
所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T,包括:
所述第二神经网络利用融合层将所述特征描述向量C与所述非标准特征向量S执行叠加处理得到所述融合向量T。
该方式中,融合层是用于执行向量叠加处理的计算层,可将特征描述向量C与非标准特征向量S执行叠加处理得到融合向量T。
叠加处理的方式可以为加权叠加处理,将特征描述向量C与非标准特征向量S在每一维度上的数值对应地加权求和。比如,C=(a1,a2,a3,……,a512),S=(b1,b2,b3,……,b512),加权叠加处理后的融合向量T=(a1*x1+b1*y1,a2*x2+b2*y2,a3*x3+b3*y3,……,a512*x512+b512*y512),其中,(x1,x2,x3,……,x512)为特征描述向量C在各维度上的数值加权时的权重系数,(y1,y2,y3,……,y512)为非标准特征向量S在各维度上的数值加权时的权重系数。
第二种实现方式中,所述第二神经网络包括全连接层和融合层;所述特征描述向量C与所述非标准特征向量S的维度不同;
所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T,包括:
所述第二神经网络利用全连接层将所述非标准特征向量S映射为维度与所述特征描述向量C的维度相同的参考向量K;
所述第二神经网络利用融合层将所述特征描述向量C与参考向量K执行叠加处理得到所述融合向量T。
全连接层是用于执行向量维度映射的计算层。比如,非标准特征向量S的维度为100维,而特征描述向量C的维度为512维,通过全连接层可将非标准特征向量S映射为维度为512维的参考向量K,实现维度的扩展。融合层是用于执行向量叠加处理的计算层,可将特征描述向量C与参考向量K执行叠加处理得到融合向量T,叠加处理的方式与第一种实现方式中类似,在此不再赘述。
第三种实现方式中,所述第二神经网络包括融合层;
所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T,包括:
所述第二神经网络利用融合层将所述特征描述向量C与所述非标准特征向量S进行合并得到所述融合向量T。
该实现方式尤其适合于特征描述向量C与所述非标准特征向量S的维度不同的情况,当然,在维度相同情况下也是适用的。
该方式中,融合层是用于执行向量合并处理的计算层,可将特征描述向量C与非标准特征向量S执行合并处理得到一个新的行融合向量T。
向量的合并是对两个向量在维度上的拼接,合并后的向量维度为两个需向量的维度总和。比如,C=(a1,a2,a3,……,a512),S=(b1,b2,b3,……,b100),合并后的T=(a1,a2,a3,……,a512,b1,b2,b3,……,b100)。
在一个实施例中,所述第二神经网络还包括:用于执行反卷积处理的反卷积层、及用于执行非线性变换的第二非线性变换层;
所述第二神经网络利用所述融合向量T生成第二图像包括:
所述第二神经网络利用所述反卷积层、第二非线性变换层生成与所述融合向量T对应的第二图像。
第二神经网络可以包括多层反卷积层,反卷积层执行的是反卷积操作,可以利用融合向量T生成第二图像,并将第二图像输出至第二非线性变换层。第二非线性变换层同样可以增强神经网络的拟合能力,第二非线性变换层输出拟合后的第二图像。当然,第二神经网络的层结构也不限于此,还可以包括其他层比如全连接层等,该全连接层可以实现维度的映射,比如将输入向量的维度映射为更高维度的向量,该全连接层也可以用卷积层来替换。
在一个实施例中,所述学生网络是在已训练的教师网络监督下训练得到的;
所述第二神经网络中至少一层的网络参数应用了所述教师网络中对应层的网络参数。
通过训练一个教师网络,进而通过教师网络监督第一神经网络与第二神经网络的训练。本实施例的训练方式中,将第一神经网络与第二神经网络的连接结构作为一个学生网络。
参看图4,训练学生网络之前,还需先训练一个教师网络,教师网络包括第一神经网络A1和第二神经网络A2。其中,第一神经网络A1与学生网络中的第一神经网络的层结构可以是相同的;第二神经网络A2与学生网络中的第二神经网络的层结构可以是类似的,只是不需要执行向量的融合,因而可以省略融合层。训练分为两步:
首先,将包含指定风格文字(非宋体字)“睛”的样本(可从真实场景中采集)作为教师网络的输入和输出,训练该教师网络,训练完教师网络后可得到第一神经网络A1和第二神经网络A2中各层的网络参数;
接着,将已训练的教师网络中第二神经网络A2的某一层或几层的网络参数作为学生网络中第二神经网络对应层的网络参数,再将包含宋体字“睛”的样本作为学生网络的输入、将表示指定风格的非标准特征向量S作为学生网络中第二神经网络的输入、及将包含指定风格文字“睛”的样本作为学生网络的输出(第一神经网络所得的特征描述向量会输入至第二神经网络中),训练学生网络,完成对学生网络的训练。
下面再提供一下对第一神经网络和第二神经网络进行训练的方式。
通过训练一个能够区分生成样本和真实样本的分类器,进而通过分类器来监督第一神经网络与第二神经网络的训练。为了简洁描述,该训练方式中,将第一神经网络与第二神经网络的连接结构称为一个神经网络EG。
参看图5,真实样本为从真实场景中采集的用于训练神经网络EG的样本,比如是真实场景中采集的包含指定风格文字(非宋体字)的图像,图中示出的为包含指定风格文字“睛”的图像,实际训练过程中可选用较多包含不同指定风格文字的真实样本进行训练,即可得到较佳的网络参数,训练过程分为两步:
首先,将包含宋体字“睛”的样本输入到神经网络得到包含指定风格文字“睛”的生成样本,将包含指定风格文字“睛”的真实样本和表示指定风格的非标准特征向量S作为一组输入数据,将神经网络EG的生成样本和表示指定风格的非标准特征向量S作为另一组输入数据,将两组输入数据分别输入至分类器中,训练分类器使其能够区分出生成样本与真实样本,并能够计算出生成样本与真实样本的偏差,完成对分类器的训练;
接着,通过已训练的分类器来监督神经网络EG的网络参数的训练,将包含宋体字“睛”的样本输入到神经网络EG得到包含指定风格文字“睛”的生成样本,将该生成样本和表示指定风格的非标准特征向量S输入到分类器中,分类器计算出该生成样本与相应真实样本之间的偏差后,用损失函数计算偏差对应的损失值,依据损失值调整神经网络EG的网络参数,神经网络EG的网络参数的训练,将包含宋体字“睛”的样本输入到神经网络EG得到包含指定风格文字“睛”的生成样本的步骤继续训练神经网络EG,直至损失函数的损失值降低至合理范围内,完成神经网络EG的训练。
其中,上述训练过程中,将包含宋体字“睛”的样本输入到神经网络EG得到包含指定风格文字“睛”的生成样本,包括:将包含宋体字“睛”的样本输入到第一神经网络中,由第一神经网络对输入的样本进行特征提取后得到表征宋体字“睛”的内容的特征描述向量C并将C输入到第二神经网络;将表示指定风格的非标准特征向量S也输入到第二神经网络中,由第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合并利用融合所得向量生成图像,所生成的图像即作为包含指定风格文字“睛”的生成样本。
上述两种训练方式中,第一神经网络和第二神经网络是一同进行训练的。当然,也可以分开训练第一神经网络与第二神经网络。
本发明还提供一种样本生成装置,参看图2,该样本生成装置100包括:
特征描述向量获取模块101,用于获取指定标准字的特征描述向量C,特征描述向量C用于指示所述指定标准字的内容;
目标样本生成模块102,用于利用所述特征描述向量C和指定的非标准特征向量S将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量S表示的风格相同。
在一个实施例中,所述特征描述向量获取模块具体用于:
将包含有所述指定标准字的第一图像输入至已训练的学生网络中的第一神经网络,以由所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量C。
在一个实施例中,所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量C,包括:
所述第一神经网络至少通过用于执行卷积处理的卷积层、及用于执行非线性变换处理的第一非线性变换层对所述第一图像进行特征提取得到特征描述向量C。
在一个实施例中,所述目标样本生成模块包括:
图像生成单元,用于将所述特征描述向量C与所述非标准特征向量S输入至已训练的学生网络中的第二神经网络,以由所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T,利用所述融合向量T生成第二图像;
目标样本确定单元,用于将所述第二图像确定为所述目标样本。
在一个实施例中,所述第二神经网络包括融合层;所述特征描述向量C与所述非标准特征向量S的维度相同;
所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T时,具体用于:
所述第二神经网络利用融合层将所述特征描述向量C与所述非标准特征向量S执行叠加处理得到所述融合向量T。
在一个实施例中,所述第二神经网络包括全连接层和融合层;所述特征描述向量C与所述非标准特征向量S的维度不同;
所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T时,具体用于:
所述第二神经网络利用全连接层将所述非标准特征向量S映射为维度与所述特征描述向量C的维度相同的参考向量K;
所述第二神经网络利用融合层将所述特征描述向量C与参考向量K执行叠加处理得到所述融合向量T。
在一个实施例中,所述第二神经网络包括融合层;
所述第二神经网络将所述特征描述向量C与所述非标准特征向量S进行融合得到融合向量T时,具体用于:
所述第二神经网络利用融合层将所述特征描述向量C与所述非标准特征向量S进行合并得到所述融合向量T。
在一个实施例中,所述第二神经网络还包括:用于执行反卷积处理的反卷积层、及用于执行非线性变换的第二非线性变换层;
所述第二神经网络利用所述融合向量T生成第二图像时,具体用于:
所述第二神经网络利用所述反卷积层、第二非线性变换层生成与所述融合向量T对应的第二图像。
在一个实施例中,所述学生网络是在已训练的教师网络监督下训练得到的;
所述第二神经网络中至少一层的网络参数应用了所述教师网络中对应层的网络参数。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。
本发明还提供一种电子设备,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如前述实施例中所述的样本生成方法。
本发明样本生成装置的实施例可以应用在电子设备上。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,图6是本发明根据一示例性实施例示出的样本生成装置100所在电子设备的一种硬件结构图,除了图6所示的处理器510、内存530、接口520、以及非易失性存储器540之外,实施例中装置100所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
本发明还提供一种机器可读存储介质,其上存储有程序,该程序被处理器执行时,实现如前述实施例中任意一项所述的样本生成方法。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (11)

1.一种样本生成方法,其特征在于,包括:
获取指定标准字的特征描述向量,特征描述向量用于指示所述指定标准字的内容;
利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量表示的风格相同。
2.如权利要求1所述的样本生成方法,其特征在于,所述获取指定标准字的特征描述向量,包括:
将包含有所述指定标准字的第一图像输入至已训练的学生网络中的第一神经网络,以由所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量。
3.如权利要求2所述的样本生成方法,其特征在于,所述第一神经网络对输入的所述第一图像进行特征提取得到特征描述向量,包括:
所述第一神经网络至少通过用于执行卷积处理的卷积层、及用于执行非线性变换处理的第一非线性变换层对所述第一图像进行特征提取得到特征描述向量。
4.如权利要求1所述的样本生成方法,其特征在于,利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,包括:
将所述特征描述向量与所述非标准特征向量输入至已训练的学生网络中的第二神经网络,以由所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,利用所述融合向量生成第二图像;
将所述第二图像确定为所述目标样本。
5.如权利要求4所述的样本生成方法,其特征在于,所述第二神经网络包括融合层;所述特征描述向量与所述非标准特征向量的维度相同;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,包括:
所述第二神经网络利用融合层将所述特征描述向量与所述非标准特征向量S执行叠加处理得到所述融合向量。
6.如权利要求4所述的样本生成方法,其特征在于,所述第二神经网络包括全连接层和融合层;所述特征描述向量与所述非标准特征向量的维度不同;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,包括:
所述第二神经网络利用全连接层将所述非标准特征向量映射为维度与所述特征描述向量的维度相同的参考向量;
所述第二神经网络利用融合层将所述特征描述向量与参考向量执行叠加处理得到所述融合向量。
7.如权利要求4所述的样本生成方法,其特征在于,所述第二神经网络包括融合层;
所述第二神经网络将所述特征描述向量与所述非标准特征向量进行融合得到融合向量,包括:
所述第二神经网络利用融合层将所述特征描述向量与所述非标准特征向量S进行合并得到所述融合向量。
8.如权利要求5至7任一所述的样本生成方法,其特征在于,所述第二神经网络还包括:用于执行反卷积处理的反卷积层、及用于执行非线性变换的第二非线性变换层;
所述第二神经网络利用所述融合向量生成第二图像包括:
所述第二神经网络利用所述反卷积层、第二非线性变换层生成与所述融合向量对应的第二图像。
9.如权利要求4所述的样本生成方法,其特征在于,所述学生网络是在已训练的教师网络监督下训练得到的;
所述第二神经网络中至少一层的网络参数应用了所述教师网络中对应层的网络参数。
10.一种样本生成装置,其特征在于,包括:
特征描述向量获取模块,用于获取指定标准字的特征描述向量,特征描述向量用于指示所述指定标准字的内容;
目标样本生成模块,用于利用所述特征描述向量和指定的非标准特征向量将指定标准字转换成目标样本,所述目标样本对应的风格与非标准特征向量表示的风格相同。
11.一种电子设备,其特征在于,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如权利要求1-7、9中任意一项所述的样本生成方法。
CN201910233792.XA 2019-03-26 2019-03-26 样本生成方法、装置及设备 Active CN111753859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910233792.XA CN111753859B (zh) 2019-03-26 2019-03-26 样本生成方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910233792.XA CN111753859B (zh) 2019-03-26 2019-03-26 样本生成方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111753859A true CN111753859A (zh) 2020-10-09
CN111753859B CN111753859B (zh) 2024-03-26

Family

ID=72671425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910233792.XA Active CN111753859B (zh) 2019-03-26 2019-03-26 样本生成方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111753859B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417959A (zh) * 2020-10-19 2021-02-26 上海臣星软件技术有限公司 图片生成方法、装置、电子设备及计算机存储介质
CN113695058A (zh) * 2021-10-28 2021-11-26 南通金驰机电有限公司 换热器生产用智能废料破碎装置自保护方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
CN108664996A (zh) * 2018-04-19 2018-10-16 厦门大学 一种基于深度学习的古文字识别方法及***
CN109064522A (zh) * 2018-08-03 2018-12-21 厦门大学 基于条件生成对抗网络的汉字字体生成方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
CN108664996A (zh) * 2018-04-19 2018-10-16 厦门大学 一种基于深度学习的古文字识别方法及***
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN109064522A (zh) * 2018-08-03 2018-12-21 厦门大学 基于条件生成对抗网络的汉字字体生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANGELINE AGUINALDO等: "Compressing GANs using Knowledge Distillation", ARXIV:1902.00159V1 [CS.CV], pages 38 - 39 *
徐杨;: "基于隐式马尔可夫模型的遗传类比学习在中国书法生成中的应用", 武汉大学学报(理学版), no. 01, 29 February 2008 (2008-02-29), pages 90 - 94 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417959A (zh) * 2020-10-19 2021-02-26 上海臣星软件技术有限公司 图片生成方法、装置、电子设备及计算机存储介质
CN113695058A (zh) * 2021-10-28 2021-11-26 南通金驰机电有限公司 换热器生产用智能废料破碎装置自保护方法
CN113695058B (zh) * 2021-10-28 2022-03-15 南通金驰机电有限公司 换热器生产用智能废料破碎装置自保护方法

Also Published As

Publication number Publication date
CN111753859B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
Cai et al. Learning delicate local representations for multi-person pose estimation
Lin et al. SCN: Switchable context network for semantic segmentation of RGB-D images
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
Kulhánek et al. Viewformer: Nerf-free neural rendering from few images using transformers
CN108229478B (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN114049584A (zh) 一种模型训练和场景识别方法、装置、设备及介质
CN111860138A (zh) 基于全融合网络的三维点云语义分割方法及***
CN113361251A (zh) 一种基于多阶段生成对抗网络的文本生成图像方法及***
CN111324874A (zh) 一种证件真伪识别方法及装置
KR102332114B1 (ko) 이미지 처리 방법 및 장치
CN112597984B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN111753859B (zh) 样本生成方法、装置及设备
CN111738269A (zh) 模型训练方法、图像处理方法及装置、设备、存储介质
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及***
JP2023503732A (ja) ポイントクラウド補完方法、ネットワーク訓練方法、装置、機器及び記憶媒体
Oeljeklaus An integrated approach for traffic scene understanding from monocular cameras
CN115797731A (zh) 目标检测模型训练方法、检测方法、终端设备及存储介质
KR101873645B1 (ko) 딥 러닝 구조에서 최적의 성능을 위한 다중 영상 정보 생성 및 처리에 관한 방법 및 장치
Abdulnabi et al. Episodic camn: Contextual attention-based memory networks with iterative feedback for scene labeling
CN113723352A (zh) 一种文本检测方法、***、存储介质及电子设备
Abdelaziz et al. Few-shot learning with saliency maps as additional visual information
CN112329735A (zh) 人脸识别模型的训练方法及在线教育***
Kar Mastering Computer Vision with TensorFlow 2. x: Build advanced computer vision applications using machine learning and deep learning techniques
CN115762484A (zh) 用于语音识别的多模态数据融合方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant