CN112580650B

CN112580650B - 字体分类预测方法及***

Info

Publication number: CN112580650B
Application number: CN202011529220.5A
Authority: CN
Inventors: 田辉; 刘其开
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-04-07
Anticipated expiration: 2040-12-22
Also published as: CN112580650A

Abstract

本发明公开了一种字体分类预测方法及***，所述方法包括以下步骤：S1，数据集准备，即收集并转化多种字体的样本，通过字符分割网络得到单个字符图片，确定每个字符的最小外接矩形，作为单个标准的样本；S2，数据采样，先选定N类样本中的1类作为基准样本集，通过模板匹配计算剩余N‑1类样本集和基准样本集的相似度，选择前M个样本作为一个批大小，循环采样训练；S3，确定网络结构、网络参数和损失函数，样本输入网络进行训练；S4，网络模型验证及测试，得到预测分类结果。根据本发明的方法，具有应用前景广泛、网络泛化能力更强的优势。

Description

字体分类预测方法及***

技术领域

本发明涉及字体分类技术领域，尤其是涉及一种字体分类预测方法及***。

背景技术

目前，由于中文字体的分类标准没有体系，且应用场景不多，现阶段的字体分类技术主要用深度学习算法解决古字体分类问题，但在现有技术中，存在对应字体的样本不够广泛、难以获取且无实际应用背景的问题，因此，上述技术存在改进空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种字体分类预测方法，所述字体分类预测方法，具有应用前景广泛、网络泛化能力更强的优势。

本发明还提出了一种具有上述字体分类预测方法的***。

根据本发明实施例的字体分类预测方法，包括以下步骤：

S1，数据集准备，即收集并转化多种字体的样本，通过字符分割网络得到单个字符图片，确定每个字符的最小外接矩形，作为单个标准的样本；

S2，对N类样本进行数据采样，即选定N类样本中的1类作为基准样本，通过模板匹配计算剩余N-1类样本集和基准样本集的相似度，选择前M个样本作为一个批大小，循环采样训练；

S3，确定网络结构、网络参数和损失函数，输入样本进行网络训练；

S4，网络验证及测试，得到预测分类结果。

根据本发明的字体分类预测方法，具有应用前景广泛、网络泛化能力更强的优势。

根据本发明一个实施例的字体分类预测方法，在步骤S1中，多种字体包括：宋体、仿宋、楷体和黑体。

根据本发明一个实施例的字体分类预测方法，在步骤S2中，对N类样本进行数据采样的方式为在线采样方式。

根据本发明一个实施例的字体分类预测方法，在步骤S3中，网络结构采用卷积神经网络，卷积神经网络由卷积层、池化层以及全连接层组成。

根据本发明一个实施例的字体分类预测方法，采用深度学习算法对卷积神经网络进行训练。

根据本发明一个实施例的字体分类预测方法，在步骤S3中，损失函数为L2-softmax损失函数，损失函数的公式如下：

其中f(x_i)为网络输出的特征向量，满足以下约束：

其中参数α有两种设置方式，一是在训练过程中设置α为固定值，二是通过训练获得。

根据本发明的第二方面的字体分类预测***，设采用了如第一方面任一种所述的字体分类预测方法，所述字体分类预测***包括：

数据收集模块，所述数据收集模块用于收集并转化多种字体的样本，通过字符分割网络得到单个字符样本；

数据采样模块，所述数据采样模块可对N类样本进行数据采样，选定N类样本中的1类作为基准样本，通过模板匹配计算N-1类样本和基准样本的相似度，选择前M个样本作为一个批大小，循环采样训练；

网络结构模块，所述网络结构模块可实现网络参数和损失函数的约束，样本参数可输入至所述网络结构模块中；

网络验证及测试模块，所述网络验证及测试模块可对样本参数进行网络验证及测试，得到预测结果。

根据本发明的第二方面的字体分类预测***，所述***与上述的字体分类预测方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的字体分类预测方法的流程图；

图2是根据本发明实施例的字体分类预测***的结构示意图。

附图标记：

100-字体分类预测***，1-数据收集模块，2-数据采样模块，3-网络结构模块，4-网络验证及测试模块。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

下面参考图1和图2描述根据本发明实施例的字体分类预测方法。如图1所示，根据本发明实施例的字体分类预测方法，可以包括以下步骤：

S1，数据集准备，即收集并转化多种字体的样本，通过字符分割网络得到单个字符图片，确定字体的最小外接对应区域；

S2，对N类样本进行数据采样，即选定N类样本中的1类作为基准样本，通过模板匹配计算N-1类样本和基准样本的相似度，并进行样本匹配，得到样本参数；例如，在一个具体的实施例中，设定一个批次的数量为200，则每一类样本为50个，即共四类样本。进一步地，将随机选择其中的一类作为基准样本，通过模板匹配计算基准样本与其他三类样本之间的相似度。进一步地，选择前M个样本作为一个批大小，送入网络训练，和传统的随机采样相比，步骤S2中的采样方式能够提高字体风格差异较小的字的分类准确率。

S3，确定网络结构、网络参数和损失函数，输入样本参数；

S4，对样本参数进行网络验证及测试，得到预测结果。

根据本发明的字体分类预测方法，应用前景广泛；通过模板匹配算法进行辅助采样，有利于提升网络的泛化能力。

根据本发明一个实施例的字体分类预测方法，在步骤S1中，多种字体可以包括：宋体、仿宋、楷体和黑体。进一步地，在数据集准备的过程中，首先需要保证每一类样本数大体比例相同；其次，将文档的截图或各种打印文档拍摄形成的照片；再次，通过字符分割网络得到单个字符图片；最终，得到字体的最小外接对应的区域。

需要说明的是，字体的种类不限于上述四种。

根据本发明一个实施例的字体分类预测方法，在步骤S2中，对N类样本进行数据采样的方式包括：在线采样方式，需要说明的是，对N类样本进行数据采样也可以采用边训练边采样的方式。

进一步地，在一个具体的实施例中，在线采样方式的具体过程如下：首先，确定网络训练的批大小，例如，可以设置batch size＝200；其次，随机选择一类字体中的20个样本，利用模板匹配算法，对每一个样本去匹配剩余几类字体中最接近的前10个样本；最后，当总数达到300时结束采样，随机选取其中200个样本作为一个批大小，输入网络进行训练。

根据本发明一个实施例的字体分类预测方法，在步骤S3中，网络结构采用卷积神经网络。具体地，卷积神经网络由卷积层、池化层以及全连接层组成，具体地，卷积层可以设置多个。

根据本发明一个实施例的字体分类预测方法，在步骤S3中，损失函数为L2-softmax损失函数，具体地，损失函数的公式如下：

其中f(x_i)为网络输出的特征向量，满足以下约束：

需要说明的是，α的最小值为：

其中，C为分类的类别数。

进一步地，在现有技术中，视觉分类任务大多采取softmax损失，但由于softmax损失只能保证学习到的字体特征是可分的，不能保证字体风格差异较小的字学习到的特征足够远，同一字体下不同字的特征足够近；也就是说，由于中文字是由多种不同偏旁部首按照不同规则组成，所以导致不同字在多个字体之间的特征区分性差异较大。而本发明实施例的字体分类预测方法，采用L2-softmax作为损失函数，这样在分类之前，可以将学习到的特征进行归一化，进而通过约束来增强特征的区分度，从而提高分类准确率。

综上所述，根据本发明的字体分类预测方法，应用前景广泛；通过模板匹配算法进行辅助采样，有利于提升网络的泛化能力。

根据本发明的第二方面的字体分类预测***100，设采用了如第一方面任一种的字体分类预测方法，进一步地，如图2所示，字体分类预测***100可以包括：

数据收集模块1，进一步地，数据收集模块1用于收集并转化多种字体的样本，通过字符分割网络得到单个字符图片，确定字体的最小外接对应区域；在本发明的描述中，“多个”的含义是两个或两个以上。

数据采样模块2，进一步地，数据采样模块2可对N类样本进行数据采样，选定N类样本中的1类作为基准样本，通过模板匹配计算N-1类样本和基准样本的相似度，选择前M个样本作为一个批大小，循环采样训练；

网络结构模块3，进一步地，网络结构模块3可实现网络参数和损失函数的约束，进一步地，样本参数可输入至网络结构模块3中；

网络验证及测试模块4，进一步地，网络验证及测试模块4可对样本参数进行网络验证及测试，得到预测结果。

综上，根据本发明的第二方面的字体分类预测***100，具有应用前景更广泛、网络泛化能力更强的优势。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种字体分类预测方法，其特征在于，包括以下步骤：

S2，对N类样本进行数据采样，选定N类样本中的1类作为基准样本，通过模板匹配计算剩余N-1类样本集和基准样本集的相似度，选择所述N-1类样本集中每个样本集中相似度最高的前M个样本作为一个批大小，循环步骤S2进行采样；

S4，网络验证及测试，得到预测分类结果；

在步骤S3中，损失函数为L2-softmax损失函数，损失函数的公式如下：

其中为网络输出的特征向量，满足以下约束：

其中参数有两种设置方式，一是在训练过程中设置为固定值，二是通过训练获得。

2.根据权利要求1所述的字体分类预测方法，其特征在于，在步骤S1中，多种字体包括：宋体、仿宋、楷体和黑体。

3.根据权利要求1所述的字体分类预测方法，其特征在于，在步骤S2中，对N类样本进行数据采样的方式为在线采样方式。

4.根据权利要求1所述的字体分类预测方法，其特征在于，在步骤S3中，网络结构采用卷积神经网络，卷积神经网络由卷积层、池化层以及全连接层组成。

5.根据权利要求4所述的字体分类预测方法，其特征在于，采用深度学习算法对卷积神经网络进行训练。

6.一种字体分类预测***，其特征在于，采用了根据权利要求1-5中任一项所述的字体分类预测方法，所述***包括：

数据收集模块，所述数据收集模块用于收集并转化多种字体的样本，通过字符分割网络得到单个字符图片，确定每个字符的最小外接矩形，作为单个标准的样本；

数据采样模块，所述数据采样模块可对N类样本进行数据采样，选定N类样本中的1类作为基准样本，通过模板匹配计算N-1类样本和基准样本的相似度，选择所述N-1类样本集中每个样本集中相似度最高的前M个样本作为一个批大小，循环步骤S2进行采样；

网络结构模块，所述网络结构模块是由若干层卷积层和池化层以及全连接层组成，可实现网络参数和损失函数的约束，样本参数可输入至所述网络结构模块中；

网络验证及测试模块，所述网络验证及测试模块可对样本参数进行网络验证及测试，得到预测结果；

其中，损失函数为L2-softmax损失函数，损失函数的公式如下：

其中为网络输出的特征向量，满足以下约束：