WO2020248471A1 - 一种基于集聚交叉熵损失函数的序列识别方法 - Google Patents

一种基于集聚交叉熵损失函数的序列识别方法 Download PDF

Info

Publication number
WO2020248471A1
WO2020248471A1 PCT/CN2019/113452 CN2019113452W WO2020248471A1 WO 2020248471 A1 WO2020248471 A1 WO 2020248471A1 CN 2019113452 W CN2019113452 W CN 2019113452W WO 2020248471 A1 WO2020248471 A1 WO 2020248471A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
training
loss function
label
cross
Prior art date
Application number
PCT/CN2019/113452
Other languages
English (en)
French (fr)
Inventor
黄耀雄
金连文
谢泽澄
朱远志
刘禹良
谢乐乐
Original Assignee
华南理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华南理工大学 filed Critical 华南理工大学
Publication of WO2020248471A1 publication Critical patent/WO2020248471A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the present invention relates to the field of pattern recognition and artificial intelligence, in particular to a sequence recognition method based on agglomerated cross-entropy loss function.
  • Sequence recognition assigns sequence labels to input sequence data.
  • the labels are taken from a fixed character set, such as speech recognition, scene text recognition, handwritten text line recognition, and so on.
  • the attention mechanism can rely on the attention module to achieve a one-to-one correspondence between the prediction result and the picture characters, it will introduce additional storage and computational consumption. It is relatively difficult to directly train a recognition model based on the attention mechanism from scratch, because the prediction results and labels in the training process are not aligned, especially when the label sequence is very long, which will cause the attention mechanism to pay attention to the position Severe deviation makes the final system effect poor.
  • the purpose of the present invention is to provide a sequence recognition method based on the aggregate cross-entropy loss function to solve the above-mentioned problems in the prior art.
  • the present invention provides a sequence recognition method based on agglomerated cross loss function, which is characterized in that it includes the following steps:
  • Training the network input the training data and the label data into a pre-designed network for training.
  • Test network Input test data into the trained network, and finally get the recognition result of the picture.
  • the training samples cover multiple styles, fonts, and scenes.
  • step B the acquired natural scene text is scaled in equal proportions, and the size of the picture after scaling is 96*100, so that the size of each character is within a stable interval.
  • the step C includes the following steps:
  • the step D includes the following steps:
  • D1 Use the synthetic data in C1 to construct a sequence model, and then calculate each category according to the results predicted by the sequence model By accumulating the probability of each category k at all time points T as the predicted number of the category, that is Among them, y k is the predicted number of category k.
  • N k represents the number of occurrences of the character k in the sequence label S; in addition, there are a total of T predictions at time points, but there are only
  • I is the input picture
  • is the total number of categories of characters
  • the step E includes the following steps:
  • the number of times to traverse the training set is set to 10, and the number of iterations to traverse the training set is about 210,000.
  • the adaptive gradient descent algorithm is used as the optimization algorithm, and the initial learning rate is set to 1.0. , Every time the training set is traversed 5 times, the learning rate drops by 1 time; among them, the loss function L(I,S) is defined as
  • Weight initialization All weight parameters in the network are initialized with Gaussian initial method at the beginning of training;
  • the step F includes the following steps:
  • the present invention discloses the following technical effects: it has high robustness and effectiveness for curved arranged text, and there is no need to one-to-one correspondence between the input picture and the corresponding label sequence, in addition, no additional memory space is required, and the recognition result is not Affected by text length.
  • FIG. 1 is a flowchart of the method of the present invention
  • FIG. 2 is a data processing flowchart of the present invention
  • Fig. 3 is a working principle diagram of the aggregate cross-entropy loss function of the present invention.
  • Figure 4 is an example of label generation of the present invention.
  • Fig. 5 is a visualization example of the recognition result of the present invention.
  • the present invention is a sequence identification scheme based on agglomerated cross-entropy loss function.
  • the flowchart is shown in Figure 1 and includes the following steps:
  • A. Data acquisition Download the natural scene text recognition data set as a test set, and use open source code to synthesize training samples as training data.
  • the training data covers a variety of styles, fonts and scenes.
  • the final total synthetic training data is about 14 million ;
  • B. Data processing Collect pictures in natural scenes, and perform scaling operations on the pictures.
  • the size of the pictures after scaling is 96*100, so that the size of each character in the picture is relatively stable Within the interval.
  • the specific operation is as follows: the height of the picture is first stretched to 96 pixels, the width is scaled according to the aspect ratio, and the areas with insufficient width are filled with black edges.
  • the flowchart is shown in Figure 2.
  • D1 Use the synthetic data in C1 to construct a sequence model, and then calculate each category according to the results predicted by the sequence model By accumulating the probability of each category k at all time points T as the predicted number of the category, that is Among them, y k is the predicted number of category k.
  • N k represents the number of occurrences of the character k in the sequence label S; in addition, there are a total of T predictions at time points, but there are only
  • I is the input picture
  • is the total number of categories of characters
  • E1 Construct a convolutional neural network: input (96*100) ⁇ 64C3 ⁇ MP22 ⁇ 128C3 ⁇ MP22 ⁇ 256C3 ⁇ 256C3 ⁇ MP21 ⁇ 512C3 ⁇ MP21 ⁇ 512C2 ⁇ 37C1, where mCn, m represents the output of convolution The number of channels, n is the size of the convolution kernel, and C is the convolution layer; in MPnm, n and m respectively represent the width and height steps of the largest pooling layer.
  • N k represents the number of occurrences of character k in the sequence label S.
  • the number of times to traverse the training set is set to 10, and the number of iterations for each traversal of the training set is about 210,000.
  • the adaptive gradient descent algorithm (Adadelta) is used as the optimization algorithm, and the initial learning rate is set to 1.0. In the following training, every time the training set is traversed 5 times, the learning rate is reduced by 1 time.
  • the loss function L(I, S) is defined as:
  • Weight initialization All weight parameters in the network are initialized with Gaussian at the initial training.
  • the recognition results of 20 pictures are randomly displayed, the recognition results of each picture are displayed, and the prediction results on the feature map are visualized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于集聚交叉损失函数的序列识别方法,包括以下步骤:下载自然场景文本识别数据作为测试集,并使用开源代码合成的自然场景文本的数据作为训练数据;采集自然场景下的图片,并对所述图片进行等比例放缩操作;统计所述图片中的标签出现的字符类别、所述字符类别出现的次数;通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数,将自然场景文本数据与所述标签的差别的部分进行训练;把步骤A中的自然场景文本识别数据、步骤C中的标签数据输入到预先设计好的网络中进行训练;输入测试数据到已训练完成的网络中,最后得到图片的识别结果;对弯曲排列文本具有很高的鲁棒性和有效性。

Description

一种基于集聚交叉熵损失函数的序列识别方法 技术领域
本发明涉及模式识别与人工智能领域,特别是涉及一种基于集聚交叉熵损失函数的序列识别方法。
背景技术
序列识别,或者说序列标注,是为输入序列数据分配序列标签,标签取自固定的字符集中,比如语音识别、场景文本识别、手写文本行识别等等。随着近期深度学习的发展和各种新兴网络框架的提出,大量针对序列识别问题的***被应用到实际场景中。
对于序列识别问题来说,传统方法通常要求将训练数据按字符分割成片段,这会导致非常耗时耗力的预处理和后处理工作。近期受到欢迎的时序分类连结损失函数(CTC)和注意力机制(Attention)不需要输入图片和对应的标签序列有一一对应的关系,因此对训练数据的标注需求大大减少,训练过程也更加方便简单。然而,尽管时序分类连结损失函数在一维预测问题中展现了优秀的识别性能,它的方法论和前向后向算法都非常复杂,会带来巨大的计算消耗。而另一方面,注意力机制虽然可以依赖注意力模块来实现预测结果和图片字符之间的一一对应的关系,但却会引入额外存储和计算消耗。基于注意力机制的识别模型从无到有直接训练是相对困难的,因为训练过程中的预测结果和标签存在不对齐的问题,特别是标签序列非常长的情况,会导致注意力机制注意的位置严重偏移,使得最终的***效果差。
发明内容
本发明的目的是提供一种基于集聚交叉熵损失函数的序列识别方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于集聚交叉损失函数的序列识别方法,其特征在于:包括以下步骤:
A、数据获取:下载自然场景文本识别数据作为测试集,并使用开源代码 合成训练样本作为训练数据;
B、数据处理:采集自然场景下的图片,并对所述图片进行等比例放缩操作;
C、标签制作:统计所述图片中的标签出现的字符类别、所述字符类别出现的次数;
D、建立集聚交叉损失函数:通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数,将自然场景文本数据与所述标签的不同的部分进行训练;
E、训练网络:将所述训练数据、所述标签数据输入到预先设计好的网络中进行训练。
F、测试网络:输入测试数据到已训练完成的网络中,最后得到图片的识别结果。
优选的,所述训练样本涵盖多种样式、字体以及场景。
优选的,所述步骤B对获取的自然场景文本进行等比例放缩,放缩后的图片大小为96*100,使得每一个字符的大小都在稳定的区间内。
优选的,所述步骤C包括以下步骤:
C1、使用开源数据合成的代码和网络获取的文本语料,用于合成训练样本;
C2、将所述训练样本的标签均记录到文本文件中,并统计所述标签中字符出现的类别以及对应的次数;
C3、将所述合成训练样本的数据作为训练集,并将自然场景文本识别数据集作为测试集。
优选的,所述步骤D包括以下步骤:
D1、使用C1中合成数据构建序列模型,再根据序列模型预测的结果计算每个类别
Figure PCTCN2019113452-appb-000001
的数量,通过累计每个类别k在全部时间点T的概率作为该类别的预测数量,也即
Figure PCTCN2019113452-appb-000002
其中,y k即为类别k的预测数量。
D2、为了使预测的字符数量逼近标签中字符的数量,使用两种方法:回归法和构建交叉熵目标函数;首先使用回归法,D1所述的序列模型的损失函数 L(ω)为:
Figure PCTCN2019113452-appb-000003
其中,N k表示序列标签S中字符k出现的次数;另外,一共有T个时间点的预测,但标签中仅有|S|个字符,因此一共有(T-|S|)个预测结果应该是“空”,因此有类别“空”的个数
Figure PCTCN2019113452-appb-000004
D3、首先归一化第k个字符预测的累计概率
Figure PCTCN2019113452-appb-000005
同理,归一化标签中第k个字符真实的数量为
Figure PCTCN2019113452-appb-000006
则归一化累计概率
Figure PCTCN2019113452-appb-000007
和归一化字符数量
Figure PCTCN2019113452-appb-000008
之间的交叉熵L(I,S)公式如下:
Figure PCTCN2019113452-appb-000009
其中,I为输入图片,|C |为字符总的类别数;
D4、建立集聚交叉熵损失函数:
Figure PCTCN2019113452-appb-000010
用于计算第k个类别在全部T个时间点的累计概率;
Figure PCTCN2019113452-appb-000011
用于归一化预测累计概率;
Figure PCTCN2019113452-appb-000012
用于归一化标签;
Figure PCTCN2019113452-appb-000013
用于评估
Figure PCTCN2019113452-appb-000014
Figure PCTCN2019113452-appb-000015
之间的交叉熵。
优选的,所述步骤E包括以下步骤:
E1、构建卷积神经网络:图像(96*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2→37C1,其中,mCn中,m代表的是卷积的输出通道数,n为卷积核大小,C代表为卷积层;另外MPnm中,n,m分别代表的是最大池化层的宽高步长;
E2、计算第k个类别在特征图上T个时间点上的累积概率y k
Figure PCTCN2019113452-appb-000016
E3、将预测的累积概率进行归一化:
Figure PCTCN2019113452-appb-000017
将标签中字符的出现次数进行归一化:
Figure PCTCN2019113452-appb-000018
E4、训练参数的设定:遍历训练集的次数设置为10,每次遍历训练集的迭代次数约为21万,使用自适应梯度下降算法作为优化算法,初始学习率设置为1.0,在训练中,每遍历训练集5次,学习率下降1倍;其中,损失函数L(I,S)定义为:
Figure PCTCN2019113452-appb-000019
E5、权值初始化:所有网络中的权值参数在训练初始时使用高斯初始方法初始化;
E6、训练卷积神经网络:将C1中合成训练样本对应的标签中每个字符出现的次数的归一化结果与对应输出的累积概率作交叉熵,使用梯度下降法最小化损失函数。
优选的,所述步骤F包括以下步骤:
F1、将测试集中的图片输入到已经训练好的网络中进行识别,使用连结时序分类损失函数的解码方法进行解码;
F2、测试集中的图片识别完毕后,计算网络的准确率。
本发明公开了以下技术效果:对弯曲排列文本具有很高的鲁棒性和有效性,并且无需将输入图片和对应的标签序列一一对应,除此之外无需占用额外内存空间,识别结果不受文本长度影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明的数据处理流程图;
图3为本发明的集聚交叉熵损失函数的工作原理图;
图4为本发明的标签生成的样例;
图5为本发明识别结果可视化示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明一种基于集聚交叉熵损失函数的的序列识别方案,流程框图如附图1所示,包括如下步骤:
A、数据获取:下载自然场景文本识别数据集作为测试集,使用开源代码合成训练样本作为训练数据,所述训练数据涵盖多种样式、字体以及场景,最后总的合成训练数据大概为1400万张;
B、数据处理:采集自然场景下的图片,并对所述图片进行等比例放缩操作,放缩后的图片大小为96*100,使得所述图片的每一个字符的大小都在相对稳定的区间内。具体操作如下:图片的高度先拉伸到96像素,宽度按高宽比进行放缩,宽度不足的地方使用黑边填充,流程图如附图2所示。
C、标签制作,包括如下三个步骤:
C1、使用开源数据合成代码以及网络获取文本语料,用于合成训练样本。
C2、将所述训练样本的标签记录到文本文件中,并统计所述标签中字符出现的类别以及对应的次数,标签生成如附图3所示。
C3、将所述合成训练样本数据作为训练集,并将公开的自然场景文本识别数据集作为测试集;
D、建立集聚交叉损失函数:通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数,将自然场景文本数据与所述标签的差别的 部分进行训练;
D1、使用C1中合成数据构建序列模型,再根据序列模型预测的结果计算每个类别
Figure PCTCN2019113452-appb-000020
的数量,通过累计每个类别k在全部时间点T的概率作为该类别的预测数量,也即
Figure PCTCN2019113452-appb-000021
其中,y k即为类别k的预测数量。
D2、为了使预测的字符数量逼近标签中字符的数量,使用两种不同的方法:回归法和构建交叉熵目标函数;首先使用回归法,D1所述的序列模型的损失函数L(ω)为:
Figure PCTCN2019113452-appb-000022
其中,N k表示序列标签S中字符k出现的次数;另外,一共有T个时间点的预测,但标签中仅有|S|个字符,因此一共有(T-|S|)个预测结果应该是“空”,因此有类别“空”的个数
Figure PCTCN2019113452-appb-000023
D3、首先归一化第k个字符预测的累计概率
Figure PCTCN2019113452-appb-000024
同理,归一化标签中第k个字符真实的数量为
Figure PCTCN2019113452-appb-000025
则归一化累计概率
Figure PCTCN2019113452-appb-000026
和归一化字符数量
Figure PCTCN2019113452-appb-000027
之间的交叉熵L(I,S)可以表达如下:
Figure PCTCN2019113452-appb-000028
其中,I为输入图片,|C |为字符总的类别数;
D4、集聚交叉熵损失函数:
Figure PCTCN2019113452-appb-000029
用于计算第k个类别在全部T个时间点的累计概率;
Figure PCTCN2019113452-appb-000030
用于归一化预测累计概率;
Figure PCTCN2019113452-appb-000031
用于归一化标签;
Figure PCTCN2019113452-appb-000032
用于评估
Figure PCTCN2019113452-appb-000033
Figure PCTCN2019113452-appb-000034
之间的交叉熵。
E、训练网络,包含以下步骤:
E1、构建卷积神经网络:输入(96*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2→37C1,其中,mCn中,m代表的是卷积的输出通道数,n为卷积核大小,C代表为卷积层;另外MPnm中,n,m分别代表的是最大池化层的宽高步长。
E2、计算第k个类别在特征图上T个时间点上的累积概率y k
Figure PCTCN2019113452-appb-000035
为类别k
在时间点t上的预测概率:
Figure PCTCN2019113452-appb-000036
E3、将预测的累积概率进行归一化:
Figure PCTCN2019113452-appb-000037
E4、将标签中字符的出现次数进行归一化:
Figure PCTCN2019113452-appb-000038
其中,N k表示序列标签S中字符k出现的次数。
E5、训练参数的设定:遍历训练集的次数设置为10,每次遍历训练集的迭代次数约为21万,使用自适应梯度下降算法(Adadelta)作为优化算法,初始学习率设置为1.0,在后面的训练中,每遍历训练集5次,学习率下降1倍。其中,损失函数L(I,S)定义为:
Figure PCTCN2019113452-appb-000039
E6、权值初始化:所有网络中的权值参数在训练初始时使用高斯初始化。
E7、训练卷积神经网络:将目标字符串的每个字符出现的次数的归一化结果与对应输出的累积概率作交叉熵,使用梯度下降法最小化损失函数。集聚交叉熵损失函数的工作原理如附图4所示。
F、测试网络,包含以下步骤:
F1、将测试集中的图片输入到已经训练好的网络中进行识别,使用连结时
序分类损失函数的解码方法进行解码;
F2、识别完毕后,计算网络的准确率;
随机显示20张图片的识别结果,每张图片的识别结果显示出来,并且可视化特征图上的预测结果。
在图5所示的实例中,显示了将一张96*100大小的图片识别后的结果, 可以观察到我们的预测在空间上分布和原始文本图片的字符有极高的相似性,这同样指出集聚交叉熵损失函数的鲁棒性和有效性。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

  1. 一种基于集聚交叉损失函数的序列识别方法,其特征在于:包括以下步骤:
    A、数据获取:下载自然场景文本识别数据集作为测试集,并使用开源代码合成训练样本作为训练数据;
    B、数据处理:采集自然场景下的图片,并对所述图片进行等比例放缩操作;
    C、标签制作:统计所述图片中的标签出现的字符类别、所述字符类别出现的次数;
    D、建立集聚交叉损失函数:通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数,将自然场景文本数据与所述标签的不同的部分进行训练;
    E、训练网络:将所述训练数据、所述标签数据输入到预先设计好的网络中进行训练。
    F、测试网络:输入测试数据到已训练完成的网络中,最后得到图片的识别结果。
  2. 根据权利要求1所述的基于集聚交叉损失函数的序列识别方法,其特征在于,所述训练样本涵盖多种样式、字体以及场景。
  3. 根据权利要求1所述的基于集聚交叉损失函数的序列识别方法,其特征在于,所述步骤B对获取的自然场景文本进行等比例放缩,放缩后的图片大小为96*100,使得每一个字符的大小都在稳定的区间内。
  4. 根据权利要求1所述的基于集聚交叉损失函数的序列识别方法,其特征在于,所述步骤C包括以下步骤:
    C1、使用开源数据合成的代码和网络获取的文本语料,用于合成训练样本;
    C2、将所述训练样本的标签均记录到文本文件中,并统计所述标签中字符出现的类别以及对应的次数;
    C3、将所述合成训练样本的数据作为训练集,并将自然场景文本识别数据 集作为测试集。
  5. 根据权利要求1所述的基于集聚交叉损失函数的序列识别方法,其特征在于,所述步骤D包括以下步骤:
    D1、使用C1中合成数据构建序列模型,再根据序列模型预测的结果计算每个类别
    Figure PCTCN2019113452-appb-100001
    的数量,通过累计每个类别k在全部时间点T的概率作为该类别的预测数量,也即
    Figure PCTCN2019113452-appb-100002
    其中,y k即为类别k的预测数量。
    D2、为了使预测的字符数量逼近标签中字符的数量,使用两种方法:回归法和构建交叉熵目标函数;首先使用回归法,D1所述的序列模型的损失函数L(ω)为:
    Figure PCTCN2019113452-appb-100003
    其中,N k表示序列标签S中字符k出现的次数;另外,一共有T个时间点的预测,但标签中仅有|S|个字符,因此一共有(T-|S|)个预测结果应该是“空”,因此有类别“空”的个数
    Figure PCTCN2019113452-appb-100004
    D3、首先归一化第k个字符预测的累计概率
    Figure PCTCN2019113452-appb-100005
    同理,归一化标签中第k个字符真实的数量为
    Figure PCTCN2019113452-appb-100006
    则归一化累计概率
    Figure PCTCN2019113452-appb-100007
    和归一化字符数量
    Figure PCTCN2019113452-appb-100008
    之间的交叉熵L(I,S)公式如下:
    Figure PCTCN2019113452-appb-100009
    其中,I为输入图片,|C ε|为字符总的类别数;
    D4、建立集聚交叉熵损失函数:
    Figure PCTCN2019113452-appb-100010
    用于计算第k个类别在全部T个时间点的累计概率;
    Figure PCTCN2019113452-appb-100011
    用于归一化预测累计概率;
    Figure PCTCN2019113452-appb-100012
    用于归一化标签;
    Figure PCTCN2019113452-appb-100013
    用于评估
    Figure PCTCN2019113452-appb-100014
    Figure PCTCN2019113452-appb-100015
    之间的交叉熵。
  6. [根据细则26改正15.11.2019] 
    根据权利要求1所述的基于集聚交叉损失函数的序列识别方法,其特征在于,所述步骤E包括以下步骤:
    E1、构建卷积神经网络:输入图像(96*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2→37C1,其中,mCn中,m代表的 是卷积的输出通道数,n为卷积核大小,C代表为卷积层;另外MPnm中,n,m分别代表的是最大池化层的宽高步长;
    E2、计算第k个类别在特征图上T个时间点上的累积概率y k
    Figure PCTCN2019113452-appb-100016

    E3、将预测的累积概率进行归一化:
    Figure PCTCN2019113452-appb-100017

    将标签中字符的出现次数进行归一化:
    Figure PCTCN2019113452-appb-100018

    E4、训练参数的设定:遍历训练集的次数设置为10,每次遍历训练集的迭代次数约为21万,使用自适应梯度下降算法作为优化算法,初始学习率设置为1.0,在训练中,每遍历训练集5次,学习率下降1倍;其中,损失函数L(I,S)定义为:
    Figure PCTCN2019113452-appb-100019

    E5、权值初始化:所有网络中的权值参数在训练初始时使用高斯初始方法初始化;
    E6、训练卷积神经网络:将C1中合成训练样本对应的标签中的每个字符出现的次数的归一化结果与对应输出的累积概率作交叉熵,使用梯度下降法最小化损失函数。
  7. [根据细则26改正15.11.2019]
    根据权利要求1所述的基于新设计的集聚交叉损失函数应用于序列识别的方案,其特征在于,所述步骤F包括以下步骤:
    F1、将测试集中的图片输入到已经训练好的网络中进行识别,使用连结时序分类损失函数的解码方法进行解码;
    F2、测试集中的图片识别完毕后,计算网络的准确率。
PCT/CN2019/113452 2019-06-14 2019-10-25 一种基于集聚交叉熵损失函数的序列识别方法 WO2020248471A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910517854.X 2019-06-14
CN201910517854.XA CN110390326A (zh) 2019-06-14 2019-06-14 一种基于集聚交叉熵损失函数的序列识别方法

Publications (1)

Publication Number Publication Date
WO2020248471A1 true WO2020248471A1 (zh) 2020-12-17

Family

ID=68285387

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/113452 WO2020248471A1 (zh) 2019-06-14 2019-10-25 一种基于集聚交叉熵损失函数的序列识别方法

Country Status (2)

Country Link
CN (1) CN110390326A (zh)
WO (1) WO2020248471A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699241A (zh) * 2021-01-04 2021-04-23 山东众阳健康科技集团有限公司 一种可追溯的病历分类方法
CN112732919A (zh) * 2021-01-15 2021-04-30 中国科学院地理科学与资源研究所 一种面向网络安全威胁情报的智能分类标签方法及***
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112905750A (zh) * 2021-03-16 2021-06-04 云知声智能科技股份有限公司 一种优化模型的生成方法和设备
CN113033543A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN113156376A (zh) * 2021-04-15 2021-07-23 中国人民解放军空军航空大学 基于sacnn的雷达辐射源信号识别方法
CN113177290A (zh) * 2021-03-25 2021-07-27 中国人民解放军军事科学院国防科技创新研究院 基于深度代理模型归一化的卫星组件温度场预测方法
CN113220932A (zh) * 2021-04-02 2021-08-06 山东师范大学 一种基于多任务学习的音频场景识别方法及装置
CN113239886A (zh) * 2021-06-04 2021-08-10 合肥工业大学智能制造技术研究院 基于跨语言图像变化描述的井下管道泄漏描述方法及装置
CN113269111A (zh) * 2021-06-03 2021-08-17 昆山杜克大学 一种基于视频监控的电梯异常行为检测方法及***
CN113409213A (zh) * 2021-06-22 2021-09-17 中铁工程装备集团有限公司 柱塞泵故障信号时频图降噪增强方法和***
CN113534059A (zh) * 2021-07-22 2021-10-22 西安电子科技大学 开集场景下基于深度卷积网络的雷达有源干扰识别方法
CN113608223A (zh) * 2021-08-13 2021-11-05 国家气象信息中心(中国气象局气象数据中心) 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法
CN113673591A (zh) * 2021-08-13 2021-11-19 上海交通大学 一种自调整采样优化的图像分类方法、设备及介质
CN113723593A (zh) * 2021-08-26 2021-11-30 国网山东省电力公司济南供电公司 一种基于神经网络的切负荷预测方法及***
CN113762153A (zh) * 2021-09-07 2021-12-07 北京工商大学 一种基于遥感数据的新型尾矿库检测方法及***
CN114359894A (zh) * 2022-01-13 2022-04-15 浙大城市学院 一种佛教造像文物三维模型识别归类方法
CN114708467A (zh) * 2022-01-27 2022-07-05 西安交通大学 基于知识蒸馏的不良场景识别方法及***及设备
CN114724245A (zh) * 2022-04-07 2022-07-08 合肥工业大学 基于csi的增量学习人体动作识别方法
US20220292292A1 (en) * 2021-03-11 2022-09-15 Electronics And Telecommunications Research Institute Apparatus and method for recognizing formalized character set based on weakly supervised localization
CN116758562A (zh) * 2023-08-22 2023-09-15 杭州实在智能科技有限公司 通用文本验证码识别方法及***
CN116958717A (zh) * 2023-09-20 2023-10-27 山东省地质测绘院 基于机器学习的地质大数据智能清洗方法
CN117116476A (zh) * 2023-07-04 2023-11-24 中国医学科学院阜外医院 下游任务预测方法、装置及计算机可读存储介质
CN117292213A (zh) * 2023-11-27 2023-12-26 江西啄木蜂科技有限公司 多类型相机下样本不均衡的松林变色异木识别方法
CN117313709A (zh) * 2023-11-29 2023-12-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027553A (zh) * 2019-12-23 2020-04-17 武汉唯理科技有限公司 一种圆形***文字识别方法
CN111179918B (zh) * 2020-02-20 2022-10-14 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN111582282B (zh) * 2020-05-13 2024-04-12 科大讯飞股份有限公司 一种文本识别方法、装置、设备及存储介质
CN113569612B (zh) * 2021-02-09 2022-09-13 腾讯医疗健康(深圳)有限公司 图像识别神经网络的训练方法和装置、图像识别方法
CN113063810B (zh) * 2021-03-22 2022-09-09 西安科技大学 获得砂岩冻融作用下宏细观损伤演化规律的方法
CN113705713B (zh) * 2021-09-03 2023-08-22 华南理工大学 一种基于全局和局部注意力机制的文本识别方法
CN114882266A (zh) * 2022-03-30 2022-08-09 什维新智医疗科技(上海)有限公司 一种基于神经网络的超声图像的标签识别方法
CN115050032A (zh) * 2022-05-02 2022-09-13 清华大学 一种基于特征对齐和熵正则化的域适应文本图像识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654129A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种光学文字序列识别方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别***
US20180068216A1 (en) * 2015-03-13 2018-03-08 Institute Of Acoustics, Chinese Academy Of Sciences Big data processing method based on deep learning model satisfying k-degree sparse constraint
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
US10971142B2 (en) * 2017-10-27 2021-04-06 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks
CN109543667B (zh) * 2018-11-14 2023-05-23 北京工业大学 一种基于注意力机制的文本识别方法
CN109726657B (zh) * 2018-12-21 2023-06-09 万达信息股份有限公司 一种深度学习场景文本序列识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068216A1 (en) * 2015-03-13 2018-03-08 Institute Of Acoustics, Chinese Academy Of Sciences Big data processing method based on deep learning model satisfying k-degree sparse constraint
CN105654129A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种光学文字序列识别方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别***
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699241A (zh) * 2021-01-04 2021-04-23 山东众阳健康科技集团有限公司 一种可追溯的病历分类方法
CN112699241B (zh) * 2021-01-04 2022-08-26 山东众阳健康科技集团有限公司 一种可追溯的病历分类方法
CN112732919A (zh) * 2021-01-15 2021-04-30 中国科学院地理科学与资源研究所 一种面向网络安全威胁情报的智能分类标签方法及***
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
US20220292292A1 (en) * 2021-03-11 2022-09-15 Electronics And Telecommunications Research Institute Apparatus and method for recognizing formalized character set based on weakly supervised localization
CN112905750A (zh) * 2021-03-16 2021-06-04 云知声智能科技股份有限公司 一种优化模型的生成方法和设备
CN113177290A (zh) * 2021-03-25 2021-07-27 中国人民解放军军事科学院国防科技创新研究院 基于深度代理模型归一化的卫星组件温度场预测方法
CN113177290B (zh) * 2021-03-25 2023-09-26 中国人民解放军军事科学院国防科技创新研究院 基于深度代理模型归一化的卫星组件温度场预测方法
CN113220932A (zh) * 2021-04-02 2021-08-06 山东师范大学 一种基于多任务学习的音频场景识别方法及装置
CN113220932B (zh) * 2021-04-02 2022-06-10 山东师范大学 一种基于多任务学习的音频场景识别方法及装置
CN113156376A (zh) * 2021-04-15 2021-07-23 中国人民解放军空军航空大学 基于sacnn的雷达辐射源信号识别方法
CN113156376B (zh) * 2021-04-15 2023-08-11 中国人民解放军空军航空大学 基于sacnn的雷达辐射源信号识别方法
CN113033543A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN113033543B (zh) * 2021-04-27 2024-04-05 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN113269111B (zh) * 2021-06-03 2024-04-05 昆山杜克大学 一种基于视频监控的电梯异常行为检测方法及***
CN113269111A (zh) * 2021-06-03 2021-08-17 昆山杜克大学 一种基于视频监控的电梯异常行为检测方法及***
CN113239886B (zh) * 2021-06-04 2024-03-19 合肥工业大学智能制造技术研究院 基于跨语言图像变化描述的井下管道泄漏描述方法及装置
CN113239886A (zh) * 2021-06-04 2021-08-10 合肥工业大学智能制造技术研究院 基于跨语言图像变化描述的井下管道泄漏描述方法及装置
CN113409213A (zh) * 2021-06-22 2021-09-17 中铁工程装备集团有限公司 柱塞泵故障信号时频图降噪增强方法和***
CN113409213B (zh) * 2021-06-22 2023-11-14 中铁工程装备集团有限公司 柱塞泵故障信号时频图降噪增强方法和***
CN113534059A (zh) * 2021-07-22 2021-10-22 西安电子科技大学 开集场景下基于深度卷积网络的雷达有源干扰识别方法
CN113673591B (zh) * 2021-08-13 2023-12-01 上海交通大学 一种自调整采样优化的图像分类方法、设备及介质
CN113608223A (zh) * 2021-08-13 2021-11-05 国家气象信息中心(中国气象局气象数据中心) 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法
CN113673591A (zh) * 2021-08-13 2021-11-19 上海交通大学 一种自调整采样优化的图像分类方法、设备及介质
CN113608223B (zh) * 2021-08-13 2024-01-05 国家气象信息中心(中国气象局气象数据中心) 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法
CN113723593A (zh) * 2021-08-26 2021-11-30 国网山东省电力公司济南供电公司 一种基于神经网络的切负荷预测方法及***
CN113723593B (zh) * 2021-08-26 2024-01-09 国网山东省电力公司济南供电公司 一种基于神经网络的切负荷预测方法及***
CN113762153A (zh) * 2021-09-07 2021-12-07 北京工商大学 一种基于遥感数据的新型尾矿库检测方法及***
CN113762153B (zh) * 2021-09-07 2024-04-02 北京工商大学 一种基于遥感数据的新型尾矿库检测方法及***
CN114359894B (zh) * 2022-01-13 2024-04-30 浙大城市学院 一种佛教造像文物三维模型识别归类方法
CN114359894A (zh) * 2022-01-13 2022-04-15 浙大城市学院 一种佛教造像文物三维模型识别归类方法
CN114708467B (zh) * 2022-01-27 2023-10-13 西安交通大学 基于知识蒸馏的不良场景识别方法及***及设备
CN114708467A (zh) * 2022-01-27 2022-07-05 西安交通大学 基于知识蒸馏的不良场景识别方法及***及设备
CN114724245A (zh) * 2022-04-07 2022-07-08 合肥工业大学 基于csi的增量学习人体动作识别方法
CN114724245B (zh) * 2022-04-07 2024-02-20 合肥工业大学 基于csi的增量学习人体动作识别方法
CN117116476B (zh) * 2023-07-04 2023-12-19 中国医学科学院阜外医院 下游任务预测方法、装置及计算机可读存储介质
CN117116476A (zh) * 2023-07-04 2023-11-24 中国医学科学院阜外医院 下游任务预测方法、装置及计算机可读存储介质
CN116758562A (zh) * 2023-08-22 2023-09-15 杭州实在智能科技有限公司 通用文本验证码识别方法及***
CN116758562B (zh) * 2023-08-22 2023-12-08 杭州实在智能科技有限公司 通用文本验证码识别方法及***
CN116958717A (zh) * 2023-09-20 2023-10-27 山东省地质测绘院 基于机器学习的地质大数据智能清洗方法
CN116958717B (zh) * 2023-09-20 2023-12-12 山东省地质测绘院 基于机器学习的地质大数据智能清洗方法
CN117292213B (zh) * 2023-11-27 2024-01-30 江西啄木蜂科技有限公司 多类型相机下样本不均衡的松林变色异木识别方法
CN117292213A (zh) * 2023-11-27 2023-12-26 江西啄木蜂科技有限公司 多类型相机下样本不均衡的松林变色异木识别方法
CN117313709A (zh) * 2023-11-29 2023-12-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法
CN117313709B (zh) * 2023-11-29 2024-03-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法

Also Published As

Publication number Publication date
CN110390326A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
WO2020248471A1 (zh) 一种基于集聚交叉熵损失函数的序列识别方法
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
Chang et al. All about structure: Adapting structural information across domains for boosting semantic segmentation
CN109635883B (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN107784293B (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN111460980B (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
CN114187450A (zh) 一种基于深度学习的遥感图像语义分割方法
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN109002771B (zh) 一种基于递归神经网络的遥感图像分类方法
CN115731513B (zh) 基于数字孪生的智慧园区管理***
CN111428727A (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
Elhassan et al. DFT-MF: Enhanced deepfake detection using mouth movement and transfer learning
Zhou et al. Attention transfer network for nature image matting
Sahu et al. Unsupervised feature learning for optical character recognition
Leng et al. Augmented two stream network for robust action recognition adaptive to various action videos
WO2023284670A1 (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质
CN112347879B (zh) 一种针对视频运动目标的主题挖掘及行为分析方法
CN112329803B (zh) 一种基于标准字形生成的自然场景文字识别方法
Mosannafat et al. Farsi text detection and localization in videos and images
Cheng et al. Weighted multiple instance-based deep correlation filter for video tracking processing
CN111144502B (zh) 高光谱图像分类方法及其装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933058

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 17.05.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 19933058

Country of ref document: EP

Kind code of ref document: A1