CN107886062A - 图像处理方法、***及服务器 - Google Patents
图像处理方法、***及服务器 Download PDFInfo
- Publication number
- CN107886062A CN107886062A CN201711072281.1A CN201711072281A CN107886062A CN 107886062 A CN107886062 A CN 107886062A CN 201711072281 A CN201711072281 A CN 201711072281A CN 107886062 A CN107886062 A CN 107886062A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- classification
- neural network
- network model
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像处理方法、***及服务器,包括下述步骤:获取待处理人脸图像;将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。通过在卷积神经网络模型损失函数的基础上增设参数正则化化处理,使卷积神经网络模型提取的每个类,在方向均向其类别本身的权值靠近,这样能够保证提取的人脸图像特征能够在余弦空间内尽量保持一致,使人脸图像特征的类内特征具有更好的聚敛性。
Description
技术领域
本发明实施例涉及图像处理领域,尤其是一种图像处理方法、***及服务器。
背景技术
人脸识别,是指利用计算机对人脸图像进行处理、分析和理解,以识别各种不同人脸图像的目标和对像的技术。人脸识别可以应用在安防、金融等很多领域,人脸识别的过程一般分为三个阶段:人脸检测、人脸对齐、人脸特征提取与比对,而人脸特征提取是人脸识别的关键技术。
随着深度学习技术的发展,卷积神经网络已经成为提取人脸特征的有力工具,对于模型固定的卷积神经网络而言,最核心的技术是如何设计损失函数,使其能有效地监督卷积神经网络的训练,从而使卷积神经网络具有提取人脸特征的能力。现有技术中主要使用Softmax的交叉熵损失函数和Triplet Loss损失函数对卷积神经网络模型进行监督训练。其中,Softmax的交叉熵损失函数训练网络提取特征的能力,利用网络的最后一层作为人脸的表达,将人脸数据映射到余弦空间上,通过比对不同人脸的余弦空间距离来判断人脸的相似性,同一个人余弦空间距离更相近,不同的人余弦空间距离更远。而Triplet Loss损失函数数据进行监督,在测试时,采用最后一层最为人脸特征,比对欧式测度来判断是否是同一个人。
但是本发明创造的发明人在研究中发现,Triplet Loss函数方法的难点在于数据的准备,该损失函数本质上是一种抽样过程,Google给出的实验数据是2.6亿,一般很难满足。Softmax的交叉熵损失函数的特征提取方法,是一种非端到端的方法,简单易于实现,但由于其训练所得到的类内数据内敛型不足,导致决定余弦空间距离大小的类间距离不够明显,分类数据离散性较差,导致内容理解准确率无法提高。
发明内容
本发明实施例提供一种能够提高图像提取过程中图像类间距离的图像处理方法、装置及服务器。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种图像处理方法,包括下述步骤:
获取待处理人脸图像;
将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
具体地,所述参数正则化处理具体为:在所述损失函数上增加参数正则化项,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
具体地,所述止损函数参数正则化后的特征描述为:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,表示为参数正则化项,N表示为分类的类别数,wi表示类别的权值。
具体地,所述损失函数反向传播过程的特征描述为:
定义函数:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,N表示为分类的类别数,wi表示类别的权值。
具体地,所述卷积神经网络模型通过下述步骤训练形成:
获取标记有分类判断信息的训练样本数据;
将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息,并判断所述比对结果与所述分类判断信息是否一致;
当所述比对结果与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
具体地,所述将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息的步骤,具体包括下述步骤:
将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据,获取所述卷积神经网络模型倒数第二层的激励输出;
对所述激励输出进行参数正则化化处理,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
具体地,所述获取待处理人脸图像的步骤之后,还包括下述步骤:
将所述人脸图像输入到所述卷积神经网络模型中,获取所述卷积神经网络模型最后一个全连接层输出的数据作为人脸特征数据;
计算所述人脸特征数据与预存储的标本数据之间的余弦距离;
将所述余弦距离与预设的第一分类阈值进行比对,当所述余弦距离大于所述第一分类阈值时,则判定所述人脸图像与标本数据同源。
具体地,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决上述技术问题,本发明实施例还提供一种图像处理***,包括:
获取模块,用于获取待处理人脸图像;
处理模块,用于将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;
理解模块,用于获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
具体地,所述参数正则化处理具体为:在所述损失函数上增加参数正则化项,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
具体地,所述止损函数参数正则化后的特征描述为:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,表示为参数正则化项,N表示为分类的类别数,wi表示类别的权值。
具体地,所述损失函数反向传播过程的特征描述为:
定义函数:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,N表示为分类的类别数,wi表示类别的权值。
具体地,所述图像处理***还包括:
第一获取子模块,用于获取标记有分类判断信息的训练样本数据;
第一输入子模块,用于将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
第一比对子模块,用于通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息,并判断所述比对结果与所述分类判断信息是否一致;
第一处理子模块,用于当所述比对结果与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
具体地,所述图像处理***还包括:
第一计算子模块,用于将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据,获取所述卷积神经网络模型倒数第二层的激励输出;
第二处理子模块,用于对所述激励输出进行参数正则化化处理,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
具体地,所述图像处理***还包括:
第二输入子模块,用于将所述人脸图像输入到所述卷积神经网络模型中,获取所述卷积神经网络模型最后一个全连接层输出的数据作为人脸特征数据;
第二计算子模块,用于计算所述人脸特征数据与预存储的标本数据之间的余弦距离;
第二处理子模块,用于将所述余弦距离与预设的第一分类阈值进行比对,当所述余弦距离大于所述第一分类阈值时,则判定所述人脸图像与标本数据同源。
具体地,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
为解决上述技术问题,本发明实施例还提供一种服务器,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述所述的图像处理方法。
本发明实施例的有益效果是:通过在卷积神经网络模型损失函数的基础上增设参数正则化化处理,使卷积神经网络模型提取的每个类,在方向均向其类别本身的权值靠近,这样能够保证提取的人脸图像特征能够在余弦空间内尽量保持一致,使人脸图像特征的类内特征具有更好的聚敛性,类内特征的聚敛性增强必然导致类间距离更加的明显,使最终的分类数据具有更好的离散性,内容理解准确率得到有效地提高和保障。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例卷积神经网络模型组成示意图;
图2为本发明实施例图像处理方法基本流程示意图;
图3为本发明实施例训练卷积申请网络模型方法的基本流程图;
图4为本发明实施例正则化化处理具体流程示意图;
图5为本发明实施例图像处理方法的一种具体应用流程示意图
图6为本发明实施例图像处理***基本结构框图;
图7为本发明实施例服务器基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
需要指出的是卷积神经网络的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习,所以在使用卷积神经网络时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。
VGG是牛津大学计算机视觉组(VisualGeometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。VGG探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGG成功地构筑了16~19层深的卷积神经网络。VGG的拓展性很强,迁移到其他图片数据上的泛化性非常好。VGG的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化尺寸(2*2)。到目前为止,VGG依然经常被用来提取图像特征。VGG训练后的模型参数在其官方网站上开源了,可用来在特定的图像分类任务上进行再训练(相当于提供了非常好的初始化权重)。
请参阅图1,图1为本实施例卷积神经网络模型组成示意图。
如图1所示,卷积神经网络模型包括:多个卷积层(Conv1,2,3,4…n)、多个全连接层(CF1,2,3,4…n)和一个分类层(softmax)组成。
卷积神经网络模型由:卷积层、全连接和分类层组成。其中,卷积层被用于对人脸图像的局部进行感知,且卷积层通常以级联的方式进行连接,级联中位置越靠后的卷积层能够感知越全局化的信息。
全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。全连接层连接在卷积层输出位置,能够感知被测人脸图像的全具化特征。
分类层连接在全连接层的输出端,分类层输出的每一维均表示被测人脸图像属于该类别的概率。
请参阅图2,图2为本实施例图像处理方法基本流程示意图。
如图2所示,一种图像处理方法,包括下述步骤:
S1100、获取待处理人脸图像;
获取人脸图像的方法包括实时采集和提取存储图像视频资料两种方法。实时采集主要用于智能终端(手机、平板电脑和监控设备)的实时应用(如:判断用户年龄、性别、颜值和相似度等)。提取存储图像视频资料主要用于对存储的图像和视频资料进行进一步的处理,也能够用于智能终端对历史照片进行应用。
S1200、将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;
将获取的人脸图像输入到已经训练完成的卷积神经网络模型中,该卷积神经网络模型是通过选定的损失函数进行训练得到,具体地采用Softmax的交叉熵损失函数。
正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
正则化在本实施例中的作用则是使卷积神经网络模型的分类层参数矩阵的二范数为1。二范数指卷积神经网络模型输出的分类矩阵的2范数,就是分类矩阵的转置矩阵与分类矩阵的积的最大特征根的平方根值为1。
S1300、获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
获取到卷积神经网络模型的分类数据,该分类数据中包括输入的人脸图像的主要识别特征,是降维分类后表征着人脸图像最主要特征的分类数据,该分类数据中类间距离较大,及分类数据中类别之间差距的显著性进一步提高。
得到人脸图像的分类数据后,能够使用该分类数据对人脸图像内容理解,内容理解包括(不限于)进行性别识别、年龄判断、颜值打分或人脸相似度比对。分类数据表示人脸图像中主要可识别特征,将该特征与预设的分类标准进行比对,就能够对人脸图像的性别、年龄和颜值做出判断。而根据两个人脸图像分类数据的cos(余弦空间)距离的比较,就能够计算出两个人脸图像之间的相似度。
上述实施方式通过在卷积神经网络模型损失函数的基础上增设参数正则化化处理,使卷积神经网络模型提取的每个类,在方向均向其类别本身的权值靠近,这样能够保证提取的人脸图像特征能够在余弦空间内尽量保持一致,使人脸图像特征的类内特征具有更好的聚敛性,类内特征的聚敛性增强必然导致类间距离更加的明显,使最终的分类数据具有更好的离散性,内容理解准确率得到有效地提高和保障。
具体地,止损函数参数正则化后的特征描述为:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,表示为参数正则化项,N表示为分类的类别数,wi表示类别的权值。
基于softmax交叉熵损失函数进行分类的基本原理是比较f(x)*wi(i=1,2,3,4,…,N)的大小,而
f(x)*wi=||f(x)||*||wi||*cos<f(x)*wi>
故,影响f(x)*wi大小的因素主要是||wi||和cos<f(x)*wi>,如果令||wi||的值尽量相等,那么f(x)*wi的大小主要由cos<f(x)*wi>决定,所以每个类在方向上尽量靠近类本身的权值wi的方向,那么每个类的样本f(x)的方向都会在wi左右,这样保证了提取的特征f(x)在余弦空间上尽量一致,也就是类内特征有更好的聚敛性。
具体地,损失函数反向传播过程的特征描述为:
定义函数:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,N表示为分类的类别数,wi表示类别的权值。
其中,为交叉熵损失函数对特征f(x)的梯度,为交叉熵损失函数对参数wi的梯度,他们与原始的梯度一致。
请参阅图3,图3为本实施例训练卷积申请网络模型方法的基本流程图。如图3所示,包括下述步骤:
S2100、获取标记有分类判断信息的训练样本数据;
训练样本数据是整个训练集的构成单位,训练集是由若干个训练样本训练数据组成的。
训练样本数据是由人脸数据以及对人脸数据对进行标记的分类判断信息组成的。
分类判断信息是指人们根据输入卷积神经网络模型的训练方向,通过普适性的判断标准和事实状态对训练样本数据做出的人为的判断,也就是人们对卷积神经网络模型输出数值的期望目标。如,在一个训练样本数据中,人工识别出该人脸图像数据与预存储的目标人脸图像为同一个人,则标定该人脸图像分类判断信息为与预存储的目标人脸图像相同。
S2200、将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
将训练样本集依次输入到卷积神经网络模型中,并获得卷积神经网络模型倒数第一个全连接层输出的模型分类参照信息。
模型分类参照信息是卷积神经网络模型根据输入的人脸图像而输出的激励数据,在卷积神经网络模型未被训练至收敛之前,分类参照信息为离散性较大的数值,当卷积神经网络模型未被训练至收敛之后,分类参照信息为相对稳定的数据。
S2300、通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息,并判断所述比对结果与所述分类判断信息是否一致;
止损函数是用于检测卷积神经网络模型中模型分类参照信息,与期望的分类判断信息是否具有一致性的检测函数。当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时,需要对卷积神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。
S2400、当所述比对结果与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时,需要对卷积神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。
具体的,请参阅图4,图4为本实施例正则化化处理具体流程示意图。
如图4所示,步骤S2200包括下述步骤:
S2210、将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据,获取所述卷积神经网络模型倒数第二层的激励输出;
将训练样本集依次输入到卷积神经网络模型中,并获得卷积神经网络模型倒数第一个全连接层输出的模型分类参照信息,即卷积神经网络模型倒数第二层的激励输出。
S2220、对所述激励输出进行参数正则化化处理,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
具体地,正则化后的Softmax的交叉熵损失函数表达式为:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,表示为参数正则化项,N表示为分类的类别数,wi表示类别的权值。
基于softmax交叉熵损失函数进行分类的基本原理是比较f(x)*wi(i=1,2,3,4,…,N)的大小,而
f(x)*wi=||f(x)||*||wi||*cos<f(x)*wi>
故,影响f(x)*wi大小的因素主要是||wi||和cos<f(x)*wi>,如果令||wi||的值尽量相等,那么f(x)*wi的大小主要由cos<f(x)*wi>决定,所以每个类在方向上尽量靠近类本身的权值wi的方向,那么每个类的样本f(x)的方向都会在wi左右,这样保证了提取的特征f(x)在余弦空间上尽量一致,也就是类内特征有更好的聚敛性。
请参阅图5,图5为本实施例图像处理方法的一种具体应用流程示意图。
S3100、将所述人脸图像输入到所述卷积神经网络模型中,获取所述卷积神经网络模型最后一个全连接层输出的数据作为人脸特征数据;
将待检测的人脸图像输入到训练完成的卷积神经网络模型中,并获取卷积神经网络模型最后一个全连接层输出的数据作为人脸特征数据。人脸特征数据是卷积神经网络模型提取的数据矩阵。
S3200、计算所述人脸特征数据与预存储的标本数据之间的余弦距离;
计算出人脸特征数据类间距离与预存储的类间标本数据之间进行处理,处理的方式为计算分类数据与标本数据cos(余弦)距离。
标本数据是指与输入的人脸图像进行比对的参照图片的分类数据。
S3300、将所述余弦距离与预设的第一分类阈值进行比对,当所述余弦距离大于所述第一分类阈值时,则判定所述人脸图像与标本数据同源。
在进行图像相似度比对时,为判定待测人脸图像与标本数据之间的是否同源(及两张照片是否为同一个人),根据多次试验得出一个衡量判断的标准值,该标准值就是第一分类阈值,第一分类阈值是根据该模型的准确率要求进行具体确定的,能够根据实际要求进行具体确定。
计算出分类数据与标本数据之间的余弦距离大于第一分类阈值时,则待测人脸图像与标本数据为同源。
为解决上述技术问题,本发明实施例还提供一种图像处理***。
具体请参阅图6,图6为本实施例图像处理***基本机构示意图。
如图6所示,一种图像处理***,包括下述步骤:获取模块1100、处理模块1200和理解模块1300。其中,获取模块1100用于获取待处理人脸图像;处理模块1200用于将人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且损失函数经参数正则化化处理,使卷积神经网络模型定向筛选增大图像分类后的类间距离;理解模块1300用于获取卷积神经网络模型输出的分类数据,并根据分类数据对人脸图像进行内容理解。
图像处理***通过在卷积神经网络模型损失函数的基础上增设参数正则化化处理,使卷积神经网络模型提取的每个类,在方向均向其类别本身的权值靠近,这样能够保证提取的人脸图像特征能够在余弦空间内尽量保持一致,使人脸图像特征的类内特征具有更好的聚敛性,类内特征的聚敛性增强必然导致类间距离更加的明显,使最终的分类数据具有更好的离散性,内容理解准确率得到有效地提高和保障。
在一些实施方式中,参数正则化处理具体为:在损失函数上增加参数正则化项,以使卷积神经网络模型的分类层参数矩阵的二范数为1。
在一些实施方式中,止损函数参数正则化后的特征描述为:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,表示为参数正则化项,N表示为分类的类别数,wi表示类别的权值。
在一些实施方式中,损失函数反向传播过程的特征描述为:
定义函数:
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,N表示为分类的类别数,wi表示类别的权值。
在一些实施方式中,图像处理***还包括:第一获取子模块、第一输入子模块、第一比对子模块和第一处理子模块。其中,第一获取子模块用于获取标记有分类判断信息的训练样本数据;第一输入子模块用于将训练样本数据输入卷积神经网络模型获取训练样本数据的模型分类参照信息;第一比对子模块用于通过止损函数比对训练样本数据内不同样本的模型分类参照信息,并判断比对结果与分类判断信息是否一致;第一处理子模块用于当比对结果与分类判断信息不一致时,反复循环迭代的更新卷积神经网络模型中的权重,至比对结果与分类判断信息一致时结束。
在一些实施方式中,图像处理***还包括:第一计算子模块和第二处理子模块。其中,第一计算子模块用于将训练样本数据输入卷积神经网络模型获取训练样本数据,获取卷积神经网络模型倒数第二层的激励输出;第二处理子模块用于对激励输出进行参数正则化化处理,以使卷积神经网络模型的分类层参数矩阵的二范数为1。
在一些实施方式中,图像处理***还包括:第二输入子模块、第二计算子模块和第二处理子模块。其中,第二输入子模块用于将人脸图像输入到卷积神经网络模型中,获取卷积神经网络模型最后一个全连接层输出的数据作为人脸特征数据;第二计算子模块用于计算人脸特征数据与预存储的标本数据之间的余弦距离;第二处理子模块用于将余弦距离与预设的第一分类阈值进行比对,当余弦距离大于第一分类阈值时,则判定人脸图像与标本数据同源。
在一些实施方式中,人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
本实施例还提供一种服务器。具体请参阅图7,图7为本实施例服务器基本结构示意图。
如图7所示,服务器包括:一个或多个处理器3110和存储器3120;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:
获取待处理人脸图像;
将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
服务器通过在卷积神经网络模型损失函数的基础上增设参数正则化化处理,使卷积神经网络模型提取的每个类,在方向均向其类别本身的权值靠近,这样能够保证提取的人脸图像特征能够在余弦空间内尽量保持一致,使人脸图像特征的类内特征具有更好的聚敛性,类内特征的聚敛性增强必然导致类间距离更加的明显,使最终的分类数据具有更好的离散性,内容理解准确率得到有效地提高和保障。
需要指出的是本实施列中,服务器的存储器内存储用于实现本实施例中图像处理方法中的所有程序,处理器能够调用该存储器内的程序,执行上述图像处理方法所列举的所有功能。由于服务器实现的功能在本实施例中的图像处理方法进行了详述,在此不再进行赘述。
需要说明的是,本发明的说明书及其附图中给出了本发明的较佳的实施例,但是,本发明可以通过许多不同的形式来实现,并不限于本说明书所描述的实施例,这些实施例不作为对本发明内容的额外限制,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。并且,上述各技术特征继续相互组合,形成未在上面列举的各种实施例,均视为本发明说明书记载的范围;进一步地,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种图像处理方法,其特征在于,包括下述步骤:
获取待处理人脸图像;
将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
2.根据权利要求1所述的图像处理方法,其特征在于,所述参数正则化处理具体为:在所述损失函数上增加参数正则化项,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
3.根据权利要求2所述的图像处理方法,其特征在于,所述止损函数参数正则化后的特征描述为:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>c</mi>
<mi>r</mi>
<mi>o</mi>
<mi>s</mi>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&lambda;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>N</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
<mo>-</mo>
<mn>1</mn>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,表示为参数正则化项,N表示为分类的类别数,wi表示类别的权值。
4.根据权利要求2所述的图像处理方法,其特征在于,所述损失函数反向传播过程的特征描述为:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>c</mi>
<mi>r</mi>
<mi>o</mi>
<mi>s</mi>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
定义函数:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
</mfrac>
<mo>=</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>c</mi>
<mi>r</mi>
<mi>o</mi>
<mi>s</mi>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
<mo>+</mo>
<mi>&lambda;</mi>
<mn>4</mn>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,f(x)表示网络提取的人脸特征,Lcrossentropg(f(x),l)表示为softmax交叉熵损失函数,N表示为分类的类别数,wi表示类别的权值。
5.根据权利要求1所述的图像处理方法,其特征在于,所述卷积神经网络模型通过下述步骤训练形成:
获取标记有分类判断信息的训练样本数据;
将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息;
通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息,并判断所述比对结果与所述分类判断信息是否一致;
当所述比对结果与所述分类判断信息不一致时,反复循环迭代的更新所述卷积神经网络模型中的权重,至所述比对结果与所述分类判断信息一致时结束。
6.根据权利要求5所述的图像处理方法,其特征在于,所述将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息的步骤,具体包括下述步骤:
将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据,获取所述卷积神经网络模型倒数第二层的激励输出;
对所述激励输出进行参数正则化化处理,以使所述卷积神经网络模型的分类层参数矩阵的二范数为1。
7.根据权利要求1所述的图像处理方法,其特征在于,所述获取待处理人脸图像的步骤之后,还包括下述步骤:
将所述人脸图像输入到所述卷积神经网络模型中,获取所述卷积神经网络模型最后一个全连接层输出的数据作为人脸特征数据;
计算所述人脸特征数据与预存储的标本数据之间的余弦距离;
将所述余弦距离与预设的第一分类阈值进行比对,当所述余弦距离大于所述第一分类阈值时,则判定所述人脸图像与标本数据同源。
8.根据权利要求1~7任意一项所述的图像处理方法,其特征在于,所述人脸图像进行内容理解包括:对人脸图像进行性别识别、年龄判断、颜值打分或人脸相似度比对。
9.一种图像处理***,其特征在于,包括:
获取模块,用于获取待处理人脸图像;
处理模块,用于将所述人脸图像输入到预设的构建有损失函数的卷积神经网络模型中,且所述损失函数经参数正则化化处理,使所述卷积神经网络模型定向筛选增大图像分类后的类间距离;
理解模块,用于获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对所述人脸图像进行内容理解。
10.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-8任意一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711072281.1A CN107886062B (zh) | 2017-11-03 | 2017-11-03 | 图像处理方法、***及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711072281.1A CN107886062B (zh) | 2017-11-03 | 2017-11-03 | 图像处理方法、***及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886062A true CN107886062A (zh) | 2018-04-06 |
CN107886062B CN107886062B (zh) | 2019-05-10 |
Family
ID=61778500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711072281.1A Active CN107886062B (zh) | 2017-11-03 | 2017-11-03 | 图像处理方法、***及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886062B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805259A (zh) * | 2018-05-23 | 2018-11-13 | 北京达佳互联信息技术有限公司 | 神经网络模型训练方法、装置、存储介质及终端设备 |
CN109711386A (zh) * | 2019-01-10 | 2019-05-03 | 北京达佳互联信息技术有限公司 | 获取识别模型的方法、装置、电子设备及存储介质 |
CN109726291A (zh) * | 2018-12-29 | 2019-05-07 | 中科鼎富(北京)科技发展有限公司 | 分类模型的损失函数优化方法、装置及样本分类方法 |
CN109932699A (zh) * | 2019-03-15 | 2019-06-25 | 西安电子科技大学 | 一种雷达辐射源识别方法、装置、计算机设备和存储介质 |
CN110598723A (zh) * | 2018-06-13 | 2019-12-20 | 北京深鉴智能科技有限公司 | 人工神经网络调整方法和装置 |
CN110929099A (zh) * | 2019-11-28 | 2020-03-27 | 杭州趣维科技有限公司 | 一种基于多任务学习的短视频帧语义提取方法及*** |
CN112766399A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种面向图像识别的自适应神经网络训练方法 |
CN113177525A (zh) * | 2021-05-27 | 2021-07-27 | 杭州有赞科技有限公司 | 一种ai电子秤***和称量方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8626676B2 (en) * | 2010-03-18 | 2014-01-07 | Microsoft Corporation | Regularized dual averaging method for stochastic and online learning |
CN104361328A (zh) * | 2014-11-21 | 2015-02-18 | 中国科学院重庆绿色智能技术研究院 | 一种基于自适应多列深度模型的人脸图像正规化方法 |
CN105243398A (zh) * | 2015-09-08 | 2016-01-13 | 西安交通大学 | 基于线性判别分析准则的改进卷积神经网络性能的方法 |
CN105469041A (zh) * | 2015-11-19 | 2016-04-06 | 上海交通大学 | 基于多任务正则化与逐层监督神经网络的人脸点检测*** |
CN106022317A (zh) * | 2016-06-27 | 2016-10-12 | 北京小米移动软件有限公司 | 人脸识别方法及装置 |
CN106503669A (zh) * | 2016-11-02 | 2017-03-15 | 重庆中科云丛科技有限公司 | 一种基于多任务深度学习网络的训练、识别方法及*** |
CN106897667A (zh) * | 2017-01-17 | 2017-06-27 | 桂林电子科技大学 | 一种人脸检索方法和*** |
CN107169454A (zh) * | 2017-05-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种人脸图像年龄估算方法、装置及其终端设备 |
CN107203752A (zh) * | 2017-05-25 | 2017-09-26 | 四川云图睿视科技有限公司 | 一种联合深度学习和特征二范数约束的人脸识别方法 |
-
2017
- 2017-11-03 CN CN201711072281.1A patent/CN107886062B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8626676B2 (en) * | 2010-03-18 | 2014-01-07 | Microsoft Corporation | Regularized dual averaging method for stochastic and online learning |
CN104361328A (zh) * | 2014-11-21 | 2015-02-18 | 中国科学院重庆绿色智能技术研究院 | 一种基于自适应多列深度模型的人脸图像正规化方法 |
CN105243398A (zh) * | 2015-09-08 | 2016-01-13 | 西安交通大学 | 基于线性判别分析准则的改进卷积神经网络性能的方法 |
CN105469041A (zh) * | 2015-11-19 | 2016-04-06 | 上海交通大学 | 基于多任务正则化与逐层监督神经网络的人脸点检测*** |
CN106022317A (zh) * | 2016-06-27 | 2016-10-12 | 北京小米移动软件有限公司 | 人脸识别方法及装置 |
CN106503669A (zh) * | 2016-11-02 | 2017-03-15 | 重庆中科云丛科技有限公司 | 一种基于多任务深度学习网络的训练、识别方法及*** |
CN106897667A (zh) * | 2017-01-17 | 2017-06-27 | 桂林电子科技大学 | 一种人脸检索方法和*** |
CN107169454A (zh) * | 2017-05-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种人脸图像年龄估算方法、装置及其终端设备 |
CN107203752A (zh) * | 2017-05-25 | 2017-09-26 | 四川云图睿视科技有限公司 | 一种联合深度学习和特征二范数约束的人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
H. ZHAO 等: "Loss Functions for Image Restoration With Neural Networks", 《IEEE TRANSACTIONS ON COMPUTATIONAL IMAGING》 * |
邵蔚元,郭跃飞: "多任务学习及卷积神经网络在人脸识别中的应用", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805259A (zh) * | 2018-05-23 | 2018-11-13 | 北京达佳互联信息技术有限公司 | 神经网络模型训练方法、装置、存储介质及终端设备 |
CN110598723A (zh) * | 2018-06-13 | 2019-12-20 | 北京深鉴智能科技有限公司 | 人工神经网络调整方法和装置 |
CN110598723B (zh) * | 2018-06-13 | 2023-12-12 | 赛灵思电子科技(北京)有限公司 | 人工神经网络调整方法和装置 |
CN109726291A (zh) * | 2018-12-29 | 2019-05-07 | 中科鼎富(北京)科技发展有限公司 | 分类模型的损失函数优化方法、装置及样本分类方法 |
CN109711386A (zh) * | 2019-01-10 | 2019-05-03 | 北京达佳互联信息技术有限公司 | 获取识别模型的方法、装置、电子设备及存储介质 |
CN109932699A (zh) * | 2019-03-15 | 2019-06-25 | 西安电子科技大学 | 一种雷达辐射源识别方法、装置、计算机设备和存储介质 |
CN110929099A (zh) * | 2019-11-28 | 2020-03-27 | 杭州趣维科技有限公司 | 一种基于多任务学习的短视频帧语义提取方法及*** |
CN112766399A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种面向图像识别的自适应神经网络训练方法 |
CN112766399B (zh) * | 2021-01-28 | 2021-09-28 | 电子科技大学 | 一种面向图像识别的自适应神经网络训练方法 |
CN113177525A (zh) * | 2021-05-27 | 2021-07-27 | 杭州有赞科技有限公司 | 一种ai电子秤***和称量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107886062B (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107886062A (zh) | 图像处理方法、***及服务器 | |
CN108108807B (zh) | 学习型图像处理方法、***及服务器 | |
CN107818314A (zh) | 脸部图像处理方法、装置及服务器 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Wang et al. | Research on face recognition based on deep learning | |
CN107679513B (zh) | 图像处理方法、装置及服务器 | |
US11417148B2 (en) | Human face image classification method and apparatus, and server | |
CN107346436B (zh) | 一种融合图像分类的视觉显著性检测方法 | |
CN111401265B (zh) | 行人重识别方法、装置、电子设备和计算机可读存储介质 | |
CN108108764B (zh) | 一种基于随机森林的视觉slam回环检测方法 | |
Zhao et al. | ApLeaf: An efficient android-based plant leaf identification system | |
CN109583449A (zh) | 字符识别方法及相关产品 | |
CN109271884A (zh) | 人脸属性识别方法、装置、终端设备和存储介质 | |
Sandid et al. | Robust color texture descriptor for material recognition | |
CN108492301A (zh) | 一种场景分割方法、终端及存储介质 | |
Yingxin et al. | A robust hand gesture recognition method via convolutional neural network | |
CN107944363A (zh) | 人脸图像处理方法、***及服务器 | |
CN106203448B (zh) | 一种基于非线性尺度空间的场景分类方法 | |
JP6713162B2 (ja) | 画像認識装置、画像認識方法、及び画像認識プログラム | |
CN111340051A (zh) | 图片处理方法、装置及存储介质 | |
Lin et al. | Low‐complexity face recognition using contour‐based binary descriptor | |
CN117011274A (zh) | 自动化玻璃瓶检测***及其方法 | |
Lahiani et al. | Hand pose estimation system based on Viola-Jones algorithm for android devices | |
WO2020199498A1 (zh) | 指静脉比对方法、装置、计算机设备及存储介质 | |
Xia et al. | Texture characterization using shape co-occurrence patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |