CN109447146A - 分类优化方法及装置 - Google Patents

分类优化方法及装置 Download PDF

Info

Publication number
CN109447146A
CN109447146A CN201811243820.8A CN201811243820A CN109447146A CN 109447146 A CN109447146 A CN 109447146A CN 201811243820 A CN201811243820 A CN 201811243820A CN 109447146 A CN109447146 A CN 109447146A
Authority
CN
China
Prior art keywords
classification
parameter
layer
network
training image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811243820.8A
Other languages
English (en)
Inventor
苏灿平
余清洲
许清泉
洪炜冬
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meitu Technology Co Ltd
Original Assignee
Xiamen Meitu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meitu Technology Co Ltd filed Critical Xiamen Meitu Technology Co Ltd
Priority to CN201811243820.8A priority Critical patent/CN109447146A/zh
Publication of CN109447146A publication Critical patent/CN109447146A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种分类优化方法及装置,该方法包括:对预先构建的神经网络进行初始化处理,构建参数矩阵,利用参数矩阵对神经网络中的分类层参数进行正交初始化处理;将训练图像导入至所述神经网络,获得训练图像经过网络层后输出的特征向量;根据参数矩阵及特征向量计算得到损失函数;根据该损失函数对各网络层对应的网络层权值以及分类层对应的分类层权值进行梯度计算以更新网络层权值及分类层权值;根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。该分类优化方案增加了类别参数之间的相互正交的约束,促使不同类别相对独立,使得神经网络模型更具判别性。

Description

分类优化方法及装置
技术领域
本发明涉及图像识别技术领域,具体而言,涉及一种分类优化方法及装置。
背景技术
多分类问题是实际应用场景中常见的问题之一。在深度神经网络中,Softmax是最常被使用的损失函数。这是因为,Softmax具有结构简单和梯度运算高效等特点。但是许多研究已经表明,仅仅采用Softmax损失函数监督网络模型进行训练时,得到的特征判别性不足。切确地说,在图像比较相似时,网络对图像的分类容易出错。这主要是因为,Softmax仅对类间距离做了优化,未收缩类内样本的距离。
现有方案中有基于Softmax的改进方法和基于多元组的Contrastive(二元组)和Triplet(三元组)方法以用于解决上述问题。但是,基于Softmax损失的改进方法主要关注于加性间距,如AM-Softmax,但都未对类别中心进行约束,而是随模型训练进行动态学习。而多元组方法虽然对样本间的距离做约束,但高质量的样本对存在生成困难的问题,且梯度更新运算较为复杂。
发明内容
有鉴于此,本申请的目的在于,提供一种分类优化方法及装置以改善上述问题。
本申请实施例提供一种分类优化方法,所述方法包括:
对预先建立的神经网络进行初始化处理,所述神经网络包括分类层及多个网络层;
构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,所述参数矩阵包括所述分类层的分类层权值,且所述参数矩阵中各个行向量两两正交;
将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量;
根据所述参数矩阵及所述特征向量计算得到损失函数;
根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值;
根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。
可选地,所述分类层包括多个类别参数,所述构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理的步骤,包括:
根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵,所述参数矩阵中各行类别参数之间两两正交;
根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。
可选地,所述将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量的步骤,包括:
将训练图像导入至所述神经网络,对所述训练图像进行特征提取;
将提取到的特征与所述网络层对应的网络层权值进行矩阵计算;
对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。
可选地,所述根据所述参数矩阵及所述特征向量计算得到损失函数的步骤,包括:
根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数;
根据所述初始函数及所述分类层权值计算得到损失函数。
可选地,所述根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数的步骤,包括:
根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数并按以下公式计算得到初始函数:
其中,Losssoftmax为初始函数,WFCclass为所述分类层的参数矩阵,M为训练图像的个数,K为所述分类层的类别数,fi为第i个训练图像经过所述网络层后输出的特征向量,fj为第j个训练图像经过所述网络层后输出的特征向量,yi为第i个训练图像对应的类别,为第i个训练图像对应的分类层权值。
可选地,所述根据所述初始函数及所述分类层权值计算得到损失函数的步骤,包括:
根据所述初始函数及所述分类层权值并按以下公式计算得到初始函数:
Loss=Losssoftmax+λ||WT FCclassWFCclass-I||
其中,Loss为损失函数,λ为固定常数,WT FCclass为所述分类层的参数矩阵的转置矩阵,I为单位矩阵。
本申请实施例还提供一种分类优化装置,所述装置包括:
初始化处理模块,用于对预先建立的神经网络进行初始化处理,所述神经网络包括分类层及多个网络层;
构建模块,用于构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,所述参数矩阵包括所述分类层的分类层权值,且所述参数矩阵中各个行向量两两正交;
特征向量获取模块,用于将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量;
计算模块,用于根据所述参数矩阵及所述特征向量计算得到损失函数;
更新模块,用于根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值;
训练模块,用于根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。
可选地,所述分类层包括多个类别参数,所述构建模块包括:
构建单元,用于根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵,所述参数矩阵中各行类别参数之间两两正交;
初始化单元,用于根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。
可选地,所述特征向量获取模块包括:
提取单元,用于将训练图像导入至所述神经网络,对所述训练图像进行特征提取;
矩阵计算单元,用于将提取到的特征与所述网络层对应的网络层权值进行矩阵计算;
归一化处理单元,用于对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。
可选地,所述计算模块包括:
第一计算单元,用于根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数;
第二计算单元,用于根据所述初始函数及所述分类层权值计算得到损失函数。
本申请实施例提供的分类优化方法及装置,通过构建内部行向量两两正交的参数矩阵以对神经网络中的分类层参数进行正交初始化处理,利用参数矩阵及训练图像的特征向量计算损失函数,并根据计算得到的损失函数对网络层权值进行梯度计算以更新网络层权值。后续利用更新后的神经网络对输入图像进行训练。该分类优化方案增加了类别参数之间的相互正交的约束,促使不同类别相对独立,使得神经网络模型更具判别性。并且,该方案相对现有技术而言,未引入额外的超参数,训练过程更加简单。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构框图。
图2为本申请实施例提供的分类优化方法的流程图。
图3为图2中步骤S130的子步骤的流程图。
图4为图2中步骤S140的子步骤的流程图。
图5为本申请实施例提供的分类优化装置的功能模块框图。
图6为本申请实施例提供的构建模块的功能模块框图。
图7为本申请实施例提供的特征向量获取模块的功能模块框图。
图8为本申请实施例提供的计算模块的功能模块框图。
图标:100-电子设备;110-分类优化装置;111-初始化处理模块;112-构建模块;1121-构建单元;1122-初始化单元;113-特征向量获取模块;1131-提取单元;1132-矩阵计算单元;1133-归一化处理单元;114-计算模块;1141-第一计算单元;1142-第二计算单元;115-更新模块;116-训练模块;120-处理器;130-存储器。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
如图1所示,本发明实施例提供了一种电子设备100,所述电子设备100包括存储器130、处理器120和分类优化装置110。
所述存储器130和处理器120之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述分类优化装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器130中的软件功能模块。所述处理器120用于执行所述存储器130中存储的可执行的计算机程序,例如,所述分类优化装置110所包括的软件功能模块及计算机程序等,以实现分类优化方法。
其中,所述存储器130可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器130用于存储程序,所述处理器120在接收到执行指令后,执行所述程序。
所述处理器120可能是一种集成电路芯片,具有信号的处理能力。上述的处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器120也可以是任何常规的处理器等。
可以理解,图1所示的结构仅为示意,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
可选地,所述电子设备100的具体类型不受限制,例如,可以是,但不限于,个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)、移动上网设备(mobile Internet device,MID)、web(网站)服务器、数据服务器等具有处理功能的设备。
结合图2,本发明实施例还提供一种可应用于上述电子设备100的分类优化方法。其中,所述方法有关的流程所定义的方法步骤可以由所述处理器120实现。下面将对图2所示的具体流程进行详细阐述。
步骤S110,对预先建立的神经网络进行初始化处理,所述神经网络包括分类层及多个网络层。
步骤S120,构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,所述参数矩阵包括所述分类层的分类层权值,且所述参数矩阵中各个行向量两两正交。
为了提高原始Softmax的判别性,本实施例对深度神经网络的最后一层,即分类层作出改进。分类层中,每一个类别的参数可以理解成是在维护该类别的一个类中心。原始的Softmax未对各个类的类中心之间做约束,任其动态调节,这导致某些类之间的中心可能相距较近,导致模型在某些样本上难以区分。
可选地,本实施例中,可对预先建立的神经网络进行初始化处理,该初始化处理过程可为随机性的初始化。可预先构建参数矩阵,其中,所述参数矩阵包括所述分类层的分类层权值,而分类层中的类别参数与分类层权值对应,可选地,每个类的类别参数对应于分类层中的一个与前一层节点数一致的分类层权值。所述参数矩阵中各个行向量之间两两正交。
利用构建的所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,如此,神经网络中的分类层在经过正交初始化处理之后,分类层中每个类的类别参数之间两两正交。
在本实施例中,上述步骤可通过以下过程实现:
根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵,其中,所述参数矩阵中各行类别参数之间两两正交。根据所述参数矩阵对所述神经网络包括的分类层参数进行正交初始化处理。
步骤S130,将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量。
在完成对神经网络的正交初始化处理之后,将获得的训练图像导入至经过所述神经网络,通过网络层训练可得到训练图像的特征向量。
请参阅图3,在本实施例中,步骤S130可以包括步骤S131、步骤S132以及步骤S133三个子步骤。
步骤S131,将训练图像导入至所述神经网络,对所述训练图像进行特征提取。
步骤S132,将提取到的特征与所述网络层对应的网络层权值进行矩阵计算。
步骤S133,对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。
步骤S140,根据所述参数矩阵及所述特征向量计算得到损失函数。
由上述可知,原始的Softmax未对各个类的类中心之间做约束,任其动态调节,这导致某些类之间的中心可能相距较近,导致模型在某些样本上难以区分。因此,在本实施例中,根据上述构建的参数矩阵及得到的所述特征向量以计算得到损失函数。
可选地,请参阅图4,在本实施例中,步骤S140包括步骤S141及步骤S142。
步骤S141,根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数。
步骤S142,根据所述初始函数及所述分类层权值计算得到损失函数。
在本实施例中,首先计算得到初始函数,在初始函数的基础上考虑类别参数之间的约束条件,将各个类别参数维护的类中心的距离约束在正交状态,使得后续训练得到的特征更具有区分度。
可选地,本实施例中,根据所述参数矩阵、所述特征向量以及所述训练图像的数量按以下公式计算得到初始函数:
其中,Losssoftmax为初始函数,WFCclass为所述分类层的参数矩阵,M为训练图像的个数,K为所述分类层的类别数,fi为第i个训练图像经过所述网络层后输出的特征向量,fj为第j个训练图像经过所述网络层后输出的特征向量,yi为第i个训练图像对应的类别,为第i个训练图像对应的分类层权值。
在获得初始函数之后,根据所述初始函数及所述分类层权值并按以下公式计算得到损失函数:
Loss=Losssoftmax+λ||WT FCclassWFCclass-I||
其中,Loss为损失函数,λ为固定常数,WT FCclass为所述分类层的参数矩阵的转置矩阵,I为单位矩阵。
步骤S150,根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值。
步骤S160,根据更新网络层权值和分类层权值后的神经网络对输入图像进行训练。
本实施例中,利用计算得到的损失函数对各个网络层权值及分类层权值进行梯度计算,从而利用权值更新公式更新网络层权值及分类层权值。其中,权值更新公式可采用现有技术中的常用公式,本实施例不作赘述。在对权值进行更新时,由于加入了分类层权值正交化约束,则每个类别的类中心受到约束。
如此,后续在根据更新网络层权值和分类层权值后的神经网络对输入图像进行训练时,输入图像不断向对应类中心靠拢从而达到收缩类内距离的目的。而若未对类中心进行约束,类中心之间可能存在距离较近的现象,即使输入图像不断向类中心靠拢,也会出现由于类中心较近而不易被区分的问题。
请参阅图5,本申请实施例还提供一种应用于上述电子设备100的分类优化装置110,所述装置包括初始化处理模块111、构建模块112、特征向量获取模块113、计算模块114、更新模块115以及训练模块116。
所述初始化处理模块111用于对预先建立的神经网络进行初始化处理,所述神经网络包括分类层及多个网络层。在本实施例中,关于初始化处理模块111的描述具体可参考对图2所示的步骤S110的详细描述,即步骤S110可以由初始化处理模块111执行。
所述构建模块112,用于构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,所述参数矩阵包括所述分类层的分类层权值,且所述参数矩阵中各个行向量两两正交。在本实施例中,关于构建模块112的描述具体可参考对图2所示的步骤S120的详细描述,即步骤S120可以由构建模块112执行。
所述特征向量获取模块113,用于将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量。在本实施例中,关于特征向量获取模块113的描述具体可参考对图2所示的步骤S130的详细描述,即步骤S130可以由特征向量获取模块113执行。
所述计算模块114,用于根据所述参数矩阵及所述特征向量计算得到损失函数。在本实施例中,关于计算模块114的描述具体可参考对图2所示的步骤S140的详细描述,即步骤S140可以由计算模块114执行。
所述更新模块115,用于根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值。在本实施例中,关于更新模块115的描述具体可参考对图2所示的步骤S150的详细描述,即步骤S150可以由更新模块115执行。
所述训练模块116,用于根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。在本实施例中,关于训练模块116的描述具体可参考对图2所示的步骤S160的详细描述,即步骤S160可以由训练模块116执行。
可选地,请参阅图6,所述分类层包括多个类别参数,所述构建模块112包括构建单元1121及初始化单元1122。
所述构建单元1121,用于根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵,所述参数矩阵中各行类别参数之间两两正交。
所述初始化单元1122,用于根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。
可选地,请参阅图7,所述特征向量获取模块113包括提取单元1131、矩阵计算单元1132及归一化处理单元1133。
所述提取单元1131,用于将训练图像导入至所述神经网络,对所述训练图像进行特征提取。在本实施例中,关于提取单元1131的描述具体可参考对图3所示的步骤S131的详细描述,即步骤S131可以由提取单元1131执行。
所述矩阵计算单元1132,用于将提取到的特征与所述网络层对应的网络层权值进行矩阵计算。在本实施例中,关于矩阵计算单元1132的描述具体可参考对图3所示的步骤S132的详细描述,即步骤S132可以由矩阵计算单元1132执行。
所述归一化处理单元1133,用于对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。在本实施例中,关于归一化处理单元1133的描述具体可参考对图3所示的步骤S133的详细描述,即步骤S133可以由归一化处理单元1133执行。
可选地,请参阅图8,所述计算模块114包括第一计算单元1141及第二计算单元1142。
所述第一计算单元1141,用于根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数。在本实施例中,关于第一计算单元1141的描述具体可参考对图4所示的步骤S141的详细描述,即步骤S141可以由第一计算单元1141执行。
所述第二计算单元1142,用于根据所述初始函数及所述分类层权值计算得到损失函数。在本实施例中,关于第二计算单元1142的描述具体可参考对图4所示的步骤S142的详细描述,即步骤S142可以由第二计算单元1142执行。
综上所述,本申请实施例提供的分类优化方法及装置,通过构建内部行向量两两正交的参数矩阵以对神经网络进行正交初始化处理,利用参数矩阵及训练图像的特征向量计算损失函数,并根据计算得到的损失函数对网络层权值进行梯度计算以更新网络层权值。后续利用更新后的神经网络对输入图像进行训练。该分类优化方案增加了类别参数之间的相互正交的约束,促使不同类别相对独立,使得神经网络模型更具判别性。并且,该方案相对现有技术而言,未引入额外的超参数,训练过程更加简单。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种分类优化方法,其特征在于,所述方法包括:
对预先建立的神经网络进行初始化处理,所述神经网络包括分类层及多个网络层;
构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,所述参数矩阵包括所述分类层的分类层权值,且所述参数矩阵中各个行向量两两正交;
将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量;
根据所述参数矩阵及所述特征向量计算得到损失函数;
根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值;
根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。
2.根据权利要求1所述的分类优化方法,其特征在于,所述分类层包括多个类别参数,所述构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理的步骤,包括:
根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵,所述参数矩阵中各行类别参数之间两两正交;
根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。
3.根据权利要求1所述的分类优化方法,其特征在于,所述将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量的步骤,包括:
将训练图像导入至所述神经网络,对所述训练图像进行特征提取;
将提取到的特征与所述网络层对应的网络层权值进行矩阵计算;
对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。
4.根据权利要求1所述的分类优化方法,其特征在于,所述根据所述参数矩阵及所述特征向量计算得到损失函数的步骤,包括:
根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数;
根据所述初始函数及所述分类层权值计算得到损失函数。
5.根据权利要求4所述的分类优化方法,其特征在于,所述根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数的步骤,包括:
根据所述参数矩阵、所述特征向量以及所述训练图像的数量按以下公式计算得到初始函数:
其中,Losssoftmax为初始函数,WFCclass为所述分类层的参数矩阵,M为训练图像的个数,K为所述分类层的类别数,fi为第i个训练图像经过所述网络层后输出的特征向量,fj为第j个训练图像经过所述网络层后输出的特征向量,yi为第i个训练图像对应的类别,为第i个训练图像对应的分类层权值。
6.根据权利要求5所述的分类优化方法,其特征在于,所述根据所述初始函数及所述分类层权值计算得到损失函数的步骤,包括:
根据所述初始函数及所述分类层权值并按以下公式计算得到损失函数:
Loss=Losssoftmax+λ||WT FCclassWFCclass-I||
其中,Loss为损失函数,λ为固定常数,WT FCclass为所述分类层的参数矩阵的转置矩阵,I为单位矩阵。
7.一种分类优化装置,其特征在于,所述装置包括:
初始化处理模块,用于对预先建立的神经网络进行初始化处理,所述神经网络包括分类层及多个网络层;
构建模块,用于构建参数矩阵,利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理,所述参数矩阵包括所述分类层的分类层权值,且所述参数矩阵中各个行向量两两正交;
特征向量获取模块,用于将训练图像导入至所述神经网络,获得所述训练图像经过所述网络层后输出的特征向量;
计算模块,用于根据所述参数矩阵及所述特征向量计算得到损失函数;
更新模块,用于根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值;
训练模块,用于根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。
8.根据权利要求7所述的分类优化装置,其特征在于,所述分类层包括多个类别参数,所述构建模块包括:
构建单元,用于根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵,所述参数矩阵中各行类别参数之间两两正交;
初始化单元,用于根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。
9.根据权利要求7所述的分类优化装置,其特征在于,所述特征向量获取模块包括:
提取单元,用于将训练图像导入至所述神经网络,对所述训练图像进行特征提取;
矩阵计算单元,用于将提取到的特征与所述网络层对应的网络层权值进行矩阵计算;
归一化处理单元,用于对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。
10.根据权利要求7所述的分类优化装置,其特征在于,所述计算模块包括:
第一计算单元,用于根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数;
第二计算单元,用于根据所述初始函数及所述分类层权值计算得到损失函数。
CN201811243820.8A 2018-10-24 2018-10-24 分类优化方法及装置 Pending CN109447146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811243820.8A CN109447146A (zh) 2018-10-24 2018-10-24 分类优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811243820.8A CN109447146A (zh) 2018-10-24 2018-10-24 分类优化方法及装置

Publications (1)

Publication Number Publication Date
CN109447146A true CN109447146A (zh) 2019-03-08

Family

ID=65548176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811243820.8A Pending CN109447146A (zh) 2018-10-24 2018-10-24 分类优化方法及装置

Country Status (1)

Country Link
CN (1) CN109447146A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222841A (zh) * 2019-06-17 2019-09-10 苏州思必驰信息科技有限公司 基于间距损失函数的神经网络训练方法和装置
CN110263855A (zh) * 2019-06-20 2019-09-20 深圳大学 一种利用共基胶囊投影进行图像分类的方法
CN110321965A (zh) * 2019-07-10 2019-10-11 腾讯科技(深圳)有限公司 物体重识别模型的训练方法、物体重识别的方法及装置
CN110705689A (zh) * 2019-09-11 2020-01-17 清华大学 可区分特征的持续学习方法及装置
CN110909785A (zh) * 2019-11-18 2020-03-24 西北工业大学 基于语义层级的多任务Triplet损失函数学习方法
CN111242217A (zh) * 2020-01-13 2020-06-05 支付宝实验室(新加坡)有限公司 图像识别模型的训练方法、装置、电子设备及存储介质
CN111598227A (zh) * 2020-05-20 2020-08-28 字节跳动有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111738436A (zh) * 2020-06-28 2020-10-02 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质
CN113255527A (zh) * 2021-05-28 2021-08-13 汉谷云智(武汉)科技有限公司 混凝土卸料过程操作规范性监测方法及设备
CN113469249A (zh) * 2021-06-30 2021-10-01 阿波罗智联(北京)科技有限公司 图像分类模型训练方法、分类方法、路侧设备和云控平台
CN116306862A (zh) * 2023-01-04 2023-06-23 北京百度网讯科技有限公司 用于文本处理神经网络的训练方法、装置和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803069A (zh) * 2016-12-29 2017-06-06 南京邮电大学 基于深度学习的人群高兴程度识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803069A (zh) * 2016-12-29 2017-06-06 南京邮电大学 基于深度学习的人群高兴程度识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDREW M. SAXE ET AL.: "Exact solutions to the nonlinear dynamics of learning in deep linear neural networks", 《ARXIV:1312.6120V3》 *
MAYANK SINGH ET AL.: "Neural Networks in Adversarial Setting and Ill-Conditioned Weight Space", 《ARXIV:1801.00905V1》 *
张明键,韦岗: "一种信号源盲分离的神经网络算法", 《信号处理》 *
辛晨: "基于深度学习的图像分类及应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222841A (zh) * 2019-06-17 2019-09-10 苏州思必驰信息科技有限公司 基于间距损失函数的神经网络训练方法和装置
CN110263855A (zh) * 2019-06-20 2019-09-20 深圳大学 一种利用共基胶囊投影进行图像分类的方法
CN110263855B (zh) * 2019-06-20 2021-12-14 深圳大学 一种利用共基胶囊投影进行图像分类的方法
CN110321965B (zh) * 2019-07-10 2021-06-18 腾讯科技(深圳)有限公司 物体重识别模型的训练方法、物体重识别的方法及装置
CN110321965A (zh) * 2019-07-10 2019-10-11 腾讯科技(深圳)有限公司 物体重识别模型的训练方法、物体重识别的方法及装置
CN110705689A (zh) * 2019-09-11 2020-01-17 清华大学 可区分特征的持续学习方法及装置
CN110705689B (zh) * 2019-09-11 2021-09-24 清华大学 可区分特征的持续学习方法及装置
CN110909785A (zh) * 2019-11-18 2020-03-24 西北工业大学 基于语义层级的多任务Triplet损失函数学习方法
CN110909785B (zh) * 2019-11-18 2021-09-14 西北工业大学 基于语义层级的多任务Triplet损失函数学习方法
CN111242217A (zh) * 2020-01-13 2020-06-05 支付宝实验室(新加坡)有限公司 图像识别模型的训练方法、装置、电子设备及存储介质
CN111598227A (zh) * 2020-05-20 2020-08-28 字节跳动有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111598227B (zh) * 2020-05-20 2023-11-03 字节跳动有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111738436A (zh) * 2020-06-28 2020-10-02 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质
CN111738436B (zh) * 2020-06-28 2023-07-18 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质
CN113255527A (zh) * 2021-05-28 2021-08-13 汉谷云智(武汉)科技有限公司 混凝土卸料过程操作规范性监测方法及设备
CN113469249A (zh) * 2021-06-30 2021-10-01 阿波罗智联(北京)科技有限公司 图像分类模型训练方法、分类方法、路侧设备和云控平台
CN113469249B (zh) * 2021-06-30 2024-04-09 阿波罗智联(北京)科技有限公司 图像分类模型训练方法、分类方法、路侧设备和云控平台
CN116306862A (zh) * 2023-01-04 2023-06-23 北京百度网讯科技有限公司 用于文本处理神经网络的训练方法、装置和介质

Similar Documents

Publication Publication Date Title
CN109447146A (zh) 分类优化方法及装置
Ghodsi et al. Safetynets: Verifiable execution of deep neural networks on an untrusted cloud
Ma et al. Nonnegative matrix factorization algorithms for link prediction in temporal networks using graph communicability
Lu et al. High-speed channel modeling with machine learning methods for signal integrity analysis
Eustace et al. Overlapping community detection using neighborhood ratio matrix
Almarashdeh et al. An overview of technology evolution: Investigating the factors influencing non-bitcoins users to adopt bitcoins as online payment transaction method
CN109034365A (zh) 深度学习模型的训练方法及装置
Dotoli et al. Real time identification of discrete event systems using Petri nets
Hua et al. Robust H∞ filtering for continuous-time nonhomogeneous Markov jump nonlinear systems with randomly occurring uncertainties
CN113434859B (zh) 入侵检测方法、装置、设备及存储介质
CN108647525A (zh) 可验证的隐私保护单层感知机批量训练方法
Shin et al. Multi-scale link prediction
Al-Ahmadi PDMLP: phishing detection using multilayer perceptron
CN106534224A (zh) 智能网络攻击检测方法及装置
CN111723846A (zh) 基于随机性特征的加密和压缩流量识别方法及装置
Avvaru et al. Estimating delay differences of arbiter PUFs using silicon data
CN104598925A (zh) 一种基于ELM的多类Adaboost集成学习方法
Chapman et al. Strong structural controllability of networked dynamics
CN109495513A (zh) 无监督的加密恶意流量检测方法、装置、设备及介质
CN113934983A (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
CN110245493A (zh) 一种基于深度置信网络的Android恶意软件检测的方法
Mohammadpourfard et al. Generation of false data injection attacks using conditional generative adversarial networks
Zulhilmi et al. A comparison of three machine learning algorithms in the classification of network intrusion
Selvam et al. Nelder–Mead Simplex Search Method-A Study
EP3188403A1 (en) Method for controlling error rate of device-specific information, and program for controlling error rate of device-specific information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308

RJ01 Rejection of invention patent application after publication