CN107845116B - 生成平面图像的压缩编码的方法和装置 - Google Patents

生成平面图像的压缩编码的方法和装置 Download PDF

Info

Publication number
CN107845116B
CN107845116B CN201710960042.3A CN201710960042A CN107845116B CN 107845116 B CN107845116 B CN 107845116B CN 201710960042 A CN201710960042 A CN 201710960042A CN 107845116 B CN107845116 B CN 107845116B
Authority
CN
China
Prior art keywords
training
group
loss function
network
network training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710960042.3A
Other languages
English (en)
Other versions
CN107845116A (zh
Inventor
汪振华
陈宇
赵士超
麻晓珍
安山
翁志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710960042.3A priority Critical patent/CN107845116B/zh
Publication of CN107845116A publication Critical patent/CN107845116A/zh
Application granted granted Critical
Publication of CN107845116B publication Critical patent/CN107845116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种生成平面图像的压缩编码的方法和装置,有助于得到特征表达力较佳的图像压缩编码,并提高处理效率。本发明的生成平面图像的压缩编码的方法包括:按照深度学***面图像数据进行计算,从而得到该平面图像的压缩编码。

Description

生成平面图像的压缩编码的方法和装置
技术领域
本发明涉及图像特征计算技术领域,特别地涉及一种生成平面图像的压缩编码的方法和装置。
背景技术
图像特征是分析图像的基础。比如聚类场景:计算机需要将相似的图片放在一起,不相似的分开;其判断依据是基于图像内容提取出来的图像特征,相近似的图片之间的特征距离小,不相似的图像之间特征距离远。一种好的图像特征一方面能通过距离远近清晰界定图像重复、相似和不相似;另一方面还能节省存储开销并利于高效的距离比较。
图像压缩编码属于图像特征的一种。现有大量存在的图像特征是浮点数表达,而压缩编码特征的意义在于不显著降低特征表达力的同时能显著降低特征存储成本并方便特进行征距离比较。
现有技术中,生成平面图像的压缩编码的方案主要有基于汉明距离LSH(LocalitySensitive Hashing)的方案和基于机器学习方法的方案,后者主要指有监督学习的机器学习方法。以下分别加以介绍。
LSH又称局部敏感哈希,其基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。假设预期输出k个bit位压缩二值编码,我们通过设计k个哈希函数{H1 g,H2 g,H3 g,…,
Figure BDA0001434979470000011
},其中哈希函数的输入为浮点特征值,输出为0或1,将原始K个浮点位映射到k个bit位,通常的做法是从K个浮点位随机抽取k个不同位,应用上述k个哈希函数进行投影装换,最后生成一个k位长度的bit串。
LSH方案可分三步进行,第一步是设置映射,即设置特征向量中哪些特征维需要哈希函数投影;第二步是设置哈希函数,其中固定或随机设置超平面阈值用于决定压缩编码值为0或1;第三步是映射,即对待映射特征维执行哈希函数以得到图像的二值码形式的压缩编码。
基于机器学方法(有监督学习)的方案可分为三步,第一步是进行训练数据标注;第二步是执行训练过程,学习得到哈希函数;第三步是进行映射,其中通过网络前向运算,将输入图像直接转化得到二值码形式的压缩编码。
对于上述的LSH方案,因为哈希函数是人工固定或随机函数,缺乏泛化能力,并且其属于相对学习的算法,精度比较差。上述的有监督学习方法需要人工标注大量数据,而且其目标定位在分类,在重图鉴别等领域,其精度相对较差。精度不佳的直接后果是导致图像压缩编码的特征表达力不够,从而难以界定图像之间的相似度。
发明内容
有鉴于此,本发明提供一种生成平面图像的压缩编码的方法和装置,有助于得到特征表达力较佳的图像压缩编码,并提高处理效率。
为实现上述目的,根据本发明的一个方面,提供了一种生成平面图像的压缩编码的方法和装置。
本发明的生成平面图像的压缩编码的方法包括:按照深度学***移具备不变性,然后进行第一轮训练,其中包括第一组网络训练、第二组网络训练、以及第三组网络训练;在所述第一组网络训练中,针对第一损失函数层和第二损失函数层进行训练;在所述第二组网络训练中,使用第一组网络训练后得到的权重文件进行初始化,并针对所述三个损失函数层进行训练;在所述第三组网络训练中,使用第二组网络训练后得到的权重文件进行初始化,并将第三组网络的输入层修改为只有一个数据输入层,并训练一次以得到第一轮训练的结果模型;将第一个损失函数层的损失函数修改为:预期各位编码均值趋近0;以及从所述三组网络的定义中删除位于全连层和损失函数之间的非线性激活单元,然后再次进行所述第一组网络训练、第二组网络训练、以及第三组网络训练以得到定型结果模型,其中第一组网络训练的初始化权重是第一轮训练中第三组网络训练后得到的权重;使用所述定型结果模型对输入的平面图像数据进行计算,从而得到该平面图像的压缩编码。
可选地,使用所述定型结果模型对输入的平面图像数据进行计算的步骤之前,还包括:将三通道彩色图像文件转换为三个二维无符号整数矩阵;其中每个通道对应一个矩阵,矩阵的每个元素分别与图像的每个像素一一对应,矩阵的各元素的值为该矩阵对应的通道中该元素所对应像素的像素值;将所述三个二维无符号整数矩阵作为平面图像数据输入所述定型结果模型。
可选地,所述预期各位编码均值趋近0.5的损失函数表达式如下:
Figure BDA0001434979470000031
其中,B为比特码串长度,
Figure BDA0001434979470000032
为第k位上的特征值在所有训练数据上的累加平均,W为损失函数L的超参数,表示网络权重,L(W)表示以W为超参数的损失函数。
可选地,所述预期编码量化损失最小的损失函数表达式如下:
Figure BDA0001434979470000041
其中bk=0.5×(sign(F(x;W))+1),sign函数的值为-1或1,F函数为最后一层全连接层的非线形投影函数,根据该层的权重矩阵和节点位置xk输出该层位置k对应的特征值,其中x表示网络隐藏层节点k对应的值,M表示隐藏层节点总数。
可选地,所述预期编码对旋转缩放平移具备不变性的损失函数表达式如下:
Figure BDA0001434979470000042
其中L是每张图对应旋转和平移的图像总数,M为训练图像总数。bk,i为平移或旋转的图像对应的特征值,bk为原图特征值。
根据本发明的另一方面,提出了一种生成平面图像的压缩编码的装置。
本发明的生成平面图像的压缩编码的装置包括训练模块、接收模块、以及计算模块,其中:所述训练模块用于:按照深度学***移等具备不变性,然后进行第一轮训练,其中包括第一组网络训练、第二组网络训练、以及第三组网络训练,在所述第一组网络训练中,针对第一损失函数层和第二损失函数层进行训练,初始化权重文件由Caffe框架提供,在所述第二组网络训练中,使用第一组网络训练后得到的权重文件进行初始化,并针对所述三个损失函数层进行训练,在所述第三组网络训练中,使用第二组网络训练后得到的权重文件进行初始化,并将第三组网络的输入层修改为只有一个数据输入层,并训练一次以得到第一轮训练的结果模型,将第一个损失函数层的损失函数修改为:预期各位编码均值趋近0;以及从所述三组网络的定义中删除位于全连层和损失函数之间的非线性激活单元,然后再次进行所述第一组网络训练、第二组网络训练、以及第三组网络训练以得到定型结果模型,其中第一组网络训练的初始化权重是第一轮训练中第三组网络训练后得到的权重;所述接收模块用于接收平面图像数据;所述计算模块用于使用所述定型结果模型对所述平面图像数据进行计算,从而得到该平面图像的压缩编码。
可选地,还包括转换模块,用于将三通道彩色图像文件转换为三个二维无符号整数矩阵;其中每个通道对应一个矩阵,矩阵的每个元素分别与图像的每个像素一一对应,矩阵的各元素的值为该矩阵对应的通道中该元素所对应像素的像素值;所述接收模块还用于接收所述三个二维无符号整数矩阵作为所述平面图像数据。
根据本发明的又一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所述的方法。
根据本发明的又一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所述的方法。
根据本发明的技术方案,提出特定的两轮训练方法以及每轮训练的特定内容,产出了端到端的模型,用该模型计算出的图像压缩编码能够比较好地反映图像的特点。另外本发明的技术方案无需数据标注,节少了标注人资源成本并提高了处理效率;因为产生的是端到端的模型,所以在计算图像特征码时也有较高的处理速度。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例可以应用于其中的示例性***架构图;
图2是根据本发明实施例的生成网络模型的基本步骤的示意图;
图3是根据本发明实施例的定义的三组网络的示意图;
图4是根据本发明实施例的生成平面图像的压缩编码的装置的基本结构的示意图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本发明实施例的生成平面图像的压缩编码的方法或生成平面图像的压缩编码的装置的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本发明实施例的生成网络模型的基本步骤的示意图。该模型用来计算平面图像的压缩编码,在内容上包括深度学习网络的定义文件和训练后得到的网络权重文件。如图2所示,该方法主要包括初始化的步骤和两轮训练,以下具体进行说明。
步骤S21:初始网络层定义。本步骤是初始化的步骤,具体包括:基础网络为深度学***移等具备不变性。
步骤S22:进行第一轮训练。本轮训练包括第一至第三组网络训练。每组网络训练方式按随机梯度下降方式,在后向传播过程中学习,初始化学习率为0.001,迭代到10000次后学习率下降到0.0001。在第一组网络训练中,针对第一损失函数层和第二损失函数层进行训练,初始化权重从已有(ImageNet)公开训练模型加载;在第二组网络训练中,使用第一组网络训练后得到的权重文件进行初始化,并针对上述三个损失函数层进行训练;在第三组网络训练中,使用第二组网络训练后得到的权重文件进行初始化,并将第三组网络的输入层修改为只有一个数据输入层,并训练一次以得到第一轮训练的结果模型。
步骤S23:进行第二轮训练。在本轮训练中,先将第一个损失函数层的损失函数修改为:预期各位编码均值趋近0;以及从上述三组网络的定义中删除位于全连层和损失函数之间的非线性激活单元。然后再次进行上述第一组网络训练、第二组网络训练、以及第三组网络训练以得到定型结果模型,其中第一组网络训练的初始化权重是第一轮训练中第三组网络训练后得到的权重。
使用步骤S23之后得到的定型结果模型对输入的平面图像数据进行计算,就可以得到该平面图像的压缩编码。以下结合附图对上述方法做进一步说明。
本发明实施例中,基于互联网公开的CaffeNet为基础网络,定义了三组网络定义文件(编号为N1,N2,N3)。三层损失层(L1,L2,L3)对应三类目标函数添加到网络最后。本发明实施例提出只训练这三层,其它层在训练时学习率为0。
网络输入层为JPG或PNG格式RGB三通道彩色图像文件,读入网络后RGB三通道中每个通道的数据对应读入到一个二维无符号整数矩阵(每个整数表示范围为[0-255],其中0表示黑,255为白)中,矩阵行数为图像的高,列数为图像的宽,如一张300×300像素的三通道彩色图像会最终被读入到网络中三个分别有300列300行的无符号整数矩阵中,训练的目的是将图像从3×300×300的高维表示简化为一种低维的压缩编码表示,如1024维浮点数并且通过一个固定的均值(经过本实施例所提到的网络产出的浮点特征具有浮点值趋近两端即1和-1的特点)能将其转化为1024维0-1比特码串,即压缩二值编码,但应用本实施例的方法可以不限于只产生1024维的压缩编码。
图3是根据本发明实施例的定义的三组网络的示意图。其中N1、N2、N3表示定义的三组网络,L1、L2、L3表示损失函数层。
在第一轮训练中,在第一阶段中,第一组网络(N1)针对损失函数层(L1和L2)进行训练(例如可以使用约57万张无标注图片进行训练,用4张显卡,批量(即每个迭代所使用的图像张数)大小64,迭代5万次,这样平均每张图会被训练22次以上,4×64×5/57=22),网络初始化权重可以采用来自在ImageNet的公开数据集上预训好的caffemodel,(caffemodel是基于Caffe框架下生产的网络权重文件)。
在第二阶段中,用第一组网络训练的权重文件中的网络权重值初始化第二组网络(N2),并针对三个损失函数层(L1,L2和L3)同时进行训练。需要注意的是因为第二组网络(N2)在训练损失函数L3层时需要成对的图像进行训练,例如在图像内容中,物体有移动时,移动前的图像和移动后的图像特征(经最终网络抽取到的压缩编码特征)保持不变,此时成对的图像即为移动前的图像和移动后的图像,而最终成型的网络的输入每次只接受一张图像为输入,这也是在第三阶段中需要用第三组网络(N3)的原因:以第二组网络训练出的权重文件初始化,同时网络结构上修改输入层即只有一个数据输入层,使最终网络结构定型。因此第三组不需要额外迭代训练,只需执行一次。
第一轮的三组训练的损失函数如下:
L1:预期各位编码均值趋近0.5;
Figure BDA0001434979470000091
B为bit(比特码)串长度,
Figure BDA0001434979470000092
为第k位上的特征值在所有训练数据上的累加平均,W为损失函数L的超参数,表示网络权重,L(W)表示以W为超参数的损失函数。
L2:预期编码量化损失最小;
Figure BDA0001434979470000093
其中bk=0.5×(sign(F(x;W))+1),sign函数的值为-1或1,F函数为最后一层全连接层的非线形投影函数,根据该层的权重矩阵(训练学得)和节点位置xk输出该层位置k对应的特征值,其中x表示网络隐藏层(提取特征所在的全连接层)节点k对应的值,M表示隐藏层(提取特征所在的全连接层)节点总数。
L3:预期编码对旋转、缩放、平移等操作具备不变性。
Figure BDA0001434979470000101
其中L是每张图对应旋转和平移的图像总数,M为训练图像总数。bk,i为平移或旋转的图像对应的特征值,bk为原图特征值。
本发明实施例提出采用具有特定训练内容的两轮训练的方式。在第二轮训练中做一些调整,具体是将损失函数L1调整为预期各位编码均值趋近0(第一轮训练中是0.5),并且从网络定义中去掉位于全连接层和损失函数之间的ReLU层(即非线性激活单元)。第二轮训练的流程和第一轮训练相同,同样是进行上述第一至第三阶段的训练,只不过第一阶段的初始化权重是第一轮训练的第三阶段输出的权重。
第二轮训练之后得到的定型结果模型是端到端的模型,向该模型输入平面图像就可以直接得到该图像的压缩二值编码。以下再对本发明实施例的生成平面图像的压缩编码的装置加以说明。图4是根据本发明实施例的生成平面图像的压缩编码的装置的基本结构的示意图。如图4所示,生成平面图像的压缩编码的装置40包括训练模块、接收模块、以及计算模块。训练模块用于按照上文所述的方法得到上述的定型结果模型。接收模块用于接收平面图像数据;计算模块用于使用上述定型结果模型对该平面图像数据进行计算,从而得到该平面图像的压缩编码。
上述的装置40还可包括转换模块(同示于图中),用于将三通道彩色图像文件转换为三个二维无符号整数矩阵;其中每个通道对应一个矩阵,矩阵的每个元素分别与图像的每个像素一一对应,矩阵的各元素的值为该矩阵对应的通道中该元素所对应像素的像素值。这样,上述的接收模块还用于接收上述三个二维无符号整数矩阵作为上述平面图像数据。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机***500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括训练模块、接收模块、以及计算模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收模块还可以被描述为“接收平面图像数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备能够执行本发明实施例所述的方法,例如按照图1所执行的方法。
根据本发明实施例,提出特定的两轮训练方法以及每轮训练的特定内容,产出了端到端的模型。根据本发明实施例,产生的二值编码在57万重复图测试集(含1443张共664组标注ground-truth)上相同精度误差下错误召回更优。通过在相同精度下的错误召回衡量在测试集的表现:在比特长度=1024,并且大于90%精度下错召数为74,而现有技术在此条件下的错召数一般在3000以上。也就是说本发明实施例产生的图像压缩编码能够比较好地反映图像的特点。上述精度的计算方法为:图像按相似程度聚类后测试集各个分组所含分组成员数与应该含的成员数的比例的平均值(即各组比例之和除以测试集的总组数)。错误召回数是聚类后各个组中非测试集成员总数。另外从本发明实施例的描述中可以看出,无需数据标注,节少了标注人资源成本并提高了处理效率;因为产生的是端到端的模型,所以在计算图像特征码时也有较高的处理速度。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种生成平面图像的压缩编码的方法,其特征在于,包括:
按照深度学习框架Caffe框架定义三组网络;
定义三个损失函数层的损失函数依次如下:预期各位编码均值趋近0.5、预期编码量化损失最小、预期编码对旋转缩放平移具备不变性,然后进行第一轮训练,其中包括第一组网络训练、第二组网络训练、以及第三组网络训练;
在所述第一组网络训练中,针对第一损失函数层和第二损失函数层进行训练;
在所述第二组网络训练中,使用第一组网络训练后得到的权重文件进行初始化,并针对所述三个损失函数层进行训练;
在所述第三组网络训练中,使用第二组网络训练后得到的权重文件进行初始化,并将第三组网络的输入层修改为只有一个数据输入层,并训练一次以得到第一轮训练的结果模型;
将第一个损失函数层的损失函数修改为:预期各位编码均值趋近0;以及从所述三组网络的定义中删除位于全连层和损失函数之间的非线性激活单元,然后再次进行所述第一组网络训练、第二组网络训练、以及第三组网络训练以得到定型结果模型,其中第一组网络训练的初始化权重是第一轮训练中第三组网络训练后得到的权重;
使用所述定型结果模型对输入的平面图像数据进行计算,从而得到该平面图像的压缩编码。
2.根据权利要求1所述的方法,其特征在于,使用所述定型结果模型对输入的平面图像数据进行计算的步骤之前,还包括:
将三通道彩色图像文件转换为三个二维无符号整数矩阵;其中每个通道对应一个矩阵,矩阵的每个元素分别与图像的每个像素一一对应,矩阵的各元素的值为该矩阵对应的通道中该元素所对应像素的像素值;
将所述三个二维无符号整数矩阵作为平面图像数据输入所述定型结果模型。
3.根据权利要求1所述的方法,其特征在于,所述预期各位编码均值趋近0.5的损失函数表达式如下:
Figure FDA0002940561090000021
其中,B为比特码串长度,
Figure FDA0002940561090000022
为第k位上的特征值在所有训练数据上的累加平均,W为损失函数L1的超参数,表示网络权重,L1(W)表示以W为超参数的损失函数。
4.根据权利要求1所述的方法,其特征在于,所述预期编码量化损失最小的损失函数表达式如下:
Figure FDA0002940561090000023
其中bk=0.5×(sign(F(x;W))+1),sign函数的值为-1或1,F函数为最后一层全连接层的非线形投影函数,根据该层的权重矩阵和节点位置xk输出该层位置k对应的特征值,其中x表示网络隐藏层节点k对应的值,M表示隐藏层节点总数,W为损失函数L2的超参数。
5.根据权利要求1所述的方法,其特征在于,所述预期编码对旋转缩放平移具备不变性的损失函数表达式如下:
Figure FDA0002940561090000024
其中L是每张图对应旋转和平移的图像总数,M为训练图像总数,bk,i为平移或旋转的图像对应的特征值,bk为原图特征值,W为损失函数L3的超参数。
6.一种生成平面图像的压缩编码的装置,其特征在于,包括训练模块、接收模块、以及计算模块,其中:
所述训练模块用于:
按照深度学习框架Caffe框架定义三组网络,
定义三个损失函数层的损失函数依次如下:预期各位编码均值趋近0.5、预期编码量化损失最小、预期编码对旋转缩放平移具备不变性,然后进行第一轮训练,其中包括第一组网络训练、第二组网络训练、以及第三组网络训练,
在所述第一组网络训练中,针对第一损失函数层和第二损失函数层进行训练,
在所述第二组网络训练中,使用第一组网络训练后得到的权重文件进行初始化,并针对所述三个损失函数层进行训练,
在所述第三组网络训练中,使用第二组网络训练后得到的权重文件进行初始化,并将第三组网络的输入层修改为只有一个数据输入层,并训练一次以得到第一轮训练的结果模型,
将第一个损失函数层的损失函数修改为:预期各位编码均值趋近0;以及从所述三组网络的定义中删除位于全连层和损失函数之间的非线性激活单元,然后再次进行所述第一组网络训练、第二组网络训练、以及第三组网络训练以得到定型结果模型,其中第一组网络训练的初始化权重是第一轮训练中第三组网络训练后得到的权重;
所述接收模块用于接收平面图像数据;
所述计算模块用于使用所述定型结果模型对所述平面图像数据进行计算,从而得到该平面图像的压缩编码。
7.根据权利要求6所述的装置,其特征在于,
还包括转换模块,用于将三通道彩色图像文件转换为三个二维无符号整数矩阵;其中每个通道对应一个矩阵,矩阵的每个元素分别与图像的每个像素一一对应,矩阵的各元素的值为该矩阵对应的通道中该元素所对应像素的像素值;
所述接收模块还用于接收所述三个二维无符号整数矩阵作为所述平面图像数据。
8.根据权利要求6所述的装置,其特征在于,所述预期各位编码均值趋近0.5的损失函数表达式如下:
Figure FDA0002940561090000041
其中,B为比特码串长度,
Figure FDA0002940561090000042
为第k位上的特征值在所有训练数据上的累加平均,W为损失函数L1的超参数,表示网络权重,L1(W)表示以W为超参数的损失函数。
9.根据权利要求6所述的装置,其特征在于,所述预期编码量化损失最小的损失函数表达式如下:
Figure FDA0002940561090000043
其中bk=0.5×(sign(F(x;W))+1),sign函数的值为-1或1,F函数为最后一层全连接层的非线形投影函数,根据该层的权重矩阵和节点位置xk输出该层位置k对应的特征值,其中x表示网络隐藏层节点k对应的值,M表示隐藏层节点总数,W为损失函数L2的超参数。
10.根据权利要求6所述的装置,其特征在于,所述预期编码对旋转缩放平移具备不变性的损失函数表达式如下:
Figure FDA0002940561090000044
其中L是每张图对应旋转和平移的图像总数,M为训练图像总数,bk,i为平移或旋转的图像对应的特征值,bk为原图特征值,W为损失函数L3的超参数。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201710960042.3A 2017-10-16 2017-10-16 生成平面图像的压缩编码的方法和装置 Active CN107845116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710960042.3A CN107845116B (zh) 2017-10-16 2017-10-16 生成平面图像的压缩编码的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710960042.3A CN107845116B (zh) 2017-10-16 2017-10-16 生成平面图像的压缩编码的方法和装置

Publications (2)

Publication Number Publication Date
CN107845116A CN107845116A (zh) 2018-03-27
CN107845116B true CN107845116B (zh) 2021-05-25

Family

ID=61662199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710960042.3A Active CN107845116B (zh) 2017-10-16 2017-10-16 生成平面图像的压缩编码的方法和装置

Country Status (1)

Country Link
CN (1) CN107845116B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298689B (zh) * 2021-06-22 2023-04-18 河南师范大学 一种大容量图像隐写方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069400A (zh) * 2015-07-16 2015-11-18 北京工业大学 基于栈式稀疏自编码的人脸图像性别识别***
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106780512A (zh) * 2016-11-30 2017-05-31 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN107169573A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 利用复合机器学习模型来执行预测的方法及***
CN107231566A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 一种视频转码方法、装置和***
CN107239793A (zh) * 2017-05-17 2017-10-10 清华大学 多量化深度二值特征学习方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069400A (zh) * 2015-07-16 2015-11-18 北京工业大学 基于栈式稀疏自编码的人脸图像性别识别***
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN107231566A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 一种视频转码方法、装置和***
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106780512A (zh) * 2016-11-30 2017-05-31 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN107169573A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 利用复合机器学习模型来执行预测的方法及***
CN107239793A (zh) * 2017-05-17 2017-10-10 清华大学 多量化深度二值特征学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Deep Convolutional Auto-Encoder with Pooling - Unpooling Layers in Caffe";Volodymyr Turchenko et al;《arXiv:1701.04949》;20170618;第1-21页 *
"融合语义知识的深度表达学习及在视觉理解中的应用";张瑞茂 等;《计算机研究与发展》;20170504;第1251-1266页 *

Also Published As

Publication number Publication date
CN107845116A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
US11030522B2 (en) Reducing the size of a neural network through reduction of the weight matrices
US11829880B2 (en) Generating trained neural networks with increased robustness against adversarial attacks
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
TW202032423A (zh) 圖像處理方法及裝置
CN111950692B (zh) 用于改进的通用化的基于汉明距离的稳健输出编码
CN111581926A (zh) 文案生成方法、装置、设备和计算机可读存储介质
CN115496970A (zh) 图像任务模型的训练方法、图像识别方法以及相关装置
Ding et al. Full‐reference image quality assessment using statistical local correlation
CN107845116B (zh) 生成平面图像的压缩编码的方法和装置
CN113657411A (zh) 神经网络模型的训练方法、图像特征提取方法及相关装置
CN116127925B (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
Liquan et al. Improved generalized sparsity adaptive matching pursuit algorithm based on compressive sensing
CN114741697B (zh) 恶意代码分类方法、装置、电子设备和介质
CN112101511A (zh) 稀疏卷积神经网络
CN115565177A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
Shan et al. DRAC: a delta recurrent neural network-based arithmetic coding algorithm for edge computing
CN113989152A (zh) 图像增强方法、装置、设备以及存储介质
CN114065913A (zh) 模型量化方法、装置及终端设备
CN113239215A (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN113591983B (zh) 图像识别方法和装置
CN115134338B (zh) 多媒体信息编码方法、对象检索方法及装置
CN116405330B (zh) 基于迁移学习的网络异常流量识别方法、装置和设备
CN117437604B (zh) 无监督车辆再辨识模型训练方法、车辆再辨识方法及装置
CN113947095B (zh) 多语种文本翻译方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant