CN109902699B - 一种信息处理方法、装置和计算机存储介质 - Google Patents

一种信息处理方法、装置和计算机存储介质 Download PDF

Info

Publication number
CN109902699B
CN109902699B CN201711298332.2A CN201711298332A CN109902699B CN 109902699 B CN109902699 B CN 109902699B CN 201711298332 A CN201711298332 A CN 201711298332A CN 109902699 B CN109902699 B CN 109902699B
Authority
CN
China
Prior art keywords
image
word
image data
feature
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711298332.2A
Other languages
English (en)
Other versions
CN109902699A (zh
Inventor
马占宇
李晓旭
朱芳仪
郭晓威
彭湃
袁坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Beijing University of Posts and Telecommunications
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Shenzhen Tencent Computer Systems Co Ltd filed Critical Beijing University of Posts and Telecommunications
Priority to CN201711298332.2A priority Critical patent/CN109902699B/zh
Publication of CN109902699A publication Critical patent/CN109902699A/zh
Application granted granted Critical
Publication of CN109902699B publication Critical patent/CN109902699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种信息处理方法、装置和计算机存储介质,所述方法包括:获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。

Description

一种信息处理方法、装置和计算机存储介质
技术领域
本发明涉及信息处理技术,具体涉及一种信息处理方法、装置和计算机存储介质。
背景技术
作为无监督神经主题模型,例如文档神经自回归分布估计器(DocNADE,DocumentNeural Autoregressive Distribution Estimator)模型,获得了较好的主题特征。DocNADE模型基于词袋模型,很难融合Places-CNN这种具有取值连续的全局特征的模型。因此,如何将Places-CNN特征引入到主题模型中,目前尚无有效解决方案。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法、装置和计算机存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;
提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;
基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
上述方案中,所述方法还包括:以目标参数最大化为优化目标求解所述图像标注模型的模型参数;
基于所述模型参数获得优化图像标注模型。
上述方案中,所述方法还包括:获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;
基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述优化图像标注模型获得所述第二图像数据的第二标注词的相关信息。
上述方案中,所述图像标注模型以图像特征和标注词特征的联合概率作为输出结果,所述图像特征和标注词特征的联合概率满足:
Figure BDA0001500729540000021
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征。
其中,p(vi=t|vCNN,v<i)使用前向网络结构,满足:
Figure BDA0001500729540000022
Figure BDA0001500729540000023
其中,g()表示sigmoid函数;
其中,p(wi|vCNN,v,w<k)使用前向网络结构,满足:
Figure BDA0001500729540000024
Figure BDA0001500729540000025
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
上述方案中,所述方法还包括:获得样本图像数据;基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
上述方案中,提取所述第一图像数据的深度卷积网络特征,包括:
基于所述第一图像数据和所述深度卷积网络模型获得所述第一图像数据的深度卷积网络特征。
上述方案中,所述提取所述第一图像数据的词袋特征,包括:对所述第一图像数据按照网格划分方式获得多个第一图像区块;
提取所述多个第一图像区块中的每个第一图像区块的特征参数;
基于所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。
本发明实施例还提供了一种信息处理装置,所述装置包括:检测提取单元和模型建立单元;其中,
所述检测提取单元,用于获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;
所述模型建立单元,用于基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
上述方案中,所述装置还包括参数优化单元,用于以目标参数最大化为优化目标求解所述图像标注模型的模型参数,基于所述模型参数获得优化图像标注模型。
上述方案中,所述装置还包括:标注单元;
所述检测提取单元,还用于获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;
所述标注单元,用于基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述模型建立单元建立的所述优化图像标注模型获得所述第二图像数据的第二标注词的的相关信息。
上述方案中,所述模型建立单元,用于以图像特征和标注词特征的联合概率作为所述图像标注模型的输出结果,所述图像特征和标注词特征的联合概率满足:
Figure BDA0001500729540000031
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征。
其中,p(vi=t|vCNN,v<i)使用前向网络结构,满足:
Figure BDA0001500729540000041
Figure BDA0001500729540000042
其中,g()表示sigmoid函数;
其中,p(wi|vCNN,v,w<k)使用前向网络结构,满足:
Figure BDA0001500729540000043
Figure BDA0001500729540000044
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
上述方案中,所述装置还包括训练单元,用于获得样本图像数据;基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
上述方案中,所述检测提取单元,用于基于所述第一图像数据和所述训练单元获得的所述深度卷积网络模型获得所述第一图像信息的深度卷积网络特征。
上述方案中,所述检测提取单元,用于对所述第一图像数据按照网格划分方式获得多个第一图像区块;提取所述多个第一图像区块中的每个第一图像区块的特征参数;基于所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现本发明实施例所述方法的步骤。
本发明实施例还提供了一种信息处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述方法的步骤。
本发明实施例提供的信息处理方法、装置和计算机存储介质,所述方法包括:获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。采用本发明实施例的技术方案,实现了将Places-CNN特征引入到主题模型中,一方面能够获得图像对应的标注词,且获得更高的标注准确率,另一方面实现了基于神经主题模型的图像集成分类方法,有效的实现图像分类和标注的互相促进。
附图说明
图1为本发明实施例的信息处理方法的流程示意图;
图2为本发明实施例的信息处理方法中的深度卷积网络特征的方法示意图;
图3为本发明实施例的信息处理方法中的图像标注模型的网络模型示意图;
图4为本发明实施例的信息处理装置的组成结构示意图;
图5为本发明实施例的信息处理装置的硬件实现示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
本发明实施例提供了一种信息处理方法。图1为本发明实施例的信息处理方法的流程示意图;如图1所示,所述方法包括:
步骤101:获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词。
步骤102:提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征。
步骤103:基于所述第一图像信息的词袋特征、深度卷积网络特征以及标注词的词袋特征建立图像标注模型。
本发明实施例中,所述第一图像信息为训练用途的图像信息,所述第一图像信息中包括多个第一图像数据,可以理解,所述第一图像数据具体为图像;所述第一图像数据中还包括与第一图像数据对应的标注词,该标注词例如:城市、道路、花等预先设置的与第一图像数据的内容相关联的关键字或关键词。
本实施例中,所述提取所述第一图像数据的词袋特征,包括:对所述第一图像数据按照网格划分方式获得多个第一图像区块;提取所述多个第一图像区块中的每个第一图像区块的特征参数;基于所述多个第一图像区块的特征参数生成所述第一图像信息的词袋特征。
具体的,本发明实施例中,第一图像信息的数量为多个,多个第一图像信息为用于训练获得图像标注模型的多个图像信息;相应的,多个第一图像信息包括多个第一图像数据。对第一图像数据进行特征分析检测,具体可采用网格方法对第一图像数据进行分析检测。作为一种示例,可采用规则网格(Regular Grid)方法对第一图像数据进行分析检测,即将第一图像数据对应的图像区域规则的划分为多个图像区块,所划分的多个图像区块组成所述第一图像数据对应的图像区域。网格大小可依据图像数据大小而预先设定,本发明实施例中不做具体限定。本实施例中,提取的所述多个第一图像区块中的每个第一图像区块的特征参数表征每个第一图像区块的关键特征,作为一种示例,所述特征参数具体可以为尺度不变特征变化(SIFT,Scale-Invariant Feature Transform)特征,该SIFT特征可表示对应图像区块的关键特征。进一步地,对所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。作为一种实施方式,对所述多个第一图像区块的特征参数可通过聚类方式形成码书,通过码书表示所述第一图像数据的词袋特征。例如,可采用K-means聚类方式形成码书,将图像用码词词频表示所述第一图像数据的词袋特征。所述第一图像数据的词袋特征可表示为v=[v1,v1,...,vD];其中,v1,v1,...,vD表示对应的图像区块的特征在码书中的频率。
在一实施例中,所述方法还包括:获得样本图像数据;基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
本发明实施例中,提取所述第一图像数据的深度卷积网络特征,包括:基于所述第一图像数据和所述深度卷积网络模型获得所述第一图像数据的深度卷积网络特征。所述深度卷积网络特征可通过vCNN特征表示。
具体的,本发明实施例中预先获得样本图像数据,所述样本图像数据可区别于第一图像数据。如图2所示,所述样本图像数据可以是Places数据集(Places Dataset)中的具有多个场景的多个样本图像,例如Places数据集包含7076580幅图像,496类场景。本发明实施例中基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。作为一种示例,所述预设学习算法可采用AlexNet网络模型,则可参照图2所示,通过Places数据集和AlexNet网络模型训练获得用于卷积神经网络(CNN,Convolutional Neural Network)特征提取的Places-CNN特征提取网络。进一步地,本发明实施例中可将所述第一图像数据输入所述深度卷积网络模型中,获得所述第一图像数据的深度卷积网络特征。实际应用中,深度卷积网络模型可包括多层,每一层均可输出结果,则本发明实施例中可使用深度卷积网络模型的中间输出结果作为深度卷积网络特征。例如,AlexNet网络共8层,前5层为卷积层,6、7、8层为全连接层,第8层为类标。则本发明实施例中可使用第7层(FC7)的输出结果作为深度卷积网络特征,共4096个单元,即本发明实施例中可利用训练好的用于CNN特征提取的Places-CNN特征提取网络(深度卷积网络模型),提取第一图像数据的FC7层特征作为深度卷积网络特征。
本发明实施例中,所述第一图像信息包括第一图像数据和对应的第一标注词,则基于多个第一图像数据对应的第一标注词生成语料库,统计每个第一标注词在所有第一标注词中出现的概率,则所述语料库包括多个第一标注词以及对应的频率。去掉所述语料库中频率值低于预设阈值的第一标注词,即删除频率较低的第一标注词,将筛选后的第一标注词以及对应的频率生成字典。则提取第一标注词的词袋特征可通过字典长度的向量标识,字典中未出现的第一标注词的相应位置置为0,字典中出现的第一标注词的相应位置置为标志词对应的频率,获得标注词的词袋特征可表示为w=[w1,w2,...,wM]。其中,w1,w2,...,wM表示对应的第一标志词在字典中的频率或为0。
本发明实施例中,基于第一图像数据的词袋特征v=[v1,v1,...,vD]、深度卷积网络特征vCNN和第一标注词的词袋特征进行学习训练,获得图像标注模型,所述图像标注模型具有如图3所示的网络模型。可以理解,本发明实施例的图像标注模型在训练过程中,增加了深度卷积网络特征vCNN,即实现了将Places-CNN特征引入到主题模型中。
本发明实施例中,所述图像标注模型以图像特征和标注词特征的联合概率作为输出结果,所述图像特征和标注词特征的联合概率满足:
Figure BDA0001500729540000081
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征。这里,区别于表示输出的图像特征的粗体“v”,前述图像数据的词袋特征通过斜体的“v”表示;区别于表示输出的标注词特征的粗体“w”,前述标注词的词袋特征通过斜体的“w”表示。
其中,p(vi=t|vCNN,v<i)使用前向网络结构,满足:
Figure BDA0001500729540000082
则基于表达式(2)可得到:
Figure BDA0001500729540000083
g()表示sigmoid函数,p(wi|vCNN,v,w<k)也使用前向网络结构,满足:
Figure BDA0001500729540000091
则基于表达式(3)可得到:
Figure BDA0001500729540000092
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
在一实施例中,所述方法还包括:以目标参数最大化为优化目标求解所述图像标注模型的模型参数,基于所述模型参数获得优化图像标注模型。
具体的,以最大化
Figure BDA0001500729540000093
为优化目标,使用随机梯度下降法求解模型参数,基于获得的模型参数获得优化图像标注模型。其中,优化过程可采用Caffe、TensorFlow等框架来实现。
在一实施例中,所述方法还包括:所述方法还包括:获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述优化图像标注模型获得所述第二图像数据的第二标注词的相关信息。
具体的,第二图像数据为测试图像。对于第二图像数据,采用上述方式提取出所述第二图像数据的词袋特征和深度卷积网络特征,将所述第二图像信息的词袋特征和深度卷积网络特征输入至优化图像标注模型中,获得所述第二图像数据的标注词的相关信息;所述标注词的相关信息包括标注词以及对应的概率。
采用本发明实施例的技术方案,实现了将Places-CNN特征引入到主题模型中,一方面能够获得图像对应的标注词,且获得更高的标注准确率,另一方面实现了基于神经主题模型的图像集成分类方法,有效的实现图像分类和标注的互相促进。
本发明实施例还提供了一种信息处理装置。图4为本发明实施例的信息处理装置的组成结构示意图;如图4所示,所述装置包括:检测提取单元31和模型建立单元32;其中,
所述检测提取单元31,用于获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;获取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;
所述模型建立单元32,用于基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
在一实施例中,所述装置还包括参数优化单元,用于以目标参数最大化为优化目标求解所述图像标注模型的模型参数,基于所述模型参数获得优化图像标注模型。
在一实施例中,所述装置还包括:标注单元;
所述检测提取单元31,还用于获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;
所述标注单元,用于基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述模型建立单元32建立的所述优化图像标注模型获得所述第二图像数据对应的第二标注词的的相关信息。
本发明实施例中,所述模型建立单元32,用于以图像特征和标注词特征的联合概率作为所述图像标注模型的输出结果,所述图像特征和标注词特征的联合概率满足:
Figure BDA0001500729540000101
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征。
其中,p(vi=t|vCNN,v<i)使用前向网络结构,满足:
Figure BDA0001500729540000102
Figure BDA0001500729540000111
其中,g()表示sigmoid函数;
其中,p(wi|vCNN,v,w<k)使用前向网络结构,满足:
Figure BDA0001500729540000112
Figure BDA0001500729540000113
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
在一实施例中,所述装置还包括训练单元,用于获得样本图像信息;基于所述样本图像信息和预设学习算法训练获得深度卷积网络模型。
在一实施例中,所述检测提取单元31,用于基于所述第一图像数据和所述训练单元获得的所述深度卷积网络模型获得所述第一图像数据的深度卷积网络特征。
在一实施例中,所述检测提取单元31,用于对所述第一图像数据按照网格划分方式获得多个第一图像区块;提取所述多个第一图像区块中的每个第一图像区块的特征参数;基于所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。
本发明实施例中,所述装置中的检测提取单元31、模型建立单元32、参数优化单元、标注单元和训练单元,在实际应用中均可由中央处理器(CPU,Central ProcessingUnit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是:上述实施例提供的信息处理装置在进行信息处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将信息处理装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的信息处理装置与信息处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种信息处理装置。图5为本发明实施例的信息处理装置的硬件实现示意图,如图5所示,信息处理装置包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序,所述处理器41执行所述程序时实现:获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
在一实施例中,所述处理器41执行所述程序时实现:以目标参数最大化为优化目标求解所述图像标注模型的模型参数,基于所述模型参数获得优化图像标注模型。
在一实施例中,所述处理器41执行所述程序时实现:获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述优化图像标注模型获得所述第二图像数据的第二标注词的相关信息。
在一实施例中,所述处理器41执行所述程序时实现:以图像特征和标注词特征的联合概率作为所述图像标注模型的输出结果,所述图像特征和标注词特征的联合概率满足:
Figure BDA0001500729540000121
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征。
其中,p(vi=t|vCNN,v<i)使用前向网络结构,满足:
Figure BDA0001500729540000122
Figure BDA0001500729540000131
其中,g()表示sigmoid函数;
其中,p(wi|vCNN,v,w<k)使用前向网络结构,满足:
Figure BDA0001500729540000132
Figure BDA0001500729540000133
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
在一实施例中,所述处理器41执行所述程序时实现:获得样本图像数据;基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
在一实施例中,所述处理器41执行所述程序时实现:基于所述第一图像数据和所述深度卷积网络模型获得所述第一图像数据的深度卷积网络特征。
在一实施例中,所述处理器41执行所述程序时实现:对所述第一图像数据按照网格划分方式获得多个第一图像区块;提取所述多个第一图像区块中的每个第一图像区块的特征参数;基于所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。
可以理解,信息处理装置还包括和总线***43,移动终端中的各个组件通过总线***43耦合在一起。可理解,总线***43用于实现这些组件之间的连接通信。总线***43除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线***43。
可以理解,存储器42可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器41中,或者由处理器41实现。处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。
本发明实施例还提供了一种计算机存储介质,例如包括计算机程序的存储器,上述计算机程序可由信息处理装置的处理器执行,以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
本发明实施例提供的计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现:获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
在一实施例中,该指令被处理器执行时实现:以目标参数最大化为优化目标求解所述图像标注模型的模型参数,基于所述模型参数获得优化图像标注模型。
在一实施例中,该指令被处理器执行时实现:获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述优化图像标注模型获得所述第二图像数据的第二标注词的相关信息。
在一实施例中,该指令被处理器执行时实现:以图像特征和标注词特征的联合概率作为所述图像标注模型的输出结果,所述图像特征和标注词特征的联合概率满足:
Figure BDA0001500729540000151
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征。
其中,p(vi=t|vCNN,v<i)使用前向网络结构,满足:
Figure BDA0001500729540000152
Figure BDA0001500729540000161
其中,g()表示sigmoid函数;
其中,p(wi|vCNN,v,w<k)使用前向网络结构,满足:
Figure BDA0001500729540000162
Figure BDA0001500729540000163
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
在一实施例中,该指令被处理器执行时实现:获得样本图像数据;基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
在一实施例中,该指令被处理器执行时实现:基于所述第一图像数据和所述深度卷积网络模型获得所述第一图像数据的深度卷积网络特征。
在一实施例中,该指令被处理器执行时实现:对所述第一图像数据按照网格划分方式获得多个第一图像区块;提取所述多个第一图像区块中的每个第一图像区块的特征参数;基于所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种信息处理方法,其特征在于,所述方法包括:
获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;
提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;
基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以目标参数最大化为优化目标求解所述图像标注模型的模型参数;
基于所述模型参数获得优化图像标注模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;
基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述优化图像标注模型获得所述第二图像数据的第二标注词的相关信息。
4.根据权利要求1所述的方法,其特征在于,
所述图像标注模型以图像特征和标注词特征的联合概率作为输出结果,所述图像特征和标注词特征的联合概率满足:
Figure FDA0004258353900000011
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征,VCNN表示深度卷积网络特征;p(vivCNN,v<i)表示第i个图像特征vi的概率,p(wkvCNN,v,w<k)表示第k个标注词特征wk的概率;
其中,p(vi=tvCNN,v<i)使用前向网络结构,满足:
Figure FDA0004258353900000012
Figure FDA0004258353900000021
其中,g()表示sigmoid函数;
其中,p(wivCNN,v,w<k)使用前向网络结构,满足:
Figure FDA0004258353900000022
Figure FDA0004258353900000023
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得样本图像数据;
基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
6.根据权利要求5所述的方法,其特征在于,提取所述第一图像数据的深度卷积网络特征,包括:
基于所述第一图像数据和所述深度卷积网络模型获得所述第一图像数据的深度卷积网络特征。
7.根据权利要求1所述的方法,其特征在于,所述提取所述第一图像数据的词袋特征,包括:
对所述第一图像数据按照网格划分方式获得多个第一图像区块;
提取所述多个第一图像区块中的每个第一图像区块的特征参数;
基于所述多个第一图像区块的特征参数生成所述第一图像数据的词袋特征。
8.一种信息处理装置,其特征在于,所述装置包括:检测提取单元和模型建立单元;其中,
所述检测提取单元,用于获得第一图像信息,获取所述第一图像信息包括的第一图像数据和对应的第一标注词;提取所述第一图像数据的词袋特征和深度卷积网络特征,提取所述第一标注词的词袋特征;
所述模型建立单元,用于基于所述第一图像数据的词袋特征、深度卷积网络特征以及所述第一标注词的词袋特征建立图像标注模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括参数优化单元,用于以目标参数最大化为优化目标求解所述图像标注模型的模型参数,基于所述模型参数获得优化图像标注模型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:标注单元;
所述检测提取单元,还用于获得第二图像数据,提取所述第二图像数据的词袋特征和深度卷积网络特征;
所述标注单元,用于基于所述第二图像数据的词袋特征、深度卷积网络特征以及所述优化图像标注模型,获得所述第二图像数据的第二标注词的相关信息;其中,优化图像标注模型是由所述参数优化单元基于所述图像标注模型的模型参数所获得的。
11.根据权利要求8所述的装置,其特征在于,所述模型建立单元,用于以图像特征和标注词特征的联合概率作为所述图像标注模型的输出结果,所述图像特征和标注词特征的联合概率满足:
Figure FDA0004258353900000031
其中,p(v,w)表示图像特征和标注词特征的联合概率;v表示图像特征,w表示标注词特征,VCNN表示深度卷积网络特征;p(vivCNN,v<i)表示第i个图像特征vi的概率,p(wkvCNN,v,w<k)表示第k个标注词特征wk的概率;
其中,p(vi=tvCNN,v<i)使用前向网络结构,满足:
Figure FDA0004258353900000032
Figure FDA0004258353900000033
其中,g()表示sigmoid函数;
其中,p(wivCNN,v,w<k)使用前向网络结构,满足:
Figure FDA0004258353900000041
Figure FDA0004258353900000042
其中,V和T表示不同的关联矩阵;h是隐层的表示,b和c表示隐层的不同偏置。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括训练单元,用于获得样本图像数据;基于所述样本图像数据和预设学习算法训练获得深度卷积网络模型。
13.一种计算机存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
14.一种信息处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。
CN201711298332.2A 2017-12-08 2017-12-08 一种信息处理方法、装置和计算机存储介质 Active CN109902699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711298332.2A CN109902699B (zh) 2017-12-08 2017-12-08 一种信息处理方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711298332.2A CN109902699B (zh) 2017-12-08 2017-12-08 一种信息处理方法、装置和计算机存储介质

Publications (2)

Publication Number Publication Date
CN109902699A CN109902699A (zh) 2019-06-18
CN109902699B true CN109902699B (zh) 2023-07-11

Family

ID=66940759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711298332.2A Active CN109902699B (zh) 2017-12-08 2017-12-08 一种信息处理方法、装置和计算机存储介质

Country Status (1)

Country Link
CN (1) CN109902699B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134234A (zh) * 2014-07-16 2014-11-05 中国科学技术大学 一种全自动的基于单幅图像的三维场景构建方法
CN105740881A (zh) * 2016-01-22 2016-07-06 天津中科智能识别产业技术研究院有限公司 一种基于矩阵分解的部分标注图像聚类方法及装置
CN106294344A (zh) * 2015-05-13 2017-01-04 北京智谷睿拓技术服务有限公司 视频检索方法和装置
CN106778834A (zh) * 2016-11-29 2017-05-31 北京信息科技大学 一种基于距离测度学习的ap聚类图像标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134234A (zh) * 2014-07-16 2014-11-05 中国科学技术大学 一种全自动的基于单幅图像的三维场景构建方法
CN106294344A (zh) * 2015-05-13 2017-01-04 北京智谷睿拓技术服务有限公司 视频检索方法和装置
CN105740881A (zh) * 2016-01-22 2016-07-06 天津中科智能识别产业技术研究院有限公司 一种基于矩阵分解的部分标注图像聚类方法及装置
CN106778834A (zh) * 2016-11-29 2017-05-31 北京信息科技大学 一种基于距离测度学习的ap聚类图像标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fangyi Zhu 等.Image-Text Dual Model for Small-Sample Image Classification.Springer.2017,全文. *
Praveen Kulkarni 等.HYBRID MULTI-LAYER DEEP CNN/AGGREGATOR FEATURE FOR IMAGE CLASSIFICATION.IEEE Xplore.2015,全文. *

Also Published As

Publication number Publication date
CN109902699A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
WO2019128529A1 (zh) Url攻击检测方法、装置以及电子设备
CN108681746B (zh) 一种图像识别方法、装置、电子设备和计算机可读介质
WO2019109743A1 (zh) Url攻击检测方法、装置以及电子设备
CN108537292A (zh) 语义分割网络训练方法、图像语义分割方法及装置
CN105631466B (zh) 图像分类的方法及装置
US20170116521A1 (en) Tag processing method and device
EP3620982B1 (en) Sample processing method and device
CN114244603B (zh) 异常检测及对比嵌入模型训练、检测方法、装置及介质
CN112288018A (zh) 文字识别网络的训练方法、文字识别方法和装置
CN110765286A (zh) 跨媒体检索方法、装置、计算机设备和存储介质
CN115331048B (zh) 图像分类方法、装置、设备以及存储介质
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN112199569A (zh) 一种违禁网址识别方法、***、计算机设备及存储介质
WO2021042895A1 (zh) 基于神经网络的验证码识别方法、***及计算机设备
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
Nayerifard et al. Machine learning in digital forensics: a systematic literature review
CN114168768A (zh) 图像检索方法及相关设备
CN112131506B (zh) 一种网页分类方法、终端设备及存储介质
CN110659631A (zh) 车牌识别方法和终端设备
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
CN112241470A (zh) 一种视频分类方法及***
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN109902699B (zh) 一种信息处理方法、装置和计算机存储介质
CN113742525A (zh) 自监督视频哈希学习方法、***、电子设备及存储介质
CN111860662B (zh) 一种相似性检测模型的训练方法及装置、应用方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant