CN107862322A - 结合图片和文本进行图片属性分类的方法、装置及*** - Google Patents

结合图片和文本进行图片属性分类的方法、装置及*** Download PDF

Info

Publication number
CN107862322A
CN107862322A CN201710832627.7A CN201710832627A CN107862322A CN 107862322 A CN107862322 A CN 107862322A CN 201710832627 A CN201710832627 A CN 201710832627A CN 107862322 A CN107862322 A CN 107862322A
Authority
CN
China
Prior art keywords
picture
text
neural network
network model
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710832627.7A
Other languages
English (en)
Other versions
CN107862322B (zh
Inventor
张智祺
黄惠燕
崔燕红
徐然
郭安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Pinwei Software Co Ltd
Original Assignee
Guangzhou Vipcom Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Vipcom Research Institute Co Ltd filed Critical Guangzhou Vipcom Research Institute Co Ltd
Priority to CN201710832627.7A priority Critical patent/CN107862322B/zh
Publication of CN107862322A publication Critical patent/CN107862322A/zh
Application granted granted Critical
Publication of CN107862322B publication Critical patent/CN107862322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合图片和文本进行图片属性分类的方法、装置及***,属于计算机技术领域。所述方法包括:通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;对所述联合特征进行分类处理,输出图片属性分类结果;所述预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型。本发明通过结合图片的图像特征和图片的文本特征,两者可以进行互补,提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等业务。

Description

结合图片和文本进行图片属性分类的方法、装置及***
技术领域
本发明涉及计算机技术领域,特别涉及一种结合图片和文本进行图片属性分类的方法及装置。
背景技术
目前,全世界互联网已经形成规模,互联网应用走向多元化,互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中,能准确知道互联网用户的习惯、需求等属性是精确内容推广以更好服务于客户或者广告投放的重要前提。目前,在互联网中识别媒体用户属性的现有技术方案都是基于用户文章或图片样本,尤其是图片样本在某些领域图片中蕴含的用户属性信息具有很大的潜在用途,具体的需要先收集用户全量历史样本,整理样本用户的数据,整理样本库,对样本库进行标签语料库分类,比如,某个语料库代表“购物”、“时尚”、“服饰”等内容,然后再根据样本库和互联网用户的样本库进行匹配,来识别用户属性。即,在互联网中识别用户属性的传统方法基于样本数据,通过机器学习,再配以数据模型进行训练,进行互联网用户属性的判断。其中,根据收集的样本数据进行属性分类是上述过程的重要环节。为了满足日益增长的市场需求,如何实现对网络中图片属性进行更详细、更全面的属性分类,是目前亟需解决的问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种结合图片和文本进行图片属性分类的方法、装置及***。所述技术方案如下:
第一方面,提供了一种结合图片和文本进行图片属性分类的方法,所述方法包括:
通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;
对所述联合特征进行分类处理,输出图片属性分类结果;
所述预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型。
结合第一方面,在第二种可能的实现方式中,所述通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征,包括:
通过预设神经网络模型进行图像表达,获取图像表达结果;
通过预设神经网络模型进行文本表达,获取文本表达结果;
通过预设神经网络模型根据所述图像表达结果和所述文本表达结果进行联合表达,形成联合特征。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述通过预设神经网络模型进行图像表达,获取图像表达结果,包括:
通过所述预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,所述通过预设神经网络模型进行文本表达,获取文本表达结果,包括:
通过预设循环神经网络模型进行词向量表达,获取词向量表达结果;
根据所述词向量表达结果通过预设循环神经网络模型进行全局文本表达,获取文本表达结果。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,在所述通过预设循环神经网络模型进行词向量表达之前,还包括步骤:
对所述图片的文本进行中文分词,获取中文词语。
结合第一方面的第二种可能的实现方式,在第六种可能的实现方式中,所述通过预设神经网络模型根据所述图像表达结果和所述文本表达结果进行联合表达,形成联合特征,包括:
对所述图像表达结果和所述文本表达结果进行加权连接,形成联合特征。
结合第一方面,在第七种可能的实现方式中,所述通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征,包括:
通过预设神经网络模型对所述图片的图像和文本进行联合表达,并形成联合特征。
结合第一方面,在第八种可能的实现方式中,所述对所述联合特征进行分类处理,输出图片属性分类结果,包括:
通过预设神经网络模型对所述联合特征进行softmax分类,输出图片属性分类结果。
第二方面,提供了一种结合图片和文本进行图片属性分类的装置,所述装置包括:
识别计算模块,用于通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;还用于对所述联合特征进行分类处理;所述预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型。
输出模块,用于输出图片属性分类结果。
第三方面,提供了一种结合图片和文本进行图片属性分类的装置,所述装置包括:存储器以及与所述存储器连接的处理器,
存储器用于储存一组程序代码,处理器调用存储器所存储的程序代码用于执行以下操作:
通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;
对所述联合特征进行分类处理,输出图片属性分类结果;
所述预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型。
第四方面,提供了一种结合图片和文本进行图片属性分类的***,所述***包括:
识别计算装置,用于通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;还用于对所述联合特征进行分类处理;所述预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型
输出装置,用于输出图片属性分类结果。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的结合图片和文本进行图片属性分类的方法、装置及***,通过实现以下步骤:通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;对所述联合特征进行分类处理,输出图片属性分类结果,通过结合图片的图像特征和图片的文本特征,两者可以进行互补,提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等业务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是发明实施例1提供的结合图片和文本进行图片属性分类的方法流程图;
图2是发明实施例2提供的结合图片和文本进行图片属性分类的方法流程图;
图3是发明实施例2提供的基于图片和文本的预设神经网络模型示意图;
图4是发明实施例2提供的VGG模型示意图;
图5是发明实施例3提供的结合图片和文本进行图片属性分类的方法流程图;
图6是发明实施例3提供的基于图片和文本的预设神经网络模型示意图;
图7是发明实施例4提供的结合图片和文本进行图片属性分类的装置结构示意图;
图8是发明实施例5提供的结合图片和文本进行图片属性分类的***结构示意图;
图9是发明实施例6提供的结合图片和文本进行图片属性分类的装置6结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的方法、装置及***,通过结合图片的图像特征和图片的文本特征,两者可以进行互补,提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等业务。
下面结合具体实施例以及附图对本发明实施例提供的结合图片和文本进行图片属性分类的方法、装置及***作进一步说明。
实施例1
图1是发明实施例1提供的结合图片和文本进行图片属性分类的方法流程图,如图1所示,本发明实施例提供的结合图片和文本进行图片属性分类的方法包括以下步骤:
101、通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征。
具体的,这里的预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型。
具体的,通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征,包括:
通过预设神经网络模型进行图像表达,获取图像表达结果。
通过预设神经网络模型进行文本表达,获取文本表达结果;
通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达,形成联合特征。
由于图像特征和文本特征具有不同的特点,上述过程通过预设神经网络模型分别进行图像表达和文本表达,单独获得图像表达结果和文本表达结果,然后再通过预设神经网络将两者进行联合表达,最终形成联合特征,这样的处理过程使得可以在进行特征表达时,选择相适应的表达方式或表达过程,最终综合得到的联合表达结果也更准确,效率更高。
具体的,步骤通过预设神经网络模型进行图像表达、获取图像表达结果,包括:
通过预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。
具体的,步骤通过预设神经网络模型进行文本表达、获取文本表达结果,包括:
通过预设循环神经网络模型进行词向量表达,获取词向量表达结果;
根据词向量表达结果通过预设循环神经网络模型进行全局文本表达,获取文本表达结果。
具体的,在通过预设循环神经网络模型进行词向量表达之前,还包括步骤:
对图片的文本进行中文分词,获取中文词语。
具体的,步骤通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达、形成联合特征,包括:
对图像表达结果和文本表达结果进行加权连接,形成联合特征。
102、对联合特征进行分类处理,输出图片属性分类结果。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的方法,通过预设神经网络模型识别图片的图像特征和图片的文本特征、并形成联合特征以及对联合特征进行分类处理、输出图片属性分类结果,结合图片的图像特征和图片的文本特征进行提取分类,由于两者可以进行互补,能够提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等多项业务。
实施例2
图2是发明实施例2提供的结合图片和文本进行图片属性分类的方法流程图,图3是发明实施例2提供的基于图片和文本的预设神经网络模型示意图,图4是发明实施例2提供的VGG模型示意图,如图2和图3所示,本发明实施例提供的结合图片和文本进行图片属性分类的方法包括以下步骤:
201、通过预设神经网络模型进行图像表达,获取图像表达结果。
具体的,通过预设神经网络模型对图片上的所有元素(例如这里的元素可以以图片的每个图案块为单位)或部分元素进行图像表达,获取每个元素的图像表达结果,每一个表达结果对应一个属性标签,用于表达图片的图像信息。进一步地,根据预设神经网络模型对图片所有元素或部分元素的不同,具体的表达过程可以分为以下两种情况:
一、将图片的所有元素遍历所采用的一个预设神经网络模型或多个预设神经网络模型,最终获得每个元素的图像表达结果;
二、当需要根据目标商品进行图片的部分元素表达时,根据预定义规则确定上述部分元素,然后将图片的这些元素遍历所采用的一个预设神经网络模型或多个预设神经网络模型,最终获得每个元素的图像表达结果。
示例性地,通过预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。比如利用16层的VGG模型进行图像表达。该预设深度卷积神经网络模型利用多层神经网络刻画图像中从简单到复杂的一系列特征,比如较低层学习出简单形状,颜色,纹理等简单模式,不断组合形成逐渐复杂的具有语义信息的模式,比如脸部特征,衣领特征等等。如图4所示,VGG模型的卷积部分由五组【3*3*N卷积层+2*2max-pooling+Relu】的block组成;之后连接两层全连接网络(fc6,fc7)得到4096维的特征;之后进行一层全连接网络(fc8)得到多分类的logits;最后对logits进行softmax分类得到所有类别的概率。
值得注意的是,步骤201通过预设神经网络模型进行图像表达、获取图像表达结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
202、通过预设神经网络模型进行文本表达,获取文本表达结果。
具体的,对图片的文本进行中文分词,获取中文词语;通过预设循环神经网络模型进行词向量表达,获取词向量表达结果;根据词向量表达结果通过预设循环神经网络模型进行全局文本表达,获取文本表达结果。
如图3所示,文本来源是与图像对应的产品名称,产品介绍等。首先进行中文分词,得到一系列中文词语;第二部分是得到中文词语的表达,利用训练好的连续词语向量的词典得到较低维度的词语表达(得到词向量方法可以是基于循环神经网络RNN,或者基于Continuous BoW/Skip-gram的方法);第三部分是为了得到整个句子或者段落的表达,利用RNN或者LSTM对向量序列进行建模,最后一个词向量输出的隐状态向量作为整个段落的表达。
值得注意的是,步骤202通过预设神经网络模型进行文本表达、获取文本表达结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
203、通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达,形成联合特征。
具体的,对图像表达结果和文本表达结果进行加权连接,形成联合特征。
值得注意的是,步骤203通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达、形成联合特征,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
204、通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果。
得到图像表达和文本表达之后的联合特征,对两者进行加权连接,得到联合表达。对联合表达进行一层或多层全连接网络得到N类的logits,对logits进行softmax分类。利用随机梯度下降算法对分类loss进行back-propagation,loss分别沿着图像分支和文本分支向下反传。根据数据库的大小,控制反传的深度。比如对于较小的训练集,为了防止过拟合,只反传到VGG模型的fc6层和文本模型的循环神经网络层;对于大数据集可以反传到图像的卷积层和文本的词向量层。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的方法,通过预设神经网络模型进行图像表达,获取图像表达结果;通过预设神经网络模型进行文本表达,获取文本表达结果;通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达,形成联合特征;通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果,结合图片的图像特征和图片的文本特征进行提取分类,由于两者可以进行互补,能够提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等多项业务。
实施例3
图5是发明实施例3提供的结合图片和文本进行图片属性分类的方法流程图;图6是发明实施例3提供的基于图片和文本的预设神经网络模型示意图,如图5和6所示,本发明实施例提供的结合图片和文本进行图片属性分类的方法包括以下步骤:
301、通过预设神经网络模型对图片的图像和文本进行联合表达,并形成联合特征。
具体的,不同于实施例1和实施例2,该步骤结合图片的图像和文本一起通过预设神经网络模型进行联合表达。如图6所示,在进行联合表达之前,可以先通过预设深度卷积网络模型对图片进行初步的图像表达,然后进入嵌入层,之后与经过图片属性词分词、词向量表达之后的文本表达结果一起通过预设循环神经网络模型进行联合表达,形成联合特征。
值得注意的是,步骤301通过预设神经网络模型对图片的图像和文本进行联合表达,并形成联合特征,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
302、通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果。
值得注意的是,步骤30通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的方法,通过预设神经网络模型对图片的图像和文本进行联合表达,并形成联合特征;通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果,结合图片的图像特征和图片的文本特征进行提取分类,由于两者可以进行互补,能够提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,另外由于结合图片的图像特征和文本特征一起进行联合表达,简化了步骤,该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等多项业务。
实施例4
图7是发明实施例4提供的结合图片和文本进行图片属性分类的装置4结构示意图,如图7所示,本发明实施例提供的结合图片和文本进行图片属性分类的装置包括:
识别计算模块41,用于通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征;还用于对联合特征进行分类处理;
输出模块42,用于输出图片属性分类结果。
具体的,识别计算模块41执行通过预设神经网络模型识别图片的图像特征和图片的文本特征、并形成联合特征的过程,包括:
通过预设神经网络模型进行图像表达,获取图像表达结果。
通过预设神经网络模型进行文本表达,获取文本表达结果;
通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达,形成联合特征。
由于图像特征和文本特征具有不同的特点,上述过程通过预设神经网络模型分别进行图像表达和文本表达,单独获得图像表达结果和文本表达结果,然后再通过预设神经网络将两者进行联合表达,最终形成联合特征,这样的处理过程使得可以在进行特征表达时,选择相适应的表达方式或表达过程,最终综合得到的联合表达结果也更准确,效率更高。
具体的,步骤通过预设神经网络模型进行图像表达、获取图像表达结果,包括:
通过预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。
具体的,步骤通过预设神经网络模型进行文本表达、获取文本表达结果,包括:
通过预设循环神经网络模型进行词向量表达,获取词向量表达结果;
根据词向量表达结果通过预设循环神经网络模型进行全局文本表达,获取文本表达结果。
具体的,在通过预设循环神经网络模型进行词向量表达之前,还包括步骤:
对图片的文本进行中文分词,获取中文词语。
具体的,步骤通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达、形成联合特征,包括:
对图像表达结果和文本表达结果进行加权连接,形成联合特征。
另外,识别计算模块41还用于对联合特征进行分类处理,获得分类结果。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的装置,利用其包括的识别计算模块和输出模块通过预设神经网络模型识别图片的图像特征和图片的文本特征、并形成联合特征以及对联合特征进行分类处理、输出图片属性分类结果,结合图片的图像特征和图片的文本特征进行提取分类,由于两者可以进行互补,能够提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等多项业务。
实施例5
图8是发明实施例5提供的结合图片和文本进行图片属性分类的***结构示意图,如图8所示,本发明实施例提供的结合图片和文本进行图片属性分类的***包括:
识别计算装置51,用于通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征;还用于对联合特征进行分类处理;
输出装置52,用于输出图片属性分类结果。
具体的,识别计算装置51执行通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征的过程可以为:
通过预设神经网络模型进行图像表达,获取图像表达结果。优选地通过预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。利用深度卷积神经网络(DCNN),比如16层的VGG模型进行图像表达。
通过预设神经网络模型进行文本表达,获取文本表达结果。对图片的文本进行中文分词,获取中文词语;通过预设循环神经网络模型进行词向量表达,获取词向量表达结果;根据词向量表达结果通过预设循环神经网络模型进行全局文本表达,获取文本表达结果。
通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达,形成联合特征。具体的,对图像表达结果和文本表达结果进行加权连接,形成联合特征。
通过预设神经网络模型对联合特征进行softmax分类,得到分类结果。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的***,利用其包括的识别计算装置和输出装置通过预设神经网络模型进行图像表达,获取图像表达结果;通过预设神经网络模型进行文本表达,获取文本表达结果;通过预设神经网络模型根据图像表达结果和文本表达结果进行联合表达,形成联合特征;通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果,结合图片的图像特征和图片的文本特征进行提取分类,由于两者可以进行互补,能够提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等多项业务。
实施例6
图9是发明实施例6提供的结合图片和文本进行图片属性分类的装置6结构示意图,如图9所示,本发明实施例提供的结合图片和文本进行图片属性分类的装置包括:存储器61以及与存储器连接的处理器62,存储器61用于储存一组程序代码,处理器62调用存储器61所存储的程序代码用于执行以下操作:
通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征,具体地,包括:通过预设神经网络模型对图片的图像和文本进行联合表达,并形成联合特征。
对联合特征进行分类处理,输出图片属性分类结果,具体地,包括:通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果。
本发明实施例通过提供了一种结合图片和文本进行图片属性分类的装置,通过预设神经网络模型对图片的图像和文本进行联合表达,并形成联合特征;通过预设神经网络模型对联合特征进行softmax分类,输出图片属性分类结果,结合图片的图像特征和图片的文本特征进行提取分类,由于两者可以进行互补,能够提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,另外由于结合图片的图像特征和文本特征一起进行联合表达,简化了步骤,该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等多项业务。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的结合图片和文本进行图片属性分类的方法、装置及***,通过实现以下步骤:通过预设神经网络模型识别图片的图像特征和图片的文本特征,并形成联合特征;对联合特征进行分类处理,输出图片属性分类结果,通过结合图片的图像特征和图片的文本特征,两者可以进行互补,提供更全面的图片特征数据,使得能够更好的表达图片、物品或其他相关对象的属性,获得更详细、准确的对象属性分类结果,因此该方法可用于图片属性提取、完善知识图谱或根据图片属性分类进行查询、搜索等业务。
需要说明的是:上述实施例提供的结合图片和文本进行图片属性分类的装置、***在结合图片和文本进行图片属性分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置或***的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的结合图片和文本进行图片属性分类的装置、***与结合图片和文本进行图片属性分类的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种结合图片和文本进行图片属性分类的方法,其特征在于,所述方法包括:
通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;
对所述联合特征进行分类处理,输出图片属性分类结果;
所述预设神经网络模型至少包括预设深度卷积神经网络模型和循环神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征,包括:
通过预设神经网络模型进行图像表达,获取图像表达结果;
通过预设神经网络模型进行文本表达,获取文本表达结果;
通过预设神经网络模型根据所述图像表达结果和所述文本表达结果进行联合表达,形成联合特征。
3.根据权利要求2所述的方法,其特征在于,所述通过预设神经网络模型进行图像表达,获取图像表达结果,包括:
通过所述预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。
4.根据权利要求2所述的方法,其特征在于,所述通过预设神经网络模型进行文本表达,获取文本表达结果,包括:
通过预设循环神经网络模型进行词向量表达,获取词向量表达结果;
根据所述词向量表达结果通过预设循环神经网络模型进行全局文本表达,获取文本表达结果。
5.根据权利要求4所述的方法,其特征在于,在所述通过预设循环神经网络模型进行词向量表达之前,还包括步骤:
对所述图片的文本进行中文分词,获取中文词语。
6.根据权利要求2所述的方法,其特征在于,所述通过预设神经网络模型根据所述图像表达结果和所述文本表达结果进行联合表达,形成联合特征,包括:
对所述图像表达结果和所述文本表达结果进行加权连接,形成联合特征。
7.根据权利要求1所述的方法,其特征在于,所述通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征,包括:
通过预设神经网络模型对所述图片的图像和文本进行联合表达,并形成联合特征。
8.根据权利要求1所述的方法,其特征在于,所述对所述联合特征进行分类处理,输出图片属性分类结果,包括:
通过预设神经网络模型对所述联合特征进行softmax分类,输出图片属性分类结果。
9.一种结合图片和文本进行图片属性分类的装置,其特征在于,所述装置包括:
识别计算模块,用于通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;还用于对所述联合特征进行分类处理;
输出模块,用于输出图片属性分类结果。
10.一种结合图片和文本进行图片属性分类的***,其特征在于,所述***包括:
识别计算装置,用于通过预设神经网络模型识别所述图片的图像特征和所述图片的文本特征,并形成联合特征;还用于对所述联合特征进行分类处理;
输出装置,用于输出图片属性分类结果。
CN201710832627.7A 2017-09-15 2017-09-15 结合图片和文本进行图片属性分类的方法、装置及*** Active CN107862322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710832627.7A CN107862322B (zh) 2017-09-15 2017-09-15 结合图片和文本进行图片属性分类的方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710832627.7A CN107862322B (zh) 2017-09-15 2017-09-15 结合图片和文本进行图片属性分类的方法、装置及***

Publications (2)

Publication Number Publication Date
CN107862322A true CN107862322A (zh) 2018-03-30
CN107862322B CN107862322B (zh) 2022-01-07

Family

ID=61699555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710832627.7A Active CN107862322B (zh) 2017-09-15 2017-09-15 结合图片和文本进行图片属性分类的方法、装置及***

Country Status (1)

Country Link
CN (1) CN107862322B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN110222189A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110399516A (zh) * 2019-07-29 2019-11-01 拉扎斯网络科技(上海)有限公司 一种图像处理的方法、装置、可读存储介质和电子设备
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN112232339A (zh) * 2020-10-15 2021-01-15 中国民航大学 基于卷积神经网络的航显设备故障检测方法及监控装置
CN113554065A (zh) * 2021-06-30 2021-10-26 广联达科技股份有限公司 一种三维建筑模型构件分类方法及装置
CN114782670A (zh) * 2022-05-11 2022-07-22 中航信移动科技有限公司 一种多模态敏感信息鉴别方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354733A (zh) * 2008-09-18 2009-01-28 上海交通大学 面向乘员约束***性能分析的数据挖掘网格中间件***
CN105426356A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种目标信息识别方法和装置
CN105469087A (zh) * 2015-07-13 2016-04-06 百度在线网络技术(北京)有限公司 识别服饰图片的方法、服饰图片的标注方法及装置
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354733A (zh) * 2008-09-18 2009-01-28 上海交通大学 面向乘员约束***性能分析的数据挖掘网格中间件***
CN105469087A (zh) * 2015-07-13 2016-04-06 百度在线网络技术(北京)有限公司 识别服饰图片的方法、服饰图片的标注方法及装置
CN105426356A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种目标信息识别方法和装置
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN108734212B (zh) * 2018-05-17 2024-06-04 腾讯科技(北京)有限公司 一种确定分类结果的方法以及相关装置
CN110222189A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110399516A (zh) * 2019-07-29 2019-11-01 拉扎斯网络科技(上海)有限公司 一种图像处理的方法、装置、可读存储介质和电子设备
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN110728328B (zh) * 2019-10-22 2022-03-01 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN112232339A (zh) * 2020-10-15 2021-01-15 中国民航大学 基于卷积神经网络的航显设备故障检测方法及监控装置
CN112232339B (zh) * 2020-10-15 2023-04-07 中国民航大学 基于卷积神经网络的航显设备故障检测方法及监控装置
CN113554065A (zh) * 2021-06-30 2021-10-26 广联达科技股份有限公司 一种三维建筑模型构件分类方法及装置
CN114782670A (zh) * 2022-05-11 2022-07-22 中航信移动科技有限公司 一种多模态敏感信息鉴别方法、设备及介质

Also Published As

Publication number Publication date
CN107862322B (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN107862322A (zh) 结合图片和文本进行图片属性分类的方法、装置及***
Campos et al. From pixels to sentiment: Fine-tuning CNNs for visual sentiment prediction
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN110633373B (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN107862239A (zh) 一种结合文本与图片进行图片识别的方法及其装置
CN109871446A (zh) 意图识别中的拒识方法、电子装置及存储介质
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN109658271A (zh) 一种基于保险专业场景的智能客服***及方法
CN107705066A (zh) 一种商品入库时信息录入方法及电子设备
CN109934260A (zh) 基于随机森林的图文数据融合情感分类方法和装置
CN106815192A (zh) 模型训练方法及装置和语句情感识别方法及装置
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN108874783A (zh) 电力信息运维知识模型构建方法
CN109753602A (zh) 一种基于机器学习的跨社交网络用户身份识别方法和***
CN110245228A (zh) 确定文本类别的方法和装置
CN109902202A (zh) 一种视频分类方法及装置
CN109359198A (zh) 一种文本分类方法及装置
Li [Retracted] Intelligent Environmental Art Design Combining Big Data and Artificial Intelligence
CN109325529A (zh) 一种草图识别方法以及该方法在商品检索中的应用
CN113762257B (zh) 一种美妆品牌图像中标志的识别方法及装置
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
Gupta et al. Generating image captions using deep learning and natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211202

Address after: 510000 building 6, No. 20, Huahai street, Fangcun, Liwan District, Guangzhou City, Guangdong Province (office only)

Applicant after: GUANGZHOU PINWEI SOFTWARE Co.,Ltd.

Address before: 510000 room 01, No.314, Fangcun Avenue middle, Liwan District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU WEIPINHUI RESEARCH INSTITUTE CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant