CN103617262A - 图片内容属性识别方法和*** - Google Patents

图片内容属性识别方法和*** Download PDF

Info

Publication number
CN103617262A
CN103617262A CN201310632676.8A CN201310632676A CN103617262A CN 103617262 A CN103617262 A CN 103617262A CN 201310632676 A CN201310632676 A CN 201310632676A CN 103617262 A CN103617262 A CN 103617262A
Authority
CN
China
Prior art keywords
picture
bunch
homology
reprinting
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310632676.8A
Other languages
English (en)
Other versions
CN103617262B (zh
Inventor
陶哲
白明
韩玉刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310632676.8A priority Critical patent/CN103617262B/zh
Publication of CN103617262A publication Critical patent/CN103617262A/zh
Priority to PCT/CN2014/087109 priority patent/WO2015081748A1/zh
Application granted granted Critical
Publication of CN103617262B publication Critical patent/CN103617262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图片内容属性识别方法和***,方法包括:计算多个同源图片簇对于特定资源站点的相对转载数;根据多个同源图片簇以及对应的相对转载数训练筛选器模型;根据训练后的筛选器模型识别目标图片簇中的图片内容属性。本发明的优点在于,根据图片在网络上被转载或传播的数据可以识别图片的内容属性,尤其可以用于判断是否为广告图片。

Description

图片内容属性识别方法和***
技术领域
本发明涉及图像识别领域,具体涉及一种图片内容属性识别方法和***。
背景技术
在网络中很多类型的资源站点上,都会出现一些广告图片,这些广告图片的种类非常丰富,其包括各类商品的广告(例如,关于奶粉、衣服的广告),和实体商店的广告,以及一些其他类型的广告。
这些广告图片不但会出现在商家的站点上,也会出现在其他资源站点的页面上,例如,在允许用户上传图片的社区(论坛、图片站等),会有一些用户上传广告图片。大量广告图片的存在,往往对用户造成干扰,甚至用户进行图片搜索时,也会出现与用户需求无关的广告图片。
从图片的图像内容角度来看,不同广告图片是没有特别多的相似点的,所以基于目前的图像识别技术,难以对图片的图片内容属性进行识别,即难以识别出哪些图片为广告图片,也就无法对广告图片进行针对性的处理,用户的体验必然受到广告图片的影响。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图片内容属性识别方法和***。
依据本发明的一个方面,提供了一种图片内容属性识别方法,其包括:计算多个同源图片簇对于特定资源站点的相对转载数;根据多个同源图片簇以及对应的相对转载数训练筛选器模型;根据训练后的筛选器模型识别目标图片簇中的图片内容属性。
可选地,计算多个同源图片簇对于特定资源站点的相对转载数的步骤包括:对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点。
可选地,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤包括:计算特定资源站点上的图片的第一平均转载数;计算多个资源站点上的图片的第二平均转载数;取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数。
可选地,计算特定资源站点上的图片的第一平均转载数的步骤包括:取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数。
可选地,计算多个资源站点上的图片的第二平均转载数的步骤包括:将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数。
可选地,在将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤之前,还包括:抓取多个资源站点上出现的图片链接;检测图片链接与同源图片簇的图片对应的链接是否相同,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息是否相同,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征;根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数。
可选地,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
可选地,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
可选地,所述方法进一步包括:提取所述同源图片簇中包含的图片的格式特征和/或图片的链接特征,根据所述多个同源图片簇、对应的相对转载数,以及对应包含的图片的格式特征训练筛选器模型;根据训练后的筛选器模型,基于所述相对转载数以及目标图片簇中包含的图片的格式特征和/或图片的链接特征,来识别目标图片簇中的图片内容属性。
可选地,所述图片的格式特征包括但不限于以下中的一种或几种组合:图片的长/宽,图片的大小,图片的清晰度,
可选地,所述图片的链接特征包括但不限于以下中的一种或几种组合:图片链接是否和网页同站,图片跳转链接是否站外。依据本发明的另一个方面,提供了一种图片内容属性识别***,其包括:相对转载数计算模块,用于计算多个同源图片簇对于特定资源站点的相对转载数;训练模块,用于将多个同源图片簇以及对应的相对转载数输入筛选器中训练筛选器模型;筛选器,适于根据训练模块得到训练后的筛选器模型,并根据模型对目标图片簇进行筛选;识别模块,用于根据筛选器对目标图片簇进行筛选,识别目标图片簇中的图片内容属性。
可选地,相对转载数计算模块对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点。
可选地,还包括:第一平均转载数计算模块,用于计算特定资源站点上的图片的第一平均转载数;第二平均转载数计算模块,用于计算多个资源站点上的图片的第二平均转载数;相对转载数计算模块取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数。
可选地,第一平均转载数计算模块取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数。
可选地,第二平均转载数计算模块将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数。
可选地,还包括:图片链接抓取模块,用于抓取多个资源站点上出现的图片链接;图片链接检测模块,用于检测图片链接与同源图片簇的图片对应的链接是否相同,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息是否相同,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征;图片转载数统计模块,用于根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数。
可选地,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
可选地,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
根据本发明的图片内容属性识别方法和***,利用了同源图片簇对于特定资源站点的相对转载数作为训练数据进行筛选器模型的训练,相对转载数是能够反映图片在特定资源站点的站内站外比例的数据,而作为广告的图片的一个主要特点在于:在某一资源站点上转载的次数非常高,而在互联网范围内其他资源站点上转载的次数会相对地明显变少,因此相对转载数的大小可以用于区分别图片是否作为广告进行传播,而利用相对转载数进行的筛选器模型的训练,则得到的筛选器模型可以自行对图片的图片内容属性进行识别,准确地判断图片是否为广告图片。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的图片内容识别方法的流程图;
图2示出了根据本发明的一个实施例的图片内容识别方法的部分流程图;
图3示出了根据本发明的一个实施例的图片内容识别方法的流程图;
图4示出了根据本发明的一个实施例的图片内容识别***的框图;
图5示出了根据本发明的一个实施例的图片内容识别***的框图;
图6示出了根据本发明的一个实施例的图片内容识别***的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例提供了一种图片内容属性识别方法,其包括:步骤110,计算多个同源图片簇对于特定资源站点的相对转载数,每个图片簇是对一组图片的聚合,例如,可以是相似度较高的一组图片,而相对转载数是一种能够反映同源图片簇的图片在特定资源站点站内站外的转载比例的数据,相对转载数的计算方式较多,本实施例中不对相对转载数的计算方式进行限制;步骤120,根据多个同源图片簇以及对应的相对转载数训练筛选器模型,通过对广告图片的研究发现,广告图片有以下特点:广告图片生产成本高,很多广告图片都是商户花费金钱、花费时间制作的,因为广告图片的生产成本高,所以商户会将一张广告图片传播很多次,但是这些广告图片基本上只有商户会进行传播,而其他的用户则基本不会传播广告图片,广告图片在传播上的这种差别最终会体现在资源站点上的转载数上:在特定的资源站点上转载的次数非常多(商户故意传播),而在互联网其他站点上的转载的次数相对少的多(其他用户并不传播),也即广告图片在特定资源站点站内站外的转载比例会比较高,所以相对转载数可以作为区分广告图片和非广告图片的一种数据,而训练筛选器模型的工具包括但不限于开源的LIBSVM;步骤130,根据训练后的筛选器模型识别目标图片簇中的图片内容属性,即识别目标图片簇中的图片是否为广告图片,有利于对广告图片进行过滤等处理,避免广告图片对用户的体验造成影响,假设目标图片簇为对应图片搜索请求的一组图片,则根据本实施例的技术方案,可以从其中识别出广告图片并进行过滤,从而将非广告图片作为搜索结果提供给用户,从而保证用户的使用体验。
在实际应用中,在本发明提出的相对转载数之外,还同时考虑到其他的特征,例如图片的长/宽,图片的大小,图片的清晰度,图片链接是否和网页同站,或图片跳转链接是否站外等特征,在训练筛选器时会根据多个同源图片簇各自对应的相对转载数,以及图片簇中的图片的长/宽,图片的大小,图片的清晰度,图片链接是否和网页同站,图片跳转链接是否站外中的一个或多个组合,先经过筛选器去学习和训练。在目标图片簇识别时,也会对应参照上述这些其他特征中的一个或多个来进行筛选并识别是否为广告图片。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤110可以包括:对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,例如在图片站A上转载了30次,与在多个资源站点上的转载数相比较,例如在10个图片站(包括图片站A)上共转载了35次,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点,本实施例中提供了计算相对转载数的可行方式,且不对具体的比较方式进行限定,例如,取30/35、30/(35-30)作为相对转载数都是可以的。
如图2所示,本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤110包括:步骤111,计算特定资源站点上的图片的第一平均转载数,例如假设图片站A的第一平均转载数为5;步骤112,计算多个资源站点上的图片的第二平均转载数,例如假设10个图片站(包括图片站A)的第二平均转载数为20;步骤113,取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,则第一差值实际上可反映同源图片簇的图片与其他图片在特定资源站点上的转载差异,差值越大则表示同源图片簇为广告图片的可能性越大,结合前述的实施例可知第一差值为30-5=25,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,则第二差值实际上可反映同源图片簇的图片与其他图片在多个资源站点上的转载差异,差值越大表示同源图片簇为广告图片的可能性越小,结合前述的实施例可知第二差值为35-20=15,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数,本实施例中提供了另一种计算相对转载数的方式,且考虑到同源图片簇的图片与其他图片的转载差异,使得相对转载数能更好地反映图片是否为广告图片,本实施例中不对第一差值和第二差值对比方式进行限定,例如,取25/15,(25±a)/(15±b)都是可以的,a、b为常数。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤111包括:取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数,例如图片站A上有100张图片,该100张图片位于20个图片簇中,则第一平均转载数为100/20=5,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤112包括:将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数,例如10个图片站(包括图片站A)上有1000张图片,该1000张图片可聚类为50个图片簇,则第二平均转载数为1000/50=20,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
如图3所示,本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤110之前,还包括:步骤101,抓取多个资源站点上出现的图片链接(URL);步骤102,检测图片链接与同源图片簇的图片对应的链接是否相同,这反映了一张图片是否以不同的URL被转载,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息(包括但不限于MD5值)是否相同,这反映了是否存在多张相同的图片,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征,这反映了多张图片是否相同,或由同一张图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等;步骤103,根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数,则本实施例中提供了一种可全面统计图片转载数的技术方案。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点,转载图片最多次数的站点很可能为广告图片的商户进行传播的站点,该站点对应的转载数最能够有效地反映出图片是否为广告图片。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征,则在本实施例的技术方案中,每个同源图片簇的图片相同,或可以同一图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等。
如图4所示,本发明的一个实施例提供了一种图片内容属性识别***,其包括:相对转载数计算模块210,用于计算多个同源图片簇对于特定资源站点的相对转载数,每个图片簇是对一组图片的聚合,例如,可以是相似度较高的一组图片,而相对转载数是一种能够反映同源图片簇的图片在特定资源站点站内站外的转载比例的数据,相对转载数的计算方式较多,本实施例中不对相对转载数的计算方式进行限制;训练模块220,用于将多个同源图片簇以及对应的相对转载数输入筛选器中训练筛选器模型。通过对广告图片的研究发现,广告图片有以下特点:广告图片生产成本高,很多广告图片都是商户花费金钱、花费时间制作的,因为广告图片的生产成本高,所以商户会将一张广告图片传播很多次,但是这些广告图片基本上只有商户会进行传播,而其他的用户则基本不会传播广告图片,广告图片在传播上的这种差别最终会体现在资源站点上的转载数上:在特定的资源站点上转载的次数非常多(商户故意传播),而在互联网其他站点上的转载的次数相对少的多(其他用户并不传播),也即广告图片在特定资源站点站内站外的转载比例会比较高,所以相对转载数可以作为区分广告图片和非广告图片的一种数据;筛选器230,适于根据训练模块得到训练后的筛选器模型,并根据模型对目标图片簇进行筛选,本实施例中使用的筛选器包括但不限于开源的LIBSVM;识别模块240,用于根据筛选器对目标图片簇进行筛选,识别目标图片簇中的图片内容属性,即识别目标图片簇中的图片是否为广告图片。
另外,实际应用中所述***进一步包括:图片格式特征模块310和/或图片链接特征模块320;所述图片格式特征模块310,适于提取同源图片簇以及目标图片簇中包含的图片的格式特征;所述图片链接特征模块320,适于提取同源图片簇以及目标图片簇中包含的图片的链接特征;所述训练模块220进一步适于基于多个同源图片簇、对应的相对转载数以及对应的图片格式特征和/或图片链接特征,一同输入筛选器中训练筛选器模型;所述筛选器230,进一步适于根据训练后的模型,结合目标图片簇对应的相对转载数以及对应的图片格式特征和/或图片链接特征,对目标图片簇进行筛选;所述识别模块240,进一步用于根据所述筛选器基于目标图片簇对应的相对转载数以及对应的图片格式特征和/或图片链接特征对目标图片簇进行筛选,识别目标图片簇中的图片内容属性。
有利于对广告图片进行过滤等处理,避免广告图片对用户的体验造成影响,假设目标图片簇为对应图片搜索请求的一组图片,则根据本实施例的技术方案,可以从其中识别出广告图片并进行过滤,从而将非广告图片作为搜索结果提供给用户,从而保证用户的使用体验。
在实际应用中,在本发明提出的相对转载数之外,还考虑到其他的特征,例如图片的长/宽,图片的大小,图片的清晰度,图片链接是否和网页同站,或图片跳转链接是否站外等特征,同样先经过分类器去学习和训练。在目标图片簇识别时,也会考虑上述这些其他特征中的一个或多个来进行筛选并识别是否为广告图片。
本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,相对转载数计算模块210对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,例如在图片站A上转载了30次,与在多个资源站点上的转载数相比较,例如在10个图片站(包括图片站A)上共转载了35次,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点,本实施例中提供了计算相对转载数的可行方式,且不对具体的比较方式进行限定,例如,取30/35、30/(35-30)作为相对转载数都是可以的。
如图5所示,本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,还包括:第一平均转载数计算模块250,用于计算特定资源站点上的图片的第一平均转载数,例如假设图片站A的第一平均转载数为5;第二平均转载数计算模块260,用于计算多个资源站点上的图片的第二平均转载数,例如假设10个图片站(包括图片站A)的第二平均转载数为20;相对转载数计算模块210取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,则第一差值实际上可反映同源图片簇的图片与其他图片在特定资源站点上的转载差异,差值越大则表示同源图片簇为广告图片的可能性越大,结合前述的实施例可知第一差值为30-5=25,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,则第二差值实际上可反映同源图片簇的图片与其他图片在多个资源站点上的转载差异,差值越大表示同源图片簇为广告图片的可能性越小,结合前述的实施例可知第二差值为35-20=15,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数,本实施例中提供了另一种计算相对转载数的方式,且考虑到同源图片簇的图片与其他图片的转载差异,使得相对转载数能更好地反映图片是否为广告图片,本实施例中不对第一差值和第二差值对比方式进行限定,例如,取25/15,(25±a)/(15±b)都是可以的,a、b为常数。
本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,第一平均转载数计算模块250取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数,例如图片站A上有100张图片,该100张图片位于20个图片簇中,则第一平均转载数为100/20=5,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,第二平均转载数计算模块260将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数,例如10个图片站(包括图片站A)上有1000张图片,该1000张图片可聚类为50个图片簇,则第二平均转载数为1000/50=20,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
如图6所示,本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,还包括:图片链接抓取模块270,用于抓取多个资源站点上出现的图片链接(URL);图片链接检测模块280,用于检测图片链接与同源图片簇的图片对应的链接是否相同,这反映了一张图片是否以不同的URL被转载,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息(包括但不限于MD5值)是否相同,这反映了是否存在多张相同的图片,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征,这反映了多张图片是否相同,或由同一张图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等;图片转载数统计模块290,用于根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数,则本实施例中提供了一种可全面统计图片转载数的技术方案。
本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点,转载图片最多次数的站点很可能为广告图片的商户进行传播的站点,该站点对应的转载数最能够有效地反映出图片是否为广告图片。
本发明的另一实施例提出一种图片内容属性识别***,与上述实施例相比,本实施例的图片内容属性识别***,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征,则在本实施例的技术方案中,每个同源图片簇的图片相同,或可以同一图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图片内容属性识别***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种图片内容属性识别方法,其包括:
计算多个同源图片簇对于特定资源站点的相对转载数;
根据所述多个同源图片簇以及对应的相对转载数训练筛选器模型;
根据训练后的筛选器模型识别目标图片簇中的图片内容属性。
2.根据权利要求1所述的图片内容属性识别方法,其中,所述计算多个同源图片簇对于特定资源站点的相对转载数的步骤包括:
对于所述多个同源图片簇中的一个同源图片簇,将所述同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到所述同源图片簇对于所述特定资源站点的相对转载数,所述多个资源站点包括所述特定资源站点。
3.根据权利要求2所述的图片内容属性识别方法,其中,所述将所述同源图片簇中的图片在所述特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤包括:
计算所述特定资源站点上的图片的第一平均转载数;
计算所述多个资源站点上的图片的第二平均转载数;
取所述同源图片簇中的图片在所述特定资源站点上的转载数与所述第一平均转载数的第一差值,以及取所述同源图片簇中的图片在所述多个资源站点上的转载数与所述第二平均转载数的第二差值,将所述第一差值和所述第二差值对比得到所述同源图片簇对于所述特定资源站点的相对转载数。
4.根据权利要求3所述的图片内容属性识别方法,其中,所述计算所述特定资源站点上的图片的第一平均转载数的步骤包括:
取所述多个同源图片簇的图片中位于所述特定资源站点上的多个图片,将所述多个图片的数量与所述多个图片对应的同源图片簇的数量进行对比,得到所述第一平均转载数。
5.根据权利要求3所述的图片内容属性识别方法,其中,所述计算所述多个资源站点上的图片的第二平均转载数的步骤包括:
将所述多个同源图片簇的图片的数量,与所述多个同源图片簇的数量进行比较,得到所述第二平均转载数。
6.根据权利要求2所述的图片内容属性识别方法,其中,在所述将所述同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤之前,还包括:
抓取所述多个资源站点上出现的图片链接;
检测所述图片链接与所述同源图片簇的图片对应的链接是否相同,和/或检测所述图片链接对应的图片的校验信息与所述同源图片簇的图片的校验信息是否相同,和/或检测所述图片链接对应的图片与所述同源图片簇的图片是否存在一个或多个相同的图像特征;
根据检测结果,确定所述图片链接是否为所述同源图片簇的图片的转载,并统计所述同源图片簇的图片的转载数。
7.根据权利要求2所述的图片内容属性识别方法,其中,
所述特定资源站点为所述多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
8.根据权利要求1至7中任一项所述的图片内容属性识别方法,其中,
每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
9.一种图片内容属性识别***,其包括:
相对转载数计算模块,用于计算多个同源图片簇对于特定资源站点的相对转载数;
训练模块,用于将所述多个同源图片簇以及对应的相对转载数输入筛选器中训练筛选器模型;
筛选器,适于根据所述训练模块得到训练后的筛选器模型,并根据所述模型对目标图片簇进行筛选;
识别模块,用于根据所述筛选器对目标图片簇进行筛选,识别目标图片簇中的图片内容属性。
10.根据权利要求9所述的图片内容属性识别***,其中,
所述相对转载数计算模块对于所述多个同源图片簇中的一个同源图片簇,将所述同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到所述同源图片簇对于所述特定资源站点的相对转载数,所述多个资源站点包括所述特定资源站点。
CN201310632676.8A 2013-12-02 2013-12-02 图片内容属性识别方法和*** Active CN103617262B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310632676.8A CN103617262B (zh) 2013-12-02 2013-12-02 图片内容属性识别方法和***
PCT/CN2014/087109 WO2015081748A1 (zh) 2013-12-02 2014-09-22 图片内容属性识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310632676.8A CN103617262B (zh) 2013-12-02 2013-12-02 图片内容属性识别方法和***

Publications (2)

Publication Number Publication Date
CN103617262A true CN103617262A (zh) 2014-03-05
CN103617262B CN103617262B (zh) 2017-03-08

Family

ID=50167965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310632676.8A Active CN103617262B (zh) 2013-12-02 2013-12-02 图片内容属性识别方法和***

Country Status (1)

Country Link
CN (1) CN103617262B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995857A (zh) * 2014-05-14 2014-08-20 北京奇虎科技有限公司 一种实现图像搜索排序的方法和装置
WO2015081748A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 图片内容属性识别方法和***
CN105022738A (zh) * 2014-04-21 2015-11-04 上海京知信息科技有限公司 一种基于直方图的网络图片格式文件提取及映射方法
CN106599177A (zh) * 2016-12-12 2017-04-26 国云科技股份有限公司 一种广告页面屏蔽的处理方法
CN107451180A (zh) * 2017-06-13 2017-12-08 百度在线网络技术(北京)有限公司 识别站点同源关系的方法、装置、设备和计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832119A (en) * 1993-11-18 1998-11-03 Digimarc Corporation Methods for controlling systems using control signals embedded in empirical data
CN101071433A (zh) * 2007-05-10 2007-11-14 腾讯科技(深圳)有限公司 一种图片下载***及方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤***及其过滤方法
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤***及其过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832119A (en) * 1993-11-18 1998-11-03 Digimarc Corporation Methods for controlling systems using control signals embedded in empirical data
US5832119C1 (en) * 1993-11-18 2002-03-05 Digimarc Corp Methods for controlling systems using control signals embedded in empirical data
CN101071433A (zh) * 2007-05-10 2007-11-14 腾讯科技(深圳)有限公司 一种图片下载***及方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤***及其过滤方法
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤***及其过滤方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081748A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 图片内容属性识别方法和***
CN105022738A (zh) * 2014-04-21 2015-11-04 上海京知信息科技有限公司 一种基于直方图的网络图片格式文件提取及映射方法
CN103995857A (zh) * 2014-05-14 2014-08-20 北京奇虎科技有限公司 一种实现图像搜索排序的方法和装置
CN106599177A (zh) * 2016-12-12 2017-04-26 国云科技股份有限公司 一种广告页面屏蔽的处理方法
CN106599177B (zh) * 2016-12-12 2020-02-14 国云科技股份有限公司 一种广告页面屏蔽的处理方法
CN107451180A (zh) * 2017-06-13 2017-12-08 百度在线网络技术(北京)有限公司 识别站点同源关系的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
CN103617262B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
US10296552B1 (en) System and method for automated identification of internet advertising and creating rules for blocking of internet advertising
CN108694223A (zh) 一种用户画像库的构建方法及装置
CN106164959A (zh) 行为事件测量***和相关方法
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN103617262A (zh) 图片内容属性识别方法和***
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN103514282A (zh) 一种视频搜索结果展示方法及装置
CN101197793B (zh) 一种垃圾信息检测方法和装置
CN104463177A (zh) 相似人脸图片获取方法和装置
CN111932308A (zh) 数据推荐方法、装置和设备
CN110490237B (zh) 数据处理方法、装置、存储介质及电子设备
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN103617261A (zh) 图片内容属性识别方法和***
CN104765746A (zh) 用于移动通讯终端浏览器的数据处理方法和装置
US20130191323A1 (en) System and method for identifying the context of multimedia content elements displayed in a web-page
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN103631889A (zh) 一种图像识别方法和装置
CN105117434A (zh) 一种网页分类方法和***
CN102902794B (zh) 网页分类***及方法
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN102902792B (zh) 列表页识别***及方法
CN108810577B (zh) 一种用户画像的构建方法、装置及电子设备
CN110442807A (zh) 一种网页类型识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220727

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right