CN108446330A - 一种推广对象处理方法、装置及一种计算机可读存储介质 - Google Patents
一种推广对象处理方法、装置及一种计算机可读存储介质 Download PDFInfo
- Publication number
- CN108446330A CN108446330A CN201810150833.4A CN201810150833A CN108446330A CN 108446330 A CN108446330 A CN 108446330A CN 201810150833 A CN201810150833 A CN 201810150833A CN 108446330 A CN108446330 A CN 108446330A
- Authority
- CN
- China
- Prior art keywords
- popularization
- library
- promoted
- characteristic information
- promoting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种推广对象处理方法、装置及一种计算机可读存储介质,能够识别推广对象。所述推广对象处理方法包括:定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;定期对爬取的推广对象进行去重处理,得到第二推广对象库;采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。通过批量的处理,提高了图像处理速度,并使得研究人员可以根据各推广对象的特征信息对海量的推广对象进行分析研究,得到推广效果监测报告。
Description
技术领域
本发明涉及图像处理技术,尤指一种推广对象处理方法、装置及一种计算机可读存储介质。
背景技术
随着互联网+(Internet Plus)的不断发展,尤其是智能手机的广泛应用,越来越多的互联网广告采用不加检测代码的方式出现,对广告研究而言,这些广告难以用科学的、完整的、高效的方式研究和评估。同时,随着人工智能技术的发展和计算视觉技术的成熟,使得互联网广告图片的内容识别成为可能,针对海量互联网不加码广告的无法检测的问题,急需一种解决方案。
发明内容
为了解决上述技术问题,本发明提供了一种推广对象处理方法、装置及一种计算机可读存储介质,能够识别推广对象。
为了达到本发明目的,本发明提供了一种推广对象处理方法,包括:
定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;
定期对爬取的推广对象进行去重处理,得到第二推广对象库;
采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。
进一步地,所述定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签,包括:
预设多种用户属性,间隔预设时间间隔爬取同一时间段内预设位置的推广对象,下载所述推广对象,生成第一推广对象库,为每个推广对象生成属性标签,所述属性标签至少包括:推广对象的标识。
进一步地,所述定期对爬取的推广对象进行去重处理,得到第二推广对象库,包括:
计算第一推广对象库中每个推广对象的感知哈希值,两两比较推广对象的汉明距离,将汉明距离小于预设值的推广对象设置为一组,生成第二推广对象库,所述第二推广对象库中的信息包括组标识,组中各推广对象的标识。
进一步地,所述采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中,包括:
从第二推广对象库中选择任意一组中的一个推广对象,采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中所述推广对象的属性标签中,以及第一推广对象库中与所述推广对象属于同一组的其他所有推广对象的属性标签中;对第二推广对象库中所有组进行上述处理。
进一步地,所述采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,包括:
使用一组卷积神经网络CNN层提取所述推广对象中的特征图feature map;
区域建议网络RPN层通过分类器判断锚anchor属于前景或背景,再利用边框回归bounding box regression修正锚获得精确的建议proposal;
感兴趣区域池化ROI Pooling层收集特征图和proposal,综合这些信息后提取建议特征图proposal feature map;
全连接full connect层判定建议特征图的类别,所述类别即为推广对象中的特征信息。
进一步地,全连接full connect层判定建议特征图的类别后,所述方法还包括:利用边框回归bounding box regression获得每个proposal的位置偏移量bbox_pred。
进一步地,所述方法还包括:对第一推广对象库中所有推广对象的属性标签进行统计分析,获得推广对象的推广效果。
进一步地,所述推广对象为互联网不加码广告,所述特征信息包括品牌信息。
进一步地,所述特征信息还包括:品牌信息的展示面积占图片总面积的百分比。
为了达到本发明目的,本发明还提供了一种推广对象处理装置,包括爬取模块、去重模块和处理模块,其中:
所述爬取模块,用于定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;
所述去重模块,用于定期对爬取的推广对象进行去重处理,得到第二推广对象库;
所述处理模块,用于采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。
进一步地,所述爬取模块定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签,包括:
所述爬取模块预设多种用户属性,间隔预设时间间隔爬取同一时间段内预设位置的推广对象,下载所述推广对象,生成第一推广对象库,为每个推广对象生成属性标签,所述属性标签至少包括:推广对象的标识。
进一步地,所述去重模块定期对爬取的推广对象进行去重处理,得到第二推广对象库,包括:
所述去重模块计算第一推广对象库中每个推广对象的感知哈希值,两两比较推广对象的汉明距离,将汉明距离小于预设值的推广对象设置为一组,生成第二推广对象库,所述第二推广对象库中的信息包括组标识,组中各推广对象的标识。
进一步地,所述处理模块采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中,包括:
所述处理模块从第二推广对象库中选择任意一组中的一个推广对象,采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中所述推广对象的属性标签中,以及第一推广对象库中与所述推广对象属于同一组的其他所有推广对象的属性标签中;对第二推广对象库中所有组进行上述处理。
进一步地,所述装置还包括分析模块,其用于对第一推广对象库中所有推广对象的属性标签进行统计分析,获得推广对象的推广效果。
为了达到本发明目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
本发明实施例首先通过网络爬虫等方式,获取互联网中推广对象(图片素材),然后进行去重处理,最后使用Faster R-CNN深度学习***,识别图片素材中的特征信息,并将特征信息添加到原始推广对象库中,以使得研究人员可以根据各推广对象的特征信息对海量的推广对象进行分析研究,得到推广效果监测报告。本发明实施例通过去重处理,使得在识别特征信息时无需对每个推广对象都进行识别,对于相同或相似的推广对象仅识别一次即可,将识别出的某一推广对象的特征信息添加到所有与该推广对象相同的推广对象的属性标签中,通过批量的处理,大大提高了图像处理速度,尤其是针对海量推广对象的场景。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例一方法流程图;
图2为本发明实施例二装置结构示意图;
图3为本发明应用示例中Faster R-CNN品牌检测及品牌识别流程图;
图4为本发明应用示例中Faster R-CNN神经网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
本实施例描述一种推广对象的处理方法,如图1所示,包括以下步骤:
步骤11,定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;
上述推广对象例如可以是基于互联网获得的广告素材,包括不限于从以下渠道获得:网站、APP、互联网电视等。由于互联网广告素材数量较多,因此爬取的周期可以以分钟为单位,例如可以是30分钟、60分钟、90分钟、120分钟等。
步骤12,定期对爬取的推广对象进行去重处理,得到第二推广对象库;
由于去重处理运算量较大,无法实时实现,因此设置去重处理的周期以天为单位,例如可以设置为每天夜间或凌晨对当天爬取的推广对象进行去重。
本步骤中所述去重可以是将判定相同的图片归为一组,第二推广对象库以组为单位存储推广对象的信息。
步骤13,采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。
重复步骤13直到第二推广对象库中的所有推广对象均处理完毕。
本实施例中步骤13中采用的基于深度学习的目标检测技术为Faster R-CNN。如果步骤11中爬取的推广对象为互联网不加码广告,所述特征信息可以包括品牌信息,可选地,还可以包括:品牌信息的展示面积占图片总面积的百分比。
采用本发明实施例,通过去重处理,将相同(或相似)的图片划分在同一组,使得在识别特征信息时无需对每个推广对象都进行识别,对于相同或相似的推广对象仅识别一次即可,将识别出的某一推广对象的特征信息添加到所有与该推广对象相同的推广对象的属性标签中,通过批量的处理,大大提高了图像处理速度。通过上述步骤11-13的处理,可以快速获得所有推广对象的特征信息,便于研究人员对推广对象进行推广对象触达效果的分析研究。
可选地,在步骤13之后,还包括:
步骤14,对第一推广对象库中所有推广对象的属性标签进行统计分析,获得推广对象的推广效果。
其中,在上述步骤11中,所述定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签,包括:
预设多种用户属性,间隔预设时间间隔爬取同一时间段内预设位置的推广对象,下载所述推广对象,生成第一推广对象库,为每个推广对象生成属性标签,所述属性标签至少包括:推广对象的标识。爬取操作可利用网络爬虫实现。
其中,在上述步骤12中,所述定期对爬取的推广对象进行去重处理,得到第二推广对象库,包括:
计算第一推广对象库中每个推广对象的感知哈希值,两两比较推广对象的汉明距离,将汉明距离小于预设值的推广对象设置为一组,汉明距离小于预设值的推广对象认为是相同或相似的,生成第二推广对象库,所述第二推广对象库中记录的信息包括组标识,组中推广对象的标识,还可以包括各推广对象对应的感知哈希值。
其中,在上述步骤13中,所述采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中,包括:
从第二推广对象库中选择任意一组中的一个推广对象(可以是任意一个),采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中所述推广对象的属性标签中,以及第一推广对象库中与所述推广对象属于同一组的其他所有推广对象的属性标签中;对第二推广对象库中所有组进行上述处理,直到每个组中的任一推广对象的特征信息识别完毕,此时第一推广对象库中所有推广对象的属性标签中均添加有特征信息。
具体地,所述采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,包括:
使用一组卷积神经网络CNN层提取所述推广对象中的特征图feature map;
区域建议网络RPN层通过分类器判断锚anchor属于前景或背景,再利用边框回归bounding box regression修正锚获得精确的建议proposal;
感兴趣区域池化ROI Pooling层收集特征图和proposal,综合这些信息后提取建议特征图proposal feature map;
全连接full connect层判定建议特征图的类别,所述类别即为推广对象中的特征信息。
可选地,在全连接full connect层判定建议特征图的类别后,所述方法还包括:利用边框回归bounding box regression获得每个proposal的位置偏移量bbox_pred,即特征信息的展示面积占图片总面积的百分比。
实施例二
本实施例描述一种推广对象的处理装置,上述方法实施例中描述也适用于本实施例,本实施例不再赘述。如图2所示,所述装置包括爬取模块21、去重模块22和处理模块23,其中:
所述爬取模块21,用于定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;
所述去重模块22,用于定期对爬取的推广对象进行去重处理,得到第二推广对象库;
所述处理模块23,用于采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。
在一个可选实施例中,所述爬取模块21定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签,包括:
所述爬取模块21预设多种用户属性,间隔预设时间间隔爬取同一时间段内预设位置的推广对象,下载所述推广对象,生成第一推广对象库,为每个推广对象生成属性标签,所述属性标签至少包括:推广对象的标识。
在一个可选实施例中,所述去重模块22定期对爬取的推广对象进行去重处理,得到第二推广对象库,包括:
所述去重模块22计算第一推广对象库中每个推广对象的感知哈希值,两两比较推广对象的汉明距离,将汉明距离小于预设值的推广对象设置为一组,生成第二推广对象库,所述第二推广对象库中的信息包括组标识,组中各推广对象的标识。
在一个可选实施例中,所述处理模块23采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中,包括:
所述处理模块23从第二推广对象库中选择任意一组中的一个推广对象,采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中所述推广对象的属性标签中,以及第一推广对象库中与所述推广对象属于同一组的其他所有推广对象的属性标签中;对第二推广对象库中所有组进行上述处理。
所述处理模块23采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,包括:
所述处理模块23使用一组卷积神经网络CNN层提取所述推广对象中的特征图feature map;
所述处理模块23使区域建议网络RPN层通过分类器判断锚anchor属于前景或背景,再利用边框回归bounding box regression修正锚获得精确的建议proposal;
所述处理模块23使感兴趣区域池化ROI Pooling层收集特征图和proposal,综合这些信息后提取建议特征图proposal feature map;
所述处理模块23使全连接full connect层判定建议特征图的类别,所述类别即为推广对象中的特征信息。
可选地,全连接full connect层判定建议特征图的类别后,所述处理模块23还利用边框回归bounding box regression获得每个proposal的位置偏移量bbox_pred。
在一个可选实施例中,所述装置还包括分析模块,其用于对第一推广对象库中所有推广对象的属性标签进行统计分析,获得推广对象的推广效果。
应用示例
本示例以推广对象为互联网不加码广告素材为例进行具体说明,包括如下步骤:
步骤1:不加码网络广告素材采集:在本示例中通过部署分布式网络爬虫***,模拟多种用户属性,爬取不加码网络广告素材,并对爬取的素材标签化,具体包括:
(1)模拟多种用户属性爬取广告素材;
通过在爬虫***中预设多种UA(User Agent),如年龄、性别、地域、手机型号、消费习惯、媒体习惯等,爬取同一时间段的目标站点的广告素材;下载广告素材并添加属性标签Spider_AD_Label,Spider_AD_Label包括但不限于:Spider_AD_ID,Original_URL,AD_Path,Site_ID,Media_Type,Unix_Time,Area_ID,AD_Info,AD_UA,其中,Spider_AD_ID表示广告素材的唯一标识符,Original_URL表示广告素材的原始URL(Uniform ResourceLocator,统一资源定位符),AD_Path表示广告素材的服务器存储路径,Site_ID表示素材来源(网站或APP),Media_Tpye表示广告素材来源的媒介类型(网站,APP,互联网电视等),Unix_Time表示素材爬取时间,Area_ID表示广告素材的投放城市信息,AD_UA表示爬取该广告素材时使用的UA信息。视研究分析的需要,上述属性标签的内容可以进行增减。
(2)分时段爬取广告素材;
根据需求,可采取30分钟、60分钟、120分钟等时间间隔启动爬虫爬取广告素材。
步骤2:素材数据预处理:以天为时间间隔,使用感知哈希算法(Perceptual hashalgorithm)对爬虫爬取的图片素材进行去重,生成AD_Img库,库中包括但不限于以下参数:AD_Unique_ID,Spider_AD_ID,Img_Phash,其中AD_Unique_ID字段代表图片内容一致的图片组序号,Spider_AD_ID字段取自Spider_AD_Label标签中的Spider_AD_ID,表示广告素材的唯一标识符,Img_pHash字段表示素材的pHash值;数据预处理过程具体包括:
(1)计算所有广告素材的感知哈希值pHash_Value,并生成AD_Img标签,其中AD_Img_ID字段按自增长方式生成;
(2)依次遍历所有素材,并两两计算广告素材pHash_Value的汉明距离,如果汉明距离小于等于预设值(例如为0),则认为两图像相同或相似,将相同或相似的图像归为一组,组号采用AD_Unique_ID标识,AD_Unique_ID在***内全局唯一;
(3)提取AD_Img中AD_Unique_ID字段,得到AD_Img_List列表,该列表只包含AD_Unique_ID一个字段。
步骤3:广告素材智能识别***识别素材中的品牌信息:在AD_Img库中随机提取AD_Img_List中AD_Unique_ID所对应的一张广告素材,并输入到Faster R-CNN深度学习***,***将输出一组品牌信息AD_Img_Brand,包括但不限于:AD_Unique_ID,Brand_ID和Proportion,其中AD_Unique_ID标识一组相同或相似的素材,一个AD_Unique_ID可以对应多组AD_Img_Brand(即一张素材中包含多个品牌信息),Brand_ID表示素材中品牌内容或类别,Proportion表示该品牌内容的展示面积占图片总面积的百分比。***核心算法是Faster R-CNN品牌位置检测和品牌内容识别神经网络,Faster R-CNN品牌检测及品牌识别流程图如图3所示,Faster R-CNN深度学习神经网络组成结构如图4所示,图3中ROI投影为ROI Projection表示感兴趣区域投影,ROI池化层为RoI Pooling layer,Fc为FullConnect layer表示全连接层,RoI特征矢量为RoI Feature Vector,Deep ConvNet、ConvFeature Map、Softmax,Bbox regressor无通用中文技术术语。图4中的13个conv层,13个relu层和4个池化(pooling)层为以下方式排列:conv层、relu层、conv层、relu层、pooling层、conv层、relu层、conv层、relu层、pooling层、conv层、relu层、conv层、relu层、conv层、relu层、pooling层、conv层、relu层、conv层、relu层、conv层、relu层、pooling层、conv层、relu层、conv层、relu层、conv层、relu层。图4中的2个relu层和2个全连接层为以下方式排列:全连接层、relu层、全连接层、relu层。图4中的conv、relu、Reshape、Softmax无通用中文技术术语。
特征识别流程可分为以下四个部分:
(1)Faster RCNN使用一组CNN(Convolutional Neural Network,卷积神经网络)层提取素材中的feature maps(特征图),该feature maps将被共享用于后续RPN(RegionProposal Networks,区域建议网络)层和全连接层(fully connected layers,简称FC);
(2)RPN(Region Proposal Networks)网络用于生成region proposals;该层通过softmax分类器判断anchors(锚)属于foreground(前景)或background(背景),再利用bounding box regression(边框回归)修正anchors获得精确的proposals;
(3)ROI(region of interest,感兴趣区域)Pooling(池化)层收集输入的featuremaps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别;
(4)Classification(分类);Classification部分利用已经获得的proposalfeature maps通过full connect(全连接)层,再使用softmax分类器得到每个proposal具体属于那个类别(即品牌),输出cls_prob概率向量,即素材内容类别,表示属于某个品牌的概率;同时利用bounding box regression(边框回归)获得每个proposal的位置偏移量bbox_pred,用于回归更加精确的目标检测框,即获得品牌内容的展示面积占总图片面积的百分比。
步骤4:输出不加码广告效果研究结果:
(1)逆向网络图像预处理,识别等过程,逐级回溯,找到AD_Unique_ID所对应的原始的爬虫素材,并添加品牌信息标签到Spider_AD_Label的AD_Info字段中;
(2)将识别后的Spider_AD_Label输入到已有样本研究***中,该样本研究***将根据需求,输出不加码广告效果监测报告,可包括PV(page view,页面浏览量),UV(userview,独立访客),Reach(覆盖面),frequency(频次),媒体属性,用户画像,ROI(投资回报率),广告触达效果评估、SOV(Share of voice,广告占有率)等关键指标。
本示例的不加码广告图片投放效果监测方法分为四阶段进行,首先为初始广告素材数据采集阶段,该阶段通过分布式网络爬虫模拟多种用户属性爬取电商、视频网站等网页和APP端的不加码广告图片素材,并将素材标签化后;然后进入数据预处理阶段,该阶段将爬取的素材进行去重等操作;再进入广告素材识别阶段;该阶段将预处理过的广告素材输入到基于Frast R-CNN的图像检测及识别***,该***将识别并标记广告素材中的品牌信息及场景信息;最后为计算不加码广告投放效果阶段,该阶段将广告素材的URL及相关广告属性输入到样本数据研究***中,输出不加码广告触达效果评估、SOV(Share of voice,广告占有率)等广告投放效果检测结果。本示例通过Frast R-CNN深度学习***,智能识别互联网的不加码图片素材,有效解决了互联网不加码广告的效果监测需求,该方法可应用于互联网中不加码的广告投放效果研究。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理单元的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (15)
1.一种推广对象处理方法,其特征在于,包括:
定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;
定期对爬取的推广对象进行去重处理,得到第二推广对象库;
采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。
2.根据权利要求1所述的方法,其特征在于,
所述定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签,包括:
预设多种用户属性,间隔预设时间间隔爬取同一时间段内预设位置的推广对象,下载所述推广对象,生成第一推广对象库,为每个推广对象生成属性标签,所述属性标签至少包括:推广对象的标识。
3.根据权利要求1所述的方法,其特征在于,
所述定期对爬取的推广对象进行去重处理,得到第二推广对象库,包括:
计算第一推广对象库中每个推广对象的感知哈希值,两两比较推广对象的汉明距离,将汉明距离小于预设值的推广对象设置为一组,生成第二推广对象库,所述第二推广对象库中的信息包括组标识,组中各推广对象的标识。
4.根据权利要求1所述的方法,其特征在于,
所述采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中,包括:
从第二推广对象库中选择任意一组中的一个推广对象,采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中所述推广对象的属性标签中,以及第一推广对象库中与所述推广对象属于同一组的其他所有推广对象的属性标签中;
对第二推广对象库中所有组进行上述处理。
5.根据权利要求4所述的方法,其特征在于,
所述采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,包括:
使用一组卷积神经网络CNN层提取所述推广对象中的特征图feature map;
区域建议网络RPN层通过分类器判断锚anchor属于前景或背景,再利用边框回归bounding box regression修正锚获得精确的建议proposal;
感兴趣区域池化ROI Pooling层收集特征图和proposal,综合这些信息后提取建议特征图proposal feature map;
全连接full connect层判定建议特征图的类别,所述类别即为推广对象中的特征信息。
6.根据权利要求5所述的方法,其特征在于,
全连接full connect层判定建议特征图的类别后,所述方法还包括:利用边框回归bounding box regression获得每个proposal的位置偏移量bbox_pred。
7.根据权利要求1所述的方法,其特征在于,
所述方法还包括:对第一推广对象库中所有推广对象的属性标签进行统计分析,获得推广对象的推广效果。
8.根据权利要求1-7中任一权利要求所述的方法,其特征在于,
所述推广对象为互联网不加码广告,所述特征信息包括品牌信息。
9.根据权利要求8所述的方法,其特征在于,
所述特征信息还包括:品牌信息的展示面积占图片总面积的百分比。
10.一种推广对象处理装置,其特征在于,包括爬取模块、去重模块和处理模块,其中:
所述爬取模块,用于定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签;
所述去重模块,用于定期对爬取的推广对象进行去重处理,得到第二推广对象库;
所述处理模块,用于采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中。
11.根据权利要求10所述的装置,其特征在于,
所述爬取模块定期爬取推广对象,生成第一推广对象库,为每个推广对象生成属性标签,包括:
所述爬取模块预设多种用户属性,间隔预设时间间隔爬取同一时间段内预设位置的推广对象,下载所述推广对象,生成第一推广对象库,为每个推广对象生成属性标签,所述属性标签至少包括:推广对象的标识。
12.根据权利要求10所述的装置,其特征在于,
所述去重模块定期对爬取的推广对象进行去重处理,得到第二推广对象库,包括:
所述去重模块计算第一推广对象库中每个推广对象的感知哈希值,两两比较推广对象的汉明距离,将汉明距离小于预设值的推广对象设置为一组,生成第二推广对象库,所述第二推广对象库中的信息包括组标识,组中各推广对象的标识。
13.根据权利要求10所述的装置,其特征在于,
所述处理模块采用基于深度学习的目标检测技术识别第二推广对象库中推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中与所述推广对象相同的所有推广对象的属性标签中,包括:
所述处理模块从第二推广对象库中选择任意一组中的一个推广对象,采用基于深度学习的目标检测技术识别所述推广对象中的特征信息,将识别出的特征信息添加到所述第一推广对象库中所述推广对象的属性标签中,以及第一推广对象库中与所述推广对象属于同一组的其他所有推广对象的属性标签中;
对第二推广对象库中所有组进行上述处理。
14.根据权利要求10所述的装置,其特征在于,
所述装置还包括分析模块,其用于对第一推广对象库中所有推广对象的属性标签进行统计分析,获得推广对象的推广效果。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9中任一权利要求所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810150833.4A CN108446330B (zh) | 2018-02-13 | 2018-02-13 | 一种推广对象处理方法、装置及一种计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810150833.4A CN108446330B (zh) | 2018-02-13 | 2018-02-13 | 一种推广对象处理方法、装置及一种计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446330A true CN108446330A (zh) | 2018-08-24 |
CN108446330B CN108446330B (zh) | 2022-05-13 |
Family
ID=63192496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810150833.4A Active CN108446330B (zh) | 2018-02-13 | 2018-02-13 | 一种推广对象处理方法、装置及一种计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446330B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447719A (zh) * | 2018-12-17 | 2019-03-08 | 厦门美柚信息科技有限公司 | 目标推广商品自动确定方法、装置、介质及电子设备 |
CN109740729A (zh) * | 2018-12-14 | 2019-05-10 | 北京中科寒武纪科技有限公司 | 运算方法、装置及相关产品 |
CN113971592A (zh) * | 2021-12-23 | 2022-01-25 | 成都易播科技有限公司 | 一种推广信息发布主体的监管评定方法、***以及装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082427A1 (en) * | 2008-09-30 | 2010-04-01 | Yahoo! Inc. | System and Method for Context Enhanced Ad Creation |
US20150139485A1 (en) * | 2013-11-15 | 2015-05-21 | Facebook, Inc. | Pose-aligned networks for deep attribute modeling |
AU2013254921A1 (en) * | 2013-11-07 | 2015-05-21 | Canon Kabushiki Kaisha | Method, apparatus and system for determining a label for a group of individuals represented in images |
KR20160059403A (ko) * | 2014-11-18 | 2016-05-26 | 주식회사 솔루엠 | 복수의 전자 라벨의 디스플레이를 이용하는 광고 이미지 생성 장치 및 그에 따른 광고 방법 |
CN105677844A (zh) * | 2016-01-06 | 2016-06-15 | 北京摩比万思科技有限公司 | 一种移动广告大数据的定向推送及用户跨屏识别方法 |
CN105825396A (zh) * | 2016-03-11 | 2016-08-03 | 合网络技术(北京)有限公司 | 一种基于共现的广告标签聚类的方法及*** |
CN105913275A (zh) * | 2016-03-25 | 2016-08-31 | 哈尔滨工业大学深圳研究生院 | 一种基于视频主角识别的服装广告投放方法及*** |
WO2017019646A1 (en) * | 2015-07-24 | 2017-02-02 | Videoamp, Inc. | Sequential delivery of advertising content across media devices |
WO2017019643A1 (en) * | 2015-07-24 | 2017-02-02 | Videoamp, Inc. | Targeting tv advertising slots based on consumer online behavior |
CN106383887A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市博安达信息技术股份有限公司 | 一种环保新闻数据采集和推荐展示的方法及*** |
CN107203598A (zh) * | 2017-05-08 | 2017-09-26 | 广州智慧城市发展研究院 | 一种实现图像转换标签的方法及*** |
CN107358264A (zh) * | 2017-07-14 | 2017-11-17 | 深圳市唯特视科技有限公司 | 一种基于机器学习算法进行图像分析的方法 |
CN107545271A (zh) * | 2016-06-29 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置和*** |
CN107562742A (zh) * | 2016-06-30 | 2018-01-09 | 苏宁云商集团股份有限公司 | 一种图像数据处理方法及装置 |
CN107636646A (zh) * | 2015-08-03 | 2018-01-26 | 谷歌有限责任公司 | 利用地理定位的成像进行设施锚定 |
-
2018
- 2018-02-13 CN CN201810150833.4A patent/CN108446330B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082427A1 (en) * | 2008-09-30 | 2010-04-01 | Yahoo! Inc. | System and Method for Context Enhanced Ad Creation |
AU2013254921A1 (en) * | 2013-11-07 | 2015-05-21 | Canon Kabushiki Kaisha | Method, apparatus and system for determining a label for a group of individuals represented in images |
US20150139485A1 (en) * | 2013-11-15 | 2015-05-21 | Facebook, Inc. | Pose-aligned networks for deep attribute modeling |
KR20160059403A (ko) * | 2014-11-18 | 2016-05-26 | 주식회사 솔루엠 | 복수의 전자 라벨의 디스플레이를 이용하는 광고 이미지 생성 장치 및 그에 따른 광고 방법 |
WO2017019646A1 (en) * | 2015-07-24 | 2017-02-02 | Videoamp, Inc. | Sequential delivery of advertising content across media devices |
WO2017019643A1 (en) * | 2015-07-24 | 2017-02-02 | Videoamp, Inc. | Targeting tv advertising slots based on consumer online behavior |
CN107636646A (zh) * | 2015-08-03 | 2018-01-26 | 谷歌有限责任公司 | 利用地理定位的成像进行设施锚定 |
CN105677844A (zh) * | 2016-01-06 | 2016-06-15 | 北京摩比万思科技有限公司 | 一种移动广告大数据的定向推送及用户跨屏识别方法 |
CN105825396A (zh) * | 2016-03-11 | 2016-08-03 | 合网络技术(北京)有限公司 | 一种基于共现的广告标签聚类的方法及*** |
CN105913275A (zh) * | 2016-03-25 | 2016-08-31 | 哈尔滨工业大学深圳研究生院 | 一种基于视频主角识别的服装广告投放方法及*** |
CN107545271A (zh) * | 2016-06-29 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置和*** |
CN107562742A (zh) * | 2016-06-30 | 2018-01-09 | 苏宁云商集团股份有限公司 | 一种图像数据处理方法及装置 |
CN106383887A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市博安达信息技术股份有限公司 | 一种环保新闻数据采集和推荐展示的方法及*** |
CN107203598A (zh) * | 2017-05-08 | 2017-09-26 | 广州智慧城市发展研究院 | 一种实现图像转换标签的方法及*** |
CN107358264A (zh) * | 2017-07-14 | 2017-11-17 | 深圳市唯特视科技有限公司 | 一种基于机器学习算法进行图像分析的方法 |
Non-Patent Citations (4)
Title |
---|
DONG MINGZHI等: "TRANSFERRING CNNS TO MULTI-INSTANCE MULTI-LABEL CLASSIFICATION ON SMALL DATASETS", 《2017 24TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
吕云翔等: "基于机器学习的监控视频行人检测与追踪***的设计与实现", 《工业和信息化教育》 * |
张国燕: "基于标签的个性化广告精准营销***设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张广: "基于贝叶斯方法的图像标注研究与***实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740729A (zh) * | 2018-12-14 | 2019-05-10 | 北京中科寒武纪科技有限公司 | 运算方法、装置及相关产品 |
CN109447719A (zh) * | 2018-12-17 | 2019-03-08 | 厦门美柚信息科技有限公司 | 目标推广商品自动确定方法、装置、介质及电子设备 |
CN113971592A (zh) * | 2021-12-23 | 2022-01-25 | 成都易播科技有限公司 | 一种推广信息发布主体的监管评定方法、***以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108446330B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796204B (zh) | 视频标签确定方法、装置和服务器 | |
CN108205766A (zh) | 信息推送方法、装置及*** | |
CN111078940B (zh) | 图像处理方法、装置、计算机存储介质及电子设备 | |
CN106997549A (zh) | 一种广告信息的推送方法及*** | |
CN111882361A (zh) | 基于人工智能的受众精准广告推送方法、***及可读存储介质 | |
CN105893407A (zh) | 个体用户画像方法和*** | |
CN106204165A (zh) | 一种广告投放方法及装置 | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN109933699A (zh) | 一种学术画像模型的构建方法及装置 | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN108446330A (zh) | 一种推广对象处理方法、装置及一种计算机可读存储介质 | |
CN110598095B (zh) | 一种识别包含指定信息文章的方法、装置及存储介质 | |
CN108734516A (zh) | 广告投放方法及装置 | |
CN113592605B (zh) | 基于相似产品的产品推荐方法、装置、设备及存储介质 | |
KR102559950B1 (ko) | 인공지능에 기반한 최적 광고 추천 시스템 | |
CN114936301A (zh) | 智能家居建材数据的管理方法、装置、设备及存储介质 | |
CN113269232B (zh) | 模型训练方法、向量化召回方法、相关设备及存储介质 | |
CN114372580A (zh) | 模型训练方法、存储介质、电子设备和计算机程序产品 | |
CN114064971A (zh) | 一种基于深度学习的机坪视频语义检索方法及检索*** | |
US20230316106A1 (en) | Method and apparatus for training content recommendation model, device, and storage medium | |
CN113159828A (zh) | 促销方案的推荐方法、装置及计算机可读存储介质 | |
CN117014699A (zh) | 一种视频数据处理方法及装置 | |
CN113421172B (zh) | 一种政策信息推送方法及装置 | |
CN116957035A (zh) | 模型训练方法、以及推荐媒体内容的方法 | |
CN110942056A (zh) | 服饰关键点定位方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210122 Address after: Room 2020, 2 / F, building 27, No. 25, North Third Ring Road West, Haidian District, Beijing 100089 Applicant after: Beijing minglue Zhaohui Technology Co.,Ltd. Address before: 100012 Room 302, block B, Ruipu building, No.15, Hongjunying South Road, Beiyuan, Chaoyang District, Beijing Applicant before: BEIJING XINSIGHT TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |