CN104751354B - 一种广告人群筛选方法 - Google Patents

一种广告人群筛选方法 Download PDF

Info

Publication number
CN104751354B
CN104751354B CN201510172689.0A CN201510172689A CN104751354B CN 104751354 B CN104751354 B CN 104751354B CN 201510172689 A CN201510172689 A CN 201510172689A CN 104751354 B CN104751354 B CN 104751354B
Authority
CN
China
Prior art keywords
video
user
similar
cluster
cluster result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510172689.0A
Other languages
English (en)
Other versions
CN104751354A (zh
Inventor
雷龙艳
章岑
朱凯泉
房晓宇
江建博
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Unification Infotech (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unification Infotech (beijing) Co Ltd filed Critical Unification Infotech (beijing) Co Ltd
Priority to CN201510172689.0A priority Critical patent/CN104751354B/zh
Publication of CN104751354A publication Critical patent/CN104751354A/zh
Application granted granted Critical
Publication of CN104751354B publication Critical patent/CN104751354B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种广告人群筛选方法,基于丰富的视频和视频标签资源,先对相似视频进行聚类,然后通过用户对视频的观看订阅等行为习惯将视频聚类结果转换为用户聚类结果,找到与种子对应的用户聚类,最后对这些聚类中的用户进行抽取排序找到满足需求的潜在客户。通过本发明的方法,能够避免视频媒体用户信息较弱的缺陷,充分利用视频媒体的视频和标签资源丰富的优势,将直接寻找相似用户转换为先对视频与标签的聚类。

Description

一种广告人群筛选方法
技术领域
本发明涉及一种广告人群筛选方法。
背景技术
在广告人群定向中,现有一种方法是根据广告主提供的种子用户信息,结合广告平台更丰富的数据,为广告主寻找到行为上相似的潜在客户。然而,广告主提供的原始种子用户量相对太少,无法满足广告主接触***的需求,因此不能仅仅依靠种子用户来投送广告。
特别是在视频媒体领域的广告投放中,由于访客用户不用注册即可观看视频,而且注册用户的信息量也相对较少,因此,视频媒体领域所获取的用户信息相对于淘宝、京东类的购物网站来说较弱。所以,直接使用广告主提供的种子用户来寻找相似用户则精准度较为欠缺。如何有效地在视频媒体领域投放广告成为亟待解决的问题。
发明内容
我们注意到,视频媒体领域的最大优势在于拥有丰富的视频资源,而且视频上拥有丰富而准确的视频标签,同时,用户的观看***台的优势,并不直接通过种子用户找相似用户,而是基于丰富的视频和视频标签资源,先对相似视频进行聚类,然后通过用户对视频的观看订阅等行为习惯将视频聚类结果转换为用户聚类结果,此时就可以找到与种子对应的用户聚类,最后对这些聚类中的用户进行抽取排序找到满足需求的潜在客户。
通过本发明提出的方法,能够避免视频媒体用户信息较弱的缺陷,充分利用视频媒体的视频和标签资源丰富的优势,将直接寻找相似用户转换为先对视频与标签的聚类。本发明还充分利用用户在视频媒体中的行为日志来搭建用户与视频或标签的关系桥梁,通过这种关系,可以通过用户喜欢的视频或标签类别来找到相似视频与相似用户的映射关系。
附图说明
本发明将参照附图来进一步详细说明,其中:
图1是本发明方法的流程图。
具体实施方式
下面结合图1详细描述本发明。本发明的基于Look-alike的广告人群筛选方法包括:
第一步,将视频媒体的视频标签映射为X维标签向量,之后通过将视频的所有标签向量累加后平均,得到每个视频的X维视频向量。
视频媒体一般都拥有百万级的视频标签资源,使用***的深度学习工具Word2Vec将每一个视频标签(即视频作者为视频总结的能反映视频主题的词)映射为X维向量,而向量空间上的相似度可以用来表示视频标签语义上的相似度。X参数的取值一般为10到200之间(取值太大可能会出现维数灾难,且计算复杂度过高,取值太小可能不能表达完整的语义空间,具体取值可根据多次试验后取最优值),在本实施例中X参数取值20。
由于每个视频都会有一个或多个视频标签,这些标签代表了该视频的相关内容或看点,一般的,一个视频上的标签往往语义上较为相似,所以可以把一个视频上的所有标签的向量通过累加平均的方式聚合成一个向量,将每个视频的所有标签向量的相应维度的值进行累加后平均,最后得到每个视频的一个X维视频向量。
第二步,对视频进行聚类,得到相似视频聚类结果。
每个聚类中的视频是标签相似、内容或主题相近的,由于视频的数据量巨大,而且聚类过程需要对视频向量进行相似度计算,我们采用分布式计算平台Spark中MLlib组件中的K-Means算法完成此聚类过程,K聚类数的取值视情况而定,在本实施例中K聚类数取值10000。
第三步,将相似视频聚类结果转换为相似用户聚类结果。
用户对自己喜爱的视频往往会留下“观看”,“订阅”,“评论”,“顶”等行为日志,这些行为日志搭建了用户与视频之间的关系桥梁。通过收集这些行为日志,将相似视频聚类结果转换为相似用户聚类结果,每个用户聚类结果中的用户是兴趣相似、观看习惯相近的。
第四步,从种子用户中提取聚类结果,进行相似度排序,从而确定用户排名。
从广告主得到种子用户后,通过相似用户聚类结果找到种子用户所在的N个聚类,将N个聚类的用户抽取出来,进行相似度排序,确定排名在前的用户是满足需求的潜在客户,并进行广告投放。
下面通过具体示例描述本发明。
示例一,对3C人群种子扩充筛选的示例
广告主计划向3C人群投放广告,其提供少量3C人群种子cookie,3C人群是一类对科技、通讯、IT电子产品等感兴趣的一类较高端人群,这类人群是该广告主希望定向的目标。在视频媒体的科技频道中,大多数视频的标签都是与计算机、通讯、电子产品等相关的,如微软、小米、锤子手机、iphone6、Nexus6、机器人等等。第一步,通过word2vec将视频标签向量化,将每个视频的所有标签向量的相应维度的值进行累加后平均,最后得到每个视频的X维视频向量,类别相近的标签的向量相似度高,比如小米与锤子手机的向量相似度远大于小米与旅游的向量相似度。第二步,对视频进行聚类,将类别或主题相近的视频归为一类,得到相似视频的聚类结果。第三步,借助用户在视频媒体中的行为日志将相似视频聚类转换为相似用户聚类,比如最关注手机电脑的用户归为一类,喜欢汽车的用户归为另一类。第四步,从3C人群种子用户中找到这些人群所属的聚类,将聚类中的所有用户做一个降序排序,根据排序结果得到与3C种子人群相似的广告人群。
示例二:对旅游人群种子扩充筛选的示例
广告主计划向旅游人群投放广告,其提供少量旅游人群种子cookie,这类人群是热爱旅游,追求生活品质的一类人,广告主希望定向到更多相似的此类人群以达到营销或品牌效应的目的。
在视频媒体的旅游频道中,大多数视频的标签都是与旅游,国外生活等相关的,如旅行,出境游,避暑,探访,九寨沟等等。第一步,通过word2vec将视频标签向量化,将每个视频的所有标签向量的相应维度的值进行累加后平均,最后得到每个视频的X维视频向量。视频媒体中的所有标签表示成固定维数的向量,类别相近的标签的向量相似度高,比如九寨沟与张家界的向量相似度远大于九寨沟与动漫的向量相似度。第二步,对视频完成聚类,类别或主题相近的视频归为一类,比如与名胜古迹相关的视频聚在一起。第三步,借助用户在视频媒体中的行为日志将相似视频聚类转换为相似用户聚类,比如关注旅游景点用户归为一类,喜欢动漫的用户归为另一类。第四步,从旅游人群种子用户中找到这些人群所属的聚类,将聚类中的所有用户做一个降序排序,根据排序结果得到与旅游种子人群相似的广告人群。
在详细说明本发明的较佳实施例之后,熟悉本领域的技术人员可清楚的了解,在不脱离随附权利要求的保护范围与精神下可进行各种变化与改变,且本发明亦不受限于说明书中所举示例性实施例的实施方式。

Claims (3)

1.一种广告人群筛选方法,其特征在于:
第一步,将视频媒体的视频标签映射为X维标签向量,之后通过将视频的所有标签向量累加后平均,得到每个视频的X维视频向量,具体是使用***的深度学习工具Word2Vec将每一个视频标签映射为X维视频向量,其中,X维标签向量的参数取值区间为10-200;
第二步,对视频进行聚类,得到相似视频聚类结果,其中,对视频进行聚类的过程需要对视频向量进行相似度计算,是采用分布式计算平台Spark中MLlib组件中的K-Means算法完成的;
第三步,将相似视频聚类结果转换为相似用户聚类结果,具体是通过收集行为日志将相似视频聚类结果转换为相似用户聚类结果,所述行为日志包括“观看”,“订阅”,“评论”,“顶”;
第四步,从种子用户中提取相似用户聚类结果,进行相似度排序,从而确定用户排名,具体是从广告主得到种子用户后,通过相似用户聚类结果找到种子用户所在的N个聚类,将N个聚类的用户抽取出来,进行相似度排序,确定排名在前的用户是满足需求的潜在客户。
2.如权利要求1所述的方法,其中,第一步骤中X维标签向量的参数取值为20。
3.如权利要求1所述的方法,其中,第二步骤中K聚类数取值10000。
CN201510172689.0A 2015-04-13 2015-04-13 一种广告人群筛选方法 Expired - Fee Related CN104751354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510172689.0A CN104751354B (zh) 2015-04-13 2015-04-13 一种广告人群筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510172689.0A CN104751354B (zh) 2015-04-13 2015-04-13 一种广告人群筛选方法

Publications (2)

Publication Number Publication Date
CN104751354A CN104751354A (zh) 2015-07-01
CN104751354B true CN104751354B (zh) 2018-06-26

Family

ID=53590984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510172689.0A Expired - Fee Related CN104751354B (zh) 2015-04-13 2015-04-13 一种广告人群筛选方法

Country Status (1)

Country Link
CN (1) CN104751354B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427129B (zh) * 2015-11-12 2020-09-04 腾讯科技(深圳)有限公司 一种信息的投放方法及***
CN108062555A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于Spark流式聚类的监测数据预警***
CN108122123B (zh) * 2016-11-29 2021-08-20 华为技术有限公司 一种扩展***的方法及装置
CN108230001A (zh) * 2016-12-21 2018-06-29 华为技术有限公司 扩展用户的方法、装置及***
CN108415913A (zh) * 2017-02-09 2018-08-17 周孟 基于不确定邻居的人群定向方法
CN107220852A (zh) * 2017-05-26 2017-09-29 北京小度信息科技有限公司 用于确定目标推荐用户的方法、装置和服务器
CN107886354A (zh) * 2017-10-31 2018-04-06 广州云移信息科技有限公司 一种确定营销对象群体的方法及***
CN109903086B (zh) * 2019-02-14 2020-12-18 北京奇艺世纪科技有限公司 一种相似人群扩展方法、装置及电子设备
CN112967100B (zh) * 2021-04-02 2024-03-15 杭州网易云音乐科技有限公司 相似人群扩展方法、装置、计算设备以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189924A (ja) * 2000-12-21 2002-07-05 Bits Wave Online:Kk 情報配信方法、情報配信中継システムおよび情報配信システム
CN103838885A (zh) * 2014-03-31 2014-06-04 苏州大学 一种面向广告投放的***检索及用户模型排序方法
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189924A (ja) * 2000-12-21 2002-07-05 Bits Wave Online:Kk 情報配信方法、情報配信中継システムおよび情報配信システム
CN103838885A (zh) * 2014-03-31 2014-06-04 苏州大学 一种面向广告投放的***检索及用户模型排序方法
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置

Also Published As

Publication number Publication date
CN104751354A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN104751354B (zh) 一种广告人群筛选方法
Reddy et al. Content-based movie recommendation system using genre correlation
CN108694223B (zh) 一种用户画像库的构建方法及装置
WO2017181612A1 (zh) 个性化视频推荐方法及装置
CN108304429B (zh) 信息推荐方法、装置和计算机设备
US20160170982A1 (en) Method and System for Joint Representations of Related Concepts
JP2019531547A (ja) 視覚検索クエリによるオブジェクト検出
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
KR101804967B1 (ko) 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템
CN106294500B (zh) 内容项目的推送方法、装置及***
CN108959323B (zh) 视频分类方法和装置
CN105512180B (zh) 一种搜索推荐方法及装置
CN106528894B (zh) 设置标签信息的方法及装置
CN104077415A (zh) 搜索方法及装置
CN104199836B (zh) 一种基于子兴趣划分的标注用户模型建构方法
CN105160545A (zh) 投放信息样式确定方法及装置
Jeon et al. Hashtag recommendation based on user tweet and hashtag classification on twitter
CN106452809B (zh) 一种数据处理方法和装置
CN105916032A (zh) 视频推荐的方法及视频推荐的终端设备
CN106708829A (zh) 一种数据推荐方法及推荐***
Chen et al. Location-aware news recommendation using deep localized semantic analysis
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN105117438A (zh) 一种信息处理方法及电子设备
CN112182414A (zh) 文章推荐方法、装置及电子设备
Wang et al. Interactive ads recommendation with contextual search on product topic space

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100080, No. 8 Haidian street, Beijing, Haidian District Steel International Plaza, 6 floor

Patentee after: YOUKU INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: 100080, No. 8 Haidian street, Beijing, Haidian District Steel International Plaza, 6 floor

Patentee before: HEYI INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200422

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080, No. 8 Haidian street, Beijing, Haidian District Steel International Plaza, 6 floor

Patentee before: YOUKU INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180626

Termination date: 20210413

CF01 Termination of patent right due to non-payment of annual fee