CN110362741B - 一种Feed流信息的智能下发方法与*** - Google Patents

一种Feed流信息的智能下发方法与*** Download PDF

Info

Publication number
CN110362741B
CN110362741B CN201910500000.0A CN201910500000A CN110362741B CN 110362741 B CN110362741 B CN 110362741B CN 201910500000 A CN201910500000 A CN 201910500000A CN 110362741 B CN110362741 B CN 110362741B
Authority
CN
China
Prior art keywords
account
label
elements
tag
issued
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910500000.0A
Other languages
English (en)
Other versions
CN110362741A (zh
Inventor
李元朝
李云辉
王传波
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201910500000.0A priority Critical patent/CN110362741B/zh
Publication of CN110362741A publication Critical patent/CN110362741A/zh
Application granted granted Critical
Publication of CN110362741B publication Critical patent/CN110362741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种Feed流信息的智能下发方法与***,其中,所述方法包括:从客户端待下发信息中提取至少一个关键词构建内容标签集合;计算所述客户端所拥有的至少一个账号的账号画像,并根据各账号画像获取对应账号的账号标签集合;计算所述内容标签集合与每一个账号标签集合的匹配度;根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。通过上述方案解决了现有Feed流信息下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化Feed流信息的下发,显著提高信息下发效率的技术效果。

Description

一种Feed流信息的智能下发方法与***
技术领域
本发明涉及计算机应用技术与数据挖掘和信息处理领域,尤其涉及一种Feed流信息的智能下发方法与***。
背景技术
随着自媒体时代的开启,让很多营销商或公司在微博、微信、今日头条等每个平台都会拥有一批账号,然后不断在这些账号上发布信息,持续更新内容。营销商或公司通过其所拥有的账号下发的持续更新并呈现给用户的内容都可以理解为Feed流。在Feed流的日常运营过程中,信息流的下发是一项很重要的环节,一篇优质的内容应该在哪一平台上的哪个账号上下发能带来更大的传播效果是运营人员非常关心的问题。通常运营人员都是根据日常下发经验来确定内容与账号主基调的匹配来进行账号筛选,缺乏量化指标;人工下发选择账号时,由于经常选择自己熟悉的账号下发,可能无意识中导致长尾账号无法得到有效下发,且过多的发送也会影响熟悉账号的粉丝体验;其次,当管理账号过多或工作交接时,人工方法无法复制,导致有效的下发经验无法快速传递影响工作效率的提高。
此外,由于第三方营销公司缺乏完善的粉丝用户画像数据,无法自动实现根据账号粉丝的偏好进行个性化下发,其用户画像数据主要是通过日积月累的尝试获取,且受限于平台接口管理以及平台规则受限,无法有效的去量化内容传播模型,无法实现自动化无缝的内容下发,工作效率较低。
针对上述不足,目前还没有提出较有效的解决方案。
发明内容
本发明提供一种Feed流信息的智能下发方法与***,通过上述方案解决了现有Feed流信息下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化Feed流信息的下发,显著提高下发效率的技术效果。一方面,本发明提供了一种Feed流信息的智能下发方法,包括:
从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
获取所述客户端所拥有的至少一个账号的账号画像,并根据各账号画像获取对应账号的账号标签集合;
计算所述内容标签集合与每一个账号标签集合的匹配度;
根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。
在一个实施例中,所述获取所述客户端所拥有的至少一个账号的账号画像并根据各账号画像获取对应账号的账号标签集合,包括:
针对每一个账号,计算该账号的自身标签集合中每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
在一个实施例中,计算所述内容标签集合与每一个账号标签集合的匹配度之前,还包括:
获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
获取内容标签集合中的标签元素作为内容标签元素;
基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
在一个实施例中,所述内容标签集合与任一账号标签集合的匹配度的计算方法,包括:
对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,得到交集标签元素数目,将所述交集标签元素数目作为匹配度。
在一个实施例中,所述内容标签集合与任一账号标签集合的匹配度的计算方法,包括:
根据所述账号标签集合中每一个标签元素及其权重构建新账号标签集合A{a1,b1,...ai,bi,...an,bn},其中,n表示账号A的标签元素总数,ai表示账号A的第i个标签元素,bi表示标签元素ai的权重;
根据所述内容标签集合中每一个标签元素及其权重构建新内容标签集合D{c1,d1,...cj,dj,...cm,dm},其中,m表示待下发信息D的标签元素总数,cj表示D的第j个标签元素,dj表示标签元素cj的权重;
当ai与cj满足所述标签映射表中的映射关系时,计算匹配度:
Figure GDA0003376542540000031
{k=满足映射关系的交集标签元素数目}
另一方面,本发明还提供了一种Feed流信息的智能下发***,包括:
内容标签集合模块,用于从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
账号标签集合模块,用于获取所述客户端所拥有的至少一个账号的账号画像,并根据账号画像获取对应账号的账号标签集合;
匹配度计算模块,用于计算所述内容标签集合与每一个账号标签集合的匹配度;
信息下发模块,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,根据所述待下发账号的实时画像完成所述待下发信息的下发。
在一个实施例中,所述账号标签集合模块包括:
相似性计算模块,用于针对每一个账号,计算该账号的自身标签集合中每一个标签元素与所述账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
账号画像模块,用于将从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
账号标签集合获取模块,用于将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
在一个实施例中,所述***还包括:
账号标签元素获取模块,用于获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
内容标签获取模块,用于获取内容标签集合中的标签元素作为内容标签元素;
标签映射模块,用于基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
在一个实施例中,所述匹配度计算模块具体包括:
匹配度计算第一子模块,用于对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,并将所述交集标签元素的数目作为匹配度。
在一个实施例中,所述匹配度计算模块具体包括:
匹配度计算第二子模块,用于根据如权利要求5所述的匹配度的计算方法计算匹配度。
本发明通过采用计算待下发信息的内容标签集合与账号标签集合中元素匹配度的方法,从客户端的账号中进行账号筛选,并根据账号的实时画像进行待下发信息的下发。通过上述方案解决了现有Feed流信息下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化Feed流信息的下发,显著提高下发效率的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种智能Feed流信息的智能下发方法流程图;
图2是获取账号标签集合的方法流程图;
图3是一种智能Feed流信息的智能下发***结构图;
图4为账号标签集合模块结构图;
图5为一种Feed流信息的智能下发***结构图;
图6为一种匹配度计算模块结构图;
图7为一种匹配度计算模块结构图。
具体实施方式
下面将根据本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
在本说明书中,为了便于描述,附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。
图1为一种Feed流信息的智能下发方法流程图,包括:
S11、从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
S12、获取所述客户端所拥有的至少一个账号的账号画像,并根据所述账号画像获取所述账号的账号标签集合;
S13、计算所述内容标签集合与每一个账号标签集合的匹配度;
S14、根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。
其中,客户端待下发信息是客户端编辑的待下发信息,包括但不限于广告、咨询、评论内容。本发明对上述内容利用自然语言处理技术进行文本处理,从中提取出至少一个关键词构建内容标签集合。具体的,从内容中选取关键词的方法之一为TF-IDF方法,该方法用于评估一字词对于一篇文章或一个语料库中其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时随着它的语料库中出现的程度成反比。即,当一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,越能代表该文章。
对于一个客户端而言,该客户端在不同的网络平台中可能有若干个账号,例如,如今很多营销公司为保证其营销的规模和力度,往往会在不同的网络平台,如微博、微信、今日头条、QQ等每个平台都拥有一批账号。在步骤S12中,通过获取客户端所拥有的至少一个账号的账号画像,并通过上述账号画像获取每一个账号所对应的账号标签集合。
具体地,获取所述客户端所拥有的至少一个账号的账号画像,并根据各账号画像获取对应账号的账号标签集合方法如图2所示:
S21、针对每一个账号,计算该账号标签集合中每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素直接的相似性数值;
S22、从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
S23、将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
即,账号画像主要考虑两部分,一部分是账号自身标签元素,如应用于微博平台的账号能力标签,表明该账号自身生产上述能力标签对应类型的内容;另一部分是该账号的粉丝兴趣标签集合。账号画像获取的具体思路为:对于某个账号自身标签元素,如果在该账号的粉丝兴趣标签集合中,某一粉丝拥有与上述账号自身标签元素相一致的粉丝兴趣标签元素,则会增强该账号自身标签元素的可信度,如果某一粉丝没有该账号自身标签元素,则会减弱该账号自身标签元素的可信度。
基于此,对于客户端所拥有的任一个账号,获取该账号的自身标签集合中每一个标签元素与该账号对应得粉丝兴趣标签集合中各标签元素之间的相似性数值。
具体的,一种相似性数值的计算过程如下所示:
一般情况下,网络平台大数据会利用数据挖掘技术计算用户的兴趣标签,在如下的具体计算方法中,考虑到实际的应用场景和计算的方便起见,计算相似性数值时,我们仅考虑粉丝的长期兴趣标签,该长期兴趣标签是通过统计学的方法对粉丝进行长期兴趣建模获取。
设某一账号Account的账号自身标签集合为Account{α12,...αi,...αn},其中,n为正整数;该账号Account的粉丝长期兴趣标签集合为B{β12,...βj,...βm},其中,m为正整数,则该账号Account的粉丝总数目sum<B>=m,假设其中某一粉丝用户fan的长期兴趣标签集合为βj12,...γk,...γq},其中,q为正整数。
则该账号A1的相似性数值计算方法如下所示:
Figure GDA0003376542540000061
其中,i从0到n;
式中,Account_weight(αi)表示该账号Account中,账号自身标签元素为αi的标签权重,其中:
Figure GDA0003376542540000062
fan_weight(βj)表示该账号Account1的粉丝βj的长期兴趣标签权重,计算公式为:
Figure GDA0003376542540000063
式中,intimacy(Account,βj)表示该账号Account与粉丝βj的亲密度,
δ的取值如下所示:
Figure GDA0003376542540000064
其中,
Figure GDA0003376542540000071
标签为αi这个账号自身标签元素权重的具体数值。具体的,一种确定权重数值的方法为:根据账号自身标签元素αi所属的等级,确定其权重数值。例如,目前,在微博平台中,账号的能力标签分为两个层级,第一层为账号的领域,如第一层为用户的领域,如@热门电影汇,博文内容图文并茂的方式介绍影片,“电影”即为此账号的领域;第二层为账号的细分标签,如时尚领域的@时尚小公举,内容中包含服饰搭配较多的博文,此账号便被打上“时尚服饰”二级标签,则可以根据自身标签的等级,设置递增的权重数值。另外,也可以根据IF-IDF的方法确定账号自身标签中每个元素的权重。
其中,δ用来衡量账号Account与粉丝βj的亲密度,主要考虑以下两种情况:
粉丝βj的某一长期兴趣标签元素γk与该账号Account的某一账号自身标签元素αi一致,即,粉丝βj的某一长期兴趣标签元素γk属于账号Account的子集,如:账号自身标签粉丝的长期兴趣标签均含有“美食菜谱”,则将该长期兴趣标签“美食菜谱”设定设置权重值-50;
若粉丝bj的长期兴趣标签中某一兴趣标签元素γk与账号Account的能力标签元素均不一致,则进行惩罚,默认惩罚权重值为50。
最后,利用Weight(αi)的计算公式计算得到该账号每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值,并根据S22中所描述的步骤得到该账号的账号画像,然后对账号画像中的标签元素根据相似性数值进行倒序排序,从中提取topN个标签元素构建最终账号Account的账号标签集合,其中,N的取值在此不做限定。
需要说明的是,由于不同的账号自身标签元素所属的等级不同,因此,在设定δ的取值时,还可以考虑根据长期兴趣标签元素相一致的账号自身标签元素的等级,对
Figure GDA0003376542540000072
设定不同的权重值。
另外,在粉丝兴趣标签集合的获取过程中,可以将根据长期建模模型计算所得的粉丝长期兴趣标签根据标签元素的重要程度或粉丝的关注力度,分为一级、二级和三级长期兴趣标签元素。在设定δ的取值时,还可以考虑该与账号自身标签元素一致的长期兴趣标签元素的等级。
在获得账号标签集合和内容标签集合之后,需要计算内容标签集合与账号标签集合的匹配度,从而根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,进而,完成所述待下发信息的下发。然而,由于内容标签元素与账号标签元素在构建时的需求场景不同,往往存在二者对同一项内容或事件表述不一致的问题,影响后续根据内容标签元素检索账号标签元素的工作。
本发明提出了标签一致性处理,即,在计算所述内容标签集合与任一个账号标签集合的匹配度之前,还包括:
获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
获取内容标签集合中的标签元素作为内容标签元素;
基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
具体地,对账号标签元素和内容标签元素做标签别名处理和标签同义词扩展的一致性处理,构建标签知识图谱,将一致化处理后的内容标签元素和账号标签元素集结在一起进行映射处理,从而生成标签映射表。根据该标签映射表,即可以很方便的根据某一内容标签元素找到与之对应的某一账号标签元素,从而根据该账号标签集合内所包含的标签元素进行账号筛选。
需要注意的是,上述过程针对的是根据一个账号标签集合与具体的内容标签集合构建的标签映射表,在后续的构建过程中,可以先查阅需要建立映射关系的账号标签集合中的所有标签元素与内容标签集合中的所有标签元素是否完全包含在现有的标签映射表中,然后,只需要从需要建立映射关系的账号标签集合和内容标签集合中选取未包含在标签映射表中的标签元素,并根据一致性分析原则,对这些未包含在标签映射表中的标签元素与标签映射表中的标签元素建立映射关系,即对已有的标签映射表进行更新,获得最新的标签映射表,节省后续建立标签映射表的时间。在步骤S13中,需要计算内容标签集合与每一个账号标签集合的匹配度。
其中,一种匹配度的计算方法为:
对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,将所述交集标签元素的数目作为匹配度。
具体的,上述匹配度的计算过程如下所示:
对待下发信息D进行文本处理,提取出的文本对应的内容标签集合为d′{d1,d2,...di,...dn},其中,n为待下发信息D的内容标签元素总数;
账号Account的账号标签集合a′{a1,a2,...aj,…am};
则待下发信息D与账号Account的匹配度计算公式为:
Figure GDA0003376542540000081
式中,cnt(a′∩d′)表示集合a′与集合d′中,满足标签映射关系的标签元素总数,cnt(d′)表示标签集合d′中的标签总数元素,即为n;
另外,一种优化的计算待下发信息D与账号Account的匹配度的方法为:
Figure GDA0003376542540000091
式中,weight(a′∩d′)表示集合a′与集合d′中,满足标签映射关系的标签元素的权重,将集合d′中的每个标签元素按照上式进行权重相加,得到待下发信息D与账号Account的匹配度。
然后,对客户端所拥有的所有账号进行上述匹配度计算,并对所得的匹配度进行排序,从中选择前N位匹配度对应的账号作为待下发账号。
另外,一种优化的匹配度计算方法如下所示:
根据所述账号标签集合中每一个标签元素及其权重构建新账号标签集合A{a1,b1,...ai,bi,...an,bn},其中,n表示账号A的标签元素总数,ai表示账号A的第i个标签元素,bi表示标签元素ai的权重;
根据所述内容标签集合中每一个标签元素及其权重构建新内容标签集合D{c1,d1,...cj,dj,...cm,dm},其中,m表示待下发信息D的标签元素总数,cj表示D的第j个标签元素,dj表示标签元素cj的权重;
当ai与cj满足所述标签映射表中的映射关系时,计算匹配度:
Figure GDA0003376542540000092
{k=满足映射关系的交集标签元素数目}
其中,一种计算账号标签集合中每一个标签元素的权重的方法为:
使用TF-IDF思想,TF-IDF是一种统计方法,用来评估一字词对于一个文章集或一个语料库中其中一份文件的重要程度,字词的重要性随它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。即,一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,越能代表该文章。在本发明中,我们将账号看成文章,账号标签元素看成是从文章中提取的关键词,将账号标签集合中的标签元素进行权重转换。然后,根据客户端任一账号Account的账号标签集合和该账号标签集合中任一账号标签元素权重构建新账号标签集合A{a1,b1,...ai,bi,...an,bn},其中,n表示账号A的账号标签总数,ai表示账号A的第i个账号标签元素,bi表示账号标签元素ai根据IF-IDF算法计算所得的权重。
同时,根据所述内容标签集合和所述内容标签集合中任一元素对应的权重构建新内容标签集合D{c1,d1,…cj,dj,…cm,dm},其中,m表示待下发信息D的内容标签总数,cj表示D的第j个内容标签元素,dj表示内容标签元素cj根据IF-IDF算法计算所得的权重,然后,将A和D向量化,得到向量
Figure GDA0003376542540000101
Figure GDA0003376542540000102
当ai与cj满足上述标签映射表中的映射关系,且集合D或集合A中共有k个标签元素满足该映射关系,则待下发信息D与账号Account的匹配度计算公式如下所示:
Figure GDA0003376542540000103
进而根据上述公式,计算客户端所有账号与待下发信息D的匹配度,并对所得的匹配度进行排序,从中选择前N位匹配度对应的账号作为待下发账号。
需要说明的是,上述两种匹配度的计算方法可以根据实际需求分别使用,也可以结合使用,即首先根据交集标签元素的数目完成初次的筛选,获得一批账号,然后,根据第二种余弦公式计算匹配度的方法近一步从筛选出的账号中进行账号筛选,从而选择出最适合下发待下发信息的账号。
另外,需要说明的是,在获取账号标签集合后,在匹配度计算之前,还可以人工对账号标签集合进行一级账号标签标注,即生成账号的一级标签,从而确定账号的主调性。比如:某账号只发体育类内容,其他类内容不能发。然后,在执行后续的匹配度计算,显著的节省计算的时间,提高工作效率。
则根据待下发信息D与账号Account的匹配度从客户端的账号中筛选出至少一个账号作为待下发账号之后,还需要根据所选择的待下发账号的实时画像数据,然后再进行待下发信息D的下发。
即根据匹配度的数值,选择topN个账号作为待下发信息的待下发账号之后,还需要根据上述选择出的待下发账号的实时画像,从而选择最适合下发的账号和下发的时间,完成待下发信息的下发。
例如,虽然根据匹配度选择出了top N个待下发账号,但很可能存在某些综合类账号由于粉丝数量多,往往有很多内容都适合在该账号下发。账号从粉丝量角度来看有大小之分,如果下发传播效果仅考虑互动量,很容易出现同类型账号的小账号得不到下发机会,从而极易出现长尾问题。另外,考虑到对不同账号的粉丝来说,其活跃时间点是不一致的,因此,为达到最佳的传播效果,还应当考虑在粉丝活跃度最大的时间点进行下发。
具体的,账号的实时画像包括但不限于所属账号层级、当天下发次数、账号粉丝历史活跃度、实时账号粉丝或与人数等。
具体的,为解决上述提出的长尾问题,本发明采取账号分级的方法解决长尾问题。
一种账号层级的判断标准为:通过活跃粉丝数、互动人数、粉丝总数等多种维度参数将账号划分为大、中、小三个层级,大层级的账号往往存在很多标签,粉丝人数也比较多,可能导致很多信息都适合在该类型的账号下发,但并不是关注该账号的所有粉丝对该账号下发的所有内容都感兴趣,为了不影响粉丝的使用体验,可以对每个层级的账号每天下发次数做一定的限制。该发明需定时统计更新账号的下发次数,当检测到该账号在当天的下发次数达到限制值之后,该账号则不能继续下发内容,只能选择筛选出的同类的其他账号进行下发,从而在一定程度上,解决长尾问题。
另外,为了能够在活跃粉丝人数最多的时候进行信息下发,从而带来更广泛的传播,可以根据过去一段时间账号历史活跃粉丝人数与时间的关系,建立账号粉丝历史活跃度图表,然后根据该图表和当前实时统计的粉丝活跃人数,预测未来半小时的活跃粉丝人数,当未来半小时的活跃粉丝人数大于某一活跃粉丝人数阈值时,触发自动下发功能,从而实现智能下发。
其中,活跃粉丝人数阈值可以是该账号的客户端自己设定的,也可以是根据账号粉丝历史活跃度图表中得到的,如设定活跃粉丝人数阈值为历史活跃粉丝人数5日最高值的均值。
在上述的技术方案中,借助账号画像技术和内容标签技术,量化处理内容和账号的匹配度,同时兼顾考虑账号长尾问题、用户体验干扰问题,从账号池中选择合适的账号作为特定的下发列表,提高了工作效率,且不依赖下发人员经验的积累;另外,待下发信息下发时机的把握,本技术方案借助实时活跃粉丝人数的监控来实现自动触发,不仅将之前人工下发时经验评估过程实现了量化,而且自动化的触发可以减少人工跟踪(比如需要去等待粉丝活跃高峰的到来,有可能因为忘记或者正忙于别的事情而耽误),明显提高工作效率。
图3为一种Feed流信息的智能下发***结构图,包括:
内容标签集合模块31,用于从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
账号标签集合模块32,用于获取所述客户端所拥有的至少一个账号的账号画像,并根据账号画像获取对应账号的账号标签集合;
匹配度计算模块33,用于计算所述内容标签集合与每一个账号标签集合的匹配度;
信息下发模块34,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,根据所述待下发账号的实时画像完成所述待下发信息的下发。
具体的,对待下发信息,内容标签集合模块通过对该待下发信息利用自然语言处理技术进行文本处理,从中提取出至少一个关键词,进而构建出内容标签集合。
然后,利用账号标签集合模块获取客户端所有账号的账号标签集合。
具体的,账号标签集合模块如图4所述,包括相似性计算模块41、账号画像模块42和账号标签集合获取模块43:
相似性计算模块41,用于针对每一个账号,计算该账号的自身标签集合中每一个标签元素与所述账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
账号画像模块42,用于将从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
账号标签集合获取模块43,用于将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。即,账号画像主要考虑两部分,一部分是账号自身标签元素,如应用于微博平台的账号能力标签,表明该账号自身生产上述能力标签对应类型的内容;另一部分是该账号的粉丝兴趣标签集合。账号画像获取的具体思路为:对于某个账号自身标签元素,如果在该账号的粉丝兴趣标签集合中,某一粉丝拥有与上述账号自身标签元素相一致的粉丝兴趣标签元素,则会增强该账号自身标签元素的可信度,如果某一粉丝没有该账号自身标签元素,则会减弱该账号自身标签元素的可信度。
具体的,一种优化的Feed流信息的智能下发***结构如图5所述,该***还包括账号标签元素获取模块51、内容标签元素获取模块52和标签映射模块53:
账号标签元素获取模块51,用于获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
内容标签获取模块52,用于获取内容标签集合中的标签元素作为内容标签元素;
标签映射模块53,用于基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
即,由于内容侧标签元素与账号侧标签元素在构建时的需求场景不同,往往存在二者对同一项内容或事件表述不一致的问题,影响后续根据内容标签元素检索账号标签元素的工作。标签映射模块对内容标签集合中所有元素和账号标签集合中所有元素任一或同时做标签别名处理和标签同义词扩展的一致性处理,构建标签知识图谱,将一致化处理后的内容标签集合和账号标签集合在一起进行映射处理,从而生成标签映射表。根据该标签映射表,即可以很方便的根据某一内容标签元素找到与之对应的某一账号标签元素,从而方便进行后续的账号筛选。
具体的,匹配度计算模块33包括匹配度计算第一子模块61,如图6所示,其中,匹配度计算第一子模块61用于对所述账号标签集合和所述内容标签集合中标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,并将所述交集标签元素的数目作为匹配度。
具体的计算过程在上述方法中有详细的介绍,在此不进行赘述。
具体的,匹配度计算模块33还包括匹配度计算第二子模块71,如图7所示,匹配度计算第二子模块用于根据权利要求5所述的方法计算匹配度,匹配度的计算方法上方法项中已做详细的介绍,在此不进行赘述。
另外,需要说明的是,匹配度计算模块可以包含匹配度计算第一子模块和匹配度计算第二子模块的其中任一种或两种。即当匹配度计算模块包含上述两个模块时,先利用匹配度计算第一子模块进行初次的账号筛选,再利用匹配度计算第二子模块进一步从筛选出的账号中进行筛选,从而选择出最适合下发待下发信息的账号。
需要说明的是,在匹配度计算之前,还可以包括人工筛选模块,即利用人工方法对账号标签集合进行一级账号标签元素标注,即生成账号的一级标签元素,从而确定账号的主调性。比如:某账号只发体育类内容,其他类内容不能发。然后,在执行后续的匹配度计算,显著的节省计算的时间,提高工作效率。
信息下发模块34,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。
其中,账号的实时画像包括但不限于所属账号层级、当天下发次数、账号粉丝历史活跃度、实时账号粉丝或与人数等。
具体的,账号从粉丝量角度来看有大小之分,如果下发传播效果仅考虑互动量,很容易出现同类型账号的小账号得不到下发机会,即出现长尾问题,本发明采取账号分级的方法解决上述问题。
一种账号层级的判断标准为:通过活跃粉丝数、互动人数、粉丝总数等多种维度参数将账号划分为大、中、小三个层级,大层级的账号往往存在很多标签,粉丝人数也比较多,可能导致很多信息都适合在该类型的账号下发,但并不是关注该账号的所有粉丝对该账号下发的所有内容都感兴趣,为了不影响粉丝的使用体验,可以对每个层级的账号每天下发次数做一定的限制。该发明需定时统计更新账号的下发次数,当检测到该账号在当天的下发次数达到限制值之后,该账号则不能继续下发内容,只能选择筛选出的同类的其他账号进行下发,从而在一定程度上,解决长尾问题。
另外,为了能够在活跃粉丝人数最多的时候进行信息下发,从而带来更广泛的传播,可以根据过去一段时间账号历史活跃粉丝人数与时间的关系,建立账号粉丝历史活跃度图表,然后根据该图表和当前实时统计的粉丝活跃人数,预测未来半小时的活跃粉丝人数,当未来半小时的活跃粉丝人数大于某一活跃粉丝人数阈值时,触发自动下发功能,从而实现智能下发。
其中,活跃粉丝人数阈值可以是该账号的客户端自己设定的,也可以是根据账号粉丝历史活跃度图表中得到的,如设定活跃粉丝人数阈值为历史活跃粉丝人数5日最高值的均值。
从以上的描述中,可以看出,本发明通过采用计算待下发信息的内容标签集合与账号标签集合中元素匹配度的方法,从客户端账号中进行账号筛选,并根据账号的实时画像进行待下发信息的下发。通过上述方案解决了现有Feed流信息的下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化Feed流信息的下发,显著提高下发效率的技术效果。
至此,已详细描述了本发明。为了避免蒙蔽本发明的构思,没有对本领域所公知的一些细节进行描述。本领域技术人员根据上面的描述,完全可以明白如何实施本发明公开的技术方案。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种Feed流信息的智能下发方法,其特征在于,包括:
从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
获取所述客户端所拥有的至少一个账号的账号画像,并根据各账号画像获取对应账号的账号标签集合;
计算所述内容标签集合与每一个账号标签集合的匹配度;
根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发;
其中,所述获取所述客户端所拥有的至少一个账号的账号画像并根据各账号画像获取对应账号的账号标签集合,包括:
针对每一个账号,计算该账号的自身标签集合中每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
2.根据权利要求1所述的方法,其特征在于,
计算所述内容标签集合与每一个账号标签集合的匹配度之前,还包括:
获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
获取内容标签集合中的标签元素作为内容标签元素;
基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
3.根据权利要求2所述的方法,其特征在于,所述内容标签集合与任一账号标签集合的匹配度的计算方法,包括:
对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,得到交集标签元素数目,将所述交集标签元素数目作为匹配度。
4.根据权利要求2所述的方法,其特征在于,所述内容标签集合与任一账号标签集合的匹配度的计算方法,包括:
根据所述账号标签集合中每一个标签元素及其权重构建新账号标签集合A{a1,b1,...ai,bi,...an,bn},其中,n表示账号A的标签元素总数,ai表示账号A的第i个标签元素,bi表示标签元素ai的权重;
根据所述内容标签集合中每一个标签元素及其权重构建新内容标签集合D{c1,d1,...cj,dj,...cm,dm},其中,m表示待下发信息D的标签元素总数,cj表示D的第j个标签元素,dj表示标签元素cj的权重;
当ai与cj满足所述标签映射表中的映射关系时,计算匹配度:
Figure FDA0003376542530000021
{k=满足映射关系的交集标签元素数目}。
5.一种Feed流信息的智能下发***,其特征在于,包括:
内容标签集合模块,用于从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
账号标签集合模块,用于获取所述客户端所拥有的至少一个账号的账号画像,并根据账号画像获取对应账号的账号标签集合;
匹配度计算模块,用于计算所述内容标签集合与每一个账号标签集合的匹配度;
信息下发模块,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,根据所述待下发账号的实时画像完成所述待下发信息的下发;
其中,所述账号标签集合模块包括:
相似性计算模块,用于针对每一个账号,计算该账号的自身标签集合中每一个标签元素与所述账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
账号画像模块,用于将从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
账号标签集合获取模块,用于将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
6.根据权利要求5所述的***,其特征在于,所述***还包括:
账号标签元素获取模块,用于获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
内容标签获取模块,用于获取内容标签集合中的标签元素作为内容标签元素;
标签映射模块,用于基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
7.根据权利要求6所述的***,其特征在于,所述匹配度计算模块,具体包括:
匹配度计算第一子模块,用于对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,并将所述交集标签元素的数目作为匹配度。
8.根据权利要求6所述的***,其特征在于,所述匹配度计算模块,具体包括:
匹配度计算第二子模块,用于根据如权利要求4 所述的匹配度的计算方法计算匹配度。
CN201910500000.0A 2019-06-11 2019-06-11 一种Feed流信息的智能下发方法与*** Active CN110362741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500000.0A CN110362741B (zh) 2019-06-11 2019-06-11 一种Feed流信息的智能下发方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500000.0A CN110362741B (zh) 2019-06-11 2019-06-11 一种Feed流信息的智能下发方法与***

Publications (2)

Publication Number Publication Date
CN110362741A CN110362741A (zh) 2019-10-22
CN110362741B true CN110362741B (zh) 2022-02-25

Family

ID=68216900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500000.0A Active CN110362741B (zh) 2019-06-11 2019-06-11 一种Feed流信息的智能下发方法与***

Country Status (1)

Country Link
CN (1) CN110362741B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
CN106815364A (zh) * 2017-01-24 2017-06-09 百度在线网络技术(北京)有限公司 内容推送方法和装置
CN107870991A (zh) * 2017-10-27 2018-04-03 湖南纬度信息科技有限公司 一种论文元数据的相似度计算方法和计算机可读存储介质
CN107911448A (zh) * 2017-11-14 2018-04-13 北京金山安全软件有限公司 一种内容推送方法及装置
CN109002490A (zh) * 2018-06-26 2018-12-14 腾讯科技(深圳)有限公司 用户画像生成方法、装置、服务器及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10200485B2 (en) * 2016-04-05 2019-02-05 Facebook, Inc. Pushing news feed content to client devices

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
CN106815364A (zh) * 2017-01-24 2017-06-09 百度在线网络技术(北京)有限公司 内容推送方法和装置
CN107870991A (zh) * 2017-10-27 2018-04-03 湖南纬度信息科技有限公司 一种论文元数据的相似度计算方法和计算机可读存储介质
CN107911448A (zh) * 2017-11-14 2018-04-13 北京金山安全软件有限公司 一种内容推送方法及装置
CN109002490A (zh) * 2018-06-26 2018-12-14 腾讯科技(深圳)有限公司 用户画像生成方法、装置、服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Explaining the News Feed Algorithm: An Analysis of the "News Feed FYI" Blog;Kelley Cotter;《CHI EA "17: Proceedings of the 2017 CHI Conference Extended Abstracts on Human Factors in Computing Systems》;20170506;全文 *

Also Published As

Publication number Publication date
CN110362741A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
US11238310B2 (en) Training data acquisition method and device, server and storage medium
WO2016161976A1 (zh) 选择数据内容向终端推送的方法和装置
WO2018126953A1 (zh) 种子人群扩散方法、装置、信息投放***以及存储介质
CN111177538B (zh) 一种基于无监督权值计算的用户兴趣标签构建方法
CN111885399B (zh) 内容分发方法、装置、电子设备以及存储介质
US20180039675A1 (en) Extended search method and apparatus
CN108777701B (zh) 一种确定信息受众的方法及装置
CN106503014A (zh) 一种实时信息的推荐方法、装置和***
CN112153426B (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CN106250550A (zh) 一种实时关联新闻推荐内容的方法和装置
CN106156163B (zh) 文本分类方法以及装置
CN112231584A (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
CN110191171B (zh) 气象信息传播方法
KR102458510B1 (ko) 실시간 보완 가능한 마케팅 시스템
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN105159898B (zh) 一种搜索的方法和装置
CN114565407A (zh) 一种广告投放数据分析方法及***
CN113592197A (zh) 一种家政服务推荐***及方法
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN110362741B (zh) 一种Feed流信息的智能下发方法与***
JP5973309B2 (ja) 配信装置及びコンピュータプログラム
CN111882224A (zh) 对消费场景进行分类的方法和装置
CN106570003B (zh) 数据推送方法及装置
CN112541010A (zh) 一种基于逻辑回归的用户性别预测方法
CN114169418B (zh) 标签推荐模型训练方法及装置、标签获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230411

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100193 7th floor, scientific research building, Sina headquarters, plot n-1, n-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee before: Sina.com Technology (China) Co.,Ltd.

TR01 Transfer of patent right