CN113536106A - 待推荐信息内容确定方法 - Google Patents
待推荐信息内容确定方法 Download PDFInfo
- Publication number
- CN113536106A CN113536106A CN202011321743.0A CN202011321743A CN113536106A CN 113536106 A CN113536106 A CN 113536106A CN 202011321743 A CN202011321743 A CN 202011321743A CN 113536106 A CN113536106 A CN 113536106A
- Authority
- CN
- China
- Prior art keywords
- information content
- content object
- frequency
- recommended
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种待推荐信息内容确定方法、装置、计算机设备和存储介质。所述方法包括:获取时间最近的第一预定数目个第一信息内容对象;对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;对各所述点击率分数进行缺失值平滑处理,使得没有点击率分数的信息内容对象也获得对应的点击率分数,获得缺失值平滑处理后的点击率分数;基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象。采用本方法能够提高信息内容推荐的质。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种待推荐信息内容确定方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的日益发展,涉及信息内容的对象,例如用户生成内容(UGC:UserGenerated Content)等的推荐已经成为网络技术应用的一项重要内容。在进行信息推荐时,常用的方式是基于用户的点击、观看或者阅读等相关操作信息,进行与之相关的信息推荐,但目前的信息内容的推荐方式存在推荐质量不佳的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高推进质量的待推荐信息内容确定方法、装置、计算机设备和存储介质。
一种待推荐信息内容确定方法,所述方法包括:
获取时间最近的第一预定数目个第一信息内容对象;
对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;
对各所述点击率分数进行缺失值平滑处理,使得没有点击率分数的信息内容对象也获得对应的点击率分数,获得缺失值平滑处理后的点击率分数;
基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象。
基于如上所述的实施例的方案,其针对时间最近的第一预定数目个第一信息内容对象,获取在最近的第一预定时间内的点击率分数,并在此基础上进行缺失值处理,从而可以结合最新发布的一定数量的信息内容对象的点击率情况,并使得没有点击率分数的第一信息内容对象也可以具有一定的点击率分数,也能够有被推荐的概率,解决了新发布信息内容因为没有历史数据的冷启动问题,能够对新内容进行有效推荐使其能够进入推荐流程,提高了信息内容推荐的质量。
一种待推荐信息内容确定方法,所述方法包括:
获取最近的第二预定时间内的第二信息内容对象;
对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次;
获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次,所述第三预定时间大于所述第二预定时间;
基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数;
基于各所述第二信息内容对象的内容热点分数,确定所述第二信息内容对象中的待推荐信息内容对象。
基于如上所述的实施例的方案,其针对通过统计时间最近的第二预定时间内的各第二信息内容对象,通过统计其包含的第一分词在第二预定时间内的第一频次和在第三预定时间的第二频次,据此各第二信息内容对象的内容热点分数,从而可以从时间最近第二预定时间内发布的第二信息内容对象中发掘出热点的信息内容对象,可以挖掘出新发布信息内容中的热点内容,提高了信息内容推荐的质量。
一种待推荐信息内容确定方法,所述方法包括:
获取时间最近的第一预定数目个第一信息内容对象,以及最近的第二预定时间内的第二信息内容对象;
对第一预定数目个所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;并对各所述点击率分数进行缺失值平滑处理,获得缺失值平滑处理后的各所述第一信息内容对象的点击率分数;
对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词在所述第二预定时间内的第一频次以及在最近的第三预定时间内的第二频次;基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,所述第三预定时间大于所述第二预定时间;
基于缺失值平滑处理后的各所述第一信息内容对象的点击率分数,以及各所述第二信息内容对象的内容热点分数,确定待推荐信息内容对象。
基于如上所述的实施例的方案,其针对时间最近的第一预定数目个第一信息内容对象,获取在最近的第一预定时间内的点击率分数,并在此基础上进行缺失值处理,从而可以结合最新发布的一定数量的信息内容对象的点击率情况,并使得没有点击率分数的第一信息内容对象也可以具有一定的点击率分数,也能够有被推荐的概率,解决了新发布信息内容因为没有历史数据的冷启动问题,同时针对时间最近的第二预定时间内的各第二信息内容对象,通过统计其包含的第一分词在第二预定时间内的第一频次和在第三预定时间的第二频次,据此各第二信息内容对象的内容热点分数,从而可以从时间最近第二预定时间内发布的第二信息内容对象中发掘出热点的信息内容对象,可以挖掘出新发布信息内容中的热点内容,从而可以在解决了冷启动问题,能够对新内容进行有效推荐使其能够进入推荐流程的基础上,又能够挖掘出实时热点,提高了整体推荐质量。
一个实施例中,获取时间最近的第一预定数目个第一信息内容对象之后,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数之前,还包括:去除所述第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象。
一个实施例中,获取时间最近的第一预定数目个第一信息内容对象之后,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数之前,还包括:去除所述第一预定数目个第一信息内容对象中,内容长度小于预定长度阈值的第一信息内容对象。
一个实施例中,对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数之前,还包括:
将各所述第一信息内容对象写入时间倒排序列。
一个实施例中,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数,包括:
获取各所述第一信息内容对象在最近的第一预定时间内的点击数和曝光数;
基于所述点击数和所述曝光数,计算获得各所述第一信息内容对象在最近的第一预定时间内的点击率分数。
一个实施例中,对所述点击率分数进行置信度平滑处理,获得置信度平滑处理后的点击率分数,包括:根据曝光量对所述点击率分数进行置信度平滑处理,其中,曝光量越大,对应的点击率分数的惩罚越小。
一个实施例中,对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次,包括:
采用unigram语言模型和bigram语言模型,对各所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次。
一个实施例中,还包括步骤:获取最近的所述第三预定时间内的第三信息内容对象;
对所述第三信息内容对象进行频次统计,获得所述第三信息内容对象中的各第二分词的第二频次,各所述第二分词包括所述第一分词。
一个实施例中,获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次,包括:
采用所述unigram语言模型和所述bigram语言模型,对在最近的第三预定时间内的各第三信息对象内容进行频次统计,获得所述第三信息内容对象中的各第二分词的第二频次,各所述第二分词包括所述第一分词。
一个实施例中,基于所述第二信息内容对象中包含的各所述第一分词的分词热点分数,确定各所述第二信息内容对象的内容热点分数,包括:
所述第二信息内容对象包含的各第一分词的分词热点分数进行求和,获得所述信息内容对象的内容热点分数。
一个实施例中,基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象,包括:
基于各所述第一信息内容对象的推荐概率值,确定各所述第一信息内容对象所处的推荐概率区间;
获取随机选取的第一概率值,将所述第一概率值对应的推荐概率区间对应的第一信息内容对象,确定为待推荐的第一信息内容对象。
一个实施例中,基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象,包括:
基于各所述第二信息内容对象的推荐概率值,确定各所述第二信息内容对象所处的推荐概率区间;
获取随机选取的第二概率值,将所述第二概率值对应的推荐概率区间对应的第二信息内容对象,确定为待推荐的第二信息内容对象。
一个实施例中,基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的信息内容对象,包括:
基于各所述第二信息内容对象的推荐概率值,确定各所述第二信息内容对象所处的推荐概率区间;
获取随机选取的概率值,将所述概率值对应的推荐概率区间对应的第二信息内容对象,确定为待推荐信息内容。
一种待推荐信息内容确定装置,包括:
第一对象获取模块,用于获取时间最近的第一预定数目个第一信息内容对象;
点击率分数确定模块,用于对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;
缺失值平滑处理模块,用于对各所述点击率分数进行缺失值平滑处理,使得没有点击率分数的信息内容对象也获得对应的点击率分数,获得缺失值平滑处理后的点击率分数;
第一待推荐对象确定模块,用于基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象。
一种待推荐信息内容确定装置,包括:
第二对象获取模块,用于获取最近的第二预定时间内的第二信息内容对象;
频次确定模块,用于对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次;并获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次,所述第三预定时间大于所述第二预定时间;
内容热点分数确定模块,用于基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数;
第二待推荐对象确定模块,基于各所述第二信息内容对象的内容热点分数,确定所述第二信息内容对象中的待推荐信息内容对象。
一种待推荐信息内容确定装置,包括:
对象获取模块,获取时间最近的第一预定数目个第一信息内容对象,以及最近的第二预定时间内的第二信息内容对象;
点击分数确定模块,用于对第一预定数目个所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;并对各所述点击率分数进行缺失值平滑处理,获得缺失值平滑处理后的各所述第一信息内容对象的点击率分数;
热点分数确定模块,用于对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词在所述第二预定时间内的第一频次以及在最近的第三预定时间内的第二频次;基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,所述第三预定时间大于所述第二预定时间;
推荐对象确定模块,用于基于缺失值平滑处理后的各所述第一信息内容对象的点击率分数,以及各所述第二信息内容对象的内容热点分数,确定待推荐信息内容对象。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一方法中包含的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一方法中包含的步骤。
附图说明
图1为一个实施例中的待推荐信息内容确定方法的应用环境图;
图2为一个实施例中的待推荐信息内容确定方法的流程示意图;
图3为另一个实施例中的待推荐信息内容确定方法的流程示意图;
图4为另一个实施例中的待推荐信息内容确定方法的流程示意图;
图5为一个具体示例中采用本申请实施例方法与传统方法进行推荐的对比示意图;
图6为一个具体示例中采用本申请实施例方法与传统方法进行推荐的对比示意图;
图7为一个实施例中待推荐信息内容确定装置的结构框图;
图8为另一个实施例中待推荐信息内容确定装置的结构框图;
图9为另一个实施例中待推荐信息内容确定装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的待推荐信息内容确定方法,可以应用于如图1所示的应用环境中。在一些实施例中,该应用环境可以仅涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信,终端用户可以通过终端102访问或者获得服务器104上发布的相关信息内容,例如帖子、文章、以及其他的用户生成内容等。服务器104在终端102访问时为其推荐相关的信息内容,或者主动向终端102推荐相关的信息内容,例如可以将其推荐的相关信息内容在终端访问102访问时为其提供的首页上显示,或者在其他的相关页面上进行显示。服务器104可以结合各种策略确定需要为终端102进行推荐的待推荐信息内容。
在一些实施例中,该应用环境可以同时涉及终端102、服务器104和服务器106。其中,终端102通过网络与服务器104进行通信,终端用户可以通过终端102访问或者获得服务器104上发布的相关信息内容。服务器104通过网络与服务器106进行通信,服务器106可以基于服务器104的相关信息,例如日志数据,确定需要进行推荐的待推荐信息内容,并将确定的待推荐信息内容提供给服务器104。服务器104在终端102访问时,结合服务器106提供的待推荐信息内容,确定向终端102进行推荐的信息内容。其中,服务器104确定的向终端102进行推荐的信息内容,可以直接是服务器106提供的待推荐信息内容,也可以是结合服务器106提供的待推荐信息内容,进行相关的推荐配置,例如该待推荐内容信息在首页以及其他页面等多个页面上进行推荐,或者与其他的推荐策略的结果进行结合等。服务器104和服务器106可以是各自独立的服务器,也可以是指同一个服务器。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种待推荐信息内容确定方法,以该方法应用于图1中的服务器104或服务器106为例进行说明,包括以下步骤S201至步骤S204。
步骤S201:获取时间最近的第一预定数目个第一信息内容对象。
其中,这里的时间,可以是指信息内容对象的发布时间,例如帖子、文章等用户生成内容的信息内容对象的发布时间。获取时间最近的第一预定数目个第一信息内容对象时,具体可以是按照时间倒排的方式,获取最近发布的第一预定数目个信息内容对象。
其中,第一预定数目可以结合实际技术需要进行设定。在一些实施例中,可以结合统计的每个周期入库的信息内容对象的数量确定,同时可结合当前的业务情况同时确定。例如,假设以1个小时为周期,每个小时入库的信息内容对象的数量为N,则可以去4N~6N之间的数值作为第一预定数目。若N的数量较大,则可以适当减小,例如可以取3N~4N之间的数值作为第一预定数目。若N的数量较小,则可以适当增大,例如可以取5N~7N之间的数值作为第一预定数目。可以理解,在其他实施例中,也可以采用其他的方式来确定第一预定数目。
在一些实施例中,在获取时间最近的第一预定数目个第一信息内容对象之后,还可以进一步去除所述第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象。其中,敏感词一般是指涉及违反相关法律法规、影响网络环境健康的用语,在一些场景下,也会涉及到不适合在当前服务器的相关页面上出现的词语等等。通过将包含敏感词的第一信息内容对象去除,可以避免包含敏感词的第一信息内容对象的推荐传播,以有利于优化网络环境。
在一些实施例中,在获取时间最近的第一预定数目个第一信息内容对象之后,还可以进一步去除所述第一预定数目个第一信息内容对象中,内容长度小于预定长度阈值的第一信息内容对象。针对内容长度小于预定长度阈值的第一信息内容对象,说明其实际并不包含有足够的信息量,因此,将这些第一信息内容对象进行去除,可以减少后续处理时涉及的第一信息内容对象的数量,有助于提高处理效率。
可以理解的是,在实际处理时,在获取时间最近的第一预定数目个第一信息内容对象之后,可以同时去除第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象以及容长度小于预定长度阈值的第一信息内容对象。
经过上述处理后,可将最终获得的第一信息内容对象生成时间倒排列表,写入时间倒排序列,从而获得时间倒排的各第一信息内容对象。
步骤S202:对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数。
其中,应当理解的是,在上述第一预设数目个第一信息内容对象中存在有敏感词或者内容长度小于预定长度阈值的信息内容对象时,经过上述去除操作后,这里涉及的时间倒排的各所述第一信息内容对象的数目,会小于上述第一预定数目。
一个实施例中,在获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数,具体可以包括步骤S2021和步骤S2022。
步骤S2021:获取各所述第一信息内容对象在最近的第一预定时间内的点击数和曝光数。
第一预定时间的时长可以结合实际技术需要进行设定,一般情况下,该第一预定时间应当设置的比较短,以实现是新发布的信息内容对象的推荐,但该第一预定时间也要有一定的时间长度,以能够平衡该段时间内的新发布的信息内容对象的点击、点赞、评论等与阅读相关的情况。例如,一个实施例中,该第一预定时间可以设置为5分钟。可以理解的是,在其他实施例中,该第一预定时间也可以设定为其他时长。
其中,各第一信息内容对象在最近第一预定时间内的点击数和曝光数,可以从相关的日志数据中获得,例如服务器的mta日志,服务器的mta日志中记录有信息内容对象的所有与用户行为相关的日志数据,例如信息内容对象的相关信息展示在了用户的相关显示页面的曝光动作以及曝光时间,用户点击该信息内容对象的点击动作以及点击时间,用户对该信息内容对象进行了点赞的点赞动作以及点赞时间,用户对该信息内容对象进行了评论的评论动作、评论内容以及评论时间,可以理解的是,这些记录的相关信息还可以同时包含有对应的用户的用户标识。从而,可以通过访问mta日志,通过信息内容对象的标识以及用户动作的时间(如点击时间)等,可以从中筛选并统计获得各信息内容对象在第一预定时间内的点击数以及曝光数。
步骤S2022:基于所述点击数和所述曝光数,计算获得各所述第一信息内容对象在最近的第一预定时间内的点击率分数。
本申请的一个实施例中,可以是通过计算上述点击数和曝光数的比值,获得第一信息内容对象在第一预定时间内的点击率,然后结合点击率确定对应的在最近的第一预定时间内的点击率分数。一些实施例中,可以是直接将获得的点击率作为点击率分数。在另一些实施例中,可以是基于点击率进行进一步的计算获得点击率分数。例如,假设某个第一信息内容对象D在最近第一预定时间T1内的点击数为d1,曝光数为b1,则其对应的点击率为d1/b1。可以直接将击率为d1/b1作为D在T1内的点击率分数,也可以将d1/b1乘以一定的固定值,例如100,将100d1/b1作为D在T1内的点击率分数。
一个实施例中,在上述获得点击率分数之后,还可以进一步对获得的对所述点击率分数进行置信度平滑处理,获得置信度平滑处理后的点击率分数。从而,通过对获得的点击率分数进行置信度平滑处理,以进行平滑的惩罚处理,以使得最终获得的点击率分数更能符合该信息内容对象的实际点击情况。其中,在具体进行置信度平滑处理时,可以根据曝光量对所述点击率分数进行置信度平滑处理,具体地,可以是曝光量越大,其对应的点击率分数越置信,惩罚越小。在一些具体示例中,可以基于威尔逊置信区间算法进行置信度平滑处理。
步骤S203:对各所述点击率分数进行缺失值平滑处理,使得没有点击率分数的信息内容对象也获得对应的点击率分数,获得缺失值平滑处理后的点击率分数。
通过缺失值平滑处理,可以各第一信息内容对象中,没有点击率分数的信息内容对象,也可以获得相应的点击率分数,从而能够有被推荐的概率,能够进入推荐库进行推荐,使得新发布的信息内容对象没有实际的点击率也能够进入推荐流程,解决了新分布内容因为没有历史数据的冷启动问题。而通过在置信度平滑处理之后再进行缺失值平滑处理,可以各第一信息内容对象均有对应的点击率分数,且该点击率分数是可信的,可以确保新发布的信息内容对象都能够具有推荐概率,可以进入推荐流程。
步骤S204:基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象。
在基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象时,可以直接基于点击率分数确定待推荐信息内容对象(本申请实施例中也称为待推荐第一信息内容对象)。
在具体基于点击率分数确定待推荐第一信息内容对象时,可以是获取确定的点击率分数区间,将点击率分数处于点击率分数区间的第一信息内容对象,确定为待推荐第一信息内容对象。
在一个实施例中,基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象时,可以采用下述方式进行,具体可以包括步骤S2041和步骤S2042。
步骤S2041:对缺失值平滑处理后的各所述第一信息内容对象的点击率分数进行归一化处理,获得归一化处理后的各第一信息内容对象的推荐概率值。
通过归一化处理操作,可以将各点击率分数映射为(0,1)区间的小数。具体的归一化处理方式可以采用已有的归一化处理方式进行。
步骤S2042:基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象。
基于归一化处理后的各第一信息内容对象的推荐概率值,可以采用各种可能的方式来确定待推荐的第一信息内容对象。例如,通过获取确定的推荐概率区间,将推荐概率值处于推荐概率区间的第一信息内容对象,确定为待推荐第一信息内容对象。
在一些实施例中,基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象,可以采用下述方式进行。
首先,基于各所述第一信息内容对象的推荐概率值,确定各所述第一信息内容对象所处的推荐概率区间。从而,基于各第一信息内容对象的推荐概率值,可以将各第一信息内容对象映射到对应的推荐概率区间。举例来说,假设有5个第一信息内容对象D1-D5,它们的推荐概率值均是0.2,则为它们映射的推荐概率区间可以分别是(0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)、[0.9,1)。
然后,获取随机选取的第一概率值,将所述第一概率值对应的推荐概率区间对应的第一信息内容对象,确定为待推荐的第一信息内容对象。
其中,随机选取的第一概率值,可以只有1个值,也可以是通过多次选取获得多个第一概率值,然后将该第一概率值对应的推荐概率区间对应的第一信息内容对象,作为待推荐的第一信息内容对象。例如,假设随机选取的第一概率值为0.3、0.7,则将它们对应的区间[0.2,0.4)、[0.6,0.8)对应的D1、D4作为待推荐的第一信息内容对象。
基于如上所述的本申请的实施例,其针对时间最近的第一预定数目个第一信息内容对象,获取在最近的第一预定时间内的点击率分数,并在此基础上进行缺失值处理,从而可以结合最新发布的一定数量的信息内容对象的点击率情况,并使得没有点击率分数的第一信息内容对象也可以具有一定的点击率分数,也能够有被推荐的概率,解决了新发布信息内容因为没有历史数据的冷启动问题,能够对新内容进行有效推荐使其能够进入推荐流程,提高了信息内容推荐的质量。
参考图5所示,通过将如上所述的实施例中的待推荐信息内容确定方法,与传统的推荐方法中的业务侧提供的保底推荐方式、以及业务侧提供的按时间倒排的方式提供的推荐方式进行比对,通过统计采用这三种不同方式之后10天内的数据发现,本申请实施例提供的方法在PV点击率、UV点击率、用户点赞率、用户评论率、总曝光内容条数等多项指标上均优于这两种传统的方式,总曝光内容条数大幅度由于这两种方式,在解决了新内容曝光问题的基础上,能够基本覆盖每天上新的全部内容。其中,PV点击率是点击次数与曝光次数的比值,UV点击率为点击的用户数目与曝光次数的比值,用户点赞率为点赞的用户数目与为用户进行了曝光的用户数目的总数的比值,用户评论率为评论的用户数目与为用户进行了曝光的用户数目的总数的比值。
在一个实施例中,如图3所示,提供了一种待推荐信息内容确定方法,以该方法应用于图1中的服务器104或服务器106为例进行说明,该待推荐信息内容确定方法,包括以下步骤S301至步骤S305。
步骤S301:获取最近的第二预定时间内的第二信息内容对象。
其中,这里的时间,可以是指信息内容对象的发布时间,例如帖子、文章等用户生成内容的信息内容对象的发布时间,即各第二信息内容对象的发布时间都在第二预定时间内。
第二预定时间的时长可以结合实际技术需要进行设定,一般情况下,该第二预定时间应当设置的比较短,以实现是新发布的信息内容对象中挖掘热点内容,能够挖掘出突然发生的热点事件,但该第二预定时间也可以有一定的时间长度,以能够平衡该段时间内的新发布的信息内容对象的与用户行为的如点击、点赞、评论等与阅读相关的情况。例如,一个实施例中,该第二预定时间可以设置为2小时。可以理解的是,在其他实施例中,该第二预定时间也可以设定为其他时长。
步骤S302:对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次。
在对所述第二信息内容对象进行频次统计时,可以结合分词模型来分词的频次统计。在一些实施例中,可以是采用unigram语言模型和bigram语言模型,对各所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次。其中,unigram语言模型作为一元分词的模型,通过将第二信息内容对象划分为一个一个的字的方式进行分词,在此基础上进行频次统计,bigram语言模型作为二元分词的模型,通过将第二信息内容对象中每两个字划分为一个词的方式进行分词,在此基础上进行频次统计。通过结合unigram语言模型和bigram语言模型进行频次统计,可以避免分词的分词错误带来的整体准确率降低的问题,以及避免不存在分词时带来的效果衰减,从而可以使得最终的频次统计覆盖更多的词,使得获得分词的覆盖面更广,有助于提高最终获得的结果的准确率。
步骤S303:获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次,所述第三预定时间大于所述第二预定时间。
第三预定时间的时长可以结合实际技术需要进行设定,一般情况下,该第三预定时间的时长设置的比第二时间时长要长得多,但也不能太长,以体现出是对新发布的信息内容对象中挖掘热点内容,能够挖掘出突然发生的热点事件。例如,一个实施例中,该第三预定时间可以设置为48小时。可以理解的是,在其他实施例中,该第三预定时间也可以设定为其他时长。
获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次时,可以是通过发布时间最近的第三预定时间内的各第三信息内容对象进行频次统计,获得所述第三信息内容对象中的各第二分词的第二频次。由于第三预定时间大于第二预定时间,可以确定第三信息内容对象包含第二信息内容对象,最终获得的第二分词会包含有第一分词,从而可以通过第一分词与第二分词的一致性关系,获得第一分词的第二频次。
一个具体示例中,可以是采用所述unigram语言模型和所述bigram语言模型,对最近的第三预定时间内的各第三信息对象内容进行频次统计,以获得第三信息内容对象中的各第二分词的第二频次。
步骤S304:基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数。
基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数时,可以采用各种可能的方式进行,只要能够体现出该第二信息内容对象在第二预定时间相对于第三预定时间内的热点变化情况即可。
一个实施例中,基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,可以包括如下步骤S3041和步骤S3042。
步骤S3041:基于各所述第一分词的第一频次和第二频次,确定各所述第一分词的分词热点分数。
一个实施例中,分词热点分数可以是第一频次与频次倒数之和,与频次差值与所述频次倒数之和的比值,其中,频次倒数为第一频次与第二频次之和的倒数,频次差值为所述第二频次与第一频次的差值。
将某个第一分词的第一频次记为Frencent,第二频次记为Fold,分词热点分数记为scoregram,则分词热点分数的确定用公式可以表示为:
scoregram=(Frencent+likelyscore)/(Fold-Frencent+likelyscore)
其中,频次倒数likelyscore为likelyscore=1/(Frencent+Fold)。
可以理解的是,在其他实施例中,也可以采用其他的方式确定该分词热点分数。
步骤S3042:基于所述第二信息内容对象中包含的各所述第一分词的分词热点分数,确定各所述第二信息内容对象的内容热点分数。
一个实施例中,可以直接对第二信息内容对象中包含的各第一分词的分词热点分数进行求和,将获得的和值作为该第二信息内容对象的内容热点分数。
步骤S305:基于各所述第二信息内容对象的内容热点分数,确定所述第二信息内容对象中的待推荐信息内容对象。
在基于各所述第二信息内容对象的内容热点分数确定待推荐信息内容对象时,可以直接基于内容热点分数确定待推荐信息内容对象(本申请实施例中也称为待推荐第二信息内容对象)。
在具体基于内容热点分数确定待推荐第二信息内容对象时,可以是获取确定的内容热点分数区间,将内容热点分数处于内容热点分数区间的第二信息内容对象,确定为待推荐第二信息内容对象。
在一个实施例中,在基于各所述第二信息内容对象的内容热点分数确定待推荐信息内容对象时,可以采用下述方式进行,具体可以包括步骤S3051和步骤S3052。
步骤S3051:对各所述第二信息内容对象的内容热点分数进行归一化处理,获得归一化处理后的各第二信息内容对象的推荐概率值。
通过归一化处理操作,可以将各点击率分数映射为(0,1)区间的小数。具体的归一化处理方式可以采用已有的归一化处理方式进行。
步骤S3052:基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象。
基于归一化处理后的各第二信息内容对象的推荐概率值,可以采用各种可能的方式来确定待推荐的第二信息内容对象。例如,通过获取确定的推荐概率区间,将推荐概率值处于推荐概率区间的第二信息内容对象,确定为待推荐第二信息内容对象。
在一些实施例中,基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象,可以采用下述方式进行。
首先,基于各所述第二信息内容对象的推荐概率值,确定各所述第二信息内容对象所处的推荐概率区间。从而,基于各第二信息内容对象的推荐概率值,可以将各第二信息内容对象映射到对应的推荐概率区间。举例来说,假设有10个第二信息内容对象d1-d10,它们的推荐概率值均是0.1,则为它们映射的推荐概率区间可以分别是(0,0.1)、[0.1,0.2)、[0.2,0.3)、[0.3,0.4)、[0.4,0.5)、[0.5,0.6)、[0.6,0.7)、[0.7,0.8)、[0.8,0.9)、[0.9,1)。
然后,获取随机选取的第二概率值,将所述第二概率值对应的推荐概率区间对应的第二信息内容对象,确定为待推荐的第二信息内容对象。
其中,随机选取的第二概率值,可以只有1个值,也可以是通过多次选取获得多个第二概率值,然后将该第二概率值对应的推荐概率区间对应的第二信息内容对象,作为待推荐的第二信息内容对象。例如,假设随机选取的第二概率值为0.3、0.6、0.7,则将它们对应的区间[0.3,0.4)、[0.6,0.7)、[0.7,0.8)对应的d3、d6、d7作为待推荐的第二信息内容对象。
基于如上所述的实施例的方案,其针对通过统计时间最近的第二预定时间内的各第二信息内容对象,通过统计其包含的第一分词在第二预定时间内的第一频次和在第三预定时间的第二频次,据此各第二信息内容对象的内容热点分数,从而可以从时间最近第二预定时间内发布的第二信息内容对象中发掘出热点的信息内容对象,可以挖掘出新发布信息内容中的热点内容,提高了信息内容推荐的质量。
在一个实施例中,如图4所示,提供了一种待推荐信息内容确定方法,以该方法应用于图1中的服务器104或服务器106为例进行说明,该待推荐信息内容确定方法结合上述实施例中涉及的基于信息内容对象的点击率分数的方式以及结合信息内容对象的结合内容热点分数的方式进行待推荐信息内容的确定,包括以下步骤S401至步骤S405。
步骤S401:获取时间最近的第一预定数目个第一信息内容对象,以及最近的第二预定时间内的第二信息内容对象。
这里的时间,可以是指信息内容对象的发布时间,例如帖子、文章等用户生成内容的信息内容对象的发布时间,即各第二信息内容对象的发布时间都在第二预定时间内。获取时间最近的第一预定数目个第一信息内容对象时,具体可以是按照时间倒排的方式,获取最近发布的第一预定数目个信息内容对象。
其中,第一预定数目可以结合实际技术需要进行设定。在一些实施例中,可以结合统计的每个周期入库的信息内容对象的数量确定,同时可结合当前的业务情况同时确定。在一些实施例中,在获取时间最近的第一预定数目个第一信息内容对象之后,还可以进一步去除所述第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象。其中,敏感词一般是指涉及违反相关法律法规、影响网络环境健康的用语,在一些场景下,也会涉及到不适合在当前服务器的相关页面上出现的词语等等。通过将包含敏感词的第一信息内容对象去除,可以避免包含敏感词的第一信息内容对象的推荐传播,以有利于优化网络环境。
在一些实施例中,在获取时间最近的第一预定数目个第一信息内容对象之后,还可以进一步去除所述第一预定数目个第一信息内容对象中,内容长度小于预定长度阈值的第一信息内容对象。针对内容长度小于预定长度阈值的第一信息内容对象,说明其实际并不包含有足够的信息量,因此,将这些第一信息内容对象进行去除,可以减少后续处理时涉及的第一信息内容对象的数量,有助于提高处理效率。
可以理解的是,在实际处理时,在获取时间最近的第一预定数目个第一信息内容对象之后,可以同时去除第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象以及容长度小于预定长度阈值的第一信息内容对象。
第二预定时间的时长可以结合实际技术需要进行设定,一般情况下,该第二预定时间应当设置的比较短,以实现是新发布的信息内容对象中挖掘热点内容,能够挖掘出突然发生的热点事件,但该第二预定时间也可以有一定的时间长度,以能够平衡该段时间内的新发布的信息内容对象的与用户行为的如点击、点赞、评论等与阅读相关的情况。例如,一个实施例中,该第二预定时间可以设置为2小时。可以理解的是,在其他实施例中,该第二预定时间也可以设定为其他时长。
步骤S402:对第一预定数目个所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;并对各所述点击率分数进行缺失值平滑处理,获得缺失值平滑处理后的各所述第一信息内容对象的点击率分数。
一个实施例中,可以是通过获取各所述第一信息内容对象在最近的第一预定时间内的点击数和曝光数,并计算上述点击数和曝光数的比值,获得第一信息内容对象在第一预定时间内的点击率,然后结合点击率确定对应的在最近的第一预定时间内的点击率分数。
其中,第一预定时间的时长可以结合实际技术需要进行设定,例如,一个实施例中,该第一预定时间可以设置为5分钟。可以理解的是,在其他实施例中,该第一预定时间也可以设定为其他时长。
其中,各第一信息内容对象在最近第一预定时间内的点击数和曝光数,可以从相关的日志数据中获得,例如服务器的mta日志,服务器的mta日志中记录有信息内容对象的所有与用户行为相关的日志数据,例如信息内容对象的相关信息展示在了用户的相关显示页面的曝光动作以及曝光时间,用户点击该信息内容对象的点击动作以及点击时间,用户对该信息内容对象进行了点赞的点赞动作以及点赞时间,用户对该信息内容对象进行了评论的评论动作、评论内容以及评论时间,可以理解的是,这些记录的相关信息还可以同时包含有对应的用户的用户标识。从而,可以通过访问mta日志,通过信息内容对象的标识以及用户动作的时间(如点击时间)等,可以从中筛选并统计获得各信息内容对象在第一预定时间内的点击数以及曝光数。
一些实施例中,可以是直接将获得的点击率作为点击率分数。在另一些实施例中,可以是基于点击率进行进一步的计算获得点击率分数。
一个实施例中,在上述对第一预定数目个所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数之后,还可以进一步对获得的对所述点击率分数进行置信度平滑处理,获得置信度平滑处理后的点击率分数,再针对置信度平滑处理后的点击率分数进行缺失值平滑处理。从而,通过对获得的点击率分数进行置信度平滑处理,以进行平滑的惩罚处理,以使得最终获得的点击率分数更能符合该信息内容对象的实际点击情况。其中,在具体进行置信度平滑处理时,可以根据曝光量对所述点击率分数进行置信度平滑处理,具体地,可以是曝光量越大,其对应的点击率分数越置信,惩罚越小。在一些具体示例中,可以基于威尔逊置信区间算法进行置信度平滑处理。
通过缺失值平滑处理,可以各第一信息内容对象中,没有点击率分数的信息内容对象,也可以获得相应的点击率分数,从而能够有被推荐的概率,能够进入推荐库进行推荐,使得新发布的信息内容对象没有实际的点击率也能够进入推荐流程,解决了新分布内容因为没有历史数据的冷启动问题。而通过在置信度平滑处理之后再进行缺失值平滑处理,可以各第一信息内容对象均有对应的点击率分数,且该点击率分数是可信的,可以确保新发布的信息内容对象都能够具有推荐概率,可以进入推荐流程。
步骤S404:对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词在所述第二预定时间内的第一频次以及在最近的第三预定时间内的第二频次;基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,所述第三预定时间大于所述第二预定时间。
在对所述第二信息内容对象进行频次统计时,可以结合分词模型来分词的频次统计。在一些实施例中,可以是采用unigram语言模型和bigram语言模型,对各所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次。其中,unigram语言模型作为一元分词的模型,通过将第二信息内容对象划分为一个一个的字的方式进行分词,在此基础上进行频次统计,bigram语言模型作为二元分词的模型,通过将第二信息内容对象中每两个字划分为一个词的方式进行分词,在此基础上进行频次统计。通过结合unigram语言模型和bigram语言模型进行频次统计,从而可以使得最终的频次统计覆盖更多的词,使得获得分词的覆盖面更广,有助于提高最终获得的结果的准确率。
第三预定时间的时长可以结合实际技术需要进行设定,一般情况下,该第三预定时间的时长设置的比第二时间时长要长得多,但也不能太长,以体现出是对新发布的信息内容对象中挖掘热点内容,能够挖掘出突然发生的热点事件。例如,一个实施例中,该第三预定时间可以设置为48小时。可以理解的是,在其他实施例中,该第三预定时间也可以设定为其他时长。
获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次时,可以是通过发布时间最近的第三预定时间内的各第三信息内容对象进行频次统计,获得所述第三信息内容对象中的各第二分词的第二频次。由于第三预定时间大于第二预定时间,可以确定第三信息内容对象包含第二信息内容对象,最终获得的第二分词会包含有第一分词,从而可以通过第一分词与第二分词的一致性关系,获得第一分词的第二频次。
一个具体示例中,可以是采用所述unigram语言模型和所述bigram语言模型,对最近的第三预定时间内的各第三信息对象内容进行频次统计,以获得第三信息内容对象中的各第二分词的第二频次。
基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数时,可以采用各种可能的方式进行,只要能够体现出该第二信息内容对象在第二预定时间相对于第三预定时间内的热点变化情况即可。
一个实施例中,基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,可以采用下述方式进行。
首先,基于各所述第一分词的第一频次和第二频次,确定各所述第一分词的分词热点分数。
一个实施例中,分词热点分数可以是第一频次与频次倒数之和,与频次差值与所述频次倒数之和的比值,其中,频次倒数为第一频次与第二频次之和的倒数,频次差值为所述第二频次与第一频次的差值。
将某个第一分词的第一频次记为Frencent,第二频次记为Fold,分词热点分数记为scoregram,则分词热点分数的确定用公式可以表示为:
scoregram=(Frencent+likelyscore)/(Fold-Frencent+likelyscore)
其中,频次倒数likelyscore为likelyscore=1/(Frencent+Fold)。
可以理解的是,在其他实施例中,也可以采用其他的方式确定该分词热点分数。
其次,基于所述第二信息内容对象中包含的各所述第一分词的分词热点分数,确定各所述第二信息内容对象的内容热点分数。
一个实施例中,可以直接对第二信息内容对象中包含的各第一分词的分词热点分数进行求和,将获得的和值作为该第二信息内容对象的内容热点分数。
步骤S405:基于缺失值平滑处理后的各所述第一信息内容对象的点击率分数,以及各所述第二信息内容对象的内容热点分数,确定待推荐信息内容对象。
在一些实施例中,在基于缺失值平滑处理后的各所述第一信息内容对象的点击率分数,以及各所述第二信息内容对象的内容热点分数,确定待推荐信息内容对象时,可以采用下述方式进行。
对缺失值平滑处理后的各所述第一信息内容对象的点击率分数进行归一化处理,获得归一化处理后的各第一信息内容对象的推荐概率值;基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象;
对各所述第二信息内容对象的内容热点分数进行归一化处理,获得归一化处理后的各第二信息内容对象的推荐概率值;基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象。
其中,确定的待推荐信息内容对象包括所述待推荐的第一信息内容对象以及所述待推荐的第二信息内容对象。
其中通过归一化处理操作,可以将各点击率分数或者内容热点分数映射为对应的(0,1)区间的小数。具体的归一化处理方式可以采用已有的归一化处理方式进行。
基于归一化处理后的各第一信息内容对象的推荐概率值,可以采用各种可能的方式来确定待推荐的第一信息内容对象。例如,通过获取确定的推荐概率区间,将推荐概率值处于推荐概率区间的第一信息内容对象,确定为待推荐第一信息内容对象。
在一些实施例中,基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象,可以采用下述方式进行。
首先,基于各所述第一信息内容对象的推荐概率值,确定各所述第一信息内容对象所处的推荐概率区间。从而,基于各第一信息内容对象的推荐概率值,可以将各第一信息内容对象映射到对应的推荐概率区间。举例来说,假设有5个第一信息内容对象D1-D5,它们的推荐概率值均是0.2,则为它们映射的推荐概率区间可以分别是(0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)、[0.9,1)。
然后,获取随机选取的第一概率值,将所述第一概率值对应的推荐概率区间对应的第一信息内容对象,确定为待推荐的第一信息内容对象。
其中,随机选取的第一概率值,可以只有1个值,也可以是通过多次选取获得多个第一概率值,然后将该第一概率值对应的推荐概率区间对应的第一信息内容对象,作为待推荐的第一信息内容对象。例如,假设随机选取的第一概率值为0.3、0.7,则将它们对应的区间[0.2,0.4)、[0.6,0.8)对应的D1、D4作为待推荐的第一信息内容对象。
基于归一化处理后的各第二信息内容对象的推荐概率值,可以采用各种可能的方式来确定待推荐的第二信息内容对象。例如,通过获取确定的推荐概率区间,将推荐概率值处于推荐概率区间的第二信息内容对象,确定为待推荐第二信息内容对象。
在一些实施例中,基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象,可以采用下述方式进行。
首先,基于各所述第二信息内容对象的推荐概率值,确定各所述第二信息内容对象所处的推荐概率区间。从而,基于各第二信息内容对象的推荐概率值,可以将各第二信息内容对象映射到对应的推荐概率区间。举例来说,假设有10个第二信息内容对象d1-d10,它们的推荐概率值均是0.1,则为它们映射的推荐概率区间可以分别是(0,0.1)、[0.1,0.2)、[0.2,0.3)、[0.3,0.4)、[0.4,0.5)、[0.5,0.6)、[0.6,0.7)、[0.7,0.8)、[0.8,0.9)、[0.9,1)。
然后,获取随机选取的第二概率值,将所述第二概率值对应的推荐概率区间对应的第二信息内容对象,确定为待推荐的第二信息内容对象。
其中,随机选取的第二概率值,可以只有1个值,也可以是通过多次选取获得多个第二概率值,然后将该第二概率值对应的推荐概率区间对应的第二信息内容对象,作为待推荐的第二信息内容对象。例如,假设随机选取的第二概率值为0.3、0.6、0.7,则将它们对应的区间[0.3,0.4)、[0.6,0.7)、[0.7,0.8)对应的d3、d6、d7作为待推荐的第二信息内容对象。
其中,由于在上述步骤S401中,获取的第一信息内容对象是发布时间最近的第一预设数目个,第二信息内容对象是最近的第二预定时间内的对象,第一信息内容对象和第二信息内容对象是源自于相同的信息内容对象池,从而第一信息内容对象和第二信息内容对象可能存在重复的情况,即最终某个信息内容对象可能既包含于待推荐第一信息内容对象中,又包含于待推荐第二信息内容对象中。
此时,在一些实施例中,可以对待推荐第一信息内容对象和待推荐第二信息内容对象进行去重处理后,再作为最终的待推荐信息内容对象。
在一些实施例中,由于待推荐第一信息内容对象主要是用以推荐新的信息内容对象也能够得以推荐,而待推荐第二信息内容对象主要是用以挖掘新的信息内容对象中的热点,因此,可以将待推荐第一信息内容对象与待推荐第二信息内容对象通时进行推荐,以实现不同类型的信息内容对象的推荐,例如可以在不同区域或者以不同的方式进行推荐。
基于如上所述的实施例的方案,其针对时间最近的第一预定数目个第一信息内容对象,获取在最近的第一预定时间内的点击率分数,并在此基础上进行缺失值处理,从而可以结合最新发布的一定数量的信息内容对象的点击率情况,并使得没有点击率分数的第一信息内容对象也可以具有一定的点击率分数,也能够有被推荐的概率,解决了新发布信息内容因为没有历史数据的冷启动问题,同时针对时间最近的第二预定时间内的各第二信息内容对象,通过统计其包含的第一分词在第二预定时间内的第一频次和在第三预定时间的第二频次,据此各第二信息内容对象的内容热点分数,从而可以从时间最近第二预定时间内发布的第二信息内容对象中发掘出热点的信息内容对象,可以挖掘出新发布信息内容中的热点内容,从而可以在解决了冷启动问题,能够对新内容进行有效推荐使其能够进入推荐流程的基础上,又能够挖掘出实时热点,提高了整体推荐质量。
基于如上所述的实施例的方案,其针对通过统计时间最近的第二预定时间内的各第二信息内容对象,通过统计其包含的第一分词在第二预定时间内的第一频次和在第三预定时间的第二频次,据此各第二信息内容对象的内容热点分数,从而可以从时间最近第二预定时间内发布的第二信息内容对象中发掘出热点的信息内容对象,可以挖掘出新发布信息内容中的热点内容,提高了信息内容推荐的质量。
参考图6所示,通过将如上所述的实施例中的结合点击率分数和内容热点分数的待推荐信息内容确定方法,与如上所述的只基于点击率分数确定待推荐信息内容确定方式进行比对,通过统计采用这两种不同方式之后11天内的数据发现,这两种方式均能够从新的信息内容对象中发掘表现好的内容进行推荐。而结合了点击率分数和内容热点分数的方式,在新的信息内容对象的池子上增加了热点的筛选,通过统计活动期间每天发帖数量翻倍的周期的指标上进行对,在用户点赞率、用户评论率、uv点击率以及pv点击率上,均有了大幅度的提升。
应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,这些流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种待推荐信息内容确定装置,包括:
第一对象获取模块701,用于获取时间最近的第一预定数目个第一信息内容对象;
点击率分数确定模块702,用于对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;
缺失值平滑处理模块703,用于对各所述点击率分数进行缺失值平滑处理,使得没有点击率分数的信息内容对象也获得对应的点击率分数,获得缺失值平滑处理后的点击率分数;
第一待推荐对象确定模块704,用于基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象。
一个实施例中,还包括过滤模块,用于去除所述第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象。
一个实施例中,过滤模块还用于去除所述第一预定数目个第一信息内容对象中,内容长度小于预定长度阈值的第一信息内容对象。
一个实施例中,点击率分数确定模块702,获取各所述第一信息内容对象在最近的第一预定时间内的点击数和曝光数,基于所述点击数和所述曝光数,计算获得各所述第一信息内容对象在最近的第一预定时间内的点击率分数。
一个实施例中,还包括:置信度平滑处理模块,用于对点击率分数确定模块702获得的对所述点击率分数进行置信度平滑处理,获得置信度平滑处理后的点击率分数。此时,缺失值平滑处理模块703,对置信度平滑处理模块置信度平滑处理后的点击率分数进行缺失值平滑处理。
一个实施例中,第一待推荐对象确定模块704,包括:
归一化处理模块,用于对缺失值平滑处理后的各所述第一信息内容对象的点击率分数进行归一化处理,获得归一化处理后的各第一信息内容对象的推荐概率值。
第一确定模块,用于基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象。
一个实施例中,第一确定模块,用于基于各所述第一信息内容对象的推荐概率值,确定各所述第一信息内容对象所处的推荐概率区间,并获取随机选取的第一概率值,将所述第一概率值对应的推荐概率区间对应的第一信息内容对象,确定为待推荐的第一信息内容对象。
在一个实施例中,如图8所示,提供了一种待推荐信息内容确定装置,包括:
第二对象获取模块801,用于获取最近的第二预定时间内的第二信息内容对象;
频次确定模块802,用于对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次;并获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次,所述第三预定时间大于所述第二预定时间;
内容热点分数确定模块803,用于基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数;
第二待推荐对象确定模块804,基于各所述第二信息内容对象的内容热点分数,确定所述第二信息内容对象中的待推荐信息内容对象。
一个实施例中,频次确定模块802,采用unigram语言模型和bigram语言模型,对各所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次。
一个实施例中,第二对象获取模块801还获取发布时间最近的第三预定时间内的各第三信息内容对象,频次确定模块802,采用unigram语言模型和bigram语言模型,对各所述第三信息内容对象进行频次统计,获得所述第三信息内容对象中的各第二分词的第二频次,其中,第二分词包括第一分词。
一个实施例中,内容热点分数确定模块803,基于各所述第一分词的第一频次和第二频次,确定各所述第一分词的分词热点分数,并基于所述第二信息内容对象中包含的各所述第一分词的分词热点分数,确定各所述第二信息内容对象的内容热点分数。
一个实施例中,分词热点分数可以是第一频次与频次倒数之和,与频次差值与所述频次倒数之和的比值,其中,频次倒数为第一频次与第二频次之和的倒数,频次差值为所述第二频次与第一频次的差值。
一个实施例中,该第二信息内容对象的内容热点分数,为第二信息内容对象中包含的各第一分词的分词热点分数的和值。
一个实施例中,第二待推荐对象确定模块804,包括:
归一化处理模块,用于对各所述第二信息内容对象的内容热点分数进行归一化处理,获得归一化处理后的各第二信息内容对象的推荐概率值。
第二确定模块,用于基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象。
一个实施例中,第二确定模块,基于各所述第二信息内容对象的推荐概率值,确定各所述第二信息内容对象所处的推荐概率区间,获取随机选取的第二概率值,将所述第二概率值对应的推荐概率区间对应的第二信息内容对象,确定为待推荐的第二信息内容对象。
在一个实施例中,如图9所示,提供了一种待推荐信息内容确定装置,包括:
对象获取模块901,具体可以包括如上所述的第一对象获取模块701和第二对象获取模块801;
点击分数确定模块902,具体可以包括如上所述的点击率分数确定模块702和缺失值平滑处理模块703;
热点分数确定模块903,具体可以包括如上所述的频次确定模块802和内容热点分数确定模块803;
推荐对象确定模块904,具体可以包括如上所述的第一待推荐对象确定模块704和第二待推荐对象确定模块804;
一个实施例中,点击分数确定模块902,还包括过滤模块,用于去除所述第一预定数目个第一信息内容对象中,包含敏感词的第一信息内容对象。
一个实施例中,过滤模块还用于去除所述第一预定数目个第一信息内容对象中,内容长度小于预定长度阈值的第一信息内容对象。
一个实施例中,点击分数确定模块902,还包括置信度平滑处理模块,用于对点击率分数确定模块702获得的对所述点击率分数进行置信度平滑处理,获得置信度平滑处理后的点击率分数。此时,缺失值平滑处理模块703,对置信度平滑处理模块置信度平滑处理后的点击率分数进行缺失值平滑处理。
关于待推荐信息内容确定装置的具体限定可以参见上文中对于待推荐信息内容确定方法的限定,在此不再赘述。上述待推荐信息内容确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储日志数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种待推荐信息内容确定方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上述任意一个实施例中的待推荐信息内容确定方法。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种待推荐信息内容确定方法,其特征在于,所述方法包括:
获取时间最近的第一预定数目个第一信息内容对象;
对各所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;
对各所述点击率分数进行缺失值平滑处理,使得没有点击率分数的信息内容对象也获得对应的点击率分数,获得缺失值平滑处理后的点击率分数;
基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象。
2.根据权利要求1所述的方法,其特征在于,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数之后,对各所述点击率分数进行缺失值平滑处理之前,还包括步骤:
对所述点击率分数进行置信度平滑处理,获得置信度平滑处理后的点击率分数。
3.根据权利要求1所述的方法,其特征在于,基于各所述第一信息内容对象的缺失值平滑处理后的点击率分数,确定待推荐信息内容对象,包括:
对缺失值平滑处理后的点击率分数进行归一化处理,获得归一化处理后的各第一信息内容对象的推荐概率值;
基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的信息内容对象。
4.根据权利要求3所述的方法,其特征在于,基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的信息内容对象,包括:
基于各所述第一信息内容对象的推荐概率值,确定各所述第一信息内容对象所处推荐概率区间;
获取随机选取的概率值,将所述概率值对应的推荐概率区间对应的第一信息内容对象,确定为待推荐信息内容。
5.一种待推荐信息内容确定方法,其特征在于,所述方法包括:
获取最近的第二预定时间内的第二信息内容对象;
对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词的第一频次;
获取各所述第一分词在最近的第三预定时间内的信息内容对象中的第二频次,所述第三预定时间大于所述第二预定时间;
基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数;
基于各所述第二信息内容对象的内容热点分数,确定所述第二信息内容对象中的待推荐信息内容对象。
6.根据权利要求5所述的方法,其特征在于,基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,包括:
基于各所述第一分词的第一频次和第二频次,确定各所述第一分词的分词热点分数;
基于所述第二信息内容对象中包含的各所述第一分词的分词热点分数,确定各所述第二信息内容对象的内容热点分数。
7.根据权利要求6所述的方法,其特征在于,所述分词热点分数为所述第一频次与频次倒数的和值,与频次差值与所述频次倒数的和值的比值,所述频次倒数为所述第一频次与所述第二频次之和的倒数,所述频次差值为所述第二频次与所述第一频次的差值。
8.根据权利要求5所述的方法,其特征在于,基于各所述第二信息内容对象的内容热点分数,确定所述第二信息内容对象中的待推荐对象,包括:
对各所述第二信息内容对象的内容热点分数进行归一化处理,获得归一化处理后的各第二信息内容对象的推荐概率值;
基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的信息内容对象。
9.一种待推荐信息内容确定方法,其特征在于,所述方法包括:
获取时间最近的第一预定数目个第一信息内容对象,以及最近的第二预定时间内的第二信息内容对象;
对第一预定数目个所述第一信息内容对象,获取各所述第一信息内容对象在最近的第一预定时间内的点击率分数;并对各所述点击率分数进行缺失值平滑处理,获得缺失值平滑处理后的各所述第一信息内容对象的点击率分数;
对所述第二信息内容对象进行频次统计,获得所述第二信息内容对象中的各第一分词在所述第二预定时间内的第一频次以及在最近的第三预定时间内的第二频次;基于所述第二信息内容对象包含的各所述第一分词的第一频次和第二频次,确定各所述第二信息内容对象的内容热点分数,所述第三预定时间大于所述第二预定时间;
基于缺失值平滑处理后的各所述第一信息内容对象的点击率分数,以及各所述第二信息内容对象的内容热点分数,确定待推荐信息内容对象。
10.根据权利要求9所述的方法,其特征在于,基于缺失值平滑处理后的各所述第一信息内容对象的点击率分数,以及各所述第二信息内容对象的内容热点分数,确定待推荐信息内容对象,包括:
对缺失值平滑处理后的各所述第一信息内容对象的点击率分数进行归一化处理,获得归一化处理后的各第一信息内容对象的推荐概率值;基于所述归一化处理后的各第一信息内容对象的推荐概率值,确定待推荐的第一信息内容对象;
对各所述第二信息内容对象的内容热点分数进行归一化处理,获得归一化处理后的各第二信息内容对象的推荐概率值;基于所述归一化处理后的各第二信息内容对象的推荐概率值,确定待推荐的第二信息内容对象;
所述待推荐信息内容对象包括所述待推荐的第一信息内容对象以及所述待推荐的第二信息内容对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011321743.0A CN113536106A (zh) | 2020-11-23 | 2020-11-23 | 待推荐信息内容确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011321743.0A CN113536106A (zh) | 2020-11-23 | 2020-11-23 | 待推荐信息内容确定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536106A true CN113536106A (zh) | 2021-10-22 |
Family
ID=78124183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011321743.0A Pending CN113536106A (zh) | 2020-11-23 | 2020-11-23 | 待推荐信息内容确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536106A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756762A (zh) * | 2022-06-13 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN116150503A (zh) * | 2023-04-13 | 2023-05-23 | 北京创新乐知网络技术有限公司 | 用于内容推荐的召回处理方法和内容推荐方法 |
-
2020
- 2020-11-23 CN CN202011321743.0A patent/CN113536106A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756762A (zh) * | 2022-06-13 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN116150503A (zh) * | 2023-04-13 | 2023-05-23 | 北京创新乐知网络技术有限公司 | 用于内容推荐的召回处理方法和内容推荐方法 |
CN116150503B (zh) * | 2023-04-13 | 2023-08-18 | 北京创新乐知网络技术有限公司 | 用于内容推荐的召回处理方法和内容推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6547070B2 (ja) | プッシュ情報粗選択ソーティングの方法、デバイス、およびコンピュータ記憶媒体 | |
WO2011035156A2 (en) | Advertisee-history-based bid generation system and method for multi-channel advertising | |
CN113536106A (zh) | 待推荐信息内容确定方法 | |
CN106934413B (zh) | 模型训练方法、装置及***以及样本集优化方法、装置 | |
CN109325868B (zh) | 问卷数据处理方法、装置、计算机设备和存储介质 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN111651670A (zh) | 基于用户行为图谱的内容检索方法、装置终端和存储介质 | |
CN112685639A (zh) | 活动推荐方法、装置、计算机设备和存储介质 | |
US20220180979A1 (en) | Adaptive clinical trials | |
CN111737555A (zh) | 热点关键词的选取方法、设备和存储介质 | |
CN112926090B (zh) | 基于差分隐私的业务分析方法及装置 | |
CN108334519B (zh) | 一种用户画像中的用户标签获取方法及装置 | |
KR20190138716A (ko) | 기후 변화 데이터를 활용한 질병 발생 예측 장치 및 그 동작 방법 | |
CN110796379B (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN113139826A (zh) | 广告位的分配权限确定方法、装置、计算机设备 | |
CN115391666A (zh) | 医院在线推荐方法、装置、计算机设备和存储介质 | |
CN111046240A (zh) | 网关流量统计方法、装置、计算机设备和存储介质 | |
CN115879819A (zh) | 企业信用评估方法及装置 | |
CN115860505A (zh) | 对象评价方法、装置、终端设备及存储介质 | |
CN111639096B (zh) | 一种sql语句的执行方法、装置、电子设备及存储介质 | |
US20100082361A1 (en) | Apparatus, System and Method for Predicting Attitudinal Segments | |
CN114238044A (zh) | 开源项目活跃度的计算方法、装置和计算机设备 | |
CN111091472A (zh) | 数据处理方法、装置及设备 | |
CN113139825A (zh) | 广告位的分配权限确定方法、装置、计算机设备 | |
CN110991823A (zh) | 业务数据处理的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |