发明内容
本公开实施例至少提供一种信息展示的方法、装置及计算机存储介质。
第一方面,本公开实施例提供了一种信息展示的方法,所述方法包括:
获取并展示目标内容信息榜单;所述目标内容信息榜单中包括所述目标内容对应的多个目标聚类结果的描述信息;
响应针对任一所述目标聚类结果的描述信息的触发操作,获取并展示该目标聚类结果对应的详情信息;其中,所述详情信息包括与所述目标聚类结果对应的多个聚合维度,以及各所述聚合维度下的至少一个媒体内容。
在一种可能的实施方式中,所述聚合维度包括事件相关百科、事件详情、事件当事人视角、事件评论中的一个或多个;所述聚合维度是基于所述目标聚类结果的属性信息确定的。
在一种可能的实施方式中,所述方法还包括:
在信息流中展示所述目标聚类结果对应的推送信息;其中,所述推送信息是基于所述目标聚类结果对应的多个媒体内容得到的;
响应信息流中针对所述推送信息的触发操作,展示所述目标聚类结果对应的详情信息,或者展示所述目标聚类结果对应的目标内容信息榜单。
在一种可能的实施方式中,获取并展示目标内容信息榜单页面,包括:
展示与用户属性信息匹配的多个目标内容信息榜单对应的榜单标识;
响应于对任一所述榜单标识的触发操作,获取并展示该榜单标识对应的目标内容信息榜单。
第二方面,本公开实施例还提供一种信息展示的方法,所述方法包括:
获取预设时间段内目标信息对应的媒体内容;
将所述媒体内容进行聚类,得到多个聚类结果;
根据每个聚类结果下的媒体内容的交互数据,从所述聚类结果中选择多个目标聚类结果,并确定各所述目标聚类结果的描述信息;
基于各所述目标聚类结果的描述信息,生成目标内容信息榜单。
在一种可能的实施方式中,将所述媒体内容进行聚类,得到多个聚类结果,包括:
获取任一待聚类的簇;所述待聚类的簇中包含至少一个媒体内容;
基于所述待聚类的簇对应的特征向量和/或关键词信息确定目标簇;所述目标簇为其它待聚类的簇或已聚类的簇;
将所述待聚类的簇与所述目标簇合并,得到合并后的簇;
返回所述获取任一待聚类的簇的步骤,直到所有簇之间不能合并为止,将所述所有簇作为所述多个聚类结果。
在一种可能的实施方式中,基于所述待聚类的簇对应的特征向量和/或关键词信息确定目标簇,包括:
基于所述待聚类的簇对应的特征向量和/或关键词信息,召回与所述待聚类的簇匹配的候选簇;
计算所述待聚类的簇与每个所述候选簇之间的向量相似度;
若所述待聚类的簇与每个所述候选簇之间的最大向量相似度大于设定相似度阈值,则将与所述待聚类的簇之间的向量相似度最大的候选簇,作为所述目标簇。
在一种可能的实施方式中,基于所述待聚类的簇对应的特征向量和/或关键词信息,召回与所述待聚类的簇匹配的候选簇,包括:
采用目标搜索算法,查找与所述待聚类的簇之间的搜索空间距离小于设定距离阈值的预设数量的第一候选簇;和/或,
基于所述待聚类的簇对应的至少一个关键词,查找与所述待聚类的簇具有相同关键词的第二候选簇,所述第二候选簇与所述待聚类的簇之间的相同关键词的权重之和大于设定权重阈值。
在一种可能的实施方式中,基于所述待聚类的簇对应的特征向量和关键词信息,召回与所述待聚类的簇匹配的候选簇,还包括:
将所述第一候选簇与所述第二候选簇进行合并及去重处理,得到与所述待聚类的簇匹配的候选簇。
在一种可能的实施方式中,将所述待聚类的簇与所述目标簇合并,得到合并后的簇之后,还包括:
基于所述待聚类的簇和所述目标簇分别对应的特征向量,确定合并后的簇对应的特征向量;和/或,
基于所述待聚类的簇和所述目标簇分别对应的关键词信息,确定合并后的簇对应的关键词信息。
在一种可能的实施方式中,基于所述待聚类的簇和所述目标簇分别对应的特征向量,确定合并后的簇对应的特征向量,包括:
计算所述待聚类的簇和所述目标簇分别对应的特征向量的平均特征向量,将该平均特征向量作为合并后的簇对应的特征向量。
在一种可能的实施方式中,所述关键词信息中包括关键词的权重;所述基于所述待聚类的簇和所述目标簇分别对应的关键词信息,确定合并后的簇对应的关键词信息,包括:
针对所述合并后的簇对应的每个关键词,基于该关键词在所述待聚类的簇中的第一权重,以及该关键词在所述目标簇中的第二权重和该关键词在所述目标簇中的逆文档频次,确定该关键词的权重因子;
基于每个关键词对应的权重因子,确定该关键词在所述合并后的簇中的权重。
在一种可能的实施方式中,在所述第一权重为关键词的初始权重的情况下,根据以下步骤确定关键词在所属的待聚类的簇中的初始权重:
基于预设的相关性算法,确定所述关键词的所属的待聚类的簇对应的至少一个关键词分别与该簇的媒体内容之间的相关性分值;
基于所述相关性分值,确定所述关键词的初始权重。
在一种可能的实施方式中,根据每个聚类结果下的媒体内容的交互数据,从所述聚类结果中选择多个目标聚类结果,包括:
根据每个聚类结果下的媒体内容的交互数据,确定每个聚类结果对应的至少一种热度值;
按照每个聚类结果对应的至少一种热度值,从所述聚类结果中选择目标聚类结果。
在一种可能的实施方式中,确定各所述目标聚类结果的描述信息,包括:
针对每个目标聚类结果,基于所述目标聚类结果对应的多个媒体内容的属性信息,从所述多个媒体内容中选取目标媒体内容;
提取目标媒体内容中的标题信息作为所述描述信息,和/或,提取所述目标媒体内容的关键词信息,将所述关键词信息按照语言逻辑顺序拼接形成所述描述信息。
在一种可能的实施方式中,所述至少一种热度值包括两种热度值,其中不同种热度值对应的计算方法不同;从所述聚类结果中选择多个目标聚类结果,包括:
按照每个聚类结果对应的两种热度值由高到低的顺序,将多个聚类结果进行交叉排序;
按照交叉排序结果,选择前预设数量个聚类结果作为所述多个目标聚类结果。
在一种可能的实施方式中,根据每个聚类结果下的媒体内容的交互数据,确定每个聚类结果对应的至少一种热度值,包括:
针对每个聚类结果,基于该聚类结果在预设时间段内的多个子时间段分别对应的媒体内容浏览用户的第一交互数据和媒体内容发布用户的第二交互数据,确定该聚类结果对应的至少一种热度值。
在一种可能的实施方式中,基于该聚类结果在最近预设时间段内的多个子时间段分别对应的所述第一交互数据和所述第二交互数据,确定该聚类结果对应的一种热度值,包括:
根据所述多个子时间段对应的每一对相邻子时间段中,前一子时间段对应的第一交互数据与后一子时间段对应的第一交互数据之间的第一交互数据差值,确定该相邻子时间段对应的第一交互数据差值因子;并根据每对相邻子时间段对应的第一交互数据差值因子和所述第一交互数据差值,确定第一热度值;
以及,根据所述多个子时间段对应的每一对相邻子时间段中,前一子时间段对应的第二交互数据与后一子时间段的第二交互数据之间的第二交互数据差值,确定该相邻子时间段对应的第二交互数据差值因子;并根据每对相邻子时间段对应的第二交互数据差值因子和所述第二交互数据差值,确定第二热度值;
基于所述第一热度值和所述第二热度值,确定该聚类结果对应的一种热度值。
在一种可能的实施方式中,不同对相邻子时间段对应的第一交互数据差值因子和第二交互数据差值因子不同,距离当前时间越近的相邻子时间段对应的第一交互数据差值因子的绝对值和第二交互数据差值因子的绝对值越大。
在一种可能的实施方式中,基于该聚类结果在最近预设时间段内的多个子时间段分别对应的第一交互数据和第二交互数据,确定该聚类结果对应的一种热度值,包括:
根据该聚类结果在所述多个子时间段中最近N个子时间段的第一交互数据总和,与最近的第N个子时间段之前的预设数量个子时间段的第一交互数据总和之间的差值,确定展现系数;
根据确定的展现系数,和所述多个子时间段对应的总第一交互数据,确定第三热度值;
根据该聚类结果在所述多个子时间段中的总第二交互数据和预设发文系数,确定该聚类结果对应的第四热度值;
基于所述第三热度值和所述第四热度值,确定该聚类结果对应的一种热度值。
在一种可能的实施方式中,所述方法还包括:
针对每个所述目标聚类结果,根据所述目标聚类结果包括的多媒体内容,确定所述目标聚类结果的属性信息;
基于所述目标聚类结果的属性信息,确定多个聚合维度;
基于所述多个聚合维度,以及所述目标聚类结果对应的多个媒体内容,生成所述目标聚类结果对应的聚合媒体内容,将所述聚合媒体内容作为所述目标聚类结果的描述信息对应的详情信息。
在一种可能的实施方式中,基于所述多个聚合维度,以及所述目标聚类结果对应的多个媒体内容,生成所述目标聚类结果对应的聚合媒体内容,包括:
针对每个所述聚合维度,确定所述多个媒体内容中属于该聚合维度下的媒体内容;
根据确定的属于每个所述聚合维度下的媒体内容,生成所述聚合媒体内容。
在一种可能的实施方式中,基于各所述目标聚类结果的描述信息,生成目标内容信息榜单,包括:
基于各所述目标聚类结果的描述信息,确定多个榜单维度下每个所述榜单维度下的目标内容信息榜单。
在一种可能的实施方式中,所述方法还包括:
基于所述目标聚类结果对应的多个媒体内容,确定所述目标聚类结果对应的推送信息;
将所述推送信息发送给用户端。
第三方面,本公开实施例还提供一种信息展示的装置,所述装置包括:
展示模块,用于获取并展示目标内容信息榜单;所述目标内容信息榜单中包括所述目标内容对应的多个目标聚类结果的描述信息。
响应模块,用于响应针对任一所述目标聚类结果的描述信息的触发操作,获取并展示该目标聚类结果对应的详情信息;其中,所述详情信息包括与所述目标聚类结果对应的多个聚合维度,以及个所述聚合维度下的至少一个媒体内容。
第四方面,本公开实施例还提供一种信息展示的装置,所述装置包括:
获取模块,用于获取预设时间段内目标信息对应的媒体内容。
聚类模块,用于将所述媒体内容进行聚类,得到多个聚类结果。
第一确定模块,用于根据每个聚类结果下的媒体内容的交互数据,从所述聚类结果中选择多个目标聚类结果,并确定各所述目标聚类结果的描述信息。
第一生成模块,用于基于各所述目标聚类结果的描述信息,生成目标内容信息榜单。
第五方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
本公开实施例提供的一种信息展示的方法、装置及计算机存储介质,可以在用户端直接展示目标内容信息榜单,使得用户能够直接获取到预设时间段内热度较高的事件对应的描述信息,从而可以快速定位到热度较高的媒体内容,并可以通过点击热度较高的事件对应的描述信息,获取到该事件的详情信息,从而全面了解该热度较高的媒体内容,节约了用户获取信息的时间成本,提高了信息获取效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,目前,用户若想在海量信息中获取热度较高的媒体内容,则需要浏览大量媒体内容,才能全面了解到热度较高的媒体内容,花费的时间成本较高,查找效率较低。
基于上述研究,本公开实施例提供的一种信息展示的方法、装置及计算机存储介质,用户可以在用户端直接浏览到目标内容信息榜单,获取到预设时间段内热度较高的事件对应的描述信息,从而可以快速定位热度较高的媒体内容,并可以通过点击热度较高的事件对应的描述信息,获取到该事件的详情信息,从而可以全面了解到热度较高的媒体内容,节约了用户获取信息的时间成本,提高了信息获取效率。这里,目标内容信息榜单的生成过程可以包括:对预设时间段内获取到的目标信息对应的媒体内容进行聚类,确定每个媒体内容对应的聚类结果,并根据每个聚类结果下媒体内容的交互数据(比如展现量和发文数等),从聚类结果中选择多个目标聚类结果,并确定各目标聚类结果的描述信息,基于上述确定的各目标聚类结果的描述信息,生成目标内容信息榜单。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种信息展示的方法进行详细介绍,本公开实施例所提供的信息展示的方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该信息展示的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
实施例一
下面以执行主体为用户端为例对本公开实施例提供的信息展示的方法加以说明。
参照图1所示,为本公开实施例提供的一种信息展示的方法的流程图,所述方法包括步骤S101~S102,其中:
S101、获取并展示目标内容信息榜单。
其中,目标内容信息榜单中包括目标内容对应的多个目标聚类结果的描述信息;这里,描述信息可以为能够概括该热点事件的文字描述信息,比如可以为事件标题。
其中,目标内容可以包括全国热点、本地热点、兴趣内容等。
这里,目标聚类结果是通过对媒体内容进行聚类得到的;一个目标聚类结果表征一个热点事件。
这里,目标内容信息榜单可以为包含目标内容对应的多个热点事件的描述信息的热点菜单;目标内容信息榜单可以为全国热点榜单、本地热点榜单、兴趣榜单等。
这里,全国热点榜单中包含多个全国热点事件的描述信息;本地热点榜单中包含多个本地热点事件的描述信息;兴趣榜单中包含多个与用户兴趣匹配的热点事件的描述信息;这里,可以通过对用户历史浏览的媒体内容的类型进行分析,确定用户兴趣,从而确定与该用户兴趣对应的兴趣榜单;比如,当用户经常浏览法律类的媒体内容时,则确定用户兴趣为法律,则确定与该用户兴趣对应的兴趣榜单为法律相关内容的榜单。
在具体实施中,可以展示与用户属性信息匹配的多个目标内容信息榜单对应的榜单标识;响应于对任一所述榜单标识的触发操作,获取并展示该榜单标识对应的目标内容信息榜单。
其中,用户属性信息可以包括用户当前地址位置信息。
其中,触发操作可以为点击操作。
具体的,用户端将用户当前的地址位置信息发送给服务器,服务器在接收到用户当前地址位置信息后,可以基于该用户当前地址位置信息,确定与用户当前地址位置信息匹配的本地热点榜单,并基于该用户历史浏览的媒体内容的类型,确定用户兴趣,并确定与该用户兴趣对应的兴趣榜单;并将全国热点榜单、以及上述确定本地热点榜单和兴趣榜单发送给用户端,用户端在获取全国热点榜单、本地热点榜单、以及兴趣榜单后,可以将全国热点榜单、本地热点榜单、兴趣榜单分别对应的榜单标识展示给用户,并可以首先展示默认目标内容信息榜单下多个热点事件的描述信息;图2示出了默认目标内容信息榜单为全国热点榜单时的展示页面,以用户端为手机为例。
具体的,当用户点击上述展示的全国热点榜单、本地热点榜单、兴趣榜单分别对应的榜单标识中除默认目标内容信息榜单对应的榜单标识外的其他榜单标识后,会将用户点击的其他榜单标识对应的目标内容信息榜单下的多个热点事件的描述信息展示给用户。
比如,当用户端展示的与用户属性信息匹配的多个目标内容信息榜单对应的榜单标识分别为:全国热点榜单、北京热点榜单、娱乐榜单时,且默认目标内容信息榜单对应的榜单标识为全国热点榜单,当用户点击北京热点榜单后,会将北京热点榜单下的多个热点事件的描述信息展示给用户,具体的展示页面可以为如图3所示的页面,以用户端为手机为例。
在具体实施中,用户端基于步骤S101获取并展示目标内容信息榜单后,可以根据步骤S102根据用户对目标内容信息榜单中任一目标聚类结果的描述信息的触发操作,获取并展示用户选中的目标聚类结果的详情信息,具体描述如下所示。
S102、响应针对任一所述目标聚类结果的描述信息的触发操作,获取并展示该目标聚类结果对应的详情信息。
其中,详情信息包括与目标聚类结果对应的多个聚合维度、以及各聚合维度下的至少一个媒体内容。
其中,聚合维度可以包括事件相关百科、事件详情、事件当事人视角、事件评论中的一个或多个;这里,聚合维度可以是基于目标聚类结果的属性信息确定的。
其中,属性信息中可以包含热点事件的事件类型信息;这里,事件类型可以包括娱乐类型、社会类型、民生类型、法律类型等多种。
比如,当目标聚类结果的属性信息中包含的热点事件的事件类型信息为娱乐类型、且该热点事件涉及多个明星时,则该热点事件对应的聚合维度可以包含:每个明星的相关百科、该热点事件的事件详情、事件当事人视角、事件评论等。
具体的,用户点击用户端展示的目标内容信息榜单中的一个目标聚类结果的描述信息后,用户端响应用户针对目标聚类结果的描述信息的点击操作,从服务器获取该目标聚类结果的详情信息,并展示包含多个聚合维度的详情信息。
比如,若用户端展示的目标内容信息榜单为如图2所示的:全国热点榜单下的多个热点事件的描述信息、且全国热点1下包含事件详情、事件当事人视角、事件评论三个聚合维度,用户点击全国热点榜单下的全国热点1的描述信息后,用户端响应用户针对全国热点1的描述信息的点击操作,从服务器获取全国热点1的详情信息,并展示包含事件详情、事件当事人视角、事件评论三个聚合维度下的媒体内容,具体的全国热点1对应的详情信息可以为如图4所示,以用户端为手机为例。
在一种可能的实施方式中,用户端还可以接收服务器发送的目标聚类结果对应的推送信息,并在信息流中展示该目标聚类结果对应的推送信息;响应信息流中针对该推送信息的触发操作,展示该目标聚类结果对应的详情信息,或者展示目标聚类结果对应的目标内容信息榜单。
这里,目标聚类结果对应的推送信息可以为:根据前端工程设计(Front EndEngineering Design,FEED)技术,将目标聚类结果对应的多个媒体内容进行分析,得到能够以信息流的呈现方式呈现在页面上的聚合卡片;这里,聚合卡片中可以包括图片、文本等。
其中,信息流为FEED流,即将多媒体内容以流的呈现方式在页面上呈现。
具体的,服务器可以基于目标聚类结果对应的多媒体内容,生成目标聚类结果对应的推送信息,并将该推送信息发送给用户端;用户端接收服务器发送的目标聚类结果对应的推送信息,并将该目标聚类结果对应的推送信息以FEED流中的聚合卡片的形式(具体的目标聚类结果对应的推送信息的展示页面可以为如图5所示,以用户端为手机为例)展示给用户;用户点击该目标聚合结果对应的推送信息,用户端在接收到用户的点击操作后,可以展示该目标聚类结果对应的包含多个聚合维度的详情信息;也可以展示该目标聚类结果对应的目标内容信息榜单。
本公开实施例中,可以在用户端直接展示目标内容信息榜单,使得用户能够直接获取到预设时间段内热度较高的事件对应的描述信息,从而可以快速定位热度较高的媒体内容,并可以通过点击热度较高的事件对应的描述信息,获取到该事件的详情信息,从而可以全面了解到热度较高的媒体内容,节约了用户获取信息的时间成本,提高了信息获取效率。
实施例二
下面以执行主体为服务器为例对本公开实施例提供的信息展示的方法加以说明。
参见图6所示,为本公开实施例提供的一种信息展示的方法的流程图,所述方法包括步骤S601~S604,其中:
S601、获取预设时间段内目标信息对应的媒体内容。
这里,由于热点榜单页面中的每个热点事件具有时效性,可以每1min更新一次热点榜单页面的热点事件。其中,预设时间段可以为1min。
其中,媒体内容中可以为文本文档、图文混合文档、视频、音频、图片等。
在具体实施中,服务器可以获取1min内所有的媒体内容,并通过下述步骤S602~S604处理上述获取到的媒体内容。
S602、将媒体内容进行聚类,得到多个聚类结果。
其中,聚类结果中可以包括多个媒体内容。
在具体实施中,可以通过下述步骤S701~S704对媒体内容进行聚类,得到多个聚类结果,具体描述如下:
S701、获取任一待聚类的簇。
其中,待聚类的簇中可以包含至少一个媒体内容。这里,每个媒体内容开始为一个待聚类的簇;在已有聚类结果的基础上,新加入的媒体内容为一个待聚类的簇;除此之外,待聚类的簇还包括经过N次聚类后,待进行第N+1次聚类的簇,N为正整数。
S702、基于待聚类的簇对应的特征向量和/或关键词信息确定目标簇。
其中,关键词信息中可以包括至少一个关键词和每个关键词分别对应的权重。这里,可以通过切词确定待聚类的簇中每个媒体内容的关键词。
这里,若待聚类的簇中仅包含一个媒体内容时,基于深度学***均值,得到该待聚类的簇对应的特征向量,即该待聚类的簇对应的特征向量为每个媒体内容对应的特征向量总和的平均值。
在具体实施中,可以通过下述方法确定与待聚类的簇对应的目标簇,具体描述如下:基于该待聚类的簇对应的特征向量和/或关键词信息,召回与该待聚类的簇匹配的候选簇;计算该待聚类的簇与每个候选簇之间的向量相似度;若该待聚类的簇与每个候选簇之间的最大向量相似度大于设定相似度阈值,则将与该待聚类的簇之间的向量相似度最大的候选簇,作为目标簇。
其中,向量相似度可以用来指示:待聚类的簇对应的特征向量和候选簇对应的特征向量之间的相似程度;这里,计算向量相似度的方法可以为计算向量余弦值相似度,即计算待聚类的簇和候选簇之间的向量余弦值,得到的向量余弦值越小,说明夹角越小,即待聚类的簇和候选簇之间的距离越近,待聚类的簇和候选簇之间的向量相似度越高。
这里,可以通过以下方法基于待聚类的簇对应的特征向量和/或关键词信息,召回与该待聚类的簇匹配的候选簇,具体描述如下:采用目标搜索算法,查找与该待聚类的簇之间的搜索空间距离最近的预设数量的第一候选簇;和/或,基于该待聚类的簇对应的至少一个关键词,查找与该待聚类的簇具有相同关键词且该相同关键词的权重之和大于设定权重阈值的第二候选簇;将第一候选簇与第二候选簇进行合并及去重处理,得到与该待聚类的簇匹配的候选簇。
其中,目标搜索算法可以为分层可导航小世界图(Hierarchcal Navigable SmallWorld graphs,HNSW)算法;第一候选簇中可以包含一个或多个媒体内容;第二候选簇中也可以包含一个或多个媒体内容。
在具体实施中,基于HNSW算法,构建包含待聚类的簇的空间图,将待聚类的簇作为查找点,查找该空间图中与该待聚类的簇之间的搜索空间距离最近的簇,将预设数量的该空间图中与该待聚类的簇之间的搜索空间距离最近的簇作为第一候选簇;基于该待聚类的簇对应的每个关键词,查找与具有相同关键词的簇,并将具有相同关键词且关键词的权重之和大于预设阈值的簇作为第二候选簇;将上述第一候选簇和第二候选簇进行去重合并,得到与该待聚类的簇匹配的候选簇;对上述候选簇中每个媒体内容进行向量化,确定每个媒体内容对应的特征向量,将上述每个媒体内容对应的特征向量相加求平均值,确定该候选簇对应的特征向量;计算该待聚类的簇和候选簇之间的向量余弦值,基于上述向量余弦值,确定该待聚类的簇和候选簇之间的向量相似度;提取上述向量相似度中最大的向量相似度,并将上述最大的向量相似度与设定的相似度阈值进行比较,当最大的向量相似度大于设定的相似度阈值时,则将该最大的向量相似度对应的候选簇作为目标簇,也就是,可以将该待聚类的簇合并到该最大的向量相似度对应的候选簇中。
S703、将待聚类的簇与所述目标簇合并,得到合并后的簇。
在具体实施中,将待聚类的簇中的媒体内容合并到目标簇中,得到合并后的簇。
在具体实施中,一般初始的待聚类的簇、候选簇以及目标簇中均仅包含一个媒体内容,初始聚类则是将多个媒体内容聚合在一起,合并为一个类,具体描述如下:通过HNSW算法,确定与该待聚类的簇之间的搜索空间距离最近预设数量的第一候选簇;通过切词确定该待聚类的簇对应的关键词以及数据库中每个媒体内容对应的关键词,并基于预设的评价关键词(这里,预设的评价关键词可以为媒体内容对应的用户搜索关键词)和媒体内容之间的相关性的算法(比如,最佳匹配(Best Match 25,bm25)算法),确定每个媒体内容对应的至少一个关键词与该媒体内容之间的相关性分值;基于至少一个关键词分别与该媒体内容之间的相关性分值,确定该媒体内容对应的每个关键词的初始权重;基于该待聚类的簇对应的关键词,查找与该待聚类对应的关键词具有相同关键词的媒体内容,并基于每个媒体内容中每个关键词对应的初始权重,确定上述相同关键词在媒体内容中权重之和,当上述权重之和大于预设阈值时,确定与该待聚类的簇对应的关键词具有相同关键词的媒体内容为第二候选簇;将上述第一候选簇与第二候选簇进行合并去重处理,确定与该待聚类的簇匹配的多个候选簇;对该待聚类的簇中的媒体内容和每个候选簇中的媒体内容进行向量化,得到该待聚类的簇和每个候选簇分别对应的特征向量;基于上述待聚类的簇和每个候选簇分别对应的特征向量,计算该待聚类的簇和每个候选簇之间的向量余弦值,确定最小的向量余弦值(即最大的向量相似度)对应的候选簇,当该最大的特征相似度大于预设相似度阈值时,则将该待聚类的簇中的媒体内容与该候选簇中的媒体内容合并,得到合并后的簇。
示例性地,数据库中存储的簇仅包含一个媒体内容,且通过切词确定待聚类的簇中的媒体内容对应的关键词为四大名著、水浒传、三国演义、红楼梦、西游记,根据上述关键词确定簇中具有相同关键词的媒体内容为媒体内容1(通过切词确定该媒体内容1对应的关键词为水浒传、三国演义、红楼梦、影视、文学)和媒体内容2(通过切词确定该媒体内容1对应的关键词为四大名著、文学);根据bm25算法,确定媒体内容1中关键词:水浒传、三国演义、红楼梦对应的权重之和为60%、媒体内容2中关键词:四大名著对应的权重为50%、以及设定权重阈值为50%,确定与该待聚类的簇具有相同关键词且相同关键词的权重之和大于设定权重阈值的媒体内容1作为第二候选簇;通过HNSW算法,确定与该待聚类的簇之间的搜索空间距离最近预设数量的第一候选簇为媒体内容1和媒体内容3;将上述第一候选簇(即媒体内容1、媒体内容3)和第二候选簇(即媒体内容1)进行合并去重处理,确定与当该待聚类的簇匹配的候选簇为媒体内容1、媒体内容3;对该待聚类的簇中的媒体内容、媒体内容1、媒体内容3分别进行向量化,得到该待聚类的簇中的媒体内容、媒体内容1、媒体内容3分别对应的特征向量,通过计算该待聚类的簇中的媒体内容、与媒体内容1、媒体内容3分别对应的向量余弦值,得到该待聚类的簇中的媒体内容与媒体内容1的向量相似度为80%、该待聚类的簇中的媒体内容与媒体内容3的向量相似度为30%;由于最大的向量相似度80%大于设定相似度阈值50%,则确定媒体内容1为目标簇;将该待聚类的簇中的媒体内容与媒体内容1进行合并,得到合并后的簇。
在具体实施中,在得到合并后的簇后,可以通过下述方法确定该合并后的簇对应的特征向量,具体描述如下:基于待聚类的簇和目标簇分别对应的特征向量,确定合并后的簇对应的特征向量。
具体的,可以通过计算待聚类的簇和目标簇分别对应的特征向量的平均特征向量,将该平均特征向量作为合并后的簇对应的特征向量,具体描述如下:对待聚类的簇中每个媒体内容进行向量化,并对目标簇中每个媒体内容进行向量化,确定该待聚类的簇和目标簇中每个媒体内容对应的特征向量,将上述每个媒体内容对应的特征向量相加并求平均值,确定合并后的簇对应的特征向量。
在具体实施中,在得到合并后的簇后,可以通过下述方法确定该合并后的簇对应的关键词信息,具体描述如下:基于待聚类的簇和目标簇分别对应的关键词信息,确定合并后的簇对应的关键词信息。
其中,关键词信息中可以包括至少一个关键词以及每个关键词对应的权重。
这里,可以通过切词的方法,确定当前待聚类的簇对应的关键词,并确定目标簇对应的关键词,将上述当前待聚类的簇对应的关键词和目标簇对应的关键词进行关键词去重合并,确定该合并后的簇对应的关键词。
这里,可以针对合并后的簇对应的每个关键词,基于该关键词在待聚类的簇中的第一权重,以及该关键词在目标簇中的第二权重和该关键词在目标簇中的逆文档频次,确定该关键词的权重因子;基于每个关键词对应的权重因子,确定该关键词在合并后的簇中的权重。
其中,可以通过逆文档频率(Inverse Document Frequency,IDF)算法,通过公式:IDF(关键词)=log{(目标簇中媒体内容总数量)/(关键词出现过的媒体内容的数量+1)},计算得到每个关键词在目标簇中对应的逆文档频次;并根据公式:权重因子(关键词)=第一权重(关键词)+第二权重(关键词)*IDF(关键词),确定每个关键词对应的权重因子。
其中,一般初始的待聚类的簇、以及目标簇中仅包含一个媒体内容,因此初始的待聚类的簇中的每个关键词对应的第一权重为待聚类的簇中的媒体内容对应的关键词在该媒体内容中的初始权重,且每个关键词在目标簇中的第二权重为目标簇中的媒体内容对应的关键词在该媒体内容中的初始权重。
这里,可以根据以下步骤确定媒体内容中对应的每个关键词在该媒体内容中的初始权重,具体描述如下:基于预设的评价关键词和媒体内容之间的相关性的算法(比如:最佳匹配(Best Match 25,bm25)算法),确定该媒体内容对应的至少一个关键词分别与该媒体内容之间的相关性分值;基于至少一个关键词分别与该媒体内容之间的相关性分值,确定该媒体内容对应的每个关键词的初始权重。
其中,预设的评价关键词可以为该媒体内容标题对应的关键词,也可以为数据库中存储的该媒体内容对应的用户搜索关键词。
示例性的,以待聚类的簇包含一个媒体内容为例,通过切词确定该待聚类的簇中的媒体内容对应的关键词包括:水浒传、三国演义、文学,且基于上述步骤S702确定的目标簇对应的关键词包括:水浒传、文学;根据bm25算法,确定该待聚类的簇中的媒体内容对应的关键词:水浒传、三国演义、文学分别对应的初始权重为33.3%、33.3%、33.3%;确定目标簇对应的关键词:水浒传、文学分别对应的初始权重为50%、50%;则合并后的簇对应的关键词包括水浒传、三国演义、文学;则合并后的簇中关键词“水浒传”对应的第一权重为33.3%,第二权重为50%,逆文档频次为IDF(水浒传)=log(1/2)=-0.3,则根据公式:权重因子(关键词)=第一权重(关键词)+第二权重(关键词)*IDF(关键词),确定关键词“水浒传”对应的权重因子为18.3%;合并后的簇中关键词“三国演义”对应的第一权重为33.3%,第二权重为0%,逆文档频次为IDF(水浒传)=log(1/1)=0,则根据公式:权重因子(关键词)=第一权重(关键词)+第二权重(关键词)*IDF(关键词),确定关键词“水浒传”对应的权重因子为33.3%;合并后的簇中关键词“文学”对应的第一权重为33.3%,第二权重为50%,逆文档频次为IDF(水浒传)=log(1/2)=-0.3,则根据公式权重因子(关键词)=第一权重(关键词)+第二权重(关键词)*IDF(关键词),确定关键词“水浒传”对应的权重因子为18.3%;则关键词“水浒传”在合并后的簇中的权重为18.3%、关键词“三国演义”在合并后的簇中的权重为33.3%、关键词“文学”在合并后的簇中的权重为18.3%。
S704、返回所述获取任一待聚类的簇的步骤,直到所有的簇之间不能合并为止,将所述所有簇作为所述多个聚类结果。
在具体实施中,将待聚类的簇与目标簇合并之后,则由于合并后的簇对应的特征向量以及关键词信息均发生了变化,则判断当前合并后的簇与数据库中的其他簇是否可以合并,若可以合并,则继续根据步骤S702~S703,对合并后的簇进行合并,直到数据库中所有的簇不能合并为止,将聚类后的簇作为事件。
这里,在获取到预设时间段内(如:最近1min内)目标信息的媒体内容后,可以根据上述聚类算法S701~S704,将表征同一事件的媒体内容进行聚类,确定每个媒体内容对应的事件之后,则执行下述步骤S603。
S603、根据每个聚类结果下的媒体内容的交互数据,从聚类结果中选择多个目标聚类结果,并确定各目标聚类结果的描述信息。
其中,交互数据可以包括聚类结果下媒体内容对应的媒体内容浏览用户的第一交互数据和媒体内容发布用户的第二交互数据。
这里,媒体内容浏览用户的第一交互数据可以包括:媒体内容展现给用户的展现量,用户对媒体内容的点击量、评论量、转发量和点赞量等。
这里,媒体内容发布用户的第二交互数据为:该事件下对应的新增媒体内容数量;可以包括用户发布的文章数量、音频数量、视频数量等。
在具体实施中,可以根据每个聚类结果下的媒体内容对应的交互数据,确定每个聚类结果对应的至少一种热度值;按照每个聚类结果对应的至少一种热度值,从聚类结果中选择目标聚类结果。
在具体实施中,针对每个聚类结果,可以基于该聚类结果在预设时间段内的多个子时间段分别对应的媒体内容浏览用户的第一交互数据和媒体内容发布用户的第二交互数据,确定该聚类结果对应的至少一种热度值。
这里,预设时间段可以为30min,可以将预设时间段分为3个子时间段,则每个子时间段分别对应的时间段为10min;其中,媒体内容浏览用户的第一交互数据可以包括:该聚类结果下对应的媒体内容在相应的子时间段被推送给用户的次数、用户点击该聚类结果下对应的媒体内容的次数、用户评论该聚类结果下对应的媒体内容的次数、用户点赞该聚类结果下对应的媒体内容的次数、用户转发该聚类结果下对应的媒体内容的次数等;媒体内容发布用户的第二交互数据为该聚类结果在相应的子时间段新增的媒体内容数量,这里,新增的媒体内容可以为文本文档媒体内容、图文媒体内容、音频媒体内容、视频媒体内容等。
这里,所述至少一种热度值可以包括两种热度值,其中不同种热度值对应的热度值计算方法不同。
在具体实施中,可以通过以下方法计算一种热度值,具体描述如下:根据多个子时间段对应的每一对相邻子时间段中,前一子时间段对应的第一交互数据与后一子时间段对应的第一交互数据之间的第一交互数据差值,确定该相邻子时间段对应的第一交互数据差值因子;并根据每对相邻子时间段对应的第一交互数据差值因子和第一交互数据差值,确定第一热度值;以及,根据多个子时间段对应的每一对相邻子时间段中,前一子时间段对应的第二交互数据与后一子时间段的第二交互数据之间的第二交互数据差值,确定该相邻子时间段对应的第二交互数据差值因子;并根据每对相邻子时间段对应的第二交互数据差值因子和所述第二交互数据差值,确定第二热度值;基于上述确定的第一热度值和第二热度值,确定该聚类结果对应的一种热度值。
其中,不同对相邻子时间段对应的第一交互数据差值因子和第二交互数据差值因子不同,距离当前时间越近的相邻子时间段对应的第一交互数据差值因子的绝对值和第二交互数据差值因子的绝对值越大。
具体的,将预设子时间段划分为4个子时间段,分别为第一子时间段、第二子时间段、第三子时间段、第四子时间段,且上述4个子时间段依次远离当前时间(也就是,第一子时间段离当前时间最近;第四子时间段离当前时间最远),计算每两个相邻的子时间段中前一子时间段的第一交互数据与后一子时间段第一交互数据之间的第一交互数据差值;根据该第一交互数据差值对应的子时间段,确定该第一交互数据差值对应的第一交互数据差值因子;根据公式:第一交互数据差值因子*if(前一子时间段的第一交互数据-后一子时间段的第一交互数据>0,1,-1)*log(1+abs(前一子时间段的第一交互数据-后一子时间段的第一交互数据)/1000),将每对相邻子时间段对应的第一交互数据差值因子和第一交互数据差值带入上述公式运算,根据公式:第一交互数据差值因子1*if(第一子时间段的第一交互数据-第二子时间段的第一交互数据>0,1,-1)*log(1+abs(第一子时间段的第一交互数据-第二子时间段的第一交互数据)/1000)+第一交互数据差值因子2*if(第二子时间段的第一交互数据-第三子时间段的第一交互数据>0,1,-1)*log(1+abs(第二子时间段的第一交互数据-第三子时间段的第一交互数据)/1000)+第一交互数据差值因子3*if(第三子时间段的第一交互数据-第四子时间段的第一交互数据>0,1,-1)*log(1+abs(第三子时间段的第一交互数据-第四子时间段的第一交互数据)/1000),计算得到第一热度值;
然后,根据上述4个子时间段对应的每一对相邻子时间中,每两个相邻的子时间段中前一子时间段的第二交互数据与后一子时间段第二交互数据之间的第二交互数据差值,根据该第二交互数据差值对应的子时间段,确定该第二交互数据差值对应的第二交互数据差值因子;根据公式:第二交互数据差值因子*if(前一子时间段的第二交互数据-后一子时间段的第二交互数据>0,1,-1)*log(1+abs(前一子时间段的第二交互数据-后一子时间段的第二交互数据)/10),将每对相邻子时间段对应的第二交互数据差值因子和第二交互数据差值带入上述公式运算,根据公式:第二交互数据差值因子1*if(第一子时间段的第二交互数据-第二子时间段的第二交互数据>0,1,-1)*log(1+abs(第一子时间段的第二交互数据-第二子时间段的第二交互数据)/10)+第二交互数据差值因子2*if(第二子时间段的第二交互数据-第三子时间段的第二交互数据>0,1,-1)*log(1+abs(第二子时间段的第二交互数据-第三子时间段的第二交互数据)/10)+第二交互数据差值因子3*if(第三子时间段的第二交互数据-第四子时间段的第二交互数据>0,1,-1)*log(1+abs(第三子时间段的第二交互数据-第四子时间段的第二交互数据)/10),计算得到第二热度值;
然后,再根据上述计算得到的第一热度值和第二热度值分别对应的热度值系数、以及公式:热度值=第一热度值系数*第一热度值+第二热度值系数*第二热度值,确定该聚类结果对应的一种热度值。
其中,公式:if(前一子时间段的第一交互数据-后一子时间段的第一交互数据>0,1,-1)可以用来指示预设的子时间段内第一交互数据的升降变化,当前一子时间段的第一交互数据与后一子时间段的第一交互数据之间的第一交互数据差值为正数时,则表示第一交互数据持续上升,第一热度值为正值;当前一子时间段的第一交互数据与后一子时间段的第一交互数据之间的第一交互数据差值为负数时,则表示第一交互数据持续下降,第一热度值为负值。
其中,公式:if(前一子时间段的第二交互数据-后一子时间段的第二交互数据>0,1,-1)可以用来指示预设的子时间段内第二交互数据的升降变化,当前一子时间段的第二交互数据与后一子时间段的第二交互数据之间的第二交互数据差值为正数时,则表示第二交互数据持续上升,第二热度值为正值;当前一子时间段的第二交互数据与后一子时间段的第二交互数据之间的第二交互数据差值为负数时,则表示第二交互数据持续下降,第二热度值为负值。
其中,abs(前一子时间段的第一交互数据-后一子时间段的第一交互数据)表示前一子时间段的第一交互数据与后一子时间段的第一交互数据之间的第一交互数据差值的绝对值;abs(前一子时间段的第二交互数据-后一子时间段的第二交互数据)表示前一子时间段的第二交互数据与后一子时间段的第二交互数据之间的第二交互数据差值的绝对值。
这里,可以根据历史实践统计数据,确定第一交互数据差值因子1可以为1、第一交互数据差值因子2可以为0.77、第一交互数据差值因子3可以为0.33;第二交互数据差值因子1可以为1、第二交互数据差值因子2可以为0.77、第二交互数据差值因子3可以为0.33;第一热度值系数可以为0.5,第二热度值系数可以为2。
在具体实施中,可以通过以下方法计算另一种热度值,具体描述如下:根据该聚类结果在多个子时间段中最近N个子时间段的第一交互数据总和,与最近的第N个子时间段之前的预设数量个子时间段的第一交互数据总和之间的差值,确定展现系数(其中,N为正整数);根据确定的展现系数,和多个子时间段对应的总第一交互数据,确定第三热度值;根据该聚类结果在多个子时间段中的总第二交互数据和预设发文系数,确定该聚类结果对应的第四热度值;基于第三热度值和所述第四热度值,确定该聚类结果对应的一种热度值。
具体的,将预设子时间段划分为4个子时间段,分别为第一子时间段、第二子时间段、第三子时间段、第四子时间段,且上述4个子时间段依次远离当前时间(也就是,第一子时间段离当前时间最近;第四子时间段离当前时间最远),计算每两个相邻的子时间段中最近两个子时间段(即第一子时间段、第二子时间段)的第一交互数据总和与之间两个子时间段(即第三子时间段、第四子时间段)第一交互数据总和之间的第一交互数据差值;根据该第一交互数据差值是否大于0,确定该第一交互数据差值对应的展现系数;根据公式:log(1+(第一子时间段的第一交互数据+第二子时间段的第一交互数据+第三子时间段的第一交互数据+第四子时间段的第一交互数据)/10000)*if((第一子时间段的第一交互数据+第二子时间段的第一交互数据)-(第三子时间段的第一交互数据+第四子时间段的第一交互数据)>0,1.2,0.8),确定第三热度值;根据公式:预设发文系数*(log(1+第一子时间段的第二交互数据/10)+log(1+第二子时间段的第二交互数据/10)+log(1+第三子时间段的第二交互数据/10)+log(1+第四子时间段的第二交互数据/10)),确定该聚类结果对应的第四热度值;将第三热度值与第四热度值相加,确定该聚类结果对应的一种热度值。
其中,公式:if((第一子时间段的第一交互数据+第二子时间段的第一交互数据)-(第三子时间段的第一交互数据+第四子时间段的第一交互数据)>0,1.2,0.8)可以表示当第一子时间段的第一交互数据与第二子时间段的第一交互数据之间的第一交互数据之和比第三子时间段的第一交互数据与第四子时间段的第一交互数据之间的第一交互数据之和大,则展现系数为1.2;当第一子时间段的第一交互数据与第二子时间段的第一交互数据之间的第一交互数据之和比第三子时间段的第一交互数据与第四子时间段的第一交互数据之间的第一交互数据之和小,则展现系数为0.8;这里,预设发文系数可以为0.5。
在具体实施中,可以在通过上述方法计算得到每个聚类结果对应的至少一种热度值后,根据预设的热度值,筛选出符合预设的热度值的聚类结果,选取符合预设热度值的多个聚类结果;服务器可以根据上述每个聚类结果对应两种热度值由高到低的顺序,将上述符合预设热度值的多个聚类结果进行交叉排序;按照交叉排序结果,选择前预设数量个聚类结果作为所述多个目标聚类结果。
其中,在交叉排序中,同一聚类结果只出现在一个排序位置;按照第一种热度值排序后的一个第一聚类结果,与按照第二种热度值排序后的一个第二聚类结果相邻,并且不同的第一聚类结果在所述交叉排序结果中的先后顺序与按照第一种热度值排序后的先后顺序相同,不同的第二聚类结果在所述交叉排序结果中的先后顺序与按照第二种热度值排序后的先后顺序相同。
示例性的,将聚类结果a、聚类结果b、聚类结果c、和聚类结果d进行交叉排序,具体描述如下:聚类结果a对应的两种热度值分别为7、5(这里,热度值取值范围为0-10);聚类结果b对应的两种热度值分别为5、7;聚类结果c对应的两种热度值分别为8、2;聚类结果d对应的两种热度值分别为9、8;将上述4个聚类结果按照第一种热度值进行排序得到聚类结果d、聚类结果c、聚类结果a、聚类结果b;将上述将上述4个聚类结果按照第二种热度值进行排序得到聚类结果d、聚类结果b、聚类结果a、聚类结果c,根据按照第一种热度值排序后的一个第一聚类结果与按照第二种热度值排序后的一个第二聚类结果相邻,确定交叉排序结果为聚类结果d、聚类结果b、聚类结果c、聚类结果a;若当前确定能够上榜的聚类结果的数量为3个,则根据上述确定的交叉排序结果,确定目标聚类结果为聚类结果d、聚类结果b、聚类结果c,且上榜时的排列顺序为聚类结果d、聚类结果b、聚类结果c。
在具体实施中,从聚类结果中选择多个目标聚类结果后,可以人工为每个目标聚类结果配置描述信息,这里,运营人员可以根据目标聚类结果中每个媒体内容的标题信息,为目标聚类结果配置对应的描述信息;也可以自动为每个目标聚类结果配置描述信息,具体描述如下:针对每个目标聚类结果,基于该目标聚类结果对应的多个媒体内容的属性信息,从多个媒体内容中选取目标媒体内容;提取目标媒体内容中的标题信息作为描述信息,和/或,提取目标媒体的关键词信息,将所述关键词信息按照语言逻辑顺序拼接形成所述描述信息。
其中,属性信息可以包括用户交互数据、以及发布作者属性信息;其中,用户交互数据可以包括:用户点击量、用户点赞量、用户评论量、用户转发量;发布作者属性信息可以包括:发布作者权威性、发布作者影响力等。
具体的,在自动为每个目标聚类结果配置描述信息时,可以针对每个目标聚类结果对应的多个媒体内容的用户交互数据、以及发布作者属性信息,选择用户交互数据较大、且发布作者权威性较高、发布作者影响力较大的媒体内容作为目标媒体内容;可以将该目标媒体内容的标题信息作为该目标聚类结果的描述信息;也可以提取该目标媒体内容的关键词信息,对提取的关键词信息进行分析,提取能够表征该目标媒体内容描述的事件信息的目标关键词信息,按照语言逻辑顺序对目标关键词信息进行拼接,形成目标聚类结果的描述信息。
S604、基于各目标聚类结果的描述信息,生成目标内容信息榜单。
其中,目标内容信息榜单中包括目标内容对应的多个目标聚类结果的描述信息;这里,描述信息可以为能够概括该热点事件的文字描述信息,比如,可以为事件标题。
这里,目标内容信息榜单可以为包含目标内容对应的多个热点事件的描述信息的热点菜单;目标内容信息榜单可以为全国热点榜单、本地热点榜单、兴趣榜单等。
在具体实施中,在确定各目标聚类结果以及各目标聚类结果在上榜时的排列顺序位后,则获取上述各目标聚类结果分别对应的描述信息,基于获取到的上述各目标聚类结果分别对应的描述信息,按照上述各目标聚类结果在上榜时的排列顺序位,生成包含多个目标聚类结果对应的描述信息的目标内容信息榜单。
本公开实施例中,对预设时间段内获取到的目标信息对应的媒体内容进行聚类,确定每个媒体内容对应的聚类结果,并根据每个聚类结果下媒体内容的交互数据(比如展现量和发文数等),从聚类结果中选择多个目标聚类结果,并确定各目标聚类结果的描述信息,基于上述确定的各目标聚类结果的描述信息,生成目标内容信息榜单,这样,用户可以在用户端直接浏览到目标内容信息榜单,获取到预设时间段内热度较高的事件对应的描述信息,从而可以快速定位到热度较高的媒体内容,并可以通过点击热度较高的事件对应的描述信息,获取到该事件的详情信息,从而可以全面了解到热度较高的媒体内容,从而节约了用户获取信息的时间成本,提高了信息获取效率。
在一种可能的实施方式中,服务器还可以针对每个目标聚类结果,根据目标聚类结果包括的多个媒体内容,确定该目标聚类结果的属性信息;基于该目标聚类结果的属性信息,确定多个聚合维度;基于多个聚合维度,以及该目标聚类结果对应的多个媒体内容,生成该目标聚类结果对应的聚合媒体内容,将聚合媒体内容作为该目标聚类结果的描述信息对应的详情信息。
其中,属性信息中可以包含该目标聚类结果对应的热点事件的事件类型信息;这里,事件类型可以包括娱乐类型、社会类型、民生类型、法律类型等多种类型。
其中,聚合维度可以包括事件相关百科、事件详情、事件当事人视角、事件评论中的一个或多个。
具体的,服务器获取每个目标聚类结果中包括的多个媒体内容,并对获取到的多个媒体内容分别进行分析,确定每个多媒体内容对应的事件类型;基于每个多媒体内容对应的事件类型,确定该目标聚类结果对应的事件类型;基于该目标聚类结果对应的事件类型,确定该目标聚类结果对应的多个聚合维度;并在确定该目标聚类结果对应的多个聚合维度后,可以基于该聚合维度,以及该目标聚类结果对应的多个媒体内容,将多个媒体内容进行聚合,将属于同一聚合维度下的媒体内容聚合在一起,作为该目标聚类结果对应的聚合媒体内容,将聚合媒体内容作为该目标聚类结果的描述信息对应的详情信息。
在一种可能的实施方式中,服务器还可以基于各目标聚类结果的描述信息,确定多个榜单维度下每个榜单维度下的目标内容信息榜单。
具体的,服务器可以通过对目标聚类结果的描述信息、以及目标聚类结果对应的多个媒体内容进行分析,确定该目标聚类结果对应的事件类型,根据该事件类型,确定目标聚类结果所属的榜单维度,从而生成每个榜单维度下的目标内容信息榜单。
这里,事件类型可以包括:国际类型、全国类型、地方类型、娱乐类型、法律类型、财经类型等多个类型。
其中,榜单维度可以包括全国热点维度、本地热点维度、兴趣内容维度等多种维度。
这里,全国热点榜单中包含多个全国热点事件的描述信息;本地热点榜单中包含多个本地热点事件的描述信息;兴趣榜单中包含多个与用户兴趣匹配的热点事件的描述信息;这里,可以通过对用户历史浏览的媒体内容的类型进行分析,确定用户兴趣,从而确定与该用户兴趣对应的兴趣榜单;比如,当用户经常浏览法律类的媒体内容时,则确定用户兴趣为法律,则确定与该用户兴趣对应的兴趣榜单为法律相关内容的榜单。
在一种可能的实施方式中,服务器还可以根据前端工程设计(Front EndEngineering Design,FEED)技术,将目标聚类结果对应的多个媒体内容进行分析,得到能够以信息流的呈现方式呈现在页面上的聚合卡片,将该聚合卡片作为目标聚类结果对应的推送信息,并将该推送信息发送给用户端。
这里,聚合卡片中可以包括图片、文本等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与信息展示的方法对应的信息展示的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述信息展示的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例三
参照图8所示,为本公开实施例提供的一种信息展示的装置800的结构示意图,所述装置包括:展示模块801,用于获取并展示目标内容信息榜单;所述目标内容信息榜单中包括所述目标内容对应的多个目标聚类结果的描述信息。
响应模块802,用于响应针对任一所述目标聚类结果的描述信息的触发操作,获取并展示该目标聚类结果对应的详情信息;其中,所述详情信息包括与所述目标聚类结果对应的多个聚合维度,以及个所述聚合维度下的至少一个媒体内容。
在一种可能的实施方式中,所述聚合维度包括事件相关百科、事件详情、事件当事人视角、事件评论中的一个或多个;所述聚合维度是基于所述目标聚类结果的属性信息确定的。
在一种可能的实施方式中,展示模块801,还用于在信息流中展示所述目标聚类结果对应的推送信息;其中,所述推送信息是基于所述目标聚类结果对应的多个媒体内容得到的。
响应模块802,还用于响应信息流中针对所述推送信息的触发操作,展示所述目标聚类结果对应的详情信息,或者展示所述目标聚类结果对应的目标内容信息榜单。
在一种可能的实施方式中,展示模块801,具体用于展示与用户属性信息匹配的多个目标内容信息榜单对应的榜单标识;响应于对任一所述榜单标识的触发操作,获取并展示该榜单标识对应的目标内容信息榜单。
本公开实施例,可以在用户端直接展示目标内容信息榜单,使得用户能够直接获取到预设时间段内热度较高的事件对应的描述信息,从而可以快速定位到热度较高的媒体内容,并可以通过点击热度较高的事件对应的描述信息,获取到该事件的详情信息,从而可以全面了解到热度较高的媒体内容,从而节约了用户获取信息的时间成本,提高了信息获取效率。
实施例四
参照图9所示,为本公开实施例提供的一种信息展示的装置900的结构示意图,所述装置包括:获取模块901、聚类模块902、第一确定模块903、和第一生成模块904,其中:
获取模块901,用于获取预设时间段内目标信息对应的媒体内容。
聚类模块902,用于将所述媒体内容进行聚类,得到多个聚类结果。
第一确定模块903,用于根据每个聚类结果下的媒体内容的交互数据,从所述聚类结果中选择多个目标聚类结果,并确定各所述目标聚类结果的描述信息。
第一生成模块904,用于基于各所述目标聚类结果的描述信息,生成目标内容信息榜单。
在一种可能的实施方式中,聚类模块902,具体用于获取任一待聚类的簇;所述待聚类的簇中包含至少一个媒体内容;基于所述待聚类的簇对应的特征向量和/或关键词信息确定目标簇;所述目标簇为其它待聚类的簇或已聚类的簇;将所述待聚类的簇与所述目标簇合并,得到合并后的簇;返回所述获取任一待聚类的簇的步骤,直到所有簇之间不能合并为止,将所述所有簇作为所述多个聚类结果。
在一种可能的实施方式中,聚类模块902,具体用于基于所述待聚类的簇对应的特征向量和/或关键词信息,召回与所述待聚类的簇匹配的候选簇;计算所述待聚类的簇与每个所述候选簇之间的向量相似度;若所述待聚类的簇与每个所述候选簇之间的最大向量相似度大于设定相似度阈值,则将与所述待聚类的簇之间的向量相似度最大的候选簇,作为所述目标簇。
在一种可能的实施方式中,聚类模块902,具体用于采用目标搜索算法,查找与所述待聚类的簇之间的搜索空间距离小于设定距离阈值的预设数量的第一候选簇;和/或,基于所述待聚类的簇对应的至少一个关键词,查找与所述待聚类的簇具有相同关键词的第二候选簇,所述第二候选簇与所述待聚类的簇之间的相同关键词的权重之和大于设定权重阈值。
在一种可能的实施方式中,聚类模块902,具体用于将所述第一候选簇与所述第二候选簇进行合并及去重处理,得到与所述待聚类的簇匹配的候选簇。
在一种可能的实施方式中,聚类模块902,具体用于基于所述待聚类的簇和所述目标簇分别对应的特征向量,确定合并后的簇对应的特征向量;和/或,基于所述待聚类的簇和所述目标簇分别对应的关键词信息,确定合并后的簇对应的关键词信息。
在一种可能的实施方式中,聚类模块902,具体用于计算所述待聚类的簇和所述目标簇分别对应的特征向量的平均特征向量,将该平均特征向量作为合并后的簇对应的特征向量。
在一种可能的实施方式中,所述关键词信息中包括关键词的权重;聚类模块902,还具体用于针对所述合并后的簇对应的每个关键词,基于该关键词在所述待聚类的簇中的第一权重,以及该关键词在所述目标簇中的第二权重和该关键词在所述目标簇中的逆文档频次,确定该关键词的权重因子;基于每个关键词对应的权重因子,确定该关键词在所述合并后的簇中的权重。
在一种可能的实施方式中,聚类模块902,具体用于基于预设的相关性算法,确定所述关键词的所属的待聚类的簇对应的至少一个关键词分别与该簇的媒体内容之间的相关性分值;基于所述相关性分值,确定所述关键词的初始权重。
在一种可能的实施方式中,第一确定模块903,具体用于根据每个聚类结果下的媒体内容的交互数据,确定每个聚类结果对应的至少一种热度值;按照每个聚类结果对应的至少一种热度值,从所述聚类结果中选择目标聚类结果。
在一种可能的实施方式中,第一确定模块903,具体用于针对每个目标聚类结果,基于所述目标聚类结果对应的多个媒体内容的属性信息,从所述多个媒体内容中选取目标媒体内容;提取目标媒体内容中的标题信息作为所述描述信息,和/或,提取所述目标媒体内容的关键词信息,将所述关键词信息按照语言逻辑顺序拼接形成所述描述信息。
在一种可能的实施方式中,所述至少一种热度值包括两种热度值,其中不同种热度值对应的计算方法不同;第一确定模块903,具体用于按照每个聚类结果对应的两种热度值由高到低的顺序,将多个聚类结果进行交叉排序;按照交叉排序结果,选择前预设数量个聚类结果作为所述多个目标聚类结果。
在一种可能的实施方式中,第一确定模块903,具体用于针对每个聚类结果,基于该聚类结果在预设时间段内的多个子时间段分别对应的媒体内容浏览用户的第一交互数据和媒体内容发布用户的第二交互数据,确定该聚类结果对应的至少一种热度值。
在一种可能的实施方式中,第一确定模块903,具体用于根据所述多个子时间段对应的每一对相邻子时间段中,前一子时间段对应的第一交互数据与后一子时间段对应的第一交互数据之间的第一交互数据差值,确定该相邻子时间段对应的第一交互数据差值因子;并根据每对相邻子时间段对应的第一交互数据差值因子和所述第一交互数据差值,确定第一热度值;以及,根据所述多个子时间段对应的每一对相邻子时间段中,前一子时间段对应的第二交互数据与后一子时间段的第二交互数据之间的第二交互数据差值,确定该相邻子时间段对应的第二交互数据差值因子;并根据每对相邻子时间段对应的第二交互数据差值因子和所述第二交互数据差值,确定第二热度值;基于所述第一热度值和所述第二热度值,确定该聚类结果对应的一种热度值。
在一种可能的实施方式中,不同对相邻子时间段对应的第一交互数据差值因子和第二交互数据差值因子不同,距离当前时间越近的相邻子时间段对应的第一交互数据差值因子的绝对值和第二交互数据差值因子的绝对值越大。
在一种可能的实施方式中,第一确定模块903,具体用于根据该聚类结果在所述多个子时间段中最近N个子时间段的第一交互数据总和,与最近的第N个子时间段之前的预设数量个子时间段的第一交互数据总和之间的差值,确定展现系数;根据确定的展现系数,和所述多个子时间段对应的总第一交互数据,确定第三热度值;根据该聚类结果在所述多个子时间段中的总第二交互数据和预设发文系数,确定该聚类结果对应的第四热度值;基于所述第三热度值和所述第四热度值,确定该聚类结果对应的一种热度值。
在一种可能的实施方式中,所述装置还包括:
第二确定模块,用于针对每个所述目标聚类结果,根据所述目标聚类结果包括的多媒体内容,确定所述目标聚类结果的属性信息。
第三确定模块,用于基于所述目标聚类结果的属性信息,确定多个聚合维度。
第二生成模块,用于基于所述多个聚合维度,以及所述目标聚类结果对应的多个媒体内容,生成所述目标聚类结果对应的聚合媒体内容,将所述聚合媒体内容作为所述目标聚类结果的描述信息对应的详情信息。
在一种可能的实施方式中,所述第二生成模块,具体用于针对每个所述聚合维度,确定所述多个媒体内容中属于该聚合维度下的媒体内容;根据确定的属于每个所述聚合维度下的媒体内容,生成所述聚合媒体内容。
在一种可能的实施方式中,第一生成模块904,具体用于基于各所述目标聚类结果的描述信息,确定多个榜单维度下每个所述榜单维度下的目标内容信息榜单。
在一种可能的实施方式中,所述装置还包括:
第四确定模块,用于基于所述目标聚类结果对应的多个媒体内容,确定所述目标聚类结果对应的推送信息;
发送模块,用于将所述推送信息发送给用户端。
本公开实施例中,对预设时间段内获取到的目标信息对应的媒体内容进行聚类,确定每个媒体内容对应的聚类结果,并根据每个聚类结果下媒体内容的交互数据(比如展现量和发文数等),从聚类结果中选择多个目标聚类结果,并确定各目标聚类结果的描述信息,基于上述确定的各目标聚类结果的描述信息,生成目标内容信息榜单,这样,用户可以在用户端直接浏览到目标内容信息榜单,获取到预设时间段内热度较高的事件对应的描述信息,从而可以快速定位到热度较高的媒体内容,并可以通过点击热度较高的事件对应的描述信息,获取到该事件的详情信息,从而可以全面了解到热度较高的媒体内容,从而节约了用户获取信息的时间成本,提高了信息获取效率。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本申请实施例还提供了一种计算机设备。参照图10所示,为本申请实施例提供的计算机设备1000的结构示意图,包括处理器1001、存储器1002、和总线1003。其中,存储器1002用于存储执行指令,包括内存10021和外部存储器10022;这里的内存10021也称内存储器,用于暂时存放处理器1001中的运算数据,以及与硬盘等外部存储器10022交换的数据,处理器1001通过内存10021与外部存储器10022进行数据交换,当计算机设备1000运行时,处理器1001与存储器1002之间通过总线1003通信,使得处理器1001执行以下指令:
获取并展示目标内容信息榜单;所述目标内容信息榜单中包括所述目标内容对应的多个目标聚类结果的描述信息;响应针对任一所述目标聚类结果的描述信息的触发操作,获取并展示该目标聚类结果对应的详情信息;其中,所述详情信息包括与所述目标聚类结果对应的多个聚合维度,以及各所述聚合维度下的至少一个媒体内容。
或者,处理器1001执行以下指令:
获取预设时间段内目标信息对应的媒体内容;
将所述媒体内容进行聚类,得到多个聚类结果;
根据每个聚类结果下的媒体内容的交互数据,从所述聚类结果中选择多个目标聚类结果,并确定各所述目标聚类结果的描述信息;
基于各所述目标聚类结果的描述信息,生成目标内容信息榜单。
其中,处理器1001的具体处理流程可以参照上述方法实施例的记载,这里不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的信息展示的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的信息展示的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。