CN110019800B - 分发内容处理方法、装置、计算机设备和存储介质 - Google Patents

分发内容处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110019800B
CN110019800B CN201711244576.2A CN201711244576A CN110019800B CN 110019800 B CN110019800 B CN 110019800B CN 201711244576 A CN201711244576 A CN 201711244576A CN 110019800 B CN110019800 B CN 110019800B
Authority
CN
China
Prior art keywords
content
topic
theme
clustering
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711244576.2A
Other languages
English (en)
Other versions
CN110019800A (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711244576.2A priority Critical patent/CN110019800B/zh
Publication of CN110019800A publication Critical patent/CN110019800A/zh
Application granted granted Critical
Publication of CN110019800B publication Critical patent/CN110019800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种分发内容处理方法、装置、计算机设备和存储介质,该方法包括:分别确定各个待分发内容的特征向量;获取各聚类主题的质心的特征向量;比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;根据相似度比对结果,确定每个待分发内容所属的聚类主题;根据属于同一聚类主题的待分发内容生成主题聚合内容;根据所述主题聚合内容进行内容分发。本申请的方案提高了分发的内容的信息量。

Description

分发内容处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种分发内容处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的飞速发展,形形色色的资讯内容越来越丰富,各种内容分发平台应运而生,向用户分发内容(比如,自媒体发布平台向用户分发文章)。
传统方法主要是对用户建立用户画像,基于用户画像,向用户分发个性化的内容。然而,通常同一件或类似的事情往往会从不同角度进行描述,基于用户画像进行内容分发,就导致所分发的内容就会被用户画像所局限,使得用户看到的内容都是比较相像的、角度单一的内容,造成向用户分发的内容的信息量比较低。
发明内容
基于此,有必要针对传统方法存在向用户分发的内容的信息量比较低的问题,提供一种分发内容处理方法、装置、计算机设备和存储介质。
一种分发内容处理方法,所述方法包括:
分别确定各个待分发内容的特征向量;
获取各聚类主题的质心的特征向量;
比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;
根据相似度比对结果,确定每个待分发内容所属的聚类主题;
根据属于同一聚类主题的待分发内容生成主题聚合内容;
根据所述主题聚合内容进行内容分发。
一种分发内容处理装置,所述装置包括:
向量确定模块,用于分别确定各个待分发内容的特征向量;获取各聚类主题的质心的特征向量;
相似度比对模块,用于比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;
聚类主题确定模块,用于根据相似度比对结果,确定每个待分发内容所属的聚类主题;
聚合内容生成模块,用于根据属于同一聚类主题的待分发内容生成主题聚合内容;
内容分发模块,用于根据所述主题聚合内容进行内容分发。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
分别确定各个待分发内容的特征向量;
获取各聚类主题的质心的特征向量;
比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;
根据相似度比对结果,确定每个待分发内容所属的聚类主题;
根据属于同一聚类主题的待分发内容生成主题聚合内容;
根据所述主题聚合内容进行内容分发。
一种存储有计算机程序的存储介质,所述计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:
分别确定各个待分发内容的特征向量;
获取各聚类主题的质心的特征向量;
比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;
根据相似度比对结果,确定每个待分发内容所属的聚类主题;
根据属于同一聚类主题的待分发内容生成主题聚合内容;
根据所述主题聚合内容进行内容分发。
上述分发内容处理方法、装置、计算机设备和存储介质,通过将待分发内容的特征向量与各聚类主题的质心的特征向量进行相似度比对,对待分发内容进行主题聚类。根据属于同一聚类主题的待分发内容生成主题聚合内容,根据主题聚合内容进行内容分发。同一聚类主题下的待分发内容通常是针对该主题的不同角度的描述内容,因此,以主题聚合内容的形式进行内容分发,能够提高分发的内容的信息量。
一种分发内容处理方法,所述方法包括:
响应于所接收的主题聚合内容创建指令,生成创建入口;
获取在所述创建入口中输入的创建的聚类主题的属性信息和展示页面信息;
获取在所述聚类主题下设置的内容的信息;
根据在所述聚类主题下设置的内容的信息、所述聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
一种分发内容处理装置,所述装置包括:
创建入口生成模块,用于响应于所接收的主题聚合内容创建指令,生成创建入口;
获取模块,用于获取在所述创建入口中输入的创建的聚类主题的属性信息和展示页面信息;获取在所述聚类主题下设置的内容的信息;
主题创建模块,用于根据在所述聚类主题下设置的内容的信息、所述聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
响应于所接收的主题聚合内容创建指令,生成创建入口;
获取在所述创建入口中输入的创建的聚类主题的属性信息和展示页面信息;
获取在所述聚类主题下设置的内容的信息;
根据在所述聚类主题下设置的内容的信息、所述聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
一种存储有计算机程序的存储介质,所述计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:
响应于所接收的主题聚合内容创建指令,生成创建入口;
获取在所述创建入口中输入的创建的聚类主题的属性信息和展示页面信息;
获取在所述聚类主题下设置的内容的信息;
根据在所述聚类主题下设置的内容的信息、所述聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
上述分发内容处理方法、装置、计算机设备和存储介质,通过在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。自定义地创建主题聚合内容,将待分发内容以主题维度进行聚类,同一聚类主题下的待分发内容通常是针对该主题的不同角度的描述内容,因此,创建主题聚合内容,能够提高分发的内容的信息量。
一种分发内容处理方法,所述方法包括:
接收分发的主题聚合内容;
提取所接收的所述主题聚合内容中的展示页面信息;
在主消息流展示区域,根据所述展示页面信息展示相应的主题聚合内容的展示页面;
接收对所述展示页面的触发操作,展示在所述主题聚合内容的相应聚类主题下设置的内容的信息。
一种分发内容处理装置,所述装置包括:
聚合内容接收模块,用于接收分发的主题聚合内容;
信息提取模块,用于提取所接收的所述主题聚合内容中的展示页面信息;
展示模块,用于在主消息流展示区域,根据所述展示页面信息展示相应的主题聚合内容的展示页面;接收对所述展示页面的触发操作,展示在所述主题聚合内容的相应聚类主题下设置的内容的信息。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
接收分发的主题聚合内容;
提取所接收的所述主题聚合内容中的展示页面信息;
在主消息流展示区域,根据所述展示页面信息展示相应的主题聚合内容的展示页面;
接收对所述展示页面的触发操作,展示在所述主题聚合内容的相应聚类主题下设置的内容的信息。
一种存储有计算机程序的存储介质,所述计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:
接收分发的主题聚合内容;
提取所接收的所述主题聚合内容中的展示页面信息;
在主消息流展示区域,根据所述展示页面信息展示相应的主题聚合内容的展示页面;
接收对所述展示页面的触发操作,展示在所述主题聚合内容的相应聚类主题下设置的内容的信息。
上述分发内容处理方法、装置、计算机设备和存储介质,以主题聚合内容的形式接收分发内容的信息,同一主题聚合内容下的分发内容通常是针对该主题的不同角度的描述内容,因此,接收并展示主题聚合内容,能够提高分发的内容的信息量。
附图说明
图1为一个实施例中分发内容处理方法的应用场景图;
图2为另一个实施例中分发内容处理方法的应用场景图;
图3为一个实施例中分发内容处理方法的流程示意图;
图4A至图4B为一个实施例中主题聚合内容的界面示意图;
图5为一个实施例中分发内容处理方法的流程总览图;
图6为另一个实施例中分发内容处理方法的流程示意图;
图7为一个实施例中创建入口的界面示意图;
图8为又一个实施例中分发内容处理方法的流程示意图;
图9A至图9B为一个实施例中主题聚合内容展示的界面示意图;
图10为一个实施例中资源入口显示的界面示意图;
图11为一个实施例中分发内容处理的***结构及数据流向图;
图12为一个实施例中分发内容处理装置的框图;
图13为另一个实施例中分发内容处理装置的框图;
图14为又一个实施例中分发内容处理装置的框图;
图15为再一个实施例中分发内容处理装置的框图;
图16为还一个实施例中分发内容处理装置的框图;
图17为一个实施例中计算机设备的内部结构示意图;
图18为另一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中分发内容处理方法的应用场景图。参照图1,该应用场景中包括通过网络连接的服务器110和第一终端120。服务器110可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。第一终端120可以是智能电视机、台式计算机或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。
服务器110在对待分发内容进行分发处理时,可以分别确定各个待分发内容的特征向量,并获取各聚类主题的质心的特征向量。服务器110可以比对每个待分发内容的特征向量与各质心的特征向量的相似度,根据相似度比对结果,确定每个待分发内容所属的聚类主题。服务器110可以根据属于同一聚类主题的待分发内容生成主题聚合内容。服务器110可以根据主题聚合内容向第一终端120进行内容分发。
图2为另一个实施例中分发内容处理方法的应用场景图。参照图2,该应用场景中还包括与服务器110通过网络连接的第二终端130。第二终端130可以基于内容发布账号向服务器110发送主题聚合内容创建请求,服务器110可以响应于该主题聚合内容创建请求,创建主题聚合内容。服务器110可以根据该创建的主题聚合内容向第一终端120进行内容分发。
需要说明的是,第一终端120也可以具备第二终端130所具备的创建主题聚合内容的功能,第二终端130也可以具备第一终端120所具备的展示分发的内容的功能。
图3为一个实施例中分发内容处理方法的流程示意图。本实施例主要以该分发内容处理方法应用于计算机设备,现以该计算机设备为图1中的服务器110来举例说明。参照图3,该方法具体包括如下步骤:
S302,分别确定各个待分发内容的特征向量。
其中,内容,是能够传递信息的事物。在一个实施例中,内容包括文字、视频、图片、音频等中的至少一种。在一个实施例中,内容可以是文章,文章可以由文字、视频、图片、音频等中的一种或多种组合构成。在一个实施例中,内容可以是以网页形式进行展示的信息。
待分发内容,是将要进行分发的内容。在一个实施例中,待分发内容可以从基于内容发布账号发布的内容和/或通过网络爬虫自动爬取的内容和/或内容分发平台运营账号发布的内容中获取。其中,内容发布账号,是具有内容发布功能的账号。网络爬虫(webcrawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
在一个实施例中,内容发布账号可以是自媒体账号。可以理解,自媒体(WeMedia),是指私人化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称。在一个实施例中,自媒体账号可以是在独立的内容分发平台中注册的、能够自主化发布内容的账号(比如微博账号),也可以是在集成于社交平台中的内容分发平台中注册的、能够自主化发布内容的账号。集成于社交平台中的内容分发平台可以是即时通信平台中集成的内容分发平台,比如,QQ看点,QQ是腾讯公司开发的即时通信平台,QQ看点是集成于即时通信平台QQ中的内容分发平台。
特征向量,是反映特征的向量。可以理解,各个待分发内容可以通过相应的特征向量区分开来。
在一个实施例中,特征向量可以是TF-IDF(term frequency–inverse documentfrequency)向量。需要说明的是,TF-IDF向量,是通过将待分发内容中的关键词的TF-IDF值作为特征值,根据各关键词的特征值组合得到的向量。
具体地,服务器可以获取多个待分发内容。服务器可以直接获取各个待分发内容的特征向量,也可以对各个待分发内容进行特征分析,得到相应的特征向量。
S304,获取各聚类主题的质心的特征向量。
其中,聚类主题是对内容进行聚类得到的主题。
在一个实施例中,聚类主题可以是实时地根据内容分发平台上的内容进行主题聚类处理得到。可以理解,当内容分发平台上的内容发生更新时,服务器也可以根据更新的内容对该聚类主题进行相应的更新。
在一个实施例中,聚类主题也可以是通过预先进行主题聚类得到。
其中,预先进行主题聚类,是预先将样本内容按照主题维度进行聚类的处理过程。样本内容,是用于作为主题聚类的样本的内容。
可以理解,将样本内容按照主题维度进行聚类,可以是将样本内容按照相应的主题进行手动地聚类,也可以是根据样本内容按照相应主题进行主题聚类的机器学习训练。
在一个实施例中,服务器可以预先获取多个初始化主题,以及获取针对该初始化主题添加的主题标签,并针对主题标签添加相应的样本内容,实现对样本内容进行手动的主题聚类。其中,初始化主题,是初始化的、用于进行主题聚类处理的主题。可以理解,初始化主题与相应样本内容之间可能存在不准确或者不精准的问题,在主题聚类训练过程中,可能会对初始化主题进行调整,得到主题聚类后的聚类主题。主题标签,用于唯一标识相应的聚类主题。
在一个实施例中,服务器可以获取对每个样本内容添加的主题标签,实现对样本内容进行手动的主题聚类。在另一个实施例中,服务器也可以获取在每个主题标签相应的样本内容存储位置加入的相应的样本内容,实现对样本内容进行手动的主题聚类。
质心,是聚类中心。可以理解,聚类主题相当于一个聚合的一个类别,该类别下存在相互间具有相似性的内容。聚类主题的质心,即为该聚类主题这一类别下的相互间具有相似性的内容的中心。该聚类主题下的各个内容到该聚类主题下的质心的距离,比到其它质心的距离近。
质心的特征向量,是表征质心的向量。
服务器可以直接获取各个聚类主题的质心的特征向量,也可以计算各个聚类主题的质心的特征向量。
在一个实施例中,步骤S304包括:分别获取各聚类主题下的样本内容的特征向量;针对每个聚类主题,根据聚类主题下的各个样本内容的特征向量,确定聚类主题的质心的特征向量。
具体地,针对每个聚类主题,服务器可以获取该聚类主题下的各个样本内容,并计算各个样本内容的特征向量,根据各个样本内容的特征向量,得到该聚类主题的质心的特征向量。在一个实施例中,服务器可以确定该聚类主题下的各个样本内容的特征向量的均值,作为该聚类主题的质心的特征向量。
S306,比对每个待分发内容的特征向量与各质心的特征向量的相似度。
S308,根据相似度比对结果,确定每个待分发内容所属的聚类主题。
在一个实施例中,服务器可以通过比对每个待分发内容的特征向量与质心的特征向量之间的距离来确定两者之间的相似度。
在一个实施例中,步骤S308包括:对于每个待分发内容,将对应于最大相似度的质心所表征的聚类主题,作为待分发内容所属的聚类主题;或对于每个待分发内容,当待分发内容的特征向量与质心的特征向量的相似度大于或等于相似度阈值时,则将质心所表征的聚类主题作为待分发内容所属的聚类主题。
具体地,对于每个待分发内容,服务器可以分别计算待分发内容的特征向量与各个质心的特征向量之间的相似度。
在一个实施例中,对于每个待分发内容,服务器可以从计算得到的相似度中确定最大相似度,并将对应于该最大相似度的质心所表征的聚类主题,作为待分发内容所属的聚类主题。可以理解,质心所表征的聚类主题,即为对应于该质心的聚类主题。
在另一个实施例中,对于每个待分发内容,服务器可以判断该待分发内容的特征向量与各质心的特征向量的相似度是否大于或等于预设的相似度阈值,若是,则将该质心所表征的聚类主题作为待分发内容所属的聚类主题。
S310,根据属于同一聚类主题的待分发内容生成主题聚合内容。
其中,主题聚合内容,是以聚类主题的形式分发的内容。主题聚合内容包括属于该同一聚类主题的至少一个的待分发内容。
具体地,服务器可以获取属于同一聚类主题的待分发内容,将属于同一聚类主题的待分发内容按照相应的主题聚合内容模板,生成相应的主题聚合内容。
图4A至图4B为一个实施例中主题聚合内容的界面示意图。参照图4A,“开封奇谈”则为一个聚类主题,虚线框402中即为根据“开封奇谈”这一聚类主题下的待分发内容生成的主题聚合内容的一种呈现。虚线框404中则不为主题聚合内容,而是通常的单一的待分发内容的呈现。参照图4B,所呈现的各个单一的待分发内容的信息,即为属于“开封奇谈”这一聚类主题的待分发内容的信息。
S312,根据主题聚合内容进行内容分发。
在一个实施例中,服务器可以将主题聚合内容向目标用户进行发送。其中,目标用户是接收分发的内容的用户。
在一个实施例中,步骤S312包括:获取与目标用户标识对应的用户画像;当主题聚合内容与用户画像匹配时,按照目标用户标识,将主题聚合内容进行内容分发;当主题聚合内容与用户画像不匹配时,不分发主题聚合内容。
具体地,服务器可以直接获取与目标用户标识对应的用户画像,也可以获取与目标用户标识对应的用户属性信息和对内容的历史操作信息等,根据获取的用户属性信息和对内容的历史操作信息建立与目标用户标识对应的用户画像。
服务器可以判断主题聚合内容是否与用户画像相匹配(即根据用户画像,判断主题聚合内容是否符合用户的兴趣)。当主题聚合内容与用户画像匹配时,服务器可以按照目标用户标识,将主题聚合内容进行内容分发,即服务器可以将主题聚合内容向目标用户标识所对应的终端(比如,图1所示的第一终端)进行发送。当主题聚合内容与用户画像不匹配时,则不分发该主题聚合内容。通过与用户画像的匹配与否进行内容分发,提高了内容分发的准确性。
上述分发内容处理方法,通过将待分发内容的特征向量与各聚类主题的质心的特征向量进行相似度比对,对待分发内容进行主题聚类。根据属于同一聚类主题的待分发内容生成主题聚合内容,根据主题聚合内容进行内容分发。同一聚类主题下的待分发内容通常是针对该主题的不同角度的描述内容,因此,以主题聚合内容的形式进行内容分发,能够提高分发的内容的信息量。
在一个实施例中,步骤S302包括:针对每个待分发内容,提取待分发内容中的关键词;确定每个关键词在相应待分发内容中的词频;获取每个关键词相对于待分发内容的逆文档频率;根据相应的词频和逆向文件频率,得到各个关键词的特征值;根据待分发内容中各个关键词的特征值,得到待分发内容的特征向量。
其中, 关键词,是对待分发内容的意义的表达起实质作用的词。词频,(termfrequency,TF)是某一个关键词在相应待分发内容中出现的次数。逆向文件频率(inversedocument frequency,IDF),是关键词普遍重要性的度量。某一关键词的逆向文件频率,可由待分发内容的总数量除以包括该关键词的待分发内容的数量,再对得到的商取对数得到。
具体地,针对每个待分发内容,服务器可以对该待分发内容的描述内容进行分词处理,对分词后的各个词片段进行语义分析,识别其中的关键词。
在一个实施例中,服务器可以将每个关键词相应的词频和逆向文件频率的乘积,作为该关键词的特征值。
在一个实施例中,服务器可以将待分发内容中各个关键词的特征值组合,得到该待分发内容的特征向量。
比如,一个待分发内容中提取的关键词分别为关键词1、关键词2和关键词3,则服务器确定关键词1的特征值为0.28,关键词2的特征值为0.54,关键词3的特征值为0.12,则该待分发内容的特征向量可以为(0.28,0.54,0.12)。
上述实施例中,通过关键词的TF-IDF特征值得到待分发内容的特征向量,保证了待分发内容的特征向量的准确性。
在一个实施例中,该还包括:获取多个初始化主题;获取针对各初始化主题添加的主题标签和相应的样本内容;根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练;根据训练得到的主题聚类模型,得到各个聚类主题及与各个聚类主题相应的质心。
其中,初始化主题,是初始化的、用于进行主题聚类处理的主题。在一个实施例中,初始化主题可以是基于内容发布账号创建的主题和/或基于内容分发平台运营账号创建的主题和/或通过网络爬虫自动爬取的主题,比如热门主题。可以理解,热门主题可以是关注度排名前预设位的主题。主题聚类模型,是能够根据输入的内容输出相应的聚类主题的模型。
具体地,内容分发平台的运营人员可以针对各个初始化主题添加相应的主题标签以及相应的样本内容,服务器可以获取针对各初始化主题添加的主题标签和相应的样本内容。服务器可以根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练(即机器学习训练),得到主题聚类模型。可以理解,主题聚类模型中,包括主题聚类训练后得到的各个聚类主题,所以服务器可以根据训练得到的主题聚类模型,得到各个聚类主题及与各个聚类主题相应的质心。
上述实施例中,基于初始化主题的主题标签和相应的样本内容进行主题聚类模型训练,生成能够确定内容的聚类主题的主题聚类模型,从而实现主题聚合内容的生成,进而提高了分发内容的信息量。此外,因为传统无监督聚类算法都是指定了聚类的个数,对聚类结果有很大的限定作用,导致聚类不合理,而本实施例中,是根据确定了的初始化主题和相应样本内容进行主题聚类模型训练,使得主题聚类模型的训练不局限于传统的无监督聚类算法对聚类主题的限定,提高了主题聚类模型的适用性。
在一个实施例中,根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练包括:根据各初始化主题的主题标签和对应的样本内容进行主题聚类训练,得到初始的主题聚类模型;按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容;当校验到聚类主题与相应召回的样本内容不匹配时,获取与不匹配的样本内容对应的修改后的主题标签;根据修改后的主题标签和相应样本内容更新初始的主题聚类模型,并返回按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容的步骤,直至更新后的主题聚类模型满足训练停止条件。
具体地,服务器可以分别将各初始化主题的主题标签作为输出,将对应的样本内容作为输入进行主题聚类训练,得到初始的主题聚类模型。按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容。
在一个实施例中,排名前预设位的样本内容,是按照与所属聚类主题的质心的特征向量的相似度排名前预设位的样本内容。排名与相似度负相关,相似度越高,排名越前,相似度越低,排名越后。比如,召回与聚类主题的质心的特征向量的相似度排名前100位的样本内容。
服务器可以直接获取聚类主题与相应召回的样本内容是否匹配的校验结果,也可以自动校验聚类主题与相应召回的样本内容是否匹配。在一个实施例,服务器可以获取人工校验得到的聚类主题与相应召回的样本内容是否匹配的校验结果。在另一个实施例中,服务器可以对样本内容进行上下文语义分析,根据上下文语义分析结果确定相应的主题,校验确定的主题与所属的聚类主题是否匹配,若匹配,则判定聚类主题与相应召回的样本内容匹配。
在一个实施例中,当校验到聚类主题与相应召回的样本内容不匹配时,服务器可以获取与不匹配的样本内容对应的手动修改后的主题标签。服务器也可以根据上下文语义分析结果所确定的相应的主题,修改样本内容的主题标签。
服务器可以根据修改后的主题标签和相应样本内容更新初始的主题聚类模型,并返回按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容的步骤,直至更新后的主题聚类模型满足训练停止条件。可以理解,训练停止条件,是停止训练主题聚类模型的条件。在一个实施例中,训练停止条件,可以是主题聚类模型的模型参数稳定,使主题聚类模型收敛。
上述实施例中,通过按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容,对召回的样本内容与聚类主题的匹配度的校验,修改相应的主题标签,根据修改后的主题标签更新主题聚类模型,直至满足训练停止条件。提高了主题聚类模型的准确性。此外,通过校验召回的样本内容与聚类主题间的匹配度,来更新主题聚类模型,而不需要复杂的算法,在保证主题聚类模型的准确性的同时,降低了模型更新难度,提高了模型更新效率。
在一个实施例中,服务器也可以对样本内容进行手动的主题聚类结果中各个聚类主题,召回该聚类主题下的排名前预设位的样本内容,当通过人工校验到聚类主题与相应召回的样本内容不匹配时,服务器则获取与不匹配的样本内容对应的手动修改后的主题标签,更新手动聚类结果,根据更新后的手动聚类结果中各聚类主题,再重复执行上述样本内容的召回步骤,直至召回的样本内容与相应的聚类主题相匹配时,则停止更新手动聚类结果。
可以理解,在进行手动聚类的情况下,服务器也可以通过计算手动聚类后的各个聚类主题的质心的特征向量,将待分发内容的特征向量与计算的各个聚类主题的质心的特征向量进行相似度比对,来确定属于同一聚类主题的待分发内容,以实现主题聚合内容的生成和分发。
在一个实施例中,该方法还包括主题聚合内容创建步骤,具体包括以下步骤:接收基于内容发布账号发送的主题聚合内容创建请求;响应于主题聚合内容创建请求,获取创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容;根据创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容,生成主题聚合内容。
其中,主题聚合内容创建请求,用于请求创建主题聚合内容。获取的聚类主题下设置的内容,即为设置的属于该聚类主题的内容。可以理解,在进行主题聚合内容创建时,在聚类主题下设置的内容即为想要分发的内容。
具体地,内容发布方(比如,自媒体用户)可以基于内容发布账号在内容发布页面进行自定义的主题聚合内容创建操作,向服务器发起主题聚合内容创建请求。服务器可以获取该主题聚合内容创建请求中携带的所创建的聚类主题的属性信息,和该聚类主题的展示页面信息。
可以理解,主题聚合内容创建请求可以直接携带该聚类主题下的分发内容,也可以仅携带该聚类主题下的分发内容的存储地址或唯一的内容标识。其中,存储地址,用于描述内容的存储位置。内容标识用于唯一标识内容, 在一个实施例中,存储地址可以是统一资源定位符(URL,Uniform Resource Locator)。
服务器可以直接从主题聚合内容创建请求中获取所携带的分发内容,也可以获取该主题聚合内容创建请求中携带的该聚类主题下设置的用于获取待分发内容本身的信息。其中,用于获取待分发内容本身的信息,包括待分发内容的存储地址或唯一的内容标识。服务器可以根据待分发内容的存储地址或唯一的内容标识,获取相应的待分发内容。
服务器可以根据创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容,生成主题聚合内容。
在一个实施例中,可以理解,服务器还可以根据上述方法自定义创建的主题聚合内容进行内容分发。
可以理解,在根据主题聚合内容创建请求生成主题聚合内容过程中创建的聚类主题,也可以作为用于主题聚类处理的初始化主题。
上述实施例中,自定义地创建主题聚合内容,将待分发内容以主题维度进行聚类,同一聚类主题下的待分发内容通常是针对该主题的不同角度的描述内容,因此,创建主题聚合内容,能够提高分发的内容的信息量。此外,自定义地创建主题聚合内容,相较于主题聚类分析处理得到的主题聚合内容,能够更加准确地表达聚类主题,使得主题聚合内容的专题性更强,信息量更有针对性。同时也不必仅仅局限于语义维度上的主题性,能够自定义地形成主题,增强了灵活性。
图5为一个实施例中分发内容处理方法的流程总览图。参照图5,服务器通过自定义创建的主题和挖掘的主题,得到初始化主题。获取对各初始化主题通过人工标注的主题标签和相应的样本内容。服务器可以根据主题标签和相应的样本内容进行主题聚类,并根据聚类得到的聚类主题进行聚类召回——召回相应排名前预设位的样本内容,即种子内容。服务器可以校验种子内容是否与相应聚类主题匹配。服务器可以自身进行匹配度校验,以及针对不匹配的样本内容修改主题标签,也可以获取人工进行匹配度校验的结果,针对不匹配的样本内容,重新进行人工标注获取手动修改的主题标签。服务器可以根据修改后的主题标签更新主题聚类的结果,得到最终稳定、收敛的主题聚类模型。服务器可以将待分发内容输入该主题聚类模型中,输出得到各个待分发内容的相应聚类主题,根据属于同一聚类主题的待分发内容生成主题聚合内容,该主题聚合内容中包括至少一待分发内容。服务器可以根据主题聚合内容进行内容分发。
如图6所示,在一个实施例中,提供了一种分发内容处理方法,本实施例主要以该分发内容处理方法应用于计算机设备,现以该计算机设备为图2中的第二终端130来举例说明。参照图6,该方法具体包括如下步骤:
S602,响应于所接收的主题聚合内容创建指令,生成创建入口。
具体地,内容发布人员(比如,自媒体人员)可以在第二终端上登录内容发布账号,在第二终端上基于该内容发布账号进行主题聚合内容创建操作,第二终端可以接收基于内容发布账号发出的主题聚合内容创建指令,响应于所接收的主题聚合内容创建指令,生成创建入口。
创建入口,是用于创建主题聚合内容的入口。在一个实施例中,该创建入口可以以用于接收自定义信息的主题聚合内容创建页面的形式进行呈现。
图7为一个实施例中创建入口的界面示意图。参照图7,该创建入口以主题聚合内容创建页面的形式呈现,该主题聚合内容创建页面用于接收各项自定义信息。比如,图7中所示,聚类主题名称、聚类主题摘要、关键词等属性信息,和主题聚合封面图、分享图、分享缩略图、主题角标等展示页面信息,以及聚类主题下设置的内容的存储地址和和待分发内容的展示图等待分发内容的信息。
S604,获取在创建入口中输入的创建的聚类主题的属性信息和展示页面信息。
其中,聚类主题的属性信息包括聚类主题的名称、聚类主题摘要、关键词等中的至少一个。
展示页面信息,是主题聚合内容的页面的展示样式信息。展示页面信息包括在内容分发页面的展示样式信息以及被分享时的展示样式信息。在一个实施例中,在内容分发页面的展示样式信息包括主题聚合封面图和主题角标。被分享时的展示样式信息包括分享图和分享缩略图。
其中,主题聚合封面图,是在主题聚合内容的封面显示的图。在一个实施例中,主题聚合封面图可以是独立的专门展示主题聚合的封面图。在另一个实施例中,主题聚合封面图可以是该聚类主题下的待分发内容的展示图中的至少一个。
主题角标,是在主题聚合封面图的角落示出的、表征主题聚合这一事项的标识。如图4A所示,虚线框402中显示的包括人物的图片即为主题聚合封面图。 “聚”字样的角标即为主题角标。可以理解,主题角标包括主题的角标形状和颜色等信息。
分享图,是主题聚合内容被分享时显示的正常尺寸、未被压缩的图。分享缩略图,是主题聚合内容被分享时显示的被压缩后的缩略图。
S606,获取在聚类主题下设置的内容的信息。
其中,待分发内容的信息,包括用于获取待分发内容本身的信息和待分发内容的描述信息。用于获取待分发内容本身的信息,包括待分发内容的存储地址和/或唯一的内容标识。待分发内容的描述信息包括对待分发内容的文字描述和展示图。待分发内容的展示图用于在待分发内容的首页进行展示。
S608,根据在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
具体地,第二终端可以根据在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求。第二终端可以将主题聚合内容创建请求向服务器发送。
上述实施例中,自定义地创建主题聚合内容,将待分发内容以主题维度进行聚类,同一聚类主题下的待分发内容通常是针对该主题的不同角度的描述内容,因此,创建主题聚合内容,能够提高分发的内容的信息量。此外,自定义地创建主题聚合内容,相较于主题聚类分析处理得到的主题聚合内容,能够更加准确地表达聚类主题,使得主题聚合内容的专题性更强,信息量更有针对性。同时也不必仅仅局限于语义维度上的主题性,能够自定义地形成主题,增强了灵活性。
在一个实施例中,该方法还包括:接收针对待创建的主题聚合内容的预览指令;响应于预览指令,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
具体地,内容分发人员可以基于内容发布账号向第二终端发出针对待创建的主题聚合内容的预览指令,第二终端可以响应于预览指令,根据展示页面信息展示相应的主题聚合内容的展示页面。
其中,展示页面包括主题聚合封面图、主题角标、聚类主题名称和聚类主题摘要等中的至少一种。
其中,主题聚合封面图,是在主题聚合内容的封面显示的图。在一个实施例中,主题聚合封面图可以是独立的专门展示主题聚合的封面图。在另一个实施例中,主题聚合封面图可以是该聚类主题下的待分发内容的展示图中的至少一个。
在一个实施例中,主题聚合封面图可以是该聚类主题下的至少一个待分发内容的展示图的滚动展示。可以理解,这种情况下,第一终端可以通过检测对当前展示的主题聚合封面图的翻页操作,对该聚类主题下的至少一个待分发内容的展示图的滚动展示。
在一个实施例中,第一终端可以根据该聚类主题下的至少一个待分发内容的历史访问记录和/或待分发内容的平台来源的内容质量评价确定滚动展示的先后顺序。其中,历史访问记录包括历史引用次数或历史评价等。待分发内容的平台来源的历史内容质量,是对待分发内容所来自的平台已经提供的内容的质量。比如,**视频这一平台提供的内容比较专业,质量比较高,则可以认为此次来自这一平台的待分发内容的质量也比较高。
内容分发人员可以作用于第二终端向展示页面进行触发操作,第二终端可以接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
可以理解,第二终端可以直接展示在主题聚合内容的相应聚类主题下设置的内容,第二终端也可以展示在主题聚合内容的相应聚类主题下设置的内容的展示图和/或待分发内容的文字描述信息。
上述实施例中,通过预览能够保证所待创建的主题聚合内容的准确性。
如图8所示,在一个实施例中,提供了一种分发内容处理方法,本实施例主要以该分发内容处理方法应用于计算机设备,现以该计算机设备为图1或2中的第一终端120来举例说明。参照图8,该方法具体包括如下步骤:
S802,接收分发的主题聚合内容。
具体地,第一终端可以接收服务器分发的主题聚合内容。可以理解,接收的主题聚合内容可以是基于内容发布账号自定义创建的,也可以是通过主题聚类处理生成的。
S804,提取所接收的主题聚合内容中的展示页面信息。
其中,展示页面信息,是主题聚合内容的页面的展示样式信息。展示页面信息包括在内容分发页面的展示样式信息以及被分享时的展示样式信息。在一个实施例中,在内容分发页面的展示样式信息包括主题聚合封面图和主题角标。在一个实施例中,被分享时的展示样式信息包括分享图和分享缩略图。
S806,在主消息流展示区域,根据展示页面信息展示相应的主题聚合内容的展示页面。
其中,主消息流(feeds)展示区域,是预先设置的用于进行消息的重点展示的区域。
其中,展示页面包括主题聚合封面图、主题角标、聚类主题名称和聚类主题摘要等中的至少一种。
主题聚合封面图,是在主题聚合内容的封面显示的图。在一个实施例中,主题聚合封面图可以是独立的专门展示主题聚合的封面图。在另一个实施例中,主题聚合封面图可以是该聚类主题下的待分发内容的展示图中的至少一个。
在一个实施例中,主题聚合封面图可以是该聚类主题下的至少一个待分发内容的展示图的滚动展示。可以理解,这种情况下,第一终端可以通过检测对当前展示的主题聚合封面图的翻页操作,对该聚类主题下的至少一个待分发内容的展示图的滚动展示。
在一个实施例中,第一终端可以根据该聚类主题下的至少一个待分发内容的历史访问记录和/或待分发内容的平台来源的内容质量评价确定滚动展示的先后顺序。其中,历史访问记录包括历史引用次数或历史评价等。待分发内容的平台来源的历史内容质量,是对待分发内容所来自的平台已经提供的内容的质量。比如,**视频这一平台提供的内容比较专业,质量比较高,则可以认为此次来自这一平台的待分发内容的质量也比较高。
主题角标,是在主题聚合封面图的角落示出的、表征主题聚合这一事项的标识。
S808,接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
具体地,接收到主题聚合内容的用户可以作用于第一终端向展示页面进行触发操作,第一终端可以接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
可以理解,第一终端可以直接展示在主题聚合内容的相应聚类主题下设置的内容,第一终端也可以展示在主题聚合内容的相应聚类主题下设置的内容的展示图和/或待分发内容的文字描述信息。
图9A至图9B为一个实施例中主题聚合内容展示的界面示意图。参照图9A,虚线框902中的区域即为主消息流展示区域,该区域中展示的即为主题聚合内容的展示页面,包括主题聚合封面(3个待分发内容的展示图)、“聚”字样的主题角标,以及聚类主题摘要“金秋神剧看哪部?**带你先睹为快!”等信息。参照图9B,即为展示的在主题聚合内容的相应聚类主题下设置的内容的展示图和相应的文字描述信息。
上述分发内容处理方法、装置、计算机设备和存储介质,以主题聚合内容的形式接收分发内容的信息,同一主题聚合内容下的分发内容通常是针对该主题的不同角度的描述内容,因此,接收并展示主题聚合内容,能够提高分发的内容的信息量。
在一个实施例中,步骤S804包括:当主题聚合内容是基于内容发布账号创建时,则在资源入口显示栏中,查找与内容发布账号对应的资源入口;在查找到的资源入口处,添加主题聚合内容的通知信息;接收基于通知信息对资源入口的触发操作,提取所接收的主题聚合内容中的展示页面信息。
其中,资源入口,是在被触发时用于获取资源的入口。即在对资源入口进行触发操作时,可以获取该资源入口所对应的资源。资源入口显示栏,用于显示表征资源入口的信息。可以理解,资源入口显示栏中可以以内容发布账号的名称、图标等形式表征资源入口。
具体地,当主题聚合内容是基于内容发布账号创建时,第一终端可以在资源入口显示栏中,查找与内容发布账号对应的资源入口,在查找到的资源入口处,添加主题聚合内容的通知信息。可以理解,这里内容发布账号与资源入口之间有对应关系,相当于将内容发布账号设置于资源入口处,通过对内容发布账号的触发操作可以获取相应的资源。
可以理解,主题聚合内容的通知信息,是用于通知接收到新的主题聚合内容的信息。在一个实施例中,第一终端可以在查找到的资源入口处添加主题聚合内容的通知标记。比如,可以添加一个“聚”字样的通知标记或数字样式的通知标记。
用户可以对该通知信息进行触发操作,以实现对资源入口的触发操作,第一终端可以接收基于通知信息对资源入口的触发操作,提取所接收的主题聚合内容中的展示页面信息。
图10为一个实施例中资源入口显示的界面示意图。参照图10,1002即为资源入口显示栏,该资源入口显示栏中显示的“**视频”、“腾讯科技”等内容分发账号1002a,用于表征相应的资源入口。通过对“**视频”的触发操作,可以获取到“**视频”这一内容分发账号所创建的主题聚合内容。当有新增的对应于“**视频”这一内容分发账号的主题聚合内容(即根据基于“**视频”这一内容分发账号新创建的主题聚合内容),则会在资源入口显示栏1002中显示的“**视频”处添加主题聚合内容的通知信息。通过基于通知信息对资源入口的触发操作,可以提取所接收的主题聚合内容中的展示页面信息。
上述实施例中,相当于将内容发布账号与资源入口对应设置,将内容以内容发布账号维度进行相应的展示,在接收到基于通知信息对资源入口的触发操作,提取所接收的主题聚合内容中的展示页面信息,实现对主题聚合内容的相应展示。将内容以内容发布账号维度进行相应的展示,既节省了页面空间,又能够对内容发布账号进行专门的展示,体现了在内容发布账号这一维度上的专题性。
在一个实施例中,该方法还包括:获取登录的用户标识所对应的用户画像;获取与用户画像匹配的至少一内容发布账号;根据获取的至少一内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
登录的用户标识,是登录于本地的用户标识(即接收主题聚合内容的用户标识)。
具体地,第一终端可以直接获取登录的用户标识所对应的用户画像,也可以获取与目标用户标识对应的用户属性信息和对内容的历史操作信息等,根据获取的用户属性信息和对内容的历史操作信息,建立与目标用户标识对应的用户画像。
第一终端可以根据用户画像中的用户特征,确定匹配的至少一个内容发布账号,根据获取的至少一内容发布账号生成相应的资源入口。第一终端可以将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,第一终端还可以从与用户画像匹配的内容发布账号中,筛选出与该用户标识对应的关注的内容发布账号,根据关注的内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
上述实施例中,根据与用户画像匹配的至少一内容发布账号生成相应的资源入口,将生成的资源入口于资源入口显示栏中进行展示。实现了在内容发布账号这一专题维度的个性化展示,使得展示的内容发布账号更加的准确。
在一个实施例中,该方法还包括:获取登录的用户标识;获取与用户标识对应的关注的内容发布账号;根据关注的内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
其中,关注的内容发布账号,是被关注的内容发布账号。可以理解,被关注的内容发布账号可以一定程度上表征用户对该内容发布账号的感兴趣程度。
具体地,第一终端可以获取与用户标识对应的关注的内容发布账号;根据关注的内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
上述实施例中,根据关注的内容发布账号生成相应的资源入口,将生成的资源入口于资源入口显示栏中进行展示。实现了在内容发布账号这一专题维度的个性化展示,使得展示的内容发布账号更加的准确。
在一个实施例中,该方法还包括:接收作用于资源入口显示栏的资源入口调整指令;响应于调整指令,增加新的资源入口至资源入口显示栏或删除资源入口显示栏中被选定的资源入口。
其中,资源入口调整指令,用于调整资源入口显示栏中所显示的资源入口。在一个实施例中,调整包括新增或删除。
具体地,用户可以通过第一终端对资源入口显示栏发出资源入口调整指令,第一终端可以响应于调整指令,增加新的资源入口至资源入口显示栏或删除资源入口显示栏中被选定的资源入口。
上述实施例中,可以根据资源入口调整指令,增加新的资源入口至资源入口显示栏或删除资源入口显示栏中被选定的资源入口,实现了对资源入口的自定义处理,使得所展示的资源入口更加的准确。
图11为一个实施例中分发内容处理的***结构及数据流向图。具体如下:
(1)自媒体发布平台可以基于自媒体账号生成与创建的聚类的初始化主题相应的主题聚合内容,以及获取自媒体账号发布的内容。
其中,自媒体发布平台是能够发布自媒体的平台。
(2)内容分发平台可以获取通过内容运营账号编辑的内容和创建的初始化主题。
其中,内容分发平台是用于分发内容的平台。
(3)自媒体发布平台和内容分发平台可以将获取的内容、及创建的聚类的初始化主题发送至审核***,进行合法性的审核。
其中,审核***,是用于对待分发内容进行合法性审核的***,比如审核用语是否合法等。
(4)自媒体发布平台还可以将基于自媒体账号创建的主题聚合内容直接发送至推荐***。
其中,推荐***,是将推荐内容至即时通信客户端的***。
(5)审核***将审核通过的内容及初始化主题发送至内容中心,由内容中心对接收的内容进行内容分级和质量评估,以筛选出优质的适合曝光的内容。
其中,内容中心,是对内容进行评估和筛选的、筛选出用于分发的内容。
(6)内容中心可以将筛选出的内容和初始化主题发送至主题聚合服务。
其中,主题聚合服务,是用于进行主题聚类处理的程序。
(7)即时通信客户端可以向统计上报服务上报用户对内容的历史操作记录。
其中,历史操作记录包括操作行为数据和互动行为数据。统计上报服务是用于进行数据统计并上报的程序。
操作行为数据包括阅读时长、点击次数、观看次数及播放阶段中的缓冲停留信息等行为数据。互动行为数据包括评论、分享、点赞、转发、喜欢或不喜欢等行为数据。
(8)统计上报服务将历史操作记录上报至统计分析***,由统计分析***根据上报的历史操作记录进行统计分析,确定出用户画像等关于用户行为的统计分析数据。
其中,统计分析***,是用于对数据进行统计分析的***。
(9)统计分析***将用户行为的统计分析数据发送至主题聚合服务。
(10)主题聚合服务根据筛选出的内容和聚类主题、以及用户行为的统计分析数据,进行主题聚类,生成主题聚合内容,并将生成的主题聚合内容发送至聚合输出服务。
其中,聚合输出服务,是用于输出主题聚合内容和与即时通信客户端当前登录的匹配的自媒体账号的程序。
(11)聚合输出服务可以从账号资料服务中,获取即时通信客户端当前登录的账号信息,根据账号信息确定个性化匹配的自媒体账号。
其中,账号资料服务,是管理账号资料的程序。
(12)聚合输出服务可以将主题聚合内容和个性化匹配的自媒体账号发送至推荐***。
(13)推荐***可以获取统计分析***上报的用户画像,并基于自媒体账号创建的主题聚合内容和通过主题聚类处理得到的主题聚合内容,以及统计分析***上报的用户画像,进行推荐内容确定处理,得到各主题聚合内容下的可推荐的内容。
(14)推荐***可以将推荐内容确定处理后的可推荐的各主题聚合内容和个性化匹配的自媒体账号发送至推送接口服务。
(15)推送接口服务将各主题聚合内容和个性化匹配的自媒体账号发送至即时通信客户端。
其中,推送接口服务,是连接前端与后端之间通信的程序。
(16)即时通信客户端可以展示所接收的主题聚合内容和个性化匹配的自媒体账号。
在一个实施例中,聚合输出服务还可以将生成的主题聚合内容和个性化匹配的自媒体账号发送至内容中心,由内容中心将生成的主题聚合内容和个性化匹配的自媒体账号发送至内容组装服务;内容组装服务按照即时通信客户端所要求的字体、样式及布局分别对主题聚合内容和个性化匹配的自媒体账号进行相应的格式组装。内容组装服务可以将组装后的主题聚合内容和个性化匹配的自媒体账号推送至内容存储中心进行存储;内容存储中心可以将缓存的主题聚合内容和个性化匹配的自媒体账号直接推送至即时通信客户端,也可以发送至推送接口服务,由推送接口服务将各主题聚合内容和个性化匹配的自媒体账号发送至即时通信客户端。
在一个实施例中,当内容存储中心推送主题聚合内容和个性化匹配的自媒体账号不成功时,可以将主题聚合内容和个性化匹配的自媒体账号缓存至内容缓存服务,由内容缓存服务将主题聚合内容和个性化匹配的自媒体账号推送至即时通信客户端。
其中,内容组装服务是对内容进行格式组装的程序。内容存储中心用于存储内容。内容缓存服务,是缓存发送失败的内容并将缓存的内容进行再次发送的程序。
可以理解,上述各个服务可以分别设置于不同的服务器,也可以是设置于同一服务器中的实现不同功能的程序。
如图12所示,在一个实施例中,提供了一种分发内容处理装置1200,该装置包括:向量确定模块1202、相似度比对模块1204、聚类主题确定模块1206、聚合内容生成模块1208以及内容分发模块1210,其中:
向量确定模块1202,用于分别确定各个待分发内容的特征向量;获取各聚类主题的质心的特征向量。
相似度比对模块1204,用于比对每个待分发内容的特征向量与各质心的特征向量的相似度。
聚类主题确定模块1206,用于根据相似度比对结果,确定每个待分发内容所属的聚类主题。
聚合内容生成模块1208,用于根据属于同一聚类主题的待分发内容生成主题聚合内容。
内容分发模块1210,用于根据主题聚合内容进行内容分发。
在一个实施例中,向量确定模块1202还用于针对每个待分发内容,提取待分发内容中的关键词;确定每个关键词在相应待分发内容中的词频;获取每个关键词相对于待分发内容的逆文档频率;根据相应的词频和逆向文件频率,得到各个关键词的特征值;根据待分发内容中各个关键词的特征值,得到待分发内容的特征向量。
在一个实施例中,向量确定模块1202还用于分别获取各聚类主题下的样本内容的特征向量;针对每个聚类主题,根据聚类主题下的各个样本内容的特征向量,确定聚类主题的质心的特征向量。
如图13所示,在一个实施例中,该装置1200还包括:
模型训练模块1201,用于获取多个初始化主题;获取针对各初始化主题添加的主题标签和相应的样本内容;根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练;根据训练得到的主题聚类模型,得到各个聚类主题及与各个聚类主题相应的质心。
在一个实施例中,模型训练模块1201还用于根据各初始化主题的主题标签和对应的样本内容进行主题聚类训练,得到初始的主题聚类模型;按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容;当校验到聚类主题与相应召回的样本内容不匹配时,获取与不匹配的样本内容对应的修改后的主题标签;根据修改后的主题标签和相应样本内容更新初始的主题聚类模型,并返回按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容的步骤,直至更新后的主题聚类模型满足训练停止条件。
在一个实施例中,聚类主题确定模块1206还用于对于每个待分发内容,将对应于最大相似度的质心所表征的聚类主题,作为待分发内容所属的聚类主题;或对于每个待分发内容,当待分发内容的特征向量与质心的特征向量的相似度大于或等于相似度阈值时,则将质心所表征的聚类主题作为待分发内容所属的聚类主题。
如图14所示,在一个实施例中,该装置1200还包括:
主题创建模块1209,用于接收基于内容发布账号发送的主题聚合内容创建请求;响应于主题聚合内容创建请求,获取创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容;根据创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容,生成主题聚合内容。
在一个实施例中,内容分发模块1210还用于获取与目标用户标识对应的用户画像;当主题聚合内容与用户画像匹配时,按照目标用户标识,将主题聚合内容进行内容分发;当主题聚合内容与用户画像不匹配时,不分发主题聚合内容。
如图15所示,在一个实施例中,提供了一种分发内容处理装置1500,该装置包括:创建入口生成模块1502、获取模块1504以及主题创建模块1506,其中:
创建入口生成模块1502,用于响应于所接收的主题聚合内容创建指令,生成创建入口。
获取模块1504,用于获取在创建入口中输入的创建的聚类主题的属性信息和展示页面信息;获取在聚类主题下设置的内容的信息。
主题创建模块1506,用于根据在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
在一个实施例中,该装置1500还包括:
预览模块(图中未示出),用于接收针对待创建的主题聚合内容的预览指令;响应于预览指令,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
如图16所示,在一个实施例中,提供了一种分发内容处理装置1600,该装置包括:聚合内容接收模块1602、信息提取模块1604以及展示模块1606,其中:
聚合内容接收模块1602,用于接收分发的主题聚合内容。
信息提取模块1604,用于提取所接收的主题聚合内容中的展示页面信息。
展示模块1606,用于在主消息流展示区域,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
在一个实施例中,信息提取模块1604还用于当主题聚合内容是基于内容发布账号创建时,则在资源入口显示栏中,查找与内容发布账号对应的资源入口;在查找到的资源入口处,添加主题聚合内容的通知信息;接收基于通知信息对资源入口的触发操作,提取所接收的主题聚合内容中的展示页面信息。
在一个实施例中,展示模块1606还用于获取登录的用户标识所对应的用户画像;获取与用户画像匹配的至少一内容发布账号;根据获取的至少一内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,展示模块1606还用于获取登录的用户标识;获取与用户标识对应的关注的内容发布账号;根据关注的内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,展示模块1606还用于接收作用于资源入口显示栏的资源入口调整指令;响应于调整指令,增加新的资源入口至资源入口显示栏或删除资源入口显示栏中被选定的资源入口。
图17为一个实施例中计算机设备的内部结构示意图。参照图17,该计算机设备可以是图1或图2中所示的服务器110,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作***和计算机程序。该计算机程序被执行时,可使得处理器执行一种分发内容处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种分发内容处理方法。计算机设备的网络接口用于进行网络通信。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的分发内容处理装置可以实现为一种计算机程序的形式,计算机程序可在如图17所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该分发内容处理装置的各个程序模块,比如,图12所示的向量确定模块1202、相似度比对模块1204、聚类主题确定模块1206、聚合内容生成模块1208以及内容分发模块1210。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的分发内容处理方法中的步骤,例如,计算机设备可以通过如图12所示的分发内容处理装置1200中的向量确定模块1202分别确定各个待分发内容的特征向量;获取各聚类主题的质心的特征向量,并通过相似度比对模块1204比对每个待分发内容的特征向量与各质心的特征向量的相似度。计算机设备可以通过聚类主题确定模块1206根据相似度比对结果,确定每个待分发内容所属的聚类主题,并通过聚合内容生成模块1208根据属于同一聚类主题的待分发内容生成主题聚合内容。计算机设备可以通过内容分发模块1210根据主题聚合内容进行内容分发。
图18为一个实施例中计算机设备的内部结构示意图。参照图18,该计算机设备可以是图1或2所示的第一终端,或者图2中所示的第二终端,该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作***和计算机程序。该计算机程序被执行时,可使得处理器执行一种分发内容处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种分发内容处理方法。计算机设备的网络接口用于进行网络通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该计算机设备可以是个人计算机、移动终端或车载设备,移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。
本领域技术人员可以理解,图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的分发内容处理装置可以实现为一种计算机程序的形式,计算机程序可在如图18所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该分发内容处理装置的各个程序模块,比如,图15所示的创建入口生成模块1502、获取模块1504以及主题创建模块1506。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的分发内容处理方法中的步骤,例如,计算机设备可以通过如图15所示的分发内容处理装置1500中的创建入口生成模块1502响应于所接收的主题聚合内容创建指令,生成创建入口,并通过获取模块1504获取在创建入口中输入的创建的聚类主题的属性信息和展示页面信息;获取在聚类主题下设置的内容的信息。计算机设备可以通过主题创建模块1506根据在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
在一个实施例中,本申请提供的分发内容处理装置可以实现为一种计算机程序的形式,计算机程序可在如图18所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该分发内容处理装置的各个程序模块,比如,图16所示的聚合内容接收模块1602、信息提取模块1604以及展示模块1606。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的分发内容处理方法中的步骤,例如,计算机设备可以通过如图16所示的分发内容处理装置1600中的聚合内容接收模块1602接收分发的主题聚合内容,并通过信息提取模块1604提取所接收的主题聚合内容中的展示页面信息。计算机设备可以通过展示模块1606在主消息流展示区域,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:分别确定各个待分发内容的特征向量;获取各聚类主题的质心的特征向量;比对每个待分发内容的特征向量与各质心的特征向量的相似度;根据相似度比对结果,确定每个待分发内容所属的聚类主题;根据属于同一聚类主题的待分发内容生成主题聚合内容;根据主题聚合内容进行内容分发。
在一个实施例中,分别确定各个待分发内容的特征向量包括:针对每个待分发内容,提取待分发内容中的关键词;确定每个关键词在相应待分发内容中的词频;获取每个关键词相对于待分发内容的逆文档频率;根据相应的词频和逆向文件频率,得到各个关键词的特征值;根据待分发内容中各个关键词的特征值,得到待分发内容的特征向量。
在一个实施例中,获取各聚类主题的质心的特征向量包括:分别获取各聚类主题下的样本内容的特征向量;针对每个聚类主题,根据聚类主题下的各个样本内容的特征向量,确定聚类主题的质心的特征向量。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取多个初始化主题;获取针对各初始化主题添加的主题标签和相应的样本内容;根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练;根据训练得到的主题聚类模型,得到各个聚类主题及与各个聚类主题相应的质心。
在一个实施例中,根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练包括:根据各初始化主题的主题标签和对应的样本内容进行主题聚类训练,得到初始的主题聚类模型;按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容;当校验到聚类主题与相应召回的样本内容不匹配时,获取与不匹配的样本内容对应的修改后的主题标签;根据修改后的主题标签和相应样本内容更新初始的主题聚类模型,并返回按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容的步骤,直至更新后的主题聚类模型满足训练停止条件。
在一个实施例中,确定每个待分发内容所属的聚类主题包括:对于每个待分发内容,将对应于最大相似度的质心所表征的聚类主题,作为待分发内容所属的聚类主题;或对于每个待分发内容,当待分发内容的特征向量与质心的特征向量的相似度大于或等于相似度阈值时,则将质心所表征的聚类主题作为待分发内容所属的聚类主题。
在一个实施例中,计算机程序还使得处理器执行以下步骤:接收基于内容发布账号发送的主题聚合内容创建请求;响应于主题聚合内容创建请求,获取创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容;根据创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容,生成主题聚合内容。
在一个实施例中,根据主题聚合内容进行内容分发包括:获取与目标用户标识对应的用户画像;当主题聚合内容与用户画像匹配时,按照目标用户标识,将主题聚合内容进行内容分发;当主题聚合内容与用户画像不匹配时,不分发主题聚合内容。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:响应于所接收的主题聚合内容创建指令,生成创建入口;获取在创建入口中输入的创建的聚类主题的属性信息和展示页面信息;获取在聚类主题下设置的内容的信息;根据在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
在一个实施例中,计算机程序还使得处理器执行以下步骤:接收针对待创建的主题聚合内容的预览指令;响应于预览指令,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:接收分发的主题聚合内容;提取所接收的主题聚合内容中的展示页面信息;在主消息流展示区域,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
在一个实施例中,提取所接收的主题聚合内容中的展示页面信息包括:当主题聚合内容是基于内容发布账号创建时,则在资源入口显示栏中,查找与内容发布账号对应的资源入口;在查找到的资源入口处,添加主题聚合内容的通知信息;接收基于通知信息对资源入口的触发操作,提取所接收的主题聚合内容中的展示页面信息。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取登录的用户标识所对应的用户画像;获取与用户画像匹配的至少一内容发布账号;根据获取的至少一内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取登录的用户标识;获取与用户标识对应的关注的内容发布账号;根据关注的内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,计算机程序还使得处理器执行以下步骤:接收作用于资源入口显示栏的资源入口调整指令;响应于调整指令,增加新的资源入口至资源入口显示栏或删除资源入口显示栏中被选定的资源入口。
在一个实施例中,提供了一种存储有计算机程序的存储介质,计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:分别确定各个待分发内容的特征向量;获取各聚类主题的质心的特征向量;比对每个待分发内容的特征向量与各质心的特征向量的相似度;根据相似度比对结果,确定每个待分发内容所属的聚类主题;根据属于同一聚类主题的待分发内容生成主题聚合内容;根据主题聚合内容进行内容分发。
在一个实施例中,分别确定各个待分发内容的特征向量包括:针对每个待分发内容,提取待分发内容中的关键词;确定每个关键词在相应待分发内容中的词频;获取每个关键词相对于待分发内容的逆文档频率;根据相应的词频和逆向文件频率,得到各个关键词的特征值;根据待分发内容中各个关键词的特征值,得到待分发内容的特征向量。
在一个实施例中,获取各聚类主题的质心的特征向量包括:分别获取各聚类主题下的样本内容的特征向量;针对每个聚类主题,根据聚类主题下的各个样本内容的特征向量,确定聚类主题的质心的特征向量。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取多个初始化主题;获取针对各初始化主题添加的主题标签和相应的样本内容;根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练;根据训练得到的主题聚类模型,得到各个聚类主题及与各个聚类主题相应的质心。
在一个实施例中,根据各初始化主题的主题标签和对应的样本内容进行主题聚类模型训练包括:根据各初始化主题的主题标签和对应的样本内容进行主题聚类训练,得到初始的主题聚类模型;按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容;当校验到聚类主题与相应召回的样本内容不匹配时,获取与不匹配的样本内容对应的修改后的主题标签;根据修改后的主题标签和相应样本内容更新初始的主题聚类模型,并返回按照初始的主题聚类模型中的聚类主题,召回聚类主题下的排名前预设位的样本内容的步骤,直至更新后的主题聚类模型满足训练停止条件。
在一个实施例中,确定每个待分发内容所属的聚类主题包括:对于每个待分发内容,将对应于最大相似度的质心所表征的聚类主题,作为待分发内容所属的聚类主题;或对于每个待分发内容,当待分发内容的特征向量与质心的特征向量的相似度大于或等于相似度阈值时,则将质心所表征的聚类主题作为待分发内容所属的聚类主题。
在一个实施例中,计算机程序还使得处理器执行以下步骤:接收基于内容发布账号发送的主题聚合内容创建请求;响应于主题聚合内容创建请求,获取创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容;根据创建的聚类主题的属性信息和展示页面信息,以及聚类主题下设置的内容,生成主题聚合内容。
在一个实施例中,根据主题聚合内容进行内容分发包括:获取与目标用户标识对应的用户画像;当主题聚合内容与用户画像匹配时,按照目标用户标识,将主题聚合内容进行内容分发;当主题聚合内容与用户画像不匹配时,不分发主题聚合内容。
在一个实施例中,提供了一种存储有计算机程序的存储介质,计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:响应于所接收的主题聚合内容创建指令,生成创建入口;获取在创建入口中输入的创建的聚类主题的属性信息和展示页面信息;获取在聚类主题下设置的内容的信息;根据在聚类主题下设置的内容的信息、聚类主题的属性信息和展示页面信息,生成主题聚合内容创建请求并发送。
在一个实施例中,计算机程序还使得处理器执行以下步骤:接收针对待创建的主题聚合内容的预览指令;响应于预览指令,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
在一个实施例中,提供了一种存储有计算机程序的存储介质,计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:接收分发的主题聚合内容;提取所接收的主题聚合内容中的展示页面信息;在主消息流展示区域,根据展示页面信息展示相应的主题聚合内容的展示页面;接收对展示页面的触发操作,展示在主题聚合内容的相应聚类主题下设置的内容的信息。
在一个实施例中,提取所接收的主题聚合内容中的展示页面信息包括:当主题聚合内容是基于内容发布账号创建时,则在资源入口显示栏中,查找与内容发布账号对应的资源入口;在查找到的资源入口处,添加主题聚合内容的通知信息;接收基于通知信息对资源入口的触发操作,提取所接收的主题聚合内容中的展示页面信息。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取登录的用户标识所对应的用户画像;获取与用户画像匹配的至少一内容发布账号;根据获取的至少一内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取登录的用户标识;获取与用户标识对应的关注的内容发布账号;根据关注的内容发布账号生成相应的资源入口;将生成的资源入口于资源入口显示栏中进行展示。
在一个实施例中,计算机程序还使得处理器执行以下步骤:接收作用于资源入口显示栏的资源入口调整指令;响应于调整指令,增加新的资源入口至资源入口显示栏或删除资源入口显示栏中被选定的资源入口。
需要说明的是,本申请各实施例中所使用的“第一”、“第二”仅用于区分,不作大小、从属、先后等方面的限定。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种分发内容处理方法,所述方法包括:
分别确定各个待分发内容的特征向量;
确定多个初始化主题,并根据针对各所述初始化主题添加的主题标签和相应的样本内容进行主题聚类模型训练;
确定训练得到的主题聚类模型中包括的各个聚类主题的质心的特征向量;
比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;
根据相似度比对结果,确定每个待分发内容所属的聚类主题;
将属于同一聚类主题的待分发内容按照相应的主题聚合内容模板生成主题聚合内容;所述主题聚合内容,是以聚类主题的形式分发的内容;所述主题聚合内容包括属于所述同一聚类主题的至少一个的待分发内容;
在接收基于内容发布账号发送的主题聚合内容创建请求的情况下,响应于所述主题聚合内容创建请求,获取创建的聚类主题的属性信息和展示页面信息,以及所述聚类主题下设置的内容;所述聚类主题的属性信息包括聚类主题的名称、聚类主题摘要或关键词中的至少一个;
根据创建的聚类主题的属性信息和展示页面信息,以及所述聚类主题下设置的内容,生成主题聚合内容;
根据所述主题聚合内容进行内容分发,以指示在主消息流展示区域中展示所述主题聚合内容的展示页面;所述展示页面包括主题聚合封面图、主题角标、聚类主题名称或聚类主题摘要中的至少一种;所述主题聚合封面图,是在主题聚合内容的封面显示的图;所述主题角标,是在所述主题聚合封面图中示出的、表征主题聚合这一事项的标识;
其中,所述主消息流展示区域,是用于进行消息的重点展示的区域;所述展示页面用于被触发后,展示在所述主题聚合内容的相应聚类主题下的内容的信息。
2.根据权利要求1所述的方法,其特征在于,所述分别确定各个待分发内容的特征向量包括:
针对每个待分发内容,提取所述待分发内容中的关键词;
确定每个关键词在相应待分发内容中的词频;
获取每个关键词相对于所述待分发内容的逆向文件频率;
根据相应的所述词频和所述逆向文件频率,得到所述各个关键词的特征值;
根据待分发内容中各个关键词的特征值,得到所述待分发内容的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述确定训练得到的主题聚类模型中包括的各个聚类主题的质心的特征向量包括:
分别获取训练得到的主题聚类模型中包括的各聚类主题下的样本内容的特征向量;
针对每个聚类主题,根据所述聚类主题下的各个样本内容的特征向量,确定所述聚类主题的质心的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述待分发内容是从基于内容发布账号发布的内容、通过网络爬虫自动爬取的内容或内容分发平台运营账号发布的内容中的至少一种中获取的。
5.根据权利要求4所述的方法,其特征在于,所述根据针对各初始化主题添加的主题标签和相应的样本内容进行主题聚类模型训练包括:
根据各初始化主题的主题标签和对应的样本内容进行主题聚类训练,得到初始的主题聚类模型;
按照初始的主题聚类模型中的聚类主题,召回所述聚类主题下的排名前预设位的样本内容;
当校验到所述聚类主题与相应召回的样本内容不匹配时,获取与不匹配的样本内容对应的修改后的主题标签;
根据修改后的主题标签和相应样本内容更新初始的主题聚类模型,并返回所述按照初始的主题聚类模型中的聚类主题,召回所述聚类主题下的排名前预设位的样本内容的步骤,直至更新后的主题聚类模型满足训练停止条件。
6.根据权利要求1所述的方法,其特征在于,所述根据相似度比对结果,确定每个待分发内容所属的聚类主题包括:
对于每个待分发内容,将对应于最大相似度的质心所表征的聚类主题,作为所述待分发内容所属的聚类主题;或
对于每个待分发内容,当所述待分发内容的特征向量与质心的特征向量的相似度大于或等于相似度阈值时,则将所述质心所表征的聚类主题作为所述待分发内容所属的聚类主题。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述主题聚合内容进行内容分发包括:
获取与目标用户标识对应的用户画像;
当所述主题聚合内容与所述用户画像匹配时,按照所述目标用户标识,将所述主题聚合内容进行内容分发;
当所述主题聚合内容与所述用户画像不匹配时,不分发所述主题聚合内容。
8.一种分发内容处理方法,所述方法包括:
接收分发的主题聚合内容;所述主题聚合内容包括基于内容发布账号创建的主题聚合内容;
提取所接收的所述主题聚合内容中的展示页面信息;所述主题聚合内容,是以聚类主题的形式分发的内容;所述主题聚合内容包括属于同一聚类主题的至少一个的待分发内容;
在主消息流展示区域,根据所述展示页面信息展示相应的主题聚合内容的展示页面;所述主消息流展示区域,是用于进行消息的重点展示的区域;所述展示页面包括主题聚合封面图、主题角标、聚类主题名称或聚类主题摘要中的至少一种;所述主题聚合封面图,是在主题聚合内容的封面显示的图;所述主题角标,是在所述主题聚合封面图中示出的、表征主题聚合这一事项的标识;
接收对所述展示页面的触发操作,展示在所述主题聚合内容的相应聚类主题下设置的内容的信息。
9.根据权利要求8所述的方法,其特征在于,所述提取所接收的所述主题聚合内容中的展示页面信息包括:
当所述主题聚合内容是基于内容发布账号创建时,则在资源入口显示栏中,查找与所述内容发布账号对应的资源入口;
在查找到的资源入口处,添加主题聚合内容的通知信息;
接收基于所述通知信息对所述资源入口的触发操作,提取所接收的所述主题聚合内容中的展示页面信息。
10.根据权利要求9所述的方法,其特征在于,还包括:
获取登录的用户标识所对应的用户画像;
获取与所述用户画像匹配的至少一内容发布账号;
根据获取的至少一内容发布账号生成相应的资源入口;
将生成的所述资源入口于资源入口显示栏中进行展示。
11.根据权利要求9所述的方法,其特征在于,还包括:
获取登录的用户标识;
获取与所述用户标识对应的关注的内容发布账号;
根据所述关注的内容发布账号生成相应的资源入口;
将生成的所述资源入口于资源入口显示栏中进行展示。
12.一种分发内容处理装置,其特征在于,所述装置包括:
向量确定模块,用于分别确定各个待分发内容的特征向量;确定多个初始化主题,并根据针对各所述初始化主题添加的主题标签和相应的样本内容进行主题聚类模型训练;确定训练得到的主题聚类模型中包括的各个聚类主题的质心的特征向量;
相似度比对模块,用于比对每个待分发内容的特征向量与各所述质心的特征向量的相似度;
聚类主题确定模块,用于根据相似度比对结果,确定每个待分发内容所属的聚类主题;
聚合内容生成模块,用于将属于同一聚类主题的待分发内容按照相应的主题聚合内容模板生成主题聚合内容;所述主题聚合内容,是以聚类主题的形式分发的内容;所述主题聚合内容包括属于所述同一聚类主题的至少一个的待分发内容;
主题创建模块,用于在接收基于内容发布账号发送的主题聚合内容创建请求的情况下,响应于所述主题聚合内容创建请求,获取创建的聚类主题的属性信息和展示页面信息,以及所述聚类主题下设置的内容;所述聚类主题的属性信息包括聚类主题的名称、聚类主题摘要或关键词中的至少一个;
根据创建的聚类主题的属性信息和展示页面信息,以及所述聚类主题下设置的内容,生成主题聚合内容;
内容分发模块,用于根据所述主题聚合内容进行内容分发,以指示在主消息流展示区域中展示所述主题聚合内容的展示页面;其中,所述展示页面包括主题聚合封面图、主题角标、聚类主题名称或聚类主题摘要中的至少一种;所述主题聚合封面图,是在主题聚合内容的封面显示的图;所述主题角标,是在所述主题聚合封面图中示出的、表征主题聚合这一事项的标识;所述主消息流展示区域,是用于进行消息的重点展示的区域;所述展示页面用于被触发后,展示在所述主题聚合内容的相应聚类主题下的内容的信息。
13.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
14.一种存储有计算机程序的存储介质,所述计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201711244576.2A 2017-11-30 2017-11-30 分发内容处理方法、装置、计算机设备和存储介质 Active CN110019800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711244576.2A CN110019800B (zh) 2017-11-30 2017-11-30 分发内容处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711244576.2A CN110019800B (zh) 2017-11-30 2017-11-30 分发内容处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110019800A CN110019800A (zh) 2019-07-16
CN110019800B true CN110019800B (zh) 2023-06-20

Family

ID=67185934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711244576.2A Active CN110019800B (zh) 2017-11-30 2017-11-30 分发内容处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110019800B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324701B (zh) * 2020-02-24 2023-04-07 腾讯科技(深圳)有限公司 内容补充方法、装置、计算机设备和存储介质
CN111885399B (zh) * 2020-06-29 2023-06-13 腾讯科技(武汉)有限公司 内容分发方法、装置、电子设备以及存储介质
CN112104642B (zh) * 2020-09-11 2021-12-28 腾讯科技(深圳)有限公司 一种异常账号确定方法和相关装置
CN112398725B (zh) * 2020-11-05 2022-05-31 中国联合网络通信集团有限公司 群消息提示方法、***、计算机设备及存储介质
CN114691970A (zh) * 2020-12-30 2022-07-01 北京达佳互联信息技术有限公司 数据处理方法、装置、服务器及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333985B2 (en) * 2003-12-15 2008-02-19 Microsoft Corporation Dynamic content clustering
US8626768B2 (en) * 2010-01-06 2014-01-07 Microsoft Corporation Automated discovery aggregation and organization of subject area discussions
CN102495872B (zh) * 2011-11-30 2013-07-24 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN103020159A (zh) * 2012-11-26 2013-04-03 百度在线网络技术(北京)有限公司 一种面向事件的新闻展现方法和装置

Also Published As

Publication number Publication date
CN110019800A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019800B (zh) 分发内容处理方法、装置、计算机设备和存储介质
US9972360B2 (en) Computerized system and method for automatically generating high-quality digital content thumbnails from digital video
US10127325B2 (en) Amplification of a social object through automatic republishing of the social object on curated content pages based on relevancy
US8099406B2 (en) Method for human editing of information in search results
JP6377807B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え
US11973819B1 (en) Image recommendations for thumbnails for online media items based on user activity
US20140013200A1 (en) Video comment feed with prioritization
US20090254529A1 (en) Systems, methods and computer program products for content management
US9961162B2 (en) Disambiguating online identities
US20140012910A1 (en) Video comment feed
US20110082848A1 (en) Systems, methods and computer program products for search results management
US20090319577A1 (en) Providing localized individually customized updates from a social network site to a desktop application
US20120197979A1 (en) Web-wide content quality crowd sourcing
US20190179956A1 (en) Content moderation system
CN109791680A (zh) 在线社交网络上的视频关键帧显示
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US10346763B2 (en) Dynamic query response with metadata
CN110889076B (zh) 评论信息发布方法、装置、客户端、服务器、***和介质
US20180121470A1 (en) Object Annotation in Media Items
US20180107689A1 (en) Image Annotation Over Different Occurrences of Images Using Image Recognition
CN110913266A (zh) 评论信息显示方法、装置、客户端、服务器和***
CN108573391B (zh) 一种推广内容的处理方法、装置及***
CN108475259A (zh) 分析调查结果和生成调查结果输出的***和方法
US11899719B2 (en) Systems and methods for determining whether to modify content
US11256722B2 (en) Techniques for modeling aggregation records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant