CN111324811B - 一种热点内容确认方法及装置 - Google Patents
一种热点内容确认方法及装置 Download PDFInfo
- Publication number
- CN111324811B CN111324811B CN202010105390.4A CN202010105390A CN111324811B CN 111324811 B CN111324811 B CN 111324811B CN 202010105390 A CN202010105390 A CN 202010105390A CN 111324811 B CN111324811 B CN 111324811B
- Authority
- CN
- China
- Prior art keywords
- content
- hot
- weight
- hot content
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012790 confirmation Methods 0.000 title claims description 7
- 238000012216 screening Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 5
- 239000013585 weight reducing agent Substances 0.000 claims description 4
- 235000019633 pungent taste Nutrition 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 36
- 230000008569 process Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种热点内容确认方法及装置,涉及计算机技术领域。所述方法包括:获取候选内容;根据预设的内容特征提取算法,从所述候选内容中提取目标内容特征;在预先建立的热点特征库中,确定与所述目标内容特征相匹配的目标热点内容特征,其中,所述热点特征库包含热点内容特征、以及各热点内容特征的权重;根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件;若所述候选内容满足预设筛选条件,则将所述候选内容确定为热点内容。采用本申请可以提高内容筛选的效率,并且能够提供让用户更感兴趣更关注的目标内容。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种热点内容确认方法及装置。
背景技术
随着互联网技术的发展,越来越多的用户开始通过互联网浏览信息。比如视频、新闻、小说等。为了提高用户浏览信息的兴趣,众多内容分发者会从大量的信息源,如自媒体等生产者中获取内容,并采用人工智能推荐等方式,来为用户实时推送信息,以提高用户浏览意图,并在实践中获得了用户的肯定。
相关技术中,内容生产的过程通常为:获取候选内容(比如编辑人员编写的新闻稿,或从其他网站采集的新闻内容),然后通过人工筛选的方式,从候选内容中筛选出热点内容作为待分发内容。内容生产之后,通过下游分发设备将待分发内容推送给用户,以使用户可以根据兴趣选择某一内容进行浏览。
然而,随着大量内容源的引入,候选内容量的急剧上涨,而人工筛选的方式效率较低,因此,亟需一种快速筛选出高质量的内容的技术方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种热点内容确认方法及装置。
第一方面,提供了一种热点内容确认方法,所述方法包括:
获取候选内容;
根据预设的内容特征提取算法,从所述候选内容中提取目标内容特征;
在预先建立的热点特征库中,确定与所述目标内容特征相匹配的目标热点内容特征,其中,所述热点特征库包含热点内容特征、以及各热点内容特征的权重;
根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件;
若所述候选内容满足预设筛选条件,则将所述候选内容确定为热点内容。
可选的,所述根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件,包括:
计算所述目标热点内容特征对应的权重的和值;
若所述和值大于或等于预设阈值,则确定所述候选内容满足预设筛选条件;
若所述和值小于所述预设阈值,则确定所述候选内容不满足预设筛选条件。
可选的,所述获取候选内容之前,还包括:
获取已发布的热点内容;
根据预设的内容特征提取算法,从所述热点内容中提取热点内容特征,并计算各热点内容特征的热度值;
根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重;
建立包含各所述热点内容特征、以及各所述热点内容特征的权重的热点特征库。
可选的,所述计算各热点内容特征的热度值,包括:
针对每个热点内容特征,确定该热点内容特征所属的第一热点内容的发布平台的第一权重、以及所述第一热点内容在所述发布平台中对应的第二权重;
根据所述第一权重和所述第二权重,计算该热点内容特征的热度值。
可选的,所述根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重,包括:
对所述各热点内容特征对应的热度值进行归一化处理,得到所述各热点内容特征的权重。
可选的,所述方法还包括:
针对每个热点内容特征,在发布包含该热点内容特征的内容后,根据预设的降权规则,降低该热点内容特征的权重。
可选的,所述方法还包括:
针对发布的每个内容,确定该内容的用户交互数据;
如果该内容的用户交互数据达到预设的热度条件,则根据预设的升权规则,升高该内容所包含的热点内容特征的权重。
可选的,所述方法还包括:
根据所述热点特征库中各热点内容特征的权重,对所述各热点内容特征进行排序,得到热点内容特征序列;
显示所述热点内容特征序列。
第二方面,提供了一种热点内容确认装置,所述装置包括:
第一获取模块,用于获取候选内容;
提取模块,用于根据预设的内容特征提取算法,从所述候选内容中提取内容特征;
第一确定模块,用于在预先建立的热点特征库中,确定与所述目标内容特征相匹配的目标热点内容特征,其中,所述热点特征库包含热点内容特征、以及各热点内容特征的权重;
第二确定模块,用于根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件;
第三确定模块,用于若所述候选内容满足预设筛选条件,则将所述候选内容确定为热点内容。
可选的,所述第二确定模块,具体用于:
计算所述目标热点内容特征对应的权重的和值;
若所述和值大于或等于预设阈值,则确定所述候选内容满足预设筛选条件;
若所述和值小于所述预设阈值,则确定所述候选内容不满足预设筛选条件。
可选的,所述装置还包括:
第二获取模块,用于获取已发布的热点内容;
计算模块,用于根据预设的内容特征提取算法,从所述热点内容中提取热点内容特征,并计算各热点内容特征的热度值;
第四确定模块,用于根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重;
建立模块,用于建立包含各所述热点内容特征、以及各所述热点内容特征的权重的热点特征库。
可选的,所述计算模块,具体用于:
针对每个热点内容特征,确定该热点内容特征所属的第一热点内容的发布平台的第一权重、以及所述第一热点内容在所述发布平台中对应的第二权重;
根据所述第一权重和所述第二权重,计算该热点内容特征的热度值。
可选的,所述第四确定模块,具体用于:
对所述各热点内容特征对应的热度值进行归一化处理,得到所述各热点内容特征的权重。
可选的,所述装置还包括:
降低模块,用于针对每个热点内容特征,在发布包含该热点内容特征的内容后,根据预设的降权规则,降低该热点内容特征的权重。
可选的,所述装置还包括:
第五确定模块,用于针对发布的每个内容,确定该内容的用户交互数据;
升高模块,用于如果该内容的用户交互数据达到预设的热度条件,则根据预设的升权规则,升高该内容所包含的热点内容特征的权重。
可选的,所述装置还包括:
排序模块,用于根据所述热点特征库中各热点内容特征的权重,对所述各热点内容特征进行排序,得到热点内容特征序列;
显示模块,用于显示所述热点内容特征序列。
第三方面,提供了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的热点内容确认方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供了一种热点内容确认方法及装置,可以获取候选内容,根据预设的内容特征提取算法,从候选内容中提取目标内容特征,然后,在预先建立的热点特征库中,确定与目标内容特征相匹配的目标热点内容特征,其中,热点特征库包含热点内容特征、以及各热点内容特征的权重。接着,根据目标热点内容特征对应的权重,确定候选内容是否满足预设筛选条件,若候选内容满足预设筛选条件,则将候选内容确定为热点内容。通过本方案,可以自动筛选出热点内容,无需人工筛选,提高了内容的筛选效率,并且能够提供让用户有更高关注度和兴趣度的内容,进而提高阅读量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种热点内容确认方法的流程图;
图2为本申请实施例提供的一种热点特征库的建立方法的流程图;
图3为本申请实施例提供的一种热点内容确认装置的结构示意图;
图4为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种获取内容的方法,可以应用于服务器。其中,该服务器可以是用于提供内容分发服务的后台服务器。
下面将结合具体实施方式,对本申请实施例提供的一种热点内容确认方法进行详细的说明,如图1所示,具体步骤如下:
步骤101,获取候选内容。
本申请实施例中,服务器可以获取候选内容。例如,可以通过抓取、接收用户投稿文章等方式,来获取候选内容。候选内容可以为电子文档。
步骤102,根据预设的内容特征提取算法,从候选内容中提取目标内容特征。
本申请实施例中,服务器中可以存储有内容特征提取算法,其中,内容特征提取算法可以采用各种自然语言处理(NLP)的算法,比如词袋(Bag of Word)模型、TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率指数)、PLSA(Probabilisticlatent semantic analysis,概率潜语义分析)等算法。内容特征可以是词语、短语、人名等,或者,也可以是语义信息。在一个示例中,候选内容为一篇新闻,该新闻的内容为:X年X日,演员A确认出演电影《123》,则可以提取出的内容特征包括:A、《123》和电影。其中,内容特征可以以标签或特征向量的形式表示。
步骤103,在预先建立的热点特征库中,确定与目标内容特征相匹配的目标热点内容特征。
本申请实施例中,服务器中还可以存储有热点特征库,热点特征库包含热点内容特征、以及各热点内容特征的权重。其中,热点内容特征可以是从当前用户关注度较高的热点内容中提取的特征,热点内容特征的权重与用户关注度较高成正相关。热点特征库的建立过程后续会进行详细说明。服务器从候选内容中提取目标内容特征后,可以将目标内容特征与热点特征库中的热点内容特征进行对比,以确定与目标内容特征相匹配的目标热点内容特征。在一种实现方式中,内容特征可以为词语,则可以将与提取出的词语相同或含义相同的热点内容特征,确定为目标热点内容特征。
可选的,可以将热点特征库中的全部热点内容特征与目标内容特征进行匹配处理,也可以在实际热点特征库非常大、编辑人力不足等条件下,选择热点特征库中的权重最大的几个特征,或是权重大于预设阈值的特征,与目标内容特征进行匹配处理。
步骤104,根据目标热点内容特征对应的权重,确定候选内容是否满足预设筛选条件。
本申请实施例中,服务器可以从候选内容中提取多个目标内容特征,相应的,服务器可能从热点特征库中确定出多个目标热点内容特征。服务器可以从热点特征库中确定各目标热点内容特征的权重,进而根据目标热点内容特征对应的权重,确定候选内容是否满足预设筛选条件。可选的,预设筛选条件可以是多种多样的,本申请实施例提供了几种可行的实现方式,具体如下。
方式一、计算目标热点内容特征对应的权重的和值;若和值大于或等于预设阈值(可称为第一预设阈值),则确定候选内容满足预设筛选条件;若和值小于预设阈值,则确定候选内容不满足预设筛选条件。
本申请实施例中,服务器可以计算目标热点内容特征对应的权重的和值,然后判断该和值是否大于第一预设阈值。若和值大于或等于第一预设阈值,则服务器可以确定候选内容满足预设筛选条件;若和值小于第一预设阈值,则服务器可以确定候选内容不满足预设筛选条件。例如,目标热点内容特征为X、Y、Z,对应的权重依次为0.1、0.5和0.6,第一预设阈值为1.5,由于0.5+0.6+0.1=1.2<1.5,则可以确定候选内容不满足预设筛选条件。
方式二、计算目标热点内容特征对应的权重的平均值;若该平均值大于或等于第二预设阈值,则确定候选内容满足预设筛选条件;若该平均值小于第二预设阈值,则确定候选内容不满足预设筛选条件。
本申请实施例中,服务器可以计算目标热点内容特征对应的权重的平均值,然后判断该平均值是否大于第二预设阈值。若平均值大于或等于第二预设阈值,则服务器可以确定候选内容满足预设筛选条件;若平均值小于第二预设阈值,则服务器可以确定候选内容不满足预设筛选条件。例如,目标热点内容特征为X、Y、Z,对应的权重依次为0.9和0.6,第二预设阈值为0.7,由于(0.9+0.6)/2=0.75>0.7,则可以确定候选内容满足预设筛选条件。
方式三、判断目标热点内容特征中,是否存在权重大于第三预设阈值的目标热点内容特征,如果存在,则确定候选内容满足预设筛选条件;如果不存在,则确定候选内容不满足预设筛选条件。
本申请实施例中,针对任一目标热点内容特征,服务器可以将该目标热点内容特征对应的权重与第三预设阈值进行对比,如果该目标热点内容特征的权重大于第三预设阈值的目标热点内容特征,则确定候选内容满足预设筛选条件;如果不存在,则继续比较下一个目标热点内容特征的权重。如果所有目标热点内容特征的权重均小于第三预设阈值,则服务器可以确定候选内容不满足预设筛选条件。例如,目标热点内容特征为X、Y、Z,对应的权重依次为0.1、0.5和0.7,第三预设阈值为0.6,由于0.7>0.6,则可以确定候选内容满足预设筛选条件。
步骤105,若候选内容满足预设筛选条件,则将候选内容确定为热点内容。
本申请实施例中,若服务器确定候选内容满足预设筛选条件,则可以将候选内容确定为热点内容。其中,候选内容可以为获取到的已编辑完成的内容,则从候选内容中选择出热点内容后,可以直接将热点内容作为待分发内容,通过下游分发设备将热点内容推送给用户。或者,候选内容也可以为未编辑完成的内容(即待生成内容),此时,编辑人员可以以热点内容作为依据,进行进一步编辑,将编辑后的内容作为热点内容,通过下游分发设备将热点内容推送给用户。这样,可以确定出热点度较高的热点内容,然后进行发布,从而提高用户的兴趣度,提高发布内容的有效性。
可选的,可以对热点内容特征的权重进行动态调整,具体规则可以如下。
规则一、针对每个热点内容特征,在发布包含该热点内容特征的内容后,根据预设的降权规则,降低该热点内容特征的权重。
本申请实施例中,对于任一热点内容特征,在发布包含该热点内容特征的内容后,可以降低该内容特征的权重,从而动态地调整当前热点特征库,降低已经生产上线内容的相关热点权重,重新对比并形成新的排名,为运营编辑提供参考。例如,当前特征库中包括α、β、γ等特征,对应的权重依次是Wα、Wβ,Wγ;如果有一篇包含α、γ的内容发布,则会调整α、γ的权重。
其中,热点内容特征的新权重可以由运营编辑人员设定,或者,可以按比例减少,或者,可以按照预设比例减少。在一个示例中,新权重的计算公式可以如下:
W′α=Wα-MAXW*s(1)
其中,W′α为调整后的新权重,Wα为原权重,MAXW是当前热点特征库中的最大权重,s为预设的调整系数,s的取值范围为0~1。
规则二、针对发布的每个内容,确定该内容的用户交互数据,如果该内容的用户交互数据达到预设的热度条件,则根据预设的升权规则,升高该内容所包含的热点内容特征的权重。
本申请实施例中,对于任一热点内容特征,针对发布的每个内容,可以监控该内容的用户交互数据,用户交互数据可以是内容的阅读量、点赞数量、评论数量或转发数量等。服务器可以统计该内容的用户交互数据,然后可以判断该用户交互数据是否满足预设的热度条件。例如,预设的热度条件可以是阅读量超过预设阈值,或者评论数超过预设阈值等。如果该内容的用户交互数据达到预设的热度条件,则服务器可以根据预设的升权规则,升高该内容所包含的热点内容特征的权重;如果该内容的用户交互数据未达到预设的热度条件,则可以保持该内容的权重不变。
其中,热点内容特征的新权重可以由运营编辑人员设定,或者,可以按比例增加,或者,可以按照预设比例增加。在一个示例中,新权重的计算公司可以如下:
W′α=Wα+MAXW*l(2)
其中,W′α为调整后的新权重,Wα为原权重,MAXW是当前热点特征库中的最大权重,l为预设的调整系数,l的取值范围为0~1。
另外,如果内容的热度较低,比如内容的用户交互数据不满足预设的热度条件。比如阅读量小于预设阈值,或者评论数小于预设阈值等,则可以按照上述公式(1)降低内容所包含的热点内容特征的权重。
基于上述规则,可以实时地调整当前的热点(即热点内容特征),为下一次的内容采编生产服务提供支持。
本申请实施例中,服务器还可以根据热点特征库中各热点内容特征的权重,对各热点内容特征进行排序,得到热点内容特征序列,然后显示热点内容特征序列。具体的,服务器可以按照权重从大到小的顺序,对各热点内容特征进行排序,得到热点内容特征序列,然后可以显示热点内容特征序列。服务器可以显示包含全部热点内容特征的序列,或者,也可以仅显示热点内容特征序列中前预设数目个热点内容特征。该内容特征序列可以辅助编辑人员编辑待发布内容,提示对于生产什么方向的内容的参考,以提高编辑内容的热点覆盖度。
可选的,本申请实施例还提供了热点特征库的建立过程,如图2所示,具体步骤如下。
步骤201,获取已发布的热点内容。
本申请实施例中,服务器可以获取网络中当前已发布的热点内容,该热点内容可以是某平台发布的内容,此时,服务器还可以记录每个热点内容的发布平台。服务器还可以获取其他热点内容,比如历史上的重要事件、名人生日等用户可能感兴趣的内容。另外,服务器还可以获取各热点内容的用户交互数据。
步骤202,根据预设的内容特征提取算法,从热点内容中提取热点内容特征,并计算各热点内容特征的热度值。
本申请实施例中,服务器可以根据预设的内容特征提取算法,从热点内容中提取热点内容特征,具体的提取过程可以参照步骤102的相关说明,此处不再赘述。服务器还可以计算各热点内容特征的热度值。
具体的,热度值的计算过程可以为:针对每个热点内容特征,确定该热点内容特征所属的第一热点内容的发布平台的第一权重、以及第一热点内容在发布平台中对应的第二权重;根据第一权重和第二权重,计算该热点内容特征的热度值。
本申请实施例中,针对每个热点内容特征,服务器确定该热点内容特征所属的第一热点内容、以及该第一热点内容所属的发布平台,还可以确定该发布平台的第一权重、以及第一热点内容在发布平台中对应的第二权重。第一权重和第二权重可以由技术人员设定,或者,服务器也可以根据各发布平台的用户流量,计算各发布平台的用户流量的比例,进而根据该比例确定各发布平台的第一权重,第一权重与用户流量成正比。服务器还可以根据第一热点内容在发布平台中的用户交互数据、以及该发布平台中的其他内容的用户交互数据,计算第一热点内容在发布平台中对应的第二权重,第二权重与用户交互数据成正比。
服务器可以根据第一权重和第二权重,计算该热点内容特征的热度值,该热点内容特征的热度值为综合热度值。在一种实现方式中,假设存在热点内容A、B、C…Z等,其权重分别为Wa,Wb,Wc…Wz,假设A的热点内容特征P(A)包括特征α、β,P(B)的热点内容特征包括γ、δ,P(C)包括α、ε等,可以注意,一个热点内容特征可能在不同的热点内容中出现,则综合热度值的计算公式可以如下:
其中,Weight(α)为热点内容特征α的综合热度值(即热度值),Wq为发布平台q的权重,P(x)为热点内容x的特征向量,W(x)为热点内容x在其所属发布平台的权重。其中,Wq*((α∈P(x))?W(x):0)的含义为:若P(x)中存在热点内容特征α,则计算Wq*W(x),若P(x)中不存在热点内容特征α,则W(x)的取值为0。
步骤203,根据各热点内容特征的热度值,确定各热点内容特征的权重。
本申请实施例中,服务器可以根据各热点内容特征的热度值,确定各热点内容特征的权重。在一种实现方式中,服务器可以直接将各热点内容特征的热度值,作为各热点内容特征的权重。在另一种实现方式中,服务器可以根据各热点内容特征的热度值,计算各热点内容特征的权重。具体的,可以对各热点内容特征对应的热度值进行归一化处理,得到各热点内容特征的权重,以防止各个特征之间的权重相差过大。其中,归一化处理中,可以采用Min-Max标准化、平均归一化、或对数函数转换、余切函数转换等等方式进行归一化处理。
步骤204,建立包含各热点内容特征、以及各热点内容特征的权重的热点特征库。
本申请实施例中,服务器可以将各热点内容特征、以及各热点内容特征的权重进行对应的存储,从而建立热点特征库。
本申请实施例中,可以获取候选内容,根据预设的内容特征提取算法,从候选内容中提取目标内容特征,然后,在预先建立的热点特征库中,确定与目标内容特征相匹配的目标热点内容特征,其中,热点特征库包含热点内容特征、以及各热点内容特征的权重。接着,根据目标热点内容特征对应的权重,确定候选内容是否满足预设筛选条件,若候选内容满足预设筛选条件,则将候选内容确定为热点内容。通过本方案,可以实现自动筛选出热点内容,无需人工筛选,提高了内容筛选的效率,并且能够让用户有更高关注度和兴趣度的内容,进而提高阅读量。
本申请实施例还提供了一种热点内容确认装置,如图3所示,该装置包括:
第一获取模块310,用于获取候选内容;
提取模块320,用于根据预设的内容特征提取算法,从候选内容中提取目标内容特征;
第一确定模块330,用于在预先建立的热点特征库中,确定与目标内容特征相匹配的目标热点内容特征,其中,热点特征库包含热点内容特征、以及各热点内容特征的权重;
第二确定模块340,用于根据目标热点内容特征对应的权重,确定候选内容是否满足预设筛选条件;
第三确定模块350,用于若候选内容满足预设筛选条件,则将候选内容确定为热点内容。
可选的,第二确定模块340,具体用于:
计算目标热点内容特征对应的权重的和值;
若和值大于或等于预设阈值,则确定候选内容满足预设筛选条件;
若和值小于预设阈值,则确定候选内容不满足预设筛选条件。
可选的,该装置还包括:
第二获取模块,用于获取已发布的热点内容;
计算模块,用于根据预设的内容特征提取算法,从热点内容中提取热点内容特征,并计算各热点内容特征的热度值;
第四确定模块,用于根据各热点内容特征的热度值,确定各热点内容特征的权重;
建立模块,用于建立包含各热点内容特征、以及各热点内容特征的权重的热点特征库。
可选的,计算模块,具体用于:
针对每个热点内容特征,确定该热点内容特征所属的第一热点内容的发布平台的第一权重、以及第一热点内容在发布平台中对应的第二权重;
根据第一权重和第二权重,计算该热点内容特征的热度值。
可选的,第四确定模块,具体用于:
对各热点内容特征对应的热度值进行归一化处理,得到各热点内容特征的权重。
可选的,该装置还包括:
降低模块,用于针对每个热点内容特征,在发布包含该热点内容特征的内容后,根据预设的降权规则,降低该热点内容特征的权重。
可选的,该装置还包括:
第五确定模块,用于针对发布的每个内容,确定该内容的用户交互数据;
升高模块,用于如果该内容的用户交互数据达到预设的热度条件,则根据预设的升权规则,升高该内容所包含的热点内容特征的权重。
可选的,该装置还包括:
排序模块,用于根据热点特征库中各热点内容特征的权重,对各热点内容特征进行排序,得到热点内容特征序列;
显示模块,用于显示热点内容特征序列。
本申请实施例中,可以获取候选内容,根据预设的内容特征提取算法,从候选内容中提取目标内容特征,然后,在预先建立的热点特征库中,确定与目标内容特征相匹配的目标热点内容特征,其中,热点特征库包含热点内容特征、以及各热点内容特征的权重。接着,根据目标热点内容特征对应的权重,确定候选内容是否满足预设筛选条件,若候选内容满足预设筛选条件,则将候选内容确定为热点内容。通过本方案,可以实现自动筛选出热点内容,无需人工筛选,提高了内容筛选的效率,并且能够让用户有更高关注度和兴趣度的内容,进而提高阅读量。
本申请实施例还提供了一种服务器,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取候选内容;
根据预设的内容特征提取算法,从所述候选内容中提取目标内容特征;
在预先建立的热点特征库中,确定与所述内容特征相匹配的目标热点内容特征,其中,所述热点特征库包含热点内容特征、以及各热点内容特征的权重;
根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件;
若所述候选内容满足预设筛选条件,则将所述候选内容确定为热点内容。
可选的,所述根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件,包括:
计算所述目标热点内容特征对应的权重的和值;
若所述和值大于或等于预设阈值,则确定所述候选内容满足预设筛选条件;
若所述和值小于所述预设阈值,则确定所述候选内容不满足预设筛选条件。
可选的,所述获取候选内容之前,还包括:
获取已发布的热点内容;
根据预设的内容特征提取算法,从所述热点内容中提取热点内容特征,并计算各热点内容特征的热度值;
根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重;
建立包含各所述热点内容特征、以及各所述热点内容特征的权重的热点特征库。
可选的,所述计算各热点内容特征的热度值,包括:
针对每个热点内容特征,确定该热点内容特征所属的第一热点内容的发布平台的第一权重、以及所述第一热点内容在所述发布平台中对应的第二权重;
根据所述第一权重和所述第二权重,计算该热点内容特征的热度值。
可选的,所述根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重,包括:
对所述各热点内容特征对应的热度值进行归一化处理,得到所述各热点内容特征的权重。
可选的,所述方法还包括:
针对每个热点内容特征,在发布包含该热点内容特征的内容后,根据预设的降权规则,降低该热点内容特征的权重。
可选的,所述方法还包括:
针对发布的每个内容,确定该内容的用户交互数据;
如果该内容的用户交互数据达到预设的热度条件,则根据预设的升权规则,升高该内容所包含的热点内容特征的权重。
可选的,所述方法还包括:
根据所述热点特征库中各热点内容特征的权重,对所述各热点内容特征进行排序,得到热点内容特征序列;
显示所述热点内容特征序列。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的热点内容确认方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的热点内容确认方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种热点内容确认方法,其特征在于,所述方法包括:
获取候选内容;
根据预设的内容特征提取算法,从所述候选内容中提取目标内容特征;
在预先建立的热点特征库中,确定与所述目标内容特征相匹配的目标热点内容特征,其中,所述热点特征库包含热点内容特征、以及各热点内容特征的权重;所述权重是由所述热点内容特征所属的第一热点内容的发布平台的第一权重、以及所述第一热点内容在所述发布平台中对应的第二权重计算出的热度值经归一化处理所得;
所述第一权重通过以下方式确定:计算各发布平台的用户流量的比例,进而根据该比例确定各发布平台的第一权重,第一权重与用户流量成正比;
所述第二权重通过以下方式确定:根据第一热点内容在发布平台中的用户交互数据、以及所述发布平台中的其他内容的用户交互数据,计算第一热点内容在所述发布平台中对应的第二权重,第二权重与用户交互数据成正比;
根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件;其中,所述权重与预设阈值构成所述预设筛选条件;
若所述候选内容满足预设筛选条件,则将所述候选内容确定为热点内容。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件,包括:
计算所述目标热点内容特征对应的权重的和值;
若所述和值大于或等于预设阈值,则确定所述候选内容满足预设筛选条件;
若所述和值小于所述预设阈值,则确定所述候选内容不满足预设筛选条件。
3.根据权利要求1所述的方法,其特征在于,所述获取候选内容之前,还包括:
获取已发布的热点内容;
根据预设的内容特征提取算法,从所述热点内容中提取热点内容特征,并计算各热点内容特征的热度值;
根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重;
建立包含各所述热点内容特征、以及各所述热点内容特征的权重的热点特征库。
4.根据权利要求3所述的方法,其特征在于,所述计算各热点内容特征的热度值,包括:
针对每个热点内容特征,确定该热点内容特征所属的第一热点内容的发布平台的第一权重、以及所述第一热点内容在所述发布平台中对应的第二权重;
根据所述第一权重和所述第二权重,计算该热点内容特征的热度值。
5.根据权利要求3所述的方法,其特征在于,所述根据各所述热点内容特征的热度值,确定各所述热点内容特征的权重,包括:
对所述各热点内容特征对应的热度值进行归一化处理,得到所述各热点内容特征的权重。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个热点内容特征,在发布包含该热点内容特征的内容后,根据预设的降权规则,降低该热点内容特征的权重。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对发布的每个内容,确定该内容的用户交互数据;
如果该内容的用户交互数据达到预设的热度条件,则根据预设的升权规则,升高该内容所包含的热点内容特征的权重。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述热点特征库中各热点内容特征的权重,对所述各热点内容特征进行排序,得到热点内容特征序列;
显示所述热点内容特征序列。
9.一种热点内容确认装置,其特征在于,所述装置包括:
第一获取模块,用于获取候选内容;
提取模块,用于根据预设的内容特征提取算法,从所述候选内容中提取目标内容特征;
第一确定模块,用于在预先建立的热点特征库中,确定与所述目标内容特征相匹配的目标热点内容特征,其中,所述热点特征库包含热点内容特征、以及各热点内容特征的权重;所述权重是由所述热点内容特征所属的第一热点内容的发布平台的第一权重、以及所述第一热点内容在所述发布平台中对应的第二权重计算出的热度值经归一化处理所得;
所述第一权重通过以下方式确定:计算各发布平台的用户流量的比例,进而根据该比例确定各发布平台的第一权重,第一权重与用户流量成正比;
所述第二权重通过以下方式确定:根据第一热点内容在发布平台中的用户交互数据、以及所述发布平台中的其他内容的用户交互数据,计算第一热点内容在所述发布平台中对应的第二权重,第二权重与用户交互数据成正比;
第二确定模块,用于根据所述目标热点内容特征对应的权重,确定所述候选内容是否满足预设筛选条件;其中,所述权重与预设阈值构成所述预设筛选条件;
第三确定模块,用于若所述候选内容满足预设筛选条件,则将所述候选内容确定为热点内容。
10.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105390.4A CN111324811B (zh) | 2020-02-20 | 2020-02-20 | 一种热点内容确认方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105390.4A CN111324811B (zh) | 2020-02-20 | 2020-02-20 | 一种热点内容确认方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111324811A CN111324811A (zh) | 2020-06-23 |
CN111324811B true CN111324811B (zh) | 2024-04-12 |
Family
ID=71171540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105390.4A Active CN111324811B (zh) | 2020-02-20 | 2020-02-20 | 一种热点内容确认方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324811B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254709B (zh) * | 2021-06-30 | 2021-12-28 | 北京达佳互联信息技术有限公司 | 内容数据的处理方法及装置、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103368898A (zh) * | 2012-03-26 | 2013-10-23 | 中兴通讯股份有限公司 | 一种实现信息推送的方法和*** |
CN104156450A (zh) * | 2014-08-15 | 2014-11-19 | 同济大学 | 一种基于用户网络数据的物品信息推荐方法 |
CN105282565A (zh) * | 2015-09-29 | 2016-01-27 | 北京奇艺世纪科技有限公司 | 一种视频推荐方法和装置 |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
-
2020
- 2020-02-20 CN CN202010105390.4A patent/CN111324811B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103368898A (zh) * | 2012-03-26 | 2013-10-23 | 中兴通讯股份有限公司 | 一种实现信息推送的方法和*** |
CN104156450A (zh) * | 2014-08-15 | 2014-11-19 | 同济大学 | 一种基于用户网络数据的物品信息推荐方法 |
CN105282565A (zh) * | 2015-09-29 | 2016-01-27 | 北京奇艺世纪科技有限公司 | 一种视频推荐方法和装置 |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111324811A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
US10528907B2 (en) | Automated categorization of products in a merchant catalog | |
CN110825876A (zh) | 电影评论观点情感倾向性分析方法 | |
CN105760474B (zh) | 一种基于位置信息的文档集的特征词提取方法及*** | |
CN114666663A (zh) | 用于生成视频的方法和装置 | |
CN111767796A (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
CN111767713B (zh) | 关键词的提取方法、装置、电子设备及存储介质 | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
CN111639696B (zh) | 一种用户分类方法及装置 | |
CN111310417B (zh) | 一种标题的生成方法及装置 | |
CN112036659A (zh) | 基于组合策略的社交网络媒体信息流行度预测方法 | |
CN110765266A (zh) | 一种裁判文书相似争议焦点合并方法及*** | |
CN111324811B (zh) | 一种热点内容确认方法及装置 | |
CN114239697A (zh) | 目标对象的分类方法、装置、电子设备及存储介质 | |
KR102234590B1 (ko) | 컨텐츠 제작자를 위한 컨텐츠 추천 방법 및 장치 | |
CN116932735A (zh) | 一种文本比对方法、装置、介质和设备 | |
CN108694171B (zh) | 信息推送的方法及装置 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN114841588A (zh) | 信息处理方法、装置、电子设备和计算机可读介质 | |
CN109933691A (zh) | 用于内容检索的方法、装置、设备和存储介质 | |
CN111026913B (zh) | 一种视频分发方法、装置、电子设备及存储介质 | |
CN112035738B (zh) | 一种电子书单推荐方法及装置、电子设备 | |
CN111090995B (zh) | 短文本主题识别方法和*** | |
KR20230017433A (ko) | 여러 이미지로부터 객체를 병합하여 하나의 장면 이미지를 제공하는 이미지 관리 서버 및 이를 이용한 장면 이미지 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |