CN111666749B

CN111666749B - 热点文章识别方法

Info

Publication number: CN111666749B
Application number: CN202010502429.6A
Authority: CN
Inventors: 姚洲鹏
Original assignee: Hangzhou Fanews Technology Co ltd
Current assignee: Hangzhou Fanews Technology Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-09-19
Anticipated expiration: 2040-06-03
Also published as: CN111666749A

Abstract

本发明公开了一种热点文章识别方法包含以下步骤：获取若干热点文章构成热点文章库；提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库；提取入库文章的分词并统计每个分词所对应的词频；计算入库文章的热度值；根据入库文章的热度值判定入库文章是否为热点文章。本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库，再根据该热点词库计算新入库的入库文章的热度值，根据该热度值快速判定新入库的入库文章是否是热点文章。

Description

热点文章识别方法

技术领域

本发明涉及一种热点文章识别方法。

背景技术

随着互联网行业越来越发达，新闻工作者需要及时发现识别热点文章，从而从热点文章中得到时下大众关注的热点动态。目前，新闻工作者一般根据一些大型网站中的热点文章点击排行榜识别时下较为热点的文章。然而，这种方法依赖于网站对用户点击数据的统计后才能得到热点文章数据，在时效上比较滞后。因为经过大量用户点击的数据统计出的热点文章中的热点新闻已经被大多数用户查看过了，从这些热点文章中提炼出的热点新闻的价值较小。因此，亟需一种无需根据各大网站的点击数据也能够快速识别热点文章的方法。

发明内容

为解决现有技术的不足，本发明提供了一种可以解决上述问题的热点文章识别方法。

为了实现上述目标，本发明采用如下的技术方案：

一种热点文章识别方法，包含以下步骤：

获取若干热点文章构成热点文章库；

提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库；

提取入库文章的分词并统计每个分词所对应的词频；

计算入库文章的热度值；

根据入库文章的热度值判定入库文章是否为热点文章。

进一步地，计算入库文章的热度值的具体方法为：

通过下述公式计算得到入库文章的每个分词的分词热度值，

score＝(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost，

其中，score表示分词热度值，subsetFreq表示入库文章的分词中的一个分词的词频，subsetSize表示全部入库文章的分词的词频总和，superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频，superSize表示全部热点词库中的分词的词频总和，natureBoost表示入库文章的分词的词性权重，fieldBoost表示入库文章的分词的字段权重；

对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。

进一步地，根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词；

在计算入库文章的热度值时仅针对挑选出的分词进行计算。

进一步地，根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。

进一步地，获取natureBoost的具体方法为：

根据入库文章的分词在入库文章中的词性求取平均值。

进一步地，获取fieldBosst的具体方法为：

根据入库文章的分词在入库文章中的字段求取平均值。

进一步地，根据入库文章的热度值判定入库文章是否为热点文章的具体方法为：

当入库文章的热度值大于预设阈值时，判定入库文章为热点文章。

进一步地，热点文章识别方法还包含以下步骤：

当入库文章的热度值大于预设阈值时，将入库文章添加到热点文章库中对热点文章库进行更新；

提取更新后的热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频以对热点词库进行更新。

进一步地，获取若干热点文章构成热点文章库的具体方法为：

从网络中获取第一预设时间内的热点文章构成热点文章库。

进一步地，每隔第二预设时间重新从网络中获取第一预设时间内的热点文章构成新的热点文章库。

本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库，再根据该热点词库计算新入库的入库文章的热度值，根据该热度值快速判定新入库的入库文章是否是热点文章。

本发明的有益之处还在于提供的热点文章识别方法，在识别出新入库的入库文章为热点文章后，将该入库文章添加到热点文章库中，并进一步的通过新的热点文章库构建一个新的热点词库。新的热点词库更新更全，有利于提高热点文章的识别效率和识别的准确度。

附图说明

图1是本发明的热点文章识别方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种热点文章识别方法，包含以下步骤：S1:获取若干热点文章构成热点文章库。S2:提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库。S3:提取入库文章的分词并统计每个分词所对应的词频。S4:计算入库文章的热度值。S5:根据入库文章的热度值判定入库文章是否为热点文章。通过以上步骤，首先获取到当下比较热门的热点文章，从热点文章中提炼出热点词库。根据热点词库计算出新入库入库文章的热度值，根据该热度值判定新入库的入库文章是否为热点文章。以下具体介绍上述步骤。

对于S1:获取若干热点文章构成热点文章库。

具体的，从网络中获取第一预设时间内的热点文章构成热点文章库。在本发明中，通过数据获取软件从新浪、网易和今日头条等线上媒体中获取到热点文章。具体的，可以从以上提到的网站中直接获取点击量较大的文章作为热点文章，优选的，可以从这些网站的热点文章排行榜中直接获取排行较高的文章。热点文章具有时限性，一年前的点击量高的文章对于当先来说很大可能性已经并非热点，为了避免抓取到较长时间前的文章，在获取数据时，设定时间限制，仅获取第一预设时间内的热点文章构成热点文章库。具体的，在本发明中，该第一预设时间设定为一个月。可以理解的是，该第一预设时间可以根据需要自由设定。

作为一种优选的实施例，每隔第二预设时间重新从网络中获取第一预设时间内的热点文章构成新的热点文章库。

可以理解的是，热点文章是具有失效性的，只有定期更新热点文章，热点文章库中的文章才能准确的反映当下的热点时事。

对于S2:提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库。

在步骤S1中，获取到了当点热门的热点文章构成热点文章库，在步骤S2中，根据该热点文章库提炼出热点词库。具体的，根据语义分析等方法分析处理热点文章库中的每一个热点文章得到若干分词，再统一每一个分词在这些热点文章中出现的总次数作为该分词的词频。讲这些包含对应词频的分词组合在一起构件成一个热点词库。

可以理解的是，在步骤S1中，每过一个周期重新获取热点文章时，同时对热点词库进行更新。

对于S3:提取入库文章的分词并统计每个分词所对应的词频。

当收集到信息的入库文章时，根据语义分析等方法分析处理入库文章得到入库文章分词，并且统计每个分词在该入库文章中出现的次数作为入库文章的分词的词频。

对于S4:计算入库文章的热度值。

在步骤S4中，根据前面步骤统计的数据计算入库文章的热度。计算入库文章的热度值的具体方法为：通过下述公式计算得到入库文章的每个分词的分词热度值，

其中，score表示分词热度值，subsetFreq表示入库文章的分词中的一个分词的词频，subsetSize表示全部入库文章的分词的词频总和，将入库文章的所有分词的词频相加即可得到。superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频，可以通过该分词，从热点词库中进行搜索，直接匹配到该分词在热点词库中的词频。superSize表示全部热点词库中的分词的词频总和，将热点词库中的所有分词的词频相加即可得到。natureBoost表示入库文章的分词的词性权重。fieldBoost表示入库文章的分词的字段权重。再对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。

可以理解的是，在计算入库文章的热度值时，并不需要对入库文章中的每一个分词进行分词热度值计算，作为一种优选的实施方式，可以根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词。在计算入库文章的热度值时仅针对挑选出的分词进行计算。在本发明中，根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。

natureBoost表示入库文章的分词的词性权重，获取natureBoost的具体方法为：根据入库文章的分词在入库文章中的词性求取平均值。

可以理解的是，入库文章中的分词由于自身的词性的不同，对于分词热度值的贡献也是不同的。一般而言，名词的词性权重为大于等于0.85小于等于0.95，动词的词性权重为大于等于0.65小于等于0.85，形容词的词性权重为大于等于0.5小于等于0.7，副词的词性权重为大于等,0.35小于0.5。

在本实施例中，名词的词性权重为0.9，动词的词性权重设为0.8，形容词0.6，副词0.4。当一个分词的词性为名词时，natureBoost的值为0.9，当一个分词既可以为名词又可以为动词时，根据语义分析出该分词在入库文章中以名词形式出现m次，以动词形式出现n次，此时，natureBoost＝(0.9m+0.8n)/(m+n)，以此类推。以上即为根据入库文章的分词在入库文章中的词性求取平均值。

fieldBoost表示入库文章的分词的字段权重。获取fieldBosst的具体方法为：根据入库文章的分词在入库文章中的字段求取平均值。

可以理解的是，对于同一个分词，其出现在文章的标题中或正文中，其对于分词热度值的贡献也是不同的。一般而言，分词出现在文章的标题中时，其字段权重大于等于0.85小于0.95，分词出现在文章的正文中时，其字段权重大于等于0.6小于等于0.8。

在本实施例中，当分词出现在文章的标题中时，其字段权重为0.9，当分词出现在文章的正文中时，其字段权重为0.7，与前述natureBoost相似的，根据语义分析出该分词出现在入库文章的标题的次数为a，出现在入库文章的正文的次数为b，则此时，fieldBoost＝(0.9a+0.7b)/(a+b)。

对于S5:根据入库文章的热度值判定入库文章是否为热点文章。

具体的，根据入库文章的热度值判定入库文章是否为热点文章的具体方法为：当入库文章的热度值大于预设阈值时，判定入库文章为热点文章。

作为一种优选的实施例，热点文章识别方法还包含以下步骤：

当入库文章的热度值大于预设阈值时，将入库文章添加到热点文章库中对热点文章库进行更新。提取更新后的热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频以对热点词库进行更新。

可以理解的是，当入库文章被判定为热点文章时，将该入库文章添加到热点文章库中，通过新识别出的热点文章对热点文章库进行更新，在对更新后的热点文章库进行处理得到新的热点词库，新的热点词库更新更全，有利于提高热点文章的识别效率和识别的准确度。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种热点文章识别方法，其特征在于，包含以下步骤：

获取若干热点文章构成热点文章库；

提取所述热点文章库中的每一份所述热点文章的分词并统计每个分词所对应的词频构成热点词库；

提取入库文章的分词并统计每个分词所对应的词频；

计算所述入库文章的热度值；

根据所述入库文章的热度值判定所述入库文章是否为热点文章；

所述计算所述入库文章的热度值的具体方法为：

通过下述公式计算得到所述入库文章的每个分词的分词热度值，

其中，score表示所述分词热度值，subsetFreq表示所述入库文章的分词中的一个分词的词频，subsetSize表示全部所述入库文章的分词的词频总和，superFreq表示所述入库文章的分词中的该一个分词在所述热点词库中对应的词频，superSize表示全部所述热点词库中的分词的词频总和，natureBoost表示所述入库文章的分词的词性权重，fieldBoost表示所述入库文章的分词的字段权重；

对计算得到的每个分词的分词热度值进行平均得到所述入库文章的热度值。

2.根据权利要求1所述的热点文章识别方法，其特征在于，

根据所述入库文章的分词的词频从所述入库文章的分词中选择排名前100的分词；

在计算所述入库文章的热度值时仅针对挑选出的分词进行计算。

3.根据权利要求1所述的热点文章识别方法，其特征在于，

获取natureBoost的具体方法为：

根据所述入库文章的分词在所述入库文章中的词性求取平均值。

4.根据权利要求3所述的热点文章识别方法，其特征在于，

获取fieldBosst的具体方法为：

根据所述入库文章的分词在入库文章中的字段求取平均值。

5.根据权利要求1所述的热点文章识别方法，其特征在于，

所述根据所述入库文章的热度值判定所述入库文章是否为热点文章的具体方法为：

当所述入库文章的热度值大于预设阈值时，判定所述入库文章为热点文章。

6.根据权利要求5所述的热点文章识别方法，其特征在于，

所述热点文章识别方法还包含以下步骤：

当所述入库文章的热度值大于预设阈值时，将所述入库文章添加到所述热点文章库中对所述热点文章库进行更新；

提取更新后的所述热点文章库中的每一份所述热点文章的分词并统计每个分词所对应的词频以对所述热点词库进行更新。

7.根据权利要求1所述的热点文章识别方法，其特征在于，

所述获取若干热点文章构成热点文章库的具体方法为：

从网络中获取第一预设时间内的所述热点文章构成所述热点文章库。

8.根据权利要求7所述的热点文章识别方法，其特征在于，

每隔第二预设时间重新从网络中获取第一预设时间内的所述热点文章构成新的所述热点文章库。