CN111666749A - 热点文章识别方法 - Google Patents
热点文章识别方法 Download PDFInfo
- Publication number
- CN111666749A CN111666749A CN202010502429.6A CN202010502429A CN111666749A CN 111666749 A CN111666749 A CN 111666749A CN 202010502429 A CN202010502429 A CN 202010502429A CN 111666749 A CN111666749 A CN 111666749A
- Authority
- CN
- China
- Prior art keywords
- article
- hot
- word
- storage
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热点文章识别方法包含以下步骤:获取若干热点文章构成热点文章库;提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库;提取入库文章的分词并统计每个分词所对应的词频;计算入库文章的热度值;根据入库文章的热度值判定入库文章是否为热点文章。本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库,再根据该热点词库计算新入库的入库文章的热度值,根据该热度值快速判定新入库的入库文章是否是热点文章。
Description
技术领域
本发明涉及一种热点文章识别方法。
背景技术
随着互联网行业越来越发达,新闻工作者需要及时发现识别热点文章,从而从热点文章中得到时下大众关注的热点动态。目前,新闻工作者一般根据一些大型网站中的热点文章点击排行榜识别时下较为热点的文章。然而,这种方法依赖于网站对用户点击数据的统计后才能得到热点文章数据,在时效上比较滞后。因为经过大量用户点击的数据统计出的热点文章中的热点新闻已经被大多数用户查看过了,从这些热点文章中提炼出的热点新闻的价值较小。因此,亟需一种无需根据各大网站的点击数据也能够快速识别热点文章的方法。
发明内容
为解决现有技术的不足,本发明提供了一种可以解决上述问题的热点文章识别方法。
为了实现上述目标,本发明采用如下的技术方案:
一种热点文章识别方法,包含以下步骤:
获取若干热点文章构成热点文章库;
提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库;
提取入库文章的分词并统计每个分词所对应的词频;
计算入库文章的热度值;
根据入库文章的热度值判定入库文章是否为热点文章。
进一步地,计算入库文章的热度值的具体方法为:
通过下述公式计算得到入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示分词热度值,subsetFreq表示入库文章的分词中的一个分词的词频,subsetSize表示全部入库文章的分词的词频总和,superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频,superSize表示全部热点词库中的分词的词频总和,natureBoost表示入库文章的分词的词性权重,fieldBoost表示入库文章的分词的字段权重;
对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。
进一步地,根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词;
在计算入库文章的热度值时仅针对挑选出的分词进行计算。
进一步地,根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。
进一步地,获取natureBoost的具体方法为:
根据入库文章的分词在入库文章中的词性求取平均值。
进一步地,获取fieldBosst的具体方法为:
根据入库文章的分词在入库文章中的字段求取平均值。
进一步地,根据入库文章的热度值判定入库文章是否为热点文章的具体方法为:
当入库文章的热度值大于预设阈值时,判定入库文章为热点文章。
进一步地,热点文章识别方法还包含以下步骤:
当入库文章的热度值大于预设阈值时,将入库文章添加到热点文章库中对热点文章库进行更新;
提取更新后的热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频以对热点词库进行更新。
进一步地,获取若干热点文章构成热点文章库的具体方法为:
从网络中获取第一预设时间内的热点文章构成热点文章库。
进一步地,每隔第二预设时间重新从网络中获取第一预设时间内的热点文章构成新的热点文章库。
本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库,再根据该热点词库计算新入库的入库文章的热度值,根据该热度值快速判定新入库的入库文章是否是热点文章。
本发明的有益之处还在于提供的热点文章识别方法,在识别出新入库的入库文章为热点文章后,将该入库文章添加到热点文章库中,并进一步的通过新的热点文章库构建一个新的热点词库。新的热点词库更新更全,有利于提高热点文章的识别效率和识别的准确度。
附图说明
图1是本发明的热点文章识别方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种热点文章识别方法,包含以下步骤:S1:获取若干热点文章构成热点文章库。S2:提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库。S3:提取入库文章的分词并统计每个分词所对应的词频。S4:计算入库文章的热度值。S5:根据入库文章的热度值判定入库文章是否为热点文章。通过以上步骤,首先获取到当下比较热门的热点文章,从热点文章中提炼出热点词库。根据热点词库计算出新入库入库文章的热度值,根据该热度值判定新入库的入库文章是否为热点文章。以下具体介绍上述步骤。
对于S1:获取若干热点文章构成热点文章库。
具体的,从网络中获取第一预设时间内的热点文章构成热点文章库。在本发明中,通过数据获取软件从新浪、网易和今日头条等线上媒体中获取到热点文章。具体的,可以从以上提到的网站中直接获取点击量较大的文章作为热点文章,优选的,可以从这些网站的热点文章排行榜中直接获取排行较高的文章。热点文章具有时限性,一年前的点击量高的文章对于当先来说很大可能性已经并非热点,为了避免抓取到较长时间前的文章,在获取数据时,设定时间限制,仅获取第一预设时间内的热点文章构成热点文章库。具体的,在本发明中,该第一预设时间设定为一个月。可以理解的是,该第一预设时间可以根据需要自由设定。
作为一种优选的实施例,每隔第二预设时间重新从网络中获取第一预设时间内的热点文章构成新的热点文章库。
可以理解的是,热点文章是具有失效性的,只有定期更新热点文章,热点文章库中的文章才能准确的反映当下的热点时事。
对于S2:提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库。
在步骤S1中,获取到了当点热门的热点文章构成热点文章库,在步骤S2中,根据该热点文章库提炼出热点词库。具体的,根据语义分析等方法分析处理热点文章库中的每一个热点文章得到若干分词,再统一每一个分词在这些热点文章中出现的总次数作为该分词的词频。讲这些包含对应词频的分词组合在一起构件成一个热点词库。
可以理解的是,在步骤S1中,每过一个周期重新获取热点文章时,同时对热点词库进行更新。
对于S3:提取入库文章的分词并统计每个分词所对应的词频。
当收集到信息的入库文章时,根据语义分析等方法分析处理入库文章得到入库文章分词,并且统计每个分词在该入库文章中出现的次数作为入库文章的分词的词频。
对于S4:计算入库文章的热度值。
在步骤S4中,根据前面步骤统计的数据计算入库文章的热度。计算入库文章的热度值的具体方法为:通过下述公式计算得到入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示分词热度值,subsetFreq表示入库文章的分词中的一个分词的词频,subsetSize表示全部入库文章的分词的词频总和,将入库文章的所有分词的词频相加即可得到。superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频,可以通过该分词,从热点词库中进行搜索,直接匹配到该分词在热点词库中的词频。superSize表示全部热点词库中的分词的词频总和,将热点词库中的所有分词的词频相加即可得到。natureBoost表示入库文章的分词的词性权重。fieldBoost表示入库文章的分词的字段权重。再对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。
可以理解的是,在计算入库文章的热度值时,并不需要对入库文章中的每一个分词进行分词热度值计算,作为一种优选的实施方式,可以根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词。在计算入库文章的热度值时仅针对挑选出的分词进行计算。在本发明中,根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。
natureBoost表示入库文章的分词的词性权重,获取natureBoost的具体方法为:根据入库文章的分词在入库文章中的词性求取平均值。
可以理解的是,入库文章中的分词由于自身的词性的不同,对于分词热度值的贡献也是不同的。一般而言,名词的词性权重为大于等于0.85小于等于0.95,动词的词性权重为大于等于0.65小于等于0.85,形容词的词性权重为大于等于0.5小于等于0.7,副词的词性权重为大于等,0.35小于0.5。
在本实施例中,名词的词性权重为0.9,动词的词性权重设为0.8,形容词0.6,副词0.4。当一个分词的词性为名词时,natureBoost的值为0.9,当一个分词既可以为名词又可以为动词时,根据语义分析出该分词在入库文章中以名词形式出现m次,以动词形式出现n次,此时,natureBoost=(0.9m+0.8n)/(m+n),以此类推。以上即为根据入库文章的分词在入库文章中的词性求取平均值。
fieldBoost表示入库文章的分词的字段权重。获取fieldBosst的具体方法为:根据入库文章的分词在入库文章中的字段求取平均值。
可以理解的是,对于同一个分词,其出现在文章的标题中或正文中,其对于分词热度值的贡献也是不同的。一般而言,分词出现在文章的标题中时,其字段权重大于等于0.85小于0.95,分词出现在文章的正文中时,其字段权重大于等于0.6小于等于0.8。
在本实施例中,当分词出现在文章的标题中时,其字段权重为0.9,当分词出现在文章的正文中时,其字段权重为0.7,与前述natureBoost相似的,根据语义分析出该分词出现在入库文章的标题的次数为a,出现在入库文章的正文的次数为b,则此时,fieldBoost=(0.9a+0.7b)/(a+b)。
对于S5:根据入库文章的热度值判定入库文章是否为热点文章。
具体的,根据入库文章的热度值判定入库文章是否为热点文章的具体方法为:当入库文章的热度值大于预设阈值时,判定入库文章为热点文章。
作为一种优选的实施例,热点文章识别方法还包含以下步骤:
当入库文章的热度值大于预设阈值时,将入库文章添加到热点文章库中对热点文章库进行更新。提取更新后的热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频以对热点词库进行更新。
可以理解的是,当入库文章被判定为热点文章时,将该入库文章添加到热点文章库中,通过新识别出的热点文章对热点文章库进行更新,在对更新后的热点文章库进行处理得到新的热点词库,新的热点词库更新更全,有利于提高热点文章的识别效率和识别的准确度。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种热点文章识别方法,其特征在于,包含以下步骤:
获取若干热点文章构成热点文章库;
提取所述热点文章库中的每一份所述热点文章的分词并统计每个分词所对应的词频构成热点词库;
提取入库文章的分词并统计每个分词所对应的词频;
计算所述入库文章的热度值;
根据所述入库文章的热度值判定所述入库文章是否为热点文章。
2.根据权利要求1所述的热点文章识别方法,其特征在于,
所述计算所述入库文章的热度值的具体方法为:
通过下述公式计算得到所述入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示所述分词热度值,subsetFreq表示所述入库文章的分词中的一个分词的词频,subsetSize表示全部所述入库文章的分词的词频总和,superFreq表示所述入库文章的分词中的该一个分词在所述热点词库中对应的词频,superSize表示全部所述热点词库中的分词的词频总和,natureBoost表示所述入库文章的分词的词性权重,fieldBoost表示所述入库文章的分词的字段权重;
对计算得到的每个分词的分词热度值进行平均得到所述入库文章的热度值。
3.根据权利要求2所述的热点文章识别方法,其特征在于,
根据所述入库文章的分词的词频从所述入库文章的分词中选择部分词频较大的分词;
在计算所述入库文章的热度值时仅针对挑选出的分词进行计算。
4.根据权利要求3所述的热点文章识别方法,其特征在于,
根据所述入库文章的分词的词频从所述入库文章的分词中选择排名前100的分词。
5.根据权利要求2所述的热点文章识别方法,其特征在于,
获取natureBoost的具体方法为:
根据所述入库文章的分词在所述入库文章中的词性求取平均值。
6.根据权利要求5所述的热点文章识别方法,其特征在于,
获取fieldBosst的具体方法为:
根据所述入库文章的分词在入库文章中的字段求取平均值。
7.根据权利要求2所述的热点文章识别方法,其特征在于,
所述根据所述入库文章的热度值判定所述入库文章是否为热点文章的具体方法为:
当所述入库文章的热度值大于预设阈值时,判定所述入库文章为热点文章。
8.根据权利要求7所述的热点文章识别方法,其特征在于,
所述热点文章识别方法还包含以下步骤:
当所述入库文章的热度值大于预设阈值时,将所述入库文章添加到所述热点文章库中对所述热点文章库进行更新;
提取更新后的所述热点文章库中的每一份所述热点文章的分词并统计每个分词所对应的词频以对所述热点词库进行更新。
9.根据权利要求1所述的热点文章识别方法,其特征在于,
所述获取若干热点文章构成热点文章库的具体方法为:
从网络中获取第一预设时间内的所述热点文章构成所述热点文章库。
10.根据权利要求9所述的热点文章识别方法,其特征在于,
每隔第二预设时间重新从网络中获取第一预设时间内的所述热点文章构成新的所述热点文章库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502429.6A CN111666749B (zh) | 2020-06-03 | 2020-06-03 | 热点文章识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502429.6A CN111666749B (zh) | 2020-06-03 | 2020-06-03 | 热点文章识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666749A true CN111666749A (zh) | 2020-09-15 |
CN111666749B CN111666749B (zh) | 2023-09-19 |
Family
ID=72386400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010502429.6A Active CN111666749B (zh) | 2020-06-03 | 2020-06-03 | 热点文章识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666749B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095073A (zh) * | 2021-03-12 | 2021-07-09 | 深圳索信达数据技术有限公司 | 语料标签生成方法、装置、计算机设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259666A (ja) * | 1999-03-11 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | トピック抽出装置 |
US20080091674A1 (en) * | 2006-10-13 | 2008-04-17 | Thomas Bradley Allen | Method, apparatus and article for assigning a similarity measure to names |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及*** |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
US20180203843A1 (en) * | 2017-01-13 | 2018-07-19 | Yahoo! Inc. | Scalable Multilingual Named-Entity Recognition |
CN109213845A (zh) * | 2018-09-06 | 2019-01-15 | 杭州凡闻科技有限公司 | 基于文章特征的原创新闻评估方法和*** |
CN109376231A (zh) * | 2018-09-29 | 2019-02-22 | 杭州凡闻科技有限公司 | 一种媒体热点跟踪方法及*** |
CN109815499A (zh) * | 2019-01-25 | 2019-05-28 | 杭州凡闻科技有限公司 | 信息关联方法和*** |
JP2020064630A (ja) * | 2019-10-11 | 2020-04-23 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
-
2020
- 2020-06-03 CN CN202010502429.6A patent/CN111666749B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259666A (ja) * | 1999-03-11 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | トピック抽出装置 |
US20080091674A1 (en) * | 2006-10-13 | 2008-04-17 | Thomas Bradley Allen | Method, apparatus and article for assigning a similarity measure to names |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及*** |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
US20180203843A1 (en) * | 2017-01-13 | 2018-07-19 | Yahoo! Inc. | Scalable Multilingual Named-Entity Recognition |
CN109213845A (zh) * | 2018-09-06 | 2019-01-15 | 杭州凡闻科技有限公司 | 基于文章特征的原创新闻评估方法和*** |
CN109376231A (zh) * | 2018-09-29 | 2019-02-22 | 杭州凡闻科技有限公司 | 一种媒体热点跟踪方法及*** |
CN109815499A (zh) * | 2019-01-25 | 2019-05-28 | 杭州凡闻科技有限公司 | 信息关联方法和*** |
JP2020064630A (ja) * | 2019-10-11 | 2020-04-23 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
Non-Patent Citations (3)
Title |
---|
MILLER B N,: "MovieLens Unplugged:Experiences with an Occasionally Connected Recommender System" * |
林翰轩;耿琛明;史景宏;: "基于WEB热词挖掘的热点方向预测" * |
田丹;刘奕杉;王玉琳;: "热点分析类文章的文献计量分析――以词频分析方法为例" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095073A (zh) * | 2021-03-12 | 2021-07-09 | 深圳索信达数据技术有限公司 | 语料标签生成方法、装置、计算机设备和存储介质 |
CN113095073B (zh) * | 2021-03-12 | 2022-04-19 | 深圳索信达数据技术有限公司 | 语料标签生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111666749B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997256B2 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和*** | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和*** | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN104978356B (zh) | 一种同义词的识别方法及装置 | |
KR20150036117A (ko) | 쿼리 확장 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN104866554B (zh) | 一种基于社会化标注的个性化搜索方法及*** | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
US9245035B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
CN107688563B (zh) | 一种同义词的识别方法及识别装置 | |
CN111026965A (zh) | 基于知识图谱的热点话题追溯方法及装置 | |
US20190065611A1 (en) | Search method and apparatus | |
CN112182351A (zh) | 一种基于多特征融合的新闻推荐方法及装置 | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
CN111666749A (zh) | 热点文章识别方法 | |
CN105095203B (zh) | 同义词的确定、搜索方法及服务器 | |
Ceroni et al. | Improving event detection by automatically assessing validity of event occurrence in text | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
CN106919649B (zh) | 一种词条权重计算的方法及装置 | |
CN114943285B (zh) | 互联网新闻内容数据智能审核*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |