CN111666749B - 热点文章识别方法 - Google Patents

热点文章识别方法 Download PDF

Info

Publication number
CN111666749B
CN111666749B CN202010502429.6A CN202010502429A CN111666749B CN 111666749 B CN111666749 B CN 111666749B CN 202010502429 A CN202010502429 A CN 202010502429A CN 111666749 B CN111666749 B CN 111666749B
Authority
CN
China
Prior art keywords
article
warehouse
word
hot spot
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010502429.6A
Other languages
English (en)
Other versions
CN111666749A (zh
Inventor
姚洲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fanews Technology Co ltd
Original Assignee
Hangzhou Fanews Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fanews Technology Co ltd filed Critical Hangzhou Fanews Technology Co ltd
Priority to CN202010502429.6A priority Critical patent/CN111666749B/zh
Publication of CN111666749A publication Critical patent/CN111666749A/zh
Application granted granted Critical
Publication of CN111666749B publication Critical patent/CN111666749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种热点文章识别方法包含以下步骤:获取若干热点文章构成热点文章库;提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库;提取入库文章的分词并统计每个分词所对应的词频;计算入库文章的热度值;根据入库文章的热度值判定入库文章是否为热点文章。本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库,再根据该热点词库计算新入库的入库文章的热度值,根据该热度值快速判定新入库的入库文章是否是热点文章。

Description

热点文章识别方法
技术领域
本发明涉及一种热点文章识别方法。
背景技术
随着互联网行业越来越发达,新闻工作者需要及时发现识别热点文章,从而从热点文章中得到时下大众关注的热点动态。目前,新闻工作者一般根据一些大型网站中的热点文章点击排行榜识别时下较为热点的文章。然而,这种方法依赖于网站对用户点击数据的统计后才能得到热点文章数据,在时效上比较滞后。因为经过大量用户点击的数据统计出的热点文章中的热点新闻已经被大多数用户查看过了,从这些热点文章中提炼出的热点新闻的价值较小。因此,亟需一种无需根据各大网站的点击数据也能够快速识别热点文章的方法。
发明内容
为解决现有技术的不足,本发明提供了一种可以解决上述问题的热点文章识别方法。
为了实现上述目标,本发明采用如下的技术方案:
一种热点文章识别方法,包含以下步骤:
获取若干热点文章构成热点文章库;
提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库;
提取入库文章的分词并统计每个分词所对应的词频;
计算入库文章的热度值;
根据入库文章的热度值判定入库文章是否为热点文章。
进一步地,计算入库文章的热度值的具体方法为:
通过下述公式计算得到入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示分词热度值,subsetFreq表示入库文章的分词中的一个分词的词频,subsetSize表示全部入库文章的分词的词频总和,superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频,superSize表示全部热点词库中的分词的词频总和,natureBoost表示入库文章的分词的词性权重,fieldBoost表示入库文章的分词的字段权重;
对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。
进一步地,根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词;
在计算入库文章的热度值时仅针对挑选出的分词进行计算。
进一步地,根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。
进一步地,获取natureBoost的具体方法为:
根据入库文章的分词在入库文章中的词性求取平均值。
进一步地,获取fieldBosst的具体方法为:
根据入库文章的分词在入库文章中的字段求取平均值。
进一步地,根据入库文章的热度值判定入库文章是否为热点文章的具体方法为:
当入库文章的热度值大于预设阈值时,判定入库文章为热点文章。
进一步地,热点文章识别方法还包含以下步骤:
当入库文章的热度值大于预设阈值时,将入库文章添加到热点文章库中对热点文章库进行更新;
提取更新后的热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频以对热点词库进行更新。
进一步地,获取若干热点文章构成热点文章库的具体方法为:
从网络中获取第一预设时间内的热点文章构成热点文章库。
进一步地,每隔第二预设时间重新从网络中获取第一预设时间内的热点文章构成新的热点文章库。
本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库,再根据该热点词库计算新入库的入库文章的热度值,根据该热度值快速判定新入库的入库文章是否是热点文章。
本发明的有益之处还在于提供的热点文章识别方法,在识别出新入库的入库文章为热点文章后,将该入库文章添加到热点文章库中,并进一步的通过新的热点文章库构建一个新的热点词库。新的热点词库更新更全,有利于提高热点文章的识别效率和识别的准确度。
附图说明
图1是本发明的热点文章识别方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种热点文章识别方法,包含以下步骤:S1:获取若干热点文章构成热点文章库。S2:提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库。S3:提取入库文章的分词并统计每个分词所对应的词频。S4:计算入库文章的热度值。S5:根据入库文章的热度值判定入库文章是否为热点文章。通过以上步骤,首先获取到当下比较热门的热点文章,从热点文章中提炼出热点词库。根据热点词库计算出新入库入库文章的热度值,根据该热度值判定新入库的入库文章是否为热点文章。以下具体介绍上述步骤。
对于S1:获取若干热点文章构成热点文章库。
具体的,从网络中获取第一预设时间内的热点文章构成热点文章库。在本发明中,通过数据获取软件从新浪、网易和今日头条等线上媒体中获取到热点文章。具体的,可以从以上提到的网站中直接获取点击量较大的文章作为热点文章,优选的,可以从这些网站的热点文章排行榜中直接获取排行较高的文章。热点文章具有时限性,一年前的点击量高的文章对于当先来说很大可能性已经并非热点,为了避免抓取到较长时间前的文章,在获取数据时,设定时间限制,仅获取第一预设时间内的热点文章构成热点文章库。具体的,在本发明中,该第一预设时间设定为一个月。可以理解的是,该第一预设时间可以根据需要自由设定。
作为一种优选的实施例,每隔第二预设时间重新从网络中获取第一预设时间内的热点文章构成新的热点文章库。
可以理解的是,热点文章是具有失效性的,只有定期更新热点文章,热点文章库中的文章才能准确的反映当下的热点时事。
对于S2:提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库。
在步骤S1中,获取到了当点热门的热点文章构成热点文章库,在步骤S2中,根据该热点文章库提炼出热点词库。具体的,根据语义分析等方法分析处理热点文章库中的每一个热点文章得到若干分词,再统一每一个分词在这些热点文章中出现的总次数作为该分词的词频。讲这些包含对应词频的分词组合在一起构件成一个热点词库。
可以理解的是,在步骤S1中,每过一个周期重新获取热点文章时,同时对热点词库进行更新。
对于S3:提取入库文章的分词并统计每个分词所对应的词频。
当收集到信息的入库文章时,根据语义分析等方法分析处理入库文章得到入库文章分词,并且统计每个分词在该入库文章中出现的次数作为入库文章的分词的词频。
对于S4:计算入库文章的热度值。
在步骤S4中,根据前面步骤统计的数据计算入库文章的热度。计算入库文章的热度值的具体方法为:通过下述公式计算得到入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示分词热度值,subsetFreq表示入库文章的分词中的一个分词的词频,subsetSize表示全部入库文章的分词的词频总和,将入库文章的所有分词的词频相加即可得到。superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频,可以通过该分词,从热点词库中进行搜索,直接匹配到该分词在热点词库中的词频。superSize表示全部热点词库中的分词的词频总和,将热点词库中的所有分词的词频相加即可得到。natureBoost表示入库文章的分词的词性权重。fieldBoost表示入库文章的分词的字段权重。再对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。
可以理解的是,在计算入库文章的热度值时,并不需要对入库文章中的每一个分词进行分词热度值计算,作为一种优选的实施方式,可以根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词。在计算入库文章的热度值时仅针对挑选出的分词进行计算。在本发明中,根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。
natureBoost表示入库文章的分词的词性权重,获取natureBoost的具体方法为:根据入库文章的分词在入库文章中的词性求取平均值。
可以理解的是,入库文章中的分词由于自身的词性的不同,对于分词热度值的贡献也是不同的。一般而言,名词的词性权重为大于等于0.85小于等于0.95,动词的词性权重为大于等于0.65小于等于0.85,形容词的词性权重为大于等于0.5小于等于0.7,副词的词性权重为大于等,0.35小于0.5。
在本实施例中,名词的词性权重为0.9,动词的词性权重设为0.8,形容词0.6,副词0.4。当一个分词的词性为名词时,natureBoost的值为0.9,当一个分词既可以为名词又可以为动词时,根据语义分析出该分词在入库文章中以名词形式出现m次,以动词形式出现n次,此时,natureBoost=(0.9m+0.8n)/(m+n),以此类推。以上即为根据入库文章的分词在入库文章中的词性求取平均值。
fieldBoost表示入库文章的分词的字段权重。获取fieldBosst的具体方法为:根据入库文章的分词在入库文章中的字段求取平均值。
可以理解的是,对于同一个分词,其出现在文章的标题中或正文中,其对于分词热度值的贡献也是不同的。一般而言,分词出现在文章的标题中时,其字段权重大于等于0.85小于0.95,分词出现在文章的正文中时,其字段权重大于等于0.6小于等于0.8。
在本实施例中,当分词出现在文章的标题中时,其字段权重为0.9,当分词出现在文章的正文中时,其字段权重为0.7,与前述natureBoost相似的,根据语义分析出该分词出现在入库文章的标题的次数为a,出现在入库文章的正文的次数为b,则此时,fieldBoost=(0.9a+0.7b)/(a+b)。
对于S5:根据入库文章的热度值判定入库文章是否为热点文章。
具体的,根据入库文章的热度值判定入库文章是否为热点文章的具体方法为:当入库文章的热度值大于预设阈值时,判定入库文章为热点文章。
作为一种优选的实施例,热点文章识别方法还包含以下步骤:
当入库文章的热度值大于预设阈值时,将入库文章添加到热点文章库中对热点文章库进行更新。提取更新后的热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频以对热点词库进行更新。
可以理解的是,当入库文章被判定为热点文章时,将该入库文章添加到热点文章库中,通过新识别出的热点文章对热点文章库进行更新,在对更新后的热点文章库进行处理得到新的热点词库,新的热点词库更新更全,有利于提高热点文章的识别效率和识别的准确度。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种热点文章识别方法,其特征在于,包含以下步骤:
获取若干热点文章构成热点文章库;
提取所述热点文章库中的每一份所述热点文章的分词并统计每个分词所对应的词频构成热点词库;
提取入库文章的分词并统计每个分词所对应的词频;
计算所述入库文章的热度值;
根据所述入库文章的热度值判定所述入库文章是否为热点文章;
所述计算所述入库文章的热度值的具体方法为:
通过下述公式计算得到所述入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示所述分词热度值,subsetFreq表示所述入库文章的分词中的一个分词的词频,subsetSize表示全部所述入库文章的分词的词频总和,superFreq表示所述入库文章的分词中的该一个分词在所述热点词库中对应的词频,superSize表示全部所述热点词库中的分词的词频总和,natureBoost表示所述入库文章的分词的词性权重,fieldBoost表示所述入库文章的分词的字段权重;
对计算得到的每个分词的分词热度值进行平均得到所述入库文章的热度值。
2.根据权利要求1所述的热点文章识别方法,其特征在于,
根据所述入库文章的分词的词频从所述入库文章的分词中选择排名前100的分词;
在计算所述入库文章的热度值时仅针对挑选出的分词进行计算。
3.根据权利要求1所述的热点文章识别方法,其特征在于,
获取natureBoost的具体方法为:
根据所述入库文章的分词在所述入库文章中的词性求取平均值。
4.根据权利要求3所述的热点文章识别方法,其特征在于,
获取fieldBosst的具体方法为:
根据所述入库文章的分词在入库文章中的字段求取平均值。
5.根据权利要求1所述的热点文章识别方法,其特征在于,
所述根据所述入库文章的热度值判定所述入库文章是否为热点文章的具体方法为:
当所述入库文章的热度值大于预设阈值时,判定所述入库文章为热点文章。
6.根据权利要求5所述的热点文章识别方法,其特征在于,
所述热点文章识别方法还包含以下步骤:
当所述入库文章的热度值大于预设阈值时,将所述入库文章添加到所述热点文章库中对所述热点文章库进行更新;
提取更新后的所述热点文章库中的每一份所述热点文章的分词并统计每个分词所对应的词频以对所述热点词库进行更新。
7.根据权利要求1所述的热点文章识别方法,其特征在于,
所述获取若干热点文章构成热点文章库的具体方法为:
从网络中获取第一预设时间内的所述热点文章构成所述热点文章库。
8.根据权利要求7所述的热点文章识别方法,其特征在于,
每隔第二预设时间重新从网络中获取第一预设时间内的所述热点文章构成新的所述热点文章库。
CN202010502429.6A 2020-06-03 2020-06-03 热点文章识别方法 Active CN111666749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502429.6A CN111666749B (zh) 2020-06-03 2020-06-03 热点文章识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502429.6A CN111666749B (zh) 2020-06-03 2020-06-03 热点文章识别方法

Publications (2)

Publication Number Publication Date
CN111666749A CN111666749A (zh) 2020-09-15
CN111666749B true CN111666749B (zh) 2023-09-19

Family

ID=72386400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502429.6A Active CN111666749B (zh) 2020-06-03 2020-06-03 热点文章识别方法

Country Status (1)

Country Link
CN (1) CN111666749B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095073B (zh) * 2021-03-12 2022-04-19 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259666A (ja) * 1999-03-11 2000-09-22 Nippon Hoso Kyokai <Nhk> トピック抽出装置
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及***
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN109213845A (zh) * 2018-09-06 2019-01-15 杭州凡闻科技有限公司 基于文章特征的原创新闻评估方法和***
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及***
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和***
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026514B2 (en) * 2006-10-13 2015-05-05 International Business Machines Corporation Method, apparatus and article for assigning a similarity measure to names
US10699077B2 (en) * 2017-01-13 2020-06-30 Oath Inc. Scalable multilingual named-entity recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259666A (ja) * 1999-03-11 2000-09-22 Nippon Hoso Kyokai <Nhk> トピック抽出装置
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及***
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN109213845A (zh) * 2018-09-06 2019-01-15 杭州凡闻科技有限公司 基于文章特征的原创新闻评估方法和***
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及***
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和***
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Miller B N,.MovieLens Unplugged:Experiences with an Occasionally Connected Recommender System.《InProceedings of ACM 2003 International Conference 0n Intelligent User Interfaces》.2003,第263-266页. *
林翰轩 ; 耿琛明 ; 史景宏 ; .基于WEB热词挖掘的热点方向预测.数码世界.2017,(第11期),第448页. *
田丹 ; 刘奕杉 ; 王玉琳 ; .热点分析类文章的文献计量分析――以词频分析方法为例.情报科学.2017,(第08期),第166-171页. *

Also Published As

Publication number Publication date
CN111666749A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US7636714B1 (en) Determining query term synonyms within query context
CN109190017B (zh) 热点信息的确定方法、装置、服务器及存储介质
AU2006290977B2 (en) Ranking blog documents
US20090210409A1 (en) Increasing online search engine rankings using click through data
KR20150036117A (ko) 쿼리 확장
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和***
US8122022B1 (en) Abbreviation detection for common synonym generation
WO2008092254A1 (en) An automated media analysis and document management system
WO2017012222A1 (zh) 时效需求识别方法、装置、设备及非易失性计算机存储介质
EP3232336A1 (en) Method and device for recognizing stop word
CN101383782A (zh) 一种获取网络资源标识的方法及***
US8838580B2 (en) Method and system for providing keyword ranking using common affix
Li et al. Search engine click spam detection based on bipartite graph propagation
WO2014150155A1 (en) Systems and methods for analyzing failed and successful search queries
JP2013061756A (ja) 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
CN111026965A (zh) 基于知识图谱的热点话题追溯方法及装置
US6718323B2 (en) Automatic method for quantifying the relevance of intra-document search results
CN111666749B (zh) 热点文章识别方法
CN116522930A (zh) 一种热词提取方法、装置及存储介质
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
CN105005555A (zh) 基于聊天时间的关键词提取方法及装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN110019763B (zh) 文本过滤方法、***、设备及计算机可读存储介质
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant