CN107122481A - 新闻热度实时在线预测方法 - Google Patents

新闻热度实时在线预测方法 Download PDF

Info

Publication number
CN107122481A
CN107122481A CN201710308998.5A CN201710308998A CN107122481A CN 107122481 A CN107122481 A CN 107122481A CN 201710308998 A CN201710308998 A CN 201710308998A CN 107122481 A CN107122481 A CN 107122481A
Authority
CN
China
Prior art keywords
calorific value
word
hot
hot word
temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710308998.5A
Other languages
English (en)
Other versions
CN107122481B (zh
Inventor
余军
卢品吟
刘盾
张汨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Hua Seiun Technology Co Ltd
Original Assignee
Chengdu Hua Seiun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Hua Seiun Technology Co Ltd filed Critical Chengdu Hua Seiun Technology Co Ltd
Priority to CN201710308998.5A priority Critical patent/CN107122481B/zh
Publication of CN107122481A publication Critical patent/CN107122481A/zh
Application granted granted Critical
Publication of CN107122481B publication Critical patent/CN107122481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种新闻热度实时在线预测方法包括两大部分,热点事件分析与建模和最新新闻热度预测,将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;不断更新上述热词和热词对的热值表;利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。本发明能够全面分析热点话题并及时更新热点新闻。

Description

新闻热度实时在线预测方法
技术领域
本发明涉及新闻资讯领域,具体涉及一种新闻热度实时在线预测方法。
背景技术
随着互联网技术的快速发展,网络舆情越来越影响社会的稳定发展,监控网络舆情是政府维护社会安定的一个重要环节。作为舆情监控其中的一个环节,热点新闻的预测显得尤其关键。微博以其独特的传播特性和实时交互特性改变着传统新闻信息的传播方式。尤其微博和移动终端的的结合,使微博信息能够更加快速的被转发或评论,微博平台上大量的用户评论和交流信息能够快速汇集为观点,从而形成一定的舆论走向。微博天然的开放性、实时性、交互性、海量性和易检性,构成了热点新闻预测的基础。通过综合分析新闻在微博平台的话题量判断新闻的热度。
传统的舆情热点话题仅仅是通过点击数、转发数、评论数等数据进行判断,但这种热点话题预测技术并不能够全面分析热点话题的特征,而且对热点新闻的提取不够及时。
发明内容
本发明的目的在于克服现有技术的不足,提供一种新闻热度实时在线预测方法,能够全面分析热点话题并及时更新热点新闻。
本发明的目的是通过以下技术方案来实现的:
一种新闻热度实时在线预测方法,包括以下两大部分:
热点事件分析与建模,包括以下步骤:
S01:对发生过的热点事件,人工确定关键词,基于人工确定的关键词,从网络爬取各种该热点事件相关的资讯;
S02:事件热度值评估,利用网络爬取的信息总量,给事件的热度打分,信息总量越大的,分值越高,上不封顶;
S03:对爬取的信息进行热词分析,找出20%热度最高的词汇;
S04:对已知的热点事件进行热点事件建模,分析各种词条对热度的贡献率,以及词条组合对事件热度的联合贡献率;
S05:利用事件热度值和热词对事件的贡献率,以及热词组合对事件的贡献率,计算热词的热值,计算公式为:热词热值=事件热值×热词频率/所有热词的频率之和;热词对热值=事件热值×热词对频率/所有热词对的频率之和;
S06:将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;
S07:不断更新上述热词和热词对的热值表;
最新新闻热度预测,包括以下步骤:
S11:实时采集各种来源的资讯,包括但不限于新闻,微博,论坛,贴吧的内容;
S12:对上述采集到的资讯进行分词,去掉停用词,得到新闻相关的词汇;
S13:利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;
S14:将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。
进一步的,所述的步骤S01中的网络包括各大新闻网站、微博、微信、论坛、贴吧,政府网站等不同渠道包含有该关键词的文章、微博、微信的内容。
进一步的,所述的步骤S02中事件热度值的计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100。
进一步的,所述的步骤S03中热词分析包括以下步骤,首先需要去除停用词,然后采用出现频率对词汇进行打分,词频指该词汇在所有内容中出现的次数,按得分搞定找出热度最高的20%的词汇。
本发明的有益效果是:本发明通过对当下热点事件进行分析,对个热点事件进行评分梳理事件热度形成热点事件表,然后针对热点事件表对采集的热点词汇进行打分,并通过一系列的计算得到相应的热度值,从而实现了全面实时的分析当下热点事件及时更新新闻热点。
具体实施方式
一种新闻热度实时在线预测方法,包括以下两大部分:
热点事件分析与建模,包括以下步骤:
S01:对发生过的热点事件,人工确定关键词,基于人工确定的关键词,从网络爬取各种该热点事件相关的资讯;包括各大新闻网站,微博,微信,论坛,贴吧,政府网站等不同渠道包含有该关键词的文章,微博,微信等内容。
S02:事件热度值评估,利用网络爬取的信息总量,给事件的热度打分,信息总量越大的,分值越高,上不封顶;不同的信息来源,可以人工设定权值,越重要的信息来源,对评分影响的权值越高,可以根据业务场景进行不断调整,例如对于新闻事件而言,来源于公信力高的网站,例如人民网,新华网等,可以设定较高的权值,对于娱乐事件而言,来源于明星大V的微博信息,可以给予较高的分值。
S03:对爬取的信息进行热词分析,找出20%热度最高的词汇;热词分析,首先需要去除停用词,然后采用出现频率对词汇进行打分,词频指该词汇在所有内容中出现的次数,按得分搞定找出热度最高的20%的词汇,例如在某条体育新闻中,“足球”在文中出现的次数为10,则词汇“足球”的词频值为10,该专题下所有新闻中“足球”词频值相加,在所有单词的词频中排列在前20%,则“足球”为改专题下的热词之一。
S04:对已知的热点事件进行热点事件建模,分析各种词条对热度的贡献率,以及词条组合对事件热度的联合贡献率;
S05:利用事件热度值和热词对事件的贡献率,以及热词组合对事件的贡献率,计算热词的热值,计算公式为:热词热值=事件热值×热词频率/所有热词的频率之和;热词对热值=事件热值×热词对频率/所有热词对的频率之和;
S06:将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;
S07:不断更新上述热词和热词对的热值表;
进一步的,所述的步骤S02中事件热度值的计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100,例如人民网,新华网等高权值网站来源新闻k值为100,微博等自媒体渠道普通用户新闻k值为1。
最新新闻热度预测,包括以下步骤:
S11:实时采集各种来源的资讯,包括但不限于新闻,微博,论坛,贴吧的内容;
S12:对上述采集到的资讯进行分词,去掉停用词,得到新闻相关的词汇;
S13:利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100。即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;
S14:将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (4)

1.一种新闻热度实时在线预测方法,其特征在于包括以下两大部分:
热点事件分析与建模,包括以下步骤:
S01:对发生过的热点事件,人工确定关键词,基于人工确定的关键词,从网络爬取各种该热点事件相关的资讯;
S02:事件热度值评估,利用网络爬取的信息总量,给事件的热度打分,信息总量越大的,分值越高,上不封顶;
S03:对爬取的信息进行热词分析,找出20%热度最高的词汇;
S04:对已知的热点事件进行热点事件建模,分析各种词条对热度的贡献率,以及词条组合对事件热度的联合贡献率;
S05:利用事件热度值和热词对事件的贡献率,以及热词组合对事件的贡献率,计算热词的热值,计算公式为:热词热值=事件热值×热词频率/所有热词的频率之和;热词对热值=事件热值×热词对频率/所有热词对的频率之和;
S06:将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;
S07:不断更新上述热词和热词对的热值表;
最新新闻热度预测,包括以下步骤:
S11:实时采集各种来源的资讯,包括但不限于新闻,微博,论坛,贴吧的内容;
S12:对上述采集到的资讯进行分词,去掉停用词,得到新闻相关的词汇;
S13:利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;
S14:将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。
2.根据权利要求1所述的一种新闻热度实时在线预测方法,其特征在于:所述的步骤S01中的网络包括各大新闻网站、微博、微信、论坛、贴吧,政府网站的不同渠道包含有该关键词的文章、微博、微信的内容。
3.根据权利要求1所述的一种新闻热度实时在线预测方法,其特征在于:所述的步骤S02中事件热度值的计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100。
4.根据权利要求1所述的一种新闻热度实时在线预测方法,其特征在于:所述的步骤S03中热词分析包括以下步骤,首先需要去除停用词,然后采用出现频率对词汇进行打分,词频指该词汇在所有内容中出现的次数,按得分搞定找出热度最高的20%的词汇。
CN201710308998.5A 2017-05-04 2017-05-04 新闻热度实时在线预测方法 Active CN107122481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710308998.5A CN107122481B (zh) 2017-05-04 2017-05-04 新闻热度实时在线预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710308998.5A CN107122481B (zh) 2017-05-04 2017-05-04 新闻热度实时在线预测方法

Publications (2)

Publication Number Publication Date
CN107122481A true CN107122481A (zh) 2017-09-01
CN107122481B CN107122481B (zh) 2020-06-30

Family

ID=59726634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710308998.5A Active CN107122481B (zh) 2017-05-04 2017-05-04 新闻热度实时在线预测方法

Country Status (1)

Country Link
CN (1) CN107122481B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344316A (zh) * 2018-08-14 2019-02-15 优视科技(中国)有限公司 新闻热度计算方法及装置
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及***
CN109885656A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置
CN110457594A (zh) * 2019-08-01 2019-11-15 深圳市顶尖传诚科技有限公司 一种基于大数据的舆论热点预测方法
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及***
CN112597280A (zh) * 2020-12-28 2021-04-02 上海朝阳永续信息技术股份有限公司 一种自动发现热点关键词和热点新闻的方法
CN113535956A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于媒介贡献度的新闻热点预测方法
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
US20130226560A1 (en) * 2010-02-05 2013-08-29 Jebu Ittiachen System and method for discovering story trends in real time from user generated content
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
US20130226560A1 (en) * 2010-02-05 2013-08-29 Jebu Ittiachen System and method for discovering story trends in real time from user generated content
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750682B (zh) * 2018-07-06 2022-08-16 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及***
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及***
CN109344316A (zh) * 2018-08-14 2019-02-15 优视科技(中国)有限公司 新闻热度计算方法及装置
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及***
CN109885656A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置
CN109885656B (zh) * 2019-02-18 2021-06-29 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置
CN110457594B (zh) * 2019-08-01 2021-06-01 深圳市顶尖传诚科技有限公司 一种基于大数据的舆论热点预测方法
CN110457594A (zh) * 2019-08-01 2019-11-15 深圳市顶尖传诚科技有限公司 一种基于大数据的舆论热点预测方法
CN112597280A (zh) * 2020-12-28 2021-04-02 上海朝阳永续信息技术股份有限公司 一种自动发现热点关键词和热点新闻的方法
WO2022141803A1 (zh) * 2020-12-28 2022-07-07 上海朝阳永续信息技术股份有限公司 一种自动发现热点关键词和热点新闻的方法
CN113535956A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于媒介贡献度的新闻热点预测方法
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备
CN114938477B (zh) * 2022-06-23 2024-05-03 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备

Also Published As

Publication number Publication date
CN107122481B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN107122481A (zh) 新闻热度实时在线预测方法
US20210350323A1 (en) Social media profiling for one or more authors using one or more social media platforms
Jain et al. Towards automated real-time detection of misinformation on Twitter
Nagy et al. Crowd sentiment detection during disasters and crises.
Raisi et al. Cyberbullying identification using participant-vocabulary consistency
CN109327714B (zh) 一种用于补充实况广播的方法及***
CN106980692A (zh) 一种基于微博特定事件的影响力计算方法
Alsaedi et al. Arabic event detection in social media
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
US20160019659A1 (en) Predicting the business impact of tweet conversations
CN103268350A (zh) 一种互联网舆情信息监测***及监测方法
US20130024389A1 (en) Method and apparatus for extracting business-centric information from a social media outlet
CN103577405A (zh) 基于兴趣分析的微博博主社区分类方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN104102675A (zh) 基于用户关系的博主兴趣社区发现方法
Taylor et al. Follow the money: How the online advertising ecosystem funds COVID-19 junk news and disinformation
Zhao et al. Towards events detection from microblog messages
CN104331490B (zh) 网络数据处理方法及装置
Asghar et al. Political miner: opinion extraction from user generated political reviews
CN110210927A (zh) 一种基于协同过滤算法的it书籍推荐***设计
MX2022001502A (es) Sistema y metodo para la recopilacion etica de datos.
Ding et al. Click versus share: A feature-driven study of micro-video popularity and virality in social media
Ozawa et al. A sentiment polarity prediction model using transfer learning and its application to SNS flaming event detection
Raina et al. Twitter sentiment analysis using apache storm
Ahmed et al. Agent-based simulation of twitter for building effective recommender system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant