CN107122481A - 新闻热度实时在线预测方法 - Google Patents
新闻热度实时在线预测方法 Download PDFInfo
- Publication number
- CN107122481A CN107122481A CN201710308998.5A CN201710308998A CN107122481A CN 107122481 A CN107122481 A CN 107122481A CN 201710308998 A CN201710308998 A CN 201710308998A CN 107122481 A CN107122481 A CN 107122481A
- Authority
- CN
- China
- Prior art keywords
- calorific value
- word
- hot
- hot word
- temperature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种新闻热度实时在线预测方法包括两大部分,热点事件分析与建模和最新新闻热度预测,将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;不断更新上述热词和热词对的热值表;利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。本发明能够全面分析热点话题并及时更新热点新闻。
Description
技术领域
本发明涉及新闻资讯领域,具体涉及一种新闻热度实时在线预测方法。
背景技术
随着互联网技术的快速发展,网络舆情越来越影响社会的稳定发展,监控网络舆情是政府维护社会安定的一个重要环节。作为舆情监控其中的一个环节,热点新闻的预测显得尤其关键。微博以其独特的传播特性和实时交互特性改变着传统新闻信息的传播方式。尤其微博和移动终端的的结合,使微博信息能够更加快速的被转发或评论,微博平台上大量的用户评论和交流信息能够快速汇集为观点,从而形成一定的舆论走向。微博天然的开放性、实时性、交互性、海量性和易检性,构成了热点新闻预测的基础。通过综合分析新闻在微博平台的话题量判断新闻的热度。
传统的舆情热点话题仅仅是通过点击数、转发数、评论数等数据进行判断,但这种热点话题预测技术并不能够全面分析热点话题的特征,而且对热点新闻的提取不够及时。
发明内容
本发明的目的在于克服现有技术的不足,提供一种新闻热度实时在线预测方法,能够全面分析热点话题并及时更新热点新闻。
本发明的目的是通过以下技术方案来实现的:
一种新闻热度实时在线预测方法,包括以下两大部分:
热点事件分析与建模,包括以下步骤:
S01:对发生过的热点事件,人工确定关键词,基于人工确定的关键词,从网络爬取各种该热点事件相关的资讯;
S02:事件热度值评估,利用网络爬取的信息总量,给事件的热度打分,信息总量越大的,分值越高,上不封顶;
S03:对爬取的信息进行热词分析,找出20%热度最高的词汇;
S04:对已知的热点事件进行热点事件建模,分析各种词条对热度的贡献率,以及词条组合对事件热度的联合贡献率;
S05:利用事件热度值和热词对事件的贡献率,以及热词组合对事件的贡献率,计算热词的热值,计算公式为:热词热值=事件热值×热词频率/所有热词的频率之和;热词对热值=事件热值×热词对频率/所有热词对的频率之和;
S06:将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;
S07:不断更新上述热词和热词对的热值表;
最新新闻热度预测,包括以下步骤:
S11:实时采集各种来源的资讯,包括但不限于新闻,微博,论坛,贴吧的内容;
S12:对上述采集到的资讯进行分词,去掉停用词,得到新闻相关的词汇;
S13:利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;
S14:将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。
进一步的,所述的步骤S01中的网络包括各大新闻网站、微博、微信、论坛、贴吧,政府网站等不同渠道包含有该关键词的文章、微博、微信的内容。
进一步的,所述的步骤S02中事件热度值的计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100。
进一步的,所述的步骤S03中热词分析包括以下步骤,首先需要去除停用词,然后采用出现频率对词汇进行打分,词频指该词汇在所有内容中出现的次数,按得分搞定找出热度最高的20%的词汇。
本发明的有益效果是:本发明通过对当下热点事件进行分析,对个热点事件进行评分梳理事件热度形成热点事件表,然后针对热点事件表对采集的热点词汇进行打分,并通过一系列的计算得到相应的热度值,从而实现了全面实时的分析当下热点事件及时更新新闻热点。
具体实施方式
一种新闻热度实时在线预测方法,包括以下两大部分:
热点事件分析与建模,包括以下步骤:
S01:对发生过的热点事件,人工确定关键词,基于人工确定的关键词,从网络爬取各种该热点事件相关的资讯;包括各大新闻网站,微博,微信,论坛,贴吧,政府网站等不同渠道包含有该关键词的文章,微博,微信等内容。
S02:事件热度值评估,利用网络爬取的信息总量,给事件的热度打分,信息总量越大的,分值越高,上不封顶;不同的信息来源,可以人工设定权值,越重要的信息来源,对评分影响的权值越高,可以根据业务场景进行不断调整,例如对于新闻事件而言,来源于公信力高的网站,例如人民网,新华网等,可以设定较高的权值,对于娱乐事件而言,来源于明星大V的微博信息,可以给予较高的分值。
S03:对爬取的信息进行热词分析,找出20%热度最高的词汇;热词分析,首先需要去除停用词,然后采用出现频率对词汇进行打分,词频指该词汇在所有内容中出现的次数,按得分搞定找出热度最高的20%的词汇,例如在某条体育新闻中,“足球”在文中出现的次数为10,则词汇“足球”的词频值为10,该专题下所有新闻中“足球”词频值相加,在所有单词的词频中排列在前20%,则“足球”为改专题下的热词之一。
S04:对已知的热点事件进行热点事件建模,分析各种词条对热度的贡献率,以及词条组合对事件热度的联合贡献率;
S05:利用事件热度值和热词对事件的贡献率,以及热词组合对事件的贡献率,计算热词的热值,计算公式为:热词热值=事件热值×热词频率/所有热词的频率之和;热词对热值=事件热值×热词对频率/所有热词对的频率之和;
S06:将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;
S07:不断更新上述热词和热词对的热值表;
进一步的,所述的步骤S02中事件热度值的计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100,例如人民网,新华网等高权值网站来源新闻k值为100,微博等自媒体渠道普通用户新闻k值为1。
最新新闻热度预测,包括以下步骤:
S11:实时采集各种来源的资讯,包括但不限于新闻,微博,论坛,贴吧的内容;
S12:对上述采集到的资讯进行分词,去掉停用词,得到新闻相关的词汇;
S13:利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100。即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;
S14:将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (4)
1.一种新闻热度实时在线预测方法,其特征在于包括以下两大部分:
热点事件分析与建模,包括以下步骤:
S01:对发生过的热点事件,人工确定关键词,基于人工确定的关键词,从网络爬取各种该热点事件相关的资讯;
S02:事件热度值评估,利用网络爬取的信息总量,给事件的热度打分,信息总量越大的,分值越高,上不封顶;
S03:对爬取的信息进行热词分析,找出20%热度最高的词汇;
S04:对已知的热点事件进行热点事件建模,分析各种词条对热度的贡献率,以及词条组合对事件热度的联合贡献率;
S05:利用事件热度值和热词对事件的贡献率,以及热词组合对事件的贡献率,计算热词的热值,计算公式为:热词热值=事件热值×热词频率/所有热词的频率之和;热词对热值=事件热值×热词对频率/所有热词对的频率之和;
S06:将所有事件中的热词和热词对合并到一起形成热词和热词对的热值表,将热词在各个事件中的热值相加,得到热词和热词对的当前热值;
S07:不断更新上述热词和热词对的热值表;
最新新闻热度预测,包括以下步骤:
S11:实时采集各种来源的资讯,包括但不限于新闻,微博,论坛,贴吧的内容;
S12:对上述采集到的资讯进行分词,去掉停用词,得到新闻相关的词汇;
S13:利用热点事件分析与建模步骤中得到的热词和热词对的热值表对中得到的词汇和词汇组合进行热度打分,即在热值表中查询词汇的热值和词汇组合的热值,将相同词汇和词汇组合的热值累加,得到每个词汇和词汇组合在当前新闻中的热值;
S14:将新闻中所有词汇和词汇组合的热度相加,得到新闻热度,此热度即为预测的新闻热度。
2.根据权利要求1所述的一种新闻热度实时在线预测方法,其特征在于:所述的步骤S01中的网络包括各大新闻网站、微博、微信、论坛、贴吧,政府网站的不同渠道包含有该关键词的文章、微博、微信的内容。
3.根据权利要求1所述的一种新闻热度实时在线预测方法,其特征在于:所述的步骤S02中事件热度值的计算公式是Hotvalue=sum[count×k],其中count表示(舆情总数),k为权重其取值为1~100。
4.根据权利要求1所述的一种新闻热度实时在线预测方法,其特征在于:所述的步骤S03中热词分析包括以下步骤,首先需要去除停用词,然后采用出现频率对词汇进行打分,词频指该词汇在所有内容中出现的次数,按得分搞定找出热度最高的20%的词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710308998.5A CN107122481B (zh) | 2017-05-04 | 2017-05-04 | 新闻热度实时在线预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710308998.5A CN107122481B (zh) | 2017-05-04 | 2017-05-04 | 新闻热度实时在线预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122481A true CN107122481A (zh) | 2017-09-01 |
CN107122481B CN107122481B (zh) | 2020-06-30 |
Family
ID=59726634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710308998.5A Active CN107122481B (zh) | 2017-05-04 | 2017-05-04 | 新闻热度实时在线预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122481B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344316A (zh) * | 2018-08-14 | 2019-02-15 | 优视科技(中国)有限公司 | 新闻热度计算方法及装置 |
CN109376231A (zh) * | 2018-09-29 | 2019-02-22 | 杭州凡闻科技有限公司 | 一种媒体热点跟踪方法及*** |
CN109885656A (zh) * | 2019-02-18 | 2019-06-14 | 国家计算机网络与信息安全管理中心 | 基于量化热度的微博转发预测方法及装置 |
CN110457594A (zh) * | 2019-08-01 | 2019-11-15 | 深圳市顶尖传诚科技有限公司 | 一种基于大数据的舆论热点预测方法 |
CN110750682A (zh) * | 2018-07-06 | 2020-02-04 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及*** |
CN112597280A (zh) * | 2020-12-28 | 2021-04-02 | 上海朝阳永续信息技术股份有限公司 | 一种自动发现热点关键词和热点新闻的方法 |
CN113535956A (zh) * | 2021-07-26 | 2021-10-22 | 北京清博智能科技有限公司 | 一种基于媒介贡献度的新闻热点预测方法 |
CN114938477A (zh) * | 2022-06-23 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923544A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种监测展示互联网热点的方法 |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
US20130226560A1 (en) * | 2010-02-05 | 2013-08-29 | Jebu Ittiachen | System and method for discovering story trends in real time from user generated content |
CN104035960A (zh) * | 2014-05-08 | 2014-09-10 | 东莞市巨细信息科技有限公司 | 互联网资讯信息热点预测方法 |
-
2017
- 2017-05-04 CN CN201710308998.5A patent/CN107122481B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923544A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种监测展示互联网热点的方法 |
US20130226560A1 (en) * | 2010-02-05 | 2013-08-29 | Jebu Ittiachen | System and method for discovering story trends in real time from user generated content |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN104035960A (zh) * | 2014-05-08 | 2014-09-10 | 东莞市巨细信息科技有限公司 | 互联网资讯信息热点预测方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750682B (zh) * | 2018-07-06 | 2022-08-16 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及*** |
CN110750682A (zh) * | 2018-07-06 | 2020-02-04 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及*** |
CN109344316A (zh) * | 2018-08-14 | 2019-02-15 | 优视科技(中国)有限公司 | 新闻热度计算方法及装置 |
CN109376231A (zh) * | 2018-09-29 | 2019-02-22 | 杭州凡闻科技有限公司 | 一种媒体热点跟踪方法及*** |
CN109885656A (zh) * | 2019-02-18 | 2019-06-14 | 国家计算机网络与信息安全管理中心 | 基于量化热度的微博转发预测方法及装置 |
CN109885656B (zh) * | 2019-02-18 | 2021-06-29 | 国家计算机网络与信息安全管理中心 | 基于量化热度的微博转发预测方法及装置 |
CN110457594B (zh) * | 2019-08-01 | 2021-06-01 | 深圳市顶尖传诚科技有限公司 | 一种基于大数据的舆论热点预测方法 |
CN110457594A (zh) * | 2019-08-01 | 2019-11-15 | 深圳市顶尖传诚科技有限公司 | 一种基于大数据的舆论热点预测方法 |
CN112597280A (zh) * | 2020-12-28 | 2021-04-02 | 上海朝阳永续信息技术股份有限公司 | 一种自动发现热点关键词和热点新闻的方法 |
WO2022141803A1 (zh) * | 2020-12-28 | 2022-07-07 | 上海朝阳永续信息技术股份有限公司 | 一种自动发现热点关键词和热点新闻的方法 |
CN113535956A (zh) * | 2021-07-26 | 2021-10-22 | 北京清博智能科技有限公司 | 一种基于媒介贡献度的新闻热点预测方法 |
CN114938477A (zh) * | 2022-06-23 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN114938477B (zh) * | 2022-06-23 | 2024-05-03 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107122481B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122481A (zh) | 新闻热度实时在线预测方法 | |
US20210350323A1 (en) | Social media profiling for one or more authors using one or more social media platforms | |
Jain et al. | Towards automated real-time detection of misinformation on Twitter | |
Nagy et al. | Crowd sentiment detection during disasters and crises. | |
Raisi et al. | Cyberbullying identification using participant-vocabulary consistency | |
CN109327714B (zh) | 一种用于补充实况广播的方法及*** | |
CN106980692A (zh) | 一种基于微博特定事件的影响力计算方法 | |
Alsaedi et al. | Arabic event detection in social media | |
US8965867B2 (en) | Measuring and altering topic influence on edited and unedited media | |
US20160019659A1 (en) | Predicting the business impact of tweet conversations | |
CN103268350A (zh) | 一种互联网舆情信息监测***及监测方法 | |
US20130024389A1 (en) | Method and apparatus for extracting business-centric information from a social media outlet | |
CN103577405A (zh) | 基于兴趣分析的微博博主社区分类方法 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN104102675A (zh) | 基于用户关系的博主兴趣社区发现方法 | |
Taylor et al. | Follow the money: How the online advertising ecosystem funds COVID-19 junk news and disinformation | |
Zhao et al. | Towards events detection from microblog messages | |
CN104331490B (zh) | 网络数据处理方法及装置 | |
Asghar et al. | Political miner: opinion extraction from user generated political reviews | |
CN110210927A (zh) | 一种基于协同过滤算法的it书籍推荐***设计 | |
MX2022001502A (es) | Sistema y metodo para la recopilacion etica de datos. | |
Ding et al. | Click versus share: A feature-driven study of micro-video popularity and virality in social media | |
Ozawa et al. | A sentiment polarity prediction model using transfer learning and its application to SNS flaming event detection | |
Raina et al. | Twitter sentiment analysis using apache storm | |
Ahmed et al. | Agent-based simulation of twitter for building effective recommender system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |