CN105117385B - 一种以矩阵计算为基础进行舆论信息抽取的方法及*** - Google Patents

一种以矩阵计算为基础进行舆论信息抽取的方法及*** Download PDF

Info

Publication number
CN105117385B
CN105117385B CN201510569894.0A CN201510569894A CN105117385B CN 105117385 B CN105117385 B CN 105117385B CN 201510569894 A CN201510569894 A CN 201510569894A CN 105117385 B CN105117385 B CN 105117385B
Authority
CN
China
Prior art keywords
information
matrix
weight
keyword
information source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510569894.0A
Other languages
English (en)
Other versions
CN105117385A (zh
Inventor
杜登斌
杜璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhong Run Pu Da Information Technology Co Ltd
Original Assignee
Beijing Zhong Run Pu Da Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhong Run Pu Da Information Technology Co Ltd filed Critical Beijing Zhong Run Pu Da Information Technology Co Ltd
Priority to CN201510569894.0A priority Critical patent/CN105117385B/zh
Publication of CN105117385A publication Critical patent/CN105117385A/zh
Application granted granted Critical
Publication of CN105117385B publication Critical patent/CN105117385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法及***,该方法包括:抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,根据所述权重与所述候选级别计算综合评分,以完成舆情分析。本发明无需建立情感词库,实时多维度抓取数据,建立信息源矩阵、分词矩阵、规则矩阵,三个矩阵进行关联达到动态平衡,精确查找用户查询的词,准确率95%以上。

Description

一种以矩阵计算为基础进行舆论信息抽取的方法及***
技术领域
本发明涉及网络舆情领域,尤其涉及一种以矩阵计算为基础进行舆论信息抽取的方法及***。
背景技术
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论坛BBS上的发帖评论及跟贴、博客Blog等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。
网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。由于网络的开放性,会导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的网络新闻舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。对网络新闻舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对网络新闻舆情观点进行收集具有相当重要的意义,在一个热点事件的发展过程中网民观点起着至关重要的作用,甚至可以被认为是网络新闻舆情的核心。
最近,随着互联网技术的迅速发展,以新闻媒体等为代表的新媒体打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。对相关政府部门来说,如何及时准确的了解网络新闻舆情,加强对网络新闻舆论的及时监测、有效引导,成为网络新闻舆情管理的一大难点。在这种情况下,建设能够覆盖新闻数据源的新闻舆情监测***十分必要,此类***可针对新的新闻媒介传播环境,进一步深入研究新闻舆情的热点研判方法以及新媒体带来的影响,对新闻舆情研究进行丰富和完善。
虽然目前已经有很多单位针对网络新闻舆情监控提出了一些不同的解决方案。但是,需要本领域技术人员解决的技术问题是如何提高判断网络新闻舆情信息的效率和精确度。因为截至目前,尚未有较为高效、准确的针对新闻媒体数据的网络舆情监测***。
发明内容
针对现有技术的不足,本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法及***。
本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法,包括
步骤1,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
步骤2,建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。
所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。
通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r,中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
分词权重计算公式:x*y=u,中,x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
规则权重计算公式:g*h=k,中,g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
计算所述综合评分的公式为:
a1*b1+…ai*bi=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
本发明还提出一种以矩阵计算为基础进行舆论信息抽取的***,包括
建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。
所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。
通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r,中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
分词权重计算公式:x*y=u,中,x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
规则权重计算公式:g*h=k,中,g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
计算所述综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
由以上发明可知,本发明的优点在于:
通过综合评分排序就能实时精准抓取相关文章,提高行业垂直检索的实时性和准确性;通过对用户使用***衡,能够精确查找用户所要查询的词,准确率达到95%以上。
附图说明
图1为本发明总体流程图;
图2为本发明信息源矩阵实施例图;
图3为本发明分词矩阵实施例图;
图4为本发明规则矩阵实施例图。
其中附图标记为:
步骤101/102/103/104。
具体实施方式
本发明的目的在于提供一种以矩阵计算为基础进行舆论信息抽取的方法及***,该方法包括以下步骤,如图1所示:
步骤101,如图1所示,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分。
所述信息库类型信息是对大库分类的划分,用以区分不同的领域(如政务、商务),库类型由管理员定义、添加,同时可定义该类信息库数据结构、信息源相关属性以及相关数据库服务器链接;
所述信息库信息是对同一领域内信息源分类的划分,库的划分可以按信息源的级别、大行业分类等分类方式,由管理员定义、添加,信息源的使用权限按此分类控制;
所述站点信息是指要抓取的信息源所属的网站,如:新浪、网易等;
所述子站点信息是指要抓取的具体列表页地址。在子站点信息中中增加子站点连接地址后,设置其所属各级类别,并配置列表页、最终页抓取标签;抓取文章后由信息处理程序根据文章所属子站点的属性为文章自动设置相应属性;
所述信息源统计信息中可以实时监控各站点、子站点信息抓取情况:已抓取信息条数、最新抓取时间、抓取状态是否正常等,并可按编辑统计相关工作量;
所述信息库权限信息可以控制编辑对各个信息库的操作,只有分配权限的信息库对编辑才可见并可增、删、改信息源;
所述基础属性信息是对信息源各种相关基础属性进行维护,在基础属性信息中包括属性类型信息、属性信息、信息源类型信息;增加信息源分类规则时无需再开发或修改数据结构,直接在基础属性管理中添加即可。
所述文章字段信息是对抓取文章可用字段的定义,配置信息库数据结构时可从文章字段表中选取可用字段。
步骤102,如图2所示,建立分词矩阵,其中将关键词可能所在的行业(也可以为地域,即包含所述关键词的上位词汇)作为所述分词矩阵的元素,用户在输入关键词时,通过选择所述关键词的所属行业,缩小检索范围,提高效率;
步骤103,如图3所示,建立规则矩阵,其中查找最能体现文章内容的关键词,站点中的文章进行关键词标注,例如文章“北京局部地区有雷阵雨”,其中“北京”、“雷阵雨”为该文章的标注关键词;
步骤104,用户输入关键词,通过分词矩阵选择所述用户关键词所属行业,并计算信息源矩阵中各网站的权重与候选级别、分词矩阵各行业的候选级别、规则矩阵中关键词标注的候选级别,其中权重符合:企业网站28%、行业网站22%、中央机构网站35%、财经网站27%、地方新闻2%;候选级别:转发0.5、收藏0.4、点赞0.3、阅读20次以上0.2、阅读20次以下0.1,根据以上数据计算综合评分,所述综合评分最高的文章或词语,为要查找的结果,计算综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
本发明还提出一种以矩阵计算为基础进行舆论信息抽取的***,包括
建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。
所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。
通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r
其中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶。
比如,q为新闻网站,设为10分;w为全国性重点门户网站(新浪),为10分;e为网站头条,置顶,10分。
分词权重计算公式:x*y=u
其中,x为关键词的行业特征表达度,y为关键词的敏感度。
比如,核辐射在环保行业的特征表达度为5,汽油在环保行业的特征表达度为1,核辐射的敏感度会很高,汽油则比较低。
规则权重计算公式:g*h=k
其中,g为规则的行业特征表达度,h为规则的情感倾向程度。
计算所述综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。

Claims (6)

1.一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,包括:
步骤1,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
步骤2,建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析;
其中,所述规则矩阵包括,查找网站中最能体现文章内容的关键词,进行关键词标注;
并通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r,其中q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
分词权重计算公式:x*y=u,其中x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
规则权重计算公式:g*h=k,其中g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
2.如权利要求1所述的一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
3.如权利要求1所述的一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,计算所述综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
4.一种以矩阵计算为基础进行舆论信息抽取的***,其特征在于,包括:
建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析;
其中所述规则矩阵包括,查找网站中最能体现文章内容的关键词,进行关键词标注,并通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r,其中q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
分词权重计算公式:x*y=u,其中x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
规则权重计算公式:g*h=k,其中g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
5.如权利要求4所述的一种以矩阵计算为基础进行舆论信息抽取的***,其特征在于,所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
6.如权利要求4所述的一种以矩阵计算为基础进行舆论信息抽取的***,其特征在于,计算所述综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
CN201510569894.0A 2015-09-09 2015-09-09 一种以矩阵计算为基础进行舆论信息抽取的方法及*** Active CN105117385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510569894.0A CN105117385B (zh) 2015-09-09 2015-09-09 一种以矩阵计算为基础进行舆论信息抽取的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510569894.0A CN105117385B (zh) 2015-09-09 2015-09-09 一种以矩阵计算为基础进行舆论信息抽取的方法及***

Publications (2)

Publication Number Publication Date
CN105117385A CN105117385A (zh) 2015-12-02
CN105117385B true CN105117385B (zh) 2017-12-19

Family

ID=54665379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510569894.0A Active CN105117385B (zh) 2015-09-09 2015-09-09 一种以矩阵计算为基础进行舆论信息抽取的方法及***

Country Status (1)

Country Link
CN (1) CN105117385B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866106A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本推荐方法及相关设备
CN117112609B (zh) * 2023-06-29 2024-05-10 南京国电南自轨道交通工程有限公司 一种使用关键元素矩阵提高监控历史数据检索效率的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314489A (zh) * 2011-08-15 2012-01-11 哈尔滨工业大学 网络论坛中舆论领袖分析方法
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
CN102982153A (zh) * 2012-11-29 2013-03-20 北京亿赞普网络技术有限公司 一种信息检索方法及其装置
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
CN102314489A (zh) * 2011-08-15 2012-01-11 哈尔滨工业大学 网络论坛中舆论领袖分析方法
CN102982153A (zh) * 2012-11-29 2013-03-20 北京亿赞普网络技术有限公司 一种信息检索方法及其装置
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于海量舆情信息的话题检测***的设计与实现;王树辰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140415;正文全文 *

Also Published As

Publication number Publication date
CN105117385A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
CN104537097B (zh) 微博舆情监测***
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的***
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
Sharma et al. Web-based application for sentiment analysis of live tweets
CN103399891A (zh) 网络内容自动推荐方法、装置和***
CN101819573A (zh) 一种自适应的网络舆情识别方法
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
CN104408191A (zh) 关键词的关联关键词的获取方法和装置
CN104794161A (zh) 对网络舆情监控的方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
US11789946B2 (en) Answer facts from structured content
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN105787662A (zh) 基于属性的移动应用软件性能预测方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN103853746A (zh) 词库生成方法及其***、输入法及输入***
CN109885656A (zh) 基于量化热度的微博转发预测方法及装置
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
US20170235835A1 (en) Information identification and extraction
CN105117385B (zh) 一种以矩阵计算为基础进行舆论信息抽取的方法及***
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20210303

Granted publication date: 20171219

PP01 Preservation of patent right
PD01 Discharge of preservation of patent

Date of cancellation: 20240303

Granted publication date: 20171219

PD01 Discharge of preservation of patent