CN109977300A - 企业舆情获取方法、装置、终端及计算机存储介质 - Google Patents

企业舆情获取方法、装置、终端及计算机存储介质 Download PDF

Info

Publication number
CN109977300A
CN109977300A CN201910135777.1A CN201910135777A CN109977300A CN 109977300 A CN109977300 A CN 109977300A CN 201910135777 A CN201910135777 A CN 201910135777A CN 109977300 A CN109977300 A CN 109977300A
Authority
CN
China
Prior art keywords
word
target
enterprise
newsletter archive
target signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910135777.1A
Other languages
English (en)
Inventor
张君婕
潘奔
魏晓茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910135777.1A priority Critical patent/CN109977300A/zh
Publication of CN109977300A publication Critical patent/CN109977300A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种企业舆情获取方法、装置、终端及计算机存储介质,本发明首先从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;然后对新闻文本集合中的每个新闻文本进行分词处理,使得各新闻文本具有多个不同词性的特征词;进一步对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;最后计算所述目标特征词在新闻文本集合中的权重值,并根据所权重值测算所述目标企业的当前舆情指数。解决了目前人工分析企业舆情过程繁琐、不方便的问题,提高了相关专业人士的工作效率。

Description

企业舆情获取方法、装置、终端及计算机存储介质
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种企业舆情获取方法、装置、终端以及计算机存储介质。
背景技术
企业舆情是“企业舆论情况”的简称,是指在一定的社会空间内,围绕某一企业事件的发生、发展和变化,公众对事件所持有的信念、态度、意见和情绪等表达的集合。企业舆情是舆情对于企业来说的,它包括舆论和公众对有关企业的任何话题的讨论、报道和反映。
目前通常是行业内的专家们对某个企业的舆情进行分析,然后确定该企业是否存在违约风险。通常在某一时间段内针对同一个企业的报导会有铺天盖的新闻,例如该企业出现某一重大事件,可能在这段时间内会有很多网络上的新闻针对该事件做报道,但是侧重点不一样,同一时间某些网站、论坛、微博等舆论看法不一,这样人工对该企业舆情进行跟踪分析就比较累。
发明内容
本发明的主要目的在于提供了一种企业舆情获取装置方法、装置以及计算机存储介质,旨在解决目前人为地分析企业舆情不方便的问题。
为实现上述目的,本发明提供了一种企业舆情获取方法,所述方法包括以下步骤:
从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;
对所述新闻文本集合中的每个新闻文本进行分词处理,使得具有多个不同词性的特征词;
对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
计算所述目标特征词在所述新闻文本集合中的权重值;
根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。
优选地,所述计算所述目标特征词在所述新闻文本集合中的权重值,包括:
计算所述目标特征词在对应的目标新闻文本中的词频,所述目标新闻文本为包含所述目标特征词的新闻文本;
计算所述目标特征词在所述新闻文本集合中的逆文档频率;
根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在新闻文本集合中的权重值。
优选地,所述计算所述目标特征词在对应的目标新闻文本中的词频,包括:
通过以下公式(一)计算所述目标特征词在对应的目标新闻文本中的词频,
其中,Testk表示所述新闻文本集合中第k个新闻文本,tfi表示目标特征词Ti在所述第k个新闻文本Testk中的频率,ni表示词语Ti在所述第k个新闻文本Testk中出现的次数;
所述计算所述目标特征词在所述新闻文本集合中的逆文档频率,包括:
通过以下公式(二)计算所述目标特征词在所述新闻文本集合中的逆文档频率,
其中,|D|表示所述新闻文本集合的总数量;|d:ti∈d|表示所述新闻文本集合中包括目标特征词Ti的出现次数;idfi表示所述目标特征词Ti在所述新闻文本集合中的逆文档频率;
所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在新闻文本集合中的权重值,包括:
通话以下公式(三)计算所述目标特征词在所述新闻文本集合中的权重值,
(tf/idf)i=tfi×idfi 公式(三)
其中,(tf/idf)i表示目标特征词Ti在所述新闻文本集合中的权重值。
优选地,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
所述对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,包括:
对多个所述特征词进行分析,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
所述计算所述目标特征词在所述新闻文本集合中的权重值,包括:
计算所述第一目标特征词在所述新闻文本集合中的第一权重值;
计算所述第二目标特征词在所述新闻文本集合中的第二权重值;
根据所述目标特征词的权重值测算所述目标企业的当前舆情指数,包括:
将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述目标企业的当前舆情指数。
优选地,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述目标企业的当前舆情指数,包括:
获取所述目标企业的多个风险级别区间;
根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
基于目标风险级别区间获取所述目标企业的当前舆情指数。
优选地,所述基于目标风险级别区间获取所述目标企业的当前舆情指数之后,还包括:
对所述目标企业的当前舆情指数和历史舆情指数进行展示;
接收用户基于所述当前舆情指数和所述历史舆情指数输入的风险阈值设置指令;
根据所述风险阈值设置指令对所述多个风险级别区间进行调整。
优选地,所述从网络信息源中获取与目标企业相关的新闻文本,具体包括:
通过预设网络爬虫工具从网络信息源中获取与目标企业相关的新闻文本。
此外,为实现上述目的,本发明还提出一种企业舆情获取装置,所述装置包括:
文本获取模块,用于从网络信息源中获取与目标企业相关的新闻文本;
分词模块,用于对获取到的各新闻文本进行分词处理,使得各新闻文本具有多个不同词性的特征词;
分析模块,用于对各特征词进行分析,从各特征词中确定属于目标预设词类别的目标特征词;
计算模块,用于计算所述目标特征词在新闻文本集合中的权重值,所述新闻文本集合由获取到的各个新闻文本组成;
舆情获取模块,用于根据所述目标特征词的权重值获取所述目标企业的当前舆情指数。
此外,为实现上述目的,本发明还提出一种用于获取企业舆情的终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情获取程序,所述企业舆情获取程序配置为实现如上所述的企业舆情获取方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机存储介质,所述计算机存储介质存储有企业舆情获取程序,所述企业舆情获取程序配置为实现如上所述的企业舆情获取方法的步骤。
本发明首先从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;然后对所述新闻文本集合中的每个新闻文本进行分词处理,使得各新闻文本具有多个不同词性的特征词;进一步对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;最后计算所述目标特征词在所述新闻文本集合中的权重值,并根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。解决了目前人工分析企业舆情过程繁琐、不方便的问题,提高了相关专业人士的工作效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的用于获取企业舆情终端的结构示意图;
图2为本发明一种企业舆情获取方法一实施例的流程示意图;
图3本发明一种企业舆情获取方法第二实施例的流程示意图;
图4为本发明一种企业舆情获取方法第三实施例流程示意图;
图5为本发明一种企业舆情获取方法第四实施例流程示意图;
图6为本发明一种企业舆情获取方法第五实施例流程示意图
图7为本发明一种企业舆情获取装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1,图1为本发明实施例方案涉及的硬件运行环境的用于获取企业舆情终端的结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对所述终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接收模块以及企业舆情获取程序。
在图1所示的终端中,本发明的企业舆情获取装置通过处理器1001调用存储器1005中存储的企业舆情获取程序,并执行企业舆情获取方法的步骤。
参照图2,图2本发明一种企业舆情获取方法第一实施例的流程示意图。
本实施例中,所述企业舆情获取方法包括以下步骤:
步骤S10:从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合。
需要说明的是,本实施例的执行主体是上述用于获取企业舆情的终端的处理器,同时本实施例的执行主体也可以理解为装载于上述终端内的app应用程序。本实施例的网络信息源可以是网页、论坛、微博、或微信等。
可选地,这些网络爬虫工具可以属于不同的搜索引擎、专业论坛网站、微博网站、微信公众号等等。
步骤S20:对所述新闻文本集合中的每个新闻文本进行分词处理,使得各新闻文本具有多个不同词性的特征词。
可理解的是,假设总共获得的新闻文本有k(k=1、2、3、4……k)个,本实施例首先分别对每个新闻文本进行分词处理、以及词性标注操作;例如对第k个新闻文本进行分词处理时,获得当前处理的(第k个)新闻样本对应的具有词性标注的特征词集合{Tk}。
步骤S30:对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词。
可理解的是,所述目标预设词类别为能够反应企业正负面信息的词汇类别;本实施例的所述企业舆情获取程序的开发人员会预先将能够反应企业正负面信息的名词、动词和形容词归类到不同的目标预设词类别中,并将归类后的能够反应企业正负面信息的名词、动词以及形容词作为目标特征词、以及所述目标特征词与所述目标预设词类别的映射关系保存到数据库中;同时,在执行步骤S30时,会对步骤S20中得到的特征词进行分析,确定步骤S20中得到的特征词的词性后,再将该特征词与数据库中预先存储的特征词进行匹配,如果该特征词能够与数据库中的预存词语成功匹配,则说明该特征词属于能够反映企业正负面信息的词汇,确认匹配出的预存词语属于哪个目标预设词类别,那么该特征词即为确认出的目标预设词类别的目标特征词。
步骤S40:计算所述目标特征词在新闻文本集合中的权重值。
可理解的是,步骤S40的权重值为该目标特征词相对于企业来说能够所反映该企业正负面信息的重要程度值,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。该目标特征词在所述新闻文本集合中的权重值越高,说明该目标特征词越能反映该企业舆情。
在具体实现中,可通过计算所述目标特征词在所述新闻文本集合中的逆文档频率来确定该目标特征词在所述新闻文本集合中的权重值。逆文档频率是一种用于资讯检索与资讯探勘的常用加权术,如果某些指定词或短语在一篇文章中出现的频率高,但是这些指定词或短语在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。也就是说,本实施例中,如果某些指定目标特征词在其所属的当前新闻文本文章中出现的频率高,但是在所述新闻文本集合中其他新闻文本中很少出现,则说明该指定目标特征词的逆文档频率较高,该指定目标特征词具有很好的类别区分能力。基于逆文档频率可以更加准确地计算该目标特征词在所述新闻文本集合中的权重值。
步骤S50:根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。
可理解的是,首先基于步骤S30中的解释可知目标特征词肯定是一个能够反应企业正负面信息的词汇,该目标特征词在所述新闻文本集合中的权重值高,则该目标特征词表征该企业的正面(负面)舆情指数越高,进而能够根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。
本实施例首先从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;然后对所述新闻文本集合中的每个新闻文本进行分词处理,使得各新闻文本具有多个不同词性的特征词;进一步对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;最后计算所述目标特征词在所述新闻文本集合中的权重值,并根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。解决了目前人工分析企业舆情过程繁琐、不方便的问题,提高了相关专业人士的工作效率。
进一步地,参照图3,图3本发明一种企业舆情获取方法第二实施例的流程示意图;基于上述企业舆情获取方法的第一实施例,提出本发明一种企业舆情获取方法第二实施例。
本实施例中,所述步骤S40具体包括:
步骤S410:计算所述目标特征词在对应的目标新闻文本中的词频,所述目标新闻文本为包含所述目标特征词的新闻文本。
可理解的是,对新闻文本最有意义的词语应该是那些在新闻文本中出现频率高,而在整个新闻文本集合的其他新闻文本中出现频率少的词语,所以本实施例取所述目标特征词在对应的目标新闻文本中的词频作为测度,就可以体现同类新闻文本的特点。
在具体实现中,本实施例优选通过以下公式(一)计算所述目标特征词在对应的目标新闻文本中的词频,
其中,Testk表示所述新闻文本集合中第k个新闻文本,tfi表示目标特征词Ti在所述第k个新闻文本Testk中的频率,ni表示词语Ti在所述第k个新闻文本Testk中出现的次数;而所述词频tfi比较低则说明目标特征词一般与基本内容不相关。
步骤S420:计算所述目标特征词在所述新闻文本集合中的逆文档频率;
可理解的是,本实施例中,如果某些指定目标特征词在其所属的当前新闻文本文章中出现的频率高,但是在所述新闻文本集合中其他新闻文本中很少出现,则说明该指定目标特征词的逆文档频率较高,该指定目标特征词具有很好的类别区分能力。
在具体实现中,本实施例优选通过以下公式(二)计算所述目标特征词在所述新闻文本集合中的逆文档频率,
其中,|D|表示所述新闻文本集合的总数量;|d:ti∈d|表示所述新闻文本集合中包括目标特征词Ti的出现次数;idfi表示所述目标特征词Ti在所述新闻文本集合中的逆文档频率;
可理解的是,在公式(二)中在不同新闻文本中出现的可能性越大,则越小。而越大,则越大,若所述目标特征词在所述新闻文本集合中的绝大多数新闻文本中出现,则所述目标特征词不太可能与文本基本内容相关。
步骤S430:根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在新闻文本集合中的权重值。
在具体实现中,本实施例优选通话以下公式(三)计算所述目标特征词在所述新闻文本集合中的权重值,
(tf/idf)i=tfi×idfi 公式(三)
其中,(tf/idf)i表示目标特征词Ti在所述新闻文本集合中的权重值。
可理解的是,所述目标特征词表征能够反应企业正负面信息的词汇,一般以形容词和名词居多,而像“的、地、得”这类副词,或者“某某先生、某某女士”这类的称呼名称的词语不属于目标特征词Ti,不在以上公式的计算范畴内。因此上述公式(三)比较有针对性。而公式(三)中词频tfi的值非常高的词语,往往是一些相对于企业舆情来说没有多少内容的词语,相应地这些tfi的值非常高的词语的逆文档频率idfi通常比较小,因此将该词语的词频tfi和词频tfi相乘得到的权重值(tf/idf)i必然不高。因此本实施例会将得到的目标特征词分别通过上述三个公式计算出各目标特征词对应的权重值(tf/idf)i,并从得到的各个权重值(tf/idf)i中获取最高权重值,该目标特征词在所述新闻文本集合中的权重值越高,说明该目标特征词越能反映该企业舆情。
进一步地,参考图4,图4为本发明一种企业舆情获取方法第三实施例流程示意图,基于上述企业舆情获取方法的第二实施例,提出本发明一种企业舆情获取方法第三实施例。
本实施例中,所述步骤S30,具体包括:
步骤S301:对多个所述特征词进行分析,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
需要说明的是,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征反映正面信息的词汇,所述第二预设词类别表征反映负面信息的词汇。
相应地,所述步骤S40,具体包括:
步骤S401:计算所述第一目标特征词在所述新闻文本集合中的第一权重值;
在具体实现中,可通过上述第二实施例的公式(一)、公式(二)以及公式(三)计算第一目标特征词在所述新闻文本集合中的第一权重值;
步骤S402:计算所述第二目标特征词在所述新闻文本集合中的第二权重值;
在具体实现中,可通过上述第二实施例的公式(一)、公式(二)以及公式(三)计算第二目标特征词在所述新闻文本集合中的第二权重值;
相应地,所述步骤S50,具体包括:
步骤S501:将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述目标企业的当前舆情指数。
其中,所述步骤S501在具体实现中,可以首先获取所述目标企业的多个风险级别区间,其中所述风险级别区间可用是程序开发人员预先设置,程序开发人员可预先为所述目标企业的设置多个风险级别区间,每个风险级别区间表征一种负面舆情级别,可分为重大负面级别、一般负面级别、中性级别、一般正面级别、非常正面五类舆情风险级别;
然后根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
最后基于目标风险级别区间获取所述目标企业的当前舆情指数。
例如,本实施例的第一目标特征词在所述新闻文本集合中的权重值越高,越能反映该企业正面舆情;而第二目标特征词在所述新闻文本集合中的权重值越高,越能反映该企业负面舆情;可以设置第一目标特征词的权重值*50%减去所述第二目标特征词的权重值*30%,判断得到的差值在哪个风险级别区间,根据风险级别区间确定所述目标企业的当前舆情指数。通过将两个代表不同企业舆情的权重值进行比较,能够准确地测算出所述目标企业的当前舆情指数。
进一步地,参考图5,图5为本发明一种企业舆情获取方法第四实施例流程示意图,基于上述企业舆情获取方法的第三实施例,提出本发明一种企业舆情获取方法第四实施例。
本实施例中,所述步骤S50之后,具体包括:
步骤S061:对所述目标企业的当前舆情指数和历史舆情指数进行展示;
可理解的是,上述用于获取企业舆情终端在测算出所述目标企业的当前舆情指数之后,所述终端的显示屏会显示所述目标企业的当前舆情指数和历史舆情指数。
步骤S062:接收用户基于所述当前舆情指数和所述历史舆情指数输入的风险阈值设置指令;
步骤S063:根据所述风险阈值设置指令对所述多个风险级别区间进行调整。
可理解的是,用户(即行业内的专家们)看到所述终端的显示屏中展示的所述当前舆情指数和所述历史舆情指数后,用户可以根据自己的经验,通过所述终端的输入单元(比如键盘)输入风险阈值的设置指令,上述用于获取企业舆情终端在接收到用户输入的风险阈值的设置指令后,会根据所述风险阈值的设置指令对多个预设风险级别区间进行调整,以满足实际需求。
进一步地,参考图6,图6为本发明一种企业舆情获取方法第五实施例流程示意图,基于上述企业舆情获取方法的第一实施例,提出本发明一种企业舆情获取方法第五实施例。
本实施例中,所述步骤S10,具体包括:
步骤S101:通过预设网络爬虫工具从网络信息源中获取与目标企业相关的新闻文本。
具体地,本实施例通过预设网络爬虫工具从网络信息源中获取与目标企业相关的新闻文本。从网页、论坛、微博、社交应用等网络信息来源获取新闻文本。本实施例以采用Python脚本作为预设网络爬虫工具为例进行说明。
在具体实现中,本实施例可以通过在搜索引擎中输入与目标企业相关的关键字(如该企业名称)得到多个与该目标企业相关网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,Python爬虫工具从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。
本实施例采用预设网络爬虫工具能够更加方便快捷地从网络信息源中获取与目标企业相关的新闻文本。
此外,参照图7,本发明还提出一种企业舆情获取装置,所述装置包括:
文本获取模块10,用于从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;
分词模块20,用于对获取到的各新闻文本进行分词处理,使得各新闻文本具有多个不同词性的特征词;
分析模块30,用于对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
计算模块40,用于计算所述目标特征词在所述新闻文本集合中的权重值;
舆情获取模块50,用于根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。
可理解的是,本实施的企业舆情获取装置可以是一种APP应用程序,该APP应用程序装载在上述实施例的企业舆情获取设备中,本发明企业舆情获取装置的具体实现方式可参照上述企业舆情获取方法实施例,此处不再赘述。
此外,本发明还提供一种计算机存储介质,其特征在于,所述计算机存储介质上存储有企业舆情获取程序,所述企业舆情获取程序被处理器执行时实现如上所述的企业舆情获取方法步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种企业舆情获取方法,其特征在于,所述方法包括:
从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;
对所述新闻文本集合中的每个新闻文本进行分词处理,使得具有多个不同词性的特征词;
对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
计算所述目标特征词在所述新闻文本集合中的权重值;
根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。
2.如权利要求1所述的方法,其特征在于,所述计算所述目标特征词在所述新闻文本集合中的权重值,包括:
计算所述目标特征词在对应的目标新闻文本中的词频,所述目标新闻文本为包含所述目标特征词的新闻文本;
计算所述目标特征词在所述新闻文本集合中的逆文档频率;
根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在新闻文本集合中的权重值。
3.如权利要求2所述的方法,其特征在于,所述计算所述目标特征词在对应的目标新闻文本中的词频,包括:
通过以下公式(一)计算所述目标特征词在对应的目标新闻文本中的词频,
其中,Testk表示所述新闻文本集合中第k个新闻文本,tfi表示目标特征词Ti在所述第k个新闻文本Testk中的频率,ni表示词语Ti在所述第k个新闻文本Testk中出现的次数;
所述计算所述目标特征词在所述新闻文本集合中的逆文档频率,包括:
通过以下公式(二)计算所述目标特征词在所述新闻文本集合中的逆文档频率,
其中,|D|表示所述新闻文本集合的总数量;|d:ti∈d|表示所述新闻文本集合中包括目标特征词Ti的出现次数;idfi表示所述目标特征词Ti在所述新闻文本集合中的逆文档频率;
所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在新闻文本集合中的权重值,包括:
通话以下公式(三)计算所述目标特征词在所述新闻文本集合中的权重值,
(tf/idf)i=tfi×idfi 公式(三)
其中,(tf/idf)i表示目标特征词Ti在所述新闻文本集合中的权重值。
4.如权利要求1或2所述的方法,其特征在于,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
所述对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,包括:
对多个所述特征词进行分析,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
所述计算所述目标特征词在所述新闻文本集合中的权重值,包括:
计算所述第一目标特征词在所述新闻文本集合中的第一权重值;
计算所述第二目标特征词在所述新闻文本集合中的第二权重值;
根据所述目标特征词的权重值测算所述目标企业的当前舆情指数,包括:
将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述目标企业的当前舆情指数。
5.如权利要求4所述的方法,其特征在于,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述目标企业的当前舆情指数,包括:
获取所述目标企业的多个风险级别区间;
根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
基于目标风险级别区间获取所述目标企业的当前舆情指数。
6.如权利要求5所述的方法,其特征在于,所述基于目标风险级别区间获取所述目标企业的当前舆情指数之后,还包括:
对所述目标企业的当前舆情指数和历史舆情指数进行展示;
接收用户基于所述当前舆情指数和所述历史舆情指数输入的风险阈值设置指令;
根据所述风险阈值设置指令对所述多个风险级别区间进行调整。
7.如权利要求1所述的方法,其特征在于,所述从网络信息源中获取与目标企业相关的新闻文本,具体包括:
通过预设网络爬虫工具从网络信息源中获取与目标企业相关的新闻文本。
8.一种企业舆情获取装置,其特征在于,所述装置包括:
文本获取模块,用于从网络信息源中获取与目标企业相关的新闻文本,得到新闻文本集合;
分词模块,用于对多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
分析模块,用于对各特征词进行分析,从各特征词中确定属于目标预设词类别的目标特征词;
计算模块,用于计算所述目标特征词在所述新闻文本集合中的权重值;
舆情获取模块,用于根据所述目标特征词的权重值测算所述目标企业的当前舆情指数。
9.一种用于获取企业舆情的终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情获取程序,所述企业舆情获取程序配置为实现如权利要求1至7中任一项所述的企业舆情获取方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有企业舆情获取程序,所述企业舆情获取程序配置为实现如权利要求1至7中任一项所述的企业舆情获取方法的步骤。
CN201910135777.1A 2019-02-22 2019-02-22 企业舆情获取方法、装置、终端及计算机存储介质 Pending CN109977300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910135777.1A CN109977300A (zh) 2019-02-22 2019-02-22 企业舆情获取方法、装置、终端及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910135777.1A CN109977300A (zh) 2019-02-22 2019-02-22 企业舆情获取方法、装置、终端及计算机存储介质

Publications (1)

Publication Number Publication Date
CN109977300A true CN109977300A (zh) 2019-07-05

Family

ID=67077250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910135777.1A Pending CN109977300A (zh) 2019-02-22 2019-02-22 企业舆情获取方法、装置、终端及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109977300A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689225A (zh) * 2019-08-26 2020-01-14 深圳壹账通智能科技有限公司 基于外呼的企业金融风险画像创建方法及相关设备
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、***、计算机终端及存储介质
CN111369148A (zh) * 2020-03-05 2020-07-03 广州快盈信息技术服务有限公司 对象指标的监测方法、电子装置及存储介质
CN111950860A (zh) * 2020-07-21 2020-11-17 中证征信(深圳)有限公司 一种企业舆情风险指数的监控方法及装置
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN112199588A (zh) * 2020-09-30 2021-01-08 深圳壹账通智能科技有限公司 舆情文本筛选方法及装置
CN112749269A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 实体舆情计算方法及***
CN113642881A (zh) * 2021-08-09 2021-11-12 平安国际智慧城市科技股份有限公司 舆情数据的风险识别方法、装置、计算机设备及存储介质
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN114021788A (zh) * 2021-10-25 2022-02-08 深圳市维度数据科技股份有限公司 预测方法、装置、电子设备和存储介质
CN114943234A (zh) * 2022-06-27 2022-08-26 企查查科技有限公司 企业名称链接方法、装置、计算机设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593431A (zh) * 2013-11-11 2014-02-19 北京锐安科技有限公司 网络舆情分析方法和装置
CN108647335A (zh) * 2018-05-12 2018-10-12 苏州华必讯信息科技有限公司 网络舆情分析方法和装置
CN109145215A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593431A (zh) * 2013-11-11 2014-02-19 北京锐安科技有限公司 网络舆情分析方法和装置
CN108647335A (zh) * 2018-05-12 2018-10-12 苏州华必讯信息科技有限公司 网络舆情分析方法和装置
CN109145215A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689225A (zh) * 2019-08-26 2020-01-14 深圳壹账通智能科技有限公司 基于外呼的企业金融风险画像创建方法及相关设备
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、***、计算机终端及存储介质
CN112749269A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 实体舆情计算方法及***
CN111369148A (zh) * 2020-03-05 2020-07-03 广州快盈信息技术服务有限公司 对象指标的监测方法、电子装置及存储介质
CN111950860A (zh) * 2020-07-21 2020-11-17 中证征信(深圳)有限公司 一种企业舆情风险指数的监控方法及装置
CN111950860B (zh) * 2020-07-21 2024-04-16 中证征信(深圳)有限公司 一种企业舆情风险指数的监控方法及装置
CN112199588A (zh) * 2020-09-30 2021-01-08 深圳壹账通智能科技有限公司 舆情文本筛选方法及装置
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN113689299B (zh) * 2021-05-10 2023-10-20 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN113642881A (zh) * 2021-08-09 2021-11-12 平安国际智慧城市科技股份有限公司 舆情数据的风险识别方法、装置、计算机设备及存储介质
CN114021788A (zh) * 2021-10-25 2022-02-08 深圳市维度数据科技股份有限公司 预测方法、装置、电子设备和存储介质
CN114021788B (zh) * 2021-10-25 2022-07-26 深圳市维度数据科技股份有限公司 预测方法、装置、电子设备和存储介质
CN114943234A (zh) * 2022-06-27 2022-08-26 企查查科技有限公司 企业名称链接方法、装置、计算机设备、存储介质
CN114943234B (zh) * 2022-06-27 2024-03-19 企查查科技股份有限公司 企业名称链接方法、装置、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN109977300A (zh) 企业舆情获取方法、装置、终端及计算机存储介质
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10360272B2 (en) System and method for compending blogs
US11163811B2 (en) Ranking of documents based on their semantic richness
CN107256267A (zh) 查询方法和装置
CN105095440A (zh) 一种搜索推荐方法及装置
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
US20070256033A1 (en) System and method for flagging information content
KR20050043959A (ko) 광역 통신망을 이용한 검색에서 검색 목록들내 콘텐츠의적합도를 자동으로 결정하는 방법
WO2008062552A1 (fr) Dispositif d'affichage d'informations, programme d'affichage d'informations, et système d'affichage d'informations
CN110909229A (zh) 一种基于模拟浏览器访问的网页数据获取和存储的***
US10380121B2 (en) System and method for query temporality analysis
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
JP5258532B2 (ja) 評判指数を出力する方法及び評判指数出力装置
CN108334626B (zh) 新闻栏目的生成方法、装置和计算机设备
JP2009037420A (ja) 有害コンテンツの評価付与装置、プログラム及び方法
CN110413842B (zh) 基于舆情态势感知的内容审核方法***电子设备及介质
CN110516062A (zh) 一种文档的搜索处理方法及装置
US9081858B2 (en) Method and system for processing search queries
CN112115370A (zh) 推荐方法、装置、计算机可读存储介质及电子设备
US20130110812A1 (en) Accounting for authorship in a web log search engine
US11106746B2 (en) Determining sentiment of content and selecting content items for transmission to devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination