CN109359233A - 基于自然语言处理技术的公网海量信息监测方法和*** - Google Patents
基于自然语言处理技术的公网海量信息监测方法和*** Download PDFInfo
- Publication number
- CN109359233A CN109359233A CN201811067750.5A CN201811067750A CN109359233A CN 109359233 A CN109359233 A CN 109359233A CN 201811067750 A CN201811067750 A CN 201811067750A CN 109359233 A CN109359233 A CN 109359233A
- Authority
- CN
- China
- Prior art keywords
- public network
- word
- text data
- effective
- network text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012544 monitoring process Methods 0.000 title claims abstract description 83
- 238000003058 natural language processing Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 59
- 241001269238 Data Species 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 230000008451 emotion Effects 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005498 polishing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 206010020675 Hypermetropia Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于自然语言处理技术的公网海量信息监测方法和***、计算机设备、计算机存储介质。上述方法包括:以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据并使用自然语言处理技术对其进行文本分析;对各个公网文本数据进行分词处理,识别公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。其具有较高的监测效率,有效提高了相应的监测效果。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种基于自然语言处理技术的公网海量信息监测方法和***、计算机设备、计算机存储介质。
背景技术
随着互联网技术的高速发展,网民规模得到迅速扩大,越来越多的网民乐意通过微博、微信等互联网平台表达观点,网络信息传播的速度可以达到数小时之内传遍全球,因此及时掌握相关舆情等公网海量信息,无论对企业还是对相关管理机构,都有着至关重要的作用。而传统的舆情监测等网络信息(公网海量信息)监测手段需要依据相关信息主题进行相应的识别和筛选,再依据筛选后的信息实现其中的网络信息监测,这样容易造成信息遗漏,使监测效果差。
发明内容
基于此,有必要针对传统方案容易造成信息遗漏,使基于自然语言处理技术的公网海量信息监测效果差的技术问题,提供一种基于自然语言处理技术的公网海量信息监测方法和***、计算机设备、计算机存储介质。
一种基于自然语言处理技术的公网海量信息监测方法,包括:
以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;
对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;
根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。
上述基于自然语言处理技术的公网海量信息监测方法,可以根据预设的高频词爬取第一设定时间段内的公网文本数据,识别上述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量,以将所述公网文本数据分类,再分别对各类公网文本数据进行监测;可以按类别对公网文本数据进行相应监测,具有较高的监测效率,且上述监测过程以公网文本数据所包括的有效词为依据,有效提高了相应的监测效果。
在一个实施例中,所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量,n为有效词库的词量;
所述根据所述词向量将所述公网文本数据分类的过程包括:
分别计算任意两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据。
本实施例可以保证对公网文本数据进行分类处理的准确性。
作为一个实施例,所述的分别计算任意相邻两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后,还包括:
将包括相同公网文本数据的多类文本数据确定为一类文本数据。
本实施例中,与同一个公网文本数据为同类文本数据的多个公网文本数据之间的相似度较高,将这些文本数据确定为一类文本数据,以便采样相同或相似的监测方案同时对更多个公网文本数据进行网络信息监测,可以提高相应的监测效率。
在一个实施例中,所述分别对各类公网文本数据进行监测的过程包括:
识别各个公网数据文本的情感倾向参数;其中,所述情感倾向参数为表征相应公网数据文本积极程度的参数;
将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据;
统计各类公网文本数据的消极文本数据的个数,根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。
本实施例中,若消极文本数据的个数较多,表征该类公网文本数据可以引起相关舆论危机,需要进行预警等处理,以保证相关舆情处理的及时性。
作为一个实施例,识别公网数据文本的情感倾向参数的过程包括:
提取所述公网数据文本中的特征情感词,根据所述情感词库记录的各个情感词对应的情感偏向值确定所述特征情感词的情感偏向值;其中,所述情感词库为记录各个情感词分别对应的情感偏向值的数据库;
计算所述公网数据文本对应的各个情感偏向值的平均值,根据所述平均值确定该公网数据文本的情感倾向参数。
本实施例可以对公网数据文本的情感倾向参数进行准确确定。
作为一个实施例,所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程包括:
若消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例,则产生预警信息。
本实施例在消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例时产生预警信息,以便相关用户及时获知上述预警信息,可以进行相应应对,以预防舆论危机的产生。
在一个实施例中,所述以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据的过程之前,还包括:
采集第二设定时间段内的舆情事件,获取所述舆情事件中出现次数大于次数阈值的有效词,将所获取的有效词确定为高频词。
本实施例可以对第二设定时间段内的舆情事件所包括的文本信息进行整理,运用统计学方法获取上述舆情事件中出现次数大于次数阈值的有效词,以识别舆情事件的高频词,实现对第一设定时间段内公网文本数据的爬取,保证爬取所得到的公网文本数据的有效性。
一种基于自然语言处理技术的公网海量信息监测***,包括:
爬取模块,用于以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;
识别模块,用于对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;
监测模块,用于根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。
上述基于自然语言处理技术的公网海量信息监测***,可以根据预设的高频词爬取第一设定时间段内的公网文本数据,识别上述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量,以将所述公网文本数据分类,再分别对各类公网文本数据进行监测;可以按类别对公网文本数据进行相应监测,具有较高的监测效率,且上述监测过程以公网文本数据所包括的有效词为依据,有效提高了相应的监测效果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的基于自然语言处理技术的公网海量信息监测方法。
一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一实施例提供的基于自然语言处理技术的公网海量信息监测方法。
根据本发明的基于自然语言处理技术的公网海量信息监测方法,本发明还提供一种计算机设备和计算机存储介质,用于通过程序实现上述网络信息监测方法。上述计算机设备和计算机存储介质能够提高网络信息监测效果。
附图说明
图1为一个实施例的基于自然语言处理技术的公网海量信息监测方法流程图;
图2为一个实施例的基于自然语言处理技术的公网海量信息监测***结构示意图;
图3为一个实施例的计算机***模块图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
需要说明的是,本发明实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1所示,图1为一个实施例的基于自然语言处理技术的公网海量信息监测方法流程图,包括:
S10,以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;
上述第一设定时间段可以依据监测精度确定,比如设置为前两天或者前三天,还可以设置为以当前时刻为结束时刻的前40个小时等时间段。上述公网文本数据为通过公网发表的新闻、评论或者留言等公共文本;可选地,上述公网文本数据依据用户划分,一个公共平台上,用户发表的一次文本信息为一个公网文本数据,比如,某用户针对某款产品发表的一个评论,某记者发表的一篇新闻稿,或者某用户的一次留言等等。
上述网络信息可以包括舆情等容易引起舆论危机的特定信息。上述高频词可以包括一个或者多个,高频词可以依据过去一段时间内出现的舆情事件等特定网络信息获取,具体地,可以统计过去一段时间内各个特定网络信息中出现次数较高的词,以此确定高频词。
在一个实施例中,上述步骤S10可以搭建一个基于主流媒体平台的网络爬虫***,以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据,并存储上述公网文本数据;还可以搭建一个基于自然语言处理的文本处理***,对所存储的公网文本数据进行清洗,滤除广告数据等垃圾数据,再将剩余的公网文本数据经自然语言处理算法运算(如纠正错误、删除重复内容等),实现对公网文本数据的预处理,保证公网文本数据的一致性,还可以依据上述预处理后的公网文本数据获取各项数据指标进行离散化存储。
S20,对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;
在对各个公网文本数据进行分词处理前,可以基于大量网络样本数据,制定垃圾数据过滤规则,删除广告等垃圾数据,并通过数据库技术去除重复数据。对各个公网文本数据进行分词处理即将公网文本数据划分为多个词,分词处理后的公网文本数据包括停止词和有效词,上述停止词可以指冠词、介词、副词和/或连词等使用频率极高的词;“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词,这些词因为使用频率过高,几乎每个网页上都存在,如果网站上存在大量这样的词语,那么在相关数据处理过程中将浪费很多资源,将这一类词语(停止词)全部忽略掉,可以节省资源,提高相应的数据处理效率。有效词为公网文本数据中除停止词之外的词,有效词在相应文本数据中具有具体的指代意义。有效词库为一个大而全的词库,其记录各个有效词分别对应的词权重(词权重为某具体的数值),上述词权重可以依据相应词的情感特征、在网络信息中使用语境等因素确定。公网文本数据的有效词在有效词库中可以分别查找到对应的词权重,一个公网文本数据对应一个词向量,上述词向量依次记录公网文本数据中有效词(有效词按照其在公网文本数据中的出现顺序排列)的词权重。若有效词库包括n个词,上述词向量可以为n为向量,某个公网文本数据的词向量在记录完其有效词对应的词权重后,可以以设定值将其词向量补齐,使该词向量为n维向量。
S30,根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。
上述步骤S30可以识别各个词向量的方向,将词向量方向相近(如夹角小于设定角度的词向量)、相似度高的公网文本数据确定为一类公网文本数据,再分别对各类公网文本数据进行监测,以保证上述网络信息监测的效率。
在一个实施例中,可以依据公网文本数据的类型制定监测规则,依据上述监测规则监测公网文本数据。具体地,可以收集过去一段时间内发生的舆情事件,对其产生的数据进行整理,归纳事件共性,制定网络信息监测规则,例如:根据历史数据,若在3天内某款产品的负面评论超过10个,会爆发质疑产品质量的舆论危机,则制定的监测规则为:3天内某款产品负面评论的文本数量大于10个,在3天内某款产品负面评论的文本数量大于10个时,进行相应的预警。
本发明提供的基于自然语言处理技术的公网海量信息监测方法,可以根据预设的高频词爬取第一设定时间段内的公网文本数据,识别上述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量,以将所述公网文本数据分类,再分别对各类公网文本数据进行监测;可以按类别对公网文本数据进行相应监测,具有较高的监测效率,且上述监测过程以公网文本数据所包括的有效词为依据,有效提高了相应的监测效果。
在一个实施例中,所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量,n为有效词库的词量;
所述根据所述词向量将所述公网文本数据分类的过程包括:
分别计算任意两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据。
具体地,上述设定值可以为0或者1等便于进行相关向量运算的词。上述相似阈值可以依据分类精度设置,如设置为0.9等值。某个公网文本数据的词向量在记录完其有效词对应的词权重后,可以以设定值将其词向量补齐,使该词向量为n维向量,如第一公网文本数据包括a(a<n)个有效词,第二公网文本数据包括b(b<n)个有效词,第一公网文本数据的词向量A=[A1,A2,…,Aa,…,An],第二公网文本数据的词向量B=[B1,B2,…,Ba,…,Bn],上述A=[A1,A2,…,Aa,…,An]中A1至Aa依次记录第一公网文本数据中有效词对应的词权重,Aa+1至An均为设定值;B=[B1,B2,…,Ba,…,Bn]中B1至Bb依次记录第二公网文本数据中有效词对应的词权重,Bb+1至Bn均为设定值。词向量A与词向量B之间的余弦值可以为:
上述余弦值cosθ大于相似阈值时,表明词向量A与词向量B所成的角度小,词向量A与词向量B方向相近,词向量A与词向量B分别对应的公网文本数据为一类文本数据。
本实施例可以保证对公网文本数据进行分类处理的准确性。
作为一个实施例,所述的分别计算任意相邻两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后,还包括:
将包括相同公网文本数据的多类文本数据确定为一类文本数据。
本实施例中,与同一个公网文本数据为同类文本数据的多个公网文本数据之间的相似度较高,将这些文本数据确定为一类文本数据,以便采样相同或相似的监测方案同时对更多个公网文本数据进行网络信息监测,可以提高相应的监测效率;如第一公网文本数据与第二公网文本数据为同类文本数据,第一公网文本数据与第三公网文本数据为同类文本数据,则可以将上述第一公网文本数据、第二公网文本数据与第三公网文本数据划分为一类文本数据,以对该类文本数据进行网络信息监测。
在一个实施例中,所述分别对各类公网文本数据进行监测的过程包括:
识别各个公网数据文本的情感倾向参数;其中,所述情感倾向参数为表征相应公网数据文本积极程度的参数;
将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据;
统计各类公网文本数据的消极文本数据的个数,根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。
上述情感倾向参数取值范围可以为0到1,0代表绝对负面(消极),1代表绝对正面(积极),积极文本数据的情感偏向值高,消极文本数据的情感偏向值低。上述情感阈值可以依据网络信息监测特征设置,如设置为0.3等值。
本实施例中,若消极文本数据的个数较多,表征该类公网文本数据可以引起相关舆论危机,需要进行预警等处理,以保证相关舆情处理的及时性。
作为一个实施例,识别公网数据文本的情感倾向参数的过程可以包括:
提取所述公网数据文本中的特征情感词,根据所述情感词库记录的各个情感词对应的情感偏向值确定所述特征情感词的情感偏向值;其中,所述情感词库为记录各个情感词分别对应的情感偏向值的数据库;
计算所述公网数据文本对应的各个情感偏向值的平均值(如将各个情感偏向值累加之后求其平均值),根据所述平均值确定该公网数据文本的情感倾向参数。
上述特征情感词为能表征发言态度积极或消极的词,如有远见、亲和力、失落、惆怅等。上述情感偏向值为表征相应词的积极程度的值,情感偏向值的取值范围可以为0到1,0代表绝对负面(消极),1代表绝对正面(积极),积极情感词的情感偏向值高,消极情感词的情感偏向值低。上述情感词库为记录各个情感词分别对应的情感偏向值的数据库,上述情感词库所记录的情感词包括公网数据文本中的特征情感词在。具体地,可以对公网数据文本进行垃圾数据过滤、去除重复数据等预处理,再对预处理后的公网数据文本进行分词、去除停止词处理,再提取其中的特征情感词。
本实施例可以对公网数据文本的情感倾向参数进行准确确定。
作为一个实施例,所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程可以包括:
若消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例,则产生预警信息。
上述设定比例可以依据公网文本数据的类型确定,如确定为70%等值。消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例表明该类公网文本数据可能引发相关舆论危机,需要进行预警。在产生预警信息后,可以通过报警器报警、***通知、线上推送服务、短信服务和/或邮件服务等方式通知相关用户,以便用户可以及时采取相应的处理措施。具体地,可以将进行监控的用户设为预警通知对象,将产生的预警信息导入预置的通知模板,将携带上述预警信息的通知模板发送至预警通知对象,以保证上述预警通知对象能够及时、高效地获取上述预警信息。
本实施例在消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例时产生预警信息,以便相关用户及时获知上述预警信息,可以进行相应应对,以预防舆论危机的产生。
在一个实施例中,所述以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据的过程之前,还包括:
采集第二设定时间段内的舆情事件,获取所述舆情事件中出现次数大于次数阈值的有效词,将所获取的有效词确定为高频词。
上述第二设定时间段可以为一个较长的时间段,如前一个月或者前两个月等时间段。上述次数阈值可以依据舆情事件的特征和舆情事件的总量确定,如确认为50或者60等值。可以对第二设定时间段内的舆情事件所包括的文本信息进行整理,运用统计学方法获取上述舆情事件中出现次数大于次数阈值的有效词,以识别舆情事件的高频词,实现对第一设定时间段内公网文本数据的爬取,保证爬取所得到的公网文本数据的有效性。
本实施例依据第二设定时间段内的舆情事确定高频词,使以上述高频词作为关键词所爬取的公网文本数据为第一设定时间段内的舆情数据,以便针对上述第一设定时间段内的舆情数据进行相应数据处理,实现舆情监测,可以有效预防相关舆论危机爆发。
作为一个实施例,采集第二设定时间段内的舆情事件后,还可以对舆情事件对应的数据进行整理,归纳事件共性,制定舆情预警规则,在相应网络信息监测过程中,若触发上述舆情预警规则,便进行相应预警。
本实施例提供的基于自然语言处理技术的公网海量信息监测方法以计算机强大的计算能力为依托,可以自动化、高效、持续的输出舆情信息,具有精确性高、时效性强等特点。
参考图2,图2所示为一个实施例的基于自然语言处理技术的公网海量信息监测***结构示意图,包括:
爬取模块10,用于以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;
识别模块20,用于对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;
监测模块30,用于根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。
在一个实施例中,所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量,n为有效词库的词量;
所述监测模块包括计算模块:
所述计算模块用于分别计算任意两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据。
作为一个实施例,所述监测模块包括确定模块:
所述确定模块用于将包括相同公网文本数据的多类文本数据确定为一类文本数据。
在一个实施例中,分别对各类公网文本数据进行监测的过程包括:
识别各个公网数据文本的情感倾向参数;其中,所述情感倾向参数为表征相应公网数据文本积极程度的参数;
将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据;
统计各类公网文本数据的消极文本数据的个数,根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。
作为一个实施例,识别公网数据文本的情感倾向参数的过程包括:
提取所述公网数据文本中的特征情感词,根据所述情感词库记录的各个情感词对应的情感偏向值确定所述特征情感词的情感偏向值;其中,所述情感词库为记录各个情感词分别对应的情感偏向值的数据库;
计算所述公网数据文本对应的各个情感偏向值的平均值,根据所述平均值确定该公网数据文本的情感倾向参数。
作为一个实施例,所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程包括:
若消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例,则产生预警信息。
在一个实施例中所述基于自然语言处理技术的公网海量信息监测***,还包括:
采集模块,用于采集第二设定时间段内的舆情事件,获取所述舆情事件中出现次数大于次数阈值的有效词,将所获取的有效词确定为高频词。
图3为能实现本发明实施例的一个计算机***1000的模块图。该计算机***1000只是一个适用于本发明的计算机环境的示例,不能认为是提出了对本发明的使用范围的任何限制。计算机***1000也不能解释为需要依赖于或具有图示的示例性的计算机***1000中的一个或多个部件的组合。
图3中示出的计算机***1000是一个适合用于本发明的计算机***的例子。具有不同子***配置的其它架构也可以使用。例如有大众所熟知的台式计算机、笔记本等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。
如图3所示,计算机***1000包括处理器1010、存储器1020和***总线1022。包括存储器1020和处理器1010在内的各种***组件连接到***总线1022上。处理器1010是一个用来通过计算机***中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。***总线1020可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过***总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出),以及随机存取存储器(RAM),RAM通常是指加载了操作***和应用程序的主存储器。
计算机***1000还包括显示接口1030(例如,图形处理单元)、显示设备1040(例如,液晶显示器)、音频接口1050(例如,声卡)以及音频设备1060(例如,扬声器)。显示设备1040和音频设备1060可以用于相关预警信息的播放。
计算机***1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机***1000访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型SD卡),CD-ROM,数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机***1000访问的任何其它介质。
计算机***1000还包括输入装置1080和输入接口1090(例如,IO控制器)。用户可以通过输入装置1080,如键盘、鼠标、显示装置1040上的触摸面板设备,输入指令和信息到计算机***1000中。输入装置1080通常是通过输入接口1090连接到***总线1022上的,但也可以通过其它接口或总线结构相连接,如通用串行总线(USB)。
计算机***1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、平板电脑或者其它公共网络节点。计算机***1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机***1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外,移动通信单元1110也支持在提供移动数据服务的2G,3G或4G蜂窝通信***中进行互联网访问。
应当指出的是,其它包括比计算机***1000更多或更少的子***的计算机***也能适用于发明。如上面详细描述的,适用于本发明的计算机***1000能执行基于自然语言处理技术的公网海量信息监测方法的指定操作。计算机***1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的基于自然语言处理技术的公网海量信息监测方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本发明并不限于任何特定硬件电路和软件的组合。
本发明的基于自然语言处理技术的公网海量信息监测***与本发明的基于自然语言处理技术的公网海量信息监测方法一一对应,在上述基于自然语言处理技术的公网海量信息监测方法的实施例阐述的技术特征及其有益效果均适用于基于自然语言处理技术的公网海量信息监测***的实施例中。
基于如上所述的示例,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种基于自然语言处理技术的公网海量信息监测方法。
上述计算机设备,通过所述处理器上运行的计算机程序,有效提高了基于自然语言处理技术的公网海量信息监测效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机***的存储介质中,并被该计算机***中的至少一个处理器执行,以实现包括如上述基于自然语言处理技术的公网海量信息监测方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种计算机存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种基于自然语言处理技术的公网海量信息监测方法。
上述计算机存储介质,通过其存储的计算机程序,能够提高基于自然语言处理技术的公网海量信息监测的效率和效果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于自然语言处理技术的公网海量信息监测方法,其特征在于,包括:
以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;
对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;
根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。
2.根据权利要求1所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量,n为有效词库的词量;
所述根据所述词向量将所述公网文本数据分类的过程包括:
分别计算任意两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据。
3.根据权利要求2所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述的分别计算任意相邻两个词向量之间的余弦值,在所述余弦值大于相似阈值时,将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后,还包括:
将包括相同公网文本数据的多类文本数据确定为一类文本数据。
4.根据权利要求1至3任一项所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述分别对各类公网文本数据进行监测的过程包括:
识别各个公网数据文本的情感倾向参数;其中,所述情感倾向参数为表征相应公网数据文本积极程度的参数;
将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据;
统计各类公网文本数据的消极文本数据的个数,根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。
5.根据权利要求4所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,识别公网数据文本的情感倾向参数的过程包括:
提取所述公网数据文本中的特征情感词,根据所述情感词库记录的各个情感词对应的情感偏向值确定所述特征情感词的情感偏向值;其中,所述情感词库为记录各个情感词分别对应的情感偏向值的数据库;
计算所述公网数据文本对应的各个情感偏向值的平均值,根据所述平均值确定该公网数据文本的情感倾向参数。
6.根据权利要求4所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程包括:
若消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例,则产生预警信息。
7.根据权利要求1至3任一项所述的基于自然语言处理技术的公网海量信息监测方法,其特征在于,所述以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据的过程之前,还包括:
采集第二设定时间段内的舆情事件,获取所述舆情事件中出现次数大于次数阈值的有效词,将所获取的有效词确定为高频词。
8.一种基于自然语言处理技术的公网海量信息监测***,其特征在于,包括:
爬取模块,用于以预设的高频词作为关键词,爬取第一设定时间段内的公网文本数据;
识别模块,用于对各个公网文本数据进行分词处理,识别所述公网文本数据的有效词,根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重,以及依次记录公网文本数据中有效词词权重的词向量;其中,所述有效词为公网文本数据中除停止词之外的词;所述有效词库为记录各个词分别对应的词权重的数据库;
监测模块,用于根据所述词向量将所述公网文本数据分类,分别对各类公网文本数据进行监测。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于自然语言处理技术的公网海量信息监测方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任意一项所述的基于自然语言处理技术的公网海量信息监测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811067750.5A CN109359233A (zh) | 2018-09-13 | 2018-09-13 | 基于自然语言处理技术的公网海量信息监测方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811067750.5A CN109359233A (zh) | 2018-09-13 | 2018-09-13 | 基于自然语言处理技术的公网海量信息监测方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109359233A true CN109359233A (zh) | 2019-02-19 |
Family
ID=65350660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811067750.5A Pending CN109359233A (zh) | 2018-09-13 | 2018-09-13 | 基于自然语言处理技术的公网海量信息监测方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359233A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840300A (zh) * | 2019-03-04 | 2019-06-04 | 深信服科技股份有限公司 | 网络舆情分析方法、装置、设备及计算机可读存储介质 |
CN112256974A (zh) * | 2020-11-13 | 2021-01-22 | 泰康保险集团股份有限公司 | 一种舆情信息的处理方法及装置 |
CN112686035A (zh) * | 2019-10-18 | 2021-04-20 | 北京沃东天骏信息技术有限公司 | 一种未登录词进行向量化的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控***及方法 |
US20110060733A1 (en) * | 2009-09-04 | 2011-03-10 | Alibaba Group Holding Limited | Information retrieval based on semantic patterns of queries |
CN106599065A (zh) * | 2016-11-16 | 2017-04-26 | 北京化工大学 | 一种基于Storm分布式框架的食品安全网络舆情预警*** |
CN107832344A (zh) * | 2017-10-16 | 2018-03-23 | 广州大学 | 一种基于storm流计算框架的食品安全网络舆情分析方法 |
-
2018
- 2018-09-13 CN CN201811067750.5A patent/CN109359233A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110060733A1 (en) * | 2009-09-04 | 2011-03-10 | Alibaba Group Holding Limited | Information retrieval based on semantic patterns of queries |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控***及方法 |
CN106599065A (zh) * | 2016-11-16 | 2017-04-26 | 北京化工大学 | 一种基于Storm分布式框架的食品安全网络舆情预警*** |
CN107832344A (zh) * | 2017-10-16 | 2018-03-23 | 广州大学 | 一种基于storm流计算框架的食品安全网络舆情分析方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840300A (zh) * | 2019-03-04 | 2019-06-04 | 深信服科技股份有限公司 | 网络舆情分析方法、装置、设备及计算机可读存储介质 |
CN112686035A (zh) * | 2019-10-18 | 2021-04-20 | 北京沃东天骏信息技术有限公司 | 一种未登录词进行向量化的方法和装置 |
CN112256974A (zh) * | 2020-11-13 | 2021-01-22 | 泰康保险集团股份有限公司 | 一种舆情信息的处理方法及装置 |
CN112256974B (zh) * | 2020-11-13 | 2023-11-17 | 泰康保险集团股份有限公司 | 一种舆情信息的处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10108741B2 (en) | Automatic browser tab groupings | |
Adedoyin-Olowe et al. | A rule dynamics approach to event detection in twitter with its application to sports and politics | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
Jiang et al. | Recommending new features from mobile app descriptions | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN109359233A (zh) | 基于自然语言处理技术的公网海量信息监测方法和*** | |
CN111600874B (zh) | 用户账号检测方法、装置、电子设备、介质 | |
US10812500B2 (en) | Method of cyberthreat detection by learning first-order rules on large-scale social media | |
CN113297840B (zh) | 恶意流量账号检测方法、装置、设备和存储介质 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
US10762089B2 (en) | Open ended question identification for investigations | |
US11095953B2 (en) | Hierarchical video concept tagging and indexing system for learning content orchestration | |
CN111178701B (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
CN108235360B (zh) | 甄别用户的方法及设备 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN115576834A (zh) | 支撑故障还原的软件测试复用方法、***、终端及介质 | |
CN115514558A (zh) | 一种入侵检测方法、装置、设备及介质 | |
CN114547257A (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN111383072A (zh) | 一种用户信用评分方法、存储介质及服务器 | |
CN112231444A (zh) | 结合rpa和ai的语料数据的处理方法、装置和电子设备 | |
CN113961811B (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
US20230084737A1 (en) | Recommend target systems for operator to attention in monitor tool | |
Janer et al. | Incorporating space, time, and magnitude measures in a network characterization of earthquake events | |
CN105786929A (zh) | 一种信息监测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190219 |
|
RJ01 | Rejection of invention patent application after publication |