CN109359233A

CN109359233A - 基于自然语言处理技术的公网海量信息监测方法和***

Info

Publication number: CN109359233A
Application number: CN201811067750.5A
Authority: CN
Inventors: 江颖; 钟山; 沈超; 张馨; 陈锦聪
Original assignee: Guangzhou Wislife Intelligent Technology Co Ltd
Current assignee: Guangzhou Wislife Intelligent Technology Co Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-02-19

Abstract

本发明涉及一种基于自然语言处理技术的公网海量信息监测方法和***、计算机设备、计算机存储介质。上述方法包括：以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据并使用自然语言处理技术对其进行文本分析；对各个公网文本数据进行分词处理，识别公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。其具有较高的监测效率，有效提高了相应的监测效果。

Description

基于自然语言处理技术的公网海量信息监测方法和***

技术领域

本发明涉及互联网技术领域，特别是涉及一种基于自然语言处理技术的公网海量信息监测方法和***、计算机设备、计算机存储介质。

背景技术

随着互联网技术的高速发展，网民规模得到迅速扩大，越来越多的网民乐意通过微博、微信等互联网平台表达观点，网络信息传播的速度可以达到数小时之内传遍全球，因此及时掌握相关舆情等公网海量信息，无论对企业还是对相关管理机构，都有着至关重要的作用。而传统的舆情监测等网络信息(公网海量信息)监测手段需要依据相关信息主题进行相应的识别和筛选，再依据筛选后的信息实现其中的网络信息监测，这样容易造成信息遗漏，使监测效果差。

发明内容

基于此，有必要针对传统方案容易造成信息遗漏，使基于自然语言处理技术的公网海量信息监测效果差的技术问题，提供一种基于自然语言处理技术的公网海量信息监测方法和***、计算机设备、计算机存储介质。

一种基于自然语言处理技术的公网海量信息监测方法，包括：

以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；

对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；

根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。

上述基于自然语言处理技术的公网海量信息监测方法，可以根据预设的高频词爬取第一设定时间段内的公网文本数据，识别上述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量，以将所述公网文本数据分类，再分别对各类公网文本数据进行监测；可以按类别对公网文本数据进行相应监测，具有较高的监测效率，且上述监测过程以公网文本数据所包括的有效词为依据，有效提高了相应的监测效果。

在一个实施例中，所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量，n为有效词库的词量；

所述根据所述词向量将所述公网文本数据分类的过程包括：

分别计算任意两个词向量之间的余弦值，在所述余弦值大于相似阈值时，将所述余弦值对应的两个公网文本数据确定为一类文本数据。

本实施例可以保证对公网文本数据进行分类处理的准确性。

作为一个实施例，所述的分别计算任意相邻两个词向量之间的余弦值，在所述余弦值大于相似阈值时，将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后，还包括：

将包括相同公网文本数据的多类文本数据确定为一类文本数据。

本实施例中，与同一个公网文本数据为同类文本数据的多个公网文本数据之间的相似度较高，将这些文本数据确定为一类文本数据，以便采样相同或相似的监测方案同时对更多个公网文本数据进行网络信息监测，可以提高相应的监测效率。

在一个实施例中，所述分别对各类公网文本数据进行监测的过程包括：

识别各个公网数据文本的情感倾向参数；其中，所述情感倾向参数为表征相应公网数据文本积极程度的参数；

将所述情感倾向参数小于情感阈值的公网文本数据确定为消极文本数据；

统计各类公网文本数据的消极文本数据的个数，根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测。

本实施例中，若消极文本数据的个数较多，表征该类公网文本数据可以引起相关舆论危机，需要进行预警等处理，以保证相关舆情处理的及时性。

作为一个实施例，识别公网数据文本的情感倾向参数的过程包括：

提取所述公网数据文本中的特征情感词，根据所述情感词库记录的各个情感词对应的情感偏向值确定所述特征情感词的情感偏向值；其中，所述情感词库为记录各个情感词分别对应的情感偏向值的数据库；

计算所述公网数据文本对应的各个情感偏向值的平均值，根据所述平均值确定该公网数据文本的情感倾向参数。

本实施例可以对公网数据文本的情感倾向参数进行准确确定。

作为一个实施例，所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程包括：

若消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例，则产生预警信息。

本实施例在消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例时产生预警信息，以便相关用户及时获知上述预警信息，可以进行相应应对，以预防舆论危机的产生。

在一个实施例中，所述以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据的过程之前，还包括：

采集第二设定时间段内的舆情事件，获取所述舆情事件中出现次数大于次数阈值的有效词，将所获取的有效词确定为高频词。

本实施例可以对第二设定时间段内的舆情事件所包括的文本信息进行整理，运用统计学方法获取上述舆情事件中出现次数大于次数阈值的有效词，以识别舆情事件的高频词，实现对第一设定时间段内公网文本数据的爬取，保证爬取所得到的公网文本数据的有效性。

一种基于自然语言处理技术的公网海量信息监测***，包括：

爬取模块，用于以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；

识别模块，用于对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；

监测模块，用于根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。

上述基于自然语言处理技术的公网海量信息监测***，可以根据预设的高频词爬取第一设定时间段内的公网文本数据，识别上述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量，以将所述公网文本数据分类，再分别对各类公网文本数据进行监测；可以按类别对公网文本数据进行相应监测，具有较高的监测效率，且上述监测过程以公网文本数据所包括的有效词为依据，有效提高了相应的监测效果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例提供的基于自然语言处理技术的公网海量信息监测方法。

一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一实施例提供的基于自然语言处理技术的公网海量信息监测方法。

根据本发明的基于自然语言处理技术的公网海量信息监测方法，本发明还提供一种计算机设备和计算机存储介质，用于通过程序实现上述网络信息监测方法。上述计算机设备和计算机存储介质能够提高网络信息监测效果。

附图说明

图1为一个实施例的基于自然语言处理技术的公网海量信息监测方法流程图；

图2为一个实施例的基于自然语言处理技术的公网海量信息监测***结构示意图；

图3为一个实施例的计算机***模块图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

需要说明的是，本发明实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本发明实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的基于自然语言处理技术的公网海量信息监测方法流程图，包括：

S10，以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；

上述第一设定时间段可以依据监测精度确定，比如设置为前两天或者前三天，还可以设置为以当前时刻为结束时刻的前40个小时等时间段。上述公网文本数据为通过公网发表的新闻、评论或者留言等公共文本；可选地，上述公网文本数据依据用户划分，一个公共平台上，用户发表的一次文本信息为一个公网文本数据，比如，某用户针对某款产品发表的一个评论，某记者发表的一篇新闻稿，或者某用户的一次留言等等。

上述网络信息可以包括舆情等容易引起舆论危机的特定信息。上述高频词可以包括一个或者多个，高频词可以依据过去一段时间内出现的舆情事件等特定网络信息获取，具体地，可以统计过去一段时间内各个特定网络信息中出现次数较高的词，以此确定高频词。

在一个实施例中，上述步骤S10可以搭建一个基于主流媒体平台的网络爬虫***，以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据，并存储上述公网文本数据；还可以搭建一个基于自然语言处理的文本处理***，对所存储的公网文本数据进行清洗，滤除广告数据等垃圾数据，再将剩余的公网文本数据经自然语言处理算法运算(如纠正错误、删除重复内容等)，实现对公网文本数据的预处理，保证公网文本数据的一致性，还可以依据上述预处理后的公网文本数据获取各项数据指标进行离散化存储。

S20，对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；

在对各个公网文本数据进行分词处理前，可以基于大量网络样本数据，制定垃圾数据过滤规则，删除广告等垃圾数据，并通过数据库技术去除重复数据。对各个公网文本数据进行分词处理即将公网文本数据划分为多个词，分词处理后的公网文本数据包括停止词和有效词，上述停止词可以指冠词、介词、副词和/或连词等使用频率极高的词；“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词，这些词因为使用频率过高，几乎每个网页上都存在，如果网站上存在大量这样的词语，那么在相关数据处理过程中将浪费很多资源，将这一类词语(停止词)全部忽略掉，可以节省资源，提高相应的数据处理效率。有效词为公网文本数据中除停止词之外的词，有效词在相应文本数据中具有具体的指代意义。有效词库为一个大而全的词库，其记录各个有效词分别对应的词权重(词权重为某具体的数值)，上述词权重可以依据相应词的情感特征、在网络信息中使用语境等因素确定。公网文本数据的有效词在有效词库中可以分别查找到对应的词权重，一个公网文本数据对应一个词向量，上述词向量依次记录公网文本数据中有效词(有效词按照其在公网文本数据中的出现顺序排列)的词权重。若有效词库包括n个词，上述词向量可以为n为向量，某个公网文本数据的词向量在记录完其有效词对应的词权重后，可以以设定值将其词向量补齐，使该词向量为n维向量。

S30，根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。

上述步骤S30可以识别各个词向量的方向，将词向量方向相近(如夹角小于设定角度的词向量)、相似度高的公网文本数据确定为一类公网文本数据，再分别对各类公网文本数据进行监测，以保证上述网络信息监测的效率。

在一个实施例中，可以依据公网文本数据的类型制定监测规则，依据上述监测规则监测公网文本数据。具体地，可以收集过去一段时间内发生的舆情事件，对其产生的数据进行整理，归纳事件共性，制定网络信息监测规则，例如：根据历史数据，若在3天内某款产品的负面评论超过10个，会爆发质疑产品质量的舆论危机，则制定的监测规则为：3天内某款产品负面评论的文本数量大于10个，在3天内某款产品负面评论的文本数量大于10个时，进行相应的预警。

本发明提供的基于自然语言处理技术的公网海量信息监测方法，可以根据预设的高频词爬取第一设定时间段内的公网文本数据，识别上述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量，以将所述公网文本数据分类，再分别对各类公网文本数据进行监测；可以按类别对公网文本数据进行相应监测，具有较高的监测效率，且上述监测过程以公网文本数据所包括的有效词为依据，有效提高了相应的监测效果。

所述根据所述词向量将所述公网文本数据分类的过程包括：

具体地，上述设定值可以为0或者1等便于进行相关向量运算的词。上述相似阈值可以依据分类精度设置，如设置为0.9等值。某个公网文本数据的词向量在记录完其有效词对应的词权重后，可以以设定值将其词向量补齐，使该词向量为n维向量，如第一公网文本数据包括a(a<n)个有效词，第二公网文本数据包括b(b<n)个有效词，第一公网文本数据的词向量A＝[A₁,A₂,…,A_a,…,A_n]，第二公网文本数据的词向量B＝[B₁,B₂,…,B_a,…,B_n]，上述A＝[A₁,A₂,…,A_a,…,A_n]中A₁至A_a依次记录第一公网文本数据中有效词对应的词权重，A_a+1至A_n均为设定值；B＝[B₁,B₂,…,B_a,…,B_n]中B₁至B_b依次记录第二公网文本数据中有效词对应的词权重，B_b+1至B_n均为设定值。词向量A与词向量B之间的余弦值可以为：

上述余弦值cosθ大于相似阈值时，表明词向量A与词向量B所成的角度小，词向量A与词向量B方向相近，词向量A与词向量B分别对应的公网文本数据为一类文本数据。

本实施例可以保证对公网文本数据进行分类处理的准确性。

本实施例中，与同一个公网文本数据为同类文本数据的多个公网文本数据之间的相似度较高，将这些文本数据确定为一类文本数据，以便采样相同或相似的监测方案同时对更多个公网文本数据进行网络信息监测，可以提高相应的监测效率；如第一公网文本数据与第二公网文本数据为同类文本数据，第一公网文本数据与第三公网文本数据为同类文本数据，则可以将上述第一公网文本数据、第二公网文本数据与第三公网文本数据划分为一类文本数据，以对该类文本数据进行网络信息监测。

上述情感倾向参数取值范围可以为0到1，0代表绝对负面(消极)，1代表绝对正面(积极)，积极文本数据的情感偏向值高，消极文本数据的情感偏向值低。上述情感阈值可以依据网络信息监测特征设置，如设置为0.3等值。

作为一个实施例，识别公网数据文本的情感倾向参数的过程可以包括：

计算所述公网数据文本对应的各个情感偏向值的平均值(如将各个情感偏向值累加之后求其平均值)，根据所述平均值确定该公网数据文本的情感倾向参数。

上述特征情感词为能表征发言态度积极或消极的词，如有远见、亲和力、失落、惆怅等。上述情感偏向值为表征相应词的积极程度的值，情感偏向值的取值范围可以为0到1，0代表绝对负面(消极)，1代表绝对正面(积极)，积极情感词的情感偏向值高，消极情感词的情感偏向值低。上述情感词库为记录各个情感词分别对应的情感偏向值的数据库，上述情感词库所记录的情感词包括公网数据文本中的特征情感词在。具体地，可以对公网数据文本进行垃圾数据过滤、去除重复数据等预处理，再对预处理后的公网数据文本进行分词、去除停止词处理，再提取其中的特征情感词。

作为一个实施例，所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程可以包括：

上述设定比例可以依据公网文本数据的类型确定，如确定为70％等值。消极文本数据的个数大于或等于相应类别公网文本数据总数的设定比例表明该类公网文本数据可能引发相关舆论危机，需要进行预警。在产生预警信息后，可以通过报警器报警、***通知、线上推送服务、短信服务和/或邮件服务等方式通知相关用户，以便用户可以及时采取相应的处理措施。具体地，可以将进行监控的用户设为预警通知对象，将产生的预警信息导入预置的通知模板，将携带上述预警信息的通知模板发送至预警通知对象，以保证上述预警通知对象能够及时、高效地获取上述预警信息。

上述第二设定时间段可以为一个较长的时间段，如前一个月或者前两个月等时间段。上述次数阈值可以依据舆情事件的特征和舆情事件的总量确定，如确认为50或者60等值。可以对第二设定时间段内的舆情事件所包括的文本信息进行整理，运用统计学方法获取上述舆情事件中出现次数大于次数阈值的有效词，以识别舆情事件的高频词，实现对第一设定时间段内公网文本数据的爬取，保证爬取所得到的公网文本数据的有效性。

本实施例依据第二设定时间段内的舆情事确定高频词，使以上述高频词作为关键词所爬取的公网文本数据为第一设定时间段内的舆情数据，以便针对上述第一设定时间段内的舆情数据进行相应数据处理，实现舆情监测，可以有效预防相关舆论危机爆发。

作为一个实施例，采集第二设定时间段内的舆情事件后，还可以对舆情事件对应的数据进行整理，归纳事件共性，制定舆情预警规则，在相应网络信息监测过程中，若触发上述舆情预警规则，便进行相应预警。

本实施例提供的基于自然语言处理技术的公网海量信息监测方法以计算机强大的计算能力为依托，可以自动化、高效、持续的输出舆情信息，具有精确性高、时效性强等特点。

参考图2，图2所示为一个实施例的基于自然语言处理技术的公网海量信息监测***结构示意图，包括：

爬取模块10，用于以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据；

识别模块20，用于对各个公网文本数据进行分词处理，识别所述公网文本数据的有效词，根据有效词库记录的词权重确定各个公网文本数据中有效词的词权重，以及依次记录公网文本数据中有效词词权重的词向量；其中，所述有效词为公网文本数据中除停止词之外的词；所述有效词库为记录各个词分别对应的词权重的数据库；

监测模块30，用于根据所述词向量将所述公网文本数据分类，分别对各类公网文本数据进行监测。

所述监测模块包括计算模块：

所述计算模块用于分别计算任意两个词向量之间的余弦值，在所述余弦值大于相似阈值时，将所述余弦值对应的两个公网文本数据确定为一类文本数据。

作为一个实施例，所述监测模块包括确定模块：

所述确定模块用于将包括相同公网文本数据的多类文本数据确定为一类文本数据。

在一个实施例中，分别对各类公网文本数据进行监测的过程包括：

在一个实施例中所述基于自然语言处理技术的公网海量信息监测***，还包括：

采集模块，用于采集第二设定时间段内的舆情事件，获取所述舆情事件中出现次数大于次数阈值的有效词，将所获取的有效词确定为高频词。

图3为能实现本发明实施例的一个计算机***1000的模块图。该计算机***1000只是一个适用于本发明的计算机环境的示例，不能认为是提出了对本发明的使用范围的任何限制。计算机***1000也不能解释为需要依赖于或具有图示的示例性的计算机***1000中的一个或多个部件的组合。

图3中示出的计算机***1000是一个适合用于本发明的计算机***的例子。具有不同子***配置的其它架构也可以使用。例如有大众所熟知的台式计算机、笔记本等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。

如图3所示，计算机***1000包括处理器1010、存储器1020和***总线1022。包括存储器1020和处理器1010在内的各种***组件连接到***总线1022上。处理器1010是一个用来通过计算机***中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如，程序状态信息)的物理设备。***总线1020可以为以下几种类型的总线结构中的任意一种，包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过***总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出)，以及随机存取存储器(RAM)，RAM通常是指加载了操作***和应用程序的主存储器。

计算机***1000还包括显示接口1030(例如，图形处理单元)、显示设备1040(例如，液晶显示器)、音频接口1050(例如，声卡)以及音频设备1060(例如，扬声器)。显示设备1040和音频设备1060可以用于相关预警信息的播放。

计算机***1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择，计算机可读介质是指可以通过计算机***1000访问的任何可利用的介质，包括移动的和固定的两种介质。例如，计算机可读介质包括但不限于，闪速存储器(微型SD卡)，CD-ROM，数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并可由计算机***1000访问的任何其它介质。

计算机***1000还包括输入装置1080和输入接口1090(例如，IO控制器)。用户可以通过输入装置1080，如键盘、鼠标、显示装置1040上的触摸面板设备，输入指令和信息到计算机***1000中。输入装置1080通常是通过输入接口1090连接到***总线1022上的，但也可以通过其它接口或总线结构相连接，如通用串行总线(USB)。

计算机***1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、平板电脑或者其它公共网络节点。计算机***1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内，例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼，互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机***1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外，移动通信单元1110也支持在提供移动数据服务的2G，3G或4G蜂窝通信***中进行互联网访问。

应当指出的是，其它包括比计算机***1000更多或更少的子***的计算机***也能适用于发明。如上面详细描述的，适用于本发明的计算机***1000能执行基于自然语言处理技术的公网海量信息监测方法的指定操作。计算机***1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的基于自然语言处理技术的公网海量信息监测方法。此外，通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此，实现本发明并不限于任何特定硬件电路和软件的组合。

本发明的基于自然语言处理技术的公网海量信息监测***与本发明的基于自然语言处理技术的公网海量信息监测方法一一对应，在上述基于自然语言处理技术的公网海量信息监测方法的实施例阐述的技术特征及其有益效果均适用于基于自然语言处理技术的公网海量信息监测***的实施例中。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种基于自然语言处理技术的公网海量信息监测方法。

上述计算机设备，通过所述处理器上运行的计算机程序，有效提高了基于自然语言处理技术的公网海量信息监测效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机***的存储介质中，并被该计算机***中的至少一个处理器执行，以实现包括如上述基于自然语言处理技术的公网海量信息监测方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，在一个实施例中还提供一种计算机存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种基于自然语言处理技术的公网海量信息监测方法。

上述计算机存储介质，通过其存储的计算机程序，能够提高基于自然语言处理技术的公网海量信息监测的效率和效果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于自然语言处理技术的公网海量信息监测方法，其特征在于，包括：

2.根据权利要求1所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述词向量为依次记录相应公网文本数据中有效词词权重以及设定值的n维向量，n为有效词库的词量；

所述根据所述词向量将所述公网文本数据分类的过程包括：

3.根据权利要求2所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述的分别计算任意相邻两个词向量之间的余弦值，在所述余弦值大于相似阈值时，将所述余弦值对应的两个公网文本数据确定为一类文本数据过程之后，还包括：

4.根据权利要求1至3任一项所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述分别对各类公网文本数据进行监测的过程包括：

5.根据权利要求4所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，识别公网数据文本的情感倾向参数的过程包括：

6.根据权利要求4所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述根据消极文本数据的个数对相应类别的公网文本数据进行网络信息监测的过程包括：

7.根据权利要求1至3任一项所述的基于自然语言处理技术的公网海量信息监测方法，其特征在于，所述以预设的高频词作为关键词，爬取第一设定时间段内的公网文本数据的过程之前，还包括：

8.一种基于自然语言处理技术的公网海量信息监测***，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于自然语言处理技术的公网海量信息监测方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任意一项所述的基于自然语言处理技术的公网海量信息监测方法。