CN109614550A

CN109614550A - 舆情监控方法、装置、计算机设备及存储介质

Info

Publication number: CN109614550A
Application number: CN201811510411.XA
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-12

Abstract

本申请实施例提供了一种舆情监控方法、装置、计算机设备及计算机可读存储介质。方法包括：通过爬虫***更新目标对象的数据源网站；爬取所述数据源网站中包含所述目标对象的语料；通过自然语言处理解析语料，识别语料包含的主体名称及舆情特征；将主体名称及舆情特征导入图数据库以构建目标关系图谱；显示所述目标关系图谱以实现对所述目标对象的舆情监控。本申请实施例基于构建目标关系图谱，在获取目标的初始数据源网站列表后，通过爬虫***更新目标对象的数据源网站以实现自动化增加数据源网站，获取较全面的目标语料，通过自然语言处理解析所述语料以构建目标关系图谱，可视化的显示目标关系图谱以实现舆情监控，提高获得的企业舆情的准确度。

Description

舆情监控方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据展示技术领域，尤其涉及一种舆情监控方法、装置、计算机设备及计算机可读存储介质。

背景技术

企业舆情信息是目前做企业关系项目都会涉及到的内容，而传统技术中都是采取定向的采集指定网站数据的方法，比如财经网站。但这样采集的信息不够全面，从而使获得的企业舆情存在准确度不高的问题。

发明内容

本申请实施例提供了一种舆情监控方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中获得的企业舆情存在准确度不高的问题。

第一方面，本申请实施例提供了一种舆情监控方法，所述方法包括：通过爬虫***更新目标对象的数据源网站；爬取所述数据源网站中包含所述目标对象的语料；通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；显示所述目标关系图谱以实现对所述目标对象的舆情监控。

第二方面，本申请实施例还提供了一种舆情监控装置，包括：更新单元，用于通过爬虫***更新目标对象的数据源网站；爬取单元，用于爬取所述数据源网站中包含所述目标对象的语料；识别单元，用于通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；导入单元，用于将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；显示单元，用于显示所述目标关系图谱以实现对所述目标对象的舆情监控。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述舆情监控方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述舆情监控方法。

本申请实施例提供了一种舆情监控方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现舆情监控时，在获取目标的初始数据源网站列表后，通过爬虫***更新目标对象的数据源网站以实现自动化增加数据源网站，从而实现获取较全面的关于目标对象的语料，在获取较全面语料的基础上，通过自然语言处理解析所述语料以构建目标对象的目标关系图谱，可视化的显示目标关系图谱以实现对所述目标对象的舆情监控，从而提高获得的目标对象的舆情的准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的舆情监控方法的应用场景示意图；

图2为本申请实施例提供的舆情监控方法的流程示意图；

图3为本申请实施例提供的舆情监控方法的子流程示意图；

图4为本申请实施例提供的舆情监控方法的另一个子流程示意图；

图5为本申请实施例提供的舆情监控方法的第三个子流程示意图；

图6为本申请实施例提供的舆情监控方法的第四个子流程示意图；

图7为本申请实施例提供的舆情监控装置的示意性框图；

图8为本申请实施例提供的舆情监控装置的另一个示意性框图；以及

图9为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的舆情监控方法的应用场景示意图。所述应用场景包括：

(1)终端。图1所示终端上安装有应用程序接口，研发人员通过应用程序接口与主服务器进行交互，提供需要人工输入的内容，比如配置的初始数据源网站列表，上传至服务器的Docker容器，以实现主服务器执行舆情监控方法的步骤，所述终端可以为笔记本电脑、平板电脑或者台式电脑等电子设备，图1中的终端与主服务器连接。

(2)服务器。服务器包括主服务器和从服务器，本申请实施例采用分布式***，通过主服务器部署多个Docker容器到不同的从服务器上，不同的Docker容器封装不同类型的数据源网站列表，以提高爬取语料的效率。通过从服务器爬取语料后存储至主服务器的数据库中，使主服务器使用获得的语料执行舆情监控方法的步骤。图1中的主服务器分别与终端及从服务器连接。

图1中的各个主体工作过程如下：主服务器接收终端配置目标对象的初始数据源网站列表，将数据源列表按照预设条件进行分类后，封装所述不同类型的数据源网站列表至对应的Docker容器，将不同类型的Docker容器部署至不同的从服务器上，通过从服务器上的爬虫***更新目标的数据源网站，从服务器爬取所述数据源网站中包含所述目标对象的语料，存储至主服务器数据库；主服务器通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；将目标关系图谱发送至终端，通过终端显示所述目标关系图谱以实现对所述目标对象的舆情监控。

需要说明的是，图1中仅仅示意出台式电脑作为终端，在实际操作过程中，终端的类型不限于图1中所示，所述终端还可以为手机、笔记本电脑或者平板电脑等电子设备，上述舆情监控方法的应用场景仅仅用于说明本申请技术方案，并不用于限定本申请技术方案，上述连接关系还可以有其他形式。

图2为本申请实施例提供的舆情监控方法的示意性流程图。该舆情监控方法应用于图1中的主服务器中，以完成舆情监控方法的全部或者部分功能。

请参阅图2，图2是本申请实施例提供的舆情监控方法的流程示意图。如图2所示，该方法包括以下步骤S210-S250：

S210、通过爬虫***更新目标对象的数据源网站。

其中，爬虫是指网络爬虫，网络爬虫又被称为网页蜘蛛、网络机器人，或者网页追逐者等，是一种按照一定规则自动地抓取万维网信息的程序或者脚本。

所述目标对象是指要实施舆情监控的对象，所述目标对象可以为单位，也可以为一产品或者一项目等，比如，所述目标对象可以为企业或者公司等对象，也可以为一款手机，或者一个投资项目等。

具体地，要实施对目标对象的舆情监控，通过构建爬虫***爬取互联网上目标的有关语料，通过对语料的解析构建目标对象与其他企业等主体之间的目标关系图谱，通过目标关系图谱获取目标对象的舆情监控。

具体实施时，构建一个自动化增加数据源的爬虫策略，以从互联网上获取目标对象较为全面的有关语料。能够自动化增加数据源的爬虫策略，是指所述爬虫接收初始化数据源网站后，根据获得的数据源网站能够自动扩展出更多的数据源网站以增加语料来源，从而获取目标对象较全面的语料。在本实施例中，能够自动化增加数据源的爬虫策略是指爬虫根据获得的数据源网站的类型和网址结构特征，通过深度爬取的方法，挖掘出与获得的数据源网址有关联的新数据源网站，比如与获得的数据源网址有相同的后缀，或者与获得的数据源网址属于同一个类型，比如均属于财经类网站等，从而从一个财经类网站扩展到其他财经类网站，由于同属财经类网站，就有可能存在针对同一个目标对象从不同角度进行解读的语料。由于彼此之间有关联的网站，尤其是在面对目标对象的热点问题时，会从不同的角度对目标对象进行解读和报道，从而不断完善数据源网站中的网站，丰富数据源网站中的数据源，达到增加数据源，保证数据量的基础。通过数据源网站获取目标对象的有关语料，通过丰富的数据源以获取目标对象全面而丰富的语料。

进一步地，自动化增加数据源的爬虫策略可以为构建的实时分布式的爬虫***，通过分布式爬虫***提高爬取数据的效率。具体地，服务器获取目标对象的初始数据源网站列表，将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表，封装不同类型的所述数据源网站列表至对应的Docker容器，将不同的Docker容器部署到不同的服务器上，启动所述Docker容器以使所述Docker容器通过爬取的方式获取新数据源网站，将所述新数据源网站添加至对应的初始数据源网站列表以更新所述目标对象的数据源网站。比如，构建一个自动化增加数据源的爬虫策略为实时分布式的爬虫***，所述爬虫***能根据输入的清单，比如根据输入的清单中网站网址的标识，区分不同网站的类型，根据网站的类型，分配清单到各个服务器中，实现分布式的数据爬取和数据入库，以提高爬取数据的效率。

S220、爬取所述数据源网站中包含所述目标对象的语料。

具体地，由于网络爬虫是一个自动提取网页的程序，通过爬虫程序可以只爬取与目标对象有关的数据，所以通过爬虫***更新目标对象的数据源网站以获取丰富的数据源网站列表后，爬虫***根据目标对象的数据源网站列表，通过爬取可以获取数据源网站中目标对象的有关丰富语料。

S230、通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征。

其中，所述主体名称指语料中包含的对象，比如，语料中包含有企业A和企业B，则企业A和企业B的名称为主体名称。

舆情特征，是指舆情的关键词，比如，投资、战略或者收购等体现目标动作或者目标与其他主体之间关系的词汇。

具体地，将所述语料根据句子分隔号进行分割以获取句子数据集，根据所述语料构建命名实体模型，通过所述命名实体模型识别出所述句子数据集中所包含的主体名称，对所述语料进行词性分析及目标关系的检索以获取所述目标对象的舆情特征。比如，通过自然语言处理技术，解析获取的语料，识别出企业主体名称信息和相关规则信息，为企业舆情提供重要的数据源。其中，企业主体名称信息指的是企业主体名称或者企业代码，相关信息包括企业行业、企业舆情等。也就是通过获取的详细而全面的数据源，通过自然语言处理方法，实现有关企业主体名称的信息，后续将信息读入到图数据库中，以完善节点和节点属性的数据。比如，通过命名实体模型，识别出有关目标用户的公司实体的句子语料，对语料进行分词后，对词进行词性分析和关键企业关系的检索，若出现了核心的关键词，如收购、投资、战略合作的话，则将相关信息保存为企业具体属性(带时间)，通过自然语言技术，抽取出语料中的企业舆情信息，丰富企业图谱的舆情数据。

S240、将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱。

其中，图数据库，又称为图形数据库，英文为Graph Database，图形数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息，常见的图形数据库包括Neo4j、FlockDB及AllegroGrap等。

具体地，在设计图形数据库时，分清图中结点集，结点以及关系之间的相互联系，在导入数据时，图形数据库自动识别导入数据中的节点数据和关系数据，将所述节点数据和关系数据分别归属到图形数据库的对应位置上。在本实例中，将所述主体名称及所述舆情特征导入图数据库后，自动可以构建目标关系图谱。

S250、显示所述目标关系图谱以实现对所述目标对象的舆情监控。

具体地，主服务器将构建的目标关系图谱发送至终端，通过终端显示所述目标关系图谱，提供给用户，以使用户根据目标关系图谱实现对所述目标对象的舆情监控。

本申请实施例通过构建自动化增加数据源的爬虫***，通过深度爬取，不断完善数据源网站，通过数据源网站，获取更加完善的语料，进而建立比较完整和准确的目标关系图谱，根据目标关系图谱，获取目标对象的准确的舆情信息，根据舆情信息，采取应对措施，从而实现良好的目标关系项目,

请参阅图3，图3为本申请实施例提供的舆情监控方法的子流程示意图。如图3所示，在该实施例中，所述通过爬虫***更新目标对象的数据源网站的步骤包括：

S211、获取目标对象的初始数据源网站列表；

S212、将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表；

S213、封装所述不同类型的数据源网站列表至对应的Docker容器；

S214、启动所述Docker容器以使所述Docker容器通过爬取的方式获取新数据源网站；

S215、将所述新数据源网站添加至对应的初始数据源网站列表以更新所述目标对象的数据源网站。

具体地，主服务器获取配置的目标的初始数据源网站列表，爬虫***自动根据所述初始数据源网站列表的预设条件将所述初始数据源网站列表进行分类以获取不同类型的数据源网站列表，比如根据网站标识将数据源网站分为不同类型，然后封装不同类型的所述数据源网站列表至对应的Docker容器，所述Docker容器被部署到不同的服务器上，启动所述Docker容器以使所述Docker容器通过爬取获取丰富的新数据源网站，将所述新数据源网站添加至对应的初始数据源网站列表以更新所述目标对象的数据源网站，从而不断完善目标对象的数据源网站。具体来说，包括以下子步骤：

首先，获得初始网站列表，该列表可以通过手动配置，也就是由人工提供初始的数据源网站。

其次，通过将编写好的爬虫代码封装到Docker容器中，其中代码包括了提取网站URL的部分，同时还有匹配URL与对应爬取程序的代码，从而使URL自动与爬取程序对应，通过对应的爬取程序爬取对应的URL的网站。其中，需要构建URL与爬虫程序的索引关系，提前做好所有URL类型的网络爬虫，以使不同类型的URL爬虫对应不同的爬虫程序。

第三，启动容器Docker1，通过爬虫代码将总输入清单进行分类和分割，将同一类的数据源清单进行保存，形成待爬取列表，等待爬取。其中，通过启动URL分类和分割的代码，对输入的网站URL列表根据URL类型进行分类，实现网站URL列表进行分类操作，然后，启动列表分割的代码，将不同的数据源清单分成若干个列表，对应不同机器上的docker容器。

第四，启动容器Docker2，通过获得的数据源清单列表，通过匹配URL对应的爬虫程序，比如，X网站，对应着X网站爬取和解析的代码，传入X网站即可爬取，对外部网络进行访问，分开抓取对应的数据，并将数据返回到数据库中。

进一步地，爬虫程序根据获取的URL挖掘出新的URL，也就是爬虫程序通过启动URL挖掘出新的URL，并将新的URL存储到待爬取的URL列表中以完善URL列表。同时，还可以核对是否有爬取数据过程中报错的情况，若有报错的情况，针对此网站的爬取过程结束。

对URL进行分类，可以通过预先设置的URL正则表达式进行。每类URL列表都有对应的正则表达式，通过判断返回的结果是否为空，来判定是否为该类URL。判断过程如下：若返回结果非空，则判断为该类URL，若判断结果为空，判断为非该类URL。

第五，直到所有Docker2的待爬取网站列表为空，停止操作。为了完善数据源网站列表，可以采取定时或者不定时的方式根据已获得的数据源网站列表重复上述步骤，以实现数据源网站列表的更新。

请参阅图4，图4为本申请实施例提供的舆情监控方法的另一个子流程示意图。如图4所示，在该实施例中，所述通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征的步骤包括：

S221、将所述语料根据句子分隔号进行分割以获取句子数据集。

其中，句子分隔号包括句子标点符号和分解词，所述句子标点符号包括“。”、“？”、“；”及“！”等标点符号，所述分解词包括“的”、“且”、“中”、“我们”及“根据”等预先设置的可以作为句子隔断的字或者词。

具体地，将通过爬虫***爬取的语料根据句子分隔号进行分隔，得到句子数据集，以便从句子数据集中筛选出包含名称的句子。

S222、根据所述语料构建命名实体模型。

其中，命名实体，英文为Named Entity，所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等等。

具体地，命名实体模型的构建，通过获取的语料内容进行命名实体的标注，通过CRF模型，构建命名实体识别模型，识别出目标主体名称。其中，CRF模型，CRF，英文为Conditional RandomField，条件随机场，是近几年自然语言处理领域常用的算法之一，基于统计学的模型，CRF本质上是隐含变量的马尔科夫链和可观测状态到隐含变量的条件概率。

S223、通过所述命名实体模型识别出所述句子数据集中所包含的主体名称。

其中，命名实体识别，英文为Named Entity Recognition，简称NER，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

具体地，命名实体模型构建完成后，通过命名实体模型处理获得的句子数据集，通过命名实体模型可以自动识别出句子数据集中包含的主题名称。比如，通过所述语料内容进行命名实体的标注，通过CRF模型，构建命名实体识别模型，识别出公司主体名称。

S224、对所述语料进行词性分析及目标关系的检索以获取所述目标对象的舆情特征。

其中，词性是指以词的特点作为划分词类的根据，比如动词、名词等词性。目标关系是指所述语料中包含的主体之间的关系，比如投资或者收购等涉及不同主体之间关系的动作。

具体地，对所述语料进行词性分析和主体关系的识别，包括以下过程

首先，对所述语料进行分词。对语句类型进行分词操作可以采用结巴分词。其中，结巴分词是Python中分词工具之一，Python中分词工具很多，包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。

其次，进行核心关系的抽取。具体地，抽取出动词的动作，并且进行关键词列表的匹配，若是动词词汇在关键词内，则认定为核心关系，并且获取到动词后面的名词对象，为命名关系客体，获取到动词前面的名词对象，为命名关系主体，命名关系主体也就是目标。将获取的命名关系主体、命名关系客体以及命名关系主体和命名关系客体之间的关系作为舆情特征。

请参阅图5，图5为本申请实施例提供的舆情监控方法的第三个子流程示意图。如图5所示，在该实施例中，所述根据所述语料构建命名实体模型的步骤包括：

S2221、对所述语料进行分词以获取分词结果；

S2222、通过预设的特征模板提取所述分词结果中的特征数据；

S2223、基于所述特征数据训练预设的条件随机场模型以构建命名实体模型。

具体地，通过获取的语料构建命名实体模型，具体包括以下步骤：

首先，获得命名实体训练语料，该语料主要来自于爬虫***通过爬取的方式获取的目标对象的语料。

其次，对所述语料预处理。主要采用结巴分词并且去除停用词以及无意义的词，获取分词结果。

第三，进行特征提取。通过由正则表达式组成的特征模板进行特征提取，获取的特征包括词、词性、边界词、命名实体特征词。

第四，创建和训练基于条件随机场的模型。条件随机场也就是CRF模型，通过训练数据训练CRF模型，获得CRF模型的参数，保存训练后的CRF模型。

第五，通过测试数据的评价，并保留识别率高等最终符合要求的模型，以获取构建的命名实体模型。

请参阅图6，图6为本申请实施例提供的舆情监控方法的第四个子流程示意图。在该实施例中，所述将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱的步骤包括：

S241、对所述语料进行分词以获取所述语料的词汇列表。

具体地，对所述语料预处理。主要采用结巴分词并且去除停用词以及无意义的词，获取词汇列表。

S242、使用正则表达式抽取出所述词汇列表中的核心关系及核心关系涉及的命名实体。

具体地，使用正则表达式进行核心关系的抽取。具体地，通过正则表达式抽取出动词的动作，并且进行关键词列表的匹配，若是动词词汇在关键词内，则认定为核心关系，并且获取到动词后面的名词对象，为命名关系客体，获取到动词前面的名词对象，为命名关系主体，命名关系主体也就是目标。将获取的命名关系主体、命名关系客体以及命名关系主体和命名关系客体之间的关系作为舆情特征。其中，正则表达式，又称规则表达式，英语为RegularExpression，在代码中常简写为regex、regexp或RE，正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

S243、将所述核心关系及所述命名实体导入图数据库以构建目标关系图谱。

具体地，在设计图形数据库时，分清图中结点集，结点以及关系之间的相互联系，在导入数据时，图形数据库自动识别导入数据中的节点数据和关系数据，将所述节点数据和关系数据分别归属到图形数据库的对应位置上。在本实例中，将将所述核心关系及所述命名实体导入图数据库后，自动可以构建目标关系图谱。比如，将核心关系来构建企业与企业之间的关系，而将公司的企业简介信息导入了企业节点的属性中。

在一个实施例中，所述显示所述目标关系图谱以实现对所述目标对象的舆情监控的步骤之后，还包括：

按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情。

进一步地，所述按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情包括：

按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的正面评论信息、反面评论信息、事件评估信息和渠道评估信息。

具体地，不但以目标关系图谱的形式显示目标对象的舆情以实现舆情监控，同时，通过结合文字的显示形式，给出所述目标关系图谱的舆情结论，以供舆情监控人员参考。所述舆情结论包括舆情的正面信息、反面信息、事件评估和渠道评估，其中，所述正面信息指舆情的正面影响，反面信息指舆情的反面影响，事件评估是指对舆情中某一事件的影响进行预测评价和估计，比如，一产品测评报道对该产品的影响，渠道评估是指语料来源所属的渠道对该目标的影响，比如，不同网站的受众、规模及影响均不相同，需要评估事件所属的渠道对目标影响的估计，比如，微博、微信朋友圈及论坛对目标的影响各不相同。

其中，所述目标关系图谱中的元素包括所述目标关系图谱中的主体名称及舆情特征。比如，所述目标关系图谱中有企业A和企业B，则企业A和企业B之间的关系可以为投资、战略或者收购等能体现两者关系之间的词汇。舆情特征，是指舆情的关键词，比如，投资、战略或者收购等体现目标动作或者目标与其他主体之间关系的词汇。

按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情时，可以根据图形数据库中存储的实体之间的关系信息，根据图形数据库在设计图形数据库时的信息特征，分清图中结点集与结点以及关系之间的相互联系，然后将节点与节点之间的关系通过文字描述出来，以实现通过文字形式描述所述目标对象的舆情，给舆情监控人员以文字性的提示。比如，若所述目标关系图谱中，结点企业A和企业B之间的关系为企业A投资企业B，通过文字形式描述所述目标对象的舆情时可以描述为“企业A投资企业B”。进一步地，若获得企业A投资企业B的信息，还可以进一步从获取的语料中筛选出企业A投资企业B的相关信息，根据训练出的正则表达式或者语言模型形成企业A投资企业B的信息摘要，以文字形式提供给舆情监控人员，供舆情监控人员参考。其中，语言模型，比如N-gram语言模型或者神经网络语言模型等。

本申请实施例中通过目标关系图谱的方式，存储目标对象的动态舆情数据，能更好地可视化和提取目标对象的舆情。

进一步地，在一个实施例中，通过构建目标图谱数据，搭建了与目标对象相关的新闻语料库，在可视化之前，还需要对目标对象的舆情数据进行时间排序，罗列出目标最近排名比较靠前的新闻数据，以进一步筛选出有效数据，提高数据的处理效率。比如，通过构建企业图谱数据，搭建了与企业相关的新闻语料库，在可视化之前，还需要对企业舆情数据进行时间排序，罗列出企业最近排名比较前的新闻数据。比如，通过检索A企业收购的企业，筛选出最近一年内的数据，则通过遍历A节点的收购关系的客体，即可获取到最近一年内A企业收购的企业列表等。

另外，还可以对目标对象的关联领域进行深度分析。比如，企业关系中，企业的上下游供应商关系，则需要从供应商属性中得到与目标企业相关的舆情数据，并且对数据进行分类和去重，呈现至用户，相关的关联领域还包括竞争对手关系。

进一步地，获得目标对象的舆情，实现对所述目标对象的舆情监控，以进一步根据目标对象的舆情做应对处理，实现维护目标的关系项目，比如实现企业的公关，维护企业的形象和利益。比如，若目标为企业，获得企业舆情结论，实现对企业舆情监控，以对企业舆情做对应处理。比如，获得企业舆情的正面和反面信息，获取企业舆情中的事件评估和渠道评估，以作相应公关措施。

进一步地，对数据源包含的数据进行筛选，根据筛选出的数据获取企业舆情中某一方面的舆情，比如针对某一产品的评价，或者某一策略的评价等舆情。

进一步地，还可以对获取的企业舆情中正面和反面的舆情结论根据不同机制进行排序，充分利用正面舆情实现利益最大化，对反面舆情采取对应措施，消除消极影响。比如，A企业的属性中有新闻的传播渠道，而竞争对手B企业的属性也有新闻的传播渠道，可以通过对比两家企业的传播渠道，以及传播渠道所对应的评分，实现对新闻传播渠道的综合评估，从而做出在渠道的策略调整。

请参阅图7，图7为本申请实施例提供的舆情监控装置的示意性框图。对应于上述舆情监控方法，本申请实施例还提供一种舆情监控装置。如图7所示，该舆情监控装置包括用于执行上述舆情监控方法的单元，该装置可以被配置于服务器等计算机设备中。具体地，请参阅图7，该舆情监控装置700包括更新单元701、爬取单元702、识别单元703、导入单元704及显示单元705。

其中，更新单元701，用于通过爬虫***更新目标对象的数据源网站；

爬取单元702，用于爬取所述数据源网站中包含所述目标对象的语料；

识别单元703，用于通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；

导入单元704，用于将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；

显示单元705，用于显示所述目标关系图谱以实现对所述目标对象的舆情监控。

请参阅图8，图8为本申请实施例提供的舆情监控装置的另一个示意性框图。如图8所示，在该实施例中，所述更新单元701包括：

获取子单元7011，用于获取目标对象的初始数据源网站列表；

分类子单元7012，用于将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表；

封装子单元7013，用于封装所述不同类型的数据源网站列表至对应的Docker容器；

启动子单元7014，用于启动所述Docker容器以使所述Docker容器通过爬取的方式获取新数据源网站；

添加子单元7015，用于将所述新数据源网站添加至对应的初始数据源网站列表以更新所述目标对象的数据源网站。

请继续参阅图8，如图8所示，所述识别单元703包括：

分割子单元7031，用于将所述语料根据句子分隔号进行分割以获取句子数据集；

构建子单元7032，用于根据所述语料构建命名实体模型；

识别子单元7033，用于通过所述命名实体模型识别出所述句子数据集中所包含的主体名称；

分析检索子单元7034，用于对所述语料进行词性分析及目标关系的检索以获取所述目标对象的舆情特征。

在一个实施例中，所述构建子单元7032包括：

分词子单元，用于对所述语料进行分词以获取分词结果；

提取子单元，用于通过预设的特征模板提取所述分词结果中的特征数据；

训练子单元，用于基于所述特征数据训练预设的条件随机场模型以构建命名实体模型。

请继续参阅图8，如图8所示，所述导入单元704包括：

第一分词子单元7041，用于对所述语料进行分词以获取所述语料的词汇列表；

抽取子单元7042，用于使用正则表达式抽取出所述词汇列表中的核心关系及核心关系涉及的命名实体；

导入子单元7043，用于将所述核心关系及所述命名实体导入图数据库以构建目标关系图谱。

在一个实施例中，所述显示单元705，还用于按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情。

在一个实施例中，所述显示单元705，还用于按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的正面评论信息、反面评论信息、事件评估信息和渠道评估信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述舆情监控装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述舆情监控装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将舆情监控装置按照需要划分为不同的单元，也可将舆情监控装置中各单元采取不同的连接顺序和方式，以完成上述舆情监控装置的全部或部分功能。

上述舆情监控装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备900可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图9，该计算机设备900包括通过***总线901连接的处理器902、存储器和网络接口905，其中，存储器可以包括非易失性存储介质903和内存储器904。

该非易失性存储介质903可存储操作***9031和计算机程序9032。该计算机程序9032被执行时，可使得处理器902执行一种上述舆情监控方法。

该处理器902用于提供计算和控制能力，以支撑整个计算机设备900的运行。

该内存储器904为非易失性存储介质903中的计算机程序9032的运行提供环境，该计算机程序9032被处理器902执行时，可使得处理器902执行一种上述舆情监控方法。

该网络接口905用于与其它设备进行网络通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备900的限定，具体的计算机设备900可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

其中，所述处理器902用于运行存储在存储器中的计算机程序9032，以实现如下步骤：通过爬虫***更新目标对象的数据源网站；爬取所述数据源网站中包含所述目标对象的语料；通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；显示所述目标关系图谱以实现对所述目标对象的舆情监控。

在一实施例中，所述处理器902在实现所述通过爬虫***更新目标对象的数据源网站的步骤时，具体实现以下步骤：获取目标对象的初始数据源网站列表；将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表；封装所述不同类型的数据源网站列表至对应的Docker容器；启动所述Docker容器以使所述Docker容器通过爬取的方式获取新数据源网站；将所述新数据源网站添加至对应的初始数据源网站列表以更新所述目标对象的数据源网站。

在一实施例中，所述处理器902在实现所述通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征的步骤时，具体实现以下步骤：将所述语料根据句子分隔号进行分割以获取句子数据集；根据所述语料构建命名实体模型；通过所述命名实体模型识别出所述句子数据集中所包含的主体名称；对所述语料进行词性分析及目标关系的检索以获取所述目标对象的舆情特征。

在一实施例中，所述处理器902在实现所述根据所述语料构建命名实体模型的步骤时，具体实现以下步骤：对所述语料进行分词以获取分词结果；通过预设的特征模板提取所述分词结果中的特征数据；基于所述特征数据训练预设的条件随机场模型以构建命名实体模型。

在一实施例中，所述处理器902在实现所述将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱的步骤时，具体实现以下步骤：对所述语料进行分词以获取所述语料的词汇列表；使用正则表达式抽取出所述词汇列表中的核心关系及核心关系涉及的命名实体；将所述核心关系及所述命名实体导入图数据库以构建目标关系图谱。

在一实施例中，所述处理器902在实现所述显示所述目标关系图谱以实现舆情监控的步骤之后，还实现以下步骤：按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情。

在一实施例中，所述处理器902在实现所述按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情的步骤时，具体实现以下步骤：按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的正面评论信息、反面评论信息、事件评估信息和渠道评估信息。

应当理解，在本申请实施例中，处理器902可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器902还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的舆情监控方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种舆情监控方法，其特征在于，所述方法包括：

通过爬虫***更新目标对象的数据源网站；

爬取所述数据源网站中包含所述目标对象的语料；

通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；

将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；

显示所述目标关系图谱以实现对所述目标对象的舆情监控。

2.根据权利要求1所述舆情监控方法，其特征在于，所述通过爬虫***更新目标对象的数据源网站的步骤包括：

获取目标对象的初始数据源网站列表；

将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表；

封装所述不同类型的数据源网站列表至对应的Docker容器；

启动所述Docker容器以使所述Docker容器通过爬取的方式获取新数据源网站；

将所述新数据源网站添加至对应的初始数据源网站列表以更新所述目标对象的数据源网站。

3.根据权利要求1所述舆情监控方法，其特征在于，所述通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征的步骤包括：

将所述语料根据句子分隔号进行分割以获取句子数据集；

根据所述语料构建命名实体模型；

通过所述命名实体模型识别出所述句子数据集中所包含的主体名称；

对所述语料进行词性分析及目标关系的检索以获取所述目标对象的舆情特征。

4.根据权利要求3所述舆情监控方法，其特征在于，所述根据所述语料构建命名实体模型的步骤包括：

对所述语料进行分词以获取分词结果；

通过预设的特征模板提取所述分词结果中的特征数据；

基于所述特征数据训练预设的条件随机场模型以构建命名实体模型。

5.根据权利要求1所述舆情监控方法，其特征在于，所述将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱的步骤包括：

对所述语料进行分词以获取所述语料的词汇列表；

使用正则表达式抽取出所述词汇列表中的核心关系及核心关系涉及的命名实体；

将所述核心关系及所述命名实体导入图数据库以构建目标关系图谱。

6.根据权利要求1所述舆情监控方法，其特征在于，所述显示所述目标关系图谱以实现对所述目标对象的舆情监控的步骤之后，还包括：

7.根据权利要求6所述舆情监控方法，其特征在于，所述按照预设顺序组合所述目标关系图谱中的元素以通过文字形式描述所述目标对象的舆情包括：

8.一种舆情监控装置，其特征在于，包括：

更新单元，用于通过爬虫***更新目标对象的数据源网站；

爬取单元，用于爬取所述数据源网站中包含所述目标对象的语料；

识别单元，用于通过自然语言处理解析所述语料，识别所述语料包含的主体名称及舆情特征；

导入单元，用于将所述主体名称及所述舆情特征导入图数据库以构建目标关系图谱；

显示单元，用于显示所述目标关系图谱以实现对所述目标对象的舆情监控。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-7任一项所述舆情监控方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述舆情监控方法的步骤。