CN110321472A

CN110321472A - 基于智能问答技术的舆情监测***

Info

Publication number: CN110321472A
Application number: CN201910506100.4A
Authority: CN
Inventors: 刘蛰; 贺成龙; 李惠柯; 孟令伍; 吴嘉逸
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-10-11

Abstract

本发明公开了一种基于智能问答技术的舆情监测***。属于舆情监测技术领域；所述舆情监测***包括智能问答对话***及舆情后台服务***；所述智能问答对话***包括语音识别模块、意图识别模块、槽位填充模块、接口服务模块、多轮对话管理模块；所述舆情后台服务***包括分布式爬虫子***、数据接入子***、分布式存储子***、分布式检索子***及全量数据计算分析子***。本发明将舆情后台服务和用户通过智能问答对话***连接起来，支持语音交互，易于使用，方便用户随时查阅舆情数据。

Description

基于智能问答技术的舆情监测***

技术领域

本发明属于舆情监测技术领域，涉及舆情***的信息采集、存储、检索和分析技术，用户和***之间的交互对话内容理解，多轮对话管理技术，特别涉及一种基于智能问答方式实现舆情信息监测技术***。

背景技术

目前，网络新媒体发展迅猛，网民的有极大的空间表达自己的看法，但是多数网民对于网络事件掌握的信息有限，极易受到片面报道或者有心之人的煽动引导，盲目参与，形成难以控制的网络舆情事件，造成不良影响。舆情信息***依托服务器集群对全网数据进行爬取，提供微博、微信公众号、百度贴吧、各论坛、各大新闻网站的新闻、评论、阅读量、转载来源等关键信息，对这些数据进行分析统计、情感倾向分析，传播分析，及时发现可能出现的和已经爆发的网络舆情事件，锁定舆论事件爆发范围，为用户提供精准的舆情监测信息。该***还包括智能问答对话***，为用户提供更为人性化的人机交互方式，用户可以直接通过语音输入或者文字对话的方式完成所需信息的查询和***功能设置。

发明内容

针对上述问题，本发明提出了一种可以为用户提供精准的舆情监测信息及用户可以直接通过语音或者文字对话的方式完成所需信息查询和***功能设置的一种基于智能问答的舆情监测技术***。

本发明的技术方案是：基于智能问答技术的舆情监测***，包括智能问答对话***及舆情后台服务***；

所述智能问答对话***包括语音识别模块、意图识别模块、槽位填充模块、接口服务模块、多轮对话管理模块；

所述舆情后台服务***包括分布式爬虫子***、数据接入子***、分布式存储子***、分布式检索子***及全量数据计算分析子***。

所述智能问答对话***的操作步骤如下：

首先，***判断用户的输入类型，如果输入类型是文字，则进入意图识别模块进行后续处理；如果输入类型为语音，所述的舆情监测技术***则先调用语音识别模块，将用户的语音输入转化成文字，再进入意图识别模块；

其次，意图识别模块对文字输入进行处理，得到用户的意图，槽位填充模块利用用户的输入信息来填充意图识别模块输出的意图信息中的空缺槽位；经过槽位填充模块处理后，如果槽位依然有空缺，则通过多轮对话管理模块，引导用户通过多轮问答对话的方式将所有的槽位填充完整；

最后，接口服务模块根据填充完整的意图调用舆情后台服务***为用户提供舆情服务。

所述的意图识别模块和槽位填充模块，均通过规则匹配和深度学习算法相结合的方式来完成对应功能。

所述的多轮对话管理模块，通过状态机模型和对应用场景的针对设计，保证用户的输入始终能有有效的引导直至对话结束。

所述舆情后台服务***的操作步骤如下：

首先，所述的分布式爬虫子***对互联网上的数据进行采集，采集包括主流舆论媒体的数据，采集得到的数据发送到数据接入子***；

其次，数据接入子***将主流舆论媒体主动推送的数据与分布式爬虫子***采集到的数据统一进行数据的去重和接入处理，处理过后的数据发送至分布式存储子***；

再次，与分布式存储子***相连接的分布式检索子***对数据中经常检索的字段建立分段索引，采用多机协同处理的方式进行高效的数据检索；

最后，全量数据计算分析子***通过分布式检索子***和分布式存储子***，完成原始数据的访问，并依据智能问答***中接口的具体调用需求对数据进行计算处理，并返回处理结果。

所述的分布式爬虫子***用于维护一个公网IP池，在爬虫被封禁时自动切换内网与公网IP之间的映射，改变其对外IP，同时主动降低爬虫采集频率防止被再次封禁。

所述的数据接入子***对网页爬取的数据和网站推送的数据进行格式化处理，通过URL比对、标题相似性比对、全文数据相似性计算和指纹计算等方法进行数据去重。

所述全量数据计算分析子***，以大数据技术为基础，提供舆情数据总量统计、舆情热点分析、舆情搜索、事件热度走势、媒体溯源、各媒体的参与度及舆情事件参与者的地理位置分布统计的服务；以自然语言处理算法和知识图谱构建技术为支撑，提供热点词云生成、情感倾向分析、话题抽取、观点聚类及舆情热点预测的舆情服务。

本发明的有益效果是：本发明服务于舆情领域，将舆情后台服务和用户通过智能问答对话***连接起来，支持语音交互，易于使用，方便用户随时查阅舆情数据。

附图说明

图1是本发明的架构组成图；

图2是本发明的结构处理流程图；

图3是本发明中神经网络模型的主体结构图；

图4是本发明中DNN的两个网络层之间的全连接结构示意图，

图5是本发明槽位填充模块中词槽规则匹配处理流程图；

图6是本发明的积分投影中二值化验证码图和垂直积分投影图；

图7是本发明中提供的某事件参与网民地域分布结构图；

图8是本发明中媒体平台分布信息统计示意图；

图9是本发明中事件热度统计结果示意图。

具体实施方式

基于智能问答技术的舆情监测***，包括智能问答对话***及舆情后台服务***；

所述智能问答对话***的操作步骤如下：

另外，所述舆情后台服务***是整个***的服务支撑，包括分布式爬虫子***、数据接入子***、分布式存储子***、分布式检索子***及全量数据计算分析子***五个主要部分。

所述舆情后台服务***的操作步骤如下：

首先，所述的分布式爬虫子***对互联网上的数据进行采集，其中数据采集提供微信公众号、微博、百度贴吧、各大论坛以及各大新闻网站等主流舆论媒体的数据爬取功能，采集得到的数据发送到数据接入子***；由于数据来源众多，且数据量非常庞大，因此采用分布式爬虫技术，同时保证数据爬取的效率。

所述的分布式爬虫子***用于维护一个公网IP池，在爬虫被封禁时自动切换内网与公网IP之间的映射，改变其对外IP，同时主动降低爬虫采集频率防止被再次封禁；

为被封禁的爬虫提供新的IP映射，同时记录爬虫被封禁的日志，主动降低该爬虫在使用新IP地址时的爬取频率防止再次被封禁。爬取到的数据落地成文件，供入数据库和入检索平台使用；

由于数据来源广泛，内容形式复杂，因此数据需要经过规范化处理之后才能进行数据入库或者更加复杂的数据处理操作；数据的规范化处理包括从爬取得到的数据中提取对应的字段，如标题，作者，发布时间，正文，来源站点名称等，还包括为需要计算的字段赋值，如文章情感倾向，所属类别，文章中出现的敏感词等。

经过规范化处理之后的数据存入数据库中，供后续分析查询使用。同时，数据中的某些字段会被直接抽取出来建立索引，正文和标题等字段会先进行中文分词然后再建立索引，供后续全文检索使用。

另外，本***是用户和舆情后台交互的媒介，起到解析用户意图，调用***功能完成对应任务的作用；在接受用户的语音输入或者文本输入后，判断用户输入的消息类型，如果输入为语音消息，首先进行语音识别，将语音输入转化成文字输入***，如果为文本输入，则直接输入智能问答***。

***对用户的输入进行意图识别，分析用户的输入对应哪些***功能，如果用户的输入不足以获取其意图，则通过多轮对话的方式，引导用户明确意图，意图匹配采用规则和深度学习算法相结合的方式来完成。

用户意图明确之后，需要从用户的输入中进行词槽提取，将对应意图下所有的槽位都填充完整，转而进行舆情功能模块的调用；如果此时用户的输入没能提供对应意图下的所有槽位信息，则再次通过多轮对话的方式反问用户，获得所需槽位的信息，当所有的槽位都填充完毕后，智能问答对话***会向舆情后台服务***发出请求，获取响应后将结果反馈给用户；反馈的形式包括但不限于文字，图像，视频，新闻超链接等。

本发明中，其具体实施方式如下：

首先介绍智能问答对话***，智能问答对话***包括语音识别模块、意图识别模块、槽位填充模块、接口服务模块和多轮对话管理模块；其中，语音识别模块将用户的语音输入转化成文字输入；本发明采用深度神经网络模型进行语音信息的处理，深度神经网络使用卷积神经网络(CNN)，长短时记忆网络(LSTM)和全连接深度神经网络(DNN)组合实现；模型初始是以CNN结构为主，穿插部分池化层，CNN层的输出作为LSTM结构的输入，最后通过全连接DNN网络得到语音信息的分类输出，神经网络模型的主体结构如图3所示。

神经网络各个层之间，由于连接方式不同，所以计算过程也不相同，下面分别说明DNN，LSTM，CNN层之间的信息传播计算过程。

其中，DNN的两个网络层之间采用全连接结构，即上一层的每一个神经元都和下一层的所有神经元存在连接；其结构如图4所示；

对于每一个输出神经元，其输出值为

其中x_i代表神经元的输入，W_i代表模型输入的权重，b代表偏置项，函数f(x)为激活函数，激活函数有很多种选择，常见的激活函数有Sigmoid，tanh，ReLU等。

卷积神经网络和全连接网络最大的区别就是局部连接，也就是并不是所有的神经元之间都存在连接，每一个神经元只和自己周围的神经元存在连接关系，该局部区域的大小就是卷积核的大小。

为了清楚的描述卷积层的计算过程，首先对每个元素进行编号，用x_i,j表示第i行第j列元素；对卷积核的每个权重进行编号，用w_m,n表示第m行第n列权重，用w_b表示卷积核的偏置项；对特征图的每个元素进行编号，用a_i,j表示特征图的第i行第j列元素；用f表示激活函数，S表示卷积核移动步长，P表示进行卷积操作时对原始输入的边界填充宽度，W₁表示原始输入的宽度，H₁表示原始输入的高度，W_filter表示卷积核的宽度，H_filter表示卷积核的高度，定义好符号之后可以使用下列公式计算得到特征图的宽度W₂和高度H₂：

W₂＝(W₁-W_filter+2P)/S+1

H₂＝(H₁-H_filter+2P)/S+1，

使用下列公式计算特征图上每一个元素的值：

卷积层的交叠过程中，通常会穿插池化层，池化层包括最大值池化，最小值池化和均值池化三种；池化的计算方法即根据池化区域的大小及中心位置，对应计算最大值、最小值或者平均值。

LSTM通过内部的门信息控制计算过程中状态的改变；其中，遗忘向量的计算公式：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)，

输入门向量的计算：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)，

由此可以计算新的状态信息向量：

结合遗忘、输入、状态信息，可以计算该单元的输出信息：

o_t+σ(W_o[h_t-1，x_t]+b_o)，

h_t＝o_t*tanh(C_t)，

各个层之间的权重信息，需要根据实际使用过程中构建的数据集进行训练，采用组合的最优化算法(SGD及ADAM等)，进行误差反向传播，从而计算权重更新；在整个训练样本集上，进行数十万次迭代更新得到最终可用的模型参数，实现用户语音信息的处理。

其中的意图识别模块，采用规则匹配和深度学习算法相结合的方式来进行意图识别；本发明在***开发过程中，收集到大量的用户输入数据，从这些数据中，人为提取一些高可靠性的，无歧义的规则组成规则库，直接用于用户意图识别判断；诸如“XXX事件的微博热度”，该句式表达了用户希望查询一个事件在微博上面的统计数据的意图，因此满足类似句式的提问可以直接归结为微博统计数据查询意图；但是庞大的用户群体，加上复杂的语言表达，导致人工总结的规则不可能覆盖到所有的用户输入情况，不同的表达习惯，句式，方言都会导致规则匹配失败；因此，在规则识别之外，本发明还加入了深度学习模型，来对规则识别不了的用户输入做文本分类，识别其意图。该深度学习模型的本质就是一个文本分类模型，其训练数据就是用户输入的数据，数据的类别标签即为该输入对应的意图；文本分类首先需要将中文文本数据转化成定长向量，这样深度神经网络模型才能对向量进行处理分类；将中文转化成向量的过程，使用word2vec模型，在公开语料集及***收集的语料上训练word2vec模型后，即可计算文本输入对应的向量，从而训练深度神经网络分类模型。

槽位填充模块也采用规则和深度学习算法相结合的方式来实现；每一个用户意图，都会有不同数量、不同属性类别的词槽与之对应；词槽是意图执行过程中不可或缺的组成部分，通过精心打磨舆情领域的用户问句问法，组建词槽提取规则库用来进行词槽提取与填充；例如：用户输入“查询XXX事件的最热微博”，经过意图识别之后，能知道用户是想查询事件的最热微博。该意图对应的词槽有，查询时间段，事件名称，查询的媒体名称三个词槽；该输入本身包括了事件词槽和媒体词槽，若时间段词槽有默认值，则构成了完整的意图；类似这种非常明确的对话，即可用规则匹配来从中抽取事件名称和新闻媒体名称；词槽规则匹配处理流程如图5所示；

与意图匹配类似，一定会有规则无法覆盖到的情况，这时候就需要使用深度学习模型来提取词槽；利用深度学习来进行词槽提取本质上是一个实体识别或者序列标注问题，可以直接训练端对端的神经网络来解决词槽起始位置和结束位置的标注。

上述两步中所列举的例子都是意图明确，词槽定义清晰的情况，但是实际情况往往更加复杂，用户的输入往往比较模糊，无法识别出明确的意图，或者根本不包含必要的词槽信息；这时就需要进行多轮对话，对用户进行引导；多轮对话管理模块的设计依据大量用户使用反馈和语料进行精心打磨设计，将目前***支持的所有功能，以及用户使用过程中可能出现的异常情况设计成一个闭环的状态机，保证所有的用户输入，都有对应的功能或者异常状态与之对应；用户在每一个状态下，都会有对应的引导，帮助用户明确意图，或者帮助用户进行词槽填充。

用户经过多轮对话之后，意图明确，词槽填充完整，对话***即通过接口模块向舆情后台服务***发送请求，并将结果返回给用户，完成一次完整的交互。

接下来介绍舆情后台服务***的组成及实现。舆情后台服务***包括分布式爬虫子***、数据接入子***、分布式存储子***、分布式检索子***及全量数据计算分析子***。

大规模分布式爬虫子***包括众多的爬虫节点，对各大社交网站和新闻网站进行数据爬取；其中，微信公众号的文章爬取，一部分可以通过爬取搜狗微信搜索的结果来进行，另外，对于某些特定的重点关注公众号，通过大量的真实微信账号关注这些公众号，程序模拟网页端登陆微信后获取公众号的推送文章，进一步获取文章内容进行入库存储操作；其他新闻、贴吧和论坛的数据可以借助现有的爬虫框架来实现，如scrapy等；目前很多网站为了避免被抓取，会对爬虫做出限制，稍有不慎就会导致短期IP地址被封，或者弹出验证码进行验证；为此，本发明维护一个IP账号池，当爬虫爬取出现异常时，更换爬虫对应的公网IP映射，同时将异常信息，IP信息等等记录日志保存起来，在新的IP上主动降低爬取频率，防止被再次封禁，已封禁IP进入封禁倒计时，倒计时结束之前，该IP不会被再次用来爬取相同网站；对于简单的数字字母验证码，通过字符分割和字符识别，可以完美解决简单图形验证码问题，其中字符分割采用积分投影法完成，字符识别通过训练AlexNet网络来完成。

积分投影的处理过程，首先将待识别的验证码进行彩色图转灰度图，再进行自适应阈值分割，得到二值图；将二值图中的像素进行垂直投影，得到垂直积分投影，根据垂直积分投影的阈值及分布情况，确定字符分割位置，如图6所述。

对于复杂的图片验证码，或者拼图补全等，算法识别率较低，需通过打码网站来进行验证码识别；爬虫***将爬取到的数据落地成文件，供存储和检索***入库使用。

分布式存储子***存储所有经过规范化处理的爬取结果；分布式爬虫子***爬取到的数据，由于来源不同，内容格式不同，无法直接统一入库存储；首先需要对数据进行规范化处理，包括已有字段的提取，如新闻标题，正文，作者，所属网站类型，原始URL等等可以直接得到的字段，还包括对需要进行计算的字段信息赋值，如文章的情感倾向，文章涉及到的敏感词等；由于社交网站和新闻网站数据众多，因此集中式的分布式存储子***及数据库无法满足要求，采用分布式架构来实现数据存储，具有大容量，高可用，健壮性强的特点；即便由于物理原因或者不可抗的灾害导致部分存储数据中心损坏，依旧不会影响到整体的数据安全性，也不会影响***的正常运行。

分布式检索子***主要完成快速的数据检索任务，对于文章内容可以进行全文检索；全文检索的实现，首先需要对入库的文章标题、摘要、正文内容进行中文分词，然后按照分词结果建立索引，供其他服务通过关键词进行全文检索；对于其他字段，诸如入库时间，文章发布时间，网站类型，作者，文章情感倾向等字段，也同样建立索引，方便对其进行检索；分布式检索子***由于需要得到结果，且待检索数据基数大，因此也采用分布式架构，当分布式检索子***接收到检索请求之后，将该请求发送给下属的物理机节点，物理机同时对存储在上面的数据索引进行检索然后返回结果；分布式的架构不但提升了整体的检索效率，也增强了***应对突发情况的稳定性。

全量数据计算分析子***构建于大型服务器集群上，综合处理数据库中的数据，提供舆情事件数据总量统计、热点舆情推送、热点分析、最新舆情推送、事件热度走势变化、舆论事件媒体溯源等服务；对于重点关注事件，可以建立对该事件的追踪，定期从数据库中查找与该事件相关的数据，加以统计分析，形成舆情事件报告；该***相应智能对话***的请求，将计算分析结果返回。

值得注意的是，上面所述的只是说明基于智能问答的舆情监测***的一些实施方式，由于对相同技术领域的技术人员来说，可能会在此基础上进行若干修改和改动，因此本说明书并非是要将本发明局限在所示和所述的具体结构和适用范围内，故凡是所有可能被利用的相应修改及等同物，均属于本发明所申请的保护范围。

Claims

1.基于智能问答技术的舆情监测***，其特征在于，所述舆情监测***包括智能问答对话***及舆情后台服务***；

2.根据权利要求1所述的一种基于智能问答的舆情监测技术***，其特征在于，所述智能问答对话***的操作步骤如下：

3.根据权利要求1及2所述的基于智能问答的舆情监测技术***，其特征在于，所述的意图识别模块和槽位填充模块，均通过规则匹配和深度学习算法相结合的方式来完成对应功能。

4.根据权利要求1及2所述的基于智能问答的舆情监测技术***，其特征在于，所述的多轮对话管理模块，通过状态机模型和对应用场景的针对设计，保证用户的输入始终能有有效的引导直至对话结束。

5.根据权利要求1所述的基于智能问答的舆情监测技术***，其特征在于，所述舆情后台服务***的操作步骤如下：

6.根据权利要求1及5所述的基于智能问答的舆情监测技术***，其特征在于，其特征在于，所述的分布式爬虫子***用于维护一个公网IP池，在爬虫被封禁时自动切换内网与公网IP之间的映射，改变其对外IP，同时主动降低爬虫采集频率防止被再次封禁。

7.根据权利要求1及5所述的基于智能问答的舆情监测技术***，其特征在于，其特征在于，所述的数据接入子***对网页爬取的数据和网站推送的数据进行格式化处理，通过URL比对、标题相似性比对、全文数据相似性计算和指纹计算等方法进行数据去重。

8.根据权利要求1及5所述的基于智能问答的舆情监测技术***，其特征在于，其特征在于，所述全量数据计算分析子***，以大数据技术为基础，提供舆情数据总量统计、舆情热点分析、舆情搜索、事件热度走势、媒体溯源、各媒体的参与度及舆情事件参与者的地理位置分布统计的服务；以自然语言处理算法和知识图谱构建技术为支撑，提供热点词云生成、情感倾向分析、话题抽取、观点聚类及舆情热点预测的舆情服务。