CN110334300A

CN110334300A - 面向舆情分析的文本辅助阅读方法

Info

Publication number: CN110334300A
Application number: CN201910621253.3A
Authority: CN
Inventors: 赵铁军; 徐冰; 杨沐昀; 胡东瑶; 曹海龙; 朱聪慧; 郑德权
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-15

Abstract

本发明提供面向舆情分析的文本辅助阅读方法，属于自然语言处理技术领域。本发明首先对各种类型网页使用统一方法进行正文抽取；然后对文本进行人物、地点、机构等实体的命名实体识别并突出显示；再对文本进行自动摘要，并将句子按重要度进行排序并突出显示。本发明解决了现有舆情分析人员阅读大量文本资料时存在重点提取困难、阅读效率低下的问题。本发明可用于舆情分析的文本辅助阅读，阅读者能够快速获得主旨信息。

Description

面向舆情分析的文本辅助阅读方法

技术领域

本发明涉及文本辅助阅读方法，属于自然语言处理技术领域。

背景技术

舆情分析是一类通过实时收集社会舆论信息、并统计分析，以辅助决策者合理决策的技术。在舆情分析中，收集到的信息大致可以分为结构化数据(如社交网络、流量指数等)和非结构化数据(如用户评论和新闻文本等)，其中又以非结构化数据居多。针对一个舆情事件，除了对数据统计分析，舆情分析人员往往也需要阅读大量新闻报道才能做出较全面的分析总结，容易导致视觉疲劳。而自然语言处理技术的发展，让机器辅助人类阅读成为可能。本发明提出的面向舆情分析的文本辅助阅读***试图解决如下困难：

一、由于舆情新闻通常来自网页，而不同新闻网站的页面结构、字符编码不一致，且页面结构随时间有变动，提取内容存在困难。

二、由于舆情新闻以及各类社论中，一般牵涉到人物、地域、机构等重要信息。由于中文没有类似英文的单词空格间隙和实体首字母大写习惯，造成在阅读大量文字时聚焦困难。

三、由于舆情新闻文字量较大效率低，不易抓住文章主旨。

发明内容

本发明为解决现有舆情分析技术存在提取内容困难、效率低的问题，提供了面向舆情分析的文本辅助阅读方法。

本发明所述面向舆情分析的文本辅助阅读方法，通过以下技术方案实现：

步骤一、对各种类型网页进行正文抽取；

步骤二、对文本进行人物、地点、机构等实体的命名实体识别并突出显示；

步骤三、对文本进行自动摘要，然后将句子按重要度进行排序并突出显示。

本发明最为突出的特点和显著的有益效果是：

本发明所涉及的面向舆情分析的文本辅助阅读方法，依次对网页经过正文抽取、命名实体识别、自动摘要处理，从而对原始网页和“阅读模式”网页进行渲染后的刷新再现。本发明方法使阅读者可以轻松地通过只阅读突出显示的句子来了解整篇文章的重点，节约阅读时间，使舆情分析的效率至少提高一倍；如果阅读者想了解新闻事件中的角色关系，也能通过突出显示的实体词快速辅助理解。由于处理完全建立在原文上，使用户能够快速方便的阅读原文。

附图说明

图1为本发明方法实施例流程图；

图2为本发明中基于层叠HMM的命名实体识别模型示意图；

图3为本发明中基于BiLSTM+CRF的命名实体识别模型示意图；human是人，space指地点，institute是机构；

图4为CBOW原理示意图；w(t)表示当前位置的词；

图5为Skip-Gram原理示意图；

图6为本发明实施例中的原始网页；

图7为本发明实施例中在原始网页上开启文本辅助阅读功能后效果；

图8为本发明实施例中在“阅读模式”网页上开启文本辅助阅读功能后效果。

具体实施方式

具体实施方式一：结合图1对本实施方式进行说明，本实施方式给出的面向舆情分析的文本辅助阅读方法，具体包括以下步骤：

步骤一、对各种类型网页使用统一方法进行正文抽取；

由于在实际情况中，各大新闻网站的页面HTML结构均比较复杂，而且均不一致。从外在感官来看，主要包括排版、图片、特效、广告等干扰项；从内在代码来看，主要包括标签错综复杂、字符编码混乱等情况。本步骤的目的是提取网页内的有效文字段落，剔除网页内的干扰项，将网页还原为干净简洁的“阅读模式”，同时方便后续的自然语言处理。

本步骤的目的是从非结构化的文本中提取重要实体要素并以符合视觉注意力的形式呈现。一般情况下，新闻、社论通常围绕一个事件展开，而事件有时间、地点、人物(机构)等基本要素。在英文中，专有名词以首字母大写的形式书写，且单词之间使用空格让专有名词的边界更加清晰。但中文没有上述书写特征，因此会造成阅读者在面对大量文字时难以聚焦重要的句子成分。命名实体识别结合恰当的突出显示能够缓解这类问题。

步骤三、对文本进行自动摘要，然后将句子按重要度进行排序并突出显示；

本步骤的目的是从非结构化的文本中，挖掘出重要句子，并在原文上以可视化形式呈现，以辅助阅读者快速阅读。

具体实施方式二：本实施方式与具体实施方式一不同的是，步骤一中采用DOM树解析进行所述正文抽取，具体过程包括以下步骤：

步骤一一、获取原始网页HTML(Hyper Text Markup Language超文本标记语言)，检测编码；如果编码非UTF-8(很多中文网页使用GB2312进行编码)则将其转换为UTF-8编码；

步骤一二、预定义若干正则表达式分组，将网页标签进行分组；分组主要有“加权分组”(即可能含有正文的标签，如body、article、content等等)，“降权分组”(即不太可能含正文的标签，如footnote、media、meta等等)，以及其他分组；

步骤一三、对HTML建立DOM树；DOM为文档对象模型(Document Object Model)；

步骤一四、删除DOM中非文本内容的元素；

步骤一五、遍历DOM内所有的元素，如果元素为<div>的标签，则需要进一步递归遍历<div>标签内的所有嵌套元素，通过对分组的权重加减，重新组合整理出页面正文的内容。

其他步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式二不同的是，步骤二中所述命名实体识别一般视为序列标注任务，能够采用精度略低但速度较快的传统机器学习算法，或者精度略高但速度较慢的深度学习算法；可以根据实际需求来选用。所述传统机器学习算法，包括基于层叠HMM的命名实体识别模型算法和基于CRF的命名实体识别模型算法，其中，HMM表示隐马尔科夫模型，CRF表示条件随机场；所述深度学习算法包括基于BiLSTM的命名实体识别模型算法和基于BiLSTM+CRF的命名实体识别模型算法，所述BiLSTM表示双向长短时记忆网络。

其他步骤及参数与具体实施方式二相同。

具体实施方式四：本实施方式与具体实施方式三不同的是，尽管HMM是最简单的序列标注模型，但其速度快、可扩展性强。由于生产环境中对命名实体识别的精细化处理要求较高，目前使用多层层叠的HMM仍是广泛使用的方法之一。

所述基于层叠HMM的命名实体识别模型的层叠HMM中：

第1层HMM用于分词；由于训练语料的缘故，这一层往往容易切分开太偏僻的地名(如县级、乡镇级)和人名。

第2层HMM，在第1层的基础上粗略地识别地名、人名，然后对生成结果进行模式匹配来二次自动标注语料，作为下一层的训练语料；

第3层HMM在二次自动标注语料上，训练精细地识别地名、人名；

第4层HMM用于识别机构名。机构名则略微复杂，因为其一般包含地名(少数甚至还包含人名)，需要在识别地名和人名的基础上，再使用模式匹配来二次自动标注，然后以此为训练语料训练识别机构名。

因此，想要比较精细地识别人名、地名，需要3层HMM；而想要比较精细地识别机构名，则需要4层HMM。训练流程如图2所示(第2、3层简化为一层)：图中关于实体中字符位置的标签有：B表示实体开始字符(Begin)，I表示实体中间字符(Inside)，E表示实体结束字符(End)，S表示单独实体字符(Single)，O表示非实体字符(Outside)；图中关于实体类型的标签有：Nh表示人名实体，Ns表示地名实体，Ni表示机构名实体；位置和类型标签可以组合使用，如“晋安区检方”中“晋安区”的标签为“B-Ni”，表示是一个机构名的前缀，而“检方”的标签为“E-Ni”，表示是一个机构名的后缀。

使用CRF来训练类似上述。需要设置好相应的特征模板，即可开始训练。

其他步骤及参数与具体实施方式三相同。

具体实施方式五：本实施方式与具体实施方式三不同的是，所述基于BiLSTM的命名实体识别模型如图3所示，主要包括以下3层：

第1层为嵌入(Embedding)层，用于将句子的字符转化为字符向量，字符向量既能够随机初始化，然后在训练的过程中更新；也能够使用网络上预训练好的；

第2层为BiLSTM层，先对LSTM(长短时记忆网络)的每一个单元内的参数随机化，然后将字符向量随时间步逐一送入LSTM单元做循环计算；BiLSTM即将LSTM进行一次正向(forward LSTM)循环计算和一次反向(backward LSTM)循环计算；得到的结果经过拼接、正则化，送至输出层；

第3层为输出层，该输出层为简单的softmax(归一化指数函数)输出层；需要注意的是，地名、人名的标签和机构名的标签存在包含关系，因此如果关心包含关系，这里能够做两路输出，同时训练；如果不关心包含关系，也可以忽略被包含实体，直接一路输出。

其他步骤及参数与具体实施方式三或四相同。

具体实施方式六：本实施方式与具体实施方式五不同的是，所述基于BiLSTM+CRF的命名实体识别模型，在基于BiLSTM的命名实体识别模型的基础上，在BiLSTM层与输出层之间增加一个CRF层，BiLSTM层传送的数据通过CRF层再计算得到最终的标签，并将其传送至输出层。

其他步骤及参数与具体实施方式五相同。

具体实施方式七：本实施方式与具体实施方式一不同的是，步骤二、步骤三中所述突出显示既能够在原始网页上进行，也能够在“阅读模式”网页(即经过步骤一处理后只包含正文，不含图片、特效、广告等干扰项的网页)上进行，通过在HTML中为对应的词、句子加上效果呈现。

对人名、地名的突出显示：

前面提到，在中文文本中辨识命名实体相较英文困难，主要在于中文没有单词分隔和首字母大写特征。事实上，在中文标点中有一类名为“专名号”(“_”)的标点用于克服该问题。其于1919年《请颁行新式标点符号议案》中规定，并在国家技术监督局于1995年发布《标点符号用法》中，建议在古籍中使用，用于标识人名、地名、朝代名。

本发明沿用专名号的用法，对于人名、地名类命名实体，下标专名号，并以字体加粗、颜色的形式呈现。

对机构名的突出显示：

机构名可以沿用人名、地名的方法使用专名号。这里考虑到由于机构可能包含了地名，如果再使用专名号，则会造成连续。而且机构名在文章中出现的频率远低于人名、地名，对于舆情分析也比较重要，宜用较显眼的符号表示。本实施例中采用加框的形式来呈现机构名。

对摘要的突出显示：

将自动摘要得到的句子在原文中设置背景颜色，然后将句子重要度得分映射到背景色彩的亮度上来体现句子的重要程度。

其他步骤及参数与具体实施方式一相同。

具体实施方式八：本实施方式与具体实施方式一不同的是，由于需要将摘要结果在原文上突出显示(如高亮)，步骤三中采用无监督的抽取式摘要算法进行所述自动摘要；无监督的抽取式摘要算法包括基于图的挖掘算法(如TextRank)、基于聚类的算法等。

其他步骤及参数与具体实施方式一相同。

具体实施方式九：本实施方式与具体实施方式一至八不同的是，步骤三中采用属于基于图的挖掘算法中的TextRank算法进行所述自动摘要；所述TextRank算法是一种将文本构建成图表示，然后使用图挖掘来找到关键节点(即重要句子)的算法；具体包括如下步骤：

首先，先将文档分割成句子，并将句子表示成向量形式；

然后，计算句子相似度矩阵：对文本内任意两句句子的向量，使用余弦公式计算相似度，汇总成相似度矩阵；这样，整个文本能够视为以句子为节点、句子间相似度为边的无向有权边连通图G；

最后，使用PageRank(网页排名)算法对G进行重要节点挖掘；计算公式如下：

其中，c表示阻尼系数，一般可设置为0.85，V_t表示图G中的第t个节点(节点即文本中的句子)，In(V_t)表示指向节点V_t的节点集合，Out(V_j)表示节点V_j所指向的节点集合，w_jt表示节点V_t到节点V_j的边的权重；公式左侧的WS(V_t)表示节点V_t的权重和(Weight Sum)，右侧的求和项则表示每个相邻节点对本节点的贡献程度；

利用上述公式对图中所有节点进行不断迭代更新，直至所有权重趋于平稳；最终选取权重和最高的N个节点，取其对应的N个句子作为摘要输出。

其他步骤及参数与具体实施方式一至八相同。

具体实施方式十：本实施方式与具体实施方式九不同的是，所述将句子表示成向量形式有多种方法可选，能够采用BM25算法(最佳匹配算法Best Match)或者基于分布式学习算法；

BM25算法通常用于做搜索相关性评分。其计算公式如下：

其中，Q表示查询字符串(Query)；q_i表示查询字符串Q中的第i个词(对于中文而言，可以视为分词后的每一个词)，i＝1…n；n为查询字符串Q中词数目；d表示一个搜索结果文档；W_i表示q_i的权重；R(q_i，d)表示q_i和搜索结果文档d的相关性得分；W_i和R(q_i，d)均能够自行设计，一般设计W_i＝IDF(q_i)，IDF(·)即逆文档频率；而R(q_i，d)则更灵活一些，体现单词q_i和文档d的相关性即可；

基于分布式学***均运算得到句子的向量，语料预训练得到词向量的方法有Skip-Gram、CBOW等，其原理如图4、图5所示：

其中，CBOW(图4)则用上下文词去预测中心词，而Skip-Gram(图5)用中心词去预测上下文词。通过这样训练得到的分布式词表示蕴含了词的语义信息。最后，用词向量构建句子向量，可以在剔除停用词后，通过简单的求平均得到。

其他步骤及参数与具体实施方式九相同。

实施例

采用以下实施例验证本发明的有益效果：

本实施例按照如图1所示流程进行。搭建一个面向舆情分析的辅助阅读***，该***由前端插件和后端算法两个模块构成，前端模块可以以浏览器窗口插件的形式安装(可选)，主要负责将当前页面的原始HTML下载后送入后端接收，以及将后端返回的处理结果渲染出来；后端算法模块则主要包含正文提取、命名实体识别、自动摘要等自然语言处理算法。

打开一个新闻网页，如图6，这里选取其中《人民网》于3月5日刊登的一则新闻社论为例。

前端插件检测到启动命令，将当前网页的原始HTML发送至后端；后端将原始网页转发至各算法，依次经过正文抽取、命名实体识别、自动摘要等处理。利用这些结果对原始网页和“阅读模式”网页进行可视化渲染，将渲染后的网页送回至前端刷新再现。

在原始网页上开启文本辅助阅读功能后效果如图7所示；原始网页存在排版、图片、特效、广告等干扰，可以处理成简洁的“阅读模式”，效果如图8所示。对于人名、地名类命名实体，下标专名号，并以字体加粗、不同颜色等形式呈现；对机构名采用加框的形式突出显示；高亮词表示实体词，高亮背景表示句子的重要程度。阅读者可以轻松地通过只阅读颜色填充背景的句子来了解整篇文章的重点，提高了舆情分析的效率；如果想了解新闻事件中的角色关系，高亮的实体词也能快速辅助理解。由于可视化处理完全建立在原文上，如果想要详细阅读全文也很方便。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.面向舆情分析的文本辅助阅读方法，其特征在于，具体包括以下步骤：

步骤一、对各种类型网页进行正文抽取；

2.根据权利要求1所述面向舆情分析的文本辅助阅读方法，其特征在于，步骤一中采用DOM树解析进行所述正文抽取，具体过程包括以下步骤：

步骤一一、获取原始网页HTML，检测编码；如果编码非UTF-8则将其转换为UTF-8编码；

步骤一二、将网页标签进行分组；

步骤一三、对HTML建立DOM树；DOM为文档对象模型；

步骤一四、删除DOM中非文本内容的元素；

3.根据权利要求2所述面向舆情分析的文本辅助阅读方法，其特征在于，步骤二中所述命名实体识别能够采用传统机器学习算法，或者深度学习算法；所述传统机器学习算法，包括基于层叠HMM的命名实体识别模型算法和基于CRF的命名实体识别模型算法，其中，HMM表示隐马尔科夫模型，CRF表示条件随机场；所述深度学习算法包括基于BiLSTM的命名实体识别模型算法和基于BiLSTM+CRF的命名实体识别模型算法，所述BiLSTM表示双向长短时记忆网络。

4.根据权利要求3所述面向舆情分析的文本辅助阅读方法，其特征在于，所述基于层叠HMM的命名实体识别模型的层叠HMM中：

第1层HMM用于分词；

第2层HMM，在第1层的基础上粗略地识别地名、人名，然后对生成结果进行模式匹配来二次自动标注语料；

第4层HMM用于识别机构名。

5.根据权利要求3所述面向舆情分析的文本辅助阅读方法，其特征在于，所述基于BiLSTM的命名实体识别模型包括以下3层：

第1层为嵌入层，用于将句子的字符转化为字符向量，字符向量既能够随机初始化，然后在训练的过程中更新；也能够使用网络上预训练好的；

第2层为BiLSTM层，先对LSTM的每一个单元内的参数随机化，然后将字符向量随时间步逐一送入LSTM单元做循环计算；将LSTM进行一次正向循环计算和一次反向循环计算；得到的结果经过拼接、正则化，送至输出层；

第3层为输出层，该输出层为softmax输出层。

6.根据权利要求5所述面向舆情分析的文本辅助阅读方法，其特征在于，所述基于BiLSTM+CRF的命名实体识别模型，在基于BiLSTM的命名实体识别模型的基础上，在BiLSTM层与输出层之间增加一个CRF层，BiLSTM层传送的数据通过CRF层再计算得到最终的标签，并将其传送至输出层。

7.根据权利要求1所述面向舆情分析的文本辅助阅读方法，其特征在于，步骤二、步骤三中所述突出显示既能够在原始网页上进行，也能够在“阅读模式”网页上进行，通过在HTML中为对应的词、句子加上效果呈现。

8.根据权利要求1所述面向舆情分析的文本辅助阅读方法，其特征在于，步骤三中采用无监督的抽取式摘要算法进行所述自动摘要；无监督的抽取式摘要算法包括基于图的挖掘算法、基于聚类的算法。

9.根据权利要求1～8任意一项所述面向舆情分析的文本辅助阅读方法，其特征在于，步骤三中采用属于基于图的挖掘算法中的TextRank算法进行所述自动摘要；所述TextRank算法是一种将文本构建成图表示，然后使用图挖掘来找到关键节点的算法；具体包括如下步骤：

首先，先将文档分割成句子，并将句子表示成向量形式；

然后，计算句子相似度矩阵：对文本内任意两句句子的向量，使用余弦公式计算相似度，汇总成相似度矩阵；整个文本能够视为以句子为节点、句子间相似度为边的无向有权边连通图G；

最后，使用PageRank算法对G进行重要节点挖掘；计算公式如下：

其中，c表示阻尼系数，V_t表示图G中的第t个节点，In(V_t)表示指向节点V_t的节点集合，Out(V_j)表示节点V_j所指向的节点集合，w_jt表示节点V_t到节点V_j的边的权重；WS(V_t)表示节点V_t的权重和，右侧的求和项则表示每个相邻节点对本节点的贡献程度；

10.根据权利要求9所述面向舆情分析的文本辅助阅读方法，其特征在于，所述将句子表示成向量形式能够采用BM25算法或者基于分布式学习算法；

BM25算法其计算公式如下：

其中，Q表示查询字符串；q_i表示查询字符串Q中的第i个词，i＝1…n；n为查询字符串Q中词数目；d表示一个搜索结果文档；W_i表示q_i的权重；R(q_i，d)表示q_i和搜索结果文档d的相关性得分；

基于分布式学***均运算得到句子的向量。