CN110991637B

CN110991637B - 一种公司形象提升的社交网络数据提取方法及

Info

Publication number: CN110991637B
Application number: CN201911183109.2A
Authority: CN
Inventors: 于灏; 樊奕良; 陈睿欣; 刘睿; 郑厚清; 贾德香; 孙艺新; 王西胜; 陈爽; 曹瑾; 李艳娜; 林坤新; 王玓; 刘素蔚; 王智敏; 刘威; 高洪达; 崔维平; 王程; 李心达
Original assignee: State Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-06-16
Anticipated expiration: 2039-11-27
Also published as: CN110991637A

Abstract

本发明公开了一种公司形象提升***的社交网络数据提取方法及***，一种公司形象提升***的社交网络数据提取方法，包括以下步骤：S1：基于规则对待测数据划分模块；S2：“模式自动归纳”抽取模型建立模块；S3：基于负反馈的规则、模型调整模块；一种公司形象提升***的社交网络数据提取***，所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块；本发明能在大量的社交媒体数据中提取出精确的关键信息，相对于现有技术方案，本技术路线只需使用少量规则的“规则判断”，就可以替代“人工标注”获得初始标准语料，降低了人工的工作量和出错率。

Description

一种公司形象提升***的社交网络数据提取方法及***

技术领域

本发明涉及社交网络数据提取技术领域，具体为一种公司形象提升***的社交网络数据提取方法及***。

背景技术

目前，网络平台已成为我国最主要的社交模式之一，同时也是当今社会信息舆论传播的最快传播途径。在当今市场上，通过网络社交媒体来提升公司品牌价值、更好的分析客户需求以服务客户，已成为了重要的途径。与此同时，在这些社交媒体上每日都涌现出大量能公开访问且实时的媒体数据。在这每日更新的大数据中，一方面，提供了大量包含了已有客户或是目标客户的需求点以及公司业务不足之处的信息；另一方面，能及时获得实时舆论焦点，在舆论变成失去真实性甚至是失控之前，使得相关部门能监测网民情绪变化，并进行有效引导。这时，在大量的数据中得到精确的关键字，能让相关部门在最短的时间内得出用户或者舆论的具体结论，从而采取措施。

其中，最难的是准确地从大数据中提取有用的关键字；目前的处理技术：利用提取方法，即针对特定内容在网页中的上下文信息，编写正则表达式等规则，然后对生成的规则按网络的传导途径进行连接和整理，并提出一种从训练后的三层前馈网络中抽取分类规则。首先对每个隐层结点与输出层结点之间的规则(规则集1)和输入层结点与隐层结点之间的规则(规则集2)；最后将两部分规则进行合并得到最终的分类规则，对符合公司具体服务数据作进一步分析处理，从而构建相对独立的公司用户需求预测模型以及情绪判别模型。

传统的规则抽取技术需要针对所有站点开展规则编制、维护和测试，工作量较大且容易出错，且召回率较低、健壮性不足，难以覆盖全面的结构化字段和关键指标。社交媒体所包含的信息，大多需要进行挖掘分析与计算，从而获得关键字指标。如博客的标题，微博的评论，微信公众号的点赞数等，这些不同的社交媒体展示信息的结构方式、指标都不尽相同，仅仅是利用规则提取技术是不能适应当今社交媒体大数据信息的处理，同时，目前的规则抽取基于结构方式过分依赖网页结构，这就导致了出现一个新的信息源就要重新构造一套抽取程序，造成***的可扩展性差。

发明内容

本发明的目的在于提供一种公司形象提升***的社交网络数据提取方法及***，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种公司形象提升***的社交网络数据提取方法，包括以下步骤；

S1：基于规则对待测数据划分模块，对待抽取原始语料，通过编写的少量正则表达式对待测样本语料进行抽取，得到少数符合规则的文本语料；

S2：“模式自动归纳”抽取模型建立模块，基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练，得到待测试模型；

S3：基于负反馈的规则、模型调整模块，对待测试模型进行测试，若正确率达标则可直接投入使用；若正确率不达标则需要由继续编写少量正则，完善规则，返回步骤S1进行循环操作。

在S1中，对特定内容在网页中的上下文信息，编写正则表达式等规则，基于此规则对待抽取的原始文本语料进行筛与文本提取，抽取出命中规则的语料作为模块二的输入，且语料为1％，而剩下占原始语料99％的未命中规则的语料不参与模块二的计算。

在S2中，完成模型训练的准备工作包括：指示词词库的构建、特征模板的构建与训练/测试语料的选择与标注，准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征，并设定阈值进行特征筛选，最后将词汇和特征组合转换为词向量注入条件随机场模型，使用Improved Iterative Scaling改进的迭代尺度法训练参数，得到一个可以用于预测实体的最终模型。

在S3中：基于负反馈思想对“模式自动归纳”抽取模型进行测试，以测试样本集在抽取模型上的测试正确率作为判断标准，对该抽取模型是否符合需求进行判断。

实施权利要求1-4之一所述方法的公司形象提升***的社交网络数据提取***，其特征在于：所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块；基于条件随机场模型，提出采用人工智能的序列标注算法与规则提取相结合的技术路线，解决异构社交媒体关键信息提取。

所述模型预处理子模块，将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据；基于CRF的文本序列标注子模块，使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注，构建“模式自动归纳”抽取模型，提出了使用基于改进的迭代尺度法的模型训练子模块，使用改进的迭代尺度法进行模型参数估计，提出了初步特征模板和组合特征模板，进行词性的分析，词组的组合以及关键信息的提取；基于改进的迭代尺度法的模型训练子模块，条件随机场模型实际上是定义在时序数据上的对数线性模型，其学习方法包括极大似然估计和正则化的极大似然估计。

所述基于负反馈的规则、模型调整模块，补充指定的规则数量，逐步将模型的正确率提升，得到最终训练模型。

所述最终训练模型可作为正式的抽取模型部署，对原始预料直接进行抽取。

与现有技术相比，本发明的有益效果是：

1.基于条件随机场(CRF)模型，提出采用人工智能的序列标注算法与规则提取相结合的技术路线，解决异构社交媒体关键信息提取。

2.提出基于规则的待测数据划分模块，对待抽取原始语料，使用编写的少量正则表达式进行文本抽取，作为所述提取方法的输入数据。

3.结合基于CRF模型的开源自动序列标注算法CRF++，构建“模式自动归纳”抽取模型。

4.提出了初步特征模板和组合特征模板，进行词性的分析，词组的组合以及关键信息的提取。

5.提出了模块预处理子模块，将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据集。

6.提出了基于CRF的文本序列标注子模块，使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注。

7.提出了使用基于改进的迭代尺度法(IIS)的模型训练子模块，使用改进的迭代尺度法进行模型参数估计。

8.提出基于负反馈的规则、模型调整模块，补充指定的规则数量，逐步将模型的正确率提升。

9.最终训练模型可作为正式的抽取模型部署，对原始预料直接进行抽取。

附图说明

图1为本发明的方法流程框图；

图2为本发明的关键信息抽取操作流程图；

图3为本发明的基于规则的待测数据划分模块流程框图；

图4为本发明的模型预处理子模块流程框图；

图5为本发明的“模式自动归纳”抽取模型训练过程流程框图；

图6为本发明的正确率没达标的模型训练流程框图；

图7为本发明的正确率达标的模型训练流程框图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图7，本发明提供一种技术方案：一种公司形象提升***的社交网络数据提取方法，如图1和图3所示，包括以下步骤：

S3：基于负反馈的规则、模型调整模块，对待测试模型进行测试，若正确率达标则可直接投入使用；若正确率不达标则需要由继续编写少量正则，完善规则，返回步骤S1进行循环操作；

“模式自动归纳”抽取模型建立模块

如图2所示，主要由三个子模块组成，1.预处理子模块、2.完成关键信息抽取操作的基于条件随机场(CRF)的子模块、3.基于改进的迭代尺度法(IIS)的模型训练子模块；

首先需要完成模型训练的准备工作，包括指示词词库的构建，特征模板的构建，训练/测试语料的选择与标注等，这些工作为训练模块的特征提取、训练/测试语料库的标准化起到了铺垫作用；准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征，并设定阈值进行特征筛选，最后将词汇和特征组合转换为词向量注入条件随机场模型(CRF模型)，使用IIS(Improved Iterative Scaling，改进的迭代尺度法)训练参数，得到一个可以用于预测实体的最终模型；

1.模型预处理子模块

如图4所示，将模块一中命中规则的语料作为模块二的输入数据集；为了方便训练模型以及测试模型，进一步将语料划分为训练样本集(占80％)以及测试样本集(占20％)。将训练样本集作为分词模块的输入；

2.基于CRF的文本序列标注子模块

使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注(CRF++是条件随机场(CRF)的一种简单，可自定义的开源实现，用于对顺序数据进行分段/标记。CRF++专为通用目的而设计，应用于各种NLP任务，例如命名实体识别，信息提取和文本分块)。具体算法原理与训练过程如下：

CRF的建模公式如下：

其中，O表示观测序列(观测序列为被预测词语的上下文信息)，I表示所有可能的状态序列(状态序列表示被预测词语的词性，也就是实体类别，如：文章的作者，文章标题等)，P(I|O)表示在输入一串观测序列的情况下，状态序列的概率值，t表示当前节点(token)所在位置，fk是第k个特征函数，满足特征条件就取值为1，否则为0。λk是特征函数对应权值，一套CRF由一套参数λ唯一确定。其中Z(O)为归一化因子，求和是在所有可能输出序列上进行的。模型预测的目的是找出使得P(I|O)最大的状态序列I。

定义转移特征以及状态特征，将建模公式展开：

其中，tj为i处的转移特征，对应权重λj,每个token_i都有J个特征,转移特征针对的是前后token之间的限定。sl为i处的状态特征，对应权重μl,每个token_i都有L个特征；

特征函数fk在序列标注问题中体现为特征模板，通过特征模板的筛选，将会为每个序列生成成千上万特征，特征决定了序列的标注结果，从上述的公式可见，特征模板的好坏直接影响模型的精度。本发明确立使用BMESO标签体系(也可以使用更加复杂的标签体系，如BMESO++，由于更加复杂会增加训练时间，这里不做讨论)，基于此标签体系，本发明针对此应用场景自定义了命名实体组合标注集，命名实体组合标注集如下：

本发明定义了两类特征模板，分别为原子特征模板和组合特征模板；

初步特征模板：句子表达中每个词实际都受到上下文的关联影响，并且由于该模板作为上下文的初步划分，为组合模板提供特征，因此称为“初步特征模板“。初步特征模板如下：

模板形式	模板含义
		WORD(0)	当前词
WORD(-1)	前数第一个词
		WORD(-2)	前数第二个词
WORD(1)	后数第一个词
		WORD(2)	当前词右边第二个词
POS(0)	当前词的词性
		POS(-1)	前数第一个词的词性
POS(-2)	前数第二个词的词性
		POS(1)	后数第一个词的词性
POS(2)	后数第二个词的词性

简单的词形和词性特征所能表达的上下文信息有限，组合特征能够利用远距离的约束和丰富的上下文信息，因此可以由初步特征两两组合产出新的组合特征模板。因此定义组合特征模板如下：

在CRF++中，每个特征都会尝试标注每个标注label，总共将生成N*L个特征函数以及对应的权重出来。N表示每一套特征函数，L表示标注集元素个数；

3.基于改进的迭代尺度法(IIS)的模型训练子模块

条件随机场模型实际上是定义在时序数据上的对数线性模型，其学习方法包括极大似然估计和正则化的极大似然估计。本发明采用了改进的迭代尺度法(IIS)进行模型训练。算法基本原理如下：

设该模型为

其中，

其对数似然函数为

假设模型当前的参数向量是w＝(w1,w2,...,wn)Tw＝(w1,w2,...,wn)T,我们希望找到一个新的参数向量w+δ＝(w1+δ1,w2+δ2,...,wn+δn)Tw+δ＝(w1+δ1,w2+δ2,...,wn+δn)T使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法τ:w→w+δτ:w→w+δ,那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

因此，将特征筛选结果直接输入条件随机场模型，根据IIS(改进的自动迭代法)的收敛性，迭代估计模型参数，可以得到“模式自动归纳“抽取模型，如图5所示。

基于负反馈的规则、模型调整模块。

模块二的测试样本集对“模式自动归纳”抽取模型进行测试，以测试样本集在抽取模型上的测试正确率作为判断标准，对该抽取模型是否符合需求进行判断。

结果一：正确率过低，不符合要求。

针对此结果，本发明采用负反馈调节技术，编写更多的正则表达式，形成更多的“标注语料”，作为模型训练导入，如图6所示；

结果二：正确率高于需求值，满足要求。

针对此结果，本发明认为该抽取模型通过验证，即可作为正式抽取模型部署，对“原始语料“进行直接抽取，如图7所示；

能在大量的社交媒体数据中提取出精确的关键信息，相对于现有技术方案，本技术路线只需使用少量规则的“规则判断”，就可以替代“人工标注”获得初始标准语料，降低了人工的工作量和出错率；对序列标注模型的抽取结果能够进行自动化回测，确保模型的准确性符合业务需求，用序列标注作为最终文本抽取的执行器，确保模型的适用性得到保障(不限制于待抽取信息是否具有严格的模版，所以抽取范围远高于纯粹基于“正则表达式”的方法)，同时，整个过程是可增量迭代的，如果序列标注训练得到的模型的抽取效果不理想(准确性达不到要求)，仅需要进行增加编写少量正则表达式，执行同样的过程循环，这就有效提升了模型抽取效果，使得前期编写的规则不会被废弃；

“模式自动归纳”抽取模型构建模块中，信息抽取技术可以根据实验或应用效果，用隐马尔科夫模型、最大熵马尔科夫、表决感知机模型替代条件随机场模型计算标注序列；“模式自动归纳”抽取模型构建模块中，信息抽取技术可以根据实验或应用效果，用牛顿法、拟牛顿法、前向后向算法代替改进的迭代尺度法训练模型。

本发明公司形象提升***的社交网络数据提取方法及***与现有的技术不同之处在于：基于条件随机场(CRF)模型，提出采用人工智能的序列标注算法与规则提取相结合的技术路线，解决异构社交媒体关键信息提取；提出基于规则的待测数据划分模块，对待抽取原始语料，使用编写的少量正则表达式进行文本抽取，作为所述提取方法的输入数据；结合基于CRF模型的开源自动序列标注算法CRF++，构建“模式自动归纳”抽取模型；提出了初步特征模板和组合特征模板，进行词性的分析，词组的组合以及关键信息的提取；提出了模块预处理子模块，将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据集；提出了基于CRF的文本序列标注子模块，使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注；提出了使用基于改进的迭代尺度法(IIS)的模型训练子模块，使用改进的迭代尺度法进行模型参数估计；提出基于负反馈的规则、模型调整模块，补充指定的规则数量，逐步将模型的正确率提升；最终训练模型可作为正式的抽取模型部署，对原始预料直接进行抽取。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种公司形象提升***的社交网络数据提取方法，其特征在于，包括以下步骤；

在S1中，对特定内容在网页中的上下文信息，编写正则表达式等规则，基于此规则对待抽取的原始文本语料进行筛与文本提取，抽取出命中规则的语料作为模块二的输入，且语料为1％，而剩下占原始语料99％的未命中规则的语料不参与模块二的计算；

2.根据权利要求1的一种公司形象提升***的社交网络数据提取方法，其特征在于：在S3中：基于负反馈思想对“模式自动归纳”抽取模型进行测试，以测试样本集在抽取模型上的测试正确率作为判断标准，对该抽取模型是否符合需求进行判断。

3.一种实施权利要求1或2所述方法的公司形象提升***的社交网络数据提取***，其特征在于：所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块；基于条件随机场模型，提出采用人工智能的序列标注算法与规则提取相结合的技术路线，解决异构社交媒体关键信息提取。

4.根据权利要求3的一种公司形象提升***的社交网络数据提取***，其特征在于：所述模型预处理子模块，将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据；基于CRF的文本序列标注子模块，使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注，构建“模式自动归纳”抽取模型，提出了使用基于改进的迭代尺度法的模型训练子模块，使用改进的迭代尺度法进行模型参数估计，提出了初步特征模板和组合特征模板，进行词性的分析，词组的组合以及关键信息的提取；基于改进的迭代尺度法的模型训练子模块，条件随机场模型实际上是定义在时序数据上的对数线性模型，其学习方法包括极大似然估计和正则化的极大似然估计。

5.根据权利要求3的一种公司形象提升***的社交网络数据提取***，其特征在于：所述基于负反馈的规则、模型调整模块，补充指定的规则数量，逐步将模型的正确率提升，得到最终训练模型。

6.根据权利要求5的一种公司形象提升***的社交网络数据提取***，其特征在于：所述最终训练模型可作为正式的抽取模型部署，对原始预料直接进行抽取。