CN105045925A

CN105045925A - 一种基于crf模型的情绪原因事件识别方法及***

Info

Publication number: CN105045925A
Application number: CN201510531026.3A
Authority: CN
Inventors: 李寿山; 徐健; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-11-11

Abstract

本发明公开了一种基于CRF模型的情绪原因事件识别方法及***，包括：获取第一文本，所述第一文本为未提供其情绪原因事件的文本；将所述第一文本进行分词处理，得到第一词组；确定所述第一词组中包括的第一情绪词；获取所述第一词组中每个词语的词性特征和第一距离，所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离；利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离，通过预先建立的CRF模型，确定所述第一文本的情绪原因事件。实验证明，本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法及***获取第一文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

Description

一种基于CRF模型的情绪原因事件识别方法及***

技术领域

本发明涉及信息抽取技术领域，更具体地说，涉及一种基于CRF模型的情绪原因事件识别方法及***。

背景技术

随着互联网的高速发展，网络信息数据不断增加，大量信息以电子文本的形式呈现在人们面前。而如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本信息中自动获取所需信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。其中，由文本信息中获取其情绪原因事件是信息抽取中的一个重要方面，情绪原因事件是指文本信息(可以是某段语句)中情绪的触发事件。例如，对于文本信息：IamhappybecauseIhavepassedthetest。该句中情绪对应的情绪词为happy，与之对应的情绪原因事件为Ihavepassedthetest。

目前，情绪原因事件识别方法大多是基于机器学习的方法，即使用统计的方法进行研究。主要还是基于全监督的学习方法，这种方法把情绪原因事件识别看成分类问题，选择合适的特征并使用合适的分类器来完成。但是，这种方法获取待测文本的情绪原因事件的准确率较低。

综上所述，现有技术中的情绪原因事件识别方法存在获取待测文本的情绪原因事件的准确率较低的问题。

发明内容

本发明的目的是提供一种基于CRF模型的情绪原因事件识别方法及***，以解决现有技术中存在的获取待测文本的情绪原因事件的准确率较低的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于CRF模型的情绪原因事件识别方法，包括：

获取第一文本，所述第一文本为未提供其情绪原因事件的文本；

将所述第一文本进行分词处理，得到第一词组；

确定所述第一词组中包括的第一情绪词；

获取所述第一词组中每个词语的词性特征和第一距离，所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离；

利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离，通过预先建立的CRF模型，确定所述第一文本的情绪原因事件。

优选的，所述利用所述第一词组中的每个词语及每个词语的词性特征和第一距离，通过预先建立的CRF模型，确定所述第一文本的情绪原因事件，包括：

将所述第一词组中的每个词语、每个词语的词性特征及该词语的第一距离转换成与该词语对应的第一特征向量；

将所述第一词组中每个词语对应的第一特征向量作为所述CRF模型的输入，得到所述第一文本的情绪原因事件。

优选的，所述获取第一文本，包括：

在特定网页上，通过网页文字抓取器获取所述第一文本。

优选的，所述获取第一文本，包括：

获取第一文本，所述第一文本为英文文本或者中文文本。

优选的，预先建立所述CRF模型的过程包括：

获取预设量的第二文本，所述第二文本为已提供其情绪原因事件的文本；

将所述第二文本进行分词处理，得到分别与每个所述第二文本对应的第二词组；

确定所述第二词组中每个词语的词性特征及第二距离；其中，所述第二距离为每个所述第二词组中每个词语与该第二词组中包括的第二情绪词之间的距离；

利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型。

优选的，所述利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型，包括：

将每个所述第二词组中每个词语及该词语的词性特征和第二距离转换成与该词语对应的第二特征向量；

利用每个所述第二词组及该第二词组中每个词语对应的第二特征向量训练CRF模型。

一种基于CRF模型的情绪原因事件识别***，包括：

第一获取模块，用于获取第一文本，所述第一文本为未提供其情绪原因事件的文本；

分词模块，用于将所述第一文本进行分词处理，得到第一词组；

第一确定模块，用于确定所述第一词组中包括的第一情绪词；

第二获取模块，用于获取所述第一词组中每个词语的词性特征和第一距离，所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离；

第二确定模块，用于利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离，通过预先建立的CRF模型，确定所述第一文本的情绪原因事件。

本发明提供的一种基于CRF模型的情绪原因事件识别方法及***，包括：获取第一文本，所述第一文本为未提供其情绪原因事件的文本；将所述第一文本进行分词处理，得到第一词组；确定所述第一词组中包括的第一情绪词；获取所述第一词组中每个词语的词性特征和第一距离，所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离；利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离，通过预先建立的CRF模型，确定所述第一文本的情绪原因事件。与现有技术相比，本申请首先将第一文本进行处理，以得到第一文本的第一词组中每个词语的词性特征和第一距离，并据其通过CRF模型确定第一文本的情绪原因事件。实验证明，本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法及***获取第一文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法的流程图；

图2为本发明实施例提供的基于CRF模型的情绪原因事件识别方法中预先建立CRF模型的过程的流程图；

图3为本发明实施例提供的一种基于CRF模型的情绪原因事件识别的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法的流程图，可以包括以下步骤：

S11：获取第一文本，第一文本为未提供其情绪原因事件的文本。

S12：将第一文本进行分词处理，得到第一词组。

其中，分词处理即为将一段文本分割成词语的组合，如将语句“我很高兴”，分割成“我”“很”“高兴”。

S13：确定第一词组中包括的第一情绪词。

其中，情绪词即为表明情绪的词语。

S14：获取第一词组中每个词语的词性特征和第一距离，第一距离为第一词组中每个词语与第一情绪词之间的距离。

第一距离具体可以是，第一词组中位于第一情绪词左边的词语的第一距离为负数，位于第一情绪词右边的词语的第一距离为正数，而第一距离的绝对值则可以是一个词语在第一词组中与第一情绪词之间的字数差。

S15：利用第一词组中的每个词语、每个词语的词性特征及该词语第一距离，通过预先建立的CRF模型，确定第一文本的情绪原因事件。

其中，步骤S15具体可以是，第一词组中的每个词语、每个词语的词性特征及该词语第一距离处理成CRF++所需的格式，然后通过CRF模型确定第一文本的情绪原因事件。

另外，本申请首先将第一文本进行处理，以得到第一文本的第一词组中每个词语的词性特征和第一距离，并据其通过CRF模型确定第一文本的情绪原因事件。实验证明，本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法获取第一文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

针对序列标注模型的求解，表现较好的是条件随机场方法，即与CRF(conditionalrandomfieldalgorithm，条件随机场算法)模型对应的方法。CRF模型，即条件随机场模型是Lafferty等在最大熵模型和隐马尔可夫模型的基础上提出的一种无向图学习模型，是一种用于标注和切分有序数据的条件概率模型。CRF模型对应的方法是对序列的整体优化。具体求解公式如下：

p_{λ} (Y | W) = \frac{1}{Z (W)} \exp (\underset{t &Element; T}{Σ} \underset{k}{Σ} λ_{k} f_{k} (y_{t - 1}, W, t))

其中，Y＝{y_t}表示对应的输出标记序列；y_t∈{B,I,E,O}分别代表对应的词语是否是情绪原因对应的第一个词、情绪原因的中间词、情绪原因的最后一个词、非情绪原因中的词；W表示待测词序列，Z(W)是归一化因子，f_k为特征函数，t为相应特征的下标。

需要说明的是，可以借助Stanford词性标注工具来获取词语的词性特征，Stanford词性标注工具是目前比较先进且应用比较广泛的标注工具。

举例说明一个英文文本及该英文文本对应的英文词组中的各词语，及各词语的词性特征和第一距离：

英文文本：Thoughhisheartwasfullofanger.

第一词组：Though/his/heart/was/full/of/anger/.

第一情绪词：anger

每个词语对应的词性特征：Though/RBhis/PRP$heart/NNwas/VBDfull/JJof/INanger/NN./.

每个词语的第一距离：Though/-6his/-5heart/-4was/-3full/-2of/-1anger/0./1

需要说明的是，上述实施例提供的一种基于CRF模型的情绪原因事件识别方法中，利用第一词组中的每个词语及每个词语的词性特征和第一距离，通过预先建立的CRF模型，确定第一文本的情绪原因事件，可以包括：

将第一词组中的每个词语、每个词语的词性特征及该词语的第一距离转换成与该词语对应的第一特征向量；

将第一词组中每个词语对应的第一特征向量作为CRF模型的输入，得到第一文本的情绪原因事件。

将第一词组的每个词语、每个词语的词性特征及该词语的第一距离转换成第一特征向量，可以是词语本身、该词语的词性特征及该词语的第一距离各作为一列组成一个一维特征向量。

另外，获取第一文本，可以包括：

在特定网页上，通过网页文字抓取器获取第一文本。

网页文字抓取器是个小巧的网页文字抓取工具，可以轻松抓取和复制的网页上的文字。方便快速有效的获取第一文本。

特定网页可以根据实际需要进行确定。

其中，第一文本和下文中的第二文本可以为中文文本或英文文本，可以根据实际情况进行确定。即，上述实施例提供的一种基于CRF模型的情绪原因事件识别方法可以适用于不同语言种类的文本，具有通用性。

需要说明的是，上述实施例提供的一种基于CRF模型的情绪原因事件识别方法中，预先建立CRF模型的过程，可以包括以下步骤：

S21：获取预设量的第二文本，第二文本为已提供其情绪原因事件的文本。

预设量可以根据实际需要进行确定。

S22：将第二文本进行分词处理，得到分别与每个第二文本对应的第二词组。

对于进行分词处理的具体说明请参考上文中的相关内容，在此不再赘述。

S23：确定第二词组中每个词语的词性特征及第二距离；其中，第二距离为每个第二词组中每个词语与该第二词组中包括的第二情绪词之间的距离。

其中，第二词组中每个词语的词性特征也可以借助Stanford词性标注工具来获取。第二距离的具体说明请参考对于第一距离的相关内容的具体说明，在此不再赘述。

S24：利用第二词组中的每个词语及该词语的词性特征和第二距离训练CRF模型。

具体的，利用第二词组中的每个词语及该词语的词性特征和第二距离训练CRF模型，包括：

将每个第二词组中每个词语及该词语的词性特征和第二距离转换成与该词语对应的第二特征向量；

利用每个第二词组及该第二词组中每个词语对应的第二特征向量训练CRF模型。

将第二词组的每个词语、每个词语的词性特征及该词语的第二距离转换成第二特征向量，可以是词语本身、该词语的词性特征及该词语的第二距离各作为一列组成一个一维特征向量。

由此，通过上述步骤建立CRF模型，且，该CRF模型充分考虑到了第二文本的第二情绪词的上下文特征，利用该CRF模型获取第一文本的情绪原因事件准确率较高。

与上述方法实施例相对应，本发明实施例还提供了一种基于CRF模型的情绪原因事件识别***，如图3所示，可以包括：

第一获取模块31，用于获取第一文本，第一文本为未提供其情绪原因事件的文本；

分词模块32，用于将第一文本进行分词处理，得到第一词组；

第一确定模块33，用于确定第一词组中包括的第一情绪词；

第二获取模块34，用于获取第一词组中每个词语的词性特征和第一距离，第一距离为第一词组中每个词语与第一情绪词之间的距离；

第二确定模块35，用于利用第一词组中的每个词语、每个词语的词性特征及该词语第一距离，通过预先建立的CRF模型，确定第一文本的情绪原因事件。

通过上述***，首先将第一文本进行处理，以得到第一文本的第一词组中每个词语的词性特征和第一距离，并据其通过CRF模型确定第一文本的情绪原因事件。实验证明，本发明实施例提供的一种基于CRF模型的情绪原因事件识别***获取第一文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于CRF模型的情绪原因事件识别方法，其特征在于，包括：

将所述第一文本进行分词处理，得到第一词组；

确定所述第一词组中包括的第一情绪词；

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一词组中的每个词语及每个词语的词性特征和第一距离，通过预先建立的CRF模型，确定所述第一文本的情绪原因事件，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取第一文本，包括：

在特定网页上，通过网页文字抓取器获取所述第一文本。

4.根据权利要求3所述的方法，其特征在于，所述获取第一文本，包括：

获取第一文本，所述第一文本为英文文本或者中文文本。

5.根据权利要求1至4任一项所述的方法，其特征在于，预先建立所述CRF模型的过程包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型，包括：

7.一种基于CRF模型的情绪原因事件识别***，其特征在于，包括：