CN105045925A - 一种基于crf模型的情绪原因事件识别方法及*** - Google Patents

一种基于crf模型的情绪原因事件识别方法及*** Download PDF

Info

Publication number
CN105045925A
CN105045925A CN201510531026.3A CN201510531026A CN105045925A CN 105045925 A CN105045925 A CN 105045925A CN 201510531026 A CN201510531026 A CN 201510531026A CN 105045925 A CN105045925 A CN 105045925A
Authority
CN
China
Prior art keywords
word
text
phrase
distance
mood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510531026.3A
Other languages
English (en)
Inventor
李寿山
徐健
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510531026.3A priority Critical patent/CN105045925A/zh
Publication of CN105045925A publication Critical patent/CN105045925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于CRF模型的情绪原因事件识别方法及***,包括:获取第一文本,所述第一文本为未提供其情绪原因事件的文本;将所述第一文本进行分词处理,得到第一词组;确定所述第一词组中包括的第一情绪词;获取所述第一词组中每个词语的词性特征和第一距离,所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离;利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件。实验证明,本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法及***获取第一文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。

Description

一种基于CRF模型的情绪原因事件识别方法及***
技术领域
本发明涉及信息抽取技术领域,更具体地说,涉及一种基于CRF模型的情绪原因事件识别方法及***。
背景技术
随着互联网的高速发展,网络信息数据不断增加,大量信息以电子文本的形式呈现在人们面前。而如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。
信息抽取是从文本信息中自动获取所需信息的一种主要手段。信息抽取是将无结构的文本信息,按照人们的需求识别和抽取出来,转化为结构化或半结构化的信息,并采用数据库的形式存储,以便人们查询和进一步的分析、利用。其中,由文本信息中获取其情绪原因事件是信息抽取中的一个重要方面,情绪原因事件是指文本信息(可以是某段语句)中情绪的触发事件。例如,对于文本信息:IamhappybecauseIhavepassedthetest。该句中情绪对应的情绪词为happy,与之对应的情绪原因事件为Ihavepassedthetest。
目前,情绪原因事件识别方法大多是基于机器学习的方法,即使用统计的方法进行研究。主要还是基于全监督的学习方法,这种方法把情绪原因事件识别看成分类问题,选择合适的特征并使用合适的分类器来完成。但是,这种方法获取待测文本的情绪原因事件的准确率较低。
综上所述,现有技术中的情绪原因事件识别方法存在获取待测文本的情绪原因事件的准确率较低的问题。
发明内容
本发明的目的是提供一种基于CRF模型的情绪原因事件识别方法及***,以解决现有技术中存在的获取待测文本的情绪原因事件的准确率较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于CRF模型的情绪原因事件识别方法,包括:
获取第一文本,所述第一文本为未提供其情绪原因事件的文本;
将所述第一文本进行分词处理,得到第一词组;
确定所述第一词组中包括的第一情绪词;
获取所述第一词组中每个词语的词性特征和第一距离,所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离;
利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件。
优选的,所述利用所述第一词组中的每个词语及每个词语的词性特征和第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件,包括:
将所述第一词组中的每个词语、每个词语的词性特征及该词语的第一距离转换成与该词语对应的第一特征向量;
将所述第一词组中每个词语对应的第一特征向量作为所述CRF模型的输入,得到所述第一文本的情绪原因事件。
优选的,所述获取第一文本,包括:
在特定网页上,通过网页文字抓取器获取所述第一文本。
优选的,所述获取第一文本,包括:
获取第一文本,所述第一文本为英文文本或者中文文本。
优选的,预先建立所述CRF模型的过程包括:
获取预设量的第二文本,所述第二文本为已提供其情绪原因事件的文本;
将所述第二文本进行分词处理,得到分别与每个所述第二文本对应的第二词组;
确定所述第二词组中每个词语的词性特征及第二距离;其中,所述第二距离为每个所述第二词组中每个词语与该第二词组中包括的第二情绪词之间的距离;
利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型。
优选的,所述利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型,包括:
将每个所述第二词组中每个词语及该词语的词性特征和第二距离转换成与该词语对应的第二特征向量;
利用每个所述第二词组及该第二词组中每个词语对应的第二特征向量训练CRF模型。
一种基于CRF模型的情绪原因事件识别***,包括:
第一获取模块,用于获取第一文本,所述第一文本为未提供其情绪原因事件的文本;
分词模块,用于将所述第一文本进行分词处理,得到第一词组;
第一确定模块,用于确定所述第一词组中包括的第一情绪词;
第二获取模块,用于获取所述第一词组中每个词语的词性特征和第一距离,所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离;
第二确定模块,用于利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件。
本发明提供的一种基于CRF模型的情绪原因事件识别方法及***,包括:获取第一文本,所述第一文本为未提供其情绪原因事件的文本;将所述第一文本进行分词处理,得到第一词组;确定所述第一词组中包括的第一情绪词;获取所述第一词组中每个词语的词性特征和第一距离,所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离;利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件。与现有技术相比,本申请首先将第一文本进行处理,以得到第一文本的第一词组中每个词语的词性特征和第一距离,并据其通过CRF模型确定第一文本的情绪原因事件。实验证明,本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法及***获取第一文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法的流程图;
图2为本发明实施例提供的基于CRF模型的情绪原因事件识别方法中预先建立CRF模型的过程的流程图;
图3为本发明实施例提供的一种基于CRF模型的情绪原因事件识别的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法的流程图,可以包括以下步骤:
S11:获取第一文本,第一文本为未提供其情绪原因事件的文本。
S12:将第一文本进行分词处理,得到第一词组。
其中,分词处理即为将一段文本分割成词语的组合,如将语句“我很高兴”,分割成“我”“很”“高兴”。
S13:确定第一词组中包括的第一情绪词。
其中,情绪词即为表明情绪的词语。
S14:获取第一词组中每个词语的词性特征和第一距离,第一距离为第一词组中每个词语与第一情绪词之间的距离。
第一距离具体可以是,第一词组中位于第一情绪词左边的词语的第一距离为负数,位于第一情绪词右边的词语的第一距离为正数,而第一距离的绝对值则可以是一个词语在第一词组中与第一情绪词之间的字数差。
S15:利用第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定第一文本的情绪原因事件。
其中,步骤S15具体可以是,第一词组中的每个词语、每个词语的词性特征及该词语第一距离处理成CRF++所需的格式,然后通过CRF模型确定第一文本的情绪原因事件。
另外,本申请首先将第一文本进行处理,以得到第一文本的第一词组中每个词语的词性特征和第一距离,并据其通过CRF模型确定第一文本的情绪原因事件。实验证明,本发明实施例提供的一种基于CRF模型的情绪原因事件识别方法获取第一文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。
针对序列标注模型的求解,表现较好的是条件随机场方法,即与CRF(conditionalrandomfieldalgorithm,条件随机场算法)模型对应的方法。CRF模型,即条件随机场模型是Lafferty等在最大熵模型和隐马尔可夫模型的基础上提出的一种无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。CRF模型对应的方法是对序列的整体优化。具体求解公式如下:
p λ ( Y | W ) = 1 Z ( W ) exp ( Σ t ∈ T Σ k λ k f k ( y t - 1 , W , t ) )
其中,Y={yt}表示对应的输出标记序列;yt∈{B,I,E,O}分别代表对应的词语是否是情绪原因对应的第一个词、情绪原因的中间词、情绪原因的最后一个词、非情绪原因中的词;W表示待测词序列,Z(W)是归一化因子,fk为特征函数,t为相应特征的下标。
需要说明的是,可以借助Stanford词性标注工具来获取词语的词性特征,Stanford词性标注工具是目前比较先进且应用比较广泛的标注工具。
举例说明一个英文文本及该英文文本对应的英文词组中的各词语,及各词语的词性特征和第一距离:
英文文本:Thoughhisheartwasfullofanger.
第一词组:Though/his/heart/was/full/of/anger/.
第一情绪词:anger
每个词语对应的词性特征:Though/RBhis/PRP$heart/NNwas/VBDfull/JJof/INanger/NN./.
每个词语的第一距离:Though/-6his/-5heart/-4was/-3full/-2of/-1anger/0./1
需要说明的是,上述实施例提供的一种基于CRF模型的情绪原因事件识别方法中,利用第一词组中的每个词语及每个词语的词性特征和第一距离,通过预先建立的CRF模型,确定第一文本的情绪原因事件,可以包括:
将第一词组中的每个词语、每个词语的词性特征及该词语的第一距离转换成与该词语对应的第一特征向量;
将第一词组中每个词语对应的第一特征向量作为CRF模型的输入,得到第一文本的情绪原因事件。
将第一词组的每个词语、每个词语的词性特征及该词语的第一距离转换成第一特征向量,可以是词语本身、该词语的词性特征及该词语的第一距离各作为一列组成一个一维特征向量。
另外,获取第一文本,可以包括:
在特定网页上,通过网页文字抓取器获取第一文本。
网页文字抓取器是个小巧的网页文字抓取工具,可以轻松抓取和复制的网页上的文字。方便快速有效的获取第一文本。
特定网页可以根据实际需要进行确定。
其中,第一文本和下文中的第二文本可以为中文文本或英文文本,可以根据实际情况进行确定。即,上述实施例提供的一种基于CRF模型的情绪原因事件识别方法可以适用于不同语言种类的文本,具有通用性。
需要说明的是,上述实施例提供的一种基于CRF模型的情绪原因事件识别方法中,预先建立CRF模型的过程,可以包括以下步骤:
S21:获取预设量的第二文本,第二文本为已提供其情绪原因事件的文本。
预设量可以根据实际需要进行确定。
S22:将第二文本进行分词处理,得到分别与每个第二文本对应的第二词组。
对于进行分词处理的具体说明请参考上文中的相关内容,在此不再赘述。
S23:确定第二词组中每个词语的词性特征及第二距离;其中,第二距离为每个第二词组中每个词语与该第二词组中包括的第二情绪词之间的距离。
其中,第二词组中每个词语的词性特征也可以借助Stanford词性标注工具来获取。第二距离的具体说明请参考对于第一距离的相关内容的具体说明,在此不再赘述。
S24:利用第二词组中的每个词语及该词语的词性特征和第二距离训练CRF模型。
具体的,利用第二词组中的每个词语及该词语的词性特征和第二距离训练CRF模型,包括:
将每个第二词组中每个词语及该词语的词性特征和第二距离转换成与该词语对应的第二特征向量;
利用每个第二词组及该第二词组中每个词语对应的第二特征向量训练CRF模型。
将第二词组的每个词语、每个词语的词性特征及该词语的第二距离转换成第二特征向量,可以是词语本身、该词语的词性特征及该词语的第二距离各作为一列组成一个一维特征向量。
由此,通过上述步骤建立CRF模型,且,该CRF模型充分考虑到了第二文本的第二情绪词的上下文特征,利用该CRF模型获取第一文本的情绪原因事件准确率较高。
与上述方法实施例相对应,本发明实施例还提供了一种基于CRF模型的情绪原因事件识别***,如图3所示,可以包括:
第一获取模块31,用于获取第一文本,第一文本为未提供其情绪原因事件的文本;
分词模块32,用于将第一文本进行分词处理,得到第一词组;
第一确定模块33,用于确定第一词组中包括的第一情绪词;
第二获取模块34,用于获取第一词组中每个词语的词性特征和第一距离,第一距离为第一词组中每个词语与第一情绪词之间的距离;
第二确定模块35,用于利用第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定第一文本的情绪原因事件。
通过上述***,首先将第一文本进行处理,以得到第一文本的第一词组中每个词语的词性特征和第一距离,并据其通过CRF模型确定第一文本的情绪原因事件。实验证明,本发明实施例提供的一种基于CRF模型的情绪原因事件识别***获取第一文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于CRF模型的情绪原因事件识别方法,其特征在于,包括:
获取第一文本,所述第一文本为未提供其情绪原因事件的文本;
将所述第一文本进行分词处理,得到第一词组;
确定所述第一词组中包括的第一情绪词;
获取所述第一词组中每个词语的词性特征和第一距离,所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离;
利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一词组中的每个词语及每个词语的词性特征和第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件,包括:
将所述第一词组中的每个词语、每个词语的词性特征及该词语的第一距离转换成与该词语对应的第一特征向量;
将所述第一词组中每个词语对应的第一特征向量作为所述CRF模型的输入,得到所述第一文本的情绪原因事件。
3.根据权利要求2所述的方法,其特征在于,所述获取第一文本,包括:
在特定网页上,通过网页文字抓取器获取所述第一文本。
4.根据权利要求3所述的方法,其特征在于,所述获取第一文本,包括:
获取第一文本,所述第一文本为英文文本或者中文文本。
5.根据权利要求1至4任一项所述的方法,其特征在于,预先建立所述CRF模型的过程包括:
获取预设量的第二文本,所述第二文本为已提供其情绪原因事件的文本;
将所述第二文本进行分词处理,得到分别与每个所述第二文本对应的第二词组;
确定所述第二词组中每个词语的词性特征及第二距离;其中,所述第二距离为每个所述第二词组中每个词语与该第二词组中包括的第二情绪词之间的距离;
利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第二词组中的每个词语及该词语的词性特征和第二距离训练所述CRF模型,包括:
将每个所述第二词组中每个词语及该词语的词性特征和第二距离转换成与该词语对应的第二特征向量;
利用每个所述第二词组及该第二词组中每个词语对应的第二特征向量训练CRF模型。
7.一种基于CRF模型的情绪原因事件识别***,其特征在于,包括:
第一获取模块,用于获取第一文本,所述第一文本为未提供其情绪原因事件的文本;
分词模块,用于将所述第一文本进行分词处理,得到第一词组;
第一确定模块,用于确定所述第一词组中包括的第一情绪词;
第二获取模块,用于获取所述第一词组中每个词语的词性特征和第一距离,所述第一距离为所述第一词组中每个词语与所述第一情绪词之间的距离;
第二确定模块,用于利用所述第一词组中的每个词语、每个词语的词性特征及该词语第一距离,通过预先建立的CRF模型,确定所述第一文本的情绪原因事件。
CN201510531026.3A 2015-08-26 2015-08-26 一种基于crf模型的情绪原因事件识别方法及*** Pending CN105045925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510531026.3A CN105045925A (zh) 2015-08-26 2015-08-26 一种基于crf模型的情绪原因事件识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510531026.3A CN105045925A (zh) 2015-08-26 2015-08-26 一种基于crf模型的情绪原因事件识别方法及***

Publications (1)

Publication Number Publication Date
CN105045925A true CN105045925A (zh) 2015-11-11

Family

ID=54452472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510531026.3A Pending CN105045925A (zh) 2015-08-26 2015-08-26 一种基于crf模型的情绪原因事件识别方法及***

Country Status (1)

Country Link
CN (1) CN105045925A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359181A (zh) * 2018-09-27 2019-02-19 深圳前海微众银行股份有限公司 负面情绪原因识别方法、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
US20130318106A1 (en) * 2012-05-23 2013-11-28 Oracle International Corporation Data viewer for clinical data
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索***
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130318106A1 (en) * 2012-05-23 2013-11-28 Oracle International Corporation Data viewer for clinical data
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李逸薇等: "基于序列标注模型的情绪原因识别方法", 《中文信息学报》 *
龚静: "《中文文本聚类研究》", 1 March 2012 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359181A (zh) * 2018-09-27 2019-02-19 深圳前海微众银行股份有限公司 负面情绪原因识别方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105718586B (zh) 分词的方法及装置
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN108763510B (zh) 意图识别方法、装置、设备及存储介质
CN104699763B (zh) 多特征融合的文本相似性度量***
CN101887443B (zh) 一种文本的分类方法及装置
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN105389307A (zh) 语句意图类别识别方法及装置
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN104199965A (zh) 一种语义信息检索方法
CN103473317A (zh) 提取关键词的方法和设备
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及***
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN105551485A (zh) 语音文件检索方法及***
CN101719129A (zh) 一种采用人工智能技术自动提取关键字的方法
Devi et al. Entity extraction for malayalam social media text using structured skip-gram based embedding features from unlabeled data
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN111368544A (zh) 命名实体识别方法及装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151111

RJ01 Rejection of invention patent application after publication