CN112699240A - 中文情感特征词智能动态发掘和归类方法 - Google Patents

中文情感特征词智能动态发掘和归类方法 Download PDF

Info

Publication number
CN112699240A
CN112699240A CN202011641702.XA CN202011641702A CN112699240A CN 112699240 A CN112699240 A CN 112699240A CN 202011641702 A CN202011641702 A CN 202011641702A CN 112699240 A CN112699240 A CN 112699240A
Authority
CN
China
Prior art keywords
words
word
emotional
model
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011641702.XA
Other languages
English (en)
Inventor
刘文平
高宏松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingmen Huiyijia Information Technology Co ltd
Original Assignee
Jingmen Huiyijia Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingmen Huiyijia Information Technology Co ltd filed Critical Jingmen Huiyijia Information Technology Co ltd
Priority to CN202011641702.XA priority Critical patent/CN112699240A/zh
Publication of CN112699240A publication Critical patent/CN112699240A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的中文情感特征词智能动态发掘和归类方法,通过CRF改进模型能更好的学习词本身的语言环境和上下文、词性等特征,不经过新词发现的过程,对语句中的新情感特征词直接标识学习,过程更加简单高效,将Z‑label LDA优化模型算法的思想拓展,对情感特征词情绪类型进行归类,方法对额外资源的依赖较少,无需训练语料资源,智能标识出其中出现的新词及其情感极性,算法效率更高,甚至可用于在线判断,对语句中出现的新情感特征词的挖掘,不仅对于情感特征词典的智能扩充有很好的帮助,并且在短语、语句及篇章级的情感倾向性分析上也能起到很好的参考作用,方法可行性好,精确度和效率高。

Description

中文情感特征词智能动态发掘和归类方法
技术领域
本发明涉及一种中文情感词发掘归类方法,特别涉及一种中文情感特征词智能动态发掘和归类方法,属于情感词智能发掘归类技术领域。
背景技术
随着社会信息化技术的飞速发展,包括社交网络、电子商务和移动通信在内的互联网科技日新月异,大数据时代正式来临。大数据的所有特征中,高速、海量、多样都只是表象,关键在于数据所包含的价值,并且只有通过对数据的分析,才能获取真正有用、有价值、智能的信息。大数据的核心价值就在于通过对海量数据的处理和信息挖掘,快速获取所需信息。
在数据分析和挖掘中,情感倾向分析成为了非常重要的一部分,它能够检测文本中的观点、情感倾向和喜好等主观情感。最早的情感倾向分析是对电影评论数据的处理,并通过监督学习来判断其它评论语料的正负极性,后来延伸到对文本正负极性的判断。现在情感倾向分析也获得了越来越多的关注,以电子商务为代表,通过分析客户对产品的评论数据,研发推荐***,来为潜在客户提供定向产品推荐,通过整合商品评论数据,为其它意向购买客户提供决策参考。
对互联网所产生信息的有效处理与数据挖掘,逐渐显露出极高的商业与社会价值,对微博及网络评论等网络文本的情感倾向分析,也受到了商界、学术界甚至政府部门的广泛关注,情感倾向分析是通过对文本的挖掘与分析,获取有价值信息,企业可以通过情感倾向分析挖掘客户喜好、兴趣倾向以及消费习惯,来有针对性的进行产品推荐和企划决策;政府部门可以通过情感倾向分析技术对了解网络舆情信息,有助于社会治理。
当前各类信息技术都获得了极大发展,不同领域间的交叉也越来越明显,给情感倾向分析的发展提供了很好的机遇,以微博微信为代表的社交网络,和以淘宝天猫等为代表的电商等每天都产生大量包含情感倾向的信息,情感倾向分析领域的发展也同样会推动其它交叉领域的发展。在情感倾向分析取得一些成绩的同时,也存在诸多问题,如对情感特征词典的过度依赖,对情感转折和评论对象的获取等方面的问题都有待解决,加之客户对更精确、更快速、更全面和更智能化的情感倾向分析的需求提高,情感倾向分析特别是中文情感倾向分析还有许多亟需改进的地方,其中对于情感特征词的智能挖掘和更细粒度的分类是其中的重要部分,也是本发明主要解决的问题。
现有技术的情感特征词挖掘虽取得了一定的成果,但也存在大量的问题,本发明集中解决其中的问题,主要包括以下方面:
第一,现有技术对情感特征词典的过度依赖,缺少行业公认的评测标准,对新出现情感特征词不能发现,涉及大量的语料库和人工劳动,对情感转折和评论对象的获取等方面的问题都有待解决,加之客户对更精确、更快速、更全面和更智能化的情感倾向分析的需求提高,情感倾向分析特别是中文情感倾向分析还有许多亟需改进的地方,其中对于情感特征词的智能挖掘和更细粒度的分类是其中的重要部分,也是本发明主要解决的问题;
第二,中文情感倾向分析起步较晚,中文情感倾向分析有中文语言的特殊性,如中文要面对的分词问题、歧义、双关等特有的语言现象,现有技术的文本情感分类主要分为基于情感特征词典的方法和基于机器学习的方法,而日新月异的网络语言也给研究带来了挑战,这些词的出现都会影响中文情感倾向分析的整体效果;
第三,现有技术将新情感特征词的挖掘作为新词发现的一个部分,而新词发现一直是中文信息处理中的难点问题,涉及大规模的语料统计分析,语言结构、语义、分词、过滤等,没有好的算法来解决这一问题,现有技术基于此之上再去挖掘情感特征词,效果也不大理想,词的分类过程中很多复杂的处理过程,现有技术不能很好的学习词本身的语言环境和上下文、词性等特征,需要经过新词发现的过程,对语句中的新情感特征词无法直接标识学习,过程复杂效率低;
第四,现有技术情感特征词挖掘及极性标识过程复杂,在情感特征词的挖掘还是极性标识阶段,都大量涉及人工工作,人工选择的主观性和随意性大,对大规模的微博数据的新情感特征词挖掘需要在大规模的数据计算,需要通过大量的训练数据训练处模型,复杂不易操作,情感判断不精准;现有技术对额外资源的依赖多,需要训练语料资源,涉及到大规模语料的计算,新情感特征词发现的效率低,在实际应用中可行性不强;
第五,现有技术在分词方面,基于词典的分词***对新词即未登录词和歧义词的挖掘效果很差,不能考虑到字出现的频率信息,对字所处的上下文信息不能很好的学习;现有技术在词性标识方面,HMM在词序列标识时有个很大的缺点是其算法本身的独立性假设限制了对词上下文信息的提取,而上下文信息对词性标识至关重要,MEMM虽能考虑到上下文信息,但由于其归一化的原理,只能找到局部最优解,且可能会导致标识偏移问题。
发明内容
针对现有技术的不足,本发明提供的中文情感特征词智能动态发掘和归类方法,简化整个情感特征词挖掘及极性标识过程,本发明不管是在情感特征词的挖掘还是极性标识阶段,包括训练语料和有监督所需的种子词,都由算法统计标识完成,都尽量少的涉及人工,而是利用已有的词典及评测数据资源进行智能标识,避免了人工选择的主观性和随意性,对大规模的微博数据的新情感特征词挖掘也不需要在大规模的数据上计算,只要通过少量的训练数据训练处模型即可,与其它复杂算法相比,本发明更加简便易操作,情感判断更精准。
为达到以上技术效果,本发明所采用的技术方案如下:
中文情感特征词智能动态发掘和归类方法,主要分为两部分,基于CRF改进算法的情感特征词智能挖掘和基于Z-label LDA优化模型的情感特征词极性标识归类;基于CRF改进算法的情感特征词智能挖掘包括CRF算法的改进、选取情感特征、CRF改进算法的情感特征词挖掘,基于Z-label LDA优化模型的情感特征词极性标识归类包括Z-label LDA优化模型、情感特征词归类;
第一,采用CRF改进算法挖掘情感特征词,将情感特征词的挖掘转化为一序列标识方法,结合情感特征词的词性、上下文信息特征来训练模型,然后对未知的文本进行情感特征词挖掘;
第二,在情感特征词极性标识阶段,采用Z-label LDA优化模型算法进行情感特征词分类,通过将LDA算法中的主题与词的类别信息相对应,使用种子词定义主题信息来实现部分监督学习,然后通过主题-词分布来判断目标情感特征词的极性类别;
情感特征词归类采用Z-label LDA优化模型,预先计算训练数据的词表大小,然后按照预先定义规则,将文本对应位置上的词标识为设定的主题编号,同时计算文本对应词表的矩阵,获得主题-词模型以及文档-主题模型,再对主题-词模型进行统计分析,从预先定义好的主题中获取词的归类;
在对情感特征词进行极性标识的过程中,首先利用情感特征词所在语句的上下文信息来判断极性,或者情感特征词的共现的情况,情感特征词的极性标识看作是一个归类的过程,将情感特征词分为两类,正面和负面,主题模型的生成过程看作是文本中的每个词以一定的概率选择某个主题,在主题中以一定的概率选中某个词,对应这个过程,本发明提出采用有监督的Z-label LDA优化方法对情感特征词进行归类,在Z-label LDA优化模型中的主题对应归类词的类别;
通过预先定义部分主题-词,然后通过输入语料对模型的学习过程,将训练语料中的词以一定的概率分配到预定主题上,并扩展新的主题,对主题-词的定义即为规则文件。
中文情感特征词智能动态发掘和归类方法,进一步的,CRF算法的改进:CRF是基于统计的序列标识及序列分割无向图模型算法,通过概率模型对序列化的数据进行标识,概率模型生成式模型通过所有可能的观察序列,来构建观测序列y和标识序列c的联合分布Q(y,c),得到概率密度模型,最后对标识序列进行预测,另一种为判别式模型,计算在给定的观察序列的条件下,标识序列的可能标识概率,通过计算y和c的条件概率分布Q(c|y)生成判别函数预测模型对目标序列进行预测;
概率图模型是概率论和图论结合的模型,利用图表示随机变量之间的概率依赖关系,设F=(U,B)为一个图,若两个点之间存在边,则认为它们之间有依赖关系,否则相互独立;
CRF改进算法是基于无向图模型的马尔可夫随机场改进判别式模型,CRF改进算法为,令F=(U,B)为一个无向图,O={Ou|u∈U}为一个随机变量集合,F中的U即是取自O中的变量构成图的结点,在给定一个观察值集合Z的条件下,若O中的每个变量都满足马尔可夫公式:
Q(Ou|Z,Ov,v≠u)=Q(Ou|Z,Ov,v~u)
其中v~u指v和u为相邻结点,在此条件下,(Z,O)形成一个条件随机场,CRF改进算法添加观察集合,在给定标识序列的条件下,计算整个标识序列的概率,即计算的是条件概率Q(O|Z),增加观察集合的MRF成为一个判别式模型。
中文情感特征词智能动态发掘和归类方法,进一步的,CRF改进算法没有严格的独立性条件要求,可以包含任意上下文信息,并且CRF改进算法损失函数为凸函数,CRF改进算法利用最大似然估算给序列数据计算概率分布,是没有被归一化有限的状态模型;
CRF改进算法学习和测试流程:首先将数据集进行分词,添加词性标识及其它特征,然后采用CRF改进算法进行模型训练,对于测试集同样进行格式化处理,然后利用训练得到的模型进行测试,经过处理后得到情感特征词集合。
中文情感特征词智能动态发掘和归类方法,进一步的,在基于CRF改进算法的情感特征词挖掘过程中,使用的情感特征词特征包括:
1)字特征,字本身的特征是情感特征词特征中很重要的方面,有些字带情感倾向,本身就有情感倾向,另外在情感特征词的上下文中,也有一定特征;
2)词性特征,词性是情感特征词的明显特征,形容词、叹词、名词较多,而情感特征词所在的上下文中,词前出现名词、代词较多,词后出现助词、叹词、标点较多,将情感特征词上下文词性作为一个重要特征;
3)程度副词特征,情感特征词前使用程度副词来加强情感,程度副词也作为提取特征的一部分。
中文情感特征词智能动态发掘和归类方法,进一步的,CRF改进算法的情感特征词挖掘:使用CRF++工具包,训练集和测试集以及特征模板的格式依照工具包标准构造,根据特征模板及训练集生成预测模型,对测试集进行预测及评价,特征模板直接决定对情感词特征的获取方式;
特征具体表现为,字本身的特征,字之前是否出现程度词或其它情感特征词前缀特征,情感特征词在字开头和结尾部分的字特征,词性特征表现为词上下文是否有副词、形容词或代词词性,特征采集长度扩展到三位。
中文情感特征词智能动态发掘和归类方法,进一步的,在基于字的标识上,新情感特征词和旧情感特征词无法标识区分,训练集使用NLP&CC的情绪挖掘语料,将所有情感特征词挖掘,然后经过旧词典过滤,得到新情感特征词,在基于词与词性组合特征上,训练集使用中文微博情绪挖掘的4000语料数据,将测评语料2632条作为测试集,还增加词性、词汇特征对比,以及通过增减模板集来对比效果,另外对基于字特征和基于词与词性组合特征也进行对比;
训练集经过分词及词性、情感特征词标识之后进行特征抽取,经过CRF改进算法学习之后得到模型文件,对测试集同样进行分词及词性、情感特征词标识,利用得到的模型对测试集进行测试,得到情感特征词标识结果,通过处理还原即得到语句包含的情感特征词。
中文情感特征词智能动态发掘和归类方法,进一步的,Z-label LDA优化模型:LDA是基于离散数据集合的建模方法,基于假设:存在一个主题的集合R,使文档集A中的文本都包含一个或者多个主题,每个主题是由一系列词构成的概率分布,并能通过概率学习来发现文档中的潜在主题,从词的角度,一个主题R理解为:
1)一至多篇文档内容的共同相关主旨;
2)文档所表达的部分或全部的语义信息;
3)相关词共现的一种模式;
4)共现词的聚类;
5)词的一种归类;
从概率的角度看,一个主题理解为:
1)词的概率分布;
2)根据词同现的概率排列的词集;
LDA是一种在离散数据集上建模的三层贝叶斯结构概率主题模型,它将主题和词都作为Dirichlet分布的参数,防止主题参数随着文档集的变化而不可控,且在文档的生成过程中利用全概率的生成模型。
中文情感特征词智能动态发掘和归类方法,进一步的,LDA模型假设有W个潜在主题,每个主题是词的多项分布,一篇文档看成是文档的词频序列在这些主题上的抽样矩阵,每个词都取决于一个特定的主题,即每个文档都以一定的概率选择一个主题,然后以一定的概率选择这个主题中的一个词的迭代过程获取,一个文档集A表示为{k1,k2,…,kN},一篇文档k={j1,j2,…,jM},具体的文档集中一篇文档的生成过程表示为:
1.选择一个g~Dir(b)
2.对于M中的每一个词jm
1)选择一个主题xm~Mult(g);
2)从主题xm的多项概率分布中选择一个词jm~q(jm|xm,a);
其中g为先验参数,控制一个文档中不同主题的混合比例,b为Dirichlet分布参数,分布的形式为:
Figure BDA0002881103440000061
保证每个文档都包含所有的话题,b控制g的均值和稀疏密度,为对b进行评价,从文档集中计算g,a为主题-词的多项分布参数,保证每个话题包含所有词汇,表现为一个W×U的矩阵,其中W为可能的主题数,U为可能的词数,每行为一个U维的和为1的向量,生成过程的图模型表示;
得到LDA的联合概率为:
Figure BDA0002881103440000062
LDA中关键在计算隐含部分的后验概率:
Figure BDA0002881103440000063
参数估算使用吉布斯抽样来直接计算参数的值,用多个变量的联合分布样本来逼近联合分布,设变量集合为Z={Z1,Z2,...,Zm},采样过程为:
1)对集合Z中的每个变量初始化赋值;
2)对每个变量的抽样由整体变量的条件概率分布确定,计算中使用前一次抽样获取的变量值和其它未被抽样的变量值共同确定,
Figure BDA0002881103440000064
本次抽样的值也会用到下一次抽样的条件概率的计算当中,对其它的变量值进行估算;
Figure BDA0002881103440000065
Figure BDA0002881103440000066
分别表示文档词和主题向量,对某一个词ji,其属于某一个主题ri的概率取决于其它词对主题ri的从属概率,这一过程通过如下公式来实现:
Figure BDA0002881103440000071
其中
Figure BDA0002881103440000072
表示除第i个词之外的第w个词从属与主题r的频率,分母表示对应主题包含的词总数;
Figure BDA0002881103440000073
表示除第i篇文档外,其它文档从属于主题r的词总数,分母为第n个文档中除了从属于主题r的词之外的词总个数,迭代完成之后,获得g和e的公式如下:
Figure BDA0002881103440000074
Figure BDA0002881103440000075
Z-label LDA优化模型是LDA在有监督需求下的改进,通过强化主题和所需类别之间一对一的关系来满足归类的要求,将无监督的算法和有监督的知识融合,在标识特征下半监督学习,特征为词,引入潜在主题的可能的x标识集合S(i),给吉布斯采样设置一个强约束式f(u∈S(i)),若u∈S(i)则取1,否则取0:
q(xi=u|x-i,k,b,a)∝q(xi=u|x-i,k)f(u∈S(i))
如果约束xi到两个特定的值{1,2},只需要设置S(i)={1,2},上式使潜在主题的推理在目标已有知识下有一个灵活的方法,并且为语料中的每个词独立的设置预定义的主题S(i),为限制约束强度的可变性,添加额外的变量h,且0≤h≤1,当h取1时为强约束,取0时为无约束的采样:
q(xi=u|x-i,k,b,a)∝q(xi=u|x-i,k)(hf(u∈S(i))+1-h)
完成Z-label LDA模型优化,构建情感特征词发掘和归类模型。
中文情感特征词智能动态发掘和归类方法,进一步的,情感特征词归类中,Z-label LDA优化模型的情感特征词极性标识步骤为:
算法输入:文档集合A,情感特征词集合K,情感种子词集合Q,M
算法输出:情感特征词集合K中词及其对应的极性
算法:
1)将情感特征词集合K中的词添加到客户词典,对文档集合A进行分词,去重,获取词表KR;
2)整理文档集合A’,使其格式为由词表中的词组成;
3)根据A’及KR生成Z-label LDA优化模型输入文档数字矩阵ax;
4)根据A’、KR及Q、M生成有监督词定义矩阵ac;
5)使用ax和ac进行训练,获取主题-词矩阵以及主题-文档矩阵;
6)检索K中的词k在主题-词矩阵中对应不同主题的概率值,对比之后给出k的极性。
中文情感特征词智能动态发掘和归类方法,进一步的,用两种方式对词的类别进行判定,一种是基于主题-词分布,在进行主题模型的训练过程中,主题的数目远小于词的数目,词汇会出现共现的聚类效果,在结合有监督的方法之后,实现对情感特征词类别的一个弱归类,经过分布概率判断之后,获取未知词的类别,算法中加入的规则文件为预先定义的根据情感特征词类别定义的主题与其种子词,经过对输入数据的训练,会使目标情感特征词向预定义的类别聚类,实现根据聚类强度来判断情感倾向性;
另外一种通过情感特征词极性判断语句的极性,推理同样用语句的极性反推词的极性,用训练出的模型对输入语句的所属的主题及极性进行判断,再根据语句极性的情况反推语句中情感特征词的极性。
与现有技术相比,本发明的贡献和创新点在于:
第一,本发明提供的中文情感特征词智能动态发掘和归类方法,能够对输入的语句或篇章,智能标识出其中出现的新词及其情感极性,情感特征词挖掘过程中不需借助词典等其它资源,算法效率更高,甚至可用于在线判断,对语句中出现的新情感特征词的挖掘,不仅对于情感特征词典的智能扩充有很好的帮助,并且在短语、语句及篇章级的情感倾向性分析上也能起到很好的参考作用,方法可行性好,精确度和效率高;
第二,本发明提供的中文情感特征词智能动态发掘和归类方法,将新情感特征词的挖掘问题看成一个序列标识问题,通过CRF改进算法对其直接进行挖掘,对于新情感特征词的挖掘,许多研究将其作为新词发现的一个部分,而新词发现一直是中文信息处理中的难点问题,涉及大规模的语料统计分析,语言结构、语义、分词、过滤等,现有技术也没有好的算法来解决这一问题。而基于此之上再去挖掘情感特征词,效果也不大理想,若将新情感特征词挖掘看成是一个序列标识问题,而不是词的分类问题,而直接对情感特征词进行标识,作为整体处理,避免了很多复杂的处理过程。本发明通过CRF改进模型能更好的学习词本身的语言环境和上下文、词性等特征,不经过新词发现的过程,对语句中的新情感特征词直接标识学习,过程更加简单高效;
第三,本发明提供的中文情感特征词智能动态发掘和归类方法,采用Z-label LDA优化模型用于词级别的分类,LDA一般用作文本聚类,且一般为无监督的算法,为大规模文档实现主题分类,在文本分类领域取得了很好的效果,本发明利用其主题和词服从多项分布的特点,使用部分监督方法,将LDA当作一个弱分类器来使用,对情感特征词进行主题分类,最后学习得到主题-词分布,结合主题推断情感特征词类别,也是跨领域技术的一次很好的尝试,实验证明取得了很好的效果;
第四,本发明提供的中文情感特征词智能动态发掘和归类方法,简化整个情感特征词挖掘及极性标识过程,本发明不管是在情感特征词的挖掘还是极性标识阶段,包括训练语料和有监督所需的种子词,都由算法统计标识完成,都尽量少的涉及人工,而是利用已有的词典及评测数据资源进行智能标识,避免了人工选择的主观性和随意性,对大规模的微博数据的新情感特征词挖掘也不需要在大规模的数据上计算,只要通过少量的训练数据训练处模型即可,与其它复杂算法相比,本发明更加简便易操作,情感判断更精准;
第五,本发明将Z-label LDA优化模型算法的思想拓展,对情感特征词情绪类型进行归类,方法对额外资源的依赖较少,仅用了部分已知情感特征词,无需训练语料资源,就能很好的实现对情感特征词极性的归类;在对新情感特征词的挖掘及极性标识问题上,本发明从不同的角度去解决这个问题,将大规模的统计挖掘问题转化为标识问题,并在极性标识上,使用Z-label LDA优化模型的方法对对情感特征词归类,不涉及到大规模语料的计算,能够很大程度上提高新情感特征词发现的效率,在实际应用中可行性更强,是一种简洁高效、实用性强的中文情感特征词智能动态发掘和归类方法。
附图说明
图1是CRF改进算法的学习和测试流程示意图。
图2是本发明的主题模型示例图。
图3是本发明的LDA模型图与变量分布的模型图。
图4是基于CRF改进算法与Z-label LDA优化模型的算法流程图。
具体实施方式
下面结合附图,对本发明提供的中文情感特征词智能动态发掘和归类方法的技术方案进行进一步的描述,使本领域的技术人员能更好的理解本发明并能够予以实施。
网络技术的迅猛发展产生了大量的数据信息,海量互联网数据中包含着极高的潜在利用价值,因此对数据的分析处理十分重要,特别是对互联网信息的情感分析尤为重要,对企业而言可以根据客户的喜好来为企业的发展提供决策支持,为客户提供更加有效的产品推荐,对政府而言可以根据网民的事件反馈倾向性来更有效的了解舆情和民生。现有技术的情感分析在很大程度上依赖现成的情感特征词典来对语句及篇章的情感倾向进行判断,但由于互联网语言环境变化迅速,每天都有大量的网络新词产生,静态的情感特征词典却不能很好的覆盖这些新词,因此会严重影响到整体的情感分析效果。本发明针对现有技术的不足,提出一种不依赖已有的情感特征词典对中文文本中出现的情感特征词进行发掘归类的方法,主要分为两部分,基于CRF改进算法的情感特征词智能挖掘和基于Z-labelLDA优化模型的情感特征词极性标识归类。
第一,采用CRF改进算法挖掘情感特征词,将情感特征词的挖掘转化为一序列标识方法,结合情感特征词的词性、上下文信息特征来训练模型,然后对未知的文本进行情感特征词挖掘;
第二,在情感特征词极性标识阶段,采用Z-label LDA优化模型算法进行情感特征词分类,通过将LDA算法中的主题与词的类别信息相对应,使用种子词定义主题信息来实现部分监督学习,然后通过主题-词分布来判断目标情感特征词的极性或类别。
通过实验及与其它方法的对比,本发明的方法在情感特征词挖掘效果上明显优于现有技术其它方法的结果,且不需要进行大量的词频统计计算,更加简洁快速。在情感特征词极性标识效果上,本发明的方法也有大幅的提高。通过Z-label LDA优化模型方法在情感特征词的情绪分类上进一步实验,证明本发明实用高效。
本发明情感特征词挖掘级别为词语级,具体要求为:对于给定的大规模的微博数据集,需要智能挖掘出其中的情感新词,并对其进行极性标识(褒义、贬义及中性),评测中说明对新词的定义为不在词典中的词,任务输入为一条一条的微博语句,输出为微博语句中出现的新词及其极性,从输入的文本当中提取出情感新词集合,针对此任务的一个完整的解决方案包含以下几部分:输入的文本,即数据集,情感新词挖掘算法部分,可能分为两部分,一个为新词挖掘,另一个为情感特征词挖掘,也可能使用算法直接完成情感新词挖掘,第二部分为情感特征词极性标识,或极性分类,这一部分和上一部分都可能用到外部资源,包括已有的情感特征词典,过滤使用的停用词、语义规则及分词***等外部资源,整理后用到词的挖掘与分类的算法中。
本发明目的为能够对输入的语句或篇章,智能标识出其中出现的新词及其情感极性。本发明实验中将任务分为两部分:第一部分为情感特征词的挖掘,第二部分为情感特征词的极性标识,情感特征词挖掘过程中不需借助词典等其它资源,算法效率更高,甚至可用于在线判断,对语句中出现的新情感特征词的挖掘,不仅对于情感特征词典的智能扩充有很好的帮助,并且在短语、语句及篇章级的情感倾向性分析上也能起到很好的参考作用。
一、基于CRF改进算法的情感特征词智能挖掘
(一)CRF算法的改进
CRF是基于统计的序列标识及序列分割无向图模型算法,通过概率模型对序列化的数据进行标识,概率模型生成式模型通过所有可能的观察序列,来构建观测序列y和标识序列c的联合分布Q(y,c),得到概率密度模型,最后对标识序列进行预测,另一种为判别式模型,计算在给定的观察序列的条件下,标识序列的可能标识概率,通过计算y和c的条件概率分布Q(c|y)生成判别函数预测模型对目标序列进行预测。
概率图模型是概率论和图论结合的模型,利用图表示随机变量之间的概率依赖关系,设F=(U,B)为一个图,若两个点之间存在边,则认为它们之间有依赖关系,否则相互独立。
CRF改进算法是基于无向图模型的马尔可夫随机场改进判别式模型,CRF改进算法为,令F=(U,B)为一个无向图,O={Ou|u∈U}为一个随机变量集合,F中的U即是取自O中的变量构成图的结点,在给定一个观察值集合Z的条件下,若O中的每个变量都满足马尔可夫公式:
Q(Ou|Z,Ov,v≠u)=Q(Ou|Z,Ov,v~u)
其中v~u指v和u为相邻结点,在此条件下,(Z,O)形成一个条件随机场,CRF改进算法添加观察集合,在给定标识序列的条件下,计算整个标识序列的概率,即计算的是条件概率Q(O|Z),增加观察集合的MRF成为一个判别式模型。
CRF改进算法没有严格的独立性条件要求,可以包含任意上下文信息,特征设计更加灵活,并且CRF改进算法损失函数为凸函数,其计算的条件概率能够达到全局最优,此外CRF改进算法利用最大似然估算给序列数据计算概率分布,是没有被归一化有限的状态模型。本发明CRF改进算法在很多方面表现出优势:
第一,分词方面,现有技术基于词典的分词***对新词即未登录词和歧义词的挖掘效果很差,而CRF改进算法直接对字进行标识,再由字组成词,不仅能考虑到字出现的频率信息,而且对字所处的上下文信息都能很好的学习,在对未登录词的挖掘上有很大优势;
第二,词性标识方面,HMM在词序列标识时有个很大的缺点是其算法本身的独立性假设限制了对词上下文信息的提取,而上下文信息对词性标识至关重要,MEMM虽能考虑到上下文信息,但由于其归一化的原理,只能找到局部最优解,且可能会导致标识偏移问题,CRF改进算法能很好的解决这些问题;
本发明采用CRF改进算法挖掘情感特征词,其对未登录词的发现能力能较好的挖掘未登录词,而基于上下文的标识能考虑情感词特征并进行标识,在包括新情感特征词在内的情感特征词挖掘上优势明显。
CRF改进算法学习和测试流程如图1所示:首先将数据集进行分词,添加词性标识及其它特征,然后采用CRF改进算法进行模型训练,对于测试集同样进行格式化处理,然后利用训练得到的模型进行测试,经过处理后得到情感特征词集合。
(二)选取情感特征
现有技术情感倾向分析主要集中在对语句的情感倾向判断,以及篇章的情感分析方面,而对于情感特征词库构建相关的研究较少,词级别的情感分析相对于语句及篇章级别,粒度更细,可使用的上下文规律也更少。在基于CRF改进算法的情感特征词挖掘过程中,使用的情感特征词特征包括:
(1)字特征,字本身的特征是情感特征词特征中很重要的方面,有些字是带情感倾向的,本身就有情感倾向,另外在情感特征词的上下文中,也有一定特征,
(2)词性特征,词性是情感特征词的明显特征,形容词、叹词、名词较多,而情感特征词所在的上下文中,词前出现名词、代词较多,词后出现助词、叹词、标点较多,因此将情感特征词上下文词性作为一个重要特征。
(3)程度副词特征,情感特征词前经常使用程度副词来加强情感,因此程度副词也作为提取特征的一部分。
在CRF算法进行情感特征词挖掘过程中,采用基于字的标识和基于字与词组合标识的方法,并对这两个方法的效果进行对比,
因此两组对照算法针对新情感特征词挖掘,均为基于字的标识,并且标识训练语料均使用智能化标识方法,不需要人工参与,其中一种基于字的标识为直接使用类似分词的方法,在字上进行标识,完全基于字的特征挖掘情感特征词,对比实验中另一种结合字与词标识的方法,并且添加了词性特征。本发明采用的标识是基于字的标识,并添加词性特征,基于词的标识中,语料先进行分词处理,理论设定为分词***对于未登录词,会直接将其分割开,分词之后,直接标识分割开的新情感特征词,然后训练得到模型。
(三)CRF改进算法的情感特征词挖掘
本发明使用CRF++工具包,为C++实现的CRF算法,训练集和测试集以及特征模板的格式依照工具包标准构造,根据特征模板及训练集生成预测模型,对测试集进行预测及评价,特征模板直接决定对情感词特征的获取方式。
特征具体表现为,字本身的特征,字之前是否出现程度词或其它情感特征词前缀特征,情感特征词在字开头和结尾部分的字特征,词性特征表现为词上下文是否有副词、形容词或代词词性,特征采集长度扩展到三位。
实验中进行了多项对比实验,在基于字的标识上,新情感特征词和旧情感特征词无法标识区分,训练集使用NLP&CC的情绪挖掘语料,将所有情感特征词挖掘,然后经过旧词典过滤,得到新情感特征词,在基于词与词性组合特征上,训练集使用中文微博情绪挖掘的4000语料数据,将测评语料2632条作为测试集。还增加词性、词汇特征对比,以及通过增减模板集来对比实验效果,另外对基于字特征和基于词与词性组合特征也进行实验对比。
训练集经过分词及词性、情感特征词标识之后进行特征抽取,经过CRF改进算法学习之后得到模型文件,对测试集同样进行分词及词性、情感特征词标识,利用得到的模型对测试集进行测试,得到情感特征词标识结果,通过处理还原即得到语句包含的情感特征词。
本发明提供了利用CRF改进算法进行情感特征词挖掘的算法依据及处理流程,首先介绍了CRF改进算法,然后介绍了在使用CRF改进算法过程中使用选取的特征,以及对情感特征词进行标识挖掘的具体方法。
二、基于Z-label LDA优化模型的情感特征词极性标识归类
获取情感特征词后,对包含情感特征词的语料做前置处理,然后利用Z-label LDA优化模型进行训练,对情感特征词进行归类。本发明基于Z-label LDA优化模型的情感特征词极性标识算法,是一个归类的过程,并将情感特征词在情绪归类上进行扩展。以下对算法进行详细说明。
(一)Z-label LDA优化模型
LDA是基于离散数据集合的建模方法,基于假设:存在一个主题的集合R,使文档集A中的文本都包含一个或者多个主题,每个主题是由一系列词构成的概率分布,并能通过概率学习来发现文档中的潜在主题,如图2所示。从词的角度,一个主题R理解为:
1)一至多篇文档内容的共同相关主旨;
2)文档所表达的部分或全部的语义信息;
3)相关词共现的一种模式;
4)共现词的聚类;
5)词的一种归类。
从概率的角度看,一个主题理解为:
1)词的概率分布;
2)根据词同现的概率排列的词集。
LDA是一种在离散数据集上建模的三层贝叶斯结构概率主题模型,它将主题和词都作为Dirichlet分布的参数,防止主题参数随着文档集的变化而不可控,且在文档的生成过程中利用全概率的生成模型,层次更清楚。
LDA模型假设有W个潜在主题,每个主题是词的多项分布,一篇文档看成是文档的词频序列在这些主题上的抽样矩阵,每个词都取决于一个特定的主题,即每个文档都以一定的概率选择一个主题,然后以一定的概率选择这个主题中的一个词的迭代过程获取。一个文档集A表示为{k1,k2,…,kN},一篇文档k={j1,j2,…,jM},具体的文档集中一篇文档的生成过程表示为:
1.选择一个g~Dir(b)
2.对于M中的每一个词jm
1)选择一个主题xm~Mult(g);
2)从主题xm的多项概率分布中选择一个词jm~q(jm|xm,a);
其中g为先验参数,控制一个文档中不同主题的混合比例,b为Dirichlet分布参数,分布的形式为:
Figure BDA0002881103440000141
保证每个文档都包含所有的话题,b控制g的均值和稀疏密度,为对b进行评价,从文档集中计算g,a为主题-词的多项分布参数,保证每个话题包含所有词汇,表现为一个W×U的矩阵,其中W为可能的主题数,U为可能的词数,每行为一个U维的和为1的向量,生成过程的图模型表示如图3所示:
由图中得到LDA的联合概率为:
Figure BDA0002881103440000142
LDA中关键在计算隐含部分的后验概率:
Figure BDA0002881103440000143
参数估算使用吉布斯抽样来直接计算参数的值,用多个变量的联合分布样本来逼近联合分布,设变量集合为Z={Z1,Z2,...,Zm},采样过程为:
(1)对集合Z中的每个变量初始化赋值;
(2)对每个变量的抽样由整体变量的条件概率分布确定,计算中使用前一次抽样获取的变量值和其它未被抽样的变量值共同确定,
Figure BDA0002881103440000144
本次抽样的值也会用到下一次抽样的条件概率的计算当中,对其它的变量值进行估算。
Figure BDA0002881103440000145
Figure BDA0002881103440000146
分别表示文档词和主题向量,对某一个词ji,其属于某一个主题ri的概率取决于其它词对主题ri的从属概率,这一过程通过如下公式来实现:
Figure BDA0002881103440000151
其中
Figure BDA0002881103440000152
表示除第i个词之外的第w个词从属与主题r的频率,分母表示对应主题包含的词总数;
Figure BDA0002881103440000153
表示除第i篇文档外,其它文档从属于主题r的词总数,分母为第n个文档中除了从属于主题r的词之外的词总个数,迭代完成之后,获得g和e的公式如下:
Figure BDA0002881103440000154
Figure BDA0002881103440000155
Z-label LDA优化模型是LDA在有监督需求下的改进,通过强化主题和所需类别之间一对一的关系来满足归类的要求,将无监督的算法和有监督的知识融合,在标识特征下半监督学习,特征为词,引入潜在主题的可能的x标识集合S(i),给吉布斯采样设置一个强约束式f(u∈S(i)),若u∈S(i)则取1,否则取0:
q(xi=u|x-i,k,b,a)∝q(xi=u|x-i,k)f(u∈S(i))
如果约束xi到两个特定的值{1,2},只需要设置S(i)={1,2},上式使潜在主题的推理在目标已有知识下有一个灵活的方法,并且为语料中的每个词独立的设置预定义的主题S(i),为限制约束强度的可变性,添加额外的变量h,且0≤h≤1,当h取1时为强约束,取0时为无约束的采样:
q(xi=u|x-i,k,b,a)∝q(xi=u|x-i,k)(hf(u∈S(i))+1-h)
完成Z-label LDA模型优化,构建情感特征词发掘和归类模型。
(二)情感特征词归类
主题是一个词的集合,词的顺序对于主题归类并不重要,本发明采用Z-label LDA优化模型,预先计算训练数据的词表大小,然后按照预先定义规则,将文本对应位置上的词标识为设定的主题编号,同时计算文本对应词表的矩阵,获得主题-词模型以及文档-主题模型,再对主题-词模型进行统计分析,从预先定义好的主题中获取词的归类。
在对情感特征词进行极性标识的过程中,首先利用情感特征词所在语句的上下文信息来判断极性,或者情感特征词的共现的情况,情感特征词的极性标识看作是一个归类的过程,将情感特征词分为两类,正面和负面,主题模型的生成过程看作是文本中的每个词以一定的概率选择某个主题,在主题中以一定的概率选中某个词。对应这个过程,本发明提出采用有监督的Z-label LDA优化方法对情感特征词进行归类,在Z-label LDA优化模型中的主题对应归类词的类别。
通过预先定义部分主题-词,然后通过输入语料对模型的学习过程,将训练语料中的词以一定的概率分配到预定主题上,并扩展新的主题,对主题-词的定义即为规则文件。
Z-label LDA优化模型的情感特征词极性标识步骤为:
算法输入:文档集合A,情感特征词集合K,情感种子词集合Q,M
算法输出:情感特征词集合K中词及其对应的极性
算法:
1)将情感特征词集合K中的词添加到客户词典,对文档集合A进行分词,去重,获取词表KR;
2)整理文档集合A’,使其格式为由词表中的词组成;
3)根据A’及KR生成Z-label LDA优化模型输入文档数字矩阵ax;
4)根据A’、KR及Q、M生成有监督词定义矩阵ac;
5)使用ax和ac进行训练,获取主题-词矩阵以及主题-文档矩阵;
6)检索K中的词k在主题-词矩阵中对应不同主题的概率值,对比之后给出k的极性。
本发明除了用Z-label LDA优化模型对情感特征词的极性进行判断,即分两类,还对情感特征词进行了多归类,各类别的情感特征词汇本体,情感特征词的七个类的示例为:
1)乐:高兴、舒畅、愉快、优美、顺心、安闲、喜笑颜开、好笑、喜剧、兴高采烈;
2)好:神采、爽脆、优厚、娇丽、正直、可靠、崇拜、懂行、公认、珍宝、德高望重;
3)怒:愤怒、暴怒、恼火、可气、气愤、疾言厉色、抗议、动肝火、火冒三丈;
4)哀:可怜、心酸、揪心、苦楚、孤单、痛惜、无语、心灰意冷、倒霉、绝望、懊悔;
5)惧:恐慌、害怕、慌张、不安、畏惧、心悸、娇羞、窘促、丢人、启齿、难为情;
6)恶:郁闷、厌烦、怅然、不知好歹、眼馋、忌恨、嫉妒、猜忌、迟疑、惺惺作态;
7)惊:惊诧、目瞪口呆、奇怪、出人意料、不可思议、惊天动地、惊人、触目惊心;
用两种方式对词的类别进行判定,一种是基于主题-词分布,在进行主题模型的训练过程中,主题的数目远小于词的数目,词汇会出现共现的聚类效果,在结合有监督的方法之后,实现对情感特征词类别的一个弱归类,经过分布概率判断之后,获取未知词的类别。算法中加入的规则文件为预先定义的根据情感特征词类别定义的主题与其种子词,经过对输入数据的训练,会使目标情感特征词向预定义的类别聚类,实现根据聚类强度来判断情感倾向性。
另外一种通过情感特征词极性判断语句的极性,推理同样用语句的极性反推词的极性,用训练出的模型对输入语句的所属的主题及极性进行判断,再根据语句极性的情况反推语句中情感特征词的极性。
三、实施例及效果评价
(一)实施例的设计
微博作为社交网络的一个典型代表,具有传播迅速、信息量大、受众面广和口语化等特点,当下微博也成了网民获取包括新闻、娱乐资讯、观点发表及网友互动的重要途径,因此微博语料有很大的情感倾向性,同时微博也是网络新词产生的主要阵地之一,对这些情感新词的发现和极性分析对中文情感倾向分析具有极为重要的意义,因此以微博数据作为该任务的测评数据集,旨在提供一个能够智能挖掘出微博中出现的情感新词(定义为:未在词典中出现的词)及其情感倾向性(褒义、贬义和中性)。
对于给定的微博数据,本发明不仅能智能挖掘其中的情感特征词,对其进行极性标识,且在其基础上,对情感特征词更详细的分类进行实验,情感特征词分类标准按照情感特征词汇本体的构造的七类情感类别分类标准,通过实验证明了算法在词分类上的效果。
对Z-label LDA优化模型的输入需要将数据格式化为算法规定的格式,即词+词频的格式,首先将标识的情感特征词加入分词词典,防止在分词过程中被分开,本发明使用NLPIR分词工具进行分词,并构建词表,然后将输入转化为一个数字矩阵进行输入,处理过程实施例为:
词表:充裕尊敬友善就是敌人变成朋友同样信任他人获取
输入:给人充裕的尊敬与友善,就是敌人也会变成朋友;同样信任他人,也会获取他人信任。
输出文档:[1,2,3,4,5,6,7,8,9,10,11,9]
输入文件格式化后,需要定义有监督的规则文件,针对目的不同,输出标识为文档对应的矩阵,对文档中的情感特征词的对应矩阵位置进行标识,标识为已定义的情感特征词主题,主题规则分为二归类和多归类。
Z-label LDA优化模型为有监督的主题模型算法,规则文件类别在算法中体现为主题,有监督体现在对模型进行训练时,部分的主题-词已被定义好,通过模型训练过程,算法在已有主题类别的基础上对主题进行扩充,并添加新的主题,挖掘出的情感特征词汇被以一定的概率分配到预先定义的规则中。规则中的词最后都以在词表中出现的序号的数字格式出现,并对应语句的矩阵形成另外一个主题监督矩阵,在出现情感特征词的对应的位置上标识其所属的主题类别的数字标识。
对本发明整体算法进行实验并对实验结果进行分析评价,根据算法整体框架,实验分为情感特征词的挖掘与极性判断两部分,然后基于评价标准,对各部分进行实验并对实验结果进行分析。整体算法的流程图如图4所示。
在情感特征词挖掘阶段,将数据前置处理为CRF改进算法要求的输入格式,经过训练获取模型,然后再输入测试数据,根据标识结果整理获取情感特征词。在情感特征词归类阶段,输入语料与情感特征词集合,经过数据前置处理,输入到Z-label LDA优化模型算法中进行学习,生成主题-词分布,对比词表整理获取情感特征词类别。
(二)效果评价
随着互联网大数据的飞速发展,对这些数据的分析以及处理算法成为热门应用,对数据的情感倾向分析是其中的重要部分,对互联网上大量的个人观点的分析,包括对商品评论,微博数据,新闻评论,客户反馈信息等的情感倾向分析,在实际应用中都起到了很重要的作用,如电商平台根据商品评论等有针对性的做产品策划,政府部门需要及时的针对社会事件的网络舆论的情感倾向来积极做出回应等。现有技术中文方面的情感分析起步稍晚,且由于中文构词的特殊性,也给研究和应用带来了一定的挑战。文本中存在的新情感特征词的智能挖掘能力对于情感倾向分析领域有着重要的作用,现有技术中文的情感倾向分析对词典资源的依赖较多,而词典存在有对网络出现的新情感特征词收录不全的问题,直接影响到语句及篇章情感倾向判断的效果,针对情感倾向分析的现状,为了解决对微博等网络环境中出现的新情感特征词的挖掘以及极性标识问题,本发明主要贡献如下:
第一,采用CRF改进算法智能挖掘微博中出现的包含新情感特征词在内的情感特征词,通过结合词的上下文信息、词性特征、程度副词特征,将情感特征词挖掘的问题直接简化为一个序列标识问题,实现对情感特征词的智能挖掘,通过对各种特征的效果做对比实验,证明本发明所选特征对于新情感特征词挖掘的高效性;
第二,在对情感特征词的极性判断上,将情感特征词的极性标识看做一个归类问题,提出采用Z-label LDA优化模型的方法对词进行归类,算法的主题模型思想能够利用词的上下文信息,以及利用现有的词典资源实现有监督学习,对未知极性的情感特征词做出极性推断,为了更好验证的归类效果,本发明对基于主题-词分布的极性归类与基于主题-文档的极性归类做了对比实验,将Z-label LDA优化模型算法用于词极性标识的问题,证明了算法的有效性。
第三,将Z-label LDA优化模型算法的思想拓展到其它的词归类的问题上,对情感特征词情绪类型进行归类,通过实验证明了算法的有效性,方法对额外资源的依赖较少,仅用了部分已知情感特征词,无需训练语料资源,就能很好的实现对情感特征词极性的归类。
在对新情感特征词的挖掘及极性标识问题上,本发明从不同的角度去解决这个问题,将大规模的统计挖掘问题转化为标识问题,并在极性标识上,使用Z-label LDA优化模型的方法对对情感特征词归类,本发明的方法不涉及到大规模语料的计算,能够很大程度上提高新情感特征词发现的效率,在实际应用中可行性更强,是一种简洁高效、实用性强的中文情感特征词智能动态发掘和归类方法。

Claims (10)

1.中文情感特征词智能动态发掘和归类方法,其特征在于,主要分为两部分,基于CRF改进算法的情感特征词智能挖掘和基于Z-label LDA优化模型的情感特征词极性标识归类;基于CRF改进算法的情感特征词智能挖掘包括CRF算法的改进、选取情感特征、CRF改进算法的情感特征词挖掘,基于Z-label LDA优化模型的情感特征词极性标识归类包括Z-label LDA优化模型、情感特征词归类;
第一,采用CRF改进算法挖掘情感特征词,将情感特征词的挖掘转化为一序列标识方法,结合情感特征词的词性、上下文信息特征来训练模型,然后对未知的文本进行情感特征词挖掘;
第二,在情感特征词极性标识阶段,采用Z-label LDA优化模型算法进行情感特征词分类,通过将LDA算法中的主题与词的类别信息相对应,使用种子词定义主题信息来实现部分监督学习,然后通过主题-词分布来判断目标情感特征词的极性类别;
情感特征词归类采用Z-label LDA优化模型,预先计算训练数据的词表大小,然后按照预先定义规则,将文本对应位置上的词标识为设定的主题编号,同时计算文本对应词表的矩阵,获得主题-词模型以及文档-主题模型,再对主题-词模型进行统计分析,从预先定义好的主题中获取词的归类;
在对情感特征词进行极性标识的过程中,首先利用情感特征词所在语句的上下文信息来判断极性,或者情感特征词的共现的情况,情感特征词的极性标识看作是一个归类的过程,将情感特征词分为两类,正面和负面,主题模型的生成过程看作是文本中的每个词以一定的概率选择某个主题,在主题中以一定的概率选中某个词,对应这个过程,本发明提出采用有监督的Z-label LDA优化方法对情感特征词进行归类,在Z-label LDA优化模型中的主题对应归类词的类别;
通过预先定义部分主题-词,然后通过输入语料对模型的学习过程,将训练语料中的词以一定的概率分配到预定主题上,并扩展新的主题,对主题-词的定义即为规则文件。
2.根据权利要求1所述的中文情感特征词智能动态发掘和归类方法,其特征在于,CRF算法的改进:CRF是基于统计的序列标识及序列分割无向图模型算法,通过概率模型对序列化的数据进行标识,概率模型生成式模型通过所有可能的观察序列,来构建观测序列y和标识序列c的联合分布Q(y,c),得到概率密度模型,最后对标识序列进行预测,另一种为判别式模型,计算在给定的观察序列的条件下,标识序列的可能标识概率,通过计算y和c的条件概率分布Q(c|y)生成判别函数预测模型对目标序列进行预测;
概率图模型是概率论和图论结合的模型,利用图表示随机变量之间的概率依赖关系,设F=(U,B)为一个图,若两个点之间存在边,则认为它们之间有依赖关系,否则相互独立;
CRF改进算法是基于无向图模型的马尔可夫随机场改进判别式模型,CRF改进算法为,令F=(U,B)为一个无向图,O={Ou|u∈U}为一个随机变量集合,F中的U即是取自O中的变量构成图的结点,在给定一个观察值集合Z的条件下,若O中的每个变量都满足马尔可夫公式:
Q(Ou|Z,Ov,v≠u)=Q(Ou|Z,Ov,v~u)
其中v~u指v和u为相邻结点,在此条件下,(Z,O)形成一个条件随机场,CRF改进算法添加观察集合,在给定标识序列的条件下,计算整个标识序列的概率,即计算的是条件概率Q(O|Z),增加观察集合的MRF成为一个判别式模型。
3.根据权利要求2所述的中文情感特征词智能动态发掘和归类方法,其特征在于,CRF改进算法没有严格的独立性条件要求,可以包含任意上下文信息,并且CRF改进算法损失函数为凸函数,CRF改进算法利用最大似然估算给序列数据计算概率分布,是没有被归一化有限的状态模型;
CRF改进算法学习和测试流程:首先将数据集进行分词,添加词性标识及其它特征,然后采用CRF改进算法进行模型训练,对于测试集同样进行格式化处理,然后利用训练得到的模型进行测试,经过处理后得到情感特征词集合。
4.根据权利要求1所述的中文情感特征词智能动态发掘和归类方法,其特征在于,在基于CRF改进算法的情感特征词挖掘过程中,使用的情感特征词特征包括:
1)字特征,字本身的特征是情感特征词特征中很重要的方面,有些字带情感倾向,本身就有情感倾向,另外在情感特征词的上下文中,也有一定特征;
2)词性特征,词性是情感特征词的明显特征,形容词、叹词、名词较多,而情感特征词所在的上下文中,词前出现名词、代词较多,词后出现助词、叹词、标点较多,将情感特征词上下文词性作为一个重要特征;
3)程度副词特征,情感特征词前使用程度副词来加强情感,程度副词也作为提取特征的一部分。
5.根据权利要求1所述的中文情感特征词智能动态发掘和归类方法,其特征在于,CRF改进算法的情感特征词挖掘:使用CRF++工具包,训练集和测试集以及特征模板的格式依照工具包标准构造,根据特征模板及训练集生成预测模型,对测试集进行预测及评价,特征模板直接决定对情感词特征的获取方式;
特征具体表现为,字本身的特征,字之前是否出现程度词或其它情感特征词前缀特征,情感特征词在字开头和结尾部分的字特征,词性特征表现为词上下文是否有副词、形容词或代词词性,特征采集长度扩展到三位。
6.根据权利要求5所述的中文情感特征词智能动态发掘和归类方法,其特征在于,在基于字的标识上,新情感特征词和旧情感特征词无法标识区分,训练集使用NLP&CC的情绪挖掘语料,将所有情感特征词挖掘,然后经过旧词典过滤,得到新情感特征词,在基于词与词性组合特征上,训练集使用中文微博情绪挖掘的4000语料数据,将测评语料2632条作为测试集,还增加词性、词汇特征对比,以及通过增减模板集来对比效果,另外对基于字特征和基于词与词性组合特征也进行对比;
训练集经过分词及词性、情感特征词标识之后进行特征抽取,经过CRF改进算法学习之后得到模型文件,对测试集同样进行分词及词性、情感特征词标识,利用得到的模型对测试集进行测试,得到情感特征词标识结果,通过处理还原即得到语句包含的情感特征词。
7.根据权利要求1所述的中文情感特征词智能动态发掘和归类方法,其特征在于,Z-label LDA优化模型:LDA是基于离散数据集合的建模方法,基于假设:存在一个主题的集合R,使文档集A中的文本都包含一个或者多个主题,每个主题是由一系列词构成的概率分布,并能通过概率学习来发现文档中的潜在主题,从词的角度,一个主题R理解为:
1)一至多篇文档内容的共同相关主旨;
2)文档所表达的部分或全部的语义信息;
3)相关词共现的一种模式;
4)共现词的聚类;
5)词的一种归类;
从概率的角度看,一个主题理解为:
1)词的概率分布;
2)根据词同现的概率排列的词集;
LDA是一种在离散数据集上建模的三层贝叶斯结构概率主题模型,它将主题和词都作为Dirichlet分布的参数,防止主题参数随着文档集的变化而不可控,且在文档的生成过程中利用全概率的生成模型。
8.根据权利要求7所述的中文情感特征词智能动态发掘和归类方法,其特征在于,LDA模型假设有W个潜在主题,每个主题是词的多项分布,一篇文档看成是文档的词频序列在这些主题上的抽样矩阵,每个词都取决于一个特定的主题,即每个文档都以一定的概率选择一个主题,然后以一定的概率选择这个主题中的一个词的迭代过程获取,一个文档集A表示为{k1,k2,…,kN},一篇文档k={j1,j2,…,jM},具体的文档集中一篇文档的生成过程表示为:
1.选择一个g~Dir(b)
2.对于M中的每一个词jm
1)选择一个主题xm~Mult(g);
2)从主题xm的多项概率分布中选择一个词jm~q(jm|xm,a);
其中g为先验参数,控制一个文档中不同主题的混合比例,b为Dirichlet分布参数,分布的形式为:
Figure FDA0002881103430000041
保证每个文档都包含所有的话题,b控制g的均值和稀疏密度,为对b进行评价,从文档集中计算g,a为主题-词的多项分布参数,保证每个话题包含所有词汇,表现为一个W×U的矩阵,其中W为可能的主题数,U为可能的词数,每行为一个U维的和为1的向量,生成过程的图模型表示;
得到LDA的联合概率为:
Figure FDA0002881103430000042
LDA中关键在计算隐含部分的后验概率:
Figure FDA0002881103430000043
参数估算使用吉布斯抽样来直接计算参数的值,用多个变量的联合分布样本来逼近联合分布,设变量集合为Z={Z1,Z2,...,Zm},采样过程为:
1)对集合Z中的每个变量初始化赋值;
2)对每个变量的抽样由整体变量的条件概率分布确定,计算中使用前一次抽样获取的变量值和其它未被抽样的变量值共同确定,
Figure FDA0002881103430000044
本次抽样的值也会用到下一次抽样的条件概率的计算当中,对其它的变量值进行估算;
Figure FDA0002881103430000045
Figure FDA0002881103430000046
分别表示文档词和主题向量,对某一个词ji,其属于某一个主题ri的概率取决于其它词对主题ri的从属概率,这一过程通过如下公式来实现:
Figure FDA0002881103430000047
其中
Figure FDA0002881103430000048
表示除第i个词之外的第w个词从属与主题r的频率,分母表示对应主题包含的词总数;
Figure FDA0002881103430000049
表示除第i篇文档外,其它文档从属于主题r的词总数,分母为第n个文档中除了从属于主题r的词之外的词总个数,迭代完成之后,获得g和e的公式如下:
Figure FDA0002881103430000051
Figure FDA0002881103430000052
Z-label LDA优化模型是LDA在有监督需求下的改进,通过强化主题和所需类别之间一对一的关系来满足归类的要求,将无监督的算法和有监督的知识融合,在标识特征下半监督学习,特征为词,引入潜在主题的可能的x标识集合S(i),给吉布斯采样设置一个强约束式f(u∈S(i)),若u∈S(i)则取1,否则取0:
q(Xi=u|X-i,k,b,a)∝q(Xi=u|x-i,k)f(u∈S(i))
如果约束xi到两个特定的值{1,2},只需要设置S(i)={1,2},上式使潜在主题的推理在目标已有知识下有一个灵活的方法,并且为语料中的每个词独立的设置预定义的主题S(i),为限制约束强度的可变性,添加额外的变量h,且0≤h≤1,当h取1时为强约束,取0时为无约束的采样:
q(Xi=u|X-i,k,b,a)∝q(Xi=u|X-i,k)(hf(u∈S(i))+1-h)
完成Z-label LDA模型优化,构建情感特征词发掘和归类模型。
9.根据权利要求1所述的中文情感特征词智能动态发掘和归类方法,其特征在于,情感特征词归类中,Z-label LDA优化模型的情感特征词极性标识步骤为:
算法输入:文档集合A,情感特征词集合K,情感种子词集合Q,M
算法输出:情感特征词集合K中词及其对应的极性
算法:
1)将情感特征词集合K中的词添加到客户词典,对文档集合A进行分词,去重,获取词表KR;
2)整理文档集合A’,使其格式为由词表中的词组成;
3)根据A’及KR生成Z-label LDA优化模型输入文档数字矩阵ax;
4)根据A’、KR及Q、M生成有监督词定义矩阵ac;
5)使用ax和ac进行训练,获取主题-词矩阵以及主题-文档矩阵;
6)检索K中的词k在主题-词矩阵中对应不同主题的概率值,对比之后给出k的极性。
10.根据权利要求9所述的中文情感特征词智能动态发掘和归类方法,其特征在于,用两种方式对词的类别进行判定,一种是基于主题-词分布,在进行主题模型的训练过程中,主题的数目远小于词的数目,词汇会出现共现的聚类效果,在结合有监督的方法之后,实现对情感特征词类别的一个弱归类,经过分布概率判断之后,获取未知词的类别,算法中加入的规则文件为预先定义的根据情感特征词类别定义的主题与其种子词,经过对输入数据的训练,会使目标情感特征词向预定义的类别聚类,实现根据聚类强度来判断情感倾向性;
另外一种通过情感特征词极性判断语句的极性,推理同样用语句的极性反推词的极性,用训练出的模型对输入语句的所属的主题及极性进行判断,再根据语句极性的情况反推语句中情感特征词的极性。
CN202011641702.XA 2020-12-31 2020-12-31 中文情感特征词智能动态发掘和归类方法 Pending CN112699240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011641702.XA CN112699240A (zh) 2020-12-31 2020-12-31 中文情感特征词智能动态发掘和归类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011641702.XA CN112699240A (zh) 2020-12-31 2020-12-31 中文情感特征词智能动态发掘和归类方法

Publications (1)

Publication Number Publication Date
CN112699240A true CN112699240A (zh) 2021-04-23

Family

ID=75514108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011641702.XA Pending CN112699240A (zh) 2020-12-31 2020-12-31 中文情感特征词智能动态发掘和归类方法

Country Status (1)

Country Link
CN (1) CN112699240A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378543A (zh) * 2021-06-28 2021-09-10 深圳前海微众银行股份有限公司 数据分析方法、训练数据分析模型的方法及电子设备
CN113377910A (zh) * 2021-06-09 2021-09-10 平安科技(深圳)有限公司 情感评价方法、装置、电子设备和存储介质
CN114238627A (zh) * 2021-11-22 2022-03-25 西北工业大学 一种基于albert和lda的跨域情感分类方法
CN115269837A (zh) * 2022-07-19 2022-11-01 江南大学 融合位置信息的三元组抽取方法及***
CN116910275A (zh) * 2023-09-12 2023-10-20 无锡容智技术有限公司 一种基于大语言模型的表单生成方法及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索***
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
US20170308523A1 (en) * 2014-11-24 2017-10-26 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法
JP2020098454A (ja) * 2018-12-18 2020-06-25 日本放送協会 テキスト情報判定装置及びそのプログラム
CN111414476A (zh) * 2020-03-06 2020-07-14 哈尔滨工业大学 一种基于多任务学习的属性级情感分析方法
CN111696123A (zh) * 2020-06-15 2020-09-22 荆门汇易佳信息科技有限公司 超像素分类识别的遥感图像水域分割提取方法
CN111708740A (zh) * 2020-06-16 2020-09-25 荆门汇易佳信息科技有限公司 基于云平台的海量搜索查询日志计算分析***
US20200349229A1 (en) * 2019-05-02 2020-11-05 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索***
US20170308523A1 (en) * 2014-11-24 2017-10-26 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法
JP2020098454A (ja) * 2018-12-18 2020-06-25 日本放送協会 テキスト情報判定装置及びそのプログラム
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法
US20200349229A1 (en) * 2019-05-02 2020-11-05 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes
CN111414476A (zh) * 2020-03-06 2020-07-14 哈尔滨工业大学 一种基于多任务学习的属性级情感分析方法
CN111696123A (zh) * 2020-06-15 2020-09-22 荆门汇易佳信息科技有限公司 超像素分类识别的遥感图像水域分割提取方法
CN111708740A (zh) * 2020-06-16 2020-09-25 荆门汇易佳信息科技有限公司 基于云平台的海量搜索查询日志计算分析***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAVID ANDRZEJEWSKI: "Latent dirichlet allocation with topic-in-set knowledge", 《PROCEEDINGS OF THE NAACL HLT 2009 WORKSHOPON SEMI-SUPERVISED LEARNING FOR NATURAL LANGUAGE PROCESSINPROCEEDINGS OF THE NAACL HLT 2009 WORKSHOPON SEMI-SUPERVISED LEARNING FOR NATURAL LANGUAGE PROCESSING》, pages 43 - 47 *
潘家辉等: "多模态情绪识别研究综述", 《智能***学报》, pages 633 - 643 *
赵勋: "基于CRF和名词短语识别的中文微博情感要素抽取", 《中国优秀硕士学位论文全文数据库电子期刊网》, pages 15 - 35 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377910A (zh) * 2021-06-09 2021-09-10 平安科技(深圳)有限公司 情感评价方法、装置、电子设备和存储介质
CN113378543A (zh) * 2021-06-28 2021-09-10 深圳前海微众银行股份有限公司 数据分析方法、训练数据分析模型的方法及电子设备
CN114238627A (zh) * 2021-11-22 2022-03-25 西北工业大学 一种基于albert和lda的跨域情感分类方法
CN114238627B (zh) * 2021-11-22 2024-04-12 西北工业大学 一种基于albert和lda的跨域情感分类方法
CN115269837A (zh) * 2022-07-19 2022-11-01 江南大学 融合位置信息的三元组抽取方法及***
CN115269837B (zh) * 2022-07-19 2023-05-12 江南大学 融合位置信息的三元组抽取方法及***
CN116910275A (zh) * 2023-09-12 2023-10-20 无锡容智技术有限公司 一种基于大语言模型的表单生成方法及***
CN116910275B (zh) * 2023-09-12 2023-12-15 无锡容智技术有限公司 一种基于大语言模型的表单生成方法及***

Similar Documents

Publication Publication Date Title
Rao et al. LSTM with sentence representations for document-level sentiment classification
Pandey et al. Twitter sentiment analysis using hybrid cuckoo search method
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN112699240A (zh) 中文情感特征词智能动态发掘和归类方法
Akaichi et al. Text mining facebook status updates for sentiment classification
Bouazizi et al. Sentiment analysis: From binary to multi-class classification: A pattern-based approach for multi-class sentiment analysis in Twitter
Shirwandkar et al. Extractive text summarization using deep learning
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
Garg et al. The structure of word co-occurrence network for microblogs
CN108509421B (zh) 基于随机游走和粗糙决策置信度的文本情感分类方法
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
Subramanian et al. A survey on sentiment analysis
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
Dastgheib et al. The application of deep learning in persian documents sentiment analysis
Katta et al. A Hybrid Adaptive Neuro-Fuzzy Interface and Support Vector Machine Based Sentiment Analysis on Political Twitter Data.
CN107239554B (zh) 一种基于匹配度检索英文文本的方法
Jaradat et al. Hybrid-based Arabic single-document text summarization approach using genatic algorithm
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN112182159B (zh) 一种基于语义表示的个性化检索式对话方法和***
CN110263344B (zh) 一种基于混合模型的文本情感分析方法、装置和设备
Mohammed et al. Enhancing sentiment analysis using enhanced whale optimisation algorithm
Wankhade et al. Bi-directional lstm attention mechanism for sentiment classification
CN115146031A (zh) 一种基于深度学习和辅助特征的短文本立场检测方法
Jasti et al. Deep sentiment extraction using fuzzy-rule based deep sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination