CN110516236B - 一种社交短文本细粒度情感采集方法 - Google Patents

一种社交短文本细粒度情感采集方法 Download PDF

Info

Publication number
CN110516236B
CN110516236B CN201910735101.6A CN201910735101A CN110516236B CN 110516236 B CN110516236 B CN 110516236B CN 201910735101 A CN201910735101 A CN 201910735101A CN 110516236 B CN110516236 B CN 110516236B
Authority
CN
China
Prior art keywords
emotion
vocabulary
social
domain
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910735101.6A
Other languages
English (en)
Other versions
CN110516236A (zh
Inventor
陶皖
张强
皇苏斌
周祺
江燕
赵雨倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Polytechnic University
Original Assignee
Anhui Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Polytechnic University filed Critical Anhui Polytechnic University
Priority to CN201910735101.6A priority Critical patent/CN110516236B/zh
Publication of CN110516236A publication Critical patent/CN110516236A/zh
Application granted granted Critical
Publication of CN110516236B publication Critical patent/CN110516236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种社交短文本细粒度情感采集方法,该方法如下:识别社交短文本的主题;在对应主题领域的领域情感词汇库中查找该属性词存在依托关系的情感词汇,形成属性词与对应情感词汇联系的词对;结合通用情感词库词对的扩充;基于社交行为及词对的出现频率,计算出情感值,形成该主题领域下的词条;检测词条是否已经出现在该主题领域的领域情感词汇库中,若不存在,则将该词条补入,形成特定主题领域下的细粒度情感词库。以图建模的方式记录属性词、情感词及相关社交行为的相互关系,结合社交网络行为采集算法,得到带有行为特征的细粒度情感权重,为更准确的决策提供帮助。

Description

一种社交短文本细粒度情感采集方法
技术领域
本发明属于自然语言处理应用技术领域,更具体地,本发明涉及一种社交短文本细粒度情感采集方法。
背景技术
在社交媒体活动中产生的短文本,社交短文本实时产生、数量巨大,并具有各类主观情感,其中往往蕴藏着潜在的规律和价值。但社交短文本缺乏上下文信息,现在针对短文本情感采集方法的采集维度单一,缺乏社交联系及语义上的层级划分。
发明内容
本发明提供一种社交短文本细粒度情感采集方法,分类别细粒度采集社交活动主体赋予短文本的天然情感属性,以为提高决策能力奠定基础。
为了实现上述目的,本发明采取的技术方案为:一种社交短文本细粒度情感采集方法,所述方法具体包括如下步骤:
S21、识别社交短文本的主题,所述主题由社交短文本涉及的领域及属性词组成;
S22、在对应主题领域的领域情感词汇库中查找该属性词存在依托关系的情感词汇,形成若干属性词及情感词汇对,称为词对;
S23、结合通用情感词库查找上述情感词汇的近义词及同义词,基于情感词汇的近义词及同义词进行词对的扩充;
S24、基于社交行为及词对的出现频率,计算出情感值,形成该主题领域下的词条,词条由属性词、情感词汇、情感值构成;
S25、检测词条是否已经出现在该主题领域的领域情感词汇库中,若不存在,则将该词条补入,形成特定主题领域下的细粒度情感词库。
进一步的,在步骤S24之后包括:
基于计算出的词对情感值,对领域情感库中对应词对的情感值进行更新。
进一步的,在步骤S21之前还包括:
S1、构建领域情感词汇库,用于存储相应领域的情感词汇、情感词汇所属的情感领域及属性词;
情感领域包括:褒义情感、中性情感及贬义情感,通过数值进行量化,即为情感值;
属性词分为显性属性词及隐性属性词。
进一步的,领域情感词汇库的构建方法具体如下:
前期通过人工标注进行构建,当情感词汇量达到一定数量后,通过对不同主题领域的大量社交短文本进行学习,不断扩充领域情感词汇库。
进一步的,基于社交短文本的领域情感词汇库扩充方法具体如下:
S11、识别出社交短文本中的主观性部分及客观性部分,主观性部分包括:情感词汇及隐性属性词,客观性部分包括:主题领域及显性属性词;
S12、在不同主题领域的领域情感词汇库中找到与显性属性词或隐性属性词存在依存关系的情感词汇及情感词汇所属的情感领域;
S13、将情感词汇、属性词、情感领域及相关社交行为的社交标签通过图建模的方式记录,并存储值对应主题领域的领域情感词汇库;
S14、将情感词汇按属性词进行分类,结合通用情感词汇库对指定属性词的情感词汇进行同义情感词汇及近义情感词汇的扩充,并将扩充的同义情感词汇、近义情感词汇通过图建模的方式记录,并存储于值对应主题领域的领域情感词汇库。
本发明提供的社交短文本细粒度情感采集方法具有如下优点:
(1)构建结合社交主题的分类领域情感词汇库,记录结合主题的情感词汇数据;
(2)结合社交网络行为采集算法,得到带有行为特征的细粒度情感权重,以图建模的方式记录属性词、情感词及相关社交行为的相互关系,清楚表示多种属性、不同社交行为下的情感数据,使得到的针对某个主题或主题属性的情感信息更精细,从而帮助实现更加准确的决策。
附图说明
图1为本发明实施例提供的社交短文本情感粒度采集方法流程图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
在构建特定主题领域下的细粒度情感词库之前,需要构建领域情感词汇库,领域情感词汇库的构建方法具体如下:
S1、构建领域情感词汇库,用于存储相应领域的情感词汇、情感词汇所属的情感领域及属性词;
领域情感词汇库前期是通过人工标注形成,当情感词汇量达到一定数量后,通过对不同主题领域的大量社交短文本进行学习(学习过程见如S11-S14),不断扩充领域情感词汇库。
在本发明实施例中,情感领域包括:褒义情感、中性情感、贬义情感,可以通过数值进行量化,即为情感值,例如采用数值-1到数值1来进行情感强度的标识,其中,贬义情感采用负的数值进行表示,数值越小,贬义情感越强烈,如-1比-0.5强烈,褒义情感采用正的数值进行表示,数值越大,积极情感越强烈,如1比0.5强烈,中性取值为0;属性词分为显性属性词及隐性属性词,
结合下面的实例进行说明,社交短文内容为:手机很贵,情感词汇是“贵”,对应的属性词是“价格”,由于在社交短文语句中,“价格”没有显性出现,所述“价格”为隐性属性词,情感领域标识为贬义情感,因此,情感词汇库中存储内容为:【情感词、属性词、情感值】,如:【贵、价格、-0.8】;社交短文内容为:发型很时尚,情感词汇是“时尚”,对应属性词是“造型”,情感领域标识为褒义情感,因此,情感词汇库中存储内容为:【情感词、属性词、情感值】,如:【时尚、发型、0.7】;在本发明实施例中,在人工构建领域词汇库时,领域专家对社交短文本建立标注时,要根据经验标注一个情感值,后期通过大量社交短文本的学习对该情感值进行不断的修正。
在本发明实施例中,基于社交短文本的领域情感词汇库扩充方法具体包括如下步骤:
S11、别出社交短文本中的主观性部分及客观性部分,主观性部分包括:情感词汇及隐性属性词,客观性部分包括:主题领域及显性属性词;
基于概率生成模型来别出社交短文本中的主观性部分及客观性部分,概率生成模型可采用潜在语义索引算法(Latent Semantic Index),以社交短文本“手机很贵”为例进行说明,其中,主题领域“手机”是客观性部分,情感词汇“贵”及隐性属性词“价格”为主观性部分,如社交短文本“现在的水果价格真高”,其中,主题领域“水果”及显性属性词“价格”为客观性部分,情感词汇“高”为主观性部分。
S12、在不同主题领域的领域情感词汇库中找到与显性属性词或隐性属性词存在依存关系的情感词汇及情感词汇所属的情感领域;
在本发明实施例中,采用分析归纳算法在不同主题领域的领域情感词汇库中找到与显性属性词或隐性属性词存在依存关系的情感词汇及情感词汇所属的情感领域,分析归纳算法可以为贝叶斯分类算法及隐马尔科夫算法等;常与属性词搭配使用的情感词汇即为与属性词存在依托关系的情感词汇,部分属性词及其情感词汇可以在多个领域情感词汇库中同时存在,如:短文本“手机很贵,但屏幕很好”中,其主题领域是“手机”,基于隐形属性词“价格”在多个领域情感词汇库中查找出与之存在依存关系的情感词汇,比如情感词汇“贵”、“高”、“便宜”,基于属性“屏幕”能找到隐性属性词“屏幕亮度”、“屏幕分辨率”及其情感词汇“好”、“清晰”。
S13、将情感词汇、属性词、情感领域及相关社交行为的社交标签通过图建模的方式记录,并存储于对应主题领域的领域情感词汇库;
在本发明实施例中,社交行为包括:转发、点赞、顶等动作。社交行为通常会以标签的方式标注在短文本后,通过标签采集算法采集社交标签并记录标签的量化值内容,如可设置“转发”为值1,点赞为值2,如点赞3次,最后可量化为2*3=6,将标签量化值及在S2与S3步中获取的社交短文本的属性词、情感词汇、情感领域以图数据结构的方式存储。
如采集有社交短文本“什刹海的傍晚时分很有感觉”,其后有点赞4次,转发5次。此例中可以采集到属性词:什刹海、傍晚时分、什刹海傍晚等、其主观部分为“很有感觉”,通过比对领域情感词汇库,可以形成类似“风景-很有感觉”、“氛围-很有感觉”的词对。可以按(属性对象、属性、情感词汇、社交行为、情感值)的方式存储为(什刹海,风景,很有感觉,点赞,8),(什刹海傍晚,氛围,很有感觉,转发,5)等多条记录。如果没有社交行为,最后两项可存储为(无,0)。
当存储的记录达到一定数量后则进行分类汇总,并进行量化及规范化处理,最后可以按如(-1,+1)的范围存储情感值,扩展补充领域情感词汇库。
S14、将情感词汇按属性词进行分类,结合通用情感词汇库对指定属性词的情感词汇进行同义情感词汇及近义情感词汇的扩充,并将扩充的情感词汇、近义情感词汇通过图建模的方式记录,并存储值对应主题领域的领域情感词汇库;
在本发明实施例中,通用情感词汇库中包含了常用情感词汇、及情感词汇的近义词及同义词,在通用情感词汇中包换的情感词汇信息较少,且情感词汇没有主题领域之分;在自然语言处理领域有一些通用情感词库,如hownet,可以通过网络获取,本发明的目的就是构建不同领域的细粒度的领域情感词汇库,以提高情感分析的效率,领域情感词汇库,存储情感词汇及情感值,且是基于属性词进行分类存储,相同的情感词汇在不同的词属性下,其情感领域是不同的,如:如何定义情感词汇“快”的情感领域,与其对应的属性词相关,若属性词为“消费”,例如社交短文“价格上涨快”,则将情感词汇“快”对应的情感领域标识为贬义,但属性词为“发育”,如短文描述“孩子发育快”,此时,情感词汇“快”对应的情感领域标识为褒义。
因此,结合通用情感词汇库中的情感词汇(尤其是情感词的近义词),可以比较快速地扩展领域情感词,比如“快”的近义词“急”就可以扩展进入领域情感词汇库中。这里的标注是指将“快”或“急”标注到属性词“价格”上。
图1为本发明实施例提供的社交短文本情感粒度采集方法流程图,基于领域情感词汇库的社交短文本细粒度情感的采集方法具体包括如下步骤:
S21、识别社交短文本的主题,所述主题由社交短文本涉及的领域及属性词组成;
在本发明实施例中,基于如LDA(Latent Dirichlet Allocation)等主题模型发现算法来识别社交短文中的主题;主题即为短文所涉及的领域及属性词,如通过LDA主题发现模型或概率生成模型可以发现类似文本“手机很贵……”的主题为“手机价格”,因为前期已经构建领域情感词汇库,则可以依据它确定与主题相关的属性及其情感词汇
S22、在对应主题领域的领域情感词汇库中查找该属性词存在依托关系的情感词汇,形成若干属性词及情感词汇对,“属性词及情感词汇对”简称“词对”;
S23、结合通用情感词库查找上述情感词汇的近义词及同义词,基于情感词汇的近义词及同义词进行词对的扩充;
词对的扩充,是基于通用情感词汇库中的同(近)义词库快速扩充领域情感词库中的情感词汇,并建立与之对应的词对,比如“快”的近义词“急”就可以扩展进入领域情感词汇库中。
S24、基于社交行为及词对的出现频率,计算出情感值,形成该主题领域下的词条,词条由属性词、情感词汇、情感值构成;
在情感采集过程中,将相同主题领域中属性词相同的各情感词汇进行分类汇总,基于情感词汇的社交网络行为提取(如:对于有情感词汇的社交短文本通过爬虫程序采集社交页面中对应的行为标签信息)计算出带有词属性特征的细粒度情感权重(即情感值),完成具有情感、社交行为的异构社交网络的建模与存储,使形成的网络链接具有不同情感类型,完成多场景下的社交情感特征存储。
情感值的计算值为正值,若情感词汇的情感领域是褒义,则直接存情感值的计算值,若情感词汇的情感领域是贬义的,则将情感值的计算值乘以-1进行存储。
在本发明实施例中,在步骤S24之后包括:
基于计算出的词对情感值,对领域情感库中对应词对的情感值进行更新。
S25、检测词条是否已经出现在该主题领域的领域情感词汇库中,若不存在,则将该词条补入,形成特定主题领域下的细粒度情感词库。
本发明提供的社交短文本细粒度情感采集方法具有如下优点:
(1)构建结合社交主题的分类领域情感词汇库,记录结合主题的情感词汇数据;
(2)结合社交网络行为采集算法,得到带有行为特征的细粒度情感权重,以图建模的方式记录属性词、情感词及相关社交行为的相互关系,清楚表示多种属性、不同社交行为下的情感数据,使得到的针对某个主题或主题属性的情感信息更精细,从而帮助实现更加准确的决策。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (5)

1.一种社交短文本细粒度情感采集方法,其特征在于,所述方法具体包括如下步骤:
S21、识别社交短文本的主题,所述主题由社交短文本涉及的领域及属性词组成;
S22、在对应主题领域的领域情感词汇库中查找该属性词存在依托关系的情感词汇,形成若干属性词及情感词汇对,称为词对;
S23、结合通用情感词库查找上述情感词汇的近义词及同义词,基于情感词汇的近义词及同义词进行词对的扩充;
S24、基于社交行为及词对的出现频率,计算出情感值,形成该主题领域下的词条,词条由属性词、情感词汇、情感值构成;
S25、检测词条是否已经出现在该主题领域的领域情感词汇库中,若不存在,则将该词条补入,形成特定主题领域下的细粒度情感词库。
2.如权利要求1所述社交短文本细粒度情感采集方法,其特征在于,在步骤S24之后包括:
基于计算出的词对情感值,对领域情感库中对应词对的情感值进行更新。
3.如权利要求1所述社交短文本细粒度情感采集方法,其特征在于,在步骤S21之前还包括:
S1、构建领域情感词汇库,用于存储相应领域的情感词汇、情感词汇所属的情感领域及属性词;
情感领域包括:褒义情感、中性情感及贬义情感,通过数值进行量化,即为情感值;
属性词分为显性属性词及隐性属性词。
4.如权利要求3所述社交短文本细粒度情感采集方法,其特征在于,领域情感词汇库的构建方法具体如下:
前期通过人工标注进行构建,当情感词汇量达到一定数量后,通过对不同主题领域的大量社交短文本进行学习,不断扩充领域情感词汇库。
5.如权利要求4所述社交短文本细粒度情感采集方法,其特征在于,基于社交短文本的领域情感词汇库扩充方法具体如下:
S11、识别出社交短文本中的主观性部分及客观性部分,主观性部分包括:情感词汇及隐性属性词,客观性部分包括:主题领域及显性属性词;
S12、在不同主题领域的领域情感词汇库中找到与显性属性词或隐性属性词存在依存关系的情感词汇及情感词汇所属的情感领域;
S13、将情感词汇、属性词、情感领域及相关社交行为的社交标签通过图建模的方式记录,并存储于对应主题领域的领域情感词汇库;
S14、将情感词汇按属性词进行分类,结合通用情感词汇库对指定属性词的情感词汇进行同义情感词汇及近义情感词汇的扩充,并将扩充的同义情感词汇、近义情感词汇通过图建模的方式记录,并存储于对应主题领域的领域情感词汇库。
CN201910735101.6A 2019-08-09 2019-08-09 一种社交短文本细粒度情感采集方法 Active CN110516236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910735101.6A CN110516236B (zh) 2019-08-09 2019-08-09 一种社交短文本细粒度情感采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910735101.6A CN110516236B (zh) 2019-08-09 2019-08-09 一种社交短文本细粒度情感采集方法

Publications (2)

Publication Number Publication Date
CN110516236A CN110516236A (zh) 2019-11-29
CN110516236B true CN110516236B (zh) 2022-10-28

Family

ID=68624670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910735101.6A Active CN110516236B (zh) 2019-08-09 2019-08-09 一种社交短文本细粒度情感采集方法

Country Status (1)

Country Link
CN (1) CN110516236B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632286A (zh) * 2020-09-21 2021-04-09 北京合享智慧科技有限公司 一种文本属性特征的识别、分类及结构分析方法及装置
CN113807429B (zh) * 2021-09-14 2024-03-29 企查查科技股份有限公司 企业的分类方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
WO2018182501A1 (en) * 2017-03-30 2018-10-04 Agency For Science, Technology And Research Method and system of intelligent semtiment and emotion sensing with adaptive learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
WO2018182501A1 (en) * 2017-03-30 2018-10-04 Agency For Science, Technology And Research Method and system of intelligent semtiment and emotion sensing with adaptive learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向短文本情感分析的词扩充LDA模型;沈冀等;《山东大学学报(工学版)》;20180307(第03期);全文 *

Also Published As

Publication number Publication date
CN110516236A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN109829039B (zh) 智能聊天方法、装置、计算机设备及存储介质
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答***的构建方法
CN108287858A (zh) 自然语言的语义提取方法及装置
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN111708869B (zh) 人机对话的处理方法及装置
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
JP6123143B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN107729468A (zh) 基于深度学习的答案抽取方法及***
CN108021660B (zh) 一种基于迁移学习的话题自适应的微博情感分析方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
KR102361597B1 (ko) 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 프로그램이 기록된 기록매체
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN110516236B (zh) 一种社交短文本细粒度情感采集方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断***及方法
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及***
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113609390A (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
KR102382681B1 (ko) 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 프로그램
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant