CN113901790A - 文本信息分析方法、装置、电子设备及存储介质 - Google Patents

文本信息分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113901790A
CN113901790A CN202111071139.1A CN202111071139A CN113901790A CN 113901790 A CN113901790 A CN 113901790A CN 202111071139 A CN202111071139 A CN 202111071139A CN 113901790 A CN113901790 A CN 113901790A
Authority
CN
China
Prior art keywords
clause
emotion
characteristic
reason
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111071139.1A
Other languages
English (en)
Inventor
周玉
陈仲豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202111071139.1A priority Critical patent/CN113901790A/zh
Publication of CN113901790A publication Critical patent/CN113901790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种文本信息分析方法,包括:对目标文本进行向量化处理,获得目标文本的子句向量表示;获取向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征‑原因特征子句对;获取含有情绪特征的子句的情绪类别;获取向量化处理后的目标文本中含有意图信息的子句;以及基于情绪特征‑原因特征子句对、情绪特征‑原因特征子句对的情绪类别以及含有意图信息的子句生成目标文本的情绪‑原因‑意图组合。本公开还提供了一种文本信息分析装置、电子设备以及可读存储介质。

Description

文本信息分析方法、装置、电子设备及存储介质
技术领域
本公开涉及自然语言处理技术领域。本公开尤其涉及一种文本信息分析方法、装置、电子设备及存储介质。
背景技术
文本情绪原因抽取是一种在给定文本中抽取出其中带有情绪的句子及其对应原因的任务,可以有效地帮助人们快速定位造成某种情绪的原因。
近年来,随着互联网技术的迅猛发展,越来越多的人倾向在网络上发表言论。因此,在社交媒体平台(例如微博、知乎等各种具有评论功能的网站)上有丰富的信息可以获取,舆论倾向是其中很重要的一种。
传统的情绪分析仅仅对文本进行情绪分类,只关注文本表达的情绪类别。而文本情绪原因抽取在检测情绪的同时,还关注造成情绪的原因,如对政府部门发布的新政策、对电商产品或服务不满意的情绪等。该任务对于舆情监控、政策优化及产品改进等方面具有重要作用。文本情绪原因抽取技术越来越受到关注。
区别于新闻领域的文本,社交媒体文本有两个代表性的特点:(1)文本更加不规范,情绪表达更加多样化;(2)主观性更强,在抒发情绪的同时还会发表观点,阐述意图。因此,在情绪检测方面,由于用户多样化的表达方式,如隐喻、反讽等手段,如何正确有效的检测情绪子句的位置更具挑战性。同时由于不能预先定义情感词典将全部的情感表达方式囊括其中,在社交媒体文本的情绪子句位置确定后还需要进行类别划分,才能更好的服务于下游任务。
除此之外,由于社交媒体中用户均以第一人称发布话题跟贴,与新闻领域相比,文本中往往会出现由某种情绪造成的用户个人观点或意图,这一语义角色在新闻领域从未被考虑。用户的意图对于政府、企业等部门是非常重要的信息,可以通过分析用户未来可能采取的行动,提前做好应对措施。
然而,上述特点在目前已有的文本情绪原因抽取数据集中均未予以考虑。已有的数据集以情绪原因ID对的标注为主,同时标注了情绪的类别。但是,新闻数据集中所有情绪子句均包含确定的情绪关键词,与实际场景多样化的表达差距较大。另外,新闻领域鲜有第一人称的意图表达。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种文本信息分析方法、装置、电子设备及存储介质。
本公开的文本信息分析方法、装置、电子设备及存储介质通过以下技术方案实现。
根据本公开的一个方面,提供一种文本信息分析方法,包括:
对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
获取所述含有情绪特征的子句的情绪类别;
获取所述向量化处理后的目标文本中含有意图信息的子句;以及,
基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
根据本公开的至少一个实施方式的文本信息分析方法,所述目标文本为提取自具有评论功能的网站的同一用户的目标文本。
根据本公开的至少一个实施方式的文本信息分析方法,获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对,包括:
基于图注意力神经网络获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句;以及,对与所述含有情绪特征的子句之间的距离在第一预设距离内的含有原因特征的子句进行检测,获取含有情绪特征的子句与含有原因特征的子句之间的第一对应概率,对与所述含有原因特征的子句之间的距离在第一预设距离内的含有情绪特征的子句进行检测,获取含有原因特征的子句与含有情绪特征的子句之间的第二对应概率,如果所述第一对应概率与所述第二对应概率之平均值大于1/2,则将第一预设距离之内的含有情绪特征的子句与含有原因特征的子句组成为所述情绪特征-原因特征子句对。
根据本公开的至少一个实施方式的文本信息分析方法,获取所述含有情绪特征的子句的情绪类别,包括:
使用第一前馈神经网络获取所述含有情绪特征的子句的情绪类别。
根据本公开的至少一个实施方式的文本信息分析方法,获取所述向量化处理后的目标文本中含有意图信息的子句,包括:
使用第二前馈神经网络获取所述向量化处理后的目标文本中至少一个含有意图信息的子句。
根据本公开的至少一个实施方式的文本信息分析方法,获取所述向量化处理后的目标文本中含有意图信息的子句,包括:
获取所述情绪特征-原因特征子句对应的含有意图信息的子句。
根据本公开的至少一个实施方式的文本信息分析方法,基于含有意图信息的子句的意图信息获取意图类别。
根据本公开的另一个方面,提供一种文本信息分析方法,包括:
对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
获取所述情绪特征-原因特征子句对的情绪类别;
获取所述向量化处理后的目标文本中含有意图信息的子句;以及,
基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
根据本公开的至少一个实施方式的文本信息分析方法,获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对,包括:
基于图注意力神经网络获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句;以及,对与所述含有情绪特征的子句之间的距离在第一预设距离内的含有原因特征的子句进行检测,获取含有情绪特征的子句与含有原因特征的子句之间的第一对应概率,对与所述含有原因特征的子句之间的距离在第一预设距离内的含有情绪特征的子句进行检测,获取含有原因特征的子句与含有情绪特征的子句之间的第二对应概率,如果所述第一对应概率与所述第二对应概率之平均值大于1/2,则将第一预设距离之内的含有情绪特征的子句与含有原因特征的子句组成为所述情绪特征-原因特征子句对。
根据本公开的至少一个实施方式的文本信息分析方法,获取所述情绪特征-原因特征子句对的情绪类别,包括:
使用第一前馈神经网络获取所述情绪特征-原因特征子句对的情绪类别。
根据本公开的又一个方面,提供一种文本信息分析装置,包括:
向量化处理模块,所述向量化处理模块对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
第一获取模块,所述第一获取模块获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
第二获取模块,所述第二获取模块获取所述含有情绪特征的子句的情绪类别;
第三获取模块,所述第三获取模块获取所述向量化处理后的目标文本中含有意图信息的子句;以及,
生成模块,所述生成模块基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
根据本公开的又一个方面,提供一种文本信息分析装置,包括:
向量化处理模块,所述向量化处理模块对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
第一获取模块,所述第一获取模块获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
第二获取模块,所述第二获取模块获取所述情绪特征-原因特征子句对的情绪类别;
第三获取模块,所述第三获取模块获取所述向量化处理后的目标文本中至少一个含有意图信息的子句;以及,
生成模块,所述生成模块基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,所述存储器存储执行指令;以及,
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1示出了从微博网站获取的一个微博文本及从该评论内容中获取的情绪-原因-意图组合。
图2是根据本公开的一个实施方式的文本信息分析方法的流程示意图。
图3是根据本公开的又一个实施方式的文本信息分析方法的流程示意图。
图4是根据本公开的一个实施方式的采用处理***的硬件实现方式的文本信息分析装置的结构示意框图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图2是根据本公开的一个实施方式的文本信息分析方法的流程示意图,如图2所示,文本信息分析方法S100包括:
S102、对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
本步骤中,例如,对于一篇目标文本D=[c1,c2,...ci...cn],下标i为子句序号,n为目标文本的子句总数。首先每个子句被处理为ci=(wi1,wi2,...wid),w表示字符,表示该子句共d个字符。每个子句进一步被处理为:
c′i=([CLS],wi1,wi2,...wid,[SEP]);其中,[CLS]为子句开始符,[SEP]为子句结束符。
其中,目标文本D可以获取自微博网站或者其他具有评论功能的网站,例如某一用户在某一微博话题下的评论内容。
图1示出了从微博网站获取的一个微博文本(即目标文本)。
S104、获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
图1中示出了从该评论内容中获取的情绪特征-原因特征子句对,(1,3)和(1,5)。
S106、获取所述含有情绪特征的子句的情绪类别;
S108、获取所述向量化处理后的目标文本中含有意图信息的子句,例如图1中的微博文本的子句6;以及,
S110、基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
图1中示例性地示出了目标文本的情绪-原因-意图组合。
其中,情绪类别可以划分为9种,高兴、生气、害怕、厌恶、惊讶、伤心、羡慕、喜欢及感动。本公开不对情绪类别的划分做特别限定。
本公开的文本信息分析方法可以直接对提取自具有评论功能的网站(例如微博)目标文本进行处理。
目标文本的获取可以通过在微博网站完整热搜榜中爬取每日热搜话题,以每个热搜话题为关键词进行在微博搜索栏中进行搜索,爬取该话题下全部用户跟贴,组成跟帖列表,跟帖列表可以作为一个目标文本。
对于上述实施方式的文本信息分析方法S100,优选地,所述目标文本为提取自具有评论功能的网站的同一用户的目标文本,以实现对各个用户的情绪类别以及意图信息进行分析。
根据本公开的优选实施方式的文本信息分析方法,S104、获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对,包括:
基于图注意力神经网络获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句;以及,
对与所述含有情绪特征的子句之间的距离在第一预设距离内的含有原因特征的子句进行检测,获取含有情绪特征的子句与含有原因特征的子句之间的第一对应概率,对与所述含有原因特征的子句之间的距离在第一预设距离内的含有情绪特征的子句进行检测,获取含有原因特征的子句与含有情绪特征的子句之间的第二对应概率,如果所述第一对应概率与所述第二对应概率之平均值大于1/2,则将第一预设距离之内的含有情绪特征的子句与含有原因特征的子句组成为所述情绪特征-原因特征子句对。
可以使用一个多标签二分类器在窗口(窗口大小表征第一预设距离)内进行原因检测以及情绪检测。
对于上述各个实施方式的文本信息分析方法,优选地,S106、获取所述含有情绪特征的子句的情绪类别,包括:
使用第一前馈神经网络获取所述含有情绪特征的子句的情绪类别。
其中,第一前馈神经网络为经过标注数据集训练的前馈神经网络。
其中,标注数据集为标注了情绪类别标签的多个训练文本,各个训练文本被划分为多个子句。
对于上述各个实施方式的文本信息分析方法,优选地,S108、获取所述向量化处理后的目标文本中含有意图信息的子句,包括:
使用第二前馈神经网络获取所述向量化处理后的目标文本中含有意图信息的子句。
其中,第二前馈神经网络为经过标注数据集训练的前馈神经网络。
其中,标注数据集为至少标注了意图信息子句、情绪特征子句、原因特征子句的多个训练文本,各个训练文本被划分为多个子句。
对于上述各个实施方式的文本信息分析方法,优选地,S108、获取所述向量化处理后的目标文本中至少一个含有意图信息的子句,包括:
获取所述情绪特征-原因特征子句对应的含有意图信息的子句。
对于上述各个实施方式的文本信息分析方法,优选地,基于含有意图信息的子句的意图信息获取意图类别。
其中,意图类别可以通过第二前馈神经网络获取,标注数据集还对标注了意图信息的子句标注了意图类别,意图类别可以是“未来行动”、“期望”、“建议”等。
图3是本公开的另一个实施方式的文本信息分析方法S200的流程示意图,包括:
S202、对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
S204、获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
S206、获取所述情绪特征-原因特征子句对的情绪类别;
S208、获取所述向量化处理后的目标文本中含有意图信息的子句;以及,
S210、基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
优选地,S204、获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对,包括:
基于图注意力神经网络获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句;以及,
对与所述含有情绪特征的子句之间的距离在第一预设距离内的含有原因特征的子句进行检测,获取含有情绪特征的子句与含有原因特征的子句之间的第一对应概率,对与所述含有原因特征的子句之间的距离在第一预设距离内的含有情绪特征的子句进行检测,获取含有原因特征的子句与含有情绪特征的子句之间的第二对应概率,如果所述第一对应概率与所述第二对应概率之平均值大于1/2,则将第一预设距离之内的含有情绪特征的子句与含有原因特征的子句组成为所述情绪特征-原因特征子句对。
可以使用一个多标签二分类器在窗口(窗口大小表征第一预设距离)内进行原因检测以及情绪检测。
优选地,S206、获取所述情绪特征-原因特征子句对的情绪类别,包括:
使用第一前馈神经网络获取所述情绪特征-原因特征子句对的情绪类别。
其中,第一前馈神经网络为经过第一标注数据集训练的前馈神经网络。
其中,第一标注数据集为至少标注了情绪词/情感词以及情绪类别标签的多个训练文本,各个训练文本被划分为多个子句。
本公开的文本信息分析方法在情绪-原因子句对的抽取时考虑了社交媒体(例如评论型网站、微博、微信群等)的特点,对非规范情绪表达进行了基于训练模型的提取,并将意图这一语义角色作为抽取对象标注在数据中,有效地适应了情绪原因抽取的实际应用场景。
根据本公开的又一个方面,提供一种数据集构建方法,下文以新浪微博为具体实例对本公开的数据集构建方法进行详细说明。
数据集构建方法S300,包括:
S310、爬取新浪微博每日热点话题下的全部用户跟贴,并进行文本清洗、去重,组成生语料库;
S320、筛选出生语料库中同时包含情绪子句及对应原因子句的样本文本;
S330、根据样本文本中的情绪特征(即表达的情绪),确定文本中是否包含用户的意图信息(即用户表达的意图);
S340、对具有情绪特征、原因特征、意图信息的样本文本进行情绪特征、情绪类别、原因特征、意图信息、意图类别的标注。
其中,S310、爬取新浪微博每日热点话题下的全部用户跟贴,并进行文本清洗、去重,组成生语料库,包括:
在微博网站完整热搜榜中爬取每日热搜话题;
以每个热搜话题为关键词在微博搜索栏中进行搜索,爬取该话题下全部用户跟贴;以及,对全部跟帖进行去重,并将表情符号转换为文字符号,构建生语料库。
优选地,S320、筛选出生语料库中同时包含情绪子句及对应原因子句的样本文本,即根据微博文本是否带有情绪表达及其对应原因,决定该样本是否保留,包括:
预先定义情绪的类别;以及,根据定义的情绪类别,筛选带有情绪表达的样本文本,并在该样本文本中检测是否存在该情绪对应的原因,若存在,则将样本文本保留;否则将其从生语料库中去除。
进一步地,根据微博文本中表达的情绪及造成情绪的原因,判断该样本中是否包含用户的某种意图,包括:
在保留下来的样本文本中,根据用户表达的情绪及造成情绪的原因,判断该样本文本中是否包含用户的某种意图(即意图信息)。
优选地,S340、对具有情绪特征、原因特征、意图信息的样本文本进行情绪特征、情绪类别、原因特征、意图信息、意图类别的标注,包括:
标注出样本文本中全部情绪-原因的句子ID对;
标注出样本文本中带有情绪的句子的情绪类别;
标注出样本文本中全部意图表达的句子ID;
标注出全部意图表达的句子的意图类别。
根据本公开的一个实施方式的文本信息分析装置1000,包括:
向量化处理模块1002,所述向量化处理模块1002对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
第一获取模块1004,所述第一获取模块1004获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
第二获取模块1006,所述第二获取模块1006获取所述含有情绪特征的子句的情绪类别;例如前馈神经网络模型。
第三获取模块1008,所述第三获取模块1008获取所述向量化处理后的目标文本中含有意图信息的子句,例如前馈神经网络模型;以及,
生成模块1010,所述生成模块1010基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
本实施方式的文本信息分析装置1000可以通过计算机程序软件架构的方式实现。
其中,向量化处理模块1002优选地包括BERT模型。第一获取模块1004优选地包括两个图注意力神经网络及一个多标签而分类器模型。第二获取模块1006优选地包括前馈神经网络模型。
根据本公开的又一个实施方式的文本信息分析装置1000,包括:
向量化处理模块1002,所述向量化处理模块1002对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
第一获取模块1004,所述第一获取模块1004获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
第二获取模块1006,所述第二获取模块1006获取所述情绪特征-原因特征子句对的情绪类别;
第三获取模块1008,所述第三获取模块1008获取所述向量化处理后的目标文本中含有意图信息的子句;以及,
生成模块1010,所述生成模块1010基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
本实施方式的文本信息分析装置1000可以通过计算机程序软件架构的方式实现。
图4示出了采用处理***的硬件实现方式的文本信息分析装置的结构示意框图。
该文本信息分析装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如***设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。
本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种文本信息分析方法,其特征在于,包括:
对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
获取所述含有情绪特征的子句的情绪类别;
获取所述向量化处理后的目标文本中含有意图信息的子句;以及
基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
2.根据权利要求1所述的文本信息分析方法,其特征在于,所述目标文本为提取自具有评论功能的网站的同一用户的目标文本。
3.根据权利要求1或2所述的文本信息分析方法,其特征在于,获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对,包括:
基于图注意力神经网络获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句;以及
对与所述含有情绪特征的子句之间的距离在第一预设距离内的含有原因特征的子句进行检测,获取含有情绪特征的子句与含有原因特征的子句之间的第一对应概率,对与所述含有原因特征的子句之间的距离在第一预设距离内的含有情绪特征的子句进行检测,获取含有原因特征的子句与含有情绪特征的子句之间的第二对应概率,如果所述第一对应概率与所述第二对应概率之平均值大于1/2,则将第一预设距离之内的含有情绪特征的子句与含有原因特征的子句组成为所述情绪特征-原因特征子句对。
4.根据权利要求1至3中任一项所述的文本信息分析方法,其特征在于,获取所述含有情绪特征的子句的情绪类别,包括:
使用第一前馈神经网络获取所述含有情绪特征的子句的情绪类别。
5.根据权利要求4所述的文本信息分析方法,其特征在于,获取所述向量化处理后的目标文本中含有意图信息的子句,包括:
使用第二前馈神经网络获取所述向量化处理后的目标文本中至少一个含有意图信息的子句。
6.根据权利要求5所述的文本信息分析方法,其特征在于,获取所述向量化处理后的目标文本中含有意图信息的子句,包括:
获取所述情绪特征-原因特征子句对应的含有意图信息的子句。
7.根据权利要求1所述的文本信息处理方法,其特征在于,获取所述情绪特征-原因特征子句对的情绪类别,包括:
使用第一前馈神经网络获取所述情绪特征-原因特征子句对的情绪类别。
8.一种文本信息分析装置,其特征在于,包括:
向量化处理模块,所述向量化处理模块对目标文本进行向量化处理,获得所述目标文本的子句向量表示;
第一获取模块,所述第一获取模块获取所述向量化处理后的目标文本中至少一个含有情绪特征的子句及至少一个含有原因特征的子句,组成至少一个情绪特征-原因特征子句对;
第二获取模块,所述第二获取模块获取所述含有情绪特征的子句的情绪类别;
第三获取模块,所述第三获取模块获取所述向量化处理后的目标文本中含有意图信息的子句;以及
生成模块,所述生成模块基于所述情绪特征-原因特征子句对、所述情绪特征-原因特征子句对的情绪类别以及所述含有意图信息的子句生成所述目标文本的情绪-原因-意图组合。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的方法。
CN202111071139.1A 2021-09-13 2021-09-13 文本信息分析方法、装置、电子设备及存储介质 Pending CN113901790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071139.1A CN113901790A (zh) 2021-09-13 2021-09-13 文本信息分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071139.1A CN113901790A (zh) 2021-09-13 2021-09-13 文本信息分析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113901790A true CN113901790A (zh) 2022-01-07

Family

ID=79028057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071139.1A Pending CN113901790A (zh) 2021-09-13 2021-09-13 文本信息分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113901790A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676244A (zh) * 2022-05-27 2022-06-28 深圳市人马互动科技有限公司 信息处理方法、信息处理装置以及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676244A (zh) * 2022-05-27 2022-06-28 深圳市人马互动科技有限公司 信息处理方法、信息处理装置以及计算机可读存储介质
CN114676244B (zh) * 2022-05-27 2023-01-24 深圳市人马互动科技有限公司 信息处理方法、信息处理装置以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Hogenboom et al. Exploiting emoticons in sentiment analysis
EP2711849A2 (en) Learning opinion-related patterns for contextual and domain-dependent opinion detection
US10445428B2 (en) Information object extraction using combination of classifiers
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
Terrana et al. Automatic unsupervised polarity detection on a twitter data stream
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
Rendalkar et al. Sarcasm detection of online comments using emotion detection
JP5527845B2 (ja) 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
Asian et al. Sentiment analysis for the Brazilian anesthesiologist using multi-layer perceptron classifier and random forest methods
Shahade et al. Multi-lingual opinion mining for social media discourses: An approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
CN114647730A (zh) 一种融合图注意力和图卷积网络的事件检测方法
CN113901790A (zh) 文本信息分析方法、装置、电子设备及存储介质
Kasmuri et al. Subjectivity analysis in opinion mining—a systematic literature review
Cindo et al. Sentiment Analysis on Twitter By Using Maximum Entropy And Support Vector Machine Method
CN111681731A (zh) 一种对检查报告进行自动颜色标注的方法
Hamada et al. Sentimental text processing tool for Russian language based on machine learning algorithms
CN112052869A (zh) 一种用户心理状态识别方法及***
Hoek et al. Automatic coherence analysis of Dutch: Testing the subjectivity hypothesis on a larger scale
Dini et al. Soma: The smart social customer relationship management tool: Handling semantic variability of emotion analysis with hybrid technologies
Pyingkodi et al. Hate speech analysis using supervised machine learning techniques
CN112613315A (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
Sharma et al. An Optimized Approach for Sarcasm Detection Using Machine Learning Classifier
Durán et al. Similarity of sentences through comparison of syntactic trees with pairs of similar words
Akkineni et al. Hybrid Method for Framing Abstractive Summaries of Tweets.
Kodirekka et al. Preprocessing of aspect-based English Telugu code mixed sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination