CN115510860A - 一种文本情感分析方法、装置、电子设备及存储介质 - Google Patents
一种文本情感分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115510860A CN115510860A CN202211340090.XA CN202211340090A CN115510860A CN 115510860 A CN115510860 A CN 115510860A CN 202211340090 A CN202211340090 A CN 202211340090A CN 115510860 A CN115510860 A CN 115510860A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- analyzed
- determining
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本情感分析方法、装置、电子设备及存储介质,其中,该方法包括:获取待分析文本,并确定所述待分析文本所对应的第一待使用特征信息和第二待使用特征信息;确定与所述第一待使用特征信息所对应的第一嵌入向量,并确定与所述第二待使用特征信息相对应的第二嵌入向量;确定所述待分析文本所对应的待使用隐向量;根据所述第一嵌入向量、所述第二嵌入向量和所述待使用隐向量,确定所述待分析文本所对应的情感信息。解决了对文本所对应的情感信息分析不过准确,且分析效率较低的问题,取到了快速准确的对文本进行情感信息的分析。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本情感分析方法、装置、电子设备及存储介质。
背景技术
通过对文本信息进行情感分析,如,对用户评论文本信息进行情感分析,容易获取大众对某一事件或某一产品的看法。
目前,对文本情感分析大多是采用先提取方面词,再预测情感极性的管道方法,其步骤复杂而且存在方面词提取错误导致的错误扩散现象。而少部分采用联合方法,但这种方法只能局限于使用高效的编码器,而没有考虑使用更高级的模型框架和利用额外的知识来帮助提升模型的性能。
为了能够更加便捷地分析文本信息的情感倾向,需要对文本情感分析的方法进行改进。
发明内容
本发明提供了一种文本情感分析方法、装置、电子设备及存储介质,以解决对文本所对应的情感信息分析不过准确,且分析效率较低的问题。
第一方面,本发明实施例提供了一种文本情感分析方法,包括:
获取待分析文本,并确定所述待分析文本所对应的第一待使用特征信息和第二待使用特征信息;其中,所述第一待使用特征信息为上下文特征信息,所述第二待使用特征信息为句法特征信息;
确定与所述第一待使用特征信息所对应的第一嵌入向量,并确定与所述第二待使用特征信息相对应的第二嵌入向量;
确定所述待分析文本所对应的待使用隐向量;
根据所述第一嵌入向量、所述第二嵌入向量和所述待使用隐向量,确定所述待分析文本所对应的情感信息。
第二方面,本发明实施例还提供了一种文本情感分析装置,包括:
特征信息确定模块,用于获取待分析文本,并确定所述待分析文本所对应的第一待使用特征信息和第二待使用特征信息;其中,所述第一待使用特征信息为上下文特征信息,所述第二待使用特征信息为句法特征信息;
嵌入向量确定模块,用于确定与所述第一待使用特征信息所对应的第一嵌入向量,并确定与所述第二待使用特征信息相对应的第二嵌入向量;
隐向量确定模块,用于确定所述待分析文本所对应的待使用隐向量;
情感信息确定模块,用于根据所述第一嵌入向量、所述第二嵌入向量和所述待使用隐向量,确定所述待分析文本所对应的情感信息。
第三方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文本情感分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文本情感分析方法。
本实施例的技术方案,获取待分析文本,并确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息,通过构建与待分析文本相对应的依存句法树,可以确定待分析文本中各分词所对应的上下文特征信息和句法特征信息。确定与第一待使用特征信息所对应的第一嵌入向量,并确定与第二待使用特征信息相对应的第二嵌入向量,分别基于上下文特征嵌入矩阵确定第一嵌入向量,基于句法特征嵌入矩阵确定第二嵌入向量。确定待分析文本所对应的待使用隐向量,同时,基于BERT模型得到与待分析文本相对应的待使用隐向量,以根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。具体而言,根据上下文特征和句法特征随待分析文本情感信息的影响程度,自动确定第一嵌入向量的第一权重,第二嵌入向量的第二权重,以基于根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。解决了对文本所对应的情感信息分析不过准确,且分析效率较低的问题,取到了快速准确的对文本进行情感信息的分析。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种文本情感分析方法的流程图;
图2是根据本发明实施例二提供的一种文本情感分析方法的模型示意图;
图3是根据本发明实施例三提供的一种文本情感分析装置的结构示意图;
图4是实现本发明实施例的文本情感分析方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
在对本技术方案进行详细阐述之前,先对本技术方案的应用场景进行简单介绍,以便更加清楚地理解本技术方案。对于文本内容进行情感分析在多用场景下都非常实用,如,通过影评信息确定用户对电影的喜爱程度、或者通过用户评论信息了解用户对餐厅菜品或者服务的评价、或者是通过用户反馈信息了解用户对于电子产品的评价等,以基于用户的反馈信息以及相应的情感信息,更加了解用户需求以对相关产品进行改进。
实施例一
图1为本发明实施例一提供了一种文本情感分析方法的流程图,本实施例可适用于快速准确的对文本进行情感倾向的分析的情况,该方法可以由文本情感分析装置来执行,该文本情感分析装置可以采用硬件和/或软件的形式实现,该文本情感分析装置可配置于可执行文本情感分析方法的计算设备中。
如图1所示,该方法包括:
S110、获取待分析文本,并确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息。
其中,待分析文本可以理解为需要进行情感分析的文本信息,如,可以为评论区的用户评论信息、影评信息、书评信息以及任何具有情感倾向的文本信息。在本技术方案中,可以通过双通道注意力机制对待分析文本进行情感分析,所谓双通道注意力机制包括基于上下文特征对待分析文本进行情感分析的注意力机制,以及基于句法知识对待分析文本进行情感分析的注意力机制。第一待使用特征信息可以理解为基于上下文特征注意力机制,得到的与待分析文本相对应的上下文特征信息。第二待使用特征信息可以理解为基于句法知识注意力机制对待分析文本进行分析,得到的句法特征信息。
具体的,在对待分析文本进行情感分析时,可以同时对待分析文本的上下文特征信息以及句法知识特征信息进行分析,以得到相应的第一待使用特征信息和第二待使用特征信息。
可选的,确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息,包括:确定与待分析文本相对应的依存句法树;基于依存句法树中,各分词之间的上下文特征依赖关系,得到与待分析文本相对应的第一待使用特征信息;基于依存句法树中,各分词之间的句法依赖关系,得到与待分析文本相对应的第二待使用特征信息。
在本技术方案中,待分析文本中包括至少两个分词,依存句法树可以理解为包含待分析文本的上下文特征信息和句法特征信息的关系图,也就是说,依存句法树为基于各分词之间的上下文特征和句法特征进行构建的。
具体的,构建与待分析文本相对应的依存句法树,以根据依存句法树中的上下文特征依赖关系,以及句法依赖关系,分别得到与待分析文本相对应的第一待使用特征信息和第二待使用特征信息。
示例性地,待分析文本为“这个蘑菇海鲜汤很棒”,以其中的“汤”字为例,可以选取“汤”字前面的r个词,以及后面的r个词,如当r=1时,与“汤”相对应的第一待使用特征信息为“海鲜”和“很”为待分析文本的第一待使用特征信息。同时,在这个待分析文本中,根据句法知识特征可以确定,相对于“汤”字,“这个”为限定词,“蘑菇”和“海鲜”为描述性词语,“棒”为修饰词,而“很”字用于表征“棒”的程度,与“汤”字无直接关联。根据待分析文本中各分词与“汤”字之间的句法知识,可以得到与待分析文本相对应的第二待使用特征信息,即,第二待使用特征信息用于表征待分析文本的句法知识的信息。
S120、确定与第一待使用特征信息所对应的第一嵌入向量,并确定与第二待使用特征信息相对应的第二嵌入向量。
其中,第一待使用向量为对第一待使用特征信息进行向量化处理后得到的向量。相应的,第二待使用向量为对第二待使用特征信息进行向量化处理后得到的向量。
在本技术方案中,确定与第一待使用特征信息所对应的第一嵌入向量,包括:基于第一嵌入函数,将第一待使用特征信息进行映射处理,得到第一待使用映射信息;确定第一待使用映射信息,在上下文特征嵌入矩阵中的第一位置信息,并根据第一位置信息所对应的矩阵元素,确定第一待使用映射信息所对应的第一嵌入向量。
其中,第一嵌入函数可以理解为将第一待使用特征信息进行映射处理,得到相应的第一待使用映射信息的函数。通过进一步对第一待使用映射信息进行向量化处理,则可以得到第一嵌入向量。上下文特征嵌入矩阵可以理解为预先构建的包含大量分词的信息矩阵。
示例性地,上下文特征嵌入矩阵中包含2万个分词,各分词分别位于矩阵的不同行,每个矩阵行对应唯一的向量值。基于第一嵌入函数,对待分析文本中的各分词分别进行分词,以当前分词为例,其中,当前分词可以作为第一待使用特征信息,根据当前分词在上下文嵌入矩阵中所对应的矩阵行,即第一位置信息,可以得到与当前分词相对应的唯一向量值,即与第一位置相对应的矩阵元素,并将该矩阵元素确定为第一嵌入向量。
可选的,确定与第二待使用特征信息相对应的第二嵌入向量,包括:基于第二嵌入函数,将第二待使用特征信息进行映射处理,得到第二待使用映射信息;确定第二待使用映射信息,在句法特征嵌入矩阵中的第二位置信息,并根据第二位置信息所对应的矩阵元素,确定第二待使用映射信息所对应的第二嵌入向量。
其中,第二嵌入函数可以理解为将第二待使用特征信息进行映射处理,得到相应的第二待使用映射信息的函数。通过进一步对第二待使用映射信息进行向量化处理,则可以得到第二嵌入向量。句法特征嵌入矩阵可以理解为预先构建的包含大量句法知识的信息矩阵,如,可以包括名词短语、主语、修饰语以及程度副词的句法关系等。
示例性地,句法特征嵌入矩阵中包含500个句法知识,各分词分别位于矩阵的不同行,每个矩阵行对应唯一的向量值。基于第二嵌入函数,对待分析文本中的各分词分别进行分词,以当前分词为例,其中,当前分词可以作为第二待使用特征信息,根据当前分词在句法嵌入矩阵中所对应的矩阵行,即第二位置信息,可以得到与当前分词相对应的唯一向量值,即与第二位置相对应的矩阵元素,并将该矩阵元素确定为第二嵌入向量。
S130、确定待分析文本所对应的待使用隐向量。
在本技术方案中,待使用隐向量为基于语言表征模型(BidirectionalEncoderRepresentations from Transformer,BERT)对待分析文本进行向量化处理后,得到的向量。
在实际应用中,确定待分析文本所对应的待使用隐向量,包括:基于语言表征模型,对待分析文本进行编码,得到与待分析文本中各分词相对应的待使用分词向量;将各待使用分词向量进行拼接处理,得到与待分析文本相对应的待使用隐向量。
其中,待使用分词可以理解为待分析文本中的各分词。待使用分词向量即为与各分词相对应的隐向量。待使用隐向量为基于各待使用分词向量进行拼接处理后,得到的隐向量。
具体的,将待分析文本输入BERT模型中,并基于BERT模型对待分析文本中的各待使用分词进行编码,可以得到与各待使用分词相对应的待使用分词向量,示例性地,将输入该模型中,采用BERT模型的标准编码方式对矩阵中每个待使用分词进行编码,输出各分词所对应的上下文向量表征,即为与各分词相对应的待使用分词向量。其中,将第i各分词xi的待使用分词向量记为hi,则待分析文本所对应的待使用隐向量即可以表示为:
h1…hn=BERT(x1x2…xn)
其中,n表示待使用分词的数量,hn表示待使用分析向量,h1…hn表示待使用隐向量,x表示待分析文本中的待使用分词。
S140、根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。
在本技术方案中,经过上述内容对待分析文本进行处理后,在第一嵌入向量中包括与待分析文本相对应的上下文特征信息,在第二嵌入向量中包括与待分析文本相对应的句法特征信息,同时,在待使用隐向量中包含与待分析文本相对应的情感特征信息。基于此,根据第一嵌入向量、第二嵌入向量和待使用隐向量,可以确定待分析文本所对应的情感信息。
可选的,根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息,包括:根据第一嵌入向量和待使用隐向量,确定第一嵌入向量所对应的第一权重;根据第二嵌入向量和待使用隐向量,确定第二嵌入向量所对应的第二权重;根据第一嵌入向量、第一权重、第二嵌入向量和第二权重,确定待分析文本所对应的情感信息。
在本技术方案中,可以通过分析上下文特征和语法特征在情感分析中的影响程度,以确定与第一嵌入向量相对应的第一权重,以及与第二嵌入向量相对应的第二权重。
具体的,可以通过以下公式确定第一权重:
可以通过以下公式确定第二权重:
需要说明的是,在本技术方案中,第一嵌入向量可以是针对待分析文本中的各待使用分词所对应的向量,相应的,第二嵌入向量为针对待分析文本中的各待使用分词所对应的向量。而与待分析文本相对应的上下文特征向量为基于多个第一嵌入向量拼接得到的,与待分析文本相对应的语法特征向量为基于多个第二嵌入向量得到的。也就是说,在本技术方案中是通过对每个待使用分词分别进行处理后,可以得到与各待使用分词相对应的情感信息。
进一步的,根据第一嵌入向量、第一权重、第二嵌入向量和第二权重,确定待分析文本所对应的情感信息,包括:基于第一嵌入向量和第一权重,得到第一待拼接向量,并基于第二嵌入向量和第二权重,得到第二待拼接向量;将第一待拼接向量和第二待拼接向量进行拼接处理,得到目标向量;将目标向量输入预先构建的解码器,以基于解码器对目标向量进行情感分析,以确定待分析文本所对应的情感信息。
其中,第一待拼接向量可以理解为基于第一嵌入向量和第一权重相乘得到的向量,第二待拼接向量可以理解为基于第二嵌入向量和第二权重相乘得到的向量。目标向量可以理解为对第一待拼接向量和第二待拼接向量拼接得到的向量。例如,将待分析文本中的分词1所对应的第一待拼接向量和第二待拼接向量进行拼接,得到与分词1相对应的目标向量。
具体的,第一待拼接向量可以基于以下公式得到:
第二拼接向量可以基于以下公式得到:
进一步的,基于以下公式可以得到目标向量:
最后,在与待分析文本中的各分词相对应的目标向量后,基于各目标向量进行拼接处理,可以得到与待分析文本相对应的目标向量。将与待分析文本相对应的目标向量输入全连接层进行处理,以将处理后的向量输入预先构建的解码器中和,如,送入softmax解码器,即可得到与各分词相对应的标签,以根据每个分词的标签的含义,输出模型预测的方面词以及其情感极性。
也就是说,若在待分析文本中包含10个分词,在最后的输出结果中,即包括与这个10个分词相对应的情感信息,具体的情感信息可以用“积极”或“消极”进行表示。这样设置的好处在于,可以对待分析文本中的各分词分别进行情感信息的分析,颗粒度更细,可以更好的帮助对待分析文本的情感分析。
本技术方案的优势在于,通过双通道注意力机制对待分析文本进行分析,可以同时对待分析文本的上下文特征和句法特征进行分析,更加快速,且通过对待分析文本中的各分词进行情感分析,得到的待分析文本所对应的情感信息更加准确。
本实施例的技术方案,获取待分析文本,并确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息,通过构建与待分析文本相对应的依存句法树,可以确定待分析文本中各分词所对应的上下文特征信息和句法特征信息。确定与第一待使用特征信息所对应的第一嵌入向量,并确定与第二待使用特征信息相对应的第二嵌入向量,分别基于上下文特征嵌入矩阵确定第一嵌入向量,基于句法特征嵌入矩阵确定第二嵌入向量。确定待分析文本所对应的待使用隐向量,同时,基于BERT模型得到与待分析文本相对应的待使用隐向量,以根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。具体而言,根据上下文特征和句法特征随待分析文本情感信息的影响程度,自动确定第一嵌入向量的第一权重,第二嵌入向量的第二权重,以基于根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。解决了对文本所对应的情感信息分析不过准确,且分析效率较低的问题,取到了快速准确的对文本进行情感信息的分析。
实施例二
在一个具体的例子中,本技术方案中对待分析文本进行情感信息的分词的模型结构如图2所示,其中,模型中的右侧的上下文特征与句法知识特征的例子均以“汤”为例给出。需要说明的是,在本技术方案中,待分析文本通常为包含至少两个分词的文本,但是在对待分析文本进行情感分析时,是通过对待分析文本中的各分词分别进行情感分析。也就是说,若在待分析文本中包含10个分词,则最终得到的情感情感信息的数量为10,个,与各分词一一对应。
在图2的模型中,采用了序列标注的基本框架,待分析中的每个分词被赋予一个标签。其中,方面词的标签由两部分组成,第一部分表示该方面词在所有方面词中的位置,第二部分表示该方面词所对应的情感极性,具体的,可以用“POS”表示积极情感,用“NEG”表示消极情感。示例性地,待分析文本为“这个蘑菇海鲜汤很棒”,其中,“蘑菇”在方面词“蘑菇海鲜汤”中位于开始,则其第一部分的标签为B,其情感极性为积极情感,则第二部分标签为“POS”;相类似的,“海鲜”在“蘑菇海鲜汤”中位于开始,则其第一部分标签为I,其情感极性为积极情感,则第二部分标签为“POS”;而“这个”并不属于任何方面词,则其标签为“O”。
另外,需要说明的是,在本技术方案中,采用了标准的编码解码架构,其中,编码器采用BERT模型,解码器采用softmax解码器。在本技术方案中,基于双通道注意力机制对待分析文本进行分析,具体而言,本技术方案通过上下文通道注意力机制和句法知识特征通道注意力机制,同时对待分析文本进行分析,以得到与待分析文本相对应的情感信息。
示例性地,在提取各分词的上下文特征时,可以选取该分词前r个词以及后r个词(即,xi-r,…,xi-1,xi+1,…,xi+r),共计2r个词组成xi的上下文特征(即,第一待使用特征信息),记为Ci=[ci,1,…ci,j…ci,2r]。其中,在本技术方案中,r可以选取为1,但r的取值可以根据实际情况进行设置,也可以设置为其他自然数。同时,提取各分词所对应的句法知识特征(即,第二待使用特征信息)。具体的,可以选取所有与xi存在依存句法关系的分词,以及该分词与xi之间的依存句法关系类型,并把该分词与依存句法关系类型拼接,形成句法知识特征信息,记为 其中mi表示与xi关联的句法知识的个数。
以xi=“汤”为例,与“汤”有关的词有“这个”、“蘑菇”、“海鲜”、“棒”,他们与“汤”之间的依存句法关系类型依次为“det”,“compound”,“compound”,“nsubj”,所以最后得到的句法知识为S4=[这个-det,蘑菇-compound,海鲜-compound,棒-nsubj]。其中,det表示限定词,compound表示复合标识符,nsubj表示名词主语。
进一步的,通过第一嵌入函数,将第一待使用特征信息ci,j映射为上下文特征嵌入具体的,可以预先构建一个包含所有上下文特征的词表(即,上下文特征嵌入矩阵),并赋予每个上下文特征一个序号(即,第一映射信息),接下来,从上下文特征嵌入矩阵(该矩阵的行数等于词表中词的个数)中,提取上下文特征对应序号的行数所对应的向量,作为上下文特征的嵌入(即,第一嵌入向量)。
相类似的,通过第二嵌入函数,将句法知识si,k映射为句法知识嵌入具体的,可以预先构建一个包含所有句法知识特征的词表(即,句法特征嵌入矩阵),并赋予每个句法知识特征一个序号(即,第二映射信息),接下来,从句法特征嵌入矩阵(该矩阵的行数等于词表中词的个数)中,提取句法特征嵌入矩阵对应序号的行数所对应的向量,作为句法特征嵌入矩阵的嵌入(即,第二嵌入向量)。
同时,还需要使用BERT模型对待分析文本进行编码,得到每个分词所对应的隐向量(即,待使用分词向量)。即,把句子输入标准的BERT模型,采用BERT标准的编码方式,对句子中的每个词进行编码,输出相应的隐向量。其中,第i个词xi的隐向量记为hi。具体的,可以采用以下公式得到:
h1…hn=BERT(x1 x2…xn)
其中,n表示待使用分词的数量,hn表示待使用分析向量,h1…hn表示待使用隐向量,x表示待分析文本中的待使用分词。
进一步的,基于以下公式确定与第一嵌入向量相对应的第一权重:
进一步的,基于第一嵌入向量和第一权重,得到第一待拼接向量。其中,第一待拼接向量可以基于以下公式得到:
相类似地,基于以下公式确定与第二嵌入向量相对应的第二权重:
进一步的,基于第二嵌入向量和第二权重,得到第二待拼接向量。其中,第二待拼接向量可以基于以下公式得到:
接下来,基于第一待拼接向量和第二待拼接向量可以得到目标向量,具体的,目标向量可以通过以下公式确定:
最后,在与待分析文本中的各分词相对应的目标向量后,基于各目标向量进行拼接处理,可以得到与待分析文本相对应的目标向量。将与待分析文本相对应的目标向量输入全连接层进行处理,以将处理后的向量输入预先构建的解码器中和,如,送入softmax解码器,即可得到与各分词相对应的标签,以根据每个分词的标签的含义,输出模型预测的方面词以及其情感极性。
也就是说,若在待分析文本中包含10个分词,在最后的输出结果中,即包括与这个10个分词相对应的情感信息,具体的情感信息可以用“积极”或“消极”进行表示。这样设置的好处在于,可以对待分析文本中的各分词分别进行情感信息的分析,颗粒度更细,可以更好的帮助对待分析文本的情感分析。
本实施例的技术方案,获取待分析文本,并确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息,通过构建与待分析文本相对应的依存句法树,可以确定待分析文本中各分词所对应的上下文特征信息和句法特征信息。确定与第一待使用特征信息所对应的第一嵌入向量,并确定与第二待使用特征信息相对应的第二嵌入向量,分别基于上下文特征嵌入矩阵确定第一嵌入向量,基于句法特征嵌入矩阵确定第二嵌入向量。确定待分析文本所对应的待使用隐向量,同时,基于BERT模型得到与待分析文本相对应的待使用隐向量,以根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。具体而言,根据上下文特征和句法特征随待分析文本情感信息的影响程度,自动确定第一嵌入向量的第一权重,第二嵌入向量的第二权重,以基于根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。解决了对文本所对应的情感信息分析不过准确,且分析效率较低的问题,取到了快速准确的对文本进行情感信息的分析。
实施例三
图3为本发明实施例三提供的一种文本情感分析装置的结构示意图。如图3所示,该装置包括:特征信息确定模块210、嵌入向量确定模块220、隐向量确定模块230和情感信息确定模块240。
其中,特征信息确定模块210,用于获取待分析文本,并确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息;其中,第一待使用特征信息为上下文特征信息,第二待使用特征信息为句法特征信息;
嵌入向量确定模块220,用于确定与第一待使用特征信息所对应的第一嵌入向量,并确定与第二待使用特征信息相对应的第二嵌入向量;
隐向量确定模块230,用于确定待分析文本所对应的待使用隐向量;
情感信息确定模块240,用于根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。
本实施例的技术方案,获取待分析文本,并确定待分析文本所对应的第一待使用特征信息和第二待使用特征信息,通过构建与待分析文本相对应的依存句法树,可以确定待分析文本中各分词所对应的上下文特征信息和句法特征信息。确定与第一待使用特征信息所对应的第一嵌入向量,并确定与第二待使用特征信息相对应的第二嵌入向量,分别基于上下文特征嵌入矩阵确定第一嵌入向量,基于句法特征嵌入矩阵确定第二嵌入向量。确定待分析文本所对应的待使用隐向量,同时,基于BERT模型得到与待分析文本相对应的待使用隐向量,以根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。具体而言,根据上下文特征和句法特征随待分析文本情感信息的影响程度,自动确定第一嵌入向量的第一权重,第二嵌入向量的第二权重,以基于根据第一嵌入向量、第二嵌入向量和待使用隐向量,确定待分析文本所对应的情感信息。解决了对文本所对应的情感信息分析不过准确,且分析效率较低的问题,取到了快速准确的对文本进行情感信息的分析。
可选的,特征信息确定模块,包括:句法树确定单元,用于确定与待分析文本相对应的依存句法树;其中,待分析文本中包括至少两个分词,依存句法树为基于各分词之间的上下文特征和句法特征进行构建的;
第一待使用特征信息确定单元,用于基于依存句法树中,各分词之间的上下文特征依赖关系,得到与待分析文本相对应的第一待使用特征信息;
第二待使用特征信息确定单元,用于基于依存句法树中,各分词之间的句法依赖关系,得到与待分析文本相对应的第二待使用特征信息。
可选的,嵌入向量确定模块,包括:第一待使用映射信息确定单元,用于基于第一嵌入函数,将第一待使用特征信息进行映射处理,得到第一待使用映射信息;
第一嵌入向量确定单元,用于确定第一待使用映射信息,在上下文特征嵌入矩阵中的第一位置信息,并根据第一位置信息所对应的矩阵元素,确定第一待使用映射信息所对应的第一嵌入向量。
可选的,嵌入向量确定模块,还包括:第二待使用映射信息确定单元,用于基于第二嵌入函数,将第二待使用特征信息进行映射处理,得到第二待使用映射信息;
第二嵌入向量确定单元,用于确定第二待使用映射信息,在句法特征嵌入矩阵中的第二位置信息,并根据第二位置信息所对应的矩阵元素,确定第二待使用映射信息所对应的第二嵌入向量。
可选的,隐向量确定模块包括:分词分量确定单元,用于基于语言表征模型,对待分析文本进行编码,得到与待分析文本中各分词相对应的待使用分词向量;
隐向量确定单元,用于将各待使用分词向量进行拼接处理,得到与待分析文本相对应的待使用隐向量。
可选的,情感信息确定模块,包括:第一权重确定单元,用于根据第一嵌入向量和待使用隐向量,确定第一嵌入向量所对应的第一权重;
第二权重确定单元,用于根据第二嵌入向量和待使用隐向量,确定第二嵌入向量所对应的第二权重;
情感信息确定单元,用于根据第一嵌入向量、第一权重、第二嵌入向量和第二权重,确定待分析文本所对应的情感信息。
可选的,情感信息确定单元,包括:拼接向量确定子单元,用于基于第一嵌入向量和第一权重,得到第一待拼接向量,并基于第二嵌入向量和第二权重,得到第二待拼接向量;
目标向量确定子单元,用于将第一待拼接向量和第二待拼接向量进行拼接处理,得到目标向量;
情感信息子确定单元,用于将目标向量输入预先构建的解码器,以基于解码器对目标向量进行情感分析,以确定待分析文本所对应的情感信息。
本发明实施例所提供的文本情感分析装置可执行本发明任意实施例所提供的文本情感分析方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4示出了本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如文本情感分析方法。
在一些实施例中,文本情感分析方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的文本情感分析方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本情感分析方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的文本情感分析方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种文本情感分析方法,其特征在于,包括:
获取待分析文本,并确定所述待分析文本所对应的第一待使用特征信息和第二待使用特征信息;其中,所述第一待使用特征信息为上下文特征信息,所述第二待使用特征信息为句法特征信息;
确定与所述第一待使用特征信息所对应的第一嵌入向量,并确定与所述第二待使用特征信息相对应的第二嵌入向量;
确定所述待分析文本所对应的待使用隐向量;
根据所述第一嵌入向量、所述第二嵌入向量和所述待使用隐向量,确定所述待分析文本所对应的情感信息。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待分析文本所对应的第一待使用特征信息和第二待使用特征信息,包括:
确定与所述待分析文本相对应的依存句法树;其中,所述待分析文本中包括至少两个分词,所述依存句法树为基于各分词之间的上下文特征和句法特征进行构建的;
基于所述依存句法树中,各所述分词之间的上下文特征依赖关系,得到与所述待分析文本相对应的第一待使用特征信息;
基于所述依存句法树中,各所述分词之间的句法依赖关系,得到与所述待分析文本相对应的第二待使用特征信息。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述第一待使用特征信息所对应的第一嵌入向量,包括:
基于第一嵌入函数,将所述第一待使用特征信息进行映射处理,得到第一待使用映射信息;
确定所述第一待使用映射信息,在上下文特征嵌入矩阵中的第一位置信息,并根据所述第一位置信息所对应的矩阵元素,确定所述第一待使用映射信息所对应的第一嵌入向量。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述第二待使用特征信息相对应的第二嵌入向量,包括:
基于第二嵌入函数,将所述第二待使用特征信息进行映射处理,得到第二待使用映射信息;
确定所述第二待使用映射信息,在句法特征嵌入矩阵中的第二位置信息,并根据所述第二位置信息所对应的矩阵元素,确定所述第二待使用映射信息所对应的第二嵌入向量。
5.根据权利要求1所述的方法,其特征在于,所述确定所述待分析文本所对应的待使用隐向量,包括:
基于语言表征模型,对所述待分析文本进行编码,得到与所述待分析文本中各分词相对应的待使用分词向量;
将各待使用分词向量进行拼接处理,得到与所述待分析文本相对应的待使用隐向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一嵌入向量、所述第二嵌入向量和所述待使用隐向量,确定所述待分析文本所对应的情感信息,包括:
根据所述第一嵌入向量和所述待使用隐向量,确定所述第一嵌入向量所对应的第一权重;
根据所述第二嵌入向量和所述待使用隐向量,确定所述第二嵌入向量所对应的第二权重;
根据所述第一嵌入向量、所述第一权重、所述第二嵌入向量和所述第二权重,确定所述待分析文本所对应的情感信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一嵌入向量、所述第一权重、所述第二嵌入向量和所述第二权重,确定所述待分析文本所对应的情感信息,包括:
基于所述第一嵌入向量和所述第一权重,得到第一待拼接向量,并基于所述第二嵌入向量和所述第二权重,得到第二待拼接向量;
将所述第一待拼接向量和所述第二待拼接向量进行拼接处理,得到目标向量;
将所述目标向量输入预先构建的解码器,以基于所述解码器对所述目标向量进行情感分析,以确定所述待分析文本所对应的情感信息。
8.一种文本情感分析装置,其特征在于,包括:
特征信息确定模块,用于获取待分析文本,并确定所述待分析文本所对应的第一待使用特征信息和第二待使用特征信息;其中,所述第一待使用特征信息为上下文特征信息,所述第二待使用特征信息为句法特征信息;
嵌入向量确定模块,用于确定与所述第一待使用特征信息所对应的第一嵌入向量,并确定与所述第二待使用特征信息相对应的第二嵌入向量;
隐向量确定模块,用于确定所述待分析文本所对应的待使用隐向量;
情感信息确定模块,用于根据所述第一嵌入向量、所述第二嵌入向量和所述待使用隐向量,确定所述待分析文本所对应的情感信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本情感分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文本情感分析方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211340090.XA CN115510860A (zh) | 2022-10-27 | 2022-10-27 | 一种文本情感分析方法、装置、电子设备及存储介质 |
PCT/CN2022/134576 WO2024087297A1 (zh) | 2022-10-27 | 2022-11-28 | 文本情感分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211340090.XA CN115510860A (zh) | 2022-10-27 | 2022-10-27 | 一种文本情感分析方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510860A true CN115510860A (zh) | 2022-12-23 |
Family
ID=84512623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211340090.XA Pending CN115510860A (zh) | 2022-10-27 | 2022-10-27 | 一种文本情感分析方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115510860A (zh) |
WO (1) | WO2024087297A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841119A (zh) * | 2023-02-21 | 2023-03-24 | 中国科学技术大学 | 一种基于图结构的情绪原因提取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150286627A1 (en) * | 2014-04-03 | 2015-10-08 | Adobe Systems Incorporated | Contextual sentiment text analysis |
CN109933795B (zh) * | 2019-03-19 | 2023-07-28 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析*** |
CN110955750A (zh) * | 2019-11-11 | 2020-04-03 | 北京三快在线科技有限公司 | 评论区域和情感极性的联合识别方法、装置、电子设备 |
CN112001185B (zh) * | 2020-08-26 | 2021-07-20 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN113065331A (zh) * | 2021-04-15 | 2021-07-02 | 上海金融期货信息技术有限公司 | 基于实体上下文判别的实体情感识别方法和*** |
-
2022
- 2022-10-27 CN CN202211340090.XA patent/CN115510860A/zh active Pending
- 2022-11-28 WO PCT/CN2022/134576 patent/WO2024087297A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841119A (zh) * | 2023-02-21 | 2023-03-24 | 中国科学技术大学 | 一种基于图结构的情绪原因提取方法 |
CN115841119B (zh) * | 2023-02-21 | 2023-06-16 | 中国科学技术大学 | 一种基于图结构的情绪原因提取方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024087297A1 (zh) | 2024-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
EP3872652B1 (en) | Method and apparatus for processing video, electronic device, medium and product | |
CN112579727B (zh) | 文档内容的提取方法、装置、电子设备及存储介质 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN110874536B (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN110287405B (zh) | 情感分析的方法、装置和存储介质 | |
CN113407610B (zh) | 信息抽取方法、装置、电子设备和可读存储介质 | |
CN113657100A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN115640520A (zh) | 跨语言跨模态模型的预训练方法、设备和存储介质 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN110738056A (zh) | 用于生成信息的方法和装置 | |
CN114267375B (zh) | 音素检测方法及装置、训练方法及装置、设备和介质 | |
CN115510860A (zh) | 一种文本情感分析方法、装置、电子设备及存储介质 | |
CN117436438A (zh) | 情感分析方法、大语言模型的训练方法及装置 | |
CN117290515A (zh) | 文本标注模型的训练方法、文生图方法及装置 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN114880520B (zh) | 视频标题生成方法、装置、电子设备和介质 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN111666405A (zh) | 用于识别文本蕴含关系的方法和装置 | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN113239273B (zh) | 用于生成文本的方法、装置、设备以及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN114297380A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN112560437A (zh) | 文本通顺度的确定方法、目标模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |