CN110287405A - 情感分析的方法、装置和存储介质 - Google Patents

情感分析的方法、装置和存储介质 Download PDF

Info

Publication number
CN110287405A
CN110287405A CN201910421553.7A CN201910421553A CN110287405A CN 110287405 A CN110287405 A CN 110287405A CN 201910421553 A CN201910421553 A CN 201910421553A CN 110287405 A CN110287405 A CN 110287405A
Authority
CN
China
Prior art keywords
target entity
article
detected
title
sentiment analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910421553.7A
Other languages
English (en)
Other versions
CN110287405B (zh
Inventor
吕中厚
刘焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910421553.7A priority Critical patent/CN110287405B/zh
Publication of CN110287405A publication Critical patent/CN110287405A/zh
Application granted granted Critical
Publication of CN110287405B publication Critical patent/CN110287405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种情感分析的方法、装置和存储介质,该方法包括:获取待检测文章的标题中的目标实体;在待检测文章的正文中获取包含有目标实体的目标语句;根据情感分析模型,获取标题和目标语句中目标实体的情感分数,情感分析模型用于表征语句中的实体与情感分数的对应关系;根据标题和目标语句中目标实体的情感分数,获取待检测文章中目标实体的情感分数。本申请能够在包含有多实体的文章中获取目标实体的情感分数,提高文章情感分析结果的可信度。

Description

情感分析的方法、装置和存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种情感分析的方法、装置和存储介质。
背景技术
情感分析又称倾向性分析、意见抽取、意见挖掘、情感挖掘、主观分析等,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。在互联网高速发展的今天,微博、新闻、论坛、博客和微信等互联网平台每天生成海量的文本数据,情感分析能够自动有效检测出这些观点数据的情感倾向。
现有技术中,采用文本数据集构建深度学习模型的方式对文章进行情感分析。该方法对短文章,如微博、评论等分析效果显著,因为短文章中往往仅包含有一个实体,情感分析结果均是针对该一个实体的情感分析的。但对于包含多个实体长文章,该方法获取的情感分析结果是对整个文章中所有的实体的混合情感分析结果,情感分析结果的可信度低。
发明内容
本申请提供一种情感分析的方法、装置和存储介质,能够在包含有多实体的文章中获取目标实体的情感分数,提高文章情感分析结果的可信度。。
本申请的第一方面提供一种情感分析的方法,包括:
获取待检测文章的标题中的目标实体;
在所述待检测文章的正文中获取包含有所述目标实体的目标语句;
根据情感分析模型,获取所述标题和所述目标语句中所述目标实体的情感分数,所述情感分析模型用于表征语句中的实体与情感分数的对应关系;
根据所述标题和所述目标语句中所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
可选的,所述获取待检测文章的标题中的目标实体,包括:
将所述待检测文章的标题进行分词,获取具有预设词性的目标词语;
根据所述待检测文章的标题的语义,在所述目标词语中获取所述目标实体。
可选的,所述获取待检测文章的标题中的目标实体,包括:
接收用户输入的目标实体确认指令,所述目标实体确认指令用于指示所述目标实体;
根据所述目标实体确认指令,获取所述目标实体。
可选的,所述在所述待检测文章的正文中获取包含有所述目标实体的目标语句,包括:
依据预设分隔符,将所述待检测文章的正文划分为多个候选语句;
将包含有所述目标实体候选语句作为所述目标语句,包含有所述目标实体候选语句为:包含有所述目标实体对应的词语的候选语句,以及语义中包含有所述目标实体的候选语句。
可选的,所述获取所述待检测文章中所述目标实体的情感分数,包括:
根据标题的权重、正文的权重、所述标题和所述目标语句中的所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
可选的,所述方法还包括:
将样本标题、样本正文语句,所述样本标题的情感标记、以及所述样本正文语句的情感标记作为训练数据集,训练获取所述情感分析模型,情感标记为:所述样本标题或所述样本正文语句中的实体的期望情感分数,所述情感分析模型输出的实际情感分数与所述期望情感分数的差值小于差值阈值。
可选的,所述情感分析模型是基于textcnn网络结构训练获取的。
本申请的第二方面提供一种情感分析的装置,包括:
处理模块,用于获取待检测文章的标题中的目标实体;在所述待检测文章的正文中获取包含有所述目标实体的目标语句;根据情感分析模型,获取所述标题和所述目标语句中所述目标实体的情感分数,所述情感分析模型用于表征语句中的实体与情感分数的对应关系;根据所述标题和所述目标语句中所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
可选的,所述处理模块,具体用于将所述待检测文章的标题进行分词,获取具有预设词性的目标词语;根据所述待检测文章的标题的语义,在所述目标词语中获取所述目标实体。
可选的,所述装置还包括:收发模块;
所述收发模块,用于接收用户输入的目标实体确认指令,所述目标实体确认指令用于指示所述目标实体。
所述处理模块,还用于根据所述目标实体确认指令,获取所述目标实体。
可选的,所述处理模块,具体用于依据预设分隔符,将所述待检测文章的正文划分为多个候选语句;将包含有所述目标实体候选语句作为所述目标语句,包含有所述目标实体候选语句为:包含有所述目标实体对应的词语的候选语句,以及语义中包含有所述目标实体的候选语句。
可选的,所述处理模块,具体用于根据标题的权重、正文的权重、所述标题和所述目标语句中的所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
可选的,所述处理模块,具体用于将样本标题、样本正文语句,所述样本标题的情感标记、以及所述样本正文语句的情感标记作为训练数据集,训练获取所述情感分析模型,情感标记为:所述样本标题或所述样本正文语句中的实体的期望情感分数,所述情感分析模型输出的实际情感分数与所述期望情感分数的差值小于差值阈值。
可选的,所述情感分析模型是所述处理模块基于textcnn网络结构训练获取的。
本申请的第三方面提供一种情感分析的装置,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述情感分析的装置执行上述情感分析的方法。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现上述情感分析的方法。
本申请提供一种情感分析的方法、装置和存储介质,对于包含有多实体的文章,可以先根据文章的标题确定目标实体,进而再在文章的正文中获取包含有目标实体的目标语句。采用情感分析模型,获取所述标题和所述目标语句中所述目标实体的情感分数,进而能够获取所述待检测文章中所述目标实体的情感分数。本申请中的方法能够在包含有多实体的文章中获取对目标实体的情感分数,提高文章情感分析结果的可信度。
附图说明
图1为本申请提供的情感分析的方法的流程示意图一;
图2为本申请提供的情感分析的方法的流程示意图二;
图3为本申请提供的界面示意图;
图4为本申请提供的情感分析的装置的结构示意图一;
图5为本申请提供的情感分析的装置的结构示意图二。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请的实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
情感分析方法应用于各个领域。例如,电影售票的应用程序可以采用情感分析,检测用户对电影的观影感受;舆情***可以采用情感分析,检测热点话题的社会舆情影响;点评评价网站可以采用情感分析,检测餐馆、菜品、商铺的好评度。
现有技术中的情感分析方法,针对包含有一个实体的短文章来说分析效果显著。例如,用户在点评网站中对A餐馆进行点评,该点评文本(文章)中的实体为A餐馆,则对该点评文本进行情感分析的结果即为对该A餐馆的情感分析结果,如A餐馆的情感分析结果为好评80分。而对于包含有多实体的长文章来说,现有技术中的方法获取的长文章的情感分析结果为多个实体的情感分析结果的融合。例如,一篇长文章是对多个餐馆的评述,包括A餐馆、B餐馆和C餐馆。按照现有技术中的方法获取的最终的情感分析结果如是好评度分,则该结果是对A餐馆、B餐馆和C餐馆的情感分析结果的融合,并不能获取该长文章中分别对A餐馆、B餐馆和C餐馆的情感分析结果。因此,该情感分析结果不准确、可信度低。
为了解决上述问题,本申请提供了一种情感分析的方法,通过识别长文章的标题中的目标实体,进而根据标题中的目标实体的情感分数,以及长文章的正文中包含有该目标实体的目标语句该目标实体的情感分数,达到获取长文章中的该目标实体的情感分数的目的。
图1为本申请提供的情感分析的方法的流程示意图一。图1所示方法流程的执行主体可以为情感分析的装置,该情感分析的装置可由任意的软件和/或硬件实现。
可选的,该情感分析的装置可以为服务器,例如,该服务器可以为即时聊天应用程序对应的服务器、美食点评应用程序对应的服务器或新闻应用程序对应的服务器等。服务器可以对对应的应用程序中的文章进行情感分析。可选的,该情感分析的装置可以为终端设备,终端设备可以对其中存储的文章进行情感分析。下述实施例中以执行主体为服务器为例进行说明。
本申请中的终端设备包括但不选限于为移动终端设备或固定终端设备。移动终端设备包括但不限于手机、个人数字助理(Personal Digital Assistant,简称:PDA)、平板电脑、便携设备(例如,便携式计算机、袖珍式计算机或手持式计算机)等。固定终端设备包括但不限于台式计算机、影音设备、智能电视等。
如图1所示,本实施例提供的情感分析的方法可以包括:
S101,获取待检测文章的标题中的目标实体。
本实施例中的待检测文章为包含有标题和正文的文章。例如,待检测文章可以为新闻文章、论文文章、旅游评论文章等包含有标题和正文的文章。其中,以新闻文章为例说明,新闻文章的标题包含了文章最重要的信息,包括文章的目标实体,并且可以基本体现出文章对于该目标实体的情感态度。据此,新闻标题是新闻文章在情感分析是重要的分析数据。应理解,本实施例中的实体为待检测文章中的情感分析的主要对象。
例如,新闻文章中是对互联网公司的评述文章,新闻文章中包括多个互联网公司。依照现有技术中的方法获取的情感分析结果为对多个互联网公司的融合情感分析结果。新闻文章中包括互联网公司A、互联网公司B和互联网公司C,而从新闻文章的标题来看,该新闻文章的目标实体为互联网公司A。
若该新闻文章实际上对互联网公司A的情感分析结果应该为:互联网公司A的好评度为80分,但该新闻文章中包含有三个互联网公司的情感分析结果,且可能是截然不同的情感分析结果。如互联网公司A的情感分析结果为好评80分,互联网公司B的情感分析结果为好评60分,互联网公司C的情感分析结果为恶评80分,则根据现有技术中的方法获取的互联网公司A的情感分析结果可能是该三个互联网公司的情感分析结果的融合,如好评40分。并不能够真正获取互联网公司A的情感分析结果为好评80分的结果。
本实施例中获取待检测文章的标题中的目标实体,以确定待检测文章的情感分析的实体,进而对该实体进行情感分析,以达到准确获取待检测文章的情感分析结果的目的。
由于包含有标题的待检测文章具有结构化的格式,当服务器获取待检测文章后,可以根据预设的结构化模板确定待检测文章的标题和正文。
可选的,本实施例中可以根据待检测文章的标题的语义确定目标实体。例如,待检测文章的标题为“互联网公司A的崛起”,则根据该标题的语义,可以确定该标题的目标实体为“互联网公司A”。
可选的,本实施例中还可以根据待检测文章的标题的中的词语的词性确定目标实体。例如,通常待检测文章的标题中的目标实体为名词,则本实施例中可以在服务器中设置预设词性。服务器可以对待检测文章的标题中的词语进行词性检测,确定目标实体。如标题为“美丽的北京”,服务器可以确定该标题中的词语“美丽的”为形容词,“北京”为名词,则确定“北京”为目标实体。应理解,对于不同的应用场景,可以设置不同的词性为目标实体的预设词性。
上述两种获取目标实体的方式可以单独执行,也可以结合执行。结合执行的方式可以使得获取的待检测文章的标题中的目标实体更为准确。
S102,在待检测文章的正文中获取包含有目标实体的目标语句。
待检测文章中可能包含有多个不同的实体,本实施例中为了获取对目标实体的情感分析结果,可以在待检测文章的正文中获取包含有目标实体的目标语句。
其中,待检测文章可以包括至少一个段落,每个段落中又可以包括至少一个语句。可选的,本实施例中可以通过在每个语句中,通过词语匹配的方式,确定包含有目标实体的目标语句。例如,目标实体为“北京”,则包含有“北京”的语句可以为目标语句。
可选的,本实施例中对待检测文章的语句的划分可以预先设置划分规则。如依据标点符号进行划分,每两个句号之间可以为一个语句,或者句号和感叹号之间可以为一个语句,或者句号和问号之间可以为一个语句。在服务器获取待检测文章后,服务器可以根据预设的划分规则,将待检测文章的正文划分为多个语句,在多个语句中获取包含有目标实体的目标语句。
S103,根据情感分析模型,获取标题和目标语句中目标实体的情感分数,情感分析模型用于表征语句中的实体与情感分数的对应关系。
本实施例中,标题和目标语句中均包含有目标实体,即服务器可以通过标题和目标语句中对目标实体的情感文本的分析,获取待检测文章中的目标实体的情感分析结果。
本实施例中服务器中预设有情感分析模型。其中,该情感分析模型用于表征语句中的实体与情感分数的对应关系,即将语句输入至该情感分析模型中,情感分析模型可以输出该语句中的实体的情感分数。
可选的,本实施例中的情感分析模型可以基于深度学习网络构建。其中,深度学习网络可以为textcnn网络,该textcnn网络包括词嵌入层、卷积层、最大池化层以及全连接层,基于该textcnn网络的情感分析模型可以将输入文本转换成情感分数。在实际运行的过程中,可以考虑使用预训练的词向量模型来初始化词嵌入层,以提升模型精度。
服务器可以根据该情感分析模型,获取标题和目标语句中目标实体的情感分数。即服务器可以将标题和目标语句输入至情感分析模型,以输出标题和目标语句中目标实体的情感分数。
应理解,当目标语句为多个时,本实施例中获取的标题和目标语句中目标实体的情感分数为:标题和每个目标语句中的实体的情感分数。例如,标题中的目标实体为“互联网公司A”,且包含有“互联网公司A”的目标语句有语句A、语句B和语句C。通过该情感分析模型,可以获取标题中的“互联网公司A”的情感分数,以及语句A、语句B和语句C中的“互联网公司A”的情感分数,即待检测文章中对于目标实体获取到四个情感分数。
S104,根据标题和目标语句中目标实体的情感分数,获取待检测文章中目标实体的情感分数。
本实施例中,依据情感分析模型,可以获取待检测文章的标题和正文中的目标实体的情感分数。进一步的,根据目标实体在该待检测文章中的多个情感分数,可以获取待检测文章中目标实体的情感分数。
可选的,本实施例中可以将目标实体在该待检测文章中的多个情感分数的均值作为待检测文章中目标实体的情感分数。例如,标题中的“互联网公司A”的情感分数为好评80分,以及语句A、语句B和语句C中的“互联网公司A”的情感分数分别为好评70分、好评50分和好评90分,则待检测文章中“互联网公司A”的情感分数为该多个情感分数的均值好评72.5分。
可选的,本实施例中还可以预先设置标题的权重和正文的权重,根据标题和目标语句中目标实体的情感分数,以及标题的权重和正文的权重,获取待检测文章中目标实体的情感分数。例如,标题的权重为0.5,正文的权重也为0.5,则上述目标实体“互联网公司A”在待检测文章中的情感分数为好评75分。应理解,上述标题的权重和正文的权重仅为示例,也可以设置其他的权重。
本实施例提供的情感分析的方法包括:获取待检测文章的标题中的目标实体;在待检测文章的正文中获取包含有目标实体的目标语句;根据情感分析模型,获取标题和目标语句中目标实体的情感分数,情感分析模型用于表征语句中的实体与情感分数的对应关系;根据标题和目标语句中目标实体的情感分数,获取待检测文章中目标实体的情感分数。本申请提供的情感分析的方法能够在包含有多实体的文章中获取目标实体的情感分数,提高文章情感分析结果的可信度。
在上述实施例的基础上,下面结合图2对本申请提供的情感分析的方法中如何获取标题中的目标实体以及待检测文章中的情感分数进行说明。图2为本申请提供的情感分析的方法的流程示意图二。如图2所示,本实施例提供的情感分析的方法可以包括:
S201,将样本标题、样本正文语句,样本标题的情感标记、以及样本正文语句的情感标记作为训练数据集,训练获取情感分析模型。
本实施例中,可以根据通过训练数据集,在textcnn网络的基础上训练获取情感分析模型。其中,训练数据集中可以包括:样本标题、样本正文语句,样本标题的情感标记、以及样本正文语句的情感标记。
样本标题和样本正文语句可以为从大量的历史检测文章中获取的,历史检测文章可以为包括标题的文章,样本标题和样本正文语句中均包括有实体。值得注意的是,情感标记为:样本标题或样本正文语句中的实体的期望情感分数。相应的,样本标题的情感标记为:样本标题中的实体的期望情感分数。相应的,样本正文语句的情感标记为:正文语句中的实体的期望情感分数。
例如,样本标题为“火爆的A餐馆”,则样本标题的情感标记相应的可以为80。应理解,样本标题、样本正文语句的情感标记中的情感分数可以根据样本标题、样本正文语句中的词语的正负属性标记为具有正负的分数,如上述实施例中的好评80即为正分数。
例如,样本标题为“糟糕的A餐馆”,则样本标题的情感标记相应的可以为-50。其中,样本标题中的“糟糕的”和“火爆的”即为词语的正负属性。本实施例中,在训练数据集中每个样本语句和每个样本标题均具有对应的期望情感分数。
在textcnn网络的基础上,通过采用训练数据集,不断地对情感分析模型进行训练,直至情感分析模型输出的实际情感分数与期望情感分数的差值小于差值阈值。本实施例中最终使用的情感分析模型在训练结束时,输出的实际情感分数与期望情感分数的差值小于差值阈值,即情感分析模型具有较高准确性的计算能力。
应理解,S201中获取情感分析模型的步骤,可以在采用情感分析模型获取待检测文章的情感分数之前进行,并非每次获取待检测文章的情感分数时获取情感分析模型。
下面结合S202-S204对本实施例中获取待检测文章的标题中的目标实体分为两种情况进行说明。其中,S202-S203为获取待检测文章的标题中的目标实体的一种可行的方式,S204-S205为另一种可行的方式。应理解,S202-S203和S204-S205为择一执行的方式。
S202,将待检测文章的标题进行分词,获取具有预设词性的目标词语。
本实施例中,获取待检测文章的标题中的目标实体,可以对待检测文章的标题进行分词,获取标题对应的多个词语。可选的,可以预先设置有预设词性,在获取标题对应的多个词语后,可以根据该多个词语的词性,进而获取具有预设词性的目标词语。应理解,本实施例中对待检测文章的标题进行分词可以是采用jieba、SnowNLP、THULAC或NLPIR等分词工具进行分词。
例如,预设词性为名词,待检测文章的标题为“迅猛发展的互联网公司A的明天”。对标题进行分词后可以获取“迅猛发展的”、“互联网公司A”、“的”以及“明天”。其中,“迅猛发展的”为形容词,“的”为连词,“互联网公司A”和“明天”均为名词,则具有名词词性的目标词语为“互联网公司A”和“明天”。
S203,根据待检测文章的标题的语义,获取目标实体。
为了使得获取的待检测文章的标题中的目标实体更为准确,本实施例中还根据待检测文章的标题的语义,在目标词语中获取目标实体。
例如,上述确定目标词语为“互联网公司A”和“明天”后,再分析待检测文章的标题的语义为“互联网公司A以后的发展”,则在目标词语中可以确定目标实体为“互联网公司A”。
S204,接收用户输入的目标实体确认指令,目标实体确认指令用于指示目标实体。
本实施例中,用户还可以设定目标实体。可选的,该种情况应用的场景可以为:确定大量的待测试文章中关于同一实体的情感分数,或者确定一待检测文章中某一实体的情感分数。
用户可以通过语音或者其他方式输入目标实体确认指令,该目标实体确认指令用于指示目标实体。图3为本申请提供的界面示意图。其中,该界面可以为服务器的显示界面。如图3所示,界面上可以显示有目标实体的输入框,用户可以在输入框中输入目标实体,即可触发服务器接收用户输入的目标实体确认指令。可选的,在输入框中输入目标实体可以为输入目标实体对应的词语。应理解,图3中以情感分析的装置为终端为例进行示出。
S205,根据目标实体确认指令,获取目标实体。
目标实体确认指令用于指示目标实体,服务器在接收到目标实体确认指令,可以获取待检测文章的标题中的目标实体。
例如,用户在输入框中输入目标实体为“互联网公司A”,则服务器确定待检测文章的标题中的目标实体为“互联网公司A”。
S206,依据预设分隔符,将待检测文章的正文划分为多个候选语句。
本实施例中为了获取包含有目标实体的目标语句,可以依据预设分隔符,将待检测文章的正文划分为多个候选语句。其中,预设分隔符可以为文章中的标点符号,如句号、问号或感叹号。
可选的,本实施例中的服务器可以对待检测文章的正文进行查询,获取正文中的预设分隔符,将两个预设分隔符之间的语句作为一个候选语句。采用相同的方式,可以获取待检测文章的多个候选语句。
S207,将包含有目标实体候选语句作为目标语句。
本实施例中,在获取待检测文章的标题中的目标语句后,可以在待检测文章的正文中获取包含有目标实体的目标语句。其中,可以将包含有目标实体候选语句作为目标语句。
可选的,本实施例中可以将包含有目标实体对应的词语的候选语句作为目标语句。例如,目标实体为“互联网公司A”,候选语句为“互联网公司A的领导者是xxx”,该候选语句中包含有目标实体“互联网公司A”对应的词语,即将该候选语句作为目标语句。
可选的,本实施例中可以将语义中包含有目标实体的候选语句作为目标语句。例如,目标实体为“北京”,候选语句为“我们的首都,值得骄傲”,该候选语句的语义中包含有目标实体“北京”,即将该候选语句作为目标语句。其中,语义中包含有目标实体可以是:候选语句中包括有目标实体的同义词、指代词。
可选的,本实施例中还可以根据上下文的语义,将语义中包含有目标实体的候选语句作为目标语句。
S208,根据情感分析模型,获取所述标题和所述目标语句中所述目标实体的情感分数。
本实施例中的S208中的实施方式可以参照上述实施例中的S103的相关描述,在此不做赘述。
S209,根据标题的权重、正文的权重、标题和目标语句中的目标实体的情感分数,获取待检测文章中目标实体的情感分数。
本实施例中可以预先设置标题的权重、正文的权重。可选的,标题可以基本体现出文章对于目标实体的情感态度,因此可以将标题和正文的权重分别设置为0.5。
其中,获取待检测文章中目标实体的情感分数的具体方式为:根据标题的权重和标题中的目标实体的情感分数的乘积,获取第一情感分数;获取目标语句中的目标实体的情感分数的均值,根据正文的权重和该均值的乘积,获取第二情感分数;第一情感分数和第二情感分数的加和即为待检测文章中目标实体的情感分数。
本实施例中,可以通过待检测文章的标题中的词语的词性,以及标题的语义获取目标实体,也可以通过用户预定义的方式获取目标实体,进一步的,获取待检测文章的正文中包含有目标实体的目标语句;结合标题和目标语句中目标实体的情感分数,获取待检测文章中目标实体的情感分数。本申请能够在获取目标实体的情感分数,提高文章情感分析结果的可信度,且可以满足用户对于目标实体的情感分数的需求。
图4为本申请提供的情感分析的装置的结构示意图一。如图4所示,该情感分析的装置400包括:处理模块401和收发模块402。
处理模块401,用于获取待检测文章的标题中的目标实体;在待检测文章的正文中获取包含有目标实体的目标语句;根据情感分析模型,获取标题和目标语句中目标实体的情感分数,情感分析模型用于表征语句中的实体与情感分数的对应关系;根据标题和目标语句中目标实体的情感分数,获取待检测文章中目标实体的情感分数。
可选的,处理模块401,具体用于将待检测文章的标题进行分词,获取具有预设词性的目标词语;根据待检测文章的标题的语义,在目标词语中获取目标实体。
收发模块402,用于接收用户输入的目标实体确认指令,目标实体确认指令用于指示目标实体。
处理模块401,还用于根据目标实体确认指令,获取目标实体。
可选的,处理模块401,具体用于依据预设分隔符,将待检测文章的正文划分为多个候选语句;将包含有目标实体候选语句作为目标语句,包含有目标实体候选语句为:包含有目标实体对应的词语的候选语句,以及语义中包含有目标实体的候选语句。
可选的,处理模块401,具体用于根据标题的权重、正文的权重、标题和目标语句中的目标实体的情感分数,获取待检测文章中目标实体的情感分数。
可选的,处理模块401,具体用于将样本标题、样本正文语句,样本标题的情感标记、以及样本正文语句的情感标记作为训练数据集,训练获取情感分析模型,情感标记为:样本标题或样本正文语句中的实体的期望情感分数,情感分析模型输出的实际情感分数与期望情感分数的差值小于差值阈值。
可选的,情感分析模型是处理模块401基于textcnn网络结构训练获取的。
本实施例提供的情感分析的装置与上述情感分析的方法实现的原理和技术效果类似,在此不作赘述。
图5为本申请提供的情感分析的装置的结构示意图二。如图5所示,该情感分析的装置500包括:存储器501和至少一个处理器502。
存储器501,用于存储程序指令。
处理器502,用于在程序指令被执行时实现本实施例中的情感分析的方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
该情感分析的装置500还可以包括及输入/输出接口503。
输入/输出接口503可以包括独立的输出接口和输入接口,也可以为集成输入和输出的集成接口。其中,输出接口用于输出数据,输入接口用于获取输入的数据。
本申请还提供一种可读存储介质,可读存储介质中存储有执行指令,当情感分析的装置的至少一个处理器执行该执行指令时,当计算机执行指令被处理器执行时,实现上述实施例中的情感分析的方法。
本申请还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。情感分析的装置的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得情感分析的装置实施上述的各种实施方式提供的情感分析的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种情感分析的方法,其特征在于,包括:
获取待检测文章的标题中的目标实体;
在所述待检测文章的正文中获取包含有所述目标实体的目标语句;
根据情感分析模型,获取所述标题和所述目标语句中所述目标实体的情感分数,所述情感分析模型用于表征语句中的实体与情感分数的对应关系;
根据所述标题和所述目标语句中所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测文章的标题中的目标实体,包括:
将所述待检测文章的标题进行分词,获取具有预设词性的目标词语;
根据所述待检测文章的标题的语义,在所述目标词语中获取所述目标实体。
3.根据权利要求2所述的方法,其特征在于,所述获取待检测文章的标题中的目标实体,包括:
接收用户输入的目标实体确认指令,所述目标实体确认指令用于指示所述目标实体;
根据所述目标实体确认指令,获取所述目标实体。
4.根据权利要求1所述的方法,其特征在于,所述在所述待检测文章的正文中获取包含有所述目标实体的目标语句,包括:
依据预设分隔符,将所述待检测文章的正文划分为多个候选语句;
将包含有所述目标实体候选语句作为所述目标语句,包含有所述目标实体候选语句为:包含有所述目标实体对应的词语的候选语句,以及语义中包含有所述目标实体的候选语句。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述待检测文章中所述目标实体的情感分数,包括:
根据标题的权重、正文的权重、所述标题和所述目标语句中的所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将样本标题、样本正文语句,所述样本标题的情感标记、以及所述样本正文语句的情感标记作为训练数据集,训练获取所述情感分析模型,情感标记为:所述样本标题或所述样本正文语句中的实体的期望情感分数,所述情感分析模型输出的实际情感分数与所述期望情感分数的差值小于差值阈值。
7.根据权利要求6所述的方法,其特征在于,所述情感分析模型是基于textcnn网络结构训练获取的。
8.一种情感分析的装置,其特征在于,包括:
处理模块,用于获取待检测文章的标题中的目标实体;在所述待检测文章的正文中获取包含有所述目标实体的目标语句;根据情感分析模型,获取所述标题和所述目标语句中所述目标实体的情感分数,所述情感分析模型用于表征语句中的实体与情感分数的对应关系;根据所述标题和所述目标语句中所述目标实体的情感分数,获取所述待检测文章中所述目标实体的情感分数。
9.一种情感分析的装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述情感分析的装置执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现权利要求1-7任一项所述的方法。
CN201910421553.7A 2019-05-21 2019-05-21 情感分析的方法、装置和存储介质 Active CN110287405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910421553.7A CN110287405B (zh) 2019-05-21 2019-05-21 情感分析的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910421553.7A CN110287405B (zh) 2019-05-21 2019-05-21 情感分析的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110287405A true CN110287405A (zh) 2019-09-27
CN110287405B CN110287405B (zh) 2021-06-01

Family

ID=68002010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910421553.7A Active CN110287405B (zh) 2019-05-21 2019-05-21 情感分析的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110287405B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837561A (zh) * 2019-11-18 2020-02-25 苏州朗动网络科技有限公司 文本的分析方法、设备和存储介质
CN111538828A (zh) * 2020-04-21 2020-08-14 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质
CN111738015A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN114117042A (zh) * 2021-11-15 2022-03-01 盐城金堤科技有限公司 舆情文本中企业实体的情感预测方法、装置、设备及介质
CN115952787B (zh) * 2023-03-13 2023-05-12 北京澜舟科技有限公司 一种指定目标实体的情感分析方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和***
US20130268262A1 (en) * 2012-04-10 2013-10-10 Theysay Limited System and Method for Analysing Natural Language
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN108647219A (zh) * 2018-03-15 2018-10-12 中山大学 一种结合情感词典的卷积神经网络文本情感分析方法
CN109325238A (zh) * 2018-10-31 2019-02-12 北京国信云服科技有限公司 一种长文本中多实体情感分析的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268262A1 (en) * 2012-04-10 2013-10-10 Theysay Limited System and Method for Analysing Natural Language
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和***
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN108647219A (zh) * 2018-03-15 2018-10-12 中山大学 一种结合情感词典的卷积神经网络文本情感分析方法
CN109325238A (zh) * 2018-10-31 2019-02-12 北京国信云服科技有限公司 一种长文本中多实体情感分析的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837561A (zh) * 2019-11-18 2020-02-25 苏州朗动网络科技有限公司 文本的分析方法、设备和存储介质
CN111538828A (zh) * 2020-04-21 2020-08-14 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质
CN111738015A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN111738015B (zh) * 2020-06-22 2024-04-12 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN114117042A (zh) * 2021-11-15 2022-03-01 盐城金堤科技有限公司 舆情文本中企业实体的情感预测方法、装置、设备及介质
CN115952787B (zh) * 2023-03-13 2023-05-12 北京澜舟科技有限公司 一种指定目标实体的情感分析方法、***及存储介质

Also Published As

Publication number Publication date
CN110287405B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110287405A (zh) 情感分析的方法、装置和存储介质
CN104809176B (zh) 藏语实体关系抽取方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
JP2021089739A (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
US9483462B2 (en) Generating training data for disambiguation
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN104090955A (zh) 一种音视频标签自动标注方法及***
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
KR20110115542A (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
CN102279890A (zh) 基于微博的情感词提取收集方法
KR20110115543A (ko) 개체의 유사성을 계산하는 방법
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN114328852B (zh) 一种文本处理的方法、相关装置及设备
CN104615715A (zh) 基于地理位置的社交网络事件分析方法及***
CN108831442A (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN105988978B (zh) 确定文本焦点的方法及***
CN113282701A (zh) 作文素材生成方法、装置、电子设备及可读存储介质
Algur et al. Sentiment analysis by identifying the speaker's polarity in Twitter data
CN114218951A (zh) 实体识别模型的训练方法、实体识别方法及装置
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN110008314B (zh) 一种意图解析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant