CN117574892A - 文本立场分析方法、装置、设备及存储介质 - Google Patents

文本立场分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117574892A
CN117574892A CN202311492828.9A CN202311492828A CN117574892A CN 117574892 A CN117574892 A CN 117574892A CN 202311492828 A CN202311492828 A CN 202311492828A CN 117574892 A CN117574892 A CN 117574892A
Authority
CN
China
Prior art keywords
text
phrase
analyzed
word
capsule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311492828.9A
Other languages
English (en)
Inventor
张传新
张旭
张翔宇
何扬
陈彤
解峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202311492828.9A priority Critical patent/CN117574892A/zh
Publication of CN117574892A publication Critical patent/CN117574892A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种文本立场分析方法、装置、设备及存储介质,该方法包括:获取待分析文本和所述待分析文本对应的主题短语;对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。本公开通过设置分层胶囊模型,能够提取文本的不同层级的特征信息,从而挖掘文本的深层信息,提升对文本进行立场判断的准确度。

Description

文本立场分析方法、装置、设备及存储介质
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种文本立场分析方法、装置、设备及存储介质。
背景技术
文本立场分析是研究社交媒体舆论动向及辅助商业决策的重要技术,旨在分析一段文本中针对指定目标或主题表达的情感倾向性(支持、反对、中立)。
传统的文本立场分析方法通常采用情感分析技术,通过检测文本中的情感词汇,如高兴、悲伤、愤怒等,结合文本特征来解决立场分析问题,但对于含有讽刺、隐喻、复杂情感表达等修辞手法的文本,不能完全挖掘深层表示信息,容易导致立场误判或漏判。
发明内容
为了解决上述技术问题,本公开提供了一种文本立场分析方法、装置、设备及存储介质。
本公开实施例的第一方面提供了一种文本立场分析方法,该方法包括:
获取待分析文本和所述待分析文本对应的主题短语;
对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;
将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。
本公开实施例的第二方面提供了一种文本立场分析装置,该装置包括:
获取模块,用于获取待分析文本和所述待分析文本对应的主题短语;
提取模块,用于对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;
分析模块,用于将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。
本公开实施例的第三方面提供了一种计算机设备,包括存储器和处理器,以及计算机程序,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,实现如上述第一方面的文本立场分析方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,存储介质中存储有计算机程序,当计算机程序被处理器执行时,实现如上述第一方面的文本立场分析方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
在本公开实施例提供的文本立场分析方法、装置、设备及存储介质中,通过获取待分析文本和待分析文本对应的主题短语,对待分析文本与主题短语进行特征提取,得到文本向量和主题向量,将文本向量和主题向量输入预训练的分层胶囊模型,得到分层胶囊模型输出的根据主题短语对待分析文本进行立场分析的分析结果,分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,词胶囊层、句子胶囊层和类别胶囊层分别用于提取待分析文本的词级特征、句子级特征和类别特征,能够通过设置分层胶囊模型,从待分析文本中提取不同层级的特征信息,进而挖掘出文本的深层表示信息,相较于传统的通过识别情感词汇判断作者立场的方式,能够对文本进行逐层分析,从底层识别词汇特征,到中层组合成短语特征,再到顶层整合句子语义,从而实现了对多粒度文本特征的全面把握,提升立场判断的准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种文本立场分析方法的流程图;
图2是本公开实施例提供的一种确定立场分析结果的方法的流程图;
图3是本公开实施例提供的一种确定主题短语的方法的流程图;
图4是本公开实施例提供的一种文本预处理的方法的流程图;
图5是本公开实施例提供的一种筛选短语集合的方法的流程图;
图6是本公开实施例提供的一种计算关联度评分的方法的流程图;
图7是本公开实施例提供的一种文本立场分析装置的结构示意图;
图8是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
图1是本公开实施例提供的一种文本立场分析方法的流程图,该方法可以由一种文本立场分析装置执行。如图1所示,本实施例提供的文本立场分析方法包括如下步骤:
S101、获取待分析文本和待分析文本对应的主题短语。
本公开实施例中的主题短语可以理解为从待分析文本中提取的能够反映待分析文本主题的多词汇短语。
本公开实施例中,文本立场分析装置可以获取需要进行立场分析的待分析文本,以及能够反映待分析文本主题的主题短语。
在本公开实施例的一种示例性的实施方式中,文本立场分析装置可以获取用户上传的待分析文本,并获取用户输入的待分析文本对应的主题短语。
在本公开实施例的另一种示例性的实施方式中,文本立场分析装置可以在获得用户上传的待分析文本后,从待分析文本中提取主题短语。
S102、对待分析文本与主题短语进行特征提取,得到文本向量和主题向量。
本公开实施例中,文本立场分析装置可以在获得待分析文本及其对应的主题短语后,对待分析文本与主题短语进行特征提取,得到待分析文本对应的文本向量,以及主题短语对应的主题向量。
在本公开实施例的一种示例性的实施方式中,文本立场分析装置可以将待分析文本和主题短语输入预训练的特征提取模型,比如使用中文预训练的基于变换器的双向编码器表示(Bidirectional Encoder Representation from Transformers Base Chinese,BERT Base Chinese)模型,由模型对待分析文本和主题短语进行编码,得到文本向量和主题向量。
S103、将文本向量和主题向量输入预训练的分层胶囊模型,得到分层胶囊模型输出的根据主题短语对待分析文本进行立场分析的分析结果,分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,词胶囊层、句子胶囊层和类别胶囊层分别用于提取待分析文本的词级特征、句子级特征和类别特征。
本公开实施例中的分层胶囊模型可以理解为能够从不同层级提取文本特征,并最终确定文本立场的模型,分层胶囊模型由词胶囊层、句子胶囊层、类别胶囊层三个胶囊层组成,每个胶囊层都包含多个胶囊,用于学习当前胶囊层对应的文本粒度特征,其中,词胶囊、句子胶囊的数量分别与待分析文本包含的词的数量和句子的数量相等,类别胶囊的数量与立场类别的数量相等,立场类别可以包括支持、反对、中立。分层胶囊模型的训练过程如下:准备训练数据,训练数据包含大量训练文本和对应的立场标签,立场标签是人工标注得到的,采用训练数据对分层胶囊网络进行监督训练,基于输出结果和对应的立场标签计算分层胶囊网络对应的损失值,不断调整网络参数直至损失收敛,此时可以确定分层胶囊模型训练完毕。
本公开实施例中,文本立场分析装置可以在得到文本向量和主题向量后,将文本向量和主题向量输入预训练的分层胶囊模型,得到分层胶囊模型输出的根据主题短语对所述待分析文本进行立场分析的分析结果。
本公开实施例通过获取待分析文本和待分析文本对应的主题短语,对待分析文本与主题短语进行特征提取,得到文本向量和主题向量,将文本向量和主题向量输入预训练的分层胶囊模型,得到分层胶囊模型输出的根据主题短语对待分析文本进行立场分析的分析结果,分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,词胶囊层、句子胶囊层和类别胶囊层分别用于提取待分析文本的词级特征、句子级特征和类别特征,能够通过设置分层胶囊模型,从待分析文本中提取不同层级的特征信息,进而挖掘出文本的深层表示信息,相较于传统的通过识别情感词汇判断作者立场的方式,能够对文本进行逐层分析,从底层识别词汇特征,到中层组合成短语特征,再到顶层整合句子语义,从而实现了对多粒度文本特征的全面把握,提升立场判断的准确度。
图2是本公开实施例提供的一种确定立场分析结果的方法的流程图,如图2所示,在上述实施例的基础上,可以通过如下方法确定立场分析结果。
S201、将文本向量和主题向量输入分层胶囊模型的词胶囊层,得到词胶囊层输出的词级特征。
本公开实施例中,文本立场分析装置可以在获得文本向量和主题向量后,将文本向量与主题向量拼接,并将拼接结果输入分层胶囊模型的词胶囊层,由词胶囊层包含的各个词胶囊提取词级特征,并将所有提取到的词级特征组合输出。该过程可以表示如下:
ui=Capsule(hi,j)∈Rk×d
其中,i表示文本中的词的索引,j表示词胶囊层内的胶囊索引,hi=[xi:ti],xi表示文本向量,ti表示主题向量,hi表示文本向量和主题向量的拼接结果,hi,j为第i个词在词胶囊层内的表示,ui表示第i个词胶囊提取的词级特征,Capsule(·)表示胶囊函数,k表示词胶囊的数量,d表示每个词胶囊的向量维度,d为预设值。
S202、将词级特征输入分层胶囊模型的句子胶囊层,基于词胶囊层,结合词级特征与预先获取的第一权重,确定句子级特征。
本公开实施例中的第一权重可以理解为根据胶囊网络的囊间动态路由算法预先确定的词胶囊传递给句子胶囊的权重参数,动态路由算法主要用于信息传递,通过计算当前胶囊层包含的胶囊之间的相似度来确定信息传递的路径和权重,从而更好地捕捉胶囊之间的关系。
本公开实施例中,文本立场分析装置可以在得到词胶囊层输出的词级特征后,将词级特征输入分层胶囊模型的句子胶囊层,由句子胶囊层的各个句子胶囊基于词级特征和各个词级特征对应的第一权重,提取句子级特征,并将所有提取到的句子级特征组合输出。该过程可以表示如下:
其中,vi表示第i个句子胶囊提取的句子级特征,ui,j表示词胶囊提取的词级特征,具体为第i个词在第j个词胶囊内的词级特征,ci,j表示词级特征ui,j对应的词胶囊传递给vi对应的句子胶囊的第一权重。
S203、将句子级特征输入分层胶囊模型的类别胶囊层,基于类别胶囊层,结合句子级特征与预先获取的第二权重,确定类别特征。
本公开实施例中的第二权重可以理解为根据胶囊网络的囊间动态路由算法预先确定的句子胶囊传递给类别胶囊的权重参数。
本公开实施例中,文本立场分析装置可以在得到句子胶囊层输出的句子级特征后,将句子级特征输入分层胶囊模型的类别胶囊层,由类别胶囊层的各个类别胶囊基于句子级特征和各个句子级特征对应的第二权重,提取类别特征,并将所有提取到的类别特征组合输出。该过程可以表示如下:
其中,si表示第i个类别胶囊提取的类别特征,vi,j表示句子胶囊提取的句子级特征,具体为第i个句子在第j个句子胶囊内的句子级特征,bi,j表示句子级特征vi,j对应的句子胶囊传递给si对应的类别胶囊的第二权重。
在本公开实施例的一种示例性的实施方式中,第一权重ci,j、第二权重bi,j可以通过如下方法确定:
其中,ai,j,l为辅助参数,表示词胶囊ui,j传递给句子胶囊vi,l的权重,第二权重初始化为0,L表示类别胶囊的数量,·表示向量点积。在分层胶囊模型的训练过程中,会迭代调整第一权重ci,j、第二权重bi,j和辅助参数ai,j,l的取值,直至模型收敛,并将从收敛后的分层胶囊模型中提取的ci,j、bi,j确定为最终的第一权重和第二权重。
S204、确定类别特征对应的立场类别,并将立场类别确定为根据主题短语对待分析文本进行立场分析的分析结果。
本公开实施例中,文本立场分析装置可以在获得类别胶囊层输出的类别特征后,根据类别特征确定其对应的立场类别,具体地,类别胶囊层输出的类别特征为具有三个维度的特征向量的形式,每个维度对应一个立场类别,且每个维度的取值范围是0到1,表示对当前立场类别的置信度,置信度最高的维度对应的立场类别为最终确定的立场类别,并将该立场类别确定为根据主题短语对待分析文本进行立场分析的分析结果。示例的,类别特征可以为(0.4,0.3,0.8),类别特征的三个维度依次为支持、反对、中立,则该立场特征对应的立场类别为中立。
本公开实施例通过将文本向量和主题向量输入分层胶囊模型的词胶囊层,得到词胶囊层输出的词级特征,将词级特征输入分层胶囊模型的句子胶囊层,基于词胶囊层,结合词级特征与预先获取的第一权重,确定句子级特征,将句子级特征输入分层胶囊模型的类别胶囊层,基于类别胶囊层,结合句子级特征与预先获取的第二权重,确定类别特征,确定类别特征对应的立场类别,并将立场类别确定为根据主题短语对待分析文本进行立场分析的分析结果,能够提取词级、句子级和类别特征,进而根据类别特征确定立场类别,使得最终确定的立场类别综合考虑了不同层级的文本特征,提高立场分析的准确度。
图3是本公开实施例提供的一种确定主题短语的方法的流程图,如图3所示,在上述实施例的基础上,可以通过如下方法确定主题短语。
S301、对待分析文本进行预处理,得到待分析文本包含的短语的集合。
本公开实施例中,文本立场分析装置可以在获得待分析文本后,对待分析文本进行预处理,确定待分析文本包含的各个短语,并为这些短语创建集合。
在本公开实施例的一种示例性的实施方式中,文本立场分析装置可以识别文本中各个词汇的属性,并根据预设的短语具备的属性结构,从待分析文本中提取短语组成集合。
S302、针对短语的集合中包含的每条短语,确定短语与预设主题的关联度评分,以及短语的重要度评分,并计算关联度评分与重要度评分的乘积。
本公开实施例中的预设主题可以理解为预先设置的一个或多个主题。
本公开实施例中的重要度评分可以理解为将短语在其他文本中的重要度作为基准参考值,表征短语在待分析文本中的重要度的评分。
本公开实施例中,文本立场分析装置可以在确定待分析文本包含的短语集合后,针对短语集合中的每条短语,计算该短语与预设主题的关联度评分,以及该短语的重要度评分,并计算关联度评分与重要度评分的乘积。
在本公开实施例的一种示例性的实施方式中,文本立场分析装置可以将短语和预设主题输入预训练的关联模型中,得到模型输出的关联度评分,将短语输入预训练的重要度模型,得到模型输出的重要度评分。
S303、将对应乘积最大的短语确定为主题短语。
本公开实施例中,文本立场分析装置可以在计算得到关联度评分与重要度评分的乘积后,选择最大的乘积,并将该乘积对应的短语确定为主题短语。
本公开实施例通过对待分析文本进行预处理,得到待分析文本包含的短语的集合,针对短语的集合中包含的每条短语,确定短语与预设主题的关联度评分,以及短语的重要度评分,并计算关联度评分与重要度评分的乘积,将对应乘积最大的短语确定为主题短语,能够从与主体的关联度和短语本身在待分析文本中的重要度两个角度,综合确定评分最高的主题短语,实现主题短语的自动确定,同时进一步提升了文本立场分析的准确度。
图4是本公开实施例提供的一种文本预处理的方法的流程图。如图4所示,在上述实施例的基础上,可以通过如下方法进行文本预处理。
S401、对待分析文本进行分词处理。
本公开实施例中,文本立场分析装置可以在获得待分析文本后,对待分析文本进行分词处理,具体地,可以采用最短路径分词、n元语法分词、由字构词分词、循环神经网络分词、Transformer分词等多种方法,在此不做限定。
S402、基于分词结果,确定包含预设个数的连续词汇的短语组成的集合。
本公开实施例中的预设个数可以理解为短语包含的词汇的数量,预设个数的取值可以由用户自行设定,也可以根据经验设定一个固定值,在此不做限定。
本公开实施例中,文本立场分析装置可以在得到分词结果后,将预设个数的连续词汇确定为一条短语,并为短语创建一个集合。
在本公开实施例的一种示例性的实施方式中,文本立场分析装置可以利用n-grams模型确定包含预设个数的连续词汇的短语,n-grams模型能够将文本中的内容按照词汇进行大小为n的滑动窗口操作,形成长度为n的词汇片段序列,每一个词汇片段称为gram,对应一个短语。
本公开实施例通过对待分析文本进行分词处理,基于分词结果,确定包含预设个数的连续词汇的短语组成的集合,能够自动确定包含预设个数的词汇的短语,方便后续筛选主题短语。
图5是本公开实施例提供的一种筛选短语集合的方法的流程图,如图5所示,在上述实施例的基础上,可以通过如下方法筛选短语集合。
S501、基于分词结果进行词频统计。
本公开实施例中,文本立场分析装置可以在得到待分析文本的分词结果后,基于分词结果,对每个词汇进行词频统计,确定每个词汇在待分析文本中的出现次数。
S502、基于词频统计结果,确定词频低于预设阈值的低频词汇。
本公开实施例中的预设阈值可以理解为预先设定的用于判定低频词汇的数量阈值。
本公开实施例中,文本立场分析装置可以在获得词频统计结果后,根据每个词汇出现的词频,将词频低于预设阈值的词汇确定为低频词汇。
S503、在包含预设个数的连续词汇的短语中,剔除包含低频词汇和/或标点符号的短语,并基于剩余的短语组成集合。
本公开实施例中,文本立场分析装置可以在确定包含预设个数的连续词汇的短语后,根据组成各个短语的词汇,将短语中包含低频词汇、标点符号中的至少一种的短语剔除,并将剩余的未包含低频词汇和标点符号的短语添加至创建的短语集合中。
本公开实施例通过基于分词结果进行词频统计,基于词频统计结果,确定词频低于预设阈值的低频词汇,在包含预设个数的连续词汇的短语中,剔除包含低频词汇和/或标点符号的短语,并基于剩余的短语组成集合,能够剔除不适合表达待分析文本的主题的短语,提高主题短语与待分析文本的匹配度。
图6是本公开实施例提供的一种计算关联度评分的方法的流程图,如图6所示,在上述实施例的基础上,可以通过如下方法计算关联度评分。
S601、基于预训练的潜在狄利克雷分布模型,确定预设主题与待分析文本的第一关联度。
本公开实施例中的第一关联度可以理解为针对预设主题,待分析文本的主题分布P(z|D),其中,z代表预设主题,D代表待分析文本。
本公开实施例中,文本立场分析装置可以将预设主题与待分析文本输入预训练的潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,基于模型输出确定第一关联度,其中,第一关联度计算公式如下:
其中,P(z)表示主题z在整个语料库中出现的概率,即主题z在语料库中的出现次数与语料库包含的所有主题的数量的比值,P(D|z)表示根据主题z生成文本D的概率,可以将预设主题与待分析文本输入LDA模型,得到模型输出的根据主题z生成文本D的概率,P(D)表示给定主题生成文本D的概率,也是基于LDA模型确定的,语料库中包含待分析文本。
S602、基于短语在预设主题对应的预设文本中的第一出现次数,以及集合中包含的各条短语在预设文本中的第二出现次数之和,确定短语与预设主题的第二关联度。
本公开实施例中,LDA模型在训练过程中会使用各个主题以及主题对应的文本作为训练数据,预设主题对应预设文本,第一出现次数即为当前需要计算评分的短语在预设主题对应的预设文本中的出现次数,第二出现次数即为短语的集合中的每条短语在预设主题对应的预设文本中的出现次数。
本公开实施例中,文本立场分析装置可以获取当前需要计算评分的短语在预设主题对应的预设文本中的第一出现次数,以及短语的集合中的每条短语在预设主题对应的预设文本中的第二出现次数,进而根据第一出现次数以及各个第二出现次数之和,确定短语与预设主题的第二关联度。其中,第二关联度计算公式如下:
其中,P(gi|z)表示短语gi与预设主题z的第二关联度,nz,gi表示短语gi在预设主题z对应的预设文本中的第一出现次数,β为平滑项,用于防止出现第二关联度为0的情况,通常取一个较小的值,如β=0.01,nz,j表示短语的集合中的第j条短语在预设主题z对应的预设文本中的第二出现次数,V表示短语的集合包含的短语的数量。
S603、基于第一关联度与第二关联度,计算短语与预设主题的关联度评分。
本公开实施例中,文本立场分析装置可以在确定预设主题与待分析文本的第一关联度,以及短语与预设主题的第二关联度后,计算短语与预设主题的关联度评分。具体计算公式如下:
其中,scoretopic(gi)表示短语gi与预设主题的关联度评分,K表示预设主题的数量。
本公开实施例通过基于预训练的潜在狄利克雷分布模型,确定预设主题与待分析文本的第一关联度,基于短语在预设主题对应的预设文本中的第一出现次数,以及集合中包含的各条短语在预设文本中的第二出现次数之和,确定短语与预设主题的第二关联度,基于第一关联度与第二关联度,计算短语与预设主题的关联度评分,能够综合考虑主题与待分析文本的关系、主题与短语的关系,确定各个短语与主题的关联度评分,使得最终确定的主题短语能够更好的反映待分析文本的主题。
在本公开一些实施例中,文本立场分析装置可以基于短语在待分析文本中的第三出现次数,以及短语在预设语料库中的第四出现次数,计算短语的重要度评分,预设语料库包含待分析文本。
具体地,文本立场分析装置可以统计短语在待分析文本中的出现次数,并将其确定为第三出现次数,同时统计该短语在包含待分析文本的预设语料库中的出现次数,将其确定为第四出现次数,并在确定第三出现次数与第四出现次数后,计算短语对应的重要度评分。具体计算公式如下:
其中,scorequality(gi)表示短语gi的重要度评分,tf(gi,D)表示短语gi在待分析文本D中出现的第三出现次数,表示短语gi在预设语料库/>中出现的第四出现次数,n表示待分析文本中词汇的总数,|gi|表示短语gi包含的词汇的数量,/>表示待分析文本中第j个词汇到第j+|gi|-1个词汇组成的短语,/>是指示函数,当时取值为1,否则取值为0。
图7是本公开实施例提供的一种文本立场分析装置的结构示意图。如图7所示,该文本立场分析装置700包括:获取模块710,提取模块720,分析模块730,其中,获取模块710,用于获取待分析文本和所述待分析文本对应的主题短语;提取模块720,用于对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;分析模块730,用于将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。
可选的,所述分析模块730,包括:第一提取单元,用于将所述文本向量和所述主题向量输入所述分层胶囊模型的词胶囊层,得到所述词胶囊层输出的所述词级特征;第二提取单元,用于将所述词级特征输入所述分层胶囊模型的句子胶囊层,基于所述词胶囊层,结合所述词级特征与预先获取的第一权重,确定所述句子级特征;第三提取单元,用于将所述句子级特征输入所述分层胶囊模型的类别胶囊层,基于所述类别胶囊层,结合所述句子级特征与预先获取的第二权重,确定所述类别特征;第一确定单元,用于确定所述类别特征对应的立场类别,并将所述立场类别确定为根据所述主题短语对所述待分析文本进行立场分析的分析结果。
可选的,所述获取模块710,包括:预处理单元,用于对所述待分析文本进行预处理,得到所述待分析文本包含的短语的集合;计算单元,用于针对所述短语的集合中包含的每条短语,确定所述短语与预设主题的关联度评分,以及所述短语的重要度评分,并计算所述关联度评分与所述重要度评分的乘积;第二确定单元,用于将对应乘积最大的短语确定为所述主题短语。
可选的,所述预处理单元,包括:分词子单元,用于对所述待分析文本进行分词处理;第一确定子单元,用于基于分词结果,确定包含预设个数的连续词汇的短语组成的集合。
可选的,所述第一确定子单元,包括:统计次子单元,用于基于所述分词结果进行词频统计;确定次子单元,用于基于词频统计结果,确定词频低于预设阈值的低频词汇;剔除次子单元,用于在所述包含预设个数的连续词汇的短语中,剔除包含所述低频词汇和/或标点符号的短语,并基于剩余的短语组成所述集合。
可选的,所述计算单元,包括:第二确定子单元,用于基于预训练的潜在狄利克雷分布模型,确定所述预设主题与所述待分析文本的第一关联度;第三确定子单元,用于基于所述短语在所述预设主题对应的预设文本中的第一出现次数,以及所述集合中包含的各条短语在所述预设文本中的第二出现次数之和,确定所述短语与所述预设主题的第二关联度;计算子单元,用于基于所述第一关联度与所述第二关联度,计算所述短语与所述预设主题的关联度评分。
可选的,所述计算单元,具体用于基于所述短语在所述待分析文本中的第三出现次数,以及所述短语在预设语料库中的第四出现次数,计算所述短语的重要度评分,所述预设语料库包含所述待分析文本。
本实施例提供的文本立场分析装置能够执行上述任一实施例所述的方法,其执行方式和有益效果类似,在这里不再赘述。
图8是本公开实施例提供的一种计算机设备的结构示意图。
如图8所示,该计算机设备可以包括处理器810以及存储有计算机程序指令的存储器820。
具体地,上述处理器810可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器820可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器820可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器820可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器820可在综合网关设备的内部或外部。在特定实施例中,存储器820是非易失性固态存储器。在特定实施例中,存储器820包括只读存储器(Read-Only Memory,ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Electrical Programmable ROM,EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM,EEPROM)、电可改写ROM(Electrically Alterable ROM,EAROM)或闪存,或者两个或及其以上这些的组合。
处理器810通过读取并执行存储器820中存储的计算机程序指令,以执行本公开实施例所提供的文本立场分析方法的步骤。
在一个示例中,该计算机设备还可包括收发器830和总线840。其中,如图8所示,处理器810、存储器820和收发器830通过总线840连接并完成相互间的通信。
总线840包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture,EISA)总线、前端总线(Front Side BUS,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low Pin Count,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、***控件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线840可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的文本立场分析方法。
上述的存储介质可以例如包括计算机程序指令的存储器820,上述指令可由文本立场分析设备的处理器810执行以完成本公开实施例所提供的文本立场分析方法。可选的,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact DiscROM,CD-ROM)、磁带、软盘和光数据存储设备等。上述计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本立场分析方法,其特征在于,所述方法包括:
获取待分析文本和所述待分析文本对应的主题短语;
对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;
将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。
2.根据权利要求1所述的方法,其特征在于,所述将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,包括:
将所述文本向量和所述主题向量输入所述分层胶囊模型的词胶囊层,得到所述词胶囊层输出的所述词级特征;
将所述词级特征输入所述分层胶囊模型的句子胶囊层,基于所述词胶囊层,结合所述词级特征与预先获取的第一权重,确定所述句子级特征;
将所述句子级特征输入所述分层胶囊模型的类别胶囊层,基于所述类别胶囊层,结合所述句子级特征与预先获取的第二权重,确定所述类别特征;
确定所述类别特征对应的立场类别,并将所述立场类别确定为根据所述主题短语对所述待分析文本进行立场分析的分析结果。
3.根据权利要求1所述的方法,其特征在于,获取所述待分析文本对应的主题短语,包括:
对所述待分析文本进行预处理,得到所述待分析文本包含的短语的集合;
针对所述短语的集合中包含的每条短语,确定所述短语与预设主题的关联度评分,以及所述短语的重要度评分,并计算所述关联度评分与所述重要度评分的乘积;
将对应乘积最大的短语确定为所述主题短语。
4.根据权利要求3所述的方法,其特征在于,所述对所述待分析文本进行预处理,得到所述待分析文本包含的短语的集合,包括:
对所述待分析文本进行分词处理;
基于分词结果,确定包含预设个数的连续词汇的短语组成的集合。
5.根据权利要求4所述的方法,其特征在于,所述基于分词结果,确定包含预设个数的连续词汇的短语组成的集合,包括:
基于所述分词结果进行词频统计;
基于词频统计结果,确定词频低于预设阈值的低频词汇;
在所述包含预设个数的连续词汇的短语中,剔除包含所述低频词汇和/或标点符号的短语,并基于剩余的短语组成所述集合。
6.根据权利要求3所述的方法,其特征在于,所述确定所述短语与预设主题的关联度评分,包括:
基于预训练的潜在狄利克雷分布模型,确定所述预设主题与所述待分析文本的第一关联度;
基于所述短语在所述预设主题对应的预设文本中的第一出现次数,以及所述集合中包含的各条短语在所述预设文本中的第二出现次数之和,确定所述短语与所述预设主题的第二关联度;
基于所述第一关联度与所述第二关联度,计算所述短语与所述预设主题的关联度评分。
7.根据权利要求3所述的方法,其特征在于,确定所述短语的重要度评分,包括:
基于所述短语在所述待分析文本中的第三出现次数,以及所述短语在预设语料库中的第四出现次数,计算所述短语的重要度评分,所述预设语料库包含所述待分析文本。
8.一种文本立场分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析文本和所述待分析文本对应的主题短语;
提取模块,用于对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;
分析模块,用于将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。
9.一种计算机设备,其特征在于,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的文本立场分析方法。
CN202311492828.9A 2023-11-09 2023-11-09 文本立场分析方法、装置、设备及存储介质 Pending CN117574892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311492828.9A CN117574892A (zh) 2023-11-09 2023-11-09 文本立场分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311492828.9A CN117574892A (zh) 2023-11-09 2023-11-09 文本立场分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117574892A true CN117574892A (zh) 2024-02-20

Family

ID=89859854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311492828.9A Pending CN117574892A (zh) 2023-11-09 2023-11-09 文本立场分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117574892A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952083A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952083A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法
CN117952083B (zh) * 2024-03-26 2024-07-16 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN113221545B (zh) 一种文本处理方法、装置、设备及介质、程序产品
CN111221939A (zh) 评分方法、装置和电子设备
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN112836514A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN117574892A (zh) 文本立场分析方法、装置、设备及存储介质
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN113343706A (zh) 基于多模态特征和语义规则的文本抑郁倾向检测***
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
Arikan et al. Detecting clitics related orthographic errors in Turkish
CN110619073B (zh) 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN114692655A (zh) 翻译***及文本翻译、下载、质量检查和编辑方法
CN109298796B (zh) 一种词联想方法及装置
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
KR101544639B1 (ko) 입력되는 문자열로부터 사용자의 감정을 판단하는 방법
CN111444708A (zh) 一种基于使用场景的sql语句智能补全方法
CN110956962A (zh) 车载机器人的答复信息确定方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination