CN111581943A - 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 - Google Patents

一种基于句子关联图的汉越双语多文档新闻观点句识别方法 Download PDF

Info

Publication number
CN111581943A
CN111581943A CN202010254227.4A CN202010254227A CN111581943A CN 111581943 A CN111581943 A CN 111581943A CN 202010254227 A CN202010254227 A CN 202010254227A CN 111581943 A CN111581943 A CN 111581943A
Authority
CN
China
Prior art keywords
sentence
bilingual
chinese
association
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010254227.4A
Other languages
English (en)
Inventor
余正涛
唐珊
王剑
黄于欣
高盛祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010254227.4A priority Critical patent/CN111581943A/zh
Publication of CN111581943A publication Critical patent/CN111581943A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法,属于自然语言技术领域。本发明针对汉越双语多文档新闻观点句识别任务,提出一种联合句子关联特征和语义特征的观点句识别模型;包括步骤:构建融合事件要素和情感要素的汉越双语多文档关联无向图;获取汉越双语的句子关联特征;获取句子的语义编码表示;对得到的语义编码进行降维来获得汉越双语的句子语义特征;利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征,采用分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。本发明可以有效提升汉越双语多文档新闻观点句识别的准确率。

Description

一种基于句子关联图的汉越双语多文档新闻观点句识别方法
技术领域
本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法,属于自然语言技术领域。
背景技术
开展汉越双语新闻观点句识别研究,及时掌握中越两国关于同一事件的观点,对于促进中越两国之间的文化交流、经济发展至关重要。在观点句识别任务中,现有的方法主要是根据观点句特征对文档中的观点句进行识别。比如通过观点句语义模型和非观点句语义模型构建语义特征,然后通过融入词汇特征和词性特征对句子进行分类,最后将置信度高的样本加入训练集迭代得到最终的分类器。或者是通过构建词典的方式来获得观点词和非观点词的集合,然后对观点词的强弱程度进行计算,通过对每个句子中包含的观点词的强弱程度的计算来对其是否为观点句进行甄别。还有学者提出了一种基于集成学习的中文观点句抽取方法,该方法首先采用基于Fisher判别准则的特征选择方法,然后使用Booststraping方法对朴素贝叶斯分类器、SVM分类器和最大熵分类器进行集成,从而对观点句进行识别。
但是以上方法都是基于单文档,没有考虑多个文档多个句子之间的关联关系。因此,本发明专利提出了一种联合句子关联关系和句子语义特征的基于句子关联图的汉越双语多文档新闻观点句识别方法。
发明内容
本发明提供了一种基于句子关联图的汉越双语多文档新闻观点句识别方法,以用于解决了汉越新闻观点句识别的问题,且能有效提升汉越新闻观点句抽取的准确性。
本发明的技术方案是:一种基于句子关联图的汉越双语多文档新闻观点句识别方法,包括:
首先计算不同句子间事件要素和情感要素的关联强度;
利用不同句子间事件要素和情感要素的关联强度构建汉越双语多文档关联无向图;
获取汉越双语的句子关联特征;
利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;
利用BI-LSTM网络对映射到同一个语义空间下的词向量编码,获取句子的语义编码表示;
对得到的语义编码进行降维来获得汉越双语的句子语义特征;
利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征,采用分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
进一步地,具体步骤如下:
Step1、语料收集:收集中文新闻文本、越南语新闻文本作为训练语料和测试语料;目前还没有公开的汉越双语新闻语料,因此可以利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件,共计200 篇文档,2832个句子。每个话题事件按照90%,5%,5%随机划分训练集、验证集和测试集。
Step2、计算不同句子间事件要素的关联强度:
事件要素包含事件发生的时间、地点、人物和组织机构等信息。可以利用不同新闻句中事件要素的共现次数来表示不同句子间事件要素的关联强度。抽取汉越双语新闻句子中的命名实体作为事件要素,根据汉越双语词典对抽取的要素进行对齐,计算句子间事件要素的共现度。
进一步地,首先抽取汉越双语新闻句子中的命名实体作为事件要素,得到的汉语新闻要素的集合记为
Figure BDA0002436662090000021
越南语新闻要素集合记为
Figure BDA0002436662090000022
为了衡量抽取要素的关联强度,首先利用汉越双语词典对抽取的要素进行对齐,得到对齐的汉越新闻要素集合
Figure BDA0002436662090000023
最后通过计算不同句子的事件要素共现次数来确定其关联强度,其共现次数可以通过判断两个句子是否包含相同的要素,即对任意语言的两个句子si、sj的要素集合是否存在交集。如果si和sj的集合有交集,则两者之间具有要素关联关系,其中,若si和sj是同一语种的句子,则直接做交集运算即可判断,若属于不同语种的句子,则需使用对齐集合Acv中的要素重新表示句子si和sj之后,再做交集运算进行判断;
判断任意语言的两个句子si、sj的要素集合是否存在交集,即对事件要素关联强度进行归一化操作计算的具体公式为:
Figure BDA0002436662090000031
其中C(si∩sj)表示新闻句si和sj的共现要素数,C(si)则表示句子si的要素个数。
Step3、计算不同句子间情感要素的关联强度:
情感要素关联是指汉越双语新闻句子中包含的情感词的关联关系,通过计算不同句子间情感词的相似性来衡量其关联关系。为了实现情感要素关联,首先抽取不同语言新闻句中所包含的情感词,其中,汉语新闻句情感词抽取利用知网情感词典以及台湾大学NTUSD情感词典,提取出每个句子中的情感词集
Figure BDA0002436662090000032
针对越南语情感词典资源缺乏的问题,采用汉越双语词典翻译汉语情感词典,来构建越南语情感词典,在采用的汉越双语情感词典中,中文情感词典规模可以为5126,越南文情感词典规模可以为3248。抽取后得到每个越南语句子中包含的情感词集合
Figure BDA0002436662090000033
通过计算任意两个句子si和sj所包含情感词的相似性作为句子的情感关联强度。其中情感词相似性通过汉越双语词向量的余弦相似度得到,具体公式为:
Figure BDA0002436662090000034
其中cos为余弦相似度函数,
Figure BDA0002436662090000035
Figure BDA0002436662090000036
为情感要素的双语词向量。
最终两个句子的情感关联强度通过计算两个句子的所有情感词相似度的最大值得到。具体公式为:
Figure BDA0002436662090000037
Step4、构建汉越双语多文档关联无向图;
根据句子间的关联关系,构建汉越双语多文档句子关联图G=<V,E>,其中顶点V表示双语句子、E={ea,eb}表示边的集合,ea表示相同语言顶点之间的边,eb表示不同语言顶点之间的边。
作为本发明的优选方案,所述步骤Step4中,图G中任意两个顶点Vi和Vj的边的权重为步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)的线性加权,
利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重,具体公式为:
W(Vi,Vj)=α·Fa(si,sj)+β·Fb(si,sj)
为了降低无向图G的复杂性,设置边的权重的阈值为ε,0<ε<1,如果 W(Vi,Vj)>ε则保留这条边,反之则删除这条边,α,β均为超参数。
Step5、获取句子关联特征:在步骤Step4构建的汉越双语多文档关联无向图G 上,利用TextRank算法得到汉越双语的句子关联特征;具体公式为:
Figure BDA0002436662090000041
其中R(Vi)是句子Vi的句子关联特征,W(Vj,Vi)为构建的汉越双语多文档关联无向图的顶点Vi和Vj的边的权重,nb(Vj)为与Vi有关联关系的邻居节点,d为阻尼系数,本文取0.85。
Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下。对于给定的句子si={wi,1,wi,2,…,wi,k},利用下式计算得到其双语词嵌入表征:
ei,k=Embedding(wi,k)
其中,Embedding为双语词向量映射矩阵,wi,k表示第i个句子的第k个词。
Step7、语义编码:使用双向长短期记忆(BI-LSTM)网络作为编码器,编码器在接收到步骤Step6的双语词向量后,顺序更新其隐藏状态,输出句子向量,具体公式为:
hi,k=BI-LSTM(ei,k,hi,k-1)
其中ei,k表示在第i个句子中第k个词的双语词向量表示,hi,k表示隐层向量;
编码状态中,前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列
Figure BDA0002436662090000042
其中
Figure 100002_1
表示第i个句子中第k个词,后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列
Figure BDA0002436662090000044
采用编码器最后时刻的前向和后向对应的隐层状态拼接,构成句子的语义编码表示,具体公式为:
Figure BDA0002436662090000045
Step8、使用sigmoid函数对步骤Step7得到的语义编码表示进行降维来获得汉越双语的句子语义特征,具体公式为:
Si=sigmoid(Wshi+bs)
其中,Ws和bs为训练参数,sigmoid函数为激活函数。
采用的2层的BI-LSTM网络获取汉越双语的语义特征,其中双语词嵌入维度为 300维。BI-LSTM隐状态设置为512维。为避免模型过拟合,dropout设置为0.3。模型训练批次大小设置为64,训练200轮次,采用Adam优化器对BI-LSTM模型进行优化,学习率为1e-3,同时在BI-LSTM模型训练过程中加入梯度裁剪,最大梯度裁剪为5。
Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征,采用softmax分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
进一步地,所述步骤Step9中,利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征,具体公式为:
Figure BDA0002436662090000051
其中,y为观点句识别特征,Si为句子语义特征,Ri为句子关联特征。
采用softmax分类器对于观点句识别特征进行分类:
Figure BDA0002436662090000052
并采用二分类的交熵损失函数对分类器进行优化,具体公式为:
Figure BDA0002436662090000053
其中yi是第i个样本的标签,
Figure BDA0002436662090000054
是分类器模型预测样本是正样本的概率。
本发明的有益效果是:
1、本发明针对跨语言多文档观点句识别问题,首先定义了事件要素关联和情感要素关联两种关联关系,然后构造以汉越双语句子为顶点,以关联关系为边的句子关联图,最后基于句子关联图,通过TextRank算法计算句子的关联特征。
2、本发明通过融合句子关联特征和通过BI-LSTM得到的句子语义特征,来改善观点句识别的效果,能有效地提高汉越双语多文档新闻观点句识别的准确性。
附图说明
图1为本发明中的方法流程示意图;
图2为本发明中汉越观点句抽取模型的具体细节示意图。
具体实施方式
实施例1:如图1-2所示,一种基于句子关联图的汉越双语多文档新闻观点句识别方法,具体步骤如下:
Step1、利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件,共计200篇文档,2832个句子。每个话题事件按照 90%,5%,5%随机划分训练集、验证集和测试集;
Step2、计算不同句子间事件要素的关联强度:首先抽取汉越双语新闻句子中的命名实体作为事件要素,得到的汉语事件要素的集合记为
Figure BDA0002436662090000061
越南语事件要素集合记为
Figure BDA0002436662090000062
为了衡量抽取要素的关联强度,首先利用汉越双语词典对抽取的要素进行对齐,得到对齐的汉越双语事件要素集合
Figure BDA0002436662090000063
最后通过计算不同句子的事件要素共现次数来确定其关联强度,其共现次数可以通过判断两个句子是否包含相同的要素,即任意语言的两个句子si、sj的要素集合是否存在交集。判断任意语言的两个句子si、sj的要素集合是否存在交集的具体公式为:
Figure BDA0002436662090000064
其中C(si∩sj)表示新闻句si和sj的共现要素数,C(si)则表示句子si的要素个数。
Step3、计算不同句子间情感要素的关联强度:首先抽取不同语言新闻句中所包含的情感词,其中,汉语新闻句情感词抽取利用知网情感词典以及台湾大学NTUSD 情感词典,提取出每个句子中的情感词集
Figure BDA0002436662090000065
针对越南语情感词典资源缺乏的问题,采用汉越双语词典翻译汉语情感词典,来构建越南语情感词典。抽取后得到每个越南语句子中包含的情感词集合
Figure BDA0002436662090000066
通过计算任意两个句子si和sj所包含情感词的相似性作为句子的情感关联强度。其中情感词相似性通过汉越双语词向量的余弦相似度得到,具体公式为:
Figure BDA0002436662090000067
其中cos为余弦相似度函数,
Figure BDA0002436662090000068
Figure BDA0002436662090000069
为情感要素的双语词向量。
最终两个句子的情感关联强度通过计算两个句子的所有情感词相似度的最大值得到。具体公式为:
Figure BDA0002436662090000071
Step4、构建汉越双语多文档关联无向图;根据句子间的关联关系,构建汉越双语多文档句子关联图G=<V,E>,其中顶点V表示双语句子、E={ea,eb}表示边的集合, ea表示相同语言顶点之间的边,eb表示不同语言顶点之间的边。
图G中利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重,具体公式为:
W(Vi,Vj)=α·Fa(si,sj)+β·Fb(si,sj)
为了降低无向图G的复杂性,设置边的权重的阈值为ε,0<ε<1,如果 W(Vi,Vj)>ε则保留这条边,反之则删除这条边,α,β均为超参数。
Step5、获取句子关联特征:在步骤Step4构建的汉越双语多文档关联无向图G 上,利用TextRank算法计算得到汉越双语的句子关联特征的具体公式为:
Figure BDA0002436662090000072
其中R(Vi)是句子Vi的句子关联特征,W(Vj,Vi)为构建的汉越双语多文档关联无向图的顶点Vi和Vj的边的权重,nb(Vj)为与Vi有关联关系的邻居节点,d为阻尼系数,本文取0.85。
Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;对于给定的句子si={wi,1,wi,2,…,wi,k},利用下式计算得到其双语词嵌入表征:
ei,k=Embedding(wi,k)
其中,Embedding为双语词向量映射矩阵,wi,k表示第i个句子的第k个词。
Step7、语义编码:使用双向长短期记忆(BI-LSTM)网络作为编码器,编码器在接收到步骤Step6的双语词向量后,顺序更新其隐藏状态,输出句子向量,具体公式为:
hi,k=BI-LSTM(ei,k,hi,k-1)
其中ei,k表示在第i个句子中第k个词的双语词向量表示,hi,k表示隐层向量;
编码状态中,前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列
Figure BDA0002436662090000081
其中
Figure 100002_2
表示第i个句子中第k个词,后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列
Figure BDA0002436662090000083
采用编码器最后时刻的前向和后向对应的隐层状态拼接,构成句子的语义编码表示,具体公式为:
Figure BDA0002436662090000084
Step8、使用sigmoid函数对步骤Step7得到的语义编码表示进行降维来获得汉越双语的句子语义特征,具体公式为:
Si=sigmoid(Wshi+bs)
其中,Ws和bs为训练参数,sigmoid函数为激活函数。
采用的2层的BI-LSTM网络获取汉越双语的语义特征,其中双语词嵌入维度为 300维。BI-LSTM隐状态设置为512维。为避免模型过拟合,dropout设置为0.3。模型训练批次大小设置为64,训练200轮次,采用Adam优化器对BI-LSTM模型进行优化,学习率为1e=3,同时在BI-LSTM模型训练过程中加入梯度裁剪,最大梯度裁剪为5。
Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征,采用softmax分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
进一步地,所述步骤Step9中,利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征,具体公式为:
Figure BDA0002436662090000085
其中,y为观点句识别特征,Si为句子语义特征,Ri为句子关联特征。
采用softmax分类器对于观点句识别特征进行分类:
Figure BDA0002436662090000086
并采用二分类的交熵损失函数对分类器进行优化,具体公式为:
Figure BDA0002436662090000087
其中yi是第i个样本的标签,
Figure BDA0002436662090000088
是分类器模型预测样本是正样本的概率。
为了验证本发明与其他识别模型的效果,本发明做了如下对比实验:表1为不同模型观点句识别结果,表2为不同超参数α和β对模型性能的影响;表3为不同超参数ε的模型性能。
表1不同模型观点句识别结果
Figure BDA0002436662090000091
表2不同超参数α和β对模型性能的影响
Figure BDA0002436662090000092
表3不同超参数ε的模型性能
Figure BDA0002436662090000093
从表1中可以看出,三种模型在都不使用关联特征时,BI-LSTM模型取得了最佳的性能,这也说明BI-LSTM在文本数据上强大的建模能力。但是同时可以看出,在不使用关联特征时,性能最佳的BI-LSTM模型也仅能获得63.8%的准确率,比仅利用关联特征的准确率低了7.4%。这也说明了在多文档观点句识别过程中,模型仅依赖深度学习模型的输出无法得到很好的语义表征。造成这种现象有两个原因:一个是因为数据集规模较小,模型训练不充分,另一个原因是汉越双语词向量质量不高,在词嵌入阶段存在误差。另外还能看出,仅使用关联特征相比三种深度学习模型在准确率、召回率和F1值均能够获得较好的性能,这也说明了本发明提出的句子关联特征建模方法是有效地,并且在深度学习模型中融入句子关联特征是有效的。最后可以看出,联合建模深度学习模型和句子关联特征,模型性能有一个较大幅度的提升。相比BI-LSTM模型,加入句子关联特征,模型准确率提升了15.1%,相比仅使用关联特征,模型准确率提升了7.7%。这些都充分说明了本发明提出的结合语义特征和关联特征能够有效提升汉越双语多文档观点句识别任务的性能。
从表2可以发现:模型在α=0.3,β=0.7时取得了最佳性能,这表明情感要素在计算关联特征时更重要,也说明了观点句识别中情感词仍然是一个重要的影响因素。当α=0.9,β=0.1时模型性能最差,这也反映了仅使用事件要素来表征关联特征并不能很好的反映不同句子之间的情感关联关系。
从表3可以看出,超参数ε=0.5模型性能最佳。同样可以看出ε过小或者过大,模型性能均有一个显著的下降。特别是ε=0.9时,相比ε=0.5,模型F1值下降了6.9%,这也说明ε=0.9时,图模型过于稀疏,很多句子间的有用的关联关系被丢弃,从而导致句子关联特征产生较大偏差。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:包括:
首先计算不同句子间事件要素和情感要素的关联强度;
利用不同句子间事件要素和情感要素的关联强度构建汉越双语多文档关联无向图;
获取汉越双语的句子关联特征;
利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;
利用BI-LSTM网络对映射到同一个语义空间下的词向量编码,获取句子的语义编码表示;
对得到的语义编码进行降维来获得汉越双语的句子语义特征;
利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征,采用分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
2.根据权利要求1所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:具体步骤如下:
Step1、语料收集:收集中文新闻文本、越南语新闻文本作为训练语料和测试语料;
Step2、计算不同句子间事件要素的关联强度:抽取汉越双语新闻句子中的命名实体作为事件要素,根据汉越双语词典对抽取的要素进行对齐,计算句子间事件要素的关联强度;
Step3、计算不同句子间情感要素的关联强度:抽取汉越双语新闻句子中所包含的情感词作为情感要素,通过汉越双语词向量的余弦相似度计算情感词的相似性,并以最大情感词相似性作为句子情感要素的关联强度;
Step4、构建汉越双语多文档关联无向图;其中通过利用步骤Step2和步骤Step3得到的事件要素和情感要素关联强度计算得到无向图中任意两个顶点之间边的权重;
Step5、获取句子关联特征:在步骤Step4构建的汉越双语多文档关联无向图上,利用TextRank算法计算得到汉越双语的句子关联特征;
Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;
Step7、语义编码:使用双向长短期记忆BI-LSTM网络作为编码器,编码器在接收到步骤Step6的双语词向量后,顺序更新其隐藏状态,获得句子的语义编码表示;
Step8、获取语义特征:使用sigmoid函数对步骤Step7得到的语义编码进行降维来获得汉越双语的句子语义特征;
Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征,采用softmax分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
3.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step2中,汉语新闻要素的集合记为
Figure FDA0002436662080000027
越南语新闻要素集合记为
Figure FDA0002436662080000028
根据汉越双语词典对抽取的要素进行对齐,得到对齐的汉越新闻要素集合
Figure FDA0002436662080000029
对任意语言的两个句子si、sj,如果si和sj的集合有交集,则两者之间具有要素关联关系,其中,若si和sj是同一语种的句子,则直接做交集运算即可判断,若属于不同语种的句子,则需使用对齐集合Acv中的要素重新表示句子si和sj之后,再做交集运算进行判断;则对事件要素关联强度进行归一化操作计算的具体公式为:
Figure FDA0002436662080000021
其中C(si∩sj)表示新闻句si和sj的共现要素数,C(si)则表示句子si的要素个数。
4.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step3中,汉语句子中包含的情感词集合记为
Figure FDA0002436662080000022
越南语句子中包含的情感词集合记为
Figure FDA0002436662080000023
对任意语言的两个句子si和sj,计算其包含情感词的相似性,并以最大情感词相似性作为句子情感要素关联强度,其中情感词相似性通过汉越双语词向量的余弦相似度得到,具体公式为:
Figure FDA0002436662080000024
其中cos为余弦相似度函数,
Figure FDA0002436662080000025
Figure FDA0002436662080000026
为情感要素的双语词向量;
最终两个句子的情感要素关联强度通过计算两个句子的所有情感词相似度的最大值得到,具体公式为:
Figure FDA0002436662080000031
5.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step4中,利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重,具体公式为:
W(Vi,Vj)=α·Fa(si,sj)+β·Fb(si,sj)
为了降低无向图G的复杂性,设置边的权重的阈值为ε,0<ε<1,如果W(Vi,Vj)>ε则保留这条边,反之则删除这条边,α,β均为超参数。
6.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step5中,利用TextRank算法得到汉越双语的句子关联特征的具体公式为:
Figure FDA0002436662080000032
其中R(Vi)是句子Vi的句子关联特征,W(Vj,Vi)为构建的汉越双语多文档关联无向图的顶点Vi和Vj的边的权重,nb(Vj)为与Vi有关联关系的邻居节点,d为阻尼系数,本文取0.85。
7.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step6中,利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下,对于给定的句子si={wi,1,wi,2,...,wi,k},利用下式计算得到其双语词嵌入表征:
ei,k=Embedding(wi,k)
其中,Embedding为双语词向量映射矩阵,wi,k表示第i个句子的第k个词。
8.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step7中,使用双向长短期记忆BI-LSTM网络作为编码器,编码器在接收到步骤Step6中的每个双语词向量后,顺序更新其隐藏状态,输出句子向量,具体公式为:
hi,k=BI-LSTM(ei,k,hi,k-1)
其中ei,k表示在第i个句子中第k个词的双语词向量表示,hi,k表示隐层向量;
编码状态中,前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列
Figure 1
其中
Figure 2
表示第i个句子中第k个词,后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列
Figure FDA0002436662080000043
采用编码器最后时刻的前向和后向对应的隐层状态拼接,构成句子的语义编码表示,具体公式为:
Figure FDA0002436662080000044
9.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step8中,对步骤Step7中得到的句子语义编码表示hi进行降维来获得其语义特征,具体公式为:
Si=sigmoid(Wshi+bs)
其中,Ws和bs为训练参数,sigmoid函数为激活函数。
10.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step9中,利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征,具体公式为:
Figure FDA0002436662080000045
其中,y为观点句识别特征,Si为句子语义特征,Ri为句子关联特征。
采用softmax分类器对于观点句识别特征进行分类:
Figure FDA0002436662080000046
并采用二分类的交熵损失函数对分类器进行优化,具体公式为:
Figure FDA0002436662080000047
其中yi是第i个样本的标签,
Figure FDA0002436662080000048
是分类器模型预测样本是正样本的概率。
CN202010254227.4A 2020-04-02 2020-04-02 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 Pending CN111581943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010254227.4A CN111581943A (zh) 2020-04-02 2020-04-02 一种基于句子关联图的汉越双语多文档新闻观点句识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254227.4A CN111581943A (zh) 2020-04-02 2020-04-02 一种基于句子关联图的汉越双语多文档新闻观点句识别方法

Publications (1)

Publication Number Publication Date
CN111581943A true CN111581943A (zh) 2020-08-25

Family

ID=72111495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254227.4A Pending CN111581943A (zh) 2020-04-02 2020-04-02 一种基于句子关联图的汉越双语多文档新闻观点句识别方法

Country Status (1)

Country Link
CN (1) CN111581943A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及***
CN113761885A (zh) * 2021-03-17 2021-12-07 中科天玑数据科技股份有限公司 一种基于BayesLSTM的语种识别方法
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘书龙: "汉越双语新闻观点句抽取及分析方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
叶雷: "汉越双语新闻差异性摘要方法研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及***
CN113761885A (zh) * 2021-03-17 2021-12-07 中科天玑数据科技股份有限公司 一种基于BayesLSTM的语种识别方法
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN113901229B (zh) * 2021-09-15 2022-09-27 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化***及方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及***
CN112580330B (zh) 基于中文触发词指导的越南语新闻事件检测方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114139522A (zh) 一种基于层级注意力和标签引导学习的关键信息识别方法
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及***
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN115859980A (zh) 一种半监督式命名实体识别方法、***及电子设备
CN114004236B (zh) 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN114996442B (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成***
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825

RJ01 Rejection of invention patent application after publication