CN111581943A - 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 - Google Patents
一种基于句子关联图的汉越双语多文档新闻观点句识别方法 Download PDFInfo
- Publication number
- CN111581943A CN111581943A CN202010254227.4A CN202010254227A CN111581943A CN 111581943 A CN111581943 A CN 111581943A CN 202010254227 A CN202010254227 A CN 202010254227A CN 111581943 A CN111581943 A CN 111581943A
- Authority
- CN
- China
- Prior art keywords
- sentence
- bilingual
- chinese
- association
- viewpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 33
- 230000002996 emotional effect Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法,属于自然语言技术领域。本发明针对汉越双语多文档新闻观点句识别任务,提出一种联合句子关联特征和语义特征的观点句识别模型;包括步骤:构建融合事件要素和情感要素的汉越双语多文档关联无向图;获取汉越双语的句子关联特征;获取句子的语义编码表示;对得到的语义编码进行降维来获得汉越双语的句子语义特征;利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征,采用分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。本发明可以有效提升汉越双语多文档新闻观点句识别的准确率。
Description
技术领域
本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法,属于自然语言技术领域。
背景技术
开展汉越双语新闻观点句识别研究,及时掌握中越两国关于同一事件的观点,对于促进中越两国之间的文化交流、经济发展至关重要。在观点句识别任务中,现有的方法主要是根据观点句特征对文档中的观点句进行识别。比如通过观点句语义模型和非观点句语义模型构建语义特征,然后通过融入词汇特征和词性特征对句子进行分类,最后将置信度高的样本加入训练集迭代得到最终的分类器。或者是通过构建词典的方式来获得观点词和非观点词的集合,然后对观点词的强弱程度进行计算,通过对每个句子中包含的观点词的强弱程度的计算来对其是否为观点句进行甄别。还有学者提出了一种基于集成学习的中文观点句抽取方法,该方法首先采用基于Fisher判别准则的特征选择方法,然后使用Booststraping方法对朴素贝叶斯分类器、SVM分类器和最大熵分类器进行集成,从而对观点句进行识别。
但是以上方法都是基于单文档,没有考虑多个文档多个句子之间的关联关系。因此,本发明专利提出了一种联合句子关联关系和句子语义特征的基于句子关联图的汉越双语多文档新闻观点句识别方法。
发明内容
本发明提供了一种基于句子关联图的汉越双语多文档新闻观点句识别方法,以用于解决了汉越新闻观点句识别的问题,且能有效提升汉越新闻观点句抽取的准确性。
本发明的技术方案是:一种基于句子关联图的汉越双语多文档新闻观点句识别方法,包括:
首先计算不同句子间事件要素和情感要素的关联强度;
利用不同句子间事件要素和情感要素的关联强度构建汉越双语多文档关联无向图;
获取汉越双语的句子关联特征;
利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;
利用BI-LSTM网络对映射到同一个语义空间下的词向量编码,获取句子的语义编码表示;
对得到的语义编码进行降维来获得汉越双语的句子语义特征;
利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征,采用分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
进一步地,具体步骤如下:
Step1、语料收集:收集中文新闻文本、越南语新闻文本作为训练语料和测试语料;目前还没有公开的汉越双语新闻语料,因此可以利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件,共计200 篇文档,2832个句子。每个话题事件按照90%,5%,5%随机划分训练集、验证集和测试集。
Step2、计算不同句子间事件要素的关联强度:
事件要素包含事件发生的时间、地点、人物和组织机构等信息。可以利用不同新闻句中事件要素的共现次数来表示不同句子间事件要素的关联强度。抽取汉越双语新闻句子中的命名实体作为事件要素,根据汉越双语词典对抽取的要素进行对齐,计算句子间事件要素的共现度。
进一步地,首先抽取汉越双语新闻句子中的命名实体作为事件要素,得到的汉语新闻要素的集合记为越南语新闻要素集合记为为了衡量抽取要素的关联强度,首先利用汉越双语词典对抽取的要素进行对齐,得到对齐的汉越新闻要素集合最后通过计算不同句子的事件要素共现次数来确定其关联强度,其共现次数可以通过判断两个句子是否包含相同的要素,即对任意语言的两个句子si、sj的要素集合是否存在交集。如果si和sj的集合有交集,则两者之间具有要素关联关系,其中,若si和sj是同一语种的句子,则直接做交集运算即可判断,若属于不同语种的句子,则需使用对齐集合Acv中的要素重新表示句子si和sj之后,再做交集运算进行判断;
判断任意语言的两个句子si、sj的要素集合是否存在交集,即对事件要素关联强度进行归一化操作计算的具体公式为:
其中C(si∩sj)表示新闻句si和sj的共现要素数,C(si)则表示句子si的要素个数。
Step3、计算不同句子间情感要素的关联强度:
情感要素关联是指汉越双语新闻句子中包含的情感词的关联关系,通过计算不同句子间情感词的相似性来衡量其关联关系。为了实现情感要素关联,首先抽取不同语言新闻句中所包含的情感词,其中,汉语新闻句情感词抽取利用知网情感词典以及台湾大学NTUSD情感词典,提取出每个句子中的情感词集针对越南语情感词典资源缺乏的问题,采用汉越双语词典翻译汉语情感词典,来构建越南语情感词典,在采用的汉越双语情感词典中,中文情感词典规模可以为5126,越南文情感词典规模可以为3248。抽取后得到每个越南语句子中包含的情感词集合通过计算任意两个句子si和sj所包含情感词的相似性作为句子的情感关联强度。其中情感词相似性通过汉越双语词向量的余弦相似度得到,具体公式为:
最终两个句子的情感关联强度通过计算两个句子的所有情感词相似度的最大值得到。具体公式为:
Step4、构建汉越双语多文档关联无向图;
根据句子间的关联关系,构建汉越双语多文档句子关联图G=<V,E>,其中顶点V表示双语句子、E={ea,eb}表示边的集合,ea表示相同语言顶点之间的边,eb表示不同语言顶点之间的边。
作为本发明的优选方案,所述步骤Step4中,图G中任意两个顶点Vi和Vj的边的权重为步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)的线性加权,
利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重,具体公式为:
W(Vi,Vj)=α·Fa(si,sj)+β·Fb(si,sj)
为了降低无向图G的复杂性,设置边的权重的阈值为ε,0<ε<1,如果 W(Vi,Vj)>ε则保留这条边,反之则删除这条边,α,β均为超参数。
Step5、获取句子关联特征:在步骤Step4构建的汉越双语多文档关联无向图G 上,利用TextRank算法得到汉越双语的句子关联特征;具体公式为:
其中R(Vi)是句子Vi的句子关联特征,W(Vj,Vi)为构建的汉越双语多文档关联无向图的顶点Vi和Vj的边的权重,nb(Vj)为与Vi有关联关系的邻居节点,d为阻尼系数,本文取0.85。
Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下。对于给定的句子si={wi,1,wi,2,…,wi,k},利用下式计算得到其双语词嵌入表征:
ei,k=Embedding(wi,k)
其中,Embedding为双语词向量映射矩阵,wi,k表示第i个句子的第k个词。
Step7、语义编码:使用双向长短期记忆(BI-LSTM)网络作为编码器,编码器在接收到步骤Step6的双语词向量后,顺序更新其隐藏状态,输出句子向量,具体公式为:
hi,k=BI-LSTM(ei,k,hi,k-1)
其中ei,k表示在第i个句子中第k个词的双语词向量表示,hi,k表示隐层向量;
编码状态中,前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列其中表示第i个句子中第k个词,后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列采用编码器最后时刻的前向和后向对应的隐层状态拼接,构成句子的语义编码表示,具体公式为:
Step8、使用sigmoid函数对步骤Step7得到的语义编码表示进行降维来获得汉越双语的句子语义特征,具体公式为:
Si=sigmoid(Wshi+bs)
其中,Ws和bs为训练参数,sigmoid函数为激活函数。
采用的2层的BI-LSTM网络获取汉越双语的语义特征,其中双语词嵌入维度为 300维。BI-LSTM隐状态设置为512维。为避免模型过拟合,dropout设置为0.3。模型训练批次大小设置为64,训练200轮次,采用Adam优化器对BI-LSTM模型进行优化,学习率为1e-3,同时在BI-LSTM模型训练过程中加入梯度裁剪,最大梯度裁剪为5。
Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征,采用softmax分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
进一步地,所述步骤Step9中,利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征,具体公式为:
其中,y为观点句识别特征,Si为句子语义特征,Ri为句子关联特征。
采用softmax分类器对于观点句识别特征进行分类:
并采用二分类的交熵损失函数对分类器进行优化,具体公式为:
本发明的有益效果是:
1、本发明针对跨语言多文档观点句识别问题,首先定义了事件要素关联和情感要素关联两种关联关系,然后构造以汉越双语句子为顶点,以关联关系为边的句子关联图,最后基于句子关联图,通过TextRank算法计算句子的关联特征。
2、本发明通过融合句子关联特征和通过BI-LSTM得到的句子语义特征,来改善观点句识别的效果,能有效地提高汉越双语多文档新闻观点句识别的准确性。
附图说明
图1为本发明中的方法流程示意图;
图2为本发明中汉越观点句抽取模型的具体细节示意图。
具体实施方式
实施例1:如图1-2所示,一种基于句子关联图的汉越双语多文档新闻观点句识别方法,具体步骤如下:
Step1、利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件,共计200篇文档,2832个句子。每个话题事件按照 90%,5%,5%随机划分训练集、验证集和测试集;
Step2、计算不同句子间事件要素的关联强度:首先抽取汉越双语新闻句子中的命名实体作为事件要素,得到的汉语事件要素的集合记为越南语事件要素集合记为为了衡量抽取要素的关联强度,首先利用汉越双语词典对抽取的要素进行对齐,得到对齐的汉越双语事件要素集合最后通过计算不同句子的事件要素共现次数来确定其关联强度,其共现次数可以通过判断两个句子是否包含相同的要素,即任意语言的两个句子si、sj的要素集合是否存在交集。判断任意语言的两个句子si、sj的要素集合是否存在交集的具体公式为:
其中C(si∩sj)表示新闻句si和sj的共现要素数,C(si)则表示句子si的要素个数。
Step3、计算不同句子间情感要素的关联强度:首先抽取不同语言新闻句中所包含的情感词,其中,汉语新闻句情感词抽取利用知网情感词典以及台湾大学NTUSD 情感词典,提取出每个句子中的情感词集针对越南语情感词典资源缺乏的问题,采用汉越双语词典翻译汉语情感词典,来构建越南语情感词典。抽取后得到每个越南语句子中包含的情感词集合通过计算任意两个句子si和sj所包含情感词的相似性作为句子的情感关联强度。其中情感词相似性通过汉越双语词向量的余弦相似度得到,具体公式为:
最终两个句子的情感关联强度通过计算两个句子的所有情感词相似度的最大值得到。具体公式为:
Step4、构建汉越双语多文档关联无向图;根据句子间的关联关系,构建汉越双语多文档句子关联图G=<V,E>,其中顶点V表示双语句子、E={ea,eb}表示边的集合, ea表示相同语言顶点之间的边,eb表示不同语言顶点之间的边。
图G中利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重,具体公式为:
W(Vi,Vj)=α·Fa(si,sj)+β·Fb(si,sj)
为了降低无向图G的复杂性,设置边的权重的阈值为ε,0<ε<1,如果 W(Vi,Vj)>ε则保留这条边,反之则删除这条边,α,β均为超参数。
Step5、获取句子关联特征:在步骤Step4构建的汉越双语多文档关联无向图G 上,利用TextRank算法计算得到汉越双语的句子关联特征的具体公式为:
其中R(Vi)是句子Vi的句子关联特征,W(Vj,Vi)为构建的汉越双语多文档关联无向图的顶点Vi和Vj的边的权重,nb(Vj)为与Vi有关联关系的邻居节点,d为阻尼系数,本文取0.85。
Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;对于给定的句子si={wi,1,wi,2,…,wi,k},利用下式计算得到其双语词嵌入表征:
ei,k=Embedding(wi,k)
其中,Embedding为双语词向量映射矩阵,wi,k表示第i个句子的第k个词。
Step7、语义编码:使用双向长短期记忆(BI-LSTM)网络作为编码器,编码器在接收到步骤Step6的双语词向量后,顺序更新其隐藏状态,输出句子向量,具体公式为:
hi,k=BI-LSTM(ei,k,hi,k-1)
其中ei,k表示在第i个句子中第k个词的双语词向量表示,hi,k表示隐层向量;
编码状态中,前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列其中表示第i个句子中第k个词,后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列采用编码器最后时刻的前向和后向对应的隐层状态拼接,构成句子的语义编码表示,具体公式为:
Step8、使用sigmoid函数对步骤Step7得到的语义编码表示进行降维来获得汉越双语的句子语义特征,具体公式为:
Si=sigmoid(Wshi+bs)
其中,Ws和bs为训练参数,sigmoid函数为激活函数。
采用的2层的BI-LSTM网络获取汉越双语的语义特征,其中双语词嵌入维度为 300维。BI-LSTM隐状态设置为512维。为避免模型过拟合,dropout设置为0.3。模型训练批次大小设置为64,训练200轮次,采用Adam优化器对BI-LSTM模型进行优化,学习率为1e=3,同时在BI-LSTM模型训练过程中加入梯度裁剪,最大梯度裁剪为5。
Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征,采用softmax分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
进一步地,所述步骤Step9中,利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征,具体公式为:
其中,y为观点句识别特征,Si为句子语义特征,Ri为句子关联特征。
采用softmax分类器对于观点句识别特征进行分类:
并采用二分类的交熵损失函数对分类器进行优化,具体公式为:
为了验证本发明与其他识别模型的效果,本发明做了如下对比实验:表1为不同模型观点句识别结果,表2为不同超参数α和β对模型性能的影响;表3为不同超参数ε的模型性能。
表1不同模型观点句识别结果
表2不同超参数α和β对模型性能的影响
表3不同超参数ε的模型性能
从表1中可以看出,三种模型在都不使用关联特征时,BI-LSTM模型取得了最佳的性能,这也说明BI-LSTM在文本数据上强大的建模能力。但是同时可以看出,在不使用关联特征时,性能最佳的BI-LSTM模型也仅能获得63.8%的准确率,比仅利用关联特征的准确率低了7.4%。这也说明了在多文档观点句识别过程中,模型仅依赖深度学习模型的输出无法得到很好的语义表征。造成这种现象有两个原因:一个是因为数据集规模较小,模型训练不充分,另一个原因是汉越双语词向量质量不高,在词嵌入阶段存在误差。另外还能看出,仅使用关联特征相比三种深度学习模型在准确率、召回率和F1值均能够获得较好的性能,这也说明了本发明提出的句子关联特征建模方法是有效地,并且在深度学习模型中融入句子关联特征是有效的。最后可以看出,联合建模深度学习模型和句子关联特征,模型性能有一个较大幅度的提升。相比BI-LSTM模型,加入句子关联特征,模型准确率提升了15.1%,相比仅使用关联特征,模型准确率提升了7.7%。这些都充分说明了本发明提出的结合语义特征和关联特征能够有效提升汉越双语多文档观点句识别任务的性能。
从表2可以发现:模型在α=0.3,β=0.7时取得了最佳性能,这表明情感要素在计算关联特征时更重要,也说明了观点句识别中情感词仍然是一个重要的影响因素。当α=0.9,β=0.1时模型性能最差,这也反映了仅使用事件要素来表征关联特征并不能很好的反映不同句子之间的情感关联关系。
从表3可以看出,超参数ε=0.5模型性能最佳。同样可以看出ε过小或者过大,模型性能均有一个显著的下降。特别是ε=0.9时,相比ε=0.5,模型F1值下降了6.9%,这也说明ε=0.9时,图模型过于稀疏,很多句子间的有用的关联关系被丢弃,从而导致句子关联特征产生较大偏差。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:包括:
首先计算不同句子间事件要素和情感要素的关联强度;
利用不同句子间事件要素和情感要素的关联强度构建汉越双语多文档关联无向图;
获取汉越双语的句子关联特征;
利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;
利用BI-LSTM网络对映射到同一个语义空间下的词向量编码,获取句子的语义编码表示;
对得到的语义编码进行降维来获得汉越双语的句子语义特征;
利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征,采用分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
2.根据权利要求1所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:具体步骤如下:
Step1、语料收集:收集中文新闻文本、越南语新闻文本作为训练语料和测试语料;
Step2、计算不同句子间事件要素的关联强度:抽取汉越双语新闻句子中的命名实体作为事件要素,根据汉越双语词典对抽取的要素进行对齐,计算句子间事件要素的关联强度;
Step3、计算不同句子间情感要素的关联强度:抽取汉越双语新闻句子中所包含的情感词作为情感要素,通过汉越双语词向量的余弦相似度计算情感词的相似性,并以最大情感词相似性作为句子情感要素的关联强度;
Step4、构建汉越双语多文档关联无向图;其中通过利用步骤Step2和步骤Step3得到的事件要素和情感要素关联强度计算得到无向图中任意两个顶点之间边的权重;
Step5、获取句子关联特征:在步骤Step4构建的汉越双语多文档关联无向图上,利用TextRank算法计算得到汉越双语的句子关联特征;
Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下;
Step7、语义编码:使用双向长短期记忆BI-LSTM网络作为编码器,编码器在接收到步骤Step6的双语词向量后,顺序更新其隐藏状态,获得句子的语义编码表示;
Step8、获取语义特征:使用sigmoid函数对步骤Step7得到的语义编码进行降维来获得汉越双语的句子语义特征;
Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征,采用softmax分类器对观点句识别特征进行分类,并采用二分类的交熵损失函数对分类器进行优化,采用优化好的分类器实现观点句识别。
3.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step2中,汉语新闻要素的集合记为越南语新闻要素集合记为根据汉越双语词典对抽取的要素进行对齐,得到对齐的汉越新闻要素集合对任意语言的两个句子si、sj,如果si和sj的集合有交集,则两者之间具有要素关联关系,其中,若si和sj是同一语种的句子,则直接做交集运算即可判断,若属于不同语种的句子,则需使用对齐集合Acv中的要素重新表示句子si和sj之后,再做交集运算进行判断;则对事件要素关联强度进行归一化操作计算的具体公式为:
其中C(si∩sj)表示新闻句si和sj的共现要素数,C(si)则表示句子si的要素个数。
5.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step4中,利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重,具体公式为:
W(Vi,Vj)=α·Fa(si,sj)+β·Fb(si,sj)
为了降低无向图G的复杂性,设置边的权重的阈值为ε,0<ε<1,如果W(Vi,Vj)>ε则保留这条边,反之则删除这条边,α,β均为超参数。
7.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step6中,利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下,对于给定的句子si={wi,1,wi,2,...,wi,k},利用下式计算得到其双语词嵌入表征:
ei,k=Embedding(wi,k)
其中,Embedding为双语词向量映射矩阵,wi,k表示第i个句子的第k个词。
8.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step7中,使用双向长短期记忆BI-LSTM网络作为编码器,编码器在接收到步骤Step6中的每个双语词向量后,顺序更新其隐藏状态,输出句子向量,具体公式为:
hi,k=BI-LSTM(ei,k,hi,k-1)
其中ei,k表示在第i个句子中第k个词的双语词向量表示,hi,k表示隐层向量;
编码状态中,前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列其中表示第i个句子中第k个词,后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列采用编码器最后时刻的前向和后向对应的隐层状态拼接,构成句子的语义编码表示,具体公式为:
9.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法,其特征在于:所述步骤Step8中,对步骤Step7中得到的句子语义编码表示hi进行降维来获得其语义特征,具体公式为:
Si=sigmoid(Wshi+bs)
其中,Ws和bs为训练参数,sigmoid函数为激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254227.4A CN111581943A (zh) | 2020-04-02 | 2020-04-02 | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254227.4A CN111581943A (zh) | 2020-04-02 | 2020-04-02 | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111581943A true CN111581943A (zh) | 2020-08-25 |
Family
ID=72111495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010254227.4A Pending CN111581943A (zh) | 2020-04-02 | 2020-04-02 | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581943A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112685549A (zh) * | 2021-01-08 | 2021-04-20 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及*** |
CN113761885A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于BayesLSTM的语种识别方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347836A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 融入观点句特征的汉越双语新闻情感分类方法 |
CN110378409A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
-
2020
- 2020-04-02 CN CN202010254227.4A patent/CN111581943A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347836A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 融入观点句特征的汉越双语新闻情感分类方法 |
CN110378409A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
刘书龙: "汉越双语新闻观点句抽取及分析方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
叶雷: "汉越双语新闻差异性摘要方法研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112685549A (zh) * | 2021-01-08 | 2021-04-20 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及*** |
CN113761885A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于BayesLSTM的语种识别方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN113901229B (zh) * | 2021-09-15 | 2022-09-27 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110378409B (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
CN110807084A (zh) | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 | |
CN112101027A (zh) | 基于阅读理解的中文命名实体识别方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化***及方法 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和*** | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及*** | |
CN112580330B (zh) | 基于中文触发词指导的越南语新闻事件检测方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114139522A (zh) | 一种基于层级注意力和标签引导学习的关键信息识别方法 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及*** | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、***及电子设备 | |
CN114004236B (zh) | 融入事件实体知识的汉越跨语言新闻事件检索方法 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN114996442B (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成*** | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |
|
RJ01 | Rejection of invention patent application after publication |