CN112257453B - 融合关键词和语义特征的汉越文本相似度计算方法 - Google Patents

融合关键词和语义特征的汉越文本相似度计算方法 Download PDF

Info

Publication number
CN112257453B
CN112257453B CN202011006911.7A CN202011006911A CN112257453B CN 112257453 B CN112257453 B CN 112257453B CN 202011006911 A CN202011006911 A CN 202011006911A CN 112257453 B CN112257453 B CN 112257453B
Authority
CN
China
Prior art keywords
text
keywords
chinese
similarity
vietnamese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011006911.7A
Other languages
English (en)
Other versions
CN112257453A (zh
Inventor
高盛祥
潘润海
余正涛
毛存礼
朱俊国
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011006911.7A priority Critical patent/CN112257453B/zh
Publication of CN112257453A publication Critical patent/CN112257453A/zh
Application granted granted Critical
Publication of CN112257453B publication Critical patent/CN112257453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。

Description

融合关键词和语义特征的汉越文本相似度计算方法
技术领域
本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。
背景技术
汉越文本相似度的计算对于汉语和越南语的跨语言信息检索,多语言文档聚类,机器翻译和双语语料库构建等方面起到重要的支撑作用。目前,鉴于训练的文本级语料资源匮乏,同时汉越翻译效果不好,汉越文本相似度计算现在面临着很多问题。因此,非常有必要提出一种面向汉越语料稀缺和翻译质量较差情况下的文本相似度计算方法。
近来,随着LSTM、Transfomer等特征提取器的发展,对句子级别的特征提取效果已经很好。然而,针对文本特点,汉越文本中常常包含大量的冗余信息,其关键的文本信息并不贯穿整篇文章,所以使用神经网络捕获到关键的上下文信息变得困难;同时,汉语和越南语在神经网络的向量空间并不对齐。因此,一部分学者开始在考虑运用基于翻译、互译词对数、向量空间模型、LDA主题模型等方法来解决文本级的相似度计算问题。
发明内容
本发明提供了融合关键词和语义特征的汉越文本相似度计算方法,以用于解决使用翻译的方法进行相似度计算效果不佳,以及神经网络对文本信息捕获不够充分的问题。
本发明的技术方案是:融合关键词和语义特征的汉越文本相似度计算方法,所述方法包括:
Step1、对汉越文本语料数据进行预处理,将文本拆分成词的序列和句子的序列;Step2、将词的序列作为关键词获取层的输入,对越南语和汉语经过不同的处理得到文本间共现关键词的信息,计算出基于关键词的文本相似度信息;
Step3、将句子序列作为文本压缩层的输入,基于共现关键词信息,去除与共现关键词无关的句子,以对文本进行压缩,然后将包含共现关键词的句子进行拼接,分别输入汉-越BERT模型,捕获到文本的上下文语义特征,计算出基于句子的语义特征相似性;
Step4、将基于关键词的相似信息和基于句子的语义特征进行融合,得到最终文本的相似信息。
作为本发明的进一步方案,所述Step1中:
Step1、首先将汉-越平行文本语料数据进行分词和去除停用词处理,将文本拆分成词的序列和句子的序列作为下游模型的输入。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、对汉越平行文本语料进行数据预处理,输入为中文文档和越南文文档,其中中文文档和越南语文档分别被拆分为词的序列WC=(C1,C2,…,Cn),WV=(V1,V2,…,Vn)和句子的序列SC=(Sc1,Sc2,…,Scn),SV=(Sv1,Sv2,…,Svn),词的序列作为关键词获取层的输入经过处理获取到文本间词的相似信息,而句子序列作为文本压缩层的输入经过处理获取文本上下文语义相似特征。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、使用关键词提取算法TextRank提取文档中的关键词并得到关键词的权重W,其权重计算公式如下所示,该算法将词之间的信息表示为一个有向有权图G=(V,E),V为点集合E为边集合;
Figure BDA0002696261060000021
其中d是阻尼系数,WS(Vi)和WS(Vj)分别代表词Vi和Vj的权重,In(Vi)和Out(Vj)分别代表词Vi和Vj的入度和出度,wji和wjk分别代表Vi,Vj和Vj,Vk间的权重;
Step2.2、在经过TextRank算法输出文本的关键词信息后,将越南语关键词经过Translation模块将越南语文本关键词翻译成汉语,翻译后得到的关键词和中文关键词使用中文同义词工具Synonyms计算出与关键词相关的近义词集,将近义词和文章的关键词进行融合构成中文文本关键词词集和越南语文本关键词词集;
Step2.3、为了获取两文档的关键词相似特征,利用得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词,利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性。
作为本发明的进一步方案,Step2.3中,利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性的具体方法为:将两篇文章共现的关键词占所有抽取到的关键词的比重作为基于关键词所获得的文本相似度信息,其计算公式如下所示:
Figure BDA0002696261060000031
其中WIi和WCi分别代表共现关键词的第i个词的权重和抽取到的全部关键词第i个词的权重,n为关键词的个数,m为共现关键词的个数。
作为本发明的进一步方案,所述Step3中:
为了将汉越的句子或短文本段落映射到密集的向量空间,训练一个能捕获汉越上下语义信息的汉越BERT模型(ZH-VI BERT),采用知识蒸馏的方法将现有的句子嵌入模型扩展到新语言;利用教师模型M将源语言s映射到一个密集的向量空间,同时训练数据为汉越平行句对((s1,t1),...,(sn,tn)),其中si是源语言,ti为目标语言,训练新的学生模型
Figure BDA0002696261060000032
使
Figure BDA0002696261060000033
Figure BDA0002696261060000034
将此方法称为多语言知识蒸馏学习,因为学生
Figure BDA0002696261060000035
提炼了老师M的知识,给定最小批次B,最小化其均方损失MSE,计算公式如下所示。
Figure BDA0002696261060000036
学生模型
Figure BDA0002696261060000037
可以是具有教师模型M的结构和权重,也可以是权重完全不同的其他网络体系结构,使用中文BERT模型作为教师模型,学生模型为多语言BERT模型;
将训练好的模型称为汉-越BERT模型,将压缩后的文本输入训练好的汉-越BERT模型,对其进行语义捕获,以获得上下文语义特征。
作为本发明的进一步方案,所述Step3中,捕获到文本的上下文语义特征,计算出基于句子的语义特征相似性的具体做法如下:
将与共现关键词相关的中文短文本和越南语短文本分别输入汉-越BERT模型,使其对汉越双语短文本进行编码,编码后的输出的特征向量使用余弦相似度计算两个向量的余弦距离,计算公式如下所示:
Figure BDA0002696261060000038
其中ai表示中文短文本S1的向量的第i个特征值,bi表示越南语短文本S2的向量的第i个特征值;
得到多个基于共现关键词上的汉语越南语短文本相似信息后,求其平均值得到基于上下文语义信息所得的相似度Sim2,计算公式如下式所示:
Figure BDA0002696261060000041
其中Fi表示第i个关键词的上下文语义相似度。
本发明的有益效果是:本发明提供的方法解决使用翻译的方法进行相似度计算效果不佳,以及神经网络对文本信息捕获不够充分的问题,本发明提升了汉-越文本相似度计算的准确率。
附图说明
图1为本发明中的总的模型结构图;
图2为本发明中汉-越BERT模型训练图。
具体实施方式
实施例1:如图1-2所示,融合关键词和语义特征的汉越文本相似度计算方法,所述方法包括:
Step1、对汉越平行文本语料进行数据预处理,输入为中文文档和越南文文档,其中中文文档和越南语文档分别被拆分为词的序列WC=(C1,C2,…,Cn),WV=(V1,V2,…,Vn)和句子的序列SC=(Sc1,Sc2,…,Scn),SV=(Sv1,Sv2,…,Svn),词的序列作为关键词获取层的输入经过处理获取到文本间词的相似信息,而句子序列作为文本压缩层的输入经过处理获取文本上下文语义相似特征;
Step2、将词的序列作为关键词获取层的输入,对越南语和汉语经过不同的处理得到文本间共现关键词的信息,计算出基于关键词的文本相似度信息;
Step2.1、使用关键词提取算法TextRank提取文档中的关键词并得到关键词的权重W,其权重计算公式如下所示,该算法将词之间的信息表示为一个有向有权图G=(V,E),V为点集合E为边集合;
Figure BDA0002696261060000042
其中d是阻尼系数,WS(Vi)和WS(Vj)分别代表词Vi和Vj的权重,In(Vi)和Out(Vj)分别代表词Vi和Vj的入度和出度,wji和wjk分别代表Vi,Vj和Vj,Vk间的权重;
Step2.2、由于汉语文本和越南语文本在用词上会存在一定的差异,针对这一问题,本文提出使用计算关键词的近义词来降低跨语言文档在用词差异上的问题。在经过TextRank算法输出文本的关键词信息后,将越南语关键词经过Translation模块将越南语文本关键词翻译成汉语,翻译后得到的关键词和中文关键词使用中文同义词工具Synonyms计算出与关键词相关的近义词集,将近义词和文章的关键词进行融合构成中文文本关键词词集和越南语文本关键词词集;
Step2.3、为了获取两文档的关键词相似特征,利用得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词,利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性,具体方法为:将两篇文章共现的关键词占所有抽取到的关键词的比重作为基于关键词所获得的文本相似度信息,其计算公式如下所示:
Figure BDA0002696261060000051
其中WIi和WCi分别代表共现关键词的第i个词的权重和抽取到的全部关键词第i个词的权重,n为关键词的个数,m为共现关键词的个数。
Step3、将句子序列作为文本压缩层的输入,基于共现关键词信息,去除与共现关键词无关的句子,以对文本进行压缩,然后将包含共现关键词的句子进行拼接,分别输入汉-越BERT模型,捕获到文本的上下文语义特征,计算出基于句子的语义特征相似性;
为了将汉越的句子或短文本段落映射到密集的向量空间,训练一个能捕获汉越上下语义信息的汉越BERT模型(ZH-VI BERT),采用知识蒸馏的方法将现有的句子嵌入模型扩展到新语言;利用教师模型M将源语言s映射到一个密集的向量空间,同时训练数据为汉越平行句对((s1,t1),...,(sn,tn)),其中si是源语言,ti为目标语言,训练新的学生模型
Figure BDA0002696261060000052
使
Figure BDA0002696261060000053
Figure BDA0002696261060000054
将此方法称为多语言知识蒸馏学习,因为学生
Figure BDA0002696261060000055
提炼了老师M的知识,给定最小批次B,最小化其均方损失MSE,计算公式如下所示。
Figure BDA0002696261060000056
学生模型
Figure BDA0002696261060000057
可以是具有教师模型M的结构和权重,也可以是权重完全不同的其他网络体系结构,训练过程如图2所示。使用中文BERT模型作为教师模型,学生模型为多语言BERT模型;
将训练好的模型称为汉-越BERT模型,将压缩后的文本输入训练好的汉-越BERT模型,对其进行语义捕获,以获得上下文语义特征。
其中,捕获到文本的上下文语义特征,计算出基于句子的语义特征相似性的具体做法如下:
将与共现关键词相关的中文短文本和越南语短文本分别输入汉-越BERT模型,使其对汉越双语短文本进行编码,编码后的输出的特征向量使用余弦相似度计算两个向量的余弦距离,计算公式如下所示:
Figure BDA0002696261060000061
其中ai表示中文短文本S1的向量的第i个特征值,bi表示越南语短文本S2的向量的第i个特征值;
得到多个基于共现关键词上的汉语越南语短文本相似信息后,求其平均值得到基于上下文语义信息所得的相似度Sim2,计算公式如下式所示:
Figure BDA0002696261060000062
其中Fi表示第i个关键词的上下文语义相似度。
Step4、将基于关键词的相似信息和基于句子的语义特征进行融合,得到最终文本的相似信息。
具体为:将计算得到的两个相似度信息求出平均值,也就是两篇文章的相似度,计算公式如下式所示,求得的结果在0到1之间,0表示完全不相同,1表示完全相同。
Figure BDA0002696261060000063
图1中,本发明模型包括如下:
数据预处理层:首先,针对文本的特点和神经网络的性质,我们对汉越文本数据进行预处理,同时也为了让数据满足模型需要。
关键词获取层:为了获取文本间词的相似信息,针对汉越文本中常常包含大量的冗余信息,其关键的文本信息并不贯穿整篇文章,所以使用神经网络捕获到关键的上下文信息变得困难,故本文考虑将汉越文本相似度计算任务转化为关键词和关键句的相似度计算任务,从文本中抽取关键词以及能表达文章核心语义的句子来实现相似度计算。
统计特征获取层:为了获取两文档的关键词相似特征,我们利用关键词获取层得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词,利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性。
文本压缩层:针对文本具有较多冗余信息的特点,为提取到文章的关键信息,本文提出一种基于共现关键词的文本压缩方法。我们利用统计特征获取层提取出的共现关键词对文本进行压缩,将与之相关联的句子保留,去除那些无关的句子,若同一关键词包含多个句子,则将它们的汉语和越南语分别拼接构成两个短文本,作为上下文特征获取层的输入。
上下文特征获取层:为了对上下文特征进行捕获,本文采用目前最为主流的特征编码BERT来对汉越关键句子进行编码,以获得上下文语义特征。
预测层:基于统计特征层和上下文特征获取层得到的两个相似信息,得到关键词和句子两个不同维度的相似信息。
为了训练汉-越BERT模型实现中文和越南语语义特征提取,构建了50万的汉-越双语平行句对,为了验证本文所提出方法的有效性,对本文提出和使用的算法进行测试,从网上获取到篇章级对齐的一些汉语越南语的新闻数据及故事数据集,共400对800篇构成标准集来验证本文算法的有效性。
本发明采用算法匹配文本的准确率来衡量算法的有效性,即匹配正确的文本数量占总文本的值来评价算法的有效性。
训练汉越BERT模型时,本文使用的激活函数为GELU,隐含层维度为768,注意力头数为12,隐藏层层数为12层,隐藏层dropout概率为0.1,学习率为2e-5,学习率优化器为Adam,batch size设为32,epochs为20,词典我们使用多语言BERT模型的词典,大小为119547。
为了验证本文提出的方法的有效性,设置了与一些已有的跨语言相似度计算方法的对比实验,将本方法与LDA主题模型、全文翻译和BiRNN得到的结果相比较。其中全文翻译的相似度计算方法将越南语翻译成中文,通过BERT来表征两个文本的句子,计算句子间距离得到文本的相似度。
表1中展示了本发明提出的模型和现有一些模型的准确率对比。显然,对于主题模型本文的方法表现更好,表明本文对文本的压缩和基于BERT的上下文语义编码对文本相似信息的挖掘表现更优秀;同时本文的方法和全文翻译的方法比较有一定的提升,其原因在于当使用翻译***翻译汉越文本时会造成一定的翻译误差,而本文只对抽出的关键词进行翻译其翻译误差比起全文翻译误差被有效降低;与BiRNN比较准确率提升了3.5%,其;故本文提出的方法比已有的一些相似度计算模型有一定的提升。
本发明提出的融合关键词和语义特征的汉越文本相似度计算在汉越文本相似度计算任务上具有较好的性能,主要有以下几方面的原因:1、使用了目前最为主流的特征提取器BERT,提升了对句子语义的捕获能力;2、提出了一种利用文本间的共现关键词信息和上下文语义特征融合的一种相似度方法,从不同的维度挖掘文本间的相似信息;3、本方法能解决文本信息冗余,使神经网络能更加有效的捕获文本信息。
表1汉-越低资源翻译实验准确率对比
Figure BDA0002696261060000081
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.融合关键词和语义特征的汉越文本相似度计算方法,其特征在于:所述方法包括:
Step1、对汉越文本语料数据进行预处理,将文本拆分成词的序列和句子的序列;
Step2、将词的序列作为关键词获取层的输入,对越南语和汉语经过不同的处理得到文本间共现关键词的信息,计算出基于关键词的文本相似度信息;
Step3、将句子序列作为文本压缩层的输入,基于共现关键词信息,去除与共现关键词无关的句子,以对文本进行压缩,然后将包含共现关键词的句子进行拼接,分别输入汉-越BERT模型,捕获到文本的上下文语义特征,计算出基于句子的语义特征相似性;
Step4、将基于关键词的相似信息和基于句子的语义特征进行融合,得到最终文本的相似信息;
所述步骤Step2的具体步骤为:
Step2.1、使用关键词提取算法TextRank提取文档中的关键词并得到关键词的权重W,其权重计算公式如下所示,该算法将词之间的信息表示为一个有向有权图G=(V,E),V为点集合E为边集合;
Figure FDA0003285931930000011
其中d是阻尼系数,WS(Vi)和WS(Vj)分别代表词Vi和Vj的权重,In(Vi)和Out(Vj)分别代表词Vi和Vj的入度和出度,wji和wjk分别代表Vi,Vj和Vj,Vk间的权重;
Step2.2、在经过TextRank算法输出文本的关键词信息后,将越南语关键词经过Translation模块将越南语文本关键词翻译成汉语,翻译后得到的关键词和中文关键词使用中文同义词工具Synonyms计算出与关键词相关的近义词集,将近义词和文章的关键词进行融合构成中文文本关键词词集和越南语文本关键词词集;
Step2.3、为了获取两文档的关键词相似特征,利用得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词,利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性;
Step2.3中,利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性的具体方法为:将两篇文章共现的关键词占所有抽取到的关键词的比重作为基于关键词所获得的文本相似度信息,其计算公式如下所示:
Figure FDA0003285931930000021
其中WIi和WCi分别代表共现关键词的第i个词的权重和抽取到的全部关键词第i个词的权重,n为关键词的个数,m为共现关键词的个数;
所述Step3中:
为了将汉越的句子或短文本段落映射到密集的向量空间,训练一个能捕获汉越上下语义信息的汉越BERT模型,采用知识蒸馏的方法将现有的句子嵌入模型扩展到新语言;利用教师模型M将源语言s映射到一个密集的向量空间,同时训练数据为汉越平行句对((s1,t1),...,(sn,tn)),其中si是源语言,ti为目标语言,训练新的学生模型
Figure FDA0003285931930000022
使
Figure FDA0003285931930000023
Figure FDA0003285931930000024
将此方法称为多语言知识蒸馏学习,因为学生
Figure FDA0003285931930000025
提炼了老师M的知识,给定最小批次B,最小化其均方损失MSE,计算公式如下所示:
Figure FDA0003285931930000026
学生模型
Figure FDA0003285931930000027
可以是具有教师模型M的结构和权重,也可以是权重完全不同的其他网络体系结构,使用中文BERT模型作为教师模型,学生模型为多语言BERT模型;
将训练好的模型称为汉-越BERT模型,将压缩后的文本输入训练好的汉-越BERT模型,对其进行语义捕获,以获得上下文语义特征;
所述Step3中,捕获到文本的上下文语义特征,计算出基于句子的语义特征相似性的具体做法如下:
将与共现关键词相关的中文短文本和越南语短文本分别输入汉-越BERT模型,使其对汉越双语短文本进行编码,编码后的输出的特征向量使用余弦相似度计算两个向量的余弦距离,计算公式如下所示:
Figure FDA0003285931930000028
其中ai表示中文短文本S1的向量的第i个特征值,bi表示越南语短文本S2的向量的第i个特征值;
得到多个基于共现关键词上的汉语越南语短文本相似信息后,求其平均值得到基于上下文语义信息所得的相似度Sim2,计算公式如下式所示:
Figure FDA0003285931930000031
其中Fi表示第i个关键词的上下文语义相似度。
2.根据权利要求1所述的融合关键词和语义特征的汉越文本相似度计算方法,其特征在于:所述Step1中:
Step1、首先将汉-越平行文本语料数据进行分词和去除停用词处理,将文本拆分成词的序列和句子的序列作为下游模型的输入。
3.根据权利要求1所述的融合关键词和语义特征的汉越文本相似度计算方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、对汉越平行文本语料进行数据预处理,输入为中文文档和越南文文档,其中中文文档和越南语文档分别被拆分为词的序列WC=(C1,C2,…,Cn),WV=(V1,V2,…,Vn)和句子的序列SC=(Sc1,Sc2,…,Scn),SV=(Sv1,Sv2,…,Svn),词的序列作为关键词获取层的输入经过处理获取到文本间词的相似信息,而句子序列作为文本压缩层的输入经过处理获取文本上下文语义相似特征。
CN202011006911.7A 2020-09-23 2020-09-23 融合关键词和语义特征的汉越文本相似度计算方法 Active CN112257453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011006911.7A CN112257453B (zh) 2020-09-23 2020-09-23 融合关键词和语义特征的汉越文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011006911.7A CN112257453B (zh) 2020-09-23 2020-09-23 融合关键词和语义特征的汉越文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN112257453A CN112257453A (zh) 2021-01-22
CN112257453B true CN112257453B (zh) 2022-02-22

Family

ID=74231459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011006911.7A Active CN112257453B (zh) 2020-09-23 2020-09-23 融合关键词和语义特征的汉越文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN112257453B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076398B (zh) * 2021-03-30 2022-07-29 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN113011194B (zh) * 2021-04-15 2022-05-03 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113469977B (zh) * 2021-07-06 2024-01-12 浙江霖研精密科技有限公司 一种基于蒸馏学习机制的瑕疵检测装置、方法、存储介质
CN113657125B (zh) * 2021-07-14 2023-05-26 内蒙古工业大学 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN113901840B (zh) * 2021-09-15 2024-04-19 昆明理工大学 一种基于多粒度特征的文本生成评价方法
CN114595688B (zh) * 2022-01-06 2023-03-10 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114528276B (zh) * 2022-02-21 2024-01-19 新疆能源翱翔星云科技有限公司 一种基于人工智能的大数据采集存储管理***及方法
CN114707516A (zh) * 2022-03-29 2022-07-05 北京理工大学 一种基于对比学习的长文本语义相似度计算方法
CN115146629A (zh) * 2022-05-10 2022-10-04 昆明理工大学 一种基于对比学习的新闻文本与评论相关性分析方法
CN114912449B (zh) * 2022-07-18 2022-09-30 山东大学 基于代码描述文本的技术特征关键词抽取方法与***
CN116680420B (zh) * 2023-08-02 2023-10-13 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
CN108304390B (zh) * 2017-12-15 2020-10-16 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、训练装置、翻译方法及存储介质
CN109145289A (zh) * 2018-07-19 2019-01-04 昆明理工大学 基于改进关系向量模型的老-汉双语句子相似度计算方法
CN109325229B (zh) * 2018-09-19 2023-01-31 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法
CN110377918B (zh) * 2019-07-15 2020-08-28 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN111581943A (zh) * 2020-04-02 2020-08-25 昆明理工大学 一种基于句子关联图的汉越双语多文档新闻观点句识别方法

Also Published As

Publication number Publication date
CN112257453A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN112257453B (zh) 融合关键词和语义特征的汉越文本相似度计算方法
CN107451126B (zh) 一种近义词筛选方法及***
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN110929022A (zh) 一种文本摘要生成方法及***
CN116757188A (zh) 一种基于对齐查询实体对的跨语言信息检索训练方法
CN107102986A (zh) 文档中多主题的关键词提取技术
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及***
CN108763229B (zh) 一种基于特征性句干提取的机器翻译方法及装置
Cui Design of intelligent recognition English translation model based on feature extraction algorithm
Jahan et al. Automated text summarization of sinhala online articles
Dan et al. Multi-feature automatic abstract based on LDA model and redundant control
Yao et al. Chinese long text summarization using improved sequence-to-sequence lstm
CN111738022B (zh) 一种国防军工领域机器翻译优化方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant