CN109145289A - 基于改进关系向量模型的老-汉双语句子相似度计算方法 - Google Patents

基于改进关系向量模型的老-汉双语句子相似度计算方法 Download PDF

Info

Publication number
CN109145289A
CN109145289A CN201810808788.7A CN201810808788A CN109145289A CN 109145289 A CN109145289 A CN 109145289A CN 201810808788 A CN201810808788 A CN 201810808788A CN 109145289 A CN109145289 A CN 109145289A
Authority
CN
China
Prior art keywords
sentence
keyword
chinese
vector
laotian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810808788.7A
Other languages
English (en)
Inventor
周兰江
李思卓
周枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810808788.7A priority Critical patent/CN109145289A/zh
Publication of CN109145289A publication Critical patent/CN109145289A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学***行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。

Description

基于改进关系向量模型的老-汉双语句子相似度计算方法
技术领域
本发明涉及一种基于改进关系向量模型的老-汉双语句子相似度计算方法,属于自然语言处理和机器学习技术领域。
背景技术
句子相似度计算是自然语言处理领域中比较重要的研究课题,应用广泛。在问答***中,需要使用相似度方法对用户所提问题和***知识库中的问题进行比较,找到问题的最佳匹配并返回最佳答案。在自动文摘的生成过程中,需要用到句子相似度的方法来排除意思相近的句子,避免文摘的冗余。在跨语言方面,汉老双语句子相似度计算可以应用在汉老热点新闻的搜索,汉老教育资源共享,以及在各方面促进汉老文化交流和双方的发展。
发明内容
本发明要解决的技术问题是提供一种基于改进关系向量模型的老-汉双语句子相似度计算方法,能够有效地提高老-汉双语句子相似度计算的准确率,另一方面也能对老挝语语料进行扩充,因此本发明具有一定的研究意义。
本发明采用的技术方案是:一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:包括如下步骤:
Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词***分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;
Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;
Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词***分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn};
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老-汉双语句子相似度值;
Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi-1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词;定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn};定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep},存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp},然后分别进行Step3.2和Step3.3;
Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度,然后进行Step3.4;
Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度,然后进行Step3.4;
Step3.4、根据得到汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},汉语句子Ti基于老挝语句子Tj的存在值向量TEi,j={v1,v2,…,vp},因此,老-汉双语句子相似度值计算公式如公式(1)所示:
具体地,所述的Step3.2的具体步骤如下;
Step3.2.1、假设Len(Ti)≤Len(Tj),计算Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.2.2、对于汉语句子Ti中的每一个关键词mi,如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前关键词,如果这两个前关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果这两个前关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后关键词做相同的处理即可,最终可以得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
具体地,所述的Step3.3的具体步骤如下;
Step3.3.1、假设Len(Ti)≤Len(Tj),计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.3.2、对于Ti中的每一个关键词mi:如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前个关键词,其中γ向下取整,且γ为Tj关键词的个数,如果前个关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果前个关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后个关键词做相同的处理,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
本发明的有益效果是:
1.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法,提出了一种利用第三方语言在空间向量模型的基础上同时考虑双语句子结构和语义信息的关系向量模型,有效地改进了传统的向量空间模型,在一定程度上提高了老-汉双语句子相似度计算的准确率。
2.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,在第三方语言和关键词位置的精度上都有所提高,能很好地体现句子的结构和语义信息,提高了老-汉双语句子相似度计算的准确度。
3.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法,实现的跨语言句子相似度的计算方法可以应用在汉老热点新闻的搜索,搜寻意思相近的两个标题,生成汉老网络热点新闻的自动摘要时排除意思相近的句子,避免文摘句的冗余以及促进各种汉老文化交流和双方的发展。
附图说明
图1为本发明中的总体流程图。
图2为本发明中第三方语言精度提高。
图3为本发明中关键词位置精度提高。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1:如图1-3所示,一种基于改进的关系向量模型的老-汉双语句子相似度计算方法,包括如下步骤:
Step1、首先对语料中汉语句子和老挝语句子进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词***分别对汉语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子。
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性。
Step2、从Step1的分词结果中,提取汉语句子Ti和老挝语句子Tj相应的关键词并将这些关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示。
Step2.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词向量,所以在此处利用定义1进行说明:定义1:给定一个汉语句子Ti,经过分词***分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn}。
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj)(即假设汉语句子向量长度短于老挝语句子向量长度),此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn}。对于汉语句子Ti中的每一个关键词mi,依次做一些处理来计算老-汉双语句子相似度值,此处可以通过说明书附图2和附图3来帮助理解本发明提出的基于改进的关系向量模型的老-汉双语句子相似度计算方法的改进。关系向量模型不但考虑一个句中的关键词是否在另一个句中出现,还考虑了与这个关键词最紧密的两个词(前关键词和后关键词)的影响,这样,句中所有关键词之间的结构关系得到了体现,因而增加了分析的全面性和准确性。本发明就是对此模型进行了一些改进,来提高老-汉双语句子相似度计算的准确率。
Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi-1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词。定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn}。定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep}。存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp}。
Step3.2、由于此发明采用将关键词转换为第三方语言的方法来计算句子相似度,其中就不可避免的受到第三方语言的影响,尤其是转换的过程中遇到近义词的影响。因此,需要提高第三方语言的精度,本发明通过相应增加关键词为近义词的权重来实现。此处可以通过说明书附图2来帮助理解本发明在第三方语言精度上的提高。
Step3.2.1、假设Len(Ti)≤Len(Tj),计算Ti的初始权重值向量TBi={b1,b2,…,bn}。
Step3.2.2、对于汉语句子Ti中的每一个关键词mi,如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前关键词,如果这两个前关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果这两个前关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后关键词做相同的处理即可,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}
Step3.3、由于汉语和老挝语的语句构成大同小异,主要的主语+谓语+宾语的结构相似,但还是有一些细微的差异,这些差异导致了关键词位置会发生偏差,也就是前一个关键词和后一个关键词不能完全决定一个关键词能否增加权重,因此会造成由于关键词的位置导致的精度丢失。因此,本发明通过增加前关键词和后关键词的判断个数来提高关键词位置的精度。此处可以通过说明书附图3来帮助理解本发明在关键词位置精度上的提高。
Step3.3.1、假设Len(Ti)≤Len(Tj),计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn}。
Step3.3.2、对于Ti中的每一个关键词mi:如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前个关键词,其中γ向下取整,且γ为Tj关键词的个数。如果前个关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果前个关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后个关键词做相同的处理,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
在具体实验过程中会发现γ=Len(Ti)会影响到最后的相似度准确率,也就是在考虑前后(向下取整)个关键词的时候会产生误差。有两种情况出现:第一种情况:当关键词个数较少时,只考虑前后一个关键词对准确率没有太大影响,还能保持计算的准确性,但是当关键词个数增加后,汉语和老挝语间的语法差异所导致的误差也就增大,前后一个关键词已经不能保证计算的准确率,因此准确率下降;第二种情况:当关键词个数较少时,对准确率没有太大影响,但是当关键词个数增加时,考虑前后会导致有的关键词被重复计算,因此会导致准确率偏高。因此,综合分析后发现,关键词个数在5个到7个之间时,老-汉双语句子相似度计算较为准确。
本发明能够成功地解决了在老挝语语料较少的情况下,有效地进行汉语和老挝语的双语句子相似度计算,另一方面也能对老挝语语料进行扩充,因此本发明具有一定的研究意义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:包括如下步骤:
Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词***分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;
Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;
Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词***分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn}。
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老-汉双语句子相似度值;
Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi-1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词;定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn};定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep},存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp},然后分别进行Step3.2和Step3.3;
Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度,然后进行Step3.4;
Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度,然后进行Step3.4;
Step3.4、根据得到汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},汉语句子Ti基于老挝语句子Tj的存在值向量TEi,j={v1,v2,…,vp},因此,老-汉双语句子相似度值计算公式如公式(1)所示:
2.根据权利要求1所述的一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:所述的Step3.2的具体步骤如下;
Step3.2.1、假设Len(Ti)≤Len(Tj),计算Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.2.2、对于汉语句子Ti中的每一个关键词mi,如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前关键词,如果这两个前关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果这两个前关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后关键词做相同的处理即可,最终可以得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
3.根据权利要求1所述的一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:所述的Step3.3的具体步骤如下;
Step3.3.1、假设Len(Ti)≤Len(Tj),计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.3.2、对于Ti中的每一个关键词mi:如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前个关键词,其中γ向下取整,且γ为Tj关键词的个数,如果前个关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果前个关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后个关键词做相同的处理,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
CN201810808788.7A 2018-07-19 2018-07-19 基于改进关系向量模型的老-汉双语句子相似度计算方法 Pending CN109145289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810808788.7A CN109145289A (zh) 2018-07-19 2018-07-19 基于改进关系向量模型的老-汉双语句子相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810808788.7A CN109145289A (zh) 2018-07-19 2018-07-19 基于改进关系向量模型的老-汉双语句子相似度计算方法

Publications (1)

Publication Number Publication Date
CN109145289A true CN109145289A (zh) 2019-01-04

Family

ID=64801258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810808788.7A Pending CN109145289A (zh) 2018-07-19 2018-07-19 基于改进关系向量模型的老-汉双语句子相似度计算方法

Country Status (1)

Country Link
CN (1) CN109145289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106805A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Method and system for searching multilingual documents
CN102360372A (zh) * 2011-10-09 2012-02-22 北京航空航天大学 一种跨语种的文档相似性检测方法
CN103034627A (zh) * 2011-10-09 2013-04-10 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN105824797A (zh) * 2015-01-04 2016-08-03 华为技术有限公司 一种评价语义相似度的方法、装置和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106805A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Method and system for searching multilingual documents
CN102360372A (zh) * 2011-10-09 2012-02-22 北京航空航天大学 一种跨语种的文档相似性检测方法
CN103034627A (zh) * 2011-10-09 2013-04-10 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN105824797A (zh) * 2015-01-04 2016-08-03 华为技术有限公司 一种评价语义相似度的方法、装置和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
殷耀明 等: "基于关系向量模型的句子相似度计算", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法

Similar Documents

Publication Publication Date Title
CN106202042B (zh) 一种基于图的关键词抽取方法
Bod An all-subtrees approach to unsupervised parsing
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
Banerjee et al. Meaningless yet meaningful: Morphology grounded subword-level NMT
CN105068997B (zh) 平行语料的构建方法及装置
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
Costa-Jussá et al. Statistical machine translation enhancements through linguistic levels: A survey
CN107092605A (zh) 一种实体链接方法及装置
CN113901208A (zh) 融入主题特征的中越跨语言评论情感倾向性分析方法
Das et al. A survey of the model transfer approaches to cross-lingual dependency parsing
Liu et al. Language model augmented relevance score
Zhu et al. Concept transfer learning for adaptive language understanding
Casacuberta et al. Architectures for speech-to-speech translation using finite-state models
CN109145289A (zh) 基于改进关系向量模型的老-汉双语句子相似度计算方法
Dologlou et al. Using monolingual corpora for statistical machine translation: the METIS system
Lee et al. Probabilistic modeling of Korean morphology
Zhang et al. Keyword-driven image captioning via Context-dependent Bilateral LSTM
Peter et al. The qt21/himl combined machine translation system
Kumar et al. A survey of machine translation approaches for Konkani to English
McTait Translation patterns, linguistic knowledge and complexity in an approach to EBMT
Harada et al. Neural machine translation with synchronous latent phrase structure
Velldal et al. Paraphrasing treebanks for stochastic realization ranking
Hu et al. An approach to automatic acquisition of translation templates based on phrase structure extraction and alignment
Satpathy et al. Analysis of Learning Approaches for Machine Translation Systems
KR102042991B1 (ko) 한국어 접사 기반 토크나이징 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104