CN109145289A - 基于改进关系向量模型的老-汉双语句子相似度计算方法 - Google Patents
基于改进关系向量模型的老-汉双语句子相似度计算方法 Download PDFInfo
- Publication number
- CN109145289A CN109145289A CN201810808788.7A CN201810808788A CN109145289A CN 109145289 A CN109145289 A CN 109145289A CN 201810808788 A CN201810808788 A CN 201810808788A CN 109145289 A CN109145289 A CN 109145289A
- Authority
- CN
- China
- Prior art keywords
- sentence
- keyword
- chinese
- vector
- laotian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 title claims description 92
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000005192 partition Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000008676 import Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学***行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。
Description
技术领域
本发明涉及一种基于改进关系向量模型的老-汉双语句子相似度计算方法,属于自然语言处理和机器学习技术领域。
背景技术
句子相似度计算是自然语言处理领域中比较重要的研究课题,应用广泛。在问答***中,需要使用相似度方法对用户所提问题和***知识库中的问题进行比较,找到问题的最佳匹配并返回最佳答案。在自动文摘的生成过程中,需要用到句子相似度的方法来排除意思相近的句子,避免文摘的冗余。在跨语言方面,汉老双语句子相似度计算可以应用在汉老热点新闻的搜索,汉老教育资源共享,以及在各方面促进汉老文化交流和双方的发展。
发明内容
本发明要解决的技术问题是提供一种基于改进关系向量模型的老-汉双语句子相似度计算方法,能够有效地提高老-汉双语句子相似度计算的准确率,另一方面也能对老挝语语料进行扩充,因此本发明具有一定的研究意义。
本发明采用的技术方案是:一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:包括如下步骤:
Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词***分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;
Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;
Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词***分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn};
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老-汉双语句子相似度值;
Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi-1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词;定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn};定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep},存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp},然后分别进行Step3.2和Step3.3;
Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度,然后进行Step3.4;
Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度,然后进行Step3.4;
Step3.4、根据得到汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},汉语句子Ti基于老挝语句子Tj的存在值向量TEi,j={v1,v2,…,vp},因此,老-汉双语句子相似度值计算公式如公式(1)所示:
具体地,所述的Step3.2的具体步骤如下;
Step3.2.1、假设Len(Ti)≤Len(Tj),计算Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.2.2、对于汉语句子Ti中的每一个关键词mi,如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前关键词,如果这两个前关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果这两个前关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后关键词做相同的处理即可,最终可以得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
具体地,所述的Step3.3的具体步骤如下;
Step3.3.1、假设Len(Ti)≤Len(Tj),计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.3.2、对于Ti中的每一个关键词mi:如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前个关键词,其中γ向下取整,且γ为Tj关键词的个数,如果前个关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果前个关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后个关键词做相同的处理,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
本发明的有益效果是:
1.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法,提出了一种利用第三方语言在空间向量模型的基础上同时考虑双语句子结构和语义信息的关系向量模型,有效地改进了传统的向量空间模型,在一定程度上提高了老-汉双语句子相似度计算的准确率。
2.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,在第三方语言和关键词位置的精度上都有所提高,能很好地体现句子的结构和语义信息,提高了老-汉双语句子相似度计算的准确度。
3.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法,实现的跨语言句子相似度的计算方法可以应用在汉老热点新闻的搜索,搜寻意思相近的两个标题,生成汉老网络热点新闻的自动摘要时排除意思相近的句子,避免文摘句的冗余以及促进各种汉老文化交流和双方的发展。
附图说明
图1为本发明中的总体流程图。
图2为本发明中第三方语言精度提高。
图3为本发明中关键词位置精度提高。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1:如图1-3所示,一种基于改进的关系向量模型的老-汉双语句子相似度计算方法,包括如下步骤:
Step1、首先对语料中汉语句子和老挝语句子进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词***分别对汉语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子。
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性。
Step2、从Step1的分词结果中,提取汉语句子Ti和老挝语句子Tj相应的关键词并将这些关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示。
Step2.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词向量,所以在此处利用定义1进行说明:定义1:给定一个汉语句子Ti,经过分词***分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn}。
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj)(即假设汉语句子向量长度短于老挝语句子向量长度),此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn}。对于汉语句子Ti中的每一个关键词mi,依次做一些处理来计算老-汉双语句子相似度值,此处可以通过说明书附图2和附图3来帮助理解本发明提出的基于改进的关系向量模型的老-汉双语句子相似度计算方法的改进。关系向量模型不但考虑一个句中的关键词是否在另一个句中出现,还考虑了与这个关键词最紧密的两个词(前关键词和后关键词)的影响,这样,句中所有关键词之间的结构关系得到了体现,因而增加了分析的全面性和准确性。本发明就是对此模型进行了一些改进,来提高老-汉双语句子相似度计算的准确率。
Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi-1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词。定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn}。定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep}。存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp}。
Step3.2、由于此发明采用将关键词转换为第三方语言的方法来计算句子相似度,其中就不可避免的受到第三方语言的影响,尤其是转换的过程中遇到近义词的影响。因此,需要提高第三方语言的精度,本发明通过相应增加关键词为近义词的权重来实现。此处可以通过说明书附图2来帮助理解本发明在第三方语言精度上的提高。
Step3.2.1、假设Len(Ti)≤Len(Tj),计算Ti的初始权重值向量TBi={b1,b2,…,bn}。
Step3.2.2、对于汉语句子Ti中的每一个关键词mi,如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前关键词,如果这两个前关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果这两个前关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后关键词做相同的处理即可,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}
Step3.3、由于汉语和老挝语的语句构成大同小异,主要的主语+谓语+宾语的结构相似,但还是有一些细微的差异,这些差异导致了关键词位置会发生偏差,也就是前一个关键词和后一个关键词不能完全决定一个关键词能否增加权重,因此会造成由于关键词的位置导致的精度丢失。因此,本发明通过增加前关键词和后关键词的判断个数来提高关键词位置的精度。此处可以通过说明书附图3来帮助理解本发明在关键词位置精度上的提高。
Step3.3.1、假设Len(Ti)≤Len(Tj),计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn}。
Step3.3.2、对于Ti中的每一个关键词mi:如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前个关键词,其中γ向下取整,且γ为Tj关键词的个数。如果前个关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果前个关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后个关键词做相同的处理,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
在具体实验过程中会发现γ=Len(Ti)会影响到最后的相似度准确率,也就是在考虑前后(向下取整)个关键词的时候会产生误差。有两种情况出现:第一种情况:当关键词个数较少时,只考虑前后一个关键词对准确率没有太大影响,还能保持计算的准确性,但是当关键词个数增加后,汉语和老挝语间的语法差异所导致的误差也就增大,前后一个关键词已经不能保证计算的准确率,因此准确率下降;第二种情况:当关键词个数较少时,对准确率没有太大影响,但是当关键词个数增加时,考虑前后会导致有的关键词被重复计算,因此会导致准确率偏高。因此,综合分析后发现,关键词个数在5个到7个之间时,老-汉双语句子相似度计算较为准确。
本发明能够成功地解决了在老挝语语料较少的情况下,有效地进行汉语和老挝语的双语句子相似度计算,另一方面也能对老挝语语料进行扩充,因此本发明具有一定的研究意义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (3)
1.一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:包括如下步骤:
Step1、首先对语料中汉语句子Ti和老挝语句子Tj进行分词和词性标注,从中筛选出汉语句子和老挝语句子的关键词;
Step1.1、首先利用分词***分别对汉语语句子Ti和老挝语句子Tj进行分词,得到分词后的汉语和老挝语句子;
Step1.2、经过分词后,进行词性标注,从中过滤出一个句子的主要成分,它们包括名词、代词、动词、形容词和副词这几种词性,将之作为汉语句子和老挝语句子相应的关键词,这样做可以极大限度地保证句子的语义完整性;
Step2、将Step1得到的汉语句子Ti和老挝语句子Tj的关键词转换为第三方语言英语,构成Ti和Tj的关键词向量表示;
Step2.1、定义1:关键词向量表示的定义:如给定一个汉语句子Ti,经过分词***分词后,所得到的关键词mi构成的向量称为汉语句子Ti的关键词向量表示,为Tiv={m1,m2,…,mn}。
Step3、构成汉语句子Ti和老挝语句子Tj的关键词向量表示后,然后考虑向量长度更短的关键词向量,这里假设Len(Ti)≤Len(Tj),即假设汉语句子向量长度短于老挝语句子向量长度,此时计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},对于汉语句子Ti中的每一个关键词mi,计算老-汉双语句子相似度值;
Step3.1、由于此处涉及到了汉语句子Ti和老挝语句子Tj的关键词表示和权重值向量,所以在此处利用定义2、定义3、定义4进行说明:定义2:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},在向量中关键词mi的前一个关键词mi-1称为mi的前关键词,mi的后一个关键词mi+1称为mi的后关键词;定义3:给定一个汉语句子Ti的关键词向量表示Tiv={m1,m2,…,mn},Ti的向量长度Len(Ti)=n,给每一个关键词mi赋一个初始权重值所有关键词的权重值构成一个向量称为Ti的初始权重值向量,表示为TBi={b1,b2,…,bn};定义4:给定两个汉语句子Ti和老挝语句子Tj的关键词向量表示,对于Tiv中的任一关键词mi,如果mi也在Tj中出现,则称mi在Tj中存在,Ti中所有在Tj中存在的关键词构成的向量称为Ti基于Tj的存在向量,表示为Ei,j={e1,e2,…,ep},存在向量中相应关键词的权重值构成的向量称为Ti基于Tj的存在值向量,表示为TEi,j={v1,v2,…,vp},然后分别进行Step3.2和Step3.3;
Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度,然后进行Step3.4;
Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度,然后进行Step3.4;
Step3.4、根据得到汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn},汉语句子Ti基于老挝语句子Tj的存在值向量TEi,j={v1,v2,…,vp},因此,老-汉双语句子相似度值计算公式如公式(1)所示:
2.根据权利要求1所述的一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:所述的Step3.2的具体步骤如下;
Step3.2.1、假设Len(Ti)≤Len(Tj),计算Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.2.2、对于汉语句子Ti中的每一个关键词mi,如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前关键词,如果这两个前关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果这两个前关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后关键词做相同的处理即可,最终可以得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
3.根据权利要求1所述的一种基于改进关系向量模型的老-汉双语句子相似度计算方法,其特征在于:所述的Step3.3的具体步骤如下;
Step3.3.1、假设Len(Ti)≤Len(Tj),计算汉语句子Ti的初始权重值向量TBi={b1,b2,…,bn};
Step3.3.2、对于Ti中的每一个关键词mi:如果mi在老挝语句子Tj中存在或者有同义词存在,考虑mi在Ti和Tj中的前个关键词,其中γ向下取整,且γ为Tj关键词的个数,如果前个关键词为相同的词或者同义词,则将TBi中mi相应的权重增大α倍,如果前个关键词为近义词,则将TBi中mi相应的权重增大β(1<β<α)倍,对于mi的后个关键词做相同的处理,最终得到Ei,j={e1,e2,...,ep}和TEi,j={v1,v2,...,vp}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810808788.7A CN109145289A (zh) | 2018-07-19 | 2018-07-19 | 基于改进关系向量模型的老-汉双语句子相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810808788.7A CN109145289A (zh) | 2018-07-19 | 2018-07-19 | 基于改进关系向量模型的老-汉双语句子相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109145289A true CN109145289A (zh) | 2019-01-04 |
Family
ID=64801258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810808788.7A Pending CN109145289A (zh) | 2018-07-19 | 2018-07-19 | 基于改进关系向量模型的老-汉双语句子相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145289A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110106805A1 (en) * | 2009-10-30 | 2011-05-05 | International Business Machines Corporation | Method and system for searching multilingual documents |
CN102360372A (zh) * | 2011-10-09 | 2012-02-22 | 北京航空航天大学 | 一种跨语种的文档相似性检测方法 |
CN103034627A (zh) * | 2011-10-09 | 2013-04-10 | 北京百度网讯科技有限公司 | 计算句子相似度的方法和装置以及机器翻译的方法和装置 |
CN105824797A (zh) * | 2015-01-04 | 2016-08-03 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和*** |
-
2018
- 2018-07-19 CN CN201810808788.7A patent/CN109145289A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110106805A1 (en) * | 2009-10-30 | 2011-05-05 | International Business Machines Corporation | Method and system for searching multilingual documents |
CN102360372A (zh) * | 2011-10-09 | 2012-02-22 | 北京航空航天大学 | 一种跨语种的文档相似性检测方法 |
CN103034627A (zh) * | 2011-10-09 | 2013-04-10 | 北京百度网讯科技有限公司 | 计算句子相似度的方法和装置以及机器翻译的方法和装置 |
CN105824797A (zh) * | 2015-01-04 | 2016-08-03 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和*** |
Non-Patent Citations (1)
Title |
---|
殷耀明 等: "基于关系向量模型的句子相似度计算", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202042B (zh) | 一种基于图的关键词抽取方法 | |
Bod | An all-subtrees approach to unsupervised parsing | |
CN109325229B (zh) | 一种利用语义信息计算文本相似度的方法 | |
Banerjee et al. | Meaningless yet meaningful: Morphology grounded subword-level NMT | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
Costa-Jussá et al. | Statistical machine translation enhancements through linguistic levels: A survey | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN113901208A (zh) | 融入主题特征的中越跨语言评论情感倾向性分析方法 | |
Das et al. | A survey of the model transfer approaches to cross-lingual dependency parsing | |
Liu et al. | Language model augmented relevance score | |
Zhu et al. | Concept transfer learning for adaptive language understanding | |
Casacuberta et al. | Architectures for speech-to-speech translation using finite-state models | |
CN109145289A (zh) | 基于改进关系向量模型的老-汉双语句子相似度计算方法 | |
Dologlou et al. | Using monolingual corpora for statistical machine translation: the METIS system | |
Lee et al. | Probabilistic modeling of Korean morphology | |
Zhang et al. | Keyword-driven image captioning via Context-dependent Bilateral LSTM | |
Peter et al. | The qt21/himl combined machine translation system | |
Kumar et al. | A survey of machine translation approaches for Konkani to English | |
McTait | Translation patterns, linguistic knowledge and complexity in an approach to EBMT | |
Harada et al. | Neural machine translation with synchronous latent phrase structure | |
Velldal et al. | Paraphrasing treebanks for stochastic realization ranking | |
Hu et al. | An approach to automatic acquisition of translation templates based on phrase structure extraction and alignment | |
Satpathy et al. | Analysis of Learning Approaches for Machine Translation Systems | |
KR102042991B1 (ko) | 한국어 접사 기반 토크나이징 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |