CN102117284A - 一种跨语言知识检索的方法 - Google Patents

一种跨语言知识检索的方法 Download PDF

Info

Publication number
CN102117284A
CN102117284A CN2009102439934A CN200910243993A CN102117284A CN 102117284 A CN102117284 A CN 102117284A CN 2009102439934 A CN2009102439934 A CN 2009102439934A CN 200910243993 A CN200910243993 A CN 200910243993A CN 102117284 A CN102117284 A CN 102117284A
Authority
CN
China
Prior art keywords
verb
search index
language
language search
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102439934A
Other languages
English (en)
Inventor
高建忠
赵琦
吴祖林
邱李豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Original Assignee
PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd filed Critical PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Priority to CN2009102439934A priority Critical patent/CN102117284A/zh
Publication of CN102117284A publication Critical patent/CN102117284A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种跨语言知识检索的方法,包括下列步骤:10)对源语言检索式进行语义分析,获得源语言检索索引,其中所述源语言检索索引是所述源语言检索式的动宾结构构成的“动词+对象”;20)将所述源语言检索索引翻译为目标语言检索索引;30)将目标语言文档索引与所述目标语言检索索引匹配,其中所述目标语言检索索引为对目标语言文档库进行语义分析所获得的所述目标语言文档库中的动宾结构构成的“动词+对象”。根据上述方法,能够进行较高查准率的跨语言知识检索。

Description

一种跨语言知识检索的方法
技术领域
本发明涉及计算机检索领域,特别是一种跨语言知识检索的方法。
背景技术
随着信息技术的发展,人们越来越普遍地利用检索电子文档的方式来获取知识。但是,用户所需的知识可能存在于不同语言的文档中,而用户更愿意与电子***用母语进行交流。这就产生了跨语言知识检索和抽取的需求。
跨语言检索指用户使用某种自然语言(源语言)的检索词汇检索由另一种自然语言(目标语言)表达的文档。它允许用户以熟悉的语言构造检索提问式,然后使用该提问式检索任一种以非提问式语言写成的文档。
实现跨语言检索的常用方法有:文献翻译方法和提问式翻译方法等。
文献翻译方法在信息检索之前,将文档的信息语言(目标语言)转化为提问语言(源语言)。该方法的优点在于,由文献翻译方法实现的跨语言知识检索返回给用户的检索结果是用源(提问)语言描述的,用户能够方便地选择利用;对于文献层次的翻译,其语境更加宽泛,能够利用上下文消除翻译的歧义性。但是文献翻译要求所有被检索信息改变语言,而现有的大多数机器翻译***的正确率还难以达到令人满意程度,无法达到实用水平;而且要将数据库中全部文献从目标语言翻译到源语言,所需的工作量巨大,代价昂贵。此外重新构造大范围的被翻译的索引数据其代价也不小。所以,文献翻译方法只在被检索信息内容有限的情况下才有意义。目前这种方法在研究和实用上都远不如提问式翻译方法。
提问式翻译方法将用户输入的提问式翻译为检索***支持的每种语言,然后将多种语言的提问式提交给检索***的匹配模块,来检索相应语言的文档。它是目前实现跨语言检索最为常用的方法。其优点是仅对提问式进行翻译,翻译量小且翻译能够快速执行;主要缺点是:1、由于检索返回的结果是以目标语言描述的,增加了用户利用所获得信息的难度;2、提问式通常很短,语境信息很少,难以消除歧义,每个提问词被其所有可能的译法所替代,翻译模糊性问题严重,因此控制翻译的模糊性是设计有效的提问式翻译方法的一个关键问题。
提问式翻译可以通过基于字典方法、基于语料库方法、字典一语料库混合方法等来加以实现。提问式翻译方法中,基于字典的提问式翻译方法通常只是对用户提问式的关键词进行简单翻译,无法根据提问式语境消除歧义,获得的检索结果查准率较低。基于语料库的提问式翻译方法可以从语料库中获得提问式中某些短语或短句的译法,能消除部分歧义,但受语料库规模和内容所限,往往只能获得提问式关键词的一个或多个译法,无法获得关键词同义词的检索结果,查全率较低。
发明内容
本发明要解决的技术问题是提高跨语言知识检索的查准率。
为解决上述问题,根据本发明的一个方面提供了一种跨语言知识检索的方法,包括下列步骤:
10)对源语言检索式进行语义分析,获得源语言检索索引,其中所述源语言检索索引是所述源语言检索式的动宾结构构成的“动词+对象”;
20)将所述源语言检索索引翻译为目标语言检索索引;
30)将目标语言文档索引与所述目标语言检索索引匹配,其中所述目标语言检索索引为对目标语言文档库进行语义分析所获得的所述目标语言文档库中的动宾结构构成的“动词+对象”。
上述方法中,所述步骤10)后,还包括下列步骤:
11)将所述源语言检索索引进行同义扩展。
上述方法中,所述步骤11)后还包括下列步骤:
12)验证所述源语言检索索引。
上述方法中,所述步骤20)是利用“动词+对象”双语词典,其中,所述“动词+对象”双语词典包括源语言“动词+对象”和对应的目标语言“动词+对象”。
上述方法中,所述步骤20)中如果所述“动词+对象”双语词典中不包括所述目标语言检索索引,则包括下列步骤:利用动词双语词典和名词双语词典将所述源语言检索索引翻译为目标语言检索索引。
上述方法中,所述步骤20)是利用动词双语词典和名词双语词典。
上述方法中,所述步骤20)后,还包括下列步骤:
21)将所述目标语言检索索引进行同义扩展。
上述方法中,所述步骤21)后还包括步骤:
22)验证所述目标语言检索索引。
本发明的有益效果在于提供了一种查准率较高的跨语言知识检索方法,另外,本发明还有效提高了跨语言知识检索的查全率。
附图说明
图1是根据本发明一个具体实施例的跨语言知识检索方法流程图;
图2是根据本发明一个具体实施例的双语词典建立流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明具体实施例的跨语言知识检索的方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了根据本发明一个具体实施例的跨语言知识检索方法流程图,该方法包括下列步骤:
对源语言检索式和目标语言文档库进行语义分析,以提取出其中的动宾结构,进而获得源语言检索索引和目标语言文档索引。一般地,一句话中的动宾结构是句内的核心成分,可以体现该句的主旨内容,如:“如何在冬天提高室内的温度?”中的动宾结构是“提高+温度”;而动宾结构中的“动词+对象”组合存在一定的语言结合规律性;所以提取“动词+对象”组合(动宾结构)作为索引。
选择利用斯坦福大学的斯坦福句法分析器(Stanford Parser)作为语义分析器来完成语义分析,该工具目前支持对英文、中文、德文和***文的语义分析,详细说明见http://www-nlp.stanford.edu/software/lex-parser.shtml。本领域普通技术人员可以理解,语义分析可利用自然语言处理领域的很多现有的语义分析器来完成,其可以分别支持不同语言的语义分析。本步骤不限定具体的语义分析器和所针对的语言。下面描述了两个具体的语义分析示例:
示例1:假定源语言为中文,源语言检索式为“如何探测微波辐射”,语义分析结果为:
(ROOT
(IP
(VP
(ADVP(AD如何))
(VP(VV探测)
(NP
(ADJP(JJ微波))
(NP(NN辐射)))))))
其中,各个英文简写的含义如下:
ROOT:根节点;
IP:屈折语素短语;
VP:动词短语;
ADVP:副词短语;
AD:副词;
VV:动词;
NP:名词短语;
ADJP:形容词短语;
JJ:形容词;
NN:普通名词。
根据语义分析的结果标记,自动提取动宾结构VP“探测微波辐射”,获得动词VV“探测”+对象NP“微波辐射”的组合,作为源语言检索索引。动词标记为V,对象标记为O,即该源语言检索索引为“探测(V)+微波辐射(O)”。
示例2:假定目标语言为英文,目标语言文档库中的一句话为“Dopplereffect transducer measures fluid flow”,语义分析结果为:
(ROOT
(S
(NP(JJ Doppler)(NN effect)(NN transducer))
(VP(VBZ measures)
(NP(JJ fluid)(NN flow)))))
其中,各个英文简写的含义如下:
ROOT:根节点;
S:句子;
NP;名词短语;
JJ:形容词;
NN:普通名词;
VP:动词短语;
VBZ:现在时态动词。
根据语义分析的结果标记,自动提取动宾结构VP“measures fluidflow”,获得动词VBZ“measures”+对象NP“fluid flow”的组合,作为目标语言文档索引。动词标记为V,对象标记为O,即该目标语言文档索引为“measure(V)+fluid flow(O)”。
优选地,对源语言检索索引自动进行同义扩展,更具体地,利用源语言同义词典对一个源语言检索索引中的“动词(V)”和“对象(O)”进行同义扩展;并用扩展后的“动词(V)”和“对象(O)”词语组成扩展源语言检索索引,从而获得扩展源语言检索索引,即扩展“动词(V)+对象(O)”组合。其中,源语言同义词典包括动词同义词典和名词同义词典,动词同义词典可以选取现有公知词典,如《常用同义词词典》等,由其中的“动词同义词”构建“动词同义词词典”;名词同义词典可以选取现有公知词典,如《常用同义词词典》,由其中的“名词同义词”构建“名词同义词典”。下面给出了一个对源语言检索索引进行同义扩展的示例。
示例3:假定源语言为中文,一个源语言检索索引为“稀释(V)+光刻胶(O)”。
在源语言动词同义词典中查找“稀释(V)”的同义词,未获得“稀释(V)”同义词;在源语言对象同义词典中查找“光刻胶(O)”的同义词,获得同义词“光致抗蚀剂(O)”。因此,源语言检索索引“稀释(V)+光刻胶(O)”的扩展源语言检索索引为:“稀释(V)+光致抗蚀剂(O)”。
在本步骤中,采用对关键词组合进行同义扩展的方法,以获得更多正确检索结果,提高了跨语言检索的查全率。本领域普通技术人员可以理解,也可以不进行该同义扩展步骤。
上述利用词典进行同义扩展和关键词组合的步骤可能会产生下述错误,某个“动词(V)”的同义词和某个“对象(O)”的同义词在语言表述中不太可能同时出现,例如:“增加(V)+热量(O)”,“增长(V)”是“增加(V)”的同义词,但是,“增长(V)+热量(O)”的组合并不符合语言规律,存在不合理性。因此,根据本发明的优选实施例,本发明还包括对扩展源语言检索索引的合理性进行验证的步骤。
在对扩展源语言检索索引进行验证这个步骤中,可以采用共现技术。共现技术是基于这样一个假设:在翻译一个提问词时,其他的提问词(或是它们的翻译)就成为选择该提问词的翻译词的“语境”。正确的翻译在目标语言文献中共同出现的频率高,而错误的翻译在目标语言文献中共同出现的频率低。因此,在为每一个提问词选择正确的翻译时,此词的翻译与其他提问词的翻译在目标语种文献中共现度最大时才会被选中。该过程具体运行如下:对含有n个提问词的集合{S1,...,Sn},首先根据词典给出每个Si(1≤i≤n)的翻译集合Ti,然后再从Ti中选择与其他提问词Sj(1≤j≤n,且j≠i)的翻译集合Tj共现率最高的词作为Si翻译。上述验证方法,仅考虑“动词(V)”和“对象(O)”的共现度,而忽略句子中其它词,有效提高了该方法的执行效率。
根据本发明的一个具体实施例,计算扩展源语言检索索引的共现度的步骤如下:
在源语言文档库中检索扩展源语言检索索引,抽取出源语言文档库中同时包含扩展源语言检索索引中的“动词(V)”和“对象(O)”的文档。
设“动词”表示为v,“对象”表示为o,一个扩展源语言检索索引在源语言文档库中的共现度为SIM(v,o),则计算公式如下:
SIM(v,o)=p(v,o)×log2(p(v,o)/(p(v)×p(o)))-log2Dis(v,o)公式1
其中,c(v)、c(o)是v、o在源语言文档库中出现的次数,c(v,o)表示v和o在源语言文档库的同一句中的共现次数,p(v,o)=c(v,o)/c(v)+c(v,o)/c(o),p(v)=c(v)/∑c(v),Dis(v,o)是一句中v和o之间的平均距离,用二者间的词数来计算。
本领域的普通技术人员可以理解,还可以根据公式2计算扩展源语言检索索引的共现度:
SIM ( v , o ) = ( c ( v , o ) c ( v ) + c ( v , o ) c ( o ) ) / 2 公式2
通常,SIM(v,o)值小于2的认为该扩展源语言检索索引通过验证;获得的SIM(v,o)值大于2的扩展源语言检索索引被删除。
将已验证扩展源语言检索索引翻译为目标语言检索索引。优选地,运用“动词+对象”双语词典和已验证扩展源语言检索索引中的“动词(V)+“对象(O)”进行匹配,其中,该“动词+对象”双语词典包括源语言“动词+对象”和对应的目标语言“动词+对象”。表1示出了一个源语言是中文而目标语言是英文的“动词+对象”双语词典的部分内容。
表1  汉英双语词典
 中文   英文
 提高+温度   increase+temperatureraise+temperature
 输出+光信号   output+light signaloutput+optic signaloutput+optical signal
图2示出了根据本发明一个具体实施例的建立“动词+对象”双语词典的流程图。该词典的建立基于平行语料库的使用,其中平行语料库是一种双语或多语的语料库,即库中不但有源语言文本,还有对应的目标语言文本。两种或多种文本一般采用句子或段落对齐方式编排。计算机可以对源语文本和译语文本进行全文检索,并提供对照显示。该建立双语词典的过程包括下列步骤:首先用语义分析器处理两个语料库T1和T2,其中语料库T1和T2包括内容逐句对应的翻译文档,一个语料库T1的语言是s,另一个语料库T2的语言是t。语义分析器将语料库T1和T2转化为由一些平行“动词(V)+对象(O)”表示的语义索引。从平行“动词(V)+对象(O)”表示的索引中抽取平行“动词(V)+对象(O)”,并建立一个双语“动词(V)+对象(O)”词对,例如“heat(V)+water(O)”与“加热(V)+水(O)”平行,二者一起来建立一个词对。所建立的词对随后被编辑加工,例如,删除词法单元中的重复对。编辑完成的词对被添加到“动词+对象”双语词典。
本步骤优先选取“动词+对象”双语词典的匹配结果对已验证源语言检索索引进行翻译,如果未能获得匹配结果,则利用单独的动词双语词典和名词双语词典对已验证源语言检索索引进行匹配,获得目标语言检索索引。本领域普通技术人员可以理解,当然也可以直接利用单独的动词双语词典和对象双语词典对已验证源语言检索索引进行匹配,获得目标语言检索索引。
从以上描述可知,本发明的翻译过程不是对用户请求的各个词进行简单翻译,而是对用户请求的某些信息词组合进行翻译,同时保留了用户请求的词性标记和语义关系。
根据本发明的优选实施例,还包括利用目标语言同义字典对所获得的目标语言检索索引进行同义扩展的步骤,其中目标语言同义词典包括动词同义词典和名词同义词典。具体地,利用目标语言动词同义词典和名词同义词典分别对一个目标语言检索索引中的“动词(V)”和“对象(O)”进行同义扩展;并用扩展后的“动词(V)”和“对象(O)”词语组成扩展目标语言检索索引,即获得目标语言扩展“动词(V)+对象(O)”组合。下面给出了一个对目标语言检索索引进行扩展的示例。
示例4:假定目标语言为英文,一个目标语言检索索引为“dissolve(V)+aluminum layer(O)”。
在目标语言动词同义词典中查找“dissolve(V)”的同义词,获得同义词“liquefy(V)”;在目标语言对象同义词典中查找“aluminum layer(O)”的同义词,获得同义词“Al layer(O)”。因此,目标语言检索索引“dissolve(V)+aluminum layer(O)”的扩展目标语言索引为:
“liquefy(V)+aluminum layer(O)”,
“dissolve(V)+Al layer(O)”,和
“liquefy(V)+Al layer(O)”。
因为在提问式语境中,两个不相关的提问词的译文也可能一起出现在目标语料库中,结果,不合适的译文可能被选上。这种情况将严重影响检索效果。所以,与对扩展源语言检索索引进行验证的过程类似,对扩展目标语言检索索引进行验证,从而获得同时满足全面性和准确性的目标语言检索索引。
匹配已验证目标语言检索索引和目标语言文档索引,获得匹配用户检索式的文档作为输出。具体地,在目标语言文档库中利用目标语言文档索引进行检索,在所检索出来的存在目标语言文档索引的文本文件子集中进一步检索与用户请求相关的知识/文档,即检索目标语言文档索引与已验证目标语言检索索引相同的文档,并将这些文档作为输出返回给用户。
本领域的普通技术人员可以理解,本发明的方法利用了目标语言文档索引,如上所述其是对目标语言文档库进行与源语言检索式类似地语义分析而获得。如果在上述方法的基础上,再次进行另外的检索过程,则可以直接利用上述步骤所获得的目标语言文档索引,而不必重新执行对目标语言文档库再次语义分析的步骤。
综上所述,本发明将检索式中的“动词+对象”组合(动宾结构)作为检索索引,可以减少翻译单个关键词所存在的歧义性的问题,提高跨语言检索的查准率;优选地,结合对关键词组合进行同义扩展的方法,以获得更多正确检索结果,可以提高跨语言检索的查全率。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (10)

1.一种跨语言知识检索的方法,包括下列步骤:
10)对源语言检索式进行语义分析,获得源语言检索索引,其中所述源语言检索索引是所述源语言检索式的动宾结构构成的“动词+对象”;
20)将所述源语言检索索引翻译为目标语言检索索引;
30)将目标语言文档索引与所述目标语言检索索引匹配,其中所述目标语言检索索引为对目标语言文档库进行语义分析所获得的所述目标语言文档库中的动宾结构构成的“动词+对象”。
2.根据权利要求1所述的方法,其特征在于,所述步骤10)后,还包括下列步骤:
11)将所述源语言检索索引进行同义扩展。
3.根据权利要求2所述的方法,其特征在于,所述步骤11)后还包括下列步骤:
12)验证所述源语言检索索引。
4.根据权利要求3所述的方法,其特征在于,所述步骤12)进一步包括根据以下公式计算所述源语言检索索引中动词和对象的共现度,
SIM(v,o)=p(v,o)×log2(p(v,o)/(p(v)×p(o)))-log2Dis(v,o),
其中,动词表示为v,对象表示为o,c(v)、c(o)是v、o在源语言文档库中出现的次数,c(v,o)表示v和o在源语言文档库的同一句中的共现次数,p(v,o)=c(v,o)/c(v)+c(v,o)/c(o),p(v)=c(v)/∑c(v),Dis(v,o)是一句中v和o之间的平均距离。
5.根据权利要求3所述的方法,其特征在于,所述步骤12)进一步包括根据以下公式计算所述源语言检索索引中动词和对象的共现度,
SIM ( v , o ) = ( c ( v , o ) c ( v ) + c ( v , o ) c ( o ) ) / 2 ,
其中,动词表示为v,对象表示为o,c(v)、c(o)是v、o在源语言文档库中出现的次数,c(v,o)表示v和o在源语言文档库的同一句中的共现次数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述步骤20)是利用“动词+对象”双语词典,其中,所述“动词+对象”双语词典包括源语言“动词+对象”和对应的目标语言“动词+对象”。
7.根据权利要求6所述的方法,其特征在于,所述步骤20)中如果所述“动词+对象”双语词典中不包括所述目标语言检索索引,则包括下列步骤:利用动词双语词典和名词双语词典将将所述源语言检索索引翻译为目标语言检索索引。
8.根据权利要求1至5中任一项所述的方法,其特征在于,所述步骤20)是利用动词双语词典和名词双语词典。
9.根据权利要求1至5中任一项所述的方法,其特征在于,所述步骤20)后,还包括下列步骤:
21)将所述目标语言检索索引进行同义扩展。
10.根据权利要求9所述的方法,其特征在于,所述步骤21)后还包括步骤:
22)验证所述目标语言检索索引。
CN2009102439934A 2009-12-30 2009-12-30 一种跨语言知识检索的方法 Pending CN102117284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102439934A CN102117284A (zh) 2009-12-30 2009-12-30 一种跨语言知识检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102439934A CN102117284A (zh) 2009-12-30 2009-12-30 一种跨语言知识检索的方法

Publications (1)

Publication Number Publication Date
CN102117284A true CN102117284A (zh) 2011-07-06

Family

ID=44216058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102439934A Pending CN102117284A (zh) 2009-12-30 2009-12-30 一种跨语言知识检索的方法

Country Status (1)

Country Link
CN (1) CN102117284A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻***
CN103678714A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 实体知识库的构建方法和装置
CN104573019A (zh) * 2015-01-12 2015-04-29 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104850610A (zh) * 2015-05-11 2015-08-19 均康(上海)信息科技有限公司 一种网络搜索引擎***
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻***
CN103678714A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 实体知识库的构建方法和装置
CN104573019A (zh) * 2015-01-12 2015-04-29 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104573019B (zh) * 2015-01-12 2019-04-02 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104850610A (zh) * 2015-05-11 2015-08-19 均康(上海)信息科技有限公司 一种网络搜索引擎***
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法

Similar Documents

Publication Publication Date Title
Nie Cross-language information retrieval
Zhou et al. Translation techniques in cross-language information retrieval
CN101042692B (zh) 基于语义预测的译文获取方法和设备
US20060235689A1 (en) Question answering system, data search method, and computer program
Monz et al. Iterative translation disambiguation for cross-language information retrieval
Cheng et al. Creating multilingual translation lexicons with regional variations using web corpora
CN102117284A (zh) 一种跨语言知识检索的方法
Vilares et al. Managing misspelled queries in IR applications
Udupa et al. “They Are Out There, If You Know Where to Look”: Mining Transliterations of OOV Query Terms for Cross-Language Information Retrieval
Vilares et al. On the feasibility of character n-grams pseudo-translation for Cross-Language Information Retrieval tasks
Kim et al. Combining lexical and statistical translation evidence for cross‐language information retrieval
Chandra et al. Assessing query translation quality using back translation in hindi-english clir
Gupta et al. Advanced machine learning techniques in natural language processing for Indian languages
Wu et al. Learning to find English to Chinese transliterations on the web
Hiemstra et al. A domain specific lexicon acquisition tool for cross-language information retrieval
Zhang et al. Detection and translation of oov terms prior to query time
Lin et al. Query Expansion from Wikipedia and Topic Web Crawler on CLIR.
Moukdad et al. How do search engines handle Chinese queries
He et al. Cross‐Language Information Retrieval
Carpuat A semantic evaluation of machine translation lexical choice
Hsu et al. Query Expansion via Link Analysis of Wikipedia for CLIR.
Kishida Prediction of performance of cross-language information retrieval using automatic evaluation of translation
Sakamoto et al. Utilization of Multi-word Expressions to Improve Statistical Machine Translation of Statutory Sentences
Hu et al. Mining Translations of Web Queries from Web Click-through Data.
Lin et al. Exploring the effectiveness of Chinese-to-English machine translation for CLIR applications in earthquake engineering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100026 Beijing city Chaoyang District West Road No. 1 A Winterless center block 5A

Applicant after: PERA CORPORATION LTD.

Address before: 100026 Beijing city Chaoyang District West Road No. 1 A Winterless center block 5A

Applicant before: PERA Global Technology (Beijing) Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: PERA GLOBAL TECHNOLOGY (BEIJING) CO., LTD. TO: PERA GLOBAL TECHNOLOGY CO., LTD.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110706