CN101271461B - 跨语言检索请求的转换及跨语言信息检索方法和*** - Google Patents

跨语言检索请求的转换及跨语言信息检索方法和*** Download PDF

Info

Publication number
CN101271461B
CN101271461B CN2007100891171A CN200710089117A CN101271461B CN 101271461 B CN101271461 B CN 101271461B CN 2007100891171 A CN2007100891171 A CN 2007100891171A CN 200710089117 A CN200710089117 A CN 200710089117A CN 101271461 B CN101271461 B CN 101271461B
Authority
CN
China
Prior art keywords
language
cross
mentioned
translation
retrieval request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100891171A
Other languages
English (en)
Other versions
CN101271461A (zh
Inventor
王海峰
朱江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2007100891171A priority Critical patent/CN101271461B/zh
Priority to US12/036,584 priority patent/US20080235202A1/en
Priority to JP2008072462A priority patent/JP2008234656A/ja
Publication of CN101271461A publication Critical patent/CN101271461A/zh
Application granted granted Critical
Publication of CN101271461B publication Critical patent/CN101271461B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种跨语言检索请求的转换方法和装置以及跨语言信息检索方法和***。该跨语言检索请求的转换方法包括:利用多个不同的机器翻译***分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。本发明通过融合多个机器翻译***所生成的跨语言检索请求的译文来构造目标语言检索请求,从而提高跨语言信息检索***的检索性能。

Description

跨语言检索请求的转换及跨语言信息检索方法和***
技术领域
本发明涉及信息处理技术,具体地,涉及跨语言检索请求的转换方法和装置以及跨语言信息检索方法和***。
背景技术
随着网络的普及,网络上的信息资源日益丰富且用户对于网络信息资源的需求也在逐渐提高。但是,在网络信息资源日益丰富的同时,却又存在着阻碍这些资源为用户所广泛共享的一个主要障碍—多语种问题。其原因在于,目前网络用户获得网络信息资源的一个主要途径是通过信息检索***,但传统的信息检索***主要是针对于单一语种的文档集而实现的。也就是说,传统的信息检索***一般允许用户选择某一语种作为查询语言,但仅向用户返回符合其查询条件的、与该查询语言相同的语种的文档。
目前,由于用户需要查询多语种文本的情形已变得越来越普遍,所以,为了满足人们对于不同语种的网络信息资源的共享需求,跨语言信息检索技术正在受到广泛的关注及普遍的应用。
跨语言信息检索技术是结合了传统文本信息检索技术和机器翻译(machine translation,MT)技术的一门热点技术。跨语言信息检索***使得用户能够以其选定的源语言提交检索请求,而对目标语言的文档进行检索。具体地,在跨语言信息检索***中,广泛地使用基于机器翻译***的查询翻译方法来实现上述跨语言的信息检索。也就是说,跨语言信息检索***首先利用基于机器翻译***的查询翻译方法自动地将用户的检索请求从其源语言翻译到目标语言,从而得到该检索请求的目标语言译文,然后再根据该目标语言译文来构造与该检索请求对应的目标语言检索请求,从而使该跨语言信息检索***能够利用该目标语言检索式对符合查询条件的目标语言的文档进行单语检索。
但是,在以往的跨语言信息检索***中,通常都直接使用单个机器翻译***来生成检索请求的目标语言译文、进而构造检索式,从而这样的跨语言信息检索***的检索性能极大地取决于机器翻译***所生成的检索请求译文的质量。从而,当机器翻译***的译文质量较差时,直接使用该机器翻译***所生成的检索请求的译文来构造检索式,通常也会使得跨语言信息检索***得到质量较差的检索结果。
因此,需要设计出一种新的跨语言检索请求的转换技术以及跨语言信息检索技术,来提高跨语言信息检索***的检索性能。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种跨语言检索请求的转换方法和装置以及跨语言信息检索方法和***,以便通过融合多个机器翻译***所生成的跨语言检索请求的译文来构造检索式,从而提高跨语言信息检索***的检索性能。
根据本发明的一个方面,提供一种跨语言检索请求的转换方法,包括:利用多个不同的机器翻译***分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。
根据本发明的另一个方面,提供一种跨语言信息检索方法,包括:从检索用户处获得跨语言检索请求;利用上述的跨语言检索请求的转换方法对上述跨语言检索请求进行从源语言到目标语言的转换,以生成与该跨语言检索请求对应的目标语言检索请求;以及根据上述目标语言检索请求从信息源检索满足条件的目标语言文档。
根据本发明的另一个方面,提供一种跨语言检索请求的转换装置,包括:多个机器翻译模块,其分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及目标语言检索请求构造模块,其以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。
根据本发明的另一个方面,提供一种跨语言信息检索***,包括:用户模块,其从检索用户处获得跨语言检索请求,并向检索用户呈现该跨语言信息检索***的检索结果;上述的跨语言检索请求的转换装置,其对上述跨语言检索请求进行从源语言到目标语言的转换,以生成与该跨语言检索请求对应的目标语言检索请求;以及检索模块,其根据上述目标语言检索请求从信息源检索满足条件的目标语言文档。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明实施例的跨语言信息检索方法的流程图;
图2是根据本发明实施例的跨语言检索请求的转换方法的流程图;
图3是根据本发明实施例的跨语言信息检索***的方框图;以及
图4是根据本发明实施例的跨语言检索请求的转换装置的方框图。
具体实施方式
在对本发明的各个优选实施例进行详细描述之前,首先对现有的跨语言信息检索***进行简单介绍。
现有的跨语言信息检索***可以是在传统的信息检索***的基础上增加了对检索请求在不同语言之间的翻译等功能之后的信息检索***,也可以是重新构造的具有上述功能的新的信息检索***。
也就是说,一个现有的跨语言信息检索***不仅涉及到信息检索的技术领域,而且还涉及到机器翻译的技术领域。具体地,融合这两个领域的技术,现有的跨语言信息检索***进行信息检索的主要过程如下:用户向该跨语言信息检索***提交检索请求,从而形成一个源语言的检索式;该***利用一个机器翻译***对该源语言的检索式进行语言识别,并在识别出语种后,对其进行词法分析和结构分析,然后将分析后的源语言的检索式翻译成某一种或某几种目标语言,从而生成相应目标语言的检索式;最后,所生成的各相应目标语言检索式被提交给该***中的检索部分,以便从信息源的各相应目标语言的文档中检索符合条件的信息。
其中,在检索请求被翻译为多种目标语言的情况下,该跨语言信息检索***所得到的检索结果中含有这多种目标语言的符合条件的信息。
此外,需要指出的是,跨语言信息检索并不包括这样的情况:检索请求中包括不同语种的检索词,但信息检索***并不具有在进行检索之前识别检索请求的语种进而将其翻译为另一语种的功能,即使该***检索得到的检索结果中包括了上述各语种的信息。举例来说,如果在某一不具有检索请求的翻译功能的信息检索***中输入检索请求“知识发现knowledge”并选择所有语种,则在进行检索时,只要内容中既包括“知识发现”又包括“knowledge”,那么任何这样的文档都会被检索出来,而不管该文档中的其他部分是中文的、英文的还是日文的。但是,由于该信息检索***在检索过程中并不识别检索请求的语种也未进行检索请求的语种转换,从而所实现的也不是利用源语言对目标语言文档进行的检索,所以这不是真正的跨语言信息检索。
本发明所讨论的跨语言信息检索是利用某一语种(源语言)的检索请求对另一或另一些不同语种(目标语言)的信息进行检索的情况。
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明实施例的跨语言信息检索方法的流程图。
如图1所示,首先,在步骤105,检索用户利用源语言输入跨语言检索请求,并提交给跨语言信息检索***。在本实施例中,用户输入跨语言检索请求所使用的源语言可以是该跨语言信息检索***所能够支持的任何语言,例如中文等。此外,用户所输入的跨语言检索请求可以是用户感兴趣的内容中包括的单字、词语或术语,或者是与文档密切相关且能独立区分的属性等,也就是说,所有与欲检索文档相关的内容都可以作为跨语言检索请求。需要说明的是,对跨语言检索请求的支持是基于跨语言信息检索***的数据库容量及匹配逻辑来实现的,并且由于其不是本发明的特征所在,所以本发明对此步骤没有特别的限定。
接着,在步骤110,对上述跨语言检索请求进行从源语言到目标语言的转换,以获得与该跨语言检索请求对应的目标语言检索请求。
以下,结合图2对上面图1的步骤110中跨语言检索请求从源语言到目标语言的转换方法进行详细描述。
图2是示出根据本发明实施例的跨语言检索请求的转换方法的流程图。在本实施例中,为了简单起见,仅讨论将上述跨语言检索请求从源语言转换为一种目标语言以便从该目标语言的信息中检索符合条件的文档的情况。在此情况下,该目标语言可以是用户在提交该跨语言检索请求时所选定的语种,也可以是未经用户选择而由该跨语言信息检索***所默认的语种,例如英文等。
如图2所示,首先,在步骤205,利用多个不同的机器翻译***对上述跨语言检索请求进行从源语言到目标语言的翻译。
具体地,在本步骤中,利用上述多个不同的机器翻译***中的每一个将上述跨语言检索请求从源语言翻译为指定的目标语言,以得到该跨语言检索请求的指定目标语言的一个译文。从而,在本步骤中,利用这多个不同的机器翻译***可得到该跨语言检索请求的多个目标语言译文。
在本步骤中,对于每一个机器翻译***来说,其对上述跨语言检索请求的翻译过程均涉及到对该跨语言检索请求的多种自然语言处理。具体地,每一个机器翻译***的处理过程主要包括源语言分析、从源语言到目标语言的转换、目标语言的生成等。其中,源语言分析又可以分为词法分析、词性标注与句法分析、语义分析、语用和语境分析等不同的分析层次。再者,源语言和目标语言之间的转换是机器翻译的核心技术,可利用大规模双语(或多语)语料库及其标注等翻译知识为基础来具体实现。并且由于本发明的特征在于下面所描述的如何融合这多个不同的机器翻译***所生成的上述跨语言检索请求的多个目标语言译文,而并非具体的机器翻译过程本身,所以本发明对于各机器翻译***的具体实现及其工作过程并没有特别的限制,并且只要能够实现跨语言检索请求的从源语言到指定目标语言的翻译,本发明可使用任何现在已知或将来可知的机器翻译***来实现。
此外,需要说明的是,在本步骤中,对于这多个不同的机器翻译***的启用顺序并没有特别的限制。可以按顺序依次启用这些机器翻译***对上述跨语言检索请求进行翻译,也可以同时地启用这些机器翻译***对该跨语言检索请求进行翻译。
接着,在步骤210,获得上述多个不同的机器翻译***中的每一个的译文质量得分。具体地,在本实施例中,这多个不同的机器翻译***中的每一个的译文质量得分是通过预先离线针对该机器翻译***进行译文质量的评测而得到的。关于译文质量的评测,可以根据由用户来选择测试集并制定分数等级的人工评测方式来实现,也可以根据利用NIST的ScoringSoftware自动打分工具等的自动评测方式来实现。并且,由于译文质量的评测是本领域中的通用技术并且其也不是本发明的特征所在,所以本发明对此步骤没有特别的限制。
此外,需要说明的是,在本实施例中,是预先为各机器翻译***生成译文质量得分而在以后对跨语言检索请求进行转换的过程中直接来使用的。但在其他实施例中,本步骤也可以这样来实现:首先判断上述各机器翻译***是否已具有针对该机器翻译***所评测的译文质量得分,若具有,则直接获得其译文质量得分;若某一机器翻译***不具有译文质量得分,则针对该机器翻译***进行译文质量的评测,以便为其获得译文质量得分。
在步骤215,对于上述多个机器翻译***所获得的上述多个目标语言译文中的每一个,利用一个语言模型来计算其可信度。利用语言模型来计算译文的可信度也是本领域的通用技术,在此对其不再作进一步详细描述。
在步骤220,对于上述跨语言检索请求的上述多个目标语言译文中的每一个,将在步骤210中所获得的生成该目标语言译文的机器翻译***的译文质量得分与在步骤215中所获得的该目标语言译文的可信度相结合,以得到该目标语言译文的翻译可信度。具体地,在本实施例中,对于上述跨语言检索请求的上述多个目标语言译文中的每一个,将在步骤210中所获得的生成该目标语言译文的机器翻译***的译文质量得分与在步骤215中所获得的该目标语言译文的可信度相乘,以得到该目标语言译文的翻译可信度。但在其他实施例中,只要能够得到表示目标语言译文的翻译可信度的信息,也可采用其他的方式对各机器翻译***的译文质量得分与目标语言译文的可信度进行关联。
在步骤225,合并上述跨语言检索请求的上述多个目标语言译文,以形成检索词列表。具体地,在本步骤中,识别出各目标语言译文中的对于检索来说有用的检索词,而删除各目标语言译文中的功能词,从而将这些对于检索来说有用的检索词组合在一起形成检索词列表。其中,各目标语言译文中的功能词是指其功能主要在于表达一种语法关系、而没有具体词汇含义的词,如介词、连词等。
此外,在本实施例中,在形成上述检索词列表时,将在上述多个目标语言译文中重复出现的所识别出的检索词合并,并针对该检索词记录有关其曾出现在其中的哪些目标语言译文中的信息,以便在下面的步骤230中使用。此外,在其他实施例中,也可以不合并这些重复出现的检索词,而在检索词列表中单独记录每一个检索词以及有关其是出现在其中的哪一个目标语言译文中的检索词的信息。
在步骤230,为在步骤225中获得的上述检索词列表中的各检索词计算权值。在本步骤中,首先获得检索词列表中的各检索词及相关信息以及上述多个目标语言译文中的每一个的翻译可信度,然后将各目标语言译文的翻译可信度用于为该检索词列表中的各检索词计算基于翻译可信度的权值。
具体地,在本步骤中,利用TF-IDF算法来计算各检索词的权值。下面,以根据跨语言检索请求q的N个目标语言译文所形成的检索词列表为例来说明利用TF-IDF算法为其中的检索词i计算权值的过程,其中在步骤220中计算的各目标语言译文t(t=1~N)的翻译可信度被用于计算检索词i的词频。也就是说,下面所讨论的情况是,利用了N个机器翻译***分别对跨语言检索请求q进行了从源语言到目标语言的翻译从而生成了该跨语言检索请求q的N个目标语言译文,并根据这N个目标语言译文形成了该跨语言检索请求q的检索词列表。从而,在此情况下,对于根据这N个目标语言译文所形成的检索词列表中的检索词i,可根据下式来求得其权值:
Wq,i=TFq,i*IDFi
其中
IDF i = log D d i
T F q , i = Σ t = 1 N TC t * freq t , i
其中,Wq,i为跨语言检索请求q中的检索词i的权值;
TFq,i为检索词i在跨语言检索请求q中的加权词频;
IDFi为检索词i的反向文档频率;
D为文档总数;di为包含检索词i的文档数;
freqt,i为检索词i在跨语言检索请求q的目标语言译文t中出现的次数;
TCt为跨语言检索请求q的目标语言译文t的翻译可信度。
此外,需要说明的是,在本实施例中虽然使用了TF-IDF算法为上述检索词列表中的各检索词计算权值,但这仅是示意性的说明,而并非要对本发明进行限制,只要能够达到本发明的目的,可使用任何能够根据各目标语言译文的翻译可信度得到检索词列表中各检索词的权值的算法。
接着,在步骤235,根据上述检索词列表及其中各检索词的权值来构造与上述跨语言检索请求对应的目标语言检索请求。具体地,在本步骤中,以上述检索词列表中的各检索词及其权值为基础,得到<检索词:权值>对,从而上述检索词列表中的所有检索词的<检索词:权值>对组合在一起构成了与上述跨语言检索请求对应的目标语言检索式,作为上述目标语言检索请求,从而成为检索的依据。
以上,就是对本实施例的跨语言检索请求的转换方法的描述。从以上描述可知,本实施例首先利用多个机器翻译***对用户所输入的跨语言检索请求进行从源语言到目标语言的翻译以得到该跨语言检索请求的多个目标语言译文,并为这多个目标语言译文中的每一个计算翻译可信度;然后融合这所有目标语言译文以获得一个带有翻译可信度信息的检索词列表;最后,根据该检索词列表中各检索词的基于翻译可信度的权值来构造与上述跨语言检索请求对应的目标语言检索式。
因而,在本实施例中,由于融合多个机器翻译***所生成的跨语言检索请求的目标语言译文,所以可以构造出与该跨语言检索请求更加相关的目标语言检索式。
此外,需要说明的是,上面结合图2对本实施例的跨语言检索请求的转换方法的说明中,是为了方便起见而以一定的顺序对各步骤进行描述的,但这并非是限制性的,只要能够达到本发明的目的,可采用任何顺序来执行这些步骤。
此外,还应该指出的是,以上是针对于将跨语言检索请求从源语言转换为一种指定的目标语言的情况进行描述的,但这仅是示意性的说明,而并非要对本发明进行限制。在实际实现中,也可以存在将跨语言检索请求从源语言转换为多种指定目标语言而从这多种指定目标语言的信息中检索符合条件的文档的情况。在此情况下,这多种目标语言的种类可以由用户在提交跨语言检索请求时来选定,也可以是未经用户选择而由跨语言信息检索***所默认的语种或该***能够支持的所有语种。此外,在目标语言为多个语种的情况下,对于每一个目标语种来说,其转换过程均与上面单个目标语种的情况相同,因而在此不再重复描述。
返回到图1,在步骤115,根据在步骤110所得到的目标语言检索请求,在信息源的用于检索的文档中进行匹配,以检索得到符合条件的文档。
在本步骤中,以跨语言信息检索***中的检索部分由一个检索模块构成的情况为例进行说明。具体地,在本步骤中,将在步骤110中获得的目标语言检索请求,即<检索词:权值>对形式的目标语言检索式提交给该检索模块;该检索模块根据该目标语言检索式的集合在信息源的用于检索的文档中进行匹配,以检索出符合条件的、该目标语言的文档,作为针对该目标语言检索请求的检索结果。此外,在本实施例中,对于构成该跨语言信息检索***中的检索部分的检索模块并没有特别限制,其可使用能够支持上述目标语言的现在已知或将来可知的任何检索模块(搜索引擎)来实现。
此外,在其他的实施例中,上述检索部分也可以使用分别能够支持某一种或某几种目标语言的多个不同的检索模块来实现,这尤其适合于该跨语言信息检索***能够同时支持多种目标语言的情况。在此情况下,在步骤110中为跨语言检索请求生成各目标语言的检索式时还需要针对支持不同目标语言的各检索模块构造不同表达方式的目标语言检索式。此外,在跨语言信息检索***使用多个检索模块作为检索部分的情况下,该跨语言信息检索***还应包括对这多个检索模块的检索结果进行组合的功能。但是,由于这并不是本发明的特征所在,所以本发明对此没有特别的限定。
接着,在步骤120,向用户呈现根据上述目标语言检索请求检索得到的检索结果。
以上,就是对本实施例的跨语言信息检索方法的描述。从以上描述可知,本实施例根据融合了多个机器翻译***所生成的跨语言检索请求的多个目标语言译文而得到的目标语言检索请求来检索符合条件的目标语言信息,使得跨语言信息检索的精度得到了提高,从而所得到的检索结果也更加准确。
此外,需要说明的是,图1的跨语言信息检索方法及图2的跨语言检索请求的转换方法可与任何现在已知或将来可知的跨语言信息检索***相结合来使用。
在同一发明构思下,图3是示出根据本发明实施例的跨语言信息检索***的方框图。
如图3所示,本实施例的跨语言信息检索***30包括:用户模块31、跨语言检索请求的转换装置32及检索模块33。
其中,用户模块31用于从检索用户处获得源语言的跨语言检索请求以提交给跨语言检索请求的转换装置32,并向检索用户呈现检索模块33所得到的检索结果。在本实施例中,用户输入跨语言检索请求所使用的源语言可以是该跨语言信息检索***30所能够支持的任何语言。此外,在本实施例中,用户模块31还允许检索用户在提交上述跨语言检索请求时选定目标语种,在用户未选择的情况下则使用该跨语言信息检索***所默认的目标语种或其所能够支持的所有语种。
跨语言检索请求的转换装置32用于对从上述用户模块31处获得的跨语言检索请求进行从源语言到目标语言的转换,以获得与该跨语言检索请求对应的目标语言检索请求。
以下,结合图4对该跨语言检索请求的转换装置32进行详细描述。
图4是示出根据本发明实施例的跨语言检索请求的转换装置的方框图。如图4所示,该跨语言检索请求的转换装置32包括多个机器翻译模块321和目标语言检索请求构造模块322。
其中,多个机器翻译模块321用于分别对从上述用户模块31处获得的上述跨语言检索请求进行从源语言到指定目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文。在本实施例中,对于这多个机器翻译模块并没有特别的限制,只要能够实现跨语言检索请求的从源语言到指定目标语言的翻译,本发明可使用任何现在已知或将来可知的机器翻译***来实现。
目标语言检索请求构造模块322用于以上述多个机器翻译模块321所得到的上述跨语言检索请求的多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。
具体地,如图4所示,该目标语言检索请求构造模块322进一步包括译文质量评测模块3221、译文可信度计算模块3222、翻译可信度计算模块3223、检索词列表形成模块3224、权值计算模块3225和检索式生成模块3226。
其中,译文质量评测模块3221用于对上述多个机器翻译模块321的每一个进行译文质量的评测,以得到该机器翻译模块321的译文质量得分。
译文可信度计算模块3222用于利用一个语言模型为上述多个机器翻译模块321的每一个所生成的上述目标语言译文计算可信度。
翻译可信度计算模块3223用于为上述多个机器翻译模块321所得到的上述多个目标语言译文计算翻译可信度。具体地,该翻译可信度计算模块3223对于上述多个机器翻译模块321所得到的上述跨语言检索请求的多个目标语言译文中的每一个,将由译文质量评测模块3221为生成该目标语言译文的机器翻译模块321所评测的译文质量得分与由译文可信度计算模块3222为该目标语言译文所计算的可信度相乘,以得到该目标语言译文的翻译可信度。
检索词列表形成模块3224用于合并上述多个机器翻译模块321所得到的上述跨语言检索请求的多个目标语言译文,以形成检索词列表。具体地,在本实施例中,检索词列表形成模块3224识别出上述各目标语言译文中的对于检索来说有用的检索词,而删除各目标语言译文中的功能词,从而将这些对于检索来说有用的检索词组合在一起构成检索词列表,其中在该检索词列表中对于各检索词记录有关于该检索词出现在哪一目标语言译文中的信息。
权值计算模块3225用于为上述检索词列表形成模块3224所获得的检索词列表中的各检索词计算权值。具体地,在本实施例中,该权值计算模块3225利用上述翻译可信度计算模块3223为上述多个目标语言译文中的每一个计算的翻译可信度,根据上面结合图2所描述的TF-IDF算法来为上述检索词列表中的各检索词计算权值。
检索式生成模块3226根据上述检索词列表形成模块3224所形成的检索词列表及其中各检索词的由上述权值计算模块3225所计算的权值,得到与各检索词对应的<检索词:权值>对,从而将所有检索词的<检索词:权值>对组合在一起构成了目标语言检索式,并作为目标语言检索请求被提交给检索模块33,以作为检索的依据。
以上,就是对本实施例的跨语言检索请求的转换装置的描述。从以上描述可知,本实施例的跨语言检索请求的转换装置首先利用多个机器翻译模块对用户所输入的跨语言检索请求进行从源语言到目标语言的翻译以得到该跨语言检索请求的多个目标语言译文,并为这多个目标语言译文中的每一个计算翻译可信度;然后融合这所有目标语言译文以获得一个带有翻译可信度信息的检索词列表;最后,根据该检索词列表中各检索词的基于翻译可信度的权值来构造与上述跨语言检索请求对应的目标语言检索式。
因而,本实施例的跨语言检索请求的转换装置,由于融合多个机器翻译模块所生成的跨语言检索请求的目标语言译文,所以可以构造出与跨语言检索请求更加相关的检索式。
接着,返回到图3,检索模块33用于根据上述跨语言检索请求的转换装置32所生成的、与从用户模块31处获得的跨语言检索请求对应的目标语言检索请求,从信息源检索满足条件的目标语言文档,以作为针对该跨语言检索请求的检索结果,从而通过用户模块31呈现给检索用户。
以上,就是对本实施例的跨语言信息检索***的描述。从以上描述可知,本实施例的跨语言信息检索***根据融合了多个机器翻译模块所生成的跨语言检索请求的多个目标语言译文而得到的目标语言检索请求来检索符合条件的目标语言信息,其检索的精度得到了提高,从而所得到的检索结果也更加准确。
此外,需要说明的是,上面结合图4描述的跨语言检索请求的转换装置还可与任何现在已知或将来可知的跨语言信息检索***相结合来使用。
本实施例的跨语言信息检索***及其各个组成,可以由专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的跨语言信息检索***,操作上可以实现前面结合图1说明的实施例的跨语言信息检索方法。
以上虽然通过一些示例性的实施例对本发明的跨语言检索请求的转换方法和装置以及跨语言信息检索方法和***进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅以所附权利要求为准。

Claims (12)

1.一种跨语言检索请求的转换方法,包括:
利用多个不同的机器翻译***分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及
以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求;
其中,上述构造目标语言检索请求的步骤进一步包括:
合并上述跨语言检索请求的上述多个目标语言译文,以形成检索词列表;
为上述检索词列表中的各检索词计算权值;以及
根据上述检索词列表及其中各检索词的权值构造与上述跨语言检索请求对应的目标语言检索请求;
为上述检索词列表中的各检索词计算权值的步骤进一步包括:
为上述跨语言检索请求的上述多个目标语言译文中的每一个计算翻译可信度;
将上述跨语言检索请求的上述多个目标语言译文中的每一个的翻译可信度用于计算上述检索词列表中的各检索词的权值;
上述计算翻译可信度的步骤进一步包括:
获得上述多个机器翻译***的每一个的译文质量得分;
利用一个语言模型为上述跨语言检索请求的上述多个目标语言译文中的每一个计算可信度;以及
对于上述跨语言检索请求的上述多个目标语言译文中的每一个,将生成该目标语言译文的机器翻译***的译文质量得分与该目标语言译文的可信度相结合,以得到该目标语言译文的翻译可信度。
2.如权利要求1所述的跨语言检索请求的转换方法,其中将生成该目标语言译文的机器翻译***的译文质量得分与该目标语言译文的可信度相结合的步骤进一步包括:
将生成该目标语言译文的机器翻译***的译文质量得分与该目标语言译文的可信度相乘。
3.如权利要求1所述的跨语言检索请求的转换方法,其中上述多个机器翻译***的每一个的译文质量得分是预先针对该机器翻译***进行译文质量的评测而得到的。
4.如权利要求1-3中任意一项所述的跨语言检索请求的转换方法,其中将上述跨语言检索请求的上述多个目标语言译文中的每一个的翻译可信度用于计算上述检索词列表中的各检索词的权值的步骤进一步包括:
将上述跨语言检索请求的上述多个目标语言译文中的每一个的翻译可信度用于计算上述检索词列表中的各检索词的加权词频。
5.如权利要求1-3中任意一项所述的跨语言检索请求的转换方法,其中将上述跨语言检索请求的上述多个目标语言译文中的每一个的翻译可信度用于计算上述检索词列表中的各检索词的权值的步骤进一步包括:
利用上述跨语言检索请求的上述多个目标语言译文中的每一个的翻译可信度、根据下述算法计算上述检索词列表中的各检索词的权值:
Wq,i=TFq,i*IDFi
其中 IDF i = log D d i , TF q , i = &Sigma; t = 1 N TC t * freq t , i
其中,Wq,i为跨语言检索请求q中的检索词i的权值;TFq,i为检索词i在跨语言检索请求q中的加权词频;IDFi为检索词i的反向文档频率;D为文档总数;di为包含检索词i的文档数;freqt,i为检索词i在跨语言检索请求q的目标语言译文t中出现的次数;TCt为跨语言检索请求q的目标语言译文t的翻译可信度。
6.如权利要求1所述的跨语言检索请求的转换方法,其中上述目标语言检索请求是与上述跨语言检索请求中的各检索词对应的检索词-权值对的集合。
7.如权利要求6所述的跨语言检索请求的转换方法,其中上述检索词-权值对是<检索词:权值>形式的。
8.一种跨语言信息检索方法,包括:
从检索用户处获得跨语言检索请求;
利用权利要求1-7中任意一项所述的跨语言检索请求的转换方法对上述跨语言检索请求进行从源语言到目标语言的转换,以生成与该跨语言检索请求对应的目标语言检索请求;以及
根据上述目标语言检索请求从信息源检索满足条件的目标语言文档。
9.根据权利要求8所述的跨语言信息检索方法,还包括:
向检索用户呈现上述满足条件的目标语言文档。
10.一种跨语言检索请求的转换装置,包括:
多个机器翻译模块,其分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及
目标语言检索请求构造模块,其以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求;
其中上述目标语言检索请求构造模块进一步包括:
检索词列表形成模块,其合并上述跨语言检索请求的上述多个目标语言译文,以形成检索词列表;
权值计算模块,其为上述检索词列表中的各检索词计算权值;以及
检索式生成模块,其根据上述检索词列表形成模块所形成的检索词列表及其中由上述权值计算模块计算出的各检索词的权值,生成与上述跨语言检索请求对应的目标语言检索式;
上述目标语言检索请求构造模块进一步包括:
翻译可信度计算模块,其为上述多个机器翻译模块的每一个所生成的上述跨语言检索请求的目标语言译文计算翻译可信度;
其中,上述权值计算模块将上述翻译可信度计算模块计算的上述多个目标语言译文中的每一个的翻译可信度用于计算上述检索词列表中的各检索词的权值;
上述翻译可信度计算模块进一步包括:
译文质量评测模块,其对上述多个机器翻译模块的每一个进行译文质量的评测,以获得该机器翻译模块的译文质量得分;
译文可信度计算模块,其利用一个语言模型计算上述多个机器翻译模块的每一个所生成的上述跨语言检索请求的目标语言译文的可信度;
其中,上述翻译可信度计算模块对于上述跨语言检索请求的上述多个目标语言译文中的每一个,将由上述译文质量评测模块为生成该目标语言译文的机器翻译模块所评测的译文质量得分与由上述译文可信度计算模块为该目标语言译文所计算的可信度相乘,以得到该目标语言译文的翻译可信度。
11.如权利要求10所述的跨语言检索请求的转换装置,其中上述权值计算模块根据下述算法计算上述检索词列表中的各检索词的权值:
Wq,i=TFq,i*IDFi
其中
IDF i = log D d i , TF q , i = &Sigma; t = 1 N TC t * freq t , i
其中,Wq,i为跨语言检索请求q中的检索词i的权值;TFq,i为检索词i在跨语言检索请求q中的加权词频;IDFi为检索词i的反向文档频率;D为文档总数;di为包含检索词i的文档数;freqt,i为检索词i在跨语言检索请求q的目标语言译文t中出现的次数;TCt为跨语言检索请求q的目标语言译文t的翻译可信度。
12.一种跨语言信息检索***,包括:
用户模块,其从检索用户处获得跨语言检索请求,并向检索用户呈现该跨语言信息检索***的检索结果;
权利要求10或11所述的跨语言检索请求的转换装置,其对上述跨语言检索请求进行从源语言到目标语言的转换,以生成与该跨语言检索请求对应的目标语言检索请求;以及
检索模块,其根据上述目标语言检索请求从信息源检索满足条件的目标语言文档。
CN2007100891171A 2007-03-19 2007-03-19 跨语言检索请求的转换及跨语言信息检索方法和*** Expired - Fee Related CN101271461B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2007100891171A CN101271461B (zh) 2007-03-19 2007-03-19 跨语言检索请求的转换及跨语言信息检索方法和***
US12/036,584 US20080235202A1 (en) 2007-03-19 2008-02-25 Method and system for translation of cross-language query request and cross-language information retrieval
JP2008072462A JP2008234656A (ja) 2007-03-19 2008-03-19 クロスランゲージ質問要求翻訳方法及びシステム並びにクロスランゲージ情報検索

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100891171A CN101271461B (zh) 2007-03-19 2007-03-19 跨语言检索请求的转换及跨语言信息检索方法和***

Publications (2)

Publication Number Publication Date
CN101271461A CN101271461A (zh) 2008-09-24
CN101271461B true CN101271461B (zh) 2011-07-13

Family

ID=39775752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100891171A Expired - Fee Related CN101271461B (zh) 2007-03-19 2007-03-19 跨语言检索请求的转换及跨语言信息检索方法和***

Country Status (3)

Country Link
US (1) US20080235202A1 (zh)
JP (1) JP2008234656A (zh)
CN (1) CN101271461B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
WO2011075610A1 (en) 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
US8756050B1 (en) * 2010-09-14 2014-06-17 Amazon Technologies, Inc. Techniques for translating content
CN102651003B (zh) * 2011-02-28 2014-08-13 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
CN102654867B (zh) * 2011-03-02 2013-12-11 北京百度网讯科技有限公司 一种跨语言搜索中的网页排序方法和***
CN102779135B (zh) * 2011-05-13 2015-07-01 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
EP2724261A4 (en) * 2011-06-24 2015-07-29 Google Inc DETECTION OF INITIAL LANGUAGES FOR SEARCH QUESTIONS
WO2012174738A1 (en) * 2011-06-24 2012-12-27 Google Inc. Evaluating query translations for cross-language query suggestion
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻***
US9684653B1 (en) * 2012-03-06 2017-06-20 Amazon Technologies, Inc. Foreign language translation using product information
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
CN103729386B (zh) * 2012-10-16 2017-08-04 阿里巴巴集团控股有限公司 信息查询***与方法
CN103810159B (zh) * 2012-11-14 2017-03-01 阿里巴巴集团控股有限公司 计算机翻译数据处理方法、***及终端
US8914395B2 (en) * 2013-01-03 2014-12-16 Uptodate, Inc. Database query translation system
US9336197B2 (en) * 2013-01-22 2016-05-10 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
CN104123274B (zh) * 2013-04-26 2018-06-12 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
WO2015054240A1 (en) * 2013-10-07 2015-04-16 President And Fellows Of Harvard College Computer implemented method, computer system and software for reducing errors associated with a situated interaction
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
CN104573019B (zh) * 2015-01-12 2019-04-02 百度在线网络技术(北京)有限公司 信息检索方法和装置
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10102269B2 (en) * 2015-02-27 2018-10-16 Microsoft Technology Licensing, Llc Object query model for analytics data access
US10847175B2 (en) 2015-07-24 2020-11-24 Nuance Communications, Inc. System and method for natural language driven search and discovery in large data sources
US9830384B2 (en) * 2015-10-29 2017-11-28 International Business Machines Corporation Foreign organization name matching
CN106708808B (zh) * 2016-12-14 2020-01-14 东软集团股份有限公司 一种信息挖掘方法及装置
CN106919642B (zh) * 2017-01-13 2021-04-16 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
US10769186B2 (en) * 2017-10-16 2020-09-08 Nuance Communications, Inc. System and method for contextual reasoning
US11372862B2 (en) 2017-10-16 2022-06-28 Nuance Communications, Inc. System and method for intelligent knowledge access
CN108132933A (zh) * 2017-12-28 2018-06-08 中译语通科技(青岛)有限公司 一种跨语言分析报告的生成方法
US10741179B2 (en) * 2018-03-06 2020-08-11 Language Line Services, Inc. Quality control configuration for machine interpretation sessions
US10402909B1 (en) 2018-08-21 2019-09-03 Collective Health, Inc. Machine structured plan description
US10552915B1 (en) * 2018-08-21 2020-02-04 Collective Health, Inc. Machine structured plan description
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
US11481846B2 (en) 2019-05-16 2022-10-25 CollectiveHealth, Inc. Routing claims from automatic adjudication system to user interface
CN110309268B (zh) * 2019-07-12 2021-06-29 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN113076398B (zh) * 2021-03-30 2022-07-29 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN115033594B (zh) * 2022-08-10 2022-11-18 之江实验室 一种给出置信度的垂直领域检索方法与装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1424670A (zh) * 2002-12-25 2003-06-18 上海交通大学 跨语种网页搜索方法
CN1492354A (zh) * 2000-06-02 2004-04-28 钧 顾 多国文字信息搜索方法和多国文字信息搜索引擎***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US7552053B2 (en) * 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492354A (zh) * 2000-06-02 2004-04-28 钧 顾 多国文字信息搜索方法和多国文字信息搜索引擎***
CN1424670A (zh) * 2002-12-25 2003-06-18 上海交通大学 跨语种网页搜索方法

Also Published As

Publication number Publication date
US20080235202A1 (en) 2008-09-25
CN101271461A (zh) 2008-09-24
JP2008234656A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
CN101271461B (zh) 跨语言检索请求的转换及跨语言信息检索方法和***
Dwivedi et al. Research and reviews in question answering system
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
Gracia et al. The apertium bilingual dictionaries on the web of data
US20090125497A1 (en) System and method for multi-lingual information retrieval
US20100094845A1 (en) Contents search apparatus and method
JP2015109068A (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
CN101320366A (zh) 用于机器翻译的装置和方法
CN101520786A (zh) 一种输入法词典的实现方法和输入法***
CN104331449A (zh) 查询语句与网页相似度的确定方法、装置、终端及服务器
Hosseini et al. DeezyMatch: A flexible deep learning approach to fuzzy string matching
Cheng et al. Creating multilingual translation lexicons with regional variations using web corpora
Ye et al. Summarizing definition from Wikipedia
Kim et al. UKP at CrossLink: Anchor Text Translation for Cross-lingual Link Discovery.
CN102117284A (zh) 一种跨语言知识检索的方法
Bakar The development of an integrated corpus for Malay language
Tang et al. Automated Cross-lingual Link Discovery in Wikipedia.
Alaofi et al. Generative Information Retrieval Evaluation
Naseri et al. CEQE to SQET: A study of contextualized embeddings for query expansion
Saad et al. Overview of prior-art cross-lingual information retrieval approaches
Rahimi et al. Building a multi-domain comparable corpus using a learning to rank method
Aceves-Pérez et al. Enhancing cross-language question answering by combining multiple question translations
Hu A study on question answering system using integrated retrieval method
US20060195313A1 (en) Method and system for selecting and conjugating a verb
Tze et al. Fast prototyping of a Malay wordnet system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110713

Termination date: 20140319