CN102053991B

CN102053991B - 用于多语言文档检索的方法及***

Info

Publication number: CN102053991B
Application number: CN200910211383.6A
Authority: CN
Inventors: 包胜华; 陈健; 王栋; 苏中
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2014-07-02
Anticipated expiration: 2029-10-30
Also published as: CN102053991A; US8577882B2; US20110106805A1

Abstract

本发明提供一种用于多语言文档检索的方法及其***。该方法包括：接收用户基于至少一种语言的检索请求；根据所述检索请求检索所述至少一种语言的相关文档；以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档。本发明可以克服现有跨语言检索技术中由于翻译缺陷带来的无法检索或漏检等缺陷的情况。

Description

用于多语言文档检索的方法及***

技术领域

本发明总体上涉及信息处理技术领域，特别地，涉及一种用于多语言文档检索的方法及***

背景技术

随着互联网的普及，现在世界变得越来越扁平，信息交流也变得越来越频繁和迅速，信息量也变得愈来愈多。对于同一件事情或事物，会同时出现大量不同角度、不同语言的相互关联的报道、评论或者描述。而用户往往只是精通一种语言，如何利用用户的一种语言的检索请求方便地找到用户所关心的多语言文档，是目前用户所希望得到的帮助。

目前现有检索技术的普遍做法是根据用户所输入的检索请求，通过机器将用户的检索请求通过机器翻译成对应的其它语言的检索请求，然后根据翻译后的其它语言的检索请求而在对应语言的文档中进行检索，从而检索到相关的文档。但这种技术存在很多缺陷。传统的机器翻译基于统计学习，由计算机程序将文字或演说从从一种自然语言翻译成另一种自然语言。目前的一些翻译机器基于现有的词汇对应和一些语法结构，能够进行一定程度的翻译。但是，机器翻译的结果好坏，往往取决于输入输出两种语言在词汇、文法结构、语系甚至文化上的差异。例如英语与荷兰语同为印欧语系，这两种语言间的机器翻译结果，通常便会比中文与英文间机器对译的结果要好很多。此外，由于网络的快速发展，带来了大量的新词，这也给机器翻译带来了挑战。总的说来，机器翻译还没有达到可以取代专业(人工)翻译的程度，并且也尚无法成为正式的翻译，所得到的翻译结果往往不准确。而且由于用户的检索请求往往具有个性化，给准确翻译带来更大的困难。如果翻译的检索请求不准确，则无法为用户检索到用户需要关心的相关文档，而是为用户检索到大量不相关的文档，这样无疑会增加用户的阅读、翻译等负担，而且也无法检索到用户感兴趣的文档。使得用户的体验非常差。

因此需要一种多语言文档的检索方法以及***，以克服现有技术中的一个或多个缺陷。

发明内容

本发明一方面提供一种用于多语言文档检索的方法，包括：接收用户基于至少一种语言的检索请求；根据所述检索请求检索所述至少一种语言的相关文档；以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档。

本发明另一方面提供一种用于多语言文档检索的***，包括：接收装置，被配置用于接收用户基于至少一种语言的检索请求；检索装置，被配置用于根据所述检索请求检索所述至少一种语言的相关文档，以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档。

本发明提供以图像相似性为桥梁的多语言文档的检索方法及***，从而适于克服现有跨语言检索技术中由于翻译缺陷带来的无法检索或漏检的情况。

附图说明

为了对本发明实施例的特征和优点进行详细说明，将参照以下附图。如果可能的话，在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中：

图1示出了本发明的一个检索结果示意图；

图2示出了本发明用于多语言文档检索的方法的一个实施方式；

图3a、3b示出了本发明用于检索其它语言的相关文档的流程示意图；

图4示出了本发明用于多语言文档检索的另一个实施方法；

图5示意性示出了采用本发明的检索结果的呈现；

图6示出了本发明的多语言检索***的框图。

具体实施方式

现在将参考本发明的示例性实施例进行详细的描述，在附图中图解说明了所述实施例的示例，其中相同的参考数字始终指示相同的元件。应当理解，本发明并不限于所公开的示例实施例。还应当理解，并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外，在整个公开中，当显示或描述处理或方法时，方法的步骤可以以任何顺序或者同时执行，除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外，步骤之间可以有显著的时间间隔。

鉴于现有技术存在相应的缺陷，本申请的发明人通过大量的实践以及统计发现，现行使用较多的各种语言的绝大多数文档，都具有相应的图像。而且在文档中都会有与图像相关的描述、介绍或者评论等。比如图1中的101示意性地示出了根据用户用英文输入的搜索请求而得到的某搜索引擎的文本检索缩略，而103则示出了与排名靠前的搜索结果1、2对应文档中的图像。如果基于103所示的图像去对比其它语言的文档中的图像，则可以间接地将任何语言的具有相似的图像的相关文档检索出来。从而可以克服现有多语言文档检索的缺陷。在多语言文档中的上述图像与文字的关联性在来自新闻报道、专业网站(比如旅游、购物等)等制作较专业的互联网网站的多语言文档中显得尤为突出，比如对政治人物、突发事件的报道。另外来自杂志、报纸等多语言文档也真实地反映了这种关联性。再比如制作较好的演讲稿PPT。因此一种语言的文档中的文字与图像的关联性是普遍的。本申请发明人基于这种关联性另辟蹊径地构思了本发明。

图2示出了本发明的第一实施方式。在步骤201中，接收用户基于至少一种语言的检索请求。一般而言，用户会基于其熟悉的语言(比如母语)在检索工具中输入检索请求，比如用户所关心的主题的关键词等。但如果用户不只熟悉一种语言，也可以允许其输入多种语言的检索请求，这可以通过提供多个检索输入接口来实现。在步骤203中，根据所述检索请求检索所述至少一种语言的相关文档。由于用户是用其熟悉的语言输入的检索请求，因此可以认为该检索请求是比较准确的，则可以基于用户的检索请求在用户使用的语言的文档中进行检索。这可以借助现有的搜索引擎比如***，***等的搜索技术来实现。在步骤205中，基于检索到的所述至少一种语言的相关文档的图像与除所述一种语言的至少一种其它语言的文档的图像的相似性，检索所述其它语言的相关文档。判断图像的相似性可以有多种算法。比如本领域技术人员对于具有直方图特征的图像可以采用基于直方图的概率分布相似性(包括直方图交(HistogramIntersection)，卡方相似性(Chi Square))等进行度量，而对于矩特征以及其他类型的图像特征可以采用特征空间的欧氏距离(Euclidean distance)、马氏距离(Mahalanobis Distance)等度量。更进一步的，还可以对局部特征采用基于聚类之后的汉明距离(Hamming Distance)导出的相似性。值得注意的是，采用何种具体的相似性算法不对本发明的保护范围造成限定，本领域技术人员根据具体需要可以选择现有或者将来合适的具体算法。而根据计算出来的图像的相似性，通过设定相关的阈值就可以判断应该选择哪些其它语言的文档的图像与用户初步检索到的文档中的图像相似，并将与所述至少一种语言的文档的图像的相似性高于阈值的其它语言的文档的图像判断为相似度高，而确定该其它语言的文档的图像为相似图像。阈值的设定可以交由技术人员在后台进行选择或者自动设定，比如依照用户需要返回的文档数目设定所需选择的图像数目。进而由这些相似的图像获得这些相似图像对应的文档。采用这种方式，用户就可以基于其熟悉的语言输入检索请求而获得多语言的相关文档。

作为优选，可以对获得的多语言的文档进行主要文本抽取和主要图像抽取，分别建立文本集和图像集。目前有多种基于规则或者基于学习的现有方法可以抽取主要文本和主要图像，由于具体的抽取方法并不对本发明的保护范围构成限制，在此不再赘述，。对于传统媒体形成的多语言文档，则可以借助现有的光学字符识别技术(OCR)以及现有的版面分析技术抽取主要文本和主要图像。具体以多语言的互联网新闻网页为例，可以采用网页中最大文本块或图像块作为主要文本和主要图像，比如可以首先抽取新闻网页的主要文本及其对应的主要图像，并提取主要文本的标题，专有名词以及主要图像的环绕文本(包括图释，以及图像周围的若干文本)，其次对主要图像提取若干底层特征，包括颜色、纹理、边缘以及局部特征，根据这些特征构造分类器，以判断主要图像是否是广告图像。如果是则过滤该广告图像。如果新闻网页中提到了特定人名，则对过滤留下的主要图像运行人脸检测方法，获得人脸的位置并进行配准。利用配准后的图像可以基于人脸相似性进行聚类。具体方法可以参考Turk，M.，Pentland，A.Facerecognition using eigenfaces，Proc.CVPR，1991，pp 586-591，其思想是首先通过统计大量样本，获得潜在的若干正交的特征维度，并通过将新的人脸向此特征空间中投影，获得新的特征向量，并在此空间中计算欧氏距离获得。或者参考Laurence C.Lambert在专利Autonomous face recognitionmachine中描述的方法。依据以上步骤，可以判断主要图像是否含有该特定人的人脸。抽取完多语言文档的文本和图像后建立文本集和图像集，可以通过文本与图像原来属于同一文档的关系建立文本集与图像集中各文本与各图像之间的映射关系，这样已经建立了文本和图像的双向映射。这里建立文本集和图像集属于本发明的优选实施方式。其实还可以仍然将文本和图像合在一个文档中，按照下述的方法对文本或者图像分别建立检索索引以方便后续的检索。

基于上述文本集和图像集，图3a、b示出了检索所述其它语言的相关文档的优选实施方式。其中在步骤301中，根据所述一种语言的相关文档的图像在所述图像集中比较所述其它语言的文档的图像，将与所述一种语言的相关文档的图像相似度高的所述其它语言的文档的图像确定为所述其它语言的相关文档的图像。基于以上介绍的相似性比较以及设定的预定阈值，就可以在图像集中找到相似的图像，甚至相同的图像。可以通过提取图像的局部特征进行图像的相似性比较。提取局部特征就是以图像某个小块为对象来提取特征，使得在不同角度的照片拍摄情况下，即使物体大小/角度在所拍摄的照片中有所变化，也能够稳定的提取相似位置和尺度的小块。作为优选，可以提取所述图像集的图像的局部特征例如SIFT(D.Lowe.Distinctive image features from scale-invariant keypoints.IJCV，60(2)：91-110，2004)或者SURF(Herbert Bay，Tinne Tuytelaars and Luc VanGool.SURF：Speeded Up Robust Features，ECCV 2006)特征等，对上述局部特征进行量化以建立倒查索引表以加快图像比对的效率。其中对局部特征的量化可以采用比如k-Means算法，层次化k-Means算法，或者格点方法(T.Tuytelaars and C.Schmid.Vector quantizing feature space with a regularlattice.In Proc.ICCV，2007)等。

按照对图像采取的特征的不同，现有建立索引的方法有多种，比如可以采用基于局部特征的倒查索引(类似文本的处理方式)，这种方式可以参考Philbin，J.，Chum，O.，Isard，M.，Sivic，J.and Zisserman，A.Lost inQuantization：Improving Particular Object Retrieval in Large Scale ImageDatabases Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(2008)，另外还可以基于图像的全局特征(比如颜色、纹理及边缘特征等)的近似近邻查找(Approximate Nearest Neighbors)而建立近似近邻索引表，这种方法的实现方式可以参考公开的ANN源码(www.cs.umd.edu/～mount/ANN/)等。对于图像的全局特征的提取方法可以参考Open Source Computer Vision Library(opencvwww.opencv.org.cn/)中关于颜色纹理和边缘的实现等。OpenCV是Intel开发的具有BSD协议的可以在商业和研究中运用的开放源码的视觉处理库。

对于文本集，则可以采用现代搜索引擎比如***，***等建立文本索引表的方法进行，在此不再赘述。

图3b则示出了基于所建立的所述索引表进行相似图像检索的优先实施方式。其中在步骤301a中，根据上述倒查索引表以及近似近邻索引表至少之一判断所述其它语言的文档的图像与所述一种语言的相关文档的图像是否为相似图像以建立相似图像的候选集合，其中根据相似性的阈值，返回排名靠前的若干图像(例如100张)，以建立相似图像的可能候选集合。在步骤301b中，在所述候选集合中检查所述其它语言的文档的图像和所述一种语言的相关文档的图像的局部特征的几何变换是否相容以获得相似图像的初步集合。其中计算图像的局部特征的几何变换可以参考J.Philbin，O.Chum，M.Isard，J.Sivic，and A.Zisserman.Object retrievalwith large vocabularies and fast spatial matching.In Proc.CVPR，2007。设定几何变换的相容性的阈值，拒绝不相容的图像，可以缩小可能候选集合获得较为精准的相似图像的初步集合。

以及在步骤301c中，对所述初步集合进行扩展以获得多语言的相似图像集合，并以该相似图像集合作为所述相关图像。由于此初步集合可能漏掉了许多实际相似但因为局部形变过大无法匹配的图像，可以对相似集合的初步集合在图像库中进行检索扩展，以获取更多相似图像。检索扩展是文本和图像检索中的通用做法，具体步骤为将初步集合中的每个图像当做检索示例，去图像库中重复上述301a、301b和301c的查找步骤，以获得额外的相似图像。这个过程可以进行1-2次的迭代。

采用上述优选实施方式的好处在于可以更好地获得更完备的相似图像集合而不会过多遗漏相似的图像，也不会过多地包括不相关的图像。

而在步骤303中，则根据所述其它语言的相关文档的图像以及所述文本集与所述图像集之间的映射关系确定所述其它语言的相关文档。其中优选地可以根据上述文本集与图像集的映射关系，得到所述相似图像集合在文本集中对应的相似文本集合，则所述相似图像集合以及对应的相似文本集合就构成了所述的相关文档。

图4则以互联网上的多语言文档为例示出了本发明另一个优选实施方式。当然，对其它类型的文档，本领域技术人员将建立文档集的相关步骤稍加改造，该实施方式同样适用。其中在步骤401、403中，利用一个网络自动程序(爬虫Crawlers)来进行多语言文档的采集以形成多文档集。一个爬虫的工作流程通常包含有以下部分：

1.制定种子网址和下载策略。其中种子网址可以由用户确定，比如将其所关心的主要网站作为种子网址，或者根据相关网站排名自动设定。下载策略可以对即将下载的网页进行数目，特征等约束；

2.循环下载种子网页，并保存到指定位置，然后解析新下载的网页，得到符合要求的新网址加入到种子网址中；

3.直到所有的种子网页被下载完成。

采用何种网络爬虫技术对本发明的保护范围并不构成限制，本领域技术人员可以根据实际的需要进行选择。现有的爬虫下载器比如开源下载器的实现还有wget(http://www.gnu.org/software/wget/)，nutch(http://lucene.apache.org/nutch/)等。本领域技术人员也可以根据实际需要自行设计相关爬虫以抓取指定网站的新闻信息。

步骤405、407、409、411则用于形成文本集和图像集以及二者之间的映射关系。其中，在步骤405中，基于利用爬虫获得的多语言文档集，利用上述的抽取方法，进行主要文本及其图像的抽取，从而在步骤407、409中建立起文本集以及图像集。优选地，对文本集中的文本添加语言类型标记，也可以对图像集中的图像添加语言类型标记。并在步骤411中建立起所述文本集以及图像集的映射关系。值得注意的是，虽然将形成文本集和图像集以及二者之间的映射关系分为多个步骤，但是各个步骤可以同时、交叉或者先后进行。本领域技术人员可以采用任何合适的方式建立所述映射关系。作为优选，可以在抓取到网页的时候，给网页指定一个唯一的main_id。把从这个网页中提取的文本存入文本集中，并赋予这个id号(text_id＝main_id)，把从这个网页中提取的图像存入图像集中，并赋予这个图像id号(image_id＝main_id)。由于一个网页可能包含多张图像，单独的一个main_id无法区分，所以image_id还必须在main_id的基础上增加一个sub_id，sub_id表示图像在这个网页中的编号。也即是(image_id＝main_id.sub_id)。这样一旦知道text_id或者image_id，那么就可以直接将文本以及对应的图像匹配上。除了上面这种实现之外，给图像和文本单独指定一个编号，然后采用任何一种查找表都可以用来建立文本集-图像集的映射关系，比如hash表等。作为优选，还可以对文本集和图像集分别建立索引表以提高检索效率。其中可以按照前面所述的方法对图像集建立索引表。而对于文本集，则可以采用现有搜索引擎的方法来建立索引表。索引是现有搜索引擎的核心，建立索引的过程就是把源数据处理成非常方便检索的索引文件的过程。目前常见的方法是一种称为倒查索引(反向索引)的机制。倒查索引就是维护了一个词/短语表，对于这个表中的每个词/短语，都有一个链表描述了有哪些文档包含了这个词/短语。这样在用户输入检索条件的时候，就能非常快的得到搜索结果。对文本集建立好索引后，就可以在这些索引上面进行搜索了。搜索引擎首先会对搜索的关键词进行解析，然后再在建立好的索引上面进行查找，最终返回和用户输入的关键词相关联的文本。目前较为著名的文本检索开源工具有lucene等。现有的搜索引擎有名的比如***，***等。

步骤413、415、417、419和421则用于为用户检索多语言文档中的相关文档。其中，在步骤413中，接收用户基于语言L0输入的检索请求，在步骤415中基于所述文本集的索引表，对文本集语言L0的文本进行检索，从而得到与检索请求相关的语言L0的相关文本。在步骤417中根据所得到语言L0的相关文本以及文本集与图像集的映射关系，确定所述语言L0的相关文本对应的相关图像。在步骤419中，则根据上面介绍的图像相似的任一比较方法，按照图像索引表在图像集中检索相似的图像，并且对获得相似图像集合按照图3b所介绍的方法进行优化扩展从而得到比较相关的相似图像集合。图1中的105就示出了相关的相似图像集合(值得注意的是，这些图像有些似乎不相似，但实质只是进行了一些图像的简单拉伸、压缩或者裁剪，实质是非常相似的)。为提高效率，优选地，可以根据图像的语言种类的标记只比对除语言L0以外的其它语言文档的图像。对在步骤421中，则基于相似图像集合根据文本集与图像集的映射关系进行结合，从而获得了多语言文档的相关文档。值得注意的是，相似图像集合可以包括语言L0的相关图像，如果不包括，则在形成多语言文档的相关文档时将相似图像集合与语言L0的相关图像都合并到一个集合中，或者是先对应相关文本，然后合并所有的相关文本以形成多语言文档的相关文档的集合。另外也可以让用户选择再增加检索哪几种其它语言的文档，比如用户使用中文输入检索请求，其可以只再检索英文的文档或者其它更多语言，从而可以提供检索效率和增加用户体验。

上面虽然只是以用户以一种语言L0输入检索请求为例，但用户如果熟悉多种语言，也可以用其它语言输入更多的检索请求，上面的实施方式只需要将不同语言的检索结果合并即可，其它步骤只需适应性地改造即可实现本发明。

可以将上述获得的多语言文档的相关文档集合呈现给用户。作为优选，还可以如步骤423所示，将多语言文档的相关文档集合进行主题聚类，而后在步骤425将聚类后的文档按特定主题推荐给用户。对于主题聚类的实现方法可以有多种，比如可以采用“先聚类，后合并”的多语言文本聚类策略，本策略先进行单一语言文本聚类，再将单一语言文本聚类结果进行合并，从而得到多语言文本类簇。其中单一语言文本聚类，即为普通的文本聚类，先计算文本中每个词的词频信息(TFIDF)，再用向量空间模型把文本表示成一个向量，最后采用聚类算法对其进行聚类，对每种语言进行单一语言文本聚类之后，再将各种语言各类簇进行合并，合并策略采用各类簇中关键词汇之间的跨语言匹配。而关于其它的多语言文本聚类方法，请参考：多语言文本聚类研究综述[J]，现代图书情报技术，2009(6)：31-36。

图5示意性地示出了经聚类后呈现给用户的文档。其中图5示出对于竹子相关事件的检索，对多语言的文档按照主题浏览，其中Doc1，Doc3和原来的英文搜索结果1被归到主题“中国竹子”，Doc4和原来的英文搜索结果2被分到主题“与公司相关事件”，Doc2和原先的主题均无关联，被分到其它主题。方便用户按照主题浏览。另外对于新闻中有关人物的多语言报告的检索，本发明的相关测试例显示出非常良好的效果。鉴于可能涉及他人肖像权的问题，在此就不具体示出。以上示例显示了本发明的技术方案取得了突出的显著性技术效果。

本发明另一方面还提供一种多语言文档检索***。该多语言文档检索***600包括接收装置601，接收装置601被配置用于接收用户基于至少一种语言的检索请求。该***还包括检索装置603，其被配置用于根据所述检索请求检索所述至少一种语言的相关文档，以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档。

优选地，所述***进一步包括用于建立多语言文档的文本集和图像集的装置；以及用于确定所述文本集与所述图像集之间的映射关系的装置。

优选地其中所述根据所述检索请求检索所述至少一种语言的相关文档包括在所述文本集中检索所述至少一种语言的相关文档。

优选地，其中所述根据所述检索请求检索所述至少一种语言的相关文档还包括基于所述文本集与所述图像集之间的映射关系在所述图像集中确定所述至少一种语言的相关文档的图像。

优选地，其中所述检索装置601包括：用于根据所述至少一种语言的相关文档的图像在所述图像集中比较所述至少一种其它语言的文档的图像，将与所述至少一种语言的相关文档的图像相似度高的所述至少一种其它语言的文档的图像确定为所述至少一种其它语言的相关文档的图像的装置；以及用于根据所述至少一种其它语言的相关文档的图像以及所述文本集与所述图像集之间的映射关系确定所述至少一种其它语言的相关文档的装置。

优选地，其中所述图像为各个多语言文档的主要图像。

优选地，所述***600进一步包括以下装置的至少之一：用于提取所述图像集的图像的局部特征，以及对所述局部特征进行量化以建立倒查索引表的装置；或者用于提取所述图像集的图像的全局特征中，以及根据所述全局特征建立近似近邻索引表的装置。

优选地，其中所述用于根据所述至少一种语言的相关文档的图像在所述图像集中比较所述至少一种其它语言的文档的图像，将与所述至少一种语言的相关文档的图像相似度高的所述至少一种其它语言的文档的图像确定为相关图像的装置包括用于根据所述倒查索引表和近似近邻索引表至少之一判断所述至少一种其它语言的文档的图像与所述至少一种语言的相关文档的图像是否为相似图像以建立相似图像的候选集合的装置；以及用于在所述候选集合中检查所述至少一种其它语言的文档的图像和所述至少一种语言的相关文档的图像的局部点几何变换是否相容以获得相似图像的初步集合的装置；以及用于对所述初步集合进行扩展以确定最终的相似图像集合的装置。

优选地，其中上述用于建立多语言文档的文本集和图像集的装置包括：用于通过爬虫建立多语言文档集605的装置；以及用于从所述多语言文档集中抽取主要文本和主要图像以建立所述文本集和所述图像集的装置。

优选地，其中进一步包括用于将检索到的所述至少一种语言的相关文档以及所述至少一种其它语言的相关文档进行主题聚类以呈现给用户的装置。

本发明的相关实施方式以图像相似性为桥梁进行多语言文档的检索，克服了现有跨语言检索***由于翻译缺陷带来的无法检索或漏检的情况。

另外，根据本发明的用于多文档检索的方法还可以通过计算机程序产品来实施，该计算机程序产品包括用于当在计算机上运行所述计算机程序产品时执行以实施本发明的仿真方法的软件代码部分。

还可以通过在计算机可读记录介质中记录一计算机程序来实施本发明，该计算机程序包括用于当在计算机上运行所述计算机程序时执行以实施根据本发明的仿真方法的软件代码部分。即，根据本发明的仿真方法的过程能够以计算机可读介质中的指令的形式和各种其它形式分发，而不管实际用来执行分发的信号承载介质的特定类型。计算机可读介质的例子包括诸如EPROM、ROM、磁带、纸、软盘、硬盘驱动器、RAM和CD-ROM的介质以及诸如数字和模拟通信链路的传输型介质。

尽管参考本发明的优选实施例具体展示和描述了本发明，但是本领域一般技术人员应该明白，在不脱离所附权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种修改。

Claims

1.一种用于多语言文档检索的方法，包括：

接收用户基于至少一种语言的检索请求；

根据所述检索请求检索所述至少一种语言的相关文档；以及

基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档。

2.一种如权利要求1所述的方法，进一步包括：

建立多语言文档的文本集和图像集；以及

确定所述文本集与所述图像集之间的映射关系。

3.一种如权利要求2所述的方法，其中所述根据所述检索请求检索所述至少一种语言的相关文档包括在所述文本集中检索所述至少一种语言的相关文档。

4.一种如权利要求3所述的方法，其中所述根据所述检索请求检索所述至少一种语言的相关文档还包括基于所述文本集与所述图像集之间的映射关系在所述图像集中确定所述至少一种语言的相关文档的图像。

5.一种如权利要求2-4任一项所述的方法，其中所述基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档包括：

根据所述至少一种语言的相关文档的图像在所述图像集中比较所述至少一种其它语言的文档的图像，将与所述至少一种语言的相关文档的图像相似度高的所述至少一种其它语言的文档的图像确定为相关图像；以及

根据所述相关图像以及所述文本集与所述图像集之间的映射关系确定所述至少一种其它语言的相关文档。

6.一种如权利要求5所述的方法，其中进一步包括以下至少之一：

提取所述图像集的图像的局部特征，以及对所述局部特征进行量化以建立倒查索引表；或者

提取所述图像集的图像的全局特征，以及根据所述全局特征建立近似近邻索引表。

7.一种如权利要求6所述的方法，其中所述根据所述至少一种语言的相关文档的图像在所述图像集中比较所述至少一种其它语言的文档的图像，将与所述至少一种语言的相关文档的图像相似度高的所述至少一种其它语言的文档的图像确定为相关图像包括：

根据所述倒查索引表和近似近邻索引表至少之一判断所述至少一种其它语言的文档的图像与所述至少一种语言的相关文档的图像是否为相似图像以建立相似图像的候选集合；

在所述候选集合中检查所述至少一种其它语言的文档的图像和所述至少一种语言的相关文档的图像的局部点几何变换是否相容以获得相似图像的初步集合；以及

对所述初步集合进行扩展以确定最终的相似图像集合，并以该相似图像集合作为所述相关图像。

8.一种如权利要求2所述的方法，其中所述建立多语言文档的文本集和图像集包括：

通过网络自动程序采集多语言文档以建立多语言文档集；

从所述多语言文档集中抽取主要文本和主要图像以建立所述文本集和所述图像集。

9.一种如权利要求1-4任一项所述的方法，其中所述图像为各个多语言文档的主要图像。

10.一种如权利要求1所述的方法，进一步包括将检索到的所述至少一种语言的相关文档以及所述至少一种其它语言的相关文档进行主题聚类以呈现给用户。

11.一种用于多语言文档检索的***，包括：

接收装置，被配置用于接收用户基于至少一种语言的检索请求；

检索装置，被配置用于根据所述检索请求检索所述至少一种语言的相关文档，以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性，检索所述至少一种其它语言的相关文档。

12.一种如权利要求11所述的***，进一步包括：

用于建立多语言文档的文本集和图像集的装置；以及

用于确定所述文本集与所述图像集之间的映射关系的装置。

13.一种如权利要求12所述的***，其中所述根据所述检索请求检索所述至少一种语言的相关文档包括在所述文本集中检索所述至少一种语言的相关文档。

14.一种如权利要求13所述的***，其中所述根据所述检索请求检索所述至少一种语言的相关文档还包括基于所述文本集与所述图像集之间的映射关系在所述图像集中确定所述至少一种语言的相关文档的图像。

15.一种如权利要求12-14任一项所述的***，其中所述检索装置包括：

用于根据所述至少一种语言的相关文档的图像在所述图像集中比较所述至少一种其它语言的文档的图像，将与所述至少一种语言的相关文档的图像相似度高的所述至少一种其它语言的文档的图像确定为相关图像的装置；以及

用于根据所述相关图像以及所述文本集与所述图像集之间的映射关系确定所述至少一种其它语言的相关文档的装置。

16.一种如权利要求15所述的***，其中所述***进一步包括以下装置的至少之一：

用于提取所述图像集的图像的局部特征，以及对所述局部特征进行量化以建立倒查索引表的装置；或者

用于提取所述图像集的图像的全局特征，以及根据所述全局特征建立近似近邻索引表的装置。

17.一种如权利要求16所述的***，其中所述用于根据所述至少一种语言的相关文档的图像在所述图像集中比较所述至少一种其它语言的文档的图像，将与所述至少一种语言的相关文档的图像相似度高的所述至少一种其它语言的文档的图像确定为相关图像的装置包括：

用于根据所述倒查索引表和近似近邻索引表至少之一判断所述至少一种其它语言的文档的图像与所述至少一种语言的相关文档的图像是否为相似图像以建立相似图像的候选集合的装置；

用于在所述候选集合中检查所述至少一种其它语言的文档的图像和所述至少一种语言的相关文档的图像的局部点几何变换是否相容以获得相似图像的初步集合的装置；以及

用于对所述初步集合进行扩展以确定最终的相似图像集合，并以该相似图像集合作为所述相关图像的装置。

18.一种如权利要求12所述的***，其中所述用于建立多语言文档的文本集和图像集的装置包括：

用于通过网络自动程序采集多语言文档以建立多语言文档集的装置；

用于从所述多语言文档集中抽取主要文本和主要图像以建立所述文本集和所述图像集的装置。

19.一种如权利要求11-14任一项所述的***，其中所述图像为各个多语言文档的主要图像。

20.一种如权利要求11所述的***，进一步包括用于将检索到的所述至少一种语言的相关文档以及所述至少一种其它语言的相关文档进行主题聚类以呈现给用户的装置。