WO2012116561A1

WO2012116561A1 - 一种跨语言搜索中的网页排序方法和***

Info

Publication number: WO2012116561A1
Application number: PCT/CN2011/083411
Authority: WO
Inventors: 吴华; 王海峰
Original assignee: 北京百度网讯科技有限公司
Priority date: 2011-03-02
Filing date: 2011-12-03
Publication date: 2012-09-07
Also published as: CN102654867A; CN102654867B

Description

一种跨语言搜索中的网页排序方法和*** 本申请要求了申请日为 201 1年 03月 02日，申请号为 2011 10049883.1 , 发明名称为"一种跨语言搜索中的网页排序方法和***"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及互联网领域，特别涉及一种跨语言搜索中的网页排序方法及***。背景技术

随着网络搜索技术的不断发展，为克服用户的语言障碍，跨语言搜索技术应运而生。在跨语言搜索（比如用中文搜索英文网页）时，首先，输入中文的搜索请求，并将中文的搜索请求翻译成英文的搜索请求，再利用英文的搜索请求搜索英文网页。然后，将搜索到的英文网页的内容翻译成中文呈现给读者。在搜索结果呈现的过程中，一般需要进行排序。在现有的跨语言搜索技术，主要通过英文的搜索请求与英文网页的相关度来进行排序。然而，由于跨语言搜索进行了翻译过程，因此可能导致翻译质量较差的结果排在前面，导致用户体验不佳。发明内容

有鉴于此，本发明所要解决的技术问题是提供一种跨语言搜索中的网页排序方法及***，以提高用户体验。本发明为解决技术问题而采用的技术方案是：提供一种跨语言搜索中的网页排序方法，所述跨语言搜索中的网页排序方法包括：

a. 获取第一语言搜索请求；

b. 将所述第一语言搜索请求翻译成第二语言搜索请求；

c 利用所述第二语言搜索请求搜索得到多个第二语言网页；

d. 将所述多个第二语言网页翻译成多个第一语言网页；

e. 根据所述多个第二语言网页的翻译置信度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，在所述步骤 e中，在排序后的所述多个第一语言网页中，所述翻译置信度越高的所述第一语言网页的位置越靠前。

根据本发明之一优选实施例，所述步骤 e包括：

el l . 利用语言模型计算所述第二语言网页的翻译困惑度；

el2. 根据第一语言网页所对应第二语言网页的所述翻译困惑度对所述多个第一语言网页进行排序；

其中所述语言模型是利用翻译所述第二语言网页时使用的双语语料库中的源语言语料生成的。

根据本发明之一优选实施例，在所述步骤 el l 中，通过以下公式计算所述翻译困惑度：

I

Ρ = 2

其中， Ρ为所述翻译困惑度， X,·为所述第二语言网页中的第 ζ个句子，

\ < ι≤Ι , /为所述第二语言网页中的句子数量，为通过所述语言模型计算获得的的出现概率。根据本发明之一优选实施例，所述语言模型为 n-gram语言模型。根据本发明之一优选实施例，所述步骤 e包括：

e21. 统计所述第二语言网页在翻译过程中的调序次数；

e22. 根据第一语言网页所对应第二语言网页的所述调序次数对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述步骤 e包括：

e31. 分别计算各第二语言网页与利用翻译所述第二语言网页时使用的双语语料库中的源语言语料进行聚类得到的多个文档的最大相似度; e32. 根据第一语言网页所对应第二语言网页的所述最大相似度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，在步骤 e31 中，从所述多个文档中获取多个主题，并计算每一所述文档属于每一所述主题的概率，以形成多个第一向量；计算所述第二语言网页属于每一所述主题的概率，以形成第二向量，计算所述多个第一向量与所述第二向量的相似度，并选择所述相似度中最大的作为所述最大相似度。

根据本发明之一优选实施例，在步骤 e31 中，根据如下公式计算所述最大相似度： i

其中， H为所述最大相似度，为第 "个主题， \ < n≤N , N为所述主题的数量， ^为第 M个文档， \ < m≤M， M为所述文档的数量， W J 为 ^d _m属于的概率，为所述第二语言网页， ρ( „ | ）为 ^d _s属于的概率。根据本发明之一优选实施例，所述步骤 e包括：

e41. 统计所述第二语言网页在翻译过程中包含的未登录词的个数； e42. 根据第一语言网页所对应第二语言网页的所述未登录词的个数对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述步骤 e包括：

e51. 计算所述第二语言网页所包含句子在翻译过程中的平均翻译评分；

e52. 根据第一语言网页所对应第二语言网页的所述平均翻译评分对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述步骤 e包括：

e61. 统计所述第二语言网页在翻译过程中的翻译规则使用次数； e62. 根据第一语言网页所对应第二语言网页的所述翻译规则使用次数对所述多个第一语言网页进行排序。

本发明为解决技术问题而采用的技术方案是：提供一种跨语言搜索中的网页排序***，所述跨语言搜索中的网页排序***包括：

搜索请求获取单元，用于获取第一语言搜索请求；

第一翻译单元，用于将所述第一语言搜索请求翻译成第二语言搜索请求；

搜索单元，用于利用所述第二语言搜索请求搜索得到多个第二语言网页；

第二翻译单元，用于将所述多个第二语言网页翻译成多个第一语言网页；

排序单元，用于根据所述多个第二语言网页的翻译置信度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，在经所述排序单元排序后的所述多个第一语言网页中，所述翻译置信度越高的所述第一语言网页的位置越靠前。

根据本发明之一优选实施例，所述排序单元包括：

源语言语料获取模块，用于获取翻译所述第二语言网页时使用的双语语料库中的源语言语料；

语言模型生成模块，用于利用所述源语言语料生成语言模型；困惑度计算模块，用于利用所述语言模型计算所述第二语言网页的翻译困惑度；

第一排序模块，用于根据第一语言网页所对应第二语言网页的所述翻译困惑度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述困惑度计算模块通过以下公式计算所述翻译困惑度：

1

Ρ = 2 '：¹

其中， Ρ为所述翻译困惑度， X,·为所述第二语言网页中的第 ζ·个句子，

\ < ι≤Ι , /为所述第二语言网页中的句子数量，为通过所述语言模型计算获得的 X,·的出现概率。

根据本发明之一优选实施例，所述语言模型为 n-gram语言模型。根据本发明之一优选实施例，所述排序单元包括：

调序次数统计模块，用于统计所述第二语言网页在翻译过程中的调序次数；

第二排序模块，用于根据第一语言网页所对应第二语言网页的所述调序次数对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述排序单元包括：

聚类模块，用于将所述源语言语料聚类成多个文档；

相似度计算模块，用于计算所述第二语言网页与所述多个文档的最大相似度；

第三排序模块，用于根据第一语言网页所对应第二语言网页的所述最大相似度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述聚类模块从所述多个文档中获取多个主题，并计算每一所述文档属于每一所述主题的概率，以形成多个第一向量，所述相似度计算模块计算所述第二语言网页属于每一所述主题的概率，以形成第二向量，计算所述多个第一向量与所述第二向量的相似度，并选择所述相似度中最大的作为所述最大相似度。

根据本发明之一优选实施例，所述相似度计算模块根据如下公式计算所述最大相似度：

其中， H为所述最大相似度，为第 "个主题， 1 < « < N , N为所述主题的数量， ^为第 M个文档， \ < m≤M， M为所述文档的数量，；^„| ）为 ^属于的概率，为所述第二语言网页， ^ Ι )为属于的概率。

根据本发明之一优选实施例，所述排序单元包括：未登录词统计模块，用于统计所述第二语言网页在翻译过程中包含的未登录词的个数；

第四排序模块 , 用于根据第一语言网页所对应第二语言网页的所述未登录词的个数对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述排序单元包括：

翻译评分计算模块，用于计算所述第二语言网页所包含句子在翻译过程中的平均翻译评分；

第五排序模块，用于根据第一语言网页所对应第二语言网页的所述平均翻译评分对所述多个第一语言网页进行排序。

根据本发明之一优选实施例，所述排序单元包括：

规则使用次数统计模块，用于统计所述第二语言网页在翻译过程中的翻译规则使用次数；

第六排序模块，用于才艮据第一语言网页所对应第二语言网页的所述翻译规则使用次数对所述多个第一语言网页进行排序。

由以上技术方案可以看出，本发明提供的跨语言搜索中的网页排序方法及***根据翻译置信度对翻译后的搜索结果进行排序，进而提高了用户体验。附图说明

图 1是本发明实施例的跨语言搜索中的网页排序方法的流程示意图; 图 2是图 1所示的跨语言搜索中的网页排序方法的排序过程的第一实施方式的流程示意图；

图 3是图 1所示的跨语言搜索中的网页排序方法的排序过程的第二实施方式的流程示意图；

图 4是图 1所示的跨语言搜索中的网页排序方法的排序过程的第三实施方式的流程示意图；

图 5是图 1所示的跨语言搜索中的网页排序方法的排序过程的第四实施方式的流程示意图；

图 6是图 1所示的跨语言搜索中的网页排序方法的排序过程的第五实施方式的流程示意图；

图 7是图 1所示的跨语言搜索中的网页排序方法的排序过程的第六实施方式的流程示意图；

图 8是本发明实施例的跨语言搜索中的网页排序***的示意框图；图 9是图 8所示的跨语言搜索中的网页排序***的排序单元的第一实施方式的示意框图；

图 10是图 8所示的跨语言搜索中的网页排序***的排序单元的第二实施方式的示意框图；

图 1 1是图 8所示的跨语言搜索中的网页排序***的排序单元的第三实施方式的示意框图；

图 12是图 8所示的跨语言搜索中的网页排序***的排序单元的第四实施方式的示意框图；

图 13是图 8所示的跨语言搜索中的网页排序***的排序单元的第五实施方式的示意框图；

图 14是图 8所示的跨语言搜索中的网页排序***的排序单元的第六实施方式的示意框图。具体实施方式

下面结合附图和实施例对本发明进行详细说明。

请参阅图 1 , 图 1是本发明实施例的跨语言搜索中的网页排序方法的流程示意图。在本实施例中，该跨语言搜索中的网页排序方法主要包括以下几个步骤：

在步骤 S101 中，获取第一语言搜索请求。在本步骤中，用户可通过在浏览器的搜索框内输入想要搜索的第一语言搜索请求（Query ) , 例如中文的搜索请求，并点击搜索按钮。该第一语言搜索请求经互联网传输至搜索引擎，并被搜索引擎所获取。

在步骤 S102中，将第一语言搜索请求翻译成第二语言搜索请求。在本步骤中，可通过本领域公知的各种机器翻译手段将第一语言搜索请求翻译成第二语言搜索请求，例如，在利用中文搜索英文网页时，将中文的搜索请求翻译成英文的搜索请求。具体的机器翻译手段可包括基于单词、基于短语或句法的统计机器翻译等等。

在步骤 S103中，利用第二语言搜索请求搜索多个第二语言网页。在本步骤中，通过搜索引擎搜索与第二语言搜索请求相关的多个第二语言网页，例如英文网页。

在步骤 S104中，将多个第二语言网页翻译成多个第一语言网页。在本步骤中，可通过上文提到的各种机器翻译手段将第二语言网页中的网页内容翻译成第一语言，例如中文，进而实现跨语言搜索。

在步骤 S105中，根据多个第二语言网页的翻译置信度对多个第一语言网页进行排序。在本步骤中，在排序后的多个第一语言网页中，翻译置信度越高的第一语言网页的位置越靠前，以将翻译质量好的网页结果优先提供给用户，进而提高用户体验。在下文中将详细描述获得第二语言网页的翻译置信度的多种实施方式，本领域技术人员完全可以想到将本领域公知的其他翻译置信度获取方法应用到步骤 S105。

请参阅图 2 , 图 2是图 1所示的跨语言搜索中的网页排序方法的排序过程的第一实施方式的流程示意图。本实施方式主要包括以下几个步骤：

在步骤 S201 中，获取翻译第二语言网页时使用的双语语料库中的源语言语料。在机器翻译过程中，一般都利用双语语料库来训练翻译模型。该双语语料库包括多个双语例句对，每一双语例句对包括源语言例句以及与源语言例句对应的目标语言例句。在第二语言网页的翻译过程中，源语言为第二语言，目标语言为第一语言。双语语料库在机器翻译领域中被普遍使用，并可通过各种方式获得，在此不再赘述。

在步骤 S202中，利用源语言语料生成语言模型，例如 n-gram语言模型。

在步骤 S203中，利用语言模型计算第二语言网页的翻译困惑度。具体来说，对于由 L个词组成一个句子，通过语言模型可以计算出该句子的出现概率：

L 1=1

其中， /^^！^^，…，！^^表示词^与前面的 n个词^ W_w搭配的出现概率， "为一正整数。例如，在 2-gram语言模型中， " = 2 , 在 3 -gram 语言模型中 " = 3。

对于包含有个句子的第二语言网页来说，第二语言网页的翻译困惑度可通过如下公式计算： i

P = 2 !:¹

其中，为第二语言网页的翻译困惑度， X为第二语言网页中的第个句子， l≤t≤I , 为第二语言网页中的句子数量， ρ(χ, )为通过上述语言模型计算获得的句子 X的出现概率。在翻译过程中，如果翻译困惑度 i

越高，表示翻译复杂度越高，其翻译置信度越低。

在步骤 S204中，根据翻译困惑度对多个第一语言网页进行排序。其中，在排序后的多个第一语言网页中，翻译困惑度越高的第一语言网页的位置越靠后。

请参阅图 3，图 3是图 1所示的跨语言搜索中的网页排序方法的排序过程的第二实施方式的流程示意图。本实施方式主要包括以下几个步骤：

在步骤 S301 中，统计第二语言网页在翻译过程中的调序次数。在翻译过程中，需要对源语言句子中的词或短语的翻译顺序进行调整，这种调整即为调序。调序次数越多，表示翻译复杂度越高，其翻译置信度就越低。

在步骤 S302中，根据调序次数对多个第一语言网页进行排序。其中，在排序后的多个第一语言网页中，调序次数越多的第一语言网页的位置越靠后。

请参阅图 4 , 图 4是图 1所示的跨语言搜索中的网页排序方法的排序过程的第三实施方式的流程示意图。本实施方式主要包括以下几个步骤：

在步骤 S401 中，获取翻译第二语言网页时使用的双语语料库中的源语言语料。在步骤 S402中，将源语言语料聚类成多个文档。具体来说，利用聚类算法对源语言语料中的句子进行聚类，然后把每个类的句子集合到一个文档 ,进而形成多个文档。随后 , 利用概率潜在语义分析（ Probabilistic Latent Semantic Analysis, PLSA )或其他算法从该多个文档中获取多个主题，并计算每一文档属于每一主题的概率，以形成多个第一向量：

Vec{d_m ) = (ρ(ί, I d_m \ p{t₂ I d_m\...p{t_n | d_m …處 | d ) , 其中，为第 "个主题， i≤"≤w , w为主题的数量， ^为第 /„个文档 , \≤m≤M , Μ为文档的数量， p(t_n I d_m)为文档 ^d _m属于主题的概率。

在步骤 S403中，计算第二语言网页与多个文档的最大相似度。具体来说，计算第二语言网页属于每一主题的概率，以形成第二向量：

其中，为第二语言网页， ^(„Κ)为第二语言网页 ^属于主题的概率。

随后，计算多个第一向量与第二向量的相似度，并选择相似度中最大的作为最大相似度。具体相似度计算公式可以是：

其中， H为最大相似度。最大相似度越高，代表翻译质量越高，表示翻译置信度就越高。

在步骤 S404中，根据最大相似度对多个第一语言网页进行排序。其中，在排序后的多个第一语言网页中，最大相似度越高的第一语言网页的位置越靠前。

请参阅图 5 , 图 5是图 1所示的跨语言搜索中的网页排序方法的排序过程的第四实施方式的流程示意图。本实施方式主要包括以下几个步骤：

在步骤 S501 中，统计第二语言网页在翻译过程中包含的未登录词的个数。未登录词是指没有被收录在源语言语料中的词，包括各类专有名词（人名、地名、机构名等）、缩写词、新增词汇等等。在机器翻译过程中，未登录词越多，代表翻译质量越差，其翻译置信度就越低。

在步骤 S502中，根据未登录词的个数对多个第一语言网页进行排序。其中，在排序后的多个第一语言网页中，未登录词的个数越多的第一语言网页的位置越靠后。

请参阅图 6 , 图 6是图 1所示的跨语言搜索中的网页排序方法的排序过程的笫五实施方式的流程示意图。本实施方式主要包括以下几个步骤：

在步骤 S601 中，计算第二语言网页在翻译过程中的平均翻译评分。具体来说，根据如下公式计算第二语言网页的平均翻译评分：

A = 2^ score _k IK 其中， ^为第二语言网页的平均翻译评分，为第二语言网页中的第 A;个句子的翻译评分， i_≤k≤K , f为第二语言网页中的句子数量。在本步骤中，可通过本领域公知的翻译评价方法来确定每个句子的翻译评分，例如归一化的句子翻译概率等自动评价方法。平均翻译评分越高，代表翻译质量越高，表示翻译置信度就越高。

在步骤 S602中，根据平均翻译评分对多个第一语言网页进行排序。其中，在排序后的多个第一语言网页中，平均翻译评分越高的第一语言网页的位置越靠前。请参阅图 7 , 图 7是图 1所示的跨语言搜索中的网页排序方法的排序过程的第六实施方式的流程示意图。本实施方式主要包括以下几个步骤：

在步骤 S701 中，统计第二语言网页在翻译过程中的规则使用次数。在机器翻译领域中往往会制定一定的翻译规则，例如针对特定短语的翻译规则。在机器翻译过程中，使用规则的次数越多，代表翻译质量越差，其翻译置信度就越低。

在步骤 S702中，根据规则使用次数对多个第一语言网页进行排序。其中，在排序后的多个第一语言网页中，规则使用次数越多的第一语言网页的位置越靠后。

上述第一至第四实施方式是从第二语言网页的源语言端获取表示翻译置信度的特征，第五至第六实施例是从第二语言网页的翻译模型或翻译结果获取表示翻译置信度的特征。当然，本领域技术人员完全可以通过其他方式获取表示翻译置信度的其他特征。

进一步，本领域技术人员阅读上述内容后完全可以想到将上文描述的表示翻译置信度的各种特征进行结合，例如使用回归学习（regression learning )方法将包括上述多个特征的特征向量映射成一个实数，进而形成一个综合上述特征的翻译置信度。上述过程可使用公知的工具实现，例如， SVM-light工具。

此外，在获得翻译置信度后，还可以把翻译置信度作为一个特征与本领 i或公口的其他 4非序方法进行结合，例 ¾口 learning to rank或 PageRank 方法。

请参阅图 8 , 图 8是本发明实施例的跨语言搜索中的网页排序*** 的示意框图。在本实施例中，该跨语言搜索中的网页排序***主要包括搜索请求获取单元 801、第一翻译单元 802、搜索单元 803、第二翻译单元 804以及排序单元 805。

搜索请求获取单元 801用于获取第一语言搜索请求。用户可通过在浏览器的搜索框内输入想要搜索的第一语言搜索请求（Query )，例如中文的搜索请求，并点击搜索按钮。该第一语言搜索请求经互联网传输至搜索请求获取单元 801 , 并被搜索请求获取单元 801所获取。

第一翻译单元 802用于将第一语言搜索请求翻译成第二语言搜索请求。第一翻译单元 802可通过本领域公知的各种机器翻译手段将第一语言搜索请求翻译成第二语言搜索请求，例如，在利用中文搜索英文网页时，将中文的搜索请求翻译成英文的搜索请求。具体的机器翻译手段可包括基于单词、基于短语或句法的统计机器翻译等等。

搜索单元 803用于利用第二语言搜索请求搜索多个第二语言网页。搜索单元 803通过本领域公知的各种搜索引擎技术搜索与第二语言搜索请求相关的多个第二语言网页，例如英文网页。

第二翻译单元 804用于将多个第二语言网页翻译成多个第一语言网页。第二翻译单元 804可通过上文提到的各种机器翻译手段将第二语言网页中的网页内容翻译成笫一语言，例如中文，进而实现跨语言搜索。在本实施方式中，第一翻译单元 802和第二翻译单元 804可由同一翻译单元或不同的翻译单元实现。

排序单元 805用于根据多个第二语言网页的翻译置信度对多个第一语言网页进行排序。在经排序单元 805排序后的多个第一语言网页中，翻译置信度越高的第一语言网页的位置越靠前，以将翻译质量好的网页结果优先提供给用户，进而提高用户体验。在下文中将详细描述获得第二语言网页的翻译置信度的多种实施方式，本领域技术人员完全可以想到将本领域公知的其他翻译置信度获取方法应用到排序单元 805

请参阅图 9 , 图 9是图 8所示的跨语言搜索中的网页排序***的排序单元 805的第一实施方式的示意框图。本实施方式的排序单元 805主要包括源语言语料获取模块 901、语言模型生成模块 902、困惑度计算模块 903以及排序模块 904

源语言语料获取模块 901用于获取翻译第二语言网页时使用的双语语料库中的源语言语料。在机器翻译过程中，一般都利用双语语料库来训练翻译模型。该双语语料库包括多个双语例句对，每一双语例句对包括源语言例句以及与源语言例句对应的目标语言例句。在第二语言网页的翻译过程中，源语言为第二语言，目标语言为第一语言。双语语料库在机器翻译领域中被普遍使用，并可通过各种方式获得，在此不再赘述。

语言模型生成模块 902用于利用源语言语料生成语言模型，例如 n-gram语言模型。

困惑度计算模块 903用于利用语言模型计算第二语言网页的翻译困惑度。具体来说，对于由 L个词 ^，^，…，^组成一个句子 XI , 通过语言模型可以计算出该句子的出现概率：

L

p(x_i ) = p(w w₂ ,...,w_L ) = Y[ p(w_l \ w_l__n ,...,w_l__{ )

1

其中， Ρ ^ Ι ^-^Ί)表示词 ^w'与前面的 _n个词¹ ^"••Ί 1搭配的出现概率， "为一正整数。例如，在 2-gram语言模型中， " = ² , 在 3-gram 语言模型中 " = ³。

对于包含有个句子的第二语言网页来说，第二语言网页的翻译困惑度可通过如下公式计算：

其中， i³为第二语言网页的翻译困惑度， xi为第二语言网页中的第 i 个句子， 1≤ ≤/ , /为第二语言网页中的句子数量， ^')为通过上述语言模型计算获得的句子 xi的出现概率。在翻译过程中，如果翻译困惑度越高，表示翻译复杂度越高，其翻译置信度越低。排序模块 904用于根据翻译困惑度对多个第一语言网页进行排序。其中，在经排序模块 904排序后的多个第一语言网页中，翻译困惑度越高的第一语言网页的位置越靠后。请参阅图 10 , 图 10是图 8所示的跨语言搜索中的网页排序***的排序单元 805的第二实施方式的示意框图。本实施方式的排序单元 805 主要包括调序次数统计模块 1001以及排序模块 1002。调序次数统计模块 1001用于统计第二语言网页在翻译过程中的调序次数。在翻译过程中，需要对源语言句子中的词或短语的翻译顺序进行调整，这种调整即为调序。调序次数越多，表示翻译复杂度越高，其翻译置信度就越低。排序模块 1002用于根据调序次数对多个第一语言网页进行排序。其中，在经排序模块 1002排序后的多个第一语言网页中，调序次数越多的第一语言网页的位置越靠后。请参阅图 11 , 图 11是图 8所示的跨语言搜索中的网页排序***的排序单元 805的第三实施方式的示意框图。本实施方式的排序单元 805 主要包括源语言语料获取模块 1 101、聚类模块 1 102、相似度计算模块 1103以及排序模块 1 104。源语言语料获取模块 1101用于获取翻译第二语言网页时使用的双语语料库中的源语言语料。

聚类模块 1102用于将源语言语料聚类成多个文档。具体来说，聚类模块 1102利用聚类算法对源语言语料中的句子进行聚类，然后把每个类的句子集合到一个文档，进而形成多个文档。随后，聚类模块 1102利用概率潜在语义分析 ( Probabilistic Latent Semantic Analysis, PLSA ) 或其他算法从该多个文档中获取多个主题，并计算每一文档属于每一主题的概率，以形成多个第一向量：

Vec{d_m) = (pit, I d_m),p(t₂ I

| d_m),...,p(t_N | d ) , 其中，为第 "个主题， i≤"≤w, w为主题的数量， ^为第 _w个文档 , l≤m≤M ,Μ为文档的数量， p{t_n I d 为文档 ^d _m属于主题的概率。

相似度计算模块 1103计算第二语言网页与多个文档的最大相似度。具体来说，相似度计算模块 1103计算第二语言网页属于每一主题的概率，以形成第二向量：

Ke_C( ) = (^! | ), (ί₂ ! ),·· Ι^ ···, ^ 1 ))

其中，为第二语言网页， „κ)为第二语言网页 ^属于主题的概率。

随后，相似度计算模块 1103计算多个第一向量与第二向量的相似度, 并选择相似度中最大的作为最大相似度。具体相似度计算公式可以是：

其中， H为最大相似度。最大相似度越高，代表翻译质量越高，表示翻译置信度就越高。排序模块 1104用于根据最大相似度对多个第一语言网页进行排序。其中，在经排序模块 1 104排序后的多个第一语言网页中，最大相似度越高的第一语言网页的位置越靠前。

请参阅图 12 , 图 12是图 8所示的跨语言搜索中的网页排序***的排序单元 805的第四实施方式的示意框图。本实施方式的排序单元 805 主要包括未登录词统计模块 1201以及排序模块 1202。

未登录词统计模块 1201用于统计第二语言网页在翻译过程中包含的未登录词的个数。未登录词是指没有被收录在源语言语料中的词，包括各类专有名词（人名、地名、机构名等）、缩写词、新增词汇等等。在机器翻译过程中，未登录词越多，代表翻译质量越差，其翻译置信度就越低。

排序模块 1202用于根据未登录词的个数对多个第一语言网页进行排序。其中，在经排序模块 1202排序后的多个第一语言网页中，未登录词的个数越多的第一语言网页的位置越靠后。

请参阅图 13，图 13是图 8所示的跨语言搜索中的网页排序***的排序单元 805的第五实施方式的示意框图。本实施方式的排序单元 805 主要包括翻译评分计算模块 1301以及排序模块 1302。

翻译评分计算模块 1301用于计算第二语言网页在翻译过程中的平均翻译评分。具体来说，翻译评分计算模块 1301根据如下公式计算第二语言网页的平均翻译评分：

A = ^ score _k IK 其中， ^为第二语言网页的平均翻译评分，为第二语言网页中的第个句子的翻译评分， i≤k≤i , :为第二语言网页中的句子数量。翻译评分计算模块 1301可通过本领域公知的翻译评价方法来确定每个句子的翻译评分，例如归一化的句子翻译概率等自动评价方法。平均翻译评分越高，代表翻译质量越高，表示翻译置信度就越高。

排序模块 1302用于根据平均翻译评分对多个第一语言网页进行排序。其中，在经排序模块 1302排序后的多个第一语言网页中，平均翻译评分越高的第一语言网页的位置越靠前。

请参阅图 14 , 图 14是图 8所示的跨语言搜索中的网页排序***的排序单元 805的第六实施方式的示意框图。本实施方式的排序单元 805 主要包括规则使用次数统计模块 1401以及排序模块 1402。

规则使用次数统计模块 1401用于统计第二语言网页在翻译过程中的规则使用次数。在机器翻译领域中往往会制定一定的翻译规则，例如针对特定短语的翻译规则。在机器翻译过程中，使用规则的次数越多，代表翻译质量越差，其翻译置信度就越低。

排序模块 1402用于根据规则使用次数对多个第一语言网页进行排序。其中，在经排序模块 1402排序后的多个第一语言网页中，规则使用次数越多的第一语言网页的位置越靠后。

此外，在获得翻译置信度后，还可以把翻译置信度作为一个特征与本领域公知的其他排序方法进行结合，例如 learning to rank或 PageRank 方法。

由以上技术方案可以看出，本发明提供的跨语言搜索中的网页排序方法及***根据翻译置信度对翻译后的搜索结果进行排序，进而提高了用户体验。

在上述实施例中，仅对本发明进行了示范性描述，但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

Claims

权利要求书

1、一种跨语言搜索中的网页排序方法，其特征在于，所述跨语言搜索中的网页排序方法包括：

a. 获取第一语言搜索请求；

b. 将所述第一语言搜索请求翻译成第二语言搜索请求；

c 利用所述第二语言搜索请求搜索得到多个第二语言网页；

d. 将所述多个第二语言网页翻译成多个第一语言网页；

2、如权利要求 1所述的跨语言搜索中的网页排序方法，其特征在于，在所述步骤 e中，在排序后的所述多个第一语言网页中，所述翻译置信度越高的所述第一语言网页的位置越靠前。

3、如权利要求 1所述的跨语言搜索中的网页排序方法，其特征在于，所述步骤 e包括：

el l . 利用语言模型计算所述第二语言网页的翻译困惑度；

4、如权利要求 3所述的跨语言搜索中的网页排序方法，其特征在于，在所述步骤 el l中，通过以下公式计算所述翻译困惑度：

1

Ρ = 2 ：¹

其中， Ρ为所述翻译困惑度， JC,为所述第二语言网页中的第个句子， \ < ι < 1 , /为所述第二语言网页中的句子数量， Ρ( ）为通过所述语言模型计算获得的 _Χ!的出现概率。

5、如权利要求 4所述的跨语言搜索中的网页排序方法，其特征在于，所述语言模型为 n-gram语言模型。

6、如权利要求 1所述的跨语言搜索中的网页排序方法，其特征在于，所述步骤 e包括：

e21. 统计所述第二语言网页在翻译过程中的调序次数；

7、如权利要求 1所述的跨语言搜索方法，其特征在于，所述步骤 e 包括：

8、如权利要求 7所述的跨语言搜索中的网页排序方法，其特征在于，在步骤 e31中，从所述多个文档中获取多个主题，并计算每一所述文档属于每一所述主题的概率，以形成多个第一向量；计算所述第二语言网页属于每一所述主题的概率，以形成第二向量，计算所述多个第一向量与所述第二向量的相似度，并选择所述相似度中最大的作为所述最大相似度。

9、如权利要求 8所述的跨语言搜索中的网页排序方法，其特征在于，在步骤 e31中，根据如下公式计算所述最大相似度：

其中， H为所述最大相似度，为第 "个主题， l≤w≤N， N为所述主题的数量， ^为第个文档， \ < m≤M， Λ 为所述文档的数量， („ μ„) 为 ^d _m属于的概率，为所述第二语言网页， ρ(„ | )为 ^d _s属于的概率。

10、如权利要求 1所述的跨语言搜索中的网页排序方法，其特征在于，所述步骤 e包括：

e 41. 统计所述第二语言网页在翻译过程中包含的未登录词的个数； e42. 根据第一语言网页所对应第二语言网页的所述未登录词的个数对所述多个第一语言网页进行排序。

11、如权利要求 1所述的跨语言搜索方法，其特征在于，所述步骤 e包括：

12、如权利要求 1所述的跨语言搜索中的网页排序方法，其特征在于，所述步骤 e包括：

13、一种跨语言搜索中的网页排序***，其特征在于，所述跨语言搜索中的网页排序***包括：

搜索请求获取单元，用于获取第一语言搜索请求；

14、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，在经所述排序单元排序后的所述多个第一语言网页中，所述翻译置信度越高的所述第一语言网页的位置越靠前。

15、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，所述排序单元包括：

16、如权利要求 15所述的跨语言搜索中的网页排序***，其特征在于，所述困惑度计算模块通过以下公式计算所述翻译困惑度：

I

\ < ι≤ι , /为所述第二语言网页中的句子数量， P )为通过所述语言模型计算获得的 Xi的出现概率。

17、如权利要求 16所述的跨语言搜索中的网页排序***，其特征在于，所述语言模型为 n-gram语言模型。

18、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，所述排序单元包括：

第二排序模块 , 用于根据第一语言网页所对应第二语言网页的所述调序次数对所述多个第一语言网页进行排序。

19、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，所述排序单元包括：

聚类模块，用于将所述源语言语料聚类成多个文档；

20、如权利要求 19所述的跨语言搜索中的网页排序***，其特征在于，所述聚类模块从所述多个文档中获取多个主题，并计算每一所述文档属于每一所述主题的概率，以形成多个第一向量，所述相似度计算模块计算所述第二语言网页属于每一所述主题的概率，以形成第二向量，计算所述多个第一向量与所述第二向量的相似度，并选择所述相似度中最大的作为所述最大相似度。

21、如权利要求 20所述的跨语言搜索中的网页排序***，其特征在于，所述相似度计算模块根据如下公式计算所述最大相似度：

#

其中， H为所述最大相似度，为第 "个主题， \ < n≤N , N为所述主题的数量， ^为第 w个文档， \ < m≤M , M为所述文档的数量， | ）为 ^属于的概率，为所述第二语言网页， /^„| ）为属于的概率。

22、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，所述排序单元包括：

未登录词统计模块，用于统计所述第二语言网页在翻译过程中包含的未登录词的个数；

第四排序模块，用于根据第一语言网页所对应第二语言网页的所述未登录词的个数对所述多个第一语言网页进行排序。

23、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，所述排序单元包括：

翻译评分计算模块，用于计算所述第二语言网页所包含句子在翻译过程中的平均翻译评分；第五排序模块，用于根据第一语言网页所对应第二语言网页的所述平均翻译评分对所述多个第一语言网页进行排序。

24、如权利要求 13所述的跨语言搜索中的网页排序***，其特征在于，所述排序单元包括：

第六排序模块，用于根据第一语言网页所对应第二语言网页的所述翻译规则使用次数对所述多个第一语言网页进行排序。