CN1728134A

CN1728134A - 基于超文本的多语言网络信息搜索方法和***

Info

Publication number: CN1728134A
Application number: CNA200410055624XA
Authority: CN
Inventors: 张岭
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2004-07-30
Filing date: 2004-07-30
Publication date: 2006-02-01
Anticipated expiration: 2024-07-30
Also published as: US20060059132A1; CN100568230C; US7711682B2

Abstract

本发明提出一种基于超文本的多语言网络信息搜索方法和***，用于在网络上搜索要查询的关键词，该搜索方法包括以下步骤：接收用户输入的关键词的步骤；本语言超文本搜索步骤，用于根据要查询的关键词，在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本；从搜索到的所有超文本提取有关任意语言的超链接；超链接排序步骤，用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序；以及向用户返回所述排序的搜索结果。由此，可提供准确的交叉语言搜索而不需要进行额外的机器翻译工作，比机器甚至人工翻译更准确和客观。

Description

基于超文本的多语言网络信息搜索方法和***

技术领域

本发明涉及一种网络信息搜索方法和***，并具体涉及一种基于超文本的多语言网络信息搜索方法和***。

背景技术

随着互联网的普及，互联网上的内容信息急剧增长，因而通过关键词在互联网上搜索要查询的内容的方法也广泛使用开来。特别是非英语语言的用户代表着互联网用户的最快的增长，而他们不仅要求从以其母语表达的信息源获得信息，而且要求从大量的多语言文档获得信息。另一方面，用于互联网应用全球化的技术使用统一的方法来建立多语言的网络站点以服务于来自全世界的访问者。

由于多数用户更喜欢使用其母语去搜索网络，或者他们难于以其它语言表达关键词，比如以互联网内容最常使用的英语来表达关键词对很多非英语国家的用户而言可能会是困难的，所以这些用户根据现有的内容匹配方法，只能找到有限的或者相对局限的信息。为了解决这个问题，提出了基于翻译的方法。这些方法使用翻译引擎，将用户查询翻译为不同语言，然后提交给不同的搜索引擎。这些解决方案的缺点是：首先，机器翻译不如人工翻译准确，而有些词语难于被翻译为搜索引擎可以理解的目标语言；其次，基于翻译的解决方案难于有效和低成本地扩展，因为所有查询在提交前都必须首先被捕捉和翻译。巨大数量的查询会给翻译引擎带来沉重的负担。

发明内容

本发明要解决的问题是在多语言网络信息搜索中如何解决语言翻译问题。本发明使用另外的方法即超链接来解决语言翻译问题。本发明有助于全球的互联网用户通过以其母语进行查询而找到权威网页(如后所述)。

为了实现上述目的，本发明提供一种基于超文本的多语言网络信息搜索方法，用于在网络上搜索要查询的关键词，该搜索方法包括以下步骤：接收步骤，用于接收用户输入的关键词；本语言超文本搜索步骤，用于根据要查询的关键词，在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本；超链接提取步骤，用于从搜索到的所有超文本提取有关任意语言的超链接；超链接排序步骤，用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序；以及输出步骤，用于向用户返回所述排序的搜索结果。

本发明还提供一种基于超文本的多语言网络信息搜索***，用于在网络上搜索要查询的关键词，该搜索***包括：接收装置，用于接收用户输入的关键词；本语言超文本搜索装置，用于根据要查询的关键词，在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本；超链接提取装置，用于从搜索到的所有超文本提取有关任意语言的超链接；超链接排序装置，用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序；以及输出装置，用于向用户返回所述排序的搜索结果。

通过本发明提出的基于超文本的多语言网络信息搜索方法和***，可以提供准确的交叉语言搜索而不需要进行额外的机器翻译工作。而且，利用超文本进行多语言网络信息搜索，比机器甚至人工翻译更准确和客观。

附图说明

通过下面结合附图进行的描述，本发明的上述目的和特点将会变得更加清楚，其中：

图1显示了应用本发明的一种实现方式的搜索***的示意图；

图2更详细地描述了图1中网络爬虫1的配置；

图3显示了根据本发明的基于超文本的多语言网络信息搜索方法的流程图；

图4显示了URL DB(数据库)的结构；以及

图5显示了根据本发明的基于超文本的多语言网络信息搜索***的框图。

具体实施方式

本发明的基本思想是：通过识别网络超链接结构并且从多语言网页收集链接了网页的HTML超链接文本(简称为“超文本”)，建立以用户母语(本语言)表达的关键词与各目标文档之间的关系，而不进行翻译。

本发明的发明人从对网络的研究中发现：首先，虽然多数高质量网络内容以英语写成，但在网络上散布着各翻译版本，并且这些多语言化的内容不是被裁剪，就是仅仅是其初始版本位置的超链接；其次，许多网络冲浪者希望找到一个起始点以解决其具体问题，而这些问题会是编程技巧、官方FAQ(最常问的问题和解答)或如何开始新搜索主题。对于这样的搜索要求，用户想要解决方案的权威网页，而不管这些网页是否以其母语所表示。权威网页和中心网页显示一种相互加强的关系：好的中心网页表示一个网页指向许多好的权威网页；而好的权威网页表示一个网页由许多好的中心网页指向。

网络文档通过在网页上放置超链接而包含浏览链接。通常网页的作者会给超链接分配描述文本，以告知读者超链接有关什么内容，该描述称为超文本或锚定文本。一个网页可被几千网页链接，对于受欢迎的网页，甚至有几百万网页链接。指向同一URL(统一资源定位符)的每个超文本可由于不同的网页编写者及其优选语言而不同。例如，“卡内基梅隆大学”的主页是http：//www.cmu.edu，而在英语等字母文字的网页上，其超链接文本可能是“Carnage Mellon University”或“CMU”；然而，在中文等包括汉字的网页上，该大学的超链接文本会是“卡内基梅隆大学”，等。再如，“京都大学”的主页是http：//www.kyoto-u.ac.jp，而在中文、日文等包括汉字的网页上，该大学的超链接文本会是“京都大学”。在此，“京都大学”即是日文超文本，也是中文超文本。可以理解，随着国际交流的发展，同一网页或网站上可以提供不同语言的超文本，以便于读者查询。例如，在日文或英文网站上均可提供中文超文本，在中文的网页上也可以提供其它语言的超文本，如英文的超文本。在读者根据其所熟悉的语言进行超文本查询之后，再选择是否阅读该超文本所链接的原文内容。

本发明仅仅限定所要搜索的超文本的表示语言与关键词的表示语言相同。本领域的普通技术人员可以理解，限定所要搜寻的网页语言的类型并非是本发明所必需的。

因此，对于同一URL(网页)存在多语言超文本，而这些不同语言的超文本是最佳“翻译”，因为这些超文本不是词到词的翻译，而是告诉访问者该网页的内容概要。而且，超文本比机器甚至人工翻译更准确和客观。

即，基于超文本的多语言网络搜索的基本思想在于根据超文本及其目标URL搜索相关URL。利用“概念”翻译和通过迭代搜索扩展查询，识别有用的互联网资源而不管各网页使用的语言。此外，通过统计的手段，基于超文本的搜索还消除了类似“click it”这样的价值不大的超链接。

例如，假定一个中国的互联网用户希望查询“读者文摘”杂志的主页，他/她会输入中文表示的“读者文摘”(关键词)，由于有许多中文网页包含指向“读者文摘”杂志网站的超链接，而且多数对应该超链接的超文本包含中文表示的“读者文摘”，因此，通过超文本与关键词的匹配和超链接分布分析，就可以搜索到“读者文摘”杂志的URL(http：//www.rd.com)。

以下，参照附图来详细说明本发明的实施例。

图1显示了应用本发明的一种实现方式的搜索***的示意图。参照图1，该搜索***包括网络爬虫(Web crawler)1，其与互联网2连接，并且网络爬虫1从互联网2下载网页；还包括数据索引模块3、分析评估模块5以及搜索界面6。

下面说明本发明的搜索***提供搜索服务的过程。

在提供搜索服务前，由网络爬虫1从互联网2下载尽可能多的网页，然后存储在网页库31中。然后数据索引模块3从各网页提取所有超链接文本和对应的超链接地址，此外还包括网页标题，并提供了快速访问的索引。数据索引模块3完成了数据的原始加工，将上述索引数据形成URL DB(数据库)并存入网页库31中。网页库31包含URL DB和URL索引项(Registry)。URL索引项用于快速访问URL DB中的数据项，也就是说，一旦指定了某个URL就可以根据URL索引项在URL DB中直接找到对应URL的数据，而不必从URL DB的第一条搜索到最后一条。在图1中，URL索引33是每个URL在URL DB中对应的独一无二的索引值，而文本索引32指的是对应超链接文本的索引，即对文本进行索引从而实现快速查找。URL DB的结构将在后面详细说明。

通过搜索界面6，用户提交搜索服务请求，即提交要查询的关键词，然后搜索界面6将要查询的关键词传递给分析评估模块5。分析评估模块5根据已有的索引数据与要查询的关键词进行动态匹配。分析评估模块5包括超文本IR(信息检索)51和超链接分析52，超文本IR 51计算各超文本对于要查询的关键词的相似程度S，而超链接分析52计算各网页(URL)的重要程度，然后分析评估模块5根据超文本IR 51和超链接分析52的计算结果进行综合评估，并且将综合评估的结果进行排序。最后，分析评估模块5把排序结果通过搜索界面6返回给用户，用户就可找到最符合要求的URL。

图2更详细地描述了图1中网络爬虫1的配置。在图2中，网络爬虫1包括管理控制台11、主机器人12和从机器人13-16，即，显示了网络爬虫1的一种分布式配置。当然，网络爬虫1也可以配置为单一的主机。管理控制台11通过主机器人12的控制，与从机器人13-16协同，从互联网2下载网页并且存储在图1中所示的网页库31中。

参照图3，说明根据本发明的基于超文本的多语言网络信息搜索方法的流程。首先在步骤101，用户以A语言(即本语言)提交关键词请求查询。本语言，通常是用户的母语，例如A语言是中文，而关键词是“上海交通大学”。在接收到A语言(如中文)的如“上海交通大学”的关键词后，在步骤102，搜索以A语言表达的所有超文本，同时与关键词如“上海交通大学”进行匹配。优选地，利用由数据索引模块3从互联网上下载并建立好的URLDB中的索引数据，可以使该搜索快速完成。如上所述，图1所示的文本索引32是对应超链接文本的索引，通过对文本进行索引从而能够实现快速查找。因此，可获得与关键词匹配的以A语言表达的所有超文本。如下面在图4中所述，在URL DB中，与关键词“上海交通大学”匹配的超文本包括“交大”、“上海交大”、“交通大学”、“上海交通大学”、“上交大”和“上海交大”。

在步骤103，从匹配的以A语言表达的所有超文本提取URL，提取的URL不仅涉及指向A语言表示的网页，而且涉及指向A语言以外的其它语言表示的网页。因此，通过提取超文本对应的URL，实现了向多语言信息搜索的扩展。优选地，利用下面在图4中所述的URL DB中的“URL索引”，可以快速提取对应各超文本的URL。

在步骤104，计算所述超文本对于要查询的关键词的相似程度S。超文本d_i和关键词Q都可以用矢量来表示，两个矢量夹角之间的余弦值就代表了它们的相似程度S，引入下面的公式表示的VSM(矢量空间模型)进行文本相似程度S的计算。

(d_{i}, Q) = \frac{Σ_{j = 1}^{n} d_{ij} - q_{j}}{\sqrt{Σ_{j = 1}^{n} {d_{ij}}^{2} - Σ_{j = 1}^{n} {q_{j}}^{2}}} - - - (1)

其中，d_i表示的是网页d中第i个的超文本，d_ij表示第i个超文本的第j维，q_j表示关键词Q的第j维；第j维的意思是，无论是超链接文本还是关键词，都可以划分为多维矢量，比如说超链接文本“IBM software group”是一个3维的矢量，而关键词“IBM software development tool”是一个4维矢量，对于中文来说，每个汉字对应1维，对于英文则是每个单词对应1维。如果超文本d_i和关键词Q完全一致，则S值为1；如果超文本d_i里没有一个词在关键词Q中出现，则S值为0。

同时，在步骤105，计算URL(网页)重要程度。可以通过超链接追溯来发现受欢迎的网页，而高质量网页具有比平均情况更多的超链接。URL(网页)重要程度可通过下面的递归和/或迭代计算来获得。

PR (v) = ϵ / n + (1 - ϵ) \underset{u, v = G}{Σ} PR (u) / outlink (u) - - - (2)

其中，PR(v)指网页v的重要程度，它由全体包含了指向它的网页的PR值所决定，比如网页v被10个网页所链接，那么这10个网页的重要程度就决定了网页v的重要程度；outlink(u)指的是网页u(它一定包含了指向v的超链接)内所有超链接的数量；n为所有网页的数量；ε是一个调节参数，代表公式(2)的页面中链接到v页面的超链接对计算结果的影响程度，该值越大表示链接到该页面的单个超链接的对v的PR值贡献越多，ε的值一般在0-1之间，优选为0.1-0.2，这是根据实验估计的最优值。

接着，在步骤106，通过结合超链接(超文本)相似程度S和URL(网页)重要程度PR(v)，进行综合评估，得到下面的结果。

R(d)＝PR(d){1+δ·S(d，Q)} (3)

其中，R(d)是组合公式1和公式2的综合评估结果值，它根据每个网页d固定的重要程度值PR(d)和关键词Q，动态计算各网页对应某个关键词的重要程度。其中，S代表网页d包含的超文本d_i和关键词Q的相似程度；参数δ用来调节公式1和公式2在公式3中的权重；δ代表公式(3)中超链接分析对公式结果的影响程度高还是文本相关性分析的结果对公式结果的影响程度高，其值在0-1之间，δ越大表示文本相关性对公式结果影响程度高，优选取0.4。

由此，根据公式3的综合评估结果进行排序，例如根据R(d)值的大小排序，其中与要查询的关键词最相关的网址的R(d)值最大。然后在步骤107，将排序结果以例如超文本列表形式返回给用户。在超文本列表中，通常使用公知的HTML表示形式：每个超文本对应其URL地址，该URL地址可链接到所指向的网页。

作为选择，在超链接排序步骤中，可以按照超链接被指向的数量来确定超链接的重要程度。被指向最多的超链接具有与要查询的关键词最匹配的信息，与要查询的关键词最相关，因而该链接排在首位。

图4显示了URL DB(数据库)的结构。在图4中，URL DB中的每条数据通过URL索引项来索引，利用索引可以快速地在URL DB中定位到一条记录数据，每个URL对应一个网页。在图4中，“索引”字段表示URL的索引号；“URL”字段代表网页的地址，即URL；“链接数”字段表示该网页内的超链接数；“标题”字段表示该网页的标题；“网页重要程度值”字段表示该网页的重要程度值(即PR，PageRank)，该值使用上述的公式2所述的算法获得；“锚定文本(anchor text)”字段代表所有链接了该网页的超链接文本(超文本)，将所有锚定文本索引形成文本索引，即文本索引类似一个目录，用来快速检索URL DB中的超链接文本；而“URL索引”字段表示包含该网页的超链接的网页在URL DB中的索引值。例如，图4中的一个网页，其“URL”为“ www.sjtu.edu.cn”，在URL DB中的索引值为0，该网页内的超链接数为63，其网页标题是“上海交通大学”，其PR值是3.455E-7，所有链接该网页的超链接文本显示在“锚定文本”字段，即包括“交大”、“上海交大”、“交通大学”、“上海交通大学”、“上交大”和“上海交大”，而分别与上述超链接文本一一对应，包含该网页的超链接的网页在URL DB中的索引值显示在“URL索引”字段，即对应地分别是“5894”、“23658”、“584521”、“296”、“99”和“3257”。

参照图5，说明根据本发明的基于超文本的多语言网络信息搜索***的框图。在图5中，该搜索***包括接收装置501、搜索装置502、超链接提取装置503、排序装置504和输出装置505。接收装置501接收用户以A语言(即本语言)输入的关键词，然后传递给搜索装置502。搜索装置502搜索以A语言表达的所有超文本，同时与关键词如“上海交通大学”进行匹配。如上所述，优选地，利用由数据索引模块3从互联网上下载并建立好的索引数据，搜索装置502可以使该搜索更快速。超链接提取装置503从与关键词匹配的所有超文本提取URL，这可以通过图4所示的URL DB快速实现。所述提取的URL不仅涉及指向A语言表示的网页，而且涉及指向A语言以外的其它语言表示的网页。所述提取的URL被传递给排序装置504，由排序装置504根据上述公式1计算URL对应的超文本对于要查询的关键词的相似程度，还根据上述公式2计算各URL(网页)的重要程度，然后根据综合上述公式1和2的上述公式3对提取的URL进行分析计算，以进行综合评估。排序装置504还根据综合评估的结果进行排序，例如根据上述公式3计算的综合评估结果R(d)值的大小排序，其中与要查询的关键词最相关的网址的R(d)值最大。最后，输出装置505将排序结果以例如超文本列表形式返回给用户，其中被指向最多的超链接(即R(d)值最大)对应的网页具有与要查询的关键词最匹配的信息。

以上说明了本发明的具体实施方式，但本发明不限于上述实施方式，在不脱离本发明范围的情况下，可以进行各种变形和修改。

Claims

1.一种基于超文本的多语言网络信息搜索方法，用于在网络上搜索要查询的关键词，该搜索方法包括以下步骤：

接收步骤，用于接收用户输入的关键词；

本语言超文本搜索步骤，用于根据要查询的关键词，在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本；

超链接提取步骤，用于从搜索到的所有超文本提取有关任意语言的超链接；

超链接排序步骤，用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序；以及

输出步骤，用于向用户返回所述排序的搜索结果。

2.根据权利要求1所述的基于超文本的多语言网络信息搜索方法，其中：

在超链接排序步骤中，被指向最多的超链接具有与要查询的关键词最匹配的信息。

3.根据权利要求1所述的基于超文本的多语言网络信息搜索方法，其中：

在本语言超文本搜索步骤，预先从互联网上下载网页并进行数据索引，用于快速搜索与要查询的关键词匹配的超文本；并且

超链接排序步骤按照超文本对于要查询的关键词的相似程度和超链接重要程度对所述超链接进行排序。

4.根据权利要求3所述的基于超文本的多语言网络信息搜索方法，其中所述超文本对于要查询的关键词的相似程度如下确定：

S (d_{i}, Q) = \frac{Σ_{j = 1}^{n} d_{ij} - q_{j}}{\sqrt{Σ_{j = 1}^{n} {d_{ij}}^{2} - Σ_{j = 1}^{n} {q_{j}}^{2}}}

其中，d_i表示网页d的第i个的超文本，d_ij表示第i个超文本的第j维，q_j表示关键词Q的第j维，而S代表了超文本d_i和关键词Q的相似程度。

5.根据权利要求3所述的基于超文本的多语言网络信息搜索方法，其中所述超链接重要程度通过如下迭代计算确定：

PR (v) = ϵ / n + (1 - ϵ) \underset{u, v &Element; G}{Σ} PR (u) / outlink (u)

其中，PR(v)指网页v的重要程度，outlink(u)指的是网页u内所有超链接的数量，n为所有网页的数量，而ε是一个调节参数。

6.根据权利要求4所述的基于超文本的多语言网络信息搜索方法，其中按照如下计算进行综合评估后，根据综合评估值进行排序：

PR (v) = ϵ / n + (1 - ϵ) \underset{u, v &Element; G}{Σ} PR (u) / outlink (u)

R(d)＝PR(d){1+δ·S(d，Q)}

其中，PR(v)指网页v的重要程度，outlink(u)指的是网页u内所有超链接的数量，n为所有网页的数量，而ε是调节参数；R(d)是综合评估值，S代表网页d包含的超文本d_i和关键词Q的相似程度，参数δ用来调节PR(d)和S在R(d)计算中的权重。

7.一种基于超文本的多语言网络信息搜索***，用于在网络上搜索要查询的关键词，该搜索***包括：

接收装置，用于接收用户输入的关键词；

本语言超文本搜索装置，用于根据要查询的关键词，在网络上搜索表示语言与表示关键词的语言相同的、与要查询的关键词匹配的所有超文本；

超链接提取装置，用于从搜索到的所有超文本提取有关任意语言的超链接；

超链接排序装置，用于按照超链接与要查询的关键词的相关程度对所述提取的超链接进行排序；以及

输出装置，用于向用户返回所述排序的搜索结果。

8.根据权利要求7所述的基于超文本的多语言网络信息搜索***，其中在超链接排序装置排序后，被指向最多的超链接具有与要查询的关键词最匹配的信息。

9.根据权利要求7所述的基于超文本的多语言网络信息搜索***，其中：

本语言超文本搜索装置预先从互联网上下载网页并进行数据索引，用于快速搜索与要查询的关键词匹配的超文本；并且

超链接排序装置按照超文本对于要查询的关键词的相似程度和超链接重要程度对所述超链接进行排序。

10.根据权利要求9所述的基于超文本的多语言网络信息搜索***，其中所述超文本对于要查询的关键词的相似程度如下确定：

S (d_{i}, Q) = \frac{Σ_{j = 1}^{n} d_{ij} - q_{j}}{\sqrt{Σ_{j = 1}^{n} {d_{ij}}^{2} - Σ_{j = 1}^{n} {q_{j}}^{2}}}

11.根据权利要求9所述的基于超文本的多语言网络信息搜索***，其中所述超链接重要程度通过如下迭代计算确定：

PR (v) = ϵ / n + (1 - ϵ) \underset{u, v &Element; G}{Σ} PR (u) / outlink (u)

12.根据权利要求10所述的基于超文本的多语言网络信息搜索***，其中按照如下计算进行综合评估后，根据综合评估值进行排序：

PR (v) = ϵ / n + (1 - ϵ) \underset{u, v &Element; G}{Σ} PR (u) / outlink (u)

R(d)＝PR(d){1+δ·S(d，Q)}