CN103258032A

CN103258032A - 平行网页获取方法及装置

Info

Publication number: CN103258032A
Application number: CN2013101742184A
Authority: CN
Inventors: 刘奇; 刘洋; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2013-08-21

Abstract

一种平行网页获取方法及装置，属于文本信息处理领域，所述方法包括：使用HTML结构信息实现对平行网站中平行网页的同步递归访问，使用URL命名模式优化遍历平行网站的路径，对候选平行网页，使用分类器进行判定，对判定为平行网页的网页对，学***行网页对中的双语文本和指向的下级候选平行网页链接对，利用学***行网页链接对优先队列；对是否应该终止平行网页发现进行判定，最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘，本发明相应地提供了获取装置，本发明结合URL命名模式及HTML结构信息，实现了高效准确的平行网页发现和获取，同时提高了处理速度，减少了带宽消耗。

Description

平行网页获取方法及装置

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种平行网页获取方法及装置。

背景技术

互联网作为一个多语言环境的国际网络，为全世界人们相互沟通提供了巨大方便，但是语言不通仍然对人们有效获取其他语言的信息造成了障碍。随着国际交流的日益深入，为了方便持不同语言的各国人士获取信息，互联网中设立了大量的多语网站，这类网站存在多个语种的网页，同一内容的网页存在多个对应的其他语言的网页。由于这类网站中很多网页内容严格对译，质量优良，所以就成为了双语平行语料的可靠来源。平行语料指的是相互翻译的两种语种的句对集合，比如“I love you”，与“我爱你”就是一对平行句对。平行语料在统计机器翻译和跨语言信息检索等领域是重要的基础性资源。国际机构LDC(Linguistic Data Consortium，语言数据联盟)就提供了大量的平行语料为相关的研究人员使用。

然而现有平行语料的数量和领域仍然无法应对互联网的使用环境。传统的平行语料来源主要分为三种：一、双语国家的法律文书和议会记录；二、宗教类翻译文本；三、文学类翻译文本。这些双语语料质量较高，然而数量有限且领域局限于法律、政治、宗教、文学等有限领域。在适用领域上存在非常大的局限性。在互联网适用环境下，我们迫切需要能够适应互联网这种多领域环境的语料资源。基本的办法是对互联网中存在的平行网站中抓取平行网页，再从平行网页中抽取平行文本，最后进行句子对齐得到平行语料。所谓平行网站，指的是一种多语言的网站，网站中的同一内容存在多个语言的版本，如***官方网站、香港政府网站等。所谓平行网页，是指平行网站中的同一内容的不同语种的一对网页，其网页结构也具有相似性。

传统互联网平行网页获取方法，分为两种，一种是使用URL模式的方法，该类方法基本思路为人工观察平行网站中平行网页的URL命名模式，预定义一些模式，如英法语网页模式：“fr”-“en”，中英语网页模式“ch”-“en”，有了这些预定义的模式，获取了平行网站的全站URL之后，就可以利用模式反向找到可能的平行网页对，然而由于这种方法使用人工预定义的有限URL模式，存在发现效率低下和对平行网站中平行网页发现不全的问题；另外一种是利用平行网页HTML结构相似性来实现平行网站中平行网页的递归同步访问，由于平行网页对的网页HTML结构具有相似性，利用页面HTML结构对齐的算法，就可以获得相对应的双语文本和下级候选平行网页链接对，再使用分类器对候选平行网页对进行检验。但这种方法由于使用分类器对页面对齐技术获取下级候选链接对进行一一检查，存在处理了大量候选对但只存在较少真正平行的链接对的问题，另外该技术对一个平行网站的处理结束条件为没有候选平行网页对时结束，但实际上候选网页对将持续膨胀，而其中的处理错误也将累积，导致不得不处理一部分就结束。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种平行网页获取方法和装置，结合上述两种方法的优点，克服两者的缺点，同时使用HTML结构信息和平行网页URL模式进行平行网页的发现。

为了实现上述目的，本发明采用的技术方案是：

一种平行网页获取方法，包括：

使用HTML结构信息实现对平行网站中平行网页的同步递归访问，使用URL模式优化遍历平行网站的路径；

对同步访问的候选平行网页对，使用分类器进行判定，对判定为平行网页的网页对，学***行网页对中的双语文本和下级候选网页链接对，利用学***行网页链接对优先队列；

对是否应该终止平行网页发现进行判定，最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘。

本发明所述平行网页，具体地，是指一对网页结构相同或相似，内容互相翻译的一对网页，网页结构相同或相似，是指网页排版从视觉效果上看具有一致性，同时网页的HTML源文件从树状HTML标记结构上看也具有相似性。

所述使用HTML结构信息实现对平行网站中平行网页的同步递归访问，具体包括：

使用网页HTML标记序列对齐技术，从平行网页中获取对齐HTML结构，从中抽取对齐的下级候选平行网页链接对，将下级候选平行网页链接对放入候选平行网页链接对队列，对一个平行网站，由于中英文首页是一对平行网页，且从首页出发可以遍历全站的网页，因此使用中英文首页作为种子平行网页，利用上述处理方法，实现对平行网站中的平行网页的同步递归访问。

所述HTML标记序列对齐，具体包括：

对网页HTML标记进行序列化，将一个树状的HTML标记结构序列化为一个HTML标记串，对一对HTML标记串，使用动态规划算法进行对齐，将对齐的部分找出，对齐的标记所对应的文本则可能是相互翻译的双语文本，所对应的网页链接对则可能是该网页对指向的下级候选平行网页对。

所述使用URL模式优化遍历平行网站的路径，具体包括：

对判定为平行网页的网页对，学***行网页链接对优先队列，将符合可信赖URL模式的链接对排序靠前，***优先处理，将不符合可信赖URL模式的链接对排序靠后，推迟处理，达到优先处理确实是平行网页的候选效果，实现了优化遍历平行网站路径的目的，具体地，所述URL模式的形式化定义为：

p＝{pt,w}，其中pt是指一对URL的命名模式，w指的是该模式在已经判定为平行网页的网页对中出现的频度；

候选平行网页链接对优先队列构建方法具体包括：对URL模式已出现频度大于某一个阈值的，认定为可信赖模式，遍历候选平行网页链接对候选队列，符合可信赖模式的排序靠前，同样符合可信赖模式的两个候选链接对，所对应模式频度较高的排序靠前。则可优先处理那些确实是平行网页对的候选，优化遍历平行网站的路径。

所述URL模式，具体地是指：

每一对平行网页的URL对应着一个命名模式，规则为“en”替换“gb”，“e”替换“c”，形式化地，将URL模式定义如下：

p＝{pt,w}

pt＝{tc₁→te₁,…,tc_n→te_n}

其中tc_i→te_i表示使用中文页面URL中的tc_i替换英文页面URL中的te_i，w为该模式出现的频度。

所述使用分类器进行判定，具体包括：

分类对象为：一对中英文网页；

分类器选取的特征为：

A：网页中中英文长度比：

B：HTML结构相似度：

C：内容翻译等价性：

\frac{Σ_{i = 1}^{n} \min ({wd}_{i} (e), Σ_{j = 1}^{m} {chiwd}_{j} ({wd}_{i} (e)))}{words (e)}

对一对候选中英文平行网页，使用分类器对其进行是否为真正平行网页进行判定：

特征A为页面内中文字符串c长度占英文页面内英文字符串e长度的比率；

特征B为对齐算法得到两个HTML文件tag标记序列seq(c),seq(e)的差异，除去差异，匹配成功的部分长度除以总长度得到的比率；

特征C为英文页面中的英文词wd_i(e)在词典中对应所有中文词chiwd_j(wd_i(e))在中文页面中出现次数之和，与wd_i(e)在英文页面中出现次数取较小数，相加得到对应中文词出现的总次数，除以所有英文词出现总数。

所述分类器可以为liblinear。

本发明可使用Early Stopping检测技术对是否应该终止平行网页发现进行判定，具体地：

Early Stopping检测是指：由于使用了可信赖URL模式对候选平行网页队列进行排序，因此***总是优先处理符合可信赖URL模式的网页对，当队列中没有符合可信赖模式链接对时，此时需要检测是否应当停止全站的平行网页发现；

检测流程如下：

A．遍历候选平行页面链接(URL)对队列，对所有URL对对应的命名模式p进行频度计算，频度计入模式的w频度域，对出现频度大于等于2的所有模式的总频度相加，得到一系列URL模式及使用这些模式命名的URL对的数量，记为count，

count = Σ_{i = 0}^{n} (w (p_{i}))

B．如果count>0，则使用所有计算得到频度大于等于2的URL模式对队列进行排序，返回false，信号量should_stop置为0；

C．如果count=0，则should_stop值加1，由于进程定期对URL队列进行排序，因此后续将再次遇到提前终止检查，如果count仍然为0，则should_stop值会增加，当should_stop值累加到阈值时，返回true，判定***此时到达了停止点，认为后续所有URL对中不存在平行页面对，所有***进程停止抓取。

本发明同时提供了一种平行网页获取装置，包括：

平行网页检查模块，用于判定一对候选网页对是否为平行网页；

双语文本抽取模块，用于从一对平行网页中抽取双语文本；

下级候选平行网页链接对抽取模块，用于从一对平行网页中抽取该网页对指向的下级平行网页的链接对；

URL模式学***行网页URL对应的命名模式，对重复出现的模式的频度进行更新维护，利用模式的频度信息进行排序，并给出可信赖URL模式；

候选平行网页链接对优先队列模块，用于使用学***行网页链接对队列进行排序，其中符合可信赖模式且可信赖模式频度大的排序靠前，反之靠后；

Early Stopping检测模块，用于检测候选平行网页链接对队列中是否还可能存在可能的平行网页，如果检测不存在，则停止***进程。

本发明通过结合URL模式及HTML结构信息，认为符合已经学***行网页对就是平行网页对，优先处理这些符合可信赖URL模式的候选平行网页，实现了高效准确的平行网页发现和获取，并通过EarlyStopping检测技术，避免***处理那些不可能是平行网页的候选，提高了处理速度，减少了带宽消耗，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的平行网页获取的方法流程图。

图2是本发明实施例2提供的平行网页获取的装置体系结构示意图。

图3是本发明实施例2提供的平行网页获取的装置中的平行网页检查模块结构示意图。

图4是本发明实施例2提供的平行网页获取的装置中的URL模式学习模块结构示意图。

图5是本发明实施例2提供的平行网页获取的装置中的候选平行网页链接对优先队列模块结构示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

实施例1

参见图1，本实施例提供了一种实现平行网页获取的方法，方法流程如下所示：

101:对一个双语网站，把该网站的中英文首页作为种子节点，从种子节点开始进行双语网站发掘；

102：对输入的中英文网页对，检查是否为平行网页对，判定给出结果，若判定为否，则舍弃该网页对，若判定为是，输入到下级处理单元；

103：对判定为平行网页对的一对中英文网页，抽取其中包含的双语文本及利用网页结构对齐技术抽取这对网页包含的下级候选平行网页链接对；

104:对判定为平行网页对的一对中英文网页，学***行网页对队列进行排序，排序的规则为：该网页对所对应的URL符合可信赖URL模式的排序靠前，符合的可信赖URL模式频度大的网页对靠前；

105：将从103输入的所抽取的下级候选平行网页对存入候选平行网页对队列，并在被触发状态下对平行网页对进行排序；

106：检查是否应该停止整个发现进程，如果是则整个平行网页发现进程停止，如果否，则取出候选平行网页链接对队列的最靠前网页对，重复从102开始流程。

实施例2

参见图2，本实施例提供了一种实现平行网页获取的装置，为对图1方法的细化实施例，具体流程如下：

201：平行网页检查模块；

具体地，平行网页检查模块使用分类器进行判定。分类对象为，一对中英文网页。处理前，预处理网页中的文本，预处理包括但不限于将网页中的中英文文本句子切分成词，并将存在词根的词映射为对应的词根，例如，将英文中代表名词复数的词映射成对应的单数词；将标点符号转换成单字节形式，例如，将中文双引号映射成ASCII码（American Standard Code for InformationInterchange，美国信息交换标准代码）；将易于转换的非***数字转换成***数字，例如，将“三十五”转换成“35”等。

该阶段使用的分类器选取的特征有三个：

A.网页中中英文长度比：

B.HTML结构相似度：

C.内容翻译等价性：

\frac{Σ_{i = 1}^{n} \min ({wd}_{i} (e), Σ_{j = 1}^{m} {chiwd}_{j} ({wd}_{i} (e)))}{words (e)}

选择其他分类特征并不构成本质上的创新。该工作中使用的分类器为liblinear，但使用其他分类器也不构成本质上的创新。

202：双语文本抽取模块；

对判定为是一对平行网页的中英文网页，其网页结构具有相似性，具体的反映在网页HTML标记结构上也具有相似性。使用网页HTML标记序列对齐技术抽取网页中包含的双语文本。其预处理包括但不限于：滤除HTML中java sript脚本片段；转换HTML文本文件中HTML实体，如“ ”转换为空格，“<”转换为“<”；去除HTML注释；为了排除不同链接对对齐效果的影响，统一将链接节点标记为“#link”。

然后使用HTML网页解析器构建HTML网页标记树，并对其进行序列化，使HTML标记序列成为一个标记序列。使用动态规划算法对两个标记序列进行对齐（类似于UNIX***中的Diff命令），则可以找到两个HTML中的对齐部分，最后抽出对齐部分中包含的双语文本。

203：下级候选平行网页链接对抽取模块；

与202相似，从一对判定是平行网页的中英文网页中抽取网页包含的下级候选平行网页链接对，要首先对HTML文件进行预处理。其预处理包括但不限于：取出HTML中java sript脚本片段；转换HTML文本文件中HTML实体，如“ ”转换为空格，“<”转换为“<”；去除HTML注释；为了排除不同文本对对齐效果的影响，统一将文本节点标记为“#text”。

然后使用HTML网页解析器构建HTML网页标记树，对其进行序列化，使HTML标记序列成为一个标记序列。使用动态规划算法对两个标记序列进行对齐（类似于UNIX***中的Diff命令），则可以找到两个HTML中的对齐部分，最后抽出对齐部分包含的下级候选平行网页链接对。

204：URL模式学习模块；

URL模式，具体地是指：

每一对平行网页的URL对应着一个命名模式，如下例所示，规则为“en”替换“gb”，“e”替换“c”。形式化地，将URL模式定义如下：

p＝{pt,w}

pt＝{tc₁→te₁,…,tc_n→te_n}

其中tc_i→te_i表示使用中文页面URL中的tc_i替换英文页面URL中的te_i。w为该模式出现的频度。

URL模式学***行网页对学***行网页对的URL模式，并提供可信赖URL模式，以帮助候选平行网页链接对优先队列模块对其包含的链接对进行排序。

205：候选平行网页链接对队列模块；

模块保存所有抽取的候选平行网页链接对，并利用URL模式学习模块提供的可信赖URL模式对其中的链接对进行排序，排序的规则为：该网页对所对应的URL符合可信赖URL模式的排序靠前，符合的可信赖URL模式频度大的网页对靠前。在符合可信赖模式的链接对数量为0时，该模块触发Early Stopping检测模块。

206：Early Stopping检测模块；

使用Early Stopping检测技术对是否应该终止平行网页发现进行判定，具体的。

Early Stopping检测的前提是：由于使用了可信赖URL模式对候选平行网页链接对队列进行排序，因此***总是优先处理符合可信赖URL模式的网页对，当队列中没有符合可信赖URL模式的链接对时，需要检测是否应当停止全站的平行网页发现。

检测流程为：

A.遍历候选平行页面链接对队列，对所有URL链接对对应的命名模式p进行频度计算，频度计入模式的w频度域，对出现频度大于等于2的所有模式的频度进行相加，得到一系列URL命名模式及使用这些模式命名的URL对的数量，记为count。

count = Σ_{i = 0}^{n} (w (p_{i}))

B.如果count>0，则使用所有计算得到频度大于等于2的URL模式对队列进行排序，返回false，信号量should_stop置为0。

C.如果count=0，则should_stop值加1。由于进程定期（每处理一定数量页面对后）对URL队列进行排序，因此后续将再次遇到提前终止检查，如果count仍然为0，则should_stop值会增加，当should_stop值累加到阈值（如5）时，返回true。判定***此时到达了停止点，认为后续所有URL对中不存在平行页面对，所有***进程停止抓取。

该模块能有效的检测出队列中是否还存在可能的平行网页对，有效避免处理大量不可能存在平行网页的链接对，加快了网站处理速度，节约了带宽消耗和处理时间。

实施例3

参见图3，本实施例提供了一种平行网页检查装置，该装置包括：

201a网页对特征计算单元，对输入的一对待检查网页对，计算该网页对对应的三种特征；

201b判定单元，使用分类器对特征参数进行分类，以确定该网页对是否为平行网页对。

实施例4

参见图4，本实施例提供了一种URL模式学习装置，该装置包括：

204a模式计算单元，计算一对URL所对应的URL模式；

204b模式频度单元，对重复出现的模式的频度进行计算和更新；

204c模式排序单元，根据模式的频度对URL模式队列进行排序，频度高的排序靠前，反之靠后；

204d可信赖模式判定单元，对某些频度大于一定阈值的模式，认定为是可信赖模式，凡是符合可信赖模式的URL链接对，可直接认定为是平行网页对，而不需要经过平行网页检查模块的检查。

实施例5

参见图5，本实施例提供了一种Early Stopping检测装置，该装置包括：

206a队列模式计算单元，计算候选平行网页链接对队列中所有URL对所对应的URL模式，并对重复出现的URL模式进行计算；

206b模式频度累加单元，累加所有频度大于等于2的URL模式的频度，得出总的重复模式出现次数；

206c判定单元，重复模式出现次数大于0的，认定为还需要继续发现，并根据模式频度，对候选平行网页链接对进行排序，排序规则为，该链接对所对应的URL符合频度大于等于2的URL模式的排序靠前，所符合的URL模式频度大的链接对靠前；如果等于0，则认定候选平行网页链接对中不可能存在平行网页，结束整个网站的平行网页对发现。

Claims

1.一种平行网页获取方法，其特征在于，包括：

2.根据权利要求1所述的平行网页获取方法，其特征在于，所述平行网页，具体地，是指一对网页结构相同或相似，内容互相翻译的一对网页，网页结构相同或相似，是指网页排版从视觉效果上看具有一致性，同时网页的HTML源文件从树状HTML标记结构上看也具有相似性。

3.根据权利要求1所述的平行网页获取方法，其特征在于，所述使用HTML结构信息实现对平行网站中平行网页的同步递归访问，具体包括：

使用网页HTML标记序列对齐技术，从平行网页中获取对齐HTML结构，从中抽取对齐的下级候选平行网页链接对，将下级候选平行网页链接对放入候选平行网页链接对队列，则在平行网站中实现宽度优先的平行网页同步递归访问。

4.根据权利要求3所述的平行网页获取方法，其特征在于，所述HTML标记序列对齐，具体包括：

5.根据权利要求1所述的平行网页获取方法，其特征在于，所述使用URL模式优化遍历平行网站的路径，具体包括：

候选平行网页链接对优先队列构建方法具体包括：对URL模式已出现频度大于某一个阈值的，认定为可信赖模式，遍历候选平行网页链接对候选队列，符合可信赖模式的排序靠前，同样符合可信赖模式的两个候选链接对，所对应模式频度较高的排序靠前。

6.根据权利要求5所述的平行网页获取方法，其特征在于，所述URL模式，具体地是指：

p＝{pt,w}

pt＝{tc₁→te₁,…,tc_n→te_n}

7.根据权利要求1所述的平行网页获取方法，其特征在于，所述使用分类器进行判定，具体包括：

分类对象为：一对中英文网页；

分类器选取的特征为：

A.网页中中英文长度比：

B.HTML结构相似度：

C.内容翻译等价性：

\frac{Σ_{i = 1}^{n} \min ({wd}_{i} (e), Σ_{j = 1}^{m} {chiwd}_{j} ({wd}_{i} (e)))}{words (e)}

8.根据权利要求1或7所述的平行网页获取方法，其特征在于，所述分类器为liblinear。

9.根据权利要求1所述的平行网页获取方法，其特征在于，使用EarlyStopping检测技术对是否应该终止平行网页发现进行判定，具体地：

检测流程如下：

A.遍历候选平行页面链接(URL)对队列，对所有URL对对应的命名模式p进行频度计算，频度计入模式的w频度域，对出现频度大于等于2的所有模式的总频度相加，得到一系列URL模式及使用这些模式命名的URL对的数量，记为count，

count = Σ_{i = 0}^{n} (w (p_{i}))

B.如果count>0，则使用所有计算得到频度大于等于2的URL模式对队列进行排序，返回false，信号量should_stop置为0；

C.如果count=0，则should_stop值加1，由于进程定期对URL队列进行排序，因此后续将再次遇到提前终止检查，如果count仍然为0，则should_stop值会增加，当should_stop值累加到阈值时，返回true，判定***此时到达了停止点，认为后续所有URL对中不存在平行页面对，所有***进程停止抓取。

10.一种平行网页获取装置，其特征在于，包括：

双语文本抽取模块，用于从一对平行网页中抽取双语文本；