CN103853834A

CN103853834A - 基于文本结构分析的Web文档摘要的生成方法

Info

Publication number: CN103853834A
Application number: CN201410090200.0A
Authority: CN
Inventors: 沈怡涛; 顾君忠; 林晨
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2014-06-11
Anticipated expiration: 2034-03-12
Also published as: CN103853834B

Abstract

本发明公开了一种基于文本结构分析的Web文档摘要的生成方法，该方法以一个URL作为输入，综合视觉特征和文本特征的网页正文提取，将正文分割成若干个语义段，再对各语义段进行摘要的方式，使得生成的摘要拥有较高的覆盖率。本发明针对Web页面结构复杂，难以识别正文，且中文自动摘要还处于探索阶段的情况下，实现了对Web网页生成质量较好的文本摘要。

Description

基于文本结构分析的Web文档摘要的生成方法

技术领域

本发明涉及网页正文提取、自然语言处理、中文自动文摘技术领域，具体地说是一种基于文本结构分析的Web文档摘要的生成方法。

背景技术

目前，Internet已经成为了人们获取信息的主要来源。特别是近年来用户生成内容（UGC）的飞速发展，Internet上的信息正在爆发式增长。搜索引擎虽然能够根据用户要求返回搜索结果。但用户仍然需要从搜索列表中寻找最适合自己需要的网页，特别是由于互联网上大量存在的搜索引擎优化和转载现象，给用户快速准确的寻找信息带来了很大困难。

自动文摘***是利用计算机快速处理Web文档，从中按一定压缩比抓取出Web文档的核心内容，用户可以从中获取主题信息并判断该Web文档的价值，提高了用户搜索信息的效率。

Web文档中大量存在着噪声信息，如广告、导航栏、用户功能条、相关推荐、版权信息等与主题无关的信息。Web文档是一种半结构化信息，虽然具有一定结构，但语义无法确定。内容在HTML源代码中的表示和最终渲染得到的页面会有很大区别。近年来JS和AJAX技术的大量应用，使得网页数据不再是静态的HTML代码，而是动态生成的，甚至针对用户的操作行为还会产生相应改变。所以如何从Web文档中抽取出和主题相关的且结构正确的内容，存在着一定的难度。

中文自动文摘***的研究大约有二十余年的历史，但目前还处于探索阶段，自动摘要的结果还远远不能令人满意。自动摘要的方法主要分为两大类，基于理解的自动文摘和基于抽取的自动文摘。由于自然语言处理技术仍没有重大突破，所以基于理解的方法并不能真正的实现自动文摘。

而面向Web文档的自动摘要技术的研究历史更短，“与传统文本相比，网页的文本结构松散，标题命名相对不那么严谨，一个句子结束也可能没有结束符，并且存在大量的与正文不相关的内容，这给摘要的生成带来一定的困难。”

发明内容

本发明的目的是提供一种基于文本结构分析的Web文档摘要的生成方法，该方法综合运用了视觉特征分析、自然语言分析、文本结构分析等技术，为搜索结果中的每个网页生成基于语义的，质量较好的网页摘要，为用户提供参考。

本发明的目的是这样实现的：

一种基于文本结构分析的Web文档摘要的生成方法，它包括以下步骤：

1）输入待摘要网页的URL；

2）从待摘要网页基于视觉分析提取网页正文，具体包括；

2.1）采用浏览器核心对Web文档进行解析和渲染；

2.2）采用视觉树(VIPS)算法对网页进行分块，得到各区块的位置、面积；

2.3）对各区块进行分词；

2.4）对各区块分析文本特征；

2.5）对各区块是否包含正文进行打分；

2.6）将得分高于某一阈值的文本按顺序连接起来；

2.7）输出Web文档正文；

3）对提取的正文进行基于文本结构分析的自动摘要，具体包括：

3.1）由步骤2)得到网页正文；

3.2）对正文进行分词和词性标注；

3.3）进行文本预处理：识别正文中的基本结构，即识别文章标题，完成句子、段落切分；

3.4）对正文进行语义段切分，通过文本结构分析识别语义发生转换的位置，作为语义段切分的标志；

3.5）对每个语义段，利用TFIDF的推广方法，对每个句子在所在语义段中的重要性进行度量，然后根据文摘字数要求，提取出若干句最能代表该语义段主题的句子；

3.6）将各句子按顺序连接起来，输出文摘。

所述步骤2.4)中的文本特征为字数、字号、陈述句数量、非陈述句数量及文本片断数量。

所述步骤2.5)中所述判断各区块是否包含正文进行打分，使用以下公式计算打分的分值：

V (s) = \frac{S^{2} * P (x_{1}, x_{2}, x_{3}, x_{4})}{N + 1}

其中S表示陈述句数量，N表示非陈述句数量，P是根据区块大小和位置计算得到的一个值,x₁，y₁表示区块左上角的坐标，x₂，y₂表示区块右下角的坐标。

所述步骤3.4)中语义发生转换的位置的分析识别是：

1）对文档D进行分句，每两个相邻的句子之间均为待定分割点；

2）对每个待定分割点进行打分，其公式为：

Q (p_{i}) = \underset{i + 1 < j \leq i + a}{Σ} R (s_{i}, s_{j}) - \underset{i - a < = j < i}{Σ} R (s_{i}, s_{j})

其中，R(s_i，s_j)表示句子s_i和句子s_j的句间语义相关度；p_i表示分割点在句子s_i和s_i-1之间，如果Q(p_i)＞Q(p_i-1)且Q(p_i)＞Q(p_i+1)，说明p_i是分割点权值的极大值点，所以p_i是该文本中语义段之间的分割点。a为一个可调节的经验参数，表示在识别分割点时的语义分析的范围，即表示考虑分割点前后各a个句子。

3）若分割点的分值大于某一阈值，且为局部最大值，即分值高于前后两个分割点的分值，该分割点就是语义段的切分点，即步骤3.4)中所述语义发生转换的位置。

所述语义发生转换的位置的分析识别步骤2)中句间语义相关度的计算包括以下步骤：

1）将句子切分成词的集合；

2）使用以下公式计算句间语义相关度

R (s_{1}, s_{2}) = \underset{w_{i} &Element; s_{1}}{Σ} \max (R (w_{i}, w_{j})) (w_{j} &Element; s_{2})

其中R(w_i，w_j)表示词w_i和词w_j的词间语义相关度。

所述步骤3.5)中对每个句子在所在语义段中的重要性进行度量使用以下公式计算：

V(S_l)=sum(w∈S₁)*TFIDF(w)

其中，计算TFIDF(w)时，将每个段落视为独立的文件，将整篇文章包含的若干个段落视为文件集。

本发明能够过滤掉网页中和主题无关的文字、链接等，识别出网页中所包含的文章正文，准确率较高，且拥有较高的鲁棒性。自动摘要流程采用了基于文本结构分析的自动文摘技术，生成的摘要覆盖率高而且摘要较为流畅。

本发明能针对Web文档，按用户指定的压缩比要求，仅需要输入待摘要网页的URL地址，就可在数秒的时间内，形成能覆盖原文意思，较为准确、流畅的摘要，帮助用户快速准确的在互联网中寻找信息。

附图说明

图1为本发明流程图；

图2为本发明网页预处理流程图；

图3为本发明自动摘要流程图

具体实施方式

本发明公开了一种面向搜索引擎的Web文档摘要生成方法，可以自动分析一个Web网页，并生成反应网页主题的文本摘要。

本发明包含一个综合了视觉特征和文本特征的网页正文提取和一个基于通过文本结构分析进行子主题划分的自动文本摘要。

本发明以一个URL作为输入，经过网页正文提取、自动摘要两个阶段，最终生成文本摘要。

下面对所述两个阶段的具体算法，结合对一个新闻网页进行摘要为例作进一步说明：

图1描述了从待摘要URL到生成摘要的总体流程，其中包括了网页预处理流程和自动摘要流程。

具体地，在实施例中，本发明在网页预处理流程（见图2）URL输入步骤中获取待摘要新闻网页的URL。网页预处理流程通过分析视觉特征，可以更准确的找到网页中的正文部分，比其他方法拥有更高鲁棒性。同时综合考虑文本特征、文本相关度分析、HTML标签特征、语义特征等其他特征，进一步提高Web网页正文提取的准确性。

网页渲染步骤负责读取输入URL对应的网页，在该实施例中，采用IE11浏览器核心对HTML标签进行处理，并渲染该网页。在网页渲染的基础上，视觉树分析步骤采用VIPS算法，对网页进行视觉树分析，得到各区块的位置、面积。在该实施例中，该步骤将待摘要的新闻网页分割成6个区块:一个顶部区块、一个底部区块、一个导航区块、一个广告区块和两个包含正文的区块。分词步骤负责对各区块进行分词。然后，文本特征分析步骤对分词结果进行文本特征分析。最后综合分析步骤对视觉树分析得到的各区块的特征和文本特征进行综合分析，输出新闻正文。

在该实施例中，采用下列公式计算P(x₁，y₁，x₂，y₂)。

P(x_l，y_l，x₂y₂)＝(x₂-x₁)*(y₂-y₁)-x₁*y₁

其中x₁，y₁表示区块左上角的坐标，x₂，y₂表示区块右下角的坐标。然后计算出每个区块的V(s)值:

V (s) = \frac{S^{2} * P (x_{1}, x_{2}, x_{3}, x_{4})}{N + 1}

上述6个区块的V(s)值从大到小分别为3.7×10⁶，2.3×10⁶，7.5×10⁵，5.4×10⁶，3.7×10⁵，1.6×10⁵，1.2×10⁴。

在该实施例中，采用的阈值为10⁶，所以选取V(s)大于10⁶的区块，即V(s)值最大的两个区块。在该实施例中，V(s)值最大的两个区块就是两个包含正文的区块，所以正确提取到了新闻正文。

在提取出新闻正文后，接着进行自动摘要流程（见图3），包含文本预处理、词间相关度计算、句间相关度计算、语义段分割、摘要生成这些步骤。

一个文本预处理步骤，识别正文中的基本结构，即识别文章标题，完成句子、段落切分。在该实施例中，新闻正文共包含8个段落，23个句子。

词间相关度计算步骤基于知网提供的计算语义学知识，通过计算两个词的义原相似度来得到两个词语的相关度。采用的公式如下：

R(w_l，w₂)＝max(Rele(C_i，C_j))(C_i∈w₁，C_j∈w₂)

其中R(w₁，w₂)表示了两个词之间语义相关度，Rele(C_i，C_j)表示了两个义原的相关度，取其最大值表示两个词的语义相关度。

句间相关度步骤通过分析两个句子中词语间的相关度得到两个句子的相关度。

R (s_{1}, s_{2}) = \underset{w_{i} &Element; s_{1}}{Σ} \max (R (w_{i}, w_{j})) (w_{j} &Element; s_{2})

其中R(s₁，s₂)表示了两个句子之间的相关度，为每个句子1中的词，找句子2中与之相关度最大的词，计算这两个词之间的相关度。最后将这些最大值求和，得到这两个句子之间的相关度。

一个语义段分割步骤，参考了文献《基于内容相关度计算的文本结构分析方法研究》来进行文本结构分析。语义段之间分割点的特征是分割点后的第一个句子和之前若干句子的相关度很小，而跟之后若干个句子的相关度较大。采用以下公式对该实施例中的23个句子间的22个分割点计算分割点的分值，并寻找函数Q(p_i)的极大值点：

Q (p_{i}) = \underset{i + 1 < j \leq i + a}{Σ} R (s_{i}, s_{j}) - \underset{i - a < = j < i}{Σ} R (s_{i}, s_{j})

在该实施例中，Q(p_i)包含2个极大值点，依据这两个极大值点，将该新闻分割成3个语义段。每个语义段包含了新闻的一个子主题，在该实施例中，第一个语义段是对新闻事件的概述，后两个语义段是两方对该新闻事件分别的评论。

一个摘要生成步骤，根据用户要求，从文本格式的正文中按一定比例提取出摘要。

在该实施例中，该摘要生成步骤通过句间相关度计算步骤，计算各个子主题中的句子和文章标题词汇序列的相关度之和，从而确定各子主题的价值。从子主题中抽取句子的数量和该子主题和文章标题的相关度成正比。

在该实施例中，用户指定的比例为0.2，即提取23句中的5句话形成摘要。通过对3个子主题的价值进行计算，确定从3个语义段中分别提取2、1、1个句子。最后，所述摘要生成步骤将选取的5个摘要句按顺序连接，形成摘要并输出。

Claims

1.一种基于文本结构分析的Web文档摘要的生成方法，其特征在于：该方法包括以下步骤：

1）输入待摘要网页的URL；

2）从待摘要网页基于视觉分析提取网页正文，具体包括；

2.1）采用浏览器核心对Web文档进行解析和渲染；

2.2）采用视觉树算法对网页进行分块，得到各区块的位置、面积；

2.3）对各区块进行分词；

2.4）对各区块分析文本特征；

2.5）对各区块是否包含正文进行打分；

2.6）将得分高于某一阈值的文本按顺序连接起来；

2.7）输出Web文档正文；

3.1）由步骤2)得到网页正文；

3.2）对正文进行分词和词性标注；

3.6）将各句子按顺序连接起来，输出文摘。

2.根据权利要求1所述的方法，其特征在于：步骤2.4)中所述的文本特征为字数、字号、陈述句数量、非陈述句数量及文本片断数量。

3.根据权利要求1所述的方法，其特征在于：步骤2.5)中所述判断各区块是否包含正文进行打分，使用以下公式计算打分的分值：

V (s) = \frac{S^{2} * P (x_{1}, x_{2}, x_{3}, x_{4})}{N + 1}

4.根据权利要求1所述的方法，其特征在于：步骤3.4)中所述语义发生转换的位置的分析识别是：

2）对每个待定分割点进行打分，其公式为：

Q (p_{i}) = \underset{i + 1 < j \leq i + a}{Σ} R (s_{i}, s_{j}) - \underset{i - a < = j < i}{Σ} R (s_{i}, s_{j})

其中，R(s_i，s_j)表示句子s_i和句子s_j的句间语义相关度；p_i表示分割点在句子s_i和s_i-1之间，如果Q(p_i)＞Q(p_i-1)且2(p_i)＞Q(p_i+1)，说明p_i是分割点权值的极大值点，所以p_i是该文本中语义段之间的分割点；a为一个可调节的经验参数，表示在识别分割点时的语义分析的范围，即表示考虑分割点前后各a个句子；

5.根据权利要求4所述的方法，其特征在于：步骤2)中所述句间语义相关度的计算包括以下步骤：

1）将句子切分成词的集合；

2）使用以下公式计算句间语义相关度

R (s_{1}, s_{2}) = \underset{w_{i} &Element; s_{1}}{Σ} \max (R (w_{i}, w_{j})) (w_{j} &Element; s_{2})

其中R(w_i，w_j)表示词w_i和词w_j的词间语义相关度。

6.根据权利要求1所述的方法，其特征在于：步骤3.5)中所述对每个句子在所在语义段中的重要性进行度量使用以下公式计算：

V(S₁)=sum(w∈S₁)*TFIDF(w)