CN105447026A

CN105447026A - 基于多视角图中最小权重连通决定集的Web信息提取方法

Info

Publication number: CN105447026A
Application number: CN201410426746.9A
Authority: CN
Inventors: 李涛; 李千目; 王鹏飞
Original assignee: Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Current assignee: Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-03-30

Abstract

本发明公开了一种基于多视角图中最小权重连通决定集的Web信息提取方法，集成了文本，图像和时间信息，通过将问题转化为基于图的优化问题并通过对该问题的求解生成以故事轴为基础的摘要以反映给定主题的事件演变过程。其优势在于：（1）本发明提出的方法结合了图像和文本处理，以改善语义分析，并向读者提供生动的图示摘要。（2）我们将问题转化为基于图的优化问题并利用高效的启发式方法解决该问题。（3）生成的故事轴同时实现了时间上的连续性和内容上的连贯性，提高了检索的速度，向读者提供了更丰富的信息和更好的结果。

Description

基于多视角图中最小权重连通决定集的Web信息提取方法

技术领域

本发明涉及一种新的对某主题进行Web信息提取方法，具体是一种通过多视角图中最小权重连通决定集生成图示故事轴的Web信息提取方法。

背景技术

随着信息技术的飞速发展,互联网已经成为最流行的信息发布媒介。人们无论是发布信息还是阅读信息都变的极为方便。然而,随着互联网信息***性地增长,人们在互联网上搜索信息时经常会遇到这种问题：浏览一个特别大的Web文档集并提取出有意义信息。近些年来，为解决这个问题，人们提出了各种类型的Web文档理解***。例如，基于查询的多文档自动摘要***，其目的是从文档中抽取摘要语句使其可以传递文档的原则性内容或与查询相关的内容；主题检测与跟踪***，用来监测与某一话题有关的事件动态；时间轴生成***，利用文档中出现的时间信息，通过生成摘要描述关于某个主题的事件演化。

多文档自动摘要通过提取文档中原理性信息或与查询相关的信息把文档转换成一个很小的摘要。人们已经提出了各种各样的多文档自动摘要方法。最常用的是基于质心或基于图形的，另外还有如潜在语义分析（LSA），非负矩阵分解（NMF）和基于语句的主题模型等，它们通过选择文档中语义重要的句子来生成摘要。大多数现有的方法从输入中提取语句而形成简短的摘要，但是忽略了可能存在于输入文档中的时序和结构信息。

主题检测与跟踪（TDT）的目的是根据新闻类文章中讨论的主题对文章进行分组以提取一些新的，以前未报告的事件，并跟踪该主题的未来事态。信息检索技术（如信息提取，过滤和文本聚类）通常被应用于这些问题。

另外存在着在生成关于某个主题的时间轴和故事轴方面的研究。这些时间轴生成方法参考了时序信息，并以线性结构展示出来。谷歌新闻时间轴对新闻类文章依据主题进行分组，然后以时间次序排序。

虽然这些文档的理解***可以减少信息过载的问题，但他们仍然面临两大局限：（1）大多数***侧重于突出和总结某个话题的事件而缺乏捕获事件演变的主题结构。虽然时间轴***提出了一种基于时间顺序的事件序列，但线性结构的事件轴通常失去了事件演变过程的全面信息。（2）这些***通常以文本的形式作出总结，但对读者来说文本有时可能看起来乏味和无趣。

发明内容

1、本发明的目的。

本发明所述的基于多视角图中最小权重连通决定集的Web信息提取方法不同于上述现有方法，本发明提出的方法集成了文本，图像和时间信息，并生成以故事轴为基础的摘要以反映给定主题的演变。本发明通过生成图示和时序的故事轴以解决上述所述的两个局限，即基于时序组织摘要，给读者提供可以用来跟踪的摘要结构，并且使用图示使摘要更易于阅读且更易于被读者理解。

2、本发明所采用的技术方案。

（1）预处理：输入主题和关于该主题的对象的集合，其中每个对象包含图像附带时间戳和文本信息；

（2）通过文本和图像分析，结合时序信息构建一个多视角对象图，图中每个顶点代表一幅图像，并与描述该图像的文本关联,多视角对象图中有两组边，无向边表示对象之间的相似度的等级，有向边表示按照类型的成对时序关系。每个顶点被分配一个权重值，权重值代表对象与查询之间的相似度；

（3）求解最小权重决定集，从而得到一组节点，即决定对象；

（4）通过使用有向Steiner树生成一个故事轴，输出由时间戳关联的对象组成的图示时序故事轴。

更进一步，所述的多视角对象图构建按照如下步骤进行：

（1）定义：多视角图为一个三元组，其中是顶点的集合，是无向边的集合，是有向边的集合；按照所述的已知图像和带有时间戳的文本描述的集合，构造一个多视角对象图：将图像视为顶点，基于文本和图像的相似度计算无向边，基于时间戳的不同计算有向边，使用四个非负实参，，，定义这些边；

（2）采用标准的词袋表示文本；在信息检索中，词袋即对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的；

（3）对于图像，我们采用颜色和边缘方向性描述，从颜色和纹理的角度计算它们的特征，用余弦度量来计算相似度。

更进一步，所述的用余弦度量来计算特征向量相似度采用如下方法：

假设和是顶点中的两个对象，用无向边把这两个对象连起来当且仅当两者之间的文本相似度和图像相似度分别大于边和边，从到画一条有向边当且仅当，其中和分别是它们的时间戳，为时间窗口；对每个顶点，它的顶点权重等于1减主题和对象之间的余弦相似度。

更进一步，所述的通过最小权重决定集识别与查询相关的决定对象采用如下方法：

如果一个图的顶点和之间有一条边相连，则定义为顶点决定了图的另一个顶点；无向图的顶点集的一个子集是一个决定集，如果对每个顶点，要么在中，要么中的一个顶点决定，寻找查询相关对象集的问题可以看作是在无向图(中找到最小权重决定集问题即给定一个顶点加权无向图G，从所有G的决定集中找到所有顶点权重最小的一个决定集：

步骤1：初始化决定集为空集，定义一个中间集合，初始化为；

步骤2：对顶点集合中每个未包含在中的顶点，找到与相邻且不属于中间集合的顶点，计算其个数；

步骤3：计算每个的权重与的比值，找到比值最小的顶点；

步骤4：将加到决定集中，将的相邻点加到中间集合中；

步骤5：重复步骤2到步骤5，直到决定集中的顶点树大于决定集最大值；

步骤6：最后得到无向图(的最小权重决定集。

更进一步，所述的通过有向Steiner树连接决定集中对象来生成故事轴按照如下方法生成，即决定集近似解从而得到对描述话题最有代表性的对象后，生成一个自然的故事轴，捕捉到查询相关事件的时间和结构信息：

给定一个有向加权图以及顶点子集，找到图中连接中所有顶点的最小权值的一棵树，即Steiner树，其中集合中的顶点被称作终端顶点；

当时，Steiner问题就是经典的计算最小生成树的问题；当时，Steiner问题就变成求解两点之间最短路径问题；

问题输出的Steiner树即为故事轴，该故事轴将根对象到所有其它决定集中的对象连接起来；

已知该问题的输入，其中表示顶点加权有向图，表示上述方法找到的最小决定集，表示决定集大小，表示Steiner树的根，为了找到以为根，覆盖中的个顶点的Steiner树，采用如下的方法：

步骤1：初始化为空集；

步骤2：初始化为空集，初始化中所有顶点的权值为；

步骤3：对每个顶点,,取1到k之间的每一个值，计算，如果中顶点的权值大于中顶点的权值则；

步骤4：；

步骤5：，，重复步骤2到步骤5，直到；

步骤6：返回。

3、本发明的有益效果。

（1）本发明提出的方法结合了图像时序和文本处理，并不简单的通过文本进行处理，改善了单纯的用语义分析，并向读者提供生动的图示摘要。

（2）将问题转化为基于图的优化问题并利用高效的启发式方法解决该问题。

（3）生成的故事轴同时实现了时间上的连续性和内容上的连贯性，使检索提取的速度大大提高，为读者提供了更丰富的信息和更好的结果。

附图说明

图1是本发明的生成流程图。

具体实施方式

为了使专利局的审查员尤其是公众能够更加清楚地理解本发明的技术实质和有益效果，申请人将在下面以实施例的方式作详细说明，但是对实施例的描述均不是对本发明方案的限制，任何依据本发明构思所作出的仅仅为形式上的而非实质性的等效变换都应视为本发明的技术方案范畴。

实施例

生成图示时序故事轴的问题可定义如下：

输入：查询主题和个对象的集合，，其中每个对象是一个包含文本描述（例如，一个小段落或一句话）和时间戳的一个图像。

输出：一个可以概述查询相关话题的最具代表性对象组成的图示时序故事轴。

下面我们将把这个问题转换成多视角图上的最小权重连通支配集问题，它可以被分解成两个优化问题：1）寻找最小权重支配集；2）使用有向Steiner树（SteinerTree）连接支配集元素。

1、多视角对象图构建

定义：多视角图（Multi-ViewGraph）是一个三元组，其中是顶点的集合，是无向边的集合，是有向边的集合。

已知图像和带有时间戳的文本描述的集合，我们构造一个多视角对象图：将图像视为顶点，基于文本和图像的相似度计算无向边，基于时间戳的不同计算有向边。我们使用四个非负实参，，，定义这些边。

对于文本，我们采用标准的“词袋”（”bag-of-words”）表示法。在信息检索中，“词袋”假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。对于图像，我们采用颜色和边缘方向性描述（ColorandEdgeDirectivityDescriptor，CEDD）从颜色和纹理的角度计算它们的特征。对于这两个特征向量，我们分别用余弦度量来计算相似度。

假设和是中的两个对象。为了定义，我们用一条边把这两个对象连起来当且仅当两者之间的文本相似度和图像相似度分别大于和。为了定义，我们从到画一条有向边当且仅当，其中和分别是它们的时间戳。我们称为时间窗口。对每个顶点，它的顶点权重等于1减和之间的余弦相似度。

2、通过最小权重决定集识别与查询相关的决定对象

如果一个图的顶点和之间有一条边相连，我们称决定了图的另一个顶点。无向图的顶点集的一个子集是一个决定集，如果对每个顶点，要么在中，要么中的一个顶点决定。寻找查询相关对象集的问题可以看作是在无向图(中找到最小权重决定集问题。

问题1（最小权重决定集问题（MWDS））：给定一个顶点加权无向图G，从所有G的决定集中找到所有顶点权重最小的一个决定集。

MWDS被称为是NP困难的，我们采用以下方法来获得该问题的近似解：

步骤1：初始化决定集为空集，定义一个中间集合，初始化为。

步骤2：对中每个未包含在中的顶点，找到与相邻且不属于的顶点，计算其个数。

步骤3：计算每个的权重与的比值，找到比值最小的顶点。

步骤4：将加到决定集中，将的相邻点加到集合中。

步骤5：重复步骤2到步骤5，直到决定集中的顶点树大于指定的决定集最大值。

步骤6：最后得到无向图(的最小权重决定集。

3、通过有向Steiner树连接决定集中对象来生成故事轴

使用上述方法得到决定集近似解从而得到对描述话题最有代表性的对象后，我们需要生成一个自然的故事轴，它可以捕捉到查询相关事件的时间和结构信息。为了研究这个问题，我们用到了Steiner树的概念。

问题2：给定一个有向加权图以及顶点子集，找到图中连接中所有顶点的最小权值的一棵树，即Steiner树。其中集合中的顶点被称作终端顶点。当时，Steiner问题就是经典的计算最小生成树的问题；当时，Steiner问题就变成求解两点之间最短路径问题。

该问题输出的Steiner树就是本发明生成的故事轴，该故事轴将根对象到所有其它决定集中的对象连接起来。

已知该问题的输入，其中表示顶点加权有向图，表示上述方法找到的最小决定集，表示决定集大小，表示Steiner树的根。为了找到以为根，覆盖中的个顶点的Steiner树，本发明使用如下的方法：

步骤1：初始化为空集。

步骤2：初始化为空集，初始化中所有顶点的权值为。

步骤3：对每个顶点,,取1到k之间的每一个值，计算，如果中顶点的权值大于中顶点的权值则。

步骤4：

步骤5：，，重复步骤2到步骤5，直到。

步骤6：返回，作为问题2的结果。

Claims

1.一种基于多视角图中最小权重连通决定集的Web信息提取方法，其特征在于按照如下步骤进行：

预处理：输入主题和关于该主题的对象的集合，其中每个对象包含图像附带时间戳和文本信息；

通过文本和图像分析，结合时序信息构建一个多视角对象图，图中每个顶点代表一幅图像，并与描述该图像的文本关联,多视角对象图中有两组边，无向边表示对象之间的相似度的等级，有向边表示按照类型的成对时序关系，每个顶点被分配一个权重值，权重值代表对象与查询之间的相似度；

2.根据权利要求1所述的多视角图中最小权重连通决定集的Web信息提取方法，其特征在所述的多视角对象图构建按照如下步骤进行：

采用标准的词袋表示文本；在信息检索中，词袋即对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的；

对于图像，我们采用颜色和边缘方向性描述，从颜色和纹理的角度计算它们的特征，用余弦度量来计算相似度。

3.根据权利要求2所述的多视角图中最小权重连通决定集的Web信息提取方法，其特征在于所述的用余弦度量来计算特征向量相似度采用如下方法：

4.根据权利要求1所述的多视角图中最小权重连通决定集的Web信息提取方法，其特征在于所述的步骤（3）中通过最小权重决定集识别与查询相关的决定对象采用如下方法：

步骤3：计算每个的权重与的比值，找到比值最小的顶点；

步骤4：将加到决定集中，将的相邻点加到中间集合中；

步骤6：最后得到无向图(的最小权重决定集。

5.根据权利要求4所述的多视角图中最小权重连通决定集的Web信息提取方法，其特征在于所述的通过有向Steiner树连接决定集中对象来生成故事轴按照如下方法生成，即决定集近似解从而得到对描述话题最有代表性的对象后，生成一个自然的故事轴，捕捉到查询相关事件的时间和结构信息：

步骤1：初始化为空集；

步骤2：初始化为空集，初始化中所有顶点的权值为；

步骤4：；

步骤5：，，重复步骤2到步骤5，直到；

步骤6：返回。