CN105447026A - 基于多视角图中最小权重连通决定集的Web信息提取方法 - Google Patents
基于多视角图中最小权重连通决定集的Web信息提取方法 Download PDFInfo
- Publication number
- CN105447026A CN105447026A CN201410426746.9A CN201410426746A CN105447026A CN 105447026 A CN105447026 A CN 105447026A CN 201410426746 A CN201410426746 A CN 201410426746A CN 105447026 A CN105447026 A CN 105447026A
- Authority
- CN
- China
- Prior art keywords
- summit
- determined set
- image
- text
- visual angles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多视角图中最小权重连通决定集的Web信息提取方法,集成了文本,图像和时间信息,通过将问题转化为基于图的优化问题并通过对该问题的求解生成以故事轴为基础的摘要以反映给定主题的事件演变过程。其优势在于:(1)本发明提出的方法结合了图像和文本处理,以改善语义分析,并向读者提供生动的图示摘要。(2)我们将问题转化为基于图的优化问题并利用高效的启发式方法解决该问题。(3)生成的故事轴同时实现了时间上的连续性和内容上的连贯性,提高了检索的速度,向读者提供了更丰富的信息和更好的结果。
Description
技术领域
本发明涉及一种新的对某主题进行Web信息提取方法,具体是一种通过多视角图中最小权重连通决定集生成图示故事轴的Web信息提取方法。
背景技术
随着信息技术的飞速发展,互联网已经成为最流行的信息发布媒介。人们无论是发布信息还是阅读信息都变的极为方便。然而,随着互联网信息***性地增长,人们在互联网上搜索信息时经常会遇到这种问题:浏览一个特别大的Web文档集并提取出有意义信息。近些年来,为解决这个问题,人们提出了各种类型的Web文档理解***。例如,基于查询的多文档自动摘要***,其目的是从文档中抽取摘要语句使其可以传递文档的原则性内容或与查询相关的内容;主题检测与跟踪***,用来监测与某一话题有关的事件动态;时间轴生成***,利用文档中出现的时间信息,通过生成摘要描述关于某个主题的事件演化。
多文档自动摘要通过提取文档中原理性信息或与查询相关的信息把文档转换成一个很小的摘要。人们已经提出了各种各样的多文档自动摘要方法。最常用的是基于质心或基于图形的,另外还有如潜在语义分析(LSA),非负矩阵分解(NMF)和基于语句的主题模型等,它们通过选择文档中语义重要的句子来生成摘要。大多数现有的方法从输入中提取语句而形成简短的摘要,但是忽略了可能存在于输入文档中的时序和结构信息。
主题检测与跟踪(TDT)的目的是根据新闻类文章中讨论的主题对文章进行分组以提取一些新的,以前未报告的事件,并跟踪该主题的未来事态。信息检索技术(如信息提取,过滤和文本聚类)通常被应用于这些问题。
另外存在着在生成关于某个主题的时间轴和故事轴方面的研究。这些时间轴生成方法参考了时序信息,并以线性结构展示出来。谷歌新闻时间轴对新闻类文章依据主题进行分组,然后以时间次序排序。
虽然这些文档的理解***可以减少信息过载的问题,但他们仍然面临两大局限:(1)大多数***侧重于突出和总结某个话题的事件而缺乏捕获事件演变的主题结构。虽然时间轴***提出了一种基于时间顺序的事件序列,但线性结构的事件轴通常失去了事件演变过程的全面信息。(2)这些***通常以文本的形式作出总结,但对读者来说文本有时可能看起来乏味和无趣。
发明内容
1、本发明的目的。
本发明所述的基于多视角图中最小权重连通决定集的Web信息提取方法不同于上述现有方法,本发明提出的方法集成了文本,图像和时间信息,并生成以故事轴为基础的摘要以反映给定主题的演变。本发明通过生成图示和时序的故事轴以解决上述所述的两个局限,即基于时序组织摘要,给读者提供可以用来跟踪的摘要结构,并且使用图示使摘要更易于阅读且更易于被读者理解。
2、本发明所采用的技术方案。
(1)预处理:输入主题和关于该主题的对象的集合,其中每个对象包含图像附带时间戳和文本信息;
(2)通过文本和图像分析,结合时序信息构建一个多视角对象图,图中每个顶点代表一幅图像,并与描述该图像的文本关联,多视角对象图中有两组边,无向边表示对象之间的相似度的等级,有向边表示按照类型的成对时序关系。每个顶点被分配一个权重值,权重值代表对象与查询之间的相似度;
(3)求解最小权重决定集,从而得到一组节点,即决定对象;
(4)通过使用有向Steiner树生成一个故事轴,输出由时间戳关联的对象组成的图示时序故事轴。
更进一步,所述的多视角对象图构建按照如下步骤进行:
(1)定义:多视角图为一个三元组,其中是顶点的集合,是无向边的集合,是有向边的集合;按照所述的已知图像和带有时间戳的文本描述的集合,构造一个多视角对象图:将图像视为顶点,基于文本和图像的相似度计算无向边,基于时间戳的不同计算有向边,使用四个非负实参,,,定义这些边;
(2)采用标准的词袋表示文本;在信息检索中,词袋即对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的;
(3)对于图像,我们采用颜色和边缘方向性描述,从颜色和纹理的角度计算它们的特征,用余弦度量来计算相似度。
更进一步,所述的用余弦度量来计算特征向量相似度采用如下方法:
假设和是顶点中的两个对象,用无向边把这两个对象连起来当且仅当两者之间的文本相似度和图像相似度分别大于边和边,从到画一条有向边当且仅当,其中和分别是它们的时间戳,为时间窗口;对每个顶点,它的顶点权重等于1减主题和对象之间的余弦相似度。
更进一步,所述的通过最小权重决定集识别与查询相关的决定对象采用如下方法:
如果一个图的顶点和之间有一条边相连,则定义为顶点决定了图的另一个顶点;无向图的顶点集的一个子集是一个决定集,如果对每个顶点,要么在中,要么中的一个顶点决定,寻找查询相关对象集的问题可以看作是在无向图(中找到最小权重决定集问题即给定一个顶点加权无向图G,从所有G的决定集中找到所有顶点权重最小的一个决定集:
步骤1:初始化决定集为空集,定义一个中间集合,初始化为;
步骤2:对顶点集合中每个未包含在中的顶点,找到与相邻且不属于中间集合的顶点,计算其个数;
步骤3:计算每个的权重与的比值,找到比值最小的顶点;
步骤4:将加到决定集中,将的相邻点加到中间集合中;
步骤5:重复步骤2到步骤5,直到决定集中的顶点树大于决定集最大值;
步骤6:最后得到无向图(的最小权重决定集。
更进一步,所述的通过有向Steiner树连接决定集中对象来生成故事轴按照如下方法生成,即决定集近似解从而得到对描述话题最有代表性的对象后,生成一个自然的故事轴,捕捉到查询相关事件的时间和结构信息:
给定一个有向加权图以及顶点子集,找到图中连接中所有顶点的最小权值的一棵树,即Steiner树,其中集合中的顶点被称作终端顶点;
当时,Steiner问题就是经典的计算最小生成树的问题;当时,Steiner问题就变成求解两点之间最短路径问题;
问题输出的Steiner树即为故事轴,该故事轴将根对象到所有其它决定集中的对象连接起来;
已知该问题的输入,其中表示顶点加权有向图,表示上述方法找到的最小决定集,表示决定集大小,表示Steiner树的根,为了找到以为根,覆盖中的个顶点的Steiner树,采用如下的方法:
步骤1:初始化为空集;
步骤2:初始化为空集,初始化中所有顶点的权值为;
步骤3:对每个顶点,,取1到k之间的每一个值,计算,如果中顶点的权值大于中顶点的权值则;
步骤4:;
步骤5:,,重复步骤2到步骤5,直到;
步骤6:返回。
3、本发明的有益效果。
(1)本发明提出的方法结合了图像时序和文本处理,并不简单的通过文本进行处理,改善了单纯的用语义分析,并向读者提供生动的图示摘要。
(2)将问题转化为基于图的优化问题并利用高效的启发式方法解决该问题。
(3)生成的故事轴同时实现了时间上的连续性和内容上的连贯性,使检索提取的速度大大提高,为读者提供了更丰富的信息和更好的结果。
附图说明
图1是本发明的生成流程图。
具体实施方式
为了使专利局的审查员尤其是公众能够更加清楚地理解本发明的技术实质和有益效果,申请人将在下面以实施例的方式作详细说明,但是对实施例的描述均不是对本发明方案的限制,任何依据本发明构思所作出的仅仅为形式上的而非实质性的等效变换都应视为本发明的技术方案范畴。
实施例
生成图示时序故事轴的问题可定义如下:
输入:查询主题和个对象的集合,,其中每个对象是一个包含文本描述(例如,一个小段落或一句话)和时间戳的一个图像。
输出:一个可以概述查询相关话题的最具代表性对象组成的图示时序故事轴。
下面我们将把这个问题转换成多视角图上的最小权重连通支配集问题,它可以被分解成两个优化问题:1)寻找最小权重支配集;2)使用有向Steiner树(SteinerTree)连接支配集元素。
1、多视角对象图构建
定义:多视角图(Multi-ViewGraph)是一个三元组,其中是顶点的集合,是无向边的集合,是有向边的集合。
已知图像和带有时间戳的文本描述的集合,我们构造一个多视角对象图:将图像视为顶点,基于文本和图像的相似度计算无向边,基于时间戳的不同计算有向边。我们使用四个非负实参,,,定义这些边。
对于文本,我们采用标准的“词袋”(”bag-of-words”)表示法。在信息检索中,“词袋”假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。对于图像,我们采用颜色和边缘方向性描述(ColorandEdgeDirectivityDescriptor,CEDD)从颜色和纹理的角度计算它们的特征。对于这两个特征向量,我们分别用余弦度量来计算相似度。
假设和是中的两个对象。为了定义,我们用一条边把这两个对象连起来当且仅当两者之间的文本相似度和图像相似度分别大于和。为了定义,我们从到画一条有向边当且仅当,其中和分别是它们的时间戳。我们称为时间窗口。对每个顶点,它的顶点权重等于1减和之间的余弦相似度。
2、通过最小权重决定集识别与查询相关的决定对象
如果一个图的顶点和之间有一条边相连,我们称决定了图的另一个顶点。无向图的顶点集的一个子集是一个决定集,如果对每个顶点,要么在中,要么中的一个顶点决定。寻找查询相关对象集的问题可以看作是在无向图(中找到最小权重决定集问题。
问题1(最小权重决定集问题(MWDS)):给定一个顶点加权无向图G,从所有G的决定集中找到所有顶点权重最小的一个决定集。
MWDS被称为是NP困难的,我们采用以下方法来获得该问题的近似解:
步骤1:初始化决定集为空集,定义一个中间集合,初始化为。
步骤2:对中每个未包含在中的顶点,找到与相邻且不属于的顶点,计算其个数。
步骤3:计算每个的权重与的比值,找到比值最小的顶点。
步骤4:将加到决定集中,将的相邻点加到集合中。
步骤5:重复步骤2到步骤5,直到决定集中的顶点树大于指定的决定集最大值。
步骤6:最后得到无向图(的最小权重决定集。
3、通过有向Steiner树连接决定集中对象来生成故事轴
使用上述方法得到决定集近似解从而得到对描述话题最有代表性的对象后,我们需要生成一个自然的故事轴,它可以捕捉到查询相关事件的时间和结构信息。为了研究这个问题,我们用到了Steiner树的概念。
问题2:给定一个有向加权图以及顶点子集,找到图中连接中所有顶点的最小权值的一棵树,即Steiner树。其中集合中的顶点被称作终端顶点。当时,Steiner问题就是经典的计算最小生成树的问题;当时,Steiner问题就变成求解两点之间最短路径问题。
该问题输出的Steiner树就是本发明生成的故事轴,该故事轴将根对象到所有其它决定集中的对象连接起来。
已知该问题的输入,其中表示顶点加权有向图,表示上述方法找到的最小决定集,表示决定集大小,表示Steiner树的根。为了找到以为根,覆盖中的个顶点的Steiner树,本发明使用如下的方法:
步骤1:初始化为空集。
步骤2:初始化为空集,初始化中所有顶点的权值为。
步骤3:对每个顶点,,取1到k之间的每一个值,计算,如果中顶点的权值大于中顶点的权值则。
步骤4:
步骤5:,,重复步骤2到步骤5,直到。
步骤6:返回,作为问题2的结果。
Claims (5)
1.一种基于多视角图中最小权重连通决定集的Web信息提取方法,其特征在于按照如下步骤进行:
预处理:输入主题和关于该主题的对象的集合,其中每个对象包含图像附带时间戳和文本信息;
通过文本和图像分析,结合时序信息构建一个多视角对象图,图中每个顶点代表一幅图像,并与描述该图像的文本关联,多视角对象图中有两组边,无向边表示对象之间的相似度的等级,有向边表示按照类型的成对时序关系,每个顶点被分配一个权重值,权重值代表对象与查询之间的相似度;
(3)求解最小权重决定集,从而得到一组节点,即决定对象;
(4)通过使用有向Steiner树生成一个故事轴,输出由时间戳关联的对象组成的图示时序故事轴。
2.根据权利要求1所述的多视角图中最小权重连通决定集的Web信息提取方法,其特征在所述的多视角对象图构建按照如下步骤进行:
(1)定义:多视角图为一个三元组,其中是顶点的集合,是无向边的集合,是有向边的集合;按照所述的已知图像和带有时间戳的文本描述的集合,构造一个多视角对象图:将图像视为顶点,基于文本和图像的相似度计算无向边,基于时间戳的不同计算有向边,使用四个非负实参,,,定义这些边;
采用标准的词袋表示文本;在信息检索中,词袋即对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的;
对于图像,我们采用颜色和边缘方向性描述,从颜色和纹理的角度计算它们的特征,用余弦度量来计算相似度。
3.根据权利要求2所述的多视角图中最小权重连通决定集的Web信息提取方法,其特征在于所述的用余弦度量来计算特征向量相似度采用如下方法:
假设和是顶点中的两个对象,用无向边把这两个对象连起来当且仅当两者之间的文本相似度和图像相似度分别大于边和边,从到画一条有向边当且仅当,其中和分别是它们的时间戳,为时间窗口;对每个顶点,它的顶点权重等于1减主题和对象之间的余弦相似度。
4.根据权利要求1所述的多视角图中最小权重连通决定集的Web信息提取方法,其特征在于所述的步骤(3)中通过最小权重决定集识别与查询相关的决定对象采用如下方法:
如果一个图的顶点和之间有一条边相连,则定义为顶点决定了图的另一个顶点;无向图的顶点集的一个子集是一个决定集,如果对每个顶点,要么在中,要么中的一个顶点决定,寻找查询相关对象集的问题可以看作是在无向图(中找到最小权重决定集问题即给定一个顶点加权无向图G,从所有G的决定集中找到所有顶点权重最小的一个决定集:
步骤1:初始化决定集为空集,定义一个中间集合,初始化为;
步骤2:对顶点集合中每个未包含在中的顶点,找到与相邻且不属于中间集合的顶点,计算其个数;
步骤3:计算每个的权重与的比值,找到比值最小的顶点;
步骤4:将加到决定集中,将的相邻点加到中间集合中;
步骤5:重复步骤2到步骤5,直到决定集中的顶点树大于决定集最大值;
步骤6:最后得到无向图(的最小权重决定集。
5.根据权利要求4所述的多视角图中最小权重连通决定集的Web信息提取方法,其特征在于所述的通过有向Steiner树连接决定集中对象来生成故事轴按照如下方法生成,即决定集近似解从而得到对描述话题最有代表性的对象后,生成一个自然的故事轴,捕捉到查询相关事件的时间和结构信息:
给定一个有向加权图以及顶点子集,找到图中连接中所有顶点的最小权值的一棵树,即Steiner树,其中集合中的顶点被称作终端顶点;
当时,Steiner问题就是经典的计算最小生成树的问题;当时,Steiner问题就变成求解两点之间最短路径问题;
问题输出的Steiner树即为故事轴,该故事轴将根对象到所有其它决定集中的对象连接起来;
已知该问题的输入,其中表示顶点加权有向图,表示上述方法找到的最小决定集,表示决定集大小,表示Steiner树的根,为了找到以为根,覆盖中的个顶点的Steiner树,采用如下的方法:
步骤1:初始化为空集;
步骤2:初始化为空集,初始化中所有顶点的权值为;
步骤3:对每个顶点,,取1到k之间的每一个值,计算,如果中顶点的权值大于中顶点的权值则;
步骤4:;
步骤5:,,重复步骤2到步骤5,直到;
步骤6:返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410426746.9A CN105447026A (zh) | 2014-08-27 | 2014-08-27 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410426746.9A CN105447026A (zh) | 2014-08-27 | 2014-08-27 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105447026A true CN105447026A (zh) | 2016-03-30 |
Family
ID=55557219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410426746.9A Pending CN105447026A (zh) | 2014-08-27 | 2014-08-27 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105447026A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886783A (zh) * | 2017-01-20 | 2017-06-23 | 清华大学 | 一种基于区域特征的图像检索方法及*** |
CN108280772A (zh) * | 2018-01-24 | 2018-07-13 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN109145936A (zh) * | 2018-06-20 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 一种模型优化方法及装置 |
CN112766262A (zh) * | 2021-01-21 | 2021-05-07 | 西安理工大学 | 一种针对单层一对多和多对一股份图的识别方法 |
CN115329051A (zh) * | 2022-10-17 | 2022-11-11 | 成都大学 | 一种多视角新闻信息快速检索方法、***、存储介质及终端 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930462A (zh) * | 2010-08-20 | 2010-12-29 | 华中科技大学 | 一种综合的本体相似度检测方法 |
-
2014
- 2014-08-27 CN CN201410426746.9A patent/CN105447026A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930462A (zh) * | 2010-08-20 | 2010-12-29 | 华中科技大学 | 一种综合的本体相似度检测方法 |
Non-Patent Citations (1)
Title |
---|
《PROCEEDINGS OF THE TWENTY-SIXTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886783A (zh) * | 2017-01-20 | 2017-06-23 | 清华大学 | 一种基于区域特征的图像检索方法及*** |
CN108280772A (zh) * | 2018-01-24 | 2018-07-13 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN108280772B (zh) * | 2018-01-24 | 2022-02-18 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN109145936A (zh) * | 2018-06-20 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 一种模型优化方法及装置 |
CN109145936B (zh) * | 2018-06-20 | 2019-07-09 | 北京达佳互联信息技术有限公司 | 一种模型优化方法及装置 |
CN112766262A (zh) * | 2021-01-21 | 2021-05-07 | 西安理工大学 | 一种针对单层一对多和多对一股份图的识别方法 |
CN112766262B (zh) * | 2021-01-21 | 2024-02-02 | 西安理工大学 | 一种针对单层一对多和多对一股份图的识别方法 |
CN115329051A (zh) * | 2022-10-17 | 2022-11-11 | 成都大学 | 一种多视角新闻信息快速检索方法、***、存储介质及终端 |
CN115329051B (zh) * | 2022-10-17 | 2022-12-20 | 成都大学 | 一种多视角新闻信息快速检索方法、***、存储介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
CN106599181B (zh) | 一种基于主题模型的新闻热点检测方法 | |
CN103324665B (zh) | 一种基于微博的热点信息提取的方法和装置 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN103902988B (zh) | 一种基于Modular积图与最大团的草图形状匹配方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
CN105574067A (zh) | 项目推荐装置以及项目推荐方法 | |
CN110046260A (zh) | 一种基于知识图谱的暗网话题发现方法和*** | |
CN105447026A (zh) | 基于多视角图中最小权重连通决定集的Web信息提取方法 | |
CN105243129A (zh) | 商品属性特征词聚类方法 | |
CN103455562A (zh) | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 | |
CN105306475A (zh) | 一种基于关联规则分类的网络入侵检测方法 | |
CN106897914A (zh) | 一种基于主题模型的商品推荐方法及*** | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
CN105849720A (zh) | 视觉语义复合网络以及用于形成该网络的方法 | |
CN103177098A (zh) | 一种基于手绘图的三维模型检索的方法 | |
CN107203520A (zh) | 酒店情感词典的建立方法、评论的情感分析方法及*** | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN110363206A (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN107169051B (zh) | 基于本体间语义相关的三维模型检索方法及*** | |
CN106777395A (zh) | 一种基于社区文本数据的话题发现*** | |
Yamamoto et al. | Two phase extraction method for extracting real life tweets using lda | |
Zhang et al. | Ideagraph plus: A topic-based algorithm for perceiving unnoticed events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160330 |