CN105975507A

CN105975507A - 一种基于多源网络新闻数据的多媒体问答方法

Info

Publication number: CN105975507A
Application number: CN201610273211.1A
Authority: CN
Inventors: 唐金辉; 李泽超; 王学明
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2016-09-28
Anticipated expiration: 2036-04-28
Also published as: CN105975507B

Abstract

本发明提供一种基于多源网络新闻数据的多媒体问答方法，包括以下步骤：步骤1，基于网络爬虫机制，获取互联网上若干个新闻网站的新闻数据；步骤2，解析新闻数据得到新闻标题、新闻文本、新闻图片，并以此建立索引；步骤3，输入查询申请，检索与申请对应的新闻文档数据；步骤4，对获取的新闻文档数据，基于Latent Dirichlet Allocation模型分析新闻数据的主题，并将结果划分为不同的主题；步骤5，对于每一主题，对其中所包含的所有新闻文档数据中的图片进行相似性聚类，并在图片个数最多的子类中选择一幅图片作为该主题的代表性图片；步骤6，显示主题及该主体的代表性图片，点击主题查看该主题对应的新闻。

Description

一种基于多源网络新闻数据的多媒体问答方法

技术领域

本发明涉及一种数据挖掘与图像处理技术，特别是一种基于多源网络新闻数据的多媒体问答方法。

背景技术

当前IT技术和互联网技术的迅猛发展使得人们获取新闻的方式多种多样，同时面对的新闻数据也越来越多，面对如此大数据量的新闻数据，如何从中浏览到我们需要的新闻数据是当前的一个研究热点，也是数据挖掘技术的研究内容。在网络导航中，由于新闻文本数据的解析和构建索引、新闻内容的主题分析、主题图像的选择等方法存在缺失，导致用户在浏览新闻数据时存在盲目性的缺点，因此需要基于对多源网络新闻数据进行数据挖掘和图像处理获取一种***性强的多媒体问答***。

发明内容

本发明的目的在于提供一种基于多源网络新闻数据的多媒体问答方法，该方法包括以下步骤：

步骤1，基于网络爬虫机制，获取互联网上若干个新闻网站的新闻数据；

步骤2，解析新闻数据得到新闻标题、新闻文本、新闻图片，并以此建立索引；

步骤3，输入查询申请，检索与申请对应的新闻文档数据；

步骤4，对获取的新闻文档数据，基于Latent Dirichlet Allocation模型分析新闻数据的主题，并将结果划分为不同的主题；

步骤5，对于每一主题，对其中所包含的所有新闻文档数据中的图片进行相似性聚类，并在图片个数最多的子类中选择一幅图片作为该主题的代表性图片；

步骤6，显示主题及该主体的代表性图片，点击主题查看该主题对应的新闻。

本发明与现有技术相比，具有以下优点：

本发明利用了网络上多种来源的新闻媒体数据，能够尽可能的涵盖网络上关于某个查询的所有的新闻数据；本发明在呈现给用户查询结果的时候，利用了主题分析和图像处理的技术，将查询到的大量的新闻数据进行分类展示，使用户能够快速的浏览到想要浏览的新闻，在很大程度上改进了用户的浏览体验。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1是本发明基于多源网络新闻数据的多媒体问答方法流程图。

图2是基于多源网络新闻数据的多媒体问答***演示的效果图。

具体实施方式

结合图1，一种基于多源网络新闻数据的多媒体问答方法，包括以下步骤：

步骤3，输入查询申请，检索与申请对应的新闻文档数据；

步骤4，对获取的新闻文档数据，基于Latent DirichletAllocation模型分析新闻数据的主题，并将结果划分为不同的主题；

步骤1中的新闻网站包括ABCNews(http://abcnews.go.com/)、BBCNews(http://www.bbc.com/)、CNNNews(http://edition.cnn.com/)等。

步骤2中在数据下载后对下载下来的新闻网页数据进行解析，得到需要的新闻标题、新闻文本、新闻图片等数据，同时对所有的新闻文本数据进行不重复词unique term的统计，在过滤掉停用词之后，利用这些unique term以倒排表的形式索引新闻数据，保存到数据库中。

步骤3中用户提交查询问题时，为了得到较高的检索召回率，本发明先通过查询扩展的方式扩展一些语义相似的查询词Q_ca＝{q_c1,q_c2,q_c3,...,q_cnm}来补充到用户提交的查询中，q_cnm为扩展出的查询词，其中n为原查询中的查询词个数，m为每个原查询中的查询词扩展出的查询词个数；然后通过在现有的成熟的检索方法Okapi BM25的基础上添加查询词的权重来检索返回相关的新闻文档。检索的文档与查询的相似性计算公式为

S c o r e (Q, D) = Σ_{i = 1}^{N} λ_{i} * I D F (q_{i}) * \frac{t f (q_{i}, D) * (k_{1} + 1)}{t f (q_{i}, D) + k_{1} * (1 - b + b * \frac{| D |}{a v g d l})},

公式中，N为总的查询词个数(包括原查询中的查询词和扩展后的查询词在内的总个数)，D为新闻文档，Q为查询输入，qi是查询词，k1和b为Okapi BM25中的参数值，avgdl为所有新闻文档中的平均单词个数；tf()和IDF()为Okapi BM25中的统计值，

f r e l (q_{c i}, Q) = \frac{1}{n} Σ_{i = 1}^{n} (q - N G D (q_{c i}, q_{i}))

f(*)为*出现的个数。

步骤4中所述的Latent DirichletAllocation(LDA)模型是一个“Bag-of-Words”模型，用来从文档中选择出一些主题词，假设给定一个M个文档的数据集，其中{w₁,w₂,w₃,...,w_m}是一个包含N个词项的词表。LDA假设这些文档是从K个主题中生成的，在每篇文档中，每个词项wi分配一个隐变量zi，z_i∈{1,2,3,...,K}表示生成单词的主题标号，文档中生成单词的概率计算为其中p(w_i|z_i＝j)是词项w_i在主题j中的概率，p(z_i＝j)是主题j发生的概率，服从狄利克雷分布。

步骤5中对于步骤四中的每个主题，其中包含的所有新闻文档数据中的图片进行相似性聚类，然后在图片个数最多的子类中选择一幅图片作为这个主题的代表性图片。本发明中通过采用图像处理中常用的Near-duplicate图片检测方法来进行图片的相似性计算，并将图片划分成不同的相似性子类。考虑到两个假设：(1)近似图像集合中只有一副图像是被用来作为索引存入数据库中；(2)图像个数最多的子类说明这些图像在这个主题中出现多次，因此在很大程度上是可以作为这个主题的代表性图像的。所以基于这两个假设，本发明在图片个数最多的子类中选择一副图片作为主题图片，按照公式计算得到分数最大的图片作为主题图片，其中|C_k|是最大的子类中图片个数，rel_j的计算公式即为步骤三中Score(Q,D)的，也就是图片j所在的文档同查询Q的相似性值。

步骤6中用户查询结果的呈现，如图2所示。用户提交的查询的返回结果以一种清晰简洁的方式呈现给用户，改进用户的浏览体验。

Claims

1.一种基于多源网络新闻数据的多媒体问答方法，其特征在于，包括以下步骤：

步骤3，输入查询申请，检索与申请对应的新闻文档数据；

2.根据权利要求1所述的方法，其特征在于，所述步骤2中对新闻文本数据进行不重复词unique term的统计，并过滤掉停用词，利用unique term以倒排表的形式索引新闻数据并保存。

3.根据权利要求1所述的方法，其特征在于，所述步骤3中对于检索：

通过查询扩展的方式扩展若干语义相似的查询词Q_ca＝{q_c1,q_c2,q_c3,...,q_cnm}补充至检索申请中，q_cnm为扩展出的查询词，其中n为原查询中的查询词个数，m为每个原查询中的查询词扩展出的查询词个数；

于检索方法Okapi BM25上添加查询词的权重λ_i检索新闻文档；

其中检索的文档与查询的相似性计算公式为

S c o r e (Q, D) = Σ_{i = 1}^{N} λ_{i} * I D F (q_{i}) * \frac{t f (q_{i}, D) * (k_{1} + 1)}{t f (q_{i}, D) + k_{1} * (1 - b + b * \frac{| D |}{a v g d l})},

公式中，N为总的查询词个数，D为新闻文档，Q为查询输入，q_i是查询词，k₁和b为OkapiBM25中的参数值，avgdl为所有新闻文档中的平均单词个数；tf()和IDF()为Okapi BM25中的统计值，

f r e l (q_{c i}, Q) = \frac{1}{n} Σ_{i = 1}^{n} (q - N G D (q_{c i}, q_{i}))

f(*)为*出现的个数。

4.根据权利要求1所述的方法，其特征在于，所述步骤5中采用Near-duplicate图片检测方法来进行图片的相似性计算。

5.根据权利要求3所述的方法，其特征在于，所述步骤5中于图片个数最多的子类中根据下式获取主题的代表性图片

{Score}_{j} = \underset{1 \leq j \leq | C_{k} |}{m a x} {rel}_{j} * \frac{Σ_{1 \leq k < | C_{k} |} v_{j k}}{Σ_{1 \leq i, j \leq | C_{k} |} v_{i j}}

|C_k|是最大的子类中图片个数，vi_j为图像i和图像j的相似性值，relj＝Score(Q,D)。