CN105975507A - 一种基于多源网络新闻数据的多媒体问答方法 - Google Patents

一种基于多源网络新闻数据的多媒体问答方法 Download PDF

Info

Publication number
CN105975507A
CN105975507A CN201610273211.1A CN201610273211A CN105975507A CN 105975507 A CN105975507 A CN 105975507A CN 201610273211 A CN201610273211 A CN 201610273211A CN 105975507 A CN105975507 A CN 105975507A
Authority
CN
China
Prior art keywords
news
picture
data
theme
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610273211.1A
Other languages
English (en)
Other versions
CN105975507B (zh
Inventor
唐金辉
李泽超
王学明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201610273211.1A priority Critical patent/CN105975507B/zh
Publication of CN105975507A publication Critical patent/CN105975507A/zh
Application granted granted Critical
Publication of CN105975507B publication Critical patent/CN105975507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多源网络新闻数据的多媒体问答方法,包括以下步骤:步骤1,基于网络爬虫机制,获取互联网上若干个新闻网站的新闻数据;步骤2,解析新闻数据得到新闻标题、新闻文本、新闻图片,并以此建立索引;步骤3,输入查询申请,检索与申请对应的新闻文档数据;步骤4,对获取的新闻文档数据,基于Latent Dirichlet Allocation模型分析新闻数据的主题,并将结果划分为不同的主题;步骤5,对于每一主题,对其中所包含的所有新闻文档数据中的图片进行相似性聚类,并在图片个数最多的子类中选择一幅图片作为该主题的代表性图片;步骤6,显示主题及该主体的代表性图片,点击主题查看该主题对应的新闻。

Description

一种基于多源网络新闻数据的多媒体问答方法
技术领域
本发明涉及一种数据挖掘与图像处理技术,特别是一种基于多源网络新闻数据的多媒体问答方法。
背景技术
当前IT技术和互联网技术的迅猛发展使得人们获取新闻的方式多种多样,同时面对的新闻数据也越来越多,面对如此大数据量的新闻数据,如何从中浏览到我们需要的新闻数据是当前的一个研究热点,也是数据挖掘技术的研究内容。在网络导航中,由于新闻文本数据的解析和构建索引、新闻内容的主题分析、主题图像的选择等方法存在缺失,导致用户在浏览新闻数据时存在盲目性的缺点,因此需要基于对多源网络新闻数据进行数据挖掘和图像处理获取一种***性强的多媒体问答***。
发明内容
本发明的目的在于提供一种基于多源网络新闻数据的多媒体问答方法,该方法包括以下步骤:
步骤1,基于网络爬虫机制,获取互联网上若干个新闻网站的新闻数据;
步骤2,解析新闻数据得到新闻标题、新闻文本、新闻图片,并以此建立索引;
步骤3,输入查询申请,检索与申请对应的新闻文档数据;
步骤4,对获取的新闻文档数据,基于Latent Dirichlet Allocation模型分析新闻数据的主题,并将结果划分为不同的主题;
步骤5,对于每一主题,对其中所包含的所有新闻文档数据中的图片进行相似性聚类,并在图片个数最多的子类中选择一幅图片作为该主题的代表性图片;
步骤6,显示主题及该主体的代表性图片,点击主题查看该主题对应的新闻。
本发明与现有技术相比,具有以下优点:
本发明利用了网络上多种来源的新闻媒体数据,能够尽可能的涵盖网络上关于某个查询的所有的新闻数据;本发明在呈现给用户查询结果的时候,利用了主题分析和图像处理的技术,将查询到的大量的新闻数据进行分类展示,使用户能够快速的浏览到想要浏览的新闻,在很大程度上改进了用户的浏览体验。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1是本发明基于多源网络新闻数据的多媒体问答方法流程图。
图2是基于多源网络新闻数据的多媒体问答***演示的效果图。
具体实施方式
结合图1,一种基于多源网络新闻数据的多媒体问答方法,包括以下步骤:
步骤1,基于网络爬虫机制,获取互联网上若干个新闻网站的新闻数据;
步骤2,解析新闻数据得到新闻标题、新闻文本、新闻图片,并以此建立索引;
步骤3,输入查询申请,检索与申请对应的新闻文档数据;
步骤4,对获取的新闻文档数据,基于Latent DirichletAllocation模型分析新闻数据的主题,并将结果划分为不同的主题;
步骤5,对于每一主题,对其中所包含的所有新闻文档数据中的图片进行相似性聚类,并在图片个数最多的子类中选择一幅图片作为该主题的代表性图片;
步骤6,显示主题及该主体的代表性图片,点击主题查看该主题对应的新闻。
步骤1中的新闻网站包括ABCNews(http://abcnews.go.com/)、BBCNews(http://www.bbc.com/)、CNNNews(http://edition.cnn.com/)等。
步骤2中在数据下载后对下载下来的新闻网页数据进行解析,得到需要的新闻标题、新闻文本、新闻图片等数据,同时对所有的新闻文本数据进行不重复词unique term的统计,在过滤掉停用词之后,利用这些unique term以倒排表的形式索引新闻数据,保存到数据库中。
步骤3中用户提交查询问题时,为了得到较高的检索召回率,本发明先通过查询扩展的方式扩展一些语义相似的查询词Qca={qc1,qc2,qc3,...,qcnm}来补充到用户提交的查询中,qcnm为扩展出的查询词,其中n为原查询中的查询词个数,m为每个原查询中的查询词扩展出的查询词个数;然后通过在现有的成熟的检索方法Okapi BM25的基础上添加查询词的权重来检索返回相关的新闻文档。检索的文档与查询的相似性计算公式为
S c o r e ( Q , D ) = Σ i = 1 N λ i * I D F ( q i ) * t f ( q i , D ) * ( k 1 + 1 ) t f ( q i , D ) + k 1 * ( 1 - b + b * | D | a v g d l ) ,
公式中,N为总的查询词个数(包括原查询中的查询词和扩展后的查询词在内的总个数),D为新闻文档,Q为查询输入,qi是查询词,k1和b为Okapi BM25中的参数值,avgdl为所有新闻文档中的平均单词个数;tf()和IDF()为Okapi BM25中的统计值,
f r e l ( q c i , Q ) = 1 n Σ i = 1 n ( q - N G D ( q c i , q i ) )
f(*)为*出现的个数。
步骤4中所述的Latent DirichletAllocation(LDA)模型是一个“Bag-of-Words”模型,用来从文档中选择出一些主题词,假设给定一个M个文档的数据集,其中{w1,w2,w3,...,wm}是一个包含N个词项的词表。LDA假设这些文档是从K个主题中生成的,在每篇文档中,每个词项wi分配一个隐变量zi,zi∈{1,2,3,...,K}表示生成单词的主题标号,文档中生成单词的概率计算为其中p(wi|zi=j)是词项wi在主题j中的概率,p(zi=j)是主题j发生的概率,服从狄利克雷分布。
步骤5中对于步骤四中的每个主题,其中包含的所有新闻文档数据中的图片进行相似性聚类,然后在图片个数最多的子类中选择一幅图片作为这个主题的代表性图片。本发明中通过采用图像处理中常用的Near-duplicate图片检测方法来进行图片的相似性计算,并将图片划分成不同的相似性子类。考虑到两个假设:(1)近似图像集合中只有一副图像是被用来作为索引存入数据库中;(2)图像个数最多的子类说明这些图像在这个主题中出现多次,因此在很大程度上是可以作为这个主题的代表性图像的。所以基于这两个假设,本发明在图片个数最多的子类中选择一副图片作为主题图片,按照公式计算得到分数最大的图片作为主题图片,其中|Ck|是最大的子类中图片个数,relj的计算公式即为步骤三中Score(Q,D)的,也就是图片j所在的文档同查询Q的相似性值。
步骤6中用户查询结果的呈现,如图2所示。用户提交的查询的返回结果以一种清晰简洁的方式呈现给用户,改进用户的浏览体验。

Claims (5)

1.一种基于多源网络新闻数据的多媒体问答方法,其特征在于,包括以下步骤:
步骤1,基于网络爬虫机制,获取互联网上若干个新闻网站的新闻数据;
步骤2,解析新闻数据得到新闻标题、新闻文本、新闻图片,并以此建立索引;
步骤3,输入查询申请,检索与申请对应的新闻文档数据;
步骤4,对获取的新闻文档数据,基于Latent DirichletAllocation模型分析新闻数据的主题,并将结果划分为不同的主题;
步骤5,对于每一主题,对其中所包含的所有新闻文档数据中的图片进行相似性聚类,并在图片个数最多的子类中选择一幅图片作为该主题的代表性图片;
步骤6,显示主题及该主体的代表性图片,点击主题查看该主题对应的新闻。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中对新闻文本数据进行不重复词unique term的统计,并过滤掉停用词,利用unique term以倒排表的形式索引新闻数据并保存。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中对于检索:
通过查询扩展的方式扩展若干语义相似的查询词Qca={qc1,qc2,qc3,...,qcnm}补充至检索申请中,qcnm为扩展出的查询词,其中n为原查询中的查询词个数,m为每个原查询中的查询词扩展出的查询词个数;
于检索方法Okapi BM25上添加查询词的权重λi检索新闻文档;
其中检索的文档与查询的相似性计算公式为
S c o r e ( Q , D ) = Σ i = 1 N λ i * I D F ( q i ) * t f ( q i , D ) * ( k 1 + 1 ) t f ( q i , D ) + k 1 * ( 1 - b + b * | D | a v g d l ) ,
公式中,N为总的查询词个数,D为新闻文档,Q为查询输入,qi是查询词,k1和b为OkapiBM25中的参数值,avgdl为所有新闻文档中的平均单词个数;tf()和IDF()为Okapi BM25中的统计值,
f r e l ( q c i , Q ) = 1 n Σ i = 1 n ( q - N G D ( q c i , q i ) )
f(*)为*出现的个数。
4.根据权利要求1所述的方法,其特征在于,所述步骤5中采用Near-duplicate图片检测方法来进行图片的相似性计算。
5.根据权利要求3所述的方法,其特征在于,所述步骤5中于图片个数最多的子类中根据下式获取主题的代表性图片
Score j = m a x 1 &le; j &le; | C k | rel j * &Sigma; 1 &le; k < | C k | v j k &Sigma; 1 &le; i , j &le; | C k | v i j
|Ck|是最大的子类中图片个数,vij为图像i和图像j的相似性值,relj=Score(Q,D)。
CN201610273211.1A 2016-04-28 2016-04-28 一种基于多源网络新闻数据的多媒体问答方法 Active CN105975507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610273211.1A CN105975507B (zh) 2016-04-28 2016-04-28 一种基于多源网络新闻数据的多媒体问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610273211.1A CN105975507B (zh) 2016-04-28 2016-04-28 一种基于多源网络新闻数据的多媒体问答方法

Publications (2)

Publication Number Publication Date
CN105975507A true CN105975507A (zh) 2016-09-28
CN105975507B CN105975507B (zh) 2018-07-03

Family

ID=56993611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610273211.1A Active CN105975507B (zh) 2016-04-28 2016-04-28 一种基于多源网络新闻数据的多媒体问答方法

Country Status (1)

Country Link
CN (1) CN105975507B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN108897778A (zh) * 2018-06-04 2018-11-27 四川创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131704A (zh) * 2006-08-23 2008-02-27 国际商业机器公司 用于内容的位置表示的装置和方法
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN102436442A (zh) * 2011-11-03 2012-05-02 中国科学技术信息研究所 一种基于上下文语境的词的语义相关性度量方法
CN103020261A (zh) * 2012-12-24 2013-04-03 南京邮电大学 一种图像自动标注方法
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131704A (zh) * 2006-08-23 2008-02-27 国际商业机器公司 用于内容的位置表示的装置和方法
CN102436442A (zh) * 2011-11-03 2012-05-02 中国科学技术信息研究所 一种基于上下文语境的词的语义相关性度量方法
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法
CN103020261A (zh) * 2012-12-24 2013-04-03 南京邮电大学 一种图像自动标注方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN108897778A (zh) * 2018-06-04 2018-11-27 四川创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法
CN108897778B (zh) * 2018-06-04 2021-12-31 创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法

Also Published As

Publication number Publication date
CN105975507B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
Neri et al. Sentiment analysis on social media
Borth et al. Sentibank: large-scale ontology and classifiers for detecting sentiment and emotions in visual content
Baldoni et al. From tags to emotions: Ontology-driven sentiment analysis in the social semantic web
Overell et al. Classifying tags using open content resources
Krestel et al. Personalized topic-based tag recommendation
US11989662B2 (en) Methods and systems for base map and inference mapping
Kammerer et al. Chapter 10 how search engine users evaluate and select web search results: The impact of the search engine interface on credibility assessments
Zhu et al. Unsupervised tip-mining from customer reviews
Yilmaz et al. Improving educational web search for question-like queries through subject classification
Figueroa et al. Context-aware semantic classification of search queries for browsing community question–answering archives
Pera et al. Analyzing book-related features to recommend books for emergent readers
Tonkin et al. Collaborative and social tagging networks
WO2014189239A1 (ko) 온라인 콘텐츠 가치 향상 방법 및 시스템
Kongthon et al. HotelOpinion: An opinion mining system on hotel reviews in Thailand
Gupta A survey of text summarizers for Indian Languages and comparison of their performance
Liu et al. Event-based cross media question answering
CN105975507A (zh) 一种基于多源网络新闻数据的多媒体问答方法
Iftene et al. Using semantic resources in image retrieval
Murtagh Semantic Mapping: Towards Contextual and Trend Analysis of Behaviours and Practices.
Gretzel et al. Intelligent search support: Building search term associations for tourism-specific search engines
Sivaramakrishnan et al. Validating effective resume based on employer’s interest with recommendation system
Wang et al. Dynamic word clouds: Context-based word clouds of presentation slides for quick browsing
Mohamed et al. Toward multi-lingual information retrieval system based on internet linguistic diversity measurement
Wan et al. Whetting the appetite of scientists: Producing summaries tailored to the citation context
Baldoni et al. Sentiment analysis in the planet art: A case study in the social semantic web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant