CN102750299A - 一种网上信息汇聚的方法 - Google Patents
一种网上信息汇聚的方法 Download PDFInfo
- Publication number
- CN102750299A CN102750299A CN2011103909582A CN201110390958A CN102750299A CN 102750299 A CN102750299 A CN 102750299A CN 2011103909582 A CN2011103909582 A CN 2011103909582A CN 201110390958 A CN201110390958 A CN 201110390958A CN 102750299 A CN102750299 A CN 102750299A
- Authority
- CN
- China
- Prior art keywords
- information
- clue
- content
- information clue
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种网上信息汇聚的方法,通过接收资讯线索采集条件;根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;对所述媒体内容进行聚合分析,得到当前热门主题;根据所述当前热门主题创建主题事件;检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
Description
技术领域
本发明主要涉及媒体制作领域,尤其涉及一种网上信息汇聚的方法。
背景技术
随着互联网的普及,网络上的信息越来越丰富。有文本信息、图片信息、视音频信息等。现在媒体制作***的制作过程中,大量的制作素材需要从网络上获取。传统的方式是在外网上网下载,再通过人工拷贝或通过高安全区拷贝到内网使用。
这种靠人工的方式,手续繁琐严重影响了节目的制作效率。
发明内容
本申请提供一种网上信息汇聚的方法,通过资讯线索自动采集资讯信息,并与主题事件相关联,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
为了达到上述目的,本实施例提供一种网上信息汇聚的方法,包括以下步骤:
接收资讯线索采集条件;
根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;
将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;
对所述媒体内容进行聚合分析,得到当前热门主题;
根据所述当前热门主题创建主题事件;
检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;
将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;
将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接。
本实施例通过接收资讯线索采集条件;根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;对所述媒体内容进行聚合分析,得到当前热门主题;根据所述当前热门主题创建主题事件;检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
附图说明
为了更清楚地说明本申请或现有技术的技术方案,下面将对本申请或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一种网上信息汇聚的方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开一种网上信息汇聚的方法,如图1所示,包括以下步骤:
步骤101,接收资讯线索采集条件;
资讯线索采集条件,具体包括:
所述资讯线索的类别;
采集所述资讯线索的目标地址;
所述资讯线索的最低采集标准,至少包括:发布时间、展示次数、点击率以及回复次数。
网上信息汇聚实质对网络新媒体数据的采集、搜索、线索发现、新媒体信息发布等。
基于网络新媒体数据的不同特点,分为非微博类资讯汇聚和微博类资讯汇聚。非微博类主要是包括:新闻网站、论坛、博客等非结构化的网络新媒体数据的采集和分析;而微博类主要是包括新浪、腾讯、网易、搜狐、twitter等半结构化的媒体数据的采集和分析、发布等功能。
步骤102,根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;
非微博类资讯线索汇聚
采用语义分析算法,进一步提高分类分析的质量;
采用全文分词和聚类算法,自动发现热门关键词和热点事件
微博类资讯线索汇聚
将话题、博文、用户三者信息实现关联;
对于转发的微博和原文实现关联;
微博信息的分词、搜索、热点发现,数据分析等功能。
信息提取
一般网页的信息提取办法相对简单,网络爬虫是最常用的手段。
对于娱乐网站的资讯信息,可能是考虑到这类的信息受众的特点,很少有网站提供RSS,这和IT类资讯形成了鲜明的对比,几乎所有主流IT类网站或板块都提供了RSS服务。
博客
目前主流博客都提供RSS形式的访问接口,通过定期轮询,可以方便获取博主最新的言论。
微博
对微博的提取可以使用微博网站都对外公布的SDK。
论坛
***自动抓取时,可以通过一些策略忽略掉一些帖子,比如大于一天且回复数量比较少的,可以不抓取,如果已经抓取了,可以自动删除。
非微博类资讯汇聚
(1)能对网站、论坛、博客等非微博类网站的指定频道进行采集,并能对采集的非结构化内容的标题、正文、发布时间、作者、点击率、回复次数进行分离并存在结构化数据库,以便进行搜索和分析。
(2)对采集的内容进行分词索引,以便高效的搜索。
(3)通过核心的搜索算法,能按照自己的要求自定义各种搜索算法,实现搜索的完全个性化。
(4)能对搜索的结果进行二次搜索。
(5)通过对点击率、回复次数、词汇权重等要素,自动形成热点信息。
(6)通过对词汇的感情色彩的分类(正面、负面)和词汇质量的分类(正常、垃圾),根据特点的算法从而计算出文章的感情色彩和质量。
(7)根据时间段、关键词等统计要素形成趋势图、各种分布统计图。
(8)能形成WORD文档报告等功能。
微博类资讯线索汇集管理***
(1)新浪、腾讯两种微博的两条线的采集:一条线是话题为起点的采集。自动采集最新的话题;通过话题,自动采集该话题下最新的博文。第二条线:根据指定的用户,采集该用户下的博文。
(2)实现了三种微博的对指定用户的微博的发布。对于未授权用户,自动提示授权信息。提供授权小软件,实现对未授权用户的授权认证。并实现了和文档***的对接。
(3)注入功能:能把采集到微博按条件进行搜索,并将符合要求的线索注入到文档***的线索库。
步骤103,将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;
步骤104,对所述媒体内容进行聚类分析,得到当前热门主题;
网上信息汇聚需要对网页、博客、微博、论坛等进行信息提取。信息提取完成后进行信息分类。信息分类的目的是要将这些海量的资讯信息进行归纳加工整理,在分类的同时为其建立各种关联关系。信息分类的核心技术就是:聚类分析,也就是各种基于文本的自动的分类***。
步骤105,根据所述当前热门主题创建主题事件;
在本实施例中,提供一个主题事件管理模块,用以创建主题事件,其功能具体如下:
创建主题事件
通过检索资讯线索库、媒体资产库中的内容,将找到的和该主题事件有关的内容记录下来,建立关联关系
提供快捷链接,跳转到微博、博客的关注申请页面
支持创建标题,支持启动文稿和视频的制作子流程,派发制作工单
支持围绕该主题事件的一些策划脚本的编写和版本的维护
支持通过手机短消息、电子邮件等手段进行日常工作的通知
提供基于主题事件的BBS形式的信息公开和节目组内部沟通协调机制
支持节目制作子流程进度、状态的显示
支持直接发布博客、微博信息
步骤106,检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;
步骤107,将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;
步骤108,将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接。
具体包括:将所述网上信息汇聚数据的标题、正文、发布时间、作者、点击率和回复次数进行分离并存储在结构化数据库;
将所述主题事件根据标题和/或正文内容进行分词索引;
将所述索引发送到所述电视台制播网,实现挂接。
网络信息汇聚它可以与电视台的制播网实现挂接,实现信息的互通。还可以将制播网的一些讯息发布到网络上,如:微博等形式,更加方便电视台节目受众者便捷获取节目信息,并能实现与电视节目讯息的互动。
上述步骤101-步骤108定期进行,所以,结构化数据库中总是存储最新的资讯线索和资讯内容,资讯线索和资讯内容实时更新。
本实施例通过接收资讯线索采集条件;根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;对所述媒体内容进行聚合分析,得到当前热门主题;根据所述当前热门主题创建主题事件;检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (4)
1.一种网上信息汇聚的方法,其特征在于,包括以下步骤:
接收资讯线索采集条件;
根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;
将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;
对所述媒体内容进行聚类分析,得到当前热门主题;
根据所述当前热门主题创建主题事件;
检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;
将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;
将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接。
2.如权利要求1所述方法,其特征在于,所述资讯线索采集条件,具体包括:
所述资讯线索的类别;
采集所述资讯线索的目标地址;
所述资讯线索的最低采集标准,至少包括:发布时间、展示次数、点击率以及回复次数。
3.如权利要求1所述方法,其特征在于,所述将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接具体包括:
将所述网上信息汇聚数据的标题、正文、发布时间、作者、点击率和回复次数进行分离并存储在结构化数据库;
将所述主题事件根据标题和/或正文内容进行分词索引;
将所述索引发送到所述电视台制播网,实现挂接。
4.如权利要求1所述方法,其特征在于,所述根据所述资讯线索采集条件采集相应的资讯线索和资讯内容定期进行,所述资讯线索和资讯内容实时更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110390958.2A CN102750299B (zh) | 2011-11-30 | 2011-11-30 | 一种网上信息汇聚的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110390958.2A CN102750299B (zh) | 2011-11-30 | 2011-11-30 | 一种网上信息汇聚的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102750299A true CN102750299A (zh) | 2012-10-24 |
CN102750299B CN102750299B (zh) | 2018-03-16 |
Family
ID=47030491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110390958.2A Active CN102750299B (zh) | 2011-11-30 | 2011-11-30 | 一种网上信息汇聚的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102750299B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853787A (zh) * | 2012-12-06 | 2014-06-11 | 北大方正集团有限公司 | 一种追踪相似稿件和图片的方法及*** |
CN104077391A (zh) * | 2014-06-30 | 2014-10-01 | 北京奇虎科技有限公司 | 提供专题新闻搜索的方法、服务器、客户端和*** |
WO2015196902A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 提供专题新闻搜索的方法、服务器、客户端和*** |
CN105677824A (zh) * | 2016-01-04 | 2016-06-15 | 河北秀朗投资有限公司 | 内容流生成及发布***及其抓取方法 |
CN106033414A (zh) * | 2015-03-09 | 2016-10-19 | 北大方正集团有限公司 | 一种热点信息处理方法和*** |
CN106777207A (zh) * | 2016-12-23 | 2017-05-31 | 北京奇虎科技有限公司 | 在搜索结果页中聚合餐饮类资讯信息的方法及装置 |
CN107704477A (zh) * | 2016-08-08 | 2018-02-16 | 中华电信股份有限公司 | 多媒体内容分类***与方法 |
CN109388640A (zh) * | 2018-10-10 | 2019-02-26 | 上海找油信息科技有限公司 | 一种资讯管理*** |
CN110020035A (zh) * | 2017-09-06 | 2019-07-16 | 腾讯科技(北京)有限公司 | 数据识别方法和装置、存储介质及电子装置 |
CN110188237A (zh) * | 2019-06-04 | 2019-08-30 | 成都索贝数码科技股份有限公司 | 一种用于赛事智能制作的数据汇聚***及方法 |
CN111324753A (zh) * | 2020-01-22 | 2020-06-23 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1760900A (zh) * | 2004-10-15 | 2006-04-19 | 中央电视台 | 广播电视媒体资产管理***及其调控方法 |
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN101588455A (zh) * | 2008-05-23 | 2009-11-25 | 新奥特(北京)视频技术有限公司 | 一种媒体素材的主题化收录*** |
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及*** |
CN101676907A (zh) * | 2008-09-16 | 2010-03-24 | 北京雷速科技有限公司 | 一种互联网资源定向获取方法及*** |
US20100106728A1 (en) * | 2008-10-10 | 2010-04-29 | Decernis, Llc | System and Method for Indexing, Searching and Presenting Technical Concepts |
-
2011
- 2011-11-30 CN CN201110390958.2A patent/CN102750299B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1760900A (zh) * | 2004-10-15 | 2006-04-19 | 中央电视台 | 广播电视媒体资产管理***及其调控方法 |
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN101588455A (zh) * | 2008-05-23 | 2009-11-25 | 新奥特(北京)视频技术有限公司 | 一种媒体素材的主题化收录*** |
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及*** |
CN101676907A (zh) * | 2008-09-16 | 2010-03-24 | 北京雷速科技有限公司 | 一种互联网资源定向获取方法及*** |
US20100106728A1 (en) * | 2008-10-10 | 2010-04-29 | Decernis, Llc | System and Method for Indexing, Searching and Presenting Technical Concepts |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853787B (zh) * | 2012-12-06 | 2017-06-16 | 北大方正集团有限公司 | 一种追踪相似稿件和图片的方法及*** |
CN103853787A (zh) * | 2012-12-06 | 2014-06-11 | 北大方正集团有限公司 | 一种追踪相似稿件和图片的方法及*** |
WO2015196902A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 提供专题新闻搜索的方法、服务器、客户端和*** |
CN104077391A (zh) * | 2014-06-30 | 2014-10-01 | 北京奇虎科技有限公司 | 提供专题新闻搜索的方法、服务器、客户端和*** |
CN106033414A (zh) * | 2015-03-09 | 2016-10-19 | 北大方正集团有限公司 | 一种热点信息处理方法和*** |
CN105677824A (zh) * | 2016-01-04 | 2016-06-15 | 河北秀朗投资有限公司 | 内容流生成及发布***及其抓取方法 |
CN107704477A (zh) * | 2016-08-08 | 2018-02-16 | 中华电信股份有限公司 | 多媒体内容分类***与方法 |
CN106777207A (zh) * | 2016-12-23 | 2017-05-31 | 北京奇虎科技有限公司 | 在搜索结果页中聚合餐饮类资讯信息的方法及装置 |
CN110020035A (zh) * | 2017-09-06 | 2019-07-16 | 腾讯科技(北京)有限公司 | 数据识别方法和装置、存储介质及电子装置 |
CN110020035B (zh) * | 2017-09-06 | 2023-05-12 | 腾讯科技(北京)有限公司 | 数据识别方法和装置、存储介质及电子装置 |
CN109388640A (zh) * | 2018-10-10 | 2019-02-26 | 上海找油信息科技有限公司 | 一种资讯管理*** |
CN110188237A (zh) * | 2019-06-04 | 2019-08-30 | 成都索贝数码科技股份有限公司 | 一种用于赛事智能制作的数据汇聚***及方法 |
CN110188237B (zh) * | 2019-06-04 | 2023-07-25 | 成都索贝数码科技股份有限公司 | 一种用于赛事智能制作的数据汇聚***及方法 |
CN111324753A (zh) * | 2020-01-22 | 2020-06-23 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及*** |
CN111324753B (zh) * | 2020-01-22 | 2021-09-03 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN102750299B (zh) | 2018-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102750299A (zh) | 一种网上信息汇聚的方法 | |
US11681736B2 (en) | System and method for tagging a region within a frame of a distributed video file | |
US9659278B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
CN103186600B (zh) | 互联网舆情的专题分析方法和装置 | |
CN102930060B (zh) | 一种数据库快速索引的方法及装置 | |
Chen et al. | SMS-based web search for low-end mobile devices | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN103246595A (zh) | 应用程序管理方法、装置、服务器及终端设备 | |
CN103970754A (zh) | 文章的自动选取方法及装置 | |
De Saulles | Information 2.0: New models of information production, distribution and consumption | |
CN102591475A (zh) | 一种在线编辑器的内容输入方法及*** | |
CN103440243A (zh) | 一种教学资源推荐方法及其装置 | |
CN103268345A (zh) | 影视数据的检索方法及装置 | |
Lavid Ben Lulu et al. | Functionality-based clustering using short textual description: Helping users to find apps installed on their mobile device | |
CN101158953A (zh) | 网络文档信息处理方法及装置 | |
CN103092839A (zh) | 记录历史信息的管理方法及装置 | |
Lewandowski | Understanding search engines | |
US9330181B2 (en) | Methods and apparatuses for document processing at distributed processing nodes | |
KR20100037836A (ko) | 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템 | |
CN101588455B (zh) | 一种媒体素材的主题化收录*** | |
Fu et al. | Analysis of cyberactivism: A case study of online free Tibet activities | |
Violot et al. | Shorts vs. Regular Videos on YouTube: A Comparative Analysis of User Engagement and Content Creation Trends | |
US20170220644A1 (en) | Media discovery across content respository | |
Chardonnens et al. | Text mining for user query analysis: a 5-step method for cultural heritage institutions | |
CN101888504A (zh) | 一种数字电视文字信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |