CN102929932A - 一种实时新闻的展现装置及其方法 - Google Patents
一种实时新闻的展现装置及其方法 Download PDFInfo
- Publication number
- CN102929932A CN102929932A CN2012103601010A CN201210360101A CN102929932A CN 102929932 A CN102929932 A CN 102929932A CN 2012103601010 A CN2012103601010 A CN 2012103601010A CN 201210360101 A CN201210360101 A CN 201210360101A CN 102929932 A CN102929932 A CN 102929932A
- Authority
- CN
- China
- Prior art keywords
- news
- real
- time
- channel
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种实时新闻的展现装置及其方法,该装置包括新闻采集和预处理模块、新闻分频道模块、实时新闻处理模块、实时新闻存储模块和前端模块;其中:新闻采集和预处理模块,用于实时的从互联网采集新闻,并进行预处理;新闻分频道模块,用于对所采集的新闻划分频道;实时新闻处理模块,用于将采集的新闻进行处理,并按其频道存储于相应的存储区;实时新闻存储模块,用于存储实时新闻并向前端模块发送更新信号;前端模块,用于滚动展示所述的实时新闻。采用本发明,能够展示全网环境下以及各个领域内新闻动态更新的过程,增强互联网新闻报道的实时性。
Description
技术领域
本发明涉及互联网数据实时处理和展现技术,特别涉及一种实时新闻的展现装置及其方法。
背景技术
随着以互联网为代表的信息技术的快速发展,信息的数量越来越大、传播速度越来越快,影响范围越来越广。互联网已能够与报纸、电视等传统媒介并驾齐驱,成为新闻传播的主要媒介之一。然而,传统新闻网站不能展示新闻动态更新的过程,或者只能展示本网站采编的新闻的动态更新过程,因此,并没有充分发挥出互联网新闻实时、快速的优势。
发明内容
有鉴于此,本发明的主要目的在于提供一种实时新闻的展现装置及其方法,以展示全网环境下以及各个领域内新闻动态更新的过程,增强互联网新闻报道的实时性。
为达到上述目的,本发明的技术方案是这样实现的:
一种实时新闻的展现装置,主要包括新闻采集和预处理模块、新闻分频道模块、实时新闻处理模块、实时新闻存储模块和前端模块;其中:
新闻采集和预处理模块,用于实时的从互联网采集新闻,并进行预处理;
新闻分频道模块,用于对所采集的新闻划分频道;
实时新闻处理模块,用于将采集的新闻进行处理,并按其频道存储于相应的存储区;
实时新闻存储模块,用于存储实时新闻并向前端模块发送更新信号;
前端模块,用于滚动展示所述的实时新闻。
一种实时新闻的展现方法,包括:
A、实时采集新闻并进行预处理;
B、对所采集的新闻进行分频道,即对所采集的新闻按主题类别进行自动化分类;
C、将所采集的新闻进行处理,并按其频道标签分别存储于相应的存储区;
D、存储新闻并实时更新前端模块,滚动展示所述的实时新闻。
其中:步骤A所述实时采集新闻并进行预处理的过程,具体包括:
A1、通过爬虫采集目标网站列表中的网页页面;
A2、对所采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间的信息,并组织成结构化信息
A3、根据所述的标题和正文,分别记录签名。
其中,步骤A3 所述的签名的特点是:对于相似度较高的文本,产生相同的签名。
步骤B所述对采集的新闻分频道即分类的过程为:
采用预先专门训练的朴素贝叶斯分类器,抽取网页的标题、正文、url的特征,并结合预设的规则,判定当前周期内所采集到的各网页是否属于新闻,如果是,则判其归属其中的一个频道,并填写频道标签;否则,不处理。
所述频道分为国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类,以及焦点频道。
步骤C所述对所采集的新闻进行处理的过程,包括:
C1、获取当前周期内的所采集的新闻,根据新闻标题签名、正文签名信息,与当前维护的实时新闻签名集合比对,进行去重;
C2、对各频道队列的可写拷贝进行加写锁,并将各可写拷贝内超过预设时长的过时新闻删除;
C3、根据新的新闻的频道标签,将其分别加入各频道的可写拷贝中,并将各可写拷贝内的新闻按时间进行倒序排序,然后解除写锁。
步骤D所述更新前端模块并滚动展示所述实时新闻的过程为:
D1、找到指定频道的队列,对当前可读拷贝加读锁;
D2、从可读拷贝读取前N条新闻,解除读锁;
D3、更新前端模块中的实时新闻列表;其中,N为自然数。
所述的步骤A~步骤D均需周期性执行。
本发明所提供的实时新闻的展现装置及其方法,具有以下优点:
可以把新发生的全网范围内网络新闻即时展现给用户,使用户直观感受全网新闻以及各频道内的新闻动态更新的过程。
本发明通过维护一定长度的时间有序队列,基本上克服了新闻爬取顺序和实际发布顺序不一致的问题。
附图说明
图1为本发明实施例的实时新闻的展现装置的组成示意图;
图2为本发明实施例的实时新闻的展现方法的总体流程图;
图3为本发明的实时采集新闻和预处理流程图;
图4为本发明的实时新闻处理流程图;
图5为本发明的实时新闻存储流程图。
具体实施方式
下面结合附图及本发明的实施例对本发明的装置及其方法作进一步详细的说明。
图1为本发明实施例的实时新闻的展现装置的组成示意图,如图1所示,其主要包括:
新闻采集和预处理模块,用于实时的从互联网采集新闻,并进行预处理。
新闻分频道模块,用于对所采集的新闻划分频道。
实时新闻处理模块,用于将采集的新闻进行处理,并按其频道存储于相应的存储区。
实时新闻存储模块,用于存储实时新闻并向前端模块发送更新信号。
前端模块,用于滚动展示所述的实时新闻。
图2为本发明实施例的实时新闻的展现方法的总体流程图,如图2所示,包括如下步骤:
步骤S1:实时采集新闻并进行预处理。
这里,所述采集新闻并进行预处理对过程,如图3所示,具体包括:
步骤S11:通过爬虫采集目标网站列表中的网页页面,这些网站不仅包含各类专业新闻网站,如网易、新浪、搜狐等;也包括登载新闻的非新闻网站,如各政府机关、事业单位、企业的官方网站等。
步骤S12:对采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间等信息,并组织成结构化信息,以利于进一步处理。
步骤S13:根据标题和正文,分别记录签名。该签名的特点是,。
步骤S2:对所采集的新闻进行分频道,即对新采集的新闻按其主题类别进行自动化分类。
这里,采用预先专门训练的朴素贝叶斯分类器,抽取网页的标题、正文、url等特征,并结合若干规则,判定本周期内新采集到的各网页是否属于新闻,如果是,则判其归属于哪一个频道,并填写频道标签;否则,不处理。
步骤S3:将所采集的新闻进行处理,并按其频道标签分别存储于相应的存储区。该步骤须周期性执行,周期一般为几十秒内,可灵活配置。此步骤中提到的各频道不仅包括步骤S2中提到的频道,还包括焦点频道,焦点频道是指由全部新闻构成的频道,如图4所示,具体包括:。
步骤S31:获取本周期内新的新闻,根据新闻标题签名、正文签名等,与当前维护的实时新闻签名集合比对,进行去重。
步骤S32:对各频道队列的可写拷贝加写锁,把各可写拷贝内过时(即距离当前时间超过一定阀值)的新闻删除。
步骤S33:根据新的新闻的频道标签,把它们分别塞入各频道的可写拷贝中,并把各可写拷贝内的新闻按时间进行倒序排序,然后解除写锁。
步骤S4:存储新闻并实时更新前端模块,滚动展示所述的实时新闻。该步骤S4也须周期性执行,周期一般为几十秒内,可灵活配置,如图5所示,该过程具体为:
步骤S41:找到指定频道的队列,对当前可读拷贝加读锁。
步骤S42:从可读拷贝读取前N条新闻,解除读锁。
步骤S43:实时更新前端模块中的实时新闻列表。
这样,通过所述前端模块即可展示所述的实时新闻了。
如上所述的实时新闻展现装置及其方法,经过论证并经实践表明,能够实时的展现新闻的变化情况。
本发明解决网络新闻实时展现问题的技术,并不限于新闻这一信息形式。还适用于其他形式的互联网信息,如微博、博客、电子公告板(BBS)等媒体形式上,只要其采取与本发明的技术相似的方法实时动态展示其变化情况的,均应视为落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (9)
1.一种实时新闻的展现装置,其特征在于,主要包括新闻采集和预处理模块、新闻分频道模块、实时新闻处理模块、实时新闻存储模块和前端模块;其中:
新闻采集和预处理模块,用于实时的从互联网采集新闻,并进行预处理;
新闻分频道模块,用于对所采集的新闻划分频道;
实时新闻处理模块,用于将采集的新闻进行处理,并按其频道存储于相应的存储区;
实时新闻存储模块,用于存储实时新闻并向前端模块发送更新信号;
前端模块,用于滚动展示所述的实时新闻。
2. 一种实时新闻的展现方法,其特征在于,包括:
A、实时采集新闻并进行预处理;
B、对所采集的新闻进行分频道,即对所采集的新闻按主题类别进行自动化分类;
C、将所采集的新闻进行处理,并按其频道标签分别存储于相应的存储区;
D、存储新闻并实时更新前端模块,滚动展示所述的实时新闻。
3.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤A所述实时采集新闻并进行预处理的过程,具体包括:
A1、通过爬虫采集目标网站列表中的网页页面;
A2、对所采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间的信息,并组织成结构化信息
A3、根据所述的标题和正文,分别记录签名。
4.根据权利要求3所述的实时新闻的展现方法,其特征在于,步骤A3 所述的签名的特点是:对于相似度较高的文本,产生相同的签名。
5.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤B所述对采集的新闻分频道即分类的过程为:
采用预先专门训练的朴素贝叶斯分类器,抽取网页的标题、正文、url的特征,并结合预设的规则,判定当前周期内所采集到的各网页是否属于新闻,如果是,则判其归属其中的一个频道,并填写频道标签;否则,不处理。
6.根据权利要求5所述的实时新闻的展现方法,其特征在于,所述频道分为国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类,以及焦点频道。
7.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤C所述对所采集的新闻进行处理的过程,包括:
C1、获取当前周期内的所采集的新闻,根据新闻标题签名、正文签名信息,与当前维护的实时新闻签名集合比对,进行去重;
C2、对各频道队列的可写拷贝进行加写锁,并将各可写拷贝内超过预设时长的过时新闻删除;
C3、根据新的新闻的频道标签,将其分别加入各频道的可写拷贝中,并将各可写拷贝内的新闻按时间进行倒序排序,然后解除写锁。
8.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤D所述更新前端模块并滚动展示所述实时新闻的过程为:
D1、找到指定频道的队列,对当前可读拷贝加读锁;
D2、从可读拷贝读取前N条新闻,解除读锁;
D3、更新前端模块中的实时新闻列表;
其中,N为自然数。
9.根据权利要求2、7或8所述的实时新闻的展现方法,其特征在于,所述的步骤均需周期性执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012103601010A CN102929932A (zh) | 2012-09-25 | 2012-09-25 | 一种实时新闻的展现装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012103601010A CN102929932A (zh) | 2012-09-25 | 2012-09-25 | 一种实时新闻的展现装置及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102929932A true CN102929932A (zh) | 2013-02-13 |
Family
ID=47644730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012103601010A Pending CN102929932A (zh) | 2012-09-25 | 2012-09-25 | 一种实时新闻的展现装置及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102929932A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399884A (zh) * | 2013-07-14 | 2013-11-20 | 王国栋 | 一种随机新闻***及其自动刷新方法 |
CN104077391A (zh) * | 2014-06-30 | 2014-10-01 | 北京奇虎科技有限公司 | 提供专题新闻搜索的方法、服务器、客户端和*** |
CN106354857A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 一种新闻标签管理*** |
CN106970998A (zh) * | 2017-04-06 | 2017-07-21 | 北京奇虎科技有限公司 | 新闻数据的更新方法及装置 |
CN107609073A (zh) * | 2017-09-01 | 2018-01-19 | 福建中金在线信息科技有限公司 | 一种资讯展示方法、装置、电子设备及存储介质 |
CN108491420A (zh) * | 2018-02-06 | 2018-09-04 | 平安科技(深圳)有限公司 | 网页爬取的配置方法、应用服务器及计算机可读存储介质 |
CN109446397A (zh) * | 2018-10-24 | 2019-03-08 | 杭州凡闻科技有限公司 | 一种数据挖掘方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101588411A (zh) * | 2009-06-09 | 2009-11-25 | 深圳市五巨科技有限公司 | 移动终端滚动显示自动更新消息的方法和装置 |
CN102495872A (zh) * | 2011-11-30 | 2012-06-13 | 中国科学技术大学 | 对移动设备用户进行个性化新闻推荐的方法和装置 |
-
2012
- 2012-09-25 CN CN2012103601010A patent/CN102929932A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101588411A (zh) * | 2009-06-09 | 2009-11-25 | 深圳市五巨科技有限公司 | 移动终端滚动显示自动更新消息的方法和装置 |
CN102495872A (zh) * | 2011-11-30 | 2012-06-13 | 中国科学技术大学 | 对移动设备用户进行个性化新闻推荐的方法和装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399884A (zh) * | 2013-07-14 | 2013-11-20 | 王国栋 | 一种随机新闻***及其自动刷新方法 |
CN104077391A (zh) * | 2014-06-30 | 2014-10-01 | 北京奇虎科技有限公司 | 提供专题新闻搜索的方法、服务器、客户端和*** |
CN106354857A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 一种新闻标签管理*** |
CN106970998A (zh) * | 2017-04-06 | 2017-07-21 | 北京奇虎科技有限公司 | 新闻数据的更新方法及装置 |
CN107609073A (zh) * | 2017-09-01 | 2018-01-19 | 福建中金在线信息科技有限公司 | 一种资讯展示方法、装置、电子设备及存储介质 |
CN108491420A (zh) * | 2018-02-06 | 2018-09-04 | 平安科技(深圳)有限公司 | 网页爬取的配置方法、应用服务器及计算机可读存储介质 |
CN109446397A (zh) * | 2018-10-24 | 2019-03-08 | 杭州凡闻科技有限公司 | 一种数据挖掘方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102929932A (zh) | 一种实时新闻的展现装置及其方法 | |
CN106528693B (zh) | 面向个性化学习的教育资源推荐方法及*** | |
US10346449B2 (en) | Predicting performance of content and electronic messages among a system of networked computing devices | |
CN104484431B (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
US20150256499A1 (en) | Ranking, collection, organization, and management of non-subscription electronic messages | |
US20150334068A1 (en) | Message processing method and apparatus | |
Glowacki et al. | News and political information consumption in Mexico: Mapping the 2018 Mexican presidential election on Twitter and Facebook | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN103886067A (zh) | 使用标签隐含主题进行图书推荐的方法 | |
Li et al. | Exploiting concept drift to predict popularity of social multimedia in microblogs | |
CN103699611B (zh) | 一种基于动态摘要技术的微博流信息提取方法 | |
EP2780874A1 (en) | System and method for providing feed-based advertisements | |
CN102957949A (zh) | 为用户推荐视频的装置及方法 | |
CN102404240B (zh) | 信息搜索***及方法 | |
CN111754268A (zh) | 基于ott大数据的用户标签生成方法、管理***及存储介质 | |
CN103077234A (zh) | 语音网址导航***及方法 | |
CN101625695B (zh) | Web视频页面的复杂命名实体的抽取方法及其*** | |
CN102629252A (zh) | 信息提示方法和*** | |
CN103870452A (zh) | 数据推荐方法及*** | |
Stewart et al. | Build it and they will come? Patron engagement via Twitter at historically black college and university libraries | |
CN102915358A (zh) | 导航网站实现方法和装置 | |
Kandylas et al. | The utility of tweeted URLs for web search | |
JP2012216168A (ja) | アクティブユーザ抽出装置、アクティブユーザ抽出方法、およびプログラム | |
CN104376066A (zh) | 一种网络特定内容挖掘方法和装置、及一种电子设备 | |
CN105335382A (zh) | 网页正文的提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130213 |