CN108399257B - 基于智能文稿分析的个性化新闻线索推荐方法 - Google Patents
基于智能文稿分析的个性化新闻线索推荐方法 Download PDFInfo
- Publication number
- CN108399257B CN108399257B CN201810189147.8A CN201810189147A CN108399257B CN 108399257 B CN108399257 B CN 108399257B CN 201810189147 A CN201810189147 A CN 201810189147A CN 108399257 B CN108399257 B CN 108399257B
- Authority
- CN
- China
- Prior art keywords
- information
- news
- clue
- data
- reporter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于记者工作属性的线索自动推荐***,通过智能分析新闻文稿***中的线索、报题、文稿及播出串联的线索信息,提取对应的标签并存入***;通过互联网采集***收集全网信息;同时结合电视台或广播台文稿***,Autonomy创建了一个新的信息层:智能信息操作层IDOL,自动把各个信息源和各种文件格式统一在一个智能的信息操作***之下,这个智能信息操作***能够提供多种信息操作的功能,包括信息的实施自动链接,信息自动分类,内容概括,信息聚类。
Description
技术领域
本发明涉及信息发布技术,具体而言涉及一种基于云记者工作属性(新闻工作属性)的线索自动推荐。
背景技术
大数据已经进入了人类社会和生活的方方面面。媒体产业是“信息消费”的主力军,本身就拥有大量的视音频和用户数据。在其与互联网越来越紧密的融合趋势下,已经成为大数据应用的另一个主战场。媒体大数据主要有如下三大来源:
1.新型媒体业务产生的用户行为数据
2.传统广播电视台长期积累的媒体资源数据
3.来自于互联网的媒体大数据
媒体大数据的战略意义不在于掌握多么庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。长期以来我们把更多的研究方向放在了大数据实现盈利的方向,花费大量的精力去探索新闻传播规律,我们经常能看到绝大多数的报告都是在研究媒体与运营市场如何精准定位,怎样实现精准媒体广告营销支撑,如何做到传播力影响力检测监管等等,而忽略了新闻生产最根本的需求——新闻线索。如果你是一个在媒体新闻工作者,那么你可以经常看到,记者忙忙碌碌费劲心思的上网搜索、电话咨询,只是为了找到一个合适的线索。生产工具是生产力发展的重要组成部分,记者如果能够用好“大数据”这个强有力的工具,那新闻生产的效率将会大大的提升。
发明内容
本发明目的在于提供一种基于智能文稿分析的个性化新闻线索推荐方法,可实现电视台内部资源再利用,深度挖掘新闻文稿***中的记者属性,新闻线索实时推送,提升记者找寻新闻线索的效率。
为达成上述目的,本发明的技术方案是:基于智能文稿分析的个性化新闻线索推荐方法,通过智能分析新闻(电视台、广播台等)文稿***中的线索、报题、文稿及播出串联的线索信息,提取对应的标签并存入***;
通过互联网采集***收集全网信息(包括网站,微博微信,论坛,app,pgc,ugc,地方通联,电话热线***等等),这些线索信息通过连接器接入数据分析引擎,经过数据预处理,语义分析,聚类分析形成线索标签存入***;同时结合电视台或广播台文稿***,分析出记者的新闻工作属性;提取记者新闻工作属性的“词条”即新闻工作属性标签,通过比对记者新闻工作属性标签及线索标签,推荐相匹配的线索给记者使用;
数据分析引擎采用HP Autonomy引擎结合Spark开源算法,HP Autonomy核心保证对任何形式的信息:文本文件或基于语音、视频、非结构化或结构化的实际内容的基本理解;Autonomy创建了一个新的信息层:智能信息操作层IDOL,自动把各个信息源和各种文件格式统一在一个智能的信息操作***之下,这个智能信息操作***能够提供多种信息操作的功能,包括信息的实施自动链接,信息自动分类,内容概括,信息聚类等;
Autonomy在***内创建一个新层,即智能数据操作层即操作平台(intelligentdata operating layer,IDOL),从而使媒体单位即企业***“以数据为中心”;该操作平台后端与各种数据源相连,能够根据任何语言和格式进行内容搜索,不论内容存放在哪里,自动实时地将总结以及与其类似信息的链接呈现出来。由于autonomy的技术是建立在概率性建模之上,因此不依赖任何语言进行分析,无需维护任何繁琐的词表,IDOL将此看成是意义的抽象符号,它通过词出现时的上下文环境而不是通过严格的语法定以来形成对该词的理解,从而识别进入到并利用autonomy架构中的任何数据的语言特性。另外,autonomy还具有分类和聚类功能。
IDOL自动根据非结构化文本中的概念对信息进行分类,可以保证根据内容对所有数据进行最准确的分类。而自动聚类可以收集大量的文档数据或用户档案信息,并且自动识别出信息内的主要类别,让IDOL自动的持续一致的计算新的信息应该属于哪个类别。
IDOL的特性决定了其强大的聚类分析能力,但是对于流式计算的能力有所欠缺。我们结合Spark的流式计算能力,对于突发性,实时性,无序性的信息进行处理。
数据引擎的处理流程如下,数据清洗:互联网信息中有很多无效的广告信息,推广栏,这些信息都要通过***将它去除。
去重:互联网中有很多转载的信息,我们需要把重复的内容去除,只保留一条作为线索。
聚类:根据分词结果把相似的内容聚成一类。保留一条作为主标题,把其余相似的内容作为推荐结果显示。
内容分词:把汇聚的内容信息进行分词处理,提取文章中的关键词,作为标签记录。
比对记者新闻属性标签与新闻线索标签,匹配度超过70以上,则认为该条线索为有效线索通过“荔枝云云报道app”推送给记者使用。
互联网采集***收集全网信息的对象:全网信息包括互联网及新闻内网。互联网信息包括各大主流权威网站,加V认证官方微博账号,微信公众号,主要新闻app,当地的主要论坛;新闻内网信息包含新闻记者站,全媒体记者PGC供稿,市民记者UGC,地方通联,热线电话,电视台记者上传,新闻内网信息可以要求用户输入对应的新闻属性标签。
本发明以新闻***为例,文稿***大致分为,线索发布平台、文稿Inews***,播出串联单;线索发布平台具备线索录入人员对来自电话、传真、Internet等来源的线索进行录入的功能,并可以按照不同级别的保密程度存储到新闻线索库中;支持线索的标签化管理;能够对提供线索的人员资料进行管理;所以可以直接以标签化的方式记录记者线索属性导入***。
文稿***与播出串联单都是采用avid***,支持文稿信息以XML的形式导出。
本发明利用大数据引擎,结合电视台新闻文稿***,通过自主分析,实现基于记者工作属性的线索自动推荐能力,为记者提供新闻报道线索,提示新闻发生地点和采访方向,可从数量众多的新闻线索来源中获取记者需要的线索。
综上所述,本发明具有如下有益效果:实现电视台等媒体的内部资源再次利用,充分挖掘媒体价值,深度分析记者工作属性和新闻属性。结合HP Autonomy引擎与Spark架构,有效提升电视台等媒体的内部资源数据分析能力,如在第一时间通过“荔枝云移动云报道App”实时推送有效线索,可以提升传统媒体的新闻制作的时效性。
附图说明
图1是基于HP Autonomy算法框架图;
图2是信息聚类架构图。
图3是记者属性标签提取图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
附图并非按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1所示基于HP Autonomy算法框架图。
结合图1所示HP autonomy的大数据分析***,主要包含:Connector,CFS,IDOLServer三个部分,如图1所示:
Connectors:数据采集器。支持多格式采集,包括:互联网数据,视音频,文本文档,数据库……;
CFS(the Connector Framework Server):连接器框架服务器。对采集过来的数据进行预处理,例如:把数据转成统一格式;
IDOL(Intelligent Data Operating Layer):智能数据操作层。对数据进行智能化分析,是整个***的核心;
数据源通过Connectors采集至CFS,CFS把这些多格式数据统一转换成特定格式,数据通过抽取关键词,转码等丰富改进后,传送至IDOL服务器。IDOL服务器根据实际需求对这些数据进行重新分类,聚类,热点分析。最后把分析的结果可视化呈现。
图2是信息聚类架构图。
IDOL server可以自动将信息聚类,帮助您查看信息中的趋势和发展变化。聚类是提取海量非结构化数据并自动将数据分区、从而使类似信息聚类的过程。每个聚类都均表示知识库内的一个概念区域,包含具有一组相同属性的项目。
聚类的基础是对IDOL存储的数据生成快照,之后才可以对快照内的数据进行各种各样的聚类。快照表示数据索引在某个特定时间的内容,支持生成聚类信息和光谱分析,即使数据索引已更改亦是如此。使用单一快照同时生成聚类信息和光谱分析数据,从而缩短进程时间。理想情况下,拍摄快照的IDOL server数据索引必须至少包含几千份优质文档。
图3是记者工作属性的标签提取图,信息经过预处理后,数据量依然很大。每天都要给记者推送6000条左右的线索显然是没有意义的。本发明提出了基于台内文稿***的线索推荐的设想。由现有的电视与广播台内文稿***我们可以知道,电视台文稿***中积累了成千上万条记者文稿的数据,而这些文稿与记者是一一对应的关系。通过IDOL Server对文稿***的分析,***计算出文稿的关键分词,如图3所示,***计算出记者张三一篇文稿的热点分词为无证,酒驾,高速,民警。假设四个分词对应的权值为W1,W2,W3,W4,文中每出现一次,计数加1。按照图3中热词分布,计数结果为W1=2,W2=5,W3=1,W4=6。
按照这种方式分析文稿***中张三一个月所有稿件,通过加权平均的方式得到最后的用户分词,及其所对应的权值。所有这些分词作为记者画像的标签存储在***之中。这些分词与***中所有线索的分词做匹配分析,当匹配度达到设定的阈值时,即视作有效的线索,把该线索推荐给相对应的记者。如图3所示。
通过这种方式我们就可以得到更加精确的线索推荐结果。同时利用荔枝云的接口调用,把这些线索发送至手机移动云报道app中。这样记者通过手机就可以查看推荐过来的线索。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (8)
1.基于记者工作属性的线索自动推荐***,其特征在于,通过智能分析新闻文稿***中的线索、报题、文稿及播出串联的线索信息,提取对应的标签并存入***;通过互联网采集***收集全网信息、包括网站,微博微信,论坛,app,pgc,ugc,地方通联,电话热线***,这些线索信息通过连接器接入数据分析引擎,经过数据预处理,语义分析,聚类分析形成线索标签存入***;同时结合电视台或广播台文稿***,分析出记者的新闻工作属性;提取记者新闻工作属性的“词条”即新闻工作属性标签,通过比对记者新闻工作属性标签及线索标签,推荐相匹配的线索给记者使用;数据分析引擎采用HP的Autonomy引擎结合Spark开源算法,HP Autonomy核心保证对任何形式的信息:文本文件或基于语音、视频、非结构化或结构化的实际内容的基本理解;Autonomy创建了一个新的信息层:智能信息操作层IDOL,自动把各个信息源和各种文件格式统一在一个智能的信息操作***之下,这个智能信息操作***能够提供多种信息操作的功能,包括信息的实施自动链接,信息自动分类,内容概括,信息聚类。
2.根据权利要求1所述的自动推荐***,其特征在于,所述的Autonomy在***内创建一个新层,即智能数据操作层即操作平台intelligent data operating layer 即IDOL,从而使媒体单位即企业***“以数据为中心”;该操作平台后端与各种数据源相连,能够根据任何语言和格式进行内容搜索,不论内容存放在哪里,自动实时地将总结以及与其类似信息的链接呈现出来。
3.根据权利要求2所述的自动推荐***,其特征在于,IDOL将词条看成是定义的抽象符号,它通过词条出现时的上下文环境而不是通过严格的语法定义 来形成对该词的理解,从而识别进入到并利用autonomy架构中的任何数据的语言特性;利用autonomy还具有分类和聚类功能。
4.根据权利要求2所述的自动推荐***,其特征在于,IDOL自动根据非结构化文本中的词条对信息进行分类;而自动聚类可以收集大量的文档数据或用户档案信息,并且自动识别出信息内的主要类别,让IDOL自动的持续一致的计算新的信息应该属于哪个类别。
5.根据权利要求2所述的自动推荐***,其特征在于对于流式计算,通过结合Spark的流式计算能力,对于突发性,实时性,无序性的信息进行处理。
6.根据权利要求2所述的自动推荐***,其特征在于,数据引擎的处理流程如下,数据清洗:互联网信息中有很多无效的广告信息,推广栏,这些信息都要通过***将它去除;去重:互联网中有很多转载的信息重复的内容去除,只保留一条作为线索;聚类:根据分词结果把相似的内容聚成一类;保留一条作为主标题,把其余相似的内容作为推荐结果显示;内容分词:把汇聚的内容信息进行分词处理,提取文章中的关键词,作为标签记录;比对记者新闻属性标签与新闻线索标签,匹配度超过70%以上,则认为该条线索为有效。
7.根据权利要求2所述的自动推荐***,其特征在于,互联网采集***收集全网信息的对象:全网信息包括互联网及新闻内网;互联网信息包括各大主流权威网站,加V认证官方微博账号,微信公众号,主要新闻app,当地的主要论坛;新闻内网信息包含新闻记者站,全媒体记者PGC供稿,市民记者UGC,地方通联,热线电话,电视台记者上传,新闻内网信息可以要求用户输入对应的新闻属性标签。
8.根据权利要求2所述的自动推荐***,其特征在于,在电视台台内新闻网络制播***应用中,文稿***分为线索发布平台、文稿***,播出串联单;线索发布平台具备线索录入人员对来自电话、传真、互联网来源的线索进行录入的功能,并按照不同级别的保密程度存储到新闻线索库中;支持线索的标签化管理;能够对提供线索的人员资料进行管理;所以直接以标签化的方式记录记者线索属性导入***;文稿***与播出串联单都是采用电视台台内新闻网络制播***,支持文稿信息以XML的形式导出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810189147.8A CN108399257B (zh) | 2018-03-08 | 2018-03-08 | 基于智能文稿分析的个性化新闻线索推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810189147.8A CN108399257B (zh) | 2018-03-08 | 2018-03-08 | 基于智能文稿分析的个性化新闻线索推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108399257A CN108399257A (zh) | 2018-08-14 |
CN108399257B true CN108399257B (zh) | 2021-05-18 |
Family
ID=63092595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810189147.8A Active CN108399257B (zh) | 2018-03-08 | 2018-03-08 | 基于智能文稿分析的个性化新闻线索推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399257B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1072983A3 (en) * | 1996-04-12 | 2003-11-12 | Avid Technology, Inc. | A multimedia system with improved data management mechanisms |
CN102750390A (zh) * | 2012-07-05 | 2012-10-24 | 翁时锋 | 新闻网页要素自动提取方法 |
CN105656932A (zh) * | 2016-03-01 | 2016-06-08 | 中国传媒大学 | 一种面向用户生成内容的突发事件新闻采集方法与*** |
CN105706070A (zh) * | 2013-06-14 | 2016-06-22 | T-数据***(新加坡)有限公司 | 用于上传、展示和销售新闻素材的***和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358891A1 (en) * | 2013-06-04 | 2014-12-04 | Listener Driven Radio Llc | System for collecting, calculating, and ranking interest in information in real time |
-
2018
- 2018-03-08 CN CN201810189147.8A patent/CN108399257B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1072983A3 (en) * | 1996-04-12 | 2003-11-12 | Avid Technology, Inc. | A multimedia system with improved data management mechanisms |
CN102750390A (zh) * | 2012-07-05 | 2012-10-24 | 翁时锋 | 新闻网页要素自动提取方法 |
CN105706070A (zh) * | 2013-06-14 | 2016-06-22 | T-数据***(新加坡)有限公司 | 用于上传、展示和销售新闻素材的***和方法 |
CN105656932A (zh) * | 2016-03-01 | 2016-06-08 | 中国传媒大学 | 一种面向用户生成内容的突发事件新闻采集方法与*** |
Non-Patent Citations (2)
Title |
---|
动态文本流中的话题线索检测算法;曹月芹;《计算机工程》;20111231;第37卷(第24期);45-49 * |
基于微博用户创作内容的新闻线索自动发现研究;傅湘玲,齐佳音,高威;《情报学报》;20161031;第35卷(第10期);1038-1047 * |
Also Published As
Publication number | Publication date |
---|---|
CN108399257A (zh) | 2018-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020159A (zh) | 一种面向事件的新闻展现方法和装置 | |
CN104504081A (zh) | 全媒体检测及监播大数据行为智能分析*** | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
CN111460252A (zh) | 一种基于网络舆情分析的自动化搜索引擎方法及*** | |
CN105808722B (zh) | 一种信息判别方法和*** | |
CN109710767B (zh) | 多语种大数据服务平台 | |
CN102542061A (zh) | 一种产品的智能分类方法 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其*** | |
CN111680125A (zh) | 诉讼案件分析方法、装置、计算机设备及存储介质 | |
CN113360599A (zh) | 一种基于内容识别的多源异构情报汇聚协同处理平台 | |
CN108363748A (zh) | 基于知乎的话题画像***及话题画像方法 | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
US9563666B2 (en) | Unsupervised detection and categorization of word clusters in text data | |
CN114356967A (zh) | 一种专业情报搜集分析应用平台 | |
CN116561295A (zh) | 一种互联网数据提取*** | |
CN113015171A (zh) | 一种具有网络舆情监控及分析功能的*** | |
CN108399257B (zh) | 基于智能文稿分析的个性化新闻线索推荐方法 | |
CN111859108A (zh) | 一种舆情***搜索词推荐*** | |
CN109710730B (zh) | 一种基于自然语言分析处理的巡视信息***及分析方法 | |
CN116595043A (zh) | 一种大数据检索方法及装置 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
CN114841155A (zh) | 主题内容智能聚合方法、装置、电子设备及存储介质 | |
KR100667917B1 (ko) | 웹사이트 검색 서비스 제공 방법 및 그 시스템 | |
CN113538011A (zh) | 一种电力***中非在册联系信息与在册用户的关联方法 | |
CN1841372A (zh) | 帮用户根据非结构化信息源形成结构化图表的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |