CN103473263B - 一种面向新闻事件演变过程的可视化展现方法 - Google Patents

一种面向新闻事件演变过程的可视化展现方法 Download PDF

Info

Publication number
CN103473263B
CN103473263B CN201310303085.6A CN201310303085A CN103473263B CN 103473263 B CN103473263 B CN 103473263B CN 201310303085 A CN201310303085 A CN 201310303085A CN 103473263 B CN103473263 B CN 103473263B
Authority
CN
China
Prior art keywords
news
data subset
event
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310303085.6A
Other languages
English (en)
Other versions
CN103473263A (zh
Inventor
郭艳卿
赵锐
孔祥维
蒋金平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201310303085.6A priority Critical patent/CN103473263B/zh
Publication of CN103473263A publication Critical patent/CN103473263A/zh
Application granted granted Critical
Publication of CN103473263B publication Critical patent/CN103473263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明一种面向新闻事件演变过程的可视化展现方法属于自然语言处理及计算机应用技术领域,涉及一种面向新闻事件演变过程的可视化展现方法。该方法从新闻源获取某特定新闻事件的相关新闻报道网页,并进行去重处理,得到该事件的无重复新闻报道数据集;再按新闻报道时间进行数据子集划分,得到按时间先后排序的数据子集;从各数据子集中提取该报道时间的人物、地点要素,生成事件摘要;以报道时间对应的数据子集中的满足重要性的人物、地点和事件摘要句子为节点,以它们间的关联关系为边,进行该事件可视化展现。该方法帮助读者全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系,以降低读者获取新闻信息的成本。

Description

一种面向新闻事件演变过程的可视化展现方法
技术领域
本发明属于自然语言处理及计算机应用技术领域,特别涉及一种面向新闻事件演变过程的可视化展现方法。
背景技术
随着网络技术及多媒体技术的发展和普及,人们获取社会新闻事件信息的途径发生了巨大的变化。报纸、广播、电视等新闻媒介的核心地位正逐渐被网络新闻媒体所取代,网络新闻报道已成为大众主要的信息获取平台。但网络新闻报道纷繁复杂,内容相近甚至重复的新闻报道浪费了人们宝贵的查阅时间,不同视角的“碎片式”报道使得人们很难快捷地掌握新闻事件的来龙去脉,因此目前急需一种全面、精炼、直观的新闻事件展现方法来降低大众获取新闻信息的时间成本。目前网络新闻事件的展现方法主要有以下两类:
第一类方法:通过职业新闻工作者对特定新闻事件的网络新闻报道进行人工编辑、分类整理,使得相关信息更为有序、便于用户进行阅读。对于重大新闻事件,新浪、凤凰、网易等新闻网站则更为细致地整理出新闻专题报道,以提供更为全面的相关信息。该方法的优点,是可以帮助用户较全面地掌握整个新闻事件的发展过程及细节信息;缺点是人工编辑、整理的成本较高,并且针对重大新闻事件所整理出的专题报道数量仍旧较多,仍需要花费大量时间阅读专题中的报道才能掌握新闻事件的发展过程。
第二类方法:利用搜索、聚类等信息处理技术对新闻事件的相关信息进行收集和整理,并可按信息的来源及类型(如新闻、论坛、博客、视频等)进行更为细致的分类展现,同时可按信息发布时间的先后顺序进行排序。该方法的优点,是虽然采用搜索、聚类等信息处理技术实现了对新闻事件相关信息的自动搜集、整理和提炼主题,大大降低了人工编辑、整理的成本;但缺点是无法精炼、直观地展现出新闻事件的发展过程,也无法对新闻事件中人物、地点等关键要素的关联关系及演化过程。
发明内容
本发明主要针对现有两类网络新闻展现技术的不足,发明一种面向新闻事件演变过程的可视化展现方法,依据编写的计算机程序,具体执行所述方法的各个步骤。在降低人工编辑、整理成本的同时,全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系。
本发明采用的技术方案是一种面向新闻事件演变过程的可视化展现方法,依据编写的计算机程序,具体执行所述方法的各个步骤。该方法具体包括:
一种面向新闻事件演变过程的可视化展现方法,其特征在于,首先从新闻源获取某特定新闻事件的相关新闻报道网页并进行去重处理,得到该事件的无重复新闻报道数据集;进而将新闻报道数据集,按新闻报道时间进行数据子集划分,得到按报道时间先后排序的数据子集;从各数据子集中提取该报道时间的人物、地点新闻事件要素,在此基础上生成该报道时间的事件摘要;最后以每个新闻报道时间对应的数据子集中,满足重要性要求的人物、地点新闻要素和事件摘要句子为节点,以它们之间的关联关系为边,进行该时间点的事件可视化展现。
所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,对获取的某特定新闻事件的相关新闻报道网页并进行去重处理,具体包括对每篇新闻报道网页文本中的字符进行出现次数统计,将出现次数超过预设要求的字符作为该网页的特征字符;将所有特征字符按出现次数排列成特征字符串,在其基础上利用Hash方法生成一个固定长度的特征码;如果两篇新闻报道网页的特征码相同,则认为其中之一是重复网页。
所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,对数据子集的选择,具体包括若数据子集内包含人物、地点句子的数量大于预设阈值,则将该数据子集判别为重要数据子集,将该数据子集对应的新闻报道时间判别为该特定新闻事件的重要报道时间。
所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,事件摘要的生成过程,具体包括根据数据子集中句子的重要性由大到小排序,选择重要性大于预设要求的句子作为该报道时间数据子集的事件摘要;其中,句子重要性的定义涉及词频统计权值和新闻要素权值两方面因素:句子词频统计权值的计算方法采用了TFIDF权值计算方法;句子新闻要素权值的计算方法为人物、地点新闻要素在数据子集中出现的相对频次;具体过程包括:
首先,从各数据子集中提取人物、地点等新闻事件要素得到新闻要素词组集合(如地点要素词组集合:L={l1,l2,...ln}),并对要素词组集合进行权值量化;以地点要素词组集合为例,各个地点要素的权值量化过程为:
p ( l i ) = n l i | L | - - - ( 1 )
式(1)中是地点要素li在数据子集中的出现次数,|L|是数据子集中所有地点要素的总个数,将p(li)作为要素li的权重;
其次,计算各数据子集中词的权重,利用TFIDF方法算出数据子集中每个词wi的得分Score(wi),具体公式可表示为:
S c o r e ( w i ) = T F ( w i ) × I D F ( w i ) | W | - - - ( 2 )
式(2)中TF(wi)为词wi在数据子集中的出现次数,表示词wi在总数据集中出现的数据子集频率的倒数,|W|是数据子集中词的总个数;将Score(wi)作为词wi的权重,若词wi为要素词组,则用新闻要素的权值调整词的权重,否则词的权重不变;以词wi为地点要素为例,调整权重方法的具体公式可以表示为:
π ( w i ) = ( 1 + p ( w i ) ) · S c o r e ( w i ) w i ∈ L S c o r e ( w i ) w i ∉ L - - - ( 3 )
式(3)中π(wi)表示词wi的权重;
再次,根据句子Sj中包含词的权重对句子赋予权重,对该句子所包含的词的权重求平均值,公式为:
π ( S j ) Σ i = 1 n w i n w i ∈ S j - - - ( 4 )
式(4)中π(Sj)表示句子Sj的权重,n表示句子Sj中包含的词的个数;
最后,依据句子权重由大到小对句子进行排序,并选取排序靠前的若干句子作为该时间点的事件摘要。
5.所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,新闻事件演变过程的可视化展现,其中人物、地点新闻要素的重要性计算方法为人物、地点新闻要素在数据子集中出现的相对频次;事件摘要句子的选择方法上述事件摘要的生成过程相同;对已确定的节点和边进行中心度分析,重要性越大的节点在图中的大小越大,放置位置越趋于图的中部;若事件摘要句子节点中包含某人物或某地点,则将图中的该事件摘要句子节点与该人物或该地点节点用线连接,否则节点间不连接。
本发明的有益效果是,可协助读者全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系。
附图说明
图1本发明一种面向新闻事件演变过程的可视化展现方法流程图,
图2为本发明某一时间点新闻事件可视化展示图的一个优选实施例,
图3为本发明多个连续时间点新闻事件可视化展示图的一个优选实施例。
具体实施方式
下面结合附图和技术方案详细说明本发明的具体实施方式。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实例对本发明进行详细描述。
图1为本发明实施例提供的面向新闻事件演变过程的可视化展现方法流程图,如图1所示,该方法包括以下步骤:
步骤一:从新闻源获取某特定新闻事件的相关新闻报道网页。
在本步骤中,可以使用新闻平台提供的接口,根据特定新闻事件的关键词获取相关新闻报道网页。其中,新闻平台可以是任意网站的新闻频道,也可以是搜索引擎搜集的新闻数据。
步骤二:对获新闻报道网页进行去重处理,得到新闻报道数据集。
在本步骤中的新闻报道网页去重处理,可采用基于字符频次Hash值的网页去重方法,具体的去重过程可以包括:
首先,对获取的每篇新闻报道网页的文本字符进行出现次数统计,将出现次数超过预设要求的非停用词字符作为该篇新闻报道网页的特征字符;
其次,将每篇新闻报道网页中所有特征字符,按出现次数排列成特征字符串,并应用Hash方法将该特征字符串映射成一个固定长度的特征码;
最后,两两比较所有获取新闻报道网页的特征码,如两篇新闻报道网页的特征码相同,则认为其中之一是重复网页,并从新闻报道数据集中去除掉。
当然,上述基于字符频次Hash值的网页去重方法仅是本发明提供的一优选实施方式,也可以采用其他网页去重方法。
步骤三:对新闻报道数据集按报道时间和重要性确定出按时间排序的数据子集。
在本步骤中,数据子集确定方法的具体过程可以为:
首先,将新闻报道数据集中的网页文本按新闻报道时间进行数据子集划分,将报道时间相同的网页文本归为以该报道时间为标签的同一个数据子集;
其次,对每个数据子集中所有网页文本进行分词处理,并标记出哪些句子中包含人物、地点等新闻事件要素;
再次,如果某一数据子集中包含人物、地点等新闻关键要素的句子数量大于预设阈值,则将该数据子集判别为重要数据子集,并予以留用;否则,则去除掉将该报道时间的数据子集;
最后,按报道时间的先后顺序,重新排列留用的各数据子集。
步骤四:从每个数据子集中提取人物、地点等新闻事件要素,并形成该时间点的事件摘要。
在本步骤中,各时间点上事件摘要的提取,可采用基于新闻事件要素的多文档摘要提取方法,具体过程包括:
首先,从各数据子集中提取人物、地点等新闻事件要素得到新闻要素词组集合(如地点要素词组集合:L={l1,l2,...ln}),并对要素词组集合进行权值量化。以地点要素词组集合为例,各个地点要素的权值量化过程为:
p ( l i ) = n l i | L | - - - ( 1 )
式(1)中是地点要素li在数据子集中的出现次数,|L|是数据子集中所有地点要素的总个数。将p(li)作为要素li的权重。
其次,计算各数据子集中词的权重。利用TFIDF方法算出数据子集中每个词wi的得分Score(wi),具体公式可表示为:
S c o r e ( w i ) = T F ( w i ) × I D F ( w i ) | W | - - - ( 2 )
式(2)中TF(wi)为词wi在数据子集中的出现次数,表示词wi在总数据集中出现的数据子集频率的倒数,|W|是数据子集中词的总个数。将Score(wi)作为词wi的权重。若词wi为要素词组,则用新闻要素的权值调整词的权重,否则词的权重不变。以词wi为地点要素为例,调整权重方法的具体公式可以表示为:
π ( w i ) = ( 1 + p ( w i ) ) · S c o r e ( w i ) w i ∈ L S co r e ( w i ) w i ∉ L - - - ( 3 )
式(3)中π(wi)表示词wi的权重。
再次,根据句子Sj中包含词的权重对句子赋予权重,对该句子所包含的词的权重求平均值,公式为:
π ( S j ) = Σ i = 1 n w i n w i ∈ S j - - - ( 4 )
式(4)中π(Sj)表示句子Sj的权重,n表示句子Sj中包含的词的个数。
最后,依据句子权重由大到小对句子进行排序,并选取排序靠前的若干句子作为该时间点的事件摘要。
当然,上述基于新闻事件要素的多文档摘要提取方法仅是本发明提供的一优选实施方式,也可以采用其他事件摘要提取方法。
步骤五:以满足重要性要求的人物、地点等新闻要素和事件摘要句子为节点,以它们之间的关联关系为边,对每个时间点的事件进行可视化展现。
在本步骤中,每个时间点的事件可视化展现方法的具体过程可包括:
首先,计算人物、地点等新闻要素在某一时间点数据子集中出现的相对频次,并作为新闻要素重要性的度量方法;
其次,按重要性大小对新闻要素进行排序,并保留重要性超过预设要求的新闻要素,去除掉重要性未超过预设要求的新闻要素,以此方法获得该时间点的新闻要素节点;
再次,按前述步骤四中的事件摘要生成方法生成该时间点的摘要句子,并将摘要句子的权重值作为其重要性的度量方法,以此方法获得该时间点的事件摘要句子节点;
最后,以上述新闻要素节点和事件摘要节点之间的关联关系为边,画出每个时间点的事件可视化展现图形。其中,节点之间的关联关系可描述为:若事件摘要句子节点中包含某人物(或某地点),则将图中的该事件摘要句子节点与该人物(或该地点)节点用线连接,否则节点间不连接。此外,可视化展现图形是建立在对节点和边进行中心度分析的基础上的,重要性越大的节点在图中的大小越大,放置位置越趋于图的中部。依据编写的计算机程序,执行步骤一、二、三、四、五所述方法。
步骤六:连接相邻时间点可视化图形中具有关联关系的节点,展现该特定新闻事件演变过程。
在本步骤中,相邻时间点可视化图形中的节点连接方法可以为:如果相邻时间点可视化图形中存在相同的节点,则连接这两个相同的节点,否则不连接。
图2给出了可视化展现图形的一个优选实施方式。如图所示,三角形代表某一时间点数据子集内的人物要素,三角形的大小代表了人物的重要性;正方形代表该时间点数据子集内的地点要素,正方形的大小同样代表了地点的重要性;圆形代表从该时间点数据子集内抽取的事件摘要句子,圆形的大小代表了摘要句子的重要性。图中最重要的摘要句子为“铁道部部长盛光祖、铁道部副部长胡亚东赶赴温州动车事故现场指挥”,其中包含“盛光祖”、“胡亚东”两个人物要素和“温州”这一地点要素,因此最大的圆形分别与代表“盛光祖”、“胡亚东”的两个三角形和代表“温州”的正方形相连接。
图3给出了相邻时间点可视化图形连接的一优选实施方式。图中按从上到下的顺序给出了“温州动车追尾脱轨”事件的部分可视化展示图形,图中的箭头连接了相邻时间点的相同地点。
该实例体现了本发明所提供的可视化展现方法的特点,可协助读者全面、精炼、直观地展现整个新闻事件的发展过程以及人物、地点等关键要素的关联关系。

Claims (3)

1.一种面向新闻事件演变过程的可视化展现方法,其特征在于,首先从新闻源获取某特定新闻事件的相关新闻报道网页并进行去重处理,得到该事件的无重复新闻报道数据集;进而将新闻报道的数据集按新闻报道时间进行数据子集划分,得到按报道时间先后排序的数据子集;从各数据子集中提取该报道时间的人物、地点新闻事件要素,在此基础上生成该报道时间的事件摘要;最后以每个新闻报道时间对应的数据子集中,满足重要性要求的人物、地点新闻要素和事件摘要句子为节点,以它们之间的关联关系为边,进行该时间点的事件可视化展现,依据编写的计算机程序,执行上述步骤;
对数据子集的选择,具体包括:若数据子集内包含人物、地点句子的数量大于预设阈值,则将该数据子集判别为重要数据子集,将该数据子集对应的新闻报道时间判别为该特定新闻事件的重要报道时间;
事件摘要的生成过程,具体包括根据数据子集中句子的重要性由大到小排序,选择重要性大于预设要求的句子作为该报道时间数据子集的事件摘要;其中,句子重要性的定义涉及词频统计权值和新闻要素权值两方面因素:句子词频统计权值的计算方法采用了TFIDF权值计算方法;句子新闻要素权值的计算方法为人物、地点新闻要素在数据子集中出现的相对频次;具体过程包括:
首先,从各数据子集中提取人物、地点新闻事件要素得到新闻要素词组集合,如地点要素词组集合:L={l1,l2,...ln},并对要素词组集合进行权值量化;各个地点要素的权值量化过程为:
式(1)中是地点要素li在数据子集中的出现次数,|L|是数据子集中所有地点要素的总个数,将p(li)作为要素li的权重;
其次,计算各数据子集中词的权重,利用TFIDF方法算出数据子集中每个词 wi的得分Score(wi),具体公式可表示为:
式(2)中TF(wi)为词wi在数据子集中的出现次数, 表示词wi在总数据集中出现的数据子集频率的倒数,|W|是数据子集中词的总个数;将Score(wi)作为词wi的权重,若词wi为要素词组,则用新闻要素的权值调整词的权重,否则词的权重不变;以词wi为地点要素为例,调整权重方法的具体公式可以表示为:
式(3)中π(wi)表示词wi的权重;
再次,根据句子Sj中包含词的权重对句子赋予权重,对该句子所包含的词的权重求平均值,公式为:
式(4)中π(Sj)表示句子Sj的权重,n表示句子Sj中包含的词的个数;
最后,依据句子权重由大到小对句子进行排序,并选取排序靠前的若干句子作为该时间点的事件摘要。
2.根据权利要求1所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,获取某特定新闻事件的相关新闻报道网页并进行去重处理,具体包括对每篇新闻报道网页文本中的字符进行出现次数统计,将出现次数超过预设要求的字符作为该网页的特征字符;将所有特征字符按出现次数排列成特征字符串,在其基础上利用Hash方法生成一个固定长度的特征码;如果两篇新闻报道网页的特征码相同,则认为其中之一是重复网页。
3.根据权利要求1或2所述的一种面向新闻事件演变过程的可视化展现方法,其特征在于,新闻事件演变过程的可视化展现,其中人物、地点新闻要素的重要性计算方法为人物、地点新闻要素在数据子集中出现的相对频次;事件摘要句子的选择方法与权利要求1中的事件摘要生成过程相同;对已确定的节点和边进行中心度分析,重要性越大的节点在图中的大小越大,放置位置越趋于图的中部;若事件摘要句子节点中包含某人物或某地点,则将图中的该事件摘要句子节点与该人物或该地点节点用线连接,否则节点间不连接。
CN201310303085.6A 2013-07-18 2013-07-18 一种面向新闻事件演变过程的可视化展现方法 Active CN103473263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310303085.6A CN103473263B (zh) 2013-07-18 2013-07-18 一种面向新闻事件演变过程的可视化展现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310303085.6A CN103473263B (zh) 2013-07-18 2013-07-18 一种面向新闻事件演变过程的可视化展现方法

Publications (2)

Publication Number Publication Date
CN103473263A CN103473263A (zh) 2013-12-25
CN103473263B true CN103473263B (zh) 2017-02-08

Family

ID=49798111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310303085.6A Active CN103473263B (zh) 2013-07-18 2013-07-18 一种面向新闻事件演变过程的可视化展现方法

Country Status (1)

Country Link
CN (1) CN103473263B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182504B (zh) * 2014-08-18 2017-06-06 合肥工业大学 一种新闻事件的动态跟踪和总结算法
CN104408093B (zh) * 2014-11-14 2018-01-26 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106156042B (zh) * 2015-03-26 2020-02-07 科大讯飞股份有限公司 热点信息展示方法及***
CN104915446B (zh) * 2015-06-29 2019-01-29 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
WO2017107010A1 (zh) * 2015-12-21 2017-06-29 浙江核新同花顺网络信息股份有限公司 基于事件回测的信息分析***及方法
CN105787095B (zh) * 2016-03-16 2019-09-27 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106709968A (zh) * 2016-11-30 2017-05-24 剧加科技(厦门)有限公司 剧本故事信息的数据可视化方法及***
CN106874419B (zh) * 2017-01-22 2019-09-10 北京航空航天大学 一种多粒度实时热点聚合方法
CN110020104B (zh) * 2017-09-05 2023-04-07 腾讯科技(北京)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN110110089B (zh) * 2018-01-09 2021-03-30 网智天元科技集团股份有限公司 文化关系图生成方法和***
CN108170838B (zh) * 2018-01-12 2022-07-08 平安科技(深圳)有限公司 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN108427761B (zh) * 2018-03-21 2022-01-14 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN110162651B (zh) * 2019-04-23 2023-07-14 南京邮电大学 基于语义内容摘要的新闻内容图文不符鉴别***及鉴别方法
CN111931092B (zh) * 2020-07-07 2022-07-12 浙江大学 一种基于Scrollytelling技术的数据可视化探索***
CN112328856A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 公共事件追踪方法、装置、计算机设备及计算机可读介质
CN113626668B (zh) * 2021-07-02 2024-05-14 武汉大学 一种面向地图的新闻多尺度可视化方法
CN114040518A (zh) * 2021-11-26 2022-02-11 中国银行股份有限公司 网络节点展示方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于字符统计的新闻网页去重方法研究;蒋金平等;《中国科技论文在线》;20130513;第4页第3段第3-6行、第6段,第5页第2段第1-3行 *
文本可视化在新闻事件演变中的应用;刘晓娟等;《图书情报工作》;20100920;第54卷(第18期);全文 *
新闻话题事件演变关系自动生成***的设计和实现;李斌;《万方数据知识服务平台》;20120531;第22页第3段,第23页第5-6段,第39页第1段 *

Also Published As

Publication number Publication date
CN103473263A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103473263B (zh) 一种面向新闻事件演变过程的可视化展现方法
JP5886733B2 (ja) 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN112667940B (zh) 基于深度学习的网页正文抽取方法
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
WO2016057984A1 (en) Methods and systems for base map and inference mapping
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN102591612A (zh) 一种基于标点连续性的通用网页正文提取方法及其***
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN106294330A (zh) 一种科技文本挑选方法及装置
CN102955853A (zh) 一种跨语言文摘的生成方法及装置
Ma et al. Extracting unstructured data from template generated web documents
CN106485525A (zh) 信息处理方法及装置
Liu et al. Main content extraction from web pages based on node characteristics
Li et al. Text mining and visualization of papers reviews using R language
D’Silva et al. Development of a Konkani language dataset for automatic text summarization and its challenges
Das et al. Sentiment analysis: what is the end user's requirement?
CN111199151A (zh) 数据处理方法、及数据处理装置
CN1604073A (zh) 一种对报纸版面进行标题与正文逻辑关联的方法
CN104572720A (zh) 一种网页信息排重的方法、装置及计算机可读存储介质
CN111639250B (zh) 企业描述信息获取方法、装置、电子设备及存储介质
Hsu et al. Hierarchical comments-based clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant