CN114357324B - 一种大数据探索性标签地图的生成方法 - Google Patents

一种大数据探索性标签地图的生成方法 Download PDF

Info

Publication number
CN114357324B
CN114357324B CN202210276835.4A CN202210276835A CN114357324B CN 114357324 B CN114357324 B CN 114357324B CN 202210276835 A CN202210276835 A CN 202210276835A CN 114357324 B CN114357324 B CN 114357324B
Authority
CN
China
Prior art keywords
label
area
class
tag
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210276835.4A
Other languages
English (en)
Other versions
CN114357324A (zh
Inventor
乔莉鸽
吴明光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202210276835.4A priority Critical patent/CN114357324B/zh
Publication of CN114357324A publication Critical patent/CN114357324A/zh
Application granted granted Critical
Publication of CN114357324B publication Critical patent/CN114357324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据探索性标签地图的生成方法,该方法设计了全局类内、局部类内、全局类间、局部类间四种大数据探索性标签地图生成模式。包括五个步骤:1、获取标签和地理区域范围;2、指定大数据探索性标签地图生成模式:全局类内模式,计算标签在其关联区域中的频率;局部类内模式,指定兴趣区,计算标签在该区域中的频率;全局类间模式,指定标签主题和显示数量,统计标签在其关联区域中的频率;局部类间模式,指定兴趣区,分别计算标签在其关联区域和所有区域中的频率;3、确定初始位置;4、位置有效性检测;5、放置标签。本发明方法设计了四种大数据探索性标签地图生成模式对地理文本信息进行探索性分析。

Description

一种大数据探索性标签地图的生成方法
技术领域
本发明属于地理信息***(GIS)、计算机地图制图(CAC)、地理文本数据可视化、信息探索性分许领域,尤其涉及一种大数据探索性标签地图的生成方法。
背景技术
大数据时代,随着众包地理数据的***式增长,每时每刻都会涌现出海量的与地理位置相关的文本数据,例如旅行博客和新闻。标签地图是词云的一种变体,是将文本信息以文字为表达主体进行表示的一种图文融合的地图表现形式,主要通过文字的字体、字大、字色、字型、字向等视觉变量的组合来展现不同的地图可视化效果。标签地图作为地理文本数据的一种直观的可视化形式,为挖掘其中蕴含的知识和规律提供了强有力的表现手段,并已在舆情分析、灾害响应、科学研究等诸多领域得到广泛的应用。
地理文本大数据探索性分析的主要目标是发现数据中隐含的模式和关系。读图者需要阅读标签地图,从某个特定的区域或多个不同的区域中获取感兴趣的标签的详细信息或概况;关注标签如何随空间/属性的变化而变化。为了完成以上目标,用户需要执行一些具体的可视化操作:(1)识别—在某一特定区域或所有区域中识别显著的标签,获取标签内容;(2)关联/定位—将标签与特定的主题关联,并定位标签所在区域;(3)排序—将标签按照特定的属性进行排序;(4)比较—比较与不同区域关联的标签的属性值,发现它们的异同点。读图者基于这些可视化操作在标签地图中的全局/局部区域中提取标签的属性信息。然而,现有的标签地图更聚焦于标签在地图上的表示形式(例如,层叠式标签地图、关联式标签地图和内置式标签地图)和标签布局算法(例如,随机分布、顺序分布和圆形分布)。关于如何设计大数据探索性标签地图的生成方法来对大数据量的地理文本信息进行探索性分析尚未得到充分的考虑。因此,根据上述不同的读图任务和可视化操作来合理的设计大数据探索性标签地图的生成方法是提高其分析能力的关键。
为解决上述问题,设计大数据探索性标签地图的生成方法对大数据量的地理文本信息进行探索性分析还需要研究。名称为“一种形状词云的生成方法和装置”,申请号201910486852.9,公开号为CN 110189393 A的中国专利,公开了一种形状词云的生成方法和装置,在数据保真的情况下生成高填充率的多主题形状词云,同时支持用户对于形状词云的平滑编辑操作,提高了人机交互的流畅性,增强了用户的体验感。名称为“地图标签呈现方法”,申请号为202010195549.6,公开号为CN 113495931 A的中国专利,公开了一种地图标签呈现方法、设备及计算机可读存储介质,可以减少标签互相遮挡这类情况的发生,提高用户体验。上述两个专利申请虽然涉及特定形状的词云生成或标签地图的呈现,但均未公开能够支持对大数据量的地理文本信息进行探索性分析的大数据探索性标签地图的生成方法。
发明内容
发明目的:本发明的目的在于提供一种大数据探索性标签地图的生成方法,设计了全局类内、局部类内、全局类间、局部类间四种大数据探索性标签地图生成模式,对大数据量的地理文本信息进行探索性分析,适用于任何领域的地理文本数据。
技术方案:本发明的大数据探索性标签地图的生成方法,该方法设计四种大数据探索性标签地图的生成模式,将位于同一区域内的标签视为一类,将关注同一区域内的标签属性变化的可视化任务称为类内任务,关注多个区域之间的标签属性变化的可视化任务称为类间任务;将空间维度分为全局区域和局部区域,将属性维度分为类内和类间,将空间和属性维度进行两两组合,设计全局类内、局部类内、全局类间、局部类间四种大数据探索性标签地图生成模式,分别适应不同文本信息的探索性分析场景:
(a)全局类内模式,适应场景为:通过浏览全局区域中各个区域的标签,快速地识别出各个区域中最显著的标签,分别获得各个区域的主要信息;
(b)局部类内模式,适应场景为:对特定兴趣区中的标签进行详细的分析,获得各个标签的详细内容和频率排序;
(c)全局类间模式,适应场景为:关注特定主题的标签,快速和准确地在全局区域中搜索到与特定主题相关的标签;
(d)局部类间模式,适应场景为:提取不同区域中具有代表性的标签并进行比较,发现不同区域之间的标签的相似性和差异性;
该方法具体包括如下步骤:
步骤1,获取标签和地理区域范围;
步骤2,指定大数据探索性标签地图生成模式;
步骤3,确定初始位置;
步骤4,位置有效性检测;
步骤5,放置标签。
进一步地,所述步骤1具体包括:
(1.1)获取标签和地理区域范围数据;
(1.2)设置标签的大小范围,设置最大标签S max 和最小标签 S min ,选择标签颜色、标签字体类型、标签旋转方向的视觉变量。
进一步地,所述步骤2具体包括:
(2.1)对于全局类内模式,计算标签在其关联的地理区域中出现的频率,获取每个标签T在各自关联的区域中的降序排序的序号;
(2.2)对于局部类内模式,指定兴趣区,计算标签在该区域中出现的频率,获取该区域中每个标签T的降序排序的序号;
(2.3)对于全局类间模式,指定标签的主题和数量M,计算标签在其关联的区域中出现的频率,获取每个标签T在全局区域所有标签中的降序排序的序号,保留前M个标签;
(2.4)对于局部类间模式,确定一个或多个兴趣区,计算每个标签在各自关联的区 域中出现的频率f和在全局所有区域中出现的频率F,计算
Figure 746166DEST_PATH_IMAGE001
,获取在兴趣区中每个标签T 的降序排序的序号。
进一步地,所述步骤3具体包括:
(3.1)根据步骤2中标签的计算结果,将标签大小S标准化为S min — S max 范围之间;
(3.2)选择排序列表中的第一个标签t 1 ,将第一个标签放置在其相关联的区域的中心。
进一步地,所述步骤4具体包括:
(4.1)如果t 1 位置有效,即标签完全在其相关联的区域内,放置标签;
(4.2)如果位置发生冲突,即标签不完全在区域内,将标签沿着螺旋线布局方式向外移动,寻找有效的位置;
(4.3)如果没有找到有效的位置,减小标签大小或删除标签不进行显示。
进一步地,所述步骤5具体包括:
(5.1)沿着螺旋线布局方式向外移动放置下一个标签;
(5.2)如果位置无效,即该标签与其他标签交叉或不完全在其关联的区域内,将标签沿着螺旋线布局方式继续向外移动,寻找有效的位置,既不与其他标签交叉,又完全在其关联的区域内;
(5.3)如果没有找到有效的位置,减小标签大小或删除标签不进行显示;
(5.4)重复(5.1)、(5.2)、(5.3)步骤,并确定剩余标签的数量N,如果N = 0,则算法结束,生成大数据探索性标签地图。
有益效果:与现有技术相比,本发明具有如下显著优点:
(1)本发明提出一种大数据探索性标签地图的生成方法,对大数据量的地理文本信息进行探索性分析。该大数据探索性标签地图的生成方法可以适用于任何领域的地理文本数据。此外,还可以通过调整视觉变量(如颜色、大小等)和布局,为用户提供一个既容易理解又美观的标签地图。
(2)本发明提出一种大数据探索性标签地图的生成方法,既适用于结构化数据的表征,又可以作为非结构化、大数据量的文本数据的一种直观的可视化形式,为挖掘其中蕴含的知识或规律提供了强有力的表现手段。
附图说明
图1是设计的四种大数据探索性标签地图生成模式;
图2是本发明方法的流程图;
图3是四种大数据探索性标签地图的生成模式示例(西班牙、法国、德国和意大利2001-2020年灾害统计数据),其中,图 (a)是局部类间,标签位置关联的国家有:西班牙、法国、德国、意大利,其中,与西班牙关联的标签呈横向分布,与其他三个国家关联的标签呈纵向分布;图(b)是全局类间,标签位置关联国家有:西班牙、法国、德国、意大利;图(c)是局部类内,标签位置关联的国家有:意大利;图(d)是全局类内,标签位置关联的国家有:西班牙、法国、德国、意大利。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
实施例1:
本发明的一个实施例,为一种大数据探索性标签地图的生成方法,该方法设计了全局类内、局部类内、全局类间、局部类间四种大数据探索性标签地图生成模式,对大数据量的地理文本信息进行探索性分析。
该方法设计的四种大数据探索性标签地图生成模式,如图1所示。(a)全局类内模式,适应场景为:通过浏览全局区域中各个区域的标签,快速地识别出各个区域中最显著的标签,分别获得各个区域的主要信息,例如确定全局区域各个区域中自然灾害发生频率的概况;(b)局部类内模式,适应场景为:对特定兴趣区中的标签进行详细的分析,获得各个标签的详细内容和频率排序,例如在特定区域内,将5个发生最频繁的自然灾害按降序排列;(c)全局类间模式,适应场景为:关注特定主题的标签,快速和准确地在全局区域中搜索到与特定主题相关的标签,例如寻找所有地区内发生最频繁的十大自然灾害;(d)局部类间模式,适应场景为:提取不同区域中具有代表性的标签并进行比较,发现不同区域之间的标签的相似性和差异性,例如比较两个区域中频繁发生的自然灾害的异同。
图2为本发明中大数据探索性标签地图的生成方法的流程图,具体步骤如下:
步骤1,获取标签和相关联的地理区域范围;
步骤2,指定大数据标签地图生成模式,计算标签频率;
步骤3,确定初始位置,将排序第一的标签放置在相关联的地理区域中心;
步骤4,位置有效性检测,如果位置有效,放置标签并继续下一个标签。否则,沿着螺旋线布局方式向外移动,寻找有效的位置。如果没有找到有效的位置,减小标签大小或删除标签;
步骤5,继续沿着螺旋线布局方式向外移动放置剩余的标签,重复步骤4,直到剩余标签的数量N = 0,生成大数据探索性标签地图。
上述步骤1具体包括:(1)获取标签和地理区域范围数据;(2)设置标签显示的大小范围(最大标签S max 和最小标签 S min )、标签颜色、标签字体类型、标签旋转方向等视觉变量。
上述步骤2具体包括:指定大数据探索性标签地图生成模式,(1)对于全局类内模 式,计算标签在其关联的地理区域中出现的频率,获取每个标签T在各自关联的区域中的降 序排序的序号;(2)对于局部类内模式,指定兴趣区,计算标签在该区域中出现的频率,获取 该区域中每个标签T的降序排序的序号;(3)对于全局类间模式,指定标签的主题和数量M, 计算标签在其关联的区域中出现的频率,获取每个标签T在全局区域所有标签中的降序排 序的序号,保留前M个标签;(4)对于局部类间模式,确定一个或多个兴趣区,计算每个标签 在各自关联的区域中出现的频率f和在全局所有区域中出现的频率F,计算
Figure 132148DEST_PATH_IMAGE001
,获取在兴 趣区中每个标签T的降序排序的序号。
上述步骤3具体包括:(1)根据步骤2中标签的计算结果,将标签大小S标准化为S min S max 范围之间;(2)选择排序列表中的第一个标签t 1 ,将第一个标签放置在其相关联的区域的中心。
上述步骤4具体包括:(1)如果t 1 位置有效,即标签完全在其相关联的区域内,放置 标签;(2)如果位置发生冲突,即标签不完全在区域内,将标签沿着螺旋线布局方式向外移 动,寻找有效的位置;本步骤中螺旋线布局方法按照标签大小的顺序设置每个标签的位置。 定义标签集
Figure 177465DEST_PATH_IMAGE002
,每个标签t i 被放置的位置为
Figure 41516DEST_PATH_IMAGE003
。在地图上添加标 签t i ,算法将标签放置在初始位置p t (例如,地图几何形状的中心)。如果放置在t i 完全在地 图所属区域的框架内且与之前的任何标签都不重叠,则放置标签,如果位置发生冲突(标签 不完全在区域内),将标签沿着螺旋线路径向外移动,寻找有效的位置;(3)如果没有找到有 效的位置,减小标签大小或删除标签不进行显示。
上述步骤5具体包括:(1)
Figure 324729DEST_PATH_IMAGE004
,取排序后的列表中的第i个标签t i ,沿着螺旋 线布局方式向外移动放下一个标签;(2)如果位置有效,即与其他标签交叉或不完全在区域 内,将标签沿着螺旋线布局方式继续向外移动,寻找有效的位置,即既不与其他标签交叉又 完全在区域内;(3)如果没有找到有效的位置,减小标签大小为S i = S i -1,比较S i S min 的可 视阈值,如果S i > S min ,则删除标签;(4)从排序列表中移除标签,重复(1)、(2)、(3)步骤,并 确定剩余标签的数量N,如果N = 0,则算法结束,生成大数据探索性标签地图,展示结果如 图3所示。

Claims (1)

1.一种大数据探索性标签地图的生成方法,其特征在于,该方法设计四种大数据探索性标签地图的生成模式,将位于同一区域内的标签视为一类,将关注同一区域内的标签属性变化的可视化任务称为类内任务,关注多个区域之间的标签属性变化的可视化任务称为类间任务;将空间维度分为全局区域和局部区域,将属性维度分为类内和类间,将空间和属性维度进行两两组合,设计全局类内、局部类内、全局类间、局部类间四种大数据探索性标签地图生成模式,分别适应不同文本信息的探索性分析场景:
全局类内模式,适应场景为:通过浏览全局区域中各个区域的标签,快速地识别出各个区域中最显著的标签,分别获得各个区域的主要信息;
局部类内模式,适应场景为:对特定兴趣区中的标签进行详细的分析,获得各个标签的详细内容和频率排序;
全局类间模式,适应场景为:关注特定主题的标签,快速和准确地在全局区域中搜索到与特定主题相关的标签;
局部类间模式,适应场景为:提取不同区域中具有代表性/热点的标签并进行比较,发现不同区域之间的标签的相似性和差异性;
该方法具体包括如下步骤:
步骤1,获取标签和地理区域范围;
步骤2,指定大数据探索性标签地图生成模式;
步骤3,确定初始位置;
步骤4,位置有效性检测;
步骤5,放置标签;
所述步骤1具体包括:
步骤1.1,获取标签和地理区域范围数据;
步骤1.2,设置标签的大小范围,设置最大标签Smax和最小标签Smin,选择视觉变量,所述视觉变量包括标签颜色、标签字体类型和标签旋转方向;
所述步骤2具体包括:
步骤2.1,对于全局类内模式,计算标签在其关联的地理区域中出现的频率,获取每个标签T在其关联的区域中的降序排序的序号;
步骤2.2,对于局部类内模式,指定兴趣区,计算标签在兴趣区中出现的频率,获取兴趣区中每个标签T的降序排序的序号;
步骤2.3,对于全局类间模式,指定标签的主题和数量M,计算标签在其关联的区域中出现的频率,获取每个标签T在全局区域所有标签中的降序排序的序号,保留前M个标签;
步骤2.4,对于局部类间模式,确定一个或多个兴趣区,计算每个标签在兴趣区中出现的频率f和在全局所有区域中出现的频率F,计算f/F,获取在兴趣区中每个标签T的降序排序的序号;
所述步骤3具体包括:
步骤3.1,根据步骤2中标签的计算结果,将标签大小S标准化为Smin-Smax范围之间;
步骤3.2,选择排序列表中的第一个标签t1,将第一个标签放置在其相关联的区域的中心;
所述步骤4具体包括:如果t1位置有效,即标签完全在其相关联的区域内,放置标签;如果位置发生冲突,即标签不完全在区域内,将标签沿着螺旋线布局方式向外移动,寻找有效的位置;本步骤中螺旋线布局方法按照标签大小的顺序设置每个标签的位置;定义标签集T={t1,…,tm},每个标签ti被放置的位置为pt=(xt,yt);在地图上添加标签ti,算法将标签放置在初始位置pt,如果放置在ti完全在地图所属区域的框架内且与之前的任何标签都不重叠,则放置标签,如果位置发生冲突,将标签沿着螺旋线路径向外移动,寻找有效的位置;如果没有找到有效的位置,减小标签大小或删除标签不进行显示;
所述步骤5具体包括:
步骤5.1,沿着螺旋线布局方式向外移动放置下一个标签;
步骤5.2,如果位置无效,即该标签与其他标签交叉或不完全在其关联的区域内,将标签沿着螺旋线布局方式继续向外移动,寻找有效的位置,既不与其他标签交叉又完全在其关联的区域内;
步骤5.3,如果没有找到有效的位置,减小标签大小或删除标签不进行显示;
步骤5.4,重复上述步骤,并确定剩余标签的数量N,如果N=0,则算法结束,生成大数据探索性标签地图。
CN202210276835.4A 2022-03-21 2022-03-21 一种大数据探索性标签地图的生成方法 Active CN114357324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210276835.4A CN114357324B (zh) 2022-03-21 2022-03-21 一种大数据探索性标签地图的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210276835.4A CN114357324B (zh) 2022-03-21 2022-03-21 一种大数据探索性标签地图的生成方法

Publications (2)

Publication Number Publication Date
CN114357324A CN114357324A (zh) 2022-04-15
CN114357324B true CN114357324B (zh) 2022-06-14

Family

ID=81095245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210276835.4A Active CN114357324B (zh) 2022-03-21 2022-03-21 一种大数据探索性标签地图的生成方法

Country Status (1)

Country Link
CN (1) CN114357324B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053035A (zh) * 2018-01-03 2018-05-18 清华大学 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法
CN108319733A (zh) * 2018-03-29 2018-07-24 华中师范大学 一种基于地图的教育大数据分析方法及***
CN110705572A (zh) * 2019-09-23 2020-01-17 北京邮电大学 一种图像识别方法
CN112632378A (zh) * 2020-12-21 2021-04-09 高晓惠 基于大数据和人工智能的信息处理方法及数据服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053035A (zh) * 2018-01-03 2018-05-18 清华大学 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法
CN108319733A (zh) * 2018-03-29 2018-07-24 华中师范大学 一种基于地图的教育大数据分析方法及***
CN110705572A (zh) * 2019-09-23 2020-01-17 北京邮电大学 一种图像识别方法
CN112632378A (zh) * 2020-12-21 2021-04-09 高晓惠 基于大数据和人工智能的信息处理方法及数据服务器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
国外点击流可视化研究述评;姜婷婷等;《情报学报》;20180430;第37卷(第4期);第436-450 *
基于地理标签的推文话题时空演变的可视分析方法;孙国道等;《计算机科学》;20190831;第46卷(第8期);第42-49页 *
数据可视化规范简介和构成要素探讨;郭志武;《中国医院统计》;20201230;第27卷(第6期);第572-576页 *

Also Published As

Publication number Publication date
CN114357324A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
Burch et al. Prefix tag clouds
US20080033935A1 (en) Systems and methods for presenting results of geographic text searches
US11989662B2 (en) Methods and systems for base map and inference mapping
JP2014211870A (ja) ビジュアル検索の構築、文書のトリアージおよびカバレッジの追跡
Nocaj et al. Organizing search results with a reference map
JP2005010854A (ja) 情報提示方法および装置
US11256383B2 (en) Graphically representing content relationships on a surface of graphical object
Dix Introduction to information visualisation
Han et al. Tree-based visualization and optimization for image collection
CN114359943A (zh) Ofd版式文档段落识别方法及装置
WO2022238873A1 (en) Knowledge space analytics
Zhang et al. Topotext: Context-preserving text data exploration across multiple spatial scales
CN114357324B (zh) 一种大数据探索性标签地图的生成方法
Yang et al. Comparison of font size and background color strategies for tag weights on tag maps
Derthick et al. Constant density displays using diversity sampling
Hahmann et al. Maple–a Web Map Service for verbal visualisation using tag clouds generated from map feature frequencies
Blaz̆ek et al. Video hunter at VBS 2017
John et al. Visual Analysis and Exploration of Entity Relations in Document Collections.
US11600028B1 (en) Semantic resizing of line charts
Zeng et al. LTDE: A layout tree based approach for deep page data extraction
Zhang Context-Preserving Visual Analytics of Multi-Scale Spatial Aggregation
Etemadpour et al. Information visualization and proposing new interface for movie retrieval system (IMDB)
CN115345136A (zh) 幻灯片处理方法、装置、电子设备及存储介质
WO2002031697A1 (en) A method of visualizing clusters of large collections of text documents
Cao et al. Visualizing Document Content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant