CN109446288A - 一种基于Spark互联网涉密地图检测算法 - Google Patents

一种基于Spark互联网涉密地图检测算法 Download PDF

Info

Publication number
CN109446288A
CN109446288A CN201811216505.6A CN201811216505A CN109446288A CN 109446288 A CN109446288 A CN 109446288A CN 201811216505 A CN201811216505 A CN 201811216505A CN 109446288 A CN109446288 A CN 109446288A
Authority
CN
China
Prior art keywords
map
text
sensitive
feature words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811216505.6A
Other languages
English (en)
Inventor
胡敏
崔永胜
黄宏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811216505.6A priority Critical patent/CN109446288A/zh
Publication of CN109446288A publication Critical patent/CN109446288A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Spark的互联网涉密地图检测算法,属于大数据技术应用、自然语言处理领域。该方法首先通过数据预处理,对地图中文本数据进行中文分词,提取地图文件特征词;然后进行文本特征提取,主要提取特征词与敏感词汇相似度、特征词在文本中的权重、特征词在POI文本中的位置属性、特征词对应敏感词汇在敏感词库中的权值四种特征;最后,通过前面提取的特征,经过统计计算得到相应地图文件敏感度。本发明结合互联网地图文件数据爬取方法,能够实现互联网涉密地图自动检测,加快对互联网问题地图检测效率,减轻人工检测互联网地图压力。

Description

一种基于Spark互联网涉密地图检测算法
技术领域
本发明属于大数据技术应用、自然语言处理领域,主要涉及互联网地图敏 感信息检测方法,是一种基于Spark互联网涉密地图检测算法研究。
背景技术
随着互联网与信息技术的迅速发展,电子地图服务已经成为人们生活中不 可获缺的一部分,然而网络中出现大量的电子地图,在给人们生活提供便利的 同时,也出现了一些不容忽视的问题。比如,国家地理信息的安全性问题,2015 年9月,国家测绘地理信息局检查国内外大型商业网站、论坛、微博中的地理 信息1.3万多条,发现存在“问题地图”服务275个,“问题地图”图片321 个,违规兴趣点(point of interest,POI)标注2336个。地图涉密的主要载体 是地图中违规标注POI信息,POI包含名称、经纬度等信息,一个POI可以表示一栋房子、一间商铺,同样可以表示为一个军事基地、军事禁区等。因此如 果电子地图中标注了涉密POI信息,并公布在互联网上,将会严重损害国家 利益,危害国家安全。
针对互联网地图涉密性检测,有研究通过结合矢量数字地图中的敏感位置 信息量、敏感符号信息量、敏感几何信息量、敏感拓扑信息量、敏感注记信息 量以及敏感属性信息量综合计算得到矢量数字地图的敏感信息量,从而评估数 字地图的敏感等级。也有研究通过考虑计算地图中的POI敏感度来衡量地图 文件的敏感值,从行政管理和软件识别技术两个方面提出了相应的解决方案。 目前国内涉密地图检测研究还比较少,但是,在敏感词检测方面有许多相关研 究,例如有通过建立敏感词库,中文分词,串匹配检测邮件中敏感词,从而判 定邮件的敏感等级。也有人提出通过提取话题文本特征词,结合敏感词汇库基于条件随机场检测模型,对待测文档的特征项进行敏感性标注,以及提出基于 核方法的敏感信息检测模型。
上述方法对于地图各属性信息量提取比较困难,地图敏感性检测难度 大。而且,上述对于邮件或文档敏感性检测,主要是通过特征词与敏感词的直 接匹配方式检测,但这种方式会存在敏感词覆盖不全面或者近义词无法识别的 问题。因此,我们提出通过计算特征词与敏感词的相似度,来计算特征词语的 敏感性。由于,我们的检测对象是地图中的POI短文本,所以根据地点POI 属性另外提取3种特征,特征词在文本中的权重、特征词在POI文本中的位 置属性以及特征词对应敏感词汇在敏感词库中的权值,通过上述的4种特征联合计算地图POI的敏感度。另外,互联网地图文件一般会带有一些附属信息, 这也作为一种地图涉密性检测的属性。
随着互联网技术的飞速发展,各行各业数据呈现爆发式增长,相应的网 络中地图数据也在迅速增长,使用传统的单机处理模式已经无法满足需求。分 布式处理技术极大的推动了大数据的分析和处理,Spark和Hadoop是目前比 较流行的分布式并行计算框架。我们采用Spark作为涉密地图检测的大数据处 理框架,因为Spark不仅具有Hadoop中MapReduce的优点,还是基于内存计 算,并且具有调度优化机制和更加丰富的算子表达式,人们基于Spark也做了 许多相关研究。
通过考虑地图中标注地点POI和地图文件附属信息,分别提取文本的敏 感信息,最后综合计算地图文件的敏感等级。本文提出一种基于Spark的互联 网涉密地图检测算法,不仅提高了地图检测的准确性,同时提高了地图检测的 时间性能。
发明内容
本发明解决的技术问题:本发明针对互联网电子地图附属信息以及地图标 注地点信息的相关特性,提出一种互联网地图涉密检测算法模型。通过考虑电 子地图附属信息和地图标注地点的敏感度来衡量地图的敏感等级,由于目前互 联网中包含大量的地图数据,为了提高地图检测算法的性能,我们将检测算法 在Spark处理框架上实现,并行化处理地图数据,实现一种高效准确的涉密地 图检测模型。
本发明的技术方案是:本发明对地图文件的处理主要分为三部分:数据预 处理,文本特征提取,地图敏感度计算。数据预处理主要是对从互联网上获取 到的不同格式地图文件解析,得到地图文件中地点POI和互联网上对地图描 述的附属信息。文本特征提取主要是对地图附属信息和地图文件中POI文本 进行特征提取,主要提取4部分特征:1.特征词与敏感词词汇的相似度,通过 词汇相似度计算,可以解决敏感词库不全面以及同义词无法识别的情况。2. 特征词在文本中的权重,不同的词语在文本中有不同的权重,也就是文本中的 关键词所占权值最大,最能代表文本的意义,所以我们通过计算特征词在文本 中的权重,衡量词语所代表的敏感度特征。3.特征词在POI文本中的位置属性, 在POI地点位置信息中,特征词在POI文本的位置对于地点是否为敏感地点 也有一定的影响。4.特征词对应敏感词汇在敏感词库中的权值,不同的敏感 地点具有的敏感度也不相同,比如军事基地敏感度比基础设施敏感度高,所以 我们也提取相应敏感词的权值作为特征。通过上述提取的4种特征,通过统计 方式计算地图文件的敏感值,然后算法根据检测地图文件数据集敏感值由高到 低顺序输出。由于互联网上存在大量地图数据,为了提高检测算法的处理性能, 我们将算法在Spark并行处理框架上运算。
附图说明
图1是本发明的***架构图;
图2是本发明的总体流程图;
具体实施方式
为了更好的说明本发明的内容,以下参考说明书附图并根据实例对本发明 的具体实施作进一步的阐述。
如图1(算法架构)所示为本发明提出的算法是在Spark计算框架上执行的, 数据存储、算法执行都是在Spark框架上执行。如图2所示为本发明的总体流程 图,包括:获取构建敏感词库,数据预处理模块,数据特征提取模块,地图文 件敏感度计算模块,基于Spark互联网涉密地图检测算法共四大模块。
以下具体说明本发明的详细实施过程。
S1:构建敏感词库。地图敏感度计算主要是通过提取特征词与敏感词的相 似度,因此敏感词库的好坏对涉密地图检测算法具有重大的影响。我们首先定 义单个敏感词的敏感词库S={s1,s2,...,sn},然而由于我们对地图中文本数据 进行中文分词后,文本都被划分为了词语,而且存在部分涉密的地点也会被划 分为不敏感的词语,例如“中国火箭研究基地”,这个文本被中文分词后会划 分为“中国”、“火箭”、“研究”、“基地”四个词语,这四个词语独立检测不存 在涉密情况,但是国家的火箭研究基地这种POI是不允许直接标注在地图文件 上的。对于这种POI我们采用组合敏感词进行检测,即定义一种组合敏感词的 敏感词库我们在构建敏感词库时,根 据敏感词代表地点的敏感性不同,对该敏感词输入对应的权重 V={υ12,...,υn},υi表示敏感词对应的权重。
S2:数据预处理。互联网上存在多种格式的地图文件,例如jpg,dwg,mapInfo 等格式。我们使用M=(P,F)表示一种格式的地图文件,P表示地图中的POI 标注地点集合,F表示地图文件的附属信息,其中P={p1,p2,......,pn},pi表 示地图中一个标注地点。我们定义MS(pi)表示标注地点pi的敏感度,MS(P)和 MS(F)分别表示地图标注地点敏感度和地图附属信息的敏感度。
通过计算地图POI信息和地图附属信息的敏感度综合计算得到地图文件的 敏感信息,为计算地图POI和附属信息的敏感度,首先对数据进行预处理,数 据预处理模块主要是对文本进行中文分词。本文使用的中文分词方法是Spark 上开源的Ansj进行中文分词。Ansj基于n-Gram,CRF,HMM实现的中文分词, 分词准确率达到了96%以上,目前实现了中文分词,中文姓名识别,关键字提 取,关键字标记等功能。我们使用Ansj提取POI标注文本和地图附属信息的特 征词,我们给出定义:表示文本分词后的特征词集合, L={l1,l2,......,ln}表示特征词在POI文本中的位置属性,主要取值为{B,I,E}, 表示特征词在POI文本句首,句中和句尾位置,位置属性向量定义是为了后续 POI文本的特征提取。
S3:文本特征提取。通过数据预处理获取POI标注文本和地图附属信息的 特征词向量,我们根据特征词提取文本的4种特征:特征词与敏感词汇的相似 度、特征词在文本中的权重、特征词在POI文本中的位置属性以及特征词对 应敏感词汇在敏感词库中的权值,下面介绍了文本特征提取的4种方法。
S31:特征词与敏感词的相似度。通过上述对地图文件的预处理,提取出地 图文件的特征词,那么如何检测特征词的敏感度呢?目前,很多相关研究都是 通过特征词与敏感词库中敏感词汇直接匹配的方式提取特征词的敏感度,但是 这种检测方法势必会存在敏感词库覆盖不完全或者近义词无法识别的现象,所 以本文采用检测特征词与敏感词相似度的方式,首先得到特征词与敏感词的相 似度,当两个词语相似度大于一定阈值时,根据相似度量化特征词的敏感度。
互联网地图文件中的词语主要是地点类别信息,所以我们提取的特征词主 要是地点类别的词语,对于特征词敏感性的检测,通过计算特征词与敏感词汇 的相似度,得到特征词的敏感度。目前计算词语相似度有很多研究,常用的词 语相似度计算方法有两种:基于世界知识或某种分类体系的方法和基于统计的 上下文向量空间模型方法。第一类计算词语相似度的常用词典有知网 (hownet)、wordNet和同义词词林,这三种词典的构造方法互不相同。因为 我们的文本主要是短文本,即地图中的标注地点信息,所以适用于我们的词语 相似度方法主要是基于词典分类体系的词语相似度计算方法,经过对比我们采 用基于同义词词林的词语相似度计算方法。《同义词词林》是梅家驹等人于 1983年编纂,词典不仅包括了一个词语的同义词,也包含了一定数量的同类 词,后来哈尔滨工业大学信息检索实验室利用众多词语相关资源完成了《同义 词词林扩展版》,我们计算词语相似度基于扩展版计算得到。
通过基于同义词词林的词语相似度算法,计算得到特征词ci与敏感词sj的 相似度mij,因为敏感词库中存在多个敏感词汇,我们取敏感词库中与特征词 相似度最大的词语,即Mij=max(mij,j∈S)。本文定义特征词与敏感词的相 似度超过阈值θ时,才认为特征词具有一定的敏感度,定义为:
通过上式计算的特征词存在敏感性时,我们在提取该特征词在文本中权 重,以及特征词在POI文本中的位置,特征词对应敏感词汇的权值特征。
S32:特征词在文本中的权重。在文本中,不同的词语在文本中有不同的权 重,也就是文本中的关键词所占权值最大,最能代表文本的意义。同理,我们 提取出的地图文件文本,不同的特征词在文本中代表着不同的权重,如果权重 大的特征词是敏感词汇,那么地图文件是涉密地图文件的可能性就高,反之, 权重小的特征词是敏感词汇,那么相应地图文件是涉密地图的可能性就会低一 点。目前,比较常用的词语权重提取有TF-IDF算法,TF-IDF是一种统计方法, 用于评估一词语对于一个文件的重要程度,分别通过词频(termfrequency, TF)和逆向文件频率(inverse document frequency,IDF)来计算,公式为:
TF-IDF=TF*IDF (2)
式中词频TF和逆文档频率IDF分别表示为:
其中ni,j表示词语ti在文件dj中出现的次数,nj表示文件dj词语总和。 |D|为语料库中文件总数,|{j:ti∈dj}|为语料库中包含词语ti的文件数,为了 防止除数为0,所以在分母上加1。
现有的TF-IDF计算词语c权值中,计算逆文档频率IDF是根据在网上搜索 文档数|D|,然后在根据总文档中包含词语c的文档数|{j:ti∈dj}|,得到逆文 档频率IDF。但是我们目标文本主要是具有地理信息属性的文本,而且提取出 的特征词一般都是地点名词,所以在计算TF-IDF中的逆文档频率IDF时,我 们根据自己数据集中的特征文本集合计算逆文档频率IDF,根据我们的提取的 通用地点文本信息作为语料库中的文本,计算词语的TF-IDF权值wi。公式表 示为:
其中ni,j表示词语ci在文本pj中出现的次数,nj表示文本pj词语总和。|P| 为我们数据集文本总和,|{j:ci∈pj}|为语料库中包含词语ci的文本数。
S33:特征词在POI文本中的位置。在地图POI文本敏感性判别中,有这 样一种情况,例如“菜园坝军营公交站”这一POI名称中包含“军营”涉密 关键词,那这个POI会被识别为涉密地点,但是经过人工识别这个POI并不 是涉密地点,而是一个公交站。我们分析原因可知,涉密关键词在POI文字 中的位置对于POI的是否为涉密地点也会存在一定的影响。因此我们在前面 数据预处理时,对文本中文分词记录相应特征词在文中的位置,使用 L={l1,l2,......,ln}表示特征词的位置属性,其中li∈{B,I,E},{B,I,E}分别表示 特征词在POI文本首部,中间和尾部位置。
S34:特征词对应敏感词汇的权值。地图中不同的地点根据与军事基地关联 程度,以及对于国家的地理环境安全影响的差异导致其敏感性不同。国家测绘 局地图审查中心《公开地图内容表示补充规定》中也规定了军用机场、作战工 程等位置具有较高的敏感性。也有文献通过构建地理对象的敏感系数来衡量地 理对象的敏感性高低,我们量化地理对象为与军事用途直接相关的地理对象, 与军事用途间接相关的地理对象,国家大型基础设施三类地理对象,使用符号 V表示地理对象的敏感权值,V∈{1,0.7,0.4},具体取值见表3.1。对于怎么识 别特征词属于哪一类地理对象,我们根据敏感词汇进行识别,我们在构建敏感 词汇库的时候,每个敏感词对应一个敏感权值,这个权值即为V,当我们识别 出特征词与敏感词相似度符合阈值时,提取出敏感词对应的权值。
表1.1地理对象的分类
S4:地图文件敏感度计算方法。互联网上地图文件涉密的载体,主要是描 述文件的附属信息和地图文件标注地点POI。我们计算地图文件附属信息的敏 感度MS(F)和地图标注地点POI的敏感度MS(P)联合计算地图的敏感度 MS(M),公式为:
MS(M)=α·MS(P)+β·MS(F) (6)
式中,α,β分别为地图附属信息敏感度和地图标注地点POI敏感度所占 权重。
对于地图文件中地图附属信息和地图标注地点POI信息的敏感度计算, 通过中文分词得到地图附属信息和地图标注地点POI的特征词集合。我们通 过提取特征词的四种特征计算特征词的敏感度,由于标注地点POI是地点短 文本,所以我们考虑了特征词在短文本中的位置特征,而地图文件附属信息是 整段文本,我们不考虑特征词的位置特征。根据上述提取特征,地图文件附属 信息特征词敏感度和地图文件标注地点POI特征词敏感度公式表示 为:
式中,ωi表示特征词在文本中的TF-IDF权重,Mij表示特征词i与敏 感词j的相似度,Vj表示敏感词j对应的权重。
式中,li表示特征词i在POI文本中的位置属性。
地图中包含许多的标注地点POI,我们通过计算单个标注地点的敏感度 来得到整个地图的标注地点敏感度MS(P)。通过POI文本中特征词的 敏感度计算单个标注地点的敏感度,公式为:
然后根据单个标注地点的敏感度,计算的到地图标注地点敏感度 MS(P),公式为:
根据地图附属文件提取出特征词的敏感度计算附属文件敏感度 MS(F),即为:
由此,我们可以计算一个互联网地图文件的敏感度为:
本发明通过考虑地图文件敏感性载体主要是在地图附属信息和地图文件 的POI标注文本中,结合中文分词,词语相似度计算,词语权值计算等自然 语言处理算法提取地图信息文本的四种特征。根据提出的四种特征,分别计算 地图附属信息和地图POI文本集的敏感度,通过统计计算方式计算得到整个 地图文件的敏感值。由于互联网存在大量的地图数据,而且地图文件格式存在 差异性,为了提高数据算法的执行效率,我们将算法在Spark并行处理框架上 实现,经过仿真测试算法在检测准确性和执行性能方面均有提高。需要强调的 是本发明是一种针对地图文件的涉密检测算法,能够较好解决检测互联网中地 图文件的涉密性。
应当指出上述具体的实施例,可以使本领域的技术人员和读者更全面地理 解本发明创造的实施方法,应该被理解为本发明的保护范围并不局限于这样的 特别陈述和实施例。因此,尽管本发明说明书参照附图和实施例对本发明创造 已进行了详细的说明,但是,本领域的技术人员应当理解,仍然可以对本发明 创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技 术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。
本发明公开了一种基于Spark互联网涉密地图检测算法,自然语言处理, 大数据分析领域。主要包括构建敏感词库,地图文本预处理,地图文件特征提 取,地图文件敏感度统计计算四个实施阶段。首先,对原始地图数据使用中文 分词ansj算法进行预处理,获取地图文件特征词。其次,使用基于同义词词 林词语相似度计算算法,TF-IDF词语权值计算算法计算特征词的敏感度,提 取地图文件特征。最后根据地图文件特征,统计计算地图附属信息和地图文件 中若干POI标注地点的敏感度,从而得到相应地图文件的敏感值。另外,为 了提高算法执行效率,相应的中文分词算法ansj,TF-IDF算法以及地图敏感 度统计计算均在Spark并行计算框架上实现,提高算法执行效率,方便及时监 测互联网上的地图数据。需要强调的是本发明是对互联网上不同格式地图文件 进行检测,是一种有效的互联网涉密地图检测算法。

Claims (7)

1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。
2.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述敏感词库的构建方法具体为:算法检测对象主要是地图文件,所以敏感词的类别主要是国家不宜公开地点信息词语,例如一些军事基地,大型国家基础设施地点。而且通过我们对地图POI观察有些敏感信息不是通过单个敏感词涉密,而是通过组合词语的方式,比如一个地点信息中出现“火箭”这个词语可能并不会存在涉密情况,但是如果地点信息中还包含“研究基地”这样的词语,那就有可能会存在涉密的情况。所以,我们在构建敏感词库时,不只是构建单个词语的敏感词库,还要定义一种组合词语的敏感词库,通过这两种敏感词库的构建,更加全面的检测地图中的敏感地点信息。
3.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取数据预处理后特征词的敏感度,通过计算特征词与敏感词的相似度量化特征词的敏感值,如果特征词与敏感词完全一致则量化特征词的敏感度为1,对于特征词与敏感词相似度达到一定阈值,则认为该特征词的敏感度为该相似值。通过计算特征词与敏感词的相似度计算,解决敏感词库覆盖不完全或者近义词无法识别的现象。通过计算特征词与敏感词的相似度,可以提取出敏感度高于一定阈值的词语,用于后续对该特征词的提取,从而判断该特征词对应文本的敏感性。
4.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取特征词在相应文本中所占的权重,在文本中不同的词语代表文本不同的意思,也即越能代表文本的词语其在相应文本中所占权重越大。在地图文本中,如果特征词是敏感词汇,而且其在文本中所占权重大,那么该地图文件的敏感值就相应比较高,这样对于我们后续对地图文件进行敏感等级评估有重要作用。
5.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取特征词在POI文本中的位置权值和特征词对应敏感词汇在敏感词库中的权值。经过分析地图中POI文本特征,特征词在POI文本中不同的位置具有不同的权值。本发明定义了特征词在文本中三种位置属性,即{B,I,E}分别表示特征词在POI文本首部,中间和尾部位置。另外,地图中不同的涉密地点具有的敏感度也不相同,例如军事类的敏感POI地点相应会比一些基础设施POI地点具有的敏感度高,所以我们通过定义敏感词汇的权值,来判断不同的特征词对应不同的敏感POI地点。根据不同的地理对象,对敏感词汇分配不同的权值。
6.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述地图文件敏感度计算方法为:利用3-5中定义的文本特征,通过统计计算地图附属信息和地图中POI地点信息的敏感度,然后通过这两部分联合计算出相应地图文件的敏感度。
7.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述基于Spark的互联网涉密地图检测算法具体为:首先解析出互联网地图文件中两部分文本信息,分别是地图文件附属信息和地图文件中若干POI地点信息。然后对两部分文本信息进行数据预处理,分别提取文本中的特征词以及特征词在文本中相应的属性,根据地图地点信息文本的特征,提取地图文本特征词4类特征,根据相应特征计算出地图附属信息以及地图中若干POI地点信息的敏感度,继而联合计算得到相应地图文件的敏感值,对于数据库中的地图文件,算法会根据地图文件的敏感值高低顺序输出。
CN201811216505.6A 2018-10-18 2018-10-18 一种基于Spark互联网涉密地图检测算法 Pending CN109446288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811216505.6A CN109446288A (zh) 2018-10-18 2018-10-18 一种基于Spark互联网涉密地图检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811216505.6A CN109446288A (zh) 2018-10-18 2018-10-18 一种基于Spark互联网涉密地图检测算法

Publications (1)

Publication Number Publication Date
CN109446288A true CN109446288A (zh) 2019-03-08

Family

ID=65546775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811216505.6A Pending CN109446288A (zh) 2018-10-18 2018-10-18 一种基于Spark互联网涉密地图检测算法

Country Status (1)

Country Link
CN (1) CN109446288A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334228A (zh) * 2019-07-09 2019-10-15 广西壮族自治区基础地理信息中心 一种基于深度学习的互联网问题地图筛查方法
CN110580416A (zh) * 2019-09-11 2019-12-17 国网浙江省电力有限公司信息通信分公司 一种基于人工智能的敏感数据自动识别方法
CN110888972A (zh) * 2019-10-27 2020-03-17 北京明朝万达科技股份有限公司 一种基于Spark Streaming的敏感内容识别方法及装置
CN111209735A (zh) * 2020-01-03 2020-05-29 广州杰赛科技股份有限公司 一种文档敏感度的计算方法和装置
CN112463804A (zh) * 2021-02-02 2021-03-09 湖南大学 一种基于KDTree的图像数据库数据处理方法
WO2021142600A1 (zh) * 2020-01-14 2021-07-22 华为技术有限公司 一种图像识别方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008169A (zh) * 2014-05-30 2014-08-27 中国测绘科学研究院 一种基于语义的地理标注内容安全检查方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及***
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008169A (zh) * 2014-05-30 2014-08-27 中国测绘科学研究院 一种基于语义的地理标注内容安全检查方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及***
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334228A (zh) * 2019-07-09 2019-10-15 广西壮族自治区基础地理信息中心 一种基于深度学习的互联网问题地图筛查方法
CN110580416A (zh) * 2019-09-11 2019-12-17 国网浙江省电力有限公司信息通信分公司 一种基于人工智能的敏感数据自动识别方法
CN110888972A (zh) * 2019-10-27 2020-03-17 北京明朝万达科技股份有限公司 一种基于Spark Streaming的敏感内容识别方法及装置
CN111209735A (zh) * 2020-01-03 2020-05-29 广州杰赛科技股份有限公司 一种文档敏感度的计算方法和装置
CN111209735B (zh) * 2020-01-03 2023-06-02 广州杰赛科技股份有限公司 一种文档敏感度的计算方法和装置
WO2021142600A1 (zh) * 2020-01-14 2021-07-22 华为技术有限公司 一种图像识别方法及相关设备
CN113396410A (zh) * 2020-01-14 2021-09-14 华为技术有限公司 一种图像识别方法及相关设备
CN112463804A (zh) * 2021-02-02 2021-03-09 湖南大学 一种基于KDTree的图像数据库数据处理方法
CN112463804B (zh) * 2021-02-02 2021-06-15 湖南大学 一种基于KDTree的图像数据库数据处理方法

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及***
CN109446288A (zh) 一种基于Spark互联网涉密地图检测算法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN107463658B (zh) 文本分类方法及装置
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN110516067A (zh) 基于话题检测的舆情监控方法、***及存储介质
CN108280130A (zh) 一种在文本大数据中发现敏感数据的方法
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN102298635A (zh) 事件信息融合方法和***
CN110222250B (zh) 一种面向微博的突发事件触发词识别方法
CN106844331A (zh) 一种句子相似度计算方法和***
CN106599054A (zh) 一种题目分类及推送的方法及***
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
JP5426868B2 (ja) 数値表現処理装置
CN109918621A (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN113449111B (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN109299469A (zh) 一种在长文本中识别复杂住址的方法
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN114997288A (zh) 一种设计资源关联方法
CN111079582A (zh) 一种图像识别的英语作文跑题判断方法
Indarapu et al. Comparative analysis of machine learning algorithms to detect fake news
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN113111645A (zh) 一种媒体文本相似性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190308