CN111062823A - 一种社交图谱分析方法、装置及存储介质 - Google Patents
一种社交图谱分析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111062823A CN111062823A CN201910922436.9A CN201910922436A CN111062823A CN 111062823 A CN111062823 A CN 111062823A CN 201910922436 A CN201910922436 A CN 201910922436A CN 111062823 A CN111062823 A CN 111062823A
- Authority
- CN
- China
- Prior art keywords
- data
- social graph
- risk
- social
- target person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 8
- 241000700605 Viruses Species 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013058 risk prediction model Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 239000003814 drug Substances 0.000 description 11
- 229940079593 drug Drugs 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000002574 poison Substances 0.000 description 3
- 231100000614 poison Toxicity 0.000 description 3
- 231100000331 toxic Toxicity 0.000 description 3
- 230000002588 toxic effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种社交图谱分析方法、装置及存储介质,属于数据处理技术领域。该方法应用于大数据平台,所述方法包括:获取高危预测人员的轨迹数据;以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系;将所述社交图谱关系存储到文档数据库中。本申请实施例,通过获取高危预测人员的轨迹数据,并以该高危预测人员的身份标识为顶点,以其轨迹数据为边,利用Spark Graphx图计算获得该高危预测人员的社交图谱关系,将抽象的轨迹数据转化为具体的关系网络图谱,为业务人员提供可视化的分析,减轻了日常侦案过程中的工作强度,提高工作效率。
Description
技术领域
本申请属于数据处理技术领域,具体涉及一种社交图谱分析方法、装置及存储介质。
背景技术
毒品犯罪是新时期刑事犯罪比较突出的表现形式之一,是当前影响社会治安稳定和经济发展的一大突出问题。毒品问题的发展蔓延,给政治、经济和社会生活带来了不小的危害,毒品问题已成为影响社会治安稳定的一个重要因素。
随着大数据、物联网时代的到来,提供了海量的数量,为公安机关获得案件侦破线索提供了更多的可能性,但另一方面,传统的业务***在承载大数据方面又存在诸多不足,一定程度上增加了业务人员发现线索的难度,已经不太满足对涉毒违法犯罪分析的需求。
发明内容
鉴于此,本申请的目的在于提供一种社交图谱分析方法、装置及存储介质,以借助大数据技术手段,刻画出高危涉毒人员的社交图谱,将抽象的轨迹数据转化为具体的关系网络图谱,为业务人员提供可视化的分析,以提高侦查、研判、情报线索串并的能力,减轻日常侦案过程中核查工作的强度,提高工作效率。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种社交图谱分析方法,应用于大数据平台,所述方法包括:获取高危预测人员的轨迹数据;以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系;将所述社交图谱关系存储到文档数据库中。本申请实施例,通过获取高危预测人员的轨迹数据,并以该高危预测人员的身份标识为顶点,以其轨迹数据为边,利用Spark Graphx图计算获得该高危预测人员的社交图谱关系,借助大数据技术手段,将抽象的轨迹数据转化为具体的关系网络图谱,为业务人员提供可视化的分析,减轻了日常侦案过程中的工作强度,提高工作效率。
结合第一方面实施例的一种可能的实施方式,获取高危预测人员的轨迹数据之前,所述方法还包括:获取已有涉毒人员的轨迹数据;将所述已有涉毒人员的轨迹数据输入事先训练好的涉毒高危预测模型中进行处理,得到所述高危预测人员。本申请实施例中,通过获取已经确认为涉毒人员的轨迹数据,并利用事先训练好的涉毒高危预测模型预测得到高危预测人员,再刻画出高危涉毒人员的社交图谱,既保证了刻画出的社交图谱对涉毒违法犯罪分析的可行性,又将已有涉毒人员排除在外,避免在分析消耗了大量时间后,发现该人员已经被收监,而造成额外的人力成本浪费。
结合第一方面实施例的一种可能的实施方式,获取高危预测人员的轨迹数据,包括:获取高危预测人员的日常数据;对所述日常数据进行过滤、清洗,得到所述轨迹数据。本申请实施例中,通过对获取到的高危预测人员的日常数据进行过滤、清洗,去除无用的信息,以节约计算资源,提高效率。
结合第一方面实施例的一种可能的实施方式,将所述社交图谱关系存储到文档数据库中之后,所述方法还包括:接收与所述大数据平台通信的服务器发送的查询目标人员的社交图谱的查询请求;获取与所述查询请求相对应的社交图谱关系数据,并向所述服务器反馈所述社交图谱关系数据。本申请实施例中,引入了查询功能,以便于用户获取想要查询的目标人员的社交图谱关系数据,为业务人员提供可视化的分析参考。
结合第一方面实施例的一种可能的实施方式,所述轨迹数据包括:通话数据、短信数据、物流数据、出行数据、出行入住数据中的至少一种数据。本申请实施例中,获取多个维度的数据信息,以保证最终刻画出的高危涉毒人员的社交图谱尽可能的具有参考价值。
第二方面,本申请实施例还提供了一种社交图谱分析方法,应用于服务器,所述方法包括:响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求;接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据;基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。本申请实施例中,服务器响应用户输入的针对目标人员的查询操作,向大数据平台发送查询目标人员的社交图谱的第一查询请求,并基于大数据平台响应第一查询请求返回的第一社交图谱关系数据生成目标人员的社交图谱并展示,使得业务人员可以很直观的基于展示的社交图谱实现对涉毒违法犯罪分析的需求。
结合第二方面实施例的一种可能的实施方式,基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示之后,所述方法还包括:响应所述用户输入的针对所述社交图谱中除所述目标人员外的社交人员的查询操作,向与所述大数据平台发送查询所述社交人员的社交图谱的第二查询请求;接收所述大数据平台响应所述第二查询请求返回的第二社交图谱关系数据;将所述第一社交图谱关系数据和所述第二社交图谱关系数据合并去重后,生成所述目标人员的二级社交图谱并展示。本申请实施例中,服务器可进一步响应用户针对展示的社交图谱中除目标人员外的社交人员的查询操作,向大数据平台发送查询社交人员的社交图谱的第二查询请求,并基于大数据平台响应第二查询请求返回的第二社交图谱关系数据,与第一社交图谱关系数据去重后,生成目标人员的二级社交图谱并展示,由于二级图谱不仅展示了目标人员的社交关系还展示了与其关联密切人的社交情况,更有利于业务人员发现隐藏的涉毒违法人员。
第三方面,本申请实施例还提供了一种社交图谱分析装置,应用于大数据平台;所述装置包括:获取模块、计算模块以及存储模块;获取模块,用于获取高危预测人员的轨迹数据;计算模块,用于以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系;存储模块,用于将所述社交图谱关系存储到文档数据库中。
第四方面,本申请实施例还提供了一种社交图谱分析装置,应用于服务器,所述装置包括:发送模块、接收模块以及生成展示模块;发送模块,用于响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求;接收模块,用于接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据;生成展示模块,用于基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。
第五方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被计算机运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者执行上述第二方面实施例和/或结合第二方面实施例的任一种可能的实施方式提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种应用于大数据平台的社交图谱分析方法的流程示意图。
图2示出了本申请实施例提供的目标人员的社交图谱关系的示意图。
图3示出了本申请实施例提供的一种应用于服务器的社交图谱分析方法的流程示意图。
图4示出了本申请实施例提供的目标人员的二级社交图谱关系的示意图。
图5示出了本申请实施例提供的一种应用于大数据平台的社交图谱分析装置的模块示意图。
图6示出了本申请实施例提供的一种应用于服务器的社交图谱分析装置的模块示意图。
图7示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
请参阅图1,为本申请实施例提供的一种应用于大数据平台的社交图谱分析方法,下面将结合图1对其所包含的步骤进行说明。
步骤S101:获取高危预测人员的轨迹数据。
随着物联网技术的发展,第三方公安***可以通过负责数据收集的信息资源服务平台(大数据平台)或基于安全域的数据汇聚平台,以及智慧城市、社区等手段实现各类数据资源的汇聚,获得特定人员的通话数据、物流数据、出行数据、出行入住数据等表征其活动轨迹的日常数据。为了减少数据存储量,可选地,第三方公安***在获得特定人员的日常数据后,可以对日常数据进行过滤、清洗,去除无用数据。当然,为了保证数据的完整性,第三方公安***也可以在获得特定人员的日常数据后,直接进行保存。
大数据平台(例如hadoop)通过对接第三方公安***获取高危预测人员的通话数据、物流数据、出行数据、出行入住数据等表征其活动轨迹的数据。作为一种实施方式,大数据平台从第三方公安***获取到的表征高危预测人员的活动轨迹的数据是已经经过过滤、清洗后的日常数据。作为另一种实施方式,大数据平台(例如hadoop)从第三方公安***获取到的表征高危预测人员的活动轨迹的数据也可以是原始的日常数据,为了节约计算资源,提高计算效率以及计算结果的准确性,作为一种实施方式,大数据平台(例如hadoop)在获取到高危预测人员的日常数据后,对该日常数据进行过滤、清洗等预处理,到预处理后的轨迹数据,例如,将获取的日常数据经过mapreduce或hive过滤和清洗后保存到分布式文件***(HDFS)中。
需要说明的是,上述的轨迹数据可以是通话数据、短信数据、物流数据、出行数据、出行入住数据中的至少一种数据。不同的高危预测人员的轨迹数据可能不同,有的高危预测人员的轨迹数据涵盖的维度较全,可以同时包括通话数据、短信数据、物流数据、出行数据、出行入住数据;有的可能较为单一,可能只有通话数据。
其中,上述的指定人员包括高危预测人员、已有涉毒人员等。该高危预测人员是基于已有涉毒人员的轨迹数据预测得到的。作为一种实施方式,该高危预测人员可以是利用事先训练好的涉毒高危预测模型预测得到的,即将已有涉毒人员的轨迹数据输入事先训练好的涉毒高危预测模型中进行处理,便可得到高危预测人员。其中,该涉毒高危预测模型可以是常用的神经网络模型,事先利用已有涉毒人员的轨迹数据对其进行训练,使其学习已有涉毒人员间的关联性,得到训练好的然模型,以备后续使用。
可选地,大数据平台(例如hadoop)可以是通过对接第三方公安***获得已涉毒人员名单,然后获取已涉毒人员每天的通话数据、物流数据、出行数据、出行入住数据等日常数据,并将获取到的原始数据经过mapreduce或hive过滤和清洗后保存到HDFS中,同时将获取到的已有涉毒人员的轨迹数据导入事先训练好的涉毒高危预测模型中,获取最新的高危预测人员,并将其存储HDFS中,同时获取高危预测人员的轨迹数据并进行存储。也即,在该实施方式中,在获取高危预测人员的轨迹数据之前,该方法还包括:获取已有涉毒人员的轨迹数据;将已有涉毒人员的轨迹数据输入事先训练好的涉毒高危预测模型中进行处理,得到高危预测人员。
其中,在存储各种数据时,可以进行分类存储,即同一类型的数据存储在同一个数据库中,不同类型的数据存储在不同的数据库中,例如,将获得的高危预测人员的基本信息存储在mysql数据库中,将对应的社交图谱数据存储在mongodb数据库中,将对应的社交图谱关系网中涉及到的社交人员的基本信息存储在elasticsearch数据库中。
步骤S102:以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系。
在获取到高危预测人员的轨迹数据后,以该高危预测人员的身份标识(如18位的身份证号码)为顶点,以该高危预测人员的轨迹数据为边,利用Spark Graphx图计算获得该高危预测人员的社交图谱关系,将抽象的轨迹数据转化为具体的关系网络图谱,为业务人员提供可视化的分析。
由于涉毒违法犯罪分子为逃避法律制裁,通常采用多种隐蔽、伪装方式,但此类犯罪客观还是存在较为明显的特征,即:吸毒人员复吸率较高,多次入所,隐性与显性涉毒人员关系固定,成员关系相互交叉,从贩毒到吸毒之间逐层递进,通过分析高危预测人员的社交图谱关系,以实现更高层次的涉毒违法犯罪分析挖掘功能。例如与高危预测人员通话往来频繁,或者同时与多个高危预测人员均有往来,或者,某个高危预测人员进场进入特定的场所,或者在某个较为固定的时间段去某地见某人等,则这些人很有可能也是涉毒人员,这些地点很有可能就是涉毒场所,可以重点关注。
例如,以高危预测人员A的身份证号码为顶点(Vertex RDD),以其对应的轨迹数据(包括通话、短信、物流、出行、出行入住)为边(Edge RDD),利用Spark Graphx图计算,计算得到该高危预测人员A的社交图谱关系,假设,在该关系网中与A有通话记录的行为人包括B、C、D,以及与A有物流往来的行为人包括B、E,该A的出行地点包括SZ市、CD市,入住地点包括位于SZ市的某某酒店等。为了便于理解,可以参阅图2所示的社交图谱关系。其中,需要说明的是,不同的高危预测人员的轨迹数据可能不同,有的高危预测人员的轨迹数据涵盖的维度较全,有的可能较为单一,相应地,得到的社交图谱关系的关系网也各不相同。例如,以高危预测人员B的身份证号码为顶点(Vertex RDD),以其对应的轨迹数据(仅包括通话、物流)为边(Edge RDD),利用Spark Graphx图计算,计算得到该高危预测人员B的社交图谱关系,例如,在该关系网中与B有通话记录的行为人包括A、C、F,以及与B有物流往来的行为人包括A、Q。此外,获取的轨迹数据是预设时间内的轨迹数据,例如获取当天的轨迹数据,或者前三天的轨迹数据等。其中,预设的时间段越长,获得的轨迹数据越多,其关系网就越复杂。
步骤S103:将所述社交图谱关系存储到文档数据库中。
在得到高危预测人员的社交图谱关系后,将其社交图谱关系存储到文档数据库中,例如,存储在mongodb数据库,以便于后续的分析查询。例如,存储的数据格式如下:
{
pictureId:“123456”,sfzh:“123456”,
Version:“20190827”,
edge:[
{from“123456”to“432154”,
Type:call,time:“2017-07-01”},
{from:“123456”to“432145”,
Type:call,time:“2017-07-01”}
]}
其中,上述的“123456”、“432154”、“432145”均表示身份证号码,上述的“20190827”表示版本号(可以是创建时间作为版本号)。其中pictureId为顶点,edge为关联关系数据,from为发起方,to为接收方,Version为版本号,Type为类型,包括通话(call)、短信(message)、物流(logistics)、出行(go)、入住(place)等。其中,上述仅示出了仅包括通话记录的数据。
为了便于查询高危预测人员的社交谱图数据,该大数据平台还提供了与服务器通信的数据接口(如http接口),服务器可通过该http接口获取想要查询的目标人员的图谱数据。可选地,所述方法还包括:接收与所述大数据平台通信的服务器发送的查询目标人员的社交图谱的查询请求;获取与所述查询请求相对应的社交图谱关系数据,并向所述服务器反馈所述社交图谱关系数据。该实施方式下,大数据平台在接收到服务器发送的查询目标人员的图谱数据的查询请求时,对该查询请求进行解析,获取其中携带的目标人员的身份标识信息(例如,身份证号),从数据库中查找与该身份标识信息对应的社交图谱关系数据,并将查找到的目标人员相对应的社交图谱关系数据反馈给该服务器。
请参阅图3,为本申请实施例提供的一种应用于服务器的社交图谱分析方法,下面将结合图3对其所包含的步骤进行说明。
步骤S201:响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求。
为了便于查询高危预测人员的社交谱图数据,服务器会定期向与其对应的客户端推荐高危预测人员的列表,使得用户可以查询位于该列表中的各个高危预测人员的社交图谱关系数据。例如,服务器会向对应的Web网页推荐高危预测人员的列表,用户通过访问指定地址的网页,即可浏览到该列表,然后可在Web网页显示界面的查询输入框中输入列表中示出的高危预测人员的身份标识信息,即可浏览到对应的社交图谱关系数据,或者直接通过点击该列表中的某个人,即可浏览到该用户对应的社交图谱关系数据。
当用户在客户端如Web网页中的查询输入框中输入某个目标人员的身份标识信息,或者直接点击列表中某个目标人员时,服务器响应用户输入的针对目标人员的查询操作,向与服务器通信的大数据平台发送查询该目标人员的社交图谱的第一查询请求。其中,该第一查询请求中携带有目标人员的身份标识信息,该身份标识信息可以是身份证号码,也可以是实名认证的手机号码,或者其他实名认证的账号(如支付宝账号)。
其中,该大数据平台提供了与服务器通信的数据接口(如http接口),服务器可通过该http接口获取想要查询的目标人员的图谱数据。
步骤S202:接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据。
大数据平台在接收到服务器发送的第一查询请求后,对该第一查询请求进行解析,获取其中携带的目标人员的身份标识信息(例如,身份证号),从数据库中查找与该身份标识信息对应的社交图谱关系数据,并将查找到的目标人员相对应的社交图谱关系数据(第一社交图谱关系数据)反馈给该服务器。
步骤S203:基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。
服务器在接收到大数据平台响应第一查询请求返回的第一社交图谱关系数据后,基于该述第一社交图谱关系数据生成目标人员的社交图谱并展示,用户便可在该客户端上看到该目标人员的社交图谱,其图谱示例如上述的图2所示。
其中,客户端作为用户与服务器进行交互的媒介,用户可通过客户端向服务器发送查询请求,服务器可通过客户端向用户展示对应的数据,进而完成人机交互。其中,该客户端安装于用户终端上,如电脑、智能手机、平板等终端上。
其中,一级图谱仅仅展示目标人员的社交关系,为了便于对涉毒团伙进行挖掘,还可进一步获取一级图谱中的除目标人员外的其他人员的社交图谱,以获得目标人员的二级图谱,二级图谱不仅展示了目标人员的社交关系还展示了与其关联密切的人员的社交情况。用户可进一步获取该社交图谱中的成员信息的属性,以及该成员对应的图谱数据,得到目标人员的二级社交图谱。例如获取目标人员为A的社交图谱中的成员B的社交图谱(即A的二级图谱)。也即步骤S203之后,用户可在客户端(如Web网页或者其他APP)的查询输入框中输入针对目标人员的社交图谱中除目标人员外的社交人员的身份标识信息,或者直接点击该社交图谱中除目标人员外的社交人员,服务器响应所述用户输入的针对所述社交图谱中除所述目标人员外的社交人员的查询操作,向与大数据平台发送查询所述社交人员的社交图谱的第二查询请求,以及接收所述大数据平台响应所述第二查询请求返回的第二社交图谱关系数据;将所述第一社交图谱关系数据和所述第二社交图谱关系数据合并去重后,生成所述目标人员的二级社交图谱并展示。其中,该第二查询请求中携带有该社交人员的身份标识信息,该身份标识信息可以是身份证号码,也可以是实名认证的手机号码,或者其他实名认证的账号(如支付宝账号)。
为了便于理解,以上述的图2所示的目标人员为A的图谱数据进行示例,假设此时用户输入的是针对社交人员B的社交图谱的查询操作,则服务器响应该查询操作向大数据平台发送获取社交人员B的社交图谱的第二查询请求。大数据平台在接收到该第二查询请求后,对该第二查询请求进行解析,获取其中携带的社交人员B的身份标识信息(例如,身份证号),从数据库中查找与该身份标识信息对应的社交图谱关系数据,并将查找到的第二查询请求相对应的社交图谱关系数据(第二社交图谱关系数据)反馈给该服务器。服务器在接收到第二社交图谱关系数据后,将第一社交图谱关系数据和第二社交图谱关系数据合并去重后,生成目标人员A的二级社交图谱并展示,其展示的图谱示例如图4所示。其中,图4所示的示例图中仅显示了社交人员B的社交图谱,还可同时显示社交人员C、社交人员D以及社交人员E各自的图谱数据。其中,获取社交人员C、社交人员D以及社交人员E各自的图谱数据的原理与获取社交人员B的图谱数据的原理类似,不再介绍。
其中,在展示中需要考虑社交数据量过大的问题,对于需要展示的目标人员的社交图谱数据少的,则可直接展示,但数据量过大,若直接展示会出现页面卡死等问题,对此可以增加过滤条件,如采用危险度作为过滤条件,将展示的意义不大的危险度低的人过滤掉;或者采用时间过滤条件,仅仅包括最新的社交数据;亦或者,过滤掉关系网中的出行和/或入住信息;通过这些过滤条件,可以过滤掉一些相对意义不是那么重要的数据,进行解决由于数据量过大导致的页面卡死的问题。
其中,作为一种实施方式,可以通过与目标人员的通联频率来确定该关系网中的社交人员的危险度值,与目标人员的通联频率越高,则对应的分值也越高。
如图5所示,本申请实施例还提供了一种应用于大数据平台的社交图谱分析装置100,包括:获取模块110、计算模块120以及存储模块130。
获取模块110,用于获取高危预测人员的轨迹数据。
计算模块120,用于以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系。
存储模块130,用于将所述社交图谱关系存储到文档数据库中。
可选地,该获取模块110,具体用于:获取高危预测人员的日常数据;对所述日常数据进行过滤、清洗,得到所述轨迹数据。
可选地,该获取模块110在获取高危预测人员的轨迹数据之前,还用于获取已有涉毒人员的轨迹数据。相应地,该社交图谱分析装置100还包括:输入模块。该输入用不将所述已有涉毒人员的轨迹数据输入事先训练好的涉毒高危预测模型中进行处理,得到所述高危预测人员。
可选地,该社交图谱分析装置100还包括:接收模块,用于在存储模块130将所述社交图谱关系存储到文档数据库中之后,接收与所述大数据平台通信的服务器发送的查询目标人员的社交图谱的查询请求;相应地,该获取模块110还用于获取与所述查询请求相对应的社交图谱关系数据,并向所述服务器反馈所述社交图谱关系数据。
其中,本申请实施例所提供的社交图谱分析装置100,其实现原理及产生的技术效果和前述应用于大数据平台中的社交图谱分析方法的方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前的方法实施例中相应内容。
如图6所示,本申请实施例还提供了一种应用于服务器的社交图谱分析装置200,包括:发送模块210、接收模块220以及生成展示模块230。
发送模块210,用于响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求。
接收模块220,用于接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据。
生成展示模块230,用于基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。
可选地,所述发送模块210,还用于在生成展示模块230基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示之后,还用于响应所述用户输入的针对所述社交图谱中除所述目标人员外的社交人员的查询操作,向与所述大数据平台发送查询所述社交人员的社交图谱的第二查询请求;相应地,所述接收模块220,还用于接收所述大数据平台响应所述第二查询请求返回的第二社交图谱关系数据;所述生成展示模块230,还用于将所述第一社交图谱关系数据和所述第二社交图谱关系数据合并去重后,生成所述目标人员的二级社交图谱并展示。
其中,本申请实施例所提供的社交图谱分析装置200,其实现原理及产生的技术效果和前述应用于服务器中的社交图谱分析方法的方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前的方法实施例中相应内容。
如图7所示,图7示出了本申请实施例提供的一种电子设备300的结构框图。所述电子设备300包括:数据接口310、存储器320、通讯总线330以及处理器340。
所述数据接口310、所述存储器320、处理器340各元件相互之间通过一条或多条通讯总线330或信号线实现电性连接。其中,数据接口310用于收发数据。存储器320用于存储计算机程序,如存储有图5所示的软件功能模块,即社交图谱分析装置100,或者,存储有图6所示的软件功能模块,即社交图谱分析装置200。其中,社交图谱分析装置100或者社交图谱分析装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器320中或固化在所述电子设备300的操作***(operating system,OS)中的软件功能模块。当处理器340运行图5所示的软件功能模块时,该处理器340,用于获取高危预测人员的轨迹数据;以及还用于以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用SparkGraphx图计算获得所述高危预测人员的社交图谱关系;以及还用于将所述社交图谱关系存储到文档数据库中。当处理器340运行图6所示的软件功能模块时,所述处理器340,用于响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求;以及还用于接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据;以及还用于基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。
其中,存储器320可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器340可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器340也可以是任何常规的处理器等。
其中,上述的电子设备300为大数据平台或者服务器。其中,服务器但不限于网络服务器、数据库服务器、云端服务器等。大数据平台包括但不限于hadoop平台、Lambda平台。
本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备300运行时,执行上述图1所示的社交图谱分析方法,或者执行上述图3所示的社交图谱分析方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种社交图谱分析方法,其特征在于,应用于大数据平台,所述方法包括:
获取高危预测人员的轨迹数据;
以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系;
将所述社交图谱关系存储到文档数据库中。
2.根据权利要求1所述的方法,其特征在于,获取高危预测人员的轨迹数据之前,所述方法还包括:
获取已有涉毒人员的轨迹数据;
将所述已有涉毒人员的轨迹数据输入事先训练好的涉毒高危预测模型中进行处理,得到所述高危预测人员。
3.根据权利要求1所述的方法,其特征在于,获取高危预测人员的轨迹数据,包括:
获取高危预测人员的日常数据;
对所述日常数据进行过滤、清洗,得到所述轨迹数据。
4.根据权利要求1所述的方法,其特征在于,将所述社交图谱关系存储到文档数据库中之后,所述方法还包括:
接收与所述大数据平台通信的服务器发送的查询目标人员的社交图谱的查询请求;
获取与所述查询请求相对应的社交图谱关系数据,并向所述服务器反馈所述社交图谱关系数据。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述轨迹数据包括:通话数据、短信数据、物流数据、出行数据、出行入住数据中的至少一种数据。
6.一种社交图谱分析方法,其特征在于,应用于服务器,所述方法包括:
响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求;
接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据;
基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。
7.根据权利要求6所述的方法,其特征在于,基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示之后,所述方法还包括:
响应所述用户输入的针对所述社交图谱中除所述目标人员外的社交人员的查询操作,向与所述大数据平台发送查询所述社交人员的社交图谱的第二查询请求;
接收所述大数据平台响应所述第二查询请求返回的第二社交图谱关系数据;
将所述第一社交图谱关系数据和所述第二社交图谱关系数据合并去重后,生成所述目标人员的二级社交图谱并展示。
8.一种社交图谱分析装置,其特征在于,应用于大数据平台;所述装置包括:
获取模块,用于获取高危预测人员的轨迹数据;
计算模块,用于以所述高危预测人员的身份标识为顶点,以所述轨迹数据为边,利用Spark Graphx图计算获得所述高危预测人员的社交图谱关系;
存储模块,用于将所述社交图谱关系存储到文档数据库中。
9.一种社交图谱分析装置,其特征在于,应用于服务器,所述装置包括:
发送模块,用于响应用户输入的针对目标人员的查询操作,向与所述服务器通信的大数据平台发送查询所述目标人员的社交图谱的第一查询请求;
接收模块,用于接收所述大数据平台响应所述第一查询请求返回的第一社交图谱关系数据;
生成展示模块,用于基于所述第一社交图谱关系数据生成所述目标人员的社交图谱并展示。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被计算机运行时,执行如权利要求1-5中任一项所述的方法,或者执行如权利要求6-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910922436.9A CN111062823A (zh) | 2019-09-26 | 2019-09-26 | 一种社交图谱分析方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910922436.9A CN111062823A (zh) | 2019-09-26 | 2019-09-26 | 一种社交图谱分析方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062823A true CN111062823A (zh) | 2020-04-24 |
Family
ID=70298334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910922436.9A Pending CN111062823A (zh) | 2019-09-26 | 2019-09-26 | 一种社交图谱分析方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062823A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783987A (zh) * | 2020-12-26 | 2021-05-11 | 深圳市八方通达科技有限公司 | 基于数据交互的关系网分析方法、***、终端和存储介质 |
CN113421108A (zh) * | 2021-05-11 | 2021-09-21 | 北京沃东天骏信息技术有限公司 | 一种数据关系的确定方法、装置、设备及存储介质 |
CN113630642A (zh) * | 2021-09-18 | 2021-11-09 | 广州品唯软件有限公司 | 一种信息发送方法及装置 |
CN114118880A (zh) * | 2022-01-25 | 2022-03-01 | 国家***邮政业安全中心 | 一种寄递风险人物识别方法、***、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060920A1 (en) * | 2015-08-31 | 2017-03-02 | Linkedin Corporation | Constructing graphs from attributes of member profiles of a social networking service |
CN106780263A (zh) * | 2017-01-13 | 2017-05-31 | 中电科新型智慧城市研究院有限公司 | 基于大数据平台的高危人员分析和识别方法 |
CN108052641A (zh) * | 2017-12-21 | 2018-05-18 | 中通服公众信息产业股份有限公司 | 基于大规模网络计算的人员感染度系数计算方法 |
CN109087140A (zh) * | 2018-08-07 | 2018-12-25 | 广州航海学院 | 一种基于spark大数据的闭环目标客户识别方法 |
CN109684516A (zh) * | 2018-12-03 | 2019-04-26 | 武汉烽火众智智慧之星科技有限公司 | 一种基于公安大数据人物特定行为共现关系图谱生成方法 |
CN109684916A (zh) * | 2018-11-13 | 2019-04-26 | 恒睿(重庆)人工智能技术研究院有限公司 | 基于路径轨迹数据异常检测方法、***、设备及存储介质 |
-
2019
- 2019-09-26 CN CN201910922436.9A patent/CN111062823A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060920A1 (en) * | 2015-08-31 | 2017-03-02 | Linkedin Corporation | Constructing graphs from attributes of member profiles of a social networking service |
CN106780263A (zh) * | 2017-01-13 | 2017-05-31 | 中电科新型智慧城市研究院有限公司 | 基于大数据平台的高危人员分析和识别方法 |
CN108052641A (zh) * | 2017-12-21 | 2018-05-18 | 中通服公众信息产业股份有限公司 | 基于大规模网络计算的人员感染度系数计算方法 |
CN109087140A (zh) * | 2018-08-07 | 2018-12-25 | 广州航海学院 | 一种基于spark大数据的闭环目标客户识别方法 |
CN109684916A (zh) * | 2018-11-13 | 2019-04-26 | 恒睿(重庆)人工智能技术研究院有限公司 | 基于路径轨迹数据异常检测方法、***、设备及存储介质 |
CN109684516A (zh) * | 2018-12-03 | 2019-04-26 | 武汉烽火众智智慧之星科技有限公司 | 一种基于公安大数据人物特定行为共现关系图谱生成方法 |
Non-Patent Citations (1)
Title |
---|
马强 等: ""基于手机LBS位置服务的社交网络分析"" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783987A (zh) * | 2020-12-26 | 2021-05-11 | 深圳市八方通达科技有限公司 | 基于数据交互的关系网分析方法、***、终端和存储介质 |
CN113421108A (zh) * | 2021-05-11 | 2021-09-21 | 北京沃东天骏信息技术有限公司 | 一种数据关系的确定方法、装置、设备及存储介质 |
CN113630642A (zh) * | 2021-09-18 | 2021-11-09 | 广州品唯软件有限公司 | 一种信息发送方法及装置 |
CN113630642B (zh) * | 2021-09-18 | 2024-06-11 | 广州品唯软件有限公司 | 一种信息发送方法及装置 |
CN114118880A (zh) * | 2022-01-25 | 2022-03-01 | 国家***邮政业安全中心 | 一种寄递风险人物识别方法、***、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062823A (zh) | 一种社交图谱分析方法、装置及存储介质 | |
US10102220B2 (en) | Activity based analytics | |
EP3163471B1 (en) | Data information transaction method and system | |
US9554402B2 (en) | Freeing up mobile network for important phone calls in case of disaster | |
CA3064137A1 (en) | Method and device for recommending information | |
Trasberg et al. | Spatial and social disparities in the decline of activities during the COVID-19 lockdown in Greater London | |
US20200005356A1 (en) | Mapping mobile device interactions and location zones in a venue for use in sending notifications | |
JP2017130182A (ja) | 画像を施設に対して関連付けるシステム、方法、プログラム及び装置 | |
US20190147468A1 (en) | Location evaluation | |
CN103365949B (zh) | 用于确定来自焦点区域的通信的人群话题的方法和*** | |
US9635507B2 (en) | Mobile device analytics | |
US9774993B1 (en) | System, method, and recording medium for geofence filtering | |
Wang et al. | Online detection of abnormal passenger out-flow in urban metro system | |
Zaldumbide et al. | Identification and validation of real-time health events through social media | |
CN114650167A (zh) | 一种异常检测方法、装置、设备及计算机可读存储介质 | |
Xu et al. | Crowdsourcing-based timeline description of urban emergency events using social media | |
CN112052259A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
US11216426B1 (en) | Efficient data scraping and deduplication system for registered sex offender queries | |
US11074486B2 (en) | Query analysis using deep neural net classification | |
US20160300138A1 (en) | Method and system for context-based intent verification | |
CN113934764A (zh) | 事件信息的处理方法、装置及电子设备 | |
US20150169776A1 (en) | System and method for displaying contextual data respective of events | |
US20190392420A1 (en) | Location-aware event monitoring | |
Dokuz et al. | Cloud computing-based socially important locations discovery on social media big datasets | |
CN113132909A (zh) | 基于网络切片与边缘数据中心的失踪人员协查方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210915 Address after: 100000 room 650, 6th floor, building 11, Huashan Garden Cultural Media Industrial Park, 1376 folk culture street, Gaobeidian village, Gaobeidian Township, Chaoyang District, Beijing Applicant after: Beijing Zhizhi Heshu Technology Co.,Ltd. Address before: No.310, building 4, courtyard 8, Dongbei Wangxi Road, Haidian District, Beijing Applicant before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200424 |
|
WD01 | Invention patent application deemed withdrawn after publication |