CN107679240B

CN107679240B - 一种虚拟身份挖掘方法

Info

Publication number: CN107679240B
Application number: CN201711026389.7A
Authority: CN
Inventors: 王江涛; 徐新胜
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2020-11-10
Anticipated expiration: 2037-10-27
Also published as: CN107679240A

Abstract

本发明提出了一种虚拟身份挖掘方法，该方法基于C/S架构的客户端/服务器框架。该方法分为数据建模和流程建模两个部分。数据建模为整个***提供数据支撑，其过程包括客户端文件上传、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群。流程建模主要负责设计功能需求、协调各个功能之间关系，同时解决了实现各个功能需要用到的技术、方法等。整个方法包含四大功能，分别是全文检索、高级筛选、关系网络建立和虚拟身份挖掘。本发明能够推动对日益增长的虚拟网络身份数据进行更加有效管理，支持大文件上传、断点续传，对不同来源获取大量虚拟身份数据进行快速检索和关系挖掘的虚拟身份挖掘。

Description

一种虚拟身份挖掘方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种虚拟身份挖掘方法。

背景技术

随着社会生活的发展，互联网已经成为人们日常工作和生活的重要平台，互联网用户（简称网民）在使用某一网站时一般需要登记个人基本信息进行注册从而获得更好的体验效果，我们将这些基本信息称之为用户的虚拟身份信息。同一网民一般会在多个网络平台进行身份登记，即形成了同一用户的多重虚拟身份，我国网民数量已到达数亿级别，同时由于网络普及率逐年递增，这就造成了日益庞大的互联网虚拟身份数据，需对其进行有效监管。而监管则是建立在于准确而又全面的获取同一用户的多重互联网虚拟身份的基础上，这对国家安全和社会稳定都有着重大意义，如通过分析不同互联网虚拟身份的社会网络关系，可以发现某些不利于社会稳定的谣言的传播模式，并根据互联网虚拟身份之间的关系进行追踪和阻断。

面对海量分布的网上行为数据和网络内容信息，现有技术中获取互联网虚拟身份信息的方法主要是通过爬虫技术来获取原始数据，再根据获取的原始数据进行简单的查询和匹配，但由于很多网站对爬虫技术的限制，导致爬虫技术所能获取的网络数据有限，再加上爬虫技术获取数据的需要耗费大量的资源，因此导致其分析计算能力也有局限，因此爬虫技术无法全面的收集反映互联网虚拟身份信息的数据，致使获取的原始数据不完整且存在大量噪音数据，也使得后续的查询和匹配缺乏深度的内容挖掘和关系挖掘。

发明内容

本发明为了克服上述现有技术中的不足,提出了一种虚拟身份挖掘方法，该方法不仅能够实现大文件通过Http协议传输，能够对包含160个不同网站获取的20亿虚拟身份数据进行快速查询、多重虚拟身份挖掘。

一种虚拟身份挖掘方法，其特征在于包括如下步骤：

1）进行数据上传，其过程包括客户端上传文件、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群；

2) 进行全文检索，根据用户提供的信息，用部分匹配技术对ElasticSearch集群内的数据进行全文检索，查找符合条件的人员信息；

3）进行高级筛选，以字段、数据来源等条件作为规则对全文检索的结果进行二次筛选以缩小范围；

4）关系网络建立，ElasticSearch集群逐条读取待导入数据，与ElasticSearch集群内的历史数据进行关系碰撞，将碰撞到的离散关系存入Neo4j集群，合并Neo4j集群内的所有离散关系，形成关系网路；

5）虚拟身份挖掘，通过已建立的关系网络挖掘指定对象的多重虚拟身份。

一种虚拟身份挖掘方法，其特征在于所述的客户端上传文件，具体为：文件通过Http协议上传至服务器，上传过程支持并发操作、大文件上传、断点续传。

一种虚拟身份挖掘方法，其特征在于所述的服务器解析文件到关系型数据库，具体为：从文件中逐条读取人员信息存入到缓冲区，批量存入数据库，其过程支持文件预览、添加表头行、选择上传字段、选择上传数据库、选择数据表、上传成功后的记录日志。

一种虚拟身份挖掘方法，其特征在于所述的部分匹配技术为边缘匹配N-gram。

本发明与现有技术相比，其有益效果为：

能实现超大文件的快速预览和上传，经测试，1个G文件通过Http协议传输至服务器，需要20秒左右。

本发明中的使用的部分匹配技术中的边缘匹配，相较于现有技术的正则匹配，数据量达到上亿条时，采用的查询方式与正则匹配相比，速度提升3-5倍。

附图说明

图1为本发明的结构示意图。

图2为本发明的流程图。

图3为客户端数据上传过程中的数据上传至服务器流程图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的详细说明。

如图1所示，本发明按照以下技术方案实现一种虚拟身份挖掘方法，该方法基于C/S架构的客户端/服务器框架。整个过程分为客户端数据上传和虚拟身份挖掘，其中虚拟身份挖掘又包含进行全文检索、高级筛选、关系网络建立、虚拟身份挖掘四个步骤。

客户端数据上传过程中数据上传至服务器是指客户端文件通过Http协议上传至服务器。具体指Client端的文件，借助WebUploader插件通过Http协议上传至服务器，其过程支持大文件上传、断点续传，并且支持多线程操作。

客户端数据上传过程中的数据存入关系型数据库是指服务器解析部分文件提供数据预览功能，同时为每一列数据指定表头行、选择上传字段、选择数据库、创建数据表，最终将数据批量存入数据库，上传成功后的记录日志。

客户端数据上传过程中数据预处理是指关系型数据库对数据进行包括有效性、唯一性、添加标识序列、添加字段等处理。例如“[email protected]”作为邮箱即为无效数据；添加唯一标识是指对多个文件添加连续且唯一的标识字段；添加字段是指为每一个文件对象的数据表添加来源字段。

客户端数据上传过程中的处理后的数据上传至服务器是指过解析后的虚拟身份数据一方面存到ElasticSearch集群用于全文检索，另一方面通过ElasticSearch集群确定虚拟人员之间存在的关系,并将检索到的关系存入Neo4j集群，具体流程为一方面借助ElasticSearch集群的Bulk API对数据进行批量上传，通过借助ElasticSearch集群的优异的全文检索能力，确定不同虚拟身份之间是否存在关系，将确定的离散关系通过Neo4j-admin import导入工具导入Neo4j集群，如图3所示。

虚拟身份挖掘过程中的全文检索是指用部分匹配技术对ElasticSearch集群内的数据进行检索，其效果：检索“123587”，***将在ElasticSearch集群中进行快速检索，检索所有包含目标字符串的人员信息记录，比如“1235876”、“[email protected]”。其匹配规则有两个，一是正则匹配，二是借助边缘匹配技术N-gram，本***择优选择第二种方式。

虚拟身份挖掘过程中的高级筛选是指对全文检索的结果进行条件筛选，该功能一般用于缩小目标范围。比如：查询“123”会得到所有包含该字符串的记录，比如“user1237”、“[email protected]”。在此基础上，指定邮箱字段包含“123”，此时只会返回“[email protected]”。同时可指定数据来源，比如百度、京东、腾讯。

虚拟身份挖掘过程中的关系网络建立是指过通过循环遍历待导入数据，与集群内历史数据进行关系碰撞，将碰撞到的离散关系存入Neo4j集群，聚合导入的离散关系，形成一个关系网络，更具体指借助ElasticSearch集群的Term精确匹配功能，确定虚拟身份之间存在的1对多的关系，循环遍历所有节点，得到一系列离散关系，存入Neo4j集群最终形成关系网络以进行后续的虚拟身份挖掘。

虚拟身份挖掘过程中的虚拟身份挖掘是指是通过已建立的虚拟身份网络对挖掘指定对象（一般为重点关注对象）的多重虚拟身份，具体指：经过全文检索后，初步获取关注对象，高级筛选后得到重点关注对象，通过Neo4j集群对1个对象进行挖掘，默认展示该对象的3层挖掘结果，同时支持第4层、第5层关系。同时可以对多个对象进行关系挖掘即确定多个虚拟身份是否所属同一用户。

Claims

1.一种虚拟身份挖掘方法，其特征在于包括如下步骤：

2）进行全文检索，根据用户提供的信息，用部分匹配技术对ElasticSearch集群内的数据进行全文检索，查找符合条件的人员信息；

3）进行高级筛选，以字段、数据来源条件作为规则对全文检索的结果进行二次筛选以缩小范围；

4）关系网络建立，ElasticSearch集群逐条读取待导入数据，与ElasticSearch集群内的历史数据进行关系碰撞，将碰撞到的离散关系存入Neo4j集群，合并Neo4j集群内的所有离散关系，形成关系网络；

2.如权利要求1所述的一种虚拟身份挖掘方法，其特征在于所述的客户端上传文件，具体为：文件通过Http协议上传至服务器，上传过程支持并发操作、大文件上传、断点续传。

3.如权利要求2所述的一种虚拟身份挖掘方法，其特征在于所述的服务器解析文件到关系型数据库，具体为：从文件中逐条读取人员信息存入到缓冲区，批量存入数据库，其过程支持文件预览、添加表头行、选择上传字段、选择上传数据库、选择数据表、上传成功后记录日志。

4.如权利要求3所述的一种虚拟身份挖掘方法，其特征在于所述的部分匹配技术为边缘匹配N-gram。