CN107679240B - 一种虚拟身份挖掘方法 - Google Patents
一种虚拟身份挖掘方法 Download PDFInfo
- Publication number
- CN107679240B CN107679240B CN201711026389.7A CN201711026389A CN107679240B CN 107679240 B CN107679240 B CN 107679240B CN 201711026389 A CN201711026389 A CN 201711026389A CN 107679240 B CN107679240 B CN 107679240B
- Authority
- CN
- China
- Prior art keywords
- data
- uploading
- virtual identity
- cluster
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种虚拟身份挖掘方法,该方法基于C/S架构的客户端/服务器框架。该方法分为数据建模和流程建模两个部分。数据建模为整个***提供数据支撑,其过程包括客户端文件上传、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群。流程建模主要负责设计功能需求、协调各个功能之间关系,同时解决了实现各个功能需要用到的技术、方法等。整个方法包含四大功能,分别是全文检索、高级筛选、关系网络建立和虚拟身份挖掘。本发明能够推动对日益增长的虚拟网络身份数据进行更加有效管理,支持大文件上传、断点续传,对不同来源获取大量虚拟身份数据进行快速检索和关系挖掘的虚拟身份挖掘。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种虚拟身份挖掘方法。
背景技术
随着社会生活的发展,互联网已经成为人们日常工作和生活的重要平台,互联网用户(简称网民)在使用某一网站时一般需要登记个人基本信息进行注册从而获得更好的体验效果,我们将这些基本信息称之为用户的虚拟身份信息。同一网民一般会在多个网络平台进行身份登记,即形成了同一用户的多重虚拟身份,我国网民数量已到达数亿级别,同时由于网络普及率逐年递增,这就造成了日益庞大的互联网虚拟身份数据,需对其进行有效监管。而监管则是建立在于准确而又全面的获取同一用户的多重互联网虚拟身份的基础上,这对国家安全和社会稳定都有着重大意义,如通过分析不同互联网虚拟身份的社会网络关系,可以发现某些不利于社会稳定的谣言的传播模式,并根据互联网虚拟身份之间的关系进行追踪和阻断。
面对海量分布的网上行为数据和网络内容信息,现有技术中获取互联网虚拟身份信息的方法主要是通过爬虫技术来获取原始数据,再根据获取的原始数据进行简单的查询和匹配,但由于很多网站对爬虫技术的限制,导致爬虫技术所能获取的网络数据有限,再加上爬虫技术获取数据的需要耗费大量的资源,因此导致其分析计算能力也有局限,因此爬虫技术无法全面的收集反映互联网虚拟身份信息的数据,致使获取的原始数据不完整且存在大量噪音数据,也使得后续的查询和匹配缺乏深度的内容挖掘和关系挖掘。
发明内容
本发明为了克服上述现有技术中的不足,提出了一种虚拟身份挖掘方法,该方法不仅能够实现大文件通过Http协议传输,能够对包含160个不同网站获取的20亿虚拟身份数据进行快速查询、多重虚拟身份挖掘。
一种虚拟身份挖掘方法,其特征在于包括如下步骤:
1)进行数据上传,其过程包括客户端上传文件、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群;
2) 进行全文检索,根据用户提供的信息,用部分匹配技术对ElasticSearch集群内的数据进行全文检索,查找符合条件的人员信息;
3)进行高级筛选,以字段、数据来源等条件作为规则对全文检索的结果进行二次筛选以缩小范围;
4)关系网络建立,ElasticSearch集群逐条读取待导入数据,与ElasticSearch集群内的历史数据进行关系碰撞,将碰撞到的离散关系存入Neo4j集群,合并Neo4j集群内的所有离散关系,形成关系网路;
5)虚拟身份挖掘,通过已建立的关系网络挖掘指定对象的多重虚拟身份。
一种虚拟身份挖掘方法,其特征在于所述的客户端上传文件,具体为:文件通过Http协议上传至服务器,上传过程支持并发操作、大文件上传、断点续传。
一种虚拟身份挖掘方法,其特征在于所述的服务器解析文件到关系型数据库,具体为:从文件中逐条读取人员信息存入到缓冲区,批量存入数据库,其过程支持文件预览、添加表头行、选择上传字段、选择上传数据库、选择数据表、上传成功后的记录日志。
一种虚拟身份挖掘方法,其特征在于所述的部分匹配技术为边缘匹配N-gram。
本发明与现有技术相比,其有益效果为:
能实现超大文件的快速预览和上传,经测试,1个G文件通过Http协议传输至服务器,需要20秒左右。
本发明中的使用的部分匹配技术中的边缘匹配,相较于现有技术的正则匹配,数据量达到上亿条时,采用的查询方式与正则匹配相比,速度提升3-5倍。
附图说明
图1为本发明的结构示意图。
图2为本发明的流程图。
图3为客户端数据上传过程中的数据上传至服务器流程图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的详细说明。
如图1所示,本发明按照以下技术方案实现一种虚拟身份挖掘方法,该方法基于C/S架构的客户端/服务器框架。整个过程分为客户端数据上传和虚拟身份挖掘,其中虚拟身份挖掘又包含进行全文检索、高级筛选、关系网络建立、虚拟身份挖掘四个步骤。
客户端数据上传过程中数据上传至服务器是指客户端文件通过Http协议上传至服务器。具体指Client端的文件,借助WebUploader插件通过Http协议上传至服务器,其过程支持大文件上传、断点续传,并且支持多线程操作。
客户端数据上传过程中的数据存入关系型数据库是指服务器解析部分文件提供数据预览功能,同时为每一列数据指定表头行、选择上传字段、选择数据库、创建数据表,最终将数据批量存入数据库,上传成功后的记录日志。
客户端数据上传过程中数据预处理是指关系型数据库对数据进行包括有效性、唯一性、添加标识序列、添加字段等处理。例如“[email protected]”作为邮箱即为无效数据;添加唯一标识是指对多个文件添加连续且唯一的标识字段;添加字段是指为每一个文件对象的数据表添加来源字段。
客户端数据上传过程中的处理后的数据上传至服务器是指过解析后的虚拟身份数据一方面存到ElasticSearch集群用于全文检索,另一方面通过ElasticSearch集群确定虚拟人员之间存在的关系,并将检索到的关系存入Neo4j集群,具体流程为一方面借助ElasticSearch集群的Bulk API对数据进行批量上传,通过借助ElasticSearch集群的优异的全文检索能力,确定不同虚拟身份之间是否存在关系,将确定的离散关系通过Neo4j-admin import导入工具导入Neo4j集群,如图3所示。
虚拟身份挖掘过程中的全文检索是指用部分匹配技术对ElasticSearch集群内的数据进行检索,其效果:检索“123587”,***将在ElasticSearch集群中进行快速检索,检索所有包含目标字符串的人员信息记录,比如“1235876”、“[email protected]”。其匹配规则有两个,一是正则匹配,二是借助边缘匹配技术N-gram,本***择优选择第二种方式。
虚拟身份挖掘过程中的高级筛选是指对全文检索的结果进行条件筛选,该功能一般用于缩小目标范围。比如:查询“123”会得到所有包含该字符串的记录,比如“user1237”、“[email protected]”。在此基础上,指定邮箱字段包含“123”,此时只会返回“[email protected]”。同时可指定数据来源,比如百度、京东、腾讯。
虚拟身份挖掘过程中的关系网络建立是指过通过循环遍历待导入数据,与集群内历史数据进行关系碰撞,将碰撞到的离散关系存入Neo4j集群,聚合导入的离散关系,形成一个关系网络,更具体指借助ElasticSearch集群的Term精确匹配功能,确定虚拟身份之间存在的1对多的关系,循环遍历所有节点,得到一系列离散关系,存入Neo4j集群最终形成关系网络以进行后续的虚拟身份挖掘。
虚拟身份挖掘过程中的虚拟身份挖掘是指是通过已建立的虚拟身份网络对挖掘指定对象(一般为重点关注对象)的多重虚拟身份,具体指:经过全文检索后,初步获取关注对象,高级筛选后得到重点关注对象,通过Neo4j集群对1个对象进行挖掘,默认展示该对象的3层挖掘结果,同时支持第4层、第5层关系。同时可以对多个对象进行关系挖掘即确定多个虚拟身份是否所属同一用户。
Claims (4)
1.一种虚拟身份挖掘方法,其特征在于包括如下步骤:
1)进行数据上传,其过程包括客户端上传文件、服务器解析文件到关系型数据库、数据预处理、数据上传至ElasticSearch集群和Neo4j集群;
2)进行全文检索,根据用户提供的信息,用部分匹配技术对ElasticSearch集群内的数据进行全文检索,查找符合条件的人员信息;
3)进行高级筛选,以字段、数据来源条件作为规则对全文检索的结果进行二次筛选以缩小范围;
4)关系网络建立,ElasticSearch集群逐条读取待导入数据,与ElasticSearch集群内的历史数据进行关系碰撞,将碰撞到的离散关系存入Neo4j集群,合并Neo4j集群内的所有离散关系,形成关系网络;
5)虚拟身份挖掘,通过已建立的关系网络挖掘指定对象的多重虚拟身份。
2.如权利要求1所述的一种虚拟身份挖掘方法,其特征在于所述的客户端上传文件,具体为:文件通过Http协议上传至服务器,上传过程支持并发操作、大文件上传、断点续传。
3.如权利要求2所述的一种虚拟身份挖掘方法,其特征在于所述的服务器解析文件到关系型数据库,具体为:从文件中逐条读取人员信息存入到缓冲区,批量存入数据库,其过程支持文件预览、添加表头行、选择上传字段、选择上传数据库、选择数据表、上传成功后记录日志。
4.如权利要求3所述的一种虚拟身份挖掘方法,其特征在于所述的部分匹配技术为边缘匹配N-gram。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711026389.7A CN107679240B (zh) | 2017-10-27 | 2017-10-27 | 一种虚拟身份挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711026389.7A CN107679240B (zh) | 2017-10-27 | 2017-10-27 | 一种虚拟身份挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679240A CN107679240A (zh) | 2018-02-09 |
CN107679240B true CN107679240B (zh) | 2020-11-10 |
Family
ID=61143429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711026389.7A Expired - Fee Related CN107679240B (zh) | 2017-10-27 | 2017-10-27 | 一种虚拟身份挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679240B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657072B (zh) * | 2018-12-13 | 2021-02-12 | 北京百分点信息科技有限公司 | 一种应用于政府辅助决策的智能搜索web***及方法 |
CN112527997B (zh) * | 2020-12-18 | 2024-01-23 | 中国南方电网有限责任公司 | 一种基于电网领域调度场景知识图谱的智能问答方法及*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617422B (zh) * | 2013-10-29 | 2017-01-11 | 浙江工业大学 | 一种基于名片识别的社交关系管理方法 |
CN103886011B (zh) * | 2013-12-30 | 2017-04-12 | 讯飞智元信息科技有限公司 | 一种基于索引文件的社会关系网络创建与检索***及方法 |
CN104021197A (zh) * | 2014-06-16 | 2014-09-03 | 南威软件股份有限公司 | 一种虚拟身份入库查询***及方法 |
US20180248902A1 (en) * | 2015-08-28 | 2018-08-30 | Mircea DÃNILÃ-DUMITRESCU | Malicious activity detection on a computer network and network metadata normalisation |
CN105376223B (zh) * | 2015-11-02 | 2018-10-12 | 北京锐安科技有限公司 | 网络身份关系的可靠度计算方法 |
EP3417596B1 (en) * | 2016-02-16 | 2023-04-05 | Illumio, Inc. | Enforcing label-based rules on a per-user basis in a distributed network management system |
-
2017
- 2017-10-27 CN CN201711026389.7A patent/CN107679240B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN107679240A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abel et al. | Leveraging the semantics of tweets for adaptive faceted search on twitter | |
US9582557B2 (en) | Sampling events for rule creation with process selection | |
Gürcan et al. | Real-time processing of big data streams: Lifecycle, tools, tasks, and challenges | |
US20140129558A1 (en) | Timeline-Based Data Visualization of Social Media Topic | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施*** | |
CN106951557B (zh) | 日志关联方法、装置和应用其的计算机*** | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及*** | |
US9275156B2 (en) | Trending topic identification from social communications | |
CN102163226A (zh) | 基于映射-化简和分词及邻接排序去重方法 | |
Yao et al. | Provenance-based indexing support in micro-blog platforms | |
CN112765366A (zh) | 基于知识图谱的apt组织画像构建方法 | |
Malik et al. | A framework for collecting youtube meta-data | |
Psallidas et al. | Effective Event Identification in Social Media. | |
CN107103063B (zh) | 基于大数据的科技信息资源检索查询*** | |
Gupta et al. | Faster as well as early measurements from big data predictive analytics model | |
CN105373607B (zh) | 一种电力业务***sql访问日志压缩方法 | |
CN107679240B (zh) | 一种虚拟身份挖掘方法 | |
Thakur et al. | Detection of malicious URLs in big data using RIPPER algorithm | |
Al-Saqaf | Mecodify: a tool for big data analysis & visualization with twitter as a case study | |
CN109783599A (zh) | 基于多种存储介质的知识图谱检索方法及*** | |
Kumar et al. | Design of a mobile Web crawler for hidden Web | |
Al-Barznji et al. | Review of big data and big data mining for adding big value to enterprises | |
CN103646034A (zh) | 一种基于内容可信的Web搜索引擎***及搜索方法 | |
Abdullah et al. | A sequential data preprocessing tool for data mining | |
Wright | Data streaming 2.0 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201110 Termination date: 20211027 |
|
CF01 | Termination of patent right due to non-payment of annual fee |