CN107832333B - 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** - Google Patents
基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** Download PDFInfo
- Publication number
- CN107832333B CN107832333B CN201710911155.4A CN201710911155A CN107832333B CN 107832333 B CN107832333 B CN 107832333B CN 201710911155 A CN201710911155 A CN 201710911155A CN 107832333 B CN107832333 B CN 107832333B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- app
- network data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5061—Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
- H04L41/5064—Customer relationship management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于分布式处理框架和DPI数据的构建用户网络数据指纹的方法和***,以提取出用户移动端上网行为特征及偏好。该***包括:数据预处理模块:面向网络数据指纹的需求对原始数据进行清洗和去冗余;规则提取模块:选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成规则文件;用户集提取模块:提取网络数据指纹***需要统计的用户集;用户行为提取模块:统计每单位时间段内用户对M个APP的访问情况;数据存储模块:将结果分区保存至数据仓库中,创建索引并备份。本发明通过描述用户移动端上网行为,建立起网络空间和现实生活的对应关系,为分析移动互联网用户行为提供便利,节省空间和时间资源。
Description
技术领域
本发明公开了一种基于分布式处理框架和DPI数据的构建用户网络数据指纹的方法和***,以提取出用户在移动端上网的行为特征和偏好。
背景技术
通过对网络访问记录等数据的分析和特征提取,获得有显著标志性和区分度的数据特征和模式规律,并基于此,建立网络人格和行为的研究体系,我们将这种方式称为数据指纹。本发明鉴于海量移动互联网数据的背景下,基于分布式框架的处理方式,通过对网络数据指纹的积累和研究,可以建立起网络空间和现实生活的对应关系,较清晰地描述了用户移动端网络访问的行为,为用户移动端网络行为的分析提供了极大的便利,并且节省了大量的存储空间和运行时间的资源。
网络数据指纹***为用户移动端网络行为的分析提供了极大的便利。充分了解用户的上网行为偏好,对于运营商、APP所有者而言,具有极高的经济价值和意义。基于移动互联网用户基数大,运营商数据是准确完整的数据指纹信息的来源两个条件,通过大数据分析和数据挖掘的方法,能够提取出用户的行为,得到用户上网的轨迹和偏好。通过分析用户的上网行为,可以更好地了解用户的上网需求与偏好,进而发现具有竞争关系的同类APP,从而优化自身APP属性,调节网络。
网络数据指纹***节省了大量的存储空间和运行时间的资源。电信运营商每天产生的DPI数据数量巨大,单纯地记录了每个数据包的发送/接收信息,使得许多有效信息埋没在海量数据之中,且DPI原始数据中字段冗杂,过多的字段会严重消耗数据分析过程中的时间资源和空间资源。因此,对数据进行合理的处理与整合是非常必要的,一方面使得DPI数据更加直观地反应用户的上网轨迹,另一方面能够极大地节省时间和空间资源,更有利于对用户上网行为模式的分析和挖掘。将数据保存至数据库中,能够更加安全有效地保存海量数据,方便下一步的查询和处理。
发明内容
本发明公开了一种基于分布式处理框架和来自电信运营商的DPI数据的构建用户网络数据指纹的方法和***,以提取出用户在移动端上网的行为特征和偏好,该发明可以为用户的移动互联网行为打标签服务,进而实现利用机器学习等手段研究不同用户群体的个人属性和行为属性的目的。
本发明所采用的技术方案,包括以下五个模块:
(1)数据预处理模块:面向网络数据指纹的需求对原始数据进行清洗和去冗余;
(2)规则提取模块:选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成流量规则文件;
(3)用户集提取模块:提取网络数据指纹***需要统计的用户集;
(4)用户行为提取模块:统计每单位时间段内用户对M个APP的访问情况
(5)数据存储模块:将结果分区保存至数据仓库中,创建索引并备份。
所述的网络数据指纹***,在数据预处理模块中,根据网络数据指纹***所需的字段,对原始 DPI数据中的记录进行过滤和筛选,最终保留***必须的有效字段,将处理结果保存为预处理文件以便后续使用,该模块提高了后续相关操作的效率,使网络数据指纹***更加简洁清晰。
所述的网络数据指纹***,在规则提取模块中,根据预处理数据中的APP使用量情况筛选出使用量靠前的APP并制成APP列表,提取出每个APP对应的域名的正则表达式,此正则表达式即为该APP 的匹配规则,用这些正则表达式匹配DPI数据以验证其准确性,若准确,则将APP及其对应的域名作为匹配规则,制成匹配文件。
所述的网络数据指纹***,在提取用户集模块中,可以采用但不限于的两种方法是提取一段时间内访问APP的次数较高的活跃用户,和一段时间内访问过某个APP的用户,具体采用哪种方法提取用户列表取决于构建的网络数据指纹***需要分析哪种类型用户的上网行为。
所述的网络数据指纹***,在用户行为提取模块中,将每条记录根据用户及上网时间段进行分组,并对每个分组内访问的域名进行计数,将每条计数结果作为一条独立的数据保存。
本方法的实现具有以下有益效果:
(1)更清晰且简洁地描述了用户移动互联网的行为特征,建立起网络空间和现实生活的对应关系。网络数据指纹的规律和特征紧密地联系着现实中的人,网络数据指纹***更加直观且清晰地描述用户的上网行为信息,为进一步发现用户的上网行为偏好、挖掘用户网络行为与现实中的人物特征的对应关系打下了坚实的基础。
(2)网络数据指纹***利用较少的资源消耗,处理后的数据极大地节省了时间和空间资源。将用户在移动端浏览APP的行为模式从冗杂的原始运营商数据中提取出来,通过相对较小的计算消耗以换取后期处理过程中大量的时间资源和空间资源的节省。
(3)网络数据指纹***方法的可移植性强,能够不断更新和添加用户的上网行为信息,保持数据的持续有效性。该***只需定期维护流量规则文件,保证每条规则的实时有效性即可长期工作。
(4)将整理好的网络指纹数据存储至数据仓库中,并按照网络数据指纹的内容形式及查询需求进行分区和创建索引等操作,实现了海量持久地保存以及快速查找操作等功能,合理的数据备份使得***的健壮性和安全性更高,以应对存储空间失效等意外情况。
附图说明
图1:网络数据指纹***的流程示意图;
图2:数据预处理模块的流程示意图;
图3:规则提取模块的流程示意图;
图4:创建网络数据指纹***所用APP列表的流程示意图;
图5:用户行为提取模块的流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为网络数据指纹***的整体流程示意图,该方法可以包括:
面向网络数据指纹的需求对原始数据进行预处理操作,对原始数据进行清洗和去冗余;
选择M个常用手机APP,通过抓包得到每个APP的域名,对域名进行分析和正则匹配,将匹配的正则表达式作为每个APP的识别规则,并编号形成流量规则文件;准确有效的流量规则文件为后期构建网络数据指纹***提供了重要的保障。
确定网络数据指纹需要统计的用户集的方法,包括但不限于截取活跃用户和通过指定APP过滤的方法;
匹配识别规则,统计每单位时间段内用户对M个APP的访问情况;
将处理得到的网络数据指纹的结果保存至数据库中。
参照图2,图2为数据预处理模块的流程示意图。
本实施例中,实现了面向网络数据指纹的需求对原始数据进行预处理操作,对原始数据进行清洗和去冗余的功能。具体方案由以下步骤实现:
1)逐条读入原始DPI数据,按照既定分隔符对每一条数据记录进行切分操作,对切分结果进行判断以确定这条记录是否有效;
2)如果分隔出的字段数等于规定的字段数,表明数据有效,继续处理;若分隔出的字段数不等于规定的字段数,则该条数据无效,改为处理下一条数据;
3)同理再次过滤掉某些位置的字段不符合字符类型要求的记录,以滤除可能存在乱码的数据。处理符合要求的数据,提取出网络数据指纹***需要的字段,包括用户信息、用户上网访问APP信息、用户上网访问时间信息等内容,至此提取完一条记录的有效字段;
4)将该条字段保存,继续读取下一条文件记录,以此类推,直至处理完所有原始数据,将结果保存至文件中作为预处理后的文件,留待后续使用。
参照图3,图3为规则提取模块的流程示意图。
本实施例中,实现了对APP的筛选,并提取相应APP域名规则文件的功能。具体方案由以下步骤实现:
1)创建网络数据指纹***所用的APP列表,具体流程参照图4,包括:
读入预处理文件,统计一段时间内所有出现在文件中的域名的访问数量,选用域名访问数量位于前M的APP作为构建网络数据指纹***的匹配APP列表,因为有些APP对应的域名不唯一,所以需要根据统计域名结果反向验证,将来自同一APP的域名数量做累加,并截取前M个作为网络数据指纹的匹配APP 列表;
对列表中的APP按类别进行编号,编号为APP在流量规则文件中的唯一标识,编号的目的是为了用一种更简单的方法描述APP;
2)对前M个APP做抓包处理,以得到每个APP的域名;
3)对抓包得到的域名进行正则匹配,提取域名正则表达式并以此作为域名的匹配规则,这样处理的目的,一是为了验证DPI数据的域名准确性,二是为了保证提取出每个APP所有的有效域名,使网络数据指纹***更加完善且全面;
4)用正则匹配式匹配一部分DPI数据,以证明提取出的正则匹配式的准确性;
5)整理编号、域名和正则表达式,使之一一对应,并最终形成规则匹配文件。
规则匹配文件的字段包括:
APP_rule_code:唯一标识每个域名;
name:APP名称;
category:APP类别;
domain:每个APP的域名,即为匹配规则,每个APP对应的域名不唯一。
提取用户集模块:确定网络数据指纹需要统计的用户集的方法;
来自运营商的DPI数据记录了接受该运营商服务的所有用户的网络记录,鉴于某些用户上网活跃量低、指向性不足导致其网络行为偏好并不明显等情况,该模块选择出一部分用户作为网络数据指纹的构建对象,进而分析这部分用户的网络行为特征。
筛选出感兴趣的用户集包括但不限于以下两种方法,具体采用哪种筛选方式,取决于对哪部分用户更感兴趣:
一是从上网活跃度的角度考虑,活跃度越高的用户,在网络行为中留下的记录就越多,就越容易发现其网络行为特征及偏好。
这种方法对应的具体做法是:读取一段时间的预处理文件,将数据按照用户进行分组,即将相同用户产生的所有访问数据归为一组,统计每个用户对流量规则文件中APP的访问数量,再比较各个用户之间访问数量的大小,最终选取访问数量较大的用户作为网络数据指纹的用户列表保存至用户列表文件中。
二是从某个APP出发,统计出访问过某个APP的所有用户,以此作为用户集,这样做的目的是观察访问过某个APP的用户是否具有其他的行为共性,指向性更明确。
这种方法对应的具体做法是:选择一个APP作为过滤用APP,并找出根据流量规则文件找出其对应的匹配规则以过滤用户。读取一段时间的预处理文件,查看每个用户访问的域名情况,如果一个用户访问的域名包括该APP对应的域名,则将该用户信息保存下来;否则就跳过该条数据,继续处理下一条;如果某用户已经被查找到,则不必重新添加,最终将所有筛选出的用户列表保存至用户列表文件中。
参照图5,图5为用户行为提取模块的流程示意图。
本实施例中,实现的功能是匹配识别规则,统计每单位时间段内用户对M个APP的访问情况,具体操作方法,包括:
1)读入预处理后的文件;
2)判断产生该条记录的用户是否在用户列表内,如果用户在列表内,再进行接下来的操作;如果不在,就丢弃这条数据,继续处理下一条数据;
3)处理过滤出的数据,按照用户和时间段的共同作用进行分组,即将相同用户和相同时间段的信息分为一组;
4)对一个用户时间段组的处理方法如下所示:遍历每个域名,判断这个域名是否在流量规则文件内,如果在,则证明用户访问了APP列表中的某个APP,则将对应的访问APP数量加一,并继续处理下一条域名,如果不在,则证明用户没有访问APP列表中的APP,则丢弃这条数据,继续处理下一条域名,直至组内的所有域名都被处理完毕,表示这个用户时间段组的处理结束。
5)继续按上述方法处理其它分组,直至所有分组都处理完成,得到的结果即为网络数据指纹的
处理结果,其中的字段包括:
id:唯一标识每条记录的标号;
meid:用户的终端设备号;
rule_code:对应于流量规则文件的编码;
pv:用户对APP的操作点击量(页面浏览量);
province:用户所在省份;
report_date:用户上网行为的发生日期;
hour_period:用户上网行为的发生时间段;
create_date:记录创建时间。
数据保存模块:将处理得到的网络数据指纹的结果逐条保存至数据库中,具体操作流程,包括:
1)在数据仓库中创建存储表,按照网络数据指纹的统计字段创建表头,鉴于网络数据指纹***一天的数据量极大的情况,按天对数据仓库进行分区;
2)将基于分布式架构处理后的网络数据指纹的内容存入对应的分区中;
3)为提高查询效率并加强针对性,根据分析用户移动互联网端的行为及偏好的目的,本发明根据APP名称(domain)、用户、记录时间段三个字段分别创建哈希索引,以满足多元化的查询需求。
4)为了***的安全性和健全性,本***对数据进行了备份处理,每个segment中需要存储两部分数据,包括:
网络指纹***中一天的数据;
作为备份,存储前一个segment中一天的数据,其中第一个segment中备份的是最后一个segment 的数据。
5)在主机中存储相应的存储信息及备份信息。
Claims (8)
1.一种基于分布式处理和DPI数据的构建用户网络数据指纹的方法,其特征在于,包括以下步骤:
通过数据预处理模块面向网络数据指纹的需求对原始DPI数据进行预处理,所述预处理包括清洗和去冗余;
通过规则提取模块选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成流量规则文件;
通过用户集提取模块提取网络数据指纹***需要统计的用户集;
通过用户行为提取模块匹配识别规则,统计每单位时间段内用户对M个APP的访问情况,得到网络数据指纹的处理结果;
通过数据存储模块将网络数据指纹的处理结果分区保存至数据仓库中,创建索引并备份;
通过规则提取模块选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成流量规则文件,包括:
对流量数据全集的统计结果进行排名,并截取前M个APP制成网络数据指纹的APP列表;
将M个APP按类别进行编号,编号为APP在流量规则文件中的唯一标识;以及
整理匹配到的域名,形成流量规则文件,并与编号相对应;
通过用户行为提取模块匹配识别规则,统计每单位时间段内用户对M个APP的访问情况,包括:
基于分布式处理框架,处理预处理后的数据,查找每个用户的网络访问行为;
计算用户每单位时间段内对需要统计的APP的访问数量;以及
将每个用户每个单位时间段内对每个APP的访问数量设计为一条记录。
2.据权利要求1所述的方法,其特征在于,面向网络数据指纹的需求对原始数据进行清洗和去冗余,包括:
删除数据总字段长度不符合要求的DPI记录;
删除关键性字段不符合数据类型要求的DPI记录;以及
处理每条DPI记录,保留需要做进一步处理的字段。
3.根据权利要求1所述的方法,其特征在于,通过提取用户集模块提取网络数据指纹***需要统计的用户集,包括:
统计原始DPI数据中,上网点击数量大于某阈值的用户,制定用户列表;
搜集访问某个指定APP的全部用户,制定用户列表。
4.根据权利要求3所述的方法,其特征在于,通过用户行为提取模块匹配识别规则,统计每单位时间段内用户对M个APP的访问情况,还包括:
若用户在某时间段内并未访问某APP,则需要过滤掉当前数据,即不记录该条记录。
5.根据权利要求4所述的方法,需要过滤掉的数据,包括:
用户为空或用户不在所述用户列表中的数据;
域名为空或域名不在规则文件列表内的数据。
6.根据权利要求1或5所述的方法,其特征在于,通过数据存储模块将结果分区保存至数据仓库中,创建索引并备份,包括:
对数据仓库进行分区处理;
将基于分布式架构处理后的网络数据指纹的内容存入数据仓库中;
按不同的键值创建哈希索引,以便快速查询数据;
将每个分区的数据备份在不同的存储空间,以提高***的健壮性和安全性。
7.根据权利要求6所述的方法,为使数据保存格式更加清晰,查询更加迅速,存入数据仓库时需要先对数据仓库进行分区处理,包括:
按照网络数据指纹每条记录的发生日期作为分区的依据,即将数据结果按照发生日期存入对应的分区中。
8.根据权利要求6所述的方法,为提高查询数据的效率,需要对分区存入数据库后的结果创建哈希索引,包括:
以APP域名为键值,创建哈希索引;
以用户为键值,创建哈希索引;
以每条记录的发生时间段为键值,创建哈希索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911155.4A CN107832333B (zh) | 2017-09-29 | 2017-09-29 | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911155.4A CN107832333B (zh) | 2017-09-29 | 2017-09-29 | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832333A CN107832333A (zh) | 2018-03-23 |
CN107832333B true CN107832333B (zh) | 2022-05-10 |
Family
ID=61647649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710911155.4A Active CN107832333B (zh) | 2017-09-29 | 2017-09-29 | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832333B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600414B (zh) * | 2018-05-09 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 设备指纹的构建方法、装置、存储介质及终端 |
CN111726419B (zh) * | 2020-06-29 | 2021-08-06 | 广东技术师范大学 | 一种基于物联网的污泥烘干机模型*** |
CN112287991B (zh) * | 2020-10-26 | 2024-05-03 | 上海数鸣人工智能科技有限公司 | 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 |
CN112328864B (zh) * | 2020-11-04 | 2023-06-23 | 浪潮云信息技术股份公司 | 一种Ceph对象存储的下载量统计方法 |
CN113157540A (zh) * | 2021-03-31 | 2021-07-23 | 国家计算机网络与信息安全管理中心 | 一种用户行为分析方法和*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542071A (zh) * | 2012-01-17 | 2012-07-04 | 深圳市同洲视讯传媒有限公司 | 一种分布式处理数据的***及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9230213B2 (en) * | 2013-03-15 | 2016-01-05 | Extreme Networks, Inc. | Device and related method for scoring applications running on a network |
US10334085B2 (en) * | 2015-01-29 | 2019-06-25 | Splunk Inc. | Facilitating custom content extraction from network packets |
-
2017
- 2017-09-29 CN CN201710911155.4A patent/CN107832333B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542071A (zh) * | 2012-01-17 | 2012-07-04 | 深圳市同洲视讯传媒有限公司 | 一种分布式处理数据的***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107832333A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832333B (zh) | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** | |
CN107526807B (zh) | 信息推荐方法及装置 | |
CN109582551A (zh) | 日志数据解析方法、装置、计算机设备和存储介质 | |
CN105187242B (zh) | 一种基于变长序列模式挖掘的用户异常行为检测方法 | |
CN104714984A (zh) | 一种数据库优化的方法和装置 | |
CN102541884B (zh) | 数据库优化方法和装置 | |
CN113362024B (zh) | 一种基于区块链的应用程序开发多模块协同*** | |
KR100898465B1 (ko) | 웹로그의 시계열 분석을 위한 데이터 저장 및 조회 방법그리고 상기 방법을 수행하는 시스템 | |
CN104809252A (zh) | 互联网数据提取*** | |
CN104834739A (zh) | 互联网信息存储*** | |
CN113328867A (zh) | 一种基于区块链的会议纪要存储*** | |
CN105426392A (zh) | 一种协同过滤推荐方法及*** | |
CN117251414B (zh) | 一种基于异构技术的数据存储及处理方法 | |
CN114238360A (zh) | 一种用户行为分析*** | |
CN110705297A (zh) | 一种企业曾用名识别方法、***、介质及设备 | |
CN106919566A (zh) | 一种基于海量数据的查询统计方法及*** | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN109145109A (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
CN114491061A (zh) | 一种多维数据关联分析***及方法 | |
CN107730021B (zh) | 一种业务指标优化方法和装置 | |
CN104376021A (zh) | 文件推荐***及方法 | |
CN113393273A (zh) | 一种精准的营销方法 | |
CN109388649B (zh) | 一种土地智能推荐方法及*** | |
CN113971213A (zh) | 智慧城市管理公共信息共享*** | |
CN103838765B (zh) | 联系人信息存储方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |