CN105337753B - 一种互联网真实质量监测方法及装置 - Google Patents

一种互联网真实质量监测方法及装置 Download PDF

Info

Publication number
CN105337753B
CN105337753B CN201410383832.6A CN201410383832A CN105337753B CN 105337753 B CN105337753 B CN 105337753B CN 201410383832 A CN201410383832 A CN 201410383832A CN 105337753 B CN105337753 B CN 105337753B
Authority
CN
China
Prior art keywords
data
ticket
full dose
user data
important dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410383832.6A
Other languages
English (en)
Other versions
CN105337753A (zh
Inventor
杭星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Guangdong Co Ltd filed Critical China Mobile Group Guangdong Co Ltd
Priority to CN201410383832.6A priority Critical patent/CN105337753B/zh
Publication of CN105337753A publication Critical patent/CN105337753A/zh
Application granted granted Critical
Publication of CN105337753B publication Critical patent/CN105337753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种互联网真实质量监测方法及装置。所述方法包括:采集经过互联网出口的全量用户数据;将全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***HDFS;在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术DPI将全量用户数据生成为原始呼叫直接记录CDR话单;将原始呼叫直接记录CDR话单合成为重要维度字段话单;分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流。所述装置包括:数据采集模块、数据上传模块、原始呼叫直接记录CDR话单生成模块、重要维度字段话单生成模块、互联网真实质量获取模块。所述方法及装置能够对互联网真实质量进行分析和监测。

Description

一种互联网真实质量监测方法及装置
技术领域
本发明涉及网络技术,特别是指一种互联网真实质量监测方法及装置。
背景技术
随着互联网网络规模和用户规模的日益庞大,用户对互联网的感知要求也越来越高,同时,考虑到互联网未来的大规模发展、维护模式面临的压力、自动化管控手段的引入及未来的多业务承载的需求,运营商对互联网全量用户真实质量的掌控显得尤为迫切和重要。然而,现有的质量监测方法均以拨测模拟手段为主,即在互联网上选择多个节点部署质量拨测探针,通过反复发送数据包模拟用户行为测试互联网质量,该质量数据实为模拟数据,并非用户的真实感知数据,其无法全面反映全量用户的真实质量,往往导致监测结果与用户上网实际质量有所偏差甚至背道而驰的情况。
发明内容
有鉴于此,本发明提供一种互联网真实质量监测方法及装置,能够对互联网真实质量进行分析和监测。
基于上述目的本发明提供的互联网真实质量监测方法,包括如下步骤:
采集经过互联网出口的全量用户数据;
将所述全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***HDFS;
在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单;
将所述原始呼叫直接记录CDR话单合成为重要维度字段话单;
分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流。
可选的,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单之后,还将所述原始呼叫直接记录CDR话单存储到分析服务器。
可选的,所述全量用户数据包括网络监控设备发出的流记录帧Flow RecordFrame;所述采集经过互联网出口的全量用户数据的步骤具体包括:
通过采集服务器接收网络监控设备发出的流记录帧Flow Record Frame。
可选的,所述重要维度字段话单包括http业务话单。
可选的,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单的步骤具体包括:
将所述流记录帧Flow Record Frame和http报文分别转换为Rawflow文件和http记录文件;
将所述Rawflow文件和http记录文件进行精简和预处理;
将精简和预处理后的Rawflow文件和http记录文件上传到Hadoop集群架构中的Hadoop分布式文件***HDFS。
可选的,将所述原始呼叫直接记录CDR话单合成为重要维度字段话单的步骤包括:
从所述全量用户数据中提取重要维度字段的数据;
将所述重要维度字段的数据合成业务话单。
可选的,所述重要维度字段至少包括连接时长、时延、速率、成功率;
所述连接时长为报文接收时间减去报文开始时间;
所述时延为连接三次握手成功的时间至接收到第一个get报文之间的时间差;
所述速率为单位时间的网络流量;
所述成功率为根据IP报文返回码所获知的识别成功次数占总次数的比例。
可选的,从所述全量用户数据中提取重要维度字段的数据的步骤包括:
按照协议和访问类型对于所述全量用户数据中对应的字段进行识别;
按照预先设定的MapReduce模型中的规律将所述识别后的全量用户数据分发到Hadoop中的数据分析模块;
通过所述数据分析模块从所述识别后的全量用户数据中提取重要维度字段的话单。
可选的,所述数据分析模块包括Pig数据分析模块,和/或Hive数据分析模块。
进一步,本发明提供一种互联网真实质量监测装置,所述装置还包括:
数据采集模块:用于采集经过互联网出口的全量用户数据;
数据上传模块:用于将所述全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***HDFS;
原始呼叫直接记录CDR话单生成模块:用于在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单;
重要维度字段话单生成模块:用于将所述原始呼叫直接记录CDR话单合成为重要维度字段话单;
互联网真实质量获取模块:用于分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流。
可选的,还包括原始呼叫直接记录话单存储模块:用于在采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单之后,还将所述原始呼叫直接记录CDR话单存储到分析服务器。
可选的,所述全量用户数据包括网络监控设备发出的流记录帧Flow RecordFrame;所述数据采集模块具体包括:
流记录帧接收单元:用于通过采集服务器接收网络监控设备发出的流记录帧FlowRecord Frame。
可选的,所述重要维度字段话单包括http业务话单。
可选的,所述数据上传模块具体包括:
数据转换单元:用于将所述流记录帧Flow Record Frame和http报文分别转换为Rawflow文件和http记录文件;
精简和预处理单元:用于将所述Rawflow文件和http记录文件进行精简和预处理;
上传单元:用于将精简和预处理后的Rawflow文件和http记录文件上传到Hadoop集群架构中的Hadoop分布式文件***HDFS。
可选的,重要维度字段话单生成模块包括:
重要维度字段数据提取单元:用于从所述全量用户数据中提取重要维度字段的数据;
业务话单合成单元:用于将所述重要维度字段的数据合成业务话单。
可选的,所述重要维度字段至少包括连接时长、时延、速率、成功率;
所述连接时长为报文接收时间减去报文开始时间;
所述时延为连接三次握手成功的时间至接收到第一个get报文之间的时间差;
所述速率为单位时间的网络流量;
所述成功率为根据IP报文返回码所获知的识别成功次数占总次数的比例。
可选的,重要维度字段数据提取单元包括:
数据识别子单元:用于按照协议和访问类型对于所述全量用户数据中对应的字段进行识别;
数据发送子单元:用于按照预先设定的MapReduce模型中的规律将所述识别后的全量用户数据分发到Hadoop中的数据分析模块;
重要维度字段话单提取子单元:通过所述数据分析模块从所述识别后的全量用户数据中提取重要维度字段的话单。
可选的,所述数据分析模块包括Pig数据分析模块,和/或Hive数据分析模块。
从上面所述可以看出,本发明提供的互联网真实质量监测方法和装置,可基于全量用户使用互联网的数据对互联网真实质量进行检测,同时可以解决海量的全量用户数据处理分析的问题,提高故障发现、处理、消除的效率。同时,本发明实施例可从多维度深层次挖掘数据生成话单,有助于掌握互联网多方面的真实质量,允许互联网质量监测方针对不同维度的质量问题提高互联网质量。
附图说明
图1为本发明实施例提供的互联网真实质量监测方法流程示意图;
图2为本发明一种具体实施例中,运营商移动和总体质量进行对比、重要维度字段数据为平均时延字段数据时,质量对比示意图;
图3为本发明实施例提供的互联网真实质量监测装置结构示意图。
具体实施方式
为了给出有效的实现方案,本发明提供了下述实施例,以下结合说明书附图对本发明实施例进行说明。
本发明首先提供一种互联网真实质量监测方法,包括如图1所示的步骤:
步骤101:采集经过互联网出口的全量用户数据;
步骤102:将所述全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***(Hadoop Distributed File System,HDFS);
步骤103:在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术(Deep Packet Inspection,DPI)将所述全量用户数据生成为原始呼叫直接记录(CallDirect Record,CDR)话单;
步骤104:将所述原始呼叫直接记录话单合成为重要维度字段话单;
步骤105:分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流。
从上面所述可以看出,本发明采集互联网出口的全量用户数据,利用深度包检测结合Apache Hadoop集群构架对所述全量用户数据进行分布式运算和处理,获得反映全量用户网络使用状况的重要维度字段话单,该重要维度字段话单由全量用户数据分析获得,可以准确地反映全量用户使用互联网的真实质量,通过一些统计分析或其它方式,可以从所述重要维度字段话单中获取反映互联网真实质量的信息,例如:将用户使用网络的速率作为重要维度字段,则可在所述重要维度字段话单中直观监测出互联网真实速率信息;进而通过所述重要维度字段话单获得的网络真实质量监测也能够贴近实际情况。
所述步骤105中,可采用统计分析或其它分析方式对所述重要维度字段话单进行分析,也可以通过比较等方式获得互联网相对真实质量情况。
实际情况下,全量用户数据需要占用极大量的内存,以广州某城域网出口为例,出口有8个10G链路,一天的总流量达到440TB,即使汇聚为流记录,每天也要产生几个TB的记录和HTTP访问记录,传统的数据库技术难以处理如此规模的数据。本发明采用ApacheHadoop集群架构作为基础,可处理海量的全量用户数据,因而可以完成基于全量用户数据的原始CDR话单生成,并可进一步将原始呼叫直接记录CDR话单合成为重要维度字段话单。
在本发明的一些实施例中,在Apache Hadoop集群构架的Mapreduce计算框架中,采用DPI将全量用户数据生成为原始CDR话单时,采用4~7层的深度报文检测,通过分析报文中特征指纹(Signature)以及不同业务流的流量统计规律和连接规律进行业务识别和分析。
在具体实施例中,所述全量用户数据包括用户使用网络的网络流(Net Flow)。所述网络流记录由流记录帧(Flow Record Frame)构成,所述流记录帧记录有http报文。所述网络流为FIFO(先入先出,First In First Out)流,在网络流中,所述http报文为镜像报文。
在具体实施例中,所述重要维度字段话单存储至HDFS的数据库服务器HBase中。
在本发明的一些实施例中,采用深度包检测技术DPI将所述全量用户数据生成为原始CDR话单之后,还将所述原始CDR话单存储到分析服务器。
所述原始CDR话单定时传送到分析服务器中。所述分析服务器主要保存原始CDR话单,为该服务器配置大容量的存储,基于DPI主要采用离线方式,利用高性能服务器加大容量存储,每天需要存储和处理几个T的原始话单。
在具体实施例中,所述全量用户数据主要通过前置采集服务器收集,所述前置采集服务器以Hadoop客户端模式安装,可实时接收流记录帧和http报文,并能够对指定链路的出入双方向流量进行1:1的线速采集和流量分析,通过协议+端口号、协议指纹、业务特征、流量行为等进行业务的在线识别、标记和统计分析。所述原始CDR话单包括不同的网络业务话单,进一步包括http业务话单。
在本发明的一些实施例中,所述全量用户数据包括网络监控设备发出的流记录帧;所述采集经过互联网出口的全量用户数据的步骤具体包括:
通过采集服务器接收网络监控设备发出的流记录帧Flow Record Frame。
在本发明的一些实施例中,所述重要维度字段话单包括http业务话单。
在其它实施例中,所述重要维度字段话单还包括其它业务话单,如ftp业务话单、网络协议业务话单等。
由于http业务是用户使用最多的一种业务,因而对http业务话单进行分析所得到的结果相比于其它业务话单更具有代表性。
在本发明的一些实施例中,将所述全量用户数据生成为原始呼叫直接记录话单的步骤具体包括:
步骤1031:将所述流记录帧Flow Record Frame和http报文分别转换为Rawflow文件和http记录文件;
步骤1032:将所述Rawflow文件和http记录文件进行精简和预处理;
步骤1033:将精简和预处理后的Rawflow文件和http记录文件上传到Hadoop集群架构中的Hadoop分布式文件***HDFS。
在本发明一些实施例中,将所述原始呼叫直接记录话单合成为重要维度字段话单的步骤包括:
从所述全量用户数据中提取重要维度字段的数据;
将所述重要维度字段的数据合成业务话单。
在本发明的一些实施例中,所述重要维度包括:业务维度、用户群维度、流向维度、指标维度、时间维度。
具体的,基于深度包检测,所述业务维度数据根据网络流数据包中的数据进行识别和监测,例如:协议类型和端口号字段、协议特征和业务指纹(signature)、数据传输特征和流量特征。
所述用户群维度数据可通过下述方式进行挖掘和监测:
以IP地址段定义用户或用户群:按主机地址、地址+掩码、地址范围和文件导入方式定义用户或用户群,每个用户群组支持多个地址项,支持地址合并和交叉;
针对用户和用户群进行分类定义:每一种类别刻画用户的一维特征,比如可以按地域划分:广东、江苏、四川、湖北、河南……;也可以按用户类型划分:AAA客户、AA客户……;或是按接入类型划分:家庭宽带、WLAN、专线……等等。
所述流向维度,包括移动、电信、联通等各流向。每一次用户访问,均有对端IP地址,从数据包中挖掘出对端IP存储在话单中,再从话单中获取对端IP地址字段,根据各个运营商的IP地址范围情况找出该对端IP的运营商归属情况,作为流向维度。
所述指标维度,包括TCP连接成功率,TCP连接时延,HTTP下载速率(下行流量/时长,单位为Kbps)等维度。
所述时间维度,包括每日质量(日闲时、日忙时),每周质量(周闲日、周忙日)等。
从上面所述可以看出,本发明所提供的互联网真实质量监测方法,不仅可以替代传统的拨测模拟监测方法,且基于全量用户数据进行质量分析,能够得到真实度更高的质量分析结果。且现有技术进行互联网质量监测时,不能根据海量数据生成深度挖掘的话单,而本发明实施例所提供的方法,采用Apache Hadoop对海量数据生成的话单进行不同维度的挖掘,可得到多方面多维度的全量用户数据所体现的互联网真实质量。
在一种具体实施例中,所述重要维度字段数据包括:时间字段数据、用户账号字段数据、用户IP字段数据、远端IP字段数据、上行流量字段数据、下行流量字段数据、连接时长字段数据、时延字段数据、成功率字段数据中的至少一种。
在本发明的一些实施例中,所述重要维度字段至少包括连接时长、时延、速率、成功率;
所述连接时长为报文接收时间减去报文开始时间;
所述时延为连接三次握手成功的时间至接收到第一个get报文之间的时间差;
所述速率为单位时间的网络流量;
所述成功率为根据IP报文返回码所获知的识别成功次数占总次数的比例。
在一种具体实施例中,通过前置采集服务器可采集经监控设备预处理过的网络流和镜像http报文。所述网络流为FIFO流,每条流记录包括了网内IP、网外IP、上下行字节数、上下行报文数等字段,前置采集服务器接收flow record frame后,通过其上设置的Importer(读入)工具定期读取rawflow文件、http报文,每个rawflow文件对应了一条流记录,前置采集服务器上的Importer工具将所有rawflow文件、http报文经清洗、预处理后上传到Hadoop集群架构中的HDFS成为原始CDR话单并定时传给分析服务器,再由Hadoop集群中的Analyzer将HDFS中的原始数据经过统计分析压缩为相对较小的各种数据,也即将流记录和镜像报文合成为重要维度字段业务话单和HTTP访问话单,同时将重要纬度的数据处理后入库,数据保存至数据库服务器。
当所述重要维度字段数据包括上述时间字段数据、用户账号字段数据、用户IP字段数据、远端IP字段数据、上行流量字段数据、下行流量字段数据、连接时长字段数据、时延字段数据、和成功率字段数据时,重要维度字段的话单存储格式如下表1:
中文描述 英文描述 字段类型 备注
时间 TIME Timestamp
用户帐号 UserAccount VARchar(20)
用户IP UserIp Inet 关联用户群
远端IP RemoteIp Inet 关联ISP
上行流量 UpByte BIGINT
下行流量 DownByte BIGINT
连接时长 ConnTime Int
时延 Delay Int
速率 Rate Int
成功率 Succ Rate Int
表1
上述各重要维度字段的数据生成方法为:
实时记录的报文中包含时间点的字段信息,该字段信息可直接作为用户质量的时间字段数据;
实时记录的报文有多种不同类型协议报文,提取其中相应时间点的radius报文,找到radius报文中的user信息得到的字段为用户账号字段数据;
根据IP报文五元组可找出报文中包含的用户IP字段数据和远端IP字段数据;
网络流的FIFO原始流记录中包含了流量信息,可根据流量字段区分得出上行流量字段数据和下行流量字段数据;
每个报文都有其开始的时间节点和接收的时间节点,二者之差则为该用户某次访问的连接时长字段,若无接收时间节点的话可判断该报文超时,则无连接时长字段数据;
根据前面判断的上下行流量可获取总流量数据,再除以前面获取的时长字段数据,得到的为该次访问的速率字段数据;
每个IP报文都有其返回码,不同的返回码代表不同的返回结果,用返回码识别出成功的次数除以所有返回码的总次数获得的成功率字段数据。
上述重要维度字段数据生成方法可以通过下表2体现出来:
表2
经过深度包检测技术预处理后生成内容详尽的原始CDR话单,对话单数据按照不同的重要维度字段做分类整合生成业务话单,再根据业务话单所记录的数据可进一步进行统计分析,得到互联网真实质量信息。例如,按时延字段划分区间范围做分类看用户感知情况,生成时延质量区间分布图和分布表如表3,按速率字段划分区间范围做分类看用户感知情况,生成质量区间分布图和分布表如表4。再结合不同的维度,实现多维护的全量用户真实质量情况。
时延(毫秒) 加权访问数 时延(毫秒) 累计访问数
0-20 44942250 20 44942250
20-30 12357036 30 57299286
30-40 57485151 40 114784437
40-50 30589934 50 145374371
50-60 12145349 60 157519720
60-70 7019541 70 164539261
70-80 5594988 80 170134249
80-90 4425653 90 174559902
90-100 3655303 100 178215205
100-200 24801277 200 203016482
200-500 12324379 500 215340861
500-1000 4150161 1000 219491022
>1000 15643688 1100 235134710
表3
表3中的加权访问数,指的是分布在各个时延时段内的访问数。通过上述表3中的数据,可进一步进行分析,得知互联网用户的时延质量,例如时延分别为20ms以内、30ms以内、40ms以内、50ms以内、60ms以内、70ms以内、80ms以内、90ms以内、100ms以内、200ms以内、500ms以内、1000ms以内、1100ms以内所对应的用户访问数。根据越小的时延值对应的访问数越多、则互联网在时延方面的用户质量越高的原则,即可得知互联网关于时延方面的全量用户真实质量。
速率(Kbps) 加权访问数 平均速率 累计数
500-1000 17619783 550 17619783
200-500 19852378 500 37472161
100-200 24693430 200 62165591
50-100 39719506 100 101885097
20-50 107630163 50 209515260
15-20 57031487 20 266546747
12-15 53518380 15 320065127
10-12 48730982 12 368796109
8-10 63347955 10 432144064
6-8 80996742 8 513140806
4-6 95537674 6 608678480
2-4 77160418 4 685838898
<2 74681558 2 760520456
表4
根据表4中反映的不同速率对应的访问数,即可得知互联网速率的基本状况,即不同速率段对应的访问比例。根据诸如表4中的速率字段数据,即可得知互联网关于速率的全量用户真实质量
根据获取的数据包中IP地址字段归属情况区分不同的运营商,例如移动、联通、电信,最终可生成的不同运营商的互联网真实质量对比的数据图。以运营商移动和总体质量进行对比、重要维度字段数据为平均时延字段数据为例,对比数据图参照图2。
本发明实施例所提供的方法,不仅可以解决用户使用网络的海量数据的处理问题,从互联网全量用户真实的互联网使用数据中提前发现质量问题点,针对性地进行优化,消除可能发生的网络故障隐患,达到网络故障率下降至少50%的效果;该方法还可以实现从全网用户真实质量的互联网使用数据中挖掘定位故障点,使故障处理及时率提升至少50%;同时,可以根据该方法可获得不同维度的全量用户使用网络的真实质量,允许运营商根据质量监测结果有针对性地挖掘提升业务质量,100%针对性地提升网络和业务质量。
在本发明的一些实施例中,从所述全量用户数据中提取重要维度字段的数据的步骤包括:
按照协议和访问类型对于所述全量用户数据中对应的字段进行识别;
按照预先设定的MapReduce模型中的规律将所述识别后的全量用户数据分发到Hadoop中的数据分析模块;
通过所述数据分析模块从所述识别后的全量用户数据中提取重要维度字段的话单。
在本发明的一些实施例中,所述数据分析模块包括Pig数据分析模块,和/或Hive数据分析模块。
较佳的,所述数据分析模块为Pig数据分析模块。
Pig数据分析模块可针对采集服务器传输的数据包做深度分析处理,其核心PigLatin语言是面向关系型的流式数据处理语言,Pig Latin更适合构建数据流,它是面向过程的语言,允许自定义处理流程中检查点的位置和逻辑,还允许直接选择特定的操作实现方式而不是依赖于优化器,同时,Pig还支持在处理流程中出现分支并控制分支的发展,另一方面,Pig对大数据集的迭代式处理支持较好,可以对不断到达的数据进行增量处理。这些特性均决定了Pig在数据准备阶段具有更好的效果。
通过所述Pig数据分析模块,可从数据包中包含的各类信息和字段中分析挖掘出所需要的重要维度字段数据。例如,通过Pig数据分析模块读取数据包的时间节点作为时间字段数据、通过分析IP报文五元组获取上下行流量字段数据等。采用现有技术的深度包检测技术难以实现海量大数据的迅速运算、处理和存储,而应用Hadoop分布式处理与运算的深度包检测技术可解决海量大数据问题,达到实时高效地对互联网质量进行监测的目的。
进一步,本发明还提供一种互联网真实质量监测装置,结构如图3所示,包括:
数据采集模块:用于采集经过互联网出口的全量用户数据;
数据上传模块:用于将所述全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***HDFS;
原始呼叫直接记录CDR话单生成模块:用于在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单;
重要维度字段话单生成模块:用于将所述原始呼叫直接记录CDR话单合成为重要维度字段话单;
互联网真实质量获取模块:用于分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流。
从上面所述可以看出,本发明提供的互联网真实质量检测装置,替代了现有的互联网之恋拨测模拟监测装置,实现了海量数据的检测,可通过全量用户使用互联网的数据监测到互联网真实质量。
在一些实施例中,所述装置还包括原始呼叫直接记录话单存储模块:用于在采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单之后,还将所述原始呼叫直接记录CDR话单存储到分析服务器。
在一些实施例中,所述全量用户数据包括网络监控设备发出的流记录帧FlowRecord Frame;所述数据采集模块具体包括:
流记录帧接收单元:用于通过采集服务器接收网络监控设备发出的流记录帧FlowRecord Frame。
在具体实施例中,所述流记录帧接收单元可以为软件模块,也可以为硬件。
例如,在一种具体实施例中,所述流记录帧接收单元可以为光分路合路器,该光分路合路器接入互联网的物理线路。通过在出口路由器和交换机的链路上串接入光分路合路器,其上行接口连接互联运营商对端路由器,其下行接口连接出口路由器端口,与采集设备连接为外馈电方式,可将整个链路的网络流导入Apache Hadoop。当光分路合路器或与光分路合路器连接的物理线路或采集设备在断电、启动、故障或接口告警时会自动切换到光路直通模式保障上下游路由设备的可靠连接,光开关的切换时间<2ms。
在一些实施例中,所述重要维度字段话单包括http业务话单。
在一些实施例中,所述原始呼叫直接记录CDR话单生成模块具体包括:
数据转换单元:用于将所述流记录帧Flow Record Frame和http报文分别转换为Rawflow文件和http记录文件;
精简和预处理单元:用于将所述Rawflow文件和http记录文件进行精简和预处理;
上传单元:用于将精简和预处理后的Rawflow文件和http记录文件上传到Hadoop集群架构中的Hadoop分布式文件***HDFS。
在一些实施例中,重要维度字段话单生成模块包括:
重要维度字段数据提取单元:用于从所述全量用户数据中提取重要维度字段的数据;
业务话单合成单元:用于将所述重要维度字段的数据合成业务话单。
在一些实施例中,所述重要维度字段至少包括连接时长、时延、速率、成功率;
所述连接时长为报文接收时间减去报文开始时间;
所述时延为连接三次握手成功的时间至接收到第一个get报文之间的时间差;
所述速率为单位时间的网络流量;
所述成功率为根据IP报文返回码所获知的识别成功次数占总次数的比例。
在一些实施例中,重要维度字段数据提取单元包括:
数据识别子单元:用于按照协议和访问类型对于所述全量用户数据中对应的字段进行识别;
数据发送子单元:用于按照预先设定的MapReduce模型中的规律将所述识别后的全量用户数据分发到Hadoop中的数据分析模块;
重要维度字段话单提取子单元:通过所述数据分析模块从所述识别后的全量用户数据中提取重要维度字段的话单。
在一些实施例中,所述数据分析模块包括Pig数据分析模块,和/或Hive数据分析模块。
从上面所述可以看出,本发明及其实施例提供的互联网真实质量监测方法和装置,可基于全量用户使用互联网的数据对互联网真实质量进行检测,同时可以解决海量的全量用户数据处理分析的问题,提高故障发现、处理、消除的效率。同时,本发明实施例可从多维度深层次挖掘数据生成话单,有助于掌握互联网多方面的真实质量,允许互联网质量监测方针对不同维度的质量问题提高互联网质量。
应当理解,本说明书所描述的多个实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种互联网真实质量监测方法,其特征在于,包括如下步骤:
采集经过互联网出口的全量用户数据;
将所述全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***HDFS;
在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单;
将所述原始呼叫直接记录CDR话单合成为重要维度字段话单;
分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流;将所述原始呼叫直接记录CDR话单合成为重要维度字段话单的步骤包括:
从所述全量用户数据中提取重要维度字段的数据;
将所述重要维度字段的数据合成业务话单;
所述重要维度字段至少包括连接时长、时延、速率、成功率;
所述连接时长为报文接收时间减去报文开始时间;
所述时延为连接三次握手成功的时间至接收到第一个get报文之间的时间差;
所述速率为单位时间的网络流量;
所述成功率为根据IP报文返回码所获知的识别成功次数占总次数的比例;
所述全量用户数据包括网络监控设备发出的流记录帧Flow Record Frame;所述采集经过互联网出口的全量用户数据的步骤具体包括:
通过采集服务器接收网络监控设备发出的流记录帧Flow Record Frame;
所述重要维度字段话单包括http业务话单;
采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单的步骤具体包括:
将所述流记录帧Flow Record Frame和http报文分别转换为Rawflow文件和http记录文件;
将所述Rawflow文件和http记录文件进行精简和预处理;
将精简和预处理后的Rawflow文件和http记录文件上传到Hadoop集群架构中的Hadoop分布式文件***HDFS。
2.根据权利要求1所述的方法,其特征在于,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单之后,还将所述原始呼叫直接记录CDR话单存储到分析服务器。
3.根据权利要求1所述的方法,其特征在于,从所述全量用户数据中提取重要维度字段的数据的步骤包括:
按照协议和访问类型对于所述全量用户数据中对应的字段进行识别;
按照预先设定的MapReduce模型中的规律将所述识别后的全量用户数据分发到Hadoop中的数据分析模块;
通过所述数据分析模块从所述识别后的全量用户数据中提取重要维度字段的话单。
4.根据权利要求3所述的方法,其特征在于,所述数据分析模块包括Pig数据分析模块,和/或Hive数据分析模块。
5.一种互联网真实质量监测装置,其特征在于,包括:
数据采集模块:用于采集经过互联网出口的全量用户数据;
数据上传模块:用于将所述全量用户数据上传到Apache Hadoop集群架构中的Hadoop分布式文件***HDFS;
原始呼叫直接记录CDR话单生成模块:用于在Apache Hadoop集群构架的Mapreduce计算框架中,采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单;
重要维度字段话单生成模块:用于将所述原始呼叫直接记录CDR话单合成为重要维度字段话单;
互联网真实质量获取模块:用于分析所述重要维度字段话单确定互联网真实质量;其中,所述全量用户数据指用户使用网络时产生的数据流;
重 要维度字段话单生成模块包括:
重要维度字段数据提取单元:用于从所述全量用户数据中提取重要维度字段的数据;
业务话单合成单元:用于将所述重要维度字段的数据合成业务话单;
所述重要维度字段至少包括连接时长、时延、速率、成功率;
所述连接时长为报文接收时间减去报文开始时间;
所述时延为连接三次握手成功的时间至接收到第一个get报文之间的时间差;
所述速率为单位时间的网络流量;
所述成功率为根据IP报文返回码所获知的识别成功次数占总次数的比例;
所述全量用户数据包括网络监控设备发出的流记录帧Flow Record Frame;所述数据采集模块具体包括:
流记录帧接收单元:用于通过采集服务器接收网络监控设备发出的流记录帧FlowRecord Frame;
所述重要维度字段话单包括http业务话单;
所述原始呼叫直接记录CDR话单生成模块具体包括:
数据转换单元:用于将所述流记录帧Flow Record Frame和http报文分别转换为Rawflow文件和http记录文件;
精简和预处理单元:用于将所述Rawflow文件和http记录文件进行精简和预处理;
上传单元:用于将精简和预处理后的Rawflow文件和http记录文件上传到Hadoop集群架构中的Hadoop分布式文件***HDFS。
6.根据权利要求5所述的装置,其特征在于,还包括原始呼叫直接记录话单存储模块:用于在采用深度包检测技术DPI将所述全量用户数据生成为原始呼叫直接记录CDR话单之后,还将所述原始呼叫直接记录CDR话单存储到分析服务器。
7.根据权利要求5所述的装置,其特征在于,重要维度字段数据提取单元包括:
数据识别子单元:用于按照协议和访问类型对于所述全量用户数据中对应的字段进行识别;
数据发送子单元:用于按照预先设定的MapReduce模型中的规律将所述识别后的全量用户数据分发到Hadoop中的数据分析模块;
重要维度字段话单提取子单元:通过所述数据分析模块从所述识别后的全量用户数据中提取重要维度字段的话单。
8.根据权利要求7所述的装置,其特征在于,所述数据分析模块包括Pig数据分析模块,和/或Hive数据分析模块。
CN201410383832.6A 2014-08-06 2014-08-06 一种互联网真实质量监测方法及装置 Active CN105337753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410383832.6A CN105337753B (zh) 2014-08-06 2014-08-06 一种互联网真实质量监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410383832.6A CN105337753B (zh) 2014-08-06 2014-08-06 一种互联网真实质量监测方法及装置

Publications (2)

Publication Number Publication Date
CN105337753A CN105337753A (zh) 2016-02-17
CN105337753B true CN105337753B (zh) 2019-06-28

Family

ID=55288068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410383832.6A Active CN105337753B (zh) 2014-08-06 2014-08-06 一种互联网真实质量监测方法及装置

Country Status (1)

Country Link
CN (1) CN105337753B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106332052B (zh) * 2016-08-30 2019-12-31 上海新炬网络技术有限公司 基于移动通信终端的微区域治安预警方法
CN108235368B (zh) * 2016-12-15 2021-04-23 中国电信股份有限公司 用于确定业务占用的无线资源的方法及装置
CN108430067A (zh) * 2017-02-13 2018-08-21 ***通信集团广东有限公司 一种基于xdr的互联网业务质量分析方法及***
CN107908748A (zh) * 2017-11-17 2018-04-13 南京感度信息技术有限责任公司 基于大数据的网站用户行为数据采集方法、***及应用
CN108093418B (zh) * 2017-12-18 2021-03-02 北京工业大学 一种基于k最近邻算法的话单信息挖掘通话预测、动态基站接入方法
CN108846708A (zh) * 2018-06-29 2018-11-20 中国联合网络通信集团有限公司 用户购买行为预测方法、装置、设备及存储介质
CN113055352A (zh) * 2019-12-27 2021-06-29 中兴通讯股份有限公司 Cdr分发方法、关联回填子***、电子设备及存储介质
CN112527783B (zh) * 2020-11-27 2024-05-24 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查***
CN115915290A (zh) * 2021-08-23 2023-04-04 中兴通讯股份有限公司 业务特征的提取方法、服务质量调度方法、设备、介质
CN115834342A (zh) * 2022-11-09 2023-03-21 博瑞得科技有限公司 一种基于cdr与dpi数据关联的用户感知故障定位方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102596A (zh) * 2007-07-09 2008-01-09 向杰 一种在用户侧产生呼叫详细记录的方法
CN102193917B (zh) * 2010-03-01 2014-03-26 ***通信集团公司 一种数据处理和查询方法和装置
CN102647734B (zh) * 2012-04-10 2014-12-03 重庆邮电大学 Lte网络s1接口控制面cdr合成方法及合成装置
CN103634774B (zh) * 2012-08-21 2018-08-14 中兴通讯股份有限公司 一种对无线侧本地流量进行计费的方法和装置
CN103793204A (zh) * 2012-10-29 2014-05-14 顺软科技发展(大连)有限公司 基于云计算的数据分析***src
CN103796227B (zh) * 2012-10-31 2017-11-10 中国电信股份有限公司 进行无线信号覆盖分析的方法和***
CN103226762B (zh) * 2013-04-17 2017-09-12 深圳东原电子有限公司 一种基于云计算平台的物流配送方法
CN103955507B (zh) * 2014-04-25 2017-08-11 中国联合网络通信集团有限公司 基于用户感知的预警方法及装置

Also Published As

Publication number Publication date
CN105337753A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN105337753B (zh) 一种互联网真实质量监测方法及装置
CN105930363B (zh) 一种基于html5网页的用户行为分析方法及装置
CN105933268B (zh) 一种基于全量访问日志分析的网站后门检测方法及装置
US7801985B1 (en) Data transfer for network interaction fraudulence detection
CN105490854B (zh) 实时日志收集方法、***和应用服务器集群
CN103220164B (zh) 数据完整性计分和网络可视化及用户体验监控
US9729563B2 (en) Data transfer for network interaction fraudulence detection
CN105577528B (zh) 一种基于虚拟机的微信公众号数据采集方法及装置
CN104168316B (zh) 一种网页访问控制方法、网关
CN111107423A (zh) 一种视频业务播放卡顿的识别方法和装置
CN102761449A (zh) 一种web服务性能分析***及方法和装置
CN109151464A (zh) 基于大数据流处理的iptv机顶盒故障实时检测方法
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及***
CN106559498A (zh) 风控数据收集平台及其收集方法
CN105357071B (zh) 一种网络复杂流量识别方法及识别***
Wang et al. A smart automated signature extraction scheme for mobile phone number in human-centered smart home systems
CN105530137B (zh) 流量数据分析方法及流量数据分析***
CN108965011A (zh) 一种基于智能网关深度报文分析***和分析方法
CN107948015B (zh) 一种服务质量分析方法、装置及网络***
Wang et al. Smart devices information extraction in home wi‐fi networks
CN103944779B (zh) 一种wap业务性能监测方法及***
CN108268370B (zh) 基于Referer和模板库匹配的网站质量分析方法、装置和***
CN107734534B (zh) 一种网络负荷评估方法及装置
CN103024767A (zh) 移动通信业务端到端性能评估方法及***
US10164819B2 (en) Correlating web traffic events to a web page session

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant