CN117579722A - 识别宽带多拨的方法、***、电子设备和存储介质 - Google Patents
识别宽带多拨的方法、***、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117579722A CN117579722A CN202311531680.5A CN202311531680A CN117579722A CN 117579722 A CN117579722 A CN 117579722A CN 202311531680 A CN202311531680 A CN 202311531680A CN 117579722 A CN117579722 A CN 117579722A
- Authority
- CN
- China
- Prior art keywords
- dialing
- group
- data
- temporary
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种识别宽带多拨的方法、***、电子设备和存储介质,涉及数据分析技术领域,该方法包括:对固网数据报文进行解析,得到解析数据,解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据;基于解析数据划分临时组,将同属一个多拨组的临时组确定为有效临时组;将同属一个多拨组的有效临时组进行合并,形成多拨组;按照预设周期对多拨组进行多拨组知识库的更新处理,根据多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。本申请可以解决多拨组识别困难的问题,降低了多拨组识别的难度。
Description
技术领域
本申请涉及数据分析技术领域,尤其是涉及一种识别宽带多拨的方法、***、电子设备和存储介质。
背景技术
宽带多拨是基于申请的多个宽带账号,使用支持多WAN口的企业路由器,多个WAN口可以同时接入多条宽带,通过负载均衡策略可以同时使用接入线路带宽,起到带宽叠加的效果。负载均衡策略一般是指基于五元组流的负载均衡。
由于某些APP应用在使用过程中数据传输采用短链接,比如一张图片对应一条短链接,而路由器按照链接进行负载均衡,所以同时产生的多条链接分到不同的WAN口,表现为在同一时刻一个应用的虚拟账号对应到不同的宽带账号以及这些宽带账号下出现上千个虚拟账号,这对数据分析造成较大干扰,并且将多拨组识别出来的难度较大。
发明内容
本申请的目的在于提供一种识别宽带多拨的方法、***、电子设备和存储介质,可以解决多拨组识别困难的问题,降低了多拨组识别的难度。
第一方面,本发明提供一种识别宽带多拨的方法,所述方法包括:
对固网数据报文进行解析,得到解析数据,所述解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据;
基于所述解析数据划分临时组,将同属一个多拨组的所述临时组确定为有效临时组;
将同属一个多拨组的有效临时组进行合并,形成多拨组;
按照预设周期对所述多拨组进行多拨组知识库的更新处理,根据所述多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。
在可选的实施方式中,基于所述解析数据划分临时组,将同属一个多拨组的所述临时组确定为有效临时组,包括:
将同一时间戳同一应用虚拟账号下的AD账号作为一个临时组进行分组;
计算同一个临时组下每个AD账号对应的应用虚拟账号数量所对应的计算偏差比例;
当所述偏差比例满足预设的偏差比例阈值,则认为该临时组是同属于一个多拨组;
将同属于一个多拨组的临时组称为有效临时组。
在可选的实施方式中,将同属一个多拨组的有效临时组进行合并,形成多拨组,包括:
将同属一个多拨组的有效临时组看作一个集合,构建集合之间的相交关系图;
基于构建的相交关系图,使用Tarjan算法获取互不相交的集合,将所有有效临时组经过合并形成多个互不相交的多拨组。
在可选的实施方式中,按照预设周期对所述多拨组进行多拨组知识库的更新处理,包括:
按照第一预设周期运行一次全量覆盖更新,一次运行后获取到整个多拨知识库;
按照第二预设周期运行一次增量补充更新,一次运行后将不在多拨知识库的多拨组补充到所述多拨组知识库,以进行多拨组知识库的覆盖更新处理。
在可选的实施方式中,根据所述多拨组知识库对日志数据进行打标,包括:
在日志数据中增加一个多拨判定字段,所述多拨判定字段用于标识是否属于多拨组下宽带账号产生的;
根据日志数据中宽带账号字段查询多拨组知识库,如果查询到则说明该条日志数据是多拨组产生的数据,则将所多拨判定字段置为第一标识,否则置为第二标识。
在可选的实施方式中,所述方法还包括:
对所述解析数据进行数据抽取和数据清理。
在可选的实施方式中,对所述解析数据进行数据抽取和数据清理,包括:
确定具有明显的短链接特点的应用名称和应用操作动作,从最近一周日志数据中根据应用名称和应用操作动作抽取数据,并筛选出同一时间戳同一虚拟账号下在多个AD账号出现的日志数据;
数剔除掉同一时间戳同一虚拟账号且同一五元组对应不同AD账号的数据。
第二方面,本发明提供一种识别宽带多拨的***,所述***包括:
解析模块,用于对固网数据报文进行解析,得到解析数据,所述解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据;
临时组确定模块,用于基于所述解析数据划分临时组,将同属一个多拨组的所述临时组确定为有效临时组;
多拨组确定模块,用于将同属一个多拨组的有效临时组进行合并,形成多拨组;
宽带多拨识别模块,用于按照预设周期对所述多拨组进行多拨组知识库的更新处理,根据所述多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现前述实施方式任一项所述的识别宽带多拨的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现前述实施方式任一项所述的识别宽带多拨的方法。
本申请提供的识别宽带多拨的方法、***、电子设备和存储介质,利用多拨场景下数据流的负载均衡特性有效判定临时组的同属关系,并利用图关系识别出完整的多拨组,最终积累生成多拨库,并进一步基于生成的多拨库对日志数据打标,为后续数据分析和业务处理扫清障碍。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种识别宽带多拨的方法的流程图;
图2为本申请实施例提供的一种整体拓扑方案图;
图3为本申请实施例提供的一种识别宽带多拨的***的结构图;
图4为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
将在同一个路由器下参与多拨的宽带账号称为一个多拨组,将同一时间戳同一虚拟账号对应的多个宽带账号作为一个临时组。目前,对于多拨组识别存在较大困难,因为存在以下情况:
1、同一个虚拟账号在不同时刻对应一组不完全相同的临时组。
2、同一个虚拟账号在不同时刻对应一组完全不同的临时组,在这种情况下就需要考虑可能是同一个应用虚拟账号在不同时刻分别通过不同的多拨组访问了互联网。
3、不同的应用虚拟账号在同一个多拨环境下,也会产生不完全相同的临时组。
4、考虑到应用虚拟账号和宽带账号存在关联错误的可能,同一个临时组下的AD账号不能直接认定属于同一个多拨组。
基于此,本申请实施例提供了一种识别宽带多拨的方法、***、电子设备和存储介质,可以解决多拨组识别困难的问题,降低了多拨组识别的难度。
本申请实施例提供了一种识别宽带多拨的方法,参见图1所示,该方法主要包括以下步骤:
步骤S110,对固网数据报文进行解析,得到解析数据,解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据。
在可选的实施方式中,为提升数据处理的准确性,可以对解析数据进行数据抽取和数据清理。具体的:
数据抽取:确定具有明显的短链接特点的应用名称和应用操作动作,从最近一周日志数据中根据应用名称和应用操作动作抽取数据,并筛选出同一时间戳同一虚拟账号下在多个AD账号出现的日志数据;
数据清理:数剔除掉同一时间戳同一虚拟账号且同一五元组对应不同AD账号的数据。
步骤S120,基于解析数据划分临时组,将同属一个多拨组的临时组确定为有效临时组。
在一种实施方式中,可以通过离线分析划分临时组,基于多拨的负载均衡特性判定临时组是否属于同一个多拨组。具体的,可以包括以下步骤1.1)至步骤1.4):
步骤1.1),将同一时间戳同一应用虚拟账号下的AD账号作为一个临时组进行分组;
步骤1.2),计算同一个临时组下每个AD账号对应的应用虚拟账号数量所对应的计算偏差比例;
步骤1.3)当偏差比例满足预设的偏差比例阈值,则认为该临时组是同属于一个多拨组;
步骤1.4),将同属于一个多拨组的临时组称为有效临时组。
在一种具体的示例中,可以计算同一个临时组下每个AD账号对应的应用虚拟账号数量,计算平均值和标准差,根据平均值和标准差计算偏差比例=标准差/平均值,允许的偏差比例=10%+(平均值位数-1)%(在实际应用中可以进行相应的调整),如果偏差比例小于等于允许的偏差比例,则认为该临时组是同属于一个多拨组。
步骤S130,将同属一个多拨组的有效临时组进行合并,形成多拨组。
在一种实施方式中,将同属一个多拨组的有效临时组进行合并,形成多拨组,可以包括以下步骤2.1)和步骤2.2):
步骤2.1),将同属一个多拨组的有效临时组看作一个集合,构建集合之间的相交关系图;
步骤2.2),基于构建的相交关系图,使用Tarjan算法获取互不相交的集合,将所有有效临时组经过合并形成多个互不相交的多拨组。
步骤S140,按照预设周期对多拨组进行多拨组知识库的更新处理,根据多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。
在一种实施方式中,按照预设周期对多拨组进行多拨组知识库的更新处理,可以包括以下步骤3.1)和步骤3.2):
步骤3.1),按照第一预设周期运行一次全量覆盖更新,一次运行后获取到整个多拨知识库;
步骤3.2),按照第二预设周期运行一次增量补充更新,一次运行后将不在多拨知识库的多拨组补充到多拨组知识库,以进行多拨组知识库的覆盖更新处理。
进一步,根据多拨组知识库对日志数据进行打标,可以包括以下步骤4.1)和步骤4.2):
步骤4.1),在日志数据中增加一个多拨判定字段,多拨判定字段用于标识是否属于多拨组下宽带账号产生的;
步骤4.2),根据日志数据中宽带账号字段查询多拨组知识库,如果查询到则说明该条日志数据是多拨组产生的数据,则将所多拨判定字段置为第一标识,否则置为第二标识。
在实际应用中,在日志数据中增加一个“是否多拨”字段(也即多拨判定字段),标识是否属于多拨组下宽带账号产生的。根据日志中宽带账号字段查询多拨组知识库,如果查询到则说明该条日志数据是多拨组产生的数据,则将“是否多拨”字段置为1(Y),否则置为0(N),第一标识和第二标识还可以选用其他的标识,此处仅作示例,不作具体限定。
本申请实施例还提供一种具体的执行方法,包括以下步骤S1至步骤S6:
步骤S1,数据解析。
对固网数据报文进行解析,获取到时间戳、AD账号、应用名称、应用操作动作、应用虚拟账号,将上述结构化数据输出到日志文件。
步骤S2,数据预处理。
数据抽取:首先确定具有明显的短链接特点的应用名称和应用操作动作,从最近一周日志数据中根据应用名称和应用操作动作抽取数据,并筛选出同一时间戳同一虚拟账号下在多个AD账号出现的日志数据。
数据清理:剔除掉同一时间戳同一虚拟账号且同一五元组对应不同AD账号的数据。
步骤S3,离线分析,划分临时组,并判定临时组是否属于同一个多拨组。
基于步骤S2筛选出的日志数据,将同一时间戳同一应用虚拟账号下的AD账号作为一个临时组进行分组,并利用多拨组的负载均衡特性判定该临时组是否同属于一个多拨组,将同属于一个多拨组的临时组称为有效临时组。
判定临时组是否同属于一个多拨组的判定方法如下:计算同一个临时组下每个AD账号对应的应用虚拟账号数量,计算平均值、标准差,计算偏差比例=标准差/平均值,允许的偏差比例=10%+(平均值位数-1)%,如果偏差比例小于等于允许的偏差比例,则认为该临时组是同属于一个多拨组。
步骤S4,离线分析,合并有效临时组,形成多拨组。
将经过判定同属于一个多拨组的有效临时组进行合并,合并的原则是只要有效临时组间存在交集则可以合成一个集合。最终的效果是,所有有效临时组经过合并形成多个互相不相交的多拨组。
合并有效临时组的具体方法如下:
1)将每个有效临时组看作一个集合,构建集合之间的相交关系图;
2)基于构建的相交关系图,使用Tarjan算法获取互不相交的集合。
步骤S5,生成多拨组知识库。
每月运行一次全量覆盖更新。即根据上一个月的数据,一次运行后获取到整个多拨知识库。
每周运行一次增量补充更新,即根据上一周的数据,一次运行后将不在多拨知识库的多拨组补充进来。
步骤S6,根据多拨组知识库,对日志数据打标。
在日志数据中增加一个“是否多拨”字段,标识是否属于多拨组下宽带账号产生的。根据日志中宽带账号字段查询多拨组知识库,如果查询到则说明该条日志数据是多拨组产生的数据,则将“是否多拨”字段置为1,否则置为0。
图2示出了一种整体拓扑方案图,下面结合图2,进一步详细描述本发明的实施例:
整个***需要现网在运行的汇聚分流设备一台,解析服务器一台、预处理服务器一台、数据库服务器一台。需要将现网路由器数据通过分流设备镜像,将镜像数据输出给解析服务器。实施过程需要如下步骤:
(1)原始数据分流
利用汇聚分流设备在路由器链路上进行数据分流,需要将特定APP应用的流量全部镜像。特定APP应用流量过滤可通过特征码规则和五元组规则进行下放。
(2)解析服务器搭建
在服务器上安装数据解析程序。生成的日志数据集使用kafka服务传输。
(3)预处理服务器搭建
在服务器上安装多拨组识别程序、数据打标程序。生成的日志数据集使用kafka服务传输。
(4)数据库服务器搭建
根据数据规模搭建数据库服务器,如果数据规模小,可以使用mysql;如果数据量较大,则需要搭建分布式存储***。
(5)启动数据解析程序、多拨组识别程序、数据打标程序。
启动数据解析程序,将固网数据报文进行解析,获取到时间戳、AD账号、应用名称、应用操作动作、应用虚拟账号。
启动多拨组识别程序,基于数据解析程序输出的日志基础上筛选出符合条件的日志数据进行离线分析,包括划分临时组并判定临时组是否属于同一个多拨组、合并有效临时组形成多拨组、定期运行积累多拨知识库。
启动数据打标程序,基于多拨组识别程序生成的多拨知识库,对所有日志数据进行打标,标识该条日志数据是否属于多拨场景下日志数据。
到此,一种识别宽带多拨的方法及***发明实施完毕。
上述数据解析程序主要负责网络数据报文解析,获取时间戳、宽带账号、应用名称、应用虚拟账号。其中,宽带账号是额外借助用户认证计费Radius报文关联获取的。
上述多拨组识别程序基于数据解析程序输出的日志基础上筛选出符合条件的日志数据进行离线分析,包括划分临时组并判定临时组是否属于同一个多拨组、合并有效临时组形成多拨组、定期运行积累多拨知识库。
上述数据打标程序基于多拨组识别程序生成的多拨知识库,对所有日志数据进行打标,标识该条日志数据是否属于多拨场景下日志数据。
基于上述方法实施例,本申请实施例还提供一种识别宽带多拨的***,参见图3所示,该***主要包括以下部分:
解析模块310,用于对固网数据报文进行解析,得到解析数据,解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据;
临时组确定模块320,用于基于解析数据划分临时组,将同属一个多拨组的临时组确定为有效临时组;
多拨组确定模块330,用于将同属一个多拨组的有效临时组进行合并,形成多拨组;
宽带多拨识别模块340,用于按照预设周期对多拨组进行多拨组知识库的更新处理,根据多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。
在一可行的实施方式中,上述解析模块310,还用于:
将同一时间戳同一应用虚拟账号下的AD账号作为一个临时组进行分组;
计算同一个临时组下每个AD账号对应的应用虚拟账号数量所对应的计算偏差比例;
当偏差比例满足预设的偏差比例阈值,则认为该临时组是同属于一个多拨组;
将同属于一个多拨组的临时组称为有效临时组。
在一可行的实施方式中,上述多拨组确定模块330,还用于:
将同属一个多拨组的有效临时组看作一个集合,构建集合之间的相交关系图;
基于构建的相交关系图,使用Tarjan算法获取互不相交的集合,将所有有效临时组经过合并形成多个互不相交的多拨组。
在一可行的实施方式中,上述宽带多拨识别模块340,还用于:
按照第一预设周期运行一次全量覆盖更新,一次运行后获取到整个多拨知识库;
按照第二预设周期运行一次增量补充更新,一次运行后将不在多拨知识库的多拨组补充到多拨组知识库,以进行多拨组知识库的覆盖更新处理。
在一可行的实施方式中,上述宽带多拨识别模块340,还用于:
在日志数据中增加一个多拨判定字段,多拨判定字段用于标识是否属于多拨组下宽带账号产生的;
根据日志数据中宽带账号字段查询多拨组知识库,如果查询到则说明该条日志数据是多拨组产生的数据,则将所多拨判定字段置为第一标识,否则置为第二标识。
在一可行的实施方式中,上述***还包括:数据预处理模块,用于:
对解析数据进行数据抽取和数据清理。
在一可行的实施方式中,对解析数据进行数据抽取和数据清理,包括:
确定具有明显的短链接特点的应用名称和应用操作动作,从最近一周日志数据中根据应用名称和应用操作动作抽取数据,并筛选出同一时间戳同一虚拟账号下在多个AD账号出现的日志数据;
数剔除掉同一时间戳同一虚拟账号且同一五元组对应不同AD账号的数据。
本申请实施例提供的识别宽带多拨的***,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,识别宽带多拨的***的实施例部分未提及之处,可参考前述识别宽带多拨的方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图4所示,为该电子设备的结构示意图,其中,该电子设备100包括处理器41和存储器40,该存储器40存储有能够被该处理器41执行的计算机可执行指令,该处理器41执行该计算机可执行指令以实现上述任一项识别宽带多拨的方法。
在图4示出的实施方式中,该电子设备还包括总线42和通信接口43,其中,处理器41、通信接口43和存储器40通过总线42连接。
其中,存储器40可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线42可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线42可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器41读取存储器中的信息,结合其硬件完成前述实施例的识别宽带多拨的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述识别宽带多拨的方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的识别宽带多拨的方法、***、电子设备和存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种识别宽带多拨的方法,其特征在于,所述方法包括:
对固网数据报文进行解析,得到解析数据,所述解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据;
基于所述解析数据划分临时组,将同属一个多拨组的所述临时组确定为有效临时组;
将同属一个多拨组的有效临时组进行合并,形成多拨组;
按照预设周期对所述多拨组进行多拨组知识库的更新处理,根据所述多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。
2.根据权利要求1所述的识别宽带多拨的方法,其特征在于,基于所述解析数据划分临时组,将同属一个多拨组的所述临时组确定为有效临时组,包括:
将同一时间戳同一应用虚拟账号下的AD账号作为一个临时组进行分组;
计算同一个临时组下每个AD账号对应的应用虚拟账号数量所对应的计算偏差比例;
当所述偏差比例满足预设的偏差比例阈值,则认为该临时组是同属于一个多拨组;
将同属于一个多拨组的临时组称为有效临时组。
3.根据权利要求2所述的识别宽带多拨的方法,其特征在于,将同属一个多拨组的有效临时组进行合并,形成多拨组,包括:
将同属一个多拨组的有效临时组看作一个集合,构建集合之间的相交关系图;
基于构建的相交关系图,使用Tarjan算法获取互不相交的集合,将所有有效临时组经过合并形成多个互不相交的多拨组。
4.根据权利要求1所述的识别宽带多拨的方法,其特征在于,按照预设周期对所述多拨组进行多拨组知识库的更新处理,包括:
按照第一预设周期运行一次全量覆盖更新,一次运行后获取到整个多拨知识库;
按照第二预设周期运行一次增量补充更新,一次运行后将不在多拨知识库的多拨组补充到所述多拨组知识库,以进行多拨组知识库的覆盖更新处理。
5.根据权利要求4所述的识别宽带多拨的方法,其特征在于,根据所述多拨组知识库对日志数据进行打标,包括:
在日志数据中增加一个多拨判定字段,所述多拨判定字段用于标识是否属于多拨组下宽带账号产生的;
根据日志数据中宽带账号字段查询多拨组知识库,如果查询到则说明该条日志数据是多拨组产生的数据,则将所多拨判定字段置为第一标识,否则置为第二标识。
6.根据权利要求1所述的识别宽带多拨的方法,其特征在于,所述方法还包括:
对所述解析数据进行数据抽取和数据清理。
7.根据权利要求6所述的识别宽带多拨的方法,其特征在于,对所述解析数据进行数据抽取和数据清理,包括:
确定具有明显的短链接特点的应用名称和应用操作动作,从最近一周日志数据中根据应用名称和应用操作动作抽取数据,并筛选出同一时间戳同一虚拟账号下在多个AD账号出现的日志数据;
数剔除掉同一时间戳同一虚拟账号且同一五元组对应不同AD账号的数据。
8.一种识别宽带多拨的***,其特征在于,所述***包括:
解析模块,用于对固网数据报文进行解析,得到解析数据,所述解析数据包括时间戳、AD账号、应用名称、应用操作动作和应用虚拟账号,并将解析数据所对应的结构化数据输出到日志数据;
临时组确定模块,用于基于所述解析数据划分临时组,将同属一个多拨组的所述临时组确定为有效临时组;
多拨组确定模块,用于将同属一个多拨组的有效临时组进行合并,形成多拨组;
宽带多拨识别模块,用于按照预设周期对所述多拨组进行多拨组知识库的更新处理,根据所述多拨组知识库对日志数据进行打标,并基于打标后的数据进行宽带多拨识别。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的识别宽带多拨的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的识别宽带多拨的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311531680.5A CN117579722A (zh) | 2023-11-16 | 2023-11-16 | 识别宽带多拨的方法、***、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311531680.5A CN117579722A (zh) | 2023-11-16 | 2023-11-16 | 识别宽带多拨的方法、***、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117579722A true CN117579722A (zh) | 2024-02-20 |
Family
ID=89863770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311531680.5A Pending CN117579722A (zh) | 2023-11-16 | 2023-11-16 | 识别宽带多拨的方法、***、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117579722A (zh) |
-
2023
- 2023-11-16 CN CN202311531680.5A patent/CN117579722A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113946461A (zh) | 一种故障根因分析的方法及装置 | |
CN108492150B (zh) | 实体热度的确定方法及*** | |
CN111580884A (zh) | 配置更新方法、装置、服务器和电子设备 | |
CN105933920A (zh) | 一种预测用户满意度的方法及装置 | |
CN107547671A (zh) | 一种url匹配方法及装置 | |
CN113220483A (zh) | 一种区块链共识主节点的切换方法及*** | |
US11075950B2 (en) | Generation of security policies for microsegmented computer networks | |
CN111917898B (zh) | 一种资源调度策略的调整方法及装置 | |
CN110570311A (zh) | 区块链的共识方法、装置及设备 | |
CN114401158A (zh) | 流量计费方法、装置、电子设备及存储介质 | |
CN116367102B (zh) | 自动切换短信路由的方法及装置 | |
CN117579722A (zh) | 识别宽带多拨的方法、***、电子设备和存储介质 | |
CN110138892B (zh) | 确定设备地域信息的方法及装置 | |
CN114997879B (zh) | 一种支付路由方法、装置、设备和存储介质 | |
CN116974805A (zh) | 根因确定方法、设备和存储介质 | |
CN117201365A (zh) | 流量确定方法、装置、电子设备及存储介质 | |
CN112818027B (zh) | 用户信用查询方法、装置、服务器和机器可读存储介质 | |
CN114205214B (zh) | 一种电力通信网络故障识别方法、装置、设备及存储介质 | |
CN110138720A (zh) | 网络流量的异常分类检测方法、装置、存储介质和处理器 | |
CN112860763B (zh) | 实时流数据处理方法、装置、计算机设备和存储介质 | |
CN112256658B (zh) | 日志记录的分流方法及装置、存储介质、电子装置 | |
CN113114538A (zh) | 一种心跳检测方法及装置 | |
CN110768904A (zh) | 电力通信网的业务通信检测方法、装置、终端及存储介质 | |
CN114286370B (zh) | 基站告警对用户感知业务影响的确定方法及装置 | |
CN110209955B (zh) | 业务分析方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |