CN111275453A - 一种物联网设备的行业识别方法及*** - Google Patents
一种物联网设备的行业识别方法及*** Download PDFInfo
- Publication number
- CN111275453A CN111275453A CN201811466893.3A CN201811466893A CN111275453A CN 111275453 A CN111275453 A CN 111275453A CN 201811466893 A CN201811466893 A CN 201811466893A CN 111275453 A CN111275453 A CN 111275453A
- Authority
- CN
- China
- Prior art keywords
- equipment
- identified
- xdr
- industry
- xdr record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003062 neural network model Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 230000006855 networking Effects 0.000 abstract description 9
- 210000004027 cell Anatomy 0.000 description 32
- 238000004891 communication Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种物联网设备的行业识别方法及***。方法包括:将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签;根据神经网络模型输出的行业类别标签,获取待识别设备的行业类别。本发明实施例提供的物联网设备的行业识别方法及***,通过将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,获取待识别设备的行业类别。解决了现有技术中在某些情况下运营商无法根据设备的APN或物联网卡的***识别设备所属的行业,并且,即使能够根据设备的APN或物联网卡的***识别设备所属的行业,也容易造成信息安全隐患的问题。
Description
技术领域
本发明实施例涉及物联网技术领域,尤其涉及一种物联网设备的行业识别方法及***。
背景技术
随着物联网的蓬勃发展,不少城市已经达到了物超人的状态,即城市中物联网所连接的设备数已超越了手机用户数,按照此趋势,连接进物联网的设备数将逐渐增多,而作为通信运营商,为了更好地对物联网进行管理,则需要对物联网所连接的各设备的业务质量、性能以及其对物联网的影响等进行掌握和了解,而为了掌握和了解上述的业务质量、性能以及影响,最核心和最关键的就是识别连接进物联网的各设备所属的行业。
现有技术中,识别连接进物联网的各设备所属的行业的方法为:通过各设备的物联网卡的***或所激活的接入点名称(Access Point Name,APN)识别各设备所属的行业。原因如下:若某企业有一批设备需要连接进物联网,则该企业的工作人员首先会从运营商处购买一批物联网卡,在购买时,运营商会将这一批物联网卡与一个APN进行关联;然后,工作人员将各物联网卡分配给对应的设备进行使用,以使得设备能够通过对应的物联网卡激活所关联的APN从而连接进物联网。需要说明的是,在购买时,若运营商被工作人员告知使用这一批物联网卡的设备所属的行业,则运营商会将其与APN进行关联,从而可以使得运营商根据设备的APN或物联网卡的***识别设备所属的行业。
但上述方法也存在一定的缺陷:
(1)对于工作人员所购买的一批物联网卡,当工作人员不告知使用这一批物联网卡的设备所属的行业时,运营商无法根据设备的APN或物联网卡的***识别设备所属的行业。
(2)即使能够根据设备的APN或物联网卡的***识别设备所属的行业,但由于APN或物联网卡的***涉及到设备的隐私信息,通过APN或物联网卡的***识别设备所属的行业时容易造成信息安全隐患。
发明内容
针对现有技术中存在的技术问题,本发明实施例提供一种物联网设备的行业识别方法及***。
第一方面,本发明实施例提供一种物联网设备的行业识别方法,包括:
将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;
根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
第二方面,本发明实施例提供一种物联网设备的行业识别***,包括:
输入模块,用于将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;
输出模块,用于根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种物联网设备的行业识别方法及***,通过将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,获取待识别设备的行业类别。解决了现有技术中在某些情况下运营商无法根据设备的APN或物联网卡的***识别设备所属的行业,并且,即使能够根据设备的APN或物联网卡的***识别设备所属的行业,也容易造成信息安全隐患的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种物联网设备的行业识别方法流程图;
图2为本发明实施例提供的一种物联网设备的行业识别的结构示意图;
图3为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
物联网即物物相连的互联网,其中,物指的是本发明实施例中的物联网设备,即连接进物联网的设备,物物相连指的是设备间存在通信与数据传输。通常,设备间的通信需要经过云端的管理平台进行数据传输,而传输通道通常就由运营商所提供。运营商在为物联网提供传输通道的同时,也需要对物联网进行管理,而为了对物联网进行管理,最核心和最关键的是识别连接进物联网的各设备所属的行业。现有技术中过各设备的物联网卡的***或所激活的APN识别各设备所属的行业,这样做的缺陷在于,在某些情况下运营商无法根据设备的APN或物联网卡的***识别设备所属的行业,并且,即使能够根据设备的APN或物联网卡的***识别设备所属的行业,通过此方法也容易造成信息安全隐患。
为了解决上述问题,本发明实施例提供一种物联网设备的行业识别方法,该方法可以应用于上述的物联网设备的行业识别场景。该方法对应的执行主体可以为具备相应功能的交换机、路由器、计算机终端或服务器等设备,也可以为独立设置的装置或模块,本发明实施例对此不作具体限定。为了便于说明,本发明实施例以执行主体为交换机为例,对本发明实施例提供的物联网设备的行业识别方法进行阐述。
图1为本发明实施例提供的一种物联网设备的行业识别方法流程图,如图1所示,该方法包括:
步骤101,将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到。
需要说明的是,待识别设备的外部数据表示(External Data Representation,XDR)记录流对应的行业类别标签也即待识别设备的行业类别标签,通过该标签可得知待识别设备的行业类别,样本XDR记录流的行业类别标签也即样本设备的行业类别标签,通过该标签可得知样本设备的行业类别。
进一步地,对待识别设备和样本设备进行说明,待识别设备为待进行行业识别的设备,样本设备为已知其行业类别的设备。其中,待识别设备的XDR记录流中包含多条XDR记录,每一条XDR记录指的是该待识别设备在一个时刻的信令及业务的详细记录,因此,待识别设备的XDR记录流也即该待识别设备在一个时间段内的信令及业务的详细记录流。需要说明的是,样本设备的样本XDR记录流与待识别设备的XDR记录流类似,此处不再赘述。
神经网络模型可以为长短期记忆网络模型和深度信念网络等,本发明实施例对其不作具体限定。可以理解的是,通过样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签可以对神经网络模型进行训练,以通过训练后的神经网络模型对待识别设备进行行业识别。
步骤102,根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
神经网络模型的数据流输出结果为待识别设备的XDR记录流对应的行业类别标签,由于样本设备的行业类别和行业类别标签的关联关系是已知的,因此,根据行业类别标签可获得该待识别设备的行业类别。
本发明实施例提供的方法,通过将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,获取待识别设备的行业类别。解决了现有技术中在某些情况下运营商无法根据设备的APN或物联网卡的***识别设备所属的行业,并且,即使能够根据设备的APN或物联网卡的***识别设备所属的行业,也容易造成信息安全隐患的问题。
在上述各实施例的基础上,作为一种可选实施例,本发明实施例对待识别设备的行业识别之前所需进行的准备工作进行说明。所述将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与所述XDR记录流对应的行业类别标签之前,还包括:
获取所述样本设备的行业类别,并对所述样本设备的样本XDR记录流设置对应的标签。
需要说明的是,为了训练神经网络模型以使得其能够识别待识别设备的行业类别,需要准确获取样本设备的行业类别,并对样本设备的样本XDR记录流设置对应的标签。
进一步地,可通过深度报文检测(Deep Packet Inspection,DPI)技术获取样本设备的行业类别,具体地,DPI技术的工作原理是在应用层中进行载荷匹配,根据不同的行业类别的流量对应的特征去识别对应的行业类别。
本发明实施例提供的方法,通过DPI技术获取样本设备的行业类别,从而为样本设备的样本XDR记录流设置对应的标签,大大提升了所训练的神经网络模型的准确率和精度,从而大大提升了设备的行业识别的准确率和精度。
在上述各实施例的基础上,作为一种可选实施例,本发明实施例对待识别设备的XDR记录流以及样本设备的样本XDR记录流的获取进行说明。所述待识别设备的XDR记录流以及所述样本设备的样本XDR记录流均基于深度报文检测技术从网络各接口处采集得到。
具体地,不仅可以通过DPI技术获取样本设备的行业类别,还可以通过DPI技术获取待识别设备的XDR记录流以及样本设备的样本XDR记录流。
进一步地,待识别设备的XDR记录流和样本设备的样本XDR记录流的获取方式类似,此处仅对待识别设备的XDR记录流的获取进行说明。具体地,在任一时刻,可从长期演进(Long Term Evolution,LTE)核心网采集到的S1-MME接口、S1-U接口,全球移动通信***(Global System For Mobile Communications,GSM)网络中的Gb接口、Gn接口采集该待识别设备的数据,然后,基于DPI技术对数据进行处理生成的一条XDR记录,从而可以依照上述步骤获取多个时刻的多条XDR记录,以组成XDR记录流。
在上述各实施例的基础上,作为一种可选实施例,本发明实施例对网络各接口进行说明。所述网络各接口包括S1-MME接口、S1U接口、Gb接口和Gn接口中任意一个或多个。
具体地,S1-MME接口、S1-U接口均为LTE核心网中的接口,另外,考虑到现有业务场景下,仍有大量的物联网业务应用承载在GSM网络,因此,同时采集了GSM网络中的Gb接口的数据,考虑到特定物联网业务应用所使用的网关使用了外省市网关的情况,采集Gn接口的数据。
在上述各实施例的基础上,作为一种可选实施例,本发明实施例对特征数据的选取进行说明。所述特征数据包括:不同速率比、总体速率均值、部分速率均值、不同距离划分比、总体距离均值、部分距离均值、所经过的小区数比、总体小区数均值、部分小区数均值中的任意一个或多个。
需要说明的是,用于神经网络模型训练的特征数据与进行行业识别的特征数据的选取需一致。
现有技术中,通常使用通信行业的惯用业务指标,例如位置更新频次、业务发起频次等区分用户,但在测试过程发现此类方法并不适用物联网设备的行业识别。其原因主要在于,物联网的各类行业设备,虽然设备业务流程上各有不同,但由于其通信模块或是使用了相同的通信模组,即使使用了不同的通信模组,也都是基于国际通行的第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)通信业务规范,造成无法从海量终端中把物联网设备与人网终端区分开来。尤其在基于GSM网络的物联网业务,这种现象更为普遍。
基于此,本发明实施例从时间维度、空间维度、速度三个物理学维度选取了特定时段小区数量、移动距离和速率这三类特征,其中,特定时段小区数量类特征包括所经过的小区数比、总体小区数均值和部分小区数均值;移动距离类特征包括不同距离划分比、总体距离均值和部分距离均值;速率类特征包括不同速率比、总体速率均值和部分速率均值。上述特征明显有别于传统的通信业务指标,可以更为贴切地描述物联网设备的日常行为模式。同时,上述特征可以基于XDR记录流计算获得,具有可行性。
以下对移动距离类特征中的不同距离划分比、总体距离均值和部分距离均值这三个特征的计算进行举例说明:
在本例中,若获取到了车辆5天内的XDR记录流,则根据每天内的XDR数据流计算该天内车辆移动的最远距离,假设第一天车辆的最远距离为10km,接下来四天车辆的最远距离依次为20km、50km、60km和40km,则将上述五个最远距离求取平均值作为总体距离均值,将后三天的三个最远距离求取平均值作为部分距离均值。而对于不同距离划分比的计算方法如下:
根据预先设定的距离等级来将每天车辆移动的最远距离进行评级,例如,将每天移动最远距离不大于5km评定为近距离,将每天移动最远距离大于5km且不大于20km评定为中距离,将每天移动最远距离大于20km评定为远距离,那么,对于该车辆来说,只有第一天和第二天的最远距离评定为中距离,其他三天的最远距离评定为远距离,那么此时,该车辆的不同距离划分比为(0,2/5,3/5)。
此处对一天内车辆移动的最远距离的计算进行说明:首先,获取该天内车辆的XDR记录流,即多条XDR记录,由于每一条XDR记录中均至少记录有时刻信息以及该车辆所处的小区信息,因此,可以通过小区信息确定该车辆所处的位置点,那么可根据多条XDR记录,获取车辆的多个位置点。然后,确定车辆所经过的所有小区,并确定所有小区的质心。随后,确定离质心最远的位置点A,再确定离A最远的位置点B,此时,A、B之间的距离即为车辆在该天内移动的最远距离。
以下对特定时段小区数量类特征中的所经过的小区数比、总体小区数均值和部分小区数均值这三个特征的计算进行举例说明:
在本例中,若获取到了车辆5天内的XDR记录流,则根据每天内的XDR数据流计算该天内车辆所经过的小区数量,假设第一天车辆所经过的小区数为10、接下来四天车辆所经过的小区数依次为20、50、60和40,则将上述五个小区数求取平均值作为总体小区数均值,将后三天的三个小区数求取平均值作为部分小区数均值。而对于所经过的小区数比的计算方法如下:
根据预先设定的小区数等级来将每天车辆所经过的小区数进行评级,例如,将每天所经过的小区数不大于5评定为数量低,将每天所经过的小区数大于5且不大于20评定为数量中等,将每天所经过的小区数大于20评定为数量高,那么,对于该车辆来说,只有第一天和第二天的所经过的小区数评定为数量中等,其他三天的所经过的小区数评定为数量高,那么此时,该车辆的所经过的小区数比为(0,2/5,3/5)。
以下对速率类特征中不同速率比、总体速率均值、部分速率均值这三个特征的计算进行举例说明:
在本例中,若获取到了车辆5天内的XDR记录流,则根据每天内的XDR数据流计算该天内车辆的最大速率,假设第一天车辆最大速率为10km/h、接下来四天车辆最大速率依次为20km/h、50km/h、60km/h和40km/h,则将上述五个最大速率求取平均值作为总体速率均值,将后三天的三个最大速率求取平均值作为部分速率均值。而对于不同速率比的计算方法如下:
根据预先设定的速率等级来将每天车辆的最大速率进行评级,例如,将每天的最大速率不大于5km/h评定为速率低,将每天车辆的最大速率大于5km/h且不大于20km/h评定为速率中等,将每天车辆的最大速率大于20km/h评定为速率高,那么,对于该车辆来说,只有第一天和第二天的速率评定为速率中等,其他三天的速率评定为速率高,那么此时,该车辆的不同速率比为(0,2/5,3/5)。
在上述各实施例的基础上,将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,包括:
将待识别设备的XDR记录流进行过滤以及清洗,生成目标XDR记录流;
将所述目标XDR记录流的特征数据输入至训练后的神经网络模型。
本发明实施例提供的方法,通过对待识别设备的XDR记录流进行过滤以及清洗以去除无用记录,节约了计算资源,提高了处理效率。
在上述各实施例的基础上,将待识别设备的XDR记录流进行过滤以及清洗,生成目标XDR记录流,包括:
对于待识别设备的XDR记录流中的每一XDR记录,若判定获知所述XDR记录中的APN字段不满足第一预设条件和/或不包含IMSI字段,则将所述XDR记录从待识别设备的XDR记录流中删除,并将剩余的XDR记录作为目标XDR记录流。
需要说明的是,一条可用的XDR记录中至少包含了APN字段和国际移动用户标识(International Mobile Subscriber Identity,IMSI)字段,其中APN字段为标识XDR记录对应的设备到底是物联网设备还是人网终端的字段,因此,此处的APN字段不满足第一预设条件指的是APN字段为标识人网终端的字段,若XDR记录不满足第一预设条件,则判定该XDR记录不可用,需删除。
而一条可用的XDR记录中必须包含IMSI字段,因此,若XDR记录中不包含IMSI字段,则判定该XDR记录不可用,需删除。
作为一个可选实施例,本发明实施例对神经网络模型的构建和训练进行说明:
(1)XDR记录流过滤以及清洗
获取XDR记录流,并对XDR记录流进行过滤以及清洗,过滤以及清洗过程在上述实施例中已详细说明,此处不再赘述。
(2)异常检测及标准化
提取过滤以及清洗后的XDR记录流的特征数据,再对特征数据进行异常检测,将异常特征数据进行删除,并对正常特征数据进行标准化,其中:
异常检测:对特征数据进行检测,验证其是否符合指标设计初衷和业务涵义。例如,检查特征数据是否存在异常,若一天的移动距离超过400km,即判定该特征数据异常,并删除。
数据标准化:根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。例如,特征数据A的值v基于A的平均值和标准差标准化,对值v标准化后的v’由下式计算得到:
z-score标准化(正太标准化)是基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。当x是一个矩阵时,采用z-score方法仍然是一个矩阵,在计算的过程中使用的均值及标准差使用的是每一列的均值与方差。
在具体实现过程中,当对原始数据的绘制离散图后,会出现少数的偏离值,偏离值的产生原因可能是极个别终端用户异常使用行为引起,这部分数据极个别,经确认属于非物联网业务终端使用,持续观察数天,偏离值始终为同一个IMSI产生。此类异常值虽然可以通过正则化的方法减少对分类模型的影响,但仍然会降低模型的准确性。为了解决该问题,将满足此类一天的移动距离超过400km的记录予以删除。
(3)建模样本集构建
在对XDR记录的特征数据进行异常判定和标准化后,为神经网络模型构建样本集。例如,构建数据样本包括正样本(60%)和负样本(40%)。
正样本为明确属于目标行业的典型应用连接样本。而负样本则为明确其行业归属不同于目标行业的应用连接样本。例如:对于车联网为目标行业的数据集来说,安吉星(apn=onstar)的连接就是正样本。而apn=sjrqyd这样抄表类的连接则作为负样本。
(4)训练集与验证集构建
将整个建模样本集随机按照70%,30%的比例划分为训练集和测试集。
现有车联网业务的有业务的活跃持卡量仍然不多,相对于千万级的人网用户来说几乎可以忽略不记。业务量偏少,造成车联网的样本数据在原始数据中极少,不能满足模型建模的要求。数据建模过程中,正样本和负样本占比偏差过大会造成模型的过拟合,样本数据测试模型的准确性虽然较高,但并能代表模型的真实准确性,过拟合的模型对于新数据的检出率较低。
所以,本发明实施例在模型数据的准备中,积攒了连续多天的样本数据,并对正样本数据和负样本数据尽可能地保持在一个相对均衡的数量。数据样本包括正样本(60%)和负样本(40%)。
模型建立后,利用已知的同属与车联网的连接样本(GL汽车)来对模型的正确分类能力进行验证。模型对于GL汽车样本的识别正确率可达78.6%,而对于已知非车联网应用(如:shdky)的样本,误判率仅为1.4%。由此可见,模型可以提供很好的识全率和识准率。
(5)模型建立
本步骤基于Tensorflow的深度学习***,完成神经网络分类模型的构建。
在构建模型后,进行模型参数调优。
a)在深度学习中,必须将神经元的传导以数学公式表示,而激活函数可以将上一层神经元信号传递到下一层。激活函数通常为非线性函数(常用的Sigmoid函数与ReLU函数),使得神经网络可以任意逼近非线性函数,这样神经网络可应用到众多的非线性模型中。
建模流程如下:
1、设定目标变量,定义训练与测试数据
本次建模的目标变量是车联网—安吉星,设定为1,其余APN为0;
训练集与测试集的划分:将数据随机划分为训练集与测试集,比例为70%:30%。为保证每次训练集与测试集数据保持一致,可设置随机数random_state。
2、定义层组成的网络(或模型),将输入映射到目标
建立输入层、隐藏层与输出层:本次共设置两个隐藏层。
3、模型训练:选择损失函数、优化器和需要监控的指标
定义损失函数loss:在深度学习中一般使用cross_entrpy(交叉熵);
优化器optimizer:设置训练时,在深度学习中使用adam优化器;
监控指标metrics:使用模型的准确性accuracy;
4、调用模型的fit方法在训练数据上进行迭代
使用模型fit方法进行数学与迭代。
b)模型调优
1、调整优化特征与维度
模型精度达不到要求往往是特征(指标)选择不够好。可从新增、删减和转换三个方面调整优化特征。
2、算法参数的调整
模型参数调整需要逐个指标调节,以便于观察每一次调整是否提升模型效果,可从模型的查全率(Recall)、查准率(Precision)、F1Score进行评价。
本次算法参数调整主要从神经元数目、epoch数目(训练周期)以及样本初始化方法等三个参数进行测试。选择2个参数组合:
参数一组合:神经元=500,epochs=20,初始化=uniform;
参数二组合:神经元=500,epochs=30,初始化=uniform;
结合验证集数据,可以得到对模型的评估指标,从而确定模型的最优参数,通过实验,确定的最有参数为:神经元=500,epochs=30,初始化=uniform。
图2为本发明实施例提供的一种物联网设备的行业识别的结构示意图,如图2所示,该***包括:
输入模块201,用于将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;输出模块202,用于根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
具体地,该***包括输入模块201和输出模块202。其中,输入模块201将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与所述XDR记录流对应的行业类别标签,输出模块202根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
本发明实施例提供的***,具体执行上述各方法实施例流程,具体请详见上述各方法实施例的内容,此处不再赘述。本发明实施例提供的***,通过将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,获取待识别设备的行业类别。解决了现有技术中在某些情况下运营商无法根据设备的APN或物联网卡的***识别设备所属的行业,并且,即使能够根据设备的APN或物联网卡的***识别设备所属的行业,也容易造成信息安全隐患的问题。
图3为本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种物联网设备的行业识别方法,其特征在于,包括:
将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;
根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
2.根据权利要求1所述的方法,其特征在于,将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与所述XDR记录流对应的行业类别标签之前,还包括:
获取所述样本设备的行业类别,并对所述样本设备的样本XDR记录流设置对应的标签。
3.根据权利要求1所述的方法,其特征在于,所述待识别设备的XDR记录流以及所述样本设备的样本XDR记录流均基于深度报文检测技术从网络各接口处采集得到。
4.根据权利要求3所述的方法,其特征在于,所述网络各接口包括S1-MME接口、S1U接口、Gb接口和Gn接口中任意一个或多个。
5.根据权利要求1所述的方法,其特征在于,所述特征数据包括:不同速率比、总体速率均值、部分速率均值、不同距离划分比、总体距离均值、部分距离均值、所经过的小区数比、总体小区数均值、部分小区数均值中的任意一个或多个。
6.根据权利要求1所述的方法,其特征在于,将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,包括:
将待识别设备的XDR记录流进行过滤以及清洗,生成目标XDR记录流;
将所述目标XDR记录流的特征数据输入至训练后的神经网络模型。
7.根据权利要求6所述的方法,其特征在于,将待识别设备的XDR记录流进行过滤以及清洗,生成目标XDR记录流,包括:
对于待识别设备的XDR记录流中的每一XDR记录,若判定获知所述XDR记录中的APN字段不满足第一预设条件和/或不包含IMSI字段,则将所述XDR记录从待识别设备的XDR记录流中删除,并将剩余的XDR记录作为目标XDR记录流。
8.一种物联网设备的行业识别***,其特征在于,包括:
输入模块,用于将待识别设备的XDR记录流的特征数据输入至训练后的神经网络模型,输出与待识别设备的XDR记录流对应的行业类别标签,所述神经网络模型为基于样本设备的样本XDR记录流的特征数据以及预先确定的样本XDR记录流的行业类别标签进行训练后得到;
输出模块,用于根据所述神经网络模型输出的行业类别标签,获取所述待识别设备的行业类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466893.3A CN111275453A (zh) | 2018-12-03 | 2018-12-03 | 一种物联网设备的行业识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466893.3A CN111275453A (zh) | 2018-12-03 | 2018-12-03 | 一种物联网设备的行业识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111275453A true CN111275453A (zh) | 2020-06-12 |
Family
ID=70999924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811466893.3A Pending CN111275453A (zh) | 2018-12-03 | 2018-12-03 | 一种物联网设备的行业识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275453A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235326A (zh) * | 2020-12-15 | 2021-01-15 | 长沙树根互联技术有限公司 | 物联网设备数据的解析方法、装置和电子设备 |
CN113079052A (zh) * | 2021-04-29 | 2021-07-06 | 恒安嘉新(北京)科技股份公司 | 模型训练、物联网数据识别方法、装置、设备及存储介质 |
CN114422619A (zh) * | 2020-10-12 | 2022-04-29 | ***通信集团广东有限公司 | 业务识别方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645806A (zh) * | 2009-09-04 | 2010-02-10 | 东南大学 | Dpi和dfi相结合的网络流量分类***及分类方法 |
CN105657001A (zh) * | 2015-12-28 | 2016-06-08 | 中国联合网络通信集团有限公司 | 一种分析通信大数据的方法及装置 |
CN107862468A (zh) * | 2017-11-23 | 2018-03-30 | 深圳市智物联网络有限公司 | 设备风险识别模型建立的方法及装置 |
CN108076475A (zh) * | 2016-11-17 | 2018-05-25 | ***通信有限公司研究院 | 一种数据处理方法及服务器 |
CN108173781A (zh) * | 2017-12-20 | 2018-06-15 | 广东宜通世纪科技股份有限公司 | Https流量识别方法、装置、终端设备及存储介质 |
CN108322354A (zh) * | 2017-01-18 | 2018-07-24 | ***通信集团河南有限公司 | 一种偷跑流量账户识别方法及装置 |
-
2018
- 2018-12-03 CN CN201811466893.3A patent/CN111275453A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645806A (zh) * | 2009-09-04 | 2010-02-10 | 东南大学 | Dpi和dfi相结合的网络流量分类***及分类方法 |
CN105657001A (zh) * | 2015-12-28 | 2016-06-08 | 中国联合网络通信集团有限公司 | 一种分析通信大数据的方法及装置 |
CN108076475A (zh) * | 2016-11-17 | 2018-05-25 | ***通信有限公司研究院 | 一种数据处理方法及服务器 |
CN108322354A (zh) * | 2017-01-18 | 2018-07-24 | ***通信集团河南有限公司 | 一种偷跑流量账户识别方法及装置 |
CN107862468A (zh) * | 2017-11-23 | 2018-03-30 | 深圳市智物联网络有限公司 | 设备风险识别模型建立的方法及装置 |
CN108173781A (zh) * | 2017-12-20 | 2018-06-15 | 广东宜通世纪科技股份有限公司 | Https流量识别方法、装置、终端设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
SAKTHI VIGNESH RADHAKRISHNAN 等: "GTID: A Technique for Physical Device and Device Type Fingerprinting", 《TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114422619A (zh) * | 2020-10-12 | 2022-04-29 | ***通信集团广东有限公司 | 业务识别方法、装置、设备及存储介质 |
CN114422619B (zh) * | 2020-10-12 | 2023-11-10 | ***通信集团广东有限公司 | 业务识别方法、装置、设备及存储介质 |
CN112235326A (zh) * | 2020-12-15 | 2021-01-15 | 长沙树根互联技术有限公司 | 物联网设备数据的解析方法、装置和电子设备 |
CN112235326B (zh) * | 2020-12-15 | 2021-03-16 | 长沙树根互联技术有限公司 | 物联网设备数据的解析方法、装置和电子设备 |
CN113079052A (zh) * | 2021-04-29 | 2021-07-06 | 恒安嘉新(北京)科技股份公司 | 模型训练、物联网数据识别方法、装置、设备及存储介质 |
CN113079052B (zh) * | 2021-04-29 | 2023-04-07 | 恒安嘉新(北京)科技股份公司 | 模型训练、物联网数据识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6918137B2 (ja) | 運転行為評価方法、装置及びコンピュータが読み取り可能な記憶媒体 | |
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN110147823B (zh) | 一种风控模型训练方法、装置及设备 | |
CN110659318B (zh) | 基于大数据的策略推送方法、***及计算机设备 | |
US20160180264A1 (en) | Retention risk determiner | |
CN111275453A (zh) | 一种物联网设备的行业识别方法及*** | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
CN109919781A (zh) | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 | |
CN109816043B (zh) | 用户识别模型的确定方法、装置、电子设备及存储介质 | |
CN109600336A (zh) | 存储设备、验证码应用方法和装置 | |
CN109145030B (zh) | 一种异常数据访问的检测方法和装置 | |
CN109063433B (zh) | 虚假用户的识别方法、装置及可读存储介质 | |
CN110619535B (zh) | 一种数据处理方法及其装置 | |
DE102015108296A1 (de) | Qualitätsvorhersage vernetzter Fahrzeuge | |
CN111064719B (zh) | 文件异常下载行为的检测方法及装置 | |
CN112308148A (zh) | 缺陷类别识别、孪生神经网络训练方法、装置及存储介质 | |
CN112437034A (zh) | 虚假终端检测方法和装置、存储介质及电子装置 | |
CN110852860A (zh) | 车辆维修报销行为异常检测方法、设备及存储介质 | |
CN108090040A (zh) | 一种文本信息分类方法及*** | |
CN106304084B (zh) | 信息处理方法及装置 | |
CN110851414B (zh) | 一种以聚类法进行边界数据分析的方法及其*** | |
CN107832925A (zh) | 互联网内容风险评价方法、装置及服务器 | |
CN112241820A (zh) | 资金流动中关键节点的风险识别方法、装置及计算设备 | |
CN111368858A (zh) | 用户满意度评估方法及装置 | |
CN115099934A (zh) | 一种高潜客户识别方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |
|
RJ01 | Rejection of invention patent application after publication |