CN111277433B - 基于属性网络表征学习的网络服务异常检测方法及装置 - Google Patents

基于属性网络表征学习的网络服务异常检测方法及装置 Download PDF

Info

Publication number
CN111277433B
CN111277433B CN202010042262.XA CN202010042262A CN111277433B CN 111277433 B CN111277433 B CN 111277433B CN 202010042262 A CN202010042262 A CN 202010042262A CN 111277433 B CN111277433 B CN 111277433B
Authority
CN
China
Prior art keywords
network
data
network service
attribute
information network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010042262.XA
Other languages
English (en)
Other versions
CN111277433A (zh
Inventor
王成
朱航宇
胡瑞鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010042262.XA priority Critical patent/CN111277433B/zh
Publication of CN111277433A publication Critical patent/CN111277433A/zh
Application granted granted Critical
Publication of CN111277433B publication Critical patent/CN111277433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • H04L43/55Testing of service level quality, e.g. simulating service usage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于属性网络表征学习的网络服务异常检测方法及装置,包括:获取初始网络服务数据,并基于其构建异质信息网络,获取节点属性集合;基于节点属性集合构建属性向量集,并根据属性向量集和异质信息网络构建属性信息网络;基于属性信息网络构建目标函数,并基于对其求解得到的网络表征学习要学习的节点对应向量构建属性信息网络中节点和与其对应的向量表征的映射关系;基于训练集数据训练得到异常检测模型,并根据异常检测模型计算测试集数据中每笔网络服务数据的异常概率。本发明增强了属性信息网络中节点的关联性,提高了异常检测模型的泛化能力,对检测异常、拦截异常和保护用户和企业的资金安全有更好的保障。

Description

基于属性网络表征学习的网络服务异常检测方法及装置
技术领域
本发明涉及网络服务异常检测技术领域,尤其涉及一种网络服务中属性网络表征学习异常检测方法及装置。
背景技术
目前随着网络服务业务的逐渐扩大,随之而生的欺诈手段也层出不穷,为了保障网络服务中金融机构和正常用户的业务安全,需要建立切实有效的网络服务异常检测***。
在网络服务中异常的信息中通常存在潜在的关联,基于知识图谱的异常检测主要是将“单点”的信息转换成“平面”的相互关联的网络结构,有效地分析复杂关系中存在的特定的潜在风险。近年来,网络表征学习在网络结构上挖掘数据之间的关联时表现出强有力的作用,解决了网络结构上大数据计算的困难,被广泛应用在市场营销、社区发现、异常检测等领域。然而,目前大多数涉及知识图谱的异常检测***往往关注于网络拓扑结构的深度挖掘,这无法适应网络服务数据的弱关联性,并忽视了现实***中被观察和记录的节点属性信息,例如网络服务数据中不仅有各种人际关系,还包含丰富的个人信息以及个人属性。此外,网络服务正常的数据往往是相互独立或与其他数据具有较低的关联性,单纯地挖掘网络拓扑结构上的联系,忽视其他丰富的语义信息,无法有效适用于网络服务场景中的异常检测任务,迫切需要融合丰富的节点属性和网络结构,进一步提升网络表征学习的性能。
通过以上研究发现,面向网络服务的异常检测的一个主要问题是分析复杂关系中存在的特定的潜在风险。传统检测方法审核过程缓慢,难以捕捉信息之间的关联关系,进而缺乏较好的泛化能力。一般的基于网络表征学习的异常检测手段,对于过于孤立的网络服务信息无法处理,在网络服务各种场景中普适性较弱。
发明内容
本发明所要解决的技术问题是传统网络服务中异常检测方法审核缓慢,难以捕捉信息之间的关联关系,缺乏较好的泛化能力,且现有基于网络表征学习的异常检测手段对于过于孤立的网络服务信息无法处理,在网络服务各种场景中普适性较弱。
为了解决上述技术问题,本发明提供了一种基于属性网络表征学习的网络服务异常检测方法,包括:
根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合;
基于所述节点属性集合构建属性向量集,根据所述属性向量集和所述异质信息网络构建属性信息网络;
基于所述属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建所述属性信息网络中节点和与其对应的向量表征的映射关系;
所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点的特征数据,并基于所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据所述异常检测模型计算所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率。
优选地,根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合包括:
在所述原始网络服务数据中划分出训练集数据和测试集数据,所述训练集数据和所述测试集数据构成初始网络服务数据;
对所述初始网络服务数据进行离散化处理,并对离散后的所述初始网络服务数据进行关系抽取,将关系抽取到的所有关联关系合并得到关系集合;
基于所述关系集合构建异质信息网络;
基于所述异质信息网络中的所有节点依次在所述原始网络服务数据中采集对应的节点属性,并针对所有节点及其对应的节点属性建立属性集合。
优选地,在所述原始网络服务数据中划分出训练集数据和测试集数据包括:
设置训练集时间窗口和测试集时间窗口;
基于所述训练集时间窗口在所述原始网络服务数据中划分出训练集数据;
基于所述测试集时间窗口在所述原始网络服务数据中划分出测试集数据;
其中,所述训练集时间窗口和所述测试集时间窗口为连续时间窗口,且所述训练集时间窗口时间上先于所述测试集时间窗口。
优选地,基于所述节点属性集合构建属性向量集,根据所述属性向量集和所述异质信息网络构建属性信息网络步骤包括:
对所述节点属性集合中的所有节点属性进行向量化,得到属性向量集;
根据所述属性向量集和所述异质信息网络构建属性信息网络。
优选地,基于所述属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建所述属性信息网络中节点和与其对应的向量表征的映射关系步骤包括:
基于预设采样方法对所述属性信息网络进行采样获取适于表征学习的完整采样数据;
基于所述属性信息网络以最大后验问题寻找最优向量表征形式获取目标函数;
基于所述采样数据,针对所述属性信息网络的网络结构设计结构得分函数,并针对所述属性信息网络的属性设计属性得分函数;
基于所述结构得分函数和属性得分函数对所述目标函数进行求解,得到网络表征学习要学习的节点对应向量;
基于所述网络表征学习要学习的节点对应向量设置所述属性信息网络中节点和对应向量的映射关系。
优选地,基于预设采样方法对所述属性信息网络进行采样获取适于表征学习的完整采样数据步骤包括:
通过随机游走采样对所述属性信息网络进行采样,得到正常采样数据;
通过负采样对所述正常采样数据进行采样,得到负采样数据;
基于所述正常采样数据和所述负采样数据获取适于表征学习的完整采样数据。
优选地,基于所述结构得分函数和属性得分函数对所述目标函数进行求解,得到网络表征学习要学习的节点对应向量步骤包括:
基于所述结构得分函数和属性得分函数,并通过随机梯度下降算法对所述目标函数进行求解,得到网络表征学习要学习的节点对应向量。
优选地,所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点的特征数据,并基于所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据所述异常检测模型计算所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率步骤包括:
基于所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点与其一阶邻居的向量相似度,作为对应所述网络服务单号类型节点的微观特征;
基于所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点与其二阶邻居的向量相似度,作为对应所述网络服务单号类型节点的宏观特征;
将所述属性信息网络中的每个网络服务单号类型节点以及其对应的微观特征和宏观特征作为新网络服务数据;
将所述新网络服务数据中的训练集数据导入预设分类器进行二分类训练得到异常检测模型,并将所述新网络服务数据中的测试集数据输入所述异常检测模型得到所述测试集数据中每笔网络服务数据的异常概率。
优选地,所述预设分类器为XGBoost分类器。
为了解决上述技术问题,本发明提供了一种基于属性网络表征学习的网络服务异常检测装置,包括依次连接的异质信息网络构建模块、属性信息网络构建模块、映射关系构建模块和异常概率计算模块;
所述异质信息网络构建模块,用于根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合;
所述属性信息网络构建模块,用于基于所述节点属性集合构建属性向量集,根据所述属性向量集和所述异质信息网络构建属性信息网络;
所述映射关系构建模块,用于基于所述属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建所述属性信息网络中节点和与其对应的向量表征的映射关系;
所述异常概率计算模块,用于所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点的特征数据,并基于所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据所述异常检测模型计算所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明实施例提供的基于属性网络表征学习的网络服务异常检测方法,通过对异质信息网络中所有节点对应的节点属性进行采集,再结合异质信息网络获取属性信息网络,属性信息网络在已有网络表征学习算法的基础上引入节点属性,形成属性网络表征学习算法得到属性信息网络中节点对应的向量表征,实现自动从数据中抽取潜在关联特征,减少了***对业务知识的依赖程度;同时本方法中向量表征包含了更丰富的语义信息,更适合网络服务场景中的低关联数据。进一步针对已得到的向量表征分别从宏观角度和微观角度构造特征,并将宏观特征和微观特征输入二分类模型进行训练和测试,得到网络服务数据的异常概率;对比传统的方法,本方法从宏观和微观角度对网络服务数据进行刻画,具有更高的准确性和鲁棒性。
本发明的其它特征和优点将在随后的说明书中阐述,并且部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法的流程示意图;
图2示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法的过程示意图;
图3示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法中属性信息网络示例图;
图4示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法中HIN2Vec神经网络模型示意图;
图5示出了本发明实施例二基于属性网络表征学习的网络服务异常检测装置结构示意图;
图6示出了本发明实施例四终端的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
网络服务在电子商务、电子政务、公司业务流程电子化等应用领域有广泛的应用,被业内人士奉为互联网的下一个重点。随着互联网的迅速发展,各种传统的线下业务逐渐转至线上场景,得到迅速发展。网络服务的繁荣增长带来大量的电子商务数据,同时随之而生的欺诈手段也大层出不穷。其中,网络服务中的借贷业务在全球尤其是中国发展迅速,2018年中国网络借贷累计成交量突破8万亿大关,上升了15.37个百分点。再者中国网络服务的阴暗面--“网络灰产”从业人员已超过150万,呈现出专业化、团伙化、地域化等特点,这些不法分子非法攫取利益,伤害了正常用户的利益,其市场规模高达千亿级别。网络服务中的异常主要有中介***、团伙作案、机器行为、账户盗用、身份冒用和串联交易等。其中,身份冒用是比较常见的网络服务异常,它是指用户对提供的个人身份、财产证明等材料进行造假,甚至采用欺骗等违法手段获取他人信息,进而冒充他人身份骗贷。
为保障网络服务中金融机构和正常用户的业务安全,需要建立切实有效的网络服务异常检测***。但传统检测方法审核过程缓慢,难以捕捉信息之间的关联关系,进而缺乏较好的泛化能力,而一般的基于网络表征学习的异常检测手段,对于过于孤立的网络服务信息无法处理,在网络服务各种场景中普适性较弱。
实施例一
为解决现有技术中存在的技术问题,本发明实施例提供了一种基于属性网络表征学习的网络服务异常检测方法。
图1示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法的流程示意图;图2示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法的过程示意图;参考图1和图2所示,本发明实施例基于属性网络表征学习的网络服务异常检测方法包括如下步骤。
步骤S101,根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合。
具体地,获取原始网络服务数据,基于测试需求设置训练集时间窗口和测试集时间窗口,以用于在原始网络服务数据中划分出训练集数据和测试集数据。其中训练集时间窗口和测试集时间窗口均为连续时间窗口,且为避免时间穿越问题,应确保所有训练集数据中的网络服务数据的发生时间均早于任意测试集数据中的网络服务数据的发生时间,即设置的训练集时间窗口时间上先于测试集时间窗口。优选地,一般情况下设置训练集时间窗口的大小为半年,测试集时间窗口的大小为三天,且训练集时间窗口与测试集时间窗口是连续的时间段。训练集时间窗口和测试集时间窗口设置完成后,基于训练集时间窗口在原始网络服务数据中划分出训练集数据,并基于测试集时间窗口在原始网络服务数据中划分出测试集数据,并使得训练集数据和测试集数据构成初始网络服务数据。
需要说明的是,在对训练集时间窗口和测试集时间窗口进行设置时需注意,若设置较大的训练集时间窗口将会导致网络服务数据较多,此时就降低本方法的检测速度;同时设置较大的测试集时间窗口需要累积一定时间段的网络服务数据才进行检测,将会带来较长的结果等待时间;虽然提高训练集时间窗口和测试集时间窗口的大小的均带来时间上的损耗,但会一定程度上提升方法性能,因此在训练集时间窗口和测试集时间窗口的设置中需根据原始网络服务数据以及测试需求进行设置。
而后对初始网络服务数据进行离散化处理,并对离散后的初始网络服务数据进行关系抽取,将关系抽取到的所有关联关系合并得到关系集合。进一步,从初始网络服务数据中筛选出可利用的原始字段(例如表1),若某字段为连续型取值,针对该字段制定离散化规则,将取值离散化降低数据精度;例如本实施例将金额依据不同区间划分为有限个类别;将时间精确到秒为单位等。进一步将初始网络服务数据划分为单号与实体两种类型,实体为初始网络服务数据中除去单号以外的具有独立意义的其它数据,例如:手机号、身份证号、公司名称、地址等。针对一笔网络服务数据,将其单号a和任一实体s视作存在关联关系,其关系类型r为实体s的类型。针对离散后的初始网络服务数据中所有的数据进行关系抽取,并将所有关联关系(a,s,r)进行合并得到关系集合A。
表1可利用原始字段
Figure GDA0002802669100000071
获取初始网络服务数据的关系集合A后,基于关系集合A构建异质信息网络HIN,即HIN=(V,E,R),其中V是节点集,E是边集,R是关系集。异质信息网络HIN的构建过程包括:针对关系集合A中的每一关联关系(a,s,r),首先将a和s加入节点集V,而后将该关联关系(a,s,r)视作(源节点,目的节点,关系)加入边集E,最后将r加入关系集R,
Figure GDA0002802669100000072
×R×V。
最后基于异质信息网络中的所有节点依次在原始网络服务数据中采集对应的节点属性,并针对所有节点及其对应的节点属性建立属性集合。进一步地,结合原始网络服务数据中非实体和非单号的数据以及异质信息网络HIN,针对节点集V中每一个节点选择出与节点具有从属关系的数据为节点属性。例如本实施例中详细地址(精确得到门牌号)作为一种实体,将详细地址所在行政区域(省、市、区)作为其属性;手机号作为一种实体,将手机号所有人姓名和手机号所在运营商作为其属性。同时还将异质信息网络HIN中任一节点的度(一阶邻居的数量)作为该节点的属性。而后针对异质信息网络HIN中的所有节点及其对应的节点属性建立属性集合Θ={(v,θ)}v∈V
步骤S102,基于节点属性集合构建属性向量集,根据属性向量集和异质信息网络构建属性信息网络。
具体地,对节点属性集合中的所有节点属性进行向量化,得到属性向量集;并根据属性向量集和异质信息网络构建属性信息网络。进一步地,针对属性集合Θ中的每一个元素(v,θ),将θ随机初始化为一个d维的属性向量
Figure GDA0002802669100000081
(d与后续网络表征学习的向量维度相同),即异质信息网络HIN中每一个节点v,均依附若干个属性向量
Figure GDA0002802669100000082
而后将所有属性向量
Figure GDA0002802669100000083
加入集合
Figure GDA0002802669100000084
得到属性向量集。其中,不同的属性值不能对应相同的属性向量。而后基于异质信息网络HIN和属性向量集建立属性信息网络AHIN,即
Figure GDA0002802669100000085
其中V和R与异质信息网络HIN中的V和R相同;具体针对属性信息网络AHIN中E的每一元素(a,s,r)和属性向量集分别得到节点a和s对应的属性向量
Figure GDA0002802669100000086
Figure GDA0002802669100000087
将(a,
Figure GDA0002802669100000088
s,
Figure GDA0002802669100000089
r)视作属性信息网络中的边加入边集E,
Figure GDA00028026691000000810
图3示出了本发明实施例一基于属性网络表征学习的网络服务异常检测方法中属性信息网络示例图。
步骤S103,基于属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建属性信息网络中节点和与其对应的向量表征的映射关系。
具体地,通过随机游走采样对属性信息网络进行采样,得到正常采样数据L(x,y,r);再通过负采样对先前得到的正常采样数据进行采样,得到负采样数据;正常采样数据和负采样数据的获取以便获取适用于属性网络表征学习的完整采样数据。完整采样数据的数据格式为<节点1,节点1对应属性向量,节点2,节点2对应属性向量,节点1和节点2之间的边类型,节点1和节点2之间的边类型是否正确>,并将上述数据格式定义为<x,
Figure GDA0002802669100000091
y,
Figure GDA0002802669100000092
r,L(x,y,r)>。其中L(x,y,r)为1时表示节点x和节点y之间的边类型r正确,;L(x,y,r)为0时则表示节点x和节点y之间的边类型r不正确。负采样是指对任何一个正常采样数据L(x,y,r),通过随机从属性信息网络HIN的节点集V中随机选择x’或y’对应地替换x或y中的一个值,也可以随机从属性信息网络AHIN的关系集R中随机选择r’替换r的值。注意L(x,y,r)为0的数据只能通过负采样得到。
其次基于属性信息网络以最大后验问题寻找最优向量表征形式获取目标函数。进一步在属性网络表征学习中,本实施例同时保留网络结构和节点属性的近似性,并在给定属性信息网络AHIN的情况下以最大后验(MAP)问题寻找最优向量表征的形式给出本实施例的目标函数:
Figure GDA0002802669100000093
其中x为网络表征学习要学习得到的节点对应向量,r为网络表征学习要学习得到的关系对应向量,S为属性信息网络AHIN的网络结构,Θ为属性信息网络AHIN的节点属性。由于p(S,Θ)与x和r无关,因此p(S,Θ)是常数项。为了简化计算,本实施例假设不存在先验知识,因此p(x,r)是常数项,可以在优化过程中忽略。进一步地,假设S和Θ相互独立,目标函数可简化为:
argmaxx,rp(x,r|S,Θ)=argmaxx,rp(S|x,r)p(Θ|x,r) (2)
而后基于上述得到的完整采样数据,针对属性信息网络的网络结构设计结构得分函数,并针对属性信息网络的属性设计属性得分函数。进一步地,受到已有算法HIN2Vec的启发,本实施例针对属性信息网络的网络结构设计如下结构得分函数:
Figure GDA0002802669100000094
其中
Figure GDA0002802669100000095
如图4所示,HIN2Vec模型是一个二分类神经网络模型,WX、WY、WR分别代表神经网络中的参数,函数f01()是一个将输入向量每一个元素严格限制为0或1的标准化函数。又进一步地,定义一个双射映射函数
Figure GDA0002802669100000096
f映射函数为一个线性映射关系
Figure GDA0002802669100000097
其实现了节点集V中节点v到属性集
Figure GDA0002802669100000101
中属性
Figure GDA0002802669100000102
所处向量空间的映射关系,
Figure GDA0002802669100000103
为节点v在属性网络表征学习得到向量表征。对任一节点的属性,定义其服从多元正态分布,可得到如下属性得分函数:
Figure GDA0002802669100000104
其中,N(·)是一个多元正态分布函数,α是一个取决于正态分布方差大小的常数,I是单位矩阵。
再者基于结构得分函数和属性得分函数对目标函数进行求解,得到网络表征学习要学习的节点对应向量。进一步地,基于结构得分函数(3)和属性得分函数(4)可将目标函数(2)等价为:
Figure GDA0002802669100000105
其中,β为一个取值范围处于区间[0,1]的超参数,决定了节点属性对网络结构的影响程度。而后应用随机梯度下降算法(SGD)对公式(5)进行求解最优的x、r、W和b,其中x即为所求的网络表征学习要学习的节点对应向量。最后基于网络表征学习要学习的节点对应向量设置属性信息网络中节点和对应向量的映射关系
Figure GDA0002802669100000106
步骤S104,属性信息网络中节点和与其对应的向量表征的映射关系计算属性信息网络中每个网络服务单号类型节点的特征数据,并基于属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据异常检测模型计算属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率。
具体地,首先属性信息网络中节点和与其对应的向量表征的映射关系计算属性信息网络中每个网络服务单号类型节点的特征数据。进一步地,在属性信息网络AHIN中,一个网络服务单号的一阶邻居对应网络服务单号所在网络服务数据的若干字段,即其一阶邻居的组合可视为该网络服务单号所对应的网络服务数据。从微观的角度本方法引入网络服务单号和一阶邻居的向量相似度作为微观特征,重新表示网络服务单号与其一阶邻居之间的关系,通过一致性验证来判断一个网络服务单号的异常风险。比如一个的公司电话和公司地址在多笔正常网络服务数据中多次出现,当该公司电话与另一个公司地址一同出现在一笔网络服务数据中时就成了一个风险点,在微观特征中体现为向量相似度异于正常网络服务数据对应的向量相似度。因此需要基于属性信息网络中节点和与其对应的向量表征的映射关系
Figure GDA0002802669100000111
计算属性信息网络中每个网络服务单号类型节点与其一阶邻居的向量相似度(欧氏距离),作为对应网络服务单号类型节点的微观特征。进一步地,面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下公式所示:
Figure GDA0002802669100000112
进一步地,在属性信息网络AHIN中一个网络服务单号的二阶邻居对应与该网络服务单号存在相同字段的其他网络服务单号,即其二阶邻居的组合可视为该网络服务单号与相近的网络服务数据的关系。从宏观的角度本方法引入网络服务单号和二阶邻居的向量相似度作为宏观特征,重新表示网络服务单号与其二阶邻居之间的关系,通过团伙信息来判断一个网络服务单号的异常风险。比如有些异常中组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的,在宏观特征中体现为网络服务单号与二阶邻居的向量相似度远小于正常网络服务数据对应的向量相似度。因此基于属性信息网络中节点和与其对应的向量表征的映射关系计算属性信息网络中每个网络服务单号类型节点与其二阶邻居的向量相似度,作为对应网络服务单号类型节点的宏观特征。将属性信息网络中的每个网络服务单号类型节点以及其对应的微观特征和宏观特征作为新网络服务数据。
在获取网络服务单号类型节点的微观特征和网络服务单号类型节点的宏观特征后,将新网络服务数据中的训练集数据导入预设分类器进行二分类训练得到异常检测模型,并将新网络服务数据中的测试集数据输入异常检测模型得到测试集数据中每笔网络服务数据的异常概率。进一步地,基于步骤S101获取的训练集数据和测试集数据对应划分新网络服务数据的训练集数据和测试集数据,进一步也即将训练集数据Btrain和测试集数据Btest按上述计算方式以宏观特征和微观特征代替原始数据。将训练集数据Btrain导入XGBoost分类器进行二分类训练得到的异常检测模型M,而后将测试数据Btest输入异常检测模型M,得到测试集数据中每笔网络服务数据的异常概率。
而后可根据原始网络服务数据类型以及工作经验设置阈值,并将获得的测试集数据中每笔网络服务数据的异常概率与阈值进行对比,异常概率大于阈值的视为异常,小于的视为正常行为,以对获取的异常概率进行利用。
本发明在于克服传统的异常检测方法针对网络服务场景数据孤立的乏力性,增加异常检测***对网络服务场景下的各种数据适应能力,引入节点属性增强了属性信息网络中节点的关联性,提高了异常检测模型的泛化能力,对检测异常、拦截异常和保护用户和企业的资金安全有更好的保障。
实施例二
为解决现有技术中存在的技术问题,本发明实施例提供了一种虚拟被动行走机器人的速度调节装置。
图5示出了本发明实施例二基于属性网络表征学习的网络服务异常检测装置结构示意图;参考图5所示,本发明实施例基于属性网络表征学习的网络服务异常检测装置包括依次连接的异质信息网络构建模块、属性信息网络构建模块、映射关系构建模块和异常概率计算模块;
异质信息网络构建模块用于根据原始网络服务数据获取初始网络服务数据,基于初始网络服务数据构建异质信息网络,并基于异质信息网络中的所有节点在原始网络服务数据中获取节点属性集合;
属性信息网络构建模块用于基于节点属性集合构建属性向量集,根据属性向量集和异质信息网络构建属性信息网络;
映射关系构建模块用于基于属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建属性信息网络中节点和与其对应的向量表征的映射关系;
异常概率计算模块用于属性信息网络中节点和与其对应的向量表征的映射关系计算属性信息网络中每个网络服务单号类型节点的特征数据,并基于属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据异常检测模型计算属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率。
本发明实施例提供的基于属性网络表征学习的网络服务异常检测装置,通过对异质信息网络中所有节点对应的节点属性进行采集,再结合异质信息网络获取属性信息网络,属性信息网络在已有网络表征学习算法的基础上引入节点属性,形成属性网络表征学习算法得到属性信息网络中节点对应的向量表征,实现自动从数据中抽取潜在关联特征,减少了***对业务知识的依赖程度;同时本装置中向量表征包含了更丰富的语义信息,更适合网络服务场景中的低关联数据。进一步针对已得到的向量表征分别从宏观角度和微观角度构造特征,并将宏观特征和微观特征输入二分类模型进行训练和测试,得到网络服务数据的异常概率;对比传统的方法,本装置从宏观和微观角度对网络服务数据进行刻画,具有更高的准确性和鲁棒性。
实施例三
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种存储介质,其存储有计算机程序,该计算机程序被处理器执行时可实现实施例一中基于属性网络表征学习的网络服务异常检测方法中的所有步骤。
基于属性网络表征学习的网络服务异常检测方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与实施例一相同,在此不在对其进行赘述。
需要说明的是:存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例四
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种终端。
图6示出了本发明实施例四终端的结构示意图,参照图6所示,本实施例终端包括相互连接的处理器及存储器;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使终端执行时可实现实施例一基于属性网络表征学习的网络服务异常检测方法中的所有步骤。
基于属性网络表征学习的网络服务异常检测方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与实施例一相同,在此不在对其进行赘述。
需要说明的是,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。同理处理器也可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于属性网络表征学习的网络服务异常检测方法,包括:
根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合;
基于所述节点属性集合构建属性向量集,根据所述属性向量集和所述异质信息网络构建属性信息网络;
基于所述属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建所述属性信息网络中节点和与其对应的向量表征的映射关系;
所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点的特征数据,并基于所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据所述异常检测模型计算所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率。
2.根据权利要求1所述的方法,其特征在于,根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合包括:
在所述原始网络服务数据中划分出训练集数据和测试集数据,所述训练集数据和所述测试集数据构成初始网络服务数据;
对所述初始网络服务数据进行离散化处理,并对离散后的所述初始网络服务数据进行关系抽取,将关系抽取到的所有关联关系合并得到关系集合;
基于所述关系集合构建异质信息网络;
基于所述异质信息网络中的所有节点依次在所述原始网络服务数据中采集对应的节点属性,并针对所有节点及其对应的节点属性建立属性集合。
3.根据权利要求2所述的方法,其特征在于,在所述原始网络服务数据中划分出训练集数据和测试集数据包括:
设置训练集时间窗口和测试集时间窗口;
基于所述训练集时间窗口在所述原始网络服务数据中划分出训练集数据;
基于所述测试集时间窗口在所述原始网络服务数据中划分出测试集数据;
其中,所述训练集时间窗口和所述测试集时间窗口为连续时间窗口,且所述训练集时间窗口时间上先于所述测试集时间窗口。
4.根据权利要求1所述的方法,其特征在于,基于所述节点属性集合构建属性向量集,根据所述属性向量集和所述异质信息网络构建属性信息网络步骤包括:
对所述节点属性集合中的所有节点属性进行向量化,得到属性向量集;
根据所述属性向量集和所述异质信息网络构建属性信息网络。
5.根据权利要求1所述的方法,其特征在于,基于所述属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建所述属性信息网络中节点和与其对应的向量表征的映射关系步骤包括:
基于预设采样方法对所述属性信息网络进行采样获取适于表征学习的完整采样数据;
基于所述属性信息网络以最大后验问题寻找最优向量表征形式获取目标函数;
基于所述采样数据,针对所述属性信息网络的网络结构设计结构得分函数,并针对所述属性信息网络的属性设计属性得分函数;
基于所述结构得分函数和属性得分函数对所述目标函数进行求解,得到网络表征学习要学习的节点对应向量;
基于所述网络表征学习要学习的节点对应向量设置所述属性信息网络中节点和对应向量的映射关系。
6.根据权利要求5所述的方法,其特征在于,基于预设采样方法对所述属性信息网络进行采样获取适于表征学习的完整采样数据步骤包括:
通过随机游走采样对所述属性信息网络进行采样,得到正常采样数据;
通过负采样对所述正常采样数据进行采样,得到负采样数据;
基于所述正常采样数据和所述负采样数据获取适于表征学习的完整采样数据。
7.根据权利要求5所述的方法,其特征在于,基于所述结构得分函数和属性得分函数对所述目标函数进行求解,得到网络表征学习要学习的节点对应向量步骤包括:
基于所述结构得分函数和属性得分函数,并通过随机梯度下降算法对所述目标函数进行求解,得到网络表征学习要学习的节点对应向量。
8.根据权利要求1所述的方法,其特征在于,所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点的特征数据,并基于所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据所述异常检测模型计算所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率步骤包括:
基于所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点与其一阶邻居的向量相似度,作为对应所述网络服务单号类型节点的微观特征;
基于所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点与其二阶邻居的向量相似度,作为对应所述网络服务单号类型节点的宏观特征;
将所述属性信息网络中的每个网络服务单号类型节点以及其对应的微观特征和宏观特征作为新网络服务数据;
将所述新网络服务数据中的训练集数据导入预设分类器进行二分类训练得到异常检测模型,并将所述新网络服务数据中的测试集数据输入所述异常检测模型得到所述测试集数据中每笔网络服务数据的异常概率。
9.根据权利要求8所述的方法,其特征在于,所述预设分类器为XGBoost分类器。
10.一种基于属性网络表征学习的网络服务异常检测装置,包括依次连接的异质信息网络构建模块、属性信息网络构建模块、映射关系构建模块和异常概率计算模块;
所述异质信息网络构建模块,用于根据原始网络服务数据获取初始网络服务数据,基于所述初始网络服务数据构建异质信息网络,并基于所述异质信息网络中的所有节点在所述原始网络服务数据中获取节点属性集合;
所述属性信息网络构建模块,用于基于所述节点属性集合构建属性向量集,根据所述属性向量集和所述异质信息网络构建属性信息网络;
所述映射关系构建模块,用于基于所述属性信息网络,以最大后验问题寻找最优向量表征形式构建目标函数,并根据预设算法对所述目标函数进行求解得到网络表征学习要学习的节点对应向量,并基于网络表征学习要学习的节点对应向量构建所述属性信息网络中节点和与其对应的向量表征的映射关系;
所述异常概率计算模块,用于所述属性信息网络中节点和与其对应的向量表征的映射关系计算所述属性信息网络中每个网络服务单号类型节点的特征数据,并基于所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的训练集数据训练得到异常检测模型,根据所述异常检测模型计算所述属性信息网络中所有网络服务单号类型节点及其对应的特征数据中的测试集数据中每笔网络服务数据的异常概率。
CN202010042262.XA 2020-01-15 2020-01-15 基于属性网络表征学习的网络服务异常检测方法及装置 Active CN111277433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010042262.XA CN111277433B (zh) 2020-01-15 2020-01-15 基于属性网络表征学习的网络服务异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010042262.XA CN111277433B (zh) 2020-01-15 2020-01-15 基于属性网络表征学习的网络服务异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN111277433A CN111277433A (zh) 2020-06-12
CN111277433B true CN111277433B (zh) 2021-02-12

Family

ID=71000311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010042262.XA Active CN111277433B (zh) 2020-01-15 2020-01-15 基于属性网络表征学习的网络服务异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN111277433B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931485B (zh) * 2020-08-12 2021-03-23 北京建筑大学 一种基于跨网络表示学习的多模异质关联实体识别方法
CN112822191B (zh) * 2021-01-06 2021-11-02 大连理工大学 一种网络化协同***中多维数据安全性检测的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900432A (zh) * 2018-07-05 2018-11-27 中山大学 一种基于网络流行为的内容感知方法
CN109815335A (zh) * 2019-01-26 2019-05-28 福州大学 一种适用于文献网络的论文领域分类方法
CN110555455A (zh) * 2019-06-18 2019-12-10 东华大学 一种基于实体关系的在线交易欺诈检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384273B (zh) * 2016-10-08 2020-01-07 江苏通付盾科技有限公司 恶意刷单检测***及方法
CN108717638A (zh) * 2018-05-18 2018-10-30 深圳壹账通智能科技有限公司 欺诈交易判断方法、装置、计算机设备和存储介质
CN108848068A (zh) * 2018-05-29 2018-11-20 上海海事大学 基于深度信念网络-支持向量数据描述的apt攻击检测方法
CN110009093B (zh) * 2018-12-07 2020-08-07 阿里巴巴集团控股有限公司 用于分析关系网络图的神经网络***和方法
CN109829721B (zh) * 2019-02-13 2023-06-06 同济大学 基于异质网络表征学习的线上交易多主体行为建模方法
CN110191110B (zh) * 2019-05-20 2020-05-19 山西大学 基于网络表示学习的社交网络异常账户检测方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900432A (zh) * 2018-07-05 2018-11-27 中山大学 一种基于网络流行为的内容感知方法
CN109815335A (zh) * 2019-01-26 2019-05-28 福州大学 一种适用于文献网络的论文领域分类方法
CN110555455A (zh) * 2019-06-18 2019-12-10 东华大学 一种基于实体关系的在线交易欺诈检测方法

Also Published As

Publication number Publication date
CN111277433A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN107566376B (zh) 一种威胁情报生成方法、装置及***
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈***
CN111309822B (zh) 用户身份识别方法及装置
CN109672674A (zh) 一种网络威胁情报可信度识别方法
Rathore et al. Identifying groups of fake reviewers using a semisupervised approach
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
Wang et al. Representing fine-grained co-occurrences for behavior-based fraud detection in online payment services
CN112488716B (zh) 一种异常事件检测***
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN111277433B (zh) 基于属性网络表征学习的网络服务异常检测方法及装置
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN113283909B (zh) 一种基于深度学习的以太坊钓鱼账户检测方法
CN112287020B (zh) 一种基于图分析的大数据挖掘方法
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
CN111143838A (zh) 数据库用户异常行为检测方法
Choi et al. Machine learning based approach to financial fraud detection process in mobile payment system
CN116318928A (zh) 一种基于数据增强和特征融合的恶意流量识别方法及***
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN113438239B (zh) 一种基于深度k近邻的网络攻击检测方法及装置
CN114692593A (zh) 一种网络信息安全监测预警方法
Zheng et al. Tegdetector: a phishing detector that knows evolving transaction behaviors
CN113762703A (zh) 确定企业画像的方法和装置、计算设备和存储介质
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及***
Mishra et al. Improving the efficacy of clustering by using far enhanced clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant