CN114067149A - 互联网服务提供方法、装置和计算机设备 - Google Patents
互联网服务提供方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN114067149A CN114067149A CN202111219320.2A CN202111219320A CN114067149A CN 114067149 A CN114067149 A CN 114067149A CN 202111219320 A CN202111219320 A CN 202111219320A CN 114067149 A CN114067149 A CN 114067149A
- Authority
- CN
- China
- Prior art keywords
- sample data
- minority
- sample
- data set
- internet service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000005070 sampling Methods 0.000 claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 46
- 238000012544 monitoring process Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003321 amplification Effects 0.000 claims description 7
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 20
- 230000002159 abnormal effect Effects 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 11
- 238000013210 evaluation model Methods 0.000 description 11
- 238000013468 resource allocation Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000013058 risk prediction model Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种互联网服务提供方法、装置和计算机设备。该方法包括:获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集;对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类;基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据;根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集;基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。本发明能够优化采样方法,能够进一步提升模型预测的精确度、召回率等多个指标,能够有效减少数据不均衡引入的偏差。
Description
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种互联网服务提供方法、装置和计算机设备。
背景技术
类别不平衡是分类任务中的一个典型问题,它主要表现为两个类之间的样本数量差距巨大。现实中存在很多类别不平衡的情况,比如互联网诈骗与保险骗保的鉴别,医学上癌症的辨别等等。对不平衡数据进行分类的主要困难在于,传统的机器学***衡的基础上的,对于数据偏差分布的情况敏感度较低,导致预测结果偏向多类数据。然而,从数据挖掘的角度来看,少数群体往往带有更重要并且有用的信息,因此,挖掘预测这些少类样本具有重大的意义。近年,研究者通过对数据进行采样使得样本达到人工平衡状态,从而进行预测模型的学***衡问题的一种很有效的方法,其通过复制或合成样本的方式来解决这个问题,以平衡多数类和少数类样本之间的分布。但是,对少类样本进行复制或者减少一些大类样本,这样前者会造成过拟合,后者在删除样本时会导致一些重要的信息被遗漏。
由于现有方法仅基于样本之间的距离对所有样本进行无区别采样,没有考虑到同类样本之间的数据特性,这样会导致采样后样本边界模糊甚至重叠,导致预测精度降低,还会影响分析结果。因此,在如何更有效利用少类样本进行过采样、如何有效提高因处理数据不平衡问题而造成的模型精度低等方面仍存在很大改进空间。
此外,对于互联网服务平台而言,在提供互联网服务资源的过程中,项目组织人、资源筹集人或其他用户设备关联人等往往存在欺诈行为等的不良行为,会造成给互联网服务平台造成很大影响。因此,在用户设备的欺诈或风险鉴别、模型计算精度、特征提取、模型参数估计、数据更新等多方面仍存在很大改进空间。
因此,有必要提供一种改进了的互联网服务提供方法。
发明内容
为了解决有效利用少数类样本进行过采样、如何有效提高因处理数据不平衡问题而造成的模型精度低,有效进行用户设备的欺诈或风险鉴别等技术问题,并进一步优化采样方法。本发明的第一方面提供了一种互联网服务提供方法,用于对接入互联网的用户设备提供互联网服务,包括:获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集;对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类;基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据;根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集;基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
根据可选实施方式,所述对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类包括:使用K-means算法对所述少数类样本数据集进行多轮聚类处理,所述多轮聚类处理的轮数为2至6轮。
根据可选实施方式,每一轮聚类处理包括:根据不同互联网资源服务类型的历史样本数据集中正、负样本的数量比例,预先设定初始k值,k大于等于5;随机产生k个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
根据可选实施方式,还包括:根据所得到的多个少数类样本聚类,在二维向量空间或者三维向量空间拟合绘制每个少数类样本聚类的样本分布图,该样本分布图包含多段直线和/或多段曲线。
根据可选实施方式,还包括:基于SMOTE算法,并根据每个少数类样本聚类所对应的样本分布图中的线段或曲线,从所述每个少数类样本聚类中确定目标样本数据,并对所述目标样本数据进行过采样。
根据可选实施方式,还包括:使用离异点监测方法,从所述每个少数类样本聚类中筛选目标样本数据,并对所述目标样本数据进行过采样。
根据可选实施方式,还包括:对所述目标样本数据进行过采样,以生成特定数量的新样本数据;根据所确定的正、负样本的数量以及所述少数类样本聚类在样本分布图中的分布情况,计算所述过采样的采样数量。
根据可选实施方式,还包括:使用离异点监测方法,对向量化后的少数类样本聚类中的样本数据进行监测,绘制每一个维度数据的箱线图,以判断维度异常点或维度噪声点,并将所述维度异常点或维度噪声点作为目标样本数据。
此外,本发明的第二方面还提供了一种互联网服务提供装置,用于对接入互联网的用户设备提供互联网服务,包括:获取处理模块,用于获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集;聚类处理模块,用于对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类;采样处理模块,基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据;扩增处理模块,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集;鉴别处理模块,基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
此外,本发明的第三方面还提供了一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如本发明所述的互联网服务提供方法。
此外,本发明的第四方面还提供了一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如本发明所述的互联网服务提供方法。
有益效果
与现有技术相比,本发明通过对历史样本数据集中确定的少数类样本数据集进行聚类处理,得到多个少数类样本聚类,并基于SMOTE算法,对多个少数类样本聚类中各样本进行过采样,生成特定数量的新样本数据,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集,再基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,能够精确地对接入所述互联网服务的用户设备进行更有效鉴别。
进一步地,与不进行过采样处理的数据集所建立的训练数据集相比,通过使用本发明的过采样扩增后的少数类数据集所建立的训练数据集,来训练互联网服务评估模型,能够进一步提升模型预测的精确度、召回率等多个指标,能够有效减少数据不均衡引入的偏差。
进一步地,对现有SMOTE算法进行了改进,通过在二维向量空间或者三维向量空间,拟合绘制每个少数类样本聚类的样本分布图,从相应的少数类样本聚类中筛选出(即确定)目标样本数据,并对所述目标样本数据进行过采样,能够提高采样的分布性和有效性,能够在优化采样方法的同时解决数据不均衡的问题。
进一步地,对现有SMOTE算法进行了改进,通过使用离异点监测方法,判断出维度异常点,并将维度异常点作为目标样本数据进行过采样,能够进一步提高采样的分布性和有效性。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明本发明示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明的实施例1的互联网服务提供方法的一示例的流程图。
图2是本发明的实施例1的互联网服务提供方法的另一示例的流程图。
图3是本发明的实施例1的互联网服务提供方法的又一示例的流程图。
图4是本发明的实施例2的互联网服务提供装置的一示例的示意图。
图5是本发明的实施例2的互联网服务提供装置的另一示例的示意图。
图6是本发明的实施例2的互联网服务提供装置的又一示例的示意图。
图7是根据本发明的计算机设备的示例性实施例的结构框图。
图8是根据本发明的计算机程序产品的示例性实施例的结构框图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如,第一器件亦可称为第二器件而不偏离本发明实质的技术方案。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
鉴于上述问题,本发明提供了一种互联网服务提供方法。该方法通过对历史样本数据集中确定的少数类样本数据集进行聚类处理,得到多个少数类样本聚类,并基于SMOTE算法,对多个少数类样本聚类中各样本进行过采样,生成特定数量的新样本数据,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集,再基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,能够精确地对接入所述互联网服务的用户设备进行更有效鉴别,以提供更适于所述用户设备的互联网服务。以下将详细描述互联网服务提供方法的具体过程。
实施例1
下面,将参照图1至图3描述本发明的互联网服务提供方法的实施例。
图1为本发明的互联网服务提供方法的流程图。如图1所示,一种互联网服务提供方法,该方法包括如下步骤。
步骤S101,获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集。
步骤S102,对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类。
步骤S103,基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据。
步骤S104,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集。
步骤S105,基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
需要说明的是,在本发明中,所述互联网服务提供方法用于对接入互联网的用户设备提供互联网服务,其中,所述互联网服务包括由用户设备(或用户关联设备)向互联网服务平台的申请而提供例如购物、乘车、地图、外卖、共享单车等的互联网服务资源。例如,资源分配服务、资源使用服务、资源保障服务或互助服务、资源筹集服务、拼团购买以及乘车服务等等。其中,资源是指任何可被利用的物质、信息、时间,信息资源包括计算资源和各种类型的数据资源。数据资源包括各个领域中的各种专用数据。用户设备(或用户关联设备)是指在互联网服务平台上申请服务时注册用户所关联的设备,通常使用设备ID代表。
首先,在步骤S101中,获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集。
作为一具体实施方式,在用户设备对互联网资源分配服务进行资源分配申请应用场景下,例如获取该互联网资源分配服务类别下特定时间段内(例如12月内,6个月内等)的用户设备的历史设备数据和设备互联网服务表现数据,其中,所述历史设备数据包括设备ID、设备标识码、设备名称;所述设备互联网服务表现数据包括如下至少两个特征数据:特定时间段内的互联网服务申请频率互联网服务使用次数、互联网资源未归还数据、设备的逾期数据、设备的APP欺诈数据、设备的多头特征数据和设备关联用户的关系网特征数据、同一设备的设备关联用户数据和设备关联用户的数量。
具体地,所述设备的逾期数据包括用户设备是否自资源归还时间起特定时间段内归还了互联网服务资源,其中,所述特定时间段为5~30天,例如特定时间为5天、7天、15天、20天或30天等。
进一步地,所述设备关联用户数据包括用户基本信息、人行征信信息、多头信息、以及互联网资源服务APP的各种操作行为信息等。
在该实施方式中,设定用户设备自资源归还时间起特定时间段内归还了互联网服务资源的样本数据为正样本,而用户设备自资源归还时间起特定时间段内未归还互联网服务资源的样本数据为负样本。
具体地,根据所设定的正样本和负样本,确定历史样本数据集中的正样本和负样本,并计算正样本和负样本的数量,还进一步确定正样本与负样本的比例。换言之,确定多数类样本和少数类样本的数量,以确定数据集和少数类样本数据集。
例如,正样本的数量99万,负样本的数量为2万,则负样本数据集为少数类数据集,正样本数据集为多数类数据集。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
接下来,在步骤S102中,对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类。
具体地,例如使用K-means算法,对步骤S101中所确定的少数类样本数据集进行多轮聚类处理,所述多轮聚类处理的轮数为2至6轮。
更具体地,每一轮聚类处理包括:根据不同互联网资源服务类型的历史样本数据集中正、负样本的数量比例,预先设定初始k值,k大于等于5。
在一实施方式中,多轮聚类处理的轮数为3轮,互联网资源分配服务类型的历史样本数据集中正、负样本的数量比例为200:1~99:2,初始k值为5。
具体地,随机产生10个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
在另一实施方式中,多轮聚类处理的轮数为5轮,互联网资源分配服务类型的历史样本数据集中正、负样本的数量比例为200:1,初始k值为8。
具体地,随机产生15个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
可选地,使用计算样本到每个类中心向量的欧氏距离;在样本到各类中心向量的欧氏距离中,将距离最小的类中心向量所在的类作为该样本在本次迭代中所归属的类,由此,通过多轮聚类处理,能够得到精确的多个少数类样本聚类。
进一步地,例如通过判断各聚类(即各样本聚类集合)的纯度是否达到纯度设定阈值,和/或判断各聚类(即各样本聚类集合)的噪音比率是否小于噪音设定阈值等等,以去除噪声集合。由此,通过多轮聚类处理,并经过去除噪声集合,能够得到更精确的多个少数类样本聚类。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
接下来,在步骤S103中,基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据。
具体地,对步骤S102所得到的多个少数类样本聚类,进行过采样,以扩增少数类样本数据集的数量。
在一可选的实施方式中,如图2所示,还包括步骤S201,即将图1中的步骤S103拆分成步骤S201和步骤S103,在步骤S201中,在进行过采样之前,拟合绘制每个少数类样本聚类的样本分布图,以用于确定过采样的目标样本数据。
需要说明的是,由于图2中的步骤101、步骤102、步骤103、步骤104和步骤105与图1中的步骤101、步骤102、步骤103、步骤104和步骤105大致相同,因此,省略了对图2中的步骤101、步骤102、步骤103、步骤104和步骤105的说明。
具体地,在二维向量空间或者三维向量空间,拟合绘制每个少数类样本聚类的样本分布图。
例如,在二维向量空间中,拟合绘制每个少数类样本聚类的样本分布图,该样本分布图包含多段直线和/或多段曲线,换言之,所述样本分布图包含与多个少数类样本聚类相对应的多个分段函数。
例如,在三维向量空间中,拟合绘制每个少数类样本聚类的样本分布图,由此,所述样本分布图包含多个不连续曲面、多个不连续曲线和/或多段直线。
因此,对现有SMOTE算法进行了改进,通过在二维向量空间或者三维向量空间,拟合绘制每个少数类样本聚类的样本分布图,从相应的少数类样本聚类中筛选出(即确定)目标样本数据,并对所述目标样本数据进行过采样,能够提高采样的分布性和有效性,能够在优化采样方法的同时解决数据不均衡的问题。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
例如,根据每个少数类样本聚类所对应的样本分布图中的线段或曲线,具体根据两相邻少数类样本聚类之间的线段或曲线中相邻样本的分布情况(例如距所述线段或曲线的距离小于指定距离时),从相应的少数类样本聚类中筛选出(即确定)目标样本数据,并对所述目标样本数据进行过采样。
例如,根据每个少数类样本聚类所对应的样本分布图中的曲面、线段或曲线,具体根据两相邻少数类样本聚类之间的曲面、线段和/或曲线中相邻样本的分布情况(例如线段或曲线中样本数据距曲面的距离小于指定距离时),从相应的少数类样本聚类中筛选出(即确定)目标样本数据,并对所述目标样本数据进行过采样。
在另一实施方式中,使用离异点监测方法,从所述每个少数类样本聚类中筛选目标样本数据,并对所述目标样本数据进行过采样。
具体地,使用离异点监测方法,对所确定的多数类样本数据和少数类样本数据进行数据向量化处理,并对向量化后的少数类样本聚类中的样本数据(例如为30维向量数据)进行监测,绘制每一个维度数据(例如所述30维向量中每一个维度数据)的箱线图,以判断维度异常点或维度噪声点,并将所述维度异常点或维度噪声点作为目标样本数据。
可选地,使用word2vec模型、BERT模型和RoBERTa模型等,进行数据向量化处理。例如,向量化后的样本数据为30维的向量数据。
具体地,对于所绘制的每一个维度数据的箱线图,计算四分位距IQR值,以确定第一判断阈值和第二判断阈值,该第一判断阈值为上四分位+1.5IQR,该第二判断阈值为下四分位-1.5IQR。基于各箱线图,判断所述少数类样本数据中的维度异常点或维度噪声点。其中,判断同一维度上的维度数据是否大于第一判断阈值或者小于第二判断阈值;将大于所述第一判断阈值的维度数据和小于所述第二判断阈值的维度数据,判断为维度异常点,以将具有所述维度异常点的样本数据作为目标样本数据。
进一步地,对所述目标样本数据进行过采样,以生成特定数量的新样本数据。
具体地,根据所确定的正、负样本的数量以及所述少数类样本聚类在样本分布图中的分布情况,计算所述过采样的采样数量。
进一步地,对所确定的目标样本数据,使用SMOTE算法,生成新样本数据的计算表达式如下:
xn=x0+rand(0,1)·(x0-xk) (1)
需要说明的是,在本实施方式中,以所确定的目标样本数据的位置信息(例如x,y坐标信息),作为xk进行过采样计算,并且xnx0,xk,xn,即和都是向量,xn是在x0与xk的连线形成的平面或曲面内的点,换言之,在在x0与xk的连线形成的平面或曲面内进行过采样。但是不限于此,上述仅作为示例进行说明,不能理解成对本发明的限制。
因此,对现有SMOTE算法进行了改进,通过使用离异点监测方法,判断出维度异常点,并将维度异常点作为目标样本数据进行过采样,能够进一步提高采样的分布性和有效性。
接下来,在步骤S104中,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集。
具体地,将所生成的新样本数据增加到原始的少数类样本数据集,得到扩增后的少数类样本数据集。
进一步地,判断扩增后的少数类样本数据集与多数类样本数据集的样本数量比例是否在特定范围内,其中,当所述样本数量比例在特定范围内时,将少数类样本数据集与多数类样本数据集直接用于建立训练数据集;而当样本数量比例不在特定范围内时,继续进行采样处理(包括过采样处理或者欠采样处理),直到所述样本比例在特定范围内时才停止采样处理。
在一实施方式中,根据互联网服务的类型、业务目标,正、负样本的设定、数量等因素,设定用于判断少数类样本数据和多数类样本数据的第一采样设定值和第二采样设定值,换言之,设定用于判断过采样和欠采样的第一采样设定值和第二采样设定值。
具体地,对小于第一采样设定值的少数类样本数据,进行过采样,以扩增特定数量的新样本数据;对大于第二采样设定值的多数类样本数据,进行欠采样,以删去一部分样本数据。由此,通过对数据集进行过采样和欠采样结合的方法,进一步优化采样方法,解决样本数据不均衡的问题。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
接下来,在步骤S105中,基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
具体地,将扩展后的少数类样本数据集和所述多数类样本数据集建立训练数据集,以用于训练机器学习模型。
在一实施方式中,所述训练数据集包括具有欺诈标签的历史设备数据,其中,所述历史设备数据包括设备ID、设备标识码、设备名称。
在另一实施方式中,所述训练数据集包括具有风险标签的历史设备数据、设备互联网服务表现数据。
在又一实施方式中,所述训练数据集包括具有用户标签的历史设备数据、设备互联网服务表现数据。
需要说明的是,步骤S105中的历史设备数据和设备互联网服务表现数据与步骤S101中的历史设备数据和设备互联网服务表现数据所表示的物理意义和所包括的数据大致相同,因此,省略了对其的说明。
与不进行过采样处理的数据集所建立的训练数据集相比,,通过使用本发明的过采样扩增后的少数类数据集所建立的训练数据集,训练互联网服务评估模型,能够提升模型预测的精确度、召回率等多个指标,能够有效减少数据不均衡引入的偏差。
接着,例如使用XGBoost方法,构建互联网服务评估模型等的机器学习模型。但是不限于此,在其他示例中,还可以使用深度网络算法、TextCNN算法、随机森林算法、逻辑回归算法等,或者使用上述算法中的两种以上的算法。具体使用的算法可以根据采样数据和/或互联网服务业务需求进行确定。
进一步地,使用训练好的互联网服务评估模型,将待预测设备的例如设备ID等的设备数据输入所述互联网服务评估模型,计算该待预测设备的设备评估值,以对接入所述互联网服务的待预测用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
具体地,获取新接入的用户设备的设备信息,例如该设备信息为设备ID或设备标识码。
进一步地,使用所述互联网服务评估模型,将新接入的用户设备(即待预测设备)的设备ID输入设备风险预测模型,计算(或输出)所述新接入的用户设备的设备评估值。
在一实施方式中,将所计算的设备评估值与设定阈值进行比较,在所计算的设备评估值小于等于设定阈值时,确定可向新接入的用户设备提供互联网服务。
例如,对于资源分配服务或资源保障服务的互联网服务的设备风险鉴别过程中,当所计算的设备评估值小于等于设定阈值时,判断所述新接入的用户设备的风险小,确定可向新接入的用户设备提供例如资源分配服务或者资源保障服务。
在另一实施方式中,在所计算的设备评估值大于设定阈值时,确定不向所述新接入的用户设备提供互联网服务资源。
例如,当所计算的设备评估值大于设定阈值时,判断所述新接入的用户设备的风险大,确定不能向新接入的用户设备提供例如资源分配服务或者资源保障服务。
因此,通过使用互联网服务评估模型对新接入的用户设备进行风险鉴别,能够精确量化新接入的用户设备的风险情况,并能够提高设备风险预测模型的预测精度。
在另一示例中,如图3所示,将图1中步骤S105拆分成两个步骤S105和步骤S301。
在该示例中,步骤S301还包括在计算新接入的用户设备的设备评估值之前,判断所述用户设备所关联的用户中劣质用户数量的步骤。
具体地,在计算新接入的用户设备(即待预测设备)的设备评估值之前,判断所述用户设备所关联的用户中劣质用户数量。
更具体地,对于所述待预测用户设备的关联用户中劣质用户数量的确定,例如使用用户设备关系图,计算关联用户为劣质用户的数量。
进一步地,在判断所述关联用户的数量为多个时,使用所述多个用户的用户特征信息,与预存用户数据库中黑名单(劣质用户)的用户特征信息进行对比查询,判断出与已注册用户和已申请资源服务用户中劣质用户的用户特征信息相似的用户,或者判断是否是劣质用户,并确定劣质用户的数量。
具体地,在劣质用户的数量占总数量的60%以上时,初步判断所述新接入的用户设备为风险大的设备,并进行风险标识,再进一步计算新接入的用户设备的设备评估值。
因此,通过对劣质用户数量的判断,能够更精确地确定出风险设备。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
需要说明的是,上述仅为示例进行说明,不能理解成对本发明的限制。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
与现有技术相比,本发明通过对历史样本数据集中确定的少数类样本数据集进行聚类处理,得到多个少数类样本聚类,并基于SMOTE算法,对多个少数类样本聚类中各样本进行过采样,生成特定数量的新样本数据,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集,再基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,能够精确地对接入所述互联网服务的用户设备进行更有效鉴别。
进一步地,与不进行过采样处理的数据集所建立的训练数据集相比,通过使用本发明的过采样扩增后的少数类数据集所建立的训练数据集,来训练互联网服务评估模型,能够进一步提升模型预测的精确度、召回率等多个指标,能够有效减少数据不均衡引入的偏差。
进一步地,对现有SMOTE算法进行了改进,通过在二维向量空间或者三维向量空间,拟合绘制每个少数类样本聚类的样本分布图,从相应的少数类样本聚类中筛选出(即确定)目标样本数据,并对所述目标样本数据进行过采样,能够提高采样的分布性和有效性,能够在优化采样方法的同时解决数据不均衡的问题。
进一步地,对现有SMOTE算法进行了改进,通过使用离异点监测方法,判断出维度异常点,并将维度异常点作为目标样本数据进行过采样,能够进一步提高采样的分布性和有效性。
实施例2
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
参照图4、图5和图6,本发明还提供了一种互联网服务提供装置400,用于对接入互联网的用户设备提供互联网服务,所述互联网服务提供装置400包括:获取处理模块401,用于获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集;聚类处理模块402,用于对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类;采样处理模块403,基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据;扩增处理模块404,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集;鉴别处理模块405,基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
具体地,所述对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类包括:使用K-means算法对所述少数类样本数据集进行多轮聚类处理,所述多轮聚类处理的轮数为2至6轮。
更具体地,每一轮聚类处理包括:根据不同互联网资源服务类型的历史样本数据集中正、负样本的数量比例,预先设定初始k值,k大于等于5;随机产生k个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
如图5所示,所述互联网服务提供装置400还包括拟合绘制模块501,即将图4中的采样处理模块403拆分成采样处理模块403和拟合绘制模块501。所述拟合绘制模块501根据所得到的多个少数类样本聚类,在二维向量空间或者三维向量空间拟合绘制每个少数类样本聚类的样本分布图,该样本分布图包含多段直线和/或多段曲线。
在一实施方式中,基于SMOTE算法,并根据每个少数类样本聚类所对应的样本分布图中的线段或曲线,从所述每个少数类样本聚类中确定目标样本数据,并对所述目标样本数据进行过采样。
具体地,在二维向量空间或者三维向量空间,拟合绘制每个少数类样本聚类的样本分布图。
例如,在二维向量空间中,拟合绘制每个少数类样本聚类的样本分布图,该样本分布图包含多段直线和/或多段曲线,换言之,所述样本分布图包含与多个少数类样本聚类相对应的多个分段函数。
例如,在三维向量空间中,拟合绘制每个少数类样本聚类的样本分布图,由此,所述样本分布图包含多个不连续曲面、多个不连续曲线和/或多段直线。
可选地,使用离异点监测方法,从所述每个少数类样本聚类中筛选目标样本数据,并对所述目标样本数据进行过采样。
在另一实施方式中,使用离异点监测方法,从所述每个少数类样本聚类中筛选目标样本数据,并对所述目标样本数据进行过采样。
具体地,使用离异点监测方法,对所确定的多数类样本数据和少数类样本数据进行数据向量化处理,并对向量化后的少数类样本聚类中的样本数据(例如为30维向量数据)进行监测,绘制每一个维度数据(例如所述30维向量中每一个维度数据)的箱线图,以判断维度异常点或维度噪声点,并将所述维度异常点或维度噪声点作为目标样本数据。
可选地,使用word2vec模型、BERT模型和RoBERTa模型等,进行数据向量化处理。例如,向量化后的样本数据为30维的向量数据。
具体地,对于所绘制的每一个维度数据的箱线图,计算四分位距IQR值,以确定第一判断阈值和第二判断阈值,该第一判断阈值为上四分位+1.5IQR,该第二判断阈值为下四分位-1.5IQR。基于各箱线图,判断所述少数类样本数据中的维度异常点或维度噪声点。其中,判断同一维度上的维度数据是否大于第一判断阈值或者小于第二判断阈值;将大于所述第一判断阈值的维度数据和小于所述第二判断阈值的维度数据,判断为维度异常点,以将具有所述维度异常点的样本数据作为目标样本数据。
进一步地,对所述目标样本数据进行过采样,以生成特定数量的新样本数据。
具体地,根据所确定的正、负样本的数量以及所述少数类样本聚类在样本分布图中的分布情况,计算所述过采样的采样数量。
进一步地,对所确定的目标样本数据,使用SMOTE算法,生成新样本数据的计算表达式如下:
xn=x0+rand(0,1)·(x0-xk) (1)
需要说明的是,在本实施方式中,以所确定的目标样本数据的位置信息(例如x,y坐标信息),作为xk进行过采样计算,并且xnx0,xk,xn,即和都是向量,xn是在x0与xk的连线形成的平面或曲面内的点,换言之,在在x0与xk的连线形成的平面或曲面内进行过采样。但是不限于此,上述仅作为示例进行说明,不能理解成对本发明的限制。
因此,对现有SMOTE算法进行了改进,通过使用离异点监测方法,判断出维度异常点,并将维度异常点作为目标样本数据进行过采样,能够进一步提高采样的分布性和有效性。
进一步地,对所述目标样本数据进行过采样,以生成特定数量的新样本数据;根据所确定的正、负样本的数量以及所述少数类样本聚类在样本分布图中的分布情况,计算所述过采样的采样数量。
具体地,将所生成的新样本数据增加到原始的少数类样本数据集,得到扩增后的少数类样本数据集。
进一步地,判断扩增后的少数类样本数据集与多数类样本数据集的样本数量比例是否在特定范围内,其中,当所述样本数量比例在特定范围内时,将少数类样本数据集与多数类样本数据集直接用于建立训练数据集;而当样本数量比例不在特定范围内时,继续进行采样处理(包括过采样处理或者欠采样处理),直到所述样本比例在特定范围内时才停止采样处理。
在一实施方式中,根据互联网服务的类型、业务目标,正、负样本的设定、数量等因素,设定用于判断少数类样本数据和多数类样本数据的第一采样设定值和第二采样设定值,换言之,设定用于判断过采样和欠采样的第一采样设定值和第二采样设定值。
具体地,对小于第一采样设定值的少数类样本数据,进行过采样,以扩增特定数量的新样本数据;对大于第二采样设定值的多数类样本数据,进行欠采样,以删去一部分样本数据。
在另一示例中,如图6所示,所述互联网服务提供装置400还包括模型建立模块601,即将图4中的鉴别处理模块405拆分成模型建立模块601和鉴别处理模块405。
具体地,模型建立模块601将扩展后的少数类样本数据集和所述多数类样本数据集建立训练数据集,以用于训练机器学习模型。
在一实施方式中,所述训练数据集包括具有欺诈标签的历史设备数据,其中,所述历史设备数据包括设备ID、设备标识码、设备名称。
在另一实施方式中,所述训练数据集包括具有风险标签的历史设备数据、设备互联网服务表现数据。
在又一实施方式中,所述训练数据集包括具有用户标签的历史设备数据、设备互联网服务表现数据。
进一步地,使用训练好的互联网服务评估模型,将待预测设备的例如设备ID等的设备数据输入所述互联网服务评估模型,计算该待预测设备的设备评估值,以对接入所述互联网服务的待预测用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
需要说明的是,在实施例2中,省略了与实施例1相同的部分的说明。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
与现有技术相比,本发明通过对历史样本数据集中确定的少数类样本数据集进行聚类处理,得到多个少数类样本聚类,并基于SMOTE算法,对多个少数类样本聚类中各样本进行过采样,生成特定数量的新样本数据,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集,再基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,能够精确地对接入所述互联网服务的用户设备进行更有效鉴别。
进一步地,与不进行过采样处理的数据集所建立的训练数据集相比,通过使用本发明的过采样扩增后的少数类数据集所建立的训练数据集,来训练互联网服务评估模型,能够进一步提升模型预测的精确度、召回率等多个指标,能够有效减少数据不均衡引入的偏差。
进一步地,对现有SMOTE算法进行了改进,通过在二维向量空间或者三维向量空间,拟合绘制每个少数类样本聚类的样本分布图,从相应的少数类样本聚类中筛选出(即确定)目标样本数据,并对所述目标样本数据进行过采样,能够提高采样的分布性和有效性,能够在优化采样方法的同时解决数据不均衡的问题。
进一步地,对现有SMOTE算法进行了改进,通过使用离异点监测方法,判断出维度异常点,并将维度异常点作为目标样本数据进行过采样,能够进一步提高采样的分布性和有效性。
实施例3
面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图7是根据本发明的计算机设备的示例性实施例的结构框图。下面参照图7来描述根据本发明该实施例的的计算机设备200。图7显示的计算机设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备200以通用计算设备的形式表现。计算机设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同装置组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述计算机设备的处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图1所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
计算机设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该计算机设备200交互的设备通信,和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,计算机设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与计算机设备200的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机程序产品能够实现本发明的上述方法。
如图8所示,所述计算机程序可以存储于一个或多个计算机程序产品上。计算机程序产品例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机程序产品的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机程序产品可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机程序产品上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种互联网服务提供方法,用于对接入互联网的用户设备提供互联网服务,其特征在于,包括:
获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集;
对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类;
基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据;
根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集;
基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
2.根据权利要求1所述的互联网服务提供方法,其特征在于,所述对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类包括:
使用K-means算法对所述少数类样本数据集进行多轮聚类处理,所述多轮聚类处理的轮数为2至6轮。
3.根据权利要求2所述的互联网服务提供方法,其特征在于,每一轮聚类处理包括:
根据不同互联网资源服务类型的历史样本数据集中正、负样本的数量比例,预先设定初始k值,k大于等于5;
随机产生k个类中心向量,使用K-means算法迭代更新该类中心向量,直到本次迭代时的类中心向量与上一次迭代时的类中心向量之间的距离小于指定阈值。
4.根据权利要求1或2所述的互联网服务提供方法,其特征在于,还包括:
根据所得到的多个少数类样本聚类,在二维向量空间或者三维向量空间拟合绘制每个少数类样本聚类的样本分布图,该样本分布图包含多段直线和/或多段曲线。
5.根据权利要求4所述的互联网服务提供方法,其特征在于,还包括:
基于SMOTE算法,并根据每个少数类样本聚类所对应的样本分布图中的线段或曲线,从所述每个少数类样本聚类中确定目标样本数据,并对所述目标样本数据进行过采样。
6.根据权利要求4所述的互联网服务提供方法,其特征在于,还包括:
使用离异点监测方法,从所述每个少数类样本聚类中筛选目标样本数据,并对所述目标样本数据进行过采样。
7.根据权利要求5或6所述的互联网服务提供方法,还包括:
对所述目标样本数据进行过采样,以生成特定数量的新样本数据;
根据所确定的正、负样本的数量以及所述少数类样本聚类在样本分布图中的分布情况,计算所述过采样的采样数量。
8.根据权利要求6所述的互联网服务提供方法,其特征在于,还包括:
使用离异点监测方法,对向量化后的少数类样本聚类中的样本数据进行监测,绘制每一个维度数据的箱线图,以判断维度异常点或维度噪声点,并将所述维度异常点或维度噪声点作为目标样本数据。
9.一种互联网服务提供装置,用于对接入互联网的用户设备提供互联网服务,其特征在于,包括:获取处理模块,用于获取用户设备的历史样本数据集,确定正、负样本,并确定多数类样本数据集和少数类样本数据集;聚类处理模块,用于对所述少数类样本数据集进行聚类处理,得到多个少数类样本聚类;采样处理模块,基于SMOTE算法,对所述多个少数类样本聚类中各样本进行过采样,以生成特定数量的新样本数据;扩增处理模块,根据所生成的新样本数据和原始的少数类样本数据集,得到扩增后的少数类样本数据集;鉴别处理模块,基于所述扩增后的少数类样本数据集和所述多数类样本数据集建立机器学习模型,基于该机器学习模型对接入所述互联网服务的用户设备进行鉴别,以针对不同类的用户设备提供不同的互联网服务。
10.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1所述的互联网服务提供方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111219320.2A CN114067149A (zh) | 2021-10-20 | 2021-10-20 | 互联网服务提供方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111219320.2A CN114067149A (zh) | 2021-10-20 | 2021-10-20 | 互联网服务提供方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114067149A true CN114067149A (zh) | 2022-02-18 |
Family
ID=80234895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111219320.2A Pending CN114067149A (zh) | 2021-10-20 | 2021-10-20 | 互联网服务提供方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067149A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018210A (zh) * | 2022-08-08 | 2022-09-06 | 太平金融科技服务(上海)有限公司深圳分公司 | 业务数据分类预测方法、装置、计算机设备和存储介质 |
-
2021
- 2021-10-20 CN CN202111219320.2A patent/CN114067149A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018210A (zh) * | 2022-08-08 | 2022-09-06 | 太平金融科技服务(上海)有限公司深圳分公司 | 业务数据分类预测方法、装置、计算机设备和存储介质 |
CN115018210B (zh) * | 2022-08-08 | 2023-01-10 | 太平金融科技服务(上海)有限公司深圳分公司 | 业务数据分类预测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657805B (zh) | 超参数确定方法、装置、电子设备及计算机可读介质 | |
CN108108743B (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
CN111199474B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
US20200177634A1 (en) | Hybrid Network Infrastructure Management | |
US20210150315A1 (en) | Fusing Multimodal Data Using Recurrent Neural Networks | |
CN112348519A (zh) | 一种欺诈用户识别方法、装置和电子设备 | |
CN104077723B (zh) | 一种社交网络推荐***及方法 | |
CN112036515A (zh) | 基于smote算法的过采样方法、装置和电子设备 | |
CN111932020B (zh) | 客户流失预测方法和装置 | |
CN107392259B (zh) | 构建不均衡样本分类模型的方法和装置 | |
CN111222976A (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN110708285B (zh) | 流量监控方法、装置、介质及电子设备 | |
CN111582645B (zh) | 基于因子分解机的app风险评估方法、装置和电子设备 | |
CN111291715B (zh) | 基于多尺度卷积神经网络的车型识别方法、电子设备及存储介质 | |
CN111191677B (zh) | 用户特征数据生成方法、装置及电子设备 | |
CN113159934A (zh) | 一种网点客流量的预测方法、***、电子设备及存储介质 | |
CN113570222A (zh) | 一种用户设备鉴别方法、装置和计算机设备 | |
CN114067149A (zh) | 互联网服务提供方法、装置和计算机设备 | |
CN111582649B (zh) | 基于用户app独热编码的风险评估方法、装置和电子设备 | |
CN109951859B (zh) | 无线网络连接推荐方法、装置、电子设备及可读介质 | |
CN113472860A (zh) | 大数据和数字化环境下的业务资源分配方法及服务器 | |
JP7276483B2 (ja) | 学習装置、分類装置、学習方法及び学習プログラム | |
CN110807159B (zh) | 数据标记方法、装置、存储介质及电子设备 | |
EP4332791A1 (en) | Blockchain address classification method and apparatus | |
CN108647333A (zh) | 一种信息共享方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |