CN112508095A - 一种样本处理方法、装置、电子设备及存储介质 - Google Patents
一种样本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112508095A CN112508095A CN202011419201.7A CN202011419201A CN112508095A CN 112508095 A CN112508095 A CN 112508095A CN 202011419201 A CN202011419201 A CN 202011419201A CN 112508095 A CN112508095 A CN 112508095A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- subset
- positive
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000005856 abnormality Effects 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种样本处理方法、装置、电子设备及存储介质,该方法包括:获取待处理的样本集合;采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数;根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。本申请涉及区块链技术,如可针对样本提取样本标签,并将样本标签和异常指数的对应关系写入区块链。
Description
技术领域
本申请涉及智能决策技术领域,尤其涉及一种样本处理方法、装置、电子设备及存储介质。
背景技术
一般来讲,样本可以用于多种应用场景中,在这些应用场景中大多数时候都涉及到样本分类等样本处理过程。例如,有监督学习需要标注的样本以用于模型训练,能够相对比较精准预测分类。无监督学习不需要标注的样本便可以用于模型训练,但一般只能得到大类的特征,很难对每一个样本得到好的结果。然而,样本的标注在很多场景中都很难直接获取,如保险欺诈、被盗、被骗等场景,往往需要花费大量的人力物力去调查分析,才能确定样本的“是”与“否”;还有些场景如图片标注,往往靠招募大量的人员去人工分析图片。上述样本标注的过程本质上就是样本分类过程的一个推广,然而上面这种通过人工对样本进行分类的方式降低了样本分类效率。
发明内容
本申请实施例提供了一种样本处理方法、装置、电子设备及存储介质,可以提升样本分类效率。
第一方面,本申请实施例提供了一种样本处理方法,包括:
获取待处理的样本集合;
采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数;
根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
可选地,所述异常检测的方法为基于独立森林的方法,所述采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数,包括:
将所述样本集合输入训练后的独立森林;
将所述样本集合中每个样本训练后的独立森林包括的每个独立树的根节点开始遍历,以确定所述每个样本在所述每个独立树的叶子节点,并根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数。
可选地,所述根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数,包括:
确定所述每个样本在所述每个独立树从所在的根节点到所在的叶子节点的路径长度;
根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数。
可选地,所述根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数,包括:
根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,计算所述每个样本的路径长度平均值;
根据所述每个样本的路径长度平均值,获得所述每个样本的异常指数。
可选地,所述根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,包括:
根据所述每个样本的异常指数确定所述样本集合中的异常指数大于预设值的多个样本,并将所述异常指数大于预设值的多个样本确定为多个正样本,构建包括所述多个正样本的正样本子集合;
根据所述每个样本的异常指数确定所述样本集合中的异常指数小于或等于预设值的多个样本,并将所述异常指数小于或等于预设值的多个样本确定为多个负样本,构建包括所述多个负样本的负样本子集合。
可选地,所述方法还包括:
利用所述正样本子集合和所述负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型;
利用训练后的监督学习模型进行分类预测。
可选地,所述方法还包括:
根据所述正样本子集合和所述负样本子集合进行业务处理。
第二方面,本申请实施例提供了一种样本处理装置,包括:
获取模块,用于获取待处理的样本集合;
检测模块,用于采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数;
分类模块,用于根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面所述的方法。
综上所述,电子设备可以获取待处理的样本集合,并采用异常检测的方法对该样本集合中的各个样本进行异常检测,得到该样本集合中每个样本的异常指数,从而根据该每个样本的异常指数对该样本集合进行分类,得到正样本子集合和负样本子集合,相较于现有技术通过人工对样本进行分类导致样本分类效率低下,本申请实施例能够提升样本分类的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种样本处理方法的流程示意图;
图2是本申请实施例提供的另一种样本处理方法的流程示意图;
图3是本申请实施例提供的一种样本处理装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,为本申请实施例提供的一种样本处理方法的流程示意图。该方法可以应用于电子设备。电子设备可以为终端或服务器。终端可以包括笔记本电脑、台式电脑等智能终端。服务器可以为一台服务器或服务器集群。具体地,该方法可以包括以下步骤:
S101、获取待处理的样本集合。
S102、采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数。
本申请实施例中,电子设备可以从本地或其它设备获取待处理的样本集合。其它设备是指存储有该待处理的样本集合的设备。在获取待处理的样本集合之后,服务器可以采用异常检测的方法对该样本集合中的各个样本进行异常检测,得到该样本集合中每个样本的异常指数。其中,异常检测的方法可以为以下任一项:基于统计学的方法、基于聚类的方法、基于专门的异常点检测算法。专门的异常点检测算法,如可以为基于独立森林iForest的方法。其中,独立森林又可以称为孤独森林。
在一个实施例中,在该异常检测的方法为基于独立森林的方法时,电子设备采用异常检测的方法对该样本集合中的各个样本进行异常检测,得到该样本集合中每个样本的异常指数的过程以为电子设备将该样本集合输入训练后的独立森林,并将该样本集合中每个样本训练后的独立森林包括的每个独立树的根节点开始遍历,以确定该每个样本在该每个独立树的叶子节点,并根据该每个样本在该每个独立树所在的根节点以及所在的叶子节点,确定该每个样本的异常指数。该异常指数可以为异常分值。通过独立森林确定异常指数的效率和准确度都比较高。
在一个实施例中,电子设备根据该每个样本在该每个独立树所在的根节点以及所在的叶子节点,确定该每个样本的异常指数的过程可以为:电子设备确定该每个样本在该每个独立树从根节点到所在的叶子节点的路径长度,并根据该每个样本在该每个独立树从根节点到所在的叶子节点的路径长度,确定该每个样本的异常指数。例如,独立森林包括t个独立树,以样本1为例,电子设备可以确定样本1在每个独立树从根节点到(样本1)所在的叶子节点的路径长度,这样就得到t个路径长度;电子设备可以根据这t个路径长度,确定样本1的异常指数。
在一个实施例中,电子设备根据该每个样本在该每个独立树从所在的根节点到所在的叶子节点的路径长度,确定该每个样本的异常指数的过程可以如下:电子设备根据该每个样本在该每个独立树从所在的根节点到所在的叶子节点的路径长度,计算该每个样本的路径长度平均值,并根据该每个样本的路径长度平均值,获得该每个样本的异常指数。例如,独立森林包括t个独立树,以样本1为例,电子设备可以确定样本1的t个路径长度后,对这t个路径长度进行均值计算,得到样本1的路径长度平均值,并根据样本1的路径长度平均值确定样本1的异常指数。
在一个实施例中,假设独立森林由t个独立树iTree构成,每个iTree是一个二叉树,上述独立树的构建过程可以如下:
1、从数据集合包括的n条样本中随机抽取m条(m小于或等于n)条样本作为根节点的数据集合;
2、从根节点的数据集合中随机抽取一个特征;
3、在该特征的值域中(max和min之间)随机选定一个值;
4、利用该值对根节点的数据集合进行二叉划分,将根节点的数据集合中小于或等于选定的值划到根节点的左分支,反之划到该根节点的右分支,得到左分支的数据集合和右分支的数据集合;
5、针对每个分支的数据集合重复执行上述步骤2-4,直到满足下述条件之一则停止,得到独立树。条件如下:
·树达到设定的深度
·节点只有一个数据(不能再切割)
在一个实施例中,电子设备iForest通过下面的公式计算异常指数:
其中,S(x,n)为异常指数,x为数据。h(x)为根据x在所有独立树中每个独立树的路径长度值计算得到的路径长度平均值,n样本个数,§=0.5772156649,为欧拉常数。S(x,n)的取值范围在[0,1]。其中:
·S(x,n)越接近1表示异常点的可能性越高;
·S(x,n)越接近0表示正常点的可能性越高;
·如果数据集合大部分数据的S(x,n)接近0.5,说明整个数据集合没有明显异常值。
S103、根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
其中,正样本可以是指属于某一类的样本,负样本可以是指不属于某一类的样本。
在一个实施例中,电子设备根据该每个样本的异常指数对该样本集合进行分类,得到正样本子集合和负样本子集合的过程可以为:电子设备根据该每个样本的异常指数确定该样本集合中的异常指数大于预设值的多个样本,并将该异常指数大于预设值的多个样本确定为多个正样本,构建包括该多个正样本的正样本子集合;电子设备根据该每个样本的异常指数确定该样本集合中的异常指数小于或等于预设值的多个样本,并将该异常指数小于或等于预设值的多个样本确定为多个负样本,构建包括该多个负样本的负样本子集合。
例如,样本集合包括样本1、样本2、样本3和样本4。预设值为0.5。样本1和样本2这两个样本的异常指数都小于0.5,样本3和样本4这两个样本的异常指数都大于0.5。电子设备可以根据该每个样本的异常指数,确定该样本集合中异常指数大于0.5的有样本3和样本4,并可以将样本3和样本4都确定为正样本,构建包括样本3和样本4的正样本子集合;电子设备还可以根据该每个样本的异常指数确定该样本集合中的异常指数小于或等于0.5有样本1和样本2,并将样本1和样本2都确定为负样本,构建包括样本1和样本2的负样本子集合。
在一个实施例中,电子设备在得到正样本子集合和负样本子集合之后,可以根据该正样本子集合和该负样本子集合进行业务处理。
在一个应用场景中,样本集合包括的样本为用于确定对应的用户账号是否为恶意账号的用户行为数据,正样本子集合包括的正样本对应的用户账号为恶意账号,而负样本子集合包括的负样本对应的用户账号不为恶意账号。本申请实施例中,在电子设备为服务器时,电子设备可以将正样本子集合包括的正样本对应的用户账号添加至黑名单,后如果接收到添加至黑名单的任一用户账号的访问请求,就可以拒绝处理该访问请求或可以向登录该添加至黑名单的任一用户账号的用户终端发送警告信息。在一个实施例中,在电子设备为终端时,电子设备可以将正样本子集合包括的正样本对应的用户账号添加至黑名单,并将黑名单发送至对应的服务器,以便服务器如果接收到添加至黑名单的任一用户账号的访问请求,就可以拒绝处理该访问请求或可以向登录该添加至黑名单的任一用户账号的用户终端发送警告信息。
再一个应用场景中,样本集合包括的样本为用于确定对应的用户是否为骗保用户的行为数据(如可以为用于确定对应的医保卡用户是否为骗保用户的医疗数据或可以为用于确定对应的投保用户是否为骗保用户的行为数据),正样本子集合包括的正样本对应的用户为骗保用户,而负样本子集合包括的负样本对应的用户不为恶意用户。在一个实施例中,在电子设备为服务器时,服务器可以将正样本子集合包括的正样本对应的用户的标识信息添加至失信名单。后续,对于失信名单记录的保险用户,如果接收到失信名单记录的保险用户的投保请求,就可以拒绝处理该投保请求。在电子设备为终端时,电子设备可以将正样本子集合包括的正样本对应的用户的标识信息添加至失信名单,并可以将失信名单发送至对应的服务器,以便服务器如果接收到失信名单记录的保险用户的投保请求,就可以拒绝处理该投保请求。
再一个应用场景中,如果样本集合包括的样本为用于确定对应的车主是否为风险车主的第一行车数据,正样本子集合包括的正样本对应的车主为风险车主,而负样本子集合包括的负样本对应的车主不为风险车主。在一个实施例中,电子设备可以将正样本子集合包括的正样本对应的车主添加至风险名单,并获取风险车主的第二行车数据以对该风险车主进行监控。后如果根据该第二行车数据确定该风险车主的风险等级为预设等级时,向该风险车主的用户终端发送提示信息以提示该风险车主注意行车安全。
可见,图1所示的实施例中,电子设备可以获取待处理的样本集合,并采用异常检测的方法对该样本集合中的各个样本进行异常检测,得到该样本集合中每个样本的异常指数,从而根据该每个样本的异常指数对该样本集合进行分类,得到正样本子集合和负样本子集合,本申请实施例能够提升样本分类的效率。
请参阅图2,为本申请实施例提供的另一种样本处理方法的流程示意图。该方法可以应用于前述提及的电子设备。相较于图1实施例,图2实施例增加了将无监督算法用于监督算法的场景。具体地,该方法可以包括以下步骤:
S201、获取待处理的样本集合。
S202、采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数。
S203、根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
其中,步骤S201-步骤S203可参见图1实施例的步骤S101-S103,本申请实施例在此不做赘述。
S204、利用所述正样本子集合和所述负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型。
S205、利用训练后的监督学习模型进行分类预测。
在步骤S204-步骤S205中,电子设备可以利用该正样本子集合和该负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型,并利用训练后的监督学习模型进行分类预测。其中,监督学习是指通过已有的训练样本来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的。
在一个实施例中,电子设备可以利用正样本子集合和对应的第一标签列表,以及负样本子集合和对应的第二标签列表对原始的有监督学习模型进行训练,得到训练后的监督学习模型。该方法可以大幅减少样本标注的人力及时间成本,且能达到较高精度。
在一个实施例中,电子设备可以对该正样本子集合进行数据筛选,得到筛选后的正样本子集合;电子设备还可以对该负样本子集合进行数据筛选,得到筛选后的负样本子集合。电子设备可以利用该筛选后的正样本子集合和该筛选后的负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型,并利用训练后的监督学习模型进行分类预测。
在一个实施例中,电子设备具体可以通过预设的特征选择算法对该正样本子集合进行数据筛选,得到筛选后的正样本子集合。相应地,电子设备也可以通过预设的特征选择算法对该负样本子集合进行数据筛选,得到筛选后的负样本子集合。
在一个实施例中,电子设备可以利用该筛选后的正样本子集合和对应的第三标签列表,以及该筛选后的负样本子集合和对应的第四标签列表对原始的有监督学***衡成本与精度。
在一个实施例中,电子设备利用训练后的监督学习模型进行分类预测的方式可以为:电子设备将待预测数据作为监督学习模型的输入数据,由监督学习模型根据待预测数据进行分类预测,得到分类预测结果。
在一个实施例中,电子设备确定目标样本子集合中每个样本指向的对象(如用户账号、用户或车主),并获取每个样本指向的对象的历史异常指数,历史异常指数包括预设时间范围内每个时间记录的异常指数;电子设备将每个样本指向的对象的历史异常指数进行累加,得到每个样本指向的对象的异常指数累加结果,根据异常指数累加结果为对应的样本设置标签,得到该目标样本子集合对应的标签列表。该目标样本子集合以及对应的标签列表可以用于监督学习模型的训练过程。目标样本子集合可以包括正样本子集合和/或负样本子集合,或,可以包括筛选后的正样本子集合和/或筛选后的负样本子集合。
在一个实施例中,电子设备根据每个样本指向的对象的异常指数累加结果为对应样本设置标签的过程可以为:电子设备根据每个样本指向的对象的异常指数累加结果对对应样本的原始标签进行修正,得到该样本对应的修正后的标签。在一个实施例中,电子设备可以将每个样本指向的对象的历史异常指数中各异常指数乘以各自的衰减系数后相加,得到每个样本指向的对象的异常指数累加结果。在一个实施例中,衰减系数与时间相关。在一个实施例中,电子设备可以将每个样本指向的对象的历史异常指数中各异常指数乘以各自的衰减系数和空间系数后相加,得到每个样本指向的对象的异常指数累加结果。在一个实施例中,空间系数与样本指向的对象的位置(如账号登录地、医保使用地或车辆行驶地)相关,例如,位置越异常空间系数越高。在一个实施例中,电子设备可以将每个样本指向的对象的历史异常指数中各异常指数乘以各自的衰减系数后相加,得到每个样本指向的对象的异常指数累加结果。
可见,图2所示的实施例中,电子设备可以利用所述正样本子集合和所述负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型,利用训练后的监督学习模型进行分类预测,采用该过程不仅使得样本标注过程更为简单,并且也避免了因人工标注可能的标注误差导致模型出现预测不准确的情况。
本申请涉及区块链技术,如可针对样本提取样本标签,并将样本标签和异常指数的对应关系写入区块链。
请参阅图3,为本申请实施例提供的一种样本处理装置的结构示意图。该样本处理装置可以应用于前述提及的电子设备。该样本处理装置可以包括:
获取模块301,用于获取待处理的样本集合。
检测模块302,用于采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数。
分类模块303,用于根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
在一种可选的实施方式中,所述异常检测的方法为基于独立森林的方法,检测模块302采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数,具体为将所述样本集合输入训练后的独立森林;将所述样本集合中每个样本训练后的独立森林包括的每个独立树的根节点开始遍历,以确定所述每个样本在所述每个独立树的叶子节点,并根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数。
在一种可选的实施方式中,检测模块302根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数,具体为确定所述每个样本在所述每个独立树从所在的根节点到所在的叶子节点的路径长度;根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数。
在一种可选的实施方式中,检测模块302根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数,具体为根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,计算所述每个样本的路径长度平均值;根据所述每个样本的路径长度平均值,获得所述每个样本的异常指数。
在一种可选的实施方式中,分类模块303根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,具体为根据所述每个样本的异常指数确定所述样本集合中的异常指数大于预设值的多个样本,并将该异常指数大于预设值的多个样本确定为多个正样本,构建包括该多个正样本的正样本子集合;根据所述每个样本的异常指数确定所述样本集合中的异常指数小于或等于预设值的多个样本,并将该异常指数小于或等于预设值的多个样本确定为多个负样本,构建包括该多个负样本的负样本子集合。
在一种可选的实施方式中,处理模块304,用于利用所述正样本子集合和所述负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型;利用训练后的监督学习模型进行分类预测。
在一种可选的实施方式中,处理模块304,还用于根据所述正样本子集合和所述负样本子集合进行业务处理。
可见,图3所示的实施例中,样本处理装置可以获取待处理的样本集合,并采用异常检测的方法对该样本集合中的各个样本进行异常检测,得到该样本集合中每个样本的异常指数,从而根据该每个样本的异常指数对该样本集合进行分类,得到正样本子集合和负样本子集合,该方法能够提升样本分类效率。
请参阅图4,为本申请实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备可以包括:一个或多个处理器1000和存储器2000。处理器1000和存储器2000可以通过总线连接。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器2000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器2000用于存储一组程序代码,处理器1000可以调用存储器2000中存储的程序代码。具体地:
处理器1000,获取待处理的样本集合;采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数;根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
在一个实施例中,所述异常检测的方法为基于独立森林的方法,处理器1000采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数,具体为将所述样本集合输入训练后的独立森林;将所述样本集合中每个样本训练后的独立森林包括的每个独立树的根节点开始遍历,以确定所述每个样本在所述每个独立树的叶子节点,并根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数。
在一个实施例中,处理器1000根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数,具体为确定所述每个样本在所述每个独立树从所在的根节点到所在的叶子节点的路径长度;根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数。
在一个实施例中,处理器1000根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数,具体为根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,计算所述每个样本的路径长度平均值;根据所述每个样本的路径长度平均值,获得所述每个样本的异常指数。
在一个实施例中,处理器1000根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,具体为根据所述每个样本的异常指数确定所述样本集合中的异常指数大于预设值的多个样本,并将该异常指数大于预设值的多个样本确定为多个正样本,构建包括该多个正样本的正样本子集合;根据所述每个样本的异常指数确定所述样本集合中的异常指数小于或等于预设值的多个样本,并将该异常指数小于或等于预设值的多个样本确定为多个负样本,构建包括该多个负样本的负样本子集合。
在一个实施例中,处理器1000,还用于利用所述正样本子集合和所述负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型;利用训练后的监督学习模型进行分类预测。
在一个实施例中,处理器1000,还用于根据所述正样本子集合和所述负样本子集合进行业务处理。
具体实现中,本申请实施例中所描述的处理器1000可执行图1实施例、图2实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现,也可以采样软件功能模块的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为易失性的或非易失性的。例如,该计算机存储介质可以为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (10)
1.一种样本处理方法,其特征在于,包括:
获取待处理的样本集合;
采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数;
根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
2.根据权利要求1所述的方法,其特征在于,所述异常检测的方法为基于独立森林的方法,所述采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数,包括:
将所述样本集合输入训练后的独立森林;
将所述样本集合中每个样本训练后的独立森林包括的每个独立树的根节点开始遍历,以确定所述每个样本在所述每个独立树的叶子节点,并根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个样本在所述每个独立树所在的根节点以及所在的叶子节点,确定所述每个样本的异常指数,包括:
确定所述每个样本在所述每个独立树从所在的根节点到所在的叶子节点的路径长度;
根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,确定所述每个样本的异常指数,包括:
根据所述每个样本在所述每个独立树从根节点到所在的叶子节点的路径长度,计算所述每个样本的路径长度平均值;
根据所述每个样本的路径长度平均值,获得所述每个样本的异常指数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,包括:
根据所述每个样本的异常指数确定所述样本集合中的异常指数大于预设值的多个样本,并将所述异常指数大于预设值的多个样本确定为多个正样本,构建包括所述多个正样本的正样本子集合;
根据所述每个样本的异常指数确定所述样本集合中的异常指数小于或等于预设值的多个样本,并将所述异常指数小于或等于预设值的多个样本确定为多个负样本,构建包括所述多个负样本的负样本子集合。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述正样本子集合和所述负样本子集合对原始的监督学习模型进行训练,得到训练后的监督学习模型;
利用训练后的监督学习模型进行分类预测。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述正样本子集合和所述负样本子集合进行业务处理。
8.一种样本处理装置,其特征在于,包括:
获取模块,用于获取待处理的样本集合;
检测模块,用于采用异常检测的方法对所述样本集合中的各个样本进行异常检测,得到所述样本集合中每个样本的异常指数;
分类模块,用于根据所述每个样本的异常指数对所述样本集合进行分类,得到正样本子集合和负样本子集合,其中,所述正样本子集合包括多个正样本,所述负样本子集合包括多个负样本。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419201.7A CN112508095A (zh) | 2020-12-07 | 2020-12-07 | 一种样本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419201.7A CN112508095A (zh) | 2020-12-07 | 2020-12-07 | 一种样本处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508095A true CN112508095A (zh) | 2021-03-16 |
Family
ID=74970403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419201.7A Pending CN112508095A (zh) | 2020-12-07 | 2020-12-07 | 一种样本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508095A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108622103A (zh) * | 2018-05-08 | 2018-10-09 | 清华大学 | 行车风险辨识模型的标定方法和*** |
CN109936561A (zh) * | 2019-01-08 | 2019-06-25 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
CN110162970A (zh) * | 2019-01-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种程序处理方法、装置以及相关设备 |
CN110217238A (zh) * | 2019-06-18 | 2019-09-10 | 北京中位科技有限公司 | 一种行车风险等级判断优化方法 |
CN111740991A (zh) * | 2020-06-19 | 2020-10-02 | 上海仪电(集团)有限公司中央研究院 | 一种异常检测方法及*** |
-
2020
- 2020-12-07 CN CN202011419201.7A patent/CN112508095A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108622103A (zh) * | 2018-05-08 | 2018-10-09 | 清华大学 | 行车风险辨识模型的标定方法和*** |
CN109936561A (zh) * | 2019-01-08 | 2019-06-25 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
CN110162970A (zh) * | 2019-01-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种程序处理方法、装置以及相关设备 |
CN110217238A (zh) * | 2019-06-18 | 2019-09-10 | 北京中位科技有限公司 | 一种行车风险等级判断优化方法 |
CN111740991A (zh) * | 2020-06-19 | 2020-10-02 | 上海仪电(集团)有限公司中央研究院 | 一种异常检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475804B (zh) | 一种告警预测方法及*** | |
CN112329847A (zh) | 一种异常检测方法、装置、电子设备及存储介质 | |
CN111917740A (zh) | 一种异常流量告警日志检测方法、装置、设备及介质 | |
CN114244611B (zh) | 异常攻击检测方法、装置、设备及存储介质 | |
CN112883990A (zh) | 数据分类方法及装置、计算机存储介质、电子设备 | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116052848B (zh) | 一种医学成像质控的数据编码方法及*** | |
CN113032524A (zh) | 商标侵权识别方法、终端设备及存储介质 | |
CN116662904A (zh) | 数据类型的变异检测方法、装置、计算机设备及介质 | |
CN116843395A (zh) | 一种业务***的告警分级方法、装置、设备及存储介质 | |
CN108875060B (zh) | 一种网站识别方法及识别*** | |
CN112508095A (zh) | 一种样本处理方法、装置、电子设备及存储介质 | |
CN116257885A (zh) | 基于联邦学习的隐私数据通信方法、***和计算机设备 | |
CN116049644A (zh) | 特征筛选和聚类分箱方法、装置、电子设备及存储介质 | |
CN116166999A (zh) | 异常交易数据识别方法、装置、计算机设备及存储介质 | |
CN113283677B (zh) | 指标数据处理方法、装置、设备及存储介质 | |
CN114581219A (zh) | 一种反电信网络诈骗预警方法及*** | |
CN115099946A (zh) | 一种基于银行人脸存储平台的容量预测方法及*** | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN112966988A (zh) | 基于XGBoost模型的数据评估方法、装置、设备及存储介质 | |
CN113256402A (zh) | 风险控制规则确定方法、装置和电子设备 | |
CN113837863B (zh) | 一种业务预测模型创建方法、装置及计算机可读存储介质 | |
CN115174238B (zh) | 网络攻击源识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |