CN114077859A - 异常样本的检测方法及装置、电子设备、存储介质 - Google Patents

异常样本的检测方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN114077859A
CN114077859A CN202010827028.8A CN202010827028A CN114077859A CN 114077859 A CN114077859 A CN 114077859A CN 202010827028 A CN202010827028 A CN 202010827028A CN 114077859 A CN114077859 A CN 114077859A
Authority
CN
China
Prior art keywords
sample
sample data
data
detected
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010827028.8A
Other languages
English (en)
Inventor
王睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010827028.8A priority Critical patent/CN114077859A/zh
Publication of CN114077859A publication Critical patent/CN114077859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本说明书一个或多个实施例提供一种异常样本的检测方法及装置、电子设备、存储介质;该方法可以包括:获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别;使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测;确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。

Description

异常样本的检测方法及装置、电子设备、存储介质
技术领域
本说明书一个或多个实施例涉及人工智能技术领域,尤其涉及一种异常样本的检测方法及装置、电子设备、存储介质。
背景技术
在相关技术中,机器学习技术可利用算法、从已有数据中学习,对现实世界的情况作出判断和决策。机器学习技术包括有监督学习、无监督学习、半监督学习、强化学习等等。
针对有监督学习的训练过程,输入的样本数据被称为“训练集”,训练集中的样本数据有一个明确的标识或结果(即样本标签),再利用有监督学习算法建立预测模型时,有监督学习算法建立一个学习过程,将预测结果与“训练集”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。
有监督学习的常见应用场景包括分类问题、回归问题等,常见算法包括逻辑回归、神经网络、决策树、支持向量机、贝叶斯分类器等等。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种异常样本的检测方法及装置、电子设备、存储介质。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种异常样本的检测方法,包括:
获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别;
使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测;
确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。
可选的,还包括:
在所述待检测样本库中获得预测结果为目标类别的第一样本数据,所述目标类别为所述目标样本数据中的第二样本数据的预测结果;
计算所述第一样本数据与第二样本数据的相似度;
根据所述相似度确定所述第一样本数据是否为异常样本。
可选的,还包括:
将所述待检测样本库中的样本数据分为N份,N为大于等于2的整数;
将其中的M份作为训练集训练所述机器学习模型,并使用所述机器学习模型对N-M份的样本数据进行预测;
如果在所述待检测样本库中的第三样本数据的预测结果与所述第三样本数据被标注的数据类别不一致,将所述第三样本数据作为异常样本。
可选的,所述使用所述待检测样本库训练机器学习模型,包括:
采用神经网络算法对所述待检测样本库进行训练以得到神经网络模型;
其中,将迭代过程中针对所述验证集中样本数据的预测结果与相应标准类别之间的误差满足预设误差条件时的模型参数,作为所述神经网络模型的模型参数。
可选的,所述计算所述第一样本数据与第二样本数据的相似度,包括:
确定所述第一样本数据在所述神经网络模型的预设中间层中计算出的第一向量数据;
确定所述第二样本数据在所述预设中间层中计算出的第二向量数据;
计算所述第一向量数据与所述第二向量数据之间的相似度。
可选的,所述预设中间层至少包括所述神经网络模型的输出层的前一层。
可选的,所述根据所述相似度确定所述第一样本数据是否为异常样本,包括:
根据所述相似度的大小对多个第一样本数据进行排序;
按照排名依次选取至少一个第一样本数据,以获取针对选取出的第一样本数据中异常样本的检测结果,直到获取到的检测结果满足预设检测条件为止。
可选的,每次选取出的第一样本数据的数量与选取次数呈正相关。
根据本说明书一个或多个实施例的第二方面,提出了一种异常样本的检测装置,包括:
第一获取单元,获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别;
第一训练单元,使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测;
第一检测单元,确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。
可选的,还包括:
第二获取单元,在所述待检测样本库中获得预测结果为目标类别的第一样本数据,所述目标类别为所述目标样本数据中的第二样本数据的预测结果;
计算单元,计算所述第一样本数据与第二样本数据的相似度;
第二检测单元,根据所述相似度确定所述第一样本数据是否为异常样本。
可选的,还包括:
划分单元,将所述待检测样本库中的样本数据分为N份,N为大于等于2的整数;
第二训练单元,将其中的M份作为训练集训练所述机器学习模型,并使用所述机器学习模型对N-M份的样本数据进行预测;
第三检测单元,如果在所述待检测样本库中的第三样本数据的预测结果与所述第三样本数据被标注的数据类别不一致,将所述第三样本数据作为异常样本。
可选的,所述第一训练单元具体用于:
采用神经网络算法对所述待检测样本库进行训练以得到神经网络模型;
其中,将迭代过程中针对所述验证集中样本数据的预测结果与相应标准类别之间的误差满足预设误差条件时的模型参数,作为所述神经网络模型的模型参数。
可选的,所述第一训练单元进一步用于:
确定所述第一样本数据在所述神经网络模型的预设中间层中计算出的第一向量数据;
确定所述第二样本数据在所述预设中间层中计算出的第二向量数据;
计算所述第一向量数据与所述第二向量数据之间的相似度。
可选的,所述预设中间层至少包括所述神经网络模型的输出层的前一层。
可选的,所述第一检测单元具体用于:
根据所述相似度的大小对多个第一样本数据进行排序;
按照排名依次选取至少一个第一样本数据,以获取针对选取出的第一样本数据中异常样本的检测结果,直到获取到的检测结果满足预设检测条件为止。
可选的,每次选取出的第一样本数据的数量与选取次数呈正相关。
根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述实施例中任一所述的方法。
根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述实施例中任一所述方法的步骤。
由以上实施例可见,本说明书提供的技术方案中配置有一对应于样本库的验证集,该验证集中的样本数据被标注有标准类别(标准标签默认均为正确的标签,不存在标注错误)。那么,可利用验证集中的样本数据来验证基于样本库进行训练得到的机器学习模型,从而将在验证集中预测错误的样本数据(即目标样本数据)作为异常样本。
进一步的,样本库中与其相似的类似样本数据也可能为标签存在标注错误的异常样本,那么可从这些类似样本数据中选取出样本数据进行进一步校验,以确定是否为异常样本。
一方面,上述机器学习模型由该样本库训练得到,通过从与预测错误的目标样本数据类似的样本数据中选取出样本数据进行校验,可准确筛选出样本库中非离群的***性错误样本进行检测。另一方面,通过上述筛选出样本数据进行异常检测的方式,可减少所需检测的样本数据的数据量,从而有效降低异常样本的检测成本。
附图说明
图1是一示例性实施例提供的一种异常样本的检测方法的流程图。
图2是一示例性实施例提供的一种神经网络模型的示意图。
图3是一示例性实施例提供的一种异常文本的检测方法的流程图。
图4是一示例性实施例提供的另一种异常文本的检测方法的流程图。
图5是一示例性实施例提供的一种设备的结构示意图。
图6是一示例性实施例提供的一种异常文本的检测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在采用有监督学习算法训练机器学习模型时,训练所采用的样本数据(即训练集)需要标注有标签,也即建立样本数据与标签之前的映射关系,构建“输入-输出”对,从而输入有监督学习算法进行训练。其中,训练集被作为正确信息以由有监督学习算法学习其中输入到输出的映射关系所体现的规律,进而在训练完成后,可对其他数据进行预测。可见,有监督学习算法的训练过程依赖于对样本数据进行标注,若训练集中标签存在标注错误的样本数据(以下称为异常样本)较多,将极大影响训练出的机器学习模型的预测效果。
本说明书旨在提供一种异常样本的检测方案,可在有效筛选出用于训练模型的样本库中的异常样本的情况下,降低筛选的成本。
请参见图1,图1是一示例性实施例提供的一种异常样本的检测方法的流程图。如图1所示,该方法应用于任意可用于训练机器学习模型的电子设备中,可以包括以下步骤:
步骤102,获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别。
在本实施例中,待检测样本库可以是后续用于训练机器学习模型所采用的样本库,也即样本库作为机器学习模型的训练集。样本库中的样本数据存在与之对应的标签,该标签标注的可以是样本数据的数据类别;当然,标签的具体内容可根据实际需求灵活设定,本说明书并不对此进行限制。本说明书提供的技术方案正是为了检测出标注错误的标签(即实际上该错误的标签与样本数据并不存在对应关系),因此样本库中样本数据的标签为待检测标签。而针对与待检测样本库对应的验证集,则是用于校验训练得到的机器学习模型的预测效果,因此该验证集中样本数据被标注的标签默认为正确的标签(以下称为标准标签),即不存在异常样本。例如,在检测样本库中的样本数据被标注数据类别的情况下,相应的验证集中的样本数据被标注有标准类别。
举例而言,待检测样本库和验证集中的样本数据可以是文本数据;在该情况下,文本数据标注的标签可以是文本数据的文本类别,即待检测样本库用于训练可识别文本类别的机器学习模型。当然,样本数据和相应的标签还可以是其他任意类型的数据,本说明书一个或多个实施例并不对此进行限制。比如,样本数据还可以是图像数据、音频数据等。以人脸识别为例,图像数据为人脸图像,相应的标签则为该人脸图像对应的用户标识(身份证号码、用户名、用户账号等等)。为了方便描述,后续均以样本数据为文本为例进行说明,针对其他类型样本数据的检测原理与此类似。
结合客服场景进行说明,客服平台可训练用于进行文本分类的机器学习模型,从而对用户输入的问题进行预测,得到用户问题所属的知识点,进而根据该知识点来确定用户问题的回答方式;比如,可返回针对用户问题所属知识点的详细解释。针对上述应用场景,则需要构建用于训练上述模型的文本库(即为样本库),该文本库中的文本数据的内容为用户问题,被标注有用于表示所属问题的知识点的标签。然而,在实际情况中,由于业务本身的复杂性、标注工作的难度、标注人员不认真、业务范围变动导致前后不一、知识库维护标准不统一等原因,文本库中标签的标注错误比较多。
步骤104,使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测。
在本实施例中,可将待检测样本库作为训练集,采用有监督学习算法对训练集进行训练得到监督式的机器学习模型。基于训练得到的机器学习模型,可采用上述验证集作为探针,检测待检测样本库中的存在标注错误的异常样本。其中,基于以验证集作为探针的特点,验证集的数据规模可小于待检测样本库的数据规模。比如,验证集包含的样本数据的数量为待检测样本库中包含样本数据的数量的1/100;当然,验证集的数据规模可根据实际情况灵活设定,本说明书并不对此进行限制。
步骤106,确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。
在本实施例中,可利用验证集作为一个整体来对待检测样本库进行探测,同时检测出随机性标注错误(离群点)和部分***性标注错误(非离群点)。具体而言,在获取训练得到的机器学习模型在验证集上预测错误的目标样本数据之后,可获取针对该目标样本数据中异常样本的检测结果,然后将对应于上述目标样本数据的检测结果作为针对待检测样本库中异常样本的检测结果。其中,上述对应于目标样本数据的检测结果,可由上述电子设备输出,以由标注人员人工进行检测;然后,再由标注人员将检测出的标注错误进行修改,输入至该电子设备中。
在本实施例中,除上述将验证集整体作为探针来对待检测样本库进行探测以外,还可利用验证集中的每个样本作为探针来检测异常样本,从而准确筛选出属于非离群点的***性错误样本。
具体而言,将验证集中的任一样本数据输入机器学习模型,若该机器学习模型输出的预测结果与该样本数据的标准标签不一致,则判定针对该样本数据预测错误;其中,验证集中每个预测错误的样本数据构成目标样本数据。那么,利用验证集中的每个样本作为探针进行检测的过程可以包括:在待检测样本库中获得预测结果为目标类别的第一样本数据,该目标类别为目标样本数据中的第二样本数据的预测结果(第二样本数据可以是目标样本数据中的任一样本数据,也即第二样本数据为验证集中预测错误的样本数据);计算第一样本数据与第二样本数据的相似度,从而根据计算出的相似度确定第一样本数据是否为异常样本。
以验证集作为探针检测异常样本的原理为:使用基于待检测样本库训练得到的机器学习模型对验证集中的样本数据进行预测,对于验证集中每个预测错误的样本数据(即上述第二样本数据),查找待检测样本库中与之相似的样本数据(即上述第一样本数据),而查找到的样本数据中则可能包含标签标注错误的异常样本。本领域技术人员应当理解的是:对于验证集中机器学习模型预测错误的任一样本数据,由于该机器学习模型由待检测样本库训练得到,即该机器学习模型学习到的规律能够体现待检测样本库中样本数据与待检测标签之间的映射关系,而该任一样本数据预测错误,那么待检测样本库中与其相似的类似样本数据则很可能也存在类似的错误,也就可以从这些类似样本数据中选取出样本数据进行进一步校验,以确定是否为异常样本。例如,可基于计算出的相似度选取类似样本数据,获取针对选取出的类似样本数据中异常样本的检测结果。与上述类似的,上述类似样本数据的检测结果,可由上述电子设备输出,以由标注人员人工进行检测;然后,再由标注人员将检测出的标注错误进行修改,输入至该电子设备中。
针对异常样本,包括非离群的***性错误样本(非离群点)和离群的错误样本(离群点)两种类型。同样以文本为例进行说明。例如,某条文本及文本类别相同的其他文本都被错误标注为一个错误的类别,那么这些文本则属于非离群的***性错误样本。而对于偶然性的随机标注错误(比如只有某一条文本的文本类别标注错误,而其他相同文本类别的文本的标注不存在错误)的情况,则属于离群错误样本。
一方面,上述机器学习模型由该样本库训练得到,通过从与预测错误的目标样本数据类似的样本数据中选取出样本数据进行校验,可准确筛选出样本库中非离群的***性错误样本进行检测。另一方面,通过上述筛选出样本数据进行异常检测的方式,可减少所需检测的样本数据的数据量,从而有效降低异常样本的检测成本。
作为一示例性实施例,可采用神经网络算法对待检测样本库进行训练以得到神经网络模型,从而获得较好的泛化性能(generalization performance),也即在训练过程中能够较好地拟合样本数据。为了防止神经网络出现过拟合(即神经网络在训练集上的错误率越来越低,而实际的预测效果反而出现下降)的情况,可采用验证集来评估神经网络模型的泛化能力。比如,将迭代过程中针对验证集中样本数据的预测结果与相应标准类别之间的误差满足预设误差条件时的模型参数,作为神经网络模型的模型参数。其中,该预设误差条件可以根据实际情况灵活调整,本说明书并不对此进行限制。
例如,可将迭代过程中上述误差最小的情况下对应的模型参数作为神经网络模型的模型参数。举例而言,在训练的迭代过程中,在每个迭代周期内,使用当前模型在验证集上评估预测效果,然后选取各个迭代周期中在验证集上预测效果最好时的模型参数作为神经网络模型的最终模型参数。
或者,将上述误差未超过预设误差阈值的情况下对应的模型参数作为神经网络模型的模型参数。举例而言,由于神经网络的拟合能力较强,在验证集上的预测效果在迭代过程中会先上升然后再逐渐下降。因此,可在每个迭代周期计算当前模型在验证集上的误差,直到当前模型在验证集上的误差比上一迭代周期的误差大时,停止训练,并将上一迭代周期内的模型参数作为神经网络模型的最终模型参数。
承接于上述采用神经网络算法训练神经网络模型的实施例,针对步骤106中计算相似度的操作,由于采用了神经网络来进行训练,可充分利用神经网络的特征编码能力,使用神经网络的中间层(隐藏层)计算出的向量来表示相应的样本数据,从而代替样本数据来参与相似度计算,可有效提高计算相似度的准确率。具体而言,对于第一样本数据与第二样本数据之间的相似度计算,可确定上述第一样本数据在神经网络模型的预设中间层中计算出的第一向量数据,以及确定第二样本数据在预设中间层中计算出的第二向量数据,然后计算第一向量数据与第二向量数据之间的相似度。
举例而言,如图2所示,神经网络包括输入层(input layer)、中间层(hiddenlayers,也叫隐藏层)和输出层(output layer)。其中,对于中间层的层数,可由开发人员根据实际情况和经验来灵活选取,图2以中间层包含两层为例进行说明。本说明书可充分利用神经网络的特征编码能力,使用输入的样本数据在中间层上计算出的向量来代替该样本数据进行相似度计算,从而为在验证集上预测错误的样本数据提供错误理由。其中,由于在神经网络中,越靠近输出层的中间层提取出的特征,为越能够体现出样本数据与标签之间映射关系规律的特征;因此,选取出的上述预设中间层,可至少包括神经网络模型的输出层的前一层,从而有效提高计算相似度的准确率。
在一种情况下,可仅选取位于输出层前一层的中间层作为预设中间层,从而在保证相似度计算准确率的情况下减少计算数据量。在另一种情况下,可选取输出层前一层以及其他中间层的向量共同参与相似度计算。以图2为例,针对待检测样本库和验证集中的样本数据,可同时选取在中间层的第一层和第二层上的向量,然后将选取出的向量进行拼接,以共同参与相似度计算。
在本实施例中,在计算出第一样本数据和第二样本数据之间的相似度之后,可基于相似度大小来选取出部分样本数据进行异常样本的检测,从而降低检测的数据量。比如,可根据相似度的大小对多个第一样本数据进行排序(按照相似度从大到小进行排序),然后再按照排名依次选取至少一个第一样本数据,以获取针对选取出的第一样本数据中异常样本的检测结果,直到获取到的检测结果满足预设检测条件为止。换言之,优先检测相似度相对较高的类似样本数据。
为了进一步降低检测的数据量,并且尽可能多地检测出异常样本,可设定为:每次选取出的第一样本数据的数量与选取次数呈正相关。
在本实施例中,可将待检测样本库中的样本数据分为N份,N为大于等于2的整数。基于将待检测样本库划分为N份,可通过交叉验证的形式,检测待检测样本库中与整体分布有冲突的样本数据。具体而言,将其中的M份作为训练集训练所述机器学习模型,并使用所述机器学习模型对N-M份的样本数据进行预测;如果在所述待检测样本库中的第三样本数据的预测结果与所述第三样本数据被标注的数据类别不一致,将所述第三样本数据作为异常样本。
为了便于理解,下面以样本数据为文本,标签为文本类别为例对本说明书的异常样本的检测方案进行详细说明。
在本说明书针对异常文本的检测方案中,对异常文本的检测可分为三个阶段。针对第一阶段和第二阶段,结合图3进行说明。请参见图3,图3是一示例性实施例提供的一种异常文本的检测方法的流程图。如图3所示,该方法可以包括以下步骤:
步骤302,将语料库划分为N份。
在本实施例中,语料库可作为训练神经网络模型的训练集。在该语料库中,文本为用户输入的问题,被标注的文本类别为文本所属的知识点,即建立有“文本->类别”的映射关系。
以网络运营商的场景为例,上述“文本->类别”的映射关系可以如表1所示:
用户问题(样本数据) 文本类别(标签)
国内剩余流量能否开热点 个人热点设置说明
彩信无法发送 彩信无法使用说明
积分兑换的话费怎么用 积分兑换介绍
异地怎么补办手机卡 跨区补卡介绍
什么是定向流量 定向流量介绍
…… ……
表1
步骤304,对划分得到的N份语料库进行交叉验证。
步骤306,输出异常文本。
在本实施例中,基于将语料库划分为N份,可通过交叉验证的形式,检测语料库中与整体分布有冲突的文本。具体而言,将语料库划分成N份,以其中任意N-1份作为训练集,训练用于文本分类的深度神经网络模型,并在另外1份上进行预测。经过N次循环,对于语料库中的每一条文本,都将得到一个预测结果。如果该深度神经网络模型针对某一文本的预测结果与该文本的标签不一致,说明该文本与语料库整体分布之间存在冲突。那么,可根据错误程度(即深度神经网络模型输出的预测分数)进行排序,然后按照排名输出标注可能存在错误的可疑样本,以由标注人员对可疑样本进行检测,并修改其中的异常样本的标签。由此可见,在第一阶段中,可检测出语料库中的大部分离群点。
进一步的,除离群点以外,语料库中还可能存在非离群点。比如,对于文本“我有多少积分”、“积分余额”、“我想查一下积分”等,属于知识点“积分查询方式”;对于文本“我兑换的物品在哪里看”、“积分兑换明细”、“刚才积分兑换是否成功”等,属于知识点“积分兑换记录查询方式”。那么,对于本应该标注为“积分兑换记录查询方式”,但是实际去被标注为“积分查询方式”的上述多个文本,则属于***性错误样本,也即非离群点。
针对上述非离群点,则进一步采用第二阶段和第三阶段来进行检测。
步骤308,使用语料库训练神经网络模型。
在本实施例中,经过上述第一阶段,标注人员已将上述离群点的错误标注进行修改,从而更新语料库。那么,在第二阶段中,可利用更新后的语料库来训练深度神经网络模型,从而进一步检测出剩余的离群点和部分非离群点。
步骤310,在验证集上评估预测效果。
步骤312,若预测效果达到最佳,则转入步骤314;否则,返回至步骤308。
在本实施例中,为了防止深度神经网络出现过拟合的情况,可采用验证集来评估神经网络模型的泛化能力。其中,验证集中文本的标签可认为是完全正确的。比如,可由标注人员将上述第一阶段中已修改过的文本作为验证集的一部分,还可由标注人员从线上客服***的线上日志中随机选取一定数量的文本进行标注,以作为验证集中的样本数据。
基于配置的验证集,可将迭代过程中误差最小(即预测效果最佳)的情况下对应的模型参数作为深度神经网络模型的模型参数。举例而言,在训练的迭代过程中,在每个迭代周期内,使用当前模型在验证集上评估预测效果,然后选取各个迭代周期中在验证集上预测效果最好时的模型参数作为神经网络模型的最终模型参数。
或者,将误差未超过预设误差阈值的情况下对应的模型参数作为深度神经网络模型的模型参数。举例而言,由于神经网络的拟合能力较强,在验证集上的预测效果在迭代过程中会先上升然后再逐渐下降。因此,可在每个迭代周期计算当前模型在验证集上的误差,直到当前模型在验证集上的误差比上一迭代周期的误差大时,停止训练,并将上一迭代周期内的模型参数作为神经网络模型的最终模型参数。
步骤314,对语料库进行预测。
步骤316,输出异常文本。
类似的,可根据预测的错误程度(即深度神经网络模型输出的预测分数)进行排序,然后按照排名输出标注可能存在错误的可疑样本,以由标注人员对可疑样本进行检测,并修改其中的异常样本的标签。
在上述第二阶段中,利用了神经网络“通常先拟合简单样本,然后再拟合困难样本”的特点。通过验证集来做迭代过程的监控,可以让拟合过程停留在合适的位置。此时,训练集中无法预测正确的样本,即为拟合困难样本。需要注意的是,拟合困难样本中既包含有随机性错误,也包含有***性错误。由于***性错误的样本中也并非拟合难度都很高,因此需要通过第三阶段进一步来进行检测。
请参见图4,图4是一示例性实施例提供的另一种异常文本的检测方法的流程图。如图4所示,该方法可以包括以下步骤:
步骤402,使用语料库训练神经网络模型。
经过上述第二阶段,标注人员已将上述图3输出的异常样本中的错误标注进行修改,从而更新语料库。那么,在第三阶段中,可利用更新后的语料库来训练深度神经网络模型,从而进一步检测出剩余的非离群点。
步骤404,在验证集上评估预测效果。
步骤406,若预测效果达到最佳,则转入步骤408;否则,返回至步骤402。
上述步骤402-406的实施过程与上述步骤308-312类似,在此不再赘述。
步骤408,提取神经网络模型在中间层上计算出的向量来表示文本。
步骤410,确定目标文本。
步骤412,确定与类似文本的相似度。
由于采用了深度神经网络来进行训练,可充分利用神经网络的文本特征编码能力,使用深度神经网络的中间层(隐藏层)计算出的向量来表示相应的样本数据,从而代替样本数据来参与相似度计算,可有效提高计算相似度的准确率。该相似度计算的具体过程,可参考上述图2部分的描述,在此不再赘述。
通过上述使用网络中间层向量匹配类似文本的方式,可为验证集中的预测错误样本提供错误理由。若错误理由为标注错误,则将匹配到的语料库中的近邻文本作为异常样本,从而进一步这些异常样本的标签是否存在标注错误。
步骤414,输出近邻文本。
步骤416,若满足检测条件,则转入步骤418;否则,返回至步骤414。
在本实施例中,可计算待检测标签为针对任一目标样本数据的预测结果的类似样本数据与该任一目标样本数据的相似度,并基于计算出的相似度选取类似样本数据,获取针对选取出的类似样本数据中异常样本的检测结果。
举例而言,对于验证集中某一条预测错误的文本,被预测到的类别为c,使用其向量与训练集(即待检测文本库)的每一条被标注类别为c的文本的向量计算余弦相似度,并找出相似度最接近的近邻样本。首先,可输出少量的近邻样本(例如5条),由标注人员检测其中是否存在标注错误。当其中不含有标注错误的文本时,说明针对该验证集中文本的预测错误并非由待检测文本库的标注错误导致。那么,可停止针对该验证集中预测错误的文本的类似样本数据的查找,可进步针对其他预测错误的文本执行上述操作。当其中含有标注错误的文本时,可判定预测错误由待检测文本库的标注错误导致,那么可由标注人员对这些文本的错误标注进行修改。并且,此时可继续扩大近邻样本的数量(例如20条);类似的,由标注人员检测其中是否存在标注错误。在循环执行上述输出近邻样本以进行检测的过程中,可设定为检测结果满足预设检测条件为止,停止循环。例如,标注错误的近邻样本的数量占本次输出的近邻样本总数量的比例低于预设阈值。当然,每次循环周期内的预设检测条件可设定为相同或者不同,本说明书并不对此进行限制。
步骤418,若已遍历所有的目标文本,则转入步骤420;否则,返回步骤410。
步骤420,结束第三阶段。
在第三阶段中,细粒度地使用验证集中的每一条文本作为探针,检测剩余的***性标注错误(非离群点)。
需要说明的是,上述三个阶段除按照上述顺序执行以外,还可相互独立地执行,本说明书并不对此进行限制。
与上述方法实施例相对应,本说明书还提供了一种异常样本的检测装置的实施例。
图5是一示例性实施例提供的一种设备的示意结构图。请参考图5,在硬件层面,该设备包括处理器502、内部总线504、网络接口506、内存508以及非易失性存储器510,当然还可能包括其他业务所需要的硬件。处理器502从非易失性存储器510中读取对应的计算机程序到内存508中然后运行,在逻辑层面上形成异常样本的检测装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图6,在一软件实施方式中,该异常样本的检测装置可以包括:
第一获取单元61,获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别;
第一训练单元62,使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测;
第一检测单元63,确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。
可选的,还包括:
第二获取单元64,在所述待检测样本库中获得预测结果为目标类别的第一样本数据,所述目标类别为所述目标样本数据中的第二样本数据的预测结果;
计算单元65,计算所述第一样本数据与第二样本数据的相似度;
第二检测单元66,根据所述相似度确定所述第一样本数据是否为异常样本。
可选的,还包括:
划分单元67,将所述待检测样本库中的样本数据分为N份,N为大于等于2的整数;
第二训练单元68,将其中的M份作为训练集训练所述机器学习模型,并使用所述机器学习模型对N-M份的样本数据进行预测;
第三检测单元69,如果在所述待检测样本库中的第三样本数据的预测结果与所述第三样本数据被标注的数据类别不一致,将所述第三样本数据作为异常样本。
可选的,所述第一训练单元62具体用于:
采用神经网络算法对所述待检测样本库进行训练以得到神经网络模型;
其中,将迭代过程中针对所述验证集中样本数据的预测结果与相应标准类别之间的误差满足预设误差条件时的模型参数,作为所述神经网络模型的模型参数。
可选的,所述第一训练单元62进一步用于:
确定所述第一样本数据在所述神经网络模型的预设中间层中计算出的第一向量数据;
确定所述第二样本数据在所述预设中间层中计算出的第二向量数据;
计算所述第一向量数据与所述第二向量数据之间的相似度。
可选的,所述预设中间层至少包括所述神经网络模型的输出层的前一层。
可选的,所述第一检测单元63具体用于:
根据所述相似度的大小对多个第一样本数据进行排序;
按照排名依次选取至少一个第一样本数据,以获取针对选取出的第一样本数据中异常样本的检测结果,直到获取到的检测结果满足预设检测条件为止。
可选的,每次选取出的第一样本数据的数量与选取次数呈正相关。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (18)

1.一种异常样本的检测方法,其特征在于,包括:
获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别;
使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测;
确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述待检测样本库中获得预测结果为目标类别的第一样本数据,所述目标类别为所述目标样本数据中的第二样本数据的预测结果;
计算所述第一样本数据与第二样本数据的相似度;
根据所述相似度确定所述第一样本数据是否为异常样本。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
将所述待检测样本库中的样本数据分为N份,N为大于等于2的整数;
将其中的M份作为训练集训练所述机器学习模型,并使用所述机器学习模型对N-M份的样本数据进行预测;
如果在所述待检测样本库中的第三样本数据的预测结果与所述第三样本数据被标注的数据类别不一致,将所述第三样本数据作为异常样本。
4.根据权利要求1所述的方法,其特征在于,所述使用所述待检测样本库训练机器学习模型,包括:
采用神经网络算法对所述待检测样本库进行训练以得到神经网络模型;
其中,将迭代过程中针对所述验证集中样本数据的预测结果与相应标准类别之间的误差满足预设误差条件时的模型参数,作为所述神经网络模型的模型参数。
5.根据权利要求4所述的方法,其特征在于,所述计算所述第一样本数据与第二样本数据的相似度,包括:
确定所述第一样本数据在所述神经网络模型的预设中间层中计算出的第一向量数据;
确定所述第二样本数据在所述预设中间层中计算出的第二向量数据;
计算所述第一向量数据与所述第二向量数据之间的相似度。
6.根据权利要求5所述的方法,其特征在于,所述预设中间层至少包括所述神经网络模型的输出层的前一层。
7.根据权利要求2所述的方法,其特征在于,所述根据所述相似度确定所述第一样本数据是否为异常样本,包括:
根据所述相似度的大小对多个第一样本数据进行排序;
按照排名依次选取至少一个第一样本数据,以获取针对选取出的第一样本数据中异常样本的检测结果,直到获取到的检测结果满足预设检测条件为止。
8.根据权利要求7所述的方法,其特征在于,每次选取出的第一样本数据的数量与选取次数呈正相关。
9.一种异常样本的检测装置,其特征在于,包括:
第一获取单元,获取待检测样本库和对应于所述待检测样本库的验证集,所述待检测样本库中的样本数据被标注有数据类别,所述验证集中的样本数据被标注有标准类别;
第一训练单元,使用所述待检测样本库训练机器学习模型,并使用所述机器学习模型对所述验证集中的样本数据进行预测;
第一检测单元,确定所述验证集中预测结果与标准类别不一致的目标样本数据作为异常样本。
10.根据权利要求9所述的装置,其特征在于,还包括:
第二获取单元,在所述待检测样本库中获得预测结果为目标类别的第一样本数据,所述目标类别为所述目标样本数据中的第二样本数据的预测结果;
计算单元,计算所述第一样本数据与第二样本数据的相似度;
第二检测单元,根据所述相似度确定所述第一样本数据是否为异常样本。
11.根据权利要求9或10所述的装置,其特征在于,还包括:
划分单元,将所述待检测样本库中的样本数据分为N份,N为大于等于2的整数;
第二训练单元,将其中的M份作为训练集训练所述机器学习模型,并使用所述机器学习模型对N-M份的样本数据进行预测;
第三检测单元,如果在所述待检测样本库中的第三样本数据的预测结果与所述第三样本数据被标注的数据类别不一致,将所述第三样本数据作为异常样本。
12.根据权利要求9所述的装置,其特征在于,所述第一训练单元具体用于:
采用神经网络算法对所述待检测样本库进行训练以得到神经网络模型;
其中,将迭代过程中针对所述验证集中样本数据的预测结果与相应标准类别之间的误差满足预设误差条件时的模型参数,作为所述神经网络模型的模型参数。
13.根据权利要求12所述的装置,其特征在于,所述第一训练单元进一步用于:
确定所述第一样本数据在所述神经网络模型的预设中间层中计算出的第一向量数据;
确定所述第二样本数据在所述预设中间层中计算出的第二向量数据;
计算所述第一向量数据与所述第二向量数据之间的相似度。
14.根据权利要求13所述的装置,其特征在于,所述预设中间层至少包括所述神经网络模型的输出层的前一层。
15.根据权利要求10所述的装置,其特征在于,所述第一检测单元具体用于:
根据所述相似度的大小对多个第一样本数据进行排序;
按照排名依次选取至少一个第一样本数据,以获取针对选取出的第一样本数据中异常样本的检测结果,直到获取到的检测结果满足预设检测条件为止。
16.根据权利要求15所述的装置,其特征在于,每次选取出的第一样本数据的数量与选取次数呈正相关。
17.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。
CN202010827028.8A 2020-08-17 2020-08-17 异常样本的检测方法及装置、电子设备、存储介质 Pending CN114077859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010827028.8A CN114077859A (zh) 2020-08-17 2020-08-17 异常样本的检测方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010827028.8A CN114077859A (zh) 2020-08-17 2020-08-17 异常样本的检测方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN114077859A true CN114077859A (zh) 2022-02-22

Family

ID=80280902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010827028.8A Pending CN114077859A (zh) 2020-08-17 2020-08-17 异常样本的检测方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN114077859A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313899A (zh) * 2023-11-23 2023-12-29 全芯智造技术有限公司 用于数据处理的方法、设备和介质
CN117436551A (zh) * 2023-12-18 2024-01-23 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313899A (zh) * 2023-11-23 2023-12-29 全芯智造技术有限公司 用于数据处理的方法、设备和介质
CN117313899B (zh) * 2023-11-23 2024-02-23 全芯智造技术有限公司 用于数据处理的方法、设备和介质
CN117436551A (zh) * 2023-12-18 2024-01-23 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和***

Similar Documents

Publication Publication Date Title
Mantovani et al. To tune or not to tune: recommending when to adjust SVM hyper-parameters via meta-learning
US20200272944A1 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
US20160180254A1 (en) Information matching apparatus, method of matching information, and computer readable storage medium having stored information matching program
AU2017251771B2 (en) Statistical self learning archival system
US20200151574A1 (en) Computer-readable recording medium having stored therein learning program, learning method, and learning apparatus
CN111008898B (zh) 评估模型解释工具的方法和装置
CN112784168B (zh) 信息推送模型训练方法以及装置、信息推送方法以及装置
CN114077859A (zh) 异常样本的检测方法及装置、电子设备、存储介质
CN109376741A (zh) 商标侵权的识别方法、装置、计算机设备和存储介质
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN111611390B (zh) 一种数据处理方法及装置
Kraeva et al. Application of the metric learning for security incident playbook recommendation
Liu et al. [Retracted] Deep Learning and Collaborative Filtering‐Based Methods for Students’ Performance Prediction and Course Recommendation
CN113468017A (zh) 应用于区块链的在线业务状态检测方法及业务服务器
CN113420777A (zh) 异常日志检测方法、装置存储介质及设备
CN111177388A (zh) 一种处理方法及计算机设备
KR102406961B1 (ko) 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법
CN113516182B (zh) 视觉问答模型训练、视觉问答方法和装置
Lucca et al. Analyzing the behavior of aggregation and pre-aggregation functions in fuzzy rule-based classification systems with data complexity measures
Mahammed et al. Fake profiles identification on social networks with bio inspired algorithm
Karlsson et al. Early random shapelet forest
Dong et al. A region selection model to identify unknown unknowns in image datasets
CN114491283B (zh) 对象推荐方法、装置及电子设备
US20220215272A1 (en) Deterioration detection method, computer-readable recording medium storing deterioration detection program, and information processing apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination