CN111626351B - 一种用于获取数据分布的概念漂移量的方法和*** - Google Patents

一种用于获取数据分布的概念漂移量的方法和*** Download PDF

Info

Publication number
CN111626351B
CN111626351B CN202010452947.1A CN202010452947A CN111626351B CN 111626351 B CN111626351 B CN 111626351B CN 202010452947 A CN202010452947 A CN 202010452947A CN 111626351 B CN111626351 B CN 111626351B
Authority
CN
China
Prior art keywords
data
cluster
conceptual
data distribution
drift amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010452947.1A
Other languages
English (en)
Other versions
CN111626351A (zh
Inventor
刘世霞
杨维铠
李振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010452947.1A priority Critical patent/CN111626351B/zh
Publication of CN111626351A publication Critical patent/CN111626351A/zh
Application granted granted Critical
Publication of CN111626351B publication Critical patent/CN111626351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种用于获取数据分布的概念漂移量的方法和***。其中,该方法包括:获取包括训练数据和测试数据的全部数据;使用高斯混合模型对全部数据进行聚类,获取全部数据的多个聚类簇;分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量;利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取全部数据的数据分布的概念漂移量。由此,能够准确地获取到数据分布的概念漂移量,以准确地判断出数据分布的变化情况,大大提高了***的可靠性。

Description

一种用于获取数据分布的概念漂移量的方法和***
技术领域
本发明涉及机器学习技术领域,特别涉及一种用于获取数据分布的概念漂移量的方法、***、计算机***以及计算机可读存储介质。
背景技术
近年来,数据驱动的机器学习在许多领域都取得了巨大的成功,如天气预测、个性化推荐、产品缺陷检测等。然而,数据驱动的机器学习方法大都显式或隐式地基于一个假设,即训练数据和测试数据属于同一数据分布。但在现实应用中,许多领域的数据分布通常会随着时间的推移不断发生变化,且这一变化可能无法提前预见。数据分布发生的变化称为概念漂移。概念漂移的出现可能导致某领域的基于历史数据进行训练并部署运行的模型在新数据上的预测结果不再可信与有效,因此需要一个可靠的方法和***来获取衡量数据分布的概念漂移程度。
发明内容
本发明中使用数据分布的概念漂移量来衡量数据分布的概念漂移程度,提出了一种用于获取数据分布的概念漂移量的方法、***、计算机***以及计算机可读存储介质。
根据本发明的一个方面,提出了一种用于获取数据分布的概念漂移量的方法,该方法包括:获取包括训练数据和测试数据的全部数据;使用高斯混合模型对全部数据进行聚类,获取全部数据的多个聚类簇;分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量;利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取全部数据的数据分布的概念漂移量。
根据本发明的另一个方面,提出了一种用于获取数据分布的概念漂移量的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。
根据本发明的又一个方面,提出了一种用于获取数据分布的概念漂移量的计算机***,包括:存储器;以及至少一个处理器,其可操作地耦合到存储器并配置用于执行如上所述的方法。
根据本发明的再一个方面,提出了一种用于获取数据分布的概念漂移量的***,所述***包括分别用于执行如上所述的方法的各个步骤的模块。
附图说明
通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
图1为根据本发明的一个具体实施例的主板生产线上用于主板缺陷检测的10条主板产品的属性记录;
图2为根据本发明的一个实施例的用于获取数据分布的概念漂移量的计算机***的结构示意图;
图3为根据本发明实施例的用于获取数据分布的概念漂移量的方法的流程图;;
图4为根据本发明的一个具体实施例的获取数据分布的概念漂移量的示意图。
具体实施方式
以下描述包括体现本发明技术的示例性方法、***、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的发明。在其他情况下,没有详细示出公知的协议、结构和技术,以免模糊本发明。本领域普通技术人员将理解,所描述的技术和机制可以应用于获取数据分布的概念漂移量的各种体系结构。
下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定,除非权利要求中明确提出。
本发明的目的是获取数据分布的概念漂移量,也就是衡量数据(包括训练数据和测试数据)分布的差异度量。训练数据和测试数据的全部数据均为以下数据类型的一种或多种:表格数据、图像数据、视频数据、文本数据或其他用户指定数据(如社交数据、日志数据等)。表格数据例如多条产品属性记录、多条天气记录等等。例如,图1示出了主板生产线上用于主板缺陷检测的10条主板产品的属性记录,其中包括记录101-记录110共10条记录。记录101、记录102、记录103是三件主板类型为A(例如是无缺陷的产品)的产品的属性记录(包括长度、宽度、厚度等);记录104、记录105是两件主板类型为B(例如是有缺陷的产品)的产品的属性记录。记录101-105作为训练数据用于模型的构建。记录106、记录107是两件主板类型为A的产品的属性记录,但由于工艺发生变化,其厚度低于记录101、记录102、记录103的厚度。记录108、记录109、记录110是三件主板类型为B的产品的属性记录,其各属性和记录104、记录105一致。记录106-110作为测试数据。希望对于记录101-110,得到所有数据的数据分布的概念漂移量,并根据得到的所有数据的数据分布的概念漂移量,确定原来的机器学习模型是否可以继续使用;如果得到的概念漂移量较高,则意味着原来的机器学习模型不再适用,则需要重新训练模型;如果得到的概念漂移量较低,则意味着原来的机器学习模型可以继续使用,无需重新训练模型。
在本领域,概念漂移量没有一个明确的计算方式。任何可以衡量数据(包括训练数据与测试数据)分布差异的度量均可用为该数据(包括训练数据和测试数据)的数据分布的概念漂移量。本发明的例子中上述度量考虑使用能量距离,即将获得的该数据的能量距离作为该数据的数据分布的概念漂移量。能量距离能直接比较包括训练数据和测试数据的全部数据所构成的数据分布的差异并将差异的度量值作为概念漂移量。为了更准确地得到概念漂移量,避免因直接比较训练数据和测试数据带来的不匹配问题而造成的概念漂移量的不合适的估计,本发明考虑使用高斯混合模型对包括测试数据和训练数据的全部数据通过聚类进一步地划分为多个聚类簇,并根据划分的结果,对多个聚类簇的每个聚类簇分别计算该聚类簇中包含的所有数据(包括训练数据和测试数据)的数据分布的概念漂移量,从而最终得到该全部数据(包括训练数据和测试数据)分布的概念漂移量,并根据概念漂移量是否超出指定的阈值决定是否需要重新训练模型。
图2示出了根据本发明的实施例的一种用于获取数据分布的概念漂移量的***200。如图2所示,获取数据分布的概念漂移量的***200包括高斯混合模型聚类模块210,以及概念漂移量计算模块220。高斯混合模型聚类模块210获取包括训练数据201以及测试数据202的全部数据,进行聚类,得到聚类结果并产生多个聚类簇203。概念漂移量计算模块220获取包括训练数据201和测试数据202的全部数据,以及高斯混合模型聚类模块210产生的多个聚类簇203,来得到概念漂移量204。当得到的概念漂移量204超出指定的阈值时,***200可以做进一步的操作(图2中未示出进一步的操作),例如:报警,指示用户需要重新训练模型等等。该获取数据分布的概念漂移量的***200可实现为一般的计算机***上的应用程序,或者实现为服务器***上的应用程序,或者实现为网络应用程序,或者实现为云平台上的应用程序。
图3示出了根据本发明的实施例利用图2所示的用于获取数据分布的概念漂移量的计算机***200进行概念漂移量获取的方法的流程图。如图3所示,在步骤310,高斯混合模型聚类模块210获取包括训练数据和测试数据的全部数据。在步骤320,高斯混合模型聚类模块210使用高斯混合模型对全部数据进行聚类,获取全部数据的多个聚类簇。图4示出了对图1所示的10条产品的属性记录得到的两个聚类簇。记录101、记录102、记录103、记录106、记录107都是主板类型A的产品的属性记录,彼此较为相像,因此形成聚类簇1;记录104、记录105、记录108、记录109、记录110都是主板类型B的产品的属性记录,彼此较为相像,因此形成聚类簇2。本领域技术人员可以知道,在步骤320中使用的聚类方法可以是现有的任意聚类方法(如K-Means聚类,均值漂移聚类、谱聚类等)或未来开发的任意聚类方法。
在步骤330中,概念漂移量计算模块220分别获取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量。这一步可以使用本领域所熟知的任何可以衡量包括训练数据与测试数据的所有数据的数据分布的差异的度量作为每个聚类簇中包含的所有数据的数据分布的概念漂移量。本发明的实施例中该度量可以使用能量距离、全变差距离、Hellinger距离等。
在本发明的一个实施例中,图4示出了图1所示的10条产品的属性记录聚类得到的聚类簇1和聚类簇2及二者包含的样本记录。图4中的聚类簇1中,使用能量距离计算聚类簇1中的训练样本记录101、记录102、记录103与测试样本记录106、记录107之间的分布差异。图4的聚类簇1中,每个节点表示一条记录,每两个节点之间的连边旁的数字表示相连的两条记录之间的距离。聚类簇1中包括3个训练样本(记录101、记录102、记录103)和2个测试样本(记录106、记录107)。根据各条记录的参数可以计算(利用参数的欧式距离)得到记录101与记录102之间距离为1,记录102与记录103之间距离为1,记录101与记录103之间距离为1。则***可以得出聚类簇1中三个训练样本内平均距离为(1+1+1)/3=1。并且根据各条记录的参数可以计算(利用参数的欧式距离)记录106与记录107之间距离为1。则***可得两个测试样本内平均距离为1/1=1。此外,根据各条记录的参数可以计算(利用参数的欧式距离)得到记录101与记录106之间距离为10,记录101与记录107之间距离为10,记录102与记录106之间距离为10,记录102与记录107之间距离为10,记录103与记录106之间距离为10,记录103与记录107之间距离为10。则***可得三个训练样本和两个测试样本间平均距离为(10+10+10+10+10+10)/6=10。能量距离可以被定义为:[2*(训练样本和测试样本间的平均距离)-(训练样本内的平均距离+测试样本内的平均距离)]/[2*(训练样本和测试样本间的平均距离)]。则最终得到聚类簇1的能量距离为(2*10-(1+1))/(2*10)=0.9,作为聚类簇1中包含的所有数据的数据分布的概念漂移量。在图4中的聚类簇2中,根据各条记录的参数可以计算(利用参数的欧式距离)得到任意两条记录之间的距离均为1。同样使用能量距离计算聚类簇2中的训练样本记录104、记录105和测试样本记录108、记录109、记录110之间的分布差异。***得出训练样本内平均距离为1/1=1;测试样本内平均距离为(1+1+1)/3=1;训练样本和测试样本间平均距离为(1+1+1+1+1+1)/6=1,最终得到能量距离为(2*1-(1+1))/(2*1)=0,作为聚类簇2中包含的所有数据的数据分布的概念漂移量。
在步骤340中,利用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量,获取全部数据的数据分布的概念漂移量。这一步可以使用多种方法。在一种实施方式中,可以选取多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的最大值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,最大值为0.9,则全部数据的数据分布的概念漂移量为0.9。
在另一种实施方式中,也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,平均值为0.45,则全部数据的数据分布的概念漂移量为0.45。
在另一种实施方式中,也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的中位值作为全部数据的数据分布的概念漂移量。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,中位值为0.45,则全部数据的数据分布的概念漂移量为0.45。
在另一种实施方式中,也可以将多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的加权平均值作为全部数据的数据分布的概念漂移量。在一种实施方式中,每个聚类簇的权重可以用该聚类簇中测试数据样本的数目来表示。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,权重为2,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,权重为3,加权平均值为(2*0.9+3*0)/(2+3)=0.36,则全部数据的数据分布的概念漂移量为0.36。在另一种实施方式中,每个聚类簇的权重可以用该聚类簇中测试数据样本数目占所述聚类簇中所有样本数目的比例来表示。如在图4所示的例子中,聚类簇1中包含的所有数据的数据分布的概念漂移量为0.9,权重为2/5=0.4,聚类簇2中包含的所有数据的数据分布的概念漂移量为0,权重为3/5=0.6,加权平均值为(0.4*0.9+0.6*0)/(0.4+0.6)=0.36,则全部数据的数据分布的概念漂移量为0.36。在又一种实施方式中,每个聚类簇的权重也可以由用户指定,也就是说,每个聚类簇的权重可为用户指定的权重。
由以上描述,本领域技术人员可以知道,不同的概念漂移量的计算方法获得的概念漂移量的值也是不同的。如果关心数据分布的概念漂移量的总体水平,可以采用多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值、中位值或加权平均值得到的全部数据的数据分布的概念漂移量。如果关心发生概念漂移最严重的聚类簇,可以采用多个聚类簇的每个聚类簇包含的所有数据的数据分布的概念漂移量的最大值得到全部数据的数据分布的概念漂移量。
在一种实施方式中,图3还进一步包括步骤350:将获得的全部数据的数据分布的概念漂移量与指定的阈值相比较。图3还进一步包括步骤360:响应于全部数据的数据分布的概念漂移量大于等于指定的阈值,判定所述原来的机器学习模型可能不再适用,需要重新训练模型,该方法结束。图3还进一步包括步骤370:响应于全部数据的数据分布的概念漂移量小于指定的阈值,判定原来的机器学习模型可以继续使用,无需重新训练模型,该方法结束。具体给定的阈值可以由用户根据使用的不同的概念漂移量的计算方法设置不同的值。
针对图4,在使用加权平均值作为全部数据的数据分布的概念漂移量的一种实施方式中,得到的概念漂移量为0.36。该概念漂移值大于给定的阈值0.2,判定所述原来的机器学习模型不再适用,需要重新训练模型。具体地,可将记录106、记录107也添加为训练数据,并重新训练得到新的模型来替换旧的模型。
本发明可以是***、方法和/或计算机可读存储介质。计算机可读存储介质上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。本发明的方法可以在独立的计算机***上执行,也可以在分布式计算***上执行,甚至可以在云平台上执行。
这里参照根据本发明实施例的方法、装置(***)和计算机可读存储介质的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机可读存储介质的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种用于获取数据分布的概念漂移量的方法,其特征在于,应用于产品缺陷检测,所述方法包括:
获取包括训练数据和测试数据的与所述产品缺陷相关的全部数据,所述全部数据呈现在表格数据、图像数据、视频数据、文本数据、和/或用户指定的日志数据中;
使用高斯混合模型、K-Means聚类、均值漂移聚类、或者谱聚类对所述全部数据进行聚类,获取所述全部数据的多个聚类簇;
分别获取所述多个聚类簇的每个聚类簇中包含的所有数据的能量距离,将所述能量距离作为所述多个聚类簇的数据分布的概念漂移量,其中,所述能量距离被定义为[2*(该聚类簇中训练样本和该聚类簇中测试样本间的平均距离)-(该聚类簇中训练样本内的平均距离+该聚类簇中测试样本内的平均距离)]/[2*(该聚类簇中训练样本和该聚类簇中测试样本间的平均距离)];
确定每个聚类簇中包含的所有数据的数据分布的概念漂移量的加权平均值,将所述加权平均值确定为所述全部数据的数据分布的概念漂移量,其中,所述加权平均值中所述多个聚类簇的每个聚类簇的权重均包括所述每个聚类簇中测试数据样本的数目、所述每个聚类簇中测试数据样本数目占所述每个聚类簇中所有样本数目的比例、或用户指定的权重。
2.根据权利要求1所述的方法,其特征在于,还包括:
将获得的所述全部数据的数据分布的概念漂移量与给定的阈值相比较;
响应于所述全部数据的数据分布的概念漂移量大于等于所述给定的阈值,判定利用所述训练数据得到的机器学习模型不再适用,需要重新训练模型。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:
将获得的所述全部数据的数据分布的概念漂移量与给定的阈值相比较;
响应于所述全部数据的数据分布的概念漂移量小于所述给定的阈值,判定利用所述训练数据得到的机器学习模型能够继续使用。
4.根据权利要求1所述的方法,其特征在于,获取所述全部数据的数据分布的概念漂移量的步骤还包括:
使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的最大值作为所述全部数据的数据分布的概念漂移量;或者
使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量的平均值作为所述全部数据的数据分布的概念漂移量;或者
使用所述多个聚类簇的每个聚类簇中包含的所有数据的数据分布的概念漂移量中的中位值作为所述全部数据的数据分布的概念漂移量。
5.一种用于获取数据分布的概念漂移量的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,其特征在于,所述程序指令可由计算设备执行以使得计算设备执行如权利要求1-4中任一项所述的方法。
6.一种用于获取数据分布的概念漂移量的计算机***,其特征在于,包括:
存储器;以及
至少一个处理器,可操作地耦合到所述存储器并配置用于执行如权利要求1-4中任一项所述的方法。
7.一种用于获取数据分布的概念漂移量的***,其特征在于,所述***包括用于执行权利要求1-4中任一项的方法的各个步骤的模块。
CN202010452947.1A 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和*** Active CN111626351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010452947.1A CN111626351B (zh) 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010452947.1A CN111626351B (zh) 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和***

Publications (2)

Publication Number Publication Date
CN111626351A CN111626351A (zh) 2020-09-04
CN111626351B true CN111626351B (zh) 2024-03-22

Family

ID=72260723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010452947.1A Active CN111626351B (zh) 2020-05-26 2020-05-26 一种用于获取数据分布的概念漂移量的方法和***

Country Status (1)

Country Link
CN (1) CN111626351B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765324B (zh) * 2021-01-25 2022-12-23 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN114401205B (zh) * 2022-01-21 2024-01-16 中国人民解放军国防科技大学 无标注多源网络流量数据漂移检测方法和装置
CN115774185B (zh) * 2023-02-13 2023-05-05 江苏泰治科技股份有限公司 一种车规级芯片dpat检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345575A (zh) * 2013-06-19 2013-10-09 华南师范大学 一种数据流概念漂移检测方法及***
CN105069469A (zh) * 2015-07-30 2015-11-18 天津师范大学 一种基于模糊c均值聚类算法和熵理论的数据流检测方法
CN110445726A (zh) * 2019-08-16 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于信息熵的自适应网络流概念漂移检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034692A1 (en) * 2018-07-30 2020-01-30 National Chengchi University Machine learning system and method for coping with potential outliers and perfect learning in concept-drifting environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345575A (zh) * 2013-06-19 2013-10-09 华南师范大学 一种数据流概念漂移检测方法及***
CN105069469A (zh) * 2015-07-30 2015-11-18 天津师范大学 一种基于模糊c均值聚类算法和熵理论的数据流检测方法
CN110445726A (zh) * 2019-08-16 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于信息熵的自适应网络流概念漂移检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Drift-detection Based Incremental Ensemble for Reacting to Different Kinds of Concept Drift;Zeng Li et al.;《 IEEE Xplore》;20191121;全文 *
基于向量表示和标签传播的半监督短文本数据流分类算法;王海燕;胡学钢;李培培;;模式识别与人工智能(第07期);全文 *
基于语义的文本数据流概念漂移检测算法;储光;胡学钢;张玉红;;计算机工程(第02期);全文 *
面向非平衡与概念漂移的数据流分类的研究;陈荣;;现代计算机(第04期);全文 *

Also Published As

Publication number Publication date
CN111626351A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626351B (zh) 一种用于获取数据分布的概念漂移量的方法和***
US7567878B2 (en) Evaluating anomaly for one class classifiers in machine condition monitoring
US11281203B2 (en) Method for detecting anomalies in a water distribution system
US8005771B2 (en) Segment-based change detection method in multivariate data stream
US8370108B2 (en) Diagnostic device
US20150219530A1 (en) Systems and methods for event detection and diagnosis
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
CN112188534B (zh) 一种异常检测方法和装置
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和***
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
CN112416662A (zh) 多时间序列数据异常检测方法与装置
WO2021084623A1 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
CN112529109A (zh) 一种基于无监督多模型的异常检测方法及***
US20200081817A1 (en) Replacing stair-stepped values in time-series sensor signals with inferential values to facilitate prognostic-surveillance operations
CN111079348B (zh) 一种缓变信号检测方法和装置
CN116611018A (zh) 基于多源数据融合的装备***健康管理及故障诊断方法
CN111949496B (zh) 一种数据检测方法及装置
CN114048546B (zh) 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法
Amjad et al. Kalman filter-based convolutional neural network for robust tracking of froth-middling interface in a primary separation vessel in presence of occlusions
Jin et al. Changepoint-based anomaly detection for prognostic diagnosis in a core router system
CN110705631B (zh) 一种基于svm的散货船舶设备状态检测方法
CN115495274B (zh) 基于时序数据的异常处理方法、网络设备和可读存储介质
US20220276954A1 (en) Device identification device, device identification method, and device identification program
Ramasso et al. Joint prediction of observations and states in time-series: a partially supervised prognostics approach based on belief functions and KNN
CN114048085B (zh) 一种磁盘故障分析方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant