CN114896348A

CN114896348A - 一种数据探索方法及***

Info

Publication number: CN114896348A
Application number: CN202210532329.7A
Authority: CN
Inventors: 李�杰; 黄文韬
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-12
Anticipated expiration: 2042-05-11
Also published as: CN114896348B

Abstract

本发明提供了一种数据探索方法，包括以下步骤：S1、构建子模型，以一个具有N个隐藏层的模式分类器为原模型，构建多个子模型，原模型中的每一个隐藏层都能构建子模型，第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层，N＞1；S2、完成模式分类器的初始化，通过指定不同属性的属性值构建由大量记录构成的数据空间，从数据空间中随机选择多组数据进行可视化，再对得到的多组可视化数据进行聚类和细化，最后将细化后的聚类结果作为模式分类器的训练数据。本发明能够自动识别属于陌生模式的可视化数据，实现了模式分类器自动化地探索数据，还能够使模式分类器自动地识别新模式并更新模式分类器。

Description

一种数据探索方法及***

技术领域

本发明涉及计算机技术领域，具体涉及一种数据探索方法及***。

背景技术

一个数据集中包含了若干个样品，交互式数据探索是为了在数据集样品中识别潜在的数据模式，在典型的数据探索场景中，分析人员重复执行三个步骤，即(1)从大批量的原始记录中进行查询，并将查询结果绘制成反映地理或者数据变化等数据特征的可视化(2)用户逐张的审视可视化数据(3)用户利用自己的经验和知识确定模式是否存在。

虽然有许多方法通过推荐最优的可视化技术来呈现目标数据来自动化，但步骤(2)的主体仍然是人。主观的模式识别降低了交互式数据探索的效率，给分析人员施加了很高的工作负担，并可能产生受分析师认知能力和经验的限制的有偏见的结论。

有鉴于此，确有必要提供一种解决上述问题的技术方案。

发明内容

本发明的目的之一在于：提供一种数据探索方法，解决上述在面对不具备先验知识的数据集时，不能识别陌生模式的可视化数据，导致无法判断该样品是否属于新模式的问题。

为了实现上述目的，本发明采用以下技术方案：

一种数据探索方法，包括以下步骤：

S1、构建子模型，以一个具有N个隐藏层的模式分类器为原模型，构建多个子模型，原模型中的每一个隐藏层都能构建子模型，第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层，N＞1；

S2、完成模式分类器的初始化，通过指定不同属性的属性值构建由大量记录构成的数据空间，从数据空间中随机选择多组数据进行可视化，再对得到的多组可视化数据进行聚类和细化，最后将细化后的聚类结果作为模式分类器的训练数据；

S3、更换各个属性的值，生成新的数据空间，或者不更改各个属性的值，继续在已有的数据空间中进行探索；

S4、在指定的数据空间内随机生成多组数据查询，并为每一条数据生成相应的可视化数据；

S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果，将样本输入到已经完成构建的多个子模型中，得到样本在各个子模型上的分类结果，通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。

作为所述数据探索方法的一种改进，子模型的数量小于或等于N，且大于1。

作为所述数据探索方法的一种改进，步骤S2中，聚类是将各组数据的可视化数据放入不同文件夹，完成聚类后，进入分类文件夹中删除等纯化分类。

本发明的目的之二在于，提供一种用于数据探索的***，应用于上述的数据探索方法，由前端和后端组成，前端包括可视化探索器组件和分类调整器组件，后端模块包括模式分类器初始化模块、模式识别模块以及模式分类器更新模块；

可视化探索器组件，用于管理数据探索方向和生成可视化数据，分析人员可以通过指定不同属性的属性值构建由大量记录构成的数据空间，***会自动生成空间中的可视化数据，并为每一个可视化数据计算指标，随后自动为生成的可视化数据进行分类；

分类调整器组件，用于支持分析人员调整可视化探索器的分类结果，对于具备新模式的可视化数据，分析人员可以通过新建类来归类它们，对于分类错误的可视化数据，可以手动将它们调整至正确的分类或者删除；

模式分类器初始化模块，用于初始化分类器，该模块集成了聚类算法，支持用户对当前可视化数据进行聚类；同时该模块具备数据处理功能，能对用户的最终聚类结果进行数据处理；

模式识别模块，集成了上述的自动化数据探索方发，用于识别可视化数据是否为模式分类器未曾接触过的新模式；

模式分类器更新模块，用于构建模式分类器的子模型，并且在用户调整完各个模式类的可视化数据之后，进行数据整合，将当前可视化数据的分类结果作为训练集和标签，更新模式分类器及其子模型。

作为所述用于数据探索的***的一种改进，完成初始化模式分类器之后，***在指定的数据空间内随机生成一批数据查询，并为每一条数据生成相应的可视化数据，但是***不指定生成的可视化数据种类和样式，可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。

相比于现有技术，本发明的有益效果在于：

1)本发明能够自动识别属于陌生模式的可视化数据，实现了模式分类器自动化地探索数据。现有的大多数相关的工作理想地假设数据中的模式类别是固定的，但是在真实场景中，分析人员会逐渐发现越来越多的新模式，面对这些新模式，模式分类器往往会给出错误的分类结果。本发明能够使模式分类器自动地识别新模式并更新模式分类器。

2)将模式识别这个在交互式数据探索的过程中频繁出现且需要耗费大量精力的任务交给模型负责，分析人员因此只需要维护模式分类器，并能够节省出精力去关注一些高层次任务，如调整探索范围和控制探索流程等。让模型和分析人员在交互式数据探索中做各自擅长的事情可以提升探索效率,避免主观偏差,降低人的负担。

附图说明

图1为本发明提供的一种数据探索方法的流程图。

图2为本发明提供的一种用于数据探索的***的结构图。

图3为本发明提供的一种用于数据探索的***的可视化***界面。

图4为属性值范围离散成等宽单位区间示意图。

图5为本发明提供的一种用于数据探索的***的可视化编码示意图。

图6为子模型构造示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为了减小人的负担和认知水平带来的影响，降低人在数据探索中的工作量，采取自动化方法是自然而然的。在现有的技术中，有许多指标可以检测出一个可视化是否包含特定的数据模式。检测SPLOM(散点图矩阵)异常的Scagnostics方法和随后的改进是有代表性的方法，研究人员提出了许多其他指标，用于各种可视化技术，如时间序列、树状图、平行坐标图、平行集合图、星形图，以及面向像素的显示方法。Seo和Shneiderman使用普通统计学来选择最-合适的视图来展示过滤后的数据。Berger和Hauser将Seo和Shneiderman的框架扩展为根据在平行集合视图中刷选形成的子集的指标对维度进行排序。

除了检测可视化是否包含特定的模式，在现有的技术中，实现了根据数据分布自动生成可能包含模式的可视化工具。许多工具，如SEEDB、Autovis、VisPilot、Foresight、DataShot、zenvisage等，也依赖于指标来生成可能包含模式的可视化。对这类研究的重要调查包括。然而，指示器只能找到特定的模式类型。相比之下，模式分类器可以基于动态生成的可视化示例创建一个模式类，并从大量候选对象中快速发现相同的可视化类。

神经网络也被用于生成可视化。Data2Vis将可视化生成作为一个语言翻译问题，训练一个基于注意力的编码器-解码器网络来生成Vega-lite规范。VizML应用深度神经网络基于现有可视化(标签)和相关语料库的相关数据集(特征)预测设计选择。DeepEye使用一个决策树来评估可视化的质量。Draco^[38]可以使用学习到排序模式找到适当的视觉编码。模式分类器和可视化创作侧重于IDE的不同阶段，并且可以一起使用。

越来越多的研究人员正在使用基于机器深度学习的技术来提高数据探索的效率和有效性。Bosch等人和Snyder等人利用分类器从数据流中识别与分析目标相关的推文。Heimerl等人设计了一个基于分类器的文本检索***。Gramazio、Huang和Laidlaw证明了经典分类器，如KNN和SVM，在识别常见的可视化分析任务中有意义的数据方面的有效性。然而，这些工作将分类器视为一个初步的数据过滤组件，而不像本文使用分类器来直接挖掘数据模式的方法。

许多工作都在训练机器学习模型来检索与分析人员指定的模式相关的可视化信息。Law，Basole和Wu利用多项式逻辑回归模型来确定两个可视化是否包含相似的模式。Dennig等人训练了一个模型来对反映分析人员偏好的相似性指标进行排序，并使用排名最好的指标来检索感兴趣的可视化信息。模式分类器不需要分析师指定目标模式，因此具有更好的适用性。

应用监督分类器来提高交互式数据探索的自动化程度是可视化领域的一个新趋势。Piet等人建立了一个分类器，从他们提出的累积车辆曲线中识别四种交通拥堵模式。然而，通过在训练分类器之前确定模式类，他们不需要考虑在IDE期间识别异常样本来更新分类器的挑战。Krueger等人提出了Facetto，一种可视化工具，它集成了一个分类器，从人类肿瘤和组织的显微镜图像中识别癌症和免疫细胞类型。然而，Facetto依赖于无监督聚类和人工交互来识别新的细胞类。换句话说，虽然模式识别通过应用分类器是自动的，但模式类的确定仍然是人工的。本文的方法可以从可视化中自动识别新的模式，从而更好地利用模式分类器在数据探索效率方面的优势。

本发明的目的之一在于，提供一种数据探索方法，包括以下步骤：

将模式识别这个在交互式数据探索的过程中频繁出现且需要耗费大量精力的任务交给模型负责，分析人员因此只需要维护模式分类器，并能够节省出精力去关注一些高层次任务，如调整探索范围和控制探索流程等。让模型和分析人员在交互式数据探索中做各自擅长的事情可以提升探索效率,避免主观偏差,降低人的负担。

本发明能够自动识别属于陌生模式的可视化，实现了模式分类器自动化地探索数据。现有的大多数相关的工作理想地假设数据中的模式类别是固定的，但是在真实场景中，分析人员会逐渐发现越来越多的新模式，面对这些新模式，模式分类器往往会给出错误的分类结果。本发明能够使模式分类器自动地识别新模式并更新模式分类器。

更为优选的是，子模型的数量小于或等于N，且大于1。

更为优选的是，步骤S2中，聚类是将各组数据的可视化数据放入不同文件夹，完成聚类后，进入分类文件夹中删除等纯化分类。

本发明还提供一种基于模式分类器的可视化***，该***充分利用了模式分类器的效率，不仅使模式分类器能够适应不同的数据环境，实现了自动化数据探索的完整生命流程。还允许分析师在一个很大的范围内一次性生成一批可视化数据，并快速利用模式分类器识别他们所蕴含的数据模式，从而实现一次性的对一整个空间，而不是单一可视化的探索。

更为优选的是，完成初始化模式分类器之后，***在指定的数据空间内随机生成一批数据查询，并为每一条数据生成相应的可视化数据，但是***不指定生成的可视化数据种类和样式，可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。

下面结合具体实例进行描述：本发明提出了一种数据探索方法及***，该方法通过构造模式分类器的子模型，观测样本在子模型中分类结果的一致性来判断样本是否属于新模式，属于模式分类器预测范围的样本在子模型中的分类结果的一致性很高，反之则很低。***基于上述提出的方法，实现了模式分类器的初始化、探索、更新的整个流程(如图2)，并充分发挥了模式分类器在数据探索效率方面的优势。在***中应用模式分类器进行数据探索的具体步骤，如下所述：

步骤一：分析人员首先初始化模式分类器。初始化模式分类器并不困难，分析人员通过***中集成的查询面板构建数据空间(如图3(a1))，其中，每个查询涵盖相同的属性范围，以避免生成的可视化数据包含的记录在规模上有很大的差异。具体来说，将每个属性的值范围离散成等宽的单位区间(如图4)，每个查询覆盖每个属性的一个单位区间。因此，每个可视化数据对应于指定探索空间中的一个单元，显示该单元中的记录模式。随后***从数据空间中随机选择一批数据进行可视化。随后分析人员在分类调整器(如图3(b))中对这批可视化数据进行聚类和细化，最后将细化后的聚类结果作为模式分类器的训练数据，就能完成模式分类器的初始化。

步骤二：完成初始化模式分类器之后，与步骤一相似，分析人员可以在数据面板中更换各个属性的值，生成新的数据空间，或者不更改各个属性的值，继续在已有的数据空间中进行探索。

步骤三：然后，***在指定的空间内随机生成一批数据查询，并为每一条数据生成相应的可视化数据(如图3(a2))。***并不指定生成的可视化种类和样式，分析人员可以根据自身的需求更换不同的可视化种类或者生成适合分析人员进行数据探索的可视化样式。

步骤四：***会将步骤三中随机生成的可视化数据中映射的数据特征F＝(vf1,vf2,...,vf_n)作为可视化编码输入初始化的(或者已经更新过的)模式分类器f(x)中得到分类结果f(F)，与此同时，***会将样本F＝(vf1,vf2,...,vf_n)输入到已经完成构建(如图6)的n个子模型{f₁(x),f₂(x),...,f_n(x)}中(n小于或等于模式分类器隐含层的数量)，得到样本在各个子模型上的分类结果为{f₁(F),f₂(F),...,f_n(F)}。对于每一个样本，***都会将它们在子模型上的分类结果{f₁(F),f₂(F),...,f_n(F)}输入Diff(.)中，Diff(.)是一个算子，如果子模型的分类结果f_n(F)和原模型的分类结果f(F)相同，则返回1，反之则返回0，于是每一个样本都会输出分类一致性序列D＝{0₁,0₂,...,1_n}，最后计算该样本的方法指标：

指标越大，说明该样本在各个子模型上的一致性越强，越有可能是已识别的模式，反之则有可能属于新模式。分析人员可以根据指标判断样本多大程度上属于模式分类器能够识别的模式。

步骤五：指标计算完毕后，模式分类器会根据用户设置的阈值，将指标分数高于阈值的可视化数据自动化地进行分类，这个阈值是可以设置的，通常情况下分析人员会将阈值设置的稍高，因为高指标值的可视化数据往往意味着是模式分类器已识别的模式，这既实现了模式分类的自动化，又在最大程度上防止模式分类器错误地分类了属于新模式的可视化数据。模式分类器将具有相似数据分布的可视化数据进行归类。

步骤六：分析人员检查分类结果以理解空间中的代表性模式。例如检查和确定各个分类中的代表性可视化数据，判断其中是否存在被分类错误的可视化数据和处于分类边界的可视化数据，以及查看每个模式下可视化数据的属性值分布，在同一个模式中属性值的分布是否集中。

步骤七：分析人员在检查分类结果的同时也会在分类调整器(如图3(b))中对分类结果进行调整，比如删除分类中处于分类边界的可视化数据和纯化分类结果。对于指标值较低的可视化数据，分析人员可以使用框架中集成的筛选器进行筛选，集中查看指标值最低的一批可视化数据，其中可能包含新的数据模式，并根据这些过滤后的样本调整模式分类器的设置(例如，添加一个新的模式类)，直到确认这批可视化数据中没有潜藏新的数据模式。接着，分析人员将调整后的分类结果作为训练集更新模式分类器，使模式分类器能够识别新添加的数据模式，或者深化已有数据模式的分类能力。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种数据探索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数据探索方法，其特征在于，所述子模型的数量小于或等于N，且大于1。

3.根据权利要求1所述的一种数据探索方法，其特征在于，步骤S2中，所述聚类是将各组数据的可视化数据放入不同文件夹，完成聚类后，进入分类文件夹中删除等纯化分类。

4.一种用于数据探索的***，应用于权利要求1-3任意一项所述的一种数据探索方法，由前端和后端组成，所述前端包括可视化探索器组件和分类调整器组件，所述后端模块包括模式分类器初始化模块、模式识别模块以及模式分类器更新模块；

所述可视化探索器组件，用于管理数据探索方向和生成可视化数据，分析人员可以通过指定不同属性的属性值构建由大量记录构成的数据空间，***会自动生成空间中的可视化数据，并为每一个可视化数据计算指标，随后自动为生成的可视化数据进行分类；

所述分类调整器组件，用于支持分析人员调整可视化探索器的分类结果，对于具备新模式的可视化数据，分析人员可以通过新建类来归类它们，对于分类错误的可视化数据，可以手动将它们调整至正确的分类或者删除；

所述模式分类器初始化模块，用于初始化分类器，该模块集成了聚类算法，支持用户对当前可视化数据进行聚类；同时该模块具备数据处理功能，能对用户的最终聚类结果进行数据处理；

所述模式识别模块，集成了上述的自动化数据探索方发，用于识别可视化数据是否为模式分类器未曾接触过的新模式；

所述模式分类器更新模块，用于构建模式分类器的子模型，并且在用户调整完各个模式类的可视化数据之后，进行数据整合，将当前可视化数据的分类结果作为训练集和标签，更新模式分类器及其子模型。

5.根据权利要求4所述的一种用于数据探索的***，其特征在于，完成初始化模式分类器之后，***在指定的数据空间内随机生成一批数据查询，并为每一条数据生成相应的可视化数据，但是***不指定生成的可视化数据种类和样式，可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。