CN114896348A - 一种数据探索方法及*** - Google Patents
一种数据探索方法及*** Download PDFInfo
- Publication number
- CN114896348A CN114896348A CN202210532329.7A CN202210532329A CN114896348A CN 114896348 A CN114896348 A CN 114896348A CN 202210532329 A CN202210532329 A CN 202210532329A CN 114896348 A CN114896348 A CN 114896348A
- Authority
- CN
- China
- Prior art keywords
- data
- classifier
- mode
- visual
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000000007 visual effect Effects 0.000 claims abstract description 65
- 238000012800 visualization Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007670 refining Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 10
- 238000003909 pattern recognition Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000000746 purification Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 241000509579 Draco Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据探索方法,包括以下步骤:S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据。本发明能够自动识别属于陌生模式的可视化数据,实现了模式分类器自动化地探索数据,还能够使模式分类器自动地识别新模式并更新模式分类器。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种数据探索方法及***。
背景技术
一个数据集中包含了若干个样品,交互式数据探索是为了在数据集样品中识别潜在的数据模式,在典型的数据探索场景中,分析人员重复执行三个步骤,即(1)从大批量的原始记录中进行查询,并将查询结果绘制成反映地理或者数据变化等数据特征的可视化(2)用户逐张的审视可视化数据(3)用户利用自己的经验和知识确定模式是否存在。
虽然有许多方法通过推荐最优的可视化技术来呈现目标数据来自动化,但步骤(2)的主体仍然是人。主观的模式识别降低了交互式数据探索的效率,给分析人员施加了很高的工作负担,并可能产生受分析师认知能力和经验的限制的有偏见的结论。
有鉴于此,确有必要提供一种解决上述问题的技术方案。
发明内容
本发明的目的之一在于:提供一种数据探索方法,解决上述在面对不具备先验知识的数据集时,不能识别陌生模式的可视化数据,导致无法判断该样品是否属于新模式的问题。
为了实现上述目的,本发明采用以下技术方案:
一种数据探索方法,包括以下步骤:
S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;
S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据;
S3、更换各个属性的值,生成新的数据空间,或者不更改各个属性的值,继续在已有的数据空间中进行探索;
S4、在指定的数据空间内随机生成多组数据查询,并为每一条数据生成相应的可视化数据;
S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果,将样本输入到已经完成构建的多个子模型中,得到样本在各个子模型上的分类结果,通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。
作为所述数据探索方法的一种改进,子模型的数量小于或等于N,且大于1。
作为所述数据探索方法的一种改进,步骤S2中,聚类是将各组数据的可视化数据放入不同文件夹,完成聚类后,进入分类文件夹中删除等纯化分类。
本发明的目的之二在于,提供一种用于数据探索的***,应用于上述的数据探索方法,由前端和后端组成,前端包括可视化探索器组件和分类调整器组件,后端模块包括模式分类器初始化模块、模式识别模块以及模式分类器更新模块;
可视化探索器组件,用于管理数据探索方向和生成可视化数据,分析人员可以通过指定不同属性的属性值构建由大量记录构成的数据空间,***会自动生成空间中的可视化数据,并为每一个可视化数据计算指标,随后自动为生成的可视化数据进行分类;
分类调整器组件,用于支持分析人员调整可视化探索器的分类结果,对于具备新模式的可视化数据,分析人员可以通过新建类来归类它们,对于分类错误的可视化数据,可以手动将它们调整至正确的分类或者删除;
模式分类器初始化模块,用于初始化分类器,该模块集成了聚类算法,支持用户对当前可视化数据进行聚类;同时该模块具备数据处理功能,能对用户的最终聚类结果进行数据处理;
模式识别模块,集成了上述的自动化数据探索方发,用于识别可视化数据是否为模式分类器未曾接触过的新模式;
模式分类器更新模块,用于构建模式分类器的子模型,并且在用户调整完各个模式类的可视化数据之后,进行数据整合,将当前可视化数据的分类结果作为训练集和标签,更新模式分类器及其子模型。
作为所述用于数据探索的***的一种改进,完成初始化模式分类器之后,***在指定的数据空间内随机生成一批数据查询,并为每一条数据生成相应的可视化数据,但是***不指定生成的可视化数据种类和样式,可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。
相比于现有技术,本发明的有益效果在于:
1)本发明能够自动识别属于陌生模式的可视化数据,实现了模式分类器自动化地探索数据。现有的大多数相关的工作理想地假设数据中的模式类别是固定的,但是在真实场景中,分析人员会逐渐发现越来越多的新模式,面对这些新模式,模式分类器往往会给出错误的分类结果。本发明能够使模式分类器自动地识别新模式并更新模式分类器。
2)将模式识别这个在交互式数据探索的过程中频繁出现且需要耗费大量精力的任务交给模型负责,分析人员因此只需要维护模式分类器,并能够节省出精力去关注一些高层次任务,如调整探索范围和控制探索流程等。让模型和分析人员在交互式数据探索中做各自擅长的事情可以提升探索效率,避免主观偏差,降低人的负担。
附图说明
图1为本发明提供的一种数据探索方法的流程图。
图2为本发明提供的一种用于数据探索的***的结构图。
图3为本发明提供的一种用于数据探索的***的可视化***界面。
图4为属性值范围离散成等宽单位区间示意图。
图5为本发明提供的一种用于数据探索的***的可视化编码示意图。
图6为子模型构造示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了减小人的负担和认知水平带来的影响,降低人在数据探索中的工作量,采取自动化方法是自然而然的。在现有的技术中,有许多指标可以检测出一个可视化是否包含特定的数据模式。检测SPLOM(散点图矩阵)异常的Scagnostics方法和随后的改进是有代表性的方法,研究人员提出了许多其他指标,用于各种可视化技术,如时间序列、树状图、平行坐标图、平行集合图、星形图,以及面向像素的显示方法。Seo和Shneiderman使用普通统计学来选择最-合适的视图来展示过滤后的数据。Berger和Hauser将Seo和Shneiderman的框架扩展为根据在平行集合视图中刷选形成的子集的指标对维度进行排序。
除了检测可视化是否包含特定的模式,在现有的技术中,实现了根据数据分布自动生成可能包含模式的可视化工具。许多工具,如SEEDB、Autovis、VisPilot、Foresight、DataShot、zenvisage等,也依赖于指标来生成可能包含模式的可视化。对这类研究的重要调查包括。然而,指示器只能找到特定的模式类型。相比之下,模式分类器可以基于动态生成的可视化示例创建一个模式类,并从大量候选对象中快速发现相同的可视化类。
神经网络也被用于生成可视化。Data2Vis将可视化生成作为一个语言翻译问题,训练一个基于注意力的编码器-解码器网络来生成Vega-lite规范。VizML应用深度神经网络基于现有可视化(标签)和相关语料库的相关数据集(特征)预测设计选择。DeepEye使用一个决策树来评估可视化的质量。Draco[38]可以使用学习到排序模式找到适当的视觉编码。模式分类器和可视化创作侧重于IDE的不同阶段,并且可以一起使用。
越来越多的研究人员正在使用基于机器深度学习的技术来提高数据探索的效率和有效性。Bosch等人和Snyder等人利用分类器从数据流中识别与分析目标相关的推文。Heimerl等人设计了一个基于分类器的文本检索***。Gramazio、Huang和Laidlaw证明了经典分类器,如KNN和SVM,在识别常见的可视化分析任务中有意义的数据方面的有效性。然而,这些工作将分类器视为一个初步的数据过滤组件,而不像本文使用分类器来直接挖掘数据模式的方法。
许多工作都在训练机器学习模型来检索与分析人员指定的模式相关的可视化信息。Law,Basole和Wu利用多项式逻辑回归模型来确定两个可视化是否包含相似的模式。Dennig等人训练了一个模型来对反映分析人员偏好的相似性指标进行排序,并使用排名最好的指标来检索感兴趣的可视化信息。模式分类器不需要分析师指定目标模式,因此具有更好的适用性。
应用监督分类器来提高交互式数据探索的自动化程度是可视化领域的一个新趋势。Piet等人建立了一个分类器,从他们提出的累积车辆曲线中识别四种交通拥堵模式。然而,通过在训练分类器之前确定模式类,他们不需要考虑在IDE期间识别异常样本来更新分类器的挑战。Krueger等人提出了Facetto,一种可视化工具,它集成了一个分类器,从人类肿瘤和组织的显微镜图像中识别癌症和免疫细胞类型。然而,Facetto依赖于无监督聚类和人工交互来识别新的细胞类。换句话说,虽然模式识别通过应用分类器是自动的,但模式类的确定仍然是人工的。本文的方法可以从可视化中自动识别新的模式,从而更好地利用模式分类器在数据探索效率方面的优势。
本发明的目的之一在于,提供一种数据探索方法,包括以下步骤:
S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;
S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据;
S3、更换各个属性的值,生成新的数据空间,或者不更改各个属性的值,继续在已有的数据空间中进行探索;
S4、在指定的数据空间内随机生成多组数据查询,并为每一条数据生成相应的可视化数据;
S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果,将样本输入到已经完成构建的多个子模型中,得到样本在各个子模型上的分类结果,通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。
将模式识别这个在交互式数据探索的过程中频繁出现且需要耗费大量精力的任务交给模型负责,分析人员因此只需要维护模式分类器,并能够节省出精力去关注一些高层次任务,如调整探索范围和控制探索流程等。让模型和分析人员在交互式数据探索中做各自擅长的事情可以提升探索效率,避免主观偏差,降低人的负担。
本发明能够自动识别属于陌生模式的可视化,实现了模式分类器自动化地探索数据。现有的大多数相关的工作理想地假设数据中的模式类别是固定的,但是在真实场景中,分析人员会逐渐发现越来越多的新模式,面对这些新模式,模式分类器往往会给出错误的分类结果。本发明能够使模式分类器自动地识别新模式并更新模式分类器。
更为优选的是,子模型的数量小于或等于N,且大于1。
更为优选的是,步骤S2中,聚类是将各组数据的可视化数据放入不同文件夹,完成聚类后,进入分类文件夹中删除等纯化分类。
本发明的目的之二在于,提供一种用于数据探索的***,应用于上述的数据探索方法,由前端和后端组成,前端包括可视化探索器组件和分类调整器组件,后端模块包括模式分类器初始化模块、模式识别模块以及模式分类器更新模块;
可视化探索器组件,用于管理数据探索方向和生成可视化数据,分析人员可以通过指定不同属性的属性值构建由大量记录构成的数据空间,***会自动生成空间中的可视化数据,并为每一个可视化数据计算指标,随后自动为生成的可视化数据进行分类;
分类调整器组件,用于支持分析人员调整可视化探索器的分类结果,对于具备新模式的可视化数据,分析人员可以通过新建类来归类它们,对于分类错误的可视化数据,可以手动将它们调整至正确的分类或者删除;
模式分类器初始化模块,用于初始化分类器,该模块集成了聚类算法,支持用户对当前可视化数据进行聚类;同时该模块具备数据处理功能,能对用户的最终聚类结果进行数据处理;
模式识别模块,集成了上述的自动化数据探索方发,用于识别可视化数据是否为模式分类器未曾接触过的新模式;
模式分类器更新模块,用于构建模式分类器的子模型,并且在用户调整完各个模式类的可视化数据之后,进行数据整合,将当前可视化数据的分类结果作为训练集和标签,更新模式分类器及其子模型。
本发明还提供一种基于模式分类器的可视化***,该***充分利用了模式分类器的效率,不仅使模式分类器能够适应不同的数据环境,实现了自动化数据探索的完整生命流程。还允许分析师在一个很大的范围内一次性生成一批可视化数据,并快速利用模式分类器识别他们所蕴含的数据模式,从而实现一次性的对一整个空间,而不是单一可视化的探索。
更为优选的是,完成初始化模式分类器之后,***在指定的数据空间内随机生成一批数据查询,并为每一条数据生成相应的可视化数据,但是***不指定生成的可视化数据种类和样式,可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。
下面结合具体实例进行描述:本发明提出了一种数据探索方法及***,该方法通过构造模式分类器的子模型,观测样本在子模型中分类结果的一致性来判断样本是否属于新模式,属于模式分类器预测范围的样本在子模型中的分类结果的一致性很高,反之则很低。***基于上述提出的方法,实现了模式分类器的初始化、探索、更新的整个流程(如图2),并充分发挥了模式分类器在数据探索效率方面的优势。在***中应用模式分类器进行数据探索的具体步骤,如下所述:
步骤一:分析人员首先初始化模式分类器。初始化模式分类器并不困难,分析人员通过***中集成的查询面板构建数据空间(如图3(a1)),其中,每个查询涵盖相同的属性范围,以避免生成的可视化数据包含的记录在规模上有很大的差异。具体来说,将每个属性的值范围离散成等宽的单位区间(如图4),每个查询覆盖每个属性的一个单位区间。因此,每个可视化数据对应于指定探索空间中的一个单元,显示该单元中的记录模式。随后***从数据空间中随机选择一批数据进行可视化。随后分析人员在分类调整器(如图3(b))中对这批可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据,就能完成模式分类器的初始化。
步骤二:完成初始化模式分类器之后,与步骤一相似,分析人员可以在数据面板中更换各个属性的值,生成新的数据空间,或者不更改各个属性的值,继续在已有的数据空间中进行探索。
步骤三:然后,***在指定的空间内随机生成一批数据查询,并为每一条数据生成相应的可视化数据(如图3(a2))。***并不指定生成的可视化种类和样式,分析人员可以根据自身的需求更换不同的可视化种类或者生成适合分析人员进行数据探索的可视化样式。
步骤四:***会将步骤三中随机生成的可视化数据中映射的数据特征F=(vf1,vf2,...,vfn)作为可视化编码输入初始化的(或者已经更新过的)模式分类器f(x)中得到分类结果f(F),与此同时,***会将样本F=(vf1,vf2,...,vfn)输入到已经完成构建(如图6)的n个子模型{f1(x),f2(x),...,fn(x)}中(n小于或等于模式分类器隐含层的数量),得到样本在各个子模型上的分类结果为{f1(F),f2(F),...,fn(F)}。对于每一个样本,***都会将它们在子模型上的分类结果{f1(F),f2(F),...,fn(F)}输入Diff(.)中,Diff(.)是一个算子,如果子模型的分类结果fn(F)和原模型的分类结果f(F)相同,则返回1,反之则返回0,于是每一个样本都会输出分类一致性序列D={01,02,...,1n},最后计算该样本的方法指标:指标越大,说明该样本在各个子模型上的一致性越强,越有可能是已识别的模式,反之则有可能属于新模式。分析人员可以根据指标判断样本多大程度上属于模式分类器能够识别的模式。
步骤五:指标计算完毕后,模式分类器会根据用户设置的阈值,将指标分数高于阈值的可视化数据自动化地进行分类,这个阈值是可以设置的,通常情况下分析人员会将阈值设置的稍高,因为高指标值的可视化数据往往意味着是模式分类器已识别的模式,这既实现了模式分类的自动化,又在最大程度上防止模式分类器错误地分类了属于新模式的可视化数据。模式分类器将具有相似数据分布的可视化数据进行归类。
步骤六:分析人员检查分类结果以理解空间中的代表性模式。例如检查和确定各个分类中的代表性可视化数据,判断其中是否存在被分类错误的可视化数据和处于分类边界的可视化数据,以及查看每个模式下可视化数据的属性值分布,在同一个模式中属性值的分布是否集中。
步骤七:分析人员在检查分类结果的同时也会在分类调整器(如图3(b))中对分类结果进行调整,比如删除分类中处于分类边界的可视化数据和纯化分类结果。对于指标值较低的可视化数据,分析人员可以使用框架中集成的筛选器进行筛选,集中查看指标值最低的一批可视化数据,其中可能包含新的数据模式,并根据这些过滤后的样本调整模式分类器的设置(例如,添加一个新的模式类),直到确认这批可视化数据中没有潜藏新的数据模式。接着,分析人员将调整后的分类结果作为训练集更新模式分类器,使模式分类器能够识别新添加的数据模式,或者深化已有数据模式的分类能力。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (5)
1.一种数据探索方法,其特征在于,包括以下步骤:
S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;
S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据;
S3、更换各个属性的值,生成新的数据空间,或者不更改各个属性的值,继续在已有的数据空间中进行探索;
S4、在指定的数据空间内随机生成多组数据查询,并为每一条数据生成相应的可视化数据;
S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果,将样本输入到已经完成构建的多个子模型中,得到样本在各个子模型上的分类结果,通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。
2.根据权利要求1所述的一种数据探索方法,其特征在于,所述子模型的数量小于或等于N,且大于1。
3.根据权利要求1所述的一种数据探索方法,其特征在于,步骤S2中,所述聚类是将各组数据的可视化数据放入不同文件夹,完成聚类后,进入分类文件夹中删除等纯化分类。
4.一种用于数据探索的***,应用于权利要求1-3任意一项所述的一种数据探索方法,由前端和后端组成,所述前端包括可视化探索器组件和分类调整器组件,所述后端模块包括模式分类器初始化模块、模式识别模块以及模式分类器更新模块;
所述可视化探索器组件,用于管理数据探索方向和生成可视化数据,分析人员可以通过指定不同属性的属性值构建由大量记录构成的数据空间,***会自动生成空间中的可视化数据,并为每一个可视化数据计算指标,随后自动为生成的可视化数据进行分类;
所述分类调整器组件,用于支持分析人员调整可视化探索器的分类结果,对于具备新模式的可视化数据,分析人员可以通过新建类来归类它们,对于分类错误的可视化数据,可以手动将它们调整至正确的分类或者删除;
所述模式分类器初始化模块,用于初始化分类器,该模块集成了聚类算法,支持用户对当前可视化数据进行聚类;同时该模块具备数据处理功能,能对用户的最终聚类结果进行数据处理;
所述模式识别模块,集成了上述的自动化数据探索方发,用于识别可视化数据是否为模式分类器未曾接触过的新模式;
所述模式分类器更新模块,用于构建模式分类器的子模型,并且在用户调整完各个模式类的可视化数据之后,进行数据整合,将当前可视化数据的分类结果作为训练集和标签,更新模式分类器及其子模型。
5.根据权利要求4所述的一种用于数据探索的***,其特征在于,完成初始化模式分类器之后,***在指定的数据空间内随机生成一批数据查询,并为每一条数据生成相应的可视化数据,但是***不指定生成的可视化数据种类和样式,可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532329.7A CN114896348B (zh) | 2022-05-11 | 2022-05-11 | 一种可视化数据模式识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532329.7A CN114896348B (zh) | 2022-05-11 | 2022-05-11 | 一种可视化数据模式识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114896348A true CN114896348A (zh) | 2022-08-12 |
CN114896348B CN114896348B (zh) | 2024-06-04 |
Family
ID=82723476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210532329.7A Active CN114896348B (zh) | 2022-05-11 | 2022-05-11 | 一种可视化数据模式识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896348B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050100209A1 (en) * | 2003-07-02 | 2005-05-12 | Lockheed Martin Corporation | Self-optimizing classifier |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
CN110147321A (zh) * | 2019-04-19 | 2019-08-20 | 北京航空航天大学 | 一种基于软件网络的缺陷高风险模块的识别方法 |
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112364093A (zh) * | 2020-11-11 | 2021-02-12 | 天津大学 | 一种学习型大数据可视化方法及*** |
-
2022
- 2022-05-11 CN CN202210532329.7A patent/CN114896348B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050100209A1 (en) * | 2003-07-02 | 2005-05-12 | Lockheed Martin Corporation | Self-optimizing classifier |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
CN110147321A (zh) * | 2019-04-19 | 2019-08-20 | 北京航空航天大学 | 一种基于软件网络的缺陷高风险模块的识别方法 |
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112364093A (zh) * | 2020-11-11 | 2021-02-12 | 天津大学 | 一种学习型大数据可视化方法及*** |
Non-Patent Citations (1)
Title |
---|
CRISTIAN FELIX: "The Exploratory Labeling Assistant: Mixed-Initiative Label Curation with Large Document Collections", 《SESSION 4: CROWDS AND HUMAN-AI PARTNERSHIP》, 17 October 2018 (2018-10-17), pages 152 - 164 * |
Also Published As
Publication number | Publication date |
---|---|
CN114896348B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364894B (zh) | 一种基于元学习的对抗网络的零样本图像分类方法 | |
O'Donovan et al. | Exploratory font selection using crowdsourced attributes | |
US7225200B2 (en) | Automatic data perspective generation for a target variable | |
US6216134B1 (en) | Method and system for visualization of clusters and classifications | |
Kherfi et al. | Relevance feedback for CBIR: a new approach based on probabilistic feature weighting with positive and negative examples | |
CN109598279B (zh) | 基于自编码对抗生成网络的零样本学习方法 | |
Phan et al. | Color orchestra: Ordering color palettes for interpolation and prediction | |
DE202019006007U1 (de) | Techniken zum Erzeugen von Designs, die stilistische Präferenzen berücksichtigen | |
Zhao et al. | Skylens: Visual analysis of skyline on multi-dimensional data | |
CN110413780A (zh) | 文本情感分析方法、装置、存储介质及电子设备 | |
US20040172378A1 (en) | Method and apparatus for document filtering using ensemble filters | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN110599839A (zh) | 一种基于智能组卷和文本分析评阅的在线考试方法和*** | |
CN108960269A (zh) | 数据集的特征获取方法、装置及计算设备 | |
CN110737805B (zh) | 图模型数据的处理方法、装置和终端设备 | |
CN110458600A (zh) | 画像模型训练方法、装置、计算机设备及存储介质 | |
Park et al. | ComDia+: An interactive visual analytics system for comparing, diagnosing, and improving multiclass classifiers | |
CN110175631A (zh) | 一种基于共同学习子空间结构和聚类指示矩阵的多视图聚类方法 | |
CN114896348B (zh) | 一种可视化数据模式识别方法及*** | |
CN115034005B (zh) | 一种面向构件剩余使用寿命预测的模型分析可视化方法 | |
CN115691702A (zh) | 一种化合物可视化分类方法及*** | |
CN116126312A (zh) | 一种基于自然语言构建可视化图表的方法及*** | |
CN116978087A (zh) | 模型更新方法、装置、设备、存储介质及程序产品 | |
CN112883281B (zh) | 一种基于深度学习的用户聚类搜索*** | |
CN113435655B (zh) | 扇区动态管理决策方法、服务器及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |