CN117574235B - 一种数据自动化分类分级方法 - Google Patents
一种数据自动化分类分级方法 Download PDFInfo
- Publication number
- CN117574235B CN117574235B CN202311558458.4A CN202311558458A CN117574235B CN 117574235 B CN117574235 B CN 117574235B CN 202311558458 A CN202311558458 A CN 202311558458A CN 117574235 B CN117574235 B CN 117574235B
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- local data
- time point
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 137
- 230000008859 change Effects 0.000 claims abstract description 67
- 239000013598 vector Substances 0.000 claims description 38
- 238000000354 decomposition reaction Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 10
- 230000005484 gravity Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种数据自动化分类分级方法,包括:采集身份数据种类的若干身份数据;根据身份数据得到局部数据;根据局部数据构建数据矩阵,根据数据矩阵得到参考矩阵;根据参考矩阵得到局部变化规律性;根据局部变化规律性得到变化规律性曲线,根据变化规律性曲线得到前置参考时间点以及后置参考时间点;根据前置参考时间点以及后置参考时间点得到维度相关程度;根据维度相关程度得到维度组合对;根据维度组合对构建第一数据矩阵以及第二数据矩阵,根据第一数据矩阵以及第二数据矩阵得到调整特征值;根据调整特征值对局部数据进行分类。本发明降低了误差,使数据的分类结果更加准确。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据自动化分类分级方法。
背景技术
数据的分类分级是指将数据按照一定的特征属性分成不同的类别或等级,以便更加有效地进行数据管理和应用,由于在大数据环境中,数据具有多样性、高维性和复杂性等特点,不能很好地将数据分类。传统方法通常使用数据整体之间的相似性代替数据局部之间的相似性进行分类,但在整体数据内存在部分数据较为重要,这部分数据的微小变动会对最终的分类结果产生较大的影响,而传统方法获取的分类结果不会因这部分数据的微小变动产生变化。
发明内容
本发明提供一种数据自动化分类分级方法,以解决现有的问题:整体数据内存在部分数据较为重要,这部分数据的微小变动会对最终的分类结果产生较大的影响,而传统方法利用数据整体之间的相似性代替数据局部之间的相似性进行分类的结果不会因这部分数据的微小变动产生变化。
本发明的一种数据自动化分类分级方法采用如下技术方案:
包括以下步骤:
采集每个身份数据种类的若干身份数据;
对身份数据进行数据段划分得到若干局部数据以及每种身份数据种类的最大列数;根据局部数据以及最大列数构建数据矩阵,对数据矩阵进行SVD分解得到若干参考矩阵;对参考矩阵进行时间点以及维度划分得到每个局部数据的若干参考时间点以及若干参考维度;根据参考维度以及参考时间点对应局部数据之间的差异得到每个维度上每个局部数据与每个参考时间点的局部变化规律性;对若干局部变化规律性进行拟合得到每个局部数据的变化规律性曲线,对变化规律性曲线进行时间点筛选得到每个参考时间点的若干前置参考时间点以及若干后置参考时间点;根据参考时间点的前置参考时间点以及后置参考时间点对应的局部数据之间的差异得到任意两个维度之间的维度相关程度;
根据维度相关程度对若干维度进行筛选组合得到每个维度的若干维度组合对;根据维度组合对构建第一数据矩阵以及第二数据矩阵,对第一数据矩阵以及第二数据矩阵进行最大权值匹配得到若干调整特征值;根据调整特征值对局部数据进行分类。
优选的,所述对身份数据进行数据段划分得到若干局部数据以及每种身份数据种类的最大列数,包括的具体方法为:
对于任意一种身份数据种类中任意一个身份数据,若身份数据中仅包含多个文字,将每个文字记为身份数据的一个局部数据,将局部数据的数量记为身份数据的数据长度;若身份数据中包含仅包含多个数字,将每个数字记为身份数据的一个局部数据,将局部数据的数量记为身份数据的数据长度;获取身份数据种类中所有身份数据的数据长度,将身份数据种类中所有身份数据的数据长度的最大值记为身份数据种类的最大列数。
优选的,所述根据局部数据构建数据矩阵,对数据矩阵进行SVD分解得到若干参考矩阵,包括的具体方法为:
将所有身份数据种类作为初始数据矩阵的行,给每种身份数据种类分配对应最大列数个列,根据数据矩阵的行以及对应的列构建一个空的初始数据矩阵;将所有身份数据种类内所有身份数据按照记录时间从早到晚的顺序依次输入空的初始数据矩阵后,将初始数据矩阵记为数据矩阵,对数据矩阵进行SVD奇异值分解得到左奇异矩阵以及右奇异矩阵,将左奇异矩阵与右奇异矩阵均记为参考矩阵。
优选的,所述对参考矩阵进行时间点以及维度划分得到每个局部数据的若干参考时间点以及若干维度,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中的每一列记为一个维度,将参考矩阵中的每一行记为一个时间点,将参考矩阵中任意一个局部数据记为目标局部数据,将目标局部数据对应的维度以及时间点分别记为目标维度以及目标时间点;将除目标维度以外的任意一个维度记为参考维度,将除目标时间点以外的任意一个时间点记为参考时间点。
优选的,所述根据参考维度以及参考时间点对应局部数据之间的差异得到每个维度上每个局部数据与每个参考时间点的局部变化规律性,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据,将参考维度中与目标局部数据数值相同的局部数据记为参考局部数据,获取参考维度上所有的参考局部数据,对于目标局部数据的任意一个参考时间点,将参考时间点上任意两个参考局部数据记为参考局部数据对;
式中,β表示目标维度上目标局部数据与参考时间点的局部变化规律性;d1表示目标局部数据与参考时间点上所有参考局部数据的欧式距离的最小值;S表示参考维度上参考局部数据对的数量;ds表示参考维度上第s个参考局部数据对之间的欧式距离;| |表示取绝对值;exp( )表示以自然常数为底的指数函数。
优选的,所述对变化规律性曲线进行时间点筛选得到每个参考时间点的若干前置参考时间点以及若干后置参考时间点,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;
对于目标局部数据的任意一个参考时间点,将每个参考时间点在目标局部数据的变化规律性曲线上的值记为目标局部数据与参考时间点的拟合规律性;
预设一个参考时间点数量记为T1;将参考时间点前T1个参考时间点记为参考时间点的前置参考时间点,将参考时间点后T1个参考时间点记为参考时间点的后置参考时间点。
优选的,所述根据参考时间点的前置参考时间点以及后置参考时间点对应的局部数据之间的差异得到任意两个维度之间的维度相关程度,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;将目标局部数据对应的维度记为目标维度;
对于目标局部数据的任意一个参考时间点;
式中,f表示参考时间点的变化时间权重;d2表示在参考时间点的所有前置时间点中,所有前置时间点对应的拟合规律性之间的欧式距离的最小值;d3表示在参考时间点的所有后置时间点中,所有后置时间点对应的拟合规律性之间的欧式距离的最小值;d4表示所有参考时间点对应的拟合规律性之间的欧式距离的最小值;| |表示取绝对值;
对于目标局部数据的变化规律性曲线上任意两个相邻的参考时间点,将两个参考时间点对应的拟合规律性的差值记为第一差值,将两个参考时间点的差值记为第二差值,将第一差值与第二差值的比值记为两个参考时间点中第二个参考时间点的斜率;
式中,W表示目标维度上目标局部数据与参考维度的局部维度相关程度;N表示目标局部数据的变化规律性曲线上参考时间点的数量;kn表示目标局部数据的变化规律性曲线上第n个参考时间点的斜率;kn+1表示目标局部数据的变化规律性曲线上第n+1个参考时间点的斜率;τ表示预设的超参数;fn表示目标局部数据的变化规律性曲线上第n个参考时间点的变化时间权重;||表示取绝对值;获取所有目标局部数据与所有参考维度的相关程度,将所有相关程度进行线性归一化,将归一化后的相关程度记为初始维度相关程度;
将目标维度上所有局部数据与参考维度的初始维度相关程度的均值记为目标维度与参考维度之间的维度相关程度。
优选的,所述根据维度相关程度对若干维度进行筛选组合得到每个维度的若干维度组合对,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;将目标局部数据对应的维度记为目标维度;
预设一个维度相关程度阈值记为T2;对于任意两个维度,若两个维度之间的维度相关程度大于T2,将两个维度记为相关维度对,获取所有相关维度对;获取包含目标维度的所有相关维度对,并记为目标维度的目标相关维度对;将目标相关维度对中除目标维度以外的维度均记为目标维度的第一参考维度,对第一参考维度进行多维度组合得到若干维度组合,将包含目标维度的维度组合记为第一维度组合,将不包含目标维度的维度组合记为第二维度组合;对于任意一个第一维度组合,在所有第二维度组合中,将与第一维度组合中存在相同数量与种类的第一参考维度的第二维度组合记为第一维度组合的第三维度组合;若第三维度组合中任意两个维度之间的维度相关程度大于T2,那么将第三维度组合记为第一维度组合的第四维度组合,并将第四维度组合与第一维度组合整体记为维度组合对。
优选的,所述根据维度组合对构建第一数据矩阵以及第二数据矩阵,对第一数据矩阵以及第二数据矩阵进行最大权值匹配得到若干调整特征值,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;将目标局部数据对应的维度记为目标维度;
对于目标维度的任意一个维度组合对,根据维度组合对的第一维度组合构建数据矩阵并记为第一数据矩阵,根据维度组合对的第四维度组合构建数据矩阵并记为第二数据矩阵,对第一数据矩阵进行SVD奇异值分解得到若干第一特征向量,对第二数据矩阵进行SVD奇异值分解得到若干第二特征向量;将所有第一特征向量作为一个点集,将所有第二特征向量作为一个点集,将两个点集中第一特征向量与第二特征向量之间的余弦相似度作为边权,根据这两个点集以及若干边权进行二分图最大权值匹配得到最大权值匹配;将最大权值匹配中每条边对应的一个第一特征向量以及一个第二特征向量记为最佳匹配特征向量对,将所有最佳匹配特征向量对的余弦相似度的均值记为维度组合对的差异值;将目标维度下所有维度组合对的差异值的均值记为目标维度的非信息含量比重;获取所有维度的非信息含量比重;
获取参考矩阵的若干特征向量;
p1=(1+ε)×p
对于参考矩阵中任意一个维度,式中,p1表示维度下特征向量的调整特征值;ε表示维度的非信息含量比重;p表示维度下特征向量对应的特征值。
优选的,所述根据调整特征值对局部数据进行分类,包括的具体方法为:
将两个参考矩阵中所有维度下的特征向量的调整特征值作为奇异值,根据奇异值对两个参考矩阵进行重构得到重构后的数据矩阵,对于重构后的数据矩阵中任意两个时间点,获取两个时间点的所有局部数据之间的皮尔逊相关系数;
预设一个相关阈值记为T3,若两个时间点的所有局部数据之间的皮尔逊相关系数大于T3,将两个时间点的所有局部数据分为一类;依次类推,对重构后的数据矩阵完成分类。
本发明的技术方案的有益效果是:根据身份数据构建数据矩阵,对数据矩阵进行SVD分解得到若干参考矩阵,根据参考矩阵得到任意两个维度之间的维度相关程度,根据维度相关程度得到维度组合对,根据维度组合对得到调整特征值,根据调整特征值对局部数据进行分类;相较于现有技术利用数据整体之间的相似性代替数据局部之间的相似性进行分类的结果不会因这部分数据的微小变动产生变化;本发明避免了传统的相似性计算方法中,以整体数据的分布相似性来代替数据的局部相似性的问题,使得后续的分类结果更加准确,实现准确的数据自动化分类分级。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数据自动化分类分级方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数据自动化分类分级方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种数据自动化分类分级方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种数据自动化分类分级方法的步骤流程图,该方法包括以下步骤:
步骤S001:采集每个身份数据种类的若干身份数据。
需要说明的是,传统方法通常使用数据整体之间的相似性代替数据局部之间的相似性进行分类,但在整体数据内存在部分数据较为重要,这部分数据的微小变动会对最终的分类结果产生较大的影响,而传统方法获取的分类结果不会因这部分数据的微小变动产生变化。为此,本实施例提出了一种数据自动化分类分级方法。
具体的,本实施例并不针对某一类数据,以身份认证数据这一类数据为例进行叙述,为了实现本实施例提出的一种数据自动化分类分级方法,首先需要采集每个身份数据种类的若干身份数据,具体过程为:每隔5秒记录一名志愿者的姓名、年龄、性别以及身份证号这四种身份数据种类的数据,共记录100名志愿者;将每种身份数据种类中的每个数据记为身份数据。其中每种身份数据种类包含多个身份数据,每个身份数据对应一个记录时间。
至此,通过上述方法得到每个身份数据种类的若干身份数据。
步骤S002:对身份数据进行数据段划分得到若干局部数据以及每种身份数据种类的最大列数;根据局部数据以及最大列数构建数据矩阵,对数据矩阵进行SVD分解得到若干参考矩阵;对参考矩阵进行时间点以及维度划分得到每个局部数据的若干参考时间点以及若干参考维度;根据参考维度以及参考时间点对应局部数据之间的差异得到每个维度上每个局部数据与每个参考时间点的局部变化规律性;对若干局部变化规律性进行拟合得到每个局部数据的变化规律性曲线,对变化规律性曲线进行时间点筛选得到每个参考时间点的若干前置参考时间点以及若干后置参考时间点;根据参考时间点的前置参考时间点以及后置参考时间点对应的局部数据之间的差异得到任意两个维度之间的维度相关程度。
需要说明的是,数据在自动化分类的过程中,传统方法通常使用数据整体之间的相似性代替数据局部之间的相似性进行分类,但由于整体数据内不同数据所表征的含义不同,使用者对不同数据的需求不同,导致不同数据对分类结果的影响不同,使整体数据的分布相似性很难代替数据的局部相似性,所以为了提高分类结果的准确性,本实施例通过分析数据之间的局部相似性对所有数据进行分类。例如:个人的身份证号是由省份代码、城市的代码、区县的代码、个人出生年月日等信息构成,对于两个所属于同一个县区的人而言,这二人的身份证号序列中会存在较大部分数字相同、顺序相同的序列片段,除去这段相同的序列片段,剩余的序列片段对于区别这二人来说也是十分重要的。
进一步需要说明的是,在通过分析数据之间的局部相似性对所有数据进行分类的过程中,为了可以更直观地观察数据之间局部区域的差异,本实施例将身份数据构建为数据矩阵,通过数据矩阵代表身份数据的分布,为了使后续分析处理更加简便,对数据矩阵通过SVD奇异值分解进行降维。对数据矩阵降维后会存在多个特征向量,这些特征向量包含的信息不同,导致特征向量处于不同时间以及维度时,彼此之间的关联不同,可以通过分析不同时间以及维度之间局部数据的分布关系得到不同维度之间的维度相关程度,以便后续分析处理。
具体的,以任意一种身份数据种类中任意一个身份数据为例,若该身份数据中仅包含多个文字,将每个文字记为该身份数据的一个局部数据,将这些局部数据的数量记为该身份数据的数据长度;若该身份数据中包含仅包含多个数字,将每个数字记为该身份数据的一个局部数据,将这些局部数据的数量记为该身份数据的数据长度;获取该身份数据种类中所有身份数据的数据长度,将该身份数据种类中所有身份数据的数据长度的最大值记为该身份数据种类的最大列数;获取所有身份数据种类的最大列数。
进一步的,将所有身份数据种类作为初始数据矩阵的行,给每种身份数据种类分配对应最大列数个列,根据数据矩阵的行以及对应的列构建一个空的初始数据矩阵;将所有身份数据种类内所有身份数据按照记录时间从早到晚的顺序依次输入空的初始数据矩阵后,将初始数据矩阵记为数据矩阵,对该数据矩阵进行SVD奇异值分解得到左奇异矩阵以及右奇异矩阵,将左奇异矩阵与右奇异矩阵均记为参考矩阵。其中获取左奇异矩阵与右奇异矩阵的获取是SVD奇异值分解算法的公知内容,本实施例不再赘述。需要说明的是,在向空的初始数据矩阵输入身份数据的过程中,若该次输入的身份数据的数据长度不满足于该身份数据所属身份数据种类的最大列数时,那么将该身份数据之后补0,直至该身份数据的数据长度与该身份数据所属身份数据种类的最大列数相等为止。
进一步的,以任意一个参考矩阵为例,将该参考矩阵中的每一列记为一个维度,将该参考矩阵中的每一行记为一个时间点,将该参考矩阵中任意一个局部数据记为目标局部数据,将该目标局部数据对应的维度以及时间点分别记为目标维度以及目标时间点;将除该目标维度以外的任意一个维度记为参考维度,将除该目标时间点以外的任意一个时间点记为参考时间点;将该参考维度中与该目标局部数据数值相同的局部数据记为参考局部数据,获取该参考维度上所有的参考局部数据,以任意一个参考时间点为例,将该参考时间点上任意两个参考局部数据记为参考局部数据对;根据该参考时间点上的所有参考局部数据对得到该目标维度上该目标局部数据与该参考时间点的局部变化规律性。其中参考矩阵中包含多个局部数据,每个局部数据对应一个维度以及一个时间点。另外该目标维度上该目标局部数据与该参考时间点的局部变化规律性的计算方法为:
式中,β表示该目标维度上该目标局部数据与该参考时间点的局部变化规律性;d1表示该目标局部数据与该参考时间点上所有参考局部数据的欧式距离的最小值;s表示该参考维度上参考局部数据对的数量;ds表示该参考维度上第s个参考局部数据对之间的欧式距离;| |表示取绝对值;exp( )表示以自然常数为底的指数函数;实施例采用exp(-)函数来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数。其中若该目标维度上该目标局部数据与该参考时间点的局部变化规律性越大,说明该目标局部数据与该参考时间点上的局部数据之间越相关,反映该参考时间点对该目标局部数据越有影响力。获取该目标维度上该目标局部数据与所有参考时间点的局部变化规律性。另外欧式距离的获取是公知技术,本实施例不再赘述。
进一步的,根据该目标维度上该目标局部数据与所有参考时间点的局部变化规律性构建二维坐标系,横坐标表示参考时间点,纵坐标表示该目标局部数据与对应参考时间点的局部变化规律性;对该二维坐标系中的所有局部变化规律性进行最小二乘法拟合得到拟合曲线,将该拟合曲线记为该目标局部数据的变化规律性曲线;以横坐标上任意一个参考时间点为例,将每个参考时间点在该变化规律性曲线上的值记为该目标局部数据与该参考时间点的拟合规律性;预设一个参考时间点数量T1,其中本实施例以T1=5为例进行叙述,本实施例不进行具体限定,其中T1可根据具体实施情况而定;将该参考时间点前T1个参考时间点记为该参考时间点的前置参考时间点,将该参考时间点后T1个参考时间点记为该参考时间点的后置参考时间点。其中每个参考时间点对应一个拟合规律性;最小二乘法是公知技术,本实施例不再赘述。需要说明的是,在获取该参考时间点的前置参考时间点以及后置参考时间点的过程中,若该参考时间点前后实际存在的参考时间点数量不满足T1时,那么以实际存在的参考时间点数量为准获取前置参考时间点或后置参考时间点。
进一步的,根据该参考时间点的前置参考时间点以及后置参考时间点得到该参考时间点的变化时间权重。其中该参考时间点的变化时间权重的计算方法为:
式中,f表示该参考时间点的变化时间权重;d2表示在该参考时间点的所有前置时间点中,所有前置时间点对应的拟合规律性之间的欧式距离的最小值;d3表示在该参考时间点的所有后置时间点中,所有后置时间点对应的拟合规律性之间的欧式距离的最小值;d4表示所有参考时间点对应的拟合规律性之间的欧式距离的最小值;||表示取绝对值;其中若该参考时间点的变化时间权重越大,说明该参考时间点可以存在的偏差越大,反映该参考时间点越有可能属于存在变化的时间点。获取所有参考时间点的变化时间权重。
进一步的,以该目标局部数据的变化规律性曲线上任意两个相邻的参考时间点为例,将这两个参考时间点对应的拟合规律性的差值记为第一差值,将这两个参考时间点的差值记为第二差值,将第一差值与第二差值的比值记为这两个参考时间点中第二个参考时间点的斜率。需要说明的是,对于第一个参考时间点的斜率,本实施例将第二个参考时间点的斜率赋予第一个参考时间点的斜率。
进一步的,根据所有参考时间点的变化时间权重以及斜率得到该目标维度上目标局部数据与该参考维度的局部维度相关程度。其中该目标维度上该目标局部数据与该参考维度的局部维度相关程度的计算方法为:
式中,W表示该目标维度上该目标局部数据与该参考维度的局部维度相关程度;N表示该该目标局部数据的变化规律性曲线上参考时间点的数量;kn表示该目标局部数据的变化规律性曲线上第n个参考时间点的斜率;kn+1表示该目标局部数据的变化规律性曲线上第n+1个参考时间点的斜率;τ表示预设的超参数,本实施例预设τ=1;fn表示该目标局部数据的变化规律性曲线上第n个参考时间点的变化时间权重;||表示取绝对值;其中该目标维度上该目标局部数据与该参考维度的局部维度相关程度越大,说明该目标局部数据与该参考维度上的局部数据越相关;获取所有目标局部数据与所有参考维度的相关程度,将所有相关程度进行线性归一化,将归一化后的相关程度记为初始维度相关程度。
进一步的,将该目标维度上所有局部数据与该参考维度的初始维度相关程度的均值记为该目标维度与该参考维度之间的维度相关程度;获取任意两个维度之间的维度相关程度。
至此,通过上述方法得到任意两个维度之间的维度相关程度。
步骤S003:根据维度相关程度对若干维度进行筛选组合得到每个维度的若干维度组合对;根据维度组合对构建第一数据矩阵以及第二数据矩阵,对第一数据矩阵以及第二数据矩阵进行最大权值匹配得到若干调整特征值;根据调整特征值对局部数据进行分类。
需要说明的是,在获取维度之间的维度相关程度后,对于任意一个维度而言,包含该维度的不同维度组合具有不同程度的相关性,本实施例通过不同维度组合的相关程度确定每个维度的非信息含量比重,然后根据非信息含量比重对原本的特征值进行调整并重构矩阵,得到数据表示较为准确的数据矩阵,从而获取精准的分类结果。
具体的,预设一个维度相关程度阈值T2,其中本实施例以T2=0.65为例进行叙述,本实施例不进行具体限定,其中T2可根据具体实施情况而定;以任意两个维度为例,若这两个维度之间的维度相关程度大于T2,将这两个维度记为相关维度对,获取所有相关维度对;获取包含目标维度的所有相关维度对,并记为目标维度的目标相关维度对;将目标相关维度对中除目标维度以外的维度均记为该目标维度的第一参考维度,对第一参考维度进行多维度组合得到若干维度组合,将包含目标维度的维度组合记为第一维度组合,将不包含目标维度的维度组合记为第二维度组合;以任意一个第一维度组合为例,在所有第二维度组合中,将与该第一维度组合中存在相同数量与种类的第一参考维度的第二维度组合记为该第一维度组合的第三维度组合,若该第三维度组合中任意两个维度之间的维度相关程度大于T2,那么将该第三维度组合记为该第一维度组合的第四维度组合,并将该第四维度组合与第一维度组合整体记为维度组合对;获取若干维度组合对;其中每个第一维度组合对应一个第二维度组合。需要说明的是,多维度组合中可能存在多个组合情况。
以目标维度的任意一个维度组合对为例,根据该维度组合对的第一维度组合构建数据矩阵并记为第一数据矩阵,根据该维度组合对的第四维度组合构建数据矩阵并记为第二数据矩阵,对第一数据矩阵进行SVD奇异值分解得到若干第一特征向量,对第二数据矩阵进行SVD奇异值分解得到若干第二特征向量;将所有第一特征向量作为一个点集,将所有第二特征向量作为一个点集,将两个点集中第一特征向量与第二特征向量之间的余弦相似度作为边权,根据这两个点集以及若干边权进行二分图最大权值匹配得到最大权值匹配;将最大权值匹配中每条边对应的一个第一特征向量以及一个第二特征向量记为最佳匹配特征向量对,将所有最佳匹配特征向量对的余弦相似度的均值记为该维度组合对的差异值;将目标维度下所有维度组合对的差异值的均值记为该目标维度的非信息含量比重;获取所有维度的非信息含量比重。其中最大权值匹配是一组边,每条边对应一个第一特征向量以及一个第二特征向量。其中根据点集以及边权获取最大权值匹配的过程是二分图最大权值匹配算法的公知内容,特征向量以及特征值的获取是SVD奇异值分解的公知内容,本实施例不再赘述。
进一步的,获取参考矩阵的若干特征向量,以参考矩阵中任意一个维度为例,根据该维度的非信息含量比重以及特征值得到该维度下特征向量的调整特征值。其中每个维度对应一个特征向量,每个特征向量对应一个特征值。另外该维度下特征向量的调整特征值的计算方法为:
p1=(1+ε)×p
式中,p1表示该维度下特征向量的调整特征值;ε表示该维度的非信息含量比重;p表示该维度下特征向量对应的特征值。其中若该维度下特征向量的调整特征值越大,说明该维度下的局部数据变化越大。获取该参考矩阵中所有维度下特征向量的调整特征值;获取两个参考矩阵中所有维度下特征向量的调整特征值。
进一步的,将两个参考矩阵中所有维度下的特征向量的调整特征值作为奇异值,根据奇异值对两个参考矩阵进行重构得到重构后的数据矩阵,以重构后的数据矩阵中任意两个时间点为例,获取这两个时间点的所有局部数据之间的皮尔逊相关系数;预设一个相关阈值T3,其中本实施例以T3=0.65为例进行叙述,本实施例不进行具体限定,其中T3可根据具体实施情况而定;若这两个时间点的所有局部数据之间的皮尔逊相关系数大于T3,将这两个时间点的所有局部数据分为一类;依次类推,对重构后的数据矩阵完成分类。其中根据两个矩阵以及奇异值获取分解前矩阵的过程是SVD奇异值分解的公知内容,皮尔逊相关系数是公知技术,本实施例不再赘述。
至此,本实施例完成。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据自动化分类分级方法,其特征在于,该方法包括以下步骤:
采集每个身份数据种类的若干身份数据;
对身份数据进行数据段划分得到若干局部数据以及每种身份数据种类的最大列数;根据局部数据以及最大列数构建数据矩阵,对数据矩阵进行SVD分解得到若干参考矩阵;对参考矩阵进行时间点以及维度划分得到每个局部数据的若干参考时间点以及若干参考维度;根据参考维度以及参考时间点对应局部数据之间的差异得到每个维度上每个局部数据与每个参考时间点的局部变化规律性;对若干局部变化规律性进行拟合得到每个局部数据的变化规律性曲线,对变化规律性曲线进行时间点筛选得到每个参考时间点的若干前置参考时间点以及若干后置参考时间点;根据参考时间点的前置参考时间点以及后置参考时间点对应的局部数据之间的差异得到任意两个维度之间的维度相关程度;
根据维度相关程度对若干维度进行筛选组合得到每个维度的若干维度组合对;根据维度组合对构建第一数据矩阵以及第二数据矩阵,对第一数据矩阵以及第二数据矩阵进行最大权值匹配得到若干调整特征值;根据调整特征值对局部数据进行分类。
2.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述对身份数据进行数据段划分得到若干局部数据以及每种身份数据种类的最大列数,包括的具体方法为:
对于任意一种身份数据种类中任意一个身份数据,若身份数据中仅包含多个文字,将每个文字记为身份数据的一个局部数据,将局部数据的数量记为身份数据的数据长度;若身份数据中包含仅包含多个数字,将每个数字记为身份数据的一个局部数据,将局部数据的数量记为身份数据的数据长度;获取身份数据种类中所有身份数据的数据长度,将身份数据种类中所有身份数据的数据长度的最大值记为身份数据种类的最大列数。
3.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述根据局部数据构建数据矩阵,对数据矩阵进行SVD分解得到若干参考矩阵,包括的具体方法为:
将所有身份数据种类作为初始数据矩阵的行,给每种身份数据种类分配对应最大列数个列,根据数据矩阵的行以及对应的列构建一个空的初始数据矩阵;将所有身份数据种类内所有身份数据按照记录时间从早到晚的顺序依次输入空的初始数据矩阵后,将初始数据矩阵记为数据矩阵,对数据矩阵进行SVD奇异值分解得到左奇异矩阵以及右奇异矩阵,将左奇异矩阵与右奇异矩阵均记为参考矩阵。
4.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述对参考矩阵进行时间点以及维度划分得到每个局部数据的若干参考时间点以及若干维度,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中的每一列记为一个维度,将参考矩阵中的每一行记为一个时间点,将参考矩阵中任意一个局部数据记为目标局部数据,将目标局部数据对应的维度以及时间点分别记为目标维度以及目标时间点;将除目标维度以外的任意一个维度记为参考维度,将除目标时间点以外的任意一个时间点记为参考时间点。
5.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述根据参考维度以及参考时间点对应局部数据之间的差异得到每个维度上每个局部数据与每个参考时间点的局部变化规律性,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据,将参考维度中与目标局部数据数值相同的局部数据记为参考局部数据,获取参考维度上所有的参考局部数据,对于目标局部数据的任意一个参考时间点,将参考时间点上任意两个参考局部数据记为参考局部数据对;
式中,β表示目标维度上目标局部数据与参考时间点的局部变化规律性;d1表示目标局部数据与参考时间点上所有参考局部数据的欧式距离的最小值;S表示参考维度上参考局部数据对的数量;ds表示参考维度上第s个参考局部数据对之间的欧式距离;||表示取绝对值;exp()表示以自然常数为底的指数函数。
6.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述对变化规律性曲线进行时间点筛选得到每个参考时间点的若干前置参考时间点以及若干后置参考时间点,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;
对于目标局部数据的任意一个参考时间点,将每个参考时间点在目标局部数据的变化规律性曲线上的值记为目标局部数据与参考时间点的拟合规律性;
预设一个参考时间点数量记为T1;将参考时间点前T1个参考时间点记为参考时间点的前置参考时间点,将参考时间点后T1个参考时间点记为参考时间点的后置参考时间点。
7.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述根据参考时间点的前置参考时间点以及后置参考时间点对应的局部数据之间的差异得到任意两个维度之间的维度相关程度,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;将目标局部数据对应的维度记为目标维度;
对于目标局部数据的任意一个参考时间点;
式中,f表示参考时间点的变化时间权重;d2表示在参考时间点的所有前置时间点中,所有前置时间点对应的拟合规律性之间的欧式距离的最小值;d3表示在参考时间点的所有后置时间点中,所有后置时间点对应的拟合规律性之间的欧式距离的最小值;d4表示所有参考时间点对应的拟合规律性之间的欧式距离的最小值;||表示取绝对值;
对于目标局部数据的变化规律性曲线上任意两个相邻的参考时间点,将两个参考时间点对应的拟合规律性的差值记为第一差值,将两个参考时间点的差值记为第二差值,将第一差值与第二差值的比值记为两个参考时间点中第二个参考时间点的斜率;
式中,W表示目标维度上目标局部数据与参考维度的局部维度相关程度;N表示目标局部数据的变化规律性曲线上参考时间点的数量;kn表示目标局部数据的变化规律性曲线上第n个参考时间点的斜率;kn+1表示目标局部数据的变化规律性曲线上第n+1个参考时间点的斜率;τ表示预设的超参数;fn表示目标局部数据的变化规律性曲线上第n个参考时间点的变化时间权重;||表示取绝对值;获取所有目标局部数据与所有参考维度的相关程度,将所有相关程度进行线性归一化,将归一化后的相关程度记为初始维度相关程度;
将目标维度上所有局部数据与参考维度的初始维度相关程度的均值记为目标维度与参考维度之间的维度相关程度。
8.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述根据维度相关程度对若干维度进行筛选组合得到每个维度的若干维度组合对,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;将目标局部数据对应的维度记为目标维度;
预设一个维度相关程度阈值记为T2;对于任意两个维度,若两个维度之间的维度相关程度大于T2,将两个维度记为相关维度对,获取所有相关维度对;获取包含目标维度的所有相关维度对,并记为目标维度的目标相关维度对;将目标相关维度对中除目标维度以外的维度均记为目标维度的第一参考维度,对第一参考维度进行多维度组合得到若干维度组合,将包含目标维度的维度组合记为第一维度组合,将不包含目标维度的维度组合记为第二维度组合;对于任意一个第一维度组合,在所有第二维度组合中,将与第一维度组合中存在相同数量与种类的第一参考维度的第二维度组合记为第一维度组合的第三维度组合;若第三维度组合中任意两个维度之间的维度相关程度大于T2,那么将第三维度组合记为第一维度组合的第四维度组合,并将第四维度组合与第一维度组合整体记为维度组合对。
9.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述根据维度组合对构建第一数据矩阵以及第二数据矩阵,对第一数据矩阵以及第二数据矩阵进行最大权值匹配得到若干调整特征值,包括的具体方法为:
对于任意一个参考矩阵,将参考矩阵中任意一个局部数据记为目标局部数据;将目标局部数据对应的维度记为目标维度;
对于目标维度的任意一个维度组合对,根据维度组合对的第一维度组合构建数据矩阵并记为第一数据矩阵,根据维度组合对的第四维度组合构建数据矩阵并记为第二数据矩阵,对第一数据矩阵进行SVD奇异值分解得到若干第一特征向量,对第二数据矩阵进行SVD奇异值分解得到若干第二特征向量;将所有第一特征向量作为一个点集,将所有第二特征向量作为一个点集,将两个点集中第一特征向量与第二特征向量之间的余弦相似度作为边权,根据这两个点集以及若干边权进行二分图最大权值匹配得到最大权值匹配;将最大权值匹配中每条边对应的一个第一特征向量以及一个第二特征向量记为最佳匹配特征向量对,将所有最佳匹配特征向量对的余弦相似度的均值记为维度组合对的差异值;将目标维度下所有维度组合对的差异值的均值记为目标维度的非信息含量比重;获取所有维度的非信息含量比重;
获取参考矩阵的若干特征向量;
p1=(1+ε)×p
对于参考矩阵中任意一个维度,式中,p1表示维度下特征向量的调整特征值;ε表示维度的非信息含量比重;p表示维度下特征向量对应的特征值。
10.根据权利要求1所述一种数据自动化分类分级方法,其特征在于,所述根据调整特征值对局部数据进行分类,包括的具体方法为:
将两个参考矩阵中所有维度下的特征向量的调整特征值作为奇异值,根据奇异值对两个参考矩阵进行重构得到重构后的数据矩阵,对于重构后的数据矩阵中任意两个时间点,获取两个时间点的所有局部数据之间的皮尔逊相关系数;
预设一个相关阈值记为T3,若两个时间点的所有局部数据之间的皮尔逊相关系数大于T3,将两个时间点的所有局部数据分为一类;依次类推,对重构后的数据矩阵完成分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558458.4A CN117574235B (zh) | 2023-11-21 | 2023-11-21 | 一种数据自动化分类分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558458.4A CN117574235B (zh) | 2023-11-21 | 2023-11-21 | 一种数据自动化分类分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117574235A CN117574235A (zh) | 2024-02-20 |
CN117574235B true CN117574235B (zh) | 2024-05-28 |
Family
ID=89860227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311558458.4A Active CN117574235B (zh) | 2023-11-21 | 2023-11-21 | 一种数据自动化分类分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574235B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203520A (zh) * | 2016-07-17 | 2016-12-07 | 西安电子科技大学 | 基于深度相关向量机的sar图像分类方法 |
CN107944488A (zh) * | 2017-11-21 | 2018-04-20 | 清华大学 | 基于层次化深度网络的长时序列数据处理方法 |
CN109716345A (zh) * | 2016-04-29 | 2019-05-03 | 普威达有限公司 | 计算机实现的隐私工程***和方法 |
CN109700463A (zh) * | 2019-03-12 | 2019-05-03 | 四川大学 | 一种脑磁图癫痫棘波识别方法和*** |
CN112221156A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据异常识别方法、装置、存储介质以及电子设备 |
-
2023
- 2023-11-21 CN CN202311558458.4A patent/CN117574235B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109716345A (zh) * | 2016-04-29 | 2019-05-03 | 普威达有限公司 | 计算机实现的隐私工程***和方法 |
CN106203520A (zh) * | 2016-07-17 | 2016-12-07 | 西安电子科技大学 | 基于深度相关向量机的sar图像分类方法 |
CN107944488A (zh) * | 2017-11-21 | 2018-04-20 | 清华大学 | 基于层次化深度网络的长时序列数据处理方法 |
CN109700463A (zh) * | 2019-03-12 | 2019-05-03 | 四川大学 | 一种脑磁图癫痫棘波识别方法和*** |
CN112221156A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据异常识别方法、装置、存储介质以及电子设备 |
Non-Patent Citations (1)
Title |
---|
脑磁图脑功能连接网络癫痫棘波识别方法研究;张航宇;李彬;尹春丽;刘凯;王玉平;张军鹏;;计算机工程与应用;20190505(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117574235A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Yang et al. | A feature-reduction multi-view k-means clustering algorithm | |
Carmichael et al. | Taxometric maps | |
CN108763590B (zh) | 一种基于双变加权核fcm算法的数据聚类方法 | |
CN113705446B (zh) | 一种面向辐射源个体的开集识别方法 | |
CN109543723B (zh) | 一种鲁棒的图像聚类方法 | |
CN107451545B (zh) | 基于软标签下多通道判别非负矩阵分解的人脸识别方法 | |
Champ et al. | A comparative study of fine-grained classification methods in the context of the LifeCLEF plant identification challenge 2015 | |
CN103942571B (zh) | 一种基于遗传规划算法的图形图像分类方法 | |
CN109657707A (zh) | 一种基于观测矩阵变换维度的图像分类方法 | |
CN115019104A (zh) | 基于多源域自注意力的小样本遥感图像分类方法及*** | |
CN107220656A (zh) | 一种基于自适应特征降维的多标记数据分类方法 | |
CN108921853B (zh) | 基于超像素和免疫稀疏谱聚类的图像分割方法 | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
CN110378272A (zh) | 基于矩阵分块Isomap算法的高光谱遥感影像特征提取方法 | |
CN111798526B (zh) | 基于聚类空间映射的彩色图像主色快速提取方法及*** | |
CN116524253A (zh) | 一种基于轻量级Transformer的甲状腺癌病理图像分类方法 | |
CN109947960A (zh) | 基于深度卷积的人脸多属性联合估计模型构建方法 | |
Zheng et al. | Limit results for distributed estimation of invariant subspaces in multiple networks inference and PCA | |
CN117574235B (zh) | 一种数据自动化分类分级方法 | |
CN113392871A (zh) | 一种基于散射机制多通道扩张卷积神经网络的极化sar地物分类方法 | |
CN112966735A (zh) | 一种基于谱重建的监督多集相关特征融合方法 | |
CN101667253A (zh) | 一种高光谱遥感数据多类别监督分类方法 | |
CN112308151A (zh) | 基于加权的旋转森林高光谱图像分类方法 | |
CN113688229B (zh) | 一种文本推荐方法、***、存储介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |