CN111104466B - 一种海量数据库表快速分类的方法 - Google Patents
一种海量数据库表快速分类的方法 Download PDFInfo
- Publication number
- CN111104466B CN111104466B CN201911357917.6A CN201911357917A CN111104466B CN 111104466 B CN111104466 B CN 111104466B CN 201911357917 A CN201911357917 A CN 201911357917A CN 111104466 B CN111104466 B CN 111104466B
- Authority
- CN
- China
- Prior art keywords
- data
- field
- fields
- clustering
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000007635 classification algorithm Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 51
- 238000002372 labelling Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种海量数据库表快速分类的方法,其中,包括,计算互信息熵获取每个表的关键属性,根据属性字段类型的元数据信息及数据内容摘要构建所选属性的特征向量,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签,形成训练集训练分类算法,将训练好的分类算法应用于余属性分类,对分类结果进行抽样判断,反向优化分类算法,输出所有数据库表属性字段的类别。本发明结合数据库字段元数据信息和字段内容构建字段特征向量,通过对待分析的数据库关键字段进行聚类并设置数据领域(打标签),构建训练集,训练行业特色的分类算法,简化手工处理工作量。
Description
技术领域
本发明涉及数据库技术,特别涉及一种海量数据库表快速分类的方法。
背景技术
在数仓建设过程中,数据编目与清洗耗费了大量的人力、物力,其中很重要的一个工作是对数据库表进行分类。通过对数据库表进行分类打标签,识别出所属数据领域(如该字段代表客户、产品、数量、金额等),建立数据目录,有助于补齐缺失的元数据信息,辅助制定数据质量规则发现数据质量问题等,有针对性的进行后续数据治理和提升。
现有的数据分类方法需要实施人员根据数据库设计文档、库表结构备注等进行,很大程度依赖人的经验,每条元数据信息都需逐一确认,费时费力。当面对海量的数据类型和数据规模时,人工成本非常巨大。为此,我们将机器学习方法引入数据管理领域,基于现有数据分类标签,通过聚类、分类等方法,让计算机辅助进行数据分类与打标签,减少重复工作量,提高效率。
实现这一方法的关键技术之一是提取数据库字段(字符型和数值型)的特征向量,通过训练机器学习分类算法识别出所属数据领域。
数据库表的字段的特征应包含两部分:字段的元数据信息和字段对应的数据内容。字段的元数据信息是对该字段的剖析和描述,包括字段类型、长度、字段内容的分布特征、模式等。如对于邮箱字段,其元数据信息包括:字段属于字符串,长度不大于256字符,模式满足邮箱的正则表达式等;对于销售金额字段,其元数据信息包括:字段属于数值型,精度在小数点后两位,数据分布大致满足正太分布,其最大值、最小值、均值、方差等在某一特定范围内等等。在构造数据库字段特征时,增加此类元数据信息,能够更加准确、快速的分辨出字段所属数据领域。
发明内容
本发明的目的在于提供一种海量数据库表快速分类的方法,用于解决上述现有技术的问题。
本发明一种海量数据库表快速分类的方法,其中,包括,计算互信息熵获取每个表的关键属性,根据属性字段类型的元数据信息及数据内容摘要构建所选属性的特征向量,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签,形成训练集训练分类算法,将训练好的分类算法应用于余属性分类,对分类结果进行抽样判断,反向优化分类算法,输出所有数据库表属性字段的类别。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,计算互信息熵获取每个表的关键属性包括:根据数据库的抽样数据,通过计算数据库表各字段间的互信息熵,得到不同字段间的依赖关系,根据阈值选择对其他字段影响最大的关键字段。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,计算互信息熵获取每个表的关键属性具体包括:随机数据抽样,包括:当数据库表数据规模较小时,使用全量数据;当数据规模较大时,采用无放回的随机抽样;计算字段的信息熵和互信息熵包括:字段X的信息熵H(X),其中p(x)为数值x在X整个取值范围内分布的概率;
字段x与其余字段y的互信息熵I(X,Y),p(x,y)为数据对<x,y>在<X,Y>整个取值范围内分布的概率:
依次计算所有字段的信息熵H(x),以及字段x与其余字段y的互信息熵I(x,y),形成字段间的依赖图,依赖图中的某一个节点vi的权值为A(vi),权重为Wi;
其中,A(vi)为字段依赖图节点vi的权值,代表节点vi与依赖图中其他节点相关性强弱;Wi为节点vi与其他节点的权重;根据数据库表的字段权重Wi进行降序排列,选择权重之和大于给定阈值的字段集合,记做该表的关键字段集合。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,计算字段的特征向量的步骤包括:根据数据库表的关键属性,重新进行分层抽样;根据数据字段的元数据信息以及数据内容的统计特征等,计算属性字段的特征向量,分为数值型特征提取和字符型特征提取。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,进行数值型字段特征提取包括:(1)计算字段的统计学特征;(2)数据归一化处理包括:使用z-score标准化方法,将原始数据转换为0-1之间的正态分布;z-score公式如下:X′=(X-avg(X))/std(X),其中x为原始数据,x’为归一化后的数据,avg(X)为x的平均值,std(X)为x的标准差;(3)构造概率分布直方图包括:首先去除异常值,选择[Q1-1.5*IQR,Q3+1.5*IQR]之间的数据进行分桶,其中Q1第一个四分位数,Q3第三个四分位数,IQR为四分位间距IQR=Q3-Q1。根据桶的个数,计算归一化的数据概率分布直方图,其中分桶的个数决定了特征向量的长度;(4)使用KS方法判断数据是否满足常见的数据分布;(5)特征向量=统计特征+归一化的概率分布直方图+分布函数参数。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,字符型字段特征提取包括:(1)读取属性字段的数据,提取字符串的字符长度分布特征;(2)提取字符串的字符模式分布特征;(3)对于提取的字符串的字符模式分布,使用预先设置的正则表达式,匹配字符串是否符合正则表达式;(4)使用自然语言处理方法,提取字符串特征;(5)进行命名实体识别;(6)组合特征向量。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签包括:根据步骤2提取关键属性的特征向量,利用机器学习方法对关键属性进行聚类,进行打标签形成训练样本供机器学习算法训练,利用无监督学习的聚类算法,对关键数据的特征向量进行聚类,对聚类中心进行打标签,将标签属性扩展到该聚簇中的其他属性上。
根据本发明的海量数据库表快速分类的方法的一实施例,其中,形成训练集训练分类算法包括:根据提取的关键属性特征及打的标签,训练有监督学习的分类算法模型;利用提取其余属性的特征向量,利用训练好的分类算法模型进行分类,并对分类结果进行随机抽样检验,增加分类错误数据的权重,放入训练集中重新训练分类算法,逐步迭代,最终输出训练好的分类算法。
本发明提出一种准确、快速的数据库字段分类方法和处理流程,丰富提取的字段特征,从无到有建立分类算法,辅助用户进行字段分类。结合数据库字段元数据信息和字段内容构建字段特征向量,通过对待分析的数据库关键字段进行聚类并设置数据领域(打标签),构建训练集,训练行业特色的分类算法,简化手工处理工作量。
附图说明
图1为整体处理流程图;
图2为提取数据库表关键字段处理流程图;
图3为字段依赖示意图;
图4为提取字段特征处理流程图;
图5为提取数值型字段特征:统计学特征和概率分布直方图;
图6为提取字符型字段特征流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为本发明一种海量数据库表快速分类的方法的流程图,如图1所示,本发明首先通过计算互信息熵获取每个表的关键属性,根据属性字段类型(目前主要针对字符型和数值型)等元数据信息及数据内容摘要等构建所选属性的特征向量,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签,形成训练集训练分类算法,将训练好的分类算法应用于其余属性分类,并对分类结果进行抽样判断,反向优化分类算法,最终输出所有数据库表属性字段的类别。
如图1所示,识别数据库表关键属性的步骤包括:
根据数据库的抽样数据,通过计算数据库表各字段间的互信息熵,得到不同字段间的依赖关系,根据阈值选择对其他字段影响最大的关键字段。处理流程如图2所示。
(1)随机数据抽样,包括:
当数据库表数据规模较小时(如不足1000条),使用全量数据;当数据规模较大时,采用无放回的随机抽样,确保样本尽可能的代表全量数据。
(2)计算字段的信息熵和互信息熵包括:
字段X的信息熵H(X),其中p(x)为数值x在X整个取值范围内分布的概率;
字段x与其余字段y的互信息熵I(X,Y),p(x,y)为数据对<x,y>在<X,Y>整个取值范围内分布的概率:
图3所示为字段依赖图,如图3所示,依次计算所有字段的信息熵H(x),以及字段x与其余字段y的互信息熵I(x,y),形成字段间的依赖图,依赖图中的某一个节点vi的权值为A(vi),权重为Wi。
其中,A(vi)为字段依赖图节点vi的权值,代表节点vi与依赖图中其他节点相关性强弱;Wi为节点vi与其他节点的权重。
根据数据库表的字段权重Wi进行降序排列,选择权重之和大于给定阈值(如0.8)的字段集合,记做该表的关键字段集合。
根据阈值倒排选择选择关键属性的伪代码如下:
2、计算字段的特征向量的步骤包括:
根据数据库表的关键属性,重新进行分层抽样;根据数据字段的元数据信息以及数据内容的统计特征等,计算属性字段的特征向量,主要分为数值型特征提取和字符型特征提取。处理流程如附图4所示,其中附图5和附图6分别对附图4中数值型和字符型字段提取过程进行了细化。
2.1读取数据表元数据
通过jdbc等方式,获取数据库表的字段元数据,包括字段名称、类型、长度、备注等信息。
2.2根据关键字段进行分层抽样
根据“1、识别数据库表关键属性”中的方法,识别关键数据,读取关键属性的数据分布,根据数据分布进行分层抽样。
2.3变量字段,分别对数值型和字符型字段提取关键特征向量
2.3.1数值型字段特征提取
图5为提取数值型字段特征:统计学特征和概率分布直方图,如附图5所示,对于数值型数据,首先计算其最大值、最小值、均值、方差、标准差、中位数、众数等基础统计信息,并对数据进行归一化,计算其统计概率分布直方图,将基础统计信息与概率分布直方图共同构成数值型数据的特征向量。
(1)计算字段的统计学特征
计算最大值、最小值、均值、方差、标准差、4分位数(1/4分位数Q1和3/4分位数Q3)、众数,这些统计学特征能够直观的反映数据集的大致分布,有利于对后续分类计算。
(2)数据归一化处理
使用z-score标准化方法,将原始数据转换为0-1之间的正态分布。正态分布式一种非常通用的数学模型,能够方便进行数据处理。
z-score公式如下:X′=(X-avg(X))/std(X),其中x为原始数据,x’为归一化后的数据,avg(X)为x的平均值,std(X)为x的标准差。
(3)构造概率分布直方图
首先去除异常值,选择[Q1-1.5*IQR,Q3+1.5*IQR]之间的数据进行分桶,其中Q1第一个四分位数,Q3第三个四分位数,IQR为四分位间距IQR=Q3-Q1。根据桶的个数,计算归一化的数据概率分布直方图,其中分桶的个数决定了特征向量的长度。
(4)判断数据与常见分布的关系
使用KS方法判断数据是否满足常见的数据分布,如0-1分布、二项分布、正态分布、泊松分布、平均分布、指数分布等,若符合,则计算对应分布函数的参数。
(5)组合特征向量
特征向量=统计特征+归一化的概率分布直方图+分布函数参数。
最终形成的特征向量为一个大数组,由步骤(2)得到的统计特征,步骤(3)得到归一化的概率分布直方图数组,步骤(4)得到了分布函数参数数组[分布类型,参数1,参数2](常见分布函数最多有两个参数)组成,组成示意如下:
2.3.2字符型字段特征提取
对于字符型数据,首先计算字符串的长度分布特征(字符串长度的最大值、最小值、均值、中位数等)和字符分布特征(字母、数字、特殊符号等出现的次数、位置等);然后与常见的正则表达式(如邮箱、邮编、手机号、身份证号等)进行匹配;利用自然语言处理方法,提取字符串的词向量,并进行命名实体识别,判断该字符串是否为人名、地名、物品名等;最后,综合上述信息,形成字符型数据的特征向量。图6为提取字符型字段特征流程图,如附图6所示,
(1)读取属性字段的数据,提取字符串的字符长度分布特征
首先获取该属性字段的数据内容,针对字符串的长度,统计最大值、最小值、均值、方差、标准差、众数等,从统计角度了解字符串的长度分布。
(2)提取字符串的字符模式分布特征
这里的字符模式,是指字符串中各字符对应类型的组成,将字符串拆成一个个的字符,字母对应\w(或A),数字对应\d(或#),特殊表达式(逗号、分号、引号、破折号、省略号、点号、星号、句号、空格、加减乘除符号等)对应-,将字符串转换成形如“\w\w\d\d-\d”格式的模式。对字符模式分布进行聚合统计,选择TOP5的模式。
(3)常见正则表达式匹配
对于提取的字符串的字符模式分布,使用预先设置的正则表达式,如邮箱、手机号、身份证号等,匹配字符串是否符合正则表达式。
(4)使用自然语言处理技术,提取字符串特征
首先对字符串进行分词,使用TFIDF、CBOW、Word2Vec等技术提取词向量;将字段的所有内容看做是一篇文章,使用Doc2Vec等方法,构造该字段的文本特征向量。
(5)命名实体识别
通过命名实体识别技术,识别字段内容是否为人名、机构名、地名、物品名等,是划分数据域的一个重要依据。通过分析词性、词向量等,与预置的人名、地名等语料库进行匹配,选择相似度超过一定阈值的类别作为结果使用。
(6)组合特征向量
最终形成的特征向量=字符串长度统计特征+模式分布特征+词向量+匹配的正则表达式+命名实体识别结果,组成示意如下:
2.4构造属性的特征向量
统一数值型和字符型字段的特征向量长度,构成特征向量如下:
字段类型(字符型、数值型) | 2.3.1与2.3.2步骤得到的字段特征向量 |
3、数据聚类与打标签
根据步骤2提取关键属性的特征向量,利用机器学习方法对关键属性进行聚类,进行打标签形成训练样本供机器学习算法训练。利用无监督学习的聚类算法(如基于密度的聚类算法),对关键数据的特征向量进行聚类,对聚类中心进行打标签(标签体系事先已创建),***自动将标签属性扩展到该聚簇中的其他属性上。
4、数据分类算法训练与优化
(1)训练分类算法
根据步骤2提取的关键属性特征及步骤3打的标签,训练有监督学习的分类算法(如SVM、随机森林等)模型。
(2)数据分类结果校验及算法优化
利用步骤2提取提取其余属性的特征向量,利用训练好的分类算法模型进行分类,并对分类结果进行随机抽样检验,增加分类错误数据的权重,放入训练集中重新训练分类算法,逐步迭代,最终输出训练好的分类算法。
本发明构造字段特征向量的方法:在数据内容的基础上,增加字段的元数据信息,结合行业先验知识,构造特征向量。对于数值型数据,将统计特征与概率分布直方图结合;对于字符型数据,在现有词向量基础上,增加字符模式分布等特征,并与常见正则表达式匹配。根据信息熵,提取关键字段,进行聚类和打标签,作为快速构建有行业特色分类算法的训练集。
本发明所述的方法,在多个实际业务数据库(备份库)上进行测试,样本数据规模为1000,关键字段阈值为0.8,采用DBSCAN作为聚类算法,数值型字段分桶个数为512,字符串词向量为512,分别应用与自研软件、部分商用软件的数据库,经试验,结果在可接受范围内。试验结果表明,该方法能够快速提取数据库中各表的关键字段,提取适应行业特点的特征,形成行业知识的积累,大大减少了手工标注工作量。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种海量数据库表快速分类的方法,其特征在于,包括:计算互信息熵获取每个表的关键属性,根据属性字段类型的元数据信息及数据内容摘要构建所选属性的特征向量,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签,形成训练集训练分类算法,将训练好的分类算法应用于属性分类,对分类结果进行抽样判断,反向优化分类算法,输出所有数据库表属性字段的类别;
其中,
计算互信息熵获取每个表的关键属性包括:
根据数据库的抽样数据,通过计算数据库表各字段间的互信息熵,得到不同字段间的依赖关系,根据阈值选择对其他字段影响最大的关键字段;
计算互信息熵获取每个表的关键属性具体包括:
随机数据抽样,包括:
当数据库表数据规模较小时,使用全量数据;当数据规模较大时,采用无放回的随机抽样;
计算字段的信息熵和互信息熵包括:
字段X的信息熵H(X),其中p(x)为数值x在X整个取值范围内分布的概率;
字段X与其余字段Y的互信息熵I(X,Y),p(x,y)为数据对<x,y>在<X,Y>整个取值范围内分布的概率:
依次计算所有字段的信息熵H(X),以及字段X与其余字段Y的互信息熵I(X,Y),形成字段间的依赖图,依赖图中的某一个节点vi的权值为A(vi),权重为Wi;
其中,A(vi)为字段依赖图节点vi的权值,代表节点vi与依赖图中其他节点相关性强弱;Wi为节点vi与其他节点的权重;
根据数据库表的字段权重Wi进行降序排列,选择权重之和大于给定阈值的字段集合,记做该表的关键字段集合。
2.如权利要求1所述的海量数据库表快速分类的方法,其特征在于,计算字段的特征向量的步骤包括:根据数据库表的关键属性,重新进行分层抽样;根据数据字段的元数据信息以及数据内容的统计特征等,计算属性字段的特征向量,分为数值型特征提取和字符型特征提取。
3.如权利要求2所述的海量数据库表快速分类的方法,其特征在于,进行数值型字段特征提取包括:
(1)计算字段的统计学特征;
(2)数据归一化处理包括:
使用z-score标准化方法,将原始数据转换为0-1之间的正态分布;
z-score公式如下:X′=(X-avg(X))/std(X),其中X为原始数据,X’为归一化后的数据,avg(X)为X的平均值,std(X)为X的标准差;
(3)构造概率分布直方图包括:首先去除异常值,选择[Q1-1.5*IQR,Q3+1.5*IQR]之间的数据进行分桶,其中Q1第一个四分位数,Q3第三个四分位数,IQR为四分位间距IQR=Q3-Q1;根据桶的个数,计算归一化的数据概率分布直方图,其中分桶的个数决定了特征向量的长度;(4)使用KS方法判断数据是否满足常见的数据分布;(5)特征向量=统计特征+归一化的概率分布直方图+分布函数参数。
4.如权利要求2所述的海量数据库表快速分类的方法,其特征在于,字符型字段特征提取包括:
(1)读取属性字段的数据,提取字符串的字符长度分布特征;
(2)提取字符串的字符模式分布特征;
(3)对于提取的字符串的字符模式分布,使用预先设置的正则表达式,匹配字符串是否符合正则表达式;
(4)使用自然语言处理方法,提取字符串特征;
(5)进行命名实体识别;
(6)组合特征向量。
5.如权利要求1所述的海量数据库表快速分类的方法,其特征在于,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签包括:根据步骤2提取关键属性的特征向量,利用机器学习方法对关键属性进行聚类,进行打标签形成训练样本供机器学习算法训练,利用无监督学习的聚类算法,对关键数据的特征向量进行聚类,对聚类中心进行打标签,将标签属性扩展到该聚类中的其他属性上。
6.如权利要求1所述的海量数据库表快速分类的方法,其特征在于,形成训练集训练分类算法包括:
根据提取的关键属性特征及打的标签,训练有监督学习的分类算法模型;利用提取其余属性的特征向量,利用训练好的分类算法模型进行分类,并对分类结果进行随机抽样检验,增加分类错误数据的权重,放入训练集中重新训练分类算法,逐步迭代,最终输出训练好的分类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357917.6A CN111104466B (zh) | 2019-12-25 | 2019-12-25 | 一种海量数据库表快速分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357917.6A CN111104466B (zh) | 2019-12-25 | 2019-12-25 | 一种海量数据库表快速分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104466A CN111104466A (zh) | 2020-05-05 |
CN111104466B true CN111104466B (zh) | 2023-07-28 |
Family
ID=70425147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911357917.6A Active CN111104466B (zh) | 2019-12-25 | 2019-12-25 | 一种海量数据库表快速分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104466B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860575B (zh) * | 2020-06-05 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
CN111913954B (zh) * | 2020-06-20 | 2023-08-04 | 杭州城市大数据运营有限公司 | 智能数据标准目录生成方法和装置 |
CN113761297B (zh) * | 2020-11-10 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 确定数据库表中字段相关度的方法和装置 |
CN112380205B (zh) * | 2020-11-17 | 2024-04-02 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和*** |
CN112434032B (zh) * | 2020-11-17 | 2024-04-05 | 北京融七牛信息技术有限公司 | 一种自动特征生成***和方法 |
CN112380348B (zh) * | 2020-11-25 | 2024-03-26 | 中信百信银行股份有限公司 | 元数据处理方法、装置、电子设备及计算机可读存储介质 |
CN112530597A (zh) * | 2020-11-26 | 2021-03-19 | 山东健康医疗大数据有限公司 | 基于Bert字模型的数据表分类方法、装置及介质 |
CN112614005B (zh) * | 2020-11-30 | 2024-04-30 | 国网北京市电力公司 | 企业复工状态的处理方法和装置 |
CN113094567A (zh) * | 2021-03-31 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于文本聚类的恶意投诉识别方法及*** |
CN113435199B (zh) * | 2021-07-18 | 2023-05-26 | 谢勇 | 一种性格对应文化的存储读取干涉方法及*** |
CN114528288A (zh) * | 2021-08-31 | 2022-05-24 | 天津工业大学 | 一种多类型器官芯片数据库的设计方法 |
US11720533B2 (en) | 2021-11-29 | 2023-08-08 | International Business Machines Corporation | Automated classification of data types for databases |
CN114117052A (zh) * | 2021-11-30 | 2022-03-01 | 深圳前海微众银行股份有限公司 | 一种业务数据报表的分类方法及装置 |
CN115168345B (zh) * | 2022-06-27 | 2023-04-18 | 天翼爱音乐文化科技有限公司 | 数据库分级分类方法、***、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN110377754A (zh) * | 2019-07-01 | 2019-10-25 | 北京信息科技大学 | 一种基于决策树的数据库本体学习优化方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7505958B2 (en) * | 2004-09-30 | 2009-03-17 | International Business Machines Corporation | Metadata management for a data abstraction model |
US20160188710A1 (en) * | 2014-12-29 | 2016-06-30 | Wipro Limited | METHOD AND SYSTEM FOR MIGRATING DATA TO NOT ONLY STRUCTURED QUERY LANGUAGE (NoSOL) DATABASE |
CN105844398A (zh) * | 2016-03-22 | 2016-08-10 | 武汉大学 | 一种基于plm数据库面向dpipp产品族的挖掘算法 |
CN107103025B (zh) * | 2017-01-05 | 2020-08-14 | 亚信科技(中国)有限公司 | 一种数据处理方法及数据处理平台 |
US10803192B2 (en) * | 2018-04-08 | 2020-10-13 | Imperva, Inc. | Detecting attacks on databases based on transaction characteristics determined from analyzing database logs |
CN109408555B (zh) * | 2018-09-19 | 2022-11-11 | 智器云南京信息科技有限公司 | 数据类型识别方法及装置、数据入库方法及装置 |
CN110427992A (zh) * | 2019-07-23 | 2019-11-08 | 杭州城市大数据运营有限公司 | 数据匹配方法、装置、计算机设备及存储介质 |
CN110597816A (zh) * | 2019-09-17 | 2019-12-20 | 深圳追一科技有限公司 | 数据处理方法、装置、计算机设备和计算机可读存储介质 |
-
2019
- 2019-12-25 CN CN201911357917.6A patent/CN111104466B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN110377754A (zh) * | 2019-07-01 | 2019-10-25 | 北京信息科技大学 | 一种基于决策树的数据库本体学习优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111104466A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104466B (zh) | 一种海量数据库表快速分类的方法 | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化***和方法 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US10089581B2 (en) | Data driven classification and data quality checking system | |
CN110826320B (zh) | 一种基于文本识别的敏感数据发现方法及*** | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及*** | |
CN107145516B (zh) | 一种文本聚类方法及*** | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN112597283B (zh) | 通知文本信息实体属性抽取方法、计算机设备及存储介质 | |
CN109934251B (zh) | 一种用于小语种文本识别的方法、识别***及存储介质 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
CN112836509A (zh) | 一种专家***知识库构建方法及*** | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、***及存储介质 | |
US20170004414A1 (en) | Data driven classification and data quality checking method | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN112084308A (zh) | 用于文本类型数据识别的方法、***及存储介质 | |
CN112989053A (zh) | 一种期刊推荐方法及装置 | |
CN114049165B (zh) | 一种采购***的商品比价方法、装置、设备和介质 | |
CN109462635A (zh) | 一种信息推送方法、计算机可读存储介质及服务器 | |
CN114511027A (zh) | 通过大数据网络进行英语远程数据提取方法 | |
CN115270790A (zh) | 一种基于大数据的样本标识方法、设备及介质 | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210916 Address after: 100854 east gate, 52 Yongding Road, Haidian District, Beijing Applicant after: China Changfeng electromechanical technology research and Design Institute Address before: 100854 east gate, 52 Yongding Road, Haidian District, Beijing Applicant before: Aerospace Science and Technology Network Information Development Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |