CN116975401A

CN116975401A - 数据库字段识别方法、装置、计算机设备及存储介质

Info

Publication number: CN116975401A
Application number: CN202311209024.3A
Authority: CN
Inventors: 朱国耀; 张�浩; 张立强; 周杰
Original assignee: Shaoxing Human Resources And Social Security Information Center; Zhejiang Human Resources And Social Security Information Center; Hangzhou Meichuang Technology Co ltd
Current assignee: Shaoxing Human Resources And Social Security Information Center; Zhejiang Human Resources And Social Security Information Center; Hangzhou Meichuang Technology Co ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-10-31

Abstract

本发明公开了数据库字段识别方法、装置、计算机设备及存储介质。数据库字段识别方法包括：获取待识别数据；确定所述待识别数据的特征信息，以得到待识别特征信息；将所述待识别特征信息输入至字段识别模型中进行业务类型的识别，以得到识别结果；输出所述识别结果；利用所述识别结果优化所述字段识别模型；其中，所述字段识别模型是通过带有业务类型的数据库数据所对应的特征信息作为样本集训练XGBoost模型所得的。通过实施本发明的方法可实现减少分类分级过程中的人工成本，提高字段识别的效率。

Description

数据库字段识别方法、装置、计算机设备及存储介质

技术领域

本发明属于数据库处理方法，具体涉及数据库字段识别方法、装置、计算机设备及存储介质。

背景技术

在通常的数据分类分级流程中，对于数据的识别需要定义好发现规则，如字段内容正则、字段名称正则等，对于匹配到的数据可以正常进行识别进而被发现，但是对于一些无匹配和无法匹配的数据，则需要人工去做修正和确认。实际情况中，这个需要修正和确认的量非常庞大，基于主观性的人工分类分级效率非常低下，很难做知识的积累和复用。因此，分类分级过程中的人工成本较高，字段识别效率也非常低。

发明内容

本发明提供一种数据库字段识别方法，实现减少分类分级过程中的人工成本，提高字段识别的效率。

为实现上述目的，本发明采用以下技术方案：数据库字段识别方法，包括：

获取待识别数据；

确定所述待识别数据的特征信息，以得到待识别特征信息；

将所述待识别特征信息输入至字段识别模型中进行业务类型的识别，以得到识别结果；

输出所述识别结果；

利用所述识别结果优化所述字段识别模型；

其中，所述字段识别模型是通过带有业务类型的数据库数据所对应的特征信息作为样本集训练XGBoost模型所得的；

所述确定所述待识别数据的特征信息，以得到待识别特征信息，包括：

对所述待识别数据进行清洗，以得到清洗结果；

对所述清洗结果进行特征计算，以得到原始特征；

将所述原始特征进行特征变换，以得到变换结果；

对所述变换结果进行特征降维，以得到待识别特征信息；

所述原始特征包含元数据维度原始特征和值维度原始特征，元数据维度原始特征包括列名称、列类型、列注释；所述值维度原始特征的个数为三百个；

所述数据库数据为表级统计数据，表级统计数据包括表级记录条数范围以及表包含的字段个数范围，采用范围的方式提取列位置信息和表级统计数据特征。

作为优选，所述将所述原始特征进行特征变换，以得到变换结果，包括：

采用词袋模型将所述原始特征进行特征变换，以得到变换结果。

采用TF-IDF将所述原始特征进行特征变换，以得到变换结果。

作为优选，所述利用所述识别结果优化所述字段识别模型，包括：

将识别结果以及对应的特征信息更新样本集，并重新训练所述字段识别模型。

作为优选，所述对所述变换结果进行特征降维，以得到待识别特征信息，包括：

采用PCA、LDA特征降维方法对所述变换结果进行特征降维，以得到待识别特征信息。

本发明还提供了数据库字段识别装置，包括：

数据获取单元，用于获取待识别数据；

特征确定单元，用于确定所述待识别数据的特征信息，以得到待识别特征信息；

识别单元，用于将所述待识别特征信息输入至字段识别模型中进行业务类型的识别，以得到识别结果；

输出单元，用于输出所述识别结果；

优化单元，用于利用所述识别结果优化所述字段识别模型；

所述特征确定单元包括清洗子单元、特征选择子单元、特征变换子单元以及特征降维子单元；

清洗子单元，用于对所述待识别数据进行清洗，以得到清洗结果；特征选择子单元，用于对所述清洗结果进行特征计算，以得到原始特征；特征变换子单元，用于将所述原始特征进行特征变换，以得到变换结果；特征降维子单元，用于对所述变换结果进行特征降维，以得到待识别特征信息；

所述原始特征包含元数据维度原始特征和值维度原始特征，元数据维度原始特征包括列名称、列类型、列注释；所述值维度原始特征的个数为三百个。

作为优选，所述特征变换子单元，用于采用词袋模型将所述原始特征进行特征变换，以得到变换结果；

所述特征变换子单元，用于采用TF-IDF将所述原始特征进行特征变换，以得到变换结果；

优化单元，用于将识别结果以及对应的特征信息更新样本集，并重新训练所述字段识别模型；

所述特征降维子单元，用于采用PCA、LDA特征降维方法对所述变换结果进行特征降维，以得到待识别特征信息。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：

本发明通过确定待识别数据的特征信息，并采用字段识别模型中进行业务类型的识别，且将识别的结果作为样本集持续优化字段识别模型，而且预测和训练的过程，基于特征工程的分类分级，基于模型本身实现了知识的积累和复用，很大程度上降低了对人的主观性依赖，实现减少分类分级过程中的人工成本，提高字段识别的效率。

附图说明

图1为本发明实施例提供的数据库字段识别方法的应用场景示意图；

图2为本发明实施例提供的数据库字段识别方法的流程示意图；

图3为本发明实施例提供的数据库字段识别方法的子流程示意图；

图4为本发明实施例提供的数据库字段识别装置的示意性框图；

图5为本发明实施例提供的数据库字段识别装置的特征确定单元的示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和图2，图1为本发明实施例提供的数据库字段识别方法的应用场景示意图。图2为本发明实施例提供的数据库字段识别方法的示意性流程图。该数据库字段识别方法应用于服务器中。该服务器与终端进行数据交互，实现采用字段识别模型对数据库字段进行业务类型的识别，并采用识别的结果进行模型的优化，实现减少分类分级过程中的人工成本，提高字段识别的效率。

图2是本发明实施例提供的数据库字段识别方法的流程示意图。如图2所示，该方法包括以下步骤S110至S150。

S110、获取待识别数据。

在本实施例中，待识别数据是指来源于数据库中的数据字段，其中包括元数据和样本数据，元数据包含数据库名，Schema，表名，列名，列类型，列注释，列值长度，列值范围。样本数据是抽样的随机100-500条值。

表级统计数据包含表级记录条数范围，表包含的字段个数范围。列位置信息和表级统计数据对于数据识别也有非常大的影响，在本实施例中，采用范围的方式提取列位置信息和表级统计数据特征。列位置信息范围特征包含：第1列，最后1列，前5列，最后5列。表级统计数据范围特征包含：0-50行，51-100行，101-1000行，1001-10000行，10001-500000行，500001-10000000行，10000000行以上。

S120、确定所述待识别数据的特征信息，以得到待识别特征信息。

在本实施例中，上述的待识别特征信息是指待识别数据进行清洗、特征选择、变换和降维形成的特征内容。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121~ S124。

S121、对所述待识别数据进行清洗，以得到清洗结果。

清洗的目的是为了去除一些不必要的噪音。

在本实施例中，清洗结果是指对采集到的样本数据进行必要的清洗操作，包括类型转换，值的精度转换等。

S122、对所述清洗结果进行特征计算，以得到原始特征。

在本实施例中，原始特征是指从原始数据中选择最具有代表性和区分度的特征。大部分***用于分析数据值的特征一般是基于几个固定的统计维度，比如：值类型，值的支付种类，数值的最大/最小值，数值的离散度等大概10个左右的特征，10个左右的特征在分析某个字段的值的维度，有一定的作用。但如果用来做字段值的相识度判断，是远远不够的。本实施例中，通过对大量现实数据的分析，提取了300+的基于值的统计维度，基于这个数量级的特征维度，用向量相识度做字段的相识度计算才有实际意义。

列位置信息范围特征包含：第1列，最后1列，前5列，最后5列。

表级统计数据范围特征包含：0-50行，51-100行，101-1000行，1001-10000行，10001-500000行，500001-10000000行，10000000行以上。

具体地，特征包含元数据维度和值维度，元数据维度原始特征包括：列名称、列类型、列注释。

元数据维度原始特征不需要经过统计/计算就可以获取。

值维度原始特征的个数为三百个，包括：非空条数、非空占比、值最大长度、值最小长度、值平均长度、值总长度、是否非空值长度唯一、纯数字的值数占非空值数的比例、纯英文的值数占非空值数的比例、纯大写英文的值数占非空值数的比例、纯小写英文的值数占非空值数的比例、纯中文的值数占非空值数的比例、是否纯数字、是否纯英文、是否纯大写英文、是否纯小写英文、是否纯中文、不同的唯一值数、唯一值数占非空值数的比例、是否值内容唯一、包含数字的值数占非空值数的比例、包含英文的值数占非空值数的比例、包含大写英文的值数占非空值数的比例、包含小写英文的值数占非空值数的比例、包含中文的值数占非空值数的比例、包含其他(除数字/英文/大写英文/小写英文/中文)的值数占非空值数的比例、是否都包含数字、是否都包含英文、是否都包含大写英文、是否都包含小写英文、是否都包含中文、是否都不包含数字、是否都不包含英文、是否都不包含大写英文、是否都不包含小写英文、是否都不包含中文、第一位不同的唯一值数、第二位不同的唯一值数、第三位不同的唯一值数、第一位唯一值数占非空值数的比例、第二位唯一值数占非空值数的比例、第三位唯一值数占非空值数的比例、是否第一位唯一、是否第二位唯一、是否第三位唯一、第一位最大唯一的值数占非空值数的比例、第二位最大唯一的值数占非空值数的比例、第三位最大唯一的值数占非空值数的比例、第一位最大唯一的值的id、第二位最大唯一的值的id、第三位最大唯一的值的id、第一位的包含数字的值数占非空值数的比例、第一位的包含大写英文的值数占非空值数的比例、第一位的包含小写英文的值数占非空值数的比例、第一位的包含中文的值数占非空值数的比例、第二位的包含数字的值数占非空值数的比例、第二位的包含大写英文的值数占非空值数的比例、第二位的包含小写英文的值数占非空值数的比例、第二位的包含中文的值数占非空值数的比例、第三位的包含数字的值数占非空值数的比例、第三位的包含大写英文的值数占非空值数的比例、第三位的包含小写英文的值数占非空值数的比例、第三位的包含中文的值数占非空值数的比例、第一位是否都包含数字、第一位是否都包含英文、第一位是否都包含大写英文、第一位是否都包含小写英文、第一位是否都包含中文、第二位是否都包含数字、第二位是否都包含英文、第二位是否都包含大写英文、第二位是否都包含小写英文、第二位是否都包含中文、第三位是否都包含数字、第三位是否都包含英文、第三位是否都包含大写英文、第三位是否都包含小写英文、第三位是否都包含中文、第一位是否都不包含数字、第一位是否都不包含英文、第一位是否都不包含大写英文、第一位是否都不包含小写英文、第一位是否都不包含中文、第二位是否都不包含数字、第二位是否都不包含英文、第二位是否都不包含大写英文、第二位是否都不包含小写英文、第二位是否都不包含中文、第三位是否都不包含数字、第三位是否都不包含英文、第三位是否都不包含大写英文、第三位是否都不包含小写英文、第三位是否都不包含中文、最后一位不同的唯一值数、是否最后一位唯一、最后一位最大唯一的值数占非空值数的比例、最后一位最大唯一的值的id、最后一位的包含数字的值数占非空值数的比例、最后一位的包含大写英文的值数占非空值数的比例、最后一位的包含小写英文的值数占非空值数的比例、最后一位的包含中文的值数占非空值数的比例、最后一位是否都包含数字、最后一位是否都包含英文、最后一位是否都包含大写英文、最后一位是否都包含小写英文、最后一位是否都包含中文、最后一位是否都不包含数字、最后一位是否都不包含英文、最后一位是否都不包含大写英文、最后一位是否都不包含小写英文、最后一位是否都不包含中文、前两位唯一值数、是否前两位唯一、前三位唯一值数、是否前三位唯一、前两位最大唯一的值数占非空值数的比例、前三位最大唯一的值数占非空值数的比例、前两位的包含数字的值数占非空值数的比例、前两位的包含大写英文的值数占非空值数的比例、前两位的包含小写英文的值数占非空值数的比例、前两位的包含中文的值数占非空值数的比例、前三位的包含数字的值数占非空值数的比例、前三位的包含大写英文的值数占非空值数的比例、前三位的包含小写英文的值数占非空值数的比例、前三位的包含中文的值数占非空值数的比例、前两位是否都为纯数字、前两位是否都为纯英文、前两位是否都为纯大写英文、前两位是否都为纯小写英文、前两位是否都为纯中文、前三位是否都为纯数字、前三位是否都为纯英文、前三位是否都为纯大写英文、前三位是否都为纯小写英文、前三位是否都为纯中文、前两位是否都包含数字、前两位是否都包含英文、前两位是否都包含大写英文、前两位是否都包含小写英文、前两位是否都包含中文、前三位是否都包含数字、前三位是否都包含英文、前三位是否都包含大写英文、前三位是否都包含小写英文、前三位是否都包含中文、前两位是否都不包含数字、前两位是否都不包含英文、前两位是否都不包含大写英文、前两位是否都不包含小写英文、前两位是否都不包含中文、前三位是否都不包含数字、前三位是否都不包含英文、前三位是否都不包含大写英文、前三位是否都不包含小写英文、前三位是否都不包含中文、前两位为数字数字组合的值数占非空值数的比例、前两位为数字英文组合的值数占非空值数的比例、前两位为数字大写英文组合的值数占非空值数的比例、前两位为数字小写英文组合的值数占非空值数的比例、前两位为数字中文组合的值数占非空值数的比例、前两位为英文数字组合的值数占非空值数的比例、前两位为英文英文组合的值数占非空值数的比例、前两位为英文大写英文组合的值数占非空值数的比例、前两位为英文小写英文组合的值数占非空值数的比例、前两位为英文中文组合的值数占非空值数的比例、前两位为大写英文数字组合的值数占非空值数的比例、前两位为大写英文英文组合的值数占非空值数的比例、前两位为大写英文大写英文组合的值数占非空值数的比例、前两位为大写英文小写英文组合的值数占非空值数的比例、前两位为大写英文中文组合的值数占非空值数的比例、前两位为小写英文数字组合的值数占非空值数的比例、前两位为小写英文英文组合的值数占非空值数的比例、前两位为小写英文大写英文组合的值数占非空值数的比例、前两位为小写英文小写英文组合的值数占非空值数的比例、前两位为小写英文中文组合的值数占非空值数的比例、前两位为中文数字组合的值数占非空值数的比例、前两位为中文英文组合的值数占非空值数的比例、前两位为中文大写英文组合的值数占非空值数的比例、前两位为中文小写英文组合的值数占非空值数的比例、前两位为中文中文组合的值数占非空值数的比例、前三位为数字数字数字组合的值数占非空值数的比例、前三位为数字数字英文组合的值数占非空值数的比例、前三位为数字数字大写英文组合的值数占非空值数的比例、前三位为数字数字小写英文组合的值数占非空值数的比例、前三位为数字数字中文组合的值数占非空值数的比例、前三位为数字英文数字组合的值数占非空值数的比例、前三位为数字英文英文组合的值数占非空值数的比例、前三位为数字英文大写英文组合的值数占非空值数的比例、前三位为数字英文小写英文组合的值数占非空值数的比例、前三位为数字英文中文组合的值数占非空值数的比例、前三位为数字大写英文数字组合的值数占非空值数的比例、前三位为数字大写英文英文组合的值数占非空值数的比例、前三位为数字大写英文大写英文组合的值数占非空值数的比例、前三位为数字大写英文小写英文组合的值数占非空值数的比例、前三位为数字大写英文中文组合的值数占非空值数的比例、前三位为数字小写英文数字组合的值数占非空值数的比例、前三位为数字小写英文英文组合的值数占非空值数的比例、前三位为数字小写英文大写英文组合的值数占非空值数的比例、前三位为数字小写英文小写英文组合的值数占非空值数的比例、前三位为数字小写英文中文组合的值数占非空值数的比例、前三位为数字中文数字组合的值数占非空值数的比例、前三位为数字中文英文组合的值数占非空值数的比例、前三位为数字中文大写英文组合的值数占非空值数的比例、前三位为数字中文小写英文组合的值数占非空值数的比例、前三位为数字中文中文组合的值数占非空值数的比例、前三位为英文数字数字组合的值数占非空值数的比例、前三位为英文数字英文组合的值数占非空值数的比例、前三位为英文数字大写英文组合的值数占非空值数的比例、前三位为英文数字小写英文组合的值数占非空值数的比例、前三位为英文数字中文组合的值数占非空值数的比例、前三位为英文英文数字组合的值数占非空值数的比例、前三位为英文英文英文组合的值数占非空值数的比例、前三位为英文英文大写英文组合的值数占非空值数的比例、前三位为英文英文小写英文组合的值数占非空值数的比例、前三位为英文英文中文组合的值数占非空值数的比例、前三位为英文大写英文数字组合的值数占非空值数的比例、前三位为英文大写英文英文组合的值数占非空值数的比例、前三位为英文大写英文大写英文组合的值数占非空值数的比例、前三位为英文大写英文小写英文组合的值数占非空值数的比例、前三位为英文大写英文中文组合的值数占非空值数的比例、前三位为英文小写英文数字组合的值数占非空值数的比例、前三位为英文小写英文英文组合的值数占非空值数的比例、前三位为英文小写英文大写英文组合的值数占非空值数的比例、前三位为英文小写英文小写英文组合的值数占非空值数的比例、前三位为英文小写英文中文组合的值数占非空值数的比例、前三位为英文中文数字组合的值数占非空值数的比例、前三位为英文中文英文组合的值数占非空值数的比例、前三位为英文中文大写英文组合的值数占非空值数的比例、前三位为英文中文小写英文组合的值数占非空值数的比例、前三位为英文中文中文组合的值数占非空值数的比例、前三位为大写英文数字数字组合的值数占非空值数的比例、前三位为大写英文数字英文组合的值数占非空值数的比例、前三位为大写英文数字大写英文组合的值数占非空值数的比例、前三位为大写英文数字小写英文组合的值数占非空值数的比例、前三位为大写英文数字中文组合的值数占非空值数的比例、前三位为大写英文英文数字组合的值数占非空值数的比例、前三位为大写英文英文英文组合的值数占非空值数的比例、前三位为大写英文英文大写英文组合的值数占非空值数的比例、前三位为大写英文英文小写英文组合的值数占非空值数的比例、前三位为大写英文英文中文组合的值数占非空值数的比例、前三位为大写英文大写英文数字组合的值数占非空值数的比例、前三位为大写英文大写英文英文组合的值数占非空值数的比例、前三位为大写英文大写英文大写英文组合的值数占非空值数的比例、前三位为大写英文大写英文小写英文组合的值数占非空值数的比例、前三位为大写英文大写英文中文组合的值数占非空值数的比例、前三位为大写英文小写英文数字组合的值数占非空值数的比例、前三位为大写英文小写英文英文组合的值数占非空值数的比例、前三位为大写英文小写英文大写英文组合的值数占非空值数的比例、前三位为大写英文小写英文小写英文组合的值数占非空值数的比例、前三位为大写英文小写英文中文组合的值数占非空值数的比例、前三位为大写英文中文数字组合的值数占非空值数的比例、前三位为大写英文中文英文组合的值数占非空值数的比例、前三位为大写英文中文大写英文组合的值数占非空值数的比例、前三位为大写英文中文小写英文组合的值数占非空值数的比例、前三位为大写英文中文中文组合的值数占非空值数的比例、前三位为小写英文数字数字组合的值数占非空值数的比例、前三位为小写英文数字英文组合的值数占非空值数的比例、前三位为小写英文数字大写英文组合的值数占非空值数的比例、前三位为小写英文数字小写英文组合的值数占非空值数的比例、前三位为小写英文数字中文组合的值数占非空值数的比例、前三位为小写英文英文数字组合的值数占非空值数的比例、前三位为小写英文英文英文组合的值数占非空值数的比例、前三位为小写英文英文大写英文组合的值数占非空值数的比例、前三位为小写英文英文小写英文组合的值数占非空值数的比例、前三位为小写英文英文中文组合的值数占非空值数的比例、前三位为小写英文大写英文数字组合的值数占非空值数的比例、前三位为小写英文大写英文英文组合的值数占非空值数的比例、前三位为小写英文大写英文大写英文组合的值数占非空值数的比例、前三位为小写英文大写英文小写英文组合的值数占非空值数的比例、前三位为小写英文大写英文中文组合的值数占非空值数的比例、前三位为小写英文小写英文数字组合的值数占非空值数的比例、前三位为小写英文小写英文英文组合的值数占非空值数的比例、前三位为小写英文小写英文大写英文组合的值数占非空值数的比例、前三位为小写英文小写英文小写英文组合的值数占非空值数的比例、前三位为小写英文小写英文中文组合的值数占非空值数的比例、前三位为小写英文中文数字组合的值数占非空值数的比例、前三位为小写英文中文英文组合的值数占非空值数的比例、前三位为小写英文中文大写英文组合的值数占非空值数的比例、前三位为小写英文中文小写英文组合的值数占非空值数的比例、前三位为小写英文中文中文组合的值数占非空值数的比例、前三位为中文数字数字组合的值数占非空值数的比例、前三位为中文数字英文组合的值数占非空值数的比例、前三位为中文数字大写英文组合的值数占非空值数的比例、前三位为中文数字小写英文组合的值数占非空值数的比例、前三位为中文数字中文组合的值数占非空值数的比例、前三位为中文英文数字组合的值数占非空值数的比例、前三位为中文英文英文组合的值数占非空值数的比例、前三位为中文英文大写英文组合的值数占非空值数的比例、前三位为中文英文小写英文组合的值数占非空值数的比例、前三位为中文英文中文组合的值数占非空值数的比例、前三位为中文大写英文数字组合的值数占非空值数的比例、前三位为中文大写英文英文组合的值数占非空值数的比例、前三位为中文大写英文大写英文组合的值数占非空值数的比例、前三位为中文大写英文小写英文组合的值数占非空值数的比例、前三位为中文大写英文中文组合的值数占非空值数的比例、前三位为中文小写英文数字组合的值数占非空值数的比例、前三位为中文小写英文英文组合的值数占非空值数的比例、前三位为中文小写英文大写英文组合的值数占非空值数的比例、前三位为中文小写英文小写英文组合的值数占非空值数的比例、前三位为中文小写英文中文组合的值数占非空值数的比例、前三位为中文中文数字组合的值数占非空值数的比例、前三位为中文中文英文组合的值数占非空值数的比例、前三位为中文中文大写英文组合的值数占非空值数的比例、前三位为中文中文小写英文组合的值数占非空值数的比例、前三位为中文中文中文组合的值数占非空值数的比例。

大部分的值维度的原始特征不能直接获取，需要通过对样本数据的统计和计算获取。特征维度加到了300个，一定数量的特征维度是相识度判断的基础。

在本实施例中，所述原始特征比如元数据、长度、频率、位置、值的字符特征等特征作为输入。这些具有代表性的特征可以避免不必要的计算，提高模型的预测效率。

S123、将所述原始特征进行特征变换，以得到变换结果。

在本实施例中，变换结果是指对原始特征的空间映射到更高效的特征空间，形成的结果。

具体地，采用词袋模型将所述原始特征进行特征变换，以得到变换结果。

具体地，在数据库字段识别中，可以采用诸如TF-IDF、词袋模型等特征变换方法，以提高模型的预测效率；特征变换可以将原始特征空间映射到更高效的特征空间，减少模型计算量，提高模型预测速度。

在另一实施例中，采用TF-IDF将所述原始特征进行特征变换，以得到变换结果。

S124、对所述变换结果进行特征降维，以得到待识别特征信息。

在本实施例中，采用PCA、LDA特征降维方法对所述变换结果进行特征降维，以得到待识别特征信息。

具体地，将高维数据转换为低维数据，以便更好地进行处理和分析。在数据库字段识别中，采用PCA、LDA等特征降维方法，以减少特征数量，提高模型的计算效率。特征降维可以将数据压缩成更少的特征，减少模型训练和预测的计算量，提高模型的效率。

S130、将所述待识别特征信息输入至字段识别模型中进行业务类型的识别，以得到识别结果。

在本实施例中，识别结果是指数据对应的业务类型。

具体地，将样本数据按每1000条生成一条特征，通过模型预测，然后将预测结果归一化，相似度不小于50%匹配成功。

S140、输出所述识别结果。

在本实施例中，将识别结果输出至终端显示。

S150、利用所述识别结果优化所述字段识别模型。

在本实施例中，将识别结果以及对应的特征信息更新样本集，并重新训练所述字段识别模型。

其中，所述字段识别模型是通过带有业务类型的数据库数据所对应的特征信息作为样本集训练XGBoost模型所得的。

对模型进行训练和调参，以提高模型的预测准确率和效率。考虑模型的复杂度和预测效率，避免过度拟合和计算量过大的问题，提高模型的效率和鲁棒性，使用XGBoost模型。采用XGBoost,模型训练总共20轮或者收敛则提前停止，每轮训练以TOP3(前三则认为预测成功)的准确率为标准。

对于优化过程，持续优化是提高数据库字段识别效率的关键，可以通过监控模型预测准确率、调整特征选择、特征变换、特征降维等方法，以不断提高数据库字段识别的预测能力和效率。同时，可以采用增量学习、模型压缩、异步计算等技术，降低模型计算量和延迟，提高模型的效率和响应速度。持续优化需要建立完善的评估体系和反馈机制，及时发现和解决问题，不断提高数据库字段识别的质量和效率。

在优化数据库字段识别的过程，以下是进一步细化的方法和步骤：

监控模型预测准确率：定期评估和监控数据库字段识别模型的准确率。使用下列评估指标（如准确率、召回率、F1分数等）来衡量模型的性能，并进行持续跟踪和记录。

调整特征选择：通过分析不同特征的重要性和相关性，优化特征选择过程。使用特征选择算法信息增益和方差阈值，来选择最具有预测能力的特征，从而提高模型的效率和准确性。

特征变换和降维：通过特征变换和降维技术，减少特征空间的维度，降低计算复杂度和存储需求。采用的方法包括主成分分析（PCA）和线性判别分析（LDA）。

增量学习：采用增量学习算法，允许模型在已有数据的基础上不断学习和更新，以适应新的数据和场景。这样可以避免重新训练整个模型，提高模型更新的效率。

模型压缩：使用模型压缩技术，减小模型的大小和计算量，从而提高模型的推理速度。使用了剪枝算法、量化算法来减少模型参数的数量和存储空间。

异步计算：采用异步计算的方式，将模型的计算和数据加载过程分离，从而提高模型的并发性和响应速度。使用异步计算库/框架来实现异步计算。

建立评估体系和反馈机制：建立完善的评估体系，包括对模型性能、效率和准确性的定期评估和监控。同时，建立反馈机制，及时收集用户反馈和问题报告，以便快速发现和解决问题，并进行持续优化。

数据质量管理：确保数据库中的数据质量是优化字段识别的重要方面。通过数据清洗、去除重复数据、处理异常和错误数据等手段，提高数据的准确性和一致性，从而提升字段识别的质量和效率。

本实施的方法基于数据特征的方式在不涉及用户数据的泄露风险下,可以把不同实施现场的特征模型进行更新/迭代/积累。

上述的数据库字段识别方法，通过确定待识别数据的特征信息，并采用字段识别模型中进行业务类型的识别，且将识别的结果作为样本集持续优化字段识别模型，而且预测和训练的过程，基于特征工程的分类分级，基于模型本身实现了知识的积累和复用，很大程度上降低了对人的主观性依赖，实现减少分类分级过程中的人工成本，提高字段识别的效率。

图4是本发明实施例提供的一种数据库字段识别装置300的示意性框图。如图4所示，对应于以上数据库字段识别方法，本发明还提供一种数据库字段识别装置300。该数据库字段识别装置300包括用于执行上述数据库字段识别方法的单元，该装置可以被配置于服务器中。具体地，请参阅图4，该数据库字段识别装置300包括数据获取单元301、特征确定单元302、识别单元303、输出单元304以及优化单元305。

数据获取单元301，用于获取待识别数据；特征确定单元302，用于确定所述待识别数据的特征信息，以得到待识别特征信息；识别单元303，用于将所述待识别特征信息输入至字段识别模型中进行业务类型的识别，以得到识别结果；输出单元304，用于输出所述识别结果；优化单元305，用于利用所述识别结果优化所述字段识别模型；其中，所述字段识别模型是通过带有业务类型的数据库数据所对应的特征信息作为样本集训练XGBoost模型所得的。

在一实施例中，如图5所示，所述特征确定单元302包括清洗子单元3021、特征选择子单元3022、特征变换子单元3023以及特征降维子单元3024。

清洗子单元3021，用于对所述待识别数据进行清洗，以得到清洗结果；特征选择子单元3022，用于对所述清洗结果进行特征计算，以得到原始特征；特征变换子单元3023，用于将所述原始特征进行特征变换，以得到变换结果；特征降维子单元3024，用于对所述变换结果进行特征降维，以得到待识别特征信息。

在一实施例中，所述特征变换子单元3023，用于采用词袋模型将所述原始特征进行特征变换，以得到变换结果。

在一实施例中，所述特征变换子单元3023，用于采用TF-IDF将所述原始特征进行特征变换，以得到变换结果。

在一实施例中，优化单元305，用于将识别结果以及对应的特征信息更新样本集，并重新训练所述字段识别模型。

在一实施例中，所述特征降维子单元3024，用于采用PCA、LDA特征降维方法对所述变换结果进行特征降维，以得到待识别特征信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述数据库字段识别装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述数据库字段识别装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种数据库字段识别方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种数据库字段识别方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取待识别数据；确定所述待识别数据的特征信息，以得到待识别特征信息；将所述待识别特征信息输入至字段识别模型中进行业务类型的识别，以得到识别结果；输出所述识别结果；利用所述识别结果优化所述字段识别模型；

在一实施例中，处理器502在实现所述确定所述待识别数据的特征信息，以得到待识别特征信息步骤时，具体实现如下步骤：

对所述待识别数据进行清洗，以得到清洗结果；对所述清洗结果进行特征计算，以得到原始特征；将所述原始特征进行特征变换，以得到变换结果；对所述变换结果进行特征降维，以得到待识别特征信息。

其中，所述原始特征包括：非空值数、非空占采样总数的比例、值最大长度、值最小长度、值平均长度、值总长度、是否值长度唯一、纯数字的值数占非空值数的比例、纯英文的值数占非空值数的比例、纯大写英文的值数占非空值数的比例、纯小写英文的值数占非空值数的比例、纯中文的值数占非空值数的比例、是否纯数字、是否纯英文、是否纯大写英文、是否纯小写英文、是否纯中文、不同的唯一值数、唯一值数占采样总数的比例、唯一值数占非空值数的比例、是否值内容唯一。

在一实施例中，处理器502在实现所述将所述原始特征进行特征变换，以得到变换结果步骤时，具体实现如下步骤：

采用TF-IDF将所述原始特征进行特征变换，以得到变换结果。

在一实施例中，处理器502在实现所述利用所述识别结果优化所述字段识别模型步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述对所述变换结果进行特征降维，以得到待识别特征信息步骤时，具体实现如下步骤：

应当理解，在本申请实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述确定所述待识别数据的特征信息，以得到待识别特征信息步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述将所述原始特征进行特征变换，以得到变换结果步骤时，具体实现如下步骤：

采用TF-IDF将所述原始特征进行特征变换，以得到变换结果。

在一实施例中，所述处理器在执行所述计算机程序而实现所述利用所述识别结果优化所述字段识别模型步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述变换结果进行特征降维，以得到待识别特征信息步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.数据库字段识别方法，其特征在于，包括：

获取待识别数据；

确定所述待识别数据的特征信息，以得到待识别特征信息；

输出所述识别结果；

利用所述识别结果优化所述字段识别模型；

对所述待识别数据进行清洗，以得到清洗结果；

对所述清洗结果进行特征计算，以得到原始特征；

将所述原始特征进行特征变换，以得到变换结果；

对所述变换结果进行特征降维，以得到待识别特征信息；

2.根据权利要求1所述的数据库字段识别方法，其特征在于，所述将所述原始特征进行特征变换，以得到变换结果，包括：

3.根据权利要求1所述的数据库字段识别方法，其特征在于，所述将所述原始特征进行特征变换，以得到变换结果，包括：

采用TF-IDF将所述原始特征进行特征变换，以得到变换结果。

4.根据权利要求1所述的数据库字段识别方法，其特征在于，所述利用所述识别结果优化所述字段识别模型，包括：

5.根据权利要求1所述的数据库字段识别方法，其特征在于，所述对所述变换结果进行特征降维，以得到待识别特征信息，包括：

6.根据权利要求2所述的数据库字段识别方法，其特征在于，所述数据库数据为表级统计数据，表级统计数据包括表级记录条数范围以及表包含的字段个数范围，采用范围的方式提取列位置信息和表级统计数据特征。

7.数据库字段识别装置，其特征在于，包括：

数据获取单元，用于获取待识别数据；

输出单元，用于输出所述识别结果；

优化单元，用于利用所述识别结果优化所述字段识别模型；

8.根据权利要求7所述的数据库字段识别装置，其特征在于，所述特征变换子单元，用于采用词袋模型将所述原始特征进行特征变换，以得到变换结果；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。