CN110427992A - 数据匹配方法、装置、计算机设备及存储介质 - Google Patents
数据匹配方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110427992A CN110427992A CN201910664541.7A CN201910664541A CN110427992A CN 110427992 A CN110427992 A CN 110427992A CN 201910664541 A CN201910664541 A CN 201910664541A CN 110427992 A CN110427992 A CN 110427992A
- Authority
- CN
- China
- Prior art keywords
- column
- data
- sample
- label
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种数据匹配方法、装置、计算机设备及存储介质,所述方法包括:获取数据表;对各数据列进行码表码值匹配;对各数据列中进行正则识别;确定各数据列的列类型;提取各列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及列基本属性特征;对各列的列特征向量进行识别,确定各列的列标签;基于标签对各列数据进行匹配。本发明实施例提供的数据匹配方法,在利用码表码值和正则识别进行预处理后,利用预设的列特征向量提取各列的列特征向量,相比于现有的方法,本发明提取出的列特征向量以更小的数据量笼络了数据在多个维度上的特征,在保证准确率的同时,有效降低了计算量。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种数据匹配方法、装置、计算机设备及存储介质。
背景技术
在政府业务开展过程中,通常会产生大量的政务数据,然而这些政务数据虽然处于不同的政府业务中,但也会存在类型相似的大量重复数据,因此,在对政务数据进行处理的过程中,通常需要将不同政务业务产生的类型相似的数据进行整合,利用数据识别,在数据库之间寻找相关性的数据。
现有的在数据库之间寻找相关性的数据的方法有很多种,不同的方法起到的效果也不同。例如,人工进行数据匹配的方法准确率相对较高,但计算量随着数据库的增加而急剧增加,显然不适合大型数据库的数据匹配。而利用程序进行数据匹配的方法主要有两种,一种是利用数据库中存在的字段描述,利用模糊搜索查找相似的数据,但这种方法中容易因字段描述缺失而导致匹配率不高的技术问题,另一种是利用数据库中的数据内容进行匹配,对不同类型的数据内容需要用到不同的匹配方法,计算量较大,计算速度缓慢。
可见,现有的数据识别技术,尤其是针对于数据量大的政务数据的匹配方法,还存在着计算量大、计算数据不准确的技术问题。
发明内容
本发明实施例的目的在于提供一种数据匹配方法、装置、计算机设备及存储介质,旨在解决现有的数据识别技术还存在着计算量大、计算数据不准确的技术问题。
本发明实施例是这样实现的,一种数据匹配方法,所述方法包括:
获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
利用码表码值对各数据列的列数据进行匹配;
利用正则表达式识别各数据列中符合预设匹配规则的部分;
根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
本发明实施例的另一目的在于提供一种数据匹配装置,包括:
数据表获取单元,用于获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
码表码值匹配单元,用于利用码表码值对各数据列的列数据进行匹配;
正则识别单元,用于利用正则表达式识别各数据列中符合预设匹配规则的部分;
列类型确定单元,用于根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
列特征向量提取单元,用于根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
列标签确定单元,用于基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
数据匹配单元,用于基于各数据列的列标签对各数据列进行匹配。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述数据匹配方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述数据匹配方法的步骤。
本发明实施例提供的一种数据匹配方法,在获取待匹配的多个数据表后,对各数据列进行码表码值匹配以及正则识别,然后根据各数据列的列数据确定各数据列的列类型,并根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度,然后基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签,最终基于各数据列的列标签对各数据列进行匹配。本发明实施例提供的数据匹配方法,能够充分利用各列的列名信息和/或列注释信息以及列数据的统计信息,并结合列的常规基本属性特征,比如使用频率、预先标记的数据的重要度,确定出列特征向量,由上述信息提取出的特征向量相比于现有的数据匹配方法,以更小的数据量笼络了各列数据在多个维度上的特征,使得计算量大大降低,而后续基于列数据的数据类型采用与所述数据类型对应的预先通过训练生成的数据识别模型对各列的列特征向量进行识别,其中所述数据识别模型由大量数据样本训练生成,使得最终确定出的数据的标签结果更加准确,相比于现有的数据识别方法,在保证准确率的同时,大大降低了数据计算量,尤其是针对数据量大的政务数据,数据匹配的效率大大提高。
附图说明
图1为本发明实施例提供的一种数据匹配方法的步骤流程图;
图2为本发明实施例提供的另一种数据匹配方法的步骤流程图;
图3为本发明实施例提供的又一种数据匹配方法的步骤流程图;
图4为本发明实施例提供的基于列数据的数据类型对各列的列特征向量进行识别的方法的步骤流程图;
图5为本发明实施例提供的一种训练生成述基于随机森林算法训练生成的数值数据识别模型的方法的步骤流程图;
图6为本发明实施例提供的一种数据匹配装置的结构示意图;
图7为本发明实施例提供的另一种数据匹配装置的结构示意图;
图8为本发明实施例提供的又一种数据匹配装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提出了一种数据匹配方法,具体包括以下步骤:
步骤S102,获取待匹配的多个数据表。
在本发明实施例中,所述获取待匹配的数据表可以来源于不同的数据库,例如常见的Oracle、SQL、阿里云、Hadoop等,通过输入数据路径,即可实现数据获取,并将从不同数据库中获取的数据的格式进行统一。
在本发明实施例中,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据。
步骤S104,利用码表码值对各数据列的列数据进行匹配。
在本发明实施例中,对于数据表中存在的部分特殊的符号,例如金钱符号,利用码值码表可以匹配出的此类特殊符号,从而可以较为方便的确定出该数据列所述的业务类型。
步骤S106,利用正则表达式识别各数据列中符合预设匹配规则的部分。
步骤S108,根据各数据列的列数据利用预设的规则识别确定各数据列的列类型。
在本发明实施例中,根据各数据列的列数据可以识别出各列的列数据类型,所述列数据类型包括文本型以及数值型。
步骤S110,根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量。
在本发明实施例中,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度。
步骤S112,基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签。
在本发明实施例中,数据识别模型对各列的列特征向量进行识别所确定出的各列的列标签是根据实际需求预先所设定的,例如标签可以是人口、面积、GDP等内容。
步骤S114,基于各数据列的列标签对各数据列进行匹配。
在本发明实施例中,对于标签相同的数据,表明两列数据描述的内容可以相匹配,例如对A列数据的标签为人口,B列数据的标签为人口,则表明A、B列数据有可能是不同区域的人口数据,可以将A列数据与B列数据整合在一起。
本发明实施例提供的一种数据匹配方法,在获取待匹配的多个数据表后,对各数据列进行码表码值匹配以及正则识别,然后根据各数据列的列数据确定各数据列的列类型,并根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度,然后基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签,最终基于各数据列的列标签对各数据列进行匹配。本发明实施例提供的数据匹配方法,能够充分利用各列的列名信息和/或列注释信息以及列数据的统计信息,并结合列的常规基本属性特征,比如使用频率、预先标记的数据的重要度,确定出列特征向量,由上述信息提取出的特征向量相比于现有的数据匹配方法,以更小的数据量笼络了各列数据在多个维度上的特征,使得计算量大大降低,而后续基于列数据的数据类型采用与所述数据类型对应的预先通过训练生成的数据识别模型对各列的列特征向量进行识别,其中所述数据识别模型由大量数据样本训练生成,使得最终确定出的数据的标签结果更加准确,相比于现有的数据识别方法,在保证准确率的同时,大大降低了数据计算量,尤其是针对数据量大的政务数据,数据匹配的效率大大提高。
如图2所示,在一个实施例中,提出了另一种数据匹配方法,与图1示出的一种数据匹配方法的区别在于,在所述步骤S110前,还包括:
步骤S202,基于预设的数据预处理模型对各数据列的列数据进行预处理。
在本发明实施例中,所述预处理包括缺失数据的补全以及重要数据的提取。
在本发明实施例中,考虑到在建立数据库时,数据可能存在缺失、错误,严重时会影响到最终匹配的准确率,因此,可以通过预先设置的数据预处理模型同时从数据质量和内容两方面对数据清洗,例如对缺失数据进行补全、对格式错误数据进行补正、对离群数值进行删除、对列数据进行平滑、对重要数据进行提取等等,降低数据质量差对识别结果造成的影响,提升整体识别的准确率。
本发明实施例提供的另一种数据匹配方法,相比于图1提供的一种数据匹配方法,通过在对数据提取特征向量前,利用预先设置的数据预处理模型对各列的列数据进行预处理,能够有效地提高数据的质量,降低因数据质量差而对识别结果造成的影响,提高了数据匹配的准确率。
如图3所示,在一个实施例中,提出了又一种数据匹配方法,与图1示出的一种数据匹配方法的区别在于,在所述步骤S114前,还包括:
步骤S302,按照预设的规则抽取至少一个通过数据识别模型识别确定的列标签。
在本发明实施例中,将标签的结果通过可视化技术展示出来,可以方便的辅助业务人员对确定的列标签的结果进行排查。
步骤S304,判断所述识别确定的列标签是否准确。当判断识别确定的列标签不准确时,执行步骤S306;当判断识别确定的列标签准确时,执行其他步骤。
在本发明实施例中,当数据识别模型识别确定的列标签准确时,表明数据识别模型分类准确率较高,此时,可直接基于各列数据的标签对各列数据进行匹配,所述执行其他步骤一般为基于各列数据的标签对各列数据进行匹配。
步骤S306,修改所述列标签,并且根据修改后的列标签优化所述数据识别模型。
在本发明实施例中,当数据识别模型识别确定的列标签不准确时,表明数据识别模型优化尚未完全,存在一定误差,因此需要对数据识别模型进行优化,因此,通过将所述列标签修改为正确标签,能够反向对数据识别模型进行优化,进一步提高了数据识别模型的准确率。
本发明实施例提供的又一种数据匹配方法,相比于图1提供的一种数据匹配方法,在标签识别结束后,利用可视化技术展示所述标签,以辅助业务员对标签的结果进行排查,并进一步判断出识别确定的标签结果是否准确,当判断结果不准确时,能够反向对数据识别模型进行优化,进一步提高数据识别模型的准确率。
如图4所示,在一个实施例中,提出了一种基于列数据的数据类型对各列的列特征向量进行识别的方法,具体包括以下步骤:
步骤S402,采用预先基于随机森林算法训练生成的数值数据识别模型对数据类型为数值型的列的列特征向量进行识别,并确定列标签。
在本发明实施例中,所述随机森林算法是一种利用多颗决策树对样本进行训练并预测的方法,其中每颗决策树包含多个二分点,能够根据样本的特征向量进行预测并输出标签,将随机森林中不同决策树预测结果最多的标签作为最终标签。
在本发明实施例中,训练生成所述基于随机森林算法训练生成的数值数据识别模型的步骤请参阅图5及其解释说明部分。
步骤S404,采用预先基于朴素贝叶斯算法训练生成的文本数据识别模型对数据类型为文本型的列的列特征向量进行识别,并确定列标签。
在本发明实施例中所述朴素贝叶斯算法是基于贝叶斯原理的算法,在数据集之间的关系相对独立时,分类效果较好,常用于文本数据分类。
如图5所示,在一个实施例中,提出了一种训练生成述基于随机森林算法训练生成的数值数据识别模型的方法,具体包括以下步骤:
步骤S502,获取多个数据样本表。
在本发明实施例中,所述数据样本表中包含多个样本列名信息和/或样本列注释信息以及各样本列的样本列数据。
步骤S504,获取各样本列的目标标签。
在本发明实施例中,所述样本列的目标标签均是预先已知的。
步骤S506,基于各样本列的列样本数据利用正则识别确定各样本列的样本列数据类型。
在本发明实施例中,利用数据样本进行训练的过程需要和对数据进行识别到过程保持完全一致,因此,步骤S506中采用的正则识别与前述步骤S104中采用的正则识别相同。
步骤S508,根据各样本列的样本列名信息和/或样本列注释信息、各样本列的样本列数据以及各样本列的样本列数据类型,利用预设的特征提取模型提取各样本列的样本列特征向量。
在本发明实施例中,所述样本列特征向量包括样本列数据的统计特征、样本列名和/或样本列注释信息的描述特征以及样本列基本属性特征,所述样本列数据的统计特征包括样本列数据的取值范围、均值以及方差,样本列基本属性特征包括样本列数据的使用频率、样本列数据的数据类型以及预先按照预设规则确定的样本列数据的重要度。
在本发明实施例中,同样的,利用数据样本进行训练的过程需要和对数据进行识别到过程保持完全一致,因此步骤S508中使用的特征提取模型与前述步骤S106中使用的特征提取模型相同。
步骤S510,基于随机森林算法建立含有可变参数的初始化的数值数据识别模型。
步骤S512,根据所述各样本列的样本列特征向量以及所述数值数据识别模型确定各样本列的响应标签。
在本发明实施例中,所述数值数据识别模型可以理解为自变量列特征向量与因变量标签的函数关系,将自变量列特征向量输入到函数中,就可以确定因变量标签。
步骤S514,判断所述响应标签与所述目标标签是否满足预设的训练成功条件。当判断所述响应标签与所述目标标签不满足预设的训练成功条件时,执行步骤S516;当判断所述响应标签与所述目标标签满足预设的训练成功条件时,执行步骤S518。
在本发明实施例中,所述预设的训练成功条件可以是训练次数达到预设值,也可以是响应标签与目标标签的差异小于一定的条件。
步骤S516,调整所述数值数据识别模型中的可变参数,并返回至所述步骤510。
步骤S518,将当前数值数据识别模型确定为基于随机森林算法训练生成的数值数据识别模型。
在本发明实施例中,当判断响应标签与所述目标标签满足预设的训练成功条件时,此时,可视为数值数据识别模型已初步完成,能够根据列特征向量输出准确率高的列标签。
如图6所示,在一个实施例中,提出了一种数据匹配装置,详述如下。
在本发明实施例中,所述数据匹配装置包括:
数据表获取单元610,用于获取待匹配的多个数据表。
在本发明实施例中,所述获取待匹配的数据表可以来源于不同的数据库,例如常见的Oracle、SQL、阿里云、Hadoop等,通过输入数据路径,即可实现数据获取,并将从不同数据库中获取的数据的格式进行统一。
在本发明实施例中,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据。
码表码值匹配单元620,用于利用码表码值对各数据列的列数据进行匹配。
在本发明实施例中,对于数据表中存在的部分特殊的符号,例如金钱符号,利用码值码表可以匹配出的此类特殊符号,从而可以较为方便的确定出该数据列所述的业务类型。
正则识别单元630,用于利用正则表达式识别各数据列中符合预设匹配规则的部分。
列类型确定单元640,用于根据各数据列的列数据利用预设的规则识别确定各数据列的列类型。
在本发明实施例中,根据各数据列的列数据可以识别出各列的列数据类型,所述列数据类型包括文本型以及数值型。
列特征向量提取单元650,用于根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量。
在本发明实施例中,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度。
列标签确定单元660,用于基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签。
在本发明实施例中,数据识别模型对各列的列特征向量进行识别所确定出的各列的列标签是根据实际需求预先所设定的,例如标签可以是人口、面积、GDP等内容。
数据匹配单元670,用于基于各数据列的列标签对各数据列进行匹配。
在本发明实施例中,对于标签相同的数据,表明两列数据描述的内容可以相匹配,例如对A列数据的标签为人口,B列数据的标签为人口,则表明A、B列数据有可能是不同区域的人口数据,可以将A列数据与B列数据整合在一起。
本发明实施例提供的一种数据匹配装置,在获取待匹配的多个数据表后,对各数据列进行码表码值匹配以及正则识别,然后根据各数据列的列数据确定各数据列的列类型,并根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度,然后基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签,最终基于各数据列的列标签对各数据列进行匹配。本发明实施例提供的数据匹配方法,能够充分利用各列的列名信息和/或列注释信息以及列数据的统计信息,并结合列的常规基本属性特征,比如使用频率、预先标记的数据的重要度,确定出列特征向量,由上述信息提取出的特征向量相比于现有的数据匹配方法,以更小的数据量笼络了各列数据在多个维度上的特征,使得计算量大大降低,而后续基于列数据的数据类型采用与所述数据类型对应的预先通过训练生成的数据识别模型对各列的列特征向量进行识别,其中所述数据识别模型由大量数据样本训练生成,使得最终确定出的数据的标签结果更加准确,相比于现有的数据识别方法,在保证准确率的同时,大大降低了数据计算量,尤其是针对数据量大的政务数据,数据匹配的效率大大提高。
如图7所示,在一个实施例中,提出了另一种数据匹配装置,与图6示出的一种数据匹配装置的区别在于,还包括:
数据预处理单元710,用于基于预设的数据预处理模型对各数据列的列数据进行预处理。
在本发明实施例中,所述预处理包括缺失数据的补全以及重要数据的提取。
在本发明实施例中,考虑到在建立数据库时,数据可能存在缺失、错误,严重时会影响到最终匹配的准确率,因此,可以通过预先设置的数据预处理模型同时从数据质量和内容两方面对数据清洗,例如对缺失数据进行补全、对格式错误数据进行补正、对离群数值进行删除、对列数据进行平滑、对重要数据进行提取等等,降低数据质量差对识别结果造成的影响,提升整体识别的准确率。
本发明实施例提供的另一种数据匹配装置,相比于图6提供的一种数据匹配装置,通过在对数据提取特征向量前,利用预先设置的数据预处理模型对各列的列数据进行预处理,能够有效地提高数据的质量,降低因数据质量差而对识别结果造成的影响,提高了数据匹配的准确率。
如图8所示,在一个实施例中,提出了又一种数据匹配装置,与图6示出的一种数据匹配装置的区别在于,还包括:
列标签抽取单元810,用于按照预设的规则抽取至少一个通过数据识别模型识别确定的列标签。
在本发明实施例中,将标签的结果通过可视化技术展示出来,可以方便的辅助业务人员对确定的列标签的结果进行排查。
列标签判断单元820,用于判断所述识别确定的列标签是否准确。
在本发明实施例中,当数据识别模型识别确定的列标签准确时,表明数据识别模型分类准确率较高,此时,可直接基于各列数据的标签对各列数据进行匹配,所述执行其他步骤一般为基于各列数据的标签对各列数据进行匹配。
数据识别模型优化单元830,用于当判断识别确定的列标签不准确时,修改所述列标签,并根据修改后的列标签优化所述数据识别模型。
在本发明实施例中,当数据识别模型识别确定的列标签不准确时,表明数据识别模型优化尚未完全,存在一定误差,因此需要对数据识别模型进行优化,因此,通过将所述列标签修改为正确标签,能够反向对数据识别模型进行优化,进一步提高了数据识别模型的准确率。
本发明实施例提供的又一种数据匹配装置,相比于图6提供的一种数据匹配装置,在标签识别结束后,利用可视化技术展示所述标签,以辅助业务员对标签的结果进行排查,并进一步判断出识别确定的标签结果是否准确,当判断结果不准确时,能够反向对数据识别模型进行优化,进一步提高数据识别模型的准确率。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
利用码表码值对各数据列的列数据进行匹配;
利用正则表达式识别各数据列中符合预设匹配规则的部分;
根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
利用码表码值对各数据列的列数据进行匹配;
利用正则表达式识别各数据列中符合预设匹配规则的部分;
根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据匹配方法,其特征在于,所述方法包括:
获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
利用码表码值对各数据列的列数据进行匹配;
利用正则表达式识别各数据列中符合预设匹配规则的部分;
根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
2.根据权利要求1所述的数据匹配方法,其特征在于,在所述根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量的步骤前,还包括:
基于预设的数据预处理模型对各数据列的列数据进行预处理,所述预处理包括缺失数据的补全以及重要数据的提取。
3.根据权利要求1所述的数据匹配方法,其特征在于,在所述基于各数据列的列标签对各数据列进行匹配的步骤前,还包括:
按照预设的规则抽取至少一个通过数据识别模型识别确定的列标签;
判断所述识别确定的列标签是否准确;
当判断识别确定的列标签不准确时,修改所述列标签,并根据修改后的列标签优化所述数据识别模型。
4.根据权利要求1所述的数据匹配方法,其特征在于,所述基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签的步骤具体包括:
采用预先基于随机森林算法训练生成的数值数据识别模型对数据类型为数值型的列的列特征向量进行识别,并确定列标签;
采用预先基于朴素贝叶斯算法训练生成的文本数据识别模型对数据类型为文本型的列的列特征向量进行识别,并确定列标签。
5.根据权利要求4所述的数据匹配方法,其特征在于,训练生成所述基于随机森林算法训练生成的数值数据识别模型的步骤具体包括:
获取多个数据样本表,所述数据样本表中包含多个样本列名信息和/或样本列注释信息以及各样本列的样本列数据;
获取各样本列的目标标签;
基于各样本列的列样本数据利用正则识别确定各样本列的样本列数据类型;
根据各样本列的样本列名信息和/或样本列注释信息、各样本列的样本列数据以及各样本列的样本列数据类型,利用预设的特征提取模型提取各样本列的样本列特征向量,所述样本列特征向量包括样本列数据的统计特征、样本列名和/或样本列注释信息的描述特征以及样本列基本属性特征,所述样本列数据的统计特征包括样本列数据的取值范围、均值以及方差,样本列基本属性特征包括样本列数据的使用频率、样本列数据的数据类型以及预先按照预设规则确定的样本列数据的重要度;
基于随机森林算法建立含有可变参数的初始化的数值数据识别模型;
根据所述各样本列的样本列特征向量以及所述数值数据识别模型确定各样本列的响应标签;
判断所述响应标签与所述目标标签是否满足预设的训练成功条件;
当判断所述响应标签与所述目标标签不满足预设的训练成功条件时,调整所述数值数据识别模型中的可变参数,并返回至根据所述各样本列的样本列特征向量以及所述数值数据识别模型确定各样本列的响应标签的步骤;
当判断所述响应标签与所述目标标签满足预设的训练成功条件,将当前数值数据识别模型确定为基于随机森林算法训练生成的数值数据识别模型。
6.一种数据匹配装置,其特征在于,包括:
数据表获取单元,用于获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
码表码值匹配单元,用于利用码表码值对各数据列的列数据进行匹配;
正则识别单元,用于利用正则表达式识别各数据列中符合预设匹配规则的部分;
列类型确定单元,用于根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
列特征向量提取单元,用于根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
列标签确定单元,用于基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
数据匹配单元,用于基于各数据列的列标签对各数据列进行匹配。
7.根据权利要求6所述的一种数据匹配单元,其特征在于,还包括:
数据预处理单元,用于基于预设的数据预处理模型对各数据列的列数据进行预处理,所述预处理包括缺失数据的补全以及重要数据的提取。
8.根据权利要求6所述的一种数据匹配单元,其特征在于,还包括:
列标签抽取单元,用于按照预设的规则抽取至少一个通过数据识别模型识别确定的列标签;
列标签判断单元,用于判断所述识别确定的列标签是否准确;
数据识别模型优化单元,用于当判断识别确定的列标签不准确时,修改所述列标签,并根据修改后的列标签优化所述数据识别模型。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至5中任一项权利要求所述数据匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至5中任一项权利要求所述数据匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910664541.7A CN110427992A (zh) | 2019-07-23 | 2019-07-23 | 数据匹配方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910664541.7A CN110427992A (zh) | 2019-07-23 | 2019-07-23 | 数据匹配方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110427992A true CN110427992A (zh) | 2019-11-08 |
Family
ID=68411857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910664541.7A Pending CN110427992A (zh) | 2019-07-23 | 2019-07-23 | 数据匹配方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427992A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929285A (zh) * | 2019-12-10 | 2020-03-27 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据的处理方法及装置 |
CN111104466A (zh) * | 2019-12-25 | 2020-05-05 | 航天科工网络信息发展有限公司 | 一种海量数据库表快速分类的方法 |
CN113076379A (zh) * | 2021-04-27 | 2021-07-06 | 上海德衡数据科技有限公司 | 基于数字化icd区分元数区域的方法及*** |
CN113127509A (zh) * | 2019-12-31 | 2021-07-16 | ***通信集团重庆有限公司 | PaaS平台中SQL执行引擎的适配方法及装置 |
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及*** |
CN113312354A (zh) * | 2021-06-10 | 2021-08-27 | 北京百度网讯科技有限公司 | 数据表的识别方法、装置、设备和存储介质 |
WO2022123370A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Finding locations of tabular data across systems |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407357A (zh) * | 2016-09-07 | 2017-02-15 | 深圳市中易科技有限责任公司 | 一种文本数据规则模型开发的工程方法 |
CN107851233A (zh) * | 2015-06-19 | 2018-03-27 | 阿普泰克科技公司 | 资产处的本地分析 |
CN108537207A (zh) * | 2018-04-24 | 2018-09-14 | Oppo广东移动通信有限公司 | 唇语识别方法、装置、存储介质及移动终端 |
CN109299094A (zh) * | 2018-09-18 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 数据表处理方法、装置、计算机设备和存储介质 |
CN109597892A (zh) * | 2018-12-25 | 2019-04-09 | 杭州数梦工场科技有限公司 | 一种数据库中数据的分类方法、装置、设备及存储介质 |
CN109635118A (zh) * | 2019-01-10 | 2019-04-16 | 博拉网络股份有限公司 | 一种基于大数据的用户搜索匹配方法 |
CN109887285A (zh) * | 2019-03-15 | 2019-06-14 | 北京经纬恒润科技有限公司 | 一种停车原因的确定方法及装置 |
-
2019
- 2019-07-23 CN CN201910664541.7A patent/CN110427992A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851233A (zh) * | 2015-06-19 | 2018-03-27 | 阿普泰克科技公司 | 资产处的本地分析 |
CN106407357A (zh) * | 2016-09-07 | 2017-02-15 | 深圳市中易科技有限责任公司 | 一种文本数据规则模型开发的工程方法 |
CN108537207A (zh) * | 2018-04-24 | 2018-09-14 | Oppo广东移动通信有限公司 | 唇语识别方法、装置、存储介质及移动终端 |
CN109299094A (zh) * | 2018-09-18 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 数据表处理方法、装置、计算机设备和存储介质 |
CN109597892A (zh) * | 2018-12-25 | 2019-04-09 | 杭州数梦工场科技有限公司 | 一种数据库中数据的分类方法、装置、设备及存储介质 |
CN109635118A (zh) * | 2019-01-10 | 2019-04-16 | 博拉网络股份有限公司 | 一种基于大数据的用户搜索匹配方法 |
CN109887285A (zh) * | 2019-03-15 | 2019-06-14 | 北京经纬恒润科技有限公司 | 一种停车原因的确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
吴家碚等: "《C语言程序设计与应用(高职)》", 31 January 2015 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929285A (zh) * | 2019-12-10 | 2020-03-27 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据的处理方法及装置 |
CN110929285B (zh) * | 2019-12-10 | 2022-01-25 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据的处理方法及装置 |
CN111104466A (zh) * | 2019-12-25 | 2020-05-05 | 航天科工网络信息发展有限公司 | 一种海量数据库表快速分类的方法 |
CN113127509A (zh) * | 2019-12-31 | 2021-07-16 | ***通信集团重庆有限公司 | PaaS平台中SQL执行引擎的适配方法及装置 |
CN113127509B (zh) * | 2019-12-31 | 2023-08-15 | ***通信集团重庆有限公司 | PaaS平台中SQL执行引擎的适配方法及装置 |
WO2022123370A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Finding locations of tabular data across systems |
US11500886B2 (en) | 2020-12-11 | 2022-11-15 | International Business Machines Corporation | Finding locations of tabular data across systems |
GB2616577A (en) * | 2020-12-11 | 2023-09-13 | Ibm | Finding locations of tabular data across systems |
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及*** |
CN113157788B (zh) * | 2021-04-13 | 2024-02-13 | 福州外语外贸学院 | 大数据挖掘方法及*** |
CN113076379A (zh) * | 2021-04-27 | 2021-07-06 | 上海德衡数据科技有限公司 | 基于数字化icd区分元数区域的方法及*** |
CN113312354A (zh) * | 2021-06-10 | 2021-08-27 | 北京百度网讯科技有限公司 | 数据表的识别方法、装置、设备和存储介质 |
CN113312354B (zh) * | 2021-06-10 | 2023-07-28 | 北京百度网讯科技有限公司 | 数据表的识别方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427992A (zh) | 数据匹配方法、装置、计算机设备及存储介质 | |
CN111160017B (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN110704633B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN109635117B (zh) | 一种基于知识图谱识别用户意图方法及装置 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN110795919A (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN108573707B (zh) | 一种语音识别结果的处理方法、装置、设备及介质 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN111680634A (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN108920677A (zh) | 问卷调查方法、调查***及电子设备 | |
CN112287095A (zh) | 确定问题答案的方法、装置、计算机设备及存储介质 | |
JP2019503541A (ja) | 電子データ構造から属性を抽出するための注釈システム | |
CN111814482A (zh) | 文本关键数据的提取方法、***和计算机设备 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN113420116B (zh) | 医疗文档的分析方法、装置、设备及介质 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191108 |