CN112800049B - 基于大数据的excel数据源清洗方法、***、电子设备和存储介质 - Google Patents

基于大数据的excel数据源清洗方法、***、电子设备和存储介质 Download PDF

Info

Publication number
CN112800049B
CN112800049B CN202110364627.5A CN202110364627A CN112800049B CN 112800049 B CN112800049 B CN 112800049B CN 202110364627 A CN202110364627 A CN 202110364627A CN 112800049 B CN112800049 B CN 112800049B
Authority
CN
China
Prior art keywords
data
excel
data source
standard
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110364627.5A
Other languages
English (en)
Other versions
CN112800049A (zh
Inventor
孙东祥
常卫涛
张坤
郑媛媛
王茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Shenzhou Wisdom System Technology Co ltd
Original Assignee
Aerospace Shenzhou Wisdom System Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Shenzhou Wisdom System Technology Co ltd filed Critical Aerospace Shenzhou Wisdom System Technology Co ltd
Priority to CN202110364627.5A priority Critical patent/CN112800049B/zh
Publication of CN112800049A publication Critical patent/CN112800049A/zh
Application granted granted Critical
Publication of CN112800049B publication Critical patent/CN112800049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质,其中方法包括:解析并结构化EXCEL数据源;对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;对标准化后的EXCEL数据源进行清洗;根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。根据本发明的技术方案,可以有效地提高数据处理的准确率,缓解用户的工作量,为之后的大数据分析和使用提供数据保障。

Description

基于大数据的EXCEL数据源清洗方法、***、电子设备和存储 介质
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质。
背景技术
智慧城市的建设需要大数据技术的支持,当前大数据领域主要针对的是数据的挖掘、分析和使用,而将数据标准性和准确性的处理交给了用户,这样就给用户带来了巨大的工作量。并且,用户花费大量的时间与精力,手工整理出来的数据的准确率还不一定高。
各行各业都拥有大量、不同类型的数据,而这些数据又存在着多种多样的问题,对数据的准确使用造成了很大的障碍。为了消除障碍,就需要对数据进行清洗,从而获得准确而优质的数据。
各行业数据的存储方式主要是EXCEL和各种数据库,存储的结构也是各种各样,如果要进行数据清洗,就需要对各种不同结构和类型的数据做人工梳理,造成了人工成本的浪费。
EXCEL中大部分数据的质量和可信度都非常差。影响了对数据信息的分析和发掘,对决策提供了错误的参考。
发明内容
本发明的目的在于解决上述背景技术中的至少一个技术问题,提供一种基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质。
为实现上述目的,本发明提供一种基于大数据的EXCEL数据源清洗方法,包括:
解析并结构化EXCEL数据源;
对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;
对标准化后的EXCEL数据源进行清洗;
根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。
根据本发明的一个方面,解析并结构化EXCEL数据源,包括:
上传EXCEL数据源,指定数据源中标题行数;
根据标题行数区分标题行和数据区;
根据标题最后一行自动构建数据模型,定义相应字段名称;
建立字段与标题的对应关系;
将EXCEL数据源的数据存入数据库。
根据本发明的一个方面,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。
根据本发明的一个方面,对标准化后的EXCEL数据源进行清洗,包括:
对EXCEL数据源中的数据进行预处理;
构建知识库模型,将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照,如果相等,则确定EXCEL数据源中的数据为对应的标准数据;
构建设置有标准数据的标准库,对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据,并将其替换为标准库中的标准数据。
根据本发明的一个方面,所述预处理包括:
使用JAVA中去除前后空格的方法去除数据中的前后空格;
使用JAVA中字符替换的方法,将空格替换为符号,去除字符串中的所有空格;
使用JAVA中小写转大写的方法,把数据的小写字母转为大写字母;
使用正则表达式校验手机号。
根据本发明的一个方面,使用余弦值算法,根据EXCEL数据源中的关键字段,找到标准库中的相对应的数据,其中所述余弦值算法为:
Figure 791160DEST_PATH_IMAGE001
式中:x和y分别表示两个向量,i表示向量的纬度,xi表示向量x第i纬度的坐标点,yi表示向量y第i纬度的坐标点,θ表示x向量和y向量的夹角,n表示x向量和y向量是n纬的;
余弦值越接近1,则表明夹角越接近0度,即两个向量越相似,夹角等于0,即两个向量相等。
根据本发明的一个方面,列出与EXCEL数据源中的数据相对应的标准库数据,确认与EXCEL数据源中的数据匹配的标准数据,确认后,使用sql的update方法,直接把EXCEL数据源中的数据替换为标准库的数据。
为实现上述目的,本发明还提供一种复杂EXCEL数据源清洗***,包括:
数据解析模块,用于解析并结构化EXCEL数据源;
标准化处理模块,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;
数据清洗模块,对标准化后的EXCEL数据源进行清洗;
数据标准匹配模块,根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。
为实现上述目的,本发明还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述方法。
根据本发明的技术方案,可以有效地提高数据处理的准确率,缓解用户的工作量,为之后的大数据分析和使用提供数据保障。精确的原始数据有助于准确的数据信息的分析和发掘,从而为相应的决策提供更加准确的参考。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1示意性表示根据本发明的基于大数据的EXCEL数据源清洗方法的流程图;
图2示意性表示根据本发明的基于大数据的EXCEL数据源清洗***的结构框图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护范围。
图1示意性表示根据本发明的基于大数据的EXCEL数据源清洗方法的流程图。如图1所示,根据本发明的基于大数据的EXCEL数据源清洗方法,包括以下步骤:
a. 解析并结构化EXCEL数据源;
b. 对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;
c. 对标准化后的EXCEL数据源进行清洗;
d. 根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。
根据本发明的一种实施方式,解析并结构化EXCEL数据源,包括:
上传EXCEL数据源,指定清单中标题行数;
根据标题行数区分标题行和数据区;
根据标题最后一行自动构建数据模型,定义相应字段名称;
建立字段与标题的对应关系;
将EXCEL数据源的数据存入数据库。
进一步地,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。
进一步地,对标准化后的EXCEL数据源进行清洗,包括:
对EXCEL数据源中的数据进行预处理;
构建知识库模型,将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照,如果相等,则确定EXCEL数据源中的数据为对应的标准数据;
构建设置有标准数据的标准库,对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据,并将其替换为标准库中的标准数据。
进一步地,预处理包括:
使用JAVA中去除前后空格的方法去除数据中的前后空格;
使用JAVA中字符替换的方法,将空格替换为符号,去除字符串中的所有空格;
使用JAVA中小写转大写的方法,把数据的小写字母转为大写字母;
使用正则表达式校验手机号。
其中,使用余弦值算法,根据EXCEL数据源中的关键字段,找到标准库中的相对应的数据,其中所述余弦值算法为:
Figure 570897DEST_PATH_IMAGE001
式中:x和y分别表示两个向量,i表示向量的纬度,xi表示向量x第i纬度的坐标点,yi表示向量y第i纬度的坐标点,θ表示x向量和y向量的夹角,n表示x向量和y向量是n纬的;
余弦值越接近1,则表明夹角越接近0度,即两个向量越相似,夹角等于0,即两个向量相等。
列出与EXCEL数据源中的数据相对应的标准库数据,确认与EXCEL数据源中的数据匹配的标准数据,确认后,使用sql的update方法,直接把EXCEL数据源中的数据替换为标准库的数据。
根据本发明的上述方案,可以有效地提高数据处理的准确率,缓解用户的工作量,为之后的大数据分析和使用提供数据保障。
为实现上述目的,本发明还提供一种基于大数据的EXCEL数据源清洗***,其结构框图如图2所示,该***包括:
数据解析模块,用于解析并结构化EXCEL数据源;
标准化处理模块,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;
数据清洗模块,对标准化后的EXCEL数据源进行清洗;
数据标准匹配模块,根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。
根据本发明的一种实施方式,数据解析模块解析并结构化EXCEL数据源,包括:
上传EXCEL数据源,指定清单中标题行数;
根据标题行数区分标题行和数据区;
根据标题最后一行自动构建数据模型,定义相应字段名称;
建立字段与标题的对应关系;
将EXCEL数据源的数据存入数据库。
进一步地,标准化处理模块对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。
进一步地,数据清洗模块对标准化后的EXCEL数据源进行清洗,包括:
对EXCEL数据源中的数据进行预处理;
构建知识库模型,将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照,如果相等,则确定EXCEL数据源中的数据为对应的标准数据;
构建设置有标准数据的标准库,对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据,并将其替换为标准库中的标准数据。
进一步地,预处理包括:
使用JAVA中去除前后空格的方法去除数据中的前后空格;
使用JAVA中字符替换的方法,将空格替换为符号,去除字符串中的所有空格;
使用JAVA中小写转大写的方法,把数据的小写字母转为大写字母;
使用正则表达式校验手机号。
其中,使用余弦值算法,根据EXCEL数据源中的关键字段,找到标准库中的相对应的数据,其中所述余弦值算法为:
Figure 841473DEST_PATH_IMAGE001
式中:x和y分别表示两个向量,i表示向量的纬度,xi表示向量x第i纬度的坐标点,yi表示向量y第i纬度的坐标点,θ表示x向量和y向量的夹角,n表示x向量和y向量是n纬的;
余弦值越接近1,则表明夹角越接近0度,即两个向量越相似,夹角等于0,即两个向量相等。
列出与EXCEL数据源中的数据相对应的标准库数据,确认与EXCEL数据源中的数据匹配的标准数据,确认后,使用sql的update方法,直接把EXCEL数据源中的数据替换为标准库的数据。
根据本发明的上述方案,可以有效地提高数据处理的准确率,缓解用户的工作量,为之后的大数据分析和使用提供数据保障。
为实现上述目的,本发明还提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述方法。
以下结合附图以一种具体实施例的方式来详细说明本发明的方案。
实施例1
输入:一份数据不标准的EXCEL清单,指定标题行数;
输出:一份数据标准的EXCEL清单;
处理流程:
根据EXCEL标题行数titleNum,区分标题和数据。第一行到第titleNum行是标题区,第(titleNum+1)到最后一行是数据区;
使用JAVA POI的技术解析EXCEL清单的标题区和数据区的数据:
解析EXCEL文件的后缀,判断是“XLSX”还是“XLS”;
根据不同的后缀,创建对应的工作簿;
解析工作簿中的第一个sheet页;
循环解析sheet页中的每一行数据;
循环解析每一行中的每个单元格;
读取单元格中的数据,将数据存储到内存中。
使用jdbc方法把读取的标题,存储到T_DATA_SOURCE_COLUMN表中。根据读取的标题区的数据,创建对应的表结构,表结构的字段根据标题逐一的命名为(STR1、STR2、STR3.......)。
使用数据建模技术,根据标题构建数据源表、数据清洗表,定义相应字段名称(STR1,STR2,STR3,...)。将数据区的数据存储到数据源表、数据清洗表。
预处理:(去除前后空格、去除所有空格、小写转大写、手机号校验、...),使用java方法编写;
使用JAVA中去除前后空格的方法去除数据中的前后空格;
使用JAVA中字符替换的方法,将空格替换为””,去除字符串中的所有空格;
使用JAVA中小写转大写的方法,把数据的小写字母转为大写字母;
使用正则表达式"^((13[0-9])|(15[^4,\\D])|(18[0,5-9]))\\d{8}$",校验手机号;
使用知识库清洗:
构建知识库模型,把清单数据与知识库中的非标准数据进行比对,如果相等,则使用sql的update方法把数据改为对应的标准数据。
知识库存储非标准数据和对应的标准数据。
模型结构如下:T_CORE_FIELD(要标准化的字段表),T_CORE_FIELD_STD(标准数据表),T_CORE_FIELD_NO_STD(非标准数据比表)
深层清洗+人工确认:
先构建一个标准库(std_lib),里面存放一套标准的数据。
使用余弦值算法,根据清单中的关键字段,找到标准库中的相似数据。然后人工从相似数据中确认对应的是哪条数据,最后使用sql的update语句将清单中的数据替换为标准数据。
余弦值算法:
Figure 655845DEST_PATH_IMAGE001
式中:x和y分别表示两个向量,i表示向量的纬度,xi表示向量x第i纬度的坐标点,yi表示向量y第i纬度的坐标点,θ表示x向量和y向量的夹角,n表示x向量和y向量是n纬的;
余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,夹角等于0,即两个向量相等,这就叫"余弦相似性"。
举例:
名称A:新西兰红玫瑰Queen苹果12个140g以上/个
名称B:新西兰红玫瑰Queen苹果6个150g以上/个
第一步,语句拆分
名称A:新 西 兰 红 玫 瑰 Q u e e n 苹果 1 2 个 1 4 0 g 以 上 / 个;
名称B:新 西 兰 红 玫 瑰 Q u e e n 苹果 6 个 1 5 0 g 以 上 / 个;
第二步,列出所有单字组合(去重)
总语句:新 西 兰 红 玫 瑰 Q u e n 苹果 1 2 个 4 0 g 以 上 / 6 5
第三步,计算字频
名称A:新[1]西[1]兰[1]红[1]玫[1]瑰[1]Q[1]u[1]e[2]n[1]苹[1]果[1]1[2]2[1]个[2]4[1]0[1]g[1]以[1]上[1]/[1]6[0]5[0]
名称B:新[1]西[1]兰[1]红[1]玫[1]瑰[1]Q[1]u[1]e[2]n[1]苹[1]果[1]1[1]2[0]个[2]4[0]0[1]g[1]以[1]上[1]/[1]6[1]5[1]
第四步,写出字频向量。
名称A:(1,1,1,1,1,1,1,1,2,1,1,1,2,1,2,1,1,1,1,1,1,0,0)
名称B:(1,1,1,1,1,1,1,1,2,1,1,1,1,0,2,0,1,1,1,1,1,1,1)
第五步,套用公式
值= (A1*B1+A2*B2+A3*B3+A1*B1+.......)/ 根号(A各项平方之和) * 根号(B各项平方之和)
值= 26 / 根号(30) * 根号(27)
值= 26 / 28.4604
=0.9135
值越大越相似,=1则代表完全相同。=0则代表完全不同
列出与清单数据相似的标准库数据,人工确认哪条数据与清单数据匹配,确认之后,使用sql的update方法,直接把清单的数据替换为标准库的数据。
使用java的POI技术导出清洗好的数据清单。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (9)

1.一种基于大数据的EXCEL数据源清洗方法,其特征在于,包括:
解析并结构化EXCEL数据源;
对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;
对标准化后的EXCEL数据源进行清洗;
根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息;
对标准化后的EXCEL数据源进行清洗,包括:
对EXCEL数据源中的数据进行预处理;
构建知识库模型,将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照,如果相等,则确定EXCEL数据源中的数据为对应的标准数据;
构建设置有标准数据的标准库,对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据,并将其替换为标准库中的标准数据。
2.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法,其特征在于,解析并结构化EXCEL数据源,包括:
上传EXCEL数据源,指定数据源中标题行数;
根据标题行数区分标题行和数据区;
根据标题最后一行自动构建数据模型,定义相应字段名称;
建立字段与标题的对应关系;
将EXCEL数据源的数据存入数据库。
3.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法,其特征在于,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。
4.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法,其特征在于,所述预处理包括:
使用JAVA中去除前后空格的方法去除数据中的前后空格;
使用JAVA中字符替换的方法,将空格替换为符号,去除字符串中的所有空格;
使用JAVA中小写转大写的方法,把数据的小写字母转为大写字母;
使用正则表达式校验手机号。
5.根据权利要求4所述的基于大数据的EXCEL数据源清洗方法,其特征在于,使用余弦值算法,根据EXCEL数据源中的关键字段,找到标准库中的相对应的数据,其中所述余弦值算法为:
Figure DEST_PATH_IMAGE001
式中:x和y分别表示两个向量,i表示向量的纬度,xi表示向量x第i纬度的坐标点,yi表示向量y第i纬度的坐标点,θ表示x向量和y向量的夹角,n表示x向量和y向量是n纬的;
余弦值越接近1,则表明夹角越接近0度,即两个向量越相似,夹角等于0,即两个向量相等。
6.根据权利要求5所述的基于大数据的EXCEL数据源清洗方法,其特征在于,列出与EXCEL数据源中的数据相对应的标准库数据,确认与EXCEL数据源中的数据匹配的标准数据,确认后,使用sql的update方法,直接把EXCEL数据源中的数据替换为标准库的数据。
7.一种基于大数据的EXCEL数据源清洗***,其特征在于,包括:
数据解析模块,用于解析并结构化EXCEL数据源;
标准化处理模块,对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理;
数据清洗模块,对标准化后的EXCEL数据源进行清洗;
数据标准匹配模块,根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息;
对标准化后的EXCEL数据源进行清洗,包括:
对EXCEL数据源中的数据进行预处理;
构建知识库模型,将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照,如果相等,则确定EXCEL数据源中的数据为对应的标准数据;
构建设置有标准数据的标准库,对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据,并将其替换为标准库中的标准数据。
8.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN202110364627.5A 2021-04-06 2021-04-06 基于大数据的excel数据源清洗方法、***、电子设备和存储介质 Active CN112800049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364627.5A CN112800049B (zh) 2021-04-06 2021-04-06 基于大数据的excel数据源清洗方法、***、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364627.5A CN112800049B (zh) 2021-04-06 2021-04-06 基于大数据的excel数据源清洗方法、***、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112800049A CN112800049A (zh) 2021-05-14
CN112800049B true CN112800049B (zh) 2021-08-03

Family

ID=75816300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364627.5A Active CN112800049B (zh) 2021-04-06 2021-04-06 基于大数据的excel数据源清洗方法、***、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112800049B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10114884B1 (en) * 2015-12-16 2018-10-30 Palantir Technologies Inc. Systems and methods for attribute analysis of one or more databases
CN109241397A (zh) * 2018-07-06 2019-01-18 四川斐讯信息技术有限公司 一种清洗数据的方法和装置
CN110389950A (zh) * 2019-07-31 2019-10-29 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN111125076A (zh) * 2019-12-17 2020-05-08 武汉海云健康科技股份有限公司 基于大数据的药品通用名清洗方法及***、服务器及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市***
CN107562701A (zh) * 2017-08-22 2018-01-09 上海找钢网信息科技股份有限公司 一种钢贸行业现货资源的数据解析方法及其***
CN112199366A (zh) * 2019-04-28 2021-01-08 杭州数梦工场科技有限公司 数据表处理方法、装置及设备
CN111597292A (zh) * 2020-04-20 2020-08-28 安徽慧医信息科技有限公司 基于网页标签位置的文本格式化清洗方法
CN111639066A (zh) * 2020-05-14 2020-09-08 杭州数梦工场科技有限公司 一种数据清洗的方法和装置
CN111858567A (zh) * 2020-06-18 2020-10-30 南京市江宁区信息化管理服务中心 一种通过标准数据元进行政务数据清洗的方法和***
CN112181949A (zh) * 2020-10-10 2021-01-05 浪潮云信息技术股份公司 一种在线数据建模的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10114884B1 (en) * 2015-12-16 2018-10-30 Palantir Technologies Inc. Systems and methods for attribute analysis of one or more databases
CN109241397A (zh) * 2018-07-06 2019-01-18 四川斐讯信息技术有限公司 一种清洗数据的方法和装置
CN110389950A (zh) * 2019-07-31 2019-10-29 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN111125076A (zh) * 2019-12-17 2020-05-08 武汉海云健康科技股份有限公司 基于大数据的药品通用名清洗方法及***、服务器及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据挖掘中常用的数据清洗方法有哪些?;友盟全域数据;《https://www.zhihu.com/question/22077960/answer/1610022292》;20201204;全文 *

Also Published As

Publication number Publication date
CN112800049A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109739997B (zh) 地址对比方法、装置及***
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110569353A (zh) 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN105095444A (zh) 信息获取方法和装置
CN111597356B (zh) 智能化教育知识图谱构建***与方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN112069327B (zh) 一种在线教育课堂教学资源的知识图谱构建方法及***
CN111581376A (zh) 一种知识图谱自动构建***及方法
CN111339269A (zh) 模板自动生成的知识图谱问答训练及应用服务***
CN106570196B (zh) 视频节目的搜索方法和装置
CN111222345A (zh) 基于语义分词技术的地名地址可视化分析方法
CN110162651A (zh) 基于语义内容摘要的新闻内容图文不符鉴别***及鉴别方法
CN112800049B (zh) 基于大数据的excel数据源清洗方法、***、电子设备和存储介质
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN117290404A (zh) 一种主配网故障处理方法快速检索实用方法及***
CN111951079A (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
Connaway et al. Publisher names in bibliographic data
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN115859128A (zh) 一种基于档案数据交互相似度的分析方法和***
CN115935081A (zh) 一种基于用户画像和内容协同过滤的专家推荐方法
CN113468176A (zh) 信息录入方法和装置、电子设备、计算机可读存储介质
CN109189833B (zh) 一种知识库的挖掘方法及装置
CN116578611B (zh) 一种孕育知识的知识管理方法和***
CN111814457A (zh) 一种电网工程合同文本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant