CN105930523A - 大数据背景下基于动态可配置规则的数据清洗框架 - Google Patents

大数据背景下基于动态可配置规则的数据清洗框架 Download PDF

Info

Publication number
CN105930523A
CN105930523A CN201610355962.8A CN201610355962A CN105930523A CN 105930523 A CN105930523 A CN 105930523A CN 201610355962 A CN201610355962 A CN 201610355962A CN 105930523 A CN105930523 A CN 105930523A
Authority
CN
China
Prior art keywords
data
rule
module
dynamic
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610355962.8A
Other languages
English (en)
Inventor
蒋同海
朱会娟
周喜
程力
赵凡
马博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN201610355962.8A priority Critical patent/CN105930523A/zh
Publication of CN105930523A publication Critical patent/CN105930523A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据处理和分析领域,是一种用于大数据环境下的基于动态可配置规则的数据清洗框架。本发明方法是一种跨领域的、可重用的、可配置的、将数据转换和数据检查以及数据修复三者合为一体的新方法,从而提高了清洗过程的描述能力和执行效率。通过多个真实数据集的实验结果表明该***可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域,并在多个项目中予以实施,进一步验证了该方法在真实场景中的有效作用。

Description

大数据背景下基于动态可配置规则的数据清洗框架
技术领域
本发明属于大数据处理和分析领域,是一种用于大数据环境下的基于动态可配置规则的数据清洗框架。
背景技术
对几个著名的公司数据进行研究,其中有25%的重要数据是存在缺陷的。一项调研中发现“脏数据”导致美国公司每年要支付大约6000亿美元(600billiondollars)的损失,Experian QAS Inc公司最近做的一次调研中发现,英国公司因为客户数据存在质量问题而导致在2011年损失了80亿英镑。事实上,数据清洗工具的市场也正以每年17%的速度增长,要高出IT行业中其它部门平均7%的增长速度。尽管数据清洗研究在不断的朝前推进,但是依然没有一种现成的方案可以直接拿来、不经复杂定制而直接部署到不同应用领域中去自动化的检测用户手中数据的错误并修复。
“脏数据”即不完整的、含噪音的、不一致的。在采集到的原始数据中包含着大量的无效数据,例如:噪音(数据中存在着错误或离群值)、数值不完整(特别是感兴趣的属性没有值,信息未被记录和某些属性不适用于所有实例等)、数据重复、数据不一致(数据内涵出现不一致情况),高维度(事实上很多属性在数据分析时起不到作用)、数据格式错误、业务逻辑不合理、违反业务规则等。映射到现实数据中,如未经验证的身份证号码、护照号、车牌号和日期格式等,或性别取值超出限制等。
数据质量是数据分析的前提与保障,数据清洗(Data Cleaning,Data Cleansing或者Data Scrubbing)的目的就是检测数据中存在的错误和不一致,去除或者修正它们,数据清洗的最终目的就是提高数据的质量。
现有数据清洗的研究多是集中在字符型数据上,对于数值型(例如数值型字段落入某个区间内)、枚举型、布尔型等字段的处理还不够成熟、实用;大多数的数据清洗工具或框架都是针对某些特定领域,如果用户需引入新的规则或是复用其它领域的一些规则(例如身份证号规则在很多领域通用)变的十分困难,扩展现有解决方案或部署这些方案到自己***中变的十分艰巨;目前还有一些清洗工具的清洗检测和清洗修改借助硬编码来实现,这会导致***的可扩展性和灵活性较差,当清洗规则发生变化时清洗部分的代码需要重新实现,并且硬编码方法对数据清洗的描述性较弱特别是在实现复杂逻辑方面的数据清洗存在障碍,在执行和理解方面都比较欠缺;还有一些清洗工具在清洗检测和清洗修改过程中借助人工判断,该方法在数据量较小时具备高准确性的优势,但在数据量庞大且多源的情况下就显的无能为力。
本发明的发明人作对现有的一些基于规则的数据清洗方法进行了研究并概括如下:1)Amr Ebaid等人提出的NADEEF方法,该方法支持各种形式的规则,但是规则之间无法实现复杂逻辑运算,并且缺少数据清洗领域的一些重要问题的处理如缺值填充等;2)李俊奎等人提出的AszpClean方法,实现了规则的动态编译并且实现了规则的零配置,但是对于不符合规则的数据直接予以丢弃,并没实现数据修复功能。更重要的是该方法仅支持函数类型的规则并且用硬编码的方法去匹配属性和规则,因此该方法不支持在线修改规则并且在多领域重用规则也很难实现;3)其它一些传统的约束方法,利用条件函数、包含依赖等来表示规则,这些方法可以帮助我们判别哪些数据是脏数据,但却很少涉及到具体哪个属性是错误的,并且怎么修复它。
发明内容
本发明的目的在于提供一种大数据背景下基于动态可配置规则的数据清洗框架。
实现本发明目的的技术方案为:一种大数据背景下基于动态可配置规则的数据清洗框架,包括数据导入模块、数据转换与规则配置模块、规则收集模块、规则执行核心模块和数据输出模块;
所述的数据导入模块,用于对结构化数据、非结构化数据以及半结构化数据的导入提供统一的接口;
所述的数据转换与规则配置模块,用于将结构化数据、非结构化数据以及半结构化数据转换为后期进行数据分析的统一格式,并通过该模块将规则与属性、表以及领域进行匹配;
所述的规则收集模块,用于从原始数据中抽取规则并进行定义和存储规则;
所述的规则执行核心模块,用于执行数据清洗规则对原始数据进行修正,以获取干净数据;
所述的数据输出模块,用于干净数据的输出。
优选的,本发明所述的规则收集模块包括规则模板、规则定义界面和规则库。
优选的,本发明所述的规则执行核心模块包括规则引擎、规则编译、清洗检测和清洗修改。
优选的,本发明所述的数据输出模块包括清洗反馈和标准化存储数据。
特别的,本发明所述的规则引擎包括三个步骤:
步骤1,解析规则配置文件,规则配置在数据转换的XML文件里进行,并利用<规则组号-规则号>为索引在规则库中找到对应的规则存入规则队列中;
步骤2,在将原数据进行数据转换时读取元数据模型中的规则表达式Exp,并根据表达式中规则类型调用对应的规则执行文件;
步骤3,计算规则表达式的值,即根据第二步中每个规则的检测结果与规则表达式中的逻辑连接符相结合得出逻辑真T或逻辑假F,如果为F则调用清洗修改模块,进行数据修复并存入干净数据库。
本发明的技术优点在于:
本发明提出的基于动态可配置规则的清洗方法DRDCM将数据清洗与数据转换融为一体,采用清洗规则的方式完成,相较于其它基于规则的数据清洗方案,DRDCM具备以下技术优点:
(1)本发明采用规则的动态编译方法,不仅具备坚实的编译理论基础,而且可以方便地在线修改和增删规则。
(2)本发明规则实体定义遵循最小化原则,给数据清洗的复杂逻辑描述以及多领域规则重用打下基础。
(3)本发明将数据转换与规则配置相结合,使单源数据或多源数据在集成的同时,完成数据清洗和修复,避免数据多次导入导出。
(4)本发明将规则类型分为:Drools规则(DROOLS)、正则表达式规则(REGEX)和函数(FUN)三种,避免单一规则类型的局限性,较全面地描述现实***中可以提取的规则。
(5)本发明实现支持多种规则类型的规则引擎,用来解析规则的复杂逻辑表达式并根据规则类型调用三种规则(DROOLS、REGEX和FUN)对应的接口,完成清洗检测和清洗修改。
附图说明
图1为典型的数据预处理过程图。
图2为DRDCM方法流程图。
图3为DRDCM***总体架构图。
图4为规则引擎流程图。
图5为DRDCM清洗时间。
图6为DRDCM***和硬编码方法的效率比较(规则数5)。
图7为DRDCM***和硬编码方法的效率比较(规则数20)。
图8为DRDCM***和硬编码方法的效率比较(规则数40)。
具体实施方式
下面结合附图和具体实施例对本发明作进一步地描述。
本发明大数据背景下基于动态可配置规则的数据清洗框架,典型的数据预处理过程如图1所示,左边的方框表示原始数据集,其中包括结构化数据、半结构化数据和非结构化数据。中间的方框表示数据预处理的两个主要任务:数据转换和数据清洗。数据预处理的最终结果就是输出干净的数据。
图2为DRDCM方法流程图,其给出了DRDCM方法的概述,工作模式为:对从数据源进行分析提取有效规则,通过规则定义界面将这些规则录入并存储进规则库中,其中规则的定义必须符合规则模板。周傲英教授曾在一篇文章中阐述了数据转换的重要性,对多源异构数据进行分析,从非结构化、半结构化的源数据中抽取结构化信息来定义XML模型从而完成数据转换。在数据转换的过程中完成规则配置,格式形如:<exp><![CDATA[{"constraint":"1-4or 1-5or1-6","ruleAction":"DISCARD"}]]></exp>,其中1-4,1-5和1-6均标识规则库中的唯一一条规则,1表示该条规则属于第一组,4表示规则号。规则执行核心模块,根据规则配置将所需规则从规则库中取出放入规则队列,规则引擎会解析对应的规则,根据规则类型(见定义6,定义7和定义8)去编译和执行对应规则,规则的执行包括两部分,一部分是清洗检测,另一部分是根据检测结果来执行清洗修复。
其中DRDCM方法中涉及到的定义如下:
定义1清洗检测(Clean Check),用来检测数据是否符合既定知识的过程,可以用谓词函数表示为CHECKCOND:D->{T,F}:
CHECKCOND(d)=T表示待检测数据项d是符合清洗规则的数据,即为“干净数据”,无需进一步做清洗修改,直接存入干净数据库;
CHECKCOND(d)=F表示待检测数据项d是不符合清洗规则的数据,即为“脏数据”,需要进一步做清洗修改(见定义2);
定义2清洗修改(Clean Revise),根据清洗检测的结果,如果结果为F则需要对原数据进行修改,目前有三种修改行为:保留(RETAIN)、丢弃(DISCARD)和回填(REFILL)。
定义3数据转换(Data Transformations),通过尽可能统一多数据源的属性值编码、去除重复属性、去除可忽略属性即降维、合理选择关联字段等方法从原始数据中抽取数据并转换成适合数据分析的形式。
定义4规则类型(Rule Type),标识某个规则是属于什么类型,规则执行过程中会根据规则类型调用对应接口,本发明把清洗规则分为三种类型,分别是DROOLS规则(见定义6),REGEX规则(见定义7),FUN规则(见定义8)。
定义5清洗规则(Clean Rule),本发明提出的清洗规则可以用四元组表示为:
CleanRule::=<Number,Rule Type,Clean Check,Clean Revise>,其中Number是由规则组号和规则号组成,Rule Type见定义4,Clean Check见定义1,CleanRevise见定义2。
定义6DROOLS规则,抽取的规则可以通过Drools语法清晰表达的,均定义为DROOLS规则类型,形如“rule<name>attributes;when<LHS>;then<RHS>;end”,其中RHS是有待清洗数据,清洗规则实体中的操作符和规则值域组成。
定义7REGEX规则,抽取的规则可以通过java正则表达式清晰表达的,均定义为REGEX规则类型,例如“18位身份证号且支持以X结尾”,可以定义为正则表达式“(^[1-9]([0-9]{16}|[0-9]{13})[xX0-9]$)”。
定义8FUN规则,抽取的规则通过DROOLS规则和REGEX规则均无法表达的,可以定义为FUN规则,例如一些时间函数、转换函数、数学函数等。
定义9数据清洗(Data Cleaning),数据清洗是把原始输入数据通过一系列的清洗检测和清洗修改后转换为干净数据的过程。可以形式化的表示为:
Data Cleaning:R代表原始数据,D代表干净数据。
定义10动态可配置规则(Dynamic configurable Rule),即支持在线修改和增加规则,采用规则的动态编译方法。
DRDCM方法的设计包括如下几个部分组成:
(1)规则模板:即规则实体定义,方便用户阅读、定义以及修改规则。
(2)规则库:集中保存跨领域的所有规则,以规则组号和规则号结合体为唯一标识,以便进行规则的管理与重用。
(3)规则配置与存储:处理在实际清洗过程中规则实体与属性、记录、表、领域等的匹配关系,支持复杂逻辑描述表达式如:((规则1||规则2)&&!规则3),支持二元组<属性名,规则表达式>,三元组<表名,属性名,规则表达式>等,四元组<领域名,表名,属性名,规则表达式>等等。
(4)规则引擎:是规则的运行环境,用来编译和执行规则。
(5)数据清洗反馈类:负责将清洗结果和存在问题反馈给用户。
DRDCM***的总体结构如图3所示,主要有数据导入模块,数据导入模块是抽象封装统一的部分,对结构化数据、非结构化数据以及半结构化数据的导入提供统一的接口,这样就可以实现综合的管理,提高整体的使用效率,减少今后维护的成本;数据转换与规则配置模块,该模块的主要任务是将结构化数据、非结构化数据以及半结构化数据转换为方便后期进行数据分析的统一格式,并通过该模块将规则与属性、表以及领域进行匹配;规则收集模块(包括规则模板、规则定义界面和规则库等部件),该模块主要功能是从原始数据中抽取规则并进行定义和存储规则;规则执行核心模块(包括规则引擎、规则编译、清洗检测和清洗修改等部件),主要功能是执行数据清洗规则对原始数据进行修正,以获取干净数据;数据输出模块(包括清洗反馈和标准化存储数据模块)。
DRDCM***的规则引擎分三个步骤:
步骤1,解析规则配置文件(又称数据转换文件),其中规则配置涉及到数据转换元表(如表1所示)和规则表达式元表(如表2所示),因发明人将数据转换与数据配置融为一体,所以规则配置是在数据转换的XML文件里进行,规则与属性、表和领域的关系在数据转换XML文件中体现。解析时参照一般的XML解析,并利用<规则组号-规则号>为索引在规则库中找到对应的规则存入规则队列中。
步骤2,在将原数据进行数据转换时读取元数据模型中的规则表达式Exp,并根据表达式中规则类型(Rule Type)调用对应的规则执行文件,本发明有三种规则类型,对应的规则执行文件提供的接口分别为:RegextSemErr(Object d1,ExpEntity e1),DroolsSemErr(Object d1,ExpEntity e1),FunSemErr(Object d1,ExpEntity e1),其中d1为待清洗数据,e1表示规则实体,这三个接口用来完成每条规则的规则检测(Clean Check)。
步骤3,计算规则表达式的值,即根据第二步中每个规则的检测结果与规则表达式中的逻辑连接符相结合得出逻辑真T或逻辑假F,如果为F则调用清洗修改(Clean Revise)模块,进行数据修复并存入干净数据库。规则引擎的流程图如图4所示。
表1
表2
要很好的完成数据清洗工作,形式化表示规则只是第一步,本发明借助谓词形式来表示,第二步是如何把形式化的规则以低消耗高效率的方式引入实际的数据清洗工作中,即规则配置。
DRDCM***根据规则的关联号把规则分为若干个分组,并以<规则组号-规则号>为索引来匹配和执行规则,大大降低了时间复杂度。基于这个原则进行规则配置,当用户修改规则时,规则引擎无需做任何改动;当用户增加或删除规则时,仅需要改动规则配置模块,规则引擎和其它模块无需做任何改动,从而极大提高了***的重用性、扩展性和灵活性。
规则配置中涉及到规则表达式用二元组表示为:
RL=<RN,LC>
RN格式是规则组号-规则号,用来唯一标识一个规则,LC是逻辑连接词,用“not”代表“(否定)”、用“and”代表“∧(合取)”、用“or”代表“∨(析取)”、用“ifThen”代表“→(蕴涵)”、用“EQ”代表“(等价)”。
规则配置支持如下几种格式:
(1)Exp::=<P,RL>,P代表属性名,该格式用来表达单个属性下的规则约束。
(2)Exp::=<T,P,RL,LC>,T代表表名,P代表属性名,RL见规则表达式的二元组表示,LC是逻辑连接词,该格式用来表达以表为单位的规则约束。
(3)Exp::=<F,T,P,RL,LC>,F代表领域名,其它的同(2),该格式用来表示不同领域下的规则约束。
EXPC::=<P,RL>在XML数据转换文件里如下表示:
实际应用
实验设计:
本发明面向公安、国安等地区大数据分析的需求,采用的数据集是来自工信部物联网发展专项的《新疆电梯安全动态监管物联网***研发与应用》的数据,以及国家***物联网重大专项的《基于物联网技术的车载气瓶电子监管***及产业化》的数据和中国科学院STS项目的《加油(气)站***分析平台与示范》的数据。本发明借助Neo4j图数据库来对这些多源异构的数据进行数据分析和可视化展示,Neo4j是一个高性能的、完全兼容ACID特性的、鲁棒的图数据库。
Neo4j中两个最基本的概念是节点和边,节点表示实体,边则表示实体之间的关系。节点和边都可以有自己的属性,不同实体通过各种不同的关系关联起来,形成复杂的对象图。包含“脏数据”的原始数据如果直接转换为Neo4j图数据库会带来一些无效的节点和边,从而给数据的检索、数据分析以及分析结果展示带来灾难性的后果。
我们的目的是通过过滤脏数据来减少Neo4j的图数据库中无效的节点和边。实验结果表明,通过引入数据清洗任务,提高了数据检索和数据分析的准确性。
通过以下三个方面来展示该***的性能:
(1)给出该***的输入输出数据。
(2)给出该***数据清洗的准确性。
(3)给出该***数据清洗的效率。
数据采集:
该数据集共计10.7G,时间跨度为2015.9月到2015.12月。数据采集方式有三种,第一种是通过具备NFC功能的智能手机或其它智能手持设备获取,第二种是通过人工录入,第三种是和其它***对接来导入数据。
《新疆电梯安全动态监管物联网***研发与应用》,《基于物联网技术的车载气瓶电子监管***及产业化》和《加油(气)站***分析平台与示范》三个项目中都引入了近距离无线通信技术(NFC),它是工作在13.56MHz频率,有效距离在20厘米内。事实上,操作距离以及嵌入手机或其它手持设备的NFC设备自身的灵敏度都会影响到从电子标签中读取数据。第二种采集方法中,排除纸质材料本身的完整性,在人工录入时难免会存在错录或少录的情况。在第三种采集方法中,数据来自不同***,因此数据具有异构、多源、分布式、时间跨度大等特点,不可避免的这些数据中会存在着一些粗糙的不合时宜的数据。
测试结果:
实验1:限于篇幅和所属项目数据本身的保密性,本文仅给出其中一个数据表中的部分信息做描述,如表3所示。
表3
证件号 证件类型 姓名 性别 民族
510325***********X 1 张三 F
610323A23E 2 李四 M
P1234567 3 阿沛·*** 维吾尔
A1234567 3 卡尔·*** 维吾尔
其中“证件类型”属性中值1代表“身份证”,值2代表“组织机构”,且组织机构是由8位数字组成,值3代表护照,另外因为涉及隐私问题,身份证号码中的某些数字用“*”号代替。
规则配置文件如图2所示,其中用到的规则有1_4,1_5,1_6,1_7,1_8,1_15,3_1,3_2,1_9,1_10,下划线分隔组号和规则号。因篇幅原因,只列举两条规则。
规则3_1是函数类型规则,它的作用是将gender属性中的“F”的值全部替换为“女”,因在本***中“性别”属性的值是“女”和“男”。
经过清洗后的数据如表4所示:
表4
证件号 证件类型 姓名 性别 民族
510325***********X 1 张三
P1234567 3 阿沛·*** 维吾尔
实验2:每次随机取100条记录,重复20次,统计出总共多少条规则参与执行,有多少条记录被抛弃,多少条记录被回填等以及它们的准确率。在本次实验中,用到的规则数量分别是5,10和20。数据清洗的统计结果如表5所示。
表5
规则条数 抛弃记录条数 抛弃记录的准确率 回填记录条数 回填记录的准确率
5 15 100% 4 65%
10 28 100% 7 63%
20 34 100% 12 62%
实验3:对DRDCM的效率进行了实验,并和硬编码(HardCode)方法做了对比。从图5可知,随着规则数量的增加,性能缓慢下降,说明DRDCM***的性能和规则条数的相关度不大。
从图6、图7和图8可知,在规则数为5时DRDCM***在性能上要比硬编码差,但随着规则数增长(规则数为20和40),DRDCM***和硬编码的性能差距越来越小。另外,规则数量(或逻辑条件数量)的增加,对硬编码和DRDCM***的影响基本趋于一致。虽然较之硬编码,在性能上DRDCM***的优势并不明显,但是DRDCM可以更清晰的表达复杂逻辑描述,也更方便用户的扩展与修改,且可跨领域重用和配置规则。

Claims (5)

1.一种大数据背景下基于动态可配置规则的数据清洗框架,其特征在于:包括数据导入模块、数据转换与规则配置模块、规则收集模块、规则执行核心模块和数据输出模块;
所述的数据导入模块,用于对结构化数据、非结构化数据以及半结构化数据的导入提供统一的接口;
所述的数据转换与规则配置模块,用于将结构化数据、非结构化数据以及半结构化数据转换为后期进行数据分析的统一格式,并通过该模块将规则与属性、表以及领域进行匹配;
所述的规则收集模块,用于从原始数据中抽取规则并进行定义和存储规则;
所述的规则执行核心模块,用于执行数据清洗规则对原始数据进行修正,以获取干净数据;
所述的数据输出模块,用于干净数据的输出。
2.根据权利要求1所述的一种大数据背景下基于动态可配置规则的数据清洗框架,其特征在于:所述的规则收集模块包括规则模板、规则定义界面和规则库。
3.根据权利要求1所述的一种大数据背景下基于动态可配置规则的数据清洗框架,其特征在于:所述的规则执行核心模块包括规则引擎、规则编译、清洗检测和清洗修改。
4.根据权利要求1所述的一种大数据背景下基于动态可配置规则的数据清洗框架,其特征在于:所述的数据输出模块包括清洗反馈和标准化存储数据。
5.根据权利要求3所述的一种大数据背景下基于动态可配置规则的数据清洗框架,其特征在于:所述的规则引擎包括三个步骤:
步骤1,解析规则配置文件,规则配置在数据转换的XML文件里进行,并利用<规则组号-规则号>为索引在规则库中找到对应的规则存入规则队列中;
步骤2,在将原数据进行数据转换时读取元数据模型中的规则表达式Exp,并根据表达式中规则类型调用对应的规则执行文件;
步骤3,计算规则表达式的值,即根据第二步中每个规则的检测结果与规则表达式中的逻辑连接符相结合得出逻辑真T或逻辑假F,如果为F则调用清洗修改模块,进行数据修复并存入干净数据库。
CN201610355962.8A 2016-05-25 2016-05-25 大数据背景下基于动态可配置规则的数据清洗框架 Withdrawn CN105930523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610355962.8A CN105930523A (zh) 2016-05-25 2016-05-25 大数据背景下基于动态可配置规则的数据清洗框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610355962.8A CN105930523A (zh) 2016-05-25 2016-05-25 大数据背景下基于动态可配置规则的数据清洗框架

Publications (1)

Publication Number Publication Date
CN105930523A true CN105930523A (zh) 2016-09-07

Family

ID=56841268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610355962.8A Withdrawn CN105930523A (zh) 2016-05-25 2016-05-25 大数据背景下基于动态可配置规则的数据清洗框架

Country Status (1)

Country Link
CN (1) CN105930523A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484915A (zh) * 2016-11-03 2017-03-08 国家电网公司信息通信分公司 一种海量数据的清洗方法和***
CN106502720A (zh) * 2016-09-26 2017-03-15 海尔优家智能科技(北京)有限公司 一种数据处理方法和装置
CN106529891A (zh) * 2016-08-05 2017-03-22 安徽和信科技发展有限责任公司 一种平台数据清理方法
CN106933990A (zh) * 2017-02-21 2017-07-07 南京朴厚生态科技有限公司 一种传感器数据清洗方法
CN107153679A (zh) * 2017-04-18 2017-09-12 北京思特奇信息技术股份有限公司 一种针对半结构化大数据的提取统计方法及***
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
CN107992628A (zh) * 2017-12-25 2018-05-04 成都优易数据有限公司 一种基于配置策略处理excel录入数据的方法及***
CN108073591A (zh) * 2016-11-10 2018-05-25 北京宸信征信有限公司 一种具有身份属性的多源数据的整合存储***及方法
CN108073720A (zh) * 2017-12-30 2018-05-25 广州明动软件股份有限公司 应用于大数据***的数据质量管理***及方法
CN108171524A (zh) * 2018-01-09 2018-06-15 安徽润谷网络科技有限公司 一种基于小额贷款公司客户体验评价***
CN108363782A (zh) * 2018-02-11 2018-08-03 中国联合网络通信集团有限公司 一种数据清洗方法和数据清洗***
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN109491651A (zh) * 2018-10-24 2019-03-19 东软集团股份有限公司 数据预处理方法,装置,存储介质及电子设备
CN109685375A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种基于半结构化文本数据的企业风险规则引擎运算方法
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及***
CN109684393A (zh) * 2018-12-11 2019-04-26 中科恒运股份有限公司 数据采集方法、计算机可读存储介质及终端设备
CN109710413A (zh) * 2018-12-29 2019-05-03 重庆誉存大数据科技有限公司 一种半结构化文本数据的规则引擎***的整体计算方法
CN109753498A (zh) * 2018-12-11 2019-05-14 中科恒运股份有限公司 基于机器学习的数据清洗方法及终端设备
CN109800216A (zh) * 2018-12-27 2019-05-24 谢沛然 一种中文专利法律状态自动检测清洗方法
CN110188113A (zh) * 2019-05-09 2019-08-30 厦门市美亚柏科信息股份有限公司 一种利用复杂表达式进行数据比对的方法、装置及存储介质
CN110347879A (zh) * 2019-07-12 2019-10-18 上海熙菱信息技术有限公司 一种基于规则的数据标准化方法及***
CN111125230A (zh) * 2019-12-30 2020-05-08 中电工业互联网有限公司 一种基于规则引擎的物联网平台的数据处理方法及***
CN111611232A (zh) * 2020-05-20 2020-09-01 浩云科技股份有限公司 一种大数据清洗方法及装置
CN111858569A (zh) * 2020-07-01 2020-10-30 长江岩土工程总公司(武汉) 基于流式计算的海量数据清洗的方法
CN112131283A (zh) * 2020-09-30 2020-12-25 重庆市海普软件产业有限公司 一种可灵活扩展的智能采集***
CN112633206A (zh) * 2020-12-28 2021-04-09 上海眼控科技股份有限公司 脏数据处理方法、装置、设备及存储介质
CN112948369A (zh) * 2021-04-19 2021-06-11 北京明略昭辉科技有限公司 基于配置规则的数据清洗方法、***及存储介质
CN116662326A (zh) * 2023-07-26 2023-08-29 江西省检验检测认证总院计量科学研究院 多能源品种数据清洗采集方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731908A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于etl的数据清洗方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731908A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于etl的数据清洗方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DALLACHIESASA M等: ""NADEEF:a commodity data cleaning system"", 《PROCEEDINGS OF THE 2013 ACM SIGMOD LNTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 *
韩剑峰: ""可配置化数据迁移框架的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529891A (zh) * 2016-08-05 2017-03-22 安徽和信科技发展有限责任公司 一种平台数据清理方法
CN106502720A (zh) * 2016-09-26 2017-03-15 海尔优家智能科技(北京)有限公司 一种数据处理方法和装置
CN106502720B (zh) * 2016-09-26 2019-11-08 海尔优家智能科技(北京)有限公司 一种数据处理方法和装置
CN106484915A (zh) * 2016-11-03 2017-03-08 国家电网公司信息通信分公司 一种海量数据的清洗方法和***
CN106484915B (zh) * 2016-11-03 2019-10-11 国家电网公司信息通信分公司 一种海量数据的清洗方法和***
CN108073591B (zh) * 2016-11-10 2021-10-12 北京宸信征信有限公司 一种具有身份属性的多源数据的整合存储***及方法
CN108073591A (zh) * 2016-11-10 2018-05-25 北京宸信征信有限公司 一种具有身份属性的多源数据的整合存储***及方法
CN106933990A (zh) * 2017-02-21 2017-07-07 南京朴厚生态科技有限公司 一种传感器数据清洗方法
CN107153679A (zh) * 2017-04-18 2017-09-12 北京思特奇信息技术股份有限公司 一种针对半结构化大数据的提取统计方法及***
CN107153679B (zh) * 2017-04-18 2020-11-24 北京思特奇信息技术股份有限公司 一种针对半结构化大数据的提取统计方法及***
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
CN107992628A (zh) * 2017-12-25 2018-05-04 成都优易数据有限公司 一种基于配置策略处理excel录入数据的方法及***
CN108073720A (zh) * 2017-12-30 2018-05-25 广州明动软件股份有限公司 应用于大数据***的数据质量管理***及方法
CN108171524A (zh) * 2018-01-09 2018-06-15 安徽润谷网络科技有限公司 一种基于小额贷款公司客户体验评价***
CN108363782A (zh) * 2018-02-11 2018-08-03 中国联合网络通信集团有限公司 一种数据清洗方法和数据清洗***
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN109491651A (zh) * 2018-10-24 2019-03-19 东软集团股份有限公司 数据预处理方法,装置,存储介质及电子设备
CN109753498A (zh) * 2018-12-11 2019-05-14 中科恒运股份有限公司 基于机器学习的数据清洗方法及终端设备
CN109684393A (zh) * 2018-12-11 2019-04-26 中科恒运股份有限公司 数据采集方法、计算机可读存储介质及终端设备
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及***
CN109685375B (zh) * 2018-12-26 2020-10-30 重庆誉存大数据科技有限公司 一种基于半结构化文本数据的企业风险规则引擎运算方法
CN109685375A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种基于半结构化文本数据的企业风险规则引擎运算方法
CN109800216A (zh) * 2018-12-27 2019-05-24 谢沛然 一种中文专利法律状态自动检测清洗方法
CN109710413A (zh) * 2018-12-29 2019-05-03 重庆誉存大数据科技有限公司 一种半结构化文本数据的规则引擎***的整体计算方法
CN110188113B (zh) * 2019-05-09 2022-05-13 厦门市美亚柏科信息股份有限公司 一种利用复杂表达式进行数据比对的方法、装置及存储介质
CN110188113A (zh) * 2019-05-09 2019-08-30 厦门市美亚柏科信息股份有限公司 一种利用复杂表达式进行数据比对的方法、装置及存储介质
CN110347879A (zh) * 2019-07-12 2019-10-18 上海熙菱信息技术有限公司 一种基于规则的数据标准化方法及***
CN111125230A (zh) * 2019-12-30 2020-05-08 中电工业互联网有限公司 一种基于规则引擎的物联网平台的数据处理方法及***
CN111611232A (zh) * 2020-05-20 2020-09-01 浩云科技股份有限公司 一种大数据清洗方法及装置
CN111858569A (zh) * 2020-07-01 2020-10-30 长江岩土工程总公司(武汉) 基于流式计算的海量数据清洗的方法
CN112131283A (zh) * 2020-09-30 2020-12-25 重庆市海普软件产业有限公司 一种可灵活扩展的智能采集***
CN112633206A (zh) * 2020-12-28 2021-04-09 上海眼控科技股份有限公司 脏数据处理方法、装置、设备及存储介质
CN112948369A (zh) * 2021-04-19 2021-06-11 北京明略昭辉科技有限公司 基于配置规则的数据清洗方法、***及存储介质
CN116662326A (zh) * 2023-07-26 2023-08-29 江西省检验检测认证总院计量科学研究院 多能源品种数据清洗采集方法
CN116662326B (zh) * 2023-07-26 2023-10-20 江西省检验检测认证总院计量科学研究院 多能源品种数据清洗采集方法

Similar Documents

Publication Publication Date Title
CN105930523A (zh) 大数据背景下基于动态可配置规则的数据清洗框架
CN102982065B (zh) 数据处理方法、数据处理装置及计算机可读存储介质
CN101650715B (zh) 一种筛选网页上链接的方法和装置
US20120303645A1 (en) System and method for extraction of structured data from arbitrarily structured composite data
CN106294853A (zh) 处理相关数据集
CN102402615B (zh) 一种基于结构化查询语言语句的源信息追踪方法
CN106547918B (zh) 一种统计数据的整合方法及***
CN103177120B (zh) 一种基于索引的XPath查询模式树匹配方法
CN102156740A (zh) Sql语句的处理方法及***
CN104636338B (zh) 一种用于增值税阴阳票监控的数据清洗存储方法
CN106897285A (zh) 数据要素抽取分析***及数据要素抽取分析方法
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
Mogotlane et al. Automatic conversion of relational databases into ontologies: a comparative analysis of Prot\'eg\'e plug-ins performances
CN104636337B (zh) 一种用于增值税的数据清洗存储方法
CN110389950A (zh) 一种快速运行的大数据清洗方法
CN107945092A (zh) 用于审计领域的大数据综合管理方法及***
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
CN101064018A (zh) Hs编码计算机自动查询***
CN113238937B (zh) 一种基于代码精简与误报过滤的编译器模糊测试方法
CN104731908A (zh) 一种基于etl的数据清洗方法
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN104063518B (zh) 一种针对大数据的分解组合聚类方法
CN113535818A (zh) 一种构建审计综合知识库的方法、设备
CN116561345A (zh) 一种基于多模态数据公司情报知识图谱构建方法
CN109948015A (zh) 一种元搜索列表结果抽取方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20160907

WW01 Invention patent application withdrawn after publication