CN110955805B - 一种基于映射关系的数据自动化处理方法 - Google Patents

一种基于映射关系的数据自动化处理方法 Download PDF

Info

Publication number
CN110955805B
CN110955805B CN201911309901.8A CN201911309901A CN110955805B CN 110955805 B CN110955805 B CN 110955805B CN 201911309901 A CN201911309901 A CN 201911309901A CN 110955805 B CN110955805 B CN 110955805B
Authority
CN
China
Prior art keywords
mapping
data
standard
custom
mapping relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911309901.8A
Other languages
English (en)
Other versions
CN110955805A (zh
Inventor
刘朝
夏扬
杨莉美
谢晶晶
陈羽棋
欧燕林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Academy Of Big Data Co ltd
Original Assignee
Chongqing Academy Of Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Academy Of Big Data Co ltd filed Critical Chongqing Academy Of Big Data Co ltd
Priority to CN201911309901.8A priority Critical patent/CN110955805B/zh
Publication of CN110955805A publication Critical patent/CN110955805A/zh
Application granted granted Critical
Publication of CN110955805B publication Critical patent/CN110955805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于映射关系的数据自动化处理方法,S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;S2:在标准映射关系的基础上自定义映射规则;S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;S5:执行脚本处理,输出处理结果。

Description

一种基于映射关系的数据自动化处理方法
技术领域
本发明涉及信息技术相关领域,尤其涉及一种基于映射关系的数据自动化处理方法。
背景技术
在大数据时代,数据被称之为“数字经济的新石油”,为了让数据产生价值,需要高效地获取、处理、挖掘和应用数据。因此数据处理成为大数据产业的重要组成部分。
现阶段在数据处理时,映射关系分类众多,为了提高效率,一般处理规则不变情况下,会通过定时脚本自动处理,但是对于同一目标数据处理规则会随着基础标准的变化而改变,特别是涉及到基础标准之间有映射关系,层级较多,条目数量庞大,新配置映射规则成本太高
发明内容
针对上述现有技术的不足,本专利申请所要解决的技术问题是:如何提供一种效率高、输出结果准确的基于映射关系的数据自动化处理方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于映射关系的数据自动化处理方法,包括以下步骤:
S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;
S2:在标准映射关系的基础上自定义映射规则;
S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;
S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;
S5:执行脚本处理,输出处理结果。
进一步的,在步骤S1和步骤S4中,导入的基础标准数据以及目标处理数据均为结构化或半结构化的数据库表,其中均必须包含描述映射左集合的字段以及数据库主键这两个字段。
进一步的,步骤S4中,差异映射关系为标准映射关系与自定义映射规则之间的差异表现,其中体现在:映射增加、映射减少、分类表述变化和映射转移。
进一步的,步骤S3中,进行自定义映射规则与标准映射关系的集合运算和文本匹配是采用以下算法:
A∩B={e|e∈A且e∈B}。
进一步的,步骤S3中,字符串A表示所述标准映射关系的所有分类条目的集合,字符串B表示所述自定义映射规则中所有分类条目的集合。
进一步的,还包括编辑距离算法,计算字符串A转化为字符串B所需要的最少操作数。
进一步的,步骤S1和步骤S4中将基础标准数据导入标准映射关系以及目标处理数据导入自定义映射规则中时,均将数据文件分为多个数据块,将所述数据块存储在数据服务器上,数据服务器对数据块进行处理、存储以及调用。
进一步的,步骤S5中执行脚本处理,形成数据item编码和映射结果字段,其中数据item编码和映射结果字段为结构化一对一映射的数据。
有益效果:
通过针对自定义映射规则与标准映射关系之间的差异化处理,使得在对目标数据进行处理时能够不断的调用标准映射时间,相较于全部重新自定义映射关系,提升了处理的效率,另外,在对目标数据处理时,相当于已经对目标数据中的部分数据以及映射关系进行了提前处理,前移了处理时间,同时使得标准映射关系得到不断地重用和更新;通过不断的使用过程中,在处理的数据结果中带有当前自定义映射规则的版本信息,能够实现数据回溯和对比。
附图说明:
图1为本发明所述基于映射关系的数据自动化处理方法的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于映射关系的数据自动化处理方法,包括以下步骤:
S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;
S2:在标准映射关系的基础上自定义映射规则;
S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;
S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;
S5:执行脚本处理,输出处理结果。
本实施例中,在步骤S1和步骤S4中,导入的基础标准数据以及目标处理数据均为结构化或半结构化的数据库表,其中均必须包含描述映射左集合的字段以及数据库主键这两个字段。
这样,符合映射的基本规则和流程,便于对数据进行快速处理。
进一步的,步骤S4中,差异映射关系为标准映射关系与自定义映射规则之间的差异表现,其中体现在:映射增加、映射减少、分类表述变化和映射转移。
能够快速的表现出自定义映射规则与标准映射关系的差异,在对目标数据进行处理时,可以快速准确的进行差异映射关系的处理,避免复杂的重新全部自定义操作,提升了效率。
进一步的,步骤S3中,进行自定义映射规则与标准映射关系的集合运算和文本匹配是采用以下算法:
其中,集合差集运算可以计算出不同版本各粒度分类条目新增或删除项。
A∩B={e|e∈A且e∈B}。
其中,集合并运算可以计算不版本不同分类映射差异,显示前后版本映射变换(转移)。
进一步的,步骤S3中,字符串A表示所述标准映射关系的所有分类条目的集合,字符串B表示所述自定义映射规则中所有分类条目的集合。
进一步的,还包括编辑距离算法,计算字符串A转化为字符串B所需要的最少操作数。
进一步的,步骤S1和步骤S4中将基础标准数据导入标准映射关系以及目标处理数据导入自定义映射规则中时,均将数据文件分为多个数据块,将所述数据块存储在数据服务器上,数据服务器对数据块进行处理、存储以及调用。
进一步的,步骤S5中执行脚本处理,形成数据item编码和映射结果字段,其中数据item编码和映射结果字段为结构化一对一映射的数据。
有益效果:
通过针对自定义映射规则与标准映射关系之间的差异化处理,使得在对目标数据进行处理时能够不断的调用标准映射时间,相较于全部重新自定义映射关系,提升了处理的效率,另外,在对目标数据处理时,相当于已经对目标数据中的部分数据以及映射关系进行了提前处理,前移了处理时间,同时使得标准映射关系得到不断地重用和更新;通过不断的使用过程中,在处理的数据结果中带有当前自定义映射规则的版本信息,能够实现数据回溯和对比。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于映射关系的数据自动化处理方法,其特征在于,包括以下步骤:
S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;
S2:在标准映射关系的基础上自定义映射规则;
S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;
S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;
S5:执行脚本处理,输出处理结果;
在步骤S1和步骤S4中,导入的基础标准数据以及目标处理数据均为结构化或半结构化的数据库表,其中均必须包含描述映射左集合的字段以及数据库主键这两个字段。
2.根据权利要求1所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S4中,差异映射关系为标准映射关系与自定义映射规则之间的差异表现,其中体现在:映射增加、映射减少、分类表述变化和映射转移。
3.根据权利要求2所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S3中,进行自定义映射规则与标准映射关系的集合运算和文本匹配是采用以下算法:
A∩B={e|e∈A且e∈B}。
4.根据权利要求3所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S3中,字符串A表示所述标准映射关系的所有分类条目的集合,字符串B表示所述自定义映射规则中所有分类条目的集合。
5.根据权利要求4所述的基于映射关系的数据自动化处理方法,其特征在于,还包括编辑距离算法,计算字符串A转化为字符串B所需要的最少操作数。
6.据权利要求5所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S1和步骤S4中将基础标准数据导入标准映射关系以及目标处理数据导入自定义映射规则中时,均将数据文件分为多个数据块,将所述数据块存储在数据服务器上,数据服务器对数据块进行处理、存储以及调用。
7.据权利要求6所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S5中执行脚本处理,形成数据item编码和映射结果字段,其中数据item编码和映射结果字段为结构化一对一映射的数据。
CN201911309901.8A 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法 Active CN110955805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309901.8A CN110955805B (zh) 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309901.8A CN110955805B (zh) 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法

Publications (2)

Publication Number Publication Date
CN110955805A CN110955805A (zh) 2020-04-03
CN110955805B true CN110955805B (zh) 2023-08-25

Family

ID=69982492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309901.8A Active CN110955805B (zh) 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法

Country Status (1)

Country Link
CN (1) CN110955805B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046810A (zh) * 2006-05-26 2007-10-03 华为技术有限公司 自动建立关系模型的***及其方法
CN102238593A (zh) * 2010-04-23 2011-11-09 中兴通讯股份有限公司 数据割接方法及装置
WO2015074467A1 (zh) * 2013-11-25 2015-05-28 腾讯科技(深圳)有限公司 一种数据更新方法、装置、***及存储介质
WO2015196962A1 (en) * 2014-06-24 2015-12-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for detecting changed data
CN107220280A (zh) * 2017-04-19 2017-09-29 民政部国家减灾中心 基于区划映射的灾情信息采集上报方法及***
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10186006B2 (en) * 2011-10-31 2019-01-22 General Electric Company Interface feed analyzer for code mapping

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046810A (zh) * 2006-05-26 2007-10-03 华为技术有限公司 自动建立关系模型的***及其方法
WO2007137468A1 (fr) * 2006-05-26 2007-12-06 Huawei Technologies Co., Ltd. Procédé et système de création automatique de modèle relationnel
CN102238593A (zh) * 2010-04-23 2011-11-09 中兴通讯股份有限公司 数据割接方法及装置
WO2015074467A1 (zh) * 2013-11-25 2015-05-28 腾讯科技(深圳)有限公司 一种数据更新方法、装置、***及存储介质
WO2015196962A1 (en) * 2014-06-24 2015-12-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for detecting changed data
CN107220280A (zh) * 2017-04-19 2017-09-29 民政部国家减灾中心 基于区划映射的灾情信息采集上报方法及***
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄刚,元满.元数据驱动的异构数据模型双向映射策略.科学技术与工程.2012,第12卷(第32期),全文. *

Also Published As

Publication number Publication date
CN110955805A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN106528642B (zh) 一种基于tf-idf特征提取的短文本分类方法
US7689527B2 (en) Attribute extraction using limited training data
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN110298033A (zh) 关键词语料标注训练提取工具
CN107256230B (zh) 一种基于多元化地理信息点的融合方法
CN104933152A (zh) 命名实体识别方法及装置
CN106156082A (zh) 一种本体对齐方法及装置
CN102122280B (zh) 一种智能提取内容对象的方法及***
CN104598569A (zh) 一种基于关联规则的mbd数据集完整性检查方法
CN106776495B (zh) 一种文档逻辑结构重建方法
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN108959204B (zh) 互联网金融项目信息抽取方法和***
CN105045909A (zh) 从文本中识别商品名称的方法和装置
CN110347786A (zh) 一种语义模型的调优方法及***
CN105205864A (zh) 基于多源数据的地质结构面三维模型自动建模方法和***
CN106055652A (zh) 一种基于模式和实例的数据库匹配方法及***
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
CN111460102B (zh) 一种基于自然语言处理的图表推荐***及方法
CN109240903A (zh) 一种自动评估的方法和装置
CN112507098A (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN110851577A (zh) 一种电力领域的知识图谱扩充方法及装置
CN106383917A (zh) 一种基于用户日志的数据处理方法
CN110955805B (zh) 一种基于映射关系的数据自动化处理方法
CN106445914A (zh) 微博情感分类器的构建方法及构建装置
CN113139558B (zh) 确定物品的多级分类标签的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant