CN112181949A - 一种在线数据建模的方法及装置 - Google Patents
一种在线数据建模的方法及装置 Download PDFInfo
- Publication number
- CN112181949A CN112181949A CN202011076126.9A CN202011076126A CN112181949A CN 112181949 A CN112181949 A CN 112181949A CN 202011076126 A CN202011076126 A CN 202011076126A CN 112181949 A CN112181949 A CN 112181949A
- Authority
- CN
- China
- Prior art keywords
- data
- standard data
- standard
- data structure
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013499 data model Methods 0.000 abstract description 8
- 238000012423 maintenance Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种在线数据建模的方法及装置,涉及数据处理技术领域;获取多来源的各类格式原始数据,解析并获取原始数据中对应的数据结构字段,根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,并使用与数据结构字段匹配成功的标准数据元创建物理模型,从而有效实现了多来源的各类格式原始数据快速构建数据模型并初始化成标准化的数据的全过程自动化处理,进一步减少了用户的线下繁琐的操作,提高工作效率与数据处理线的运行效能。
Description
技术领域
本发明公开一种方法及装置,涉及数据处理技术领域,具体地说是一种在线数据建模的方法及装置。
背景技术
随着数据中台理念的应用推广,越来越多的多源异构数据需要清洗加工并进行整合,面对大量复杂数据模型创建的需求,现有的数据建模工具显现出了无力应对的尴尬境地,因为现有的建模工具及思路都需要逐个选择所需的数据元字段,才能进行建模,对于人员专业素质要求比较高,并且操作比较繁琐,不易在没有配备专业的数据管理员的企业单位中推广使用。并且现有建模工具太过于依赖人工,需要人力解析各个非结构化文件所给出的内容,分析字段与数据元标准做对应关系,而这个过程可能会出现因人工失误造成的一系列问题,全过程自动化程度不高,适应能力不强。
发明内容
本发明针对现有技术的问题,提供一种在线数据建模的方法及装置,可以适用于多种数据载体格式的数据全自动解析并进行数据建模,解决多来源的各类格式原始数据以标准的数据模型结构入库,降低数据建模人员要求门槛,并更大程度的提升标准数据元的复用程度。
本发明提出的具体方案是:
一种在线数据建模的方法:获取多来源的各类格式原始数据,解析并获取原始数据中对应的数据结构字段,根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,并使用与数据结构字段匹配成功的标准数据元创建物理模型。
优选地,所述的一种在线数据建模的方法中当数据结构字段与标准数据元的中文描述或者相对应的同义词的中文描述完全相同时,则认定为精确匹配到相应的标准数据元。
优选地,所述的一种在线数据建模的方法中当中文描述不能完全相等匹配时,通过语义分析进行数据结构字段与标准数据元的匹配,当符合语义分析对应的指标时,则认定为模糊匹配到相应的标准数据元。
优选地,所述的一种在线数据建模的方法中针对模糊匹配到的标准数据元,进行再次确认,若认定当前配对的标准数据元则将相应的数据结构字段加入到标准数据元的同义词中,若否认当前配对的标准数据元则取消当前的匹配,进行重新匹配或新建标准数据元与相应的数据结构字段匹配。
优选地,所述的一种在线数据建模的方法中对于未匹配上标准数据元的数据结构字段,进行重新匹配,若仍未匹配,新建标准数据元进行配对。
优选地,所述的一种在线数据建模的方法中更新标准数据元的必要属性,重新进行数据结构字段与标准数据元的关联匹配。
一种在线数据建模的***,包括获取模块、解析模块、匹配模块及创建模块,各模块依据需求进行通信,
获取模块获取多来源的各类格式原始数据,解析模块解析并获取原始数据中对应的数据结构字段,匹配模块根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,创建模块使用与数据结构字段匹配成功的标准数据元创建物理模型。
一种在线数据建模的装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种在线数据建模的方法。
本发明的有益之处是:
本发明提供一种在线数据建模的方法及装置,获取多来源的各类格式原始数据后通过解析出来的数据结构字段名称与标准的数据元进行碰撞分析,自动得出相对应的字段与标准数据元的映射关系,以标准的数据元为基础,快速在线建模,从而有效实现了多来源的各类格式原始数据快速构建数据模型并初始化成标准化的数据的全过程自动化处理,进一步减少了用户的线下繁琐的操作,提高工作效率与数据处理线的运行效能。
附图说明
图1是本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供一种在线数据建模的方法:获取多来源的各类格式原始数据,解析并获取原始数据中对应的数据结构字段,根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,并使用与数据结构字段匹配成功的标准数据元创建物理模型。
利用本发明方法能够解决多来源的各类格式原始数据以标准的数据模型结构入库,降低数据建模人员要求门槛,并更大程度的提升标准数据元的复用程度。可以对各类格式原始数据(如excel或xml等)的数据内容;解析并获取原始数据中对应的数据结构字段;使用自动分析算法进行匹配标准数据元,并使用匹配好的数据元进行创建物理模型;提高***智能化与自动化程度。
在本发明的具体应用中,本发明的一些实施例,将线下拿到的非结构化数据导入到***中,然后利用POI等技术手段进行解析,将原始的数据结构字段自动抽取出来存入到过程存储中。
将获取到的原始数据字段进行分析,根据预设规则与当前现有的标准数据元进行匹配,当与数据元的中文描述或者相对应的同义词的中文描述完全相同时,则认定为精确匹配到相应的标准数据元,当文字不能完全相等匹配时,通过语义分析进行匹配,当符合语义分析对应的指标时,则认定为是模糊匹配(疑似匹配),对于没有关联匹配到的数据结构字段推入到一个单独的存储记录表中。
对于匹配结果可推送到web页面中,进行展示,利用匹配的标准数据元实现数据模型建模并初始化数据,即自动将匹配到的标准数据元按照解析的excel、数据库表等结构进行组合,实现物理模型的构建。
在上述实施例基础上,对于未找到可以匹配上标准数据元的字段,可根据数据结构字段与数据结构字段中的内容分辨找到可以匹配的标准数据元,如果没有可以匹配上的标准数据元,则可新建一个标准数据元进行配对。
并且对于那些模糊匹配上的标准数据元,可进行二次确认,如果认定当前配对的标准数据元没问题,则可以将当前字段加入到同义词中,如果认定当前配对的标准数据元是不正确的,则可以取消当前的匹配,选择适当的标准数据元进行配对,或者根据当前数据结构字段新建标准数据元,然后配对,以便后续建模。
在本发明的另一些实施例中,说明了标准数据元的更新维护过程,标准数据元的新增包括数据元基本属性的维护及其他关系定义及索引定义的维护。其中基本属性维护,包括数据元名称、数据类型、长度、约束等的定义与维护。同义词是是指与数据元名称意义相近或相同的词。同义词的维护会大大提高数据元的重复利用率。并且更新标准数据元的必要属性,重新进行数据结构字段与标准数据元的关联匹配,以便匹配更加精确。
在上述实施例基础上,可进行批量新建标准数据元,对于状态是没有匹配上标准数据元的数据结构字段,可根据操作习惯,提供了两种操作方式:首先可以批量导出,进行线下操作,填充相应的标准数据元的一些必要属性,然后再导入到***中进行持久化。另外,也可以线上批量操作,***中提供了一个类似于excel表格操作的页面,可以线上填充相应的标准数据元必要属性值,然后保存即可持久化。再对原始数据进行解析并获取原始数据中对应的数据结构字段,自动将匹配到的标准数据元按照解析的excel、数据库表等结构进行组合,实现物理模型的构建。
利用本发明方法使***匹配出的标准数据元进行物理模型的构建,完成原始数据的标准初始化工作。同时也实现标准数据元或数据元同义词定义与维护。
本发明还提供一种在线数据建模的***,包括获取模块、解析模块、匹配模块及创建模块,各模块依据需求进行通信,
获取模块获取多来源的各类格式原始数据,解析模块解析并获取原始数据中对应的数据结构字段,匹配模块根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,创建模块使用与数据结构字段匹配成功的标准数据元创建物理模型。
上述***内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
一种在线数据建模的装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种在线数据建模的方法。
上述装置内的处理器的信息交互、执行可读代码过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,上述各流程和***及装置结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的***结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (8)
1.一种在线数据建模的方法,其特征是获取多来源的各类格式原始数据,解析并获取原始数据中对应的数据结构字段,根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,并使用与数据结构字段匹配成功的标准数据元创建物理模型。
2.根据权利要求1所述的一种在线数据建模的方法,其特征是当数据结构字段与标准数据元的中文描述或者相对应的同义词的中文描述完全相同时,则认定为精确匹配到相应的标准数据元。
3.根据权利要求1或2所述的一种在线数据建模的方法,其特征是当中文描述不能完全相等匹配时,通过语义分析进行数据结构字段与标准数据元的匹配,当符合语义分析对应的指标时,则认定为模糊匹配到相应的标准数据元。
4.根据权利要求3所述的一种在线数据建模的方法,其特征是针对模糊匹配到的标准数据元,进行再次确认,若认定当前配对的标准数据元则将相应的数据结构字段加入到标准数据元的同义词中,若否认当前配对的标准数据元则取消当前的匹配,进行重新匹配或新建标准数据元与相应的数据结构字段匹配。
5.根据权利要求1或4所述的一种在线数据建模的方法,其特征是对于未匹配上标准数据元的数据结构字段,进行重新匹配,若仍未匹配,新建标准数据元进行配对。
6.根据权利要求1或5所述的一种在线数据建模的方法,其特征是更新标准数据元的必要属性,重新进行数据结构字段与标准数据元的关联匹配。
7.一种在线数据建模的***,其特征是包括获取模块、解析模块、匹配模块及创建模块,各模块依据需求进行通信,
获取模块获取多来源的各类格式原始数据,解析模块解析并获取原始数据中对应的数据结构字段,匹配模块根据匹配规则将数据结构字段与标准数据元的中文描述或同义词的中文描述进行匹配,创建模块使用与数据结构字段匹配成功的标准数据元创建物理模型。
8.一种在线数据建模的装置,其特征是包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至6中任一所述的一种在线数据建模的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011076126.9A CN112181949A (zh) | 2020-10-10 | 2020-10-10 | 一种在线数据建模的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011076126.9A CN112181949A (zh) | 2020-10-10 | 2020-10-10 | 一种在线数据建模的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112181949A true CN112181949A (zh) | 2021-01-05 |
Family
ID=73948993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011076126.9A Pending CN112181949A (zh) | 2020-10-10 | 2020-10-10 | 一种在线数据建模的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112181949A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800049A (zh) * | 2021-04-06 | 2021-05-14 | 航天神舟智慧***技术有限公司 | 基于大数据的excel数据源清洗方法、***、电子设备和存储介质 |
CN112905625A (zh) * | 2021-03-09 | 2021-06-04 | 山东兆物网络技术股份有限公司 | 基于推荐机制的数据处理规则的快速配置方法 |
CN113420077A (zh) * | 2021-06-10 | 2021-09-21 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110173149A1 (en) * | 2010-01-13 | 2011-07-14 | Ab Initio Technology Llc | Matching metadata sources using rules for characterizing matches |
CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理***及方法 |
US20150142740A1 (en) * | 2013-11-18 | 2015-05-21 | International Business Machines Corporation | Automatically managing mapping and transform rules when synchronizing systems |
CN110196834A (zh) * | 2019-05-21 | 2019-09-03 | 厦门市美亚柏科信息股份有限公司 | 一种用于数据项、文件、数据库的对标方法和*** |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
-
2020
- 2020-10-10 CN CN202011076126.9A patent/CN112181949A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110173149A1 (en) * | 2010-01-13 | 2011-07-14 | Ab Initio Technology Llc | Matching metadata sources using rules for characterizing matches |
US20150142740A1 (en) * | 2013-11-18 | 2015-05-21 | International Business Machines Corporation | Automatically managing mapping and transform rules when synchronizing systems |
CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理***及方法 |
CN110196834A (zh) * | 2019-05-21 | 2019-09-03 | 厦门市美亚柏科信息股份有限公司 | 一种用于数据项、文件、数据库的对标方法和*** |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
Non-Patent Citations (2)
Title |
---|
SHAOYANG ZHANG等: "Method and key techniques of transportation data standards conformance inspection", 《IEEE》 * |
李敏: "一种标准数据元与数据项匹配算法", 《电脑知识与技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905625A (zh) * | 2021-03-09 | 2021-06-04 | 山东兆物网络技术股份有限公司 | 基于推荐机制的数据处理规则的快速配置方法 |
CN112800049A (zh) * | 2021-04-06 | 2021-05-14 | 航天神舟智慧***技术有限公司 | 基于大数据的excel数据源清洗方法、***、电子设备和存储介质 |
CN113420077A (zh) * | 2021-06-10 | 2021-09-21 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、设备及介质 |
CN113420077B (zh) * | 2021-06-10 | 2024-01-30 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112181949A (zh) | 一种在线数据建模的方法及装置 | |
CN106776544A (zh) | 人物关系识别方法及装置和分词方法 | |
CN107203468B (zh) | 一种基于ast的软件版本演化对比分析方法 | |
US20080021912A1 (en) | Tools and methods for semi-automatic schema matching | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和*** | |
CN105912570B (zh) | 基于隐马尔可夫模型的英文简历关键字段抽取方法 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN107992476B (zh) | 面向句子级生物关系网络抽取的语料库生成方法及*** | |
CN110555205A (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与*** | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN112445775A (zh) | 一种光刻机的故障分析方法、装置、设备和存储介质 | |
CN108959204B (zh) | 互联网金融项目信息抽取方法和*** | |
CN110765402A (zh) | 一种基于网络资源的可视化采集***及采集方法 | |
CN114625748A (zh) | Sql查询语句的生成方法、装置、电子设备及可读存储介质 | |
CN116541286A (zh) | 一种基于插桩和符号执行的高覆盖率测试数据生成方法 | |
CN111143370B (zh) | 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质 | |
CN116245177A (zh) | 地理环境知识图谱自动化构建方法及***、可读存储介质 | |
CN117272073B (zh) | 文本单位语义距离预计算方法及装置、查询方法及装置 | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN113434627A (zh) | 工单的处理方法、装置和计算机可读存储介质 | |
CN114722159B (zh) | 针对数控机床制造资源的多源异构数据处理方法及*** | |
CN112287005B (zh) | 一种数据处理方法、装置、服务器及介质 | |
CN107967303B (zh) | 语料显示的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |