CN113419994A - 一种多身份字段大数据的自动化快速对比***及方法 - Google Patents

一种多身份字段大数据的自动化快速对比***及方法 Download PDF

Info

Publication number
CN113419994A
CN113419994A CN202110822596.3A CN202110822596A CN113419994A CN 113419994 A CN113419994 A CN 113419994A CN 202110822596 A CN202110822596 A CN 202110822596A CN 113419994 A CN113419994 A CN 113419994A
Authority
CN
China
Prior art keywords
data
comparison
fields
values
identity fields
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110822596.3A
Other languages
English (en)
Inventor
孟艳冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinobase Technology Development Co ltd
Original Assignee
Beijing Sinobase Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinobase Technology Development Co ltd filed Critical Beijing Sinobase Technology Development Co ltd
Priority to CN202110822596.3A priority Critical patent/CN113419994A/zh
Publication of CN113419994A publication Critical patent/CN113419994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多身份字段大数据的自动化快速对比***,包括前端显示模块、数据存储读取模块和后端封装接口模块,所述前端显示模块采用HTML+AngularJS框架构造可视化页面,所述数据读取采用pandas类库实现,所述后端封装接口模块采用python+flask框架封装接口。本发明属于大数据自动化测试技术领域,具体是提供了一种基于数据对比支持字段映射,即使两个文件中列顺序不一致也不影响对比结果,与现有技术相比更加的灵活高效,数据对比按身份字段精准查找,更加的准确、高效,后台可进行数据对比,对比完成后将对比结果返回前端并支持错误日志下载的多身份字段大数据的自动化快速对比***及方法。

Description

一种多身份字段大数据的自动化快速对比***及方法
技术领域
本发明属于大数据自动化测试技术领域,具体是指一种多身份字段大数据的自动化快速对比***及方法。
背景技术
现有技术进行大数据对比,通常为上传两个数据excel或csv文件,后逐行对两个文件的内容进行对比,对比后将不一致内容进行展示。
现有大数据对比具有以下缺点:
1)两个数据文件内容按行号进行对比,需保证两个文件数据顺序一致,不够灵活;
2)两个数据问卷内容同一行数据按照列顺序进行对比,需保证两个文件列顺序一致,不够灵活;
3)数据对比速度慢;
4)数据对比结果无法导出,错误信息不够清晰。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于数据对比支持字段映射,即使两个文件中列顺序不一致也不影响对比结果,与现有技术相比更加的灵活高效,数据对比按身份字段精准查找,更加的准确、高效,后台可进行数据对比,对比完成后将对比结果返回前端并支持错误日志下载的多身份字段大数据的自动化快速对比***及方法。
本发明采取的技术方案如下:本发明一种多身份字段大数据的自动化快速对比***,包括前端显示模块、数据存储读取模块和后端封装接口模块,所述前端显示模块采用HTML+AngularJS框架构造可视化页面,所述数据读取采用pandas类库实现,所述后端封装接口模块采用python+flask框架封装接口。
本发明还公开了一种多身份字段大数据的自动化快速对比方法,包括以下步骤:
步骤一:在前端显示模块的前端页面上选择待对比的两个excel文件,并获取列名;
步骤二:后端封装接口模块接收到获取列名接口请求后,通过pandas.read_excel方法分别读取两个excel的列,并将两个表格的列名转换为数组形式返回到前端显示模块;
步骤三:前端接收到返回的列名数组后进行字段展示,并自动将两个表同名的列字段进行映射,支持复选身份字段(身份字段用于两个文件数据对比时的唯一键),点击开始验证向后端发起数据对比请求;
步骤四:后端接收到数据对比请求后,采用pandas类库对两个excel数据进行读取,读取成两个二维数组;后将两个二维数组中的数据进行二次封装,封装为两个字典,字典的key为多个身份字段的拼接值,value为所有非身份字段的拼接,字典长度与excel数据行数一致;再之后循环遍历第一个字典的key、value,在第二个字典中按key查找,若查找到相同key则对比value是否一致,value不一致记录到错误日志文件中,若在第二个字典中查找不到相同的key,也记录到错误日志文件中,最后对比结束后返回对比结果成功或失败,若失败附带错误日志文件链接到前端;
步骤五:前端接收到对比结果和错误日志文件,支持点击文件名称进行下载,对比结果成图显示出来。
本方案一种多身份字段大数据的自动化快速对比***及方法,取得的有益效果如下:
1、两个数据文件内容不需行顺序一致,也不需列顺序一致,数据对比支持字段映射,本专利支持获取到两个对比文件的列字段并进行一对一映射,映射后数据对比时按照映射字段进行匹配,即使两个文件中列顺序不一致也不影响对比结果,与现有技术相比更加的灵活高效,对数据文件的数据顺序无任何要求;
2、可人为自定义对比使用的身份字段,比如:手机号+邮箱作为唯一字段做对比,唯一字段可以设置为1个,也可以设置为多个组合,数据对比时支持选择多个身份字段,对比时按照身份字段拼接后在两个文件中进行精准查找并对比,与现有技术按行号查找对比相比更加的准确、高效;
3、数据对比采用可视化页面操作和展示,支持下载对比失败数据到本地。
附图说明
图1为本发明一种多身份字段大数据的自动化快速对比***及方法的前端页面组成图;
图2为本发明一种多身份字段大数据的自动化快速对比***及方法的对比结果展示图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明一种多身份字段大数据的自动化快速对比***及方法,包括前端显示模块、数据存储读取模块和后端封装接口模块,所述前端显示模块采用HTML+AngularJS框架构造可视化页面,所述数据读取采用pandas类库实现,所述后端封装接口模块采用python+flask框架封装接口。
本发明还公开了一种多身份字段大数据的自动化快速对比方法,包括以下步骤:
步骤一:在前端显示模块的前端页面上选择待对比的两个excel文件,并获取列名;
步骤二:后端封装接口模块接收到获取列名接口请求后,通过pandas.read_excel方法分别读取两个excel的列,并将两个表格的列名转换为数组形式返回到前端显示模块;
步骤三:前端接收到返回的列名数组后进行字段展示,并自动将两个表同名的列字段进行映射,支持复选身份字段(身份字段用于两个文件数据对比时的唯一键),点击开始验证向后端发起数据对比请求;
步骤四:后端接收到数据对比请求后,采用pandas类库对两个excel数据进行读取,读取成两个二维数组;后将两个二维数组中的数据进行二次封装,封装为两个字典,字典的key为多个身份字段的拼接值,value为所有非身份字段的拼接,字典长度与excel数据行数一致;再之后循环遍历第一个字典的key、value,在第二个字典中按key查找,若查找到相同key则对比value是否一致,value不一致记录到错误日志文件中,若在第二个字典中查找不到相同的key,也记录到错误日志文件中,最后对比结束后返回对比结果成功或失败,若失败附带错误日志文件链接到前端;
步骤五:前端接收到对比结果和错误日志文件,支持点击文件名称进行下载,对比结果成图显示出来,如图2所示。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (2)

1.一种多身份字段大数据的自动化快速对比***,其特征在于:包括前端显示模块、数据存储读取模块和后端封装接口模块,所述前端显示模块采用HTML+AngularJS框架构造可视化页面,所述数据读取采用pandas类库实现,所述后端封装接口模块采用python+flask框架封装接口。
2.一种多身份字段大数据的自动化快速对比方法,其特征在于,包括以下步骤:
步骤一:在前端显示模块的前端页面上选择待对比的两个excel文件,并获取列名;
步骤二:后端封装接口模块接收到获取列名接口请求后,通过pandas.read_excel方法分别读取两个excel的列,并将两个表格的列名转换为数组形式返回到前端显示模块;
步骤三:前端接收到返回的列名数组后进行字段展示,并自动将两个表同名的列字段进行映射,支持复选身份字段(身份字段用于两个文件数据对比时的唯一键),点击开始验证向后端发起数据对比请求;
步骤四:后端接收到数据对比请求后,采用pandas类库对两个excel数据进行读取,读取成两个二维数组;后将两个二维数组中的数据进行二次封装,封装为两个字典,字典的key为多个身份字段的拼接值,value为所有非身份字段的拼接,字典长度与excel数据行数一致;再之后循环遍历第一个字典的key、value,在第二个字典中按key查找,若查找到相同key则对比value是否一致,value不一致记录到错误日志文件中,若在第二个字典中查找不到相同的key,也记录到错误日志文件中,最后对比结束后返回对比结果成功或失败,若失败附带错误日志文件链接到前端;
步骤五:前端接收到对比结果和错误日志文件,支持点击文件名称进行下载,对比结果成图显示出来。
CN202110822596.3A 2021-07-21 2021-07-21 一种多身份字段大数据的自动化快速对比***及方法 Pending CN113419994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110822596.3A CN113419994A (zh) 2021-07-21 2021-07-21 一种多身份字段大数据的自动化快速对比***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110822596.3A CN113419994A (zh) 2021-07-21 2021-07-21 一种多身份字段大数据的自动化快速对比***及方法

Publications (1)

Publication Number Publication Date
CN113419994A true CN113419994A (zh) 2021-09-21

Family

ID=77721395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110822596.3A Pending CN113419994A (zh) 2021-07-21 2021-07-21 一种多身份字段大数据的自动化快速对比***及方法

Country Status (1)

Country Link
CN (1) CN113419994A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114047975A (zh) * 2021-11-16 2022-02-15 浪潮卓数大数据产业发展有限公司 一种基于表达式工作流的可扩展方案配置***及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176989A (zh) * 2011-12-21 2013-06-26 ***股份有限公司 基于数据字典和可变规则的数据库表级比较方法和***
CN105573965A (zh) * 2014-10-13 2016-05-11 曹建卫 一种基于软件的电子表格比较方法
CN107766314A (zh) * 2017-10-20 2018-03-06 网易(杭州)网络有限公司 电子表格的数据处理方法和装置
CN110287119A (zh) * 2019-06-28 2019-09-27 深圳市万睿智能科技有限公司 一种基于python的接口自动化测试方法及装置
CN112258151A (zh) * 2020-10-16 2021-01-22 广东电网有限责任公司 一种基于pandas的对账方法、装置、计算机设备和存储介质
CN112364024A (zh) * 2020-11-30 2021-02-12 上海二三四五网络科技有限公司 一种表数据批量自动比对的控制方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176989A (zh) * 2011-12-21 2013-06-26 ***股份有限公司 基于数据字典和可变规则的数据库表级比较方法和***
CN105573965A (zh) * 2014-10-13 2016-05-11 曹建卫 一种基于软件的电子表格比较方法
CN107766314A (zh) * 2017-10-20 2018-03-06 网易(杭州)网络有限公司 电子表格的数据处理方法和装置
CN110287119A (zh) * 2019-06-28 2019-09-27 深圳市万睿智能科技有限公司 一种基于python的接口自动化测试方法及装置
CN112258151A (zh) * 2020-10-16 2021-01-22 广东电网有限责任公司 一种基于pandas的对账方法、装置、计算机设备和存储介质
CN112364024A (zh) * 2020-11-30 2021-02-12 上海二三四五网络科技有限公司 一种表数据批量自动比对的控制方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MB5B0EAAB3409FA: "Python3实现两个Excel文件内容比对", pages 1 - 4, Retrieved from the Internet <URL:《https://blog.51cto.com/u_13777112/2135708》> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114047975A (zh) * 2021-11-16 2022-02-15 浪潮卓数大数据产业发展有限公司 一种基于表达式工作流的可扩展方案配置***及方法

Similar Documents

Publication Publication Date Title
CN110688349B (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN103279406B (zh) 一种内存的隔离方法和装置
CN102193906A (zh) Word格式试卷自动导入数据库***的方法
CN103150362A (zh) 一种视频搜索方法及***
US10789226B2 (en) Method and apparatus for data processing
CN113419994A (zh) 一种多身份字段大数据的自动化快速对比***及方法
CN104091164A (zh) 人脸图片人名识别方法和***
CN102831224A (zh) 一种数据索引库的建立方法、搜索建议生成方法和装置
CN105684031A (zh) 一种房产网房源搜索方法及***
CN110750434A (zh) 接口测试方法、装置、电子设备和计算机可读存储介质
CN103020194A (zh) 用于浏览文件的方法及装置
CN101493824A (zh) 数据库的数据检索方法和装置
CN105426203A (zh) 一种车载终端功能的快速配置方法
CN111460765A (zh) 电子书籍标注处理方法、电子设备及存储介质
CN103605479B (zh) 数据文件写入方法及***、数据文件读取方法及***
CN115630100A (zh) 单元和多元时序数据的混合处理方法、装置及计算机设备
CN113821508B (zh) 一种数组索引的实现方法和***
CN114168534A (zh) 加快es文件进行本地全文检索的方法、***、装置及介质
CN114676049A (zh) 一种用例测试方法、装置、电子设备及存储介质
CN111290999B (zh) 一种库文件自适应匹配方法、设备和计算机可读存储介质
CN105894238A (zh) 邮件正文嵌入图片的显示方法、保存方法及装置
CN117931755B (zh) 批量导入封装库的方法、装置、设备和介质
CN103455504A (zh) 数据存储以及读取方法、装置、搜索方法、引擎及***
CN115994235B (zh) 色谱分析方法库构建方法、装置、设备和计算机介质
CN109446022B (zh) 一种数据库溢出页异常的检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination