CN110782263B - 追溯数据的抓取、去重及修复方法 - Google Patents

追溯数据的抓取、去重及修复方法 Download PDF

Info

Publication number
CN110782263B
CN110782263B CN201911069544.2A CN201911069544A CN110782263B CN 110782263 B CN110782263 B CN 110782263B CN 201911069544 A CN201911069544 A CN 201911069544A CN 110782263 B CN110782263 B CN 110782263B
Authority
CN
China
Prior art keywords
product
data
database
identification code
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911069544.2A
Other languages
English (en)
Other versions
CN110782263A (zh
Inventor
陈娟
杨杰克
朱嘉心
李志彤
张百茵
闫颖
贺一丁
龚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronic Information Industry Development Research Institute
Original Assignee
China Electronic Information Industry Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronic Information Industry Development Research Institute filed Critical China Electronic Information Industry Development Research Institute
Priority to CN201911069544.2A priority Critical patent/CN110782263B/zh
Publication of CN110782263A publication Critical patent/CN110782263A/zh
Application granted granted Critical
Publication of CN110782263B publication Critical patent/CN110782263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种追溯数据抓取、去重及修复方法,包括:抓取产品的产品追溯码和若干维度的产品数据;依据抓取的若干维度的产品数据计算产品特征值和缺失标志值;产品追溯码、产品特征值和缺失标志值组成产品识别码;当产品识别码的产品追溯码与数据库中已有的产品识别码的产品追溯码相同时,比产品特征值与数据库中已有的产品特征值进行比较,当产品特征值与数据库中已有的产品特征值不同时,查看数据库中已有的缺失标志值,当缺失标志值显示为缺失时,将抓取的若干维度的产品数据补充进入数据库并重新计算特征值。本方法能够实现数据的自我修复,能够对产品的追溯数据不断完善。

Description

追溯数据的抓取、去重及修复方法
技术领域
本发明涉及数据追溯技术领域,尤其涉及一种追溯数据的抓取、去重及修复方法。
背景技术
目前市场上的追溯数据抓取技术,往往是针对某些特定产品生产厂商的追溯数据格式、内容而定制化开发的数据抓取模块。或者通过购买数据转换类软件,并通过定制化配置的方式来适配数据源。这种方式缺乏通用性,无法适配整个行业不同生产厂商的追溯数据源。然后通过在数据库中判断某些特定字段是否一致,进而识别出重复数据。此种方法效率较低,且单独比对某些字段来识别重复数据的方法相对来说较为片面,无法通过分析全要素数据来综合识别综合数据。而对于数据的更新往往是通过分析数据更新时间,用最近更新的数据来覆盖旧的数据。缺乏分析数据完整性的功能。
发明内容
本发明提供的追溯数据的抓取、去重及修复方法,能够进行数据的自我修复。
本发明提供一种追溯数据抓取、去重及修复方法,包括:
抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码;
将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值,当所述缺失标志值显示为缺失时,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值。
可选地,计算所述产品特征值包括如下步骤:
采用Hash算法计算每个产品数据的特征数据,
将所述特征数据组成矩阵,计算所述矩阵的本征值,所述矩阵的本征值即为所述特征值。
可选地,当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码不同时,将抓取的所述若干维度的产品数据存储进入数据库。
可选地,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值相同时,忽略抓取的所述若干维度的产品数据。
可选地,当所述缺失标志值显示为不缺失时,发出警告并记录日志。
可选地,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值包括如下步骤:
查看数据库中已有的若干维度的产品数据缺失的数据项,将抓取的所述若干维度的产品数据对应的数据项补充进入所述缺失的数据项;
依据补充完毕的若干维度的产品数据,重新计算数据库中已有的产品识别码的产品特征值和缺失标志值。
可选地,将所述产品识别码与数据库中已有的产品识别码进行比较时,将所述产品识别码分为若干组,并将每组所述产品识别码分配至至少一个服务器进行运算。
可选地,所述若干维度的产品数据包括品类数据和单品数据。
可选地,所述品类数据包括品类名称、产品标准代码、产品类别属性、产品使用说明、配料表、生产企业名称或生产企业地址中的一种或几种的组合。
可选地,所述单品数据包括生产日期、保质期或批次号码中的一种或几种的组合。
附图说明
图1为本发明追溯数据的抓取、去重及修复方法实施例的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种追溯数据抓取、去重及修复方法,包括:
抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码。具体过程如下:
以婴配乳粉为例进行说明,通过采样调研国内主要婴配乳粉厂商现有的产品追溯***,将所有产品追溯数据进行抽象。
可选地,产品数据主要为“品类数据”和“单品数据”两大类。
可选地,“品类数据”即该类产品所共同具备的追溯数据内容,例如品类名称、产品标准代码、产品类别属性、产品使用说明、配料表、生产企业名称、生产企业地址等内容。
可选地,“单品数据”即该类产品中没一个独立销售的产品所具备的特定数据,例如生产日期、保质期、批次号码等信息。
通过以上数据抽象的方法,可以有效地将所有行业内厂商的追溯数据统一汇总至同一个数据仓库之内。
对于具有特定企业特点的数据,我们通过“企业自愿公开的其它数据”类型,将此类数据汇总至数据仓库之中。
汇总的数据示例如下表:
Figure GDA0002289747940000041
将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值,当所述缺失标志值显示为缺失时,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值。
可选地,计算所述产品特征值包括如下步骤:
采用Hash算法计算每个产品数据的特征数据,
将所述特征数据组成矩阵,计算所述矩阵的本征值,所述矩阵的本征值即为所述特征值。
为了解决数据去重效率低下的问题,我们采取了以并行计算为主要技术手段,并且通过独创的算法,综合计算所有特定产品追溯数据内容,进而形成一个可唯一标识该产品的特征值。在计算该特征值的过程中,算法从多个维度计算了该产品的所有追溯数据,进而生成产品特征值。当某产品的任一维度区别于其它产品时,算法均可计算出不同的特征值。因此,在该算法的基础上,我们可以确定不同的特征值,就代表了不同的产品。相对的,一旦产品特征值发生重复,意味着该产品追溯数据产生重复,需要进行去重处理。
可选地,将所述产品识别码与数据库中已有的产品识别码进行比较时,将所述产品识别码分为若干组,并将每组所述产品识别码分配至至少一个服务器进行运算。
在计算产品唯一特征值的基础上,通过使用并行计算的方式,将每天百万级的数据增量工作,划分为三至五组子计算任务。进而将这些子计算任务分配在***不同的服务器中进行独立对比计算。
在产品识别码中包含该产品追溯编码、特征值和缺失标志值。追溯***可直接通过产品识别码一次性识别出该数据是否需要自我修复。实现示意表如下所示:
Figure GDA0002289747940000051
以上述表格中数据为例,该产品追溯码为00161509400338748168,但“批次号码”这一项为缺失数据。因此通过产品识别码计算算法后,将得到以下产品识别码:00161509400338748168-1234567890-01
通过上述编码规则,当新的产品追溯数据上传到追溯平台时,***可快速完成以下三个功能:
通过对比新数据的追溯码与数据仓库中已存数据产品识别码的前20位即产品追溯码,可快速确定新上传数据是否为“重复上传数据”;
若新数据为“重复上传数据”,可通过对比新数据的“特征值”与已有数据的“特征值”,快速判断新、旧数据是否完全一致;
若新、旧数据不完全一致,可通过读取已有数据的“数据缺失标志位”,快速确定原始数据是否存在数据缺失情况。
在上述示例中,当产品追溯码为00161509400338748168的数据按照以下第二次上传至追溯***时(重复上传)。
Figure GDA0002289747940000061
此时追溯数据自我修复模块依次执行以下步骤:
追溯数据自我修复模块首先读取第二次上传数据的“产品追溯码”,然后在查询数据仓库中已存数据的产品识别码中是否包含以“00161509400338748168”开头的产品识别码。
可选地,当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码不同时,将抓取的所述若干维度的产品数据存储进入数据库。也即,若无法查询到满足条件的产品识别码,则可确定该数据为首次上传的追溯数据,可以直接***数据库中。
可选地,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值相同时,忽略抓取的所述若干维度的产品数据。也即,如果能查询到满足条件的产品识别码,则可确定此数据为重复上传数据。此时,该数据为重复上传数据,需要对比新、旧数据产品识别码的“特征值”,若“特征值”相同,则可判断新旧数据完全一致,可直接忽略新数据。若“特征值”不同,则需要进行数据自我修复操作。
可选地,当所述缺失标志值显示为不缺失时,发出警告并记录日志。例如,若“数据缺失标志位”为“00”,则表明原始数据无数据缺失情况,但由于“特征值”不同,则可明确新、旧数据的相同数据项包含了不同的内容,此时将该数据记录日志***,并通过告警机制将“数据不一致”的情况通知企业;
可选地,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值包括如下步骤:
查看数据库中已有的若干维度的产品数据缺失的数据项,将抓取的所述若干维度的产品数据对应的数据项补充进入所述缺失的数据项;
依据补充完毕的若干维度的产品数据,重新计算数据库中已有的产品识别码的产品特征值和缺失标志值。例如,若“数据缺失标志位”为“01”,则表明原始数据存在数据缺失情况,此时需要用新数据中的数据项补充原始数据中空缺部分。查找原始数据中空缺的数据项,用新数据中对应的数据项内容进行补充,完成数据自我修复操作。根据自我修复后的数据,重新计算产品特征值并更新数据产品识别码。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种追溯数据抓取、去重及修复方法,其特征在于:包括:
抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码;
将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值,当所述缺失标志值显示为缺失时,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值。
2.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:计算所述产品特征值包括如下步骤:
采用Hash算法计算每个产品数据的特征数据,
将所述特征数据组成矩阵,计算所述矩阵的本征值,所述矩阵的本征值即为所述特征值。
3.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码不同时,将抓取的所述若干维度的产品数据存储进入数据库。
4.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值相同时,忽略抓取的所述若干维度的产品数据。
5.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:当所述缺失标志值显示为不缺失时,发出警告并记录日志。
6.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值包括如下步骤:
查看数据库中已有的若干维度的产品数据缺失的数据项,将抓取的所述若干维度的产品数据对应的数据项补充进入所述缺失的数据项;
依据补充完毕的若干维度的产品数据,重新计算数据库中已有的产品识别码的产品特征值和缺失标志值。
7.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:将所述产品识别码与数据库中已有的产品识别码进行比较时,将所述产品识别码分为若干组,并将每组所述产品识别码分配至至少一个服务器进行运算。
8.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:所述若干维度的产品数据包括品类数据和单品数据。
9.如权利要求8所述追溯数据抓取、去重及修复方法,其特征在于:所述品类数据包括品类名称、产品标准代码、产品类别属性、产品使用说明、配料表、生产企业名称或生产企业地址中的一种或几种的组合。
10.如权利要求8所述追溯数据抓取、去重及修复方法,其特征在于:所述单品数据包括生产日期、保质期或批次号码中的一种或几种的组合。
CN201911069544.2A 2019-11-04 2019-11-04 追溯数据的抓取、去重及修复方法 Active CN110782263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911069544.2A CN110782263B (zh) 2019-11-04 2019-11-04 追溯数据的抓取、去重及修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911069544.2A CN110782263B (zh) 2019-11-04 2019-11-04 追溯数据的抓取、去重及修复方法

Publications (2)

Publication Number Publication Date
CN110782263A CN110782263A (zh) 2020-02-11
CN110782263B true CN110782263B (zh) 2022-06-24

Family

ID=69388970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911069544.2A Active CN110782263B (zh) 2019-11-04 2019-11-04 追溯数据的抓取、去重及修复方法

Country Status (1)

Country Link
CN (1) CN110782263B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560344B (zh) * 2020-12-14 2023-12-08 北京云歌科技有限责任公司 一种构建模型伺服***的方法和装置
CN113488149A (zh) * 2021-06-10 2021-10-08 江苏众安数据科技有限公司 一种医废运输流程回补***及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463529A (zh) * 2014-11-26 2015-03-25 浙江工业大学 一种基于二维码和加密技术的物流配送单生成方法
CN108596311A (zh) * 2018-05-08 2018-09-28 亳州中药材商品交易中心有限公司 一种溯源码及其校验码的生成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968725A (zh) * 2012-09-28 2013-03-13 北京农业信息技术研究中心 农产品追溯防伪标识方法
TW201417002A (zh) * 2012-10-25 2014-05-01 Roland Taiwan Electronic Music Corp 行動化建置產品履歷系統及產線作業之管控方法
CN103761546A (zh) * 2013-12-30 2014-04-30 武汉华工赛百数据***有限公司 用于食品加工企业质量安全追溯的方法
CN106384242A (zh) * 2016-09-05 2017-02-08 广州中国科学院软件应用技术研究所 一种基于食品安全的追溯码重复预警***
CN106649523A (zh) * 2016-10-18 2017-05-10 安徽天达网络科技有限公司 一种商品资源数据处理方法
CN106742400A (zh) * 2016-11-17 2017-05-31 电子科技大学 产品二维码信息采集关联***及其关联方法与自适应方法
CN108664590A (zh) * 2018-05-08 2018-10-16 亳州中药材商品交易中心有限公司 一种枸杞数据识别方法
CN108595693A (zh) * 2018-05-08 2018-09-28 亳州中药材商品交易中心有限公司 一种枸杞数据整理***
CN109558377B (zh) * 2018-12-12 2023-04-14 南京新点星信息科技有限公司 一种产品追溯码重复极速校验算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463529A (zh) * 2014-11-26 2015-03-25 浙江工业大学 一种基于二维码和加密技术的物流配送单生成方法
CN108596311A (zh) * 2018-05-08 2018-09-28 亳州中药材商品交易中心有限公司 一种溯源码及其校验码的生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于层次分析法的广州市农产品质量安全信誉管理平台构建及应用;连槿等;《广东农业科学》;20141110(第21期);全文 *

Also Published As

Publication number Publication date
CN110782263A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
WO2021052031A1 (zh) 基于统计四分位距的商品库存风险预警方法、***及计算机可读存储介质
CN111459985B (zh) 标识信息处理方法及装置
US8099320B2 (en) Product demand forecasting
CN110782263B (zh) 追溯数据的抓取、去重及修复方法
US20150066861A1 (en) Flexible Time-based Aggregated Derivations for Advanced Analytics
CN109522315B (zh) 一种数据库处理方法及***
CN110457333B (zh) 数据实时更新方法、装置及计算机可读存储介质
CN111400354B (zh) 基于mes***的机床制造bom存储查询及树形结构构建方法
US7882142B2 (en) Dynamic optimized datastore generation and modification for process models
CN112699142A (zh) 冷热数据处理方法、装置、电子设备及存储介质
US20190332697A1 (en) Database schema validations
CN112364036A (zh) 商品信息更新方法、装置、电子设备及可读存储介质
CN107624185B (zh) 从多个交叠的源汇集高容量的时间数据
US8688499B1 (en) System and method for generating business process models from mapped time sequenced operational and transaction data
CN113407650A (zh) 一种零件分类方法、装置、电子设备及存储介质
CN114877943B (zh) 一种基于区块链的生态环境监测装置
CN115796398A (zh) 基于电力物资的需求智能分析方法、***、设备及介质
US20230140404A1 (en) System, method, and computer program product for cataloging data integrity
CN114860690A (zh) 数据迁移方法、装置、设备及存储介质
CN114510462A (zh) 软件研发效能的度量方法、平台、***、设备和介质
CN112328641A (zh) 多维度数据聚合方法、装置及计算机设备
CN113220783B (zh) 数据处理方法、装置、电子设备及存储介质
CN111324792A (zh) 大数据平台
CN114036174B (zh) 数据更新方法、装置、设备及存储介质
CN116244498A (zh) 基于多维指标的相似企业推荐方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant