CN115291889B - 一种数据血缘关系建立方法、装置及电子设备 - Google Patents

一种数据血缘关系建立方法、装置及电子设备 Download PDF

Info

Publication number
CN115291889B
CN115291889B CN202211178969.9A CN202211178969A CN115291889B CN 115291889 B CN115291889 B CN 115291889B CN 202211178969 A CN202211178969 A CN 202211178969A CN 115291889 B CN115291889 B CN 115291889B
Authority
CN
China
Prior art keywords
attribute
ciphertext
source
variable
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211178969.9A
Other languages
English (en)
Other versions
CN115291889A (zh
Inventor
刘琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huakong Tsingjiao Information Technology Beijing Co Ltd
Original Assignee
Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huakong Tsingjiao Information Technology Beijing Co Ltd filed Critical Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority to CN202211178969.9A priority Critical patent/CN115291889B/zh
Publication of CN115291889A publication Critical patent/CN115291889A/zh
Application granted granted Critical
Publication of CN115291889B publication Critical patent/CN115291889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/425Lexical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/46Secure multiparty computation, e.g. millionaire problem

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据血缘关系建立方法、装置及电子设备,涉及多方安全计算技术领域和数据处理技术领域,包括:构建密文计算任务的Python脚本中密文计算代码的抽象语法树;遍历抽象语法树中包含的Assign节点和Expr节点;从Assign节点和Expr节点中的内容,获取密文计算代码中各变量之间的来源关系;基于密文计算代码中各变量之间的来源关系,建立密文计算任务的各输入数据与各输出数据之间的血缘关系。采用该方案,实现了针对密文数据的数据血缘关系的建立。

Description

一种数据血缘关系建立方法、装置及电子设备
技术领域
本申请涉及多方安全计算技术领域和数据处理技术领域,尤其涉及一种数据血缘关系建立方法、装置及电子设备。
背景技术
数据血缘即数据的来龙去脉,主要包含数据的来源、数据的加工方式、映射关系等。清晰的数据血缘是数据平台维持稳定的基础,更有利于数据变更影响分析以及数据问题排查。
在数据***中,数据血缘关系的分析和建立,是数据治理体系中一个很重要的部分。所建立的数据血缘关系,可以用于异常定位、血缘跟踪影响分析等方面,对提升数据治理的质量和效率都有很大帮助。
现有的数据血缘分析方法和工具都是针对MySQL等关系数据库,或是Hive等大数据***。这些***的数据都是明文的,并且数据的处理关系也大都是以SQL脚本的形式来描述的。
多方安全计算(MPC,Muti-Party Computation),可以使多个非互信数据库之间在数据相互保密的前提下进行数据计算或融合,计算往往通过执行密文计算任务实现,密文计算任务是使用多方安全计算技术实行的数据计算任务,所有的计算过程都是在数据相互保密的前提下进行的。
在多方安全计算平台中,由于数据计算是以密文形式进行的,并且描述数据处理关系的语言是Python语言,从而导致现有的针对明文数据库和SQL脚本的数据血缘分析方法和工具,无法直接应用在针对密文数据的数据血缘关系建立中。
发明内容
本申请实施例提供一种数据血缘关系建立方法、装置及电子设备,用以解决现有技术中存在的无法针对密文数据实现数据血缘关系建立的问题。
本申请实施例提供数据血缘关系建立方法,包括:
构建密文计算任务的Python脚本中密文计算代码的抽象语法树;
遍历所述抽象语法树中包含的Assign节点和Expr节点;
从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系;
基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系。
进一步的,所述从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系,包括:
针对遍历到的每个所述Assign节点,从该Assign节点的targets属性中的id属性中获取被赋值的目标变量;
当该Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作时,获取所述目标变量与所述密文计算代码的输入变量之间的来源关系;
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系;
针对遍历到的每个所述Expr节点,当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,获取输出变量与该Expr节点中的源变量之间的来源关系。
进一步的,所述当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系,包括:
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,如果该Assign节点包含slice属性,从slice属性中获取该Assign节点中的源变量的列号;
获取所述目标变量与该Assign节点中的源变量的列号之间的来源关系;
所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系,包括:
基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
进一步的,在所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系之前,还包括:
从样本示例中获取具有slice属性的该源变量表示的输入数据的该列号对应的字段名称;
所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系,包括:
基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到字段名称的血缘关系。
进一步的,在所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系之前,还包括:
获取所述密文计算任务的任务配置文件中输入数据地址与输入变量之间的输入对应关系,以及输出数据地址与输出变量之间的输出对应关系;
所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系,包括:
基于所述密文计算代码中各变量之间的所述来源关系,以及所述输入对应关系和所述输出对应关系,建立所述密文计算任务的各输入数据地址与各输出数据地址之间的血缘关系。
本申请实施例还提供一种数据血缘关系建立装置,包括:
语法树构建模块,用于构建密文计算任务的Python脚本中密文计算代码的抽象语法树;
节点遍历模块,用于遍历所述抽象语法树中包含的Assign节点和Expr节点;
来源关系获取模块,用于从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系;
血缘关系建立模块,用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系。
进一步的,所述来源关系获取模块,具体用于针对遍历到的每个所述Assign节点,从该Assign节点的targets属性中的id属性中获取被赋值的目标变量;
当该Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作时,获取所述目标变量与所述密文计算代码的输入变量之间的来源关系;
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系;
针对遍历到的每个所述Expr节点,当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,获取输出变量与该Expr节点中的源变量之间的来源关系。
进一步的,所述来源关系获取模块,具体用于当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,如果该Assign节点包含slice属性,从slice属性中获取该Assign节点中的源变量的列号;
获取所述目标变量与该Assign节点中的源变量的列号之间的来源关系;
所述血缘关系建立模块,具体用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
进一步的,所述来源关系获取模块,还用于从样本示例中获取具有slice属性的该源变量表示的输入数据的该列号对应的字段名称;
所述血缘关系建立模块,具体用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到字段名称的血缘关系。
进一步的,所述来源关系获取模块,还用于获取所述密文计算任务的任务配置文件中输入数据地址与输入变量之间的输入对应关系,以及输出数据地址与输出变量之间的输出对应关系;
所述血缘关系建立模块,具体用于基于所述密文计算代码中各变量之间的所述来源关系,以及所述输入对应关系和所述输出对应关系,建立所述密文计算任务的各输入数据地址与各输出数据地址之间的血缘关系。
本申请实施例还提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述任一数据血缘关系建立方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据血缘关系建立方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一数据血缘关系建立方法。
本申请有益效果包括:
本申请实施例提供的方法中,通过对密文计算内容的Python脚本中密文计算代码的处理,以及对得到的抽象语法树中包含的Assign节点和Expr节点的内容的分析,获取密文计算代码中各变量之间的来源关系,并基于该来源关系,建立密文计算任务的各输入数据与各输出数据之间的血缘关系。从而实现了针对密文数据的数据血缘关系的建立。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中:
图1为本申请实施例提供的数据血缘关系建立方法的流程图;
图2为本申请另一实施例提供的数据血缘关系建立方法的流程图;
图3为本申请实施例中一段Python脚本的密文计算代码的示意图;
图4为本申请实施例中将密文计算代码作为字符串建立抽象语法树的示意图;
图5为本申请实施例中建立的抽象语法树的示意图;
图6为本申请实施例中抽象语法树中Assign节点的内容的示意图;
图7为本申请实施例中建立的血缘关系的示意图;
图8为本申请实施例中建立的血缘关系的示意图;
图9为本申请实施例中包含slice属性的Assign节点的内容的示意图;
图10为本申请实施例中建立的血缘关系的示意图;
图11为本申请实施例提供的数据血缘关系建立装置的结构示意图;
图12为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了给出针对密文数据建立数据血缘关系的实现方案,本申请实施例提供了一种数据血缘关系建立方法、装置及电子设备,以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例提供一种数据血缘关系建立方法,如图1所示,包括:
步骤11、构建密文计算任务的Python脚本中密文计算代码的抽象语法树;
步骤12、遍历抽象语法树中包含的Assign节点和Expr节点;
步骤13、从Assign节点和Expr节点中的内容,获取密文计算代码中各变量之间的来源关系;
步骤14、基于密文计算代码中各变量之间的来源关系,建立密文计算任务的各输入数据与各输出数据之间的血缘关系。
采用本申请实施例提供的上述方法,通过对密文计算内容的Python脚本中密文计算代码的处理,以及对得到的抽象语法树中包含的Assign节点和Expr节点的内容的分析,获取密文计算代码中各变量之间的来源关系,并基于该来源关系,建立密文计算任务的各输入数据与各输出数据之间的血缘关系。从而实现了针对密文数据的数据血缘关系的建立。
下面结合附图,用具体实施例对本申请提供的方法及装置进行详细描述。
本申请实施例提供一种数据血缘关系建立方法,如图2所示,包括:
步骤201、针对需要建立数据血缘关系的密文计算任务,获取该密文计算任务的任务配置文件中输入数据地址与输入变量之间的输入对应关系,以及输出数据地址与输出变量之间的输出对应关系。
多方安全计算技术通常是通过执行密文计算任务实现的,密文计算任务一般包括任务配置文件、密文运算的Python脚本,以及输入数据和输出数据,Python脚本中包含密文计算代码。
任务配置文件中一般保存有该密文计算任务的Python脚本中密文计算代码中的输入变量和输出变量,输入变量表示输入数据,输出变量表示输出数据,任务配置文件中还可以保存有输入数据和输出数据的地址(也可以称作存储路径)。
例如,在一个密文计算任务中,其任务配置文件中的信息如下:
表示输入数据的输入变量包括:“shuidianA”和“shuidianB”;
相应的,输入变量地址为:“cipher://ds02/power/shuidianA”和“ cipher://ds02/power/shuidianB”;
表示输出数据的输出变量:“total_power_all”和“total_power_nonpublic”;
输出变量地址:均存储在ds03主机;
如图3所示,为本申请实施例中提供的一段Python脚本的密文计算代码,其中,包含了上述任务配置文件中的输入变量和输出变量。
本步骤中,从密文计算任务的任务配置文件中,获取输入数据地址与输入变量之间的输入对应关系,以及输出数据地址与输出变量之间的输出对应关系,供后续建立数据血缘关系时使用,本步骤为可选步骤。
步骤202、构建该密文计算任务的Python脚本中密文计算代码的抽象语法树。
从图3所示的密文计算代码可知,一个密文计算任务的Python脚本一般包括3部分:第1部分为输入数据,第2部分为计算过程,第3部分为输出数据。
本步骤中,构建Python脚本中的密文计算代码的抽象语法树,具体可以利用Python语言里的Ast功能构建出密文计算代码的抽象语法树。
如图4所示,将图3中的代码作为字符串,调用Python中的ast.parse接口进行解析,构建出图3所示代码的抽象语法树,构建出的抽象语法树如图5所示。
从图5中可见,构建的抽象语法树包括三个部分:第0段的Import节点,对应图3中的import语句;第1-5段的Assign(赋值)节点,对应图3中的第1部分和第2部分中的计算语句;第6-7段的Expr(表达式)节点,对应图3中的第3部分的输出语句。
步骤203、按照顺序依次遍历该抽象语法树中包含的每个节点,如果该节点为Assign节点,执行步骤204,如果该节点为Expr节点,执行步骤208,否则,执行步骤209。
步骤204、从该Assign节点的targets属性中的id属性中获取被赋值的目标变量。
抽象语法树的各节点的内容中,包含各种属性,用于表示密文计算代码中的一些语句内容。
本步骤中,针对Assign节点,首先从其targets属性中的id属性中获取被赋值的目标变量。例如,图6为图5所示的抽象语法树中编号为1的Assign节点的内容,从图6中可见,可以从该Assign节点的targets属性中的id属性中获取被赋值的目标变量“shuidian_a”。
步骤205、确定该Assign节点的value属性中是否包含func属性,且func属性的attr属性为pp.ss操作,如果是,执行步骤206,否则,执行步骤207。
步骤206、当该Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作时,获取该目标变量与密文计算代码的输入变量之间的来源关系。
从图6中可见,编号为1的Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作,pp.ss操作表示将输入变量赋值给一个目标变量,例如,从图6中方框中的内容可知,将输入变量“shuidianA”赋值给目标变量“shuidian_a”,即可以获取到该目标变量与密文计算代码的输入变量之间的来源关系,该来源关系表明目标变量“shuidian_a”来源于输入变量“shuidianA”。
本步骤中获取的变量之间的来源关系,可以存储到缓存中。
步骤207、当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取该目标变量与该Assign节点中的源变量之间的来源关系。
该Assign节点不包含pp.ss操作时,可以认为其中不包含输入变量,而是将一个源变量赋值给该目标变量,从而可以获取该目标变量与该Assign节点中的源变量之间的来源关系。
步骤中该Assign节点中的源变量可以是之前某个Assign节点中的目标变量,因此,在本步骤中获取的该目标变量与该Assign节点中的源变量之间的来源关系,结合之前获取的该源变量作为目标变量时与输入变量之间的来源关系,最终均可以分析出该Assign节点中的目标变量与输入变量之间的来源关系。
本步骤中获取的变量之间的来源关系,可以存储到缓存中。
步骤208、针对该Expr节点,当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,获取输出变量与该Expr节点中的源变量之间的来源关系。
当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,pp.reveal操作表示将源变量赋值给输出变量,从而可以获取输出变量与该Expr节点中的源变量之间的来源关系。
如果该Expr节点的value属性中不包含func属性,或包含的func属性的attr属性不为pp.reveal操作时,可以取消从该Expr节点中获取变量之间的来源关系,直接执行步骤209。
本步骤中获取的变量之间的来源关系,可以存储到缓存中。
步骤209、确定是否已遍历完该抽象语法树中的所有节点,如果已遍历完,执行步骤210,否则,返回上述步骤203。
步骤210、基于所获取的密文计算代码中各变量之间的来源关系,建立密文计算任务的各输入数据与各输出数据之间的血缘关系。
通过上述步骤203-步骤209,所获取的密文计算代码中各变量之间的来源关系中,包括了表示输入数据的输入变量和表示输出数据的输出变量,因此,通过各变量之间的来源关系,最终可以建立各输入变量与各输出变量之间的来源关系,作为密文计算任务的各输入数据与各输出数据之间的血缘关系。
例如,按照图3所示的密文计算代码,输入变量为“shuidianA”和“shuidianB”,输出变量为“total_power_all”和“total_power_nonpublic”,通过代码中各变量之间的来源关系,可以确定输出变量“total_power_all”来源于输入变量“shuidianA”和“shuidianB”,输出变量“total_power_nonpublic”来源于输入变量“shuidianB”,因此,建立的血缘关系可以如图7所示。
本申请实施例中,如果执行了上述步骤201,那么本步骤中,具体可以基于密文计算代码中各变量之间的来源关系,以及从任务配置文件中获取的该输入对应关系和该输出对应关系,建立密文计算任务的各输入数据地址与各输出数据地址之间的血缘关系。
例如,按照图3所示的密文计算代码,建立的血缘关系可以如图8所示,图8所示的血缘关系中表明了输入数据和输出数据的地址,更便于该血缘关系的后续使用。
在上述步骤206、207和208中,获取了从一个Assign节点或一个Expr节点中获取的变量之间的来源关系,然后进行了缓存,也可以在每次从一个Assign节点或一个Expr节点中获取变量之间的来源关系后,基于已经缓存的来源关系,建立该Assign节点中的目标变量与输入变量之间的来源关系,并缓存,或建立该Expr节点中的输出变量与输入变量之间的来源关系,并缓存。
采用本申请实施例提供的上述图2所示的数据血缘关系建立方法,实现了针对密文数据的数据血缘关系的建立,并且,建立的血缘关系中可以表明输入数据和输出数据的地址,更便于该血缘关系的后续使用。
本申请实施例中,在上述图2所示方法的基础上,还可以进一步的建立更精细化的血缘关系,具体描述如下:
在上述图2所示的方法中,针对Assign节点,当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,如果该Assign节点包含slice属性,从slice属性中获取该Assign节点中的源变量的列号;
获取该Assign节点中的目标变量与该Assign节点中的源变量的列号之间的来源关系,即所获取的来源关系精确到了数据的某一列;
相应的,基于密文计算代码中各变量之间的来源关系,建立密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
每个Assign节点中,对于与输入变量有关系的源变量,源变量的列号也会表示输入变量的某一列,因此,最终可以获取到输出变量与输入变量的某一列之间的来源关系,从而可以建立密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
例如,按照上述图3所示的密文计算代码,其中,第2部分中语句“total_power_all= shuidian_a[i][1] + shuidian_b[i][1]”所对应的Assign节点中的相关部分,如图9所示,从中可以获知变量“shuidian_a”作为目标被赋值输入变量“shuidianA”后,又作为源变量参与计算,并且,在变量“shuidian_a”作为源变量参与计算时,被使用到的是第1列,变量“shuidian_a”的第1列对应输入变量“shuidianA”的第1列。
进一步的,还可以从样本示例中获取具有slice属性的该源变量表示的输入数据的该列号对应的字段名称;
相应的,在建立血缘关系时,可以基于密文计算代码中各变量之间的所述来源关系,建立密文计算任务的各输入数据与各输出数据之间精确到字段名称的血缘关系。
例如,按照上述图3所示的密文计算代码,输入变量“shuidianA”和“shuidianB”对应的第1列的字段名称均为“Power Generation”,且输出变量“total_power_all”来源于输入变量“shuidianA”的第1列和“shuidianB”的第1列,输出变量“total_power_non_public”来源于输入变量“shuidianB”的第1列,从而,可以建立如图10所示的血缘关系,其中,精确到了字段名称。
基于同一发明构思,根据本申请上述实施例提供的数据血缘关系建立方法,相应地,本申请另一实施例还提供了一种数据血缘关系建立装置,其结构示意图如图11所示,具体包括:
语法树构建模块111,用于构建密文计算任务的Python脚本中密文计算代码的抽象语法树;
节点遍历模块112,用于遍历所述抽象语法树中包含的Assign节点和Expr节点;
来源关系获取模块113,用于从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系;
血缘关系建立模块114,用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系。
进一步的,所述来源关系获取模块113,具体用于针对遍历到的每个所述Assign节点,从该Assign节点的targets属性中的id属性中获取被赋值的目标变量;
当该Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作时,获取所述目标变量与所述密文计算代码的输入变量之间的来源关系;
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系;
针对遍历到的每个所述Expr节点,当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,获取输出变量与该Expr节点中的源变量之间的来源关系。
进一步的,所述来源关系获取模块113,具体用于当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,如果该Assign节点包含slice属性,从slice属性中获取该Assign节点中的源变量的列号;
获取所述目标变量与该Assign节点中的源变量的列号之间的来源关系;
所述血缘关系建立模块114,具体用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
进一步的,所述来源关系获取模块113,还用于从样本示例中获取具有slice属性的该源变量表示的输入数据的该列号对应的字段名称;
所述血缘关系建立模块114,具体用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到字段名称的血缘关系。
进一步的,所述来源关系获取模块113,还用于获取所述密文计算任务的任务配置文件中输入数据地址与输入变量之间的输入对应关系,以及输出数据地址与输出变量之间的输出对应关系;
所述血缘关系建立模块114,具体用于基于所述密文计算代码中各变量之间的所述来源关系,以及所述输入对应关系和所述输出对应关系,建立所述密文计算任务的各输入数据地址与各输出数据地址之间的血缘关系。
上述各模块的功能可对应于图1和图2所示流程中的相应处理步骤,在此不再赘述。
本申请的实施例所提供的数据血缘关系建立装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要数据血缘关系建立装置具有上述功能,都应该在本申请的保护范围之内。
本申请实施例还提供一种电子设备,如图12所示,包括处理器121和机器可读存储介质122,所述机器可读存储介质122存储有能够被所述处理器121执行的机器可执行指令,所述处理器121被所述机器可执行指令促使:实现上述任一数据血缘关系建立方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据血缘关系建立方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一数据血缘关系建立方法。
上述电子设备中的机器可读存储介质可以包括随机存取存储器(Random AccessMemory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质,计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种数据血缘关系建立方法,其特征在于,包括:
构建密文计算任务的Python脚本中密文计算代码的抽象语法树;
遍历所述抽象语法树中包含的Assign节点和Expr节点;
从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系;
基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系;
所述从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系,包括:
针对遍历到的每个所述Assign节点,从该Assign节点的targets属性中的id属性中获取被赋值的目标变量;
当该Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作时,获取所述目标变量与所述密文计算代码的输入变量之间的来源关系;
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系,pp.ss操作表示将输入变量赋值给一个目标变量;
针对遍历到的每个所述Expr节点,当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,获取输出变量与该Expr节点中的源变量之间的来源关系,pp.reveal操作表示将源变量赋值给输出变量。
2.如权利要求1所述的方法,其特征在于,所述当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系,包括:
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,如果该Assign节点包含slice属性,从slice属性中获取该Assign节点中的源变量的列号;
获取所述目标变量与该Assign节点中的源变量的列号之间的来源关系;
所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系,包括:
基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
3.如权利要求2所述的方法,其特征在于,在所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系之前,还包括:
从样本示例中获取具有slice属性的该源变量表示的输入数据的该列号对应的字段名称;
所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系,包括:
基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到字段名称的血缘关系。
4.如权利要求1所述的方法,其特征在于,在所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系之前,还包括:
获取所述密文计算任务的任务配置文件中输入数据地址与输入变量之间的输入对应关系,以及输出数据地址与输出变量之间的输出对应关系;
所述基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系,包括:
基于所述密文计算代码中各变量之间的所述来源关系,以及所述输入对应关系和所述输出对应关系,建立所述密文计算任务的各输入数据地址与各输出数据地址之间的血缘关系。
5.一种数据血缘关系建立装置,其特征在于,包括:
语法树构建模块,用于构建密文计算任务的Python脚本中密文计算代码的抽象语法树;
节点遍历模块,用于遍历所述抽象语法树中包含的Assign节点和Expr节点;
来源关系获取模块,用于从所述Assign节点和所述Expr节点中的内容,获取所述密文计算代码中各变量之间的来源关系;
血缘关系建立模块,用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间的血缘关系;
所述来源关系获取模块,具体用于针对遍历到的每个所述Assign节点,从该Assign节点的targets属性中的id属性中获取被赋值的目标变量;
当该Assign节点的value属性中包含func属性,且func属性的attr属性为pp.ss操作时,获取所述目标变量与所述密文计算代码的输入变量之间的来源关系;
当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,获取所述目标变量与该Assign节点中的源变量之间的来源关系,pp.ss操作表示将输入变量赋值给一个目标变量;
针对遍历到的每个所述Expr节点,当该Expr节点的value属性的func属性的attr属性为pp.reveal操作时,获取输出变量与该Expr节点中的源变量之间的来源关系,pp.reveal操作表示将源变量赋值给输出变量。
6.如权利要求5所述的装置,其特征在于,所述来源关系获取模块,具体用于当该Assign节点的value属性中未包含func属性,或包含的func属性的attr属性不为pp.ss操作时,如果该Assign节点包含slice属性,从slice属性中获取该Assign节点中的源变量的列号;
获取所述目标变量与该Assign节点中的源变量的列号之间的来源关系;
所述血缘关系建立模块,具体用于基于所述密文计算代码中各变量之间的所述来源关系,建立所述密文计算任务的各输入数据与各输出数据之间精确到列的血缘关系。
7.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-4任一所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。
CN202211178969.9A 2022-09-27 2022-09-27 一种数据血缘关系建立方法、装置及电子设备 Active CN115291889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211178969.9A CN115291889B (zh) 2022-09-27 2022-09-27 一种数据血缘关系建立方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211178969.9A CN115291889B (zh) 2022-09-27 2022-09-27 一种数据血缘关系建立方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN115291889A CN115291889A (zh) 2022-11-04
CN115291889B true CN115291889B (zh) 2023-01-13

Family

ID=83833503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211178969.9A Active CN115291889B (zh) 2022-09-27 2022-09-27 一种数据血缘关系建立方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115291889B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032362A (zh) * 2021-03-18 2021-06-25 广州虎牙科技有限公司 数据血缘分析方法、装置、电子设备和存储介质
CN113672628A (zh) * 2021-10-22 2021-11-19 中航金网(北京)电子商务有限公司 数据血缘分析方法、终端设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111071B2 (en) * 2012-11-05 2015-08-18 Sap Se Expression rewriting for secure computation optimization
CN111538743B (zh) * 2020-04-22 2023-08-18 电子科技大学 基于sql的数据血缘关系分析方法以及***
CN113742368A (zh) * 2021-09-16 2021-12-03 北京航空航天大学 一种数据血缘关系分析方法
CN114357480A (zh) * 2021-12-27 2022-04-15 徐工汉云技术股份有限公司 一种基于sql血缘关系的数据安全查询方法、装置和设备
CN114398394A (zh) * 2022-01-14 2022-04-26 建信金融科技有限责任公司 数据血缘解析方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032362A (zh) * 2021-03-18 2021-06-25 广州虎牙科技有限公司 数据血缘分析方法、装置、电子设备和存储介质
CN113672628A (zh) * 2021-10-22 2021-11-19 中航金网(北京)电子商务有限公司 数据血缘分析方法、终端设备及介质

Also Published As

Publication number Publication date
CN115291889A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
US11221832B2 (en) Pruning engine
CN109376166B (zh) 脚本转换方法、装置、计算机设备及存储介质
US10387236B2 (en) Processing data errors for a data processing system
CN111104335B (zh) 一种基于多层次分析的c语言缺陷检测方法及装置
US20140289705A1 (en) Systems and Methods for Generating Function-Relation Call Trees
CN110059006B (zh) 代码审计方法及装置
CN110866029B (zh) sql语句构建方法、装置、服务器及可读存储介质
CN104320312A (zh) 网络应用安全测试工具及模糊测试用例生成方法和***
CN107391528B (zh) 前端组件依赖信息搜索方法及设备
CN115599386A (zh) 代码生成方法、装置、设备及存储介质
CN115599359A (zh) 一种代码生成方法、装置、设备及介质
CN111240772A (zh) 一种基于区块链的数据处理方法、装置及存储介质
CN112631925B (zh) 一种单变量原子违背缺陷的检测方法
CN115291889B (zh) 一种数据血缘关系建立方法、装置及电子设备
CN117763024A (zh) 一种数据分片抽取方法及装置
JP2022078962A (ja) エラーに関連するコードの行の自動識別
CN110334098A (zh) 一种基于脚本的数据库合并方法及***
US8321844B2 (en) Providing registration of a communication
CN113901094B (zh) 一种数据处理方法、装置、设备及存储介质
CN115545006B (zh) 规则脚本生成方法、装置、计算机设备及介质
CN117407430B (zh) 数据查询方法、装置、计算机设备及存储介质
CN111221843A (zh) 大数据处理方法及装置
CN113469284B (zh) 一种数据分析的方法、装置及存储介质
CN113220530B (zh) 数据质量监控方法及平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant