CN117454405A

CN117454405A - 一种基于sgx的数据分析方法、***及存储介质

Info

Publication number: CN117454405A
Application number: CN202311518399.8A
Authority: CN
Inventors: 程司时; 范学鹏; 汤载阳; 王宸敏; 曾驭龙; 张金波
Original assignee: Beijing Yizhi Technology Co ltd
Current assignee: Beijing Yizhi Technology Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-01-26

Abstract

本发明实施例公开了一种基于SGX的数据分析方法、***及存储介质，该方法在数据分析方的可信执行环境中预设的用于进行数据分析的飞地中先对数据提供方提供的加密数据集和模型提供方提供的加密模型进行解密后获得数据分析模型和多个原始数据集，对原始数据集进行融合后获得融合数据集，再将融合数据集输入数据分析模型中进行数据分析，获得分析结果，最后将加密后的分析结果发送给分析任务发起方，整个数据分析过程中，用户数据、数据分析模型和分析结果的隐私和安全性始终得到保护。

Description

一种基于SGX的数据分析方法、***及存储介质

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于SGX的数据分析方法、***及存储介质。

背景技术

通信运营商和互联网公司依赖他们所掌握的用户信息来与广告商的深度转化链路数据(例如付费详情)进行整合和分析，从而优化广告效果，提高用户满意度。目前，各个行业之间的用户数据并不互通，并且经常包含关于用户的隐私信息，这使得数据具有一定的敏感性。随着对数据安全和隐私的政策日益严格，公开共享数据进行数据分析处理已经不再合适。

基于可信执行环境(TEE，Trusted Execution Environment)技术，英特尔提出了软件保护扩展(SGX，Software Guard Extensions)技术，SGX是一种切实可行的用户隐私保护措施，它采用硬件辅助的enclave(飞地，也称为安全区)封装敏感数据以及关键程序代码，防止其被泄露。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种基于SGX的数据分析方法、***及存储介质，用于在数据分析过程中保护用户隐私和数据安全性。

为实现上述目的，第一方面，本发明实施例提供了一种基于SGX的数据分析方法，该方法应用于数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，所述方法包括：

接收模型提供方提供的加密模型和N个数据提供方提供的加密数据集，其中，N≥2，N为整数；

对所述加密模型和N个加密数据集分别进行解密，获得数据分析模型和N个原始数据集；

对N个所述原始数据集中的数据进行融合处理，获得融合数据集；

将所述融合数据集输入所述数据分析模型中进行数据分析，获得分析结果；

将所述分析结果加密，将加密后的所述分析结果发送给分析任务发起方。

进一步，在接收模型提供方提供的加密模型和N个数据提供方提供的加密数据之前，所述方法还包括：

生成一对第一非对称密钥，其中公钥记为P_t，私钥记为S_t；

将所述公钥P_t发送给模型提供方和数据提供方，以使所述模型提供方使用所述公钥P_t对模型提供方自身生成的第二非对称密钥的私钥S_a进行加密得到第一加密私钥S^’ _a、数据提供方使用所述公钥P_t对数据提供方自身生成的第三非对称密钥的私钥S_b进行加密得到第二加密私钥S^’ _b；

接收所述模型提供方传输的第一加密私钥S^’ _a和N个数据提供方传输的N个第二加密私钥S^’ _b；

通过私钥S_t对所述第一加密私钥S^’ _a和第二加密私钥S^’ _b进行解密，获得所述第二非对称密钥的私钥S_a和N个第三非对称密钥的私钥S_b。

进一步，所述加密模型由所述模型提供方通过第二非对称密钥的公钥P_a对所述数据分析模型加密后获得；

所述加密数据集由所述数据提供方通过第三非对称密钥的公钥P_b对所述原始数据集加密后获得。

进一步，对所述加密模型和N个加密数据集分别进行解密，获得数据分析模型和N个原始数据集，包括：

使用第二非对称密钥的私钥S_a对所述加密模型进行解密，获得所述数据分析模型；

使用N个第三非对称密钥的私钥S_b对应对N个加密数据集进行解密，获得N个原始数据集。

进一步，在接收模型提供方提供的加密模型和N个数据提供方提供的加密数据集之后，所述方法还包括：

验证所述加密模型的模型授权和每个所述加密数据集的数据授权的合法性，若验证合法，对所述加密模型和N个加密数据集分别进行解密；

其中，所述模型授权为模型提供方采用第二非对称密钥的私钥S_a对预设信息的签名，所述数据授权为数据提供方采用第三非对称密钥的私钥S_b对所述预设信息的签名，其中，所述预设信息包括公钥P_t和所述飞地的哈希值Hpred。

进一步，验证所述加密模型的模型授权和每个所述加密数据集的数据授权的合法性，若模型授权或至少一个数据授权验证非法，中止数据分析。

进一步，所述原始数据集中的数据按照数据id进行排序。

进一步，将所述分析结果加密，包括：

将分析结果使用所述分析任务发起方生成的公钥P_c加密。

第二方面，本发明实施例还提供了一种基于SGX的数据分析***，该***运行于数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，所述***包括：

接收模块，用于接收模型提供方提供的加密模型和N个数据提供方提供的加密数据集，其中，N≥2，N为整数；

解密模块，用于对所述加密模型和N个加密数据集分别进行解密，获得数据分析模型和N个原始数据集；

融合模块，用于对N个所述原始数据集中的数据进行融合处理，获得融合数据集；

分析模块，用于将所述融合数据集输入所述数据分析模型中进行数据分析，获得分析结果；

加密模块，用于将所述分析结果加密，将加密后的所述分析结果发送给分析任务发起方。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。

实施本发明实施例提供的方法，在数据分析方的可信执行环境中预设的用于进行数据分析的飞地中先对数据提供方提供的加密数据集和模型提供方提供的加密模型进行解密后获得数据分析模型和多个原始数据集，对原始数据集进行融合后获得融合数据集，再将融合数据集输入数据分析模型中进行数据分析，获得分析结果，最后将加密后的分析结果发送给分析任务发起方，整个数据分析过程中，原始数据、数据分析模型和分析结果的隐私和安全性始终得到保护。

由于数据加密传输且数据分析过程在数据分析方的可信执行环境中预设的用于进行数据分析的飞地中进行，大大降低了数据泄露的风险，从根本上确保隐私数据不被非法窃取、外泄或误用，不同的数据提供方之间可以更加放心地进行数据共享，促进行业间的合作。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种基于SGX的数据分析方法的流程示意图；

图2是本发明实施例提供的一种基于SGX的数据分析***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

相关技术中的问题在于：在对行业数据进行分析时，不同数据提供方之间的数据并不互通，且不同数据提供方的原始数据中都含有需要保护或保密的隐私信息，这使得数据具有一定的敏感性，不能在不同的数据提供方之间随意流通，随着对数据安全和隐私的关切日益严格，公开共享数据的方法已经不再合适。

基于可信执行环境(TEE，Trusted Execution Environment)技术，英特尔提出了软件保护扩展(SGX，Software Guard Extensions)技术。SGX是一种切实可行的用户隐私保护措施，它采用硬件辅助的enclave(飞地，也称为安全区)封装敏感数据以及关键程序代码，防止其被泄露。可信执行环境中可以设置功能不同的飞地，本方案的数据分析过程在用于进行数据分析的飞地中进行。

本发明提出的技术方案基于SGX技术，数据提供方在本地先加密数据后，将加密后的数据传输至数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，同时，加密后的数据分析模型也会传输至数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，再在可信执行环境的飞地中进行数据解密、数据融合、模型解密、数据分析，数据分析结果在可信执行环境的飞地中加密后传输至分析任务发起方。数据通过加密传输且数据分析过程在数据分析方的可信执行环境的飞地中进行，大大降低了数据泄露的风险，从根本上确保隐私数据不被非法窃取、外泄或误用。

本申请实施例中，基于数据安全通道，允许对于处在不同地点的数据提供方将加密后的原始数据集传输至数据分析方的可信执行环境中，由于原始数据集被加密是密文，所以加密后的原始数据集就算被非法窃取或外泄，也不会造成信息泄露。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请实施例提供的一种基于SGX的数据分析方法的流程图，该方法应用于数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，数据分析方是独立的第三方。该方法包括如下的步骤S110至步骤S150：

S110：接收模型提供方提供的加密模型和N个数据提供方提供的加密数据集，其中，N≥2，N为整数。

数据提供方至少包括两个，模型提供方可以是独立的第三方，也可以是其中一个数据提供方，即由数据提供方提供数据分析模型。可以理解的是，分析任务发起方既可以是其中一个数据提供方，也可以是独立的第三方。数据分析模型为预先训练完成的具有数据分析功能的模型。

每个数据提供方具有各自的原始数据集，原始数据集在数据提供方中加密后得到加密数据集，将加密数据集传输至数据分析方的可信执行环境中预设的用于进行数据分析的飞地中。数据分析模型在模型提供方中加密后得到加密模型，将加密模型传输至数据分析方的可信执行环境中预设的用于进行数据分析的飞地中。

数据分析模型和原始数据集均采用非对称加密的方式进行加密。模型提供方会生成一对第二非对称密钥，其中公钥记为P_a，私钥记为S_a。模型提供方采用公钥P_a对数据分析模型进行加密，获得加密模型。

数据提供方会生成一对第三非对称密钥，其中公钥记为P_b，私钥记为S_b。可以理解的是，每个数据提供方生成的第三非对称密钥均不相同，可以记第i个数据提供方生成的第三非对称密钥的公钥为P_bi，私钥记为S_bi。对数据提供方来说，采用公钥P_b对原始数据集进行加密，即可得到加密数据集。

由于数据分析方需要对加密数据集和加密模型进行解密，数据分析方需要获取第二非对称密钥的私钥S_a以及每个第三非对称密钥的私钥S_bi。为防止第二非对称密钥的私钥S_a以及每个第三非对称密钥的私钥S_bi在传输的过程中被非法窃取或外泄，本实施例中，先对第二非对称密钥的私钥S_a以及每个第三非对称密钥的私钥S_bi进行非对称加密得到第一加密私钥S^’ _a、第二加密私钥S^’ _bi，然后将第一加密私钥S^’ _a、第二加密私钥S^’ _bi传输到数据分析方的可信执行环境中预设的用于进行数据分析的飞地中。

数据分析方在飞地中生成一对第一非对称密钥，其中公钥记为P_t，私钥记为S_t，然后将所述公钥P_t发送给模型提供方和数据提供方，以使所述模型提供方使用所述公钥P_t对模型提供方自身生成的第二非对称密钥的私钥S_a进行加密得到第一加密私钥S^’ _a、数据提供方使用所述公钥P_t对数据提供方自身生成的第三非对称密钥的私钥S_b进行加密得到第二加密私钥S^’ _b。

数据分析方接收所述模型提供方传输的第一加密私钥S^’ _a和N个数据提供方传输的N个第二加密私钥S^’ _b，并传入飞地中。最后，在飞地中，通过私钥S_t对所述第一加密私钥S^’ _a和第二加密私钥S^’ _b进行解密，获得所述第二非对称密钥的私钥S_a和N个第三非对称密钥的私钥S_b。

进一步地，为保证数据提供方提供的原始数据只会被用于数据分析，而不会在数据分析方的可信执行环境中被挪作他用，数据提供方在对原始数据集进行加密时，还会生成数据授权。同理，为保证模型提供方提供的数据分析模型不会在数据分析方的可信执行环境中被挪作他用，模型提供方在对数据分析模型进行加密时，还会生成模型授权。

本实施例中，所述模型授权为模型提供方采用第二非对称密钥的私钥S_a对预设信息的签名，所述数据授权为数据提供方采用第三非对称密钥的私钥S_b对所述预设信息的签名，其中，所述预设信息包括公钥P_t和所述飞地的哈希值Hpred。用于进行数据分析的飞地的哈希值Hpred由数据分析方传输给每个数据提供方和模型提供方。

数据提供方会将加密数据集和数据授权传输至数据分析方，模型提供方会将加密模型和模型授权传输至数据分析方。在数据分析方的可信执行环境中预设的用于进行数据分析的飞地中分别验证模型授权和每个数据授权的合法性，即模型授权和每个数据授权是否为期望的公钥P_t和用于进行数据分析的飞地的哈希值Hpred。

若模型授权和每个数据授权都验证合法，则继续执行后续的数据分析流程；若模型授权或至少一个数据授权验证非法，则中止数据分析。

本实施例中，所述原始数据集中的数据按照数据id进行排序，例如，可以按照数据id进行升序排序，或者进行降序排序。

S120：对所述加密模型和N个加密数据集分别进行解密，获得数据分析模型和N个原始数据集。

具体包括：使用第二非对称密钥的私钥S_a对所述加密模型进行解密，获得所述数据分析模型；使用N个第三非对称密钥的私钥S_b对应对N个加密数据集进行解密，获得N个原始数据集。

S130：对N个所述原始数据集中的数据进行融合处理，获得融合数据集。

具体的，可以根据数据id进行数据融合，获得融合数据集。由于飞地的内存有限，排序后数据按照数据id融合可以提高效率。

S140：将所述融合数据集输入所述数据分析模型中进行数据分析，获得分析结果。

S150：将所述分析结果加密，将加密后的所述分析结果发送给分析任务发起方。

具体的，将分析结果使用所述分析任务发起方生成的公钥P_c加密。若任务发起方为独立的第三方，则任务发起方需要将其生成的公钥P_c传输给数据分析方，由数据分析方在飞地中使用公钥P_c分析结果进行加密。

若任务发起方为第m个数据提供方，则任务发起方可以直接在飞地中根据第m个数据提供方的私钥S_bm计算生成对应的公钥P_bm，该公钥P_bm即为公钥P_c。

分析任务发起方接收该加密的分析结果后，使用对应的私钥S_c对其进行解密即可获得分析结果明文。

综上，本实施例提供的方法，在数据分析方的可信执行环境中预设的用于进行数据分析的飞地中先对数据提供方提供的加密数据集和模型提供方提供的加密模型进行解密后获得数据分析模型和多个原始数据集，对原始数据集进行融合后获得融合数据集，再将融合数据集输入数据分析模型中进行数据分析，获得分析结果，最后将加密后的分析结果发送给分析任务发起方，整个数据分析过程中，原始数据、数据分析模型和分析结果的隐私和安全性始终得到保护。

并且，本实施例提供的数据分析方法应用领域和使用场景广泛，具有极高的商业推广价值。

第二方面，本实施例还提供了一种基于SGX的数据分析***，该***运行于数据分析方的可信执行环境中预设的用于进行数据分析的飞地中。如图2所示，所述***包括：

接收模块201，用于接收模型提供方提供的加密模型和N个数据提供方提供的加密数据集，其中，N≥2，N为整数；

解密模块202，用于对所述加密模型和N个加密数据集分别进行解密，获得数据分析模型和N个原始数据集；

融合模块203，用于对N个所述原始数据集中的数据进行融合处理，获得融合数据集；

分析模块204，用于将所述融合数据集输入所述数据分析模型中进行数据分析，获得分析结果；

加密模块205，用于将所述分析结果加密，将加密后的所述分析结果发送给分析任务发起方。

进一步地，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述基于SGX的数据分析方法。

所述计算机可读存储介质可以是前述实施例所述的后台服务器的内部存储单元，例如***的硬盘或内存。所述计算机可读存储介质也可以是所述***的外部存储设备，例如所述***上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述***的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述***所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于SGX的数据分析方法，其特征在于，该方法应用于数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，所述方法包括：

2.如权利要求1所述的一种基于SGX的数据分析方法，其特征在于，在接收模型提供方提供的加密模型和N个数据提供方提供的加密数据之前，所述方法还包括：

生成一对第一非对称密钥，其中公钥记为P_t，私钥记为S_t；

3.如权利要求2所述的一种基于SGX的数据分析方法，其特征在于，所述加密模型由所述模型提供方通过第二非对称密钥的公钥P_a对所述数据分析模型加密后获得；

4.如权利要求3所述的一种基于SGX的数据分析方法，其特征在于，对所述加密模型和N个加密数据集分别进行解密，获得数据分析模型和N个原始数据集，包括：

5.如权利要求3所述的一种基于SGX的数据分析方法，其特征在于，在接收模型提供方提供的加密模型和N个数据提供方提供的加密数据集之后，所述方法还包括：

6.如权利要求5所述的一种基于SGX的数据分析方法，其特征在于，验证所述加密模型的模型授权和每个所述加密数据集的数据授权的合法性，若模型授权或至少一个数据授权验证非法，中止数据分析。

7.如权利要求1所述的一种基于SGX的数据分析方法，其特征在于，所述原始数据集中的数据按照数据id进行排序。

8.如权利要求1所述的一种基于SGX的数据分析方法，其特征在于，将所述分析结果加密，包括：

将分析结果使用所述分析任务发起方生成的公钥P_c加密。

9.一种基于SGX的数据分析***，其特征在于，该***运行于数据分析方的可信执行环境中预设的用于进行数据分析的飞地中，所述***包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。