CN114817976A

CN114817976A - 一种传感器数据保护方法、***、计算机设备及智能终端

Info

Publication number: CN114817976A
Application number: CN202210253232.2A
Authority: CN
Inventors: 朱辉; 文浩斌; 李晖; 王枫为; 薛行策; 张璇
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-07-29
Anticipated expiration: 2042-03-15
Also published as: CN114817976B

Abstract

本发明属于信息数据安全技术领域，公开了一种传感器数据保护方法、***、计算机设备及智能终端，采用随机游走算法以及生成对抗网络的训练方法，用户无需定义具体的动作序列也不必耗费本地计算资源进行数据合成，用户只需要在使用之前定义各动作所占比例，然后将预定义数据交由云服务器，由云服务器完成动作序列构建以及多传感器拟真数据生成，并将拟真数据结合动作序列形成的拟真数据集合交由请求发起者，由请求发起者对拟真数据集合进行分解处理，并利用Hook方法对本地传感器接口数据进行替换，最终达到在移动设备多传感器上实现完全匿名化的效果。

Description

一种传感器数据保护方法、***、计算机设备及智能终端

技术领域

本发明属于信息数据安全技术领域，尤其涉及一种传感器数据保护方法、***、计算机设备及智能终端。

背景技术

随着移动互联网的发展，智能终端、位置服务等新技术的融合催生了移动应用与服务的空前发展。嵌入个人智能设备的传感器，在面向个性化定制的移动应用中更是为用户带来了便捷的使用体验。如加速度计、陀螺仪和磁力计，产生的数据可用于监测用户的物理活动、互动以及情绪。安装在可穿戴设备上的应用程序可以获得原始的传感器数据，为手势识别或者活动识别等任务做出推断。现有研究表明：运动传感器能够作为媒介被侧信道攻击利用，窃取用户的敏感输入、获得用户的运动状态、识别并追踪特点设备。更重要的是，获取传感器数据并不需要用户授予权限，这导致基于运动传感器的隐私数据推断易于实现，并且隐蔽性极强。

目前传感器数据隐私保护策略使用虚假随机数据或重采样等失真数据给应用程序等类似方法，必然会降低传感器数据在可用性识别上的精度和准确度，例如动作识别与步数计算，使提供的数据与真实的数据有明显差异，而且虚假随机数据容易被服务商识别，可能引起应用程序的崩溃从而无法为用户提供服务。而且目前的防御策略均在保证可用性的前提下进行，未考虑到全生命周期的隐私保护，若用户同时需要保护运动信息等用户背景知识，则目前的防御策略无法做到有效保护。目前的拟真数据生成方法，局限于使用生成对抗网络解决生成问题，无法有效解决生成数据空间小的问题；当迭代次数达到一定数量之后，会出现相似度较高的拟真数据。且目前的拟真数据生成方法在生成数据时仅针对单一传感器，当应用程序需要多传感器联合判断时，无法完成多传感器的协同，从而造成对目标行为的拟真数据存在失真的情况。

目前的防御措施存在一些弊端。提供随机的虚假数据或重采样后的失真数据给应用程序，会降低精度和准确度，带来较大的误差。提供模型处理后的模糊数据给应用程序，虽然会提高可用性，但模型处理时间较长，无法满足传感器数据的时效性，无法做到真正的可用。对于拟真数据生成，现有的基于生成对抗网络的数据生成方案存在模式崩溃的问题，仅在小批次、小范围内可行。现有技术未考虑到完全匿名性，当攻击者获得一定的背景知识时，会在一定程度上影响对用户隐私的保护。具体来说，例如专利《基于差分隐私的安卓终端传感器信息保护方法》，专利号为CN201810257632.4，该方法选择在真实数据中加入特定的Laplace噪声，由于使用了真实数据，相比于全混淆方法，此方案还是会泄露部分背景信息。专利《一种基于条件式生成对抗网络的传感器数据生成模型及方法》，专利号为CN202110312274.4，该方案模型只能解决生成问题，可以针对具体的动作生成具体的传感器数据，达到拟真数据生成的效果，但是解决生成对抗网络模型重复使用带来的模式崩溃问题，存在数据大批量重复问题，且模型生成数据时仅针对单一传感器，无法完成多传感器的协同。

通过上述分析，现有技术存在的问题及缺陷为：

(1)目前的防御策略都存在提供虚假随机数据或重采样等失真数据给应用程序的情况，必然会降低其在可用性识别上的精度和准确度，使提供的数据与真实的数据有较大差异，而且虚假随机数据容易被服务商识别，可能引起应用程序的崩溃。而且目前的防御策略均在保证可用性的前提下进行，未考虑到全生命周期的隐私保护，若用户同时需要保护运动信息等用户背景知识，则目前的防御策略无法做到有效保护。

(2)目前的拟真数据生成方法，局限于使用生成对抗网络解决生成问题，无法有效解决生成数据空间小的问题；当迭代次数达到一定数量之后，会出现相似度较高的拟真数据。且目前的拟真数据生成方法在生成数据时仅针对单一传感器，当应用程序需要多传感器联合判断时，无法完成多传感器的协同，从而造成对目标行为的拟真数据存在失真的情况。

(3)现有技术未考虑到完全匿名性，当攻击者获得一定的背景知识时，就会在一定程度上影响对用户隐私的保护。

解决以上问题及缺陷的难度为：基于Android终端的传感器数据替换需要在移动设备运行过程中替换Android***框架层的代码，难度较大；对于完全匿名性的全生命周期传感器数据隐私保护，针对用户指定的动作比例与转移概率，生成符合预定义分布及转移概率的动作序列，以及联合多传感器生成符合指定动作分类的拟真数据，

解决以上问题及缺陷的意义为：通过引入基于蒙特卡洛法的动作序列生成方法，适用于构建虚假的动作行为序列。通过引入基于时序生成对抗网络以及滤波组合的数据生成方法，适用于构建符合指定动作分类的拟真数据。该方法通过全时刻全方位替换传感器数据来达到全匿名隐私保护效果。大大提高了Android终端传感器信息的安全性，对未来移动终端的隐私保护有重要的理论价值和现实意义。

发明内容

针对现有技术存在的问题，本发明提供了一种传感器数据保护方法、***、计算机设备及智能终端。

本发明是这样实现的，一种传感器数据保护方法，所述传感器数据保护方法采用随机游走算法以及生成对抗网络的训练方法，进行数据合成，在使用之前定义各动作所占比例；将预定义数据交由云服务器，由云服务器完成动作序列构建以及多传感器拟真数据生成，并将拟真数据结合动作序列形成的拟真数据集合交由请求发起者；由请求发起者对拟真数据集合进行分解处理，并利用Hook方法对本地传感器接口数据进行替换，达到在移动设备多传感器上实现完全匿名化。

进一步，所述传感器数据保护方法通过全时刻全方位使用传感器拟真数据序列替换传感器数据。

进一步，所述多传感器拟真数据生成采用基于马尔科夫链蒙特卡洛法的随机游走算法，通过引入动作之间转移概率作为构造马尔科夫矩阵的建议分布，改进构造马尔科夫链过程中的接收分布，使随机游走算法结束后能够生成符合预定义分布的行为动作序列；

所述多传感器拟真数据生成采用基于时间序列的生成对抗网络模型结合基于贝叶斯优化的滤波组合方法，通过时间序列生成对抗网络产生符合预定义分类的数据传感器数据，引入滤波组合的方法并使用贝叶斯优化搜索符合要求的滤波组合参数。

进一步，所述传感器数据保护方法包括以下步骤：

第一步，***初始化，用户输入动作分布，输入动作包括站立、走路、跑步、坐、躺、上楼下楼动作的比例，通过预定义的动作转移概率与用户输入的动作分布构建转移矩阵，并进行多轮迭代验证是否达到平稳分布，为后续生成动作序列提供可行性支持；通过公式p(x，x′)＝q(x，x′)α(x，x′)计算状态转移矩阵P_ij＝p(i，j)i，j∈S，式中，S表示所有行为动作状态。通过初始化向量λ₀＝{1，0，0，0，0，0}，带入公式λ_t＝λ_t-1P，式中P表示状态转移矩阵，得到t轮迭代时的分布；

第二步，拟真动作序列构建，使用构建转移矩阵的建议分布与接受分布，结合随机游走算法生成符合预定义动作分布的行为动作序列，为后续传感器拟真数据排列规则提供数据支持；使用基于马尔科夫链蒙特卡罗方法的随机游走算法进行动作序列的生成，在随机游走算法中直接使用接收分布：

式中，p(x′)表示状态x′的分布，p(x)表示状态x的分布；

第三步，传感器拟真数据生成，预先使用真实数据训练生成对抗网络模型，使模型产生的拟真数据在动作识别任务下的准确率达到90％以上，对于每个动作均生成多组数据作为缓冲，为后续拟真数据空间扩充任务提供原始数据模板；

第四步，扩充拟真数据空间，将缓冲区中各个动作的数据取出，按照滤波组合规则进行结合，并使用贝叶斯优化算法选择多个能达到局部最优的参数；

第五步，数据结合与替换，按传感器拟真数据生成照行为动作序列将拟真数据进行填入，在移动设备底层Hook传感器数据分发接口，将批量的传感器数据进行替换，从移动端数据发布环节开始保护传感器数据的隐私安全。

进一步，所述第二步的拟真动作序列生成：采用基于马尔科夫链蒙特卡洛法的随机游走算法，根据用户预设的动作比例构建状态转移矩阵，实现虚假行为动作序列的生成；使用蒙特卡洛方法，构建马尔可夫转移矩阵采用转移核公式为：

p(x，x′)＝q(x，x′)α(x，x′)；

式中，式中q(x，x′)称为建议分布，α(x，x′)称为接收分布；建议分布是对称的，接收分布为：

式中，p(x′)表示状态x′的占比，p(x)表示状态x的占比；建议分布为从状态x到状态x′的转移概率，满足

式中，X表示与状态x相邻的状态集合，且包括状态x；

所述第三步的对抗网络模型的价值函数为：

其中，公式等号右侧第一部分表示判别器在高维潜在空间表示的真实数据上训练的期望，第二部分表示判别器在由生成器合成的高位潜在空间的合成数据上训练的期望；其中，G表示生成器网络，D表示判别器网络，E表示期望，x～p_data(x)表示从真是数据集中采样的真实数据，log表示对数函数，x表示真实数据，X表示高维潜在空间表示的真实数据，z～p_z(z)表示从正态分布采样的随机噪声向量，z表示随机噪声向量；

嵌入恢复损失计算采用以下公式计算原始数据与经过嵌入功能模块、所述恢复功能模块处理的数据之间的差异度：

式中，l_R表示原始数据与恢复后数据的差异度，E表示数学期望，x_t表示原始数据，

表示原始数据从原始空间映射到潜在空间，并从潜在空间映射到原始空间的数据，||...||₂表示L2范数；

二元判断模块在训练过程中采用以下损失函数计算真实数据与合成数据之间的差异：

式中，l_U表示真实数据与合成数据的交叉熵函数，y_t表示真实数据，

表示合成数据。

进一步，所述第四步的扩充拟真数据空间采用滤波组合方法实现数据空间的扩充，同时采用贝叶斯优化的方法来寻找滤波组合的各个参数；

其中，滤波组合方法为根据生成对抗网络产生的拟真数据，截至频率与组合比例后按照公式进行原始数据与滤波数据的组合：

f₁(x₁，x₂，x₃)＝x₁*filter(x₂，data)+x₃*data；

式中，公式等号右边第一部分表示一定比例的原始数据，第二部分表示一定比例的滤波后的数据；x₁表示组合数据中滤波数据的比例，x₂表示滤波器的截止频率，data表示原始数据，filter(x_２，data)表示滤波处理后的数据，x₃表示组合数据中原始数据的比例；公式等号左边表示滤波组合后的结果；

使用贝叶斯优化算法来寻找参数(x₁，x₂，x₃)，包括优化表达式、拟合模型、采集函数；

确定优化表达式，高斯过程作为拟合模型，概率提升函数作为采集函数：

f₂(x₁，x₂，x₃)＝dtw(f₁(x₁，x₂，x₃)，data)；

式中，公式等号右边表示滤波组合后数据与原始数据的距离，公式等号左边表示距离的具体数值；其中，dtw表示动态时间调整距离计算函数，f₁(x₁，x_２，x₃)表示滤波组合数据，data表示原始数据；

所述第五步的传感器数据的拦截与替换：通过Hook实现传感器监控模块，对传感器传递数据接口进行底层拦截与替换；在Android8.0***源码中找到控制分发传感器数据的模块类android.hardware.SystemSensorManager，在模块类中找到具体的传感器处理子类SensorEventQueue，与其中的分发函数dispatchSensorEvent；对***服务进程中的SystemSensorManager下的dispatchSensorEvent方法进行Hook，并加载预先编译好的替换函数模块，使用合成数据对传感器接口进行替换。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述传感器数据保护方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述传感器数据保护方法。

本发明的另一目的在于提供一种实施所述传感器数据保护方法的传感器数据保护***，所述传感器数据保护***包括：

***初始化模块，用于实现用户输入动作分布，通过预定义的动作转移概率与用户输入的动作分布构建转移矩阵，并进行多轮迭代验证是否可以达到平稳分布，为后续生成动作序列提供可行性支持；

拟真动作序列构建模块，用于使用构建转移矩阵的建议分布与接受分布，结合随机游走算法生成符合预定义动作分布的行为动作序列，为后续传感器拟真数据排列规则提供数据支持；

传感器拟真数据生成模块，用于预先使用真实数据训练生成对抗网络模型，使模型产生的拟真数据在动作识别任务下的准确率达到90％以上，对于每个动作均生成多组数据作为缓冲，为后续拟真数据空间扩充任务提供原始数据模板；

扩充拟真数据空间模块，用于将缓冲区中各个动作的数据取出，按照滤波组合规则进行结合，并使用贝叶斯优化算法选择多个能达到局部最优的参数，由于可以产生与原始数据差异较大且分类相同的数据，这就适当解决了生成对抗网络可能存在的模式崩溃问题；

数据结合与替换模块，用于按传感器拟真数据生成照行为动作序列将拟真数据进行填入，在移动设备底层Hook传感器数据分发接口，将批量的传感器数据进行替换，从移动端数据发布环节开始保护传感器数据的隐私安全。

进一步，所述传感器数据保护***还包括：生成器、判别器；

所述生成器包括嵌入功能模块、恢复功能模块、嵌入恢复损失计算模块、多尺度循环模块、时序功能模块；

所述嵌入功能模块用于将数据从原始空间下的低维度映射到潜在空间下的高维度；所述恢复功能模块与所述嵌入功能模块相连接，用于将数据从高维潜在空间精确地恢复到低维的真实空间；所述嵌入恢复损失计算模块用于计算真实数据经过所述嵌入功能模块与所述恢复功能模块处理后，与原始数据的差异，用于重复训练所述嵌入功能模块与恢复功能模块，使原始数据能精准地在高维空间表达；所述多尺度循环模块用于学习多传感器各个维度的时域特性以及各个维度之间时域特征的相关性；所述时序功能模块，用于在对抗训练过程中更好地在高维潜在空间表示生成器输出的合成数据；

所述判别器包括二元判断功能模块、相似度计算模块；所述二元判断功能模块用于在对抗训练过程中区分真实数据与合成数据；所述相似度计算模块与所述二元判断功能模块相连接，用于计算在低维原始空间合成数据与真实数据之间的余弦相似度；

嵌入功能模块、恢复功能模块均由多尺度循环神经网络和全连接网络层构成，所述多尺度循环神经网络由不同大小的一维循环神经网络层构成，所述多尺度循环神经网络最后一层每个节点的输出作为全连接层的输入；

时序功能模块包括全连接网络和GRU网络；

嵌入恢复损失计算模块采用以下公式计算原始数据与经过所述嵌入功能模块、所述恢复功能模块处理的数据之间的差异度；

二元判断模块在训练过程中采用以下损失函数计算真实数据与合成数据之间的差异。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明的Android平台的传感器数据替换与拟真数据生成方法相结合，改进了现有方案实时性较差的缺陷，并且从移动终端的数据产生环节开始保护传感器数据的全生命周期隐私安全，同时在应用服务端防止第三方对用户隐私的恶意窃取与分析。

本发明通过基于马尔科夫链蒙特卡洛法的随机游走算法生成符合预定义分布与预定义转移概率的行为动作序列；通过基于时序生成对抗网络的传感器拟真数据生成方法与基于滤波组合与贝叶斯优化的拟真数据空间扩充方法，生成符合预定义分类的传感器拟真数据，且拟真数据之间有明显差异；通过全时刻全方位的替换移动终端传感器数据，可以针对移动设备传感器，达到在全生命周期且完全匿名化的用户隐私保护效果。

本发明将Android平台传感器数据的拦截及替换与基于多传感器拟真数据替换的安卓终端传感器数据保护策略相结合，不仅从移动端发布数据环节开始保护传感器数据的隐私，同时在服务器端有效防止攻击方对用户隐私的恶意推断，防止用户隐私被窃取。本发明将统计学习方法与深度学习方法应用在Android移动终端传感器数据隐私保护上，可以消除攻击者对用户隐私进行推断的能力。即使攻击者在较长时间对用户的传感器数据进行采集，也不会对隐私保护的安全性造成影响。本发明提出生成对抗网络产生拟真数据，使拟真数据在面对动作分类等推断时能保持与真实数据类似的精度。本发明采用滤波组合与贝叶斯优化算法实现拟真数据空间的扩充，滤波组合在保证频域特征的前提下，增大了在时域下与原始数据的差距，更方便地增大了拟真数据的空间。

本发明可以在移动端和服务端保证用户隐私安全，同时重复使用生成对抗网络模型并动态调整滤波参数，尽可能保证可用性识别精度并降低重复率，对服务端能达到较好的混淆效果，对攻击者拥有的背景信息不敏感；低频重采样技术由于使用真实数据，无法保证移动端数据安全，可以保证服务端对用户隐私推断的精度降低，但无法做到完全混淆；完全使用随机数据对传感器数据进行拦截与替换，可以保证移动端安全，但容易被服务端识别为异常用户并终止正常功能的服务。

附图说明

图1是本发明实施例提供的传感器数据保护方法的流程图。

图2是本发明实施例提供的传感器数据保护***的结构示意图。

图3是本发明实施例提供的传感器数据保护方法的实现流程图。

图4是本发明实施例提供的传感器数据保护***的原理图。

图5是本发明实施例提供的基于多传感器拟真数据替换的安卓终端传感器数据保护***流程图。

图6是本发明实施例提供的常见动作比例与转移概率示意图。

图7是本发明实施例提供的随机游走算法平稳分布收敛示意图。

图8是本发明实施例提供的生成对抗网络的传感器拟真数据生成模型架构示意图。

图9是本发明实施例提供的真实数据与拟真数据的曲线，行为类别是跑步示意图。

图10是本发明实施例提供的真实数据与拟真数据的曲线，行为类别是下楼示意图。

图11是本发明实施例提供的真实数据与拟真数据的曲线，行为类别是走路示意图。

图12是本发明实施例提供的低频滤波组合与原始数据的对比，行为是上楼梯，对比的数据是加速度计X轴数据示意图。

图13是本发明实施例提供的高频滤波组合与原始数据的对比，行为是上楼梯，对比的数据是加速度计X轴数据示意图。

图中：1、***初始化模块；2、拟真动作序列构建模块；3、传感器拟真数据生成模块；4、扩充拟真数据空间模块；5、数据结合与替换模块；100、子***；101、生成器；102、判别器；1011、自动编解码器；1012、嵌入恢复损失计算模块；1013、多尺度循环模块；1014、时序功能模块；1021、二元功能判别器；1022、相似度计算模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种传感器数据保护方法、***、计算机设备及智能终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的传感器数据保护方法包括以下步骤：

S101，***初始化，用户输入动作分布，通过预定义的动作转移概率与用户输入的动作分布构建转移矩阵，并进行多轮迭代验证是否可以达到平稳分布，为后续生成动作序列提供可行性支持；

S102，拟真动作序列构建，使用构建转移矩阵的建议分布与接受分布，结合随机游走算法生成符合预定义动作分布的行为动作序列，为后续传感器拟真数据排列规则提供数据支持；

S103，传感器拟真数据生成，预先使用真实数据训练生成对抗网络模型，使模型产生的拟真数据在动作识别任务下的准确率达到90％以上，对于每个动作均生成多组数据作为缓冲，为后续拟真数据空间扩充任务提供原始数据模板；

S104，扩充拟真数据空间，将缓冲区中各个动作的数据取出，按照滤波组合规则进行结合，并使用贝叶斯优化算法选择多个能达到局部最优的参数，由于可以产生与原始数据差异较大且分类相同的数据，这就适当解决了生成对抗网络可能存在的模式崩溃问题；

S105，数据结合与替换，按传感器拟真数据生成照行为动作序列将拟真数据进行填入，在移动设备底层Hook传感器数据分发接口，将批量的传感器数据进行替换，从移动端数据发布环节开始保护传感器数据的隐私安全。

本发明提供的传感器数据保护方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的传感器数据保护方法仅仅是一个具体实施例而已。

如图2与图4所示，本发明提供的传感器数据保护***包括：

***初始化模块1，用于实现用户输入动作分布，通过预定义的动作转移概率与用户输入的动作分布构建转移矩阵，并进行多轮迭代验证是否可以达到平稳分布，为后续生成动作序列提供可行性支持；

拟真动作序列构建模块2，用于使用构建转移矩阵的建议分布与接受分布，结合随机游走算法生成符合预定义动作分布的行为动作序列，为后续传感器拟真数据排列规则提供数据支持；

传感器拟真数据生成模块3，用于预先使用真实数据训练生成对抗网络模型，使模型产生的拟真数据在动作识别任务下的准确率达到90％以上，对于每个动作均生成多组数据作为缓冲，为后续拟真数据空间扩充任务提供原始数据模板；

扩充拟真数据空间模块4，用于将缓冲区中各个动作的数据取出，按照滤波组合规则进行结合，并使用贝叶斯优化算法选择多个能达到局部最优的参数，由于可以产生与原始数据差异较大且分类相同的数据，这就适当解决了生成对抗网络可能存在的模式崩溃问题；

数据结合与替换模块5，用于按传感器拟真数据生成照行为动作序列将拟真数据进行填入，在移动设备底层Hook传感器数据分发接口，将批量的传感器数据进行替换，从移动端数据发布环节开始保护传感器数据的隐私安全。

下面结合具体实施例对本发明的技术方案作进一步的描述。

实施例1：

本发明提供的传感器数据保护方法通过全时刻全方位使用传感器拟真数据序列替换传感器数据，达到在全生命周期且全匿名的隐私保护效果。针对基于多传感器拟真数据替换的传感器数据隐私保护方法与多传感器拟真数据生成方法进行改进。

本发明传感器数据隐私保护方法通过对现有的隐私保护的差分隐私保护方法的分析，针对当前方案中使用真实数据处理导致可能的用户背景泄露风险的局限，使用高度拟真的多传感器数据对移动设备传感器进行全时刻、全方位的替换。在整个过程中服务端无法获取用户真实数据，服务端可以对传入的拟真数据进行动作分类等分类任务，但无法获取用户的任何背景信息与隐私数据。

本发明多传感器拟真数据生成方法为了生成符合预定义分布的动作序列，设计了基于马尔科夫链蒙特卡洛法的随机游走算法，通过引入动作之间转移概率作为构造马尔科夫矩阵的建议分布，改进构造马尔科夫链过程中的接收分布，使随机游走算法结束后能够生成符合预定义分布的行为动作序列；为了生成在动作分类任务中表现良好且重复率低的多传感器拟真数据，设计了基于时间序列的生成对抗网络模型结合基于贝叶斯优化的滤波组合方法，通过时间序列生成对抗网络产生符合预定义分类的数据传感器数据，引入滤波组合的方法增大拟真数据的空间，并使用贝叶斯优化搜索符合要求的滤波组合参数，同时解决了生成对抗网络的模式崩溃问题。

使用以上步骤生成符合真实场景下的移动设备多传感器的拟真数据序列。

实施例2：

本发明基于多传感器拟真数据替换的安卓终端传感器数据保护方法的Andr_oid平台的传感器数据替换与拟真数据生成方法相结合，从移动终端的数据产生环节开始保护传感器数据的隐私安全，同时在应用服务端防止第三方对用户隐私的恶意窃取与分析；具体包括如下步骤：

步骤一，动作序列生成：采用基于马尔科夫链蒙特卡洛法的随机游走算法，根据用户预设的动作比例构建状态转移矩阵，实现虚假行为动作序列的生成；使用蒙特卡洛方法，构建马尔可夫转移矩阵采用转移核公式为：

p(x，x′)＝q(x，x′)α(x，x′)；

式中，式中q(x，x′)称为建议分布，α(x，x′)称为接收分布。假设建议分布是对称的，接收分布为：

式中，p(x′)表示状态x′的占比，p(x)表示状态x的占比。建议分布为从状态x到状态x′的转移概率，满足

式中，X表示与状态x相邻的状态集合，且包括状态x。

步骤二，初步生成拟真数据：采用时序生成对抗网络来生成多传感器拟真数据，包括：生成器、判别器，其中，所述生成器包括嵌入功能模块、恢复功能模块、嵌入恢复损失计算模块、多尺度循环模块、时序功能模块；所述嵌入功能模块用于将数据从原始空间下的低维度映射到潜在空间下的高维度；所述恢复功能模块与所述嵌入功能模块相连接，用于将数据从高维潜在空间精确地恢复到低维的真实空间；所述嵌入恢复损失计算模块用于计算真实数据经过所述嵌入功能模块与所述恢复功能模块处理后，与原始数据的差异，用于重复训练所述嵌入功能模块与恢复功能模块，使原始数据能精准地在高维空间表达；所述多尺度循环模块用于学习多传感器各个维度的时域特性以及各个维度之间时域特征的相关性；所述时序功能模块，用于在对抗训练过程中更好地在高维潜在空间表示生成器输出的合成数据；

以及所述判别器包括二元判断功能模块、相似度计算模块；所述二元判断功能模块用于在对抗训练过程中区分真实数据与合成数据；所述相似度计算模块与所述二元判断功能模块相连接，用于计算在低维原始空间合成数据与真实数据之间的余弦相似度。

模型的价值函数为：

其中，公式等号右侧第一部分表示判别器在高维潜在空间表示的真实数据上训练的期望，第二部分表示判别器在由生成器合成的高位潜在空间的合成数据上训练的期望；其中，G表示生成器网络，D表示判别器网络，E表示期望，x～p_data(x)表示从真是数据集中采样的真实数据，log表示对数函数，x表示真实数据，X表示高维潜在空间表示的真实数据，z～p_z(z)表示从正态分布采样的随机噪声向量，z表示随机噪声向量。

嵌入功能模块、恢复功能模块均由多尺度循环神经网络和全连接网络层构成，所述多尺度循环神经网络由不同大小的一维循环神经网络层构成，所述多尺度循环神经网络最后一层每个节点的输出作为全连接层的输入。

时序功能模块包括全连接网络和GRU网络。

嵌入恢复损失计算模块采用以下公式计算原始数据与经过所述嵌入功能模块、所述恢复功能模块处理的数据之间的差异度：

表示原始数据从原始空间映射到潜在空间，并从潜在空间映射到原始空间的数据，||...||₂表示L2范数。

表示合成数据。

步骤三，扩充拟真数据空间：采用滤波组合方法来实现数据空间的扩充，同时采用贝叶斯优化的方法来寻找滤波组合的各个参数。

其中，滤波组合方法为根据生成对抗网络产生的拟真数据，设定截至频率与组合比例后按照以下公式进行原始数据与滤波数据的组合：

f1(x₁，x₂，x₃)＝x₁*filter(x₂，data)+x₃*data；

式中，公式等号右边第一部分表示一定比例的原始数据，第二部分表示一定比例的滤波后的数据；x₁表示组合数据中滤波数据的比例，x₂表示滤波器的截止频率，data表示原始数据，filter(x_２，data)表示滤波处理后的数据，x₃表示组合数据中原始数据的比例；公式等号左边表示滤波组合后的结果。

使用贝叶斯优化算法来寻找参数(x₁，x₂，x₃)，包括优化表达式、拟合模型、采集函数。

确定以下公式为优化表达式，高斯过程作为拟合模型，概率提升函数作为采集函数：

f₂(x₁，x₂，x₃)＝dtw(f₁(x₁，x₂，x₃)，data)；

式中，公式等号右边表示滤波组合后数据与原始数据的距离，公式等号左边表示距离的具体数值；其中，dtw表示动态时间调整距离计算函数，f₁(x₁，x₂，x₃)表示滤波组合数据，data表示原始数据。

步骤四，传感器数据拦截与替换：Android***下应用程序均由Zygote进程孵化而来；Zygote进程启动所对应的可执行程序是app_process，通过替换***的app_process可执行文件以及虚拟机动态链接库，让Zygote在启动应用程序进程时注入模块代码。通过Hook实现传感器监控模块，对传感器传递数据接口进行底层拦截与替换；通过在Android8.0***源码中找到控制分发传感器数据的模块类android.hardware.SystemSensorManager，在模块类中找到具体的传感器处理子类SensorEventQueue，与其中的分发函数dispatchSensorEvent；对***服务进程中的SystemSensorManager下的dispatchSensorEvent方法进行Hook，并加载预先编译好的替换函数模块，使用合成数据对传感器接口进行替换。

在本发明的步骤一中，***初始化具体包括：

(1)移动端用户输入包括站立、走路、跑步、坐、躺、上楼下楼等几种动作的比例，图6示出了实施例中定义的比例与转移概率。

(2)通过图6中的动作分布比例与动作间转移概率，通过公式p(x，x′)＝q(x，x′)α(x，x′)计算状态转移矩阵P_ij＝p(i，j) i，j∈S，式中，S表示所有行为动作状态。通过初始化向量λ₀＝{1，0，0，0，0，0}，带入公式λ_t＝λ_t-1P，式中P表示状态转移矩阵，得到t轮迭代时的分布，图7示出了实施例中的分布收敛情况。

在本发明的步骤二中，拟真动作序列构建具体包括：

使用基于马尔科夫链蒙特卡罗方法的随机游走算法进行动作序列的生成，在随机游走算法中直接使用所述步骤一中提供的接收分布：

式中，p(x′)表示状态x′的分布，p(x)表示状态x的分布。

以下用伪代码的形式详细说明方法的生成过程。

以上详细介绍了随机游走算法的过程。

在本发明的步骤三中，图8示出了根据本发明一个实施例的***结构。由图中可见，本发明的子***100包括生成器101和判别器102，生成器101的目标是充分利用传感器数据自身潜在的时域频域特性来学习传感器真实数据的分布特征，从而能够生成更加接近真实分布的传感器拟真数据；判别器102的目标是结合真实数据与合成数据进行二元分类，在对抗训练过程中强化分类器的效果，衡量生成器效果。传感器拟真数据生成具体包括：

(1)将真实数据集中的数据进行min-max归一化，并保存真实数据集的最小值与最大值，为模型产生拟真数据后还原为原始尺度做好数据准备；

(2)在模型训练过程中，首先训练图8示出的生成器101下的自动编解码器1011，自动编解码器1011的目的是能够精确地将数据从低维原始空间映射到高维潜在空间，并准确地将高维潜在空间的数据恢复到低维原始空间；将训练使用的真实数据带入嵌入功能模块，将低维原始空间的真实数据映射到高维潜在空间，将真实数据的高维形式带入恢复功能模块，得到原始维度的数据；生成器101下的嵌入恢复损失计算模块1012的损失函数为：

该公式表示训练自动编解码器的损失函数，X_t表示t批次的原始数据，

表示t批次恢复后的数据，计算L2范数，∑表示求和。

(3)图8所示生成器101下的时序功能模块的目的是捕获真实数据在高维潜在空间的特征，使用真实数据通过所述自动编解码器1011下的嵌入功能模块处理，再带入时序功能模块1014并输出，将输出结果与高维空间结果进行二元交叉熵运算，时序功能模块1014的损失函数为：

式中h_t表示t时刻真实数据在高维潜在空间的表示，g_X表示时序功能模块函数，h_t-1表示t-1时刻真实数据在高位潜在空间的表示，z_t表示t时刻的随机数据。根据本发明的一个实施例，多尺度循环模块1013输入输出维度如下：

时域循环神经网络输入维度(三维)：[64，128，9]；

时域循环神经网络输出维度(三维)：[64，128，64]；

时域特征全连接网络输入维度(三维)：[64，128，64]；

时域特征全连接网络输出维度(三维)：[64，128，64]；

(4)图8所示判别器102下的二元功能判别器1021目的是区分真实数据与生成器产生的合成数据，二元功能判别器1021需要在高维空间下区分真实数据和生成器产生的合成数据，判别器对真实数据的处理结果以及对合成数据的处理结果需要满足非监督损失函数公式：

式中，y_t表示判别器对真实数据的处理结果，

表示对合成数据的处理结果。根据本发明的一个实施例，多尺度循环模块1013输入输出维度如下：

时域循环神经网络输入维度(三维)：[64，128，64]；

时域循环神经网络输出维度(三维)：[64，128，64]；

分类全连接层输入维度(三维)：[64，128，64]；

分类全连接层输出维度(三维)：[64，128，1]。

(5)图8所示判别器102下的相似度计算模块1022目的是验证合成数据与原始数据的分布，需要计算真实数据与真实数据的相似度、真实数据与拟真数据的相似度，若两者数值接近则说明拟真数据的分布接近真实数据的分布；以及需要计算拟真数据与拟真数据的相似度，保证拟真数据之间有差距；需要计算真实数据与合成数据的最大相似度，这让本发明了解到在最相似的情况下，本发明生成的数据与真实数据的相似程度，对于确保用户的隐私得到保护很有价值。如果某些拟真数据与原始数据的最大相似度高于80％，需要使用步骤五进行数据处理操作。表1示出合成50组数据时各个动作在各个指标下的余弦相似度。

表1

活动	真实数据对真实数据相似度	合成数据对合成数据相似度	真实数据对介成数据相似度	真实数据对合成数据相似度最大值
					下楼梯	0.6790	0.2918	0.3011	0.7998
上楼梯	0.3711	0.1326	0.1997	0.7997
					走路	0.9150	0.2230	0.1237	0.7997
跑步	0.2829	0.1067	0.0627	0.7801
					站立	0.4280	0.3459	0.3898	0.7991
平均	0.5352	0.2200	0.2154	0.7957

以下用伪代码的形式详细说明训练过程。

以上详细介绍了对抗训练的过程

在步骤四中，扩充拟真数据空间具体包括：

(1)对拟真数据进行合成处理的公式为：

x_o(n)＝r_a*x(n)+r_b*filter(x(n)，f_t)；

式中，等号右边第一部分表示组合数据中一定比例的原始数据，第二部分表示一定比例的滤波数据；r_a表示原始数据的比例，x(n)表示原始数据，r_b表示滤波数据的比例，filter(n，f_t)表示滤波数据，f_t表示截止频率；等号左边表示滤波组合的结果。

(2)贝叶斯优化目标函数为：

f₁(x₁，x₂，x₃)＝x₁*filter(x₂，data)+x₃*data；

f₂(x₁，x₂，x₃)＝dtw(f₁(x₁，x₂，x₃)，data)；

式中，x₁表示滤波数据比例，x₂表示截止频率，x₃表示原始数据比例，data表示原始数据，dtw为动态时间规整距离计算函数，以计算两个时间序列的相似度，尤其适用于不同长度、不同节奏的时间序列，作为衡量滤波组合数据与原始数据差异的指标。图12示出了上楼梯的动作下，加速度计x轴的低通、高通滤波数据与原始数据的对比。

以下用伪代码的形式详细说明步骤四的训练过程。

以上详细介绍了步骤四的训练过程。

在步骤五中，数据结合与替换具体包括：

(1)移动端用户在设定起止时间以及行为动作比例后，将从算法模型处获取拼接完善的传感器数据集合，等待进行实时替换。

(2)本发明使用Hook来实现拦截模块，实现对实时传感器数据的替换。从Zygote进程开始监听***中分发传感器的类android.hardware.SystemSensorManager，以及其下的传感器数据处理子类SensorEventQueue、分发方法dispatchSensorEvent，等待数据替换模块进行操作。

(3)结合获取的拟真数据，借助Java迭代器的形式完成数据替换模块，对Android***中传感器数据分发接口封装，使***每调用一次接口则消耗一组拟真数据。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种传感器数据保护方法，其特征在于，所述传感器数据保护方法采用随机游走算法以及生成对抗网络的训练方法，进行数据合成，在使用之前定义各动作所占比例；将预定义数据交由云服务器，由云服务器完成动作序列构建以及多传感器拟真数据生成，并将拟真数据结合动作序列形成的拟真数据集合交由请求发起者；由请求发起者对拟真数据集合进行分解处理，并利用Hook方法对本地传感器接口数据进行替换，达到在移动设备多传感器上实现完全匿名化。

2.如权利要求1所述的传感器数据保护方法，其特征在于，所述传感器数据保护方法通过全时刻全方位使用传感器拟真数据序列替换传感器数据。

3.如权利要求1所述的传感器数据保护方法，其特征在于，所述多传感器拟真数据生成采用基于马尔科夫链蒙特卡洛法的随机游走算法，通过引入动作之间转移概率作为构造马尔科夫矩阵的建议分布，改进构造马尔科夫链过程中的接收分布，使随机游走算法结束后能够生成符合预定义分布的行为动作序列；

4.如权利要求1所述的传感器数据保护方法，其特征在于，所述传感器数据保护方法包括以下步骤：

第一步，***初始化，用户输入动作分布，输入动作包括站立、走路、跑步、坐、躺、上楼下楼动作的比例，通过预定义的动作转移概率与用户输入的动作分布构建转移矩阵，并进行多轮迭代验证是否达到平稳分布，为后续生成动作序列提供可行性支持；通过公式p(x，x′)＝q(x，x′)α(x，x′)计算状态转移矩阵P_ij＝p(i，j) i，j∈S，式中，S表示所有行为动作状态；通过初始化向量λ₀＝{1，0，0，0，0，0}，带入公式λ_t＝λ_t-1P，式中P表示状态转移矩阵，得到t轮迭代时的分布；

式中，p(x′)表示状态x′的分布，p(x)表示状态x的分布；

5.如权利要求4所述的传感器数据保护方法，其特征在于，所述第二步的拟真动作序列生成：采用基于马尔科夫链蒙特卡洛法的随机游走算法，根据用户预设的动作比例构建状态转移矩阵，实现虚假行为动作序列的生成；使用蒙特卡洛方法，构建马尔可夫转移矩阵采用转移核公式为：

p(x，x′)＝q(x，x′)α(x，x′)；

式中，X表示与状态x相邻的状态集合，且包括状态x；

所述第三步的对抗网络模型的价值函数为：

表示合成数据。

6.如权利要求4所述的传感器数据保护方法，其特征在于，所述第四步的扩充拟真数据空间采用滤波组合方法实现数据空间的扩充，同时采用贝叶斯优化的方法来寻找滤波组合的各个参数；

f₁(x₁，x₂，x₃)＝x₁*filter(x₂，data)+x₃*data；

式中，公式等号右边第一部分表示一定比例的原始数据，第二部分表示一定比例的滤波后的数据；x₁表示组合数据中滤波数据的比例，x₂表示滤波器的截止频率，data表示原始数据，filter(x₂，data)表示滤波处理后的数据，x₃表示组合数据中原始数据的比例；公式等号左边表示滤波组合后的结果；

f₂(x₁，x₂，x₃)＝dtw(f₁(x₁，x₂，x₃)，data)；

式中，公式等号右边表示滤波组合后数据与原始数据的距离，公式等号左边表示距离的具体数值；其中，dtw表示动态时间调整距离计算函数，f₁(x₁，x₂，x₃)表示滤波组合数据，data表示原始数据；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～4任意一项所述传感器数据保护方法的步骤。

8.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1～4任意一项所述传感器数据保护方法。

9.一种实施权利要求1～4任意一项所述传感器数据保护方法的传感器数据保护***，其特征在于，所述传感器数据保护***包括：

10.如权利要求9所述的传感器数据保护***，其特征在于，所述传感器数据保护***还包括：生成器、判别器；

时序功能模块包括全连接网络和GRU网络；