CN109377218A

CN109377218A - 一种遏制虚假感知攻击的方法、服务器及移动终端

Info

Publication number: CN109377218A
Application number: CN201811101427.5A
Authority: CN
Inventors: 刘杨; 张珍杰; 关建峰; 许长桥
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-02-22
Anticipated expiration: 2038-09-20
Also published as: CN109377218B

Abstract

本发明实施例提供了一种遏制虚假感知攻击的方法、服务器及移动终端，该方法包括：获取第一感知任务，根据第一感知任务制定第一支付规则；发送第一感知任务和第一支付规则到多个移动终端，以供移动终端根据第一支付规则选择是否参与第一感知任务；获取参与第一感知任务的多个移动终端发送的感知数据，对感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；根据第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；获取第二支付规则，第二支付规则根据第一感知任务的感知准确度，基于Q‑learning算法或DQN算法得到，第二支付规则用于下一次的感知任务。本发明实施例提供有遏制用户发送虚假感知攻击的效果。

Description

一种遏制虚假感知攻击的方法、服务器及移动终端

技术领域

本发明实施例涉及群智感知领域，尤其涉及一种遏制虚假感知攻击的方法、服务器及移动终端。

背景技术

随着智能手机、平板电脑、智能手表和智能手环等移动设备的迅猛增长，越来越多的移动设备配备了各种功能的传感器，如加速度计、陀螺仪、全球定位***和温度计等，以这些移动设备为感知基本单元，逐渐形成了移动群智感知网络(Mobile Crowdsesning，以下简称MCS)，通过与移动互联网的协作，分布感知任务并收集移动设备上传的感知数据，完成大规模的感知任务。因此，在环境、网络和交通监控等方面，MCS平台或服务器通过招募移动用户进行监控周围环境的状况，从而提供众多的服务。随着智能可编程无线设备的快速发展，用户可以对自如地控制他们的无线设备，例如，用户通过操控一些特有的嵌入式传感器，可以准确决定用于完成感知任务所要付出的努力，进一步会影响数据的质量。作为一个私人的智能手机用户会选择感知努力来最大化个人收益，而群智感知***必须刺激用户提供准确的感测报告，并抑制伪造感测数据的攻击。否则，若用户得知在MCS任务中发送虚假感知数据不会受到惩罚，甚至某些智能手机用户被激励上传虚假感知数据进行攻击，将会导致MCS服务器接收到大量的低伪造的感知报告。

为了解决上述问题，博弈论是制定MCS过程的重要手段，诸如拍卖、基于价格或基于信誉等机制，利用这些机制来激励用户为MCS任务作出贡献。其中，基于拍卖的MCS提出的解决方案支付出价最低的用户拍卖中的价格以节省成本。我们注意到的效用MCS服务器不仅仅依赖于对服务的支付用户，还取决于他们的位置，感应力度，和传感器的品质。因此，MCS服务器可以改进其传感性能通过评估传感质量并只招募提供准确的智能手机报告。移动感应服务器应用数据挖掘和学习算法来评估假感测报告可以抑制欺骗的动机。但是，由于评估错误，服务器在不知道用户的传感模型的情况下激发用户提供报告的准确性仍然得不到保障。

由于评估方面出现的错误，服务器在对用户传感模型不知情的情况下如何激发用户提供准确的报告成为目前所面临的挑战。因此，现在亟需一种遏制虚假感知攻击的方法。

发明内容

本发明实施例为解决现有技术中MCS中的用户提供的感知报告准确性较低的缺陷，提供了一种遏制虚假感知攻击的方法、服务器及移动终端。

第一方面，本发明实施例提供了一种遏制虚假感知攻击的方法，包括：

101、获取第一感知任务，根据所述第一感知任务制定第一支付规则；

102、发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；

103、获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；

104、根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；

105、获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务。

第二方面，本发明实施例提供了一种遏制虚假感知攻击的方法，包括：

获取感知任务和支付规则；

获取预估感知任务报酬，所述预估感知任务报酬根据所述感知任务和所述支付规则，基于感知质量预估得到；

根据所述预估任务报酬选择是否接受所述感知任务，若接受，则在完成所述感知任务后，将所述感知任务的感知数据发送到服务器；

接收所述感知任务相应报酬，所述感知任务相应报酬根据所述感知数据的感知准确度和所述支付规则得到。

第三方面，本发明实施例提供了一种遏制虚假感知攻击的服务器，包括：

第一处理模块，用于获取第一感知任务，根据所述第一感知任务制定第一支付规则；

第一发送模块，用于发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；

第二处理模块，用于获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；

第一支付模块，用于根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；

第三处理模块，用于获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务。

第四方面，本发明实施例提供了一种遏制虚假感知攻击的移动终端，包括：

第一获取模块，用于获取感知任务和支付规则；

第二获取模块，用于获取预估感知任务报酬，所述预估感知任务报酬根据所述感知任务和所述支付规则，基于感知质量预估得到；

选择模块，用于根据所述预估任务报酬选择是否接受所述感知任务，若接受，则在完成所述感知任务后，将所述感知任务的感知数据发送到服务器；

报酬接受模块，用于接收所述感知任务报酬，所述感知任务报酬根据所述感知数据的感知准确度和所述支付规则得到。

第五方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面或第二方面所述的遏制虚假感知攻击的方法。

第六方面，本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面或第二方面所述的遏制虚假数感知攻击的方法。

本发明实施例提供的一种遏制虚假感知攻击的方法及装置，通过EM算法对每次感知任务的感知数据进行评估，并根据感知数据，利用Q-learning算法或者DQN算法学习到最佳的支付规则，激励用户发送最准确的感知数据，达到遏制用户发送虚假感知数据的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的遏制虚假感知攻击的方法流程示意图；

图2为本发明实施例提供的另一遏制虚假感知攻击的方法流程示意图；

图3为本发明实施例提供的遏制虚假感知攻击的服务器结构示意图；

图4为本发明实施例提供的遏制虚假感知攻击的移动终端结构示意图；

图5为本发明实施例提供的计算机设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

MCS是一种以用户的智能手机、平板电脑或者可穿戴设备等移动设备作为基本感知节点，通过移互联网发布感知任务和收集感知数据的无线网络。博弈论是目前研究群智感知网络的重要手段，例如拍卖理论、定价理论以及信誉***均被运用到群智感知网络中，以用于激励用户参与感知任务。然而，一些恶意用户为了自身的利益，将虚假感知数据发送到MCS，一方面使网络效益降低，另一方面，也使得网络感知报告的质量下降，甚至造成网络堵塞。

图1为本发明实施例提供的遏制虚假感知攻击的方法流程示意图，如图1所示，本发明实施例提供了一种遏制虚假感知攻击的方法，包括：

步骤101、获取第一感知任务，根据所述第一感知任务制定第一支付规则；

MCS服务器负责数据收集、处理及应用，并由多个感知平台服务器组成，服务器首先将感知任务进行分类，目前，随着群智感知网络研究的发展和深入，将感知任务分为环境监测、基础设施监测、社交行为和社会医疗信息等，同时按照分类后的任务需求，收集特定用户的感知信息，为了使用户付出的感知行为得到合理回报，服务器根据感知任务，制定支付规则。需要说明的是，本发明实施例中的第一感知任务和第一支付规则是群智感知网络建立初期设置的，其中，第一支付规则根据感知任务以及网络中的历史数据、人为经验或者互联网中已分类的参考数据进行制定，而本发明实施例之后描述的第二支付规则以及之后通过学习得到的新的支付规则，均是通过算法迭代学习得到，因此，第一支付规则在MCS初期可能表现出分配原则不合理或者分配准确率较低的缺陷，通过后面新的支付规则的迭代学习，新的支付规则将会逐步趋于最优。

步骤102、发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；

首先，MCS服务器广播招募信息，招募信息中包含第一感知任务和第一支付规则，其中，第一支付规则中携带完成相应的第一感知任务的报酬信息，从而激励用户积极参与感知任务。用户通过移动终端接收到招募信息后，根据自己付出的资源，例如，感知消耗时间、终端电量消耗或CPU占用情况，考虑在付出这些资源后，获得到的报酬是否满足期望，从而决定是否选择参与感知任务。

步骤103、获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；

在MCS中，任何携带移动终端的用户都可以接受到感知任务，导致用户上传的感知数据的准确性得不到保证，特别是当用户对移动终端操作不当或者某些恶意用户上传虚假感知攻击，因此，感知数据的可靠性需要进行评估，从而才能提高整个MCS的准确性。在本发明实施例中，用户提交的感知数据的准确度是未知的，需要进行准确度评估，由于存在隐变量，即每个感知任务的准确值(区间)，所以不能直接使用最大似然进行估计，故而采用EM算法。

在本发明实施例中，为每一个用户a_k设定一个努力矩阵e^k，这里e^k是一个m*m的矩阵，里面的每一个元素其中，i＝1，2…m，j＝1，2...m，表示用户a_k提交的感知数据在区间d_j中，但是准确的感知数据却是在区间d_i中，特别的是，包含着用户提交的正确的感知数据的m种可能的情况，其中矩阵中的值满足下式：

然后，定义每个感知任务可能分布的区间概率集合为根据收集的数据集S初始化P，然后执行EM算法中的E步，即估计努力方阵E的值，接着执行EM算法中的M步，根据得到的方阵E的值反过来去估计任务正确区间P，之后不断执行E步和M步，直至收敛，其中，t表示第t个感知任务。

步骤104、根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；

根据EM算法估算的用户j在时间段k中付出的努力设为那么服务器可以得到估算的精确等级为i的报告的总数目可以用下面的式子表示：

其中，I函数是一个知识函数，当等式成立时，I＝1，否则I＝0。

服务器端的效益指的是服务器所得到的利益减去待支付费用，公式为：

其中，G⁽ⁱ⁾表示服务器对一个等级为i的数据获得的收益，在本发明实施例中，由于传感位置和提交时间等因素，用户提交的数据对服务器的贡献受到影响，可在该公式中设置影响因子为λ，则对于用户j提交等级i的数据，服务器获得的收益是λ_jG⁽ⁱ⁾。y表示支付规则，在本发明实施例中，将支付规则y对应的感知精确度划分为H个级别，表示为其中P_i包含H个不同的支付规则。这样，根据估算到的精确度和支付规则，服务器在时间段k给用户的报酬可以表示为：

给参与任务的所有用户付出的报酬可以表示为：

通过上述的公式，根据EM算法评估到的感知数据的感知准确度，结合支付规则，向参与感知任务的用户支付相应的报酬，同时得到当前状态下群智感知网络的总效益。

步骤105、获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务。

由于MCS中的支付规则会影响移动终端用户在将要参与的感知任务所要付出的努力，因此，在本发明实施例中，支付过程可以描述为有限马尔科夫决策过程(MDP)。由于在活跃用户的传感模型很难得到的动态环境中，MCS可以应用Q-learning算法，一种无模型强化学习方法，通过有限的马尔科夫决策实验得到最优支付策略。更具体的表述，基于Q-learning的群智感知网络会根据观察到的之前的感知报告质量，支付策略以及质量函数(对长期奖励有折扣的Q函数)来为每次感知任务决定支付策略。例如，在Q-learning算法中，支付规则可以当作动作，设置时间段k的环境状态为s^(k)，包含前一个状态的各个精确等级数目集合和支付规则，公式为：

将基于Q-learning的MCS支付策略其中所依赖的Q方程设置为Q(s，y)，那么状态动作对(s，y)长期的期望效益根据贝尔曼方程进行更新，公式为：

Q(s,y)←(1-α)Q(s,y)+α(u_s(s,y)+γV(s'))；

其中s'是状态s执行策略y后的下一个状态，价值方程V提供了Q方程的最大值，γ为折扣因子，表示时间越长，未来得到的奖励越低，α∈[0,1]，表示s-y-s'的学习效率。

根据当前***的状态值s^(k)和动作值计算得到的Q方程的值，MCS服务器运用ε-greedy算法去选择动作值，这样可以避免停留在局部最优值。具体来说就是，在选择动作时，以1-ε的高概率选择目前状态下预测的最优策略：

以ε的概率随机选择其他策略。

当状态空间达到一定基数，由于需要大量的计算，基于Q-learning的MCS的运行效率将会很低，这个问题可以通过深度Q网络(DQN)很好的解决。更具体的说，利用当下应用在各个领域的深度卷积神经网络(CNN)和Q-learning算法结合，既达到了感知任务的安全性，又压缩了学习状态空间，提升了运行效率。

本发明实施例提供的一种遏制虚假感知攻击的方法及装置，当MCS服务器发布感知任务后，首先制定初始的支付规则，激励用户上传感知数据，通过EM算法对每次感知任务的感知数据进行评估，并根据感知数据，利用Q-learning算法或者DQN算法学习到最佳的支付规则，进一步激励用户发送最准确的感知数据，达到遏制用户发送虚假感知数据的效果。

在上述实施例的基础上，步骤105，在所述获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务之后，包括：

基于下一次的感知任务和所述第二支付规则，重复步骤102至105，更新当前状态的效益值，直至MCS的总效益收敛。

Q-learning算法或DQN算法是一种在动态环境中通过试错实验学习行为人工智能技术，通过学习使之后的行动自动地选择在特定环境下的理想行为，从而达到最优的状态。在本发明实施例中，由于MCS处于初始阶段时，对外部网络环境以及移动终端上传的感知数据缺乏先验知识，此时制定的支付规则并不完善，一般的移动终端用户会根据支付规则，选择可得到预期效益最大的感知动作。

然而，某些恶意的移动终端用户可能会根据支付规则的不完善，找到某些支付规则的漏洞，以较小的代价上传虚假感知数据来欺骗MCS来支付报酬，因此，此时的MCS极易受到虚假感知攻击。通过Q-learning算法或DQN算法对MCS迭代学习，服务器会对观察到的感知报告质量和支付规则等逐渐熟悉到掌握，并根据观察到的上一次感知数据，逐渐提高感知任务的报价，调整定价表，最终服务器获得最优的支付规则，使得恶意用户上传虚假感知攻击的概率降到最低从而达到一个稳定值。

在本发明实施例中，基于Q-learning算法或DQN算法进行迭代，得到了支付规则，一方面激励用户采用上传高质量的感知数据，避免上传虚假感知攻击，另一方面尽可能的减少MCS为用户上传高质量的感知数据而付出的报酬。

在上述实施例的基础上，步骤105，所述获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，包括：

根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到多个支付规则；

根据ε-greedy算法从多个支付规则中选取目标支付规则作为第二支付规则。

在Q-learning算法或DQN算法的学习过程中，为避免学习结果假收敛，根据ε-greedy算法确定最优的支付规则，在当前感知任务中，服务器按ε的概率去选择效益最高的支付规则，用1-ε的概率随机选择其他支付规则，其中0<ε<1，且趋近于1。

在本发明实施例中，通过ε-greedy算法确定最优的支付规则，这样既保证每次选取的支付规则尽可能使得MCS获得最大效益，又防止陷入局部最大值，从而得到全局最优的支付规则。

在上述实施例的基础上，步骤101，所述获取第一感知任务，根据所述第一感知任务制定第一支付规则，包括：

将已分类的感知数据作为初始感知数据；

获取第一感知任务，根据所述第一感知任务和相应的初始感知数据制定第一支付规则。

在本发明实施例中，由于初始化的MCS存在先验经验不足的缺陷，为提高学习效率，通过将现有已分类且准确率已评估的感知数据输入到MCS中，这些已分类的感知数据属于历史感知数据，是根据现有技术获取得到，具体方式此处不再赘述。当服务器接收到第一感知任务时，将第一感知任务进行分类，需要说明的是，已分类的感知数据仅作为支付规则制定的参考样本，在MCS建立初期，通过现有的感知数据和感知任务制定最初的支付规则，也就是第一支付规则。另外，在已分类的感知数据中，也包括恶意感知攻击或感知质量较低而不符合要求的数据信息。

通过在初始化的MCS中输入现有的初始感知数据，提高了网络学习的效率，从而使得整个MCS在较短的时间内达到效益收敛，达到了遏制虚假感知攻击的效果。

在上述实施例的基础上，步骤104，所述根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬，包括：

若所述感知准确度小于等于第一阈值，确定所述感知数据是虚假数据攻击；

若所述感知准确度大于第一阈值并小于等于第二阈值，确定所述感知数据是目标感知数据；

若所述感知数据大于所述第二阈值，确定所述感知数据是超额感知数据；

对确定为所述目标感知数据和所述超额感知数据的移动终端支付相应报酬；

其中，所述第二阈值大于所述第一阈值。

在本发明实施例中，将本次感知任务的感知数据进行评估后，对感知数据按精确等级进行分类，假设每个感知数据能够被归属到精确等级中的其中一个，设置第一阈值和第二阈值，需要说明的是，第二阈值定于为本次感知任务最高质量且符合要求的感知数据，也就是说，若某次感知任务需要的感知数据的质量只需达到中等水平，若用户提交超过任务要求质量的感知数据，也会判断为不符合感知任务要求。需要说明的是，可根据实际需求设置第一阈值和第二阈值的数值，本发明实施例对此不作具体限定。

例如，将第一阈值设置为0，第二阈值设置为1，将感知数据小于等于0的感知报告定义为虚假感知攻击，其中，在实际评估时，也可以将感知数据小于0的感知报告定义为用户接受任务，但是不会参与感知任务的情况，此时，感知数据等于0依旧定义为虚假感知攻击，此时不会向此类感知数据的移动终端发送任何报酬。当感知准确度大于0并且小于等于1时，则定义感知数据是目标感知数据，按照支付规则支付相应报酬到移动终端。同样，当感知准确度大于1时，此时也会按照支付规则支付相应的报酬给移动终端，不同的是，此时的感知数据质量越高，也就越偏离感知任务的要求，支付规则对应的报酬一般设置成感知数据质量越高支付报酬越少，使得较高感知设备的用户权衡自身的资源消耗情况，从而选择是否选择接受感知任务。

本发明实施例通过设置第一阈值和第二阈值，遏制了用户发起虚假感知攻击的概率，对于感知质量较高的用户，在预算限制下使此类用户保持沉默，减少了感知数据的冗余以及传输功率的损耗。

图2为本发明实施例提供的另一遏制虚假感知攻击的方法，如图2所示，本发明实施例提供了一种遏制虚假感知攻击的方法，包括：

步骤201、获取感知任务和支付规则；

步骤202、获取预估感知任务报酬，所述预估感知任务报酬根据所述感知任务和所述支付规则，基于感知质量预估得到；

步骤203、根据所述预估任务报酬选择是否接受所述感知任务，若接受，则在完成所述感知任务后，将所述感知任务的感知数据发送到服务器；

步骤204、接收所述感知任务相应报酬，所述感知任务相应报酬根据所述感知数据的感知准确度和所述支付规则得到。

在本发明实施例中，首先，MCS服务器广播招募信息，招募信息包括感知任务和支付规则，其中支付规则可以激励用户积极参与感知任务，当每个用户通过移动终端接收到招募信息后，决定自己的感知策略。例如，是否同意接受感知任务，若同意，则会思考该为感知任务分配多少资源进行处理，由于感知数据的质量取决于移动终端的传感器的感知力度，如感知消耗的时间、电量等，此时移动终端会根据用户的预计分配资源结合移动终端本身的感知力度，预估一个感知任务报酬，若预估的感知任务报酬达到了用户的理想期望值，则用户将会接收此次的感知任务，并将完成后的感知数据通过移动终端发送到MCS服务器，服务器将对感知数据的感知准确度进行评估，并根据支付规则，向移动终端发送相应的报酬。

在本发明实施例中，移动终端根据支付规则，结合自身的感知力度，预估出本次感知任务报酬，用户可以在接收感知任务的早期即可分析自身的理想期望值，选择接下来的相应动作，从而提高了感知数据的精确度，遏制了虚假感知攻击的概率。

图3为本发明实施例提供的遏制虚假感知攻击的服务器结构示意图，如图3所示，本发明实施例提供了一种遏制虚假感知攻击的服务器，包括：第一处理模块301、发送模块302、第二处理模块303、支付模块304和第三处理模块305，其中，第一处理模块301用于获取第一感知任务，根据所述第一感知任务制定第一支付规则；发送模块302用于发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；第二处理模块303用于获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；支付模块304用于根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；第三处理模块305用于获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务。

在本发明实施例中，第三处理模块305基于Q-learning算法或DQN算法对本次感知任务的感知数据进行迭代，得到用于下一次感知任务的支付规则，一方面激励用户采用上传高质量的感知数据，避免上传虚假感知攻击，另一方面尽可能的减少MCS为用户上传高质量的感知数据而付出的报酬。

图4为本发明实施例提供的遏制虚假感知攻击的移动终端结构示意图，如图4所示，本发明实施例提供了一种遏制虚假感知攻击的移动终端，包括：第一获取模块401、第二获取模块402、选择模块403和报酬接收模块404，其中，第一获取模块401用于获取感知任务和支付规则；第二获取模块402用于获取预估感知任务报酬，所述预估感知任务报酬根据所述感知任务和所述支付规则，基于感知质量预估得到；选择模块403用于根据所述预估任务报酬选择是否接受所述感知任务，若接受，则在完成所述感知任务后，将所述感知任务的感知数据发送到服务器；报酬接收模块404用于接收所述感知任务报酬，所述感知任务报酬根据所述感知数据的感知准确度和所述支付规则得到。

在本发明实施例中，第二获取模块402根据支付规则，结合移动终端的感知力度，预估出本次感知任务报酬，用户可以在接收感知任务的早期即可分析自身的理想期望值，选择接下来的相应动作，从而提高了感知数据的精确度，遏制了虚假感知攻击的概率。

本发明实施例提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本发明实施例提供的计算机设备结构示意图，如图5所示，该计算机设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：获取第一感知任务，根据所述第一感知任务制定第一支付规则；发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务；

或，获取感知任务和支付规则；获取预估感知任务报酬，所述预估感知任务报酬根据所述感知任务和所述支付规则，基于感知质量预估得到；根据所述预估任务报酬选择是否接受所述感知任务，若接受，则在完成所述感知任务后，将所述感知任务的感知数据发送到服务器；接收所述感知任务相应报酬，所述感知任务相应报酬根据所述感知数据的感知准确度和所述支付规则得到。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取第一感知任务，根据所述第一感知任务制定第一支付规则；发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务；

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述实施例所提供的遏制虚假感知攻击的方法，例如包括：获取第一感知任务，根据所述第一感知任务制定第一支付规则；发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；获取参与所述第一感知任务的多个移动终端发送的感知数据，对所述感知数据进行EM算法评估，获取每个感知数据对应的感知准确度；根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务；

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种遏制虚假感知攻击的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，所述第二支付规则用于下一次的感知任务之后，包括：

基于下一次的感知任务和所述第二支付规则，重复步骤102至105，更新当前状态的效益值，直至群智感知网络的总效益收敛。

3.根据权利要求1或2所述的方法，其特征在于，所述获取第二支付规则，所述第二支付规则根据所述第一感知任务的感知准确度，基于Q-learning算法或DQN算法得到，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取第一感知任务，根据所述第一感知任务制定第一支付规则，包括：

将已分类的感知数据作为初始感知数据；

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬，包括：

其中，所述第二阈值大于所述第一阈值。

6.一种遏制虚假感知攻击的方法，其特征在于，包括：

获取感知任务和支付规则；

7.一种遏制虚假感知攻击的服务器，其特征在于，包括：

发送模块，用于发送所述第一感知任务和所述第一支付规则到多个移动终端，以供移动终端根据所述第一支付规则选择是否参与所述第一感知任务；

支付模块，用于根据所述第一支付规则，基于每个感知数据对应的感知准确度，向每个移动终端支付相应的报酬；

8.一种遏制虚假感知攻击的移动终端，其特征在于，包括：

第一获取模块，用于获取感知任务和支付规则；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述遏制虚假感知数据的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一项所述遏制虚假感知数据的方法。