CN107767055A

CN107767055A - 一种基于串谋检测的众包结果汇聚方法及装置

Info

Publication number: CN107767055A
Application number: CN201711003779.2A
Authority: CN
Inventors: 孙海龙; 王旭; 陈鹏鹏; 方毅立
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-03-06
Anticipated expiration: 2037-10-24
Also published as: CN107767055B

Abstract

本发明公开了一种基于串谋检测的众包结果汇聚方法及装置，所述方法包括：从众包平台收集各工人针对任务集合的答案集合；计算所述答案集合的汇聚结果，并计算所述汇聚结果和各工人的答案的一致性参数；从所述答案集合中确定出重复答案集合，基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率；针对工人能力变化率小于等于预设阈值的重复答案集合，确定所述重复答案集合为正常产生并在所述答案集合中保留所述重复答案集合；针对工人能力变化率大于预设阈值的重复答案集合，确定所述重复答案集合为串谋产生并在所述答案集合中删除所述重复答案集合；得到更新的答案集合，计算所述更新的答案集合的汇聚结果。

Description

一种基于串谋检测的众包结果汇聚方法及装置

技术领域

本发明涉及众包技术领域，尤其涉及一种基于串谋检测的众包结果汇聚方法及装置。

背景技术

众包是一个快速发展的领域，旨在利用人的认知优势来解决计算机难以解决的问题。众包通用平台如，CrowdFlower和AMT，被人们广泛应用于一般的数据处理任务，例如情感分析，手写识别和图片标注。由于工人可能会返回低质量的结果，众包的一个核心问题是保证结果质量。广泛采用的控制质量的方法是结果汇聚，它首先将每个任务分配给多个工人，然后使用推理算法来汇聚工人返回的结果。以图像标注为例，一个图像被分配给多个工人，然后这些工人分别提供描述图像内容的标签。最后，通过投票或其他推理方法从所有收集的标签中汇聚出一个高质量的结果。

在众包中，为了获取更多的报酬付出更少的劳动力，串谋者在平台外通过短信，微信，电话，论坛甚至面对面的交流，形成串谋队伍。在一个串谋队伍中，只有一个工人处理任务，其他工人抄袭他的答案。最终队伍中的所有工人均提供相同的答案。这些恶意的重复的答案在结果汇聚中将会主导正常工人提供的答案，降低结果的质量。例如，一个任务交给五个工人执行，如果其中三个工人串谋，则利用大多数投票法进行结果汇聚，最终的汇聚结果将等同于串谋者提供的结果。

由以上可知，串谋产生的重复答案对通用平台上的一般任务的结果质量是有害的。然而现有的串谋探测算法并不能有效地探测并消除此类串谋的负面影响。

发明内容

为解决上述技术问题，本发明实施例提供了一种基于串谋检测的众包结果汇聚方法及装置。

本发明实施例提供的基于串谋检测的众包结果汇聚方法，包括：

从众包平台收集各工人针对任务集合的答案集合；

计算所述答案集合的汇聚结果，并计算所述汇聚结果和各工人的答案的一致性参数；

从所述答案集合中确定出重复答案集合，基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率；

针对工人能力变化率小于等于预设阈值的重复答案集合，确定所述重复答案集合为正常产生并在所述答案集合中保留所述重复答案集合；

针对工人能力变化率大于预设阈值的重复答案集合，确定所述重复答案集合为串谋产生并在所述答案集合中删除所述重复答案集合；

对各重复答案集合进行保留或删除处理后，得到更新的答案集合，并计算所述更新的答案集合的汇聚结果。

本发明实施例中，所述计算所述汇聚结果和各工人的答案的一致性参数，包括：

基于以下公式计算所述汇聚结果和各工人的答案的一致性参数：

其中，P_i为汇聚结果和工人i与的一致性参数，L_i为工人i对应于任务集合返回的答案，为答案集合的汇聚结果。

本发明实施例中，所述基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率，包括：

计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差；

计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差；

基于所述第一方差和所述第二方差，计算所述重复答案集合对应的工人能力变化率。

本发明实施例中，所述计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差，包括：

通过以下公式计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差：

其中，Var(P)为第一方差，E(P)为各工人的一致性参数的平均值，P_i为汇聚结果和工人i与的一致性参数，为答案集合。

本发明实施例中，所述计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差，包括：

通过以下公式计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差：

其中，Var(P^k)为第二方差，Ε(P^k)为各工人的一致性参数的平均值，P_i ^k为汇聚结果和工人i与的一致性参数，为删除后的答案集合。

本发明实施例中，所述基于所述第一方差和所述第二方差，计算所述重复答案集合对应的工人能力变化率，包括：

基于以下公式计算重复答案集合对应的工人能力变化率：

其中，为工人能力变化率。

本发明实施例提供的基于串谋检测的众包结果汇聚装置，包括：

收集模块，用于从众包平台收集各工人针对任务集合的答案集合；

一致性计算模块，用于计算所述答案集合的汇聚结果，并计算所述汇聚结果和各工人的答案的一致性参数；

工人能力变化率模块，用于从所述答案集合中确定出重复答案集合，基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率；

串谋检测模块，用于针对工人能力变化率小于等于预设阈值的重复答案集合，确定所述重复答案集合为正常产生并在所述答案集合中保留所述重复答案集合；针对工人能力变化率大于预设阈值的重复答案集合，确定所述重复答案集合为串谋产生并在所述答案集合中删除所述重复答案集合；

汇聚模块，用于对各重复答案集合进行保留或删除处理后，得到更新的答案集合，并计算所述更新的答案集合的汇聚结果。

本发明实施例中，所述一致性计算模块，具体用于基于以下公式计算所述汇聚结果和各工人的答案的一致性参数：

本发明实施例中，所述工人能力变化率模块包括：

第一方差计算单元，用于计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差；

第二方差计算单元，用于计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差；

工人能力变化率计算单元，用于基于所述第一方差和所述第二方差，计算所述重复答案集合对应的工人能力变化率。

本发明实施例中，所述第一方差计算单元，具体用于通过以下公式计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差：

本发明实施例中，所述第二方差计算单元，具体用于通过以下公式计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差：

本发明实施例中，所述工人能力变化率计算单元，具体用于基于以下公式计算重复答案集合对应的工人能力变化率：

其中，为工人能力变化率。

采用本发明实施例的技术方案，(1)不同于时空众包以及社交网络的场景，通用平台中，一般任务的答案的特征是未知的。因此，本发明实施例引入工人答案和汇聚结果一致性的概念来描述串谋产生的重复答案对结果汇聚的影响。

(2)不同于电子商务平台中基于相似度的串谋检测算法，本发明实施例提出一种基于工人表现变化率的串谋检测方法，能够在包含正常重复答案的答案集合中判定出串谋产生的重复答案。(3)本发明实施例提出一种串谋检测的众包结果汇聚方法，可以有效地消除串谋行为对结果汇聚的负面影响。

附图说明

图1为本发明实施例的基于串谋检测的众包框架示意图；

图2为本发明实施例的基于串谋检测的众包结果汇聚方法的流程示意图；

图3为本发明实施例的基于串谋检测的众包结果汇聚装置的结构组成示意图；

图4为本发明实施例的工人能力变化率模块的结果示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

现有的串谋探测算法并不能有效地探测并消除串谋的负面影响，主要有以下几点原因：

(1)时空众包和社交网络中的串谋检测算法需要抽取数据的一些特征对串谋进行检测，如在时空众包中，利用采集数据的空间和时间特征对串谋进行检测。然而这些特征在通用的众包平台上是难以获取的。

(2)电子商务平台中的检测算法主要是基于每对工人提供答案之间的相似度对串谋进行检测。由于通用平台中任务的重复答案分为正常重复和串谋重复。在一些简单任务中工人表现出较高的能力，此时重复答案中有很多是正常产生的。基于答案的相似度对串谋进行检验会把正常重复的答案错判为串谋产生的答案。

(3)在拍卖平台中，竞拍者往往会串谋，以付出低成本获取高额回报。此类算法主要基于博弈论对串谋行为进行检测，难以适用于通用平台上的一般任务。

综上所述，对于通用平台的一般任务，现有的算法并不能有效地探测并消除串谋产生重复答案对结果质量的危害。针对存在的问题，本发明实施例的技术方案提出基于串谋检测的众包质量控制方法。

图1为本发明实施例的基于串谋检测的众包框架示意图，如图1所示，该框架包括以下几步：

(1)请求者将任务发布到众包平台，例如MechanicalTurk，其中请求者根据工人的答案的质量给予相应的奖励。

(2)任务根据调度策略和用户指定的平台约束分配给工人。

(3)实际上，一些工人并非独立的，甚至可以在平台之外协同处理一些众包任务。工人可能会在幕后相互勾结。例如，工人通过在线论坛对同样的众包工作的其他人进行剽窃。在任务处理之后，收集答案并消除一些嘈杂的答案，例如一些答案显然与图像标签任务中的图片无关。

(4)此步骤涉及串谋检测和结果汇聚。完成收集工人的所有工人返回答案后，本发明实施例采用串谋检测机制来检测串谋行为，然后过滤掉由串谋者产生的重复答案。在结果过滤之后，本发明实施例使用汇聚方法来推理每个任务的最终结果并将其提交给请求者。

本发明实施例的框架的核心是第(4)步，其包含本发明实施例提出的串谋检测方法，然后采用结果推理方法，即使在串谋的情况下也可以推理高质量的结果。

本发明实施例提出的串谋检测众包框架，有效地解决现有的结果汇聚算法难以有效消除串谋对结果汇聚的危害的问题。和一般的众包框架不同的是，本发明实施例提出的众包框架中的工人不再是独立的，而是相互之间可能有沟通甚至串谋的。此外框架中的结果推理部分包含串口检测的过程。

本发明实施例的技术方案整体包括：串谋检测、结果过滤、结果汇聚三大步骤，以下对这三大步骤进行描述。

步骤一：串谋检测

(1)计算汇聚结果和工人答案的一致性：当工人完成任务处理时，首先对工人返回的答案进行收集，假定对于任务集合工人返回的答案集合为设为答案集合中的一个重复答案集合。本发明实施例的目的是判断重复集合是否是串谋产生的，并在此基础上对答案集合进行汇聚以获得高质量的结果。

利用大多数投票法对答案集合进行汇聚得到汇聚结果本发明实施例给出汇聚结果和工人i答案一致性的计算公式：

其中，L_i为工人i对应于任务集合返回的答案集合。

(2)计算对应每个重复答案集合的工人能力变化率：对于一个重复答案集合，工人能力变化率主要衡量重复答案集合对工人答案和汇聚结果一致性的整体表现。本发明实施例利用删除重复答案集合前后整体一致性的方差变化来形式化工人能力变化率。首先，计算保留重复答案集合时，工人答案一致性的方差：

删除重复答案集合可以获得类似的，计算删除重复答案集合时工人答案一致性的方差：

然后上述两个方式的公式，得到工人能力变化率：

(3)判断重复答案是否由串谋产生的：当小于等于阈值Threshold时，则认为重复集合为正常重复答案。当大于Threshold时，则认为重复集合为串谋重复答案。

上述方案中，在计算重复答案集合的工人答案一致性的方差时，也可以利用其它汇聚算法的结果得到例如概率的汇聚方法。

步骤二：结果过滤

重复以上步骤一对答案集合中的所有重复集合进行检测。被判定为串谋产生的重复答案将被删除，被判定为正常重复的答案将被保留。

步骤三：结果汇聚

利用已有结果汇聚算法对答案集合进行汇聚出最终结果。

图2为本发明实施例的基于串谋检测的众包结果汇聚方法的流程示意图，如图2所示，所述基于串谋检测的众包结果汇聚方法包括以下步骤：

步骤201：从众包平台收集各工人针对任务集合的答案集合。

步骤202：计算所述答案集合的汇聚结果，并计算所述汇聚结果和各工人的答案的一致性参数。

本发明实施例中，基于以下公式计算所述汇聚结果和各工人的答案的一致性参数：

步骤203：从所述答案集合中确定出重复答案集合，基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率。

其中，通过以下公式计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差：

其中，V_ar(P^k)为第二方差，Ε(P^k)为各工人的一致性参数的平均值，P_i ^k为汇聚结果和工人i与的一致性参数，为删除后的答案集合。

基于以下公式计算重复答案集合对应的工人能力变化率：

其中，为工人能力变化率。

步骤204：针对工人能力变化率小于等于预设阈值的重复答案集合，确定所述重复答案集合为正常产生并在所述答案集合中保留所述重复答案集合。

步骤205：针对工人能力变化率大于预设阈值的重复答案集合，确定所述重复答案集合为串谋产生并在所述答案集合中删除所述重复答案集合。

步骤206：对各重复答案集合进行保留或删除处理后，得到更新的答案集合，并计算所述更新的答案集合的汇聚结果。

本发明实施例提出的串谋检测方法，根据工人给出的结果可以高精度地探测出串谋团体。利用删除某个重复答案集前后，工人答案和结果一致性的方差变化来形式化工人能力变化率，利用工人能力变化率变化的规模来探测串谋行为。本发明实施例提出的对串谋结果删除后再汇聚的结果处理方式，可以极大地提高汇聚结果的准确率。与现有汇聚算法不同，本发明实施例提出的结果汇聚方法包含串谋行为的检测并且能够有效地消除其对结果汇聚的负面影响，提高结果质量。

图3为本发明实施例的基于串谋检测的众包结果汇聚装置的结构组成示意图，如图3所示，所述装置包括：

收集模块301，用于从众包平台收集各工人针对任务集合的答案集合；

一致性计算模块302，用于计算所述答案集合的汇聚结果，并计算所述汇聚结果和各工人的答案的一致性参数；

工人能力变化率模块303，用于从所述答案集合中确定出重复答案集合，基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率；

串谋检测模块304，用于针对工人能力变化率小于等于预设阈值的重复答案集合，确定所述重复答案集合为正常产生并在所述答案集合中保留所述重复答案集合；针对工人能力变化率大于预设阈值的重复答案集合，确定所述重复答案集合为串谋产生并在所述答案集合中删除所述重复答案集合；

汇聚模块305，用于对各重复答案集合进行保留或删除处理后，得到更新的答案集合，并计算所述更新的答案集合的汇聚结果。

本发明一实施方式中，所述一致性计算模块302，具体用于基于以下公式计算所述汇聚结果和各工人的答案的一致性参数：

本发明一实施方式中，如图4所示，所述工人能力变化率模块303包括：

第一方差计算单元3031，用于计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差；

第二方差计算单元3032，用于计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差；

工人能力变化率计算单元3033，用于基于所述第一方差和所述第二方差，计算所述重复答案集合对应的工人能力变化率。

本发明一实施方式中，所述第一方差计算单元3031，具体用于通过以下公式计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差：

本发明一实施方式中，所述第二方差计算单元3032，具体用于通过以下公式计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差：

本发明一实施方式中，所述工人能力变化率计算单元3033，具体用于基于以下公式计算重复答案集合对应的工人能力变化率：

其中，为工人能力变化率。

本领域技术人员应当理解，图3所示的基于串谋检测的众包结果汇聚装置中的各模块的实现功能可参照前述基于串谋检测的众包结果汇聚方法的相关描述而理解，图3所示的基于串谋检测的众包结果汇聚装置中的各模块的实现功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明实施例上述装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于串谋检测的众包结果汇聚方法，其特征在于，所述方法包括：

从众包平台收集各工人针对任务集合的答案集合；

2.根据权利要求1所述的基于串谋检测的众包结果汇聚方法，其特征在于，所述计算所述汇聚结果和各工人的答案的一致性参数，包括：

3.根据权利要求2所述的基于串谋检测的众包结果汇聚方法，其特征在于，所述基于所述各工人的答案的一致性参数，计算每个重复答案集合对应的工人能力变化率，包括：

4.根据权利要求3所述的基于串谋检测的众包结果汇聚方法，其特征在于，所述计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差，包括：

5.根据权利要求3或4所述的基于串谋检测的众包结果汇聚方法，其特征在于，所述计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差，包括：

6.根据权利要求5所述的基于串谋检测的众包结果汇聚方法，其特征在于，所述基于所述第一方差和所述第二方差，计算所述重复答案集合对应的工人能力变化率，包括：

基于以下公式计算重复答案集合对应的工人能力变化率：

其中，为工人能力变化率。

7.一种基于串谋检测的众包结果汇聚装置，其特征在于，所述装置包括：

8.根据权利要求7所述的基于串谋检测的众包结果汇聚装置，其特征在于，所述一致性计算模块，具体用于基于以下公式计算所述汇聚结果和各工人的答案的一致性参数：

9.根据权利要求7所述的基于串谋检测的众包结果汇聚装置，其特征在于，所述工人能力变化率模块包括：

10.根据权利要求9所述的基于串谋检测的众包结果汇聚装置，其特征在于，所述第一方差计算单元，具体用于通过以下公式计算在所述答案集合中保留重复答案集合时，所述各工人的答案的一致性参数的第一方差：

11.根据权利要求9或10所述的基于串谋检测的众包结果汇聚装置，其特征在于，所述第二方差计算单元，具体用于通过以下公式计算在所述答案集合中删除重复答案集合时，所述各工人的答案的一致性参数的第二方差：

12.根据权利要求11所述的基于串谋检测的众包结果汇聚装置，其特征在于，所述工人能力变化率计算单元，具体用于基于以下公式计算重复答案集合对应的工人能力变化率：

其中，为工人能力变化率。