CN113469291A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113469291A
CN113469291A CN202111022497.3A CN202111022497A CN113469291A CN 113469291 A CN113469291 A CN 113469291A CN 202111022497 A CN202111022497 A CN 202111022497A CN 113469291 A CN113469291 A CN 113469291A
Authority
CN
China
Prior art keywords
target
labeling
test question
labeled
annotator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111022497.3A
Other languages
English (en)
Other versions
CN113469291B (zh
Inventor
姜敏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111022497.3A priority Critical patent/CN113469291B/zh
Publication of CN113469291A publication Critical patent/CN113469291A/zh
Application granted granted Critical
Publication of CN113469291B publication Critical patent/CN113469291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请涉及人工智能技术领域,提供一种数据处理方法、装置、电子设备及存储介质,所述方法包括:获取多个目标标注者、开始标注指令和结束标注指令;根据多个目标标注者的标注画像,确定每个目标标注者的目标试题集;同时向多个目标标注者发送对应的目标试题集,及同时采集标注结果;根据预设的推断算法对多个目标标注者的标注结果进行标签推算,得到每个目标标注者的反馈结果;将每个目标标注者的反馈结果发送至对应目标标注者客户端。本申请通过采用预设的推断算法推断出每个待标注试题的正确标注答案,不是直接根据待标注试题的标注结果确定的正确标注答案,提高了反馈的结果的准确率及效率。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
高质量的标注数据集是计算机研究和应用领域中非常重要的资源,现有的标注***中进行人工标注时,特别是针对同一语料需要多个标注者进行标注时,多个标注者的标注时间不一致,无法即时进行标注结果处理,导致反馈数据处理结果的效率低下。
此外,一些公益性标注***甚至不会给出反馈结果,只需要完成标注工作量,标注者无法知悉正确的标注答案及相关的关联知识,导致标注者的专业素养提升速度缓慢。
发明内容
鉴于以上内容,有必要提出一种数据处理方法、装置、电子设备及存储介质,通过采用预设的推断算法推断出每个待标注试题的正确标注答案,不是直接根据待标注试题的标注结果确定的正确标注答案,提高了反馈的结果的准确率及效率。
本申请的第一方面提供一种数据处理方法,所述方法包括:
解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令;
根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集;
响应于所述开始标注指令向所述多个目标标注者同时发送对应的目标试题集,及响应于所述结束标注指令同时采集所述多个目标标注者的标注结果;
根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;
将每个所述目标标注者的反馈结果发送至对应目标标注者客户端。
可选地,所述根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据集合推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果。
可选地,所述根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 507113DEST_PATH_IMAGE001
其中,
Figure 866550DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 663605DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 272441DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
可选地,所述根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 445933DEST_PATH_IMAGE005
其中,
Figure 456615DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 18046DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 114178DEST_PATH_IMAGE006
表示
Figure 825782DEST_PATH_IMAGE003
的补集,
Figure 690970DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
可选地,所述解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令包括:
解析所述数据标注任务请求的报文,得到所述报文携带的报文信息;
从所述报文信息中获取多个登录信息、执行标注任务的开始时间和执行标注任务的结束时间,其中,所述每个登录信息中包含有标注者的登录名称和登录设备标识码;
从预设的标注者数据库中确定出与每个所述标注者的登录名称相匹配的目标标注者,并将每个所述目标标注者与对应的登录设备标识码进行关联;
根据关联后的多个目标标注者及执行标注任务的开始时间生成开始标注指令,及根据关联后的多个目标标注者及执行标注任务的结束时间生成结束标注指令。
可选地,所述根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集包括:
识别每个目标标注者的登录信息,基于所述登录信息获取每个目标标注者的标注画像;
将所述多个目标标注者的标注画像输入至预先训练好的群体分类模型中,得到每个目标标注者的群体类别;
从每个目标标注者的标注画像中提取多个关键标签,根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的第一待标注试题集,确定每个所述目标标注者的目标试题集,其中,所述目标试题集中包含有多个对照题和第二待标注试题集。
可选地,所述根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的第一待标注试题集,确定每个所述目标标注者的目标试题集包括:
根据每个所述目标标注者的多个关键标签及对应的群体类别,按照预设的筛选规则从所述数据标注任务请求中的第一待标注试题集中确定出每个目标标注者的第二待标注试题集;
计算所述数据标注任务请求中的待标注语料与构建的含标注语料库中的每个标注语料之间的相似度;
从计算得到的相似度中提取出相似度较大的多个标注语料对应的多个第一试题,并根据每个所述目标标注者的多个关键标签及对应的群体类别从所述多个第一试题中提取多个第二试题,并将所述多个第二试题确定为每个所述目标标注者的多个对照题;
将每个所述目标标注者的多个对照题和对应的第二待标注试题集进行合并,得到每个所述目标标注者的目标试题集。
本申请的第二方面提供一种数据处理装置,所述装置包括:
解析模块,用于解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令;
确定模块,用于根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集;
第一发送模块,用于响应于所述开始标注指令向所述多个目标标注者同时发送对应的目标试题集,及响应于所述结束标注指令同时采集所述多个目标标注者的标注结果;
标签推算模块,用于根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;
第二发送模块,用于将每个所述目标标注者的反馈结果发送至对应目标标注者客户端。
本申请的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的数据处理方法。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据处理方法。
综上所述,本申请所述的数据处理方法、装置、电子设备及存储介质,一方面,在进行每个目标标注者的目标试题集确定过程中,通过根据多个目标标注者的标注画像对所述多个目标标注者进行群体分类,为一个群体类别的多个目标标注者生成一套目标试题集,减少了目标试题集的数量,提高了目标试题集的生成效率,进而提高了标注结果的反馈效率;另一方面,在进行待标注试题的正确标注答案的推断时,通过在待标注试题集中添加对照题,根据每个所述目标标注者对对照题的标注,确定出每个目标标注者的置信度,根据每个目标标注者的置信度通过采用预设的推断算法,进而推断出每个待标注试题的正确标注答案,不是直接根据对待标注试题的标注结果确定每个待标注试题的正确标注答案,而是通过考虑每个目标标注者标注的对照题的正确率推算每个待标注试题的正确标注答案,确保了得到的每个待标注试题的正确标注答***性,进而提高了反馈的结果的准确率及效率;最后,将得到的反馈结果发送至目标标注者客户端,由于所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能,当目标标注者接收到反馈结果时,可以根据反馈结果掌握每个待标注试题的错题解析及相关知识,进而提高每个所述目标标注者的专业素养。
附图说明
图1是本申请实施例一提供的数据处理方法的流程图。
图2是本申请实施例二提供的数据处理装置的结构图。
图3是本申请实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
实施例一
图1是本申请实施例一提供的数据处理方法的流程图。
在本实施例中,所述数据处理方法可以应用于电子设备中,对于需要进行数据处理的电子设备,可以直接在电子设备上集成本申请的方法所提供的数据处理的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
如图1所示,所述数据处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令。
本实施例中,用户在执行标注任务时,通过客户端发起数据标注任务请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有智能设备,所述服务端可以为众包标注***,在执行标注任务过程中,如所述客户端可以向众包标注***发送数据标注任务请求,所述众包标注***用于对大规模数据的人工实时并行标记与验证,当所述众包标注***接收到所述客户端发送的数据标注任务请求时,对所述数据标注任务请求进行解析,获取多个目标标注者、开始标注指令和结束标注指令。
在一个可选的实施例中,所述解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令包括:
解析所述数据标注任务请求的报文,得到所述报文携带的报文信息;
从所述报文信息中获取多个登录信息、执行标注任务的开始时间和执行标注任务的结束时间,其中,所述每个登录信息中包含有标注者的登录名称和登录设备标识码;
从预设的标注者数据库中确定出与每个所述标注者的登录名称相匹配的目标标注者,并将每个所述目标标注者与对应的登录设备标识码进行关联;
根据关联后的多个目标标注者及执行标注任务的开始时间生成开始标注指令,及根据关联后的多个目标标注者及执行标注任务的结束时间生成结束标注指令。
本实施例中,在众包标注***中进行语料标注时,针对同一待标注语料需要一个或者多个目标标注者进行标注,当需要多个目标标注者进行标注时,需要多个目标标注者完成标注后才能够进行标注信息反馈,然而,由于每个目标标注者的标注时间不统一,难以使得每个目标标注者标注完成后能够即时的获取标注信息反馈结果,本案通过在接收到任务标注请求时,根据标注任务的开始时间和结束时间生成开始标注指令和结束标注指令,在后续的执行标注任务时,同时向多个目标标注者发送开始标注指令和结束标注指令,每个目标标注者响应于所述众包标注***发送的开始标注指令和结束标注指令执行标注任务,解决了多个目标标注者标注时间不统一,导致无法即时的获取标注信息反馈结果的问题。
S12,根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集。
本实施例中,当针对同一语料需要多个目标标注者进行标注时,同一语料中可能存在多个领域的知识,故多个目标标注者也可能是不同领域的,每个目标标注者的标注画像不同,对应的目标试题集也不同。
在一个可选的实施例中,所述根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集包括:
识别每个目标标注者的登录信息,基于所述登录信息获取每个目标标注者的标注画像;
将所述多个目标标注者的标注画像输入至预先训练好的群体分类模型中,得到每个目标标注者的群体类别;
从每个目标标注者的标注画像中提取多个关键标签,根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的第一待标注试题集,确定每个所述目标标注者的目标试题集,其中,所述目标试题集中包含有多个对照题和第二待标注试题集。
本实施例中,可以根据每个目标标注者的登录信息中的登录名称获取每个所述目标标注者的标注画像,具体地,标注画像中包含有多个关键标签,在后续的目标试题集的确定过程中,需要考虑每个所述目标标注者的多个关键标签,每个所述目标标注者的多个关键标签可以包括以下一种或者多种方式的组合:标注等级、标注领域范围、历史标注水准、标签完成量等。
本实施例中,多个目标标注者可以对应一套目标试题集,也可以对应多套目标试题集,且多套目标试题集中的待标注试题和对照题可以重复,本实施例通过根据所述多个目标标注者的标注画像对所述多个目标标注者进行群体分类,为一个群体类别的多个目标标注者生成一套目标试题集,一方面,减少了目标试题集的数量,提高了目标试题集的生成效率,进而提高了标注结果的反馈效率,同时,由于多个目标标注者同时标注同一套目标试题集,且同一个待标注试题可以出现在不同的目标试题集中,增加了同一待标注试题的标注结果数量,提高了后续确定的每个待标注试题的正确标注答***率。
本实施例中,可以预先训练群体分类模型,将所述标注者的标注等级、标注领域范围、历史标注水准、标签完成量等标签输入至预先训练的群体分类模型中,并根据所述群体分类模型识别出所述标注者的群体类别。
可选的,所述群体分类模型的训练过程包括:
21)获取多个标注者及对应的群体类型;
22)提取每个标注者对应的标注画像中的预设的多个关键标签;
23)将所述多个关键标签作为样本数据集;
24)从所述样本数据集中划分出训练集和测试集;
25)将所述训练集输入预设神经网络中进行训练,得到群体分类模型;
26)将所述测试集输入至所述群体分类模型中进行测试,并计算测试通过率;
27)当所述测试通过率大于或者等于预设通过率阈值时,结束所述群体分类模型的训练;当所述测试通过率小于所述预设通过率阈值时,增加所述训练集的数量,重新进行群体分类模型的训练。
本实施例中,可以预先设置群体类型,所述群体类型根据标注者的关键标签进行设置。获取每个类型的多个标准者,提取标注者的预设的多个关键标签,然后根据提取每个标注者对应的标注画像中的预设的多个关键标签及群体类型标识训练群体分类模型,后续只需要获取每个标注者对应的标注画像中的多个关键标签,即可通过群体分类模型识别出标注者所属的群体类型,准确率高。
进一步地,所述根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的待标注语料,确定每个所述目标标注者的目标试题集包括:
根据每个所述目标标注者的多个关键标签及对应的群体类别,按照预设的筛选规则从所述数据标注任务请求中的第一待标注试题集中确定出每个目标标注者的第二待标注试题集;
计算所述数据标注任务请求中的待标注语料与构建的含标注语料库中的每个标注语料之间的相似度;
从计算得到的相似度中提取出相似度较大的多个标注语料对应的多个第一试题,并根据每个所述目标标注者的多个关键标签及对应的群体类别从所述多个第一试题中提取多个第二试题,并将所述多个第二试题确定为每个所述目标标注者的多个对照题;
将每个所述目标标注者的多个对照题和对应的第二待标注试题集进行合并,得到每个所述目标标注者的目标试题集。
本实施例中,构建的含标注语料库中的每个标注语料对应的第一试题包含有正确标注答案,在为每个目标标注者确定目标试题集中,在每个所述目标标注者的目标试题集中添加对照题,可以根据每个目标标注者的对照题的正确率确定每个目标标注者的置信度,在后续进行待标注试题的标签推断时,考虑到了每个目标标注者标注的对照题的正确率,进而提高了确定的每个待标注试题的正确标注答***率。
具体地,所述含标注语料库的构建过程包括:
从多个预设的数据源中采集已公开的公开语料库;
发送授权请求至未公开已标注的待标注语料库对应的发布者,当侦测到发布者的授权指令时,响应于所述授权指令采集所述未公开已标注的待标注语料库,并将所述未公开已标注的待标注语料库加载至已公开的公开语料库中,得到含标注语料库。
本实施例中,可以预先设置多个数据源,所述预设的数据源可以为存储数据的平台、第三方应用平台、验证数据平台等,通过预设的数据源可以采集到与标注任务中的标注语料存在关联关系的公开语料库,具体地,在进行含标注语料库的构建过程中,从已公开的公开语料库和未公开的已标注的待标注语料库两个维度进行了考虑,确保了构建的含标注语料库中的语料的多样性和完整性。
S13,响应于所述开始标注指令向所述多个目标标注者同时发送对应的目标试题集,及响应于所述结束标注指令同时采集所述多个目标标注者的标注结果。
本实施例中,为了确保标注结果的反馈效率及准确率,可以同时向所述多个目标标注者发送对应的目标试题集进行标注,并响应于结束标注指令同时采集多个目标标注者的标注结果。
S14,根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果。
本实施例中,预设的推断算法包括以下一种或者多种方式的组合:加权投票推断算法、极大似然推断算法及集合推断算法。
在一个可选的实施例中,所述根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据集合推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果。
进一步地,所述根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号(这句话确定的是第二标注结果的编号,下句话确定的是待标注试题的正确标注答案对应的编号,逻辑不对);或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 829827DEST_PATH_IMAGE001
其中,
Figure 413255DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 131813DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 117086DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
进一步地,所述根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 426845DEST_PATH_IMAGE005
其中,
Figure 497569DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 550976DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 984231DEST_PATH_IMAGE007
表示
Figure 464891DEST_PATH_IMAGE003
的补集,
Figure 757332DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
在其他可选的实施例中,所述根据集合推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,计算每个待标注试题的每个第二标注结果对应的多个目标标注者的置信度之和,得到每个所述待标注试题的每个第二标注结果的第一置信度;及计算第一乘积与第二乘积之间的乘积,得到每个所述待标注试题的每个第二标注结果的第二置信度,其中,计算每个待标注试题的每个第二标注结果对应的多个目标标注者的置信度之积,得到第一乘积,及1减去每个目标标注者的置信度得到每个目标标注者的目标置信度,计算每个待标注试题的每个第二标注结果对应的多个目标标注者的目标置信度之积,得到第二乘积;
计算每个所述第二标注结果的第一置信度与对应第二标注结果的第二置信度之间的平均值,得到每个所述待标注试题的每个所述第二标注结果的第三置信度;
从每个所述待标注试题的多个第二标注结果的多个第三置信度中选取出最大的第三置信度对应的第二标注结果编号,并根据所述最大的第三置信度对应的第二标注结果编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
本实施例中,第一得分用以表征每个所述目标标注者正确的标注结果对应的得分,所述第二得分用以表征每个所述目标标注者的目标试题集中的多个对照题的总得分,所述置信度用以表征每个所述目标标注者的对照题的正确概率。
本实施例中,所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能。
本实施例,在进行待标注试题的正确标注答案的推断时,通过在待标注试题集中添加对照题,根据每个所述目标标注者对对照题的标注,确定出每个目标标注者的置信度,根据每个目标标注者的置信度通过采用预设的推断算法,进而推断出每个待标注试题的正确标注答案,不是直接根据对待标注试题的标注结果确定每个待标注试题的正确标注答案,而是通过考虑每个目标标注者标注的对照题的正确率推算每个待标注试题的正确标注答案,确保了得到的每个待标注试题的正确标注答***性,进而提高了反馈的结果的准确率及效率。
S15,将每个所述目标标注者的反馈结果发送至对应目标标注者客户端。
本实施例中,在得到每个所述目标标注者的反馈结果时,可以按照预设的发送方式将每个所述目标标注者的反馈结果发送至对应的目标标注者客户端,具体地,所述预设的发送方式可以包括以下一种或者多种方式的组合:短信方式、邮件方式或者微信方式。
在一个可选的实施例中,所述将每个所述目标标注者的反馈结果发送至对应目标标注者客户端包括:
将每个所述目标标注者的反馈结果转换成预设格式的反馈结果,并将所述预设格式的反馈结果按照预设的发送方式发送至对应目标标注者客户端。
本实施例中,预设格式可以包括以下一种或者多种方式的组合:图片格式、PDF格式、EXCEL格式、可编辑格式、不可编辑格式、加密格式及不加密格式。
示例性的,若待标注任务的保密级别较高,在得到每个所述目标标注者的反馈结果时,可以将所述反馈结果转换为加密格式反馈结果,提高了反馈结果的安全性。
本实施例中,由于可以将反馈结果转换为多种格式,提高了反馈结果的多样性和灵活性。
本实施例中,由于所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能,当目标标注者接收到反馈结果时,可以根据反馈结果掌握每个待标注试题的错题解析及相关知识,进而提高每个所述目标标注者的专业素养。
综上所述,本实施例所述的一种数据处理方法,在进行每个目标标注者的目标试题集确定过程中,通过根据多个目标标注者的标注画像对所述多个目标标注者进行群体分类,为一个群体类别的多个目标标注者生成一套目标试题集,一方面,减少了目标试题集的数量,提高了目标试题集的生成效率,进而提高了标注结果的反馈效率,同时,由于多个目标标注者同时标注同一套目标试题集,且同一个待标注试题可以出现在不同的目标试题集中,增加了同一待标注试题的标注结果数量,提高了后续确定的每个待标注试题的正确标注答***率;在进行待标注试题的正确标注答案的推断时,通过在待标注试题集中添加对照题,根据每个所述目标标注者对对照题的标注,确定出每个目标标注者的置信度,根据每个目标标注者的置信度通过采用预设的推断算法,进而推断出每个待标注试题的正确标注答案,不是直接根据对待标注试题的标注结果确定每个待标注试题的正确标注答案,而是通过考虑每个目标标注者标注的对照题的正确率推算每个待标注试题的正确标注答案,确保了得到的每个待标注试题的正确标注答***性,进而提高了反馈的结果的准确率及效率。并将得到的反馈结果发送至对应目标标注者客户端,由于所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能,当目标标注者接收到反馈结果时,可以根据反馈结果掌握每个待标注试题的错题解析及相关知识,进而提高每个所述目标标注者的专业素养。
实施例二
图2是本申请实施例二提供的数据处理装置的结构图。
在一些实施例中,所述数据处理装置20可以包括多个由程序代码段所组成的功能模块。所述数据处理装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)数据处理的功能。
本实施例中,所述数据处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:解析模块201、确定模块202、第一发送模块203、标签推算模块204及第二发送模块205。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
解析模块201,用于解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令。
本实施例中,用户在执行标注任务时,通过客户端发起数据标注任务请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有智能设备,所述服务端可以为众包标注***,在执行标注任务过程中,如所述客户端可以向众包标注***发送数据标注任务请求,所述众包标注***用于对大规模数据的人工实时并行标记与验证,当所述众包标注***接收到所述客户端发送的数据标注任务请求时,对所述数据标注任务请求进行解析,获取多个目标标注者、开始标注指令和结束标注指令。
在一个可选的实施例中,所述解析模块201解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令包括:
解析所述数据标注任务请求的报文,得到所述报文携带的报文信息;
从所述报文信息中获取多个登录信息、执行标注任务的开始时间和执行标注任务的结束时间,其中,所述每个登录信息中包含有标注者的登录名称和登录设备标识码;
从预设的标注者数据库中确定出与每个所述标注者的登录名称相匹配的目标标注者,并将每个所述目标标注者与对应的登录设备标识码进行关联;
根据关联后的多个目标标注者及执行标注任务的开始时间生成开始标注指令,及根据关联后的多个目标标注者及执行标注任务的结束时间生成结束标注指令。
本实施例中,在众包标注***中进行语料标注时,针对同一待标注语料需要一个或者多个目标标注者进行标注,当需要多个目标标注者进行标注时,需要多个目标标注者完成标注后才能够进行标注信息反馈,然而,由于每个目标标注者的标注时间不统一,难以使得每个目标标注者标注完成后能够即时的获取标注信息反馈结果,本案通过在接收到任务标注请求时,根据标注任务的开始时间和结束时间生成开始标注指令和结束标注指令,在后续的执行标注任务时,同时向多个目标标注者发送开始标注指令和结束标注指令,每个目标标注者响应于所述众包标注***发送的开始标注指令和结束标注指令执行标注任务,解决了多个目标标注者标注时间不统一导致无法即时的获取标注信息反馈结果的问题。
确定模块202,用于根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集。
本实施例中,当针对同一语料需要多个目标标注者进行标注时,同一语料中可能存在多个领域的知识,故多个目标标注者也可能是不同领域的,每个目标标注者的标注画像不同,对应的目标试题集也不同。
在一个可选的实施例中,所述确定模块202根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集包括:
识别每个目标标注者的登录信息,基于所述登录信息获取每个目标标注者的标注画像;
将所述多个目标标注者的标注画像输入至预先训练好的群体分类模型中,得到每个目标标注者的群体类别;
从每个目标标注者的标注画像中提取多个关键标签,根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的第一待标注试题集,确定每个所述目标标注者的目标试题集,其中,所述目标试题集中包含有多个对照题和第二待标注试题集。
本实施例中,可以根据每个目标标注者的登录信息中的登录名称获取每个所述目标标注者的标注画像,具体地,标注画像中包含有多个关键标签,在后续的目标试题集的确定过程中,需要考虑每个所述目标标注者的多个关键标签,每个所述目标标注者的多个关键标签可以包括以下一种或者多种方式的组合:标注等级、标注领域范围、历史标注水准、标签完成量等。
本实施例中,多个目标标注者可以对应一套目标试题集,也可以对应多套目标试题集,且多套目标试题集中的待标注试题和对照题可以重复,本实施例通过根据所述多个目标标注者的标注画像对所述多个目标标注者进行群体分类,为一个群体类别的多个目标标注者生成一套目标试题集,一方面,减少了目标试题集的数量,提高了目标试题集的生成效率,进而提高了标注结果的反馈效率,同时,由于多个目标标注者同时标注同一套目标试题集,且同一个待标注试题可以出现在不同的目标试题集中,增加了同一待标注试题的标注结果数量,提高了后续确定的每个待标注试题的正确标注答***率。
本实施例中,可以预先训练群体分类模型,将所述标注者的标注等级、标注领域范围、历史标注水准、标签完成量等标签输入至预先训练的群体分类模型中,并根据所述群体分类模型识别出所述标注者的群体类别。
可选的,所述群体分类模型的训练过程包括:
21)获取多个标注者及对应的群体类型;
22)提取每个标注者对应的标注画像中的预设的多个关键标签;
23)将所述多个关键标签作为样本数据集;
24)从所述样本数据集中划分出训练集和测试集;
25)将所述训练集输入预设神经网络中进行训练,得到群体分类模型;
26)将所述测试集输入至所述群体分类模型中进行测试,并计算测试通过率;
27)当所述测试通过率大于或者等于预设通过率阈值时,结束所述群体分类模型的训练;当所述测试通过率小于所述预设通过率阈值时,增加所述训练集的数量,重新进行群体分类模型的训练。
本实施例中,可以预先设置群体类型,所述群体类型根据标注者的关键标签进行设置。获取每个类型的多个标准者,提取标注者的预设的多个关键标签,然后根据提取每个标注者对应的标注画像中的预设的多个关键标签及群体类型标识训练群体分类模型,后续只需要获取每个标注者对应的标注画像中的多个关键标签,即可通过群体分类模型识别出标注者所属的群体类型,准确率高。
进一步地,所述根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的待标注语料,确定每个所述目标标注者的目标试题集包括:
根据每个所述目标标注者的多个关键标签及对应的群体类别,按照预设的筛选规则从所述数据标注任务请求中的第一待标注试题集中确定出每个目标标注者的第二待标注试题集;
计算所述数据标注任务请求中的待标注语料与构建的含标注语料库中的每个标注语料之间的相似度;
从计算得到的相似度中提取出相似度较大的多个标注语料对应的多个第一试题,并根据每个所述目标标注者的多个关键标签及对应的群体类别从所述多个第一试题中提取多个第二试题,并将所述多个第二试题确定为每个所述目标标注者的多个对照题;
将每个所述目标标注者的多个对照题和对应的第二待标注试题集进行合并,得到每个所述目标标注者的目标试题集。
本实施例中,构建的含标注语料库中的每个标注语料对应的第一试题包含有正确标注答案,在为每个目标标注者确定目标试题集中,在每个所述目标标注者的目标试题集中添加对照题,可以根据每个目标标注者的对照题的正确率确定每个目标标注者的置信度,在后续进行待标注试题的标签推断时,考虑到了每个目标标注者标注的对照题的正确率,进而提高了确定的每个待标注试题的正确标注答***率。
具体地,所述含标注语料库的构建过程包括:
从多个预设的数据源中采集已公开的公开语料库;
发送授权请求至未公开已标注的待标注语料库对应的发布者,当侦测到发布者的授权指令时,响应于所述授权指令采集所述未公开已标注的待标注语料库,并将所述未公开已标注的待标注语料库加载至已公开的公开语料库中,得到含标注语料库。
本实施例中,可以预先设置多个数据源,所述预设的数据源可以为存储数据的平台、第三方应用平台、验证数据平台等,通过预设的数据源可以采集到与标注任务中的标注语料存在关联关系的公开语料库,具体地,在进行含标注语料库的构建过程中,从已公开的公开语料库和未公开的已标注的待标注语料库两个维度进行了考虑,确保了构建的含标注语料库中的语料的多样性和完整性。
第一发送模块203,用于响应于所述开始标注指令向所述多个目标标注者同时发送对应的目标试题集,及响应于所述结束标注指令同时采集所述多个目标标注者的标注结果。
本实施例中,为了确保标注结果的反馈效率及准确率,可以同时向所述多个目标标注者发送对应的目标试题集进行标注,并响应于结束标注指令同时采集多个目标标注者的标注结果。
标签推算模块204,用于根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果。
本实施例中,预设的推断算法包括以下一种或者多种方式的组合:加权投票推断算法、极大似然推断算法及集合推断算法。
在一个可选的实施例中,所述标签推算模块204根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据集合推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果。
进一步地,所述根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 614429DEST_PATH_IMAGE001
其中,
Figure 308716DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 960277DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 5594DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
进一步地,所述根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 400803DEST_PATH_IMAGE005
其中,
Figure 949596DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 37638DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 304671DEST_PATH_IMAGE007
表示
Figure 769150DEST_PATH_IMAGE003
的补集,
Figure 172450DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
在其他可选的实施例中,所述根据集合推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,计算每个待标注试题的每个第二标注结果对应的多个目标标注者的置信度之和,得到每个所述待标注试题的每个第二标注结果的第一置信度;及计算第一乘积与第二乘积之间的乘积,得到每个所述待标注试题的每个第二标注结果的第二置信度,其中,计算每个待标注试题的每个第二标注结果对应的多个目标标注者的置信度之积,得到第一乘积,及1减去每个目标标注者的置信度得到每个目标标注者的目标置信度,计算每个待标注试题的每个第二标注结果对应的多个目标标注者的目标置信度之积,得到第二乘积;
计算每个所述第二标注结果的第一置信度与对应第二标注结果的第二置信度之间的平均值,得到每个所述待标注试题的每个所述第二标注结果的第三置信度;
从每个所述待标注试题的多个第二标注结果的多个第三置信度中选取出最大的第三置信度对应的第二标注结果编号,并根据所述最大的第三置信度对应的第二标注结果编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
本实施例中,第一得分用以表征每个所述目标标注者正确的标注结果对应的得分,所述第二得分用以表征每个所述目标标注者的目标试题集中的多个对照题的总得分,所述置信度用以表征每个所述目标标注者的对照题的正确概率。
本实施例中,所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能。
本实施例,在进行待标注试题的正确标注答案的推断时,通过在待标注试题集中添加对照题,根据每个所述目标标注者对对照题的标注,确定出每个目标标注者的置信度,根据每个目标标注者的置信度通过采用预设的推断算法,进而推断出每个待标注试题的正确标注答案,不是直接根据对待标注试题的标注结果确定每个待标注试题的正确标注答案,而是通过考虑每个目标标注者标注的对照题的正确率推算每个待标注试题的正确标注答案,确保了得到的每个待标注试题的正确标注答***性,进而提高了反馈的结果的准确率及效率。
第二发送模块205,用于将每个所述目标标注者的反馈结果发送至对应目标标注者客户端。
本实施例中,在得到每个所述目标标注者的反馈结果时,可以按照预设的发送方式将每个所述目标标注者的反馈结果发送至对应的目标标注者客户端,具体地,所述预设的发送方式可以包括以下一种或者多种方式的组合:短信方式、邮件方式或者微信方式。
在一个可选的实施例中,所述第二发送模块205将每个所述目标标注者的反馈结果发送至对应目标标注者客户端包括:
将每个所述目标标注者的反馈结果转换成预设格式的反馈结果,并将所述预设格式的反馈结果按照预设的发送方式发送至对应目标标注者客户端。
本实施例中,预设格式可以包括以下一种或者多种方式的组合:图片格式、PDF格式、EXCEL格式、可编辑格式、不可编辑格式、加密格式及不加密格式。
示例性的,若待标注任务的保密级别较高,在得到每个所述目标标注者的反馈结果时,可以将所述反馈结果转换为加密格式反馈结果,提高了反馈结果的安全性。
本实施例中,由于可以将反馈结果转换为多种格式,提高了反馈结果的多样性和灵活性。
本实施例中,由于所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能,当目标标注者接收到反馈结果时,可以根据反馈结果掌握每个待标注试题的错题解析及相关知识,进而提高每个所述目标标注者的专业素养。
综上所述,本实施例所述的一种数据处理装置,在进行每个目标标注者的目标试题集确定过程中,通过根据多个目标标注者的标注画像对所述多个目标标注者进行群体分类,为一个群体类别的多个目标标注者生成一套目标试题集,一方面,减少了目标试题集的数量,提高了目标试题集的生成效率,进而提高了标注结果的反馈效率,同时,由于多个目标标注者同时标注同一套目标试题集,且同一个待标注试题可以出现在不同的目标试题集中,增加了同一待标注试题的标注结果数量,提高了后续确定的每个待标注试题的正确标注答***率;在进行待标注试题的正确标注答案的推断时,通过在待标注试题集中添加对照题,根据每个所述目标标注者对对照题的标注,确定出每个目标标注者的置信度,根据每个目标标注者的置信度通过采用预设的推断算法,进而推断出每个待标注试题的正确标注答案,不是直接根据对待标注试题的标注结果确定每个待标注试题的正确标注答案,而是通过考虑每个目标标注者标注的对照题的正确率推算每个待标注试题的正确标注答案,确保了得到的每个待标注试题的正确标注答***性,进而提高了反馈的结果的准确率及效率。并将得到的反馈结果发送至对应目标标注者客户端,由于所述反馈结果中包含有每个待标注试题的关联知识点查询、正确标注答案,及错误标注答案、错误标注答案的解读及错题重做等功能,当目标标注者接收到反馈结果时,可以根据反馈结果掌握每个待标注试题的错题解析及相关知识,进而提高每个所述目标标注者的专业素养。
实施例三
参阅图3所示,为本申请实施例三提供的电子设备的结构示意图。在本申请较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的数据处理装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的数据处理装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到数据处理的目的。
示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成解析模块201、确定模块202、第一发送模块203、标签推算模块204及第二发送模块205。
在本申请的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现数据处理的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本申请中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令;
根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集;
响应于所述开始标注指令向所述多个目标标注者同时发送对应的目标试题集,及响应于所述结束标注指令同时采集所述多个目标标注者的标注结果;
根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;
将每个所述目标标注者的反馈结果发送至对应目标标注者客户端。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;或者
根据集合推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果。
3.如权利要求2所述的数据处理方法,其特征在于,所述根据加权投票推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 867444DEST_PATH_IMAGE001
其中,
Figure 536322DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 529686DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 284015DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
4.如权利要求2所述的数据处理方法,其特征在于,所述根据极大似然推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果包括:
识别每个所述目标标注者的目标试题集中的多个对照题;
将每个所述对照题的第一标注结果与对应对照题的标准结果进行匹配,得到每个所述目标标注者的第一得分;
计算每个所述目标标注者的多个对照题的第二得分;
计算所述第一得分与所述第二得分之间的商数,确定为每个所述目标标注者的置信度;
从所述多个目标标注者的多个目标试题集中提取出第二待标注试题集;
识别所述第二待标注试题集中每个所述标注试题的第二标注结果,其中,所述第二标注结果包含一个或者多个;
当每个所述待标注试题包含一个第二标注结果时,将所述第二标注结果的编号确定为每个所述待标注试题的正确标注答案对应的编号;或者,当每个所述待标注试题包含多个第二标注结果时,根据所述多个第二标注结果计算每个所述待标注试题的正确标注答案对应的编号采用如下公式计算得到:
Figure 21027DEST_PATH_IMAGE005
其中,
Figure 137888DEST_PATH_IMAGE002
表示每个所述待标注试题的正确标注答案对应的编号,j表示每个待标注试题的目标标注者总数,
Figure 567732DEST_PATH_IMAGE003
表示第i个待标注试题的第w个第二标注结果的总数,
Figure 809358DEST_PATH_IMAGE006
表示
Figure 84481DEST_PATH_IMAGE003
的补集,
Figure 727952DEST_PATH_IMAGE004
表示每个第二标注结果对应的每个目标标注者的置信度;
根据每个所述待标注试题的正确标注答案对应的编号确定出每个所述待标注试题对应的正确标注答案;
根据每个所述待标注试题对应的正确标注答案分析每个所述目标标注者对应的目标试题集,得到每个所述目标标注者的反馈结果。
5.如权利要求1所述的数据处理方法,其特征在于,所述解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令包括:
解析所述数据标注任务请求的报文,得到所述报文携带的报文信息;
从所述报文信息中获取多个登录信息、执行标注任务的开始时间和执行标注任务的结束时间,其中,所述每个登录信息中包含有标注者的登录名称和登录设备标识码;
从预设的标注者数据库中确定出与每个所述标注者的登录名称相匹配的目标标注者,并将每个所述目标标注者与对应的登录设备标识码进行关联;
根据关联后的多个目标标注者及执行标注任务的开始时间生成开始标注指令,及根据关联后的多个目标标注者及执行标注任务的结束时间生成结束标注指令。
6.如权利要求1所述的数据处理方法,其特征在于,所述根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集包括:
识别每个目标标注者的登录信息,基于所述登录信息获取每个目标标注者的标注画像;
将所述多个目标标注者的标注画像输入至预先训练好的群体分类模型中,得到每个目标标注者的群体类别;
从每个目标标注者的标注画像中提取多个关键标签,根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的第一待标注试题集,确定每个所述目标标注者的目标试题集,其中,所述目标试题集中包含有多个对照题和第二待标注试题集。
7.如权利要求6所述的数据处理方法,其特征在于,所述根据每个目标标注者的多个关键标签、对应的群体类别及所述数据标注任务请求中的第一待标注试题集,确定每个所述目标标注者的目标试题集包括:
根据每个所述目标标注者的多个关键标签及对应的群体类别,按照预设的筛选规则从所述数据标注任务请求中的第一待标注试题集中确定出每个目标标注者的第二待标注试题集;
计算所述数据标注任务请求中的待标注语料与构建的含标注语料库中的每个标注语料之间的相似度;
从计算得到的相似度中提取出相似度较大的多个标注语料对应的多个第一试题,并根据每个所述目标标注者的多个关键标签及对应的群体类别从所述多个第一试题中提取多个第二试题,并将所述多个第二试题确定为每个所述目标标注者的多个对照题;
将每个所述目标标注者的多个对照题和对应的第二待标注试题集进行合并,得到每个所述目标标注者的目标试题集。
8.一种数据处理装置,其特征在于,所述装置包括:
解析模块,用于解析接收到的数据标注任务请求,获取多个目标标注者、开始标注指令和结束标注指令;
确定模块,用于根据所述多个目标标注者的标注画像,确定每个所述目标标注者对应的目标试题集;
第一发送模块,用于响应于所述开始标注指令向所述多个目标标注者同时发送对应的目标试题集,及响应于所述结束标注指令同时采集所述多个目标标注者的标注结果;
标签推算模块,用于根据预设的推断算法对所述多个目标标注者的标注结果进行标签推算,得到每个所述目标标注者的反馈结果;
第二发送模块,用于将每个所述目标标注者的反馈结果发送至对应目标标注者客户端。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据处理方法。
CN202111022497.3A 2021-09-01 2021-09-01 数据处理方法、装置、电子设备及存储介质 Active CN113469291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111022497.3A CN113469291B (zh) 2021-09-01 2021-09-01 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111022497.3A CN113469291B (zh) 2021-09-01 2021-09-01 数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113469291A true CN113469291A (zh) 2021-10-01
CN113469291B CN113469291B (zh) 2021-11-30

Family

ID=77867113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111022497.3A Active CN113469291B (zh) 2021-09-01 2021-09-01 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113469291B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146716A (zh) * 2022-06-22 2022-10-04 腾讯科技(深圳)有限公司 标注方法、装置、设备、存储介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346356A1 (en) * 2012-06-22 2013-12-26 California Institute Of Technology Systems and Methods for Labeling Source Data Using Confidence Labels
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN107705034A (zh) * 2017-10-26 2018-02-16 医渡云(北京)技术有限公司 众包平台实现方法及装置、存储介质和电子设备
CN110457494A (zh) * 2019-08-01 2019-11-15 新华智云科技有限公司 数据标注方法、装置、电子设备及存储介质
CN111414950A (zh) * 2020-03-13 2020-07-14 天津美腾科技股份有限公司 基于标注者专业度管理的矿石图片标注方法和***
CN112488222A (zh) * 2020-12-05 2021-03-12 武汉中海庭数据技术有限公司 一种众包数据标注方法、***、服务器及存储介质
CN112749308A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 一种数据标注方法、装置及电子设备
CN113032649A (zh) * 2019-12-24 2021-06-25 华为技术有限公司 标注数据的方法、装置、终端设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346356A1 (en) * 2012-06-22 2013-12-26 California Institute Of Technology Systems and Methods for Labeling Source Data Using Confidence Labels
CN104573359A (zh) * 2014-12-31 2015-04-29 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN107705034A (zh) * 2017-10-26 2018-02-16 医渡云(北京)技术有限公司 众包平台实现方法及装置、存储介质和电子设备
CN110457494A (zh) * 2019-08-01 2019-11-15 新华智云科技有限公司 数据标注方法、装置、电子设备及存储介质
CN112749308A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 一种数据标注方法、装置及电子设备
CN113032649A (zh) * 2019-12-24 2021-06-25 华为技术有限公司 标注数据的方法、装置、终端设备和存储介质
CN111414950A (zh) * 2020-03-13 2020-07-14 天津美腾科技股份有限公司 基于标注者专业度管理的矿石图片标注方法和***
CN112488222A (zh) * 2020-12-05 2021-03-12 武汉中海庭数据技术有限公司 一种众包数据标注方法、***、服务器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146716A (zh) * 2022-06-22 2022-10-04 腾讯科技(深圳)有限公司 标注方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN113469291B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN111695613B (zh) 数据标注***、计算机可读存储介质及电子设备
CN112380870A (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN111986744B (zh) 医疗机构的患者界面生成方法、装置、电子设备及介质
CN114334169B (zh) 医疗对象的类别决策方法、装置、电子设备及存储介质
CN113723513A (zh) 多标签图像分类方法、装置及相关设备
CN113190372B (zh) 多源数据的故障处理方法、装置、电子设备及存储介质
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN113807973A (zh) 文本纠错方法、装置、电子设备及计算机可读存储介质
CN113435582A (zh) 基于句向量预训练模型的文本处理方法及相关设备
WO2023040145A1 (zh) 基于人工智能的文本分类方法、装置、电子设备及介质
CN113469291B (zh) 数据处理方法、装置、电子设备及存储介质
CN114862520A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN114880449A (zh) 智能问答的答复生成方法、装置、电子设备及存储介质
CN114756669A (zh) 问题意图的智能分析方法、装置、电子设备及存储介质
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113570286B (zh) 基于人工智能的资源分配方法、装置、电子设备及介质
CN116108276A (zh) 基于人工智能的信息推荐方法、装置及相关设备
CN115658858A (zh) 基于人工智能的对话推荐方法及相关设备
CN116842143A (zh) 基于人工智能的对话模拟方法、装置、电子设备及介质
CN116226315A (zh) 基于人工智能的敏感信息检测方法、装置及相关设备
CN115510219A (zh) 话术推荐方法、装置、电子设备及存储介质
CN114595321A (zh) 问题标注方法、装置、电子设备及存储介质
CN114881313A (zh) 基于人工智能的行为预测方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant