CN114580577A

CN114580577A - 一种面向多模态的交互式数据标注方法及***

Info

Publication number: CN114580577A
Application number: CN202210478381.9A
Authority: CN
Inventors: 张梅山; 卢攀忠; 孙越恒
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-06-03
Anticipated expiration: 2042-05-05
Also published as: CN114580577B

Abstract

本发明公开了一种面向多模态的交互式数据标注方法及***，涉及人工智能技术领域。包括：前端数据标注单元，用于获取并完成待标注的任务，得到任务数据，并将任务数据发送至后端数据管理单元；其中，前端数据标注单元包括用户界面模块、数据标注任务模块以及标注模式模块；后端数据管理单元，用于对任务数据以及用户进行管理。本发明能够解决当下各个数据标注平台或工具在标注数据的模态上的单一性，以及在用户与标注工具上的交互式单一性的问题。提出了多模态的数据标注方式，能够从多个模态数据入手，实现对数据的合理标注，同时利用语音交互式的标注模式，开拓了一种新型的数据标注模式，这能极大地提高标注工具的交互性与便捷性。

Description

一种面向多模态的交互式数据标注方法及***

技术领域

本发明涉及人工智能技术领域，特别是指一种面向多模态的交互式数据标注方法及***。

背景技术

在当前大数据的时代背景下，随着深度学习在人工智能领域的普遍推广，无论是在工业界还是学术界，有恰当标签的数据对市场的发展和科研的推进都有重要的作用，因此，数据的整合和标注任务意义重大，一个方便高效的可以即时交互性的数据标注工具有很大的应用前景。值得注意的是，这里指的需要被人工标注标签的数据集大多是非结构化的，类型模态多样（如文本、图像、语音和视频数据）。

而目前对于海量数据进行人工标注的主流方式大概分为两种：一种是将已有数据外包给数据标注公司（平台）进行标注，另外一种是自己使用开源的数据标注工具对数据进行标注。具体而言，主流的数据标注公司（平台）有亚马逊的SageMaker数据标注平台，“百度众测”标注平台，京东众智数据标注平台，数据堂标注平台，网易众包平台等，这些标注平台拥有庞大的代理商队伍，交付能力较为一流；而主流的数据标注工具有Doccano，Label-studio，Prodigy和Chinese-Annotator等工具，这类标注工具的特点在于大多免费，功能较为齐全，页面简单，可以团队协作，本发明与这类数据标注工具最为接近。

数据标注公司（平台），拥有庞大的代理商队伍，能够及时按期地完成被交付的数据标注任务，但标注数据可能存在信息泄露，质量得不到保证，费用高昂等问题。

主流的数据标注工具，针对标注的数据模态基本为单一的，即只能标注文

本或者图像或者语音或者视频数据，不能针对多个模态数据进行同时标注。举例而言：假设现有一种基于对话场景下的任务——多模态的共指消解任务，该任务的数据标注目标是：给定一张图像，图像的描述文本和对话文本，同时利用鼠标框出文本和图像数据中指代同一对象的区域（文本模态为名词，名词短语或代词等，图像中具体为一区域框）。其次，这些数据标注工具与标注人员的交互模式单一，必须通过鼠标指向某一位置，拖动指定区域进行标注，而非更加方便的进行语音交互标注或者更正数据。因此，现有技术存在数据标注公司（平台）或者标注工具存在的单模态数据标注和交互形式单一的问题。

发明内容

本发明针对如何解决当前数据标注公司（平台）或者标注工具存在的单模态数据标注和交互形式单一的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种面向多模态的交互式数据标注***，该***应用于实现面向多模态的交互式数据标注方法，该***包括前端数据标注单元以及后端数据管理单元；其中：

前端数据标注单元，用于获取并完成待标注的任务，得到任务数据，并将任务数据发送至后端数据管理单元；其中，前端数据标注单元包括用户界面模块、数据标注任务模块以及标注模式模块。

后端数据管理单元，用于对任务数据以及用户进行管理；其中，后端数据管理单元包括数据读取与存储模块以及用户管理模块。

可选地，用户界面模块用于将待标注的任务可视化呈现给标注人员进行任务标注。

可选地，数据标注任务模块用于将任务划分为单模态数据标注任务或多模态数据标注任务。

可选地，单模态数据标注任务包括文本分类任务、图像分类任务以及序列标注任务。

多模态数据标注任务包括文本加语音的标注任务、文本加图像的标注任务以及文本、图像加语音的标注任务。

可选地，标注模式模块用于供标注人员选择标注模式；其中，标注模式包括传统的鼠标标注模式以及语音标注模式。

语音标注模式包括标注模式以及纠正模式。

可选地，数据读取与存储模块用于读取以及存储数据；其中，数据的格式为文本格式；文本格式包括轻量级的数据交换JSON格式和逗号分隔值CSV格式。

可选地，数据读取与存储模块将图像、语音或视频模态的数据通过相对路径的格式存储于文本格式中。

可选地，用户管理模块用于成员管理；其中，用户管理模块包括管理员模块、标注成员模块以及审核成员模块。

管理员模块的权限包括上传与下载数据、分配标注任务、标注数据以及对标注的数据进行审核、打分以及修正。

标注成员模块的权限包括标注数据。

审核成员模块的权限包括对标注的数据进行审核、打分以及修正。

可选地，前端数据标注单元基于Bootstrap工具开发。

后端数据管理单元基于Django框架的模型-视图-模板MVT模式架构开发。

另一方面，本发明提供了一种面向多模态的交互式数据标注方法，该方法由面向多模态的交互式数据标注***实现，该***包括前端数据标注单元以及后端数据管理单元；该方法包括：

S1、前端数据标注单元获取并完成待标注的任务，得到任务数据，并将任务数据发送至后端数据管理单元；其中，前端数据标注单元包括用户界面模块、数据标注任务模块以及标注模式模块；

S2、后端数据管理单元对任务数据以及用户进行管理；其中，后端数据管理单元包括数据读取与存储模块以及用户管理模块。

语音标注模式包括标注模式以及纠正模式。

标注成员模块的权限包括标注数据。

可选地，前端数据标注单元基于Bootstrap工具开发。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，提出一种面向多模态的交互式数据标注工具设计。解决了当前数据标注公司（平台）或者标注工具存在的单模态数据标注和交互形式单一的问题。即核心创新点，一是面向多模态数据，本专利的设计理念不再局限于单模态的标注任务，即对文本或者图像等进行标注，而是扩充为多模态，即能对两种，或者两种以上的模态进行任务标注，以期将多种不同模态数据的同一内容标注出来；本专利从多个模态数据入手，实现对数据的合理标注。二是更加便捷的语音交互式，可以利用语音指令的方式对数据进行标注或者修正，这里语音指令是可以被规则化的，开拓了一种新型的数据标注模式，这能极大地提高标注工具的交互性与便捷性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的面向多模态的交互式数据标注***框图；

图2是本发明实施例提供的多模态共指消解任务标注结果示例图；

图3是本发明实施例提供的命名实体识别任务示例图；

图4是本发明实施例提供的面向多模态的交互式数据标注方法流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种面向多模态的交互式数据标注***，该***用于实现面向多模态的交互式数据标注方法。该***包括前端数据标注单元以及后端数据管理单元；其中：

前端数据标注单元，用于获取并完成待标注的任务，得到任务数据，并将任务数据发送至后端数据管理单元。

其中，前端数据标注单元包括用户界面模块、数据标注任务模块以及标注模式模块。

一种可行的实施方式中，用户界面模块用于将需要被标注的数据可视化给标注人员进行标注。

一种可行的实施方式中，数据标注任务模块的作用是划分是单模态数据标注任务还是多模态数据标注任务。

一种可行的实施方式中，单模态数据标注任务有但不局限于文本分类任务、图像分类任务以及序列标注任务等。

可选地，多模态数据标注任务包括文本加语音的标注任务、文本加图像的标注任务以及文本、图像加语音的标注任务。

一种可行的实施方式中，多模态数据标注任务有但不局限于文本加语音的标注任务、文本加图像的标注任务、文本、图像加语音的标注任务等。

可选地，标注模式模块用于供标注人员选择标注模式.

其中，标注模式包括传统的鼠标标注模式以及语音标注模式。

语音标注模式包括标注模式以及纠正模式。

一种可行的实施方式中，标注模式模块可供标注人员选择是传统的鼠标标注模式，还是更加交互式的语音标注模式，在语音交互模式中，主要应用了实时语音转文字的接口，同时成员可以选择是标注模式还是纠正模式，这两个有不同的规则设定。

可选地，前端数据标注单元基于Bootstrap工具开发。

一种可行的实施方式中，本专利的工具设计类似于一般的数据标注工具，采用的开发工具建议可以是前端基于Bootstrap工具开发。

后端数据管理单元，用于对任务数据以及用户进行管理。

其中，后端数据管理单元包括数据读取与存储模块以及用户管理模块。

可选地，数据读取与存储模块用于读取以及存储数据。

其中，数据的格式为文本格式；文本格式包括轻量级的数据交换JSON格式和逗号分隔值CSV格式。

一种可行的实施方式中，数据读取与存储模块主要用于读取一定格式的数据，如JSON（JavaScript Object Notation，轻量级的数据交换格式）格式和CSV（Comma-Separated Value，逗号分隔值）格式，在这些文本格式中存储的仅有文本模态数据，图像、语音或视频模态的数据不直接导入，而是以相对路径的格式存储于文本格式中，以便于读取与存储。

可选地，用户管理模块用于成员管理。

其中，用户管理模块包括管理员模块、标注成员模块以及审核成员模块。

标注成员模块的权限包括标注数据。

一种可行的实施方式中，用户管理模块的作用是为了团队合作，管理员拥有最高的控制权，有上传与下载数据，分配标注任务等一切功能；标注成员仅能使用该标注工具的标注数据的功能；审核成员只能对所标注的数据进行审核与打分、修正。

可选地，后端数据管理单元基于Django框架的模型-视图-模板MVT模式架构开发。

一种可行的实施方式中，后端可以基于Django工具MVT（Model-View-Template，模型-视图-模板）模式架构进行开发。

举例来说，如图2所示，是一个利用面向多模态的交互式数据标注***标注的多模态共指消解标注任务，这个任务的目标是将图片和文本中指代同一对象的文本段或者图像区域划分出来。具体而言，“一个年轻的男孩”，“这个男孩”，“他”和图像中的男孩区域应被标注为方框，“一个网球拍”，“它”和图像中的球拍区域被标注为椭圆，类似该任务的其它多模态在这里不多做冗述。

如图3所示，为语音交互式标注模式在命名实体识别任务中的示例。该模式分为两种，一种是标注模式，另外一种是纠正模式。在标注模式中，由用户语音输入转出的文字指令将直接作用于需要被标注的文本，如图所示，利用自然语言处理的相关技术，分词后的句子由“我”，“是”，“小明”，“的”和“同学”组成，然后通过被转出的文字指令——“‘小明’是人名。”， “小明”被标注为“S-P”，指代“人名”这一标签；类似的，在纠正模式中，通过被转出的文字指令——“‘是’和‘的’不是人名。”，文本中的“是”和“的”将被纠正为“O”标签，表示非实体标签，“小明”被标注为“S-P”，指代“人名”这一标签。

本发明实施例中，提出一种面向多模态的交互式数据标注工具设计。解决了当前数据标注公司（平台）或者标注工具存在的单模态数据标注和交互形式单一的问题。即核心创新点，一是面向多模态数据，本专利的设计理念不再局限于单模态的标注任务，即对文本或者图像等进行标注，而是扩充为多模态，即能对两种，或者两种以上的模态进行任务标注，以期将多种不同模态数据的同一内容标注出来；本专利从多个模态数据入手，实现对数据的合理标注。二是更加便捷的语音交互式，可以利用语音指令的方式对数据进行标注或者修正，这里语音指令是可以被规则化的，开拓了一种新型的数据标注模式，这能极大地提高标注工具的交互性与便捷性。

如图4所示，本发明实施例提供了一种面向多模态的交互式数据标注方法，该方法由面向多模态的交互式数据标注***实现。如图4所示的面向多模态的交互式数据标注方法流程图，该方法的处理流程可以包括如下的步骤：

语音标注模式包括标注模式以及纠正模式。

标注成员模块的权限包括标注数据。

可选地，前端数据标注单元基于Bootstrap工具开发。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向多模态的交互式数据标注***，其特征在于，所述***包括前端数据标注单元以及后端数据管理单元；其中：

所述前端数据标注单元，用于获取并完成待标注的任务，得到任务数据，并将所述任务数据发送至所述后端数据管理单元；其中，所述前端数据标注单元包括用户界面模块、数据标注任务模块以及标注模式模块；

所述后端数据管理单元，用于对所述任务数据以及用户进行管理；其中，所述后端数据管理单元包括数据读取与存储模块以及用户管理模块。

2.根据权利要求1所述的***，其特征在于，所述用户界面模块用于将待标注的任务可视化呈现给标注人员进行任务标注。

3.根据权利要求1所述的***，其特征在于，所述数据标注任务模块用于将任务划分为单模态数据标注任务或多模态数据标注任务。

4.根据权利要求3所述的***，其特征在于，所述单模态数据标注任务包括文本分类任务、图像分类任务以及序列标注任务；

所述多模态数据标注任务包括文本加语音的标注任务、文本加图像的标注任务以及文本、图像加语音的标注任务。

5.根据权利要求1所述的***，其特征在于，所述标注模式模块用于供标注人员选择标注模式；其中，所述标注模式包括传统的鼠标标注模式以及语音标注模式；

所述语音标注模式包括标注模式以及纠正模式。

6.根据权利要求1所述的***，其特征在于，所述数据读取与存储模块用于读取以及存储数据；其中，所述数据的格式为文本格式；所述文本格式包括轻量级的数据交换JSON格式和逗号分隔值CSV格式。

7.根据权利要求6所述的***，其特征在于，所述数据读取与存储模块将图像、语音或视频模态的数据通过相对路径的格式存储于文本格式中。

8.根据权利要求1所述的***，其特征在于，所述用户管理模块用于成员管理；其中，所述用户管理模块包括管理员模块、标注成员模块以及审核成员模块；

所述管理员模块的权限包括上传与下载数据、分配标注任务、标注数据以及对标注的数据进行审核、打分以及修正；

标注成员模块的权限包括标注数据；

9.根据权利要求1所述的***，其特征在于，所述前端数据标注单元基于Bootstrap工具开发；

所述后端数据管理单元基于Django框架的模型-视图-模板MVT模式架构开发。

10.一种面向多模态的交互式数据标注方法，其特征在于，所述方法由面向多模态的交互式数据标注***实现，所述***包括前端数据标注单元以及后端数据管理单元；所述方法包括：

S1、所述前端数据标注单元获取并完成待标注的任务，得到任务数据，并将所述任务数据发送至所述后端数据管理单元；其中，所述前端数据标注单元包括用户界面模块、数据标注任务模块以及标注模式模块；

S2、所述后端数据管理单元对所述任务数据以及用户进行管理；其中，所述后端数据管理单元包括数据读取与存储模块以及用户管理模块。