CN110750694A - 数据标注实现方法及装置、电子设备、存储介质 - Google Patents

数据标注实现方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN110750694A
CN110750694A CN201910935375.XA CN201910935375A CN110750694A CN 110750694 A CN110750694 A CN 110750694A CN 201910935375 A CN201910935375 A CN 201910935375A CN 110750694 A CN110750694 A CN 110750694A
Authority
CN
China
Prior art keywords
data
labeling
labeled
marked
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910935375.XA
Other languages
English (en)
Inventor
孙震
杭圣烨
陈忻
张新琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910935375.XA priority Critical patent/CN110750694A/zh
Publication of CN110750694A publication Critical patent/CN110750694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据标注实现方法,其特征在于,包括:获取待标注数据;将所述待标注数据分发给至少两个标注终端;接收所述至少两个标注终端标注完成的数据;比对所述至少两个标注终端标注完成的数据的标注结果;若标注结果一致,则存储所述标注完成的数据;若标注结果不一致,则将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端。本发明还公开了一种数据标注实现装置、电子设备和存储介质。本发明实施例提出的数据标注实现方法及装置、电子设备、存储介质,能够在一定程度上解决数据标注信息不准确的问题。

Description

数据标注实现方法及装置、电子设备、存储介质
技术领域
本发明涉及数据处理技术领域,特别是指一种数据标注实现方法及装置、电子设备、存储介质。
背景技术
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Dataset(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
对于监督类的深度学习项目,数据集的数量和质量决定了项目效果的好坏,因此数据集的搜集和标注是项目中必不可少的一环。
但是,现有技术中对于数据的标注通常由一人完成,没有人监督标注结果的正确与否,存在数据标注信息不准确的隐患,影响最终建立的模型的准确性。
发明内容
有鉴于此,本发明实施例的目的之一在于,提出一种数据标注实现方法及装置、电子设备、存储介质,能够在一定程度上解决数据标注信息不准确的问题。
基于上述目的,本发明实施例的第一个方面,提供了一种数据标注实现方法,包括:
获取待标注数据;
将所述待标注数据分发给至少两个标注终端;
接收所述至少两个标注终端标注完成的数据;
比对所述至少两个标注终端标注完成的数据的标注结果;
若标注结果一致,则存储所述标注完成的数据;
若标注结果不一致,则将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端。
本发明实施例的第二个方面,提供了一种数据标注实现装置,包括:
获取模块,用于获取待标注数据;
收发模块,用于将所述待标注数据分发给至少两个标注终端;以及,接收所述至少两个标注终端标注完成的数据;
比对模块,用于比对所述至少两个标注终端标注完成的数据的标注结果;
存储模块,若标注结果一致,用于存储所述标注完成的数据;
若标注结果不一致,所述收发模块,用于将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端。
本发明实施例的第三个方面,提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述数据标注实现方法。
本发明实施例的第四个方面,提供了一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序在由处理器执行时实现所述数据标注实现方法的步骤。
从上面所述可以看出,本发明实施例提供的数据标注实现方法及装置、电子设备、存储介质,通过将待标注数据分发给至少两个标注终端进行标注,并比对所述至少两个标注终端的标注结果,若结果一致则存储标注完成的数据,若结果不一致则将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端,由指定终端进行判别;这样,一方面利用至少两个标注终端的标注结果实现相互佐证,另一方面,当至少两个标注终端的标注结果不一致时,由指定终端来最终审核两个标注终端的标注结果,从而保证标注结果的准确性和权威性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1为本发明实施例提供的数据标注实现***的一个实施例的架构示意图;
图2为本发明实施例提供的数据标注实现方法的一个实施例的流程示意图;
图3A为本发明实施例测试用例执行过程中数据埋点上传数据的示意图;
图3B为本发明实施例中标注终端对待标注数据进行标注的界面示意图;
图4为本发明实施例提供的数据标注实现方法的另一个实施例的流程示意图;
图5为本发明实施例提供的数据标注实现装置的一个实施例的框图示意图;
图6为本发明提供的执行所述数据标注实现方法的装置的一个实施例的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
对于图像类的数据标注,存在一种开源的工具LabelImg(一种可视化的图像标定工具),该工具提供了适用于图像检测业务的数据集制作,在本地安装完环境启动以后,可以在工具界面上截取和标注对应的对象(object),然后保存到本地生成配置文件,数据文件的格式和ImageNet格式的文件相同。
此外,还存在一种工具yolo_mark(一种图像数据标记软件),该工具适用于图像检测任务的数据集制作,可以跨平台运行且依赖于opencv库。
以上的工具都需要标注者本地安装开发环境,且在数据集较多的情况下,由于是本地标注,互相的标注信息都无法共享,标注效率很低。
图1示出了本发明实施例的数据标注实现***的架构示意图。如图1所示,该***可以包括数据标注实现装置、第一标注终端、第二标注终端和指定终端。其中,数据标注实现装置与第一标注终端、第二标注终端和指定终端之间均可进行数据交换。所述第一标注终端、第二标注终端和指定终端可以是,例如,手机、平板电脑、个人电脑、笔记本电脑、掌上电脑(PDA)、可穿戴设备(如智能眼镜、智能手表)等等。所述数据标注实现装置在实现时可以是服务器端的形式。
在一些场景下,所述数据标注实现装置与第一标注终端、第二标注终端和指定终端之间均可通过网络实现数据交换。所述网络可以是有线网络,也可以是无线网络。
在一些场景下,所述第一标注终端、第二标注终端和指定终端中可以是安装有用于与所述数据标注实现装置进行数据交互的软件的,或者,所述第一标注终端、第二标注终端和指定终端可以是利用web端实现与所述数据标注实现装置的数据交互。这样,第一标注终端、第二标注终端和指定终端才能接受来自所述数据标注实现装置的待标注数据,并且所述第一标注终端、第二标注终端和指定终端可将标注完成的数据上传至所述数据标注实现装置。
此外,在一些场景下,所述数据标注实现装置还可以将所述第一标注终端和第二标注终端对同一待标注数据的标注结果发送给所述指定终端,供所述指定终端审核,所述指定终端还可以向所述数据标注实现装置返回审核结果和根据审核结果对所述待标注数据的标注结果。
参考图1,例如,在本发明实施例的数据标注实现***中,所述数据标注实现装置将待标注数据分发给所述第一标注终端和第二标注终端;所述第一标注终端和第二标注终端分别对所述待标注数据进行标注,然后向所述数据标注实现装置发送标注完成的数据;所述数据标注实现装置比对标注完成的数据的标注结果,若标注结果一致,则存储标注完成的结果,若标注结果不一致,则将所述标注完成的数据及待标注数据发送给所述指定终端,由所述指定终端来判断标注结果是否准确并返回正确的标注结果(或审核结果)和标注完成的数据到所述数据标注实现装置。
本发明实施例提出的数据标注实现***,通过将待标注数据分发给至少两个标注终端进行标注,然后比对标注完成的数据的标注结果,若标注结果一致,则说明标注准确并存储所述标注完成的数据,若标注结果不一致,则说明标注可能不准确,然后将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端,由指定终端进行标注结果审核以及根据审核结果对所述待标注数据进行重新标注或者修改所述至少两个标注终端的标注结果,从而能够在一定程度上解决数据标注信息不准确的问题。
图2示出了本发明实施例提供的数据标注实现方法的一个实施例的流程示意图。
如图2所示,所述数据标注实现方法,可选地,应用于服务器,所述方法可包括以下步骤:
步骤11:获取待标注数据。
本步骤中,所述待标注数据可以是任意形式的数据,例如,图片数据、语音数据、文本数据、视频数据、人脸106点数据,等等,只要在数据标注领域可以进行标注的数据均可作为本步骤中所获取的待标注数据。
可选地,获取待标注数据的步骤,包括以下至少其中一个步骤:
利用数据埋点技术采集待标注数据;以及
利用爬虫技术采集待标注数据。
其中,数据埋点技术分为初级、中级、高级三种方式,分别为:
初级:在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复(如购买按钮点击率);
中级:植入多段代码,追踪用户在平台每个界面上的系列行为,事件之间相互独立(如打开商品详情页——选择商品型号——加入购物车——下订单——购买完成);
高级:联合公司工程、ETL采集分析用户全量行为,建立用户画像,还原用户行为模型,作为产品分析、优化的基础。
以上的数据埋点方式均可作为本步骤中数据埋点技术所利用的手段,在此不做具体限制。
数据埋点技术有多种方式和方法,例如在手机应用中埋点,将一些数据信息(例如每次操作时的截图信息、点击位置信息等)上传到后端服务器进而被服务器所采集;或是在一些自动化测试用例中进行步骤级别的用例数据采集并上传到后端服务器进而被服务器所采集。
一种示例是采用自动化测试用例数据上传的方法,参考图3A所示,在用户界面(UI)自动化测试用例的执行过程中,对每一步操作步骤完成以后的手机页面、设备信息、操作步骤等数据上传到了后端服务器,从而实现了数据集的采集。
网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。
网络爬虫按照***结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。
本步骤中,利用爬虫技术采集待标注数据的方式可以是采用前述任一爬虫技术或是爬虫技术的排列、组合实现的,在此不做具体限制。
可选地,利用爬虫技术采集待标注数据可以通过调用一些搜图引擎,例如百度图片,Google图片的应用程序编程接口(API),实现将一些分类信息的图片自动爬取并上传到服务器。
可选地,所述待标注数据在利用数据埋点技术或爬虫技术采集得到后,还可存储在本地数据库中,以便后续进行标注。本案例中,可以使用关系型Mysql数据库来存储数据。
可选地,本步骤中,可以先对采集得到的数据进行归一化处理后再进行存储。所述归一化处理方法不做具体限制,可采用已知的归一化方法完成。
不同的评价指标往往具有不同的量纲(例如:对于评价房价来说量纲指:面积、房价数、楼层等;对于预测某个人患病率来说量纲指:身高、体重等。)和量纲单位(例如:面积单位:平方米、平方厘米等;身高:米、厘米等),这样的情况会影响到数据分析的结果,为了消除指标之间量纲的影响,需要进行数据标准化处理,以解决数据指标之间的可比性。
这里,通过将采集得到的数据进行归一化处理,各指标处于同一数量级,适合进行综合对比评价以及后续利用数据进行建模等等。
在一种实施方式中,所述待标注数据为图片数据,所述方法应用于图片数据标注;所述对所述采集得到的数据进行归一化处理的步骤,可以包括:
若所述采集得到的数据为图片数据,则将所述图片数据转换为预定长宽比例的图片(例如可采用rezise处理技术),并将所述图片压缩至预定大小(例如可以利用opencv的压缩算法)。
这里,预定长宽比例和预定大小是根据需要设定的,在此不对具体取值进行限制。本实施例中,通过节省存储空间的归一化处理后,将数据落库,存储数据包含了待标注数据在服务器存储的地址、图片的长宽信息、上传的IP地址、设备信息等等。
步骤12:将所述待标注数据分发给至少两个标注终端。
本步骤中,将所述待标注数据分发到标注终端,主要是为了让标注终端进行数据标注;标注终端完成数据标注后则返回标注完成的数据。这里,所述待标注数据可以是单个数据,也可以是多个数据组成的数据包,具体的分发方式可以根据需要设定,在此不做限制。
可选地,同一待标注数据需分发到至少两个标注终端进行标注,以供后续比对标注结果;被分发到同一待标注数据的标注终端的具体ID不作限制,只要是可以进行数据标注操作的终端即可;被分发到同一待标注数据的标注终端的具体数量不作限制,既可以是两个,也可以是三个、四个,甚至更多个。
步骤13:接收所述至少两个标注终端标注完成的数据。
这里,所述标注完成的数据,例如可以是带有标注或标签的数据,所述标注或标签指向的可以是所述待标注数据的属性、类别等信息。
步骤14:比对所述至少两个标注终端标注完成的数据的标注结果。
这里,所述标注结果是根据所述标注完成的数据带有的标注或标签得出的,表示的是在标注时对所述待标注数据进行属性、类别等信息的标定结果。
可选地,当待标注数据是以多个待标注数据打包成数据包的形式分发到标注终端时,同一个标注终端可能会对多个不同的待标注数据进行标注;因此,在比对标注结果之前需确定接收到的标注完成的数据中哪些是指向的同一待标注数据,确定方法可以是根据待标注数据具有的唯一标识(例如文件名)来确定。
步骤15:若标注结果一致,说明标注结果至少在两个标注者之间存在共识,则认可该标注结果的准确性,并存储所述标注完成的数据(例如,存储在本地数据库或数据库中专门用于存放标注后数据的文件夹)。
需要说明的是,当存在三个或更多标注终端对同一待标注数据进行标注时,这里的标注结果一致可以是指各标注终端的标注结果完全一致,也可以是以多数标注结果一致为准,具体设置方式可以根据需要进行选择,在此不做限制。
步骤16:若标注结果不一致,说明标注结果至少在两个标注者之间存在分歧,则不认可该标注结果的准确性,将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端,由指定终端进行判别。
需要说明的是,当存在三个或更多标注终端对同一待标注数据进行标注时,这里的标注结果不一致可以是指各标注终端的标注结果各不相同,也可以是以相同的标注结果的数量低于某一数量阈值为准,具体设置方式可以根据需要进行选择,在此不做限制。
可选地,所述数据标注实现方法还可包括:对所述标注终端进行权限分配;其中,所述指定终端为具有审核权限的标注终端。
这里,***对每个标注终端进行了权限分配,其中,仅有指定终端具有审核标注结果的权限,并且,指定终端还可以具有基本的标注权限,换言之,指定终端为具有审核权限的标注终端,好比具有一种管理员身份。
作为一个可选实施例,所述接收所述至少两个标注终端标注完成的数据的步骤13之后,还包括:若所述标注完成的数据包括预定清洗标记,则删除所述标注完成的数据。这里,所述预定清洗标记指示的是该数据为不相关的数据,可以直接删除而不需要存储。
可选地,为了保险起见,当两个标注终端标注完成的数据均包括预定清洗标记时,才删除所述标注完成的数据;若并非所有标注终端的标注完成数据均包含所述预定清洗标记,则将待标注数据发送给所述指定终端由指定终端判别,从而防止误删了有用的数据。
作为另一个可选实施例,所述接收所述至少两个标注终端标注完成的数据的步骤13之后,还包括:
若所述标注完成的数据包括预定清洗标记,则将包括预定清洗标记的所述标注完成的数据发送给所述指定终端;
接收所述指定终端对所述包括预定清洗标记的所述标注完成的数据的审核结果;
根据所述对所述包括预定清洗标记的所述标注完成的数据的审核结果,确定是否删除所述标注完成的数据。
可以看出,该实施例中让指定终端最终判断是否删除所述带有预定清洗标记的标注完成的数据,防止了低级别权限的标注终端误删有用数据。
从上述实施例可以看出,本发明实施例提供的数据标注实现方法,通过将待标注数据分发给至少两个标注终端进行标注,并比对所述至少两个标注终端的标注结果,若结果一致则存储标注完成的数据,若结果不一致则将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端,由指定终端进行判别;这样,一方面利用至少两个标注终端的标注结果实现相互佐证,另一方面,当至少两个标注终端的标注结果不一致时,由指定终端来最终审核两个标注终端的标注结果,从而保证标注结果的准确性和权威性。
作为一个可选实施例,如图2所示,所述将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端的步骤之后,还包括:
步骤17:接收所述指定终端对所述标注结果的审核结果以及根据所述审核结果对所述待标注数据标注完成的数据。
可选地,所述审核结果可以包括指定终端对所述待标注数据所赋予的标注或标签,还可以包括对所述至少两个标注终端的标注结果的评价和分析内容,例如所述至少两个标注终端的标注结果的错误所在和为什么会出现这种标注错误,等等;此外,还可把所述审核结果通过可视化的方式展示出来,以供内部参考和改进。
步骤18:存储所述根据所述审核结果对所述待标注数据标注完成的数据。本步骤中,以指定终端根据其审核结果对所述待标注数据标注完成的数据为准,存储经过审核后的最终版本的标注完成的数据,以供后续使用。
可选地,所述数据标注实现方法还包括:
步骤19:将所述指定终端对所述标注结果的审核结果返回给所述至少两个标注终端,所述标注终端可以把所述审核结果通过可视化的方式展示出来,供所述标注终端的标注者参考、学习,并在此基础上改进之后的操作。
作为一个实施例,所述待标注数据为测试用例图片数据,所述方法应用于测试用例图片数据标注,所述待标注数据是采用数据埋点技术采集的。
如图3A所示,在执行测试用例的过程中,通过数据埋点的方式上传了每个操作步骤对应的截图和设备信息,亦即,针对测试用例执行流程的每个步骤,均通过数据埋点的方式上传了该步骤对应的截图和设备信息,从而完成了待标注数据的采集。
如图3B所示,为标注终端对待标注数据进行标注的界面示意图。其中,待标注数据为测试用例的对应步骤的截图,标注者可以在该界面中的下拉框中选择相应的标注或标签,例如“登录页面”或者是“充值页面”等,完成一次对图片分类的标注,然后点击“提交标签”按钮,可完成一次图片上传,从而完成标注过程,标注终端此时则将标注完成的数据发送到了所述数据标注实现装置。
可选地,所述数据标注实现方法可以采用web端的方式实现,这样,标注终端和指定终端均可通过浏览器进入标注页面(页面可参考图3B所示),并在登录后开始标注。通过web端实现后,可以实现数据共享和多人同时在线标注,降低了数据标注和数据集制作的成本,能够在一定程度上提高标注效率。
接下来,前述步骤中已经标注完成的数据,即可用于进行模型构建,作为一个可选实施例,如图4所示,所述数据标注实现方法还包括:
步骤21:获取所存储的标注完成的数据。
步骤22:使用所述标注完成的数据构建样本数据。
这里,可以选择全部或部分标注完成的数据来构建样本数据。
可选地,在构建样本数据前,还可以将数据打包成机器学习模型可以读取的数据集格式。
步骤23:利用所述样本数据,通过预定的机器学习算法,构建并训练得到目标模型。可选地,所述预定的机器学习算法可以是深度学习算法等,具体的算法不做具体限定。
这样,在标注完成数据后,则可以利用这些数据进行模型构建,使用十分方便。需要说明的是,这里构建的目标模型,并不限于某种类型,可以根据实际需求和标注完成的数据的性质来确定,在此不做限制。
可选地,如图4所示,所述数据标注实现方法还包括:
步骤24:按照预定时间间隔,监测所存储的标注完成的数据。
这里,所述预定时间间隔是根据需要设定的,可以是10分钟、1小时、2小时等等,在此不做具体限制。
可选地,所述监测所存储的标注完成的数据,主要是检测标注完成的数据中的增量数据。可选地,这里的增量数据可以是指在上一次建模完成后至今新增的标注完成的数据。
步骤25:若所述标注完成的数据中的增量数据达到预定增量数据量阈值,则利用所述标注完成的数据构建新的样本数据。
这里,当增量数据达到预定增量数据量阈值后,自动触发新一轮训练,首先是利用目前已有的全量数据构建新的样本数据,可以选择已有的全量数据中的全部或部分标注完成的数据来构建新的样本数据。
可选地,在构建新的样本数据前,还可以将数据打包成机器学习模型可以读取的数据集格式。
步骤26:利用所述新的样本数据,通过预定的机器学习算法,构建并训练得到新的目标模型。
这样,通过定时监控增量数据,实现实时的模型训练,提高了深度学习项目的研发效率。
图5示出了本发明实施例提供的数据标注实现装置的一个实施例的框图示意图。
如图5所示,所述数据标注实现装置30,包括:
获取模块31,用于获取待标注数据;
收发模块32,用于将所述待标注数据分发给至少两个标注终端;以及,接收所述至少两个标注终端标注完成的数据;
比对模块33,用于比对所述至少两个标注终端标注完成的数据的标注结果;
存储模块34,若标注结果一致,用于存储所述标注完成的数据;
若标注结果不一致,所述收发模块32,用于将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端。
从上述实施例可以看出,本发明实施例提供的数据标注实现装置,通过将待标注数据分发给至少两个标注终端进行标注,并比对所述至少两个标注终端的标注结果,若结果一致则存储标注完成的数据,若结果不一致则将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端,由指定终端进行判别;这样,一方面利用至少两个标注终端的标注结果实现相互佐证,另一方面,当至少两个标注终端的标注结果不一致时,由指定终端来最终审核两个标注终端的标注结果,从而保证标注结果的准确性和权威性。
作为一个可选实施例,所述收发模块32,用于接收所述指定终端对所述标注结果的审核结果以及根据所述审核结果对所述待标注数据标注完成的数据;
所述存储模块34,用于存储所述根据所述审核结果对所述待标注数据标注完成的数据。
作为一个可选实施例,所述收发模块32,用于将所述指定终端对所述标注结果的审核结果以及根据所述审核结果对所述待标注数据标注完成的数据返回给所述至少两个标注终端。
作为一个可选实施例,所述数据标注实现装置30还包括权限分配模块35,用于对所述标注终端进行权限分配;其中,所述指定终端为具有审核权限的标注终端。
作为一个可选实施例,所述数据标注实现装置30还包括模型构建模块36,用于:
获取所存储的标注完成的数据;
使用所述标注完成的数据构建样本数据;
利用所述样本数据,通过预定的机器学习算法,构建并训练得到目标模型。
作为一个可选实施例,所述模型构建模块36,还用于:
按照预定时间间隔,监测所存储的标注完成的数据;
若所述标注完成的数据中的增量数据达到预定增量数据量阈值,则利用所述标注完成的数据构建新的样本数据;
利用所述新的样本数据,通过预定的机器学习算法,构建并训练得到新的目标模型。
作为一个可选实施例,所述获取模块31,用于实现以下至少其中一个步骤:
利用数据埋点技术采集待标注数据;以及
利用爬虫技术采集待标注数据。
作为一个可选实施例,所述存储模块34,用于对所述采集得到的数据进行归一化处理后进行存储。
作为一个可选实施例,若所述采集得到的数据为图片数据,所述存储模块34用于将所述图片数据转换为预定长宽比例的图片并将所述图片压缩至预定大小。
作为一个可选实施例,所述数据标注实现装置30还包括删除模块37;
若所述标注完成的数据包括预定清洗标记,所述删除模块用于删除所述标注完成的数据。
作为一个可选实施例,所述数据标注实现装置30还包括删除模块37;
若所述标注完成的数据包括预定清洗标记,所述收发模块用于将包括预定清洗标记的所述标注完成的数据发送给所述指定终端,以及,接收所述指定终端对所述包括预定清洗标记的所述标注完成的数据的审核结果;
所述删除模块用于根据所述对所述包括预定清洗标记的所述标注完成的数据的审核结果,确定是否删除所述标注完成的数据。
作为一个可选实施例,所述待标注数据为图片数据,所述装置应用于图片数据标注。
作为一个可选实施例,所述待标注数据为测试用例图片数据,所述装置应用于测试用例图片数据标注。
需要说明的是,上述数据标注实现装置的各个实施例与前述的数据标注实现方法的实施例基本对应,因此,所述数据标注实现装置的技术效果与前述数据标注实现方法的技术效果基本一致,在此不再赘述。
图6示出了本发明提供的执行所述数据标注实现方法的装置的一个实施例的硬件结构示意图。
如图6所示,所述装置包括:
一个或多个处理器41以及存储器42,图6中以一个处理器41为例。
所述执行所述数据标注实现方法的装置还可以包括:输入装置43和输出装置44。
处理器41、存储器42、输入装置43和输出装置44可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器42作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述数据标注实现方法对应的程序指令/模块(例如,附图5所示的获取模块31、收发模块32、比对模块33和存储模块34)。处理器41通过运行存储在存储器42中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的数据标注实现方法。
存储器42可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据数据标注实现装置的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器42可选包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可接收输入的数字或字符信息,以及产生与数据标注实现装置的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器42中,当被所述一个或者多个处理器41执行时,执行上述任意方法实施例中的数据标注实现方法。所述执行所述数据标注实现方法的装置的实施例,其技术效果与前述任意方法实施例相同或者类似。
本申请实施例提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的列表项操作的处理方法。所述非暂态计算机存储介质的实施例,其技术效果与前述任意方法实施例相同或者类似。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述计算机程序的实施例,其技术效果与前述任意方法实施例相同或者类似。
此外,典型地,本公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本公开的方法中限定的上述功能。
此外,上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
公开的示例性实施例,但是应当注公开的示例性实施例,但是应当注意,在不背离权利要求限定的本公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本公开的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (28)

1.一种数据标注实现方法,其特征在于,包括:
获取待标注数据;
将所述待标注数据分发给至少两个标注终端;
接收所述至少两个标注终端标注完成的数据;
比对所述至少两个标注终端标注完成的数据的标注结果;
若标注结果一致,则存储所述标注完成的数据;
若标注结果不一致,则将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端。
2.根据权利要求1所述的方法,其特征在于,所述将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端的步骤之后,还包括:
接收所述指定终端对所述标注结果的审核结果以及根据所述审核结果对所述待标注数据标注完成的数据;
存储所述根据所述审核结果对所述待标注数据标注完成的数据。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述指定终端对所述标注结果的审核结果返回给所述至少两个标注终端。
4.根据权利要求1所述的方法,其特征在于,还包括:对所述标注终端进行权限分配;其中,所述指定终端为具有审核权限的标注终端。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取所存储的标注完成的数据;
使用所述标注完成的数据构建样本数据;
利用所述样本数据,通过预定的机器学习算法,构建并训练得到目标模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
按照预定时间间隔,监测所存储的标注完成的数据;
若所述标注完成的数据中的增量数据达到预定增量数据量阈值,则利用所述标注完成的数据构建新的样本数据;
利用所述新的样本数据,通过预定的机器学习算法,构建并训练得到新的目标模型。
7.根据权利要求1所述的方法,其特征在于,获取待标注数据,包括以下至少其中一个步骤:
利用数据埋点技术采集待标注数据;以及
利用爬虫技术采集待标注数据。
8.根据权利要求7所述的方法,其特征在于,获取待标注数据,包括:
对采集得到的数据进行归一化处理后进行存储。
9.根据权利要求8所述的方法,其特征在于,对采集得到的数据进行归一化处理,包括:
若所述采集得到的数据为图片数据,则将所述图片数据转换为预定长宽比例的图片,并将所述图片压缩至预定大小。
10.根据权利要求1所述的方法,其特征在于,所述接收所述至少两个标注终端标注完成的数据的步骤之后,还包括:
若所述标注完成的数据包括预定清洗标记,则删除所述标注完成的数据。
11.根据权利要求1所述的方法,其特征在于,所述接收所述至少两个标注终端标注完成的数据的步骤之后,还包括:
若所述标注完成的数据包括预定清洗标记,则将包括预定清洗标记的所述标注完成的数据发送给所述指定终端;
接收所述指定终端对所述包括预定清洗标记的所述标注完成的数据的审核结果;
根据所述对所述包括预定清洗标记的所述标注完成的数据的审核结果,确定是否删除所述标注完成的数据。
12.根据权利要求1所述的方法,其特征在于,所述待标注数据为图片数据,所述方法应用于图片数据标注。
13.根据权利要求12所述的方法,其特征在于,所述待标注数据为测试用例图片数据,所述方法应用于测试用例图片数据标注。
14.一种数据标注实现装置,其特征在于,包括:
获取模块,用于获取待标注数据;
收发模块,用于将所述待标注数据分发给至少两个标注终端;以及,接收所述至少两个标注终端标注完成的数据;
比对模块,用于比对所述至少两个标注终端标注完成的数据的标注结果;
存储模块,若标注结果一致,用于存储所述标注完成的数据;
若标注结果不一致,所述收发模块,用于将所述待标注数据和所述至少两个标注终端的标注结果发送到指定终端。
15.根据权利要求14所述的装置,其特征在于,所述收发模块,用于接收所述指定终端对所述标注结果的审核结果以及根据所述审核结果对所述待标注数据标注完成的数据;
所述存储模块,用于存储所述根据所述审核结果对所述待标注数据标注完成的数据。
16.根据权利要求15所述的装置,其特征在于,所述收发模块,用于将所述指定终端对所述标注结果的审核结果返回给所述至少两个标注终端。
17.根据权利要求14所述的装置,其特征在于,还包括权限分配模块,用于对所述标注终端进行权限分配;其中,所述指定终端为具有审核权限的标注终端。
18.根据权利要求14所述的装置,其特征在于,还包括模型构建模块,用于:
获取所存储的标注完成的数据;
使用所述标注完成的数据构建样本数据;
利用所述样本数据,通过预定的机器学习算法,构建并训练得到目标模型。
19.根据权利要求18所述的装置,其特征在于,所述模型构建模块,还用于:
按照预定时间间隔,监测所存储的标注完成的数据;
若所述标注完成的数据中的增量数据达到预定增量数据量阈值,则利用所述标注完成的数据构建新的样本数据;
利用所述新的样本数据,通过预定的机器学习算法,构建并训练得到新的目标模型。
20.根据权利要求14所述的装置,其特征在于,所述获取模块,用于实现以下至少其中一个步骤:
利用数据埋点技术采集待标注数据;以及
利用爬虫技术采集待标注数据。
21.根据权利要求20所述的装置,其特征在于,所述存储模块,用于对采集得到的数据进行归一化处理后进行存储。
22.根据权利要求21所述的装置,其特征在于,若所述采集得到的数据为图片数据,所述存储模块用于将所述图片数据转换为预定长宽比例的图片并将所述图片压缩至预定大小。
23.根据权利要求14所述的装置,其特征在于,还包括删除模块;
若所述标注完成的数据包括预定清洗标记,所述删除模块用于删除所述标注完成的数据。
24.根据权利要求14所述的装置,其特征在于,还包括删除模块;
若所述标注完成的数据包括预定清洗标记,所述收发模块用于将包括预定清洗标记的所述标注完成的数据发送给所述指定终端,以及,接收所述指定终端对所述包括预定清洗标记的所述标注完成的数据的审核结果;
所述删除模块用于根据所述对所述包括预定清洗标记的所述标注完成的数据的审核结果,确定是否删除所述标注完成的数据。
25.根据权利要求14所述的装置,其特征在于,所述待标注数据为图片数据,所述装置应用于图片数据标注。
26.根据权利要求25所述的装置,其特征在于,所述待标注数据为测试用例图片数据,所述装置应用于测试用例图片数据标注。
27.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-13任一项所述的方法。
28.一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序在由处理器执行时实现权利要求1-13中任一项所述的方法的步骤。
CN201910935375.XA 2019-09-29 2019-09-29 数据标注实现方法及装置、电子设备、存储介质 Pending CN110750694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910935375.XA CN110750694A (zh) 2019-09-29 2019-09-29 数据标注实现方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910935375.XA CN110750694A (zh) 2019-09-29 2019-09-29 数据标注实现方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN110750694A true CN110750694A (zh) 2020-02-04

Family

ID=69277452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910935375.XA Pending CN110750694A (zh) 2019-09-29 2019-09-29 数据标注实现方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN110750694A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859862A (zh) * 2020-07-22 2020-10-30 海尔优家智能科技(北京)有限公司 文本的数据标注方法和装置、存储介质及电子装置
CN112989087A (zh) * 2021-01-26 2021-06-18 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
CN113344083A (zh) * 2021-06-16 2021-09-03 安徽容知日新科技股份有限公司 一种数据标注方法、装置及计算设备
CN113591888A (zh) * 2020-04-30 2021-11-02 上海禾赛科技有限公司 用于激光雷达的点云数据标注网络***及标注方法
CN113630408A (zh) * 2021-08-03 2021-11-09 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器
CN113918713A (zh) * 2021-09-22 2022-01-11 南京复保科技有限公司 数据标注方法、装置、计算机设备及存储介质
WO2022052199A1 (zh) * 2020-09-11 2022-03-17 南方科技大学 数据标注方法、网络设备、终端、***及存储介质
CN115795076A (zh) * 2023-01-09 2023-03-14 北京阿丘科技有限公司 图像数据的交叉标注方法、装置、设备及存储介质
CN116189066A (zh) * 2021-11-18 2023-05-30 重庆药羚科技有限公司 实验室ppe合规穿戴监测方法及***、存储介质及终端

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
US20080069437A1 (en) * 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
CN101334814A (zh) * 2008-04-28 2008-12-31 华北电力大学 一种自动化的扫描阅卷***及阅卷方法
CN101859338A (zh) * 2009-05-14 2010-10-13 深圳市海云天科技股份有限公司 一种阅卷***及其给分的实现方法
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN104820835A (zh) * 2015-04-29 2015-08-05 岭南师范学院 一种试卷自动阅卷方法
CN105741002A (zh) * 2014-12-11 2016-07-06 中兴通讯股份有限公司 在线考试管理方法、装置及***
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法
US20160321358A1 (en) * 2015-04-30 2016-11-03 Oracle International Corporation Character-based attribute value extraction system
CN106951925A (zh) * 2017-03-27 2017-07-14 成都小多科技有限公司 数据处理方法、装置、服务器及***
CN107909114A (zh) * 2017-11-30 2018-04-13 深圳地平线机器人科技有限公司 训练有监督机器学习的模型的方法和装置
US20190050428A1 (en) * 2017-08-08 2019-02-14 TuSimple System and method for image annotation
CN109359849A (zh) * 2018-10-09 2019-02-19 上海起作业信息科技有限公司 信息处理方法、装置、介质及电子设备
CN109447860A (zh) * 2018-10-16 2019-03-08 苏州友教习亦教育科技有限公司 成绩统计与分析***
CN109697274A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕技术有限公司 一种判卷方法及判卷***
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN109828750A (zh) * 2019-01-09 2019-05-31 西藏纳旺网络技术有限公司 自动配置数据埋点的方法、装置、电子设备及存储介质
CN109857878A (zh) * 2018-12-27 2019-06-07 深兰科技(上海)有限公司 物品标注方法及装置、电子设备及存储介质
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
US20080069437A1 (en) * 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
CN101334814A (zh) * 2008-04-28 2008-12-31 华北电力大学 一种自动化的扫描阅卷***及阅卷方法
CN101859338A (zh) * 2009-05-14 2010-10-13 深圳市海云天科技股份有限公司 一种阅卷***及其给分的实现方法
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN105741002A (zh) * 2014-12-11 2016-07-06 中兴通讯股份有限公司 在线考试管理方法、装置及***
CN104820835A (zh) * 2015-04-29 2015-08-05 岭南师范学院 一种试卷自动阅卷方法
US20160321358A1 (en) * 2015-04-30 2016-11-03 Oracle International Corporation Character-based attribute value extraction system
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法
CN106951925A (zh) * 2017-03-27 2017-07-14 成都小多科技有限公司 数据处理方法、装置、服务器及***
US20190050428A1 (en) * 2017-08-08 2019-02-14 TuSimple System and method for image annotation
CN109697274A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕技术有限公司 一种判卷方法及判卷***
CN107909114A (zh) * 2017-11-30 2018-04-13 深圳地平线机器人科技有限公司 训练有监督机器学习的模型的方法和装置
CN109359849A (zh) * 2018-10-09 2019-02-19 上海起作业信息科技有限公司 信息处理方法、装置、介质及电子设备
CN109447860A (zh) * 2018-10-16 2019-03-08 苏州友教习亦教育科技有限公司 成绩统计与分析***
CN109857878A (zh) * 2018-12-27 2019-06-07 深兰科技(上海)有限公司 物品标注方法及装置、电子设备及存储介质
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN109828750A (zh) * 2019-01-09 2019-05-31 西藏纳旺网络技术有限公司 自动配置数据埋点的方法、装置、电子设备及存储介质
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NASSER ALALWAN 等: ""Generating OWL Ontology for Database Integration"", 《2009 THIRD INTERNATIONAL CONFERENCE ON ADVANCES IN SEMANTIC PROCESSING》 *
李明 等: ""基于结果模式的Deep Web数据标注方法"", 《计算机应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591888A (zh) * 2020-04-30 2021-11-02 上海禾赛科技有限公司 用于激光雷达的点云数据标注网络***及标注方法
CN111859862A (zh) * 2020-07-22 2020-10-30 海尔优家智能科技(北京)有限公司 文本的数据标注方法和装置、存储介质及电子装置
CN111859862B (zh) * 2020-07-22 2024-03-22 海尔优家智能科技(北京)有限公司 文本的数据标注方法和装置、存储介质及电子装置
WO2022052199A1 (zh) * 2020-09-11 2022-03-17 南方科技大学 数据标注方法、网络设备、终端、***及存储介质
CN112989087A (zh) * 2021-01-26 2021-06-18 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
CN112989087B (zh) * 2021-01-26 2023-01-31 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
CN113344083A (zh) * 2021-06-16 2021-09-03 安徽容知日新科技股份有限公司 一种数据标注方法、装置及计算设备
CN113630408A (zh) * 2021-08-03 2021-11-09 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器
CN113630408B (zh) * 2021-08-03 2023-06-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器
CN113918713A (zh) * 2021-09-22 2022-01-11 南京复保科技有限公司 数据标注方法、装置、计算机设备及存储介质
CN116189066A (zh) * 2021-11-18 2023-05-30 重庆药羚科技有限公司 实验室ppe合规穿戴监测方法及***、存储介质及终端
CN115795076A (zh) * 2023-01-09 2023-03-14 北京阿丘科技有限公司 图像数据的交叉标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110750694A (zh) 数据标注实现方法及装置、电子设备、存储介质
CN106844217B (zh) 对应用的控件进行埋点的方法及装置、可读存储介质
US20200349658A1 (en) Media management system
WO2020232879A1 (zh) 风险传导关联图谱优化方法、装置、计算机设备和存储介质
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN112711526B (zh) Ui测试方法、装置、设备及存储介质
CN107622008B (zh) 一种应用页面的遍历方法和装置
US9411917B2 (en) Methods and systems for modeling crowdsourcing platform
US11004186B2 (en) Parcel change detection
Mans et al. Business process mining success
WO2020228283A1 (zh) 特征提取方法、装置及计算机可读存储介质
CN109726105A (zh) 测试数据构造方法、装置、设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和***
US9971669B2 (en) Predicting performance of a software application over a target system
CN110879780A (zh) 页面异常检测方法、装置、电子设备及可读存储介质
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
TW201843609A (zh) 用於以學習為基礎的群組標記之系統和方法
CN113868498A (zh) 数据存储方法、电子装置、装置及可读存储介质
CN113688288A (zh) 数据关联分析方法、装置、计算机设备和存储介质
US20220327452A1 (en) Method for automatically updating unit cost of inspection by using comparison between inspection time and work time of crowdsourcing-based project for generating artificial intelligence training data
CN113448834A (zh) 埋点测试方法、装置、电子设备及存储介质
CN113779261A (zh) 知识图谱的质量评价方法、装置、计算机设备及存储介质
Zhang et al. Using knowledge-based systems to manage quality attributes in software product lines
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN111522570B (zh) 目标库更新方法、装置、电子设备及机器可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204

RJ01 Rejection of invention patent application after publication