CN112966588B - 视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质 - Google Patents

视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质 Download PDF

Info

Publication number
CN112966588B
CN112966588B CN202110231619.3A CN202110231619A CN112966588B CN 112966588 B CN112966588 B CN 112966588B CN 202110231619 A CN202110231619 A CN 202110231619A CN 112966588 B CN112966588 B CN 112966588B
Authority
CN
China
Prior art keywords
data
labeling
pictures
annotation
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110231619.3A
Other languages
English (en)
Other versions
CN112966588A (zh
Inventor
何涛
黄安棋
金振豪
陈云妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Black Shark Technology Co Ltd
Original Assignee
Nanchang Black Shark Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Black Shark Technology Co Ltd filed Critical Nanchang Black Shark Technology Co Ltd
Priority to CN202110231619.3A priority Critical patent/CN112966588B/zh
Publication of CN112966588A publication Critical patent/CN112966588A/zh
Application granted granted Critical
Publication of CN112966588B publication Critical patent/CN112966588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质,通过人工标注视频内的少量的核心数据,以这些核心帧的数据为基础,通过分界时刻点的数据标注拓展到整个区间段,以完成整段区间内的数据标记;再针对区间内的递增递减规律,进一步完成动态的被标注对象的信息采集记录,获取所述标注源数据,极大提高了人工标注的速度。并且将视频数据标注方法所获取的最终标注数据作为用于获取神经网络深度学习的数据源,可克服现有技术的人工标注数据效率低、样本数据量少等问题。

Description

视频数据标注方法、***、获取神经网络深度学习的数据源的 方法及计算机可读存储介质
技术领域
本发明涉及数据标注技术领域,尤其涉及一种视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质。
背景技术
深度学习(Deep Learning)需要大量精细化标注的数据素材用于神经网络训练。目前获取数据的方法主要有三种:人工数据标注、自动数据标注、外包数据标注。人工标注可以得到较高可信度的数据,受限于人力资源以及需要巨大的数据基数,单纯的人工标注注定无法完成如此庞大的数据清洗。目前也有很多比较实用的客户端、WEB端的数据标记工具,极大的减轻了劳动力,同时也带来一些信息安全的风险。
发明内容
为了克服上述技术缺陷,本发明的目的在于提供一种数据标注效率高、样本数据量大的视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质。
本发明公开了一种视频数据标注方法,包括如下步骤:人工标注目标视频内的部分数据,编写需要关注对象的内容与视频时间对齐的文本;通过计算机编程编写脚本将目标视频按照每秒n帧的速度***成图片,以时间戳命名所述图片的名称,根据所述时间戳获取每张图片所处的时间区间;依据所述文本内的内容,通过计算机编程编写脚本为每张图片生成描述性文件,所有图片的所述描述性文件组成所述目标视频的标注源数据;通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据;剔除所述初始标注数据的重复图片,形成最终标注数据。
优选地,所述人工标注目标视频内的部分数据,编写需要关注对象的内容与视频时间对齐的文本包括:人工浏览目标视频一次性标注部分数据,坐标位置不变,被标记坐标的内容填写默认值,获得所有需要标记对象和分界点帧信息;浏览目标视频、关注需要标记对象的内容变化,并根据视频时间对齐标注该标记对象的内容,以形成需要关注对象的内容与视频时间对齐的TXT文本。
优选地,所述通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据包括:标注源数据的内容形式是文字、数字、实物照,通过训练模型对所述标注源数据进行识别得到识别结果;筛选出识别结果与标注内容不一致的异常图片;通过人工审核确定所述异常图片;剔除所述异常图片后,通过编写Python可视化插件将所述标注源数据重新分类形成初始标注数据。
优选地,所述通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据还包括:标注源数据的内容形式是文字、数字、实物照以外的新内容,则随机取所述标注源数据内的部分数据记为Data0,其余部分记为Data1;将Data0分类训练成第一训练模型,使用所述第一训练模型挑选Data1,经人工审核修正后的Data1分类训练成第二训练模型,使用所述第二训练模型挑选Data0,如此多次迭代形成所述初始标注数据。
优选地,所述剔除所述初始标注数据的重复图片,形成最终标注数据包括:计算所述初始标注数据的图片的Phash值,获取不同图片之间的汉明值,从而去掉重复图片,形成最终标注数据。
一种视频数据标注***,包括数据标注模块、计算机编程模块和数据校准模块;人工通过所述数据标注模块标注目标视频内的部分数据,编写所述标注数据的需要关注对象的内容与视频时间对齐的文本;通过所述计算机编程模块编写脚本将目标视频按照每秒n帧的速度***成图片,以时间戳命名所述图片的名称,根据所述时间戳获取每张图片所处的时间区间;依据所述文本内的内容,通过所述计算机编程模块编写脚本为每张图片生成描述性文件,所有所述图片的所述描述性文件组成所述目标视频的标注源数据;所述数据校准模块内储存有训练模型,通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据;所述数据校准模块还剔除所述初始标注数据的重复图片,形成最终标注数据。
优选地,所述数据校准模块包括数据训练单元;标注源数据的内容形式是文字、数字、实物照,通过所述数据训练单元获取训练模型对所述标注源数据进行识别得到识别结果;所述数据校准模块筛选出识别结果与标注内容不一致的异常图片;通过人工审核确定所述异常图片;剔除所述异常图片后,通过编写Python可视化插件将所述标注源数据重新分类形成所述初始标注数据;标注源数据的内容形式是文字、数字、实物照以外的新内容,则随机取所述标注源数据内的部分数据记为Data0,其余部分记为Data1;通过所述数据训练单元将Data0分类训练成第一训练模型,使用所述第一训练模型挑选Data1,经人工审核修正后的Data1通过所述数据训练单元分类训练成第二训练模型,使用所述第二训练模型挑选Data0,如此多次迭代形成所述初始标注数据。
优选地,所述数据校准模块还包括图像Phash值计算单元,通过所述图像Phash值计算单元计算所述初始标注数据的图片的Phash值,获取不同图片之间的汉明值,从而去掉重复图片,形成最终标注数据。
本发明还公开了一种获取神经网络深度学习的数据源的方法,将上述任一所述的视频数据标注方法所获取的所述最终标注数据作为用于获取神经网络深度学习的数据源。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的视频数据标注方法的步骤。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
1.本发明通过人工标注视频内的少量的核心数据,以这些核心帧的数据为基础,通过分界时刻点的数据标注拓展到整个区间段,以完成整段区间内的数据标记;再针对区间内的递增递减规律,进一步完成动态的被标注对象的信息采集记录,获取所述标注源数据,极大提高了人工标注的速度;
2.对所述标注源数据内的异常图片进行识别和挑选,并通过人工将挑选出的异常图片进行审核确认,剔除异常图片后提高标注数据的可信度;
3.通过模型对标注数据进行反复迭代训练,进一步提高标注数据的可信度;
4.扩大样本数据边际后,由于样本数据量十分大,还通过去除重复图片的过程保证标注数据的精度。
附图说明
图1为本发明提供的视频数据标注方法的流程图;
图2为本发明提供的一优选实施例的XML文件;
图3为本发明提供的一优选实施例的TXT文本;
图4为本发明提供的另一优选实施例的流程图。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
参见附图1,本发明公开了一种视频数据标注方法,包括:
S1、人工标注目标视频内的部分数据,编写需要关注对象的内容与视频时间对齐的文本;
S2、通过计算机编程编写脚本将目标视频按照每秒n帧的速度***成图片,以时间戳命名图片的名称,根据时间戳获取每张图片所处的时间区间;
S3、依据文本内的内容,通过计算机编程编写脚本为每张图片生成描述性文件,所有图片的描述性文件组成目标视频的标注源数据;
S4、通过训练模型筛选出标注源数据中的异常图片,并通过人工审核确定异常图片,剔除异常图片后形成初始标注数据;
S5、剔除初始标注数据的重复图片,形成最终标注数据。
本发明通过步骤S1、步骤S2和步骤S3生成标注源数据,即人工标注视频内的少量的核心数据,以这些核心帧的数据为基础,通过分界时刻点的数据标注拓展到整个区间段,以完成整段区间内的数据标记;再针对区间内的递增递减规律,进一步完成动态的被标注对象的信息采集记录,提高了人工数据标注效率的90%,将原本1小时视频的标注工作量从5小时减少到30分钟以内。
较佳地,骤S1具体包括:人工浏览目标视频一次性标注部分数据,坐标位置不变,被标记坐标的内容填写默认值,获得所有需要标记对象和分界点帧信息,;浏览目标视频、关注需要标记对象的内容变化,并根据视频时间对齐标注该标记对象的内容,以形成需要关注对象的内容与视频时间对齐的TXT文本,参见附图3。
一优选实施例,需要标记对象和分界点帧信息的XML数据参见附图2,需要关注对象的内容与视频时间对齐的TXT文本参见附图3。附图3中的[00:03:11-00:19:54,playing]表示被标注对象label为playing;[00:03:17-00:11:17,time,00-10-08-10]表示被标注对象label为time,而该区间内对应的比赛时间为[00:10-08:10],据此可以标记每一帧图片的比赛时刻。
本发明所采用的计算机编程语言为Python,步骤S2具体为,编写Python脚本将视频按照2帧/秒***成图片,以时间戳命名图片的名称,根据时间戳获取每张图片所处的时间区间,例如图片*_00066.jpeg对应视频第33秒钟。
步骤S3具体为,编写Python脚本将步骤S2中生成的图片,依据步骤1中的XML和TXT为每张图片生成描述性的XML文件,例如图片*_00066.jpeg对齐文件*_00066.xml,据此获得整部视频的标注源数据Raw Data。
较佳地,为了提高标注数据的可信度,需要对所述标注源数据内的异常图片进行识别和挑选,并通过人工将挑选出的异常图片进行审核确认后剔除异常图片,针对两种不同的标注源数据的内容形式,具体包括两种处理方法:
1.标注源数据的内容形式是文字、数字、实物照,通过训练模型对标注源数据进行识别得到识别结果;筛选出识别结果与标注内容不一致的异常图片及其对应的XML文件;为了避免计算机的识别故障,还需通过人工审核确定异常图片后将异常图片剔除,再通过编写Python可视化插件将标注源数据重新分类形成初始标注数据。
2.标注源数据的内容形式是文字、数字、实物照以外的新内容,则随机取标注源数据内的部分数据记为Data0,其余部分记为Data1;将Data0分类训练成第一训练模型,使用第一训练模型挑选Data1,经人工审核修正后的Data1分类训练成第二训练模型,使用第二训练模型挑选Data0,如此多次迭代形成初始标注数据。
经过上述两种的数据识别,提高标注数据的可信度。
较佳地,为了获得更大样本量,需要不断增加标注数据,而得到源源不断的可信度较高的Raw Data。由于Raw Data是根据视频分帧得到的,没有区分差异性,随着样本数量的不断增多,因此需要去重复。计算初始标注数据的图片的Phash值,获取不同图片之间的汉明值,从而去掉重复图片,形成最终标注数据。
本发明还公开了一种视频数据标注***,包括:
数据标注模块,用于对视频进行数据标注;
计算机编程模块,优选实施例选择Python进行计算机编程;
数据校准模块,用于对Raw Data进行纠偏和去重复,提高数据的可信度。
具体的,人工通过数据标注模块标注目标视频内的部分数据,编写标注数据的需要关注对象的内容与视频时间对齐的文本,再通过计算机编程模块编写脚本将目标视频按照每秒n帧的速度***成图片,以时间戳命名图片的名称,根据时间戳获取每张图片所处的时间区间;依据文本内的内容,通过计算机编程模块编写脚本为每张图片生成描述性文件,所有图片的描述性文件组成目标视频的标注源数据。
数据校准模块内储存有训练模型,通过训练模型筛选出标注源数据中的异常图片,并通过人工审核确定异常图片,剔除异常图片后形成初始标注数据;数据校准模块还剔除初始标注数据的重复图片,形成最终标注数据。
具体地,数据校准模块包括数据训练单元。
当标注源数据的内容形式是文字、数字、实物照时,通过数据训练单元获取训练模型对标注源数据进行识别得到识别结果,数据校准模块筛选出识别结果与标注内容不一致的异常图片,通过人工审核确定异常图片后将异常图片剔除,再通过编写Python可视化插件将标注源数据重新分类形成初始标注数据。一种优选实施例的数据训练单元为通过第三方的公共接口导入的外部程序。
当标注源数据的内容形式是文字、数字、实物照以外的新内容,或者因安全风险不宜使用第三方公共接口时,则随机取标注源数据内的部分数据记为Data0,其余部分记为Data1;通过数据训练单元将Data0分类训练成第一训练模型,使用第一训练模型挑选Data1,经人工审核修正后的Data1通过数据训练单元分类训练成第二训练模型,使用第二训练模型挑选Data0,如此多次迭代形成初始标注数据。
较佳地,数据校准模块还包括图像Phash值计算单元,通过图像Phash值计算单元计算初始标注数据的图片的Phash值,获取不同图片之间的汉明值,从而去掉重复图片,形成最终标注数据。
本发明还公开了本发明还公开了一种获取神经网络深度学习的数据源的方法,将上述任一的视频数据标注方法所获取的最终标注数据作为用于获取神经网络深度学习的数据源,可克服现有技术的人工标注数据效率低、样本数据量少等问题。
参见附图4,本发明提供一种用于获取神经网络深度学习的训练数据的优选实施例,Step1为通过人工标注的信息***出所有的数据集,记为Source Data;Step2为裁剪出需要参与训练的数据,记为Raw Data;Step3为初步筛选Raw Data;Step4为可视化插件人工审核被模型识别出异常的图片,修正后重新回归至Raw Data;Step5为去重复,得到最终的参与训练的数据,记为Train Data。
本发明还公开了本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一的视频数据标注方法的步骤。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种基于人工标注的视频数据标注方法,其特征在于,包括如下步骤:
人工标注目标视频内的部分数据,编写需要关注对象的内容与视频时间对齐的文本;
通过计算机编程编写脚本将目标视频按照每秒n帧的速度***成图片,以时间戳命名所述图片的名称,根据所述时间戳获取每张图片所处的时间区间;
依据所述文本内的内容,通过计算机编程编写脚本为每张图片生成描述性文件,所有图片的所述描述性文件组成所述目标视频的标注源数据;
通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据;
剔除所述初始标注数据的重复图片,形成最终标注数据;
所述人工标注目标视频内的部分数据,编写需要关注对象的内容与视频时间对齐的文本包括:
人工浏览目标视频一次性标注部分数据,坐标位置不变,被标记坐标的内容填写默认值,获得所有需要标记对象和分界点帧信息;
浏览目标视频、关注需要标记对象的内容变化,并根据视频时间对齐标注该标记对象的内容,以形成需要关注对象的内容与视频时间对齐的TXT文本;
所述通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据包括:
标注源数据的内容形式是文字、数字、实物照,通过训练模型对所述标注源数据进行识别得到识别结果;
筛选出识别结果与标注内容不一致的异常图片;
通过人工审核确定所述异常图片;
剔除所述异常图片后,通过编写Python可视化插件将所述标注源数据重新分类形成初始标注数据;
所述通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据还包括:
标注源数据的内容形式是文字、数字、实物照以外的新内容,则随机取所述标注源数据内的部分数据记为Data0,其余部分记为Data1;
将Data0分类训练成第一训练模型,使用所述第一训练模型挑选Data1,经人工审核修正后的Data1分类训练成第二训练模型,使用所述第二训练模型挑选Data0,如此多次迭代形成所述初始标注数据。
2.根据权利要求1所述的视频数据标注方法,其特征在于,所述剔除所述初始标注数据的重复图片,形成最终标注数据包括:
计算所述初始标注数据的图片的Phash值,获取不同图片之间的汉明值,从而去掉重复图片,形成最终标注数据。
3.一种基于人工标注的视频数据标注***,其特征在于,包括数据标注模块、计算机编程模块和数据校准模块;
人工通过所述数据标注模块标注目标视频内的部分数据,编写标注数据的需要关注对象的内容与视频时间对齐的文本;
通过所述计算机编程模块编写脚本将目标视频按照每秒n帧的速度***成图片,以时间戳命名所述图片的名称,根据所述时间戳获取每张图片所处的时间区间;依据所述文本内的内容,通过所述计算机编程模块编写脚本为每张图片生成描述性文件,所有所述图片的所述描述性文件组成所述目标视频的标注源数据;
所述数据校准模块内储存有训练模型,通过训练模型筛选出所述标注源数据中的异常图片,并通过人工审核确定所述异常图片,剔除所述异常图片后形成初始标注数据;
所述数据校准模块还剔除所述初始标注数据的重复图片,形成最终标注数据;
人工通过所述数据标注模块标注目标视频内的部分数据,编写所述标注数据的需要关注对象的内容与视频时间对齐的文本包括:
人工浏览目标视频一次性标注部分数据,坐标位置不变,被标记坐标的内容填写默认值,获得所有需要标记对象和分界点帧信息;
浏览目标视频、关注需要标记对象的内容变化,并根据视频时间对齐标注该标记对象的内容,以形成需要关注对象的内容与视频时间对齐的TXT文本;
所述数据校准模块包括数据训练单元;
标注源数据的内容形式是文字、数字、实物照,通过所述数据训练单元获取训练模型对所述标注源数据进行识别得到识别结果;所述数据校准模块筛选出识别结果与标注内容不一致的异常图片;通过人工审核确定所述异常图片;剔除所述异常图片后,通过编写Python可视化插件将所述标注源数据重新分类形成所述初始标注数据;
标注源数据的内容形式是文字、数字、实物照以外的新内容,则随机取所述标注源数据内的部分数据记为Data0,其余部分记为Data1;通过所述数据训练单元将Data0分类训练成第一训练模型,使用所述第一训练模型挑选Data1,经人工审核修正后的Data1通过所述数据训练单元分类训练成第二训练模型,使用所述第二训练模型挑选Data0,如此多次迭代形成所述初始标注数据。
4.根据权利要求3所述的视频数据标注***,其特征在于,所述数据校准模块还包括图像Phash值计算单元,通过所述图像Phash值计算单元计算所述初始标注数据的图片的Phash值,获取不同图片之间的汉明值,从而去掉重复图片,形成最终标注数据。
5.一种用于获取神经网络深度学习的数据源的方法,其特征在于,将上述权利要求1-2任一所述的视频数据标注方法所获取的所述最终标注数据作为用于获取神经网络深度学习的数据源。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-2中任一所述的视频数据标注方法的步骤。
CN202110231619.3A 2021-03-02 2021-03-02 视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质 Active CN112966588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110231619.3A CN112966588B (zh) 2021-03-02 2021-03-02 视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110231619.3A CN112966588B (zh) 2021-03-02 2021-03-02 视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112966588A CN112966588A (zh) 2021-06-15
CN112966588B true CN112966588B (zh) 2023-05-30

Family

ID=76277463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110231619.3A Active CN112966588B (zh) 2021-03-02 2021-03-02 视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112966588B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470077A (zh) * 2018-05-28 2018-08-31 广东工业大学 一种视频关键帧提取方法、***及设备和存储介质
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN110046280A (zh) * 2019-04-23 2019-07-23 重庆邮电大学 一种面向抽检的多工位监控视频语义检索***
CN110363231A (zh) * 2019-06-27 2019-10-22 平安科技(深圳)有限公司 基于半监督深度学习的异常识别方法、装置及存储介质
CN111027640A (zh) * 2019-12-25 2020-04-17 厦门市美亚柏科信息股份有限公司 一种视频数据的标注方法、装置、终端设备及存储介质
CN111401228A (zh) * 2020-03-13 2020-07-10 中科创达软件股份有限公司 视频目标标注方法、装置及电子设备
CN111709971A (zh) * 2020-05-29 2020-09-25 西安理工大学 一种基于多目标跟踪的半自动化视频标注方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470077A (zh) * 2018-05-28 2018-08-31 广东工业大学 一种视频关键帧提取方法、***及设备和存储介质
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN110046280A (zh) * 2019-04-23 2019-07-23 重庆邮电大学 一种面向抽检的多工位监控视频语义检索***
CN110363231A (zh) * 2019-06-27 2019-10-22 平安科技(深圳)有限公司 基于半监督深度学习的异常识别方法、装置及存储介质
CN111027640A (zh) * 2019-12-25 2020-04-17 厦门市美亚柏科信息股份有限公司 一种视频数据的标注方法、装置、终端设备及存储介质
CN111401228A (zh) * 2020-03-13 2020-07-10 中科创达软件股份有限公司 视频目标标注方法、装置及电子设备
CN111709971A (zh) * 2020-05-29 2020-09-25 西安理工大学 一种基于多目标跟踪的半自动化视频标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Omega处理***流程编写语言解析及生产应用;李国磊;胡晓婷;;油气地球物理(第03期);全文 *

Also Published As

Publication number Publication date
CN112966588A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN109275046B (zh) 一种基于双视频采集的教学数据标注方法
CN110781347A (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN109697160B (zh) 一种以太网接口软件自动化测试***及方法
CN113691836B (zh) 视频模板生成方法、视频生成方法、装置和电子设备
CN102436590A (zh) 一种基于在线学习的实时跟踪方法及跟踪***
CN110689013A (zh) 一种基于特征识别的自动阅卷方法及***
CN111104783A (zh) 数据验证方法、装置、电子设备及存储介质
CN110084289A (zh) 图像标注方法、装置、电子设备及存储介质
CN112381099A (zh) 一种基于数字教育资源的录题***
CN111507332A (zh) 车辆vin码检测方法与设备
CN110852204A (zh) 一种智能远程书法数字化学习评价信息处理***及方法
CN112966588B (zh) 视频数据标注方法、***、获取神经网络深度学习的数据源的方法及计算机可读存储介质
CN114399604A (zh) 一种基于语义理解的建筑立面纹理快速生成方法及***
CN114140279A (zh) 一种纸质作业智能批改及分析的方法、***和电子设备
CN113159146A (zh) 样本生成、目标检测模型训练、目标检测方法及装置
CN114786032B (zh) 一种培训视频管理方法及***
CN106897683A (zh) 一种遥感图像的地物检测方法及***
CN112464629A (zh) 表单填写方法及装置
CN112487270A (zh) 基于图片识别进行资产分类及准确度校验的方法和装置
CN111695670A (zh) 神经网络模型训练方法及装置
CN112507931B (zh) 一种基于深度学习的信息图表序列检测方法及***
CN114005054A (zh) 一种ai智能评分***
CN103279754A (zh) 名片云识别方法及***
CN114495044A (zh) 标牌识别方法、装置、计算机设备以及存储介质
CN108256602A (zh) 一种监管车辆的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant