CN111125389A - 基于动态渐进式采样的数据分类清洗***及清洗方法 - Google Patents

基于动态渐进式采样的数据分类清洗***及清洗方法 Download PDF

Info

Publication number
CN111125389A
CN111125389A CN201911305676.0A CN201911305676A CN111125389A CN 111125389 A CN111125389 A CN 111125389A CN 201911305676 A CN201911305676 A CN 201911305676A CN 111125389 A CN111125389 A CN 111125389A
Authority
CN
China
Prior art keywords
data
label
classification cleaning
pseudo
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911305676.0A
Other languages
English (en)
Inventor
秦永强
张发恩
李素莹
纪双西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ainnovation Hefei Technology Co ltd
Original Assignee
Ainnovation Hefei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ainnovation Hefei Technology Co ltd filed Critical Ainnovation Hefei Technology Co ltd
Priority to CN201911305676.0A priority Critical patent/CN111125389A/zh
Publication of CN111125389A publication Critical patent/CN111125389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分类清洗***、方法,其中***包括:标签样图放置模块,用于将标签样图放置到样本数据集中的每一类数据子集中;迭代模型训练模块,用于以各标签样图形成的标签数据集L为训练样本,训练形成数据分类清洗模型;数据伪标签生成模块,用于基于数据分类清洗模型对待清洗的数据集进行数据分类清洗,并对清洗到的各未标记数据进行伪标记;数据筛选模块,用于对伪标记得到伪标记数据集进行数据筛选,得到伪标签候选者集合S;迭代模型训练模块还用于以伪标签候选者集合S和标签数据集L为训练样本,迭代训练数据分类清洗模型,本发明提高数据分类清洗的准确率。

Description

基于动态渐进式采样的数据分类清洗***及清洗方法
技术领域
本发明涉及数据清洗技术领域,具体涉及一种基于动态渐进式采样的数据分类清洗***及清洗方法。
背景技术
目前对于图片数据集的数据清理主要依赖于人工清理或者基于大量的带标注的图片样本训练所得的模型进行识别清理,但人工清理效率低下,往往需要进行多次核查,才能相对确保清理准确率,无法满足用户对图片数据集的自动清理要求。而基于大量带标注的图片样本的数据清理方法同样需要人为对图片进行标注,标注成本高、标注周期长、标注质量难以保证,对于所作出的数据分类结果同样具有准确率低的技术问题。
发明内容
本发明的目的在于提供一种基于动态渐进式采样的数据分类清洗***、方法,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种基于动态渐进式采样的数据分类清洗***,包括:
标签样图放置模块,用于提供给用户将带有标签的标签样图放置到样本数据集中的每一类数据子集中,每一张标签样图对应表示一种数据类别;
迭代模型训练模块,连接所述标签样图放置模块,用于以放置的各所述标签样图形成的标签数据集L作为训练样本,初始训练形成一数据分类清洗模型;
数据伪标签生成模块,连接所述迭代模型训练模块,用于将待清洗的数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
数据筛选模块,连接所述数据伪标签生成模块,用于对所述伪标记数据集进行数据筛选,得到伪标签候选者集合S;
所述迭代模型训练模块还连接所述数据筛选模块,所述迭代模型训练模块还用于以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
所述数据伪标签生成模块基于迭代训练而得的所述数据分类清洗模型对所述数据集进行进一步的数据清洗,直至完成对所述数据集的分类清洗过程。
作为本发明的一种优选方案,所述数据分类清洗***还包括:
索引数据标记模块,连接所述数据伪标签生成模块,用于在所述数据伪标签生成模块完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;
所述索引数据标记模块还连接所述迭代模型训练模块,所述迭代模型训练模块用于以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;
所述数据伪标签生成模块根据迭代更新的数据分类清洗模型对数据集进行数据分类清洗,直至完成对所述数据集中的所有数据的数据分类清洗过程。
本发明还提供一种基于动态渐进式采样的数据分类清洗方法,通过应用所述数据分类清洗***实现,包括如下步骤:
步骤S1,所述数据分类清洗***获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;
步骤S2,所述数据分类清洗***以各所述标签样图形成的标签数据集L为训练样本,初始训练形成所述数据分类清洗模型;
步骤S3,所述数据分类清洗***将待清洗的所述数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的各所述未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
步骤S4,所述数据分类清洗***对所述伪标记数据集中的数据进行数据筛选,得到一伪标签候选者集合S;
步骤S5,所述数据分类清洗***以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
步骤S6,所述数据分类清洗***基于迭代训练而得的所述数据分类清洗模型继续对所述数据集进行数据分类清洗,直至完成对数据的分类清洗过程。
本发明还另外提供一种基于动态渐进式采样的数据分类清洗方法,通过应用所述数据分类清洗***实现,包括如下步骤:
步骤L1,所述数据分类清洗***获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;
步骤L2,所述数据分类清洗***以各所述标签样图形成的标签数据集L为训练样本,初始训练形成所述数据分类清洗模型;
步骤L3,所述数据分类清洗***将待清洗的所述数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的各所述未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
步骤L4,所述数据分类清洗***对所述伪标记数据集进行数据筛选,得到一伪标签候选者集合S;
步骤L5,所述数据分类清洗***以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
步骤L6,所述数据分类清洗***在完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;
步骤L7,所述数据分类清洗***以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;
步骤L8,所述数据分类清洗***基于迭代训练而得的所述数据分类清洗模型继续对所述数据集进行数据清洗,直至完成对所有数据的分类清洗过程。
本发明提供的基于动态渐进式的数据分类清洗***仅需要对待分类的数据集中的每一类数据子集中的一张图片进行人工标注,然后***将根据所标注的各标签样图进行模型训练,然后通过训练的数据分类清洗模型对数据集进行数据分类清洗,然后通过对清洗出的各未标记数据进行自动标记,并以清洗得到并自动标记的数据和之前的各标签样图为训练样本,迭代更新数据分类清洗模型,直至完成对数据集中的数据的分类清洗过程。本发明大幅降低了人工标注的时间成本,并通过对数据集进行反复的数据分类清洗标注,提高了数据分类清洗的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一所述的基于动态渐进式采样的数据分类清洗***的结构示意图;
图2是本发明实施例二所述的基于动态渐进式采样的数据分类清洗***的结构示意图;
图3是应用本发明实施例一所述的数据分类清洗***实现对数据分类清洗的方法步骤图;
图4是应用本发明实施例二所述的数据分类清洗***实现对数据分类清洗的方法步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例一
本发明实施例一提供的基于动态渐进式采样的数据分类清洗***,请参照图1,包括:
标签样图放置模块1,用于提供给用户将带有标签的标签样图放置到样本数据集中的每一类数据子集中,每一张标签样图对应表示一种数据类别;
迭代模型训练模块2,连接标签样图放置模块1,用于以放置的各标签样图形成的标签数据集L作为训练样本,初始训练形成一数据分类清洗模型;
数据伪标签生成模块3,连接迭代模型训练模块2,用于将待清洗的数据集输入到数据分类清洗模型中,通过数据分类清洗模型预测数据集中的未标记数据的数据类型,并对预测得到的各未标记数据进行伪标记,得到一伪标记数据集;
数据筛选模块4,连接数据伪标签生成模块3,用于对伪标记数据集进行数据筛选,得到为标签候选者集合S;
迭代模型训练模块2还连接数据筛选模块4,迭代模型训练模块2还用于以标签候选者集合S和标签数据集L形成的扩展训练数据集D为训练样本,迭代训练数据分类清洗模型;
数据伪标签生成模块3基于迭代训练而得的数据分类清洗模型,对数据集进行进一步的数据清洗,直至完成对数据集的分类清洗过程。
上述技术方案中,迭代训练数据分类清洗模型的方法为现有的模型训练方法,由于模型训练方法并非本发明要求权利保护的范围,所以数据分类清洗模型的具体训练过程在此不作阐述。
伪标记数据集的标记过程简述如下:
***对数据分类清洗模型预测的数据进行预测得到伪标记,这些伪标记的数据均为疑似的标签数据。模型对于数据的伪标记可以通过现有的相关算法实现,由于对于数据的伪标记过程并非本发明要求权利保护的范围,所以伪标记过程在此不作详细阐述。
另外,伪标签候选者集合S可以通过计算伪标记数据为标签数据的置信度而得,对于伪标记数据为标签数据的置信度的方法为现有的方法,当然也可以使用其他现有的筛选方法对伪标记数据进行筛选,得到伪标签候选者集合S,对于伪标记数据的筛选方法并非本发明要求权利保护的范围,所以具体筛选过程在此不作详细阐述。
本发明实施例还提供了一种基于动态渐进式采样的数据分类清洗方法,通过应用实施例一提供的数据分类清洗***实现,请参照图3,包括如下步骤:
步骤S1,数据分类清洗***获取标签样图,并将所获取的每一张标签样图对应放置到样本数据集的每一类的数据子集中;标签样图的数据类别与放置的数据子集中的数据类别相同;
步骤S2,数据分类清洗***以各标签样图形成的标签数据集L为训练样本,初始训练形成数据分类清洗模型;
步骤S3,数据分类清洗***将待清洗的数据集输入到数据分类清洗模型中,通过数据分类清洗模型预测数据集中的各未标记数据的数据类型,并对预测得到的各未标记数据进行伪标记,得到一伪标记数据集;
步骤S4,数据分类清洗***对伪标记数据集中的数据进行数据筛选,得到一伪标签候选者集合S;
步骤S5,数据分类清洗***以伪标签候选者集合S和标签数据集L形成的扩展训练数据集D为训练样本,迭代训练数据分类清洗模型;
步骤S6,数据分类清洗***基于迭代训练而得的数据分类清洗模型继续对数据集进行数据分类清洗,直至完成对数据的分类清洗过程。
实施例二
实施例二与实施例一的区别在于,请参照图2,实施例二提供的基于动态渐进式采样的数据分类清洗***还包括:
索引数据标记模块5,连接伪标签生成模块3,用于在数据伪标签生成模块完成对数据集中的各未标记数据的伪标记后,将数据集中剩余的各未标记数据标记为索引标签数据;
索引数据标记模块5还连接迭代模型训练模块2,迭代模型训练模块2用于以扩展训练数据集D和各所述标签数据为训练样本,迭代训练更新数据分类清洗模型;
数据伪标签生成模块3根据迭代更新的数据分类清洗模型对数据集进行数据分类清洗,直至完成对数据集中的所有数据的数据分类清洗过程。
实施例二提供的数据分类清洗***对于数据的分类清洗更加彻底,数据分类清洗的效果更好。
本实施例二另外提供了一种基于动态渐进式采样的数据分类清洗方法,通过应用实施例二提供的数据分类清洗***实现,请参照图4,包括如下步骤:
步骤L1,数据分类清洗***获取标签样图,并将所获取的每一张标签样图对应放置到样本数据集的每一类数据子集中;
步骤L2,数据分类清洗***以各标签样图形成的标签数据集L为训练样本,初始训练形成数据分类清洗模型;
步骤L3,数据分类清洗***将待清洗的数据集输入到数据分类清洗模型中,通过数据分类清洗模型预测数据集中的各未标记数据的数据类型,并对预测得到的各未标记数据进行伪标记,得到一伪标记数据集;
步骤L4,数据分类清洗***对伪标记数据集进行数据筛选,得到一伪标签候选者集合S;
步骤L5,数据分类清洗***以伪标签候选者集合S和标签数据集L形成的扩展训练数据集D为训练样本,迭代训练数据分类清洗模型;
步骤L6,数据分类清洗***在完成对数据集中的各未标记数据的伪标记后,将数据集中剩余的各未标记数据标记为索引标签数据;
步骤L7,数据分类清洗***以扩展训练数据D和各索引标签数据为训练样本,迭代训练更新数据分类清洗模型;
步骤L8,数据分类清洗***基于迭代训练而得的数据分类清洗模型继续对数据集进行数据清洗,直至完成对所有数据的分类清洗过程。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (4)

1.一种基于动态渐进式采样的数据分类清洗***,其特征在于,包括:
标签样图放置模块,用于提供给用户将带有标签的标签样图放置到样本数据集中的每一类数据子集中,每一张标签样图对应表示一种数据类别;
迭代模型训练模块,连接所述标签样图放置模块,用于以放置的各所述标签样图形成的标签数据集L作为训练样本,初始训练形成一数据分类清洗模型;
数据伪标签生成模块连接所述迭代模型训练模块,用于将待清洗的数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
数据筛选模块,连接所述数据伪标签生成模块,用于对所述伪标记数据集进行数据筛选,得到伪标签候选者集合S;
所述迭代模型训练模块还连接所述数据筛选模块,所述迭代模型训练模块还用于以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
所述数据伪标签生成模块基于迭代训练而得的所述数据分类清洗模型对所述数据集进行进一步的数据清洗,直至完成对所述数据集的分类清洗过程。
2.如权利要求1所述的数据分类清洗***,其特征在于,还包括:
索引数据标记模块,连接所述数据伪标签生成模块,用于在所述数据伪标签生成模块完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;
所述索引数据标记模块还连接所述迭代模型训练模块,所述迭代模型训练模块用于以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;
所述数据伪标签生成模块根据迭代更新的数据分类清洗模型对数据集进行数据分类清洗,直至完成对所述数据集中的所有数据的数据分类清洗过程。
3.一种基于动态渐进式采样的数据分类清洗方法,通过应用权1所述的数据分类清洗***实现,其特征在于,包括如下步骤:
步骤S1,所述数据分类清洗***获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;
步骤S2,所述数据分类清洗***以各所述标签样图形成的标签数据集L为训练样本,初始训练形成所述数据分类清洗模型;
步骤S3,所述数据分类清洗***将待清洗的所述数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的各所述未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
步骤S4,所述数据分类清洗***对所述伪标记数据集中的数据进行数据筛选,得到一伪标签候选者集合S;
步骤S5,所述数据分类清洗***以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
步骤S6,所述数据分类清洗***基于迭代训练而得的所述数据分类清洗模型继续对所述数据集进行数据分类清洗,直至完成对数据的分类清洗过程。
4.一种基于动态渐进式采样的数据分类清洗方法,通过应用权2所述的数据分类清洗***实现,其特征在于,包括如下步骤:
步骤L1,所述数据分类清洗***获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;
步骤L2,所述数据分类清洗***以各所述标签样图形成的标签数据集L为训练样本,初始训练形成所述数据分类清洗模型;
步骤L3,所述数据分类清洗***将待清洗的所述数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的各所述未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
步骤L4,所述数据分类清洗***对所述伪标记数据集进行数据筛选,得到一伪标签候选者集合S;
步骤L5,所述数据分类清洗***以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
步骤L6,所述数据分类清洗***在完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;
步骤L7,所述数据分类清洗***以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;
步骤L8,所述数据分类清洗***基于迭代训练而得的所述数据分类清洗模型继续对所述数据集进行数据清洗,直至完成对所有数据的分类清洗过程。
CN201911305676.0A 2019-12-18 2019-12-18 基于动态渐进式采样的数据分类清洗***及清洗方法 Pending CN111125389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911305676.0A CN111125389A (zh) 2019-12-18 2019-12-18 基于动态渐进式采样的数据分类清洗***及清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911305676.0A CN111125389A (zh) 2019-12-18 2019-12-18 基于动态渐进式采样的数据分类清洗***及清洗方法

Publications (1)

Publication Number Publication Date
CN111125389A true CN111125389A (zh) 2020-05-08

Family

ID=70498379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911305676.0A Pending CN111125389A (zh) 2019-12-18 2019-12-18 基于动态渐进式采样的数据分类清洗***及清洗方法

Country Status (1)

Country Link
CN (1) CN111125389A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899254A (zh) * 2020-08-12 2020-11-06 华中科技大学 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN112800151A (zh) * 2021-04-06 2021-05-14 中译语通科技股份有限公司 一种交互式无监督标签分类***、方法、介质、终端
CN112860676A (zh) * 2021-02-06 2021-05-28 高云 应用于大数据挖掘和业务分析的数据清洗方法及云服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
US20190340507A1 (en) * 2017-01-17 2019-11-07 Catchoom Technologies, S.L. Classifying data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190340507A1 (en) * 2017-01-17 2019-11-07 Catchoom Technologies, S.L. Classifying data
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
好文: "《半监督学习之self-training》", 《HTTPS://WWW.MATOOLS.COM/BLOG/190181674》 *
竹席: "《"【译⽂】伪标签学习导论-⼀种半监督学习⽅法》", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/29886875》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899254A (zh) * 2020-08-12 2020-11-06 华中科技大学 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN112860676A (zh) * 2021-02-06 2021-05-28 高云 应用于大数据挖掘和业务分析的数据清洗方法及云服务器
CN112800151A (zh) * 2021-04-06 2021-05-14 中译语通科技股份有限公司 一种交互式无监督标签分类***、方法、介质、终端
CN112800151B (zh) * 2021-04-06 2021-08-13 中译语通科技股份有限公司 一种交互式无监督标签分类***、方法、介质、终端

Similar Documents

Publication Publication Date Title
CN108197664B (zh) 模型获取方法、装置、电子设备及计算机可读存储介质
CN111125389A (zh) 基于动态渐进式采样的数据分类清洗***及清洗方法
CN109086756A (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
CN108416003A (zh) 一种图片分类方法和装置、终端、存储介质
CN110569856B (zh) 样本标注方法及装置、损伤类别的识别方法及装置
CN109448005B (zh) 一种用于冠状动脉的网络模型分割方法及设备
CN110931112B (zh) 一种基于多维信息融合和深度学习的脑部医学影像分析方法
CN112613569B (zh) 图像识别方法、图像分类模型的训练方法及装置
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
CN111444850B (zh) 一种图片检测的方法和相关装置
CN113052295B (zh) 一种神经网络的训练方法、物体检测方法、装置及设备
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN109857878B (zh) 物品标注方法及装置、电子设备及存储介质
CN110727816A (zh) 兴趣点类别确定方法和装置
CN115205727A (zh) 一种基于无监督学习的实验智能评分方法和***
CN111126486A (zh) 一种测验统计方法、装置、设备及存储介质
CN112381840A (zh) 一种用于定损视频中车辆外观部件标注的方法及***
CN107291774A (zh) 错误样本识别方法和装置
CN113191362B (zh) 一种变电设备油渗漏缺陷检测装置及方法
CN113159146A (zh) 样本生成、目标检测模型训练、目标检测方法及装置
CN110046666B (zh) 海量图片标注方法
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN116309343A (zh) 一种基于深度学习的缺陷检测方法、装置和存储介质
CN111199050A (zh) 一种用于对病历进行自动脱敏的***及应用
CN114842492A (zh) 一种关键信息抽取方法、装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508

RJ01 Rejection of invention patent application after publication