CN111652255A - 一种数据集标注的方法及*** - Google Patents

一种数据集标注的方法及*** Download PDF

Info

Publication number
CN111652255A
CN111652255A CN201910177324.5A CN201910177324A CN111652255A CN 111652255 A CN111652255 A CN 111652255A CN 201910177324 A CN201910177324 A CN 201910177324A CN 111652255 A CN111652255 A CN 111652255A
Authority
CN
China
Prior art keywords
food material
dish
mobilenet
pictures
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910177324.5A
Other languages
English (en)
Inventor
熊杰成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Re Sr Information Technology Co ltd
Original Assignee
Shanghai Re Sr Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Re Sr Information Technology Co ltd filed Critical Shanghai Re Sr Information Technology Co ltd
Priority to CN201910177324.5A priority Critical patent/CN111652255A/zh
Publication of CN111652255A publication Critical patent/CN111652255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据集标注方法,所述方法包括:根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;根据所述食材信息,对每一张菜品图片标注对应的分类标签,提高了数据集标注的效率和准确率,大大减少了人工标注的工作量。

Description

一种数据集标注的方法及***
技术领域
本发明属于识别技术领域,特别涉及一种数据集标注方法及***。
背景技术
在识别技术领域,通常需要先对样本数据进行标注,再利用标注后的样本数据对神经网络模型进行学习和训练,以得到用于识别的神经网络模型。
为了获取用于学习和训练的标注后的样本图片数据,现有方法大多是通过人工标注的方式对所采集的样本数据进行标注。食材识别神经网络训练用的数据集标注比较困难,因为难以使用搜索引擎通过关键字搜索获取一张菜品图片的所有食材。对于识别100种食材的神经网络,大概需要100万张菜品图片进行训练。如果对100万张菜品图片逐一进行食材标注,假设每一张图片使用3秒时间,那么总共需要833个小时。因此人工标注的工作繁琐并且重复,标注速度慢、效率低,并且准确度差。
因此,如何解决上述技术问题,提高数据集标注的效率,成为亟待解决的问题。
发明内容
鉴于此,本发明的目的在于提供一种数据集标注方法及***,提高了数据集标注的效率和准确率。
根据上述发明目的,本发明提供一种数据集标注方法,所述方法包括:
S1、根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;
S2、根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;
S3、根据所述食材信息,对每一张菜品图片标注对应的分类标签。
优选地,所述食材训练集的构建包括:
根据一食材名称,利用网络爬虫,获取一预设数量的菜品图片;
对每一个菜品图片中的所有食材进行标注;
将所有标注的菜品图片构建为所述食材训练集。
优选地,所述菜品图片的预设数量设置为300张。
优选地,所述步骤S1还包括:
根据MobileNet神经网络,对所述食材训练集中的每一张菜品图片进行特征提取;
使用所述食材训练集进行模型训练,并构建一食材识别MobileNet初始模型,其中,所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。
优选地,所述步骤S3还包括:
在数据库中,建立多个文件夹,每一个文件夹的名称与所述分类标签相对应;
根据每一张菜品图片中的食材信息,标注该菜品图片的分类标签,所述食材信息与所述分类标签相对应;
根据所述标注的分类标签,将所述菜品图片存储至对应的文件夹中。
优选地,所述步骤S3还包括:
若所述菜品图片中的食材信息的数量大于或者等于两种,则将所述菜品图片复制为所述食材信息的数量,并对每一份菜品图片标注对应食材信息的分类标签。
优选地,所述步骤S3还包括:
对每一个文件夹中的菜品图片进行人工清洗,若所述文件夹中的菜品图片中的食材信息不是所标注的分类标签,则删除所述菜品图片。
本发明提供一种数据集标注***,所述***包括:
模型训练模块,用于根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;
识别模块,用于根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;
分类模块,用于根据所述食材信息,对每一张菜品图片标注对应的分类标签。
优选地,所述模型训练模块包括:
训练集单元,用于根据食材名称和网络爬虫,获取一预设数量的菜品图片,对每一个菜品图片中的所有食材进行标注,将所有标注的菜品图片构建为所述食材训练集;
训练单元,用于根据MobileNet神经网络,使用所述食材训练集进行模型训练,并构建一食材识别MobileNet初始模型,其中,所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。
优选地,所述分类模块包括:
文件夹单元,用于在数据库中,建立多个文件夹,每一个文件夹的名称与所述分类标签相对应;
标注单元,用于根据每一张菜品图片中的食材信息,标注该菜品图片的分类标签,所述食材信息与所述分类标签相对应;
存储单元,用于根据所述标注的分类标签,将所述菜品图片存储至对应的文件夹中。
与现有技术相比,本发明提供的一种数据集标注方法及***,具有以下有益效果:根据MobileNet神经网络,使用少量的原始菜品图片进行模型训练,构建一食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别,通过该模型对大量的菜品图片进行初始分类,不用人工标注菜品图片的食材信息,使用模型训练和标注迭代的方法,从而减少了人工标注的数据量,与现有的人工标注方式相比,可以节省大量的人成本。提高了数据集标注的效率和准确率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种数据集标注方法及***的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种数据集标注方法的流程图;
图2是本发明一种数据集标注***的组成结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
如图1所示,根据本发明的一个实施例,一种数据集标注方法,所述方法包括:
S1、根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;
S2、根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;
S3、根据所述食材信息,对每一张菜品图片标注对应的分类标签。
MobileNet是目前最流行的兼顾准确率和运算速度的神经网络,并且该模型提供了一个全局参数用来控制模型的特征数。本发明是利用MobileNet模型,对少量的菜品图片进行训练,构建一个食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的原始菜品图片进行食材识别,完成对菜品图片的分类标注,从而可以完成对大量的原始菜品图片进行数据清洗,减少人工标注菜品图片的工作量。
本发明的一具体实施例,所述食材训练集的构建包括:根据一食材名称,利用网络爬虫,获取一预设数量的菜品图片。在搜索引擎中,输入食材+菜品的关键字,利用网络爬虫,获取一预设数量的菜品图片。所述菜品图片的预设数量设置为300张。比如,在Google中,输入“青椒+菜品”的关键字,爬取有食材青椒的菜品图片300张。对每一个菜品图片中的所有食材进行标注。利用手工标注,对爬取的每一张菜品图片中的所有食材进行标注。将所有标注的菜品图片构建为所述食材训练集。将所有标注好的菜品图片构成食材训练集,并对该食材训练集进行训练。
根据MobileNet神经网络,对所述食材训练集进行训练,构建一食材识别MobileNet初始模型。本发明是使用少量的原始菜品图片进行模型训练。当训练集中的样本数据量少,神经网络模型会出现严重过拟合,从而使识别效果差。因此,在使用MobileNet模型训练时,食材识别MobileNet初始模型使用标准MobileNet模型的一半特征数来训练,以提高模型在少量数据集情况下的准确率。
具体地,根据MobileNet神经网络,对所述食材训练集中的每一张菜品图片进行特征提取。使用所述食材训练集进行模型训练,并构建一食材识别MobileNet初始模型,其中,所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。
根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息,并根据所述食材信息,对每一张菜品图片标注对应的分类标签。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别,通过该模型对大量的菜品图片进行初始分类,不用人工标注菜品图片的食材信息。
本发明的一具体实施例,在数据库中,建立多个文件夹,每一个文件夹的名称与所述分类标签相对应。根据每一张菜品图片中的食材信息,标注该菜品图片的分类标签,所述食材信息与所述分类标签相对应。根据所述标注的分类标签,将所述菜品图片存储至对应的文件夹中。比如,在数据库中,建立多个文件夹。每一个文件夹的名称与分类标签相对应,比如,建立文件夹名称为青椒文件夹,文件夹名称为肉片文件夹名称。在搜索引擎中爬取100万张菜品图片,不需要使用食材+菜品的关键字进行爬取。使用食材识别MobileNet初始模型对菜品图片逐一进行食材识别,识别每一张菜品图片中的所有食材信息。菜品图片中食材信息为青椒的,标注该菜品图片的分类标签为青椒。将所有分类标签为青椒的菜品图片存储至青椒文件夹,所有分类标签为肉片的菜品图片存储至肉片文件夹。
本发明的一具体实施例,所述步骤S3还包括:若所述菜品图片中的食材信息的数量大于或者等于两种,则将所述菜品图片复制为所述食材信息的数量,并对每一份菜品图片标注对应食材信息的分类标签。比如,若识别菜品图片中有食材青椒和肉片,则将该菜品图片复制为两份,并各自标注分类标签为青椒和肉片,分类标签标注为青椒的菜品图片存储至青椒文件夹中,分类标签标注为肉片的菜品图片存储至肉片文件夹中。
本发明的一具体实施例,所述步骤S3还包括:对每一个文件夹中的菜品图片进行人工清洗,若所述文件夹中的菜品图片中的食材信息不是所标注的分类标签,则删除所述菜品图片。比如,在青椒文件中,经过人工浏览,菜品图片中没有青椒的,则删除该菜品图片。
通过该技术方案,根据MobileNet神经网络,使用少量的原始菜品图片进行模型训练,构建一食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别,通过该模型对大量的菜品图片进行初始分类,不用人工标注菜品图片的食材信息,使用模型训练和标注迭代的方法,从而减少了人工标注的数据量,与现有的人工标注方式相比,可以节省大量的人成本。提高了数据集标注的效率和准确率。
如图2所示,本发明的一实施例,一种数据集标注***,所述***包括:
模型训练模块20,用于根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;
识别模块21,用于根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;
分类模块22,用于根据所述食材信息,对每一张菜品图片标注对应的分类标签。
所述模型训练模块根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型。具体地,所述模型训练模块包括训练集单元和训练单元。训练集单元根据一食材名称和网络爬虫,获取一预设数量的菜品图片,对每一个菜品图片中的所有食材进行标注,将所有标注的菜品图片构建为所述食材训练集。在搜索引擎中,输入食材+菜品的关键字,利用网络爬虫,获取一预设数量的菜品图片。所述菜品图片的预设数量设置为300张。利用标注软件或者手工标注,对爬取的每一张菜品图片中的所有食材进行标注。将所有标注的菜品图片构建为所述食材训练集。所述训练单元根据MobileNet神经网络,使用所述食材训练集进行模型训练,并构建一食材识别MobileNet初始模型,其中,所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半,以提高模型在少量数据集情况下的准确率。
识别模块根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别,通过该模型对大量的菜品图片进行初始分类,不用人工标注菜品图片的食材信息。
分类模块根据所述食材信息,对每一张菜品图片标注对应的分类标签。具体地,所述分类模块包括文件夹单元、标注单元和存储单元。所述文件夹单元在数据库中,建立多个文件夹,每一个文件夹的名称与所述分类标签相对应。比如,建立文件夹名称为青椒文件夹,文件夹名称为肉片文件夹名称。所述标注单元根据每一张菜品图片中的食材信息,标注该菜品图片的分类标签,所述食材信息与所述分类标签相对应。比如,菜品图片中食材信息为青椒的,标注该菜品图片的分类标签为青椒。所述存储单元根据所述标注的分类标签,将所述菜品图片存储至对应的文件夹中。比如,将分类标签为青椒的菜品图片存储至青椒文件夹,分类标签为肉片的菜品图片存储至肉片文件夹。若所述菜品图片中的食材信息的数量大于或者等于两种,则将所述菜品图片复制为所述食材信息的数量,并对每一份菜品图片标注对应食材信息的分类标签。
通过该技术方案,根据MobileNet神经网络,使用少量的原始菜品图片进行模型训练,构建一食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别,通过该模型对大量的菜品图片进行初始分类,不用人工标注菜品图片的食材信息,使用模型训练和标注迭代的方法,从而减少了人工标注的数据量,与现有的人工标注方式相比,可以节省大量的人成本。提高了数据集标注的效率和准确率。
综上所述,本发明实现了提高了数据集标注的效率和准确率。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据集标注方法,其特征在于,所述方法包括:
S1、根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;
S2、根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;
S3、根据所述食材信息,对每一张菜品图片标注对应的分类标签。
2.如权利要求1所述的数据集标注方法,其特征在于,所述食材训练集的构建包括:
根据一食材名称,利用网络爬虫,获取一预设数量的菜品图片;
对每一个菜品图片中的所有食材进行人工标注;
将所有标注的菜品图片构建为所述食材训练集。
3.如权利要求2所述的数据集标注方法,其特征在于,所述菜品图片的预设数量设置为300张。
4.如权利要求3所述的数据集标注方法,其特征在于,所述步骤S1还包括:
根据MobileNet神经网络,对所述食材训练集中的每一张菜品图片进行特征提取;
使用所述食材训练集进行模型训练,并构建一食材识别MobileNet初始模型,其中,所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。
5.如权利要求1所述的数据集标注方法,其特征在于,所述步骤S3还包括:
在数据库中,建立多个文件夹,每一个文件夹的名称与所述分类标签相对应;
根据每一张菜品图片中的食材信息,标注该菜品图片的分类标签,所述食材信息与所述分类标签相对应;
根据所述标注的分类标签,将所述菜品图片存储至对应的文件夹中。
6.如权利要求5所述的数据集标注方法,其特征在于,所述步骤S3还包括:
若所述菜品图片中的食材信息的数量大于或者等于两种,则将所述菜品图片复制为所述食材信息的数量,并对每一份菜品图片标注对应食材信息的分类标签。
7.如权利要求6所述的数据集标注方法,其特征在于,所述步骤S3还包括:
对每一个文件夹中的菜品图片进行人工清洗,若所述文件夹中的菜品图片中的食材信息不是所标注的分类标签,则删除所述菜品图片。
8.一种数据集标注***,其特征在于,所述***包括:
模型训练模块,用于根据MobileNet神经网络,对一预设的食材训练集进行训练,构建一食材识别MobileNet初始模型;
识别模块,用于根据所述食材识别MobileNet初始模型,对多张菜品图片进行食材识别,获取每一张菜品图片中的食材信息;
分类模块,用于根据所述食材信息,对每一张菜品图片标注对应的分类标签。
9.如权利要求8所述的数据集标注***,其特征在于,所述模型训练模块包括:
训练集单元,用于根据一食材名称和网络爬虫,获取一预设数量的菜品图片,对每一个菜品图片中的所有食材进行人工标注,将所有标注的菜品图片构建为所述食材训练集;
训练单元,用于根据MobileNet神经网络,使用所述食材训练集进行模型训练,并构建一食材识别MobileNet初始模型,其中,所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。
10.如权利要求9所述的数据集标注***,其特征在于,所述分类模块包括:
文件夹单元,用于在数据库中,建立多个文件夹,每一个文件夹的名称与所述分类标签相对应;
标注单元,用于根据每一张菜品图片中的食材信息,标注该菜品图片的分类标签,所述食材信息与所述分类标签相对应;
存储单元,用于根据所述标注的分类标签,将所述菜品图片存储至对应的文件夹中。
CN201910177324.5A 2019-03-08 2019-03-08 一种数据集标注的方法及*** Pending CN111652255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910177324.5A CN111652255A (zh) 2019-03-08 2019-03-08 一种数据集标注的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910177324.5A CN111652255A (zh) 2019-03-08 2019-03-08 一种数据集标注的方法及***

Publications (1)

Publication Number Publication Date
CN111652255A true CN111652255A (zh) 2020-09-11

Family

ID=72348348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910177324.5A Pending CN111652255A (zh) 2019-03-08 2019-03-08 一种数据集标注的方法及***

Country Status (1)

Country Link
CN (1) CN111652255A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563439A (zh) * 2017-08-31 2018-01-09 湖南麓川信息科技有限公司 一种识别清洗食材图片的模型及识别食材类别的方法
CN109214409A (zh) * 2018-07-10 2019-01-15 上海斐讯数据通信技术有限公司 一种菜品识别方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563439A (zh) * 2017-08-31 2018-01-09 湖南麓川信息科技有限公司 一种识别清洗食材图片的模型及识别食材类别的方法
CN109214409A (zh) * 2018-07-10 2019-01-15 上海斐讯数据通信技术有限公司 一种菜品识别方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备

Similar Documents

Publication Publication Date Title
CN102880687B (zh) 基于标签技术的个人交互数据检索方法及其***
CN103886067B (zh) 使用标签隐含主题进行图书推荐的方法
CN101944109B (zh) 一种基于页面分块的图片摘要提取***及方法
CN101364239B (zh) 一种分类目录自动构建方法及相关***
CN108416003A (zh) 一种图片分类方法和装置、终端、存储介质
CN107993191A (zh) 一种图像处理方法和装置
CN108829652B (zh) 一种基于众包的图片标注***
DE202015009255U1 (de) Automatische Bildorganisation
CN105612513A (zh) 图像检索方法、图像检索***以及信息记录介质
CN103984705B (zh) 一种搜索结果的展示方法、装置和***
CN113139141A (zh) 用户标签扩展标注方法、装置、设备及存储介质
CN105808762A (zh) 资源排序方法和装置
US9665773B2 (en) Searching for events by attendants
CN103530403B (zh) 一种结构化的图像描述方法
CN114372414B (zh) 多模态模型构建方法、装置和计算机设备
CN103530405B (zh) 一种基于分层结构的图像检索方法
CN101751439A (zh) 基于层次聚类的图像检索方法
CN110889045A (zh) 标签分析方法、装置及计算机可读存储介质
CN110610169A (zh) 图片标注方法和装置、存储介质及电子装置
CN110851630A (zh) 一种深度学习标注样本的管理***及方法
CN111652255A (zh) 一种数据集标注的方法及***
CN108875014B (zh) 基于大数据与人工智能的精准项目推荐方法和机器人***
CN113282781B (zh) 图像检索方法及装置
CN102368266A (zh) 一种用于网络搜索的无标注图片的排序方法
WO2015143911A1 (zh) 推送包含时效性信息的网页的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination