CN111652255A

CN111652255A - 一种数据集标注的方法及***

Info

Publication number: CN111652255A
Application number: CN201910177324.5A
Authority: CN
Inventors: 熊杰成
Original assignee: Shanghai Re Sr Information Technology Co ltd
Current assignee: Shanghai Re Sr Information Technology Co ltd
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-09-11

Abstract

本发明公开了一种数据集标注方法，所述方法包括：根据MobileNet神经网络，对一预设的食材训练集进行训练，构建一食材识别MobileNet初始模型；根据所述食材识别MobileNet初始模型，对多张菜品图片进行食材识别，获取每一张菜品图片中的食材信息；根据所述食材信息，对每一张菜品图片标注对应的分类标签，提高了数据集标注的效率和准确率，大大减少了人工标注的工作量。

Description

一种数据集标注的方法及***

技术领域

本发明属于识别技术领域，特别涉及一种数据集标注方法及***。

背景技术

在识别技术领域，通常需要先对样本数据进行标注，再利用标注后的样本数据对神经网络模型进行学习和训练，以得到用于识别的神经网络模型。

为了获取用于学习和训练的标注后的样本图片数据，现有方法大多是通过人工标注的方式对所采集的样本数据进行标注。食材识别神经网络训练用的数据集标注比较困难，因为难以使用搜索引擎通过关键字搜索获取一张菜品图片的所有食材。对于识别100种食材的神经网络，大概需要100万张菜品图片进行训练。如果对100万张菜品图片逐一进行食材标注，假设每一张图片使用3秒时间，那么总共需要833个小时。因此人工标注的工作繁琐并且重复，标注速度慢、效率低，并且准确度差。

因此，如何解决上述技术问题，提高数据集标注的效率，成为亟待解决的问题。

发明内容

鉴于此，本发明的目的在于提供一种数据集标注方法及***，提高了数据集标注的效率和准确率。

根据上述发明目的，本发明提供一种数据集标注方法，所述方法包括：

S1、根据MobileNet神经网络，对一预设的食材训练集进行训练，构建一食材识别MobileNet初始模型；

S2、根据所述食材识别MobileNet初始模型，对多张菜品图片进行食材识别，获取每一张菜品图片中的食材信息；

S3、根据所述食材信息，对每一张菜品图片标注对应的分类标签。

优选地，所述食材训练集的构建包括：

根据一食材名称，利用网络爬虫，获取一预设数量的菜品图片；

对每一个菜品图片中的所有食材进行标注；

将所有标注的菜品图片构建为所述食材训练集。

优选地，所述菜品图片的预设数量设置为300张。

优选地，所述步骤S1还包括：

根据MobileNet神经网络，对所述食材训练集中的每一张菜品图片进行特征提取；

使用所述食材训练集进行模型训练，并构建一食材识别MobileNet初始模型，其中，所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。

优选地，所述步骤S3还包括：

在数据库中，建立多个文件夹，每一个文件夹的名称与所述分类标签相对应；

根据每一张菜品图片中的食材信息，标注该菜品图片的分类标签，所述食材信息与所述分类标签相对应；

根据所述标注的分类标签，将所述菜品图片存储至对应的文件夹中。

优选地，所述步骤S3还包括：

若所述菜品图片中的食材信息的数量大于或者等于两种，则将所述菜品图片复制为所述食材信息的数量，并对每一份菜品图片标注对应食材信息的分类标签。

优选地，所述步骤S3还包括：

对每一个文件夹中的菜品图片进行人工清洗，若所述文件夹中的菜品图片中的食材信息不是所标注的分类标签，则删除所述菜品图片。

本发明提供一种数据集标注***，所述***包括：

模型训练模块，用于根据MobileNet神经网络，对一预设的食材训练集进行训练，构建一食材识别MobileNet初始模型；

识别模块，用于根据所述食材识别MobileNet初始模型，对多张菜品图片进行食材识别，获取每一张菜品图片中的食材信息；

分类模块，用于根据所述食材信息，对每一张菜品图片标注对应的分类标签。

优选地，所述模型训练模块包括：

训练集单元，用于根据食材名称和网络爬虫，获取一预设数量的菜品图片，对每一个菜品图片中的所有食材进行标注，将所有标注的菜品图片构建为所述食材训练集；

训练单元，用于根据MobileNet神经网络，使用所述食材训练集进行模型训练，并构建一食材识别MobileNet初始模型，其中，所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。

优选地，所述分类模块包括：

文件夹单元，用于在数据库中，建立多个文件夹，每一个文件夹的名称与所述分类标签相对应；

标注单元，用于根据每一张菜品图片中的食材信息，标注该菜品图片的分类标签，所述食材信息与所述分类标签相对应；

存储单元，用于根据所述标注的分类标签，将所述菜品图片存储至对应的文件夹中。

与现有技术相比，本发明提供的一种数据集标注方法及***，具有以下有益效果：根据MobileNet神经网络，使用少量的原始菜品图片进行模型训练，构建一食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别，通过该模型对大量的菜品图片进行初始分类，不用人工标注菜品图片的食材信息，使用模型训练和标注迭代的方法，从而减少了人工标注的数据量，与现有的人工标注方式相比，可以节省大量的人成本。提高了数据集标注的效率和准确率。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种数据集标注方法及***的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种数据集标注方法的流程图；

图2是本发明一种数据集标注***的组成结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

如图1所示，根据本发明的一个实施例，一种数据集标注方法，所述方法包括：

MobileNet是目前最流行的兼顾准确率和运算速度的神经网络，并且该模型提供了一个全局参数用来控制模型的特征数。本发明是利用MobileNet模型，对少量的菜品图片进行训练，构建一个食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的原始菜品图片进行食材识别，完成对菜品图片的分类标注，从而可以完成对大量的原始菜品图片进行数据清洗，减少人工标注菜品图片的工作量。

本发明的一具体实施例，所述食材训练集的构建包括：根据一食材名称，利用网络爬虫，获取一预设数量的菜品图片。在搜索引擎中，输入食材+菜品的关键字，利用网络爬虫，获取一预设数量的菜品图片。所述菜品图片的预设数量设置为300张。比如，在Google中，输入“青椒+菜品”的关键字，爬取有食材青椒的菜品图片300张。对每一个菜品图片中的所有食材进行标注。利用手工标注，对爬取的每一张菜品图片中的所有食材进行标注。将所有标注的菜品图片构建为所述食材训练集。将所有标注好的菜品图片构成食材训练集，并对该食材训练集进行训练。

根据MobileNet神经网络，对所述食材训练集进行训练，构建一食材识别MobileNet初始模型。本发明是使用少量的原始菜品图片进行模型训练。当训练集中的样本数据量少，神经网络模型会出现严重过拟合，从而使识别效果差。因此，在使用MobileNet模型训练时，食材识别MobileNet初始模型使用标准MobileNet模型的一半特征数来训练，以提高模型在少量数据集情况下的准确率。

具体地，根据MobileNet神经网络，对所述食材训练集中的每一张菜品图片进行特征提取。使用所述食材训练集进行模型训练，并构建一食材识别MobileNet初始模型，其中，所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半。

根据所述食材识别MobileNet初始模型，对多张菜品图片进行食材识别，获取每一张菜品图片中的食材信息，并根据所述食材信息，对每一张菜品图片标注对应的分类标签。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别，通过该模型对大量的菜品图片进行初始分类，不用人工标注菜品图片的食材信息。

本发明的一具体实施例，在数据库中，建立多个文件夹，每一个文件夹的名称与所述分类标签相对应。根据每一张菜品图片中的食材信息，标注该菜品图片的分类标签，所述食材信息与所述分类标签相对应。根据所述标注的分类标签，将所述菜品图片存储至对应的文件夹中。比如，在数据库中，建立多个文件夹。每一个文件夹的名称与分类标签相对应，比如，建立文件夹名称为青椒文件夹，文件夹名称为肉片文件夹名称。在搜索引擎中爬取100万张菜品图片，不需要使用食材+菜品的关键字进行爬取。使用食材识别MobileNet初始模型对菜品图片逐一进行食材识别，识别每一张菜品图片中的所有食材信息。菜品图片中食材信息为青椒的，标注该菜品图片的分类标签为青椒。将所有分类标签为青椒的菜品图片存储至青椒文件夹，所有分类标签为肉片的菜品图片存储至肉片文件夹。

本发明的一具体实施例，所述步骤S3还包括：若所述菜品图片中的食材信息的数量大于或者等于两种，则将所述菜品图片复制为所述食材信息的数量，并对每一份菜品图片标注对应食材信息的分类标签。比如，若识别菜品图片中有食材青椒和肉片，则将该菜品图片复制为两份，并各自标注分类标签为青椒和肉片，分类标签标注为青椒的菜品图片存储至青椒文件夹中，分类标签标注为肉片的菜品图片存储至肉片文件夹中。

本发明的一具体实施例，所述步骤S3还包括：对每一个文件夹中的菜品图片进行人工清洗，若所述文件夹中的菜品图片中的食材信息不是所标注的分类标签，则删除所述菜品图片。比如，在青椒文件中，经过人工浏览，菜品图片中没有青椒的，则删除该菜品图片。

通过该技术方案，根据MobileNet神经网络，使用少量的原始菜品图片进行模型训练，构建一食材识别MobileNet初始模型。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别，通过该模型对大量的菜品图片进行初始分类，不用人工标注菜品图片的食材信息，使用模型训练和标注迭代的方法，从而减少了人工标注的数据量，与现有的人工标注方式相比，可以节省大量的人成本。提高了数据集标注的效率和准确率。

如图2所示，本发明的一实施例，一种数据集标注***，所述***包括：

模型训练模块20，用于根据MobileNet神经网络，对一预设的食材训练集进行训练，构建一食材识别MobileNet初始模型；

识别模块21，用于根据所述食材识别MobileNet初始模型，对多张菜品图片进行食材识别，获取每一张菜品图片中的食材信息；

分类模块22，用于根据所述食材信息，对每一张菜品图片标注对应的分类标签。

所述模型训练模块根据MobileNet神经网络，对一预设的食材训练集进行训练，构建一食材识别MobileNet初始模型。具体地，所述模型训练模块包括训练集单元和训练单元。训练集单元根据一食材名称和网络爬虫，获取一预设数量的菜品图片，对每一个菜品图片中的所有食材进行标注，将所有标注的菜品图片构建为所述食材训练集。在搜索引擎中，输入食材+菜品的关键字，利用网络爬虫，获取一预设数量的菜品图片。所述菜品图片的预设数量设置为300张。利用标注软件或者手工标注，对爬取的每一张菜品图片中的所有食材进行标注。将所有标注的菜品图片构建为所述食材训练集。所述训练单元根据MobileNet神经网络，使用所述食材训练集进行模型训练，并构建一食材识别MobileNet初始模型，其中，所述食材识别MobileNet初始模型的每一层特征数量为标准MobileNet模型的每一层特征数量的一半，以提高模型在少量数据集情况下的准确率。

识别模块根据所述食材识别MobileNet初始模型，对多张菜品图片进行食材识别，获取每一张菜品图片中的食材信息。使用食材识别MobileNet初始模型对大量的菜品图片进行食材识别，通过该模型对大量的菜品图片进行初始分类，不用人工标注菜品图片的食材信息。

分类模块根据所述食材信息，对每一张菜品图片标注对应的分类标签。具体地，所述分类模块包括文件夹单元、标注单元和存储单元。所述文件夹单元在数据库中，建立多个文件夹，每一个文件夹的名称与所述分类标签相对应。比如，建立文件夹名称为青椒文件夹，文件夹名称为肉片文件夹名称。所述标注单元根据每一张菜品图片中的食材信息，标注该菜品图片的分类标签，所述食材信息与所述分类标签相对应。比如，菜品图片中食材信息为青椒的，标注该菜品图片的分类标签为青椒。所述存储单元根据所述标注的分类标签，将所述菜品图片存储至对应的文件夹中。比如，将分类标签为青椒的菜品图片存储至青椒文件夹，分类标签为肉片的菜品图片存储至肉片文件夹。若所述菜品图片中的食材信息的数量大于或者等于两种，则将所述菜品图片复制为所述食材信息的数量，并对每一份菜品图片标注对应食材信息的分类标签。

综上所述，本发明实现了提高了数据集标注的效率和准确率。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据集标注方法，其特征在于，所述方法包括：

2.如权利要求1所述的数据集标注方法，其特征在于，所述食材训练集的构建包括：

对每一个菜品图片中的所有食材进行人工标注；

将所有标注的菜品图片构建为所述食材训练集。

3.如权利要求2所述的数据集标注方法，其特征在于，所述菜品图片的预设数量设置为300张。

4.如权利要求3所述的数据集标注方法，其特征在于，所述步骤S1还包括：

5.如权利要求1所述的数据集标注方法，其特征在于，所述步骤S3还包括：

6.如权利要求5所述的数据集标注方法，其特征在于，所述步骤S3还包括：

7.如权利要求6所述的数据集标注方法，其特征在于，所述步骤S3还包括：

8.一种数据集标注***，其特征在于，所述***包括：

9.如权利要求8所述的数据集标注***，其特征在于，所述模型训练模块包括：

训练集单元，用于根据一食材名称和网络爬虫，获取一预设数量的菜品图片，对每一个菜品图片中的所有食材进行人工标注，将所有标注的菜品图片构建为所述食材训练集；

10.如权利要求9所述的数据集标注***，其特征在于，所述分类模块包括：