CN110334593A

CN110334593A - 宠物脸部识别方法及***

Info

Publication number: CN110334593A
Application number: CN201910449924.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhejiang Zexi Technology Co Ltd
Current assignee: Zhejiang Zexi Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-10-15

Abstract

本发明提供了一种宠物脸部识别方法及***，包括以下步骤：S1.由APP端获取图片，并判断所述图片中是否存在宠物脸部，若存在，则执行步骤S2；S2.将所述图片上传给服务器，由服务器对所述图片中的宠物进行脸部识别并向APP端返回识别结果；在在步骤S1中，通过判断模型判断所述图片中是否存在宠物脸部，判断模型采用mobile_net_v2网络模型，在服务器端训练所述mobile_net_v2网络模型，并将训练后的mobile_net_v2网络模型转换为tflite文件作为APP端的离线文件。本发明将图片中有无目标的步骤在APP端进行，减轻服务器端负载压力，提高识别效率，并且使用mobile_net_v2网络模型作为判断模型，网络规模较小，最终模型文件体量小，对APP几乎没有影响。

Description

宠物脸部识别方法及***

技术领域

本发明属于AI技术领域，尤其涉及一种宠物脸部识别方法及***。

背景技术

随着城市人口生活水平不断提高，许多城市居民开始饲养宠物，但是日常生活里不断听到宠物丢失的消息，以及街上随处可见的寻宠启示。宠物丢失给宠物主人带来巨大的打击，宠物主人会花费大量的时间和精力去寻找宠物，最终找到宠物的几率微乎其微；丢失的宠物很可能沦为路边的流浪狗，对市民的安居、交通、卫生、人身安全构成威胁。

为了解决上述技术问题，人们进行了的长期的探索，例如中国专利公开了一种基于狗脸图像识别技术的寻狗***及方法[申请号：CN201810499850.9]，包括移动终端、服务器和数据库，移动终端包括Lost模块、Found模块和Adop模块，Lost模块用于发布寻狗启示，Found模块用于验证流浪狗，Adopt模块用于发布领养启示用户交互界面；服务器用来响应用户请求完成各个功能，实现对数据库的操作以及宠物脸部图像识别；数据库存放发布启示里狗的信息。

上述专利方案通过宠物脸部识别技术实现网上寻狗，提高丢失狗狗的找回概率，但是上述方案存在一定的缺陷，例如，上述方案在进行狗脸识别的过程中中是直接将获取到视频、图片上传至服务器，由存储在服务器中的深度学习模型进行狗脸识别，但是用户的操作本质上讲是随机行为，会产生很大比例的无效数据，服务器端会接收到很多没有宠物脸部的图片，这类图片是没有意义的无效图片，而上述方案将这类无意义图片一致上传至服务器端，增加了服务器的负载，使得服务器识别效率大大降低。

发明内容

本发明的目的是针对上述问题，提供一种便于宠物管理的宠物脸部识别方法；

本发明的目的是针对上述问题，提供一种基于上述方法的***。

为达到上述目的，本发明提出了一种宠物脸部识别方法，包括以下步骤

S1.由APP端获取图片，并判断所述图片中是否存在宠物脸部，若存在，则执行步骤S2；

S2.将所述图片上传给服务器，由服务器对所述图片中的宠物进行脸部识别并向APP端返回识别结果。

在上述的宠物脸部识别方法中，在步骤S1中，通过判断模型判断所述图片中是否存在宠物脸部。

在上述的宠物脸部识别方法中，所述判断模型采用mobile_net_v2网络模型，在服务器端训练所述mobile_net_v2网络模型，并将训练后的mobile_net_v2网络模型转换为tflite文件作为APP端的离线文件。

在上述的宠物脸部识别方法中，步骤S2具体包括：

S21.将所述图片上传给服务器；

S22.调用识别模型，提取所述图片中的特征向量，并基于所述特征向量查找数据库中是否存在相应的注册ID，若存在，则返回所述注册ID，否则返回查找失败。

在上述的宠物脸部识别方法中，步骤S2还包括：

S23.在步骤S22查找失败后或直接调取分类模型；

S24.由所述分类模型判断图片中宠物的可能性品种及相应的可能性概率值，当最大的可能性概率值高于第一概率阈值时，向APP端返回最大可能性概率值对应的品种名称，当最大的可能性概率值小于第一概率阈值且大于第二概率阈值时，向APP端返回可能性概率值前三位对应的品种名称，否则返回识别失败。

在上述的宠物脸部识别方法中，在步骤S22具体包括：

S221.将所述图片缩放到预设大小以获得缩放图片，并通过识别模型提取所述缩放图片512维的特征向量；

S222.使用余弦距离或欧式距离将所述特征向量与数据库中相应的特征向量进行距离计算；

S223.判断最小距离是否小于第一距离阈值，若是，则输出对应的注册ID。

在上述的宠物脸部识别方法中，在步骤S223之后还包括：

S224.当最小距离大于第一距离阈值时，判断最小距离是否小于第二距离阈值，若是，判断最小距离对应的注册ID与第二小距离对应的注册ID是否为同一个，若是，则输出所述注册ID，否则执行步骤S245；

S225.判断最小距离是否小于第三距离阈值，若是，判断最小距离对应的注册ID与第二小、第三小距离对应的注册ID是否为同一个，若是，则输出所述注册ID，否则执行步骤S245；

S226.判断最小距离是否小于第四距离阈值，若是，判断最小距离对应的注册ID与第二小、第三小和第四小距离对应的注册ID是否为同一个，若是，则输出所述注册ID，否则执行步骤S23。

在上述的宠物脸部识别方法中，在步骤S221中，提取特征向量之前还包括：通过矫正模型对所述图片中的宠物脸部进行脸部矫正。

在上述的宠物脸部识别方法中，所述矫正模型采用MTCNN网络模型，且所述MTCNN网络模型通过定位宠物脸部包括左耳朵、右耳朵、左眼睛、右眼睛、鼻子、额头在内的6个mark点对宠物脸部进行脸部矫正。

一种宠物脸部识别***，包括服务器和客户端，所述服务器包括数据库、矫正模块、分类模块和识别模块，所述客户端包括判断模块，其中

判断模块，用于判断获取到的图片中是否存在宠物脸部；

数据库，用于存储注册宠物的注册ID及其身份信息；

矫正模块，用于对图片中的宠物脸部进行脸部矫正；

识别模块，用于判断所述图片中的宠物是否已经过注册，并在判断为经过注册之后向客户端返回相应的注册ID；

分类模块，用于判断所述图片中的宠物所属的宠物品种类别。

与现有的技术相比，本发明具有以下优点：1、将图片中有无目标(即宠物脸部)的步骤在APP端进行，减轻服务器端负载压力，提高识别效率；2、使用mobile_net_v2网络模型作为判断模型，网络规模较小，最终模型文件体量小，对APP几乎没有影响；3、在进行特征提取之前先对脸部进行矫正处理，相较于直接定位得到的狗脸图片，提升了最终的识别准确率。

附图说明

图1是本发明实施例一中注册功能的流程示意图；

图2是本发明实施例一中mobile_net_v2网络模型结构图

图3是本发明实施例一中宠物脸部识别的方法流程图；

图4是本发明实施例一中分类功能的流程示意图；

图5是本发明实施例一中身份识别功能的流程示意图；

图6是本发明实施例一中MTCNN网络模型的子网络组成结构图；

图7是本发明实施例一分类过程的方法流程图；

图8是本发明实施例二中宠物脸部识别的***结构图。

附图标记，服务器1；数据库11；矫正模块12；分类模块13；识别模块14；检测模块15；客户端2；判断模块21。

具体实施方式

实施例一

近年来随着深度学习技术的发展，图像识别准确率显著提高，例如人脸识别的准确率高达99.8％。基于深度学习的图像识别技术能自动完成特征抽取与分类任务，具有使用简单、易于工业化、识别准确率高等优点，为宠物脸部图像识别奠定夯实的基础。本实施例采用现有技术的深度学习技术提出一种宠物脸部识别方法。

本实施例主要包括服务器端和APP端(客户端)两部分，用户可以通过将APP安装在移动终端上进行宠物脸部识别，并且在APP端进行图片中是否有宠物的判断，只有图片中宠物的时候才会将图片上传至服务器，减轻服务器负载。

宠物脸部识别过程主要包括宠物分类和宠物身份识别两部分，且本实施例的宠物主要针对犬类宠物。宠物分类用于对用户上传图片中的宠物犬进行品种识别，宠物犬身份识别主要针对在本***中注册过的宠物犬，所以在进行宠物犬身份识别之前需要对宠物犬进行注册。

如图1所示，本实施例的注册方法由服务器端执行，且包括以下步骤：

A.接收用户输入的短视频和注册信息，使用opencv(Open Source ComputerVision Library，计算机视觉库)对该短视频进行切帧处理并转换到RGB颜色空间，以获得多张视频帧；注册信息包括一些基本信息，例如犬的年龄、脾气、犬主人联系方式等。

B1.这里当总的视频帧数量不满足视频帧数要求时，直接返回注册失败，若满足视频帧数要求，则使用检测模型依次对视频帧进行检测，且满足要求以11张为标准，并将检测概率大于检测阈值的所有视频帧中的宠物犬脸部裁剪出来；B2.将经过步骤B1裁剪的视频帧缩放到预设大小，优选160x160以获得宠物脸部视频帧，并将所有缩放后的宠物脸部视频帧放入到列表中；检测阈值可以为60％，这时将视频帧中存在宠物脸部概率高于60％的视频帧裁剪出来。

C1.选取若干张宠物犬脸部视频帧，这里优选11张，使用识别模型提取11张宠物犬脸部视频帧512维的特征向量，然后使用欧式距离判断是否重复注册，若是，则找到已有的注册ID，并将若干张宠物犬脸部视频帧的特征向量更新至注册ID，随后返回更新成功消息，否则认为是新注册的狗，并执行步骤C2；C2.判断宠物犬脸部视频帧数量是否超过数量阈值，若是，则执行步骤C3，否则，返回注册失败；C3.生成注册ID，继续提取剩余宠物犬脸部视频帧512维的特征向量，并将所有特征向量、注册信息与注册ID相绑定后存入数据库中。与注册ID绑定的信息除了相应的特征向量外，还包括狗狗的其他信息，例如狗狗的名字、品种，犬主人的姓名、电话等基本信息以便于狗狗丢失找回和便于养犬管理工作人员的管理工作。

通过步骤C2视频帧数量的判断步骤保证注册新狗的宠物脸部图片足够多，从而保证后期查找准确率。这里的的数量阈值可以由工程人员依据实际情况自行确定，例如25张宠物脸部视频帧就能保证后期准确率，那么这里的数量阈值就可以为25。

本实施例对检测模型的训练用到的是TensorFlow官方的object detection模块，使用迁移学习方法，其中包含各种经典的检测网络和预训练模型，这里下载使用的是ssd_inception_v2_coco，即基础网络为inception_v2的ssd网络在coco数据集上预训练好的检测模型。

这里这里将VGG-16基础网络更改为inception_v2网络。inception_v2网络的主要改进在于使用Batch Normalization批归一化，以及将5x5的卷积修改为两个3x3的卷积。SSD是增强版的RPN网络，将一个尺度的特征图上预测提升为多个尺度的特征图上同时预测。

训练检测模型的训练环境是GeForce GTX 1080Ti，cuda9.0,cudnn-7,tensorflow-gpu-1.10.0。

通过对宠物犬进行身份注册方式有助于管理人员的养犬管理工作。例如，行政部门可以要求每个养犬用户通过上传符合要求的短视频以在本平台中对狗狗进行唯一ID的身份注册来进行养犬登记，也可以通过注册方式来颁发养犬许可证，这样，每一只宠物犬就都能够有自己相应的身份ID。当发现流浪宠物犬/放养宠物犬时，管理人员可以通过对流浪/放养宠物犬进行拍摄/扫描查找该犬信息，如果该犬是经过身份注册的狗狗，管理人员就能够通过本***查找狗狗及其主人信息，大大方便了管理人员的管理工作。

生成一个唯一的ID，当宠物丢失，宠物被遗弃或被遗弃宠物伤人时，可以找到相关责任人；减轻相关管理人员的管理任务，同时提高管理效率，使城市宠物饲养更加文明有序。

进一步地，用户在使用本***进行查找的时候，使用安装APP客户端的移动终端上传已有或当场拍摄图片，APP端获取该图片，且本实施例直接在APP端嵌入用于判断图片中是否存在宠物犬脸部的判断模型。通过在APP端嵌设判断模型，在APP端识别图片中是否有狗，当判断结果为有狗概率大于80％的时候就认为图片中存在狗，有狗的图片才会上传至服务端进行进一步身份识别或品种识别，大大提高了识别的效率，有效降低了服务器的负载。

具体地，如图2所示，本实施例的判断模型的深度学习算法采用Google开源的mobile_net_v2网络，在服务器端训练mobile_net_v2网络模型，并将训练后的mobile_net_v2网络模型转换为tflite文件作为APP端的离线文件，直接在APP端实现离线检测图片中是否有狗，显著提高了判断效率。该mobile_net_v2网络模型主要有两个创新点：Invertedresiduals和Linear bottlenecks,使得网络规模显著降低的前提下人能满足一定的准确率，最终的模型文件仅有4.2M大小，对APP的体量影响很小。对mobile_net_v2网络模型的训练使用的数据集可以采用kaggle比赛中使用的猫狗数据集，该数据集包含12500张狗的图片和12500张猫的图片，该数据狗的品种也比较全面，本领域技术人员应当知道，训练集数量和品种越多，训练后的网络模型越具有强大的识别能力，所以使用狗狗品种较为全面的大量数据集，能够使训练后的mobile_net_v2网络模型具有较高的判断能力。

如图3所示，当APP端判断结果为图片中存在宠物脸部时，将该图片上传至服务器进行进一步处理：

S1.将所述图片输入至矫正模型，通过矫正模型对所述图片中的宠物脸部进行脸部矫正；

S2.将宠物脸部矫正后的图片输入至识别模型，提取所述图片中的特征向量，并基于所述特征向量查找数据库中是否存在相应的注册ID，若存在，则返回所述注册ID，否则查找失败或执行步骤S3；

S3.在步骤S2查找失败后或直接根据上传图片调取分类模型；

S4.由所述分类模型判断图片中宠物的可能性品种及相应的可能性概率值。

需要说明的是，身份识别与宠物分类功能可以一起进行也可以单独进行，具体根据本实施例的具体设置或用户选择确定。一起进行时，对一张图片先进行身份识别，若识别到已注册，则返回注册ID，否则进行分类判断；如图4和图5所示，单独进行时，若使用身份识别功能，则对图片进行身份识别，若识别到已注册，则返回注册ID，否则返回注册失败；若使用分类功能对图片，则直接对图片中的宠物进行品种识别。

进一步地，在步骤S1中，矫正模型采用MTCNN网络模型，且MTCNN网络模型通过定位宠物脸部包括左耳朵、右耳朵、左眼睛、右眼睛、鼻子、额头在内的6个mark点对宠物脸部进行脸部矫正。狗狗品种繁多，且脸部大面积都是毛发，传统的办法很难找到稳定的特征点，本实施例通过采用MTCNN网络模型来矫正狗脸。

如图6所示，MTCNN网络模型由三个网络结构组成：P-Net、O-Net、R-Net：

Proposal Network(P-Net)：该网络结构主要用于获得狗脸区域的候选窗口和边界框的回归向量。并用该边界框做回归，对候选窗口进行校准，然后通过非极大值抑制(NMS)来合并高度重叠的候选框；

Refine Network(R-Net)：该网络结构还是通过边界框回归和NMS来去掉那些false-positive区域；

Output Network(O-Net)：该层比R-Net层又多了一层卷基层，所以处理的结果会更加精细，作用和R-Net层作用一样，但是该层对狗脸区域进行了更多的监督，同时还会输出左耳朵、右耳朵、左眼睛、右眼睛、鼻子、额头这6个mark点。

MTCNN网络模型的训练数据采用斯坦福大学各种狗品种经过mark点标注后的数据集。

经MTCNN网络矫正后的狗脸相较于直接定位图片中的狗脸，准确率有了显著提升，大大提高了后续狗脸识别的准确率。

进一步地，步骤S2具体包括：

S21.将所述图片缩放到预设大小以获得缩放图片，这里的预设大小可以为160x160，并通过识别模型提取所述缩放图片512维的特征向量；

S22.使用余弦距离或欧式距离将所述特征向量与数据库中相应的特征向量进行距离计算，按照距离从小到大排列，对应的也排列相应的注册ID；

S23.判断最小距离是否小于第一距离阈值，若是，则输出对应的注册ID；

需要说明的是，由于最小距离大于第一距离阈值的时候并不能完全判定图片中的狗是没有注册的狗，为了提高判断的准确性，本实施例在步骤S23之后还包括：

S24.当最小距离大于第一距离阈值时，判断最小距离是否小于第二距离阈值，若是，判断最小距离对应的注册ID与第二小距离对应的注册ID是否为同一个，若是，则输出所述注册ID，否则执行步骤S25；

S25.判断最小距离是否小于第三距离阈值，若是，判断最小距离对应的注册ID与第二小、第三小距离对应的注册ID是否为同一个，若是，则输出所述注册ID，否则执行步骤S245；

S26.判断最小距离是否小于第四距离阈值，若是，判断最小距离对应的注册ID与第二小、第三小和第四小距离对应的注册ID是否为同一个，若是，则输出所述注册ID，否则执行步骤S3。

通过前述多个距离、多个阈值的判断方式，提高判断的准确性。

这里识别模型使用的是facenet网络模型，先将狗脸输入facenet网络，生成一个512维的特征向量，该向量即为当前狗脸的特征向量，然后与数据库中的狗脸特征向量逐一计算距离(这里采用的是欧式距离)，对距离进行排序，如果最小距离小于某一阈值，即认为该当前狗和该距离对应的狗是同一只狗，以此方式还能找到很多与当前狗相似的狗。

FaceNet的核心思想是让同类的距离尽可能近，不同类间的距离尽可能远，与传统分类模型相比最大的创新点在于损失函数，采用的三元损失函数，该损失函数在训练时需要三个输入狗脸图片，为保证训练收敛速度，选择距离最远的相同狗脸，和距离最近的不同狗脸来训练。

另外，识别模型的训练环境也可以是GeForce GTX 1080Ti，cuda9.0,cudnn-7,tensorflow-gpu-1.10.0。

如图7所示，步骤S4具体包括：

S41.将图片进行预处理，预处理过程包括将图片缩放到299x299，然后扩张维度到4维，使用normalization归一化处理，并调用分类模型和品种名称，通过分类模型获得图片中宠物的可能性品种及相应的可能性概率值；

S42.当最大的可能性概率值高于第一概率阈值时，向APP端返回最大可能性概率值对应的品种名称，当最大的可能性概率值小于第一概率阈值且大于第二概率阈值时，向APP端返回可能性概率值前三位对应的品种名称，否则返回识别失败。

当然，第一概率阈值大于第二概率阈值，例如，第一概率阈值为90％，第二概率阈值为70％，若本模型对对一张图片中宠物脸部的判断结果为萨摩耶犬75％，泰迪80％，金毛96％，96％>90％,那么向APP端返回金毛，可以同时输出其概率，例如输出结果为“金毛，96％”；若本模型对一张图片中宠物脸部的判断结果为萨摩耶犬75％，泰迪80％，金毛88％，藏獒50％，那么向APP端返回概率值在前三的品种，输出结果为“金毛88％，泰迪80％，萨摩耶犬75％”。另外，当最大的可能性概率值小于第一概率阈值且大于第二概率阈值时，且在第一概率阈值和第二概率阈值之间只有少于3个品种的时候，返回全部位于第一概率阈值和第二概率阈值之间的品种。

本实施例的分类模型应用的是tensorflow源码中提供的Inception_resnet_v2网络，采用迁移学习的办法，使用该网络在Imagenet上预训练好的模型进行训练。由于狗品种比较多(我们采用的AKC标准有149种狗)，采用Inception_resnet_v2模型和迁移学习的方式，大大提高了识别的准确率。

分类模型的训练环境是GeForce GTX 1080Ti，cuda9.0,cudnn-7,tensorflow-gpu-1.10.0。

在进入训练之前先对数据集进行预处理，将斯坦福数据集和kaggle数据集的英文名翻译为中文名，数据清理，将是别名但是同种狗的数据集合并。将所有视频切成帧，然后人为筛选，将切出的帧放到相应狗狗品种的文件夹中。

需要说明的是，这里的宠物可以为犬科宠物，猫科宠物等等。本实施例可以专门针对一类宠物，例如犬类，也可以集合各种宠物。

虽然本实施例用于训练各模型的训练集使用的是斯塔福大学的120个分类的狗狗数据集、kaggle比赛中提供的数据集和关于狗狗的几百个视频，但是在实际投入使用中，并不限定前述训练集，也不限定最终有多少品种，本领域技术人员可以选用其他训练集对各模型进行训练。

实施例二

如图8所示，本发明提供的另一实施例是一种宠物脸部识别***，包括服务器1和客户端2，服务器1包括数据库11、矫正模块12、分类模块13和识别模块14，客户端2包括判断模块21，其中，

判断模块21，用于判断获取到的图片中是否存在宠物脸部，只有在判断为存在宠物脸部的时候，客户端2才将该图片上传至服务器1进行进一步识别检测；

数据库11，用于存储注册宠物的注册ID及其身份信息等；

矫正模块12，用于对图片中的宠物脸部进行脸部矫正；

识别模块14，用于判断所述图片中的宠物是否已经过注册，并在判断为经过注册之后向客户端返回相应的注册ID；

分类模块13，用于判断所述图片中的宠物所属的宠物品种。

进一步地，服务器1还包括检测模块15，用于对用户上传的视频进行检测并裁剪符合要求的视频帧以对视频中的宠物进行注册或者信息更新；识别模块14还用于根据视频帧判断视频中宠物是否经过注册，若经过注册，则对相应的注册ID进行更新，否则在视频帧数量满足要求的前提下为视频中的宠物注册新的ID。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了服务器1；数据库11；矫正模块12；分类模块13；识别模块14；检测模块15；客户端2；判断模块21等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种宠物脸部识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的宠物脸部识别方法，其特征在于，在步骤S1中，通过判断模型判断所述图片中是否存在宠物脸部。

3.权利要求2所述的宠物脸部识别方法，其特征在于，所述判断模型采用mobile_net_v2网络模型，在服务器端训练所述mobile_net_v2网络模型，并将训练后的mobile_net_v2网络模型转换为tflite文件作为APP端的离线文件。

4.权利要求1-3任意一项所述的宠物脸部识别方法，其特征在于，步骤S2具体包括：

S21.将所述图片上传给服务器；

5.权利要求4所述的宠物脸部识别方法，其特征在于，步骤S2还包括：

S23.在步骤S22查找失败后或直接调取分类模型；

6.根据权利要求5所述的宠物脸部识别方法，其特征在于，在步骤S22具体包括：

7.根据权利要求6所述的宠物脸部识别方法，其特征在于，在步骤S223之后还包括：

8.根据权利要求6所述的宠物脸部识别方法，其特征在于，在步骤S221中，提取特征向量之前还包括：通过矫正模型对所述图片中的宠物脸部进行脸部矫正。

9.根据权利要求8所述的宠物脸部识别方法，其特征在于，所述矫正模型采用MTCNN网络模型，且所述MTCNN网络模型通过定位宠物脸部包括左耳朵、右耳朵、左眼睛、右眼睛、鼻子、额头在内的6个mark点对宠物脸部进行脸部矫正。

10.一种宠物脸部识别***，其特征在于，包括服务器和客户端，所述服务器包括数据库、矫正模块、分类模块和识别模块，所述客户端包括判断模块，其中

判断模块，用于判断获取到的图片中是否存在宠物脸部；

数据库，用于存储注册宠物的注册ID及其身份信息；

矫正模块，用于对图片中的宠物脸部进行脸部矫正；