CN110246180A

CN110246180A - 一种基于深度学习的教师位置检测方法及***

Info

Publication number: CN110246180A
Application number: CN201910414224.XA
Authority: CN
Inventors: 吴丽; 翁温民
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Fuzhou Rockchip Electronics Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-17

Abstract

本发明涉及图像处理领域，特别涉及一种基于深度学习的教师位置检测方法及***。所述一种基于深度学习的教师位置检测方法，包括步骤：采集图像数据，并对所述图像数据进行预处理；构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。通过该方法，可准确定位教师的位置，及时作出对应的录播策略调整。且可更准确更及时地给出教师特写。

Description

一种基于深度学习的教师位置检测方法及***

技术领域

本发明涉及图像处理领域，特别涉及一种基于深度学习的教师位置检测方法及***。

背景技术

随着网络课程与网络资源的流行，越来越多老师的授课过程会被通过录播主机录制下来，目前录播主机对于教师检测的做法大多是通过人脸检测,检测到教师人脸，再确定相对位置，这样的做法首先不能确定教师全身位置，其次在教师转身写板书、讲解课件以及看书讲解时容易跟丢目标，影响录播效果。

发明内容

为此，需要提供一种基于深度学习的教师位置检测方法，用以解决现有教师位置检测方法容易跟丢目标的问题，具体技术方案如下：

一种基于深度学习的教师位置检测方法，包括步骤：采集图像数据，并对所述图像数据进行预处理；构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。

进一步的，所述“采集图像数据，并对所述图像数据进行预处理”，包括步骤：采集教师图像数据，并通过OpenCV对图像进行预处理。

进一步的，所述“构建神经网络，对所述神经网络进行训练”，还包括步骤：通过TensorFlow-Lite构建神经网络；设置所述神经网络初始化训练参数，输入预处理后的图像数据至神经网络，并根据误差反向传播算法对所述神经网络进行训练。

进一步的，所述“对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整”，还包括步骤：输入新的预处理后的图像数据至训练后的神经网络模型，获取输出数据，所述输出数据包括：类别和置信度；判断是否同时有教师类别输出且置信度超过预设阈值，若有教师类别输出且置信度超过预设阈值，则结束测试；若无教师类别输出或置信小于预设阈值，则调整神经网络初始化训练参数，并重新对训练后的神经网络模型进行测试。

进一步的，所述“并根据所述输出数据调整录播策略”，还包括步骤：所述输出数据包括：教师位置信息；根据所述教师位置信息判断教师全景画面中是否存在教师，若教师全景画面中存在教师，则显示教师特写。

为解决上述技术问题，还提供了一种基于深度学习的教师位置检测***，具体技术方案如下：

一种基于深度学习的教师位置检测***，包括：神经网络模型训练模块和录播策略调整模块；所述神经网络模型训练模块用于：采集图像数据，并对所述图像数据进行预处理；构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；所述录播策略调整模块用于：输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。

进一步的，所述神经网络模型训练模块还用于：采集教师图像数据，并通过OpenCV对图像进行预处理。

进一步的，所述神经网络模型训练模块还用于：通过TensorFlow-Lite构建神经网络；设置所述神经网络初始化训练参数，输入预处理后的图像数据至神经网络，并根据误差反向传播算法对所述神经网络进行训练。

进一步的，所述神经网络模型训练模块还用于：输入新的预处理后的图像数据至训练后的神经网络模型，获取输出数据，所述输出数据包括：类别和置信度；判断是否同时有教师类别输出且置信度超过预设阈值，若有教师类别输出且置信度超过预设阈值，则结束测试；若无教师类别输出或置信小于预设阈值，则调整神经网络初始化训练参数，并重新对训练后的神经网络模型进行测试。

进一步的，所述录播策略调整模块还用于：所述输出数据包括：教师位置信息；根据所述教师位置信息判断教师全景画面中是否存在教师，若教师全景画面中存在教师，则显示教师特写。

本发明的有益效果是：通过构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；用调整后的神经网络模型来对输入的图像数据进行处理，获取教师位置信息，通过该方法，可准确定位教师的位置，及时作出对应的录播策略调整。且可更准确更及时地给出教师特写。

附图说明

图1为具体实施方式所述一种基于深度学习的教师位置检测方法的流程图；

图2为具体实施方式所述N区域和M区域重合的面积占N区域加上M区域的面积减去N区域和M区域重合的面积的比例的比例示意图；

图3为具体实施方式所述录播界面示意图；

图4为具体实施方式所述一种基于深度学习的教师位置检测***的模块示意图。

附图标记说明：

400、基于深度学习的教师位置检测***；

401、神经网络模型训练模块；

402、录播策略调整模块。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1至图3，在本实施方式中，一种基于深度学习的教师位置检测方法可应用在一种基于深度学习的教师位置检测***，所述基于深度学习的教师位置检测***包括：神经网络模型训练模块和录播策略调整模块，其中神经网络模型训练模块可以为任意可得到最后收敛后的神经网络模型的存储设备，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备等，在本实施方式中，所述录播策略调整模块可以为录播主机。以下对一种基于深度学习的教师位置检测方法的具体实施方式展开说明：

步骤S101：采集图像数据，并对所述图像数据进行预处理。

步骤S102：构建神经网络，对所述神经网络进行训练。

步骤S103：对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整。

步骤S104：输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。

以下对上述四个步骤具体展开说明：

步骤S101还包括步骤：采集教师图像数据，并通过OpenCV对图像进行预处理。具体可采用如下方式：

在本实施方式中，采集大量的教师图像，且运用OpenCV对图像左右逐渐旋转90°，并保存旋转后的数据集以扩大数据集并扩大后续模型识别范围，然后再将图像大小调整为像素大小300x300的三通道的RGB格式图，再进行ROI标注教师所在区域，记录标注区域中心点(x,y)以及宽高(w,h)值坐标，把该区域记作N区域，并记录标注区域label为教师，未标注区域label为背景。

在本实施方式中，图像库中对于教师图像数据的采集应尽量的全面，最好包括教师(这里的教师并非是固定的人群，可以广泛搜集)的不同性别、年龄、全身照、半身照、单独头像、姿势、样貌特征等(正脸、侧脸、背面、坐、站、低头、板书、非板书、不同身材等)，如此采集的原因是库越全面越准确可以使得最终的分析结果越准确。

采集好图像数据并对其预处理好后，执行步骤S102，在本实施方式中，步骤S102还包括步骤：通过TensorFlow-Lite构建神经网络；设置所述神经网络初始化训练参数，输入预处理后的图像数据至神经网络，并根据误差反向传播算法对所述神经网络进行训练。具体可采用如下方式：

通过TensorFlow-Lite构建mobilenet v1(轻量级的深层神经网络)并去掉最后全局平均池化层、全连接层、softmax层，再后接生成17x17、9x9、5x5、3x3、2x2、1x1特征图的卷积层以及激活层(relu)，对应特征图中每个点分别设置3、4、4、6、5、4个默认框(默认框个数以及特征图大小可根据教师位置与摄像头相对位置远近设计，原则上是大特征图检测小目标，小特征图检测大目标：说明，大的特征图上特征点更多，比如17x17的特征图，每个特征图就是17x17个点，每个特征点的大小就是(原图的大小)/(17x17)，如果是小特征图，比如3x3那每个点的大小是(原图大小)/(3x3))，特征图对应默认框面积范围(min_area，max_area)，步进值step，宽高比aspect_ratio(如表1)，设计数值i取值范围为[0,num_box-1]，那么h_box＝sqrt((min_area+i*step)/aspect_ratio[i])，w_box＝aspect_ratio[i]*h_box，当(w*h)>max_area时，max_area代替min_area+i*step即(min_area+i*step)＝max_area，重新计算w_box，h_box。记录每个特征点中心点和宽高坐标(w_box,h_box，x_box,y_box)，每个特征图中的每个特征点有num_box个坐标。如17x17特征图中，每个特征点有3个坐标(w_box,h_box,x_box,y_box)即3个默认框，又因为有17x17个特征点，那么就有17x17x3个默认框，把默认框的区域记作M区域。(多个不同大小的特征图以及多个不同大小默认框的设计，是为了对教师在画面中前后左右走动时，产生不同特征大小更好的进行匹配)

表1

	min_area	max_area	step	num_box	aspect_ratio
						17x17	26	56	10	3	(1/2,1,2)
9x9	56	108	13	4	(1/2,1/4,3/2,2)
						5x5	108	160	13	4	(1/2,1/4,3/2,2)
3x3	160	208	8	6	(1/2,1/3,1/4,1,3/2,2)
						2x2	208	263	11	5	(1/2,1/3,1,3/2,2)
1x1	263	300	9	4	(1/2,1/4,3/2,2)

构建好神经网络后，设置所述神经网络初始化训练参数如下：

设置训练初始learning rate(学习率)为0.001，mini-batch(每次调整参数前所选取的样本)值为32，iterations(迭代次数)为300000，epoch(神经网络的一轮更新)为50，这些参数可根据数据集大小进行调整，(需要说明的是这里给出的是本次实施方式中收集的数据集所得出的经验值，在其它实施方式中可根据实际收集到的数据集给出不同的经验值)，计算Q＝N∩M/(N+M-N∩M)，Q表示N区域和M区域重合的面积占N区域加上M区域的面积减去N区域和M区域重合的面积的比例(如图2)，Q>＝0.53作为正样本，Q<0.53作为负样本(当负样本数量>3.2倍正样本，根据softmax输出的概率值进行排序，丢弃小概率负样本，保证负样本为正样本3.2倍左右)，将分类好的正负样本图像数据输入上述构建好的神经网络进行训练，根据BP算法(误差反向传播算法)计算，最终得到一个训练好的神经网络模型。

当一轮训练结束后，执行步骤S103，在本实施方式中，步骤S103还包括步骤：输入新的预处理后的图像数据至训练后的神经网络模型，获取输出数据，所述输出数据包括：类别和置信度；判断是否同时有教师类别输出且置信度超过预设阈值，若有教师类别输出且置信度超过预设阈值，则结束测试；若无教师类别输出或置信小于预设阈值，则调整神经网络初始化训练参数，并重新对训练后的神经网络模型进行测试。具体可采用如下方式：

当一轮训练结束后，输入多张新的图像进行测试，分析输出数据，若无教师类别输出，或有教师类输出，但置信度没有大于0.83的值(该值为经验值，可以根据实际应用场景需要的准确率进行调整)，则调整神经网络初始化训练参数，新一轮的训练，直到输出是教师类别同时置信度有超过0.83为止。若有教师类别输出且置信度超过预设阈值，则结束测试。

训练并测试好神经网络模型后，即得到最终收敛的神经网络模型后，执行步骤S104，在本实施方式中，步骤S104还包括步骤：所述输出数据包括：教师位置信息；根据所述教师位置信息判断教师全景画面中是否存在教师，若教师全景画面中存在教师，则显示教师特写。

故在本实施方式中，录播界面包括摄像头直接采集的全景画面和通过该上述方法找到的教师所在全景图像中的位置的局部放大的特写界面组成(如图3所示)。

通过构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；用调整后的神经网络模型来对输入的图像数据进行处理，获取教师位置信息，通过该方法，可准确定位教师的位置，及时作出对应的录播策略调整。且可更准确更及时地给出教师特写。

以下列举实际应用过程中的一个实施例：

1、上课过程中，将摄像头实时采集到的图像经过resize(resize是为了匹配神经网络模型输入)为像素300x300的三通道的RGB图像；

2、将resize后图像送入训练好的神经网络，输出类别、置信度、位置信息数据；

3、对输出类别进行判定，过滤背景类别，确定输出类别为教师，在筛选出类别为教师的前提下，根据NMS算法(将所有预测框得分进行排序，选中概率最高的对应框，遍历其余框，计算IOU(重叠面积)值，大于阀值0.56则删除，该阀值可以根据图像密集度选择适应值，从未处理框中，继续选择得分最高的框，重复该过程)，继续筛选置最优框，则把位置信息坐标发送给录播主机控制端；

4、重复1、2、3过程；

5、若实际应用中在教师全景画面中没有发现教师，导播界面不会打开教师特写功能，只有在教师全景(通常是正对着讲台的全景摄像头拍摄的)有发现教师的时候才会显示教师特写。

请参阅图4，在本实施方式中，一种基于深度学习的教师位置检测***400的具体实施方式如下：

一种基于深度学习的教师位置检测***400，包括：神经网络模型训练模块401和录播策略调整模块402；所述神经网络模型训练模块401用于：采集图像数据，并对所述图像数据进行预处理；构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；所述录播策略调整模块402用于：输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。

在本实施方式中，所述神经网络模型训练模块401可以为任意可执行以上步骤得到最后收敛后的神经网络模型的存储设备，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备等，在本实施方式中，所述录播策略调整模块402可以为录播主机。其工作模式可以为在可编程设备中得到调整后的神经网络模型(即最后收敛后的神经网络模型)，录播主机直接使用该模型，对输入的图像数据进行一个处理的过程。

进一步的，所述神经网络模型训练模块401还用于：采集教师图像数据，并通过OpenCV对图像进行预处理。具体可采用如下方式：

进一步的，所述神经网络模型训练模块401还用于：通过TensorFlow-Lite构建神经网络；设置所述神经网络初始化训练参数，输入预处理后的图像数据至神经网络，并根据误差反向传播算法对所述神经网络进行训练。具体可采用如下方式：

通过TensorFlow-Lite构建mobilenet v1(轻量级的深层神经网络)并去掉最后全局平均池化层、全连接层、softmax层，再后接生成17x17、9x9、5x5、3x3、2x2、1x1特征图的卷积层以及激活层(relu)，对应特征图中每个点分别设置3、4、4、6、5、4个默认框(默认框个数以及特征图大小可根据教师位置与摄像头相对位置远近设计，原则上是大特征图检测小目标，小特征图检测大目标：说明，大的特征图上特征点更多，比如17x17的特征图，每个特征图就是17x17个点，每个特征点的大小就是(原图的大小)/(17x17)，如果是小特征图，比如3x3那每个点的大小是(原图大小)/(3x3))，特征图对应默认框面积范围(min_area，max_area)，步进值：step，宽高比aspect_ratio(如上表1)，设计数值i取值范围为[0,num_box-1]，那么h_box＝sqrt((min_area+i*step)/aspect_ratio[i])，w_box＝aspect_ratio[i]*h_box，当(w*h)>max_area时，max_area代替min_area+i*step即(min_area+i*step)＝max_area，重新计算w_box，h_box。记录每个特征点中心点和宽高坐标(w_box,h_box，x_box,y_box)，每个特征图中的每个特征点有num_box个坐标。如17x17特征图中，每个特征点有3个坐标(w_box,h_box,x_box,y_box)即3个默认框，又因为有17x17个特征点，那么就有17x17x3个默认框，把默认框的区域记作M区域。(多个不同大小的特征图以及多个不同大小默认框的设计，是为了对教师在画面中前后左右走动时，产生不同特征大小更好的进行匹配)

进一步的，所述神经网络模型训练模块401还用于：输入新的预处理后的图像数据至训练后的神经网络模型，获取输出数据，所述输出数据包括：类别和置信度；判断是否同时有教师类别输出且置信度超过预设阈值，若有教师类别输出且置信度超过预设阈值，则结束测试；若无教师类别输出或置信小于预设阈值，则调整神经网络初始化训练参数，并重新对训练后的神经网络模型进行测试。具体可采用如下方式：

进一步的，所述录播策略调整模块402还用于：所述输出数据包括：教师位置信息；根据所述教师位置信息判断教师全景画面中是否存在教师，若教师全景画面中存在教师，则显示教师特写。

通过神经网络模型训练模块401构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；通过录播策略调整模块402用调整后的神经网络模型来对输入的图像数据进行处理，获取教师位置信息，通过该***，可准确定位教师的位置，及时作出对应的录播策略调整。且可更准确更及时地给出教师特写。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于深度学习的教师位置检测方法，其特征在于，包括步骤：

采集图像数据，并对所述图像数据进行预处理；

构建神经网络，对所述神经网络进行训练；

对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；

输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。

2.根据权利要求1所述的一种基于深度学习的教师位置检测方法，其特征在于，所述“采集图像数据，并对所述图像数据进行预处理”，包括步骤：

采集教师图像数据，并通过OpenCV对图像进行预处理。

3.根据权利要求1所述的一种基于深度学习的教师位置检测方法，其特征在于，所述“构建神经网络，对所述神经网络进行训练”，还包括步骤：

通过TensorFlow-Lite构建神经网络；

设置所述神经网络初始化训练参数，输入预处理后的图像数据至神经网络，并根据误差反向传播算法对所述神经网络进行训练。

4.根据权利要求3所述的一种基于深度学习的教师位置检测方法，其特征在于，所述“对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整”，还包括步骤：

输入新的预处理后的图像数据至训练后的神经网络模型，获取输出数据，所述输出数据包括：类别和置信度；

判断是否同时有教师类别输出且置信度超过预设阈值，若有教师类别输出且置信度超过预设阈值，则结束测试；

若无教师类别输出或置信小于预设阈值，则调整神经网络初始化训练参数，并重新对训练后的神经网络模型进行测试。

5.根据权利要求1所述的一种基于深度学习的教师位置检测方法，其特征在于，所述“并根据所述输出数据调整录播策略”，还包括步骤：

所述输出数据包括：教师位置信息；

根据所述教师位置信息判断教师全景画面中是否存在教师，若教师全景画面中存在教师，则显示教师特写。

6.一种基于深度学习的教师位置检测***，其特征在于，包括：神经网络模型训练模块和录播策略调整模块；

所述神经网络模型训练模块用于：采集图像数据，并对所述图像数据进行预处理；构建神经网络，对所述神经网络进行训练；对训练后的神经网络模型进行测试，获取输出数据，并根据所述输出数据对神经网络模型进行调整；

所述录播策略调整模块用于：输入图像数据至调整后的神经网络模型，获取输出数据，并根据所述输出数据调整录播策略。

7.根据权利要求6所述的一种基于深度学习的教师位置检测***，其特征在于，

所述神经网络模型训练模块还用于：采集教师图像数据，并通过OpenCV对图像进行预处理。

8.根据权利要求6所述的一种基于深度学习的教师位置检测***，其特征在于，

所述神经网络模型训练模块还用于：通过TensorFlow-Lite构建神经网络；

9.根据权利要求8所述的一种基于深度学习的教师位置检测***，其特征在于，

所述神经网络模型训练模块还用于：输入新的预处理后的图像数据至训练后的神经网络模型，获取输出数据，所述输出数据包括：类别和置信度；判断是否同时有教师类别输出且置信度超过预设阈值，若有教师类别输出且置信度超过预设阈值，则结束测试；若无教师类别输出或置信小于预设阈值，则调整神经网络初始化训练参数，并重新对训练后的神经网络模型进行测试。

10.根据权利要求6所述的一种基于深度学习的教师位置检测***，其特征在于，

所述录播策略调整模块还用于：所述输出数据包括：教师位置信息；根据所述教师位置信息判断教师全景画面中是否存在教师，若教师全景画面中存在教师，则显示教师特写。