CN111144255B

CN111144255B - 一种教师的非语言行为的分析方法及装置

Info

Publication number: CN111144255B
Application number: CN201911306818.5A
Authority: CN
Inventors: 薛志东; 李季; 陈维亚; 姜黎黎; 肖华; 郭誉华
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2024-04-19
Anticipated expiration: 2039-12-18
Also published as: CN111144255A

Abstract

本发明公开了一种教师的非语言行为分析方法，包括：对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；对所述第二区域图像进行非言语行为的分类，获得分类结果。本发明实现了在多移动物体场景下，可以准确区分出教师，并对教师的非语言行为进行更准确的分析的技术效果。同时，本发明还公开了一种教师的非语言行为分析装置和计算机可读存储介质。

Description

一种教师的非语言行为的分析方法及装置

技术领域

本发明涉及现代教育技术领域，尤其涉及一种教师的非语言行为的分析方法及装置。

背景技术

教师的职责在于尽可能的将自己的知识传授于学生。为了这一目的，教师不仅仅要准备好上课的资料，更需要注重自己在课堂上的行为表现，包括言语行为和非言语行为。因为教师非言语行为对学生的学习有很大的影响，所以对教师的非言语行为进行分析很有必要。

目前对教师非言语行为的分析方法，都假设了教师是整个教室场景的唯一移动的物体，所以需要教室的静态场景图片去分割出教师的形态。然而，这个假设在大部分情况下是不成立的，比如投影区域的内容的变换，黑板的移动，学生的动作，这也使得对教师非言语行为分析的方法有很大的局限。

综上，现有技术中的教师的非语言行为分析方法，在多移动物体场景下，存在无法分区出教师，导致对教师非语言行为的分析准确性较差的技术问题。

发明内容

本发明实施例通过提供一种教师的非语言行为的分析及装置，解决了现有技术中的教师的非语言行为分析方法，在多移动物体场景下，无法分区出教师，导致对教师非语言行为的分析准确性较差的技术问题，实现了在多移动物体场景下，可以准确区分出教师，并对教师的非语言行为进行更准确的分析的技术效果。

第一方面，本发明通过本发明的一实施例提供如下技术方案：

一种教师的非语言行为的分析方法，包括：

对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；

对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；

对所述第二区域图像进行非言语行为的分类，获得分类结果。

优选地，所述对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，包括：

对所述教室场景图像进行语义分割，获得所述教室场景图像中的M个对象中的每个对象的语义信息，其中，所述第一目标对象属于所述M个对象，M大于一预设值；

基于所述M个对象中的每个对象的语义信息，对所述M个对象进行分类，获得所述M个对象中的每个对象的类型信息；

基于所述M个对象中的每个对象的类型信息，在所述教室场景图像中确定所述第一区域图像。

优选地，所述对所述教室场景图像进行语义分割，获得所述教室场景图像中的M个对象中的每个对象的语义信息，包括：

对所述教室场景图像进行卷积运算，获得所述M个对象中的每个对象的上下文信息，其中，所述卷积运算中加入了膨胀率，所述膨胀率用于增加感受野的大小，所述感受野的大与所述上下文信息的多少相关；

从所述教室场景图像中提取出所述M个对象中的每个对象的尺寸比例信息；

基于所述上下文信息和所述尺寸比例信息，获得所述M个对象中的每个对象的语义信息。

优选地，所述类型信息，包括：

人、或黑板、或讲台、或椅子、或课桌、或投影区域。

优选地，所述对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，包括：

获取一数据库，其中，所述数据库中存储有每个教师的人脸图像；

基于所述数据库对所述第一区域图像进行人脸识别，获得所述第二区域图像。

优选地，所述对所述第二区域图像进行非言语行为的分类，获得分类结果，包括：

从所述第二区域图像中，识别出所述第二目标对象的手势行为特征和目光行为特征；

基于所述手势行为特征和所述目光行为特征，对所述第二目标对象的非言语行为进行分类，获得所述分类结果。

优选地，所述分类结果，包括以下选项中的一种或多种：

第一非言语行为类型，用于表示所述第二目标对象看讲台且无手势；

第二非言语行为类型，用于表示所述第二目标对象看黑板且无手势、或看投影区域且无手势；

第三非言语行为类型，用于表示所述第二目标对象看学生且无手势；

第四非言语行为类型，用于表示所述第二目标对象看黑板且手指黑板、或看投影区域且手指投影；

第五非言语行为类型，用于表示所述第二目标对象看学生且指黑板、或看学生且手指投影区域；

第六非言语行为类型，用于表示所述第二目标对象看学生且辅以其它手势。

基于同一发明构思，第二方面，本发明通过本发明的一实施例，提供如下技术方案：

一种教师的非语言行为的分析装置，包括：

语义分割模块，用于对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；

人脸识别模块，用于对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；

图像分类模块，对所述第二区域图像进行非言语行为的分类，获得分类结果。

基于同一发明构思，第三方面，本发明通过本发明的一实施例，提供如下技术方案：

一种教师的非语言行为的分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可以实现上述第一方面中任一实施方式的方法步骤。

基于同一发明构思，第四方面，本发明通过本发明的一实施例，提供如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可以实现上述第一方面中任一实施方式的方法步骤。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本发明实施例中，提供了一种教师的非语言行为的分析方法，包括：对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；对所述第二区域图像进行非言语行为的分类，获得分类结果。如此，解决了现有技术中的教师的非语言行为分析方法，在多移动物体场景下，无法分区出教师，导致对教师非语言行为的分析准确性较差的技术问题，实现了在多移动物体场景下，可以准确区分出教师，并对教师的非语言行为进行更准确的分析的技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种教师的非语言行为的分析方法的流程图；

图2为本发明实施例中的步骤S101的细化流程图；

图3A为本发明实施例中教室场景图像的示意图；

图3B为本发明实施例中第一区域图像的示意图；

图3C为本发明实施例中第二区域图像的示意图；

图4为本发明实施例中一种教师的非语言行为的分析装置的结构图；

图5为本发明实施例中一种教师的非语言行为的分析装置的结构图；

图6为本发明实施例中一种教师的非语言行为的分析装置作为服务器时的结构图。

具体实施方式

本发明实施例的技术方案为解决上述技术问题，总体思路如下：

一种教师的非语言行为的分析方法，包括：对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；对所述第二区域图像进行非言语行为的分类，获得分类结果。如此，解决了现有技术中的教师的非语言行为分析方法，在多移动物体场景下，无法分区出教师，导致对教师非语言行为的分析准确性较差的技术问题，实现了在多移动物体场景下，可以准确区分出教师，并对教师的非语言行为进行更准确的分析的技术效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

首先说明，本文中出现的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

其次说明，本文中出现的术语“多个”，一般是指“两个以上”，包含“两个”的情况。

实施例一

本实施例提供了一种教师的非语言行为的分析方法，应用于电子设备中，所述电子设备可以为：服务器、或PC(Personal Computer，个人电脑)、或智能手机、或平板电脑、等等。此处，对于所述电子设备具体是何种设备，本实施例不做具体限定。

如图1所示，所述教师的非语言行为的分析方法，包括：

步骤S101：对教室场景图像进行语义分割，获得教室场景图像中的第一目标对象对应的第一区域图像，第一目标对象包括教师和学生。

在具体实施过程中，在执行步骤S101之前，需要先获取所述教室场景图像。

具体来讲，教室的布局通常为：在教室前方设置有教师用的黑板、讲台和投影区域(例如：投影画布，用于展示投影仪投射的图像)，在讲台后方设置有学生用的课桌和椅子。在本实施例中，可以在教室的后方安装一个或多个图像采集装置(例如：摄像头)，用于采集教室场景图像。其中，可以将图像采集装置安装在教室最后方的天花板上(或者，安装在教室最后方的墙壁上，且高度尽量靠近天花板)，从而俯视整个教室，获得更好的拍摄视角，采集到更全面的教室场景图像。

举例来讲，如图3A所示，在教室场景图像中，通常包含：黑板、讲台、投影区域、课桌、椅子、教师和学生。

在获得教室场景图像之后，即可执行步骤S101，即：对教室场景图像进行语义分割，获得教室场景图像中的第一目标对象对应的第一区域图像，第一目标对象是人(包括：教师和学生)。

作为一种可选的实施例，如图2所示，步骤S101，包括(步骤S201～步骤S203)：

步骤S201：对教室场景图像进行语义分割，获得教室场景图像中的M个对象中的每个对象的语义信息。其中，第一目标对象属于所述M个对象，M大于一预设值；

步骤S202：基于所述M个对象中的每个对象的语义信息，对所述M个对象进行分类，获得所述M个对象中的每个对象的类型信息；

步骤S203：基于所述M个对象中的每个对象的类型信息，在教室场景图像中确定第一区域图像。

在具体实施过程中，在步骤S201中，所述M个对象是指电子设备在对教室场景图像进行语义分割后识别出的物体。其中，在进行语义分割时，可以获得(高层次)语义信息，这些语义信息具体包括空间位置信息和颜色通道信息，可以用于区别不同的物体。

通常来讲，这些物体至少包括以下6类物体：黑板、讲台、投影区域、课桌、椅子、人(包括：教师和学生)。所以，M至少大于6(即：所述预设值等于6)。

在具体实施过程中，在语义分割模块对这6类物体进行分割时，可以提供教室场景相关的空间信息，以便计算机理解教室场景信息(比如：教师和学生之间的空间位置)，因为教师总是处于黑板、投影区域和讲台之间，而学生主要是在学生的课桌附近，所以可以根据各物体之间的位置关系，区分不同的物体。

其中，对这6类的语义分割时，主要会有两个重点：

1、上下文信息：其主要包含了空间位置信息。例如，讲台是属于桌子的特殊类别，在教室场景下，讲台代表了靠近黑板和投影的一个桌子，其可以用于辅助确定教师的大致位置信息，要想将讲台从桌子区分出来，就需要利用讲台的上下文信息来区分。

2、多尺寸物体分割：在教室场景下的6类物体尺寸不一，但相对比例较为固定，比如，黑板的宽高比大致在3:1，投影的宽高比大致是1:1等。

所以，在步骤S201，可以对教室场景图像进行卷积运算，获得所述M个对象中的每个对象的上下文信息，其中，卷积运算中加入了膨胀率，膨胀率用于增加感受野的大小，感受野的大与上下文信息的多少相关；从教室场景图像中提取出所述M个对象中的每个对象的尺寸比例信息；基于上下文信息和尺寸比例信息，获得所述M个对象中的每个对象的语义信息。

在具体实施过程中，语义分割大都使用了卷积神经网络，利用卷积神经网络突出的非线性，表达能力可以很好地分割出感兴趣的教师区域，弥补前人在多移动场景下的教师非言语行为的不足。

语义分割里评价上下文信息使用程度的指标是感受野，表示卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小。在本实施例中，增加感受野的大小，也就意味着可以使用更多的上下文信息。

现有技术中，一般的k*k尺寸的卷积网络的感受野r，r＝k*k；而在本实施例中，通过在卷积上加入膨胀率d，可以增加感受野的大小：r＝[(d-1)*(k+1)+k]*[(d-1)*(k+1)+k]，然后针对不同尺寸大小的物体，可以通过设计不同的膨胀率来得到不同尺寸的感受野，以此去捕捉这些不同尺寸物体的语义信息。

在具体实施过程中，可以采用语义分割模型，对教室场景图像进行语义分割，语义分割模型可以很好地将人与其他物体区分，从而在教室场景图像中确定第一区域图像，其中，第一区域图像就指“人”所在区域的图像。这里，由于教室中通常只有教师和学生，所以，第一区域图像就是教师和学生所在区域的图像。

在具体实施过程中，语义分割模型有两个模块，Encoder模块和Decoder模块。Encoder模块主要对输入的图像进行下采样，获取高层语义信息。然后，由Decoder模块对输入的图像进行上采样，提供像素级别的定位分类信息。其中，在Encoder部分先经过一个3*3的卷积来下采样，然后经过一个卷积组。这个卷积组合包括了两个3*3的卷积，但是膨胀率不一样，一个的膨胀率为6，另一个为12，分别获取了不同尺寸的上下文信息来满足教室这个场景。其中，在Decoder模块有1*1的convolution层进行降维降低运算复杂度，使用双线性插值的方法对图像上采样。

在具体实施过程中，在步骤S202中，所述类型信息，包括：人、黑板、讲台、椅子、课桌、投影区域。在本实施例中，重点研究教室中这6类物体的位置关系，获得教室场景图像中每个物体的类型信息。

在具体实施过程中，在步骤S203中，在获得每个对象的类型信息后，即可确定教室中人(包括：教室和学生)所在的区域，从而获得在教室场景图像中人对应的第一区域图像。

举例来讲，由于黑板和投影区域也是我们关心的，后文中可用于对教师的非语言行为进行分析，所以可以将黑板和投影区域也算作教师所在的区域，获得第一区域图像(如图3B所示，实际包含了教师、学生、黑板、投影区域)。对于第一区域图像以外的区域，可以不同考虑，进行黑色处理。

在具体实施过程中，在获得第一区域图像之后，即可执行步骤S102。

步骤S102：对第一区域图像进行人脸识别，获得第一区域图像中的第二目标对象对应的第二区域图像，第二目标对象为教师。

在具体实施过程中，语义分割模型可以很好的将人与其他物体区分，但并未能判断教师的身份，不能将教师与学生区分，需要人脸识别模块的辅助将教师提取出来，获得第二区域图像。

举例来讲，如图3C所示，第二区域图像包含了教师、黑板和投影区域。

作为一种可选的实施例，步骤S102，包括：

获取一数据库，其中，所述数据库中存储有每个教师的人脸图像；基于所述数据库对所述第一区域图像进行人脸识别，获得所述第二区域图像。

人脸识别主要包含两个步骤，首先是要定位人脸，然后对定位到的人脸识别。

在人脸识别模块之前，首先要先上传(某个学校的)教师的人脸数据到数据库，以便之后在有学生和教师的场景下将教师区分出来。其中，实现人脸检测的深度学习的框架有很多，比较著名的是MTCNN(Multi-task Cascaded Convolutional Networks)。MTCNN可以对人脸进行检测和对齐，得到人脸的位置。从人脸的位置可以得到人脸的特征，进一步，可以进行人脸身份的识别。人脸身份识别的模型也有很多，比较有名的是Google(谷歌)的FaceNet。在得到人脸的身份后，需要将这个身份与数据库中的教师信息进行比对，过滤掉学生的区域。

在具体实施过程中，在获得第二区域图像之后，即可执行步骤S103。

步骤S103：对第二区域图像进行非言语行为的分类，获得分类结果。

在具体实施过程中，在得到第二区域图像后，则可以将这个区域的图像输入进图像分类模块，进行教师非言语行为的分析。

作为一种可选的实施例，步骤S103，包括：

从第二区域图像中，识别出第二目标对象的手势行为特征和目光行为特征；基于手势行为特征和目光行为特征，对第二目标对象的非言语行为进行分类，获得分类结果。

其中，所述分类结果，包括以下选项中的一种或多种：

在具体实施过程中，教师的手势、目光对学生学习的积极性、注意力的集中程度有很大的影响，所以可以将教师非言语行为分类成6个类别：1.看讲桌(无手势)；2.看黑板或投影(无手势)；3.看学生(无手势)；4.看黑板(或投影)指黑板(或投影区域)；5.看学生指黑板(或投影区域)；6.看学生辅以其他手势。

其中，所述其它手势是指除了指黑板(或投影区域)以外的手势。

举例来讲，图像分类模块的网络架构主要block包含了一个5*5的卷积层，一个relu层和一个2*2maxpooling层。第二区域图像输入首先会经过两个这样的block，然后经过两个全连接层，将通道数分别降到120、64，然后会经过一个全连接分类器，输出教师非言语行为6个label的概率。在训练的时候因为教师非言语行为已经打了标签，这是一个分类问题，可以使用crossentropy损失函数表征损失进行梯度下降。在测试的时候，图像经过整个网络架构后会有6个值，取最大的那个就是预测出来的有可能的教师行为，也就实现了对教师的非语言行为进行分类。

在具体实施过程中，可以统计出教师在一段时间内(例如：一节课，或一个月内、或一个学期、等等)的非语言行为的分类结果，从而对教师的教学行为进行打分。进一步，可以基于打分结果生成教学指导意见，并将教学指导意见发送给教师，从而提高教师的教学质量。

上述本发明实施例中的技术方案，至少具有如下的技术效果或优点：

实施例二

基于同一发明构思，如图4所示，本实施例提供了一种教师的非语言行为的分析装置200，包括：

语义分割模块201，用于对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；

人脸识别模块202，用于对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；

图像分类模块203，对所述第二区域图像进行非言语行为的分类，获得分类结果。

作为一种可选的实施例，语义分割模块201，具体用于：

对所述教室场景图像进行语义分割，获得所述教室场景图像中的M个对象中的每个对象的语义信息，其中，所述第一目标对象属于所述M个对象，M大于一预设值；基于所述M个对象中的每个对象的语义信息，对所述M个对象进行分类，获得所述M个对象中的每个对象的类型信息；基于所述M个对象中的每个对象的类型信息，在所述教室场景图像中确定所述第一区域图像。

作为一种可选的实施例，语义分割模块201，具体用于：

对所述教室场景图像进行卷积运算，获得所述M个对象中的每个对象的上下文信息，其中，所述卷积运算中加入了膨胀率，所述膨胀率用于增加感受野的大小，所述感受野的大与所述上下文信息的多少相关；从所述教室场景图像中提取出所述M个对象中的每个对象的尺寸比例信息；基于所述上下文信息和所述尺寸比例信息，获得所述M个对象中的每个对象的语义信息。

作为一种可选的实施例，所述类型信息，包括：

人、或黑板、或讲台、或椅子、或课桌、或投影区域。

作为一种可选的实施例，人脸识别模块202，具体用于：

作为一种可选的实施例，图像分类模块203，具体用于：

从所述第二区域图像中，识别出所述第二目标对象的手势行为特征和目光行为特征；基于所述手势行为特征和所述目光行为特征，对所述第二目标对象的非言语行为进行分类，获得所述分类结果。

作为一种可选的实施例，所述分类结果，包括以下选项中的一种或多种：

由于本实施例所介绍的教师的非语言行为的分析装置为实施本发明实施例一中教师的非语言行为的分析方法所采用的装置，故而基于本发明实施例一中所介绍的教师的非语言行为的分析方法，本领域所属技术人员能够了解本实施例的装置的具体实施方式以及其各种变化形式，所以在此对于该装置如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例一中教师的非语言行为的分析方法所采用的装置，都属于本发明所欲保护的范围。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种教师的非语言行为的分析装置的结构图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置800的处理器执行时，使得装置800能够执行一种教师的非语言行为的分析方法，包括：对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，所述第一目标对象包括教师和学生；对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，所述第二目标对象为教师；对所述第二区域图像进行非言语行为的分类，获得分类结果。

图6是本发明实施例中一种教师的非语言行为的分析装置作为服务器时的结构图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种教师的非言语行为的分析方法，其特征在于，包括：

对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，包括：

基于所述M个对象中的每个对象的类型信息，在所述教室场景图像中确定所述第一区域图像；

所述对所述教室场景图像进行语义分割，获得所述教室场景图像中的M个对象中的每个对象的语义信息，包括：

对所述教室场景图像进行卷积运算，获得所述M个对象中的每个对象的上下文信息，其中，所述卷积运算中加入了膨胀率，所述膨胀率用于增加感受野的大小，所述感受野的大小与所述上下文信息的多少相关；

基于所述上下文信息和所述尺寸比例信息，获得所述M个对象中的每个对象的语义信息；

所述上下文信息包括空间位置信息；

所述第一目标对象包括教师和学生，所述第一区域图像是教师和学生所在区域的图像；

对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，包括：

基于所述数据库对所述第一区域图像进行人脸识别，获得所述第二区域图像；

所述第二目标对象为教师，所述第二区域图像包括教师、黑板和投影区域；

2.如权利要求1所述的方法，其特征在于，所述类型信息，包括：

人、或黑板、或讲台、或椅子、或课桌、或投影区域。

3.如权利要求1所述的方法，其特征在于，所述对所述第二区域图像进行非言语行为的分类，获得分类结果，包括：

4.如权利要求1~3任一所述的方法，其特征在于，所述分类结果，包括以下选项中的一种或多种：

5.一种教师的非言语行为的分析装置，其特征在于，包括：

语义分割模块，用于对教室场景图像进行语义分割，获得所述教室场景图像中的第一目标对象对应的第一区域图像，包括：

所述上下文信息包括空间位置信息；

人脸识别模块，用于对所述第一区域图像进行人脸识别，获得所述第一区域图像中的第二目标对象对应的第二区域图像，包括：

6.一种教师的非言语行为的分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可以实现如权利要求1~4任一权项所述的方法步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可以实现如权利要求1~4任一权项所述的方法步骤。