CN111915460B

CN111915460B - 基于ai视觉的实验考试智能评分***

Info

Publication number: CN111915460B
Application number: CN202010728327.6A
Authority: CN
Inventors: 孙效华; 郭炜炜; 叶颖; 周鑫; 孟诗乔; 张啸天; 赵羿昕
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-05-07
Filing date: 2020-07-23
Publication date: 2022-05-13
Anticipated expiration: 2040-07-23
Also published as: CN111915460A

Abstract

一种基于AI视觉的实验考试智能评分***，包括学生端(1)、教师端(2)、服务器端(3)，所述服务器端(3)包括算法模块(4)和数据库(5)；具体应用时，还包括第一用户、第二用户，所述第一用户为学生，所述第二用户为教师；所述算法模块(4)运行于服务器端(3)上，所述数据库(5)存储于服务器端(3)供算法模块(4)调用，所述服务器端(3)包括云服务器；等。此***可以应用于中学物化生实验的教学和考试场景中，解决教学场景中学生接受信息有差异，考试场景中教师批改效率低、评分标准不一的问题。本发明还能够在学生自主练习实验操作的时候利用算法检测学生的动作，并提供有效指导和及时反馈，提高自学效果。

Description

基于AI视觉的实验考试智能评分***

技术领域

本发明涉及深度学习和计算机视觉技术，应用教学领域。

背景技术

目前中学物理、生物、化学实验教学和考试的现状：一个教师对应多位学生，教师在教学或考试时，不能达到对每个同学进行针对性的、全面的教学指导或监督。导致实验教学与考试效率低，标准乱等问题。

具体问题表现为在实验操作教学时，一个教师对应整个班级的学生，精力有限而不能根据每位同学的学习情况进行个性化辅导。学生在教室中的位置不同，所接受信息也有所差异；其次，学生在自己练习的时候，没有教师后续的指引，也不能够及时地得到错误操作的指正，导致教学效果不理想。

在实验考试的时候，较为传统的方式为多位老师现场为多位学生监考与打分，通常一位老师需要对应多位学生，这会导致对于老师来说，评分效率十分低下，且尽管有统一的课程与考试标准，但是因为老师个体的主观感受不同，会导致评分的标准有所差异，这对于学生来说同样是不公平的。

发明内容

为了克服上述现状的不足，本发明提供了一种基于AI视觉的中学实验智能指导与评分***。此***可以应用于中学物化生实验的教学和考试场景中，解决教学场景中学生接受信息有差异，考试场景中教师批改效率低、评分标准不一的问题。本发明还能够在学生自主练习实验操作的时候利用算法检测学生的动作，并提供有效指导和及时反馈，提高自学效果。

为了实现上述目的，本发明所采用的技术方案是：

一种基于AI视觉的中学实验智能指导与评分***，其特征在于：所述***应用于中学物理、化学、生物实验的教学、练习与考试的场景中，所述***包括学生端(1)、教师端(2)、服务器端(3)，所述服务器端(3)包括算法模块(4)和数据库(5)；具体应用时，还包括第一用户、第二用户，所述第一用户为学生，所述第二用户为教师；

所述算法模块(4)运行于服务器端(3)上，所述数据库(5)存储于服务器端(3) 供算法模块(4)调用，所述服务器端(3)包括云服务器；

所述学生端(1)是一个智能实验台，主要包括常规实验设备、学生客户端和两个采集视频的摄像头，学生在客户端上进行常规操作以及填写实验报告。摄像头分别位于学生试验台正前方中央，以及右侧，并有可调节角度的支架以及万向头，便于采集各个方向的视频数据。

在实验练习场景，所述学生端(1)可以获取所述数据库(5)中的视频数据，并在学生客户端上进行播放，以指导第一用户进行实验操作。

在实验考试或实验练习场景，所述学生端(1)通过视频采集装置获取第一用户的视频数据，并将视频数据上传至所诉服务器端(3)；所述算法模块(4)根据学生端(1) 上传的视频数据，结合所述数据库(5)中的信息，对所述视频数据进行识别、分类、自动评分和给出错误报告，并将所述评分和错误报告传输到所述教师端(2)和学生端(1)；

所述教师端(2)是一个可以管理学生信息、实验练***台，可以与所述服务器端(3)以及所述数据库(5)之间进行信息传输；

所述教师端(2)可以向所述学生端(1)传输交互信息，所述交互信息为练习或考试模式选择、实验选择、实验开始和结束的指令等。

所述教师端(2)可向第二用户显示第一用户的实验历史信息，以及使第二用户向所述服务器端(3)传输交互信息，并对所述数据库(5)中的部分数据进行管理。

所述算法模块(4)包括动态算法、静态算法和仪表与实验结果识别，三个部分。对不同实验，采用这三种算法进行评分，最终将三种算法给出的评分相加得出准确、全面的实验评分。

动态算法部分，为自主开发。

静态算法部分，直接利用已有算法。

仪表与实验结果识别算法，直接利用已有算法。

所述动态算法部分利用骨架线提取算法对运动的第一用户的人体特征点进行提取，同时利用物体识别算法对运动的物***置进行识别，并将提取出的人体特征点和物***置的特征点利用预训练好的基于CNN和LSTM自主开发的神经网络模型对输入的特征向量进行处理，通过对每一个步骤是否得分的方式进行二分类，相加后得到最终的整体的评分。

所述骨架线提取算法可以直接采用现有诸如Alphapose算法，公开于《RMPE:Regional Multi-person Pose Estimation》Haoshu Fang,ShuqinXie,Yuwing Tai,CewuLuApr 2017。所述物体识别算法可以直接采用现有SSD算法来实现，公开于《SSD:Single Shot MultiBox Detector》Wei Liu,ECCV 2016。

所述数据库(5)可以存储所述第一用户的个人信息和历史信息，并可以存储基于CNN和LSTM自主开发的神经网络模型所需的全部样本数据。在服务器***上获得用户上传的数据之后，可以扩大数据集，从而使任何深度学习模型的准确率得以提升。

所述自主开发的动态算法，为针对人和物体的动态时间序列分类算法，如图5所示，该算法流程为：

(1)特征提取

从学生端提供来的视频数据，首先利用如Alphapose算法这类已有的骨架线提取算法提取出每一时刻的人的特征点，利用已有的SSD算法等物体识别算法提取出物体的位置作为特征点；提供步骤(2)。

(2)输入前预处理

将步骤(1)每一时刻提取出的所有特征点的位置拼接成一个长度为N的特征向量X，若提取帧数总数为n，则此时共构成了n个N维的特征向量作为步骤(3)算法的输入。设输入数据在每一时刻的特征向量为第一维度，输入数据的时间维度为第二维度。输入数据的维度为：N×n。示意图如图4所示。

(3)网络算法

神经网络总共分为两部分：frontend和backend。其中frontend的作用是从步骤(2)特征向量中提取多通道的特征，backend的作用为通过从两个角度处理frontend 部分提取出的多通道的特征。

其中，frontend的具体结构为：使用大小为1×3的卷积核，对输入数据的第一维度(特征向量维度)进行卷积，并使用average pooling对数据进行降维，具体卷积核和池化层的数目可随实际情况进行人为调整。设卷积后通道的个数为channel，并设通道维度为第三维度。数据的长度从n降为n′，则数据此时维度变为N×n′×channel。

其中，backend的具体结构为：backend部分分为两个支路进行并行处理，第一条支路利用原始输入数据中单个特征随时间变化的关系对时间序列进行分类。第二条支路利用多个特征之间相互的关系对时间序列进行分类。然后将两个支路得到的结果进行叠加(concat)得到最终分类结果。

第一条支路：将frontend处理好的数据重组(Flatten)为N·channel×n′的维度，并输入到LSTM神经网络中，在每一个时间步产生一个矩阵h(如图5所示)，并利用Attention机制通过训练改变每次循环的序列中间输出结果的权重即图5中的α(每一个时间步对第一个支路的LSTM最终结果的权重)。将隐层h_t的输出结果

与α_t(t时刻的时间步对第一个支路的LSTM最终结果的权重)相乘，将所有相乘的结果相加后进行归一化操作得到输出S_t(公式一)。设LSTM神经网络隐层神经元数目为β₁，则经过attention 后得到的数据S_t维度为β₁×m₁。将S_t输入到单层或多层的全连接神经网络中，最终得到分类结果

第二条支路：利用3d卷积将frontend得到的维度为N×n′×channel的数据卷积成维度为N'×n'×channel'的数据。然后将其数据重组(Flatten)为N'·n'×channel'的维度，并输入到LSTM神经网络中，在每一个时间步产生一个矩阵h'(如图5所示)，并利用Attention机制通过训练改变每次循环的序列中间输出结果的权重即图5中的α' (每一个时间步对第二个支路的LSTM最终结果的权重)。将隐层h_t'的输出结果

与α_t'(t 时刻的时间步对第二个支路的LSTM最终结果的权重)相乘，将所有相乘的结果相加后进行归一化操作得到输出S_t'(同公式一)。设LSTM神经网络隐层神经元数目为β₂，则经过 attention后得到的数据S_t'维度为β₂×m₂。将S_t'输入到单层或多层的全连接神经网络中，最终得到分类结果

最后，将

与

通过加权相加得到最终结果

(4)训练模型

在训练模型时，将实际的评分y_t与输出结果

进行误差计算，利用神经网络的反向传播算法对模型中的参数进行学习。

其中，backend中的两个支路可以分别进行预训练。预训练的方法为：训练其中一条支路时，将另一条支路在训练时去除，仅获得当前支路的训练后模型参数。两个支路分别训练完后，进行总体的训练(finetune)：将两个预训练好的支路在总体训练时加载到训练模型中，利用同样的训练数据进行重复训练。

损失函数为交叉熵损失(Cross Entropy Loss)，其公式如下。模型采用Adam优化器，其详细参数为：lr＝0.001,betas＝(0.9,0.999),eps＝1e-08, weight_decay＝0,amsgrad＝False。最终得到准确率较高的时间序列分类模型。

M——类别的数量；

y_i——指示变量(0或1),如果该类别和样本的类别相同就是1，否则是0；

pi——对于观测样本属于类别i的预测概率。

(5)利用已经训练好的网络模型进行预测。

所述静态算法部分利用SSD算法这类已有的物体识别算法针对静态物体的相对位置关系进行识别，得到位置后与标准答案中的位置进行比对，提供给评分模块进而给出评分；

所述仪表与实验结果识别部分利用OCR技术实现文字、数字和表格识别，利用opencv和深度学习算法实现仪表刻度和指针示数的读取；

当所述算法模块(4)对所述服务器端(3)中的实验视频进行处理时，针对视频中的运动物体，利用人体骨骼点提取算法和物体检测算法对采集后的视频数据处理，提取出人体骨骼点和物***置的时间序列，利用预训练好的带有注意力机制的LSTM神经网络进行视频运动特征的提取，将提取出的特征向量与数据库中的标准实验步骤进行比对，进而自动评分并给出错误分析；针对视频中的静态物体，利用基于深度学习和Opencv的物体检测技术，确定物体的相对位置，进而对实验结果进行打分并给出错误分析；针对视频中的文字、仪器示数和表格，利用Opencv和OCR技术对文字和刻度进行识别，与标准答案进行比对后，对学生的实验进行自动评分并给出错误分析；综合所述动态算法部分、静态算法部分和仪表与实验结果识别部分得到的评分，得出该实验视频中所述第一用户的最终评分，并最终由软件界面对分数和错误分析进行可视化呈现。

***软件部分包括了学生端(1)中的学生客户端以及教师端(2)所需的全部功能，以此供学生和老师方便地进行考试和练习操作，以及供教师录制标准实验视频并上传。

除此之外，本发明***构建众包式生态***。由于起始数据量有限，算法的效果不能全部发挥，但采用众包的方式可以获得大量数据以提升算法模型的评分准确率。本***平台不止单方面地为学校或教师提供算法服务，还将接收平台使用过程中的众多数据，利用数据优化算法。整个平台开源共享，资源互惠互利。

与现有技术相比，本发明的有益效果为：可通过软件部分算法的创新和硬件设施的设计，实现在教学阶段辅助授课教师进行实验操作的教学，提高教学公平性和效率；在实验练***台的众包式生态***也保证了算法的不断优化以及商业模式的可行性。

附图说明

下面结合附图和实例对本发明进一步说明。

图1是本发明的整体***原理图。

图2是学生端实验台的构成图。

图3是教师端的构成图。

图4是算法实现的示意图。

图5自主开发动态算法部分的示意图。

具体实施方式

使用场景

一种基于AI视觉的中学实验智能指导与评分***，主要应用于中学物理、化学、生物实验的教学、练习与考试的场景中，服务的人群主要为使用该***的教师、学生。

下面结合附图对本发明进行进一步说明，以下列举三个典型使用场景：

1.考试场景

(1)教师通过教师端选择本次考试要进行的实验内容，选择发布命令；

(2)教师通过教师端查看座位签到信息，控制考试的开始与进程；

(3)学生开始实验考操作，实验台的摄像头设备对学生的操作过程进行视频数据的采集；

(4)后台算法对所采集到的视频进行处理：

(5)后台算法给每位考生的操作打分之后，教师可以在教师端查看考生的得分、排名等信息进行相应管理操作。

2.学生练习场景

(1)学生来到实验台，自行操作学生端进行实验练习内容选择，选择后学生端显示设备显示实验操作的具体步骤与内容，学生也可以直接访问数据库中的标准实验视频进行学习；

(2)学生根据内容进行相关实验的学习和操作实验台的摄像头设备对学生的操作过程进行视频数据的采集；

(3)后台算法对所采集到的视频进行处理：

(4)学生在显示设备上可得到自己操作的分析报告，查看每一步的错误原因，同时，学生也可以查看自己的历史练习记录——包括视频和数据分析。在下一次练习时改进，以此提高学习效果。

3.教师共建场景

3.1教师上传已有标准实验

教师可下载资源库里的标准实验，同时也能录制该实验的标准实验视频并打上标签上传，以不断更新优化算法。

(1)教师在平台中选择“资源库”选项栏，点击所选实验的“上传”按钮。平台出现两个选项，教师可以利用智能实验台自带的摄像头进行视频的录制后上传，或是通过“本地上传”进行事先储存在本地的视频的上传。视频内容为同一个实验操作过程的两个角度录制。

(2)实验操作录像上传之后，即可对视频进行定制化工作。第一步，使用切割工具将视频划分为若干段，每个部分对应一条评分内容。第二步，使用标记工具对视频中的实验器材进行标记，用以作为之后实验操作的器材位置对比评分。第三步，为每段实验操作添加说明和得分。由此三步，完成标准实验视频的定制。

(3)在完成操作步骤的划分和评分准则的制定之后，即可将定制好的视频上传到平台“资源库”中，其他教师也可通过此将视频下载到自己的账号中进行使用。

3.2教师自主定制标准实验对于资源库里没有的实验，教师通过平台预先设定好的功能进行自主实验的制定。

(1)教师在平台中选择“资源库”选项栏，点击“添加”按钮。其余操作与3.1一致。

(2)实验操作录像上传之后，即可对视频进行定制化工作。操作与3.1一致。

(3)操作与3.1一致。

Claims

1.一种基于AI视觉的实验考试智能评分***，所述***应用于中学物理、化学、生物实验的教学、练习与考试的场景中，其特征在于：所述***包括学生端(1)、教师端(2)、服务器端(3)，所述服务器端(3)包括算法模块(4)和数据库(5)；具体应用时，还包括第一用户、第二用户，所述第一用户为学生，所述第二用户为教师；

所述算法模块(4)运行于服务器端(3)上，所述数据库(5)存储于服务器端(3)供算法模块(4)调用，所述服务器端(3)包括云服务器；

所述学生端(1)是一个智能实验台，包括常规实验设备、学生客户端和两个采集视频的摄像头，学生在客户端上进行常规操作以及填写实验报告；摄像头分别位于学生试验台正前方中央，以及右侧，并有可调节角度的支架以及万向头，便于采集各个方向的视频数据；

所述教师端(2)是一个可以管理学生信息、实验练***台，可以与所述服务器端(3)以及所述数据库(5)之间进行信息传输；所述教师端(2)可以向所述学生端(1)传输交互信息；所述教师端(2)可向第二用户显示第一用户的实验历史信息，以及使第二用户向所述服务器端(3)传输交互信息，并对所述数据库(5)中的部分数据进行管理；

所述算法模块(4)包括动态算法、静态算法和仪表与实验结果识别，三个部分；对不同实验，采用这三种算法进行评分，最终将三种算法给出的评分相加得出准确、全面的实验评分；

所述动态算法部分利用骨架线提取算法对运动的第一用户的人体特征点进行提取，同时利用物体识别算法对运动的物***置进行识别，并将提取出的人体特征点和物***置的特征点利用预训练好的基于CNN和LSTM的神经网络模型对输入的特征向量进行处理，通过对每一个步骤是否得分的方式进行二分类，相加后得到最终的整体的评分；

所述数据库(5)可以存储所述第一用户的个人信息和历史信息，并可以存储基于CNN和LSTM的神经网络模型所需的全部样本数据；在服务器***上获得用户上传的数据之后，可以扩大数据集，从而使任何深度学习模型的准确率得以提升；

所述动态算法，为针对人和物体的动态时间序列分类算法，该算法流程为：

(1)特征提取

从学生端提供来的视频数据，首先利用Alphapose算法的骨架线提取算法提取出每一时刻的人的特征点，利用SSD算法物体识别算法提取出物体的位置作为特征点；

(2)输入前预处理

将步骤(1)每一时刻提取出的所有特征点的位置特征点拼接成一个长度为N的特征向量X，若提取帧数总数为n，则此时共构成了n个N维的特征向量作为步骤(3)算法的输入；设输入数据在每一时刻的特征向量为第一维度，输入数据的时间维度为第二维度；输入数据的维度为：N×n；

(3)网络算法

神经网络总共分为两部分：frontend和backend，frontend的作用是从步骤(2)特征向量中提取多通道的特征，backend的作用为通过从两个角度处理frontend部分提取出的多通道的特征；

其中，frontend的具体结构为：使用大小为1×3的卷积核，对输入数据的第一维度进行卷积，并使用average pooling对数据进行降维，具体卷积核和池化层的数目可随实际情况进行人为调整；设卷积后通道的个数为channel，并设通道维度为第三维度；数据的长度从n降为n′，则数据此时维度变为N×n′×channel；

其中，backend的具体结构为：backend部分分为两个支路进行并行处理，第一条支路利用原始输入数据中单个特征随时间变化的关系对时间序列进行分类；第二条支路利用多个特征之间相互的关系对时间序列进行分类；然后将两个支路得到的结果进行叠加(concat)得到最终分类结果；

第一条支路：将frontend处理好的数据重组(Flatten)为N·channel×n′的维度，并输入到LSTM神经网络中，在每一个时间步产生一个矩阵h，并利用Attention机制通过训练改变每次循环的序列中间输出结果的权重；将隐层h_t的输出结果

与α_t相乘，将所有相乘的结果相加后进行归一化操作得到输出S_t；设LSTM神经网络隐层神经元数目为β₁，则经过attention后得到的数据S_t维度为β₁×m₁；将S_t输入到单层或多层的全连接神经网络中，最终得到分类结果

第二条支路：利用3d卷积将frontend得到的维度为N×n′×channel的数据卷积成维度为N'×n'×channel'的数据；然后将其数据重组(Flatten)为N'·n'×channel'的维度，并输入到LSTM神经网络中，在每一个时间步产生一个矩阵h'，并利用Attention机制通过训练改变每次循环的序列中间输出结果的权重；将隐层h_t'的输出结果

与α_t'相乘，将所有相乘的结果相加后进行归一化操作得到输出S_t'同公式一；设LSTM神经网络隐层神经元数目为β₂，则经过attention后得到的数据S_t'维度为β₂×m₂；将S_t'输入到单层或多层的全连接神经网络中，最终得到分类结果

最后，将

与

通过加权相加得到最终结果

(4)训练模型

在训练模型时，将实际的评分y_t与输出结果

进行误差计算，利用神经网络的反向传播算法对模型中的参数进行学习；

其中，backend中的两个支路可以分别进行预训练；预训练的方法为：训练其中一条支路时，将另一条支路在训练时去除，仅获得当前支路的训练后模型参数；两个支路分别训练完后，进行总体的训练(finetune)：将两个预训练好的支路在总体训练时加载到训练模型中，利用同样的训练数据进行重复训练；

损失函数为交叉熵损失(Cross Entropy Loss)，为公式二；模型采用Adam优化器，其详细参数为：lr＝0.001,betas＝(0.9,0.999),eps＝1e-08,weight_decay＝0,amsgrad＝False；最终得到时间序列分类模型；

M——类别的数量；

y_i——指示变量0或1,如果该类别和样本的类别相同就是1，否则是0；

p_i——对于观测样本属于类别i的预测概率；

(5)利用已经训练好的网络模型进行预测

所述静态算法部分利用SSD算法针对静态物体的相对位置关系进行识别，得到位置后与标准答案中的位置进行比对，提供给评分模块进而给出评分；

2.如权利要求1所述的***，其特征在于，在实验练习场景，所述学生端(1)可以获取所述数据库(5)中的视频数据，并在学生客户端上进行播放，以指导第一用户进行实验操作。

3.如权利要求1所述的***，其特征在于，在实验考试或实验练习场景，所述学生端(1)通过视频采集装置获取第一用户的视频数据，并将视频数据上传至所述服务器端(3)；所述算法模块(4)根据学生端(1)上传的视频数据，结合所述数据库(5)中的信息，对所述视频数据进行识别、分类、自动评分和给出错误报告，并将所述评分和错误报告传输到所述教师端(2)和学生端(1)。