CN116739859A

CN116739859A - 一种线上教学问答互动的方法及***

Info

Publication number: CN116739859A
Application number: CN202311023162.2A
Authority: CN
Inventors: 李慧勤; 周威; 董刚
Original assignee: Creative Knowledge Beijing Education Technology Co ltd
Current assignee: Creative Knowledge Beijing Education Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-09-12

Abstract

本发明涉及线上教育领域，公开了一种线上教学问答互动的方法及***。本发明针对当前线上教育模式下，老师和学生存在难以问答互动的难点，提出了在音频视频传输的基础上，分别以语音算法模块和视觉算法模块来进行提问模式和回答模式的识别，实现了线上教学场景中自动识别老师的提问场景和学生的问答场景，解决了当前线上教育***因多终端输出存在的多屏共存、多音源播放而导致的难以进行教学问答互动的问题。

Description

一种线上教学问答互动的方法及***

技术领域

本发明属于线上教育领域，具体涉及一种线上教学问答互动的方法及***。

背景技术

近年来，随着互联网、多媒体技术的发展以及手机、平板电脑等终端的普及，线上教育走过了诞生、探索时期，正慢慢走向成熟阶段。在线教育能够打破时间和空间的限制，使学生足不出户就能享受海量教育资源，对传统教育起到了极大的补充作用。同时，相比传统教育，在线教育在课程选课、课程管理、教学方法、成绩评估、学习效率、时间空间、教学资源等方面都具备一定的优势。而且对于一些如人员空间上难以流动、避免人员接触的特殊的场景或时期，线上教学更是有着不可替代的作用。

但是，对于当前的线上教育模式，在线上的授课和上课过程中，由于受限于多媒体设备和现有技术，老师与学生难以进行问答互动，这使得线上教育难以还原真实教学场景中的氛围，导致授课过程容易变成单向输出的填鸭式教学模式，其教学效果也将受到很大程度的影响。

发明内容

针对当前线上教育存在的难点和不足，本发明提出了一种线上教学问答互动的方法及***。

一种线上教学问答互动***，包括教师***侧和学生侧，具体地，教师***侧和学生***侧都包括图像采集模块、语音采集模块、计算模块和显示模块，其中，所述图像采集模块用于采集图像信号，所述语音采集模块用于采集语音信号，所述计算模块用于数值计算，所述显示模块用于音频、视频和信息显示，

一种线上教学问答互动方法，包括步骤：

步骤S1，线上教学***开启并建立教师***侧和学生***侧的通信连接，教师和学生分别在教师***侧和学生***侧登录线上教学***；

步骤S2，教师***侧中的图像采集装置和语音采集装置分别对教师进行图像采集和语音采集，并将对其后的音频和视频发送给所述学生***侧；

步骤S3，学生***侧中的图像采集装置和语音采集装置分别对学生进行图像采集和语音采集，并将对其后的音频和视频发送给所述教师***侧；

步骤S4，所述学生***侧接收所述教师***侧发送的视频和音频并进行显示；所述教师***侧接收所述学生***侧发送的音频和视频并进行显示；

步骤S5，由教师***侧根据采集到的语音执行提问模式识别过程，由学生***侧根据采集到的图像执行回答模式识别过程，具体地，

提问模式识别过程包括步骤：

步骤A1，由教师***侧内的计算模块对采集到的语音进行语音转文本识别，并根据语音转文本识别的结果来判断该文本是否为提问语句，具体识别过程包括步骤：

步骤A101，对采集到的音频进行预处理，具体地，预处理是对音频进行降噪处理，其计算公式为：

式中，表示经过特征提取后的带噪音频，/>表示带噪音频，/>表示纯净音频，/>表示噪声音频，i表示时域帧，k表示频点，

LSTM表示训练得到的神经网络，其训练方式是用学生***侧播放音频时的背景声进行训练得到，Infer_post表示用训练得到的神经网络模型进行推理和后处理过程。

步骤A102，对预处理后的音频进行特征提取，即通过语音频谱图将音频信号转为频谱特征，得到特征向量；

步骤A103，由声学模型根据声学特性计算每一个特征向量在声学特征上的概率，得到因素信息；

步骤A104，由语言模型根据得到的因素信息，获取不同词组序列的概率，

步骤A105，对词组序列根据字典进行解码，得到最终文本；

其中，判断该文本是否为提问语句具体是根据分类器的输出标签，来判断是否为提问，其计算方式为：

式中，表示支持分类器，其训练方式是用“提问”和“非提问”作为标签，用教学中的文本来训练SVM支持向量机作为分类器，/>表示分类器输出为对应标签的概率，/>表示进行特征提取并进行矩阵表示后的输入文本，/>表示训练分类器的标签,/>表示最终输出的标签；

如果分类器输出最终为标签“提问”时，则判断该输入文本为提问语句，否则判断该输入文本为非提问语句。

步骤A2，如果判断该文本是提问语句，则将语音转文本识别的结果转进行定位和截取，并将截取的文字发送给所述学生***侧，具体地，

当输入文本为提问语句时，则从该文本进行定位，否则跳过该文本并进行下一文本的判断；

进一步地，再根据语境判断该文本与上一文本的关联程度，如果上一文本也判断为提问语句，则认为上一文本与该文本存在关联，从而截取该文本和上一文本的文字进行合并和输出，否则只截取该语句文字进行输出。

步骤A3，所述学生***侧接收所述教师***侧发送的文字，开启定时任务并由学生***侧的显示模块对接收的文字进行显示；

步骤A4，在定时任务内，学生***侧的图像采集装置按照设定的频率F1（可选地，）对学生进行图像采集，并由采集到的图像进行举手识别，具体识别过程包括步骤：

步骤A401，由特征提取网络对输入的图像进行特征提取，具体计算公式为：

式中，表示训练得到的特征提取模型，其训练方式是用包含手臂的人员图像进行训练得到，/>表示输入的图像，w和h分别表示输入图像的宽和高，/>表示CNN输出的三个尺度的特征图；

步骤A402，在特征提取得到的特征图上进行分类和回归预测，得到目标的坐标框信息和类别信息，具体计算公式为：

式中，表示特征融合操作，/>表示特征融合后得到的特征图，/>表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程，

其中，在由特征图进行目标框预测时，是直接在特征图/>上预测目标的左上角和右下角的坐标/>，去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程；

分别表示预测的类别和预测的坐标框，/>和/>分别表示目标的左上角坐标与右下角坐标；

步骤A403，根据得到的手臂坐标信息，由设定的规则判断是否存在举手动作，具体判断规则包括：

规则一：检测到手臂且手臂为非水平状态，计算公式为：

式中，和/>分别表示目标的左上角坐标与右下角坐标。

规则二：时间大于设定的阈值，计算公式为：

式中，表示检测到举手目标后的累计时间/>，表示设置的阈值；

当规则一和规则二同时成立，则认为检测到了举手动作，否则认为没有发生举手动作。

步骤A5，如果检测到学生举手动作，则由学生***侧计算初从定时任务开启到学生举手的具体时间，并将学生的姓名和举手时间发送给教师***侧。

步骤A6，所述教师***侧接收所有所述学生***侧发送过来的举手学生姓名和举手时间建立举手学生姓名时间表，按照举手时间从小到大的顺序对举手学生姓名时间表进行排序，并将排序后的结果显示在教师***侧的显示模块上。

回答模式识别过程包括步骤：

步骤B1，学生***侧的图像采集装置按照设定的频率F2（可选地，）对学生进行图像采集，并由采集到的图像进行举手识别，具体识别过程包括步骤：

步骤B101，由特征提取网络对输入的图像进行特征提取，具体计算公式为：

步骤B102，在特征提取得到的特征图上进行分类和回归预测，得到目标的坐标框信息和类别信息，具体计算公式为：

其中，在由特征图进行目标框预测时，是直接在特征图/>上预测目标的左上角/>和右下角的坐标/>，去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程；

步骤B103，根据得到的手臂坐标信息，由设定的规则判断是否存在举手动作，具体判断规则包括：

规则一：检测到手臂且手臂为非水平状态，计算公式为：

式中，和/>分别表示目标的左上角坐标与右下角坐标。

规则二：时间大于设定的阈值，计算公式为：

步骤B2，如果检测到学生的举手动作，则由学生***侧的计算模块对采集到的语音进行语音转文本识别，并将语音转文本识别的结果和学生的姓名一起发送给所述教师***侧，具体识别过程包括步骤：

步骤B201，对采集到的音频进行预处理，具体地，预处理是对音频进行降噪处理，其计算公式为：

LSTM表示训练得到的神经网络，其训练方式是用学生***侧播放音频时的背景声进行训练得到，Infer_post表示用训练得到的神经网络模型进行推理和后处理过程；

步骤B202，对预处理后的音频进行特征提取，即通过语音频谱图将音频信号转为频谱特征，得到特征向量；

步骤B203，由声学模型根据声学特性计算每一个特征向量在声学特征上的概率，得到因素信息；

步骤B204，由语言模型根据得到的因素信息，获取不同词组序列的概率，

步骤B205，对词组序列根据字典进行解码，得到最终文本。

步骤B3，所述教师***侧接收所述学生***侧发送过来的文字和学生的姓名，并由教师***侧的显示模块对学生的姓名和提问的文字进行显示。

本发明提出了一种线上教学问答互动的方法及***，与现有的技术相比，具有以下有益效果：

本发明针对当前线上教育模式下，老师和学生存在难以问答互动的难点，提出了在音频视频传输的基础上，分别以语音算法模块和视觉算法模块来进行提问模式和回答模式的识别，实现了线上教学场景中自动识别老师的提问场景和学生的问答场景，解决了当前线上教育***因多终端输出存在的多屏共存、多音源播放而导致的难以进行教学问答互动的问题。

本发明提供的***和方法，在视觉算法进行目标检测的基础上，提出了举手动作的识别方法，为后续的提问模式和问答模式提供了依据。

本发明提供的***和方法，根据实际线上教学场景中存在多音源播放而导致语音识别算法存在干扰的问题，提出了训练深度学习网络拟合环境噪声来来对音频进行降噪处理，能够有效地去除线上教学环境因为音频播放导致的干扰，从而提高算法识别的准确率。

本发明考虑到实际应用场景中，其终端设备算力存在不足，提出了一种去掉先验眶的检测算法来进行目标检测，有效地提高了算法的推理速度，实现了举手动作的检测算法能够在一些互联网终端产品上的快速推理。

本发明提供的***和方法，在语音识别的基础上，提出了训练分类器来进行问题语句和非问题语句的识别，在小计算量的前提下实现了问题语句和非问题语句的定位，能够为后续问题语句的定位和截取提供依据。

本发明提供的***和方法，在问题语句和非问题语句的基础上，提出了问题语句的定位和截取的方法，并对问题语句进行文字显示，使得线上教育过程中的问答互动更加直观和生动。

附图说明

图1是本发明的流程示意图；

图2是本发明的***结构意图。

具体实施方式

为了使本发明的目的、特征能够更加的明显和易懂，下面通过实施例并结合附图对本技术方案进行详细说明。

如图2所示，一种线上教学问答互动***，包括教师***侧和学生侧，具体地，教师***侧和学生***侧都包括图像采集模块、语音采集模块、计算模块和显示模块，其中，所述图像采集模块用于采集图像信号，所述语音采集模块用于采集语音信号，所述计算模块用于数值计算，所述显示模块用于音频、视频和信息显示，

如图1所示，一种线上教学问答互动方法，包括步骤：

在实际的应用场景中，其学生***侧需要保证成像清晰，且成像范围能够覆盖上半身。

可选地，根据具体实施情况，一台教师***侧可根据配置情况连接多台学生***侧。

优选地，视频传输协议可选择RTSP。

在具体实施过程中，在将采集到的音频和视频进行发送之前，还包括的步骤是将采集到的图像和语音分别编码成视频和音频并进行对齐。

提问模式识别过程包括步骤：

式中，表示经过特征提取后的带噪音频，/>表示带噪音频，/>表示纯净音频，/>表示噪声音频，i表示时域帧，k表示频点；

由于实际线上教学场景中存在多音源播放而导致语音识别算法存在干扰的问题，本发明提出了训练深度学习网络拟合环境噪声来来对音频进行降噪处理，能够有效地去除线上教学环境因为音频播放导致的干扰，从而提高算法识别的准确率。

步骤A105，对词组序列根据字典进行解码，得到最终文本；

本发明在语音识别的基础上，提出了训练分类器来进行问题语句和非问题语句的识别，在小计算量的前提下实现了问题语句和非问题语句的定位，能够为后续问题语句的定位和截取提供依据。

可选地，在具体实施过程中，根据算法的复杂程度不同和实际设备算力的不同，语音转文本识别的结果的截取还可以是陈述句和疑问句的转换。

步骤A3，所述学生***侧接收所述教师***侧发送的文字，开启定时任务并由学生***侧的显示模块对接收的文字进行显示。

本发明在判断问题语句和非问题语句的基础上，提出了问题语句的定位和截取的方法，并对问题语句进行文字显示，使得线上教育过程中的问答互动更加直观和生动。

步骤A4，在定时任务内，学生***侧的图像采集装置按照设定的频率F1对学生进行图像采集，并由采集到的图像进行举手识别，

可选地，频率F1根据设备的算力进行设置。

具体识别过程包括步骤：

其中，在由特征图进行目标框预测时，是直接在特征图/>上预测目标的左上角和右下角的坐标/>，去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程。

分别表示预测的类别和预测的坐标框，/>和/>分别表示目标的左上角坐标与右下角坐标。

考虑到实际应用场景中，其终端设备算力存在不足，本发明提出了一种去掉先验眶的检测算法来进行目标检测，有效地提高了算法的推理速度，实现了举手动作的检测算法能够在一些互联网终端产品上的快速推理。

规则一：检测到手臂且手臂为非水平状态，计算公式为：

式中，和/>分别表示目标的左上角坐标与右下角坐标。

规则二：时间大于设定的阈值，计算公式为：

本发明在视觉算法进行目标检测的基础上，提出了举手动作的识别方法，为后续的提问模式和问答模式提供了依据。

回答模式识别过程包括步骤：

式中，表示训练得到的特征提取模型，其训练方式是用包含手臂的人员图像进行训练得到，/>表示输入的图像，w和h分别表示输入图像的宽和高，/>表示CNN输出的三个尺度的特征图。

式中，表示特征融合操作，/>表示特征融合后得到的特征图，表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程，

规则一：检测到手臂且手臂为非水平状态，计算公式为：

式中，和/>分别表示目标的左上角坐标与右下角坐标。

规则二：时间大于设定的阈值，计算公式为：

步骤B205，对词组序列根据字典进行解码，得到最终文本。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种线上教学问答互动的方法，包括步骤：

步骤S5，由教师***侧根据采集到的语音执行提问模式识别过程，由学生***侧根据采集到的图像执行回答模式识别过程。

2.根据权利要求1所述的一种线上教学问答互动的方法，其特征在于，步骤S5中所述的提问模式识别过程包括步骤：

步骤A1，由教师***侧内的计算模块对采集到的语音进行语音转文本识别，并根据语音转文本识别的结果来判断该文本是否为提问语句；

步骤A2，如果判断该文本是提问语句，则将语音转文本识别的结果转进行定位和截取，并将截取的文字发送给所述学生***侧；

步骤A4，在定时任务内，学生***侧的图像采集装置按照设定的频率F1对学生进行图像采集，并由采集到的图像进行举手识别；

步骤A5，如果检测到学生举手动作，则由学生***侧计算初从定时任务开启到学生举手的具体时间，并将学生的姓名和举手时间发送给教师***侧；

3.根据权利要求2所述的一种线上教学问答互动的方法，其特征在于，步骤S5中所述的回答模式识别过程包括步骤：

步骤B1，学生***侧的图像采集装置按照设定的频率F2对学生进行图像采集，并由采集到的图像进行举手识别；

步骤B2，如果检测到学生的举手动作，则由学生***侧的计算模块对采集到的语音进行语音转文本识别，并将语音转文本识别的结果和学生的姓名一起发送给所述教师***侧；

4.根据权利要求3所述的一种线上教学问答互动的方法，其特征在于，步骤A1和步骤B2中所述的语音转文本识别，具体步骤包括：

步骤C1，对采集到的音频进行预处理；

步骤C2，对预处理后的音频进行特征提取，即通过语音频谱图将音频信号转为频谱特征，得到特征向量；

步骤C3，由声学模型根据声学特性计算每一个特征向量在声学特征上的概率，得到因素信息；

步骤C4，由语言模型根据得到的因素信息，获取不同词组序列的概率;

步骤C5，对词组序列根据字典进行解码，得到最终文本。

5.根据权利要求4所述的一种线上教学问答互动的方法，其特征在于，步骤C1中所述的对采集到的音频进行预处理，具体是对音频进行降噪处理，计算公式为：

;

表示训练得到的神经网络，其训练方式是用学生***侧播放音频时的背景声进行训练得到，/>表示用训练得到的神经网络模型进行推理和后处理过程。

6.根据权利要求2所述的一种线上教学问答互动的方法，其特征在于，步骤A1中所述的根据语音转文本识别的结果来判断该文本是否为提问语句，具体是根据分类器的输出标签，来判断是否为提问，具体计算方式为：

；

7.根据权利要求2所述的一种线上教学问答互动的方法，其特征在于，步骤A2中所述的将语音转文本识别的结果转进行定位和截取，具体地，

再根据语境判断该文本与上一文本的关联程度，如果上一文本也判断为提问语句，则认为上一文本与该文本存在关联，截取该文本和上一文本的文字进行合并和输出，否则只截取该语句文字进行输出。

8.根据权利要求3所述的一种线上教学问答互动的方法，其特征在于，步骤A4和步骤B1中所述的举手识别，具体包括步骤：

步骤D1，由特征提取网络对输入的图像进行特征提取，具体计算公式为：

；

步骤D2，在特征提取得到的特征图上进行分类和回归预测，得到目标的坐标框信息和类别信息，具体计算公式为：

；

式中，表示特征融合操作，/>表示特征融合后得到的特征图，/>表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程；

步骤D3，根据得到的手臂坐标信息，由设定的规则判断是否存在举手动作。

9.根据权利要求7所述的一种线上教学问答互动的方法，其特征在于，步骤D3中所述的规则判断，具体包括：

规则一：检测到手臂且手臂为非水平状态，计算公式为：

；

式中，和/>分别表示目标的左上角坐标与右下角坐标；

规则二：时间大于设定的阈值，计算公式为：

；

式中，表示检测到举手目标后的累计时间，/>表示设置的阈值；

当规则一和规则二同时成立时，则认为检测到了举手动作，否则认为没有发生举手动作。

10.一种线上教学问答互动的***，包括教师***侧和学生侧，其特征在于，教师***侧和学生***侧都包括图像采集模块、语音采集模块、计算模块和显示模块，其中，所述图像采集模块用于采集图像信号，所述语音采集模块用于采集语音信号，所述计算模块用于数值计算，所述显示模块用于音频、视频和信息显示；实现如权利要求1-9任意一项所述的一种线上教学问答互动的方法。