CN116739859A - 一种线上教学问答互动的方法及*** - Google Patents

一种线上教学问答互动的方法及*** Download PDF

Info

Publication number
CN116739859A
CN116739859A CN202311023162.2A CN202311023162A CN116739859A CN 116739859 A CN116739859 A CN 116739859A CN 202311023162 A CN202311023162 A CN 202311023162A CN 116739859 A CN116739859 A CN 116739859A
Authority
CN
China
Prior art keywords
system side
text
student
representing
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311023162.2A
Other languages
English (en)
Inventor
李慧勤
周威
董刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Knowledge Beijing Education Technology Co ltd
Original Assignee
Creative Knowledge Beijing Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Knowledge Beijing Education Technology Co ltd filed Critical Creative Knowledge Beijing Education Technology Co ltd
Priority to CN202311023162.2A priority Critical patent/CN116739859A/zh
Publication of CN116739859A publication Critical patent/CN116739859A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/14Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Acoustics & Sound (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及线上教育领域,公开了一种线上教学问答互动的方法及***。本发明针对当前线上教育模式下,老师和学生存在难以问答互动的难点,提出了在音频视频传输的基础上,分别以语音算法模块和视觉算法模块来进行提问模式和回答模式的识别,实现了线上教学场景中自动识别老师的提问场景和学生的问答场景,解决了当前线上教育***因多终端输出存在的多屏共存、多音源播放而导致的难以进行教学问答互动的问题。

Description

一种线上教学问答互动的方法及***
技术领域
本发明属于线上教育领域,具体涉及一种线上教学问答互动的方法及***。
背景技术
近年来,随着互联网、多媒体技术的发展以及手机、平板电脑等终端的普及,线上教育走过了诞生、探索时期,正慢慢走向成熟阶段。在线教育能够打破时间和空间的限制,使学生足不出户就能享受海量教育资源,对传统教育起到了极大的补充作用。同时,相比传统教育,在线教育在课程选课、课程管理、教学方法、成绩评估、学习效率、时间空间、教学资源等方面都具备一定的优势。而且对于一些如人员空间上难以流动、避免人员接触的特殊的场景或时期,线上教学更是有着不可替代的作用。
但是,对于当前的线上教育模式,在线上的授课和上课过程中,由于受限于多媒体设备和现有技术,老师与学生难以进行问答互动,这使得线上教育难以还原真实教学场景中的氛围,导致授课过程容易变成单向输出的填鸭式教学模式,其教学效果也将受到很大程度的影响。
发明内容
针对当前线上教育存在的难点和不足,本发明提出了一种线上教学问答互动的方法及***。
一种线上教学问答互动***,包括教师***侧和学生侧,具体地,教师***侧和学生***侧都包括图像采集模块、语音采集模块、计算模块和显示模块,其中,所述图像采集模块用于采集图像信号,所述语音采集模块用于采集语音信号,所述计算模块用于数值计算,所述显示模块用于音频、视频和信息显示,
一种线上教学问答互动方法,包括步骤:
步骤S1,线上教学***开启并建立教师***侧和学生***侧的通信连接,教师和学生分别在教师***侧和学生***侧登录线上教学***;
步骤S2,教师***侧中的图像采集装置和语音采集装置分别对教师进行图像采集和语音采集,并将对其后的音频和视频发送给所述学生***侧;
步骤S3,学生***侧中的图像采集装置和语音采集装置分别对学生进行图像采集和语音采集,并将对其后的音频和视频发送给所述教师***侧;
步骤S4,所述学生***侧接收所述教师***侧发送的视频和音频并进行显示;所述教师***侧接收所述学生***侧发送的音频和视频并进行显示;
步骤S5,由教师***侧根据采集到的语音执行提问模式识别过程,由学生***侧根据采集到的图像执行回答模式识别过程,具体地,
提问模式识别过程包括步骤:
步骤A1,由教师***侧内的计算模块对采集到的语音进行语音转文本识别,并根据语音转文本识别的结果来判断该文本是否为提问语句,具体识别过程包括步骤:
步骤A101,对采集到的音频进行预处理,具体地,预处理是对音频进行降噪处理,其计算公式为:
式中,表示经过特征提取后的带噪音频,/>表示带噪音频,/>表示纯净音频,/>表示噪声音频,i表示时域帧,k表示频点,
LSTM表示训练得到的神经网络,其训练方式是用学生***侧播放音频时的背景声进行训练得到,Infer_post表示用训练得到的神经网络模型进行推理和后处理过程。
步骤A102,对预处理后的音频进行特征提取,即通过语音频谱图将音频信号转为频谱特征,得到特征向量;
步骤A103,由声学模型根据声学特性计算每一个特征向量在声学特征上的概率,得到因素信息;
步骤A104,由语言模型根据得到的因素信息,获取不同词组序列的概率,
步骤A105,对词组序列根据字典进行解码,得到最终文本;
其中,判断该文本是否为提问语句具体是根据分类器的输出标签,来判断是否为提问,其计算方式为:
式中,表示支持分类器,其训练方式是用“提问”和“非提问”作为标签,用教学中的文本来训练SVM支持向量机作为分类器,/>表示分类器输出为对应标签的概率,/>表示进行特征提取并进行矩阵表示后的输入文本,/>表示训练分类器的标签,/>表示最终输出的标签;
如果分类器输出最终为标签“提问”时,则判断该输入文本为提问语句,否则判断该输入文本为非提问语句。
步骤A2,如果判断该文本是提问语句,则将语音转文本识别的结果转进行定位和截取,并将截取的文字发送给所述学生***侧,具体地,
当输入文本为提问语句时,则从该文本进行定位,否则跳过该文本并进行下一文本的判断;
进一步地,再根据语境判断该文本与上一文本的关联程度,如果上一文本也判断为提问语句,则认为上一文本与该文本存在关联,从而截取该文本和上一文本的文字进行合并和输出,否则只截取该语句文字进行输出。
步骤A3,所述学生***侧接收所述教师***侧发送的文字,开启定时任务并由学生***侧的显示模块对接收的文字进行显示;
步骤A4,在定时任务内,学生***侧的图像采集装置按照设定的频率F1(可选地,)对学生进行图像采集,并由采集到的图像进行举手识别,具体识别过程包括步骤:
步骤A401,由特征提取网络对输入的图像进行特征提取,具体计算公式为:
式中,表示训练得到的特征提取模型,其训练方式是用包含手臂的人员图像进行训练得到,/>表示输入的图像,w和h分别表示输入图像的宽和高,/>表示CNN输出的三个尺度的特征图;
步骤A402,在特征提取得到的特征图上进行分类和回归预测,得到目标的坐标框信息和类别信息,具体计算公式为:
式中,表示特征融合操作,/>表示特征融合后得到的特征图,/>表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程,
其中,在由特征图进行目标框预测时,是直接在特征图/>上预测目标的左上角和右下角的坐标/>,去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程;
分别表示预测的类别和预测的坐标框,/>和/>分别表示目标的左上角坐标与右下角坐标;
步骤A403,根据得到的手臂坐标信息,由设定的规则判断是否存在举手动作,具体判断规则包括:
规则一:检测到手臂且手臂为非水平状态,计算公式为:
式中,和/>分别表示目标的左上角坐标与右下角坐标。
规则二:时间大于设定的阈值,计算公式为:
式中,表示检测到举手目标后的累计时间/>,表示设置的阈值;
当规则一和规则二同时成立,则认为检测到了举手动作,否则认为没有发生举手动作。
步骤A5,如果检测到学生举手动作,则由学生***侧计算初从定时任务开启到学生举手的具体时间,并将学生的姓名和举手时间发送给教师***侧。
步骤A6,所述教师***侧接收所有所述学生***侧发送过来的举手学生姓名和举手时间建立举手学生姓名时间表,按照举手时间从小到大的顺序对举手学生姓名时间表进行排序,并将排序后的结果显示在教师***侧的显示模块上。
回答模式识别过程包括步骤:
步骤B1,学生***侧的图像采集装置按照设定的频率F2(可选地,)对学生进行图像采集,并由采集到的图像进行举手识别,具体识别过程包括步骤:
步骤B101,由特征提取网络对输入的图像进行特征提取,具体计算公式为:
式中,表示训练得到的特征提取模型,其训练方式是用包含手臂的人员图像进行训练得到,/>表示输入的图像,w和h分别表示输入图像的宽和高,/>表示CNN输出的三个尺度的特征图;
步骤B102,在特征提取得到的特征图上进行分类和回归预测,得到目标的坐标框信息和类别信息,具体计算公式为:
式中,表示特征融合操作,/>表示特征融合后得到的特征图,/>表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程,
其中,在由特征图进行目标框预测时,是直接在特征图/>上预测目标的左上角/>和右下角的坐标/>,去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程;
分别表示预测的类别和预测的坐标框,/>和/>分别表示目标的左上角坐标与右下角坐标;
步骤B103,根据得到的手臂坐标信息,由设定的规则判断是否存在举手动作,具体判断规则包括:
规则一:检测到手臂且手臂为非水平状态,计算公式为:
式中,和/>分别表示目标的左上角坐标与右下角坐标。
规则二:时间大于设定的阈值,计算公式为:
式中,表示检测到举手目标后的累计时间/>,表示设置的阈值;
当规则一和规则二同时成立,则认为检测到了举手动作,否则认为没有发生举手动作。
步骤B2,如果检测到学生的举手动作,则由学生***侧的计算模块对采集到的语音进行语音转文本识别,并将语音转文本识别的结果和学生的姓名一起发送给所述教师***侧,具体识别过程包括步骤:
步骤B201,对采集到的音频进行预处理,具体地,预处理是对音频进行降噪处理,其计算公式为:
式中,表示经过特征提取后的带噪音频,/>表示带噪音频,/>表示纯净音频,/>表示噪声音频,i表示时域帧,k表示频点,
LSTM表示训练得到的神经网络,其训练方式是用学生***侧播放音频时的背景声进行训练得到,Infer_post表示用训练得到的神经网络模型进行推理和后处理过程;
步骤B202,对预处理后的音频进行特征提取,即通过语音频谱图将音频信号转为频谱特征,得到特征向量;
步骤B203,由声学模型根据声学特性计算每一个特征向量在声学特征上的概率,得到因素信息;
步骤B204,由语言模型根据得到的因素信息,获取不同词组序列的概率,
步骤B205,对词组序列根据字典进行解码,得到最终文本。
步骤B3,所述教师***侧接收所述学生***侧发送过来的文字和学生的姓名,并由教师***侧的显示模块对学生的姓名和提问的文字进行显示。
本发明提出了一种线上教学问答互动的方法及***,与现有的技术相比,具有以下有益效果:
本发明针对当前线上教育模式下,老师和学生存在难以问答互动的难点,提出了在音频视频传输的基础上,分别以语音算法模块和视觉算法模块来进行提问模式和回答模式的识别,实现了线上教学场景中自动识别老师的提问场景和学生的问答场景,解决了当前线上教育***因多终端输出存在的多屏共存、多音源播放而导致的难以进行教学问答互动的问题。
本发明提供的***和方法,在视觉算法进行目标检测的基础上,提出了举手动作的识别方法,为后续的提问模式和问答模式提供了依据。
本发明提供的***和方法,根据实际线上教学场景中存在多音源播放而导致语音识别算法存在干扰的问题,提出了训练深度学习网络拟合环境噪声来来对音频进行降噪处理,能够有效地去除线上教学环境因为音频播放导致的干扰,从而提高算法识别的准确率。
本发明考虑到实际应用场景中,其终端设备算力存在不足,提出了一种去掉先验眶的检测算法来进行目标检测,有效地提高了算法的推理速度,实现了举手动作的检测算法能够在一些互联网终端产品上的快速推理。
本发明提供的***和方法,在语音识别的基础上,提出了训练分类器来进行问题语句和非问题语句的识别,在小计算量的前提下实现了问题语句和非问题语句的定位,能够为后续问题语句的定位和截取提供依据。
本发明提供的***和方法,在问题语句和非问题语句的基础上,提出了问题语句的定位和截取的方法,并对问题语句进行文字显示,使得线上教育过程中的问答互动更加直观和生动。
附图说明
图1是本发明的流程示意图;
图2是本发明的***结构意图。
具体实施方式
为了使本发明的目的、特征能够更加的明显和易懂,下面通过实施例并结合附图对本技术方案进行详细说明。
如图2所示,一种线上教学问答互动***,包括教师***侧和学生侧,具体地,教师***侧和学生***侧都包括图像采集模块、语音采集模块、计算模块和显示模块,其中,所述图像采集模块用于采集图像信号,所述语音采集模块用于采集语音信号,所述计算模块用于数值计算,所述显示模块用于音频、视频和信息显示,
如图1所示,一种线上教学问答互动方法,包括步骤:
步骤S1,线上教学***开启并建立教师***侧和学生***侧的通信连接,教师和学生分别在教师***侧和学生***侧登录线上教学***;
在实际的应用场景中,其学生***侧需要保证成像清晰,且成像范围能够覆盖上半身。
可选地,根据具体实施情况,一台教师***侧可根据配置情况连接多台学生***侧。
优选地,视频传输协议可选择RTSP。
步骤S2,教师***侧中的图像采集装置和语音采集装置分别对教师进行图像采集和语音采集,并将对其后的音频和视频发送给所述学生***侧;
步骤S3,学生***侧中的图像采集装置和语音采集装置分别对学生进行图像采集和语音采集,并将对其后的音频和视频发送给所述教师***侧;
在具体实施过程中,在将采集到的音频和视频进行发送之前,还包括的步骤是将采集到的图像和语音分别编码成视频和音频并进行对齐。
步骤S4,所述学生***侧接收所述教师***侧发送的视频和音频并进行显示;所述教师***侧接收所述学生***侧发送的音频和视频并进行显示;
步骤S5,由教师***侧根据采集到的语音执行提问模式识别过程,由学生***侧根据采集到的图像执行回答模式识别过程,具体地,
提问模式识别过程包括步骤:
步骤A1,由教师***侧内的计算模块对采集到的语音进行语音转文本识别,并根据语音转文本识别的结果来判断该文本是否为提问语句,具体识别过程包括步骤:
步骤A101,对采集到的音频进行预处理,具体地,预处理是对音频进行降噪处理,其计算公式为:
式中,表示经过特征提取后的带噪音频,/>表示带噪音频,/>表示纯净音频,/>表示噪声音频,i表示时域帧,k表示频点;
LSTM表示训练得到的神经网络,其训练方式是用学生***侧播放音频时的背景声进行训练得到,Infer_post表示用训练得到的神经网络模型进行推理和后处理过程。
由于实际线上教学场景中存在多音源播放而导致语音识别算法存在干扰的问题,本发明提出了训练深度学习网络拟合环境噪声来来对音频进行降噪处理,能够有效地去除线上教学环境因为音频播放导致的干扰,从而提高算法识别的准确率。
步骤A102,对预处理后的音频进行特征提取,即通过语音频谱图将音频信号转为频谱特征,得到特征向量;
步骤A103,由声学模型根据声学特性计算每一个特征向量在声学特征上的概率,得到因素信息;
步骤A104,由语言模型根据得到的因素信息,获取不同词组序列的概率,
步骤A105,对词组序列根据字典进行解码,得到最终文本;
其中,判断该文本是否为提问语句具体是根据分类器的输出标签,来判断是否为提问,其计算方式为:
式中,表示支持分类器,其训练方式是用“提问”和“非提问”作为标签,用教学中的文本来训练SVM支持向量机作为分类器,/>表示分类器输出为对应标签的概率,/>表示进行特征提取并进行矩阵表示后的输入文本,/>表示训练分类器的标签,/>表示最终输出的标签;
如果分类器输出最终为标签“提问”时,则判断该输入文本为提问语句,否则判断该输入文本为非提问语句。
本发明在语音识别的基础上,提出了训练分类器来进行问题语句和非问题语句的识别,在小计算量的前提下实现了问题语句和非问题语句的定位,能够为后续问题语句的定位和截取提供依据。
步骤A2,如果判断该文本是提问语句,则将语音转文本识别的结果转进行定位和截取,并将截取的文字发送给所述学生***侧,具体地,
当输入文本为提问语句时,则从该文本进行定位,否则跳过该文本并进行下一文本的判断;
进一步地,再根据语境判断该文本与上一文本的关联程度,如果上一文本也判断为提问语句,则认为上一文本与该文本存在关联,从而截取该文本和上一文本的文字进行合并和输出,否则只截取该语句文字进行输出。
可选地,在具体实施过程中,根据算法的复杂程度不同和实际设备算力的不同,语音转文本识别的结果的截取还可以是陈述句和疑问句的转换。
步骤A3,所述学生***侧接收所述教师***侧发送的文字,开启定时任务并由学生***侧的显示模块对接收的文字进行显示。
本发明在判断问题语句和非问题语句的基础上,提出了问题语句的定位和截取的方法,并对问题语句进行文字显示,使得线上教育过程中的问答互动更加直观和生动。
步骤A4,在定时任务内,学生***侧的图像采集装置按照设定的频率F1对学生进行图像采集,并由采集到的图像进行举手识别,
可选地,频率F1根据设备的算力进行设置。
具体识别过程包括步骤:
步骤A401,由特征提取网络对输入的图像进行特征提取,具体计算公式为:
式中,表示训练得到的特征提取模型,其训练方式是用包含手臂的人员图像进行训练得到,/>表示输入的图像,w和h分别表示输入图像的宽和高,/>表示CNN输出的三个尺度的特征图;
步骤A402,在特征提取得到的特征图上进行分类和回归预测,得到目标的坐标框信息和类别信息,具体计算公式为:
式中,表示特征融合操作,/>表示特征融合后得到的特征图,/>表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程,
其中,在由特征图进行目标框预测时,是直接在特征图/>上预测目标的左上角和右下角的坐标/>,去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程。
分别表示预测的类别和预测的坐标框,/>和/>分别表示目标的左上角坐标与右下角坐标。
考虑到实际应用场景中,其终端设备算力存在不足,本发明提出了一种去掉先验眶的检测算法来进行目标检测,有效地提高了算法的推理速度,实现了举手动作的检测算法能够在一些互联网终端产品上的快速推理。
步骤A403,根据得到的手臂坐标信息,由设定的规则判断是否存在举手动作,具体判断规则包括:
规则一:检测到手臂且手臂为非水平状态,计算公式为:
式中,和/>分别表示目标的左上角坐标与右下角坐标。
规则二:时间大于设定的阈值,计算公式为:
式中,表示检测到举手目标后的累计时间/>,表示设置的阈值;
当规则一和规则二同时成立,则认为检测到了举手动作,否则认为没有发生举手动作。
本发明在视觉算法进行目标检测的基础上,提出了举手动作的识别方法,为后续的提问模式和问答模式提供了依据。
步骤A5,如果检测到学生举手动作,则由学生***侧计算初从定时任务开启到学生举手的具体时间,并将学生的姓名和举手时间发送给教师***侧。
步骤A6,所述教师***侧接收所有所述学生***侧发送过来的举手学生姓名和举手时间建立举手学生姓名时间表,按照举手时间从小到大的顺序对举手学生姓名时间表进行排序,并将排序后的结果显示在教师***侧的显示模块上。
回答模式识别过程包括步骤:
步骤B1,学生***侧的图像采集装置按照设定的频率F2(可选地,)对学生进行图像采集,并由采集到的图像进行举手识别,具体识别过程包括步骤:
步骤B101,由特征提取网络对输入的图像进行特征提取,具体计算公式为:
式中,表示训练得到的特征提取模型,其训练方式是用包含手臂的人员图像进行训练得到,/>表示输入的图像,w和h分别表示输入图像的宽和高,/>表示CNN输出的三个尺度的特征图。
步骤B102,在特征提取得到的特征图上进行分类和回归预测,得到目标的坐标框信息和类别信息,具体计算公式为:
式中,表示特征融合操作,/>表示特征融合后得到的特征图,表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程,
其中,在由特征图进行目标框预测时,是直接在特征图/>上预测目标的左上角和右下角的坐标/>,去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程。
考虑到实际应用场景中,其终端设备算力存在不足,本发明提出了一种去掉先验眶的检测算法来进行目标检测,有效地提高了算法的推理速度,实现了举手动作的检测算法能够在一些互联网终端产品上的快速推理。
分别表示预测的类别和预测的坐标框,/>和/>分别表示目标的左上角坐标与右下角坐标;
步骤B103,根据得到的手臂坐标信息,由设定的规则判断是否存在举手动作,具体判断规则包括:
规则一:检测到手臂且手臂为非水平状态,计算公式为:
式中,和/>分别表示目标的左上角坐标与右下角坐标。
规则二:时间大于设定的阈值,计算公式为:
式中,表示检测到举手目标后的累计时间/>,表示设置的阈值;
当规则一和规则二同时成立,则认为检测到了举手动作,否则认为没有发生举手动作。
本发明在视觉算法进行目标检测的基础上,提出了举手动作的识别方法,为后续的提问模式和问答模式提供了依据。
步骤B2,如果检测到学生的举手动作,则由学生***侧的计算模块对采集到的语音进行语音转文本识别,并将语音转文本识别的结果和学生的姓名一起发送给所述教师***侧,具体识别过程包括步骤:
步骤B201,对采集到的音频进行预处理,具体地,预处理是对音频进行降噪处理,其计算公式为:
式中,表示经过特征提取后的带噪音频,/>表示带噪音频,/>表示纯净音频,/>表示噪声音频,i表示时域帧,k表示频点,
LSTM表示训练得到的神经网络,其训练方式是用学生***侧播放音频时的背景声进行训练得到,Infer_post表示用训练得到的神经网络模型进行推理和后处理过程。
由于实际线上教学场景中存在多音源播放而导致语音识别算法存在干扰的问题,本发明提出了训练深度学习网络拟合环境噪声来来对音频进行降噪处理,能够有效地去除线上教学环境因为音频播放导致的干扰,从而提高算法识别的准确率。
步骤B202,对预处理后的音频进行特征提取,即通过语音频谱图将音频信号转为频谱特征,得到特征向量;
步骤B203,由声学模型根据声学特性计算每一个特征向量在声学特征上的概率,得到因素信息;
步骤B204,由语言模型根据得到的因素信息,获取不同词组序列的概率,
步骤B205,对词组序列根据字典进行解码,得到最终文本。
步骤B3,所述教师***侧接收所述学生***侧发送过来的文字和学生的姓名,并由教师***侧的显示模块对学生的姓名和提问的文字进行显示。
本发明在判断问题语句和非问题语句的基础上,提出了问题语句的定位和截取的方法,并对问题语句进行文字显示,使得线上教育过程中的问答互动更加直观和生动。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种线上教学问答互动的方法,包括步骤:
步骤S1,线上教学***开启并建立教师***侧和学生***侧的通信连接,教师和学生分别在教师***侧和学生***侧登录线上教学***;
步骤S2,教师***侧中的图像采集装置和语音采集装置分别对教师进行图像采集和语音采集,并将对其后的音频和视频发送给所述学生***侧;
步骤S3,学生***侧中的图像采集装置和语音采集装置分别对学生进行图像采集和语音采集,并将对其后的音频和视频发送给所述教师***侧;
步骤S4,所述学生***侧接收所述教师***侧发送的视频和音频并进行显示;所述教师***侧接收所述学生***侧发送的音频和视频并进行显示;
步骤S5,由教师***侧根据采集到的语音执行提问模式识别过程,由学生***侧根据采集到的图像执行回答模式识别过程。
2.根据权利要求1所述的一种线上教学问答互动的方法,其特征在于,步骤S5中所述的提问模式识别过程包括步骤:
步骤A1,由教师***侧内的计算模块对采集到的语音进行语音转文本识别,并根据语音转文本识别的结果来判断该文本是否为提问语句;
步骤A2,如果判断该文本是提问语句,则将语音转文本识别的结果转进行定位和截取,并将截取的文字发送给所述学生***侧;
步骤A3,所述学生***侧接收所述教师***侧发送的文字,开启定时任务并由学生***侧的显示模块对接收的文字进行显示;
步骤A4,在定时任务内,学生***侧的图像采集装置按照设定的频率F1对学生进行图像采集,并由采集到的图像进行举手识别;
步骤A5,如果检测到学生举手动作,则由学生***侧计算初从定时任务开启到学生举手的具体时间,并将学生的姓名和举手时间发送给教师***侧;
步骤A6,所述教师***侧接收所有所述学生***侧发送过来的举手学生姓名和举手时间建立举手学生姓名时间表,按照举手时间从小到大的顺序对举手学生姓名时间表进行排序,并将排序后的结果显示在教师***侧的显示模块上。
3.根据权利要求2所述的一种线上教学问答互动的方法,其特征在于,步骤S5中所述的回答模式识别过程包括步骤:
步骤B1,学生***侧的图像采集装置按照设定的频率F2对学生进行图像采集,并由采集到的图像进行举手识别;
步骤B2,如果检测到学生的举手动作,则由学生***侧的计算模块对采集到的语音进行语音转文本识别,并将语音转文本识别的结果和学生的姓名一起发送给所述教师***侧;
步骤B3,所述教师***侧接收所述学生***侧发送过来的文字和学生的姓名,并由教师***侧的显示模块对学生的姓名和提问的文字进行显示。
4.根据权利要求3所述的一种线上教学问答互动的方法,其特征在于,步骤A1和步骤B2中所述的语音转文本识别,具体步骤包括:
步骤C1,对采集到的音频进行预处理;
步骤C2,对预处理后的音频进行特征提取,即通过语音频谱图将音频信号转为频谱特征,得到特征向量;
步骤C3,由声学模型根据声学特性计算每一个特征向量在声学特征上的概率,得到因素信息;
步骤C4,由语言模型根据得到的因素信息,获取不同词组序列的概率;
步骤C5,对词组序列根据字典进行解码,得到最终文本。
5.根据权利要求4所述的一种线上教学问答互动的方法,其特征在于,步骤C1中所述的对采集到的音频进行预处理,具体是对音频进行降噪处理,计算公式为:
;
式中,表示经过特征提取后的带噪音频,/>表示带噪音频,/>表示纯净音频,/>表示噪声音频,i表示时域帧,k表示频点;
表示训练得到的神经网络,其训练方式是用学生***侧播放音频时的背景声进行训练得到,/>表示用训练得到的神经网络模型进行推理和后处理过程。
6.根据权利要求2所述的一种线上教学问答互动的方法,其特征在于,步骤A1中所述的根据语音转文本识别的结果来判断该文本是否为提问语句,具体是根据分类器的输出标签,来判断是否为提问,具体计算方式为:
式中,表示支持分类器,其训练方式是用“提问”和“非提问”作为标签,用教学中的文本来训练SVM支持向量机作为分类器,/>表示分类器输出为对应标签的概率,/>表示进行特征提取并进行矩阵表示后的输入文本,/>表示训练分类器的标签,/>表示最终输出的标签;
如果分类器输出最终为标签“提问”时,则判断该输入文本为提问语句,否则判断该输入文本为非提问语句。
7.根据权利要求2所述的一种线上教学问答互动的方法,其特征在于,步骤A2中所述的将语音转文本识别的结果转进行定位和截取,具体地,
当输入文本为提问语句时,则从该文本进行定位,否则跳过该文本并进行下一文本的判断;
再根据语境判断该文本与上一文本的关联程度,如果上一文本也判断为提问语句,则认为上一文本与该文本存在关联,截取该文本和上一文本的文字进行合并和输出,否则只截取该语句文字进行输出。
8.根据权利要求3所述的一种线上教学问答互动的方法,其特征在于,步骤A4和步骤B1中所述的举手识别,具体包括步骤:
步骤D1,由特征提取网络对输入的图像进行特征提取,具体计算公式为:
式中,表示训练得到的特征提取模型,其训练方式是用包含手臂的人员图像进行训练得到,/>表示输入的图像,w和h分别表示输入图像的宽和高,/>表示CNN输出的三个尺度的特征图;
步骤D2,在特征提取得到的特征图上进行分类和回归预测,得到目标的坐标框信息和类别信息,具体计算公式为:
式中,表示特征融合操作,/>表示特征融合后得到的特征图,/>表示后处理过程,包括目标框预测、目标分类、阈值处理和非极大值抑制过程;
其中,在由特征图进行目标框预测时,是直接在特征图/>上预测目标的左上角和右下角的坐标/>,去掉了传统的通过修正先验框的偏移量来进行坐标框的预测过程;
分别表示预测的类别和预测的坐标框,/>和/>分别表示目标的左上角坐标与右下角坐标;
步骤D3,根据得到的手臂坐标信息,由设定的规则判断是否存在举手动作。
9.根据权利要求7所述的一种线上教学问答互动的方法,其特征在于,步骤D3中所述的规则判断,具体包括:
规则一:检测到手臂且手臂为非水平状态,计算公式为:
式中,和/>分别表示目标的左上角坐标与右下角坐标;
规则二:时间大于设定的阈值,计算公式为:
式中,表示检测到举手目标后的累计时间,/>表示设置的阈值;
当规则一和规则二同时成立时,则认为检测到了举手动作,否则认为没有发生举手动作。
10.一种线上教学问答互动的***,包括教师***侧和学生侧,其特征在于,教师***侧和学生***侧都包括图像采集模块、语音采集模块、计算模块和显示模块,其中,所述图像采集模块用于采集图像信号,所述语音采集模块用于采集语音信号,所述计算模块用于数值计算,所述显示模块用于音频、视频和信息显示;实现如权利要求1-9任意一项所述的一种线上教学问答互动的方法。
CN202311023162.2A 2023-08-15 2023-08-15 一种线上教学问答互动的方法及*** Pending CN116739859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311023162.2A CN116739859A (zh) 2023-08-15 2023-08-15 一种线上教学问答互动的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311023162.2A CN116739859A (zh) 2023-08-15 2023-08-15 一种线上教学问答互动的方法及***

Publications (1)

Publication Number Publication Date
CN116739859A true CN116739859A (zh) 2023-09-12

Family

ID=87917294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311023162.2A Pending CN116739859A (zh) 2023-08-15 2023-08-15 一种线上教学问答互动的方法及***

Country Status (1)

Country Link
CN (1) CN116739859A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808376A (zh) * 2017-10-31 2018-03-16 上海交通大学 一种基于深度学习的举手检测方法
CN111291840A (zh) * 2020-05-12 2020-06-16 成都派沃智通科技有限公司 一种学生课堂行为识别***、方法、介质及终端设备
CN111563452A (zh) * 2020-05-06 2020-08-21 南京师范大学镇江创新发展研究院 一种基于实例分割的多人体姿态检测及状态判别方法
US20200334538A1 (en) * 2019-04-16 2020-10-22 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training
CN114841841A (zh) * 2022-05-30 2022-08-02 河南应用技术职业学院 一种用于教学互动的智慧教育平台交互***及交互方法
CN115810163A (zh) * 2022-11-17 2023-03-17 云启智慧科技有限公司 一种基于ai课堂行为识别的教学评估方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808376A (zh) * 2017-10-31 2018-03-16 上海交通大学 一种基于深度学习的举手检测方法
US20200334538A1 (en) * 2019-04-16 2020-10-22 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training
CN111563452A (zh) * 2020-05-06 2020-08-21 南京师范大学镇江创新发展研究院 一种基于实例分割的多人体姿态检测及状态判别方法
CN111291840A (zh) * 2020-05-12 2020-06-16 成都派沃智通科技有限公司 一种学生课堂行为识别***、方法、介质及终端设备
CN114841841A (zh) * 2022-05-30 2022-08-02 河南应用技术职业学院 一种用于教学互动的智慧教育平台交互***及交互方法
CN115810163A (zh) * 2022-11-17 2023-03-17 云启智慧科技有限公司 一种基于ai课堂行为识别的教学评估方法和***

Similar Documents

Publication Publication Date Title
US11138903B2 (en) Method, apparatus, device and system for sign language translation
CN108090857B (zh) 一种多模态的学生课堂行为分析***和方法
US20230103340A1 (en) Information generating method and apparatus, device, storage medium, and program product
CN109614934B (zh) 在线教学质量评估参数生成方法及装置
CN108227903B (zh) 一种虚拟现实语言交互***与方法
CN112465008B (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112183238B (zh) 一种远程教育注意力检测方法及***
CN111401328A (zh) 数据采集方法、装置、终端及存储介质
CN109271533A (zh) 一种多媒体文件检索方法
CN110427977B (zh) 一种课堂互动行为的检测方法
CN112417158A (zh) 文本数据分类模型的训练方法、分类方法、装置和设备
CN111415537A (zh) 一种基于符号标注的中小学生听词***
CN113703579B (zh) 数据处理方法、装置、电子设备及存储介质
CN111401322A (zh) 进出站识别方法、装置、终端及存储介质
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及***
CN110148418B (zh) 一种场景记录分析***、方法及其装置
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN113657509A (zh) 教学训练提升方法、装置、终端和存储介质
CN111400463A (zh) 对话响应方法、装置、设备和介质
CN116739859A (zh) 一种线上教学问答互动的方法及***
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN111787264B (zh) 一种远程教学的提问方法、装置、提问终端和可读介质
CN114283493A (zh) 基于人工智能的识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230912

RJ01 Rejection of invention patent application after publication