CN112163547A - 一种基于深度学习的口语评测方法 - Google Patents
一种基于深度学习的口语评测方法 Download PDFInfo
- Publication number
- CN112163547A CN112163547A CN202011092231.1A CN202011092231A CN112163547A CN 112163547 A CN112163547 A CN 112163547A CN 202011092231 A CN202011092231 A CN 202011092231A CN 112163547 A CN112163547 A CN 112163547A
- Authority
- CN
- China
- Prior art keywords
- mouth shape
- data
- word
- image data
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000013210 evaluation model Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及口语训练领域,具体涉及一种基于深度学习的口语评测方法,包括如下步骤:S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;S3、实现待测评音频数据及其对应的口型图像数据的采集;S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。本发明在可以降低***数据计算量的同时,可以提高测评结果的精确度。
Description
技术领域
本发明涉及口语训练领域,具体涉及一种基于深度学习的口语评测方法。
背景技术
口语测评是检验语言学习的一个重要的环节。如何通过口语测评正确的引导学生进行语言学习,以提升学生口语发音的准确性,是语言学习过程中的热点问题。
目前,现有的口语评测***普遍采用既有的语音识别模型实现口语的测评,容易存在测评漏洞;同时,由于既有语音识别模型的数据训练集庞大,因此,在进行测评时,模型所面临的数据计算量会很大,在容易降低测量精确度的同时,很容易出现***故障的问题。再则,由于既有的语音识别模型是仅采用音频数据训练的,并未考虑到口语发音过程中的口型问题,一定程度又降低了测评结果的精确度。
发明内容
为解决上述问题,本发明提供了一种基于深度学习的口语评测方法,在可以降低***数据计算量的同时,可以提高测评结果的精确度。
为实现上述目的,本发明采取的技术方案为:
一种基于深度学习的口语评测方法,包括如下步骤:
S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;
S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;
S3、实现待测评音频数据及其对应的口型图像数据的采集;
S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。
进一步地,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音数据,实现单词标准发音数据集的构建。
进一步地,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音视频,调用视频取帧脚本,每隔一定帧数获取一张图像,实现单词标准口型图像数据集的构建。
进一步地,所述步骤S2中,所述音频测评模型采用Inception_V3模型,所述口型测评模型采用Dssd Inception_V3模型。
进一步地,所述步骤S2中,首先录入待测评口语数据文本信息,基于数据挖掘模块根据录入的待测评口语数据文本信息在单词标准发音数据集和单词标准口型图像数据集中挖掘对应的单元标准发音数据和单词标准口型图像数据,然后基于挖掘到的单元标准发音数据和单词标准口型图像数据分别训练构建音频测评模型和口型测评模型。
进一步地,所述步骤S3中,基于视频录制的方式实现待测评音频数据及其对应的口型图像数据的采集,视频录制完成后,自动生成对应的测评音频数据和口型图像数据。
进一步地,所述测评结果以EXCEL的形式反馈,每一个单词均配置一条评估记录,每一条评估记录均包括单词数据、标准发音数据、用户发音数据、标准发音口型图像数据、用户发音口型图像数据、发音评估结果数据及发音口型评估结果数据。
本发明具有以下有益效果:
1)在考虑口语发音参数的同时,引入了口型参数的测评,在可以提高测评结果的精确度的同时,使得学生可以更加直观的了解自己的口语发音问题。
2)基于待测评口语数据文本信息为每一次测评配置独立的测评模型,在可以降低***数据计算量的同时,可以提高测评结果的精确度。
3)通过评估结果格式的优化,使得学生可以根据自己的情况实现针对性的口语纠正训练,以提升口语发音的准确性。
附图说明
图1为本发明实施例一种基于深度学习的口语评测方法的流程图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于深度学习的口语评测方法,包括如下步骤:
S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;
S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;
S3、实现待测评音频数据及其对应的口型图像数据的采集;
S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。
本实施例中,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音数据,实现单词标准发音数据集的构建;同时基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音视频,调用视频取帧脚本,每隔一定帧数获取一张图像,实现单词标准口型图像数据集的构建。
本实施例中,所述步骤S2中,首先录入待测评口语数据文本信息,基于数据挖掘模块根据录入的待测评口语数据文本信息在单词标准发音数据集和单词标准口型图像数据集中挖掘对应的单元标准发音数据和单词标准口型图像数据,然后基于挖掘到的单元标准发音数据和单词标准口型图像数据分别训练构建音频测评模型和口型测评模型。其中,所述音频测评模型采用Inception_V3模型,所述口型测评模型采用Dssd Inception_V3模型。所述Dssd Inception_V3模型采用Dssd目标检测算法。
本实施例中,所述步骤S3中,基于视频录制的方式实现待测评音频数据及其对应的口型图像数据的采集,视频录制完成后,自动生成对应的测评音频数据和口型图像数据。
本实施例中,所述测评结果以EXCEL的形式反馈,每一个单词均配置一条评估记录,每一条评估记录均包括单词数据、标准发音数据、用户发音数据、标准发音口型图像数据、用户发音口型图像数据、发音评估结果数据及发音口型评估结果数据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于深度学习的口语评测方法,其特征在于,包括如下步骤:
S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;
S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;
S3、实现待测评音频数据及其对应的口型图像数据的采集;
S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。
2.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音数据,实现单词标准发音数据集的构建。
3.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音视频,调用视频取帧脚本,每隔一定帧数获取一张图像,实现单词标准口型图像数据集的构建。
4.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S2中,所述音频测评模型采用 Inception_V3模型,所述口型测评模型采用Dssd Inception_V3模型。
5.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S2中,首先录入待测评口语数据文本信息,基于数据挖掘模块根据录入的待测评口语数据文本信息在单词标准发音数据集和单词标准口型图像数据集中挖掘对应的单元标准发音数据和单词标准口型图像数据,然后基于挖掘到的单元标准发音数据和单词标准口型图像数据分别训练构建音频测评模型和口型测评模型。
6.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S3中,基于视频录制的方式实现待测评音频数据及其对应的口型图像数据的采集,视频录制完成后,自动生成对应的测评音频数据和口型图像数据。
7.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述测评结果以EXCEL的形式反馈,每一个单词均配置一条评估记录,每一条评估记录均包括单词数据、标准发音数据、用户发音数据、标准发音口型图像数据、用户发音口型图像数据、发音评估结果数据及发音口型评估结果数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092231.1A CN112163547A (zh) | 2020-10-13 | 2020-10-13 | 一种基于深度学习的口语评测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092231.1A CN112163547A (zh) | 2020-10-13 | 2020-10-13 | 一种基于深度学习的口语评测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163547A true CN112163547A (zh) | 2021-01-01 |
Family
ID=73866715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011092231.1A Withdrawn CN112163547A (zh) | 2020-10-13 | 2020-10-13 | 一种基于深度学习的口语评测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163547A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396356A (zh) * | 2021-01-02 | 2021-02-23 | 覃盛安 | 基于视觉与听觉信息处理的语言和人才测评方法 |
CN114783049A (zh) * | 2022-03-21 | 2022-07-22 | 广东工业大学 | 一种基于深度神经网络视觉识别的口语学习方法及*** |
CN115243104A (zh) * | 2021-11-30 | 2022-10-25 | 广州汽车集团股份有限公司 | 一种自动调节车载多媒体音量的方法及*** |
-
2020
- 2020-10-13 CN CN202011092231.1A patent/CN112163547A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396356A (zh) * | 2021-01-02 | 2021-02-23 | 覃盛安 | 基于视觉与听觉信息处理的语言和人才测评方法 |
CN115243104A (zh) * | 2021-11-30 | 2022-10-25 | 广州汽车集团股份有限公司 | 一种自动调节车载多媒体音量的方法及*** |
CN114783049A (zh) * | 2022-03-21 | 2022-07-22 | 广东工业大学 | 一种基于深度神经网络视觉识别的口语学习方法及*** |
CN114783049B (zh) * | 2022-03-21 | 2023-06-23 | 广东工业大学 | 一种基于深度神经网络视觉识别的口语学习方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163547A (zh) | 一种基于深度学习的口语评测方法 | |
CN104252864B (zh) | 实时语音分析方法和*** | |
CN106504744B (zh) | 一种语音处理方法及装置 | |
CN103544140A (zh) | 一种数据处理方法、展示方法和相应的装置 | |
CN103730032B (zh) | 多媒体数据控制方法和*** | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
CN101315733A (zh) | 一种针对计算机语言学习***发音评测的自适应方法 | |
CN106067310A (zh) | 录音数据处理方法及装置 | |
KR101836996B1 (ko) | 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법 | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
CN103632668A (zh) | 一种基于中文语音信息训练英文语音模型的方法与设备 | |
CN111522971A (zh) | 一种直播教学中辅助用户听课的方法及装置 | |
CN108446230B (zh) | 一种面向WebDriver的Java测试代码质量评判方法 | |
CN105575402A (zh) | 网络教学实时语音分析方法 | |
CN111325031B (zh) | 简历解析方法及装置 | |
US11600279B2 (en) | Transcription of communications | |
CN112002303A (zh) | 一种基于知识蒸馏的端到端语音合成训练方法及*** | |
CN109213970B (zh) | 笔录生成方法及装置 | |
CN112417852B (zh) | 一种代码片段重要性的判断方法和装置 | |
CN110472054B (zh) | 一种数据处理方法和装置 | |
CN105513612A (zh) | 语言词汇的音频处理方法及装置 | |
US20210012791A1 (en) | Image representation of a conversation to self-supervised learning | |
CN110751867B (zh) | 英文教学*** | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
CN109559753B (zh) | 语音识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210101 |