CN117877523A

CN117877523A - 一种英文发音评测方法、装置、设备和可读存储介质

Info

Publication number: CN117877523A
Application number: CN202410033763.XA
Authority: CN
Inventors: 冯敬益; 刘冠明; 黄丹; 黎娜; 黄海英; 王大力
Original assignee: Guangzhou Information Technology Vocational School
Current assignee: Guangzhou Information Technology Vocational School
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-04-12

Abstract

本发明涉及英文评测技术领域，尤其涉及一种英文发音评测方法、装置、设备和可读存储介质，包括实时接收英文的训练请求；当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括标准程度打分、标准音频数据及所述原发音数据；将所述阅读数据包的结果发送至学生端和教师端；基于所述标准程度打分，对不标准发音数据进行难度等级分类。教师端可收听学生端阅读时的原发音数据以及原发音数据的打分情况，提高工作效率，学生端也可了解到阅读的情况，可了解发音是否标准，从而不断矫正英文发音。

Description

一种英文发音评测方法、装置、设备和可读存储介质

技术领域

本申请涉及到英文评测技术领域，特别是涉及到一种英文发音评测方法、装置、设备和可读存储介质。

背景技术

当下的经济发展和文化交流，对个人的外语能力要求越来越高。如何快速高效地获取外语技能，是语言教育迫切需要解决的问题，日益发达的计算机技术，特别是人工智能技术，是实现高效语言学习的重要途径。例如，计算机辅助语言学习技术，可以快速地对学习者的口语进行测评，并指出具体的错误，学习者可以据此有针对性地练习和提高。随着全球化的发展和国际交流的增加，英文口语能力越来越受到重视。许多人在学习英语时面临着发音不标准、语流不自然等问题。传统的口语教学方法通常需要借助老师的指导和反复练习才能改善。但这种方法有时效性差、教学成本高、反馈不及时等问题。

现有的自动化语音识别技术虽然可以识别发音，但是对于英文发音质量的评价不够细致，不能提供准确的评分；另外，现有的发音评测方法缺乏针对个人发音特点的个性化反馈，难以有效地帮助学生改进英文发音。

因此，现有技术存在缺陷，需要改进。

发明内容

为了解决现有技术中的一个或者几个问题，本申请的主要目的为提供一种英文发音评测方法、装置、设备和可读存储介质。

为了实现上述发明目的，本申请提出一种英文发音评测方法，所述方法包括：

实时接收英文的训练请求；

当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；

将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括不标准发音数据、标准程度打分、标准音频数据及所述原发音数据；

将所述阅读数据包的结果发送至学生端和教师端；

提取所述不标准发音数据，识别出不标准发音数据的具体错误类型；

根据所述具体错误类型的比例生成相应数量的发音练习数据，并将所述发音练习数据发送至学生端。

进一步地，所述将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，包括：

将所述原发音数据进行转化为频谱图形式，再将所述频谱图输入已训练的卷积神经网络模型中进行特征识别；

通过所述卷积神经网络模型对识别到的特征与标准发音进行发音准确程度对比，根据准确发音数量而输出标准程度分数；

获取卷积神经网络模型识别到所述频谱图对应的标准音频数据；

基于所述不标准发音数据、原发音数据、标准音频数据及标准程度分数生成阅读数据包。

进一步地，所述识别出不标准发音数据的具体错误类型包括：

获取所述不标准发音数据；

对每个所述不标准发音数据进行切分处理，得到音素序列；

将音素序列与标准发音的音素序列进行对比，计算音素序列之间的相似度；

若所述相似度低于预设的阈值时，则判断所述不标准发音数据的类型包括有音素错误；

提取所述不标准发音数据的语音信号，并将所述语音信号转换为句子；

计算相邻句子之间的停顿时间，判断所述停顿时间是否超过预设的标准发音的阈值范围；

若所述停顿时间超过预设的标准发音的阈值范围，则判断所述不标准发音数据的类型包括有发音不连贯。

进一步地，所述英文的训练请求还包括英文对话训练请求，包括：

当接收到英文对话训练请求时，生成问答训练数据，并在预设时间段内收集学生端的回答语音数据；

判断所述回答语音数据是否满足生成下一个问答训练数据的条件；

若所述回答语音数据在标准的回答数据的范围之内，则判定所述回答语音数据满足生成下一个问答训练数据的条件；

基于回答语音数据的结果生成下一个问答训练数据。

进一步地所述方法还包括：

获取所述不标准发音数据，分析所述不标准发音数据对应的文本难度等级；

根据所述不标准发音数据对应的文本难度等级，对不同难度等级文本的发音标准程度进行打分，其中，所述发音标准程度打分包括：基于高难度等级的文本，降低打分的发音准确性阈值，基于低难度等级的文本，升高打分的发音准确性阈值。

进一步地，所述方法还包括收集学生端发音时的脸部数据，包括：

获取学生端发音时的口型；

将所述口型与标准发音的口型对比，并判断学生端发音时的口型与标准发音的口型对比是否在预设的差异范围内；

若所述学生端发音时的口型与标准发音的口型对比在预设的差异范围内，则获取学生端发音时的舌位；

将所述舌位与标准发音的舌位对比，并判断学生端发音时的舌位与标准发音的舌位对比是否在预设的差异范围内；

若所述学生端发音时的舌位与标准发音的舌位对比在预设的差异范围内，则获取学生端发音时的唇形；

将所述唇形与标准发音的唇形对比，并判断学生端发音时的唇形与标准发音的唇形对比是否在预设的差异范围内；

若所述学生端发音时的唇形与标准发音的唇形对比在预设的差异范围内，则判断学生端发音时的脸部数据为标准数据。

进一步地，所述识别出不标准发音数据的具体错误类型还包括：

获取不标准发音数据，提取所述不标准发音数据的语音信号；

将所述语音信号中的连续的语音信号分割成语义单元；

将所述语义单元通过快速傅里叶法变换和归一化处理，得到频谱数据；

提取所述频谱数据中的最大幅度值，通过所述最大幅度值计算音调的频率；

将所述音调频率与标准发音数据库进行评率对比，当所述音调频率超出所述标准发音数据库的范围内，则判断所述不标准发音数据的类型包括有语调错误；

所述音调的频率的公式为：F0＝f_peak/2^(n/2)，其中，F0是计算出的基频，单位是赫兹(Hz)，f_peak是频谱中的所述峰值频率，单位是赫兹(Hz)，n是采样点数。

本申请实施例还提供一种英文发音评测装置，包括：

接收模块，用于实时接收英文的训练请求；

生成模块，用于当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；

识别模块，用于将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括不标准发音数据、标准程度打分、标准音频数据及所述原发音数据；

第一发送模块，用于将所述阅读数据包的结果发送至学生端和教师端；

提取模块，用于提取所述不标准发音数据，识别出不标准发音数据的具体错误类型；

第二发送模块，用于根据所述具体错误类型的比例生成相应数量的发音练习数据，并将所述发音练习数据发送至学生端。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请实施例的英文发音评测方法、装置、设备和存储介质，终端通过实时接收英文的训练请求，英文训练中，可包括有英文单词的训练或者英文句子的训练，当接收到学生端选择的英文的训练请求时，生成单元训练数据，将学生端在训练时每个原发音数据输入已训练的卷积神经网络模型中进行匹配，通过将已训练的卷积神经网络模型可匹配到与原发音数据对应的阅读数据包，将阅读的数据包发送给学生端和教师端，教师端可通过收听学生端阅读时的原发音数据以及原发音数据的打分情况，从而减少教师端的时间，提高工作效率，可快速了解到学生的学习情况，学生端也可了解到阅读的情况，通过不断矫正英文读音，提高学习的时效性，基于标准程度的打分数据，可分析学生端的学习情况，对不标准发音数据进行识别出不标准发音数据的具体错误类型，根据错误类型的比例推荐相应的发音练习数据给学生端，学生端针对发音不准的类型英文进行针对性练习，提高发音的矫正效果。

附图说明

图1为本申请一实施例的英文发音评测方法的流程示意图；

图2为本申请一实施例的英文发音评测方法的流程示意图；

图3为本申请一实施例的英文发音评测装置的结构示意框图；

图4为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图作进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种英文发音评测方法，所述方法包括：

S1、实时接收英文的训练请求；

S2、当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；

S3、将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括不标准发音数据、标准程度打分、标准音频数据及所述原发音数据；

S4、将所述阅读数据包的结果发送至学生端和教师端；

S5、提取所述不标准发音数据，识别出不标准发音数据的具体错误类型；

S6、根据所述具体错误类型的比例生成相应数量的发音练习数据，并将所述发音练习数据发送至学生端。

如上述步骤S1所述，终端通过实时接收英文的训练请求，英文训练中，可包括有英文单词的训练或者英文句子的训练。

如上述步骤S2所述，当接收到学生端选择的英文的训练请求时，生成单元训练数据，比如学生端选择的是单词训练，则生成相应章节的英文单词，并在一定的时间内收集学生端的发音，并收集起来，学生端可设定生成和切换英文单词的时间，根据学习和阅读的反应时间来调节下一个英文单词的切换速度，终端通过在每一个单词的出现时候开始收集学生端的阅读情况，以方便后续对学生端的阅读单词的效果的进行打分，判断学生端是否读音准确。

如上述步骤S3所述，而卷积神经网络的具体训练中，可将损失函数值训练待训练图神经网络，得到所述已训练图神经网络，根据所述最终损失函数值进行反向传播，更新待训练图神经网络的网络参数，更新的网络参数包括待训练图神经网络的学习率和权重矩阵，训练待训练图神经网络的过程包括多次迭代，相邻两次迭代计算得到的最终损失函数值之间的差值越大，待训练图神经网络的网络参数的更新越快，判断反向传播的传播次数是否大于传播次数阈值，若是，则停止训练，得到所述已训练图神经网络。将学生端在训练时每个原发音数据输入已训练的卷积神经网络模型中进行匹配，通过将已训练的卷积神经网络模型可匹配到与原发音数据对应的标准数据，比如学生端的原发音数据为英文单词为(pronunciation)，则已训练的卷积神经网络模型将会匹配出(pronunciation)的标准发音数据，并且判断学生端的原发音数据与标准发音数据相对比是否标准，并且根据发音的标准程度进行打分，比如标准的发音为10分，学生端的发音效果中，未出现连贯拼读，尾音未发出，并根据未达到的效果进行扣分，最终的分数可能会是7分。则对学生端的原发音数据进行自动打分可方便学生端清楚了解到自身的发音不标准需要改善的问题。并且已训练的卷积神经模型中还会生成标准音频数据，学生端可通过点击标准音频数据来学习矫正自己的发音。

如上述步骤S4所述，将阅读的数据包发送给学生端和教师端，教师端可通过收听学生端阅读时的原发音数据以及原发音数据的打分情况，从而减少教师端的时间，提高工作效率，可快速了解到学生的学***。本方法具有智能评测和矫正功能，可以给出具体的建议和指导，有效地改善学生的发音不准确的问题。同时，本***也可以提供实时的反馈和各种交互形式，方便学生自我检测和自我纠正，以达到快速提升英语口语表达能力的目的。

如上述步骤S5-S6所述，基于标准程度的打分数据，可分析学生端的学习情况，对打分较低的不标准发音数据进行难度等级分类，根据难度等级来推荐发音练习数据给学生端，学生端针对发音不准的类型英文进行针对性练习，提高发音的矫正效果，并将发音练习数据发送至学生端，学生端可通过对发音练习数据进行练习，改正不标准的英文发音。识别和比较每个发音数据与标准发音数据之间的差异，利用这些差异，可以判断发音是否标准，并定位到具体的不标准发音部分，可以对这些不标准发音进行切分和标记，识别出不同的错误类型，如音素错误、音调错误、速度不当等。识别出的错误类型和出现的比例，***将生成相应的发音练习数据，练习数据可以通过不同的方式生成，例如，重复播放学生错误的音节、单词或句子，或者提供与错误类型相关的语音样本；生成的练习数据将发送至学生端，以帮助他们针对性地练习并改进发音。由上分析，可以根据每个学生的发音错误类型生成个性化的练习数据，提高练习的针对性和效率，与传统课堂相比，该方法可以实时提供反馈，使学生了解自己的发音问题，及时调整。基于大量数据分析和机器学习，该方法能够更准确地识别和分类发音错误，提供高质量的练习材料。如果学生经常在某个音素上犯错，***会为他们提供包含该音素的大量练习样本，以帮助他们纠正错误。这种方法可以看作是一个智能化的、可定制的发音教练，为学生提供持续的指导和帮助。

如上述步骤所述，终端通过实时接收英文的训练请求，英文训练中，可包括有英文单词的训练或者英文句子的训练，当接收到学生端选择的英文的训练请求时，生成单元训练数据，将学生端在训练时每个原发音数据输入已训练的卷积神经网络模型中进行匹配，通过将已训练的卷积神经网络模型可匹配到与原发音数据对应的阅读数据包，将阅读的数据包发送给学生端和教师端，教师端可通过收听学生端阅读时的原发音数据以及原发音数据的打分情况，从而减少教师端的时间，提高工作效率，可快速了解到学生的学习情况，学生端也可了解到阅读的情况，通过不断矫正英文读音，提高学习的时效性，基于标准程度的打分数据，可分析学生端的学习情况，对打分较低的不标准发音数据进行难度等级分类，根据难度等级来推荐发音练习数据给学生端，学生端针对发音不准的类型英文进行针对性练习，提高发音的矫正效果。

在一实施例中，所述方法还包括：

根据所述不标准发音数据对应的文本难度等级，对不同难度等级文本的发音标准程度进行打分，其中，所述发音标准程度打分包括：基于高难度等级的文本，降低打分的发音准确性阈值，基于低难度等级的文本，升高打分的发音准确性阈值。可以理解为：(对于难度较高的文本，采用较为宽松的打分标准，对于难度较低的文本，采用较为严格的打分标准)。

如上所述，获取不标准发音数据及分析对应的文本难度等级：这一步骤的设置是为了更好地理解和学习用户的发音特点，以及这些发音与文本难度之间的关系。这可以帮助***更准确地识别难度较高的文本，从而为这些文本提供更精确的发音校正和打分。现有技术中，语音识别***通常采用统一的标准来评估发音准确性，而没有考虑到文本难度的影响。

通过调整发音准确性阈值，该方法能够对难度不同的文本采取个性化的处理方式，提高整体的发音校正效果。对低难度等级文本升高阈值，能够使***更加敏感地捕捉到微小的发音差异，即使这些差异在标准发音中可能不被注意；对高难度等级文本降低阈值，则可以减少对轻微发音变化的过度校正，避免矫枉过正。由上分析，通过难度等级的调整，该方法更加个性化，能够根据文本的难度和用户发音的特点来优化校正过程；能够动态调整阈值，使得语音校正***更加灵活，适应不同用户的发音习惯和不同难度等级的文本；特别是在处理高难度文本时，降低阈值能够提高校正的准确性，这对于教育和技术领域尤其有价值。

举例的是：假设有一个在线语言学***台使用上述方法来辅助用户改善发音。平台首先收集用户的不标准发音数据，并分析这些数据对应的文本难度等级。例如，用户尝试发音一个高难度等级的科学术语，***识别到其发音存在误差，但这个误差在一个较高难度等级的文本中可能是可接受的。通过调整发音准确性阈值，***能够在不牺牲准确性的前提下，对用户的发音进行更为精细的校正，提供个性化的反馈，帮助用户逐步提高发音质量。在这个实例中，***可能会发现，对于高难度文本，用户即使达到了70％的发音准确性可能已经足够好；而对于低难度文本，用户80％的发音准确性也可能需要调整和指导。通过这样的个性化调整，平台能够更有效地辅助用户克服发音障碍，提高学习效率。

在一个实施例中，所述将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，包括：

如上所述，将在将每个原发音数据输入已训练的卷积神经网络模型中识别时，通过将原发音数据进行转化为频谱图的形式，频谱图是声音信号提取的特征表示方法，可使终端更快识别到学生端发声与标准声音的差异，提高评分和适配准确率，通过已训练的卷积神经网络模型可匹配出标准音频数据，且可对原发音数据对应的频谱图进行打分，结合原发音数据、标准音频数据及标准程度分数生成阅读数据包。通过设置有卷积神经网络模型，可对英文发音进行音频进行识别，通过识别音频数据对应的标准音频数据，可帮助学生端自主学习英文的发音。从而减少教师端的时间，提高工作效率，可快速了解到学生的学习情况，学生端也可了解到阅读的情况。

在一实施例中，所述识别出不标准发音数据的具体错误类型包括：

获取所述不标准发音数据；

对每个所述不标准发音数据进行切分处理，得到音素序列；

如上所述，收集学生端的发音数据。对每个不标准发音数据进行切分，得到音素序列。将音素序列与标准发音的音素序列进行对比，计算它们之间的相似度。若相似度低于预设阈值，则判断存在音素错误。提取不标准发音数据的语音信号，将其转换为句子。计算相邻句子之间的停顿时间。判断停顿时间是否超过预设的标准发音阈值范围。若超过，则判断存在发音不连贯的问题。通过音素序列的对比和相似度计算，可以更准确地识别发音错误；该方法不仅考虑音素错误，还考虑发音的连贯性，更全面地评估发音质量。

在一实施例中，所述识别出不标准发音数据的具体错误类型还包括：

将所述语音信号中的连续的语音信号分割成语义单元；

如上所述，首先需要收集发音不标准的语音数据，从获取的数据中提取出语音信号，将连续的语音信号分割成一个个语义单元，这是为了更准确地分析每个单元的发音问题，对每个语义单元的语音信号进行快速傅里叶变换(FFT)和归一化处理，得到频谱数据，将计算出的音调频率与标准发音数据库进行比较。通过识别语调判断，可以更准确地识别语音信号，从而提高语音识别的准确性，通过计算音调频率和对比标准发音数据库，可以准确识别语调错误。上述计算音调频率的公式，相较于其他计算音调频率的公式，这个公式较为简单，易于理解和实现。这有利于降低计算复杂度，提高计算效率；这个公式通过除以2的n/2次方，使得计算出的基频F0更接近于真值。这有助于减小计算误差，提高计算精度。

在一实施例中，所述基于所述标准程度打分，对不标准发音数据进行难度等级分类，根据不同的难度等级生成不同难度级别的发音练习数据包括：

通过语音评测算法对不标准发音数据进行评估，将所述不标准发音数据根据音节数目、音节结构和重读模式来判断不标准发音的难度级别分类；

获取数据库不同难度级别的发音练习数据，根据不同的难度等级生成相应难度级别的发音练习数据。

如上所述，在按照不标准发音数据进行难度等级分类时，根据语音评测算法对不标准发音数据进行评估分类，通过评估不标准发音数据的音节数目、音节结构和重读模式，在音节数目中，有些英语单词的音节相对于单音节单词通常会更具挑战性，则需要考虑英文的音节数目，数目越多难度将会划分为较难的等级；在音节结构中，包括辅音集聚、元音组合等复杂的音节结构；在重读模式中，英文中存在多个拼写相同但发音不同的单词。则根据音节数目、音节结构和重读模式来判定不标准发音的难度级别，例如学生端的不标准发音数据所判定的级别为4级，则从数据库中或者4级难度的发音练***。

参照图2，在一实施例中，所述英文的训练请求还包括英文对话训练请求，包括：

S11、当接收到英文对话训练请求时，生成问答训练数据，并在预设时间段内收集学生端的回答语音数据；

S12、判断所述回答语音数据是否满足生成下一个问答训练数据的条件；

S13、若所述回答语音数据在标准的回答数据的范围之内，则判定所述回答语音数据满足生成下一个问答训练数据的条件；

S14、基于回答语音数据的结果生成下一个问答训练数据。

如上述步骤S11-S14所述，在英文的训练请求中，除了单词和句子的训练，还包括有英文对话训练，当终端接收到学生端发出的英文对话训练请求时，生成问答训练数据，并且在预设的时间段内收集学生端的回答语音数据，终端通过判断学生端回答的语音数据是否为标准的回答答案，若判断学生端回答的语音数据为标准的回答答案后，终端将会判定满足生成下一个问答训练数据的条件，终端将会生成下一个问答训练数据。例如：终端生成的第一个问答数据为(请问今天的天气如何)，而学生终端的回答为与天气相关的内容，则判定学生端的回答在标准的回答数据范围内，终端将会生成下一条问答数据。若学生端的回答语音数据与标准回答数据不对应，不在回答标准数据的范围内，则终端将会提示学生端存在回答错误，需要重新回答本条问答数据，并且终端将本次的错误回答数据发送至教师端。通过设置问答的对话训练，可提高学生在学习英文时的反应能力以及对英文的语义理解能力，提高学生的学习综合能力。

在一实施例中，所述判断所述回答语音数据是否满足生成下一个问答训练数据的条件，包括：

判断所述回答数据的语义是否在标准的回答语义的范围之内；和/或，

判断所述回答数据的词汇量是否在标准的回答词汇量的范围之内；和/或，

判断所述回答数据的语速是否在标准的回答速度范围之内。

如上所述，在判断回答语音数据是否满足生成下一个问答训练数据时，通过判断学生端的回答数据的语义是都在回答语义的范围内。在判断学生端的回答数据是否满足生成下一个问答训练数据时还可判断回答的词汇量是否在范围之内。例如，问答训练数据的问题是(今天的天气如何)，而学生的回答将需要满足具有5个词汇量以上才满足回答的答案。在判断学生端的回答数据是否满足生成下一个问答训练数据时，还可判断回答数据的语速是否在标准的回答速度范围之内，由于正常的回答问答训练的题目时，需要在正常的语速来回答，比如限定一个回答的时间为30秒，若学生在30秒回答正常的答案，则表示回答的语音数据满足生成下一个问答训练数据。

在一实施例中，所述方法还包括收集学生端发音时的脸部数据，包括：

获取学生端发音时的口型；

如上所述，在判断学生的发音是否标准时，还包括收集学生端的脸部数据，通过判断脸部数据是否发音标准，具体可获取学生端在发音时的口型，终端可设置有摄像头模块，通过摄像头数据或者用户脸部的数据，当口型数据与标准发音的口型对比为差异范围内时，则再获取学生端发音时的舌位，由于英文发音中，有些舌位是卷舌发出的，则看判断标准时需要考虑学生的舌位，当学生发硬的舌位与标准发音的舌位对比在差异范围内时获取学生端发音时的唇形，由于有些英文的发音的唇形为闭合状态的，则需要判断学生在发音时，唇形是否与标准发音的唇形一致，若唇形与标准发音的唇形一致，则表示血行发音时脸部数据为标准数据。终端通过观察学习者的口型、嘴唇、舌位等口腔形态，通过视觉反馈帮助学习者调整发音。值得一提的是，还可以对学生在发音时的语速进行分析，以评估学生的口语流利度和旋律感。

在一实施例中，所述将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配之前，包括：

将所述原发音数据进行去除噪声；

将已去除噪声的原发音数据进行降低采样率；

将处理后的原发音数据输入已训练的卷积神经网络模型中进行识别匹配。

如上所述，在将每个原发音数据输入已训练的卷积神经网络模型中进行识别之前，可对原发音数据进行预处理，去除环境的噪声，并且将原发音数据进行降低采样率，可防止终端录入的声音过大，选择固定的采样率输入卷积神经网络模型中，使识别时更加精准。

本申请的英文发音评测方法，终端通过实时接收英文的训练请求，英文训练中，可包括有英文单词的训练或者英文句子的训练，当接收到学生端选择的英文的训练请求时，生成单元训练数据，将学生端在训练时每个原发音数据输入已训练的卷积神经网络模型中进行匹配，通过将已训练的卷积神经网络模型可匹配到与原发音数据对应的阅读数据包，将阅读的数据包发送给学生端和教师端，教师端可通过收听学生端阅读时的原发音数据以及原发音数据的打分情况，从而减少教师端的时间，提高工作效率，可快速了解到学生的学习情况，学生端也可了解到阅读的情况，通过不断矫正英文读音，提高学习的时效性，基于标准程度的打分数据，可分析学生端的学习情况，对打分较低的不标准发音数据进行难度等级分类，根据难度等级来推荐发音练习数据给学生端，学生端针对发音不准的类型英文进行针对性练习，提高发音的矫正效果。

参照图3，本申请实施例中还提供一种英文发音评测装置，包括：

接收模块1，用于实时接收英文的训练请求；

生成模块2，用于当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；

识别模块3，用于将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括标准程度打分、标准音频数据及所述原发音数据；

第一发送模块4，用于将所述阅读数据包的结果发送至学生端和教师端；

提取模块5，用于提取所述不标准发音数据，识别出不标准发音数据的具体错误类型；

第二发送模块6，用于根据所述具体错误类型的比例生成相应数量的发音练习数据，并将所述发音练习数据发送至学生端。

如上所述，可以理解地，本申请中提出的所述英文发音评测装置的各组成部分可以实现如上所述英文发音评测方法任一项的功能，具体结构不再赘述。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存监控数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种英文发音评测方法。

上述处理器执行上述的英文发音评测方法，包括：实时接收英文的训练请求；当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括标准程度打分、标准音频数据及所述原发音数据；将所述阅读数据包的结果发送至学生端和教师端；基于所述标准程度打分，对不标准发音数据进行难度等级分类，根据不同的难度等级生成不同难度级别的发音练习数据；将所述发音练习数据发送至学生端。

上述的英文发音评测方法通过，终端通过实时接收英文的训练请求，英文训练中，可包括有英文单词的训练或者英文句子的训练，当接收到学生端选择的英文的训练请求时，生成单元训练数据，将学生端在训练时每个原发音数据输入已训练的卷积神经网络模型中进行匹配，通过将已训练的卷积神经网络模型可匹配到与原发音数据对应的阅读数据包，将阅读的数据包发送给学生端和教师端，教师端可通过收听学生端阅读时的原发音数据以及原发音数据的打分情况，从而减少教师端的时间，提高工作效率，可快速了解到学生的学习情况，学生端也可了解到阅读的情况，通过不断矫正英文读音，提高学习的时效性，基于标准程度的打分数据，可分析学生端的学习情况，对打分较低的不标准发音数据进行难度等级分类，根据难度等级来推荐发音练习数据给学生端，学生端针对发音不准的类型英文进行针对性练习，提高发音的矫正效果。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种英文发音评测方法，包括步骤：实时接收英文的训练请求；当接收到英文的训练请求时，生成单元训练数据，并在每个预设时间段内收集学生端的每个原发音数据；将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，所述阅读数据包包括标准程度打分、标准音频数据及所述原发音数据；将所述阅读数据包的结果发送至学生端和教师端；基于所述标准程度打分，对不标准发音数据进行难度等级分类，根据不同的难度等级生成不同难度级别的发音练习数据；将所述发音练习数据发送至学生端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种英文发音评测方法，其特征在于，所述方法包括：

实时接收英文的训练请求；

将所述阅读数据包的结果发送至学生端和教师端；

2.根据权利要求1所述的英文发音评测方法，其特征在于，所述将所述每个原发音数据输入已训练的卷积神经网络模型中进行识别匹配，得到阅读数据包，包括：

3.根据权利要求1所述的英文发音评测方法，其特征在于，所述识别出不标准发音数据的具体错误类型包括：

获取所述不标准发音数据；

对每个所述不标准发音数据进行切分处理，得到音素序列；

4.根据权利要求1所述的英文发音评测方法，其特征在于，所述英文的训练请求还包括英文对话训练请求，包括：

基于回答语音数据的结果生成下一个问答训练数据。

5.根据权利要求1所述的英文发音评测方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项所述的英文发音评测方法，其特征在于，所述方法还包括收集学生端发音时的脸部数据，包括：

获取学生端发音时的口型；

7.根据权利要求3所述的英文发音评测方法，其特征在于，所述识别出不标准发音数据的具体错误类型还包括：

将所述语音信号中的连续的语音信号分割成语义单元；

8.一种英文发音评测装置，其特征在于，包括：

接收模块，用于实时接收英文的训练请求；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。