CN117043857A - 用于英语发音评估的方法、设备和计算机程序产品 - Google Patents

用于英语发音评估的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN117043857A
CN117043857A CN202180090828.9A CN202180090828A CN117043857A CN 117043857 A CN117043857 A CN 117043857A CN 202180090828 A CN202180090828 A CN 202180090828A CN 117043857 A CN117043857 A CN 117043857A
Authority
CN
China
Prior art keywords
word
phoneme
speech
model
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180090828.9A
Other languages
English (en)
Inventor
陈子意
朱益兴
初伟
于欣璐
夏天
常鹏
韩玫
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of CN117043857A publication Critical patent/CN117043857A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种英语发音评估方法包括:接收包括英语语音和与该英语语音对应的文本转录本的音频文件;将音频信号输入到一个或多个声学模型中,以获得每个单词中的每个音素的语音信息,其中该一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,使得基于获得的语音信息更准确地检测发音错误;提取每个单词的时间序列特征;将该提取的每个单词的时间序列特征、该获得的每个单词中的每个音素的语音信息以及该音频文件中包括的该音频信号输入到词重音模型中,以获得不同音节数的该英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似。

Description

用于英语发音评估的方法、设备和计算机程序产品
相关申请的交叉引用
本申请要求于2021年1月8日提交的美国专利申请第17/145,136号的优先权,其全部内容通过引用并入本文。
技术领域
本申请涉及发音评估技术领域,更具体地,涉及基于机器学习技术的英语发音评估的方法、设备和计算机程序产品。
背景技术
非母语者常常在他们的英语发言中发音错误或错放的词重音。可以通过实践来改善他们的发音,即出错、接收反馈和进行更正。传统上,需要与人类英语教师互动来练习英语发音。除了人类英语教师之外,计算机辅助语言学习(CALL)***通常可用于提供发音良好度(GOP)评分,作为非母语者发出的英语发言的反馈。在该情况下,将由背诵英语文本转录本的非母语者的英语语音的音频记录输入到发音评估***。发音评估***评估非母语者的英语发音,并输出具有发音错误的单词,诸如发音错误和错放的词重音。然而,需要提高计算机辅助发音评估***的准确度和灵敏度。
本公开提供了一种基于机器学习技术的英语发音评估方法。该方法将没有标记出发音错误的非母语的语音结合到用于生成GOP分数的声学模型训练中。声学模型还采用基于口音的特征作为辅助输入。此外,将时间序列特征输入到声学模型中,以充分探究输入信息并容纳具有不同音节数的单词。因此,提高了检测发音错误和错放的词重音的准确性和召回率。
发明内容
本公开的一个方面包括计算机实现的英语发音评估方法。该方法包括:接收包括英语语音和与该英语语音对应的文本转录本的音频文件;将该音频文件中包括的音频信号输入到一个或多个声学模型中,以获得该英语语音的每个单词中的每个音素的语音信息,其中该一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,从而基于该一个或多个声学模型更准确地检测发音错误,该一个或多个声学模型用母语者和非母语者的语音进行训练;提取包含在该输入音频信号中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度特征向量;将提取的每个单词的时间序列特征、获得的每个单词中的每个音素的语音信息以及音频文件中包含的音频信号输入到词重音模型中,以获得不同音节数的英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似;以及输出具有至少对应于文本转录本中的词重音的发音错误的每个单词。
本发明的另一方面包括英语发音评估设备。该设备包括:用于存储程序指令的存储器;和处理器,其用于执行存储在该存储器中的程序指令以执行:接收包括英语语音和与该英语语音对应的文本转录本的音频文件;将该音频文件中包括的音频信号输入到一个或多个声学模型中,以获得该英语语音的每个单词中的每个音素的语音信息,其中该一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,从而基于该一个或多个声学模型更准确地检测发音错误,该一个或多个声学模型用母语者和非母语者的语音进行训练;提取包含在该输入音频信号中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度特征向量;将提取的每个单词的时间序列特征、获得的每个单词中的每个音素的语音信息以及音频文件中包含的音频信号输入到词重音模型中,以获得不同音节数的英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似;以及输出具有至少对应于文本转录本中的词重音的发音错误的每个单词。
本公开的另一方面包括计算机程序产品,该计算机程序产品包括非暂时性计算机可读存储介质和存储在其中的程序指令,该程序指令被配置为可由计算机执行以使得该计算机执行包括以下操作的操作:接收包括英语语音和与该英语语音对应的文本转录本的音频文件;将该音频文件中包括的音频信号输入到一个或多个声学模型中,以获得该英语语音的每个单词中的每个音素的语音信息,其中该一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,从而基于该一个或多个声学模型更准确地检测发音错误,该一个或多个声学模型用母语者和非母语者的语音进行训练;提取包含在该输入音频信号中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度特征向量;将提取的每个单词的时间序列特征、获得的每个单词中的每个音素的语音信息以及音频文件中包含的音频信号输入到词重音模型中,以获得不同音节数的英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似;以及输出具有至少对应于文本转录本中的词重音的发音错误的每个单词。
本领域技术人员根据本公开的说明书、权利要求书和附图可以理解本公开的其他方面。
附图说明
图1图示了根据本公开的实施例的示例性英语发音评估方法;
图2图示了根据本公开的实施例的另一示例性英语发音评估方法;
图3图示了根据本公开的实施例的在每个单词中获得每个音素的语音信息的示例性方法;
图4图示了根据本发明实施例的检测发音错误的示例性方法;
图5图示了根据本公开的实施例的检测错放的词重音的示例性方法;
图6图示了根据本公开的实施例的示例性时间延迟神经网络(TDNN);
图7图示了根据本公开的实施例的具有半正交约束的示例性因子分解层;
图8图示了根据本公开的实施例的示例性状态聚类三音素隐马尔可夫模型(HMM);
图9图示了根据本公开的实施例的示例性后验概率声学模型;
图10图示了根据本公开的实施例的用于发音错误检测的声学建模的示例性神经网络架构;
图11图示了比较与本公开的实施例一致的各种AM的精度与召回曲线;
图12图示了根据本公开的实施例的用于错放的词重音检测的声学建模的示例性神经网络架构;以及
图13图示了根据本公开的实施例的示例性英语发音评估设备。
具体实施方式
下面参照附图对本发明实施例中的技术方案进行说明。在所有附图中,尽可能使用相同的附图标记来表示相同或相似的部件。显然,所描述的实施例仅仅是本发明的一些而不是全部实施例。本领域技术人员在不付出创造性劳动的情况下基于本发明的实施例获得的其他实施例将落入本公开的保护范围内。下面首先解释本公开中使用的某些术语。
声学模型(AM):在自动语音识别中使用声学模型来表示音频信号与构成语音的音素或其他语言学单元之间的关系。该模型是从一组音频记录及其相应的转录本中学习的,并且机器学习软件算法被用于创建组成每个单词的声音的统计表示。
自动语音识别(ASR):ASR是将口语单词转换成文本的技术。
来自变压器(BERT)的双向编码器表示:BERT是预训练语言表示的方法。
交叉熵(CE):如果针对估计的概率分布q而不是真实分布p来优化用于该组的编码方案,则在相同的基础事件组上的两个概率分布p和q之间的交叉熵测量识别从该组引出的事件所需的平均比特数。
深度神经网络(DNN):DNN是在输入和输出层之间具有多个层的人工神经网络,用于建模复杂的非线性关系。DNN通常是前馈网络,其中数据从输入层流向输出层而不回送。
发音良好度(GOP):GOP算法计算实现的音素对应于应该根据标准发音说出的音素的似然比。
隐马尔可夫模型(HMM):HMM是统计马尔可夫模型,其中被建模的设备被假定为具有不可观测状态的马尔可夫过程。
词重音检测:词重音检测是识别孤立单词中的元音音素是被重音还是未被重音的深度学习模型。
光梯度升压机(LightGBM):LightGBM是用于机器学习的开源梯度增强框架。它基于决策树算法并用于排序和分类等。
长期短期记忆(LSTM):LSTM是一种用于深度学习领域的人工递归神经网络(RNN)架构。
梅尔频率倒谱系数(MFCC):梅尔频率倒谱是基于频率的非线性梅尔刻度上的对数功率谱的线性余弦变换的声音的短期功率谱的表示。MFCC是共同构成MFC的系数。
混合模型(MM):混合模型是一种用于表示整个群体中亚群体的存在,而不要求所观察的数据集应当识别个体观察所属的亚群体的概率模型。作为混合模型之一,高斯混合模型是假设所有数据点都是从有限数量的高斯分布与未知参数的混合中产生的概率模型。
多方学习(MTL):MTL是机器学习的子域,其中同时解决多个学习任务,同时利用任务之间的共性和差异。与单独训练模型相比,MTL可以提高任务特定模型的学习效率和预测精度。
互信息(MI):两个随机变量的MI是两个变量之间的相互依赖性的量度。更具体地说,它通过观测另一个随机变量来量化关于一个随机变量获得的信息量。
一位热编码(OHE):一位热编码通常用于指示状态机的状态,当且仅当第n位为高时,状态机处于第n状态。
音素和音素:音素是任何不同的语音或手势,而不管确切的声音对于单词的含义是否关键。相反,音素是给定语言中的语音,如果与另一个音素交换,则可以将一个单词改变为另一个单词。
Senone:senone是音素的子集,并且senone被定义为上下文相关音素内的绑定状态。
时间延迟神经网络(TDNN):TDNN是一种多层人工神经网络架构,其目的是利用移位不变性对模式进行分类,并对网络各层的上下文进行建模。
通用背景模式(UBM):UBM是经常在生物测定验证设备中使用的模型,用于表示一般的、与人无关的特征特性,以在做出接受或拒绝决定时与特定于人的特征特性的模型进行比较。
误字率(WER):WER是语音识别性能的量度。
本公开提供了一种英语发音评估方法。该方法利用各种机器学习技术的优点来提高检测非母语者说话的发音错误和错放的词重音的性能。
图1图示了根据本公开的实施例的示例性英语发音评估方法。如图1所示,包括英语语音的音频文件作为输入与对应于英语语音的文本转录本一起被接收(在S110)。
音频文件包括人类语音的音频信号。音频信号是时变信号。通常,音频信号被分成多个段用于音频分析。此类段也被称为分析帧或音素,并且通常在10ms到250ms的持续时间内。音频帧或音素串在一起形成单词。
在S120,提取包含在输入的音频文件中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度的特征向量。
具体地,提取时间序列特征包括将音频信号加窗为多个帧、对每个帧执行离散傅里叶变换(DFT)、取每个DFT变换的帧的幅度的对数、在梅尔尺度上对DFT变换的帧中包含的频率进行扭曲,以及执行逆离散余弦变换(DCT)。
时间序列特征可以包括频率、能量和梅尔频率倒谱系数(MFCC)特征。在频率、能量和MFCC特征被提取之后,它们在字级和每个特征维中被归一化。例如,提取的特征被线性地缩放为最小和最大的范围,并减去平均值。
在S130,包括在音频文件中的音频信号和每个单词的提取的时间序列特征被输入到一个或多个声学模型,以获得英语语音的每个单词中的每个音素的语音信息。具体地,一个或多个声学模型可以级联在一起。
在计算机辅助发音训练中,语音识别相关技术被用于检测非母语者说出的语音中的发音错误和错放的词重音。在分段级,分析语音以检测每个单词中每个音素的发音错误。在超分段水平上,对语音进行分析以检测每个单词的错放的词重音。
发音错误可包括类比(替代)、表象(***)和复分解(删除)错误。检测表象和复分解错误涉及从语音学规则建立扩展的识别网络,该语音规则或者由英语作为第二语言(ESL)教师概括,或者从由ESL教师标记的数据中自动学习。与本公开的实施例一致的英语发音评估方法不需要ESL教师的参与。在本说明书中,发音错误检测仅集中于类比错误。
在现有技术中,用于发音错误检测的声学模型(AM)通常用母语者数据集来训练。还可以用非母语者数据集进一步训练AM。然而,非母语者数据集中的发音错误必须由ESL教师来注释,这限制了非母语者数据集的大小,因此提供了不太理想的准确性。
在本公开的实施例中,具有发音错误的相当大的非母语者数据集(说话1700小时)与母语者数据集一起被结合到AM训练中来实质上改进发音错误检测的性能,而不需要ESL教师在非母语者数据集中标记发音错误。
在用于语音识别的声学建模中,假设具有匹配条件的训练和测试。在语音评估中,由母语者在训练语音上训练的基线规范AM必须应用于非母语者的失配测试语音。在本公开的实施例中,基于口音的嵌入和重音一位热编码被结合在声学建模中。当在推理阶段提取辅助特征时,以多取学习(MTL)方式训练AM,除了非母语的讲话者的语音被有意作为母语讲话者的语音。该方法实质上改善了发音错误检测的性能。
AM通常包括前馈神经网络,诸如时间延迟神经网络(TDNN)和具有ResNet型连接的1D扩张卷积神经网络。
图3图示了根据本公开的实施例的在每个单词中获得每个音素的语音信息的示例性方法。如图3所示,将包括在音频文件中的音频信号输入到一个或多个声学模型以获得英语语音的每个单词中的每个音素的语音信息可以包括以下步骤。
在S310,将包括在音频文件中的音频信号输入到对准声学模型中,以获得每个单词和每个单词中的每个音素的时间边界。
具体地,对准声学模型用于确定给定相应文本转录本的每个音素和每个单词的时间边界。对准声学模型可以包括高斯混合模型(GMM)和隐马尔可夫模型(HMM)的组合或者神经网络模型(NNM)和HMM的组合。
GMM用于估计密度。它由高斯密度的线性组合组成:
其中αm是与∑αm=1的混合比例,并且每个φ(x;μmm)是具有均值μm和协方差矩阵Σm的高斯密度。
在一个实施例中,NNM是因式分解时间延迟神经网络(TDNN)。因式分解的TDNN(也称为TDNNF)使用子采样来减少训练期间的计算。在TDNN架构中,在较窄的上下文上学习初始变换,而较深的层处理来自较宽的时间上下文的隐藏激活。较高层具有学习较宽时间关系的能力。TDNN中的每一层以不同的时间分辨率工作,这在神经网络的较高层增加。
图6图示了根据本公开的实施例的示例性时间延迟神经网络(TDNN)。如图6所示,在每层的所有时间步长计算隐藏激活,并且激活之间的相关性是跨层的并且在时间上是局部化的。定义TDNN网络的超参数是在时间步计算输出激活所需的每一层的输入上下文。对应于TDNN的逐层上下文规范在表1中示出。
表1
例如,在表1中,符号{-7,2}表示网络将当前帧减7和当前帧加2处的输入拼接在一起。如图6所示,越来越宽的上下文可以通过网络的更高层拼接在一起。在输入层,网络将帧t-2至t+2(即,{-2,-1,0,1,2}或更紧凑地[-2,2])拼接在一起。在三个隐藏层,网络以偏移{-1,2}、{-3,3}和{-7,2}拼接帧。在表1中,将上下文与中间列中没有子采样的假设设置进行比较。隐藏层处的偏移之间的差被配置为3的倍数,以确保为每个输出帧评估少量的隐藏层激活。此外,网络使用具有更多左方上下文的非对称输入上下文,因为它减少了在线解码中神经网络的等待时间。
图7图示了根据本公开的实施例的具有半正交约束的示例性因子分解层。如图7所示,用表示为两个或更多个较小矩阵的乘积的参数矩阵来训练TDNN声学模型,其中除了一个因子之外的所有因子被约束为半正交的,因此TDNN变为因式分解的TDNN或TDNNF。
在一个实施例中,每个隐藏层的因式分解卷积是3级卷积。3级卷积包括约束到维数256的2×1卷积、约束到维数256的2×1卷积,以及约束到维数1536的返回到隐藏层的2×1卷积。即,在一层内1536=>256=>256=>1536。由于额外的2×1卷积,有效的时间上下文比没有因式分解的TDNN更宽。下降从训练开始时的0上升到中途的0.5,并且在结束时为0。在ReLU和拍击之后施加释放。
在一个实施例中,HMM是用于具有一组离散状态的时间序列数据的状态聚类三音素模型。三音素HMM为每个音素建模三个不同的状态。语音决策树用于将类似的状态聚类在一起。三音素HMM自然地产生状态和观察之间的对准。神经网络模型或高斯混合模型估计似然性。三音素HMM使用Viterbi算法中的估计似然来确定音素的最可能序列。
图8图示了根据本公开的实施例的示例性状态聚类三音素隐马尔可夫模型(HMM)。如图8所示,使用状态聚类的三音素来模拟语音单元的语音上下文,其中一个语音的发音位置取决于相邻语音。可以使用结合了上下文的更长的单元,或每个上下文的多个模型或上下文相关的音素模型来对上下文建模。对于三音素,每个音素具有用于每个左右语境的唯一模型。具有左上下文l和右上下文r的音素x可以表示为1-x+r。
上下文相关的模型比上下文无关的模型更具体。由于定义了更多的与上下文相关的模型,所以每个模型都负责声-声空间的较小区域。通常,可能的三音素类型的数量远大于观察到的三音素令牌的数量。使用诸如平滑和参数共享的技术来减少三音素的数量。平滑结合了较少特定和较多特定的模型。参数共享使得不同的上下文共享模型。下面描述平滑和参数共享的各种示例。
在一个示例中,作为一种类型的平滑,当没有足够的数据来训练更具体的模型时,回退使用较不具体的模型。例如,如果没有观察到三音素或观察到几个示例,则可以使用双音素模型来代替三音素模型。如果双音素的出现很少,则可将双音素进一步简化为单音素。最小训练示例计数可用于确定是对三音素进行建模还是对双音素进行补偿。该方法确保每个模型都得到良好训练。因为训练数据是稀疏的,所以实际训练的特定三音素模型相对较少。
在另一示例中,作为另一类型的平滑,内插将较少特定模型与较多特定模型组合。例如,三音素λ的参数被内插以双音素λ和单音λ的参数,即基于删除的内插来估计内插参数α1、α2和α3。内插使得能够估计更多的三音素模型,并且还通过双音素和单音素模型共享来自其他上下文的数据来增加鲁棒性。
在另一示例中,参数共享在不同上下文之间显式地共享模型或参数。共享可以发生在不同的级别。在高斯水平,所有分布共享相同的高斯集,但具有不同的混合权重(即,束缚混合)。在状态级别,允许不同的模型共享相同的状态(即,状态聚类)。在状态聚类中,负责声学上相似的数据的状态被共享。通过对类似的状态进行聚类,可以将与各个状态相关联的训练数据汇集在一起,从而得到对该状态的更好的参数估计。左上下文和右上下文可以分别聚类。在模型级,合并类似的上下文相关模型(即,通用三音素)。上下文相关的音素被称为父音素的音位变体。比较具有不同三音素上下文的音位变体模型,并合并相似的模型。可以根据比单个模型更多的数据来估计合并的模型,从而得到更精确的模型和总体上更少的模型。合并的模型被称为通用三音素。
此外,在聚类状态中使用语音决策树。为每个父音素的每个状态建立语音决策树,在每个节点有是/否问题。在语音决策树的根部,共享所有状态。“是/否”问题用于拆分状态库。得到的状态聚类成为语音决策树的叶子。从一大组预定义问题中选择每个节点处的问题。选择问题以最大化给定状态聚类的数据的可能性。当似然性增加不超过预定似然性阈值,或者与***节点相关联的数据量小于预定数据阈值时,***终止。
如下确定状态聚类的可能性。首先,计算与状态池相关联的数据的对数似然度。在该情况下,所有状态在根处集中在单个聚类中,并且所有状态具有高斯输出概率密度函数。设S={s1,s2,...,sK}是形成聚类的K个状态的池,共享公共均值μs和协方差∑s。设X为训练数据集。设γs(x)为状态s产生x∈X的概率,即状态占用概率。然后,与聚类S相关联的数据的对数似然度是:
此外,似然性计算不需要通过每个状态的所有数据。当输出概率密度函数是高斯型时,对数似然度可以是:
其中d是数据的维数。因此,L(S)仅取决于合并的状态方差∑s,该方差是从池中各个状态的平均值和方差计算的,并且当执行向前-向后时已经计算了状态占用概率。
基于父状态的可能性和拆分状态的可能性来选择拆分问题。关于语音上下文的问题旨在将S分成两个部分Sy和Sn。现在将分区Sy聚集在一起以形成具有均值和协方差/>的单个高斯输出分布,并且现在将分区Sn聚集在一起以形成具有均值/>和协方差/>的单个高斯输出分布。数据在分割之后的可能性是L(Sy)+L(Sn)。分区数据的总可能性增加了Δ=L(Sy)+L(Sn)-L(S)。可以通过循环遍历所有可能的问题、计算每个问题的Δ并选择Δ最大的问题来确定拆分问题。
对新聚类Sy和Sn中的每一者继续进行拆分,直到最大值Δ降到预定似然阈值以下或者与拆分节点相关联的数据量降到预定数据阈值以下为止。对于高斯输出分布,可以仅使用状态占用计数(在对准时获得)和高斯的参数来估计状态似然估计。不需要声学数据。状态占用计数是状态随时间的状态占用概率之和。
上述状态聚类假设状态输出是高斯型的,这使得计算非常简单。然而,高斯混合提供比高斯更好的声学模型。在一个实施例中,基于高斯分布的基于HMM的设备可以被变换为基于高斯混合的设备。该变换可以包括使用高斯分布执行状态聚类,通过克隆和用标准偏差的一小部分扰动该平均值然后再训练而将高斯分布分离成聚类状态,以及通过分离每个状态中的主要(最高状态占用计数)混合分量而重复。
返回到图3,在S320,将包括在音频文件中的音频信号以及获得的每个单词和每个单词中的每个音素的时间边界输入到后验概率声学模型,以获得每个单词中的每个音素的每个senone的后验概率分布。
后验概率声学模型可以与具有不同输入和输出的对准声学模型相同。具体地,后验概率声学模型是神经网络模式和HMM模型的组合。图9图示了根据本公开的实施例的示例性后验概率声学模型。如图9所示,神经网络和HMM被级联以形成后验概率声学模型。因为图9中的神经网络与图6中的对准声学模型中的TDNNF相同,所以省略其详细描述。类似地,因为图9中的HMM与图6中的对准声学模型中的HMM相同,所以省略了详细描述。
与对准声学模型不同,后验概率声学模型的输入包括与时间边界对准的音频信号和在S120从音频信号中提取的MFCC特征,并且后验概率声学模型的输出包括每个单词中每个音素的每个senone的后验概率分布。
返回图2,在S330,将获得的每个单词和每个单词中的每个音素的时间边界以及每个单词中的每个音素的每个senone的后验概率分布进行相关,以获得每个单词中的每个音素的后验概率分布。随后,在S340,输出每个单词和每个单词中的每个音素的时间边界,以及每个单词中的每个音素的后验概率分布用于进一步处理。具体地,每个单词和每个单词中的每个音素的时间边界,以及每个单词中的每个音素的后验概率分布将分别用于检测非母语者说出的讲话中的发音错误和错放的词重音。下面将详细描述用于检测非母语者说出的语音中的发音错误和错放的词重音的声学模型。
回到图1,在S140,提取的每个单词的时间序列特征,在每个单词中获得的每个音素的语音信息,以及包括在音频文件中的音频信号被输入到词重音模式,以获得在具有不同音节数的英语语音的每个单词中错放的词重音,而不扩展短单词以引起输入近似。如图1所示,在检测到发音错误之后,该方法检测英语语音中的错放的词重音。
图5图示了根据本公开的实施例的检测错放的词重音的示例性方法。如图5所示,在S510,接收提取的每个单词的时间序列特征、每个单词和每个单词中的每个音素的时间边界、每个单词中的每个音素的后验概率分布、包括在音频文件中的音频信号,以及对应的文本转录本。可以在图1中的S120处提取每个单词的时间序列特征。在图3中的S310可以获得每个单词和每个单词中的每个音素的时间边界。可以在图3中的S330获得每个单词中每个音素的后验概率分布。
在S520,将每个单词的时间序列特征、每个单词和每个单词中的每个音素的时间边界、每个单词中的每个音素的后验概率分布、音频文件中包括的音频信号、以及对应的文本转录本输入到词重音模型,以获得每个单词中的词重音。
词重音与单词的突出音节有关系。在许多情况下,音节的位置携带重要信息以消除单词语义的歧义。例如,“主语(subject)”和“主语(sub’ject)”以及“许可(permit)”和“许可(per’mit)”具有完全不同的含义。在检测到单词的词重音之后,将结果与其来自英语字典的典型词重音模式进行比较,以确定单词的词重音是否被错放。
在一个实施例中,词重音检测过程包括内部注意处理。结合LSTM机器学习技术,通过从输入语音的每个单词中提取重要信息并将长度变化的词转换为固定长度的特征向量,使用内部注意处理对时间序列特征建模。
在提取时间序列特征的过程中,从每个音频帧中提取多个最高频率或音调。因为重音音节表现出比其相邻音节更高的能量,所以还从每个音频帧中提取能量。此外,通过对每个帧执行降维来提取具有增量和增量-增量信息的梅尔频率倒谱系数(MFCC)特征。当提取MFCC特征时,大尺寸是优选的。
图12图示了根据本公开的实施例的用于错放的词重音检测的声学建模的示例性神经网络架构。如图12所示,单词“投影仪(projector)”被语言规则分成三个音节“pro”、“jec”和“tor”。表示为帧级别的几个时间序列特征(例如MFCC、音调和能量)的级联,每个音节由LSTM块编码,然后由内部注意处理转换成固定长度特征向量。在处理了单词中的每个音节之后,所有表示音节的特征向量通过自我注意彼此交互,并被训练成适合它们的最终标记。在该情况下,所有LSTM模型共享相同的参数,并且所有位置式前馈网络(FFN)也共享相同的参数。
如图12所示,词重音模型的神经网络架构包括六个逻辑电平。逻辑电平2、3和4图示了音节编码模块的内部结构,该音节编码模块包括一个双向LSTM块、若干单向LSTM块和残余边缘、以及一个内部注意力处理层。双向LSTM是一种用于模拟序列到序列问题的递归神经网络架构。在该情况下,输入序列是时间相关特征(时间序列),而输出序列是音节级词重音概率。
基于音节持续时间的统计,最大LSTM步长被限制为50,这对应于500ms的持续时间。如图12所示,逻辑电平2和3处的节点表示不同时间步的LSTM单元状态。在逻辑电平2,两个帧级LSTM在两个相反的方向上运行,并逐元素地聚集在一起,以丰富每个帧状态的左和右上下文。逻辑电平3包括多个相同的块。每个块具有单向LSTM,并且经由剩余边缘将其输入元素逐级聚集到其输出中。逻辑电平2和3处的水平箭头指示相应LSTM层中单元状态的方向连接。双向LSTM包含两个LSTM单元状态序列:一个具有前向连接(从左到右),另一个具有后向连接(从右到左)。在输出中,两个序列按元素方式相加,以用作下一级的输入序列(由向上的箭头表示)。逻辑电平4包括作为特殊加权合并策略的内部关注处理。因为音节的持续时间变化很大,并且LSTM步的最大数目(或最大帧数)是有限的,所以只有实帧信息被加权并且填充的帧信息被忽略,如下面的等式所示。
S=∑αi·Si
其中Si是对应于每个语音帧的LSTM的状态向量,H是由所有音节共享的全局和可训练的向量,函数f定义如何通过其真实内容计算每个状态向量的重要性。例如,函数f的最简单定义是内积。
在一个实施例中,词重音检测过程还包括自我注意技术。自我注意技术固有地支持具有不同音节数的单词,并被用于建模上下文信息。
如图12所示,逻辑电平5图示了音节交互模块的内部结构,该音节交互模块包括基于自我注意的网络,该网络用于在不通过填充空位置来扩展输入的情况下消化具有不同音节数量的单词。逻辑电平5包括两部分:自我注意操作O(n2)和位置式前馈网络操作O(n)。在自我注意部分中,注意权重αi,j采用双线性公式,并且矩阵M是全局可训练参数。双线性公式易于实现,并集中于整个网络架构本身。可替代地,注意力权重αi,j可以通过BERT模型中的多头注意力来计算。自我注意处理由下面的等式表示。
Si=∑jαi,j·Sj
位置式前馈网络包括两个密集网络。一个网络包括重新激活功能,而另一个网络不包括重新激活功能。位置式前馈网络由以下等式表示。
FFN(x)=max(0,xW1+b1)W2+b
在逻辑电平6,分数1、0.5和0分别被分配给目标标记作为主重读、次重读和无重读。每个目标标记对应于一个音节。例如,单词“projector”具有3个音节,并且目标标记可以是0、1、0。经由l1范数将标记分数转换为概率分布。然后在基于交叉熵的损失函数中使用概率分布。应当注意,一个单词可以具有多于一个的主重读。因此,它不是多类别问题,而是多标记问题。损耗函数在下面的等式中表示。
其中是音节的归一化目标标记概率,并且/>是来自自我注意块的相应输出概率。
上述声学模型的训练数据集和测试数据集包括两个公共数据集和一个专有数据集。两个公共数据集中的一者是自由数据集。360小时的纯阅读英语语音被用作训练数据集,并且50小时的纯阅读英语语音被用作测试数据集。两个公共数据集中的另一者是TedLium数据集。将400小时与各种讲话者和主题的谈话集用作训练数据集,将50小时的谈话集用作测试数据集。专有数据集是基于字典的数据集。记录了由10个讲话者说出的2000个词汇。它们中的大多数具有三个和四个音节。每个单词被发音和记录三次。在10个讲话者中,5个讲话者是男性,5个讲话者是女性。专有数据集总共包括6000个基于单词的样本。6000个样本中有一半包含不正确的词重音。
在推理阶段,使用词重音检测模型来检测单词级的错放的词重音。检测结果为F值,其平衡了精度率和召回率。
具体地,输入的音频信号由自动语音识别器(ASR)解码以从音素序列中提取音节。然后,从每个音节中提取诸如持续时间、能量、音高和MFCC的特征。因为单词内相同音节的绝对持续时间可以在人与人之间显著变化,所以相对于单词中的每个音节来测量持续时间。相同的方法应用于其他特征。在帧级提取特征并在词边界归一化以计算其相对值。在音节窗口内获得25%百分位、50%百分位、75%百分位、最小值和最大值的值。MFCC的尺寸设置为40。附加增量和增量-增量信息的维数被设置为120。
词重音检测的基于注意力的网络模型直接逐帧提取时间序列特征,包括能量、频率和MFCC特征,但不包括持续时间。该模型在Tensorflow中实现,并且优化器是具有默认超参数的Adam。学习率是le-3。在至少10个训练时期之后,模型达到期望的性能。将基于注意力的网络模型的性能结果(即,F值)与表2中的包括基于SVM的模型和梯度增强树模型的两个基线模型进行比较。
表2
从表2可以看出,基于注意力的网络模型优于两个基线模型。构造甚至更大的专有数据集还可以改善性能。
在一些实施例中,探索具有不同数量的LSTM块(或层)的模型性能。表3示出了在图12中的逻辑电平3处的更多LSTM块改善了性能,直到LSTM块的数量达到5。在该情况下,自我注意块的数目被设置为1。另一方面,更多的LSTM块使得训练明显更慢。
表3
#LSTM 1 2 3 4 5 6
LibriSpeech 0.920 0.928 0.939 0.944 0.951 0.948
辞典 0.743 0.751 0.760 0.768 0.770 0.764
在一些实施例中,探索具有不同数量的自我注意块(或层)的模型性能。表4示出了图12中的逻辑电平5处的更多自我注意块不会由于潜在的过拟合而改善性能。在该情况下,LSTM块的数目被设置为5。
表4
#自我注意 0 1 2
LibriSpeech 0.941 0.951 0.929
辞典 0.743 0.770 0.760
在S530,基于词典确定针对每个单词获得的词重音是否被错放。具体地,词典可以是英语字典,并且可以将针对每个单词获得的词重音与英语字典中定义的词重音进行比较。如果为每个单词获得的词重音与英语字典中定义的词重音不同,则确定相应的单词包含错放的词重音。当在英语字典中定义了多于一个的词重音时,为每个单词获得的词重音与在英语字典中定义的多于一个的词重音中的任何一者之间的匹配可以被视为没有发现错放的词重音。
在S540,在文本转录本中输出具有错放的词重音的每个单词。
回到图1,在S150,在文本转录本中输出具有对应于词重音的发音错误的每个单词。具体地,可以向用户显示文本转录本,并且在文本转录本中突出显示错放的词重音。可选地,关于文本转录本的词重音的统计数据可以以各种格式呈现给用户。本公开不限制呈现错放的词重音的格式。
在本公开的实施例中,用于检测发音错误的声学模型用母语者说出的语音和非母语者说出的语音的组合来训练,而不标记出发音错误。另外,基于口音的特征。
在本公开的实施例中,用于检测错放的词重音的声学模型采用时间序列特征作为输入,以充分探索输入信息。声学模型的网络架构本质上适应于具有不同音节数的单词,而不扩展短单词,从而减少输入近似。因此,提高了检测精度。
此外,英语发音评估方法检测发音错误。图2图示了根据本公开的实施例的另一示例性英语发音评估方法。如图2所示,图1中的S150被S210和S220代替。
在S210,将获得的每个单词中的每个音素的语音信息输入元音模型或辅音模型,以获得英语语音的每个单词中的每个发音错误的音素。
具体地,元音模型和辅音模型可用于分别确定元音或辅音是否发音错误。语音信息包括与英语语音的每个单词中的每个音素的时间边界对准的音频信号和英语语音的每个单词中的每个音素的后验概率分布。下面将详细描述发音错误检测。
图4图示了根据本发明实施例的检测发音错误的示例性方法。如图4所示,在S410,接收每个单词和每个单词中的每个音素的时间边界、语音级别的后验概率分布以及相应的文本转录本。具体地,图1中的S130的输出是图4中的S410的输入。
在S420,基于词典确定每个单词中每个音素的实际标记(元音或辅音)。具体地,用于检测元音或辅音的发音错误的声学模型可以是相同的。即使在词典中给出了知识,知道每个音素是元音还是辅音也不会产生实质性差异。词典也可以被认为是英语发音词典。
在S430,具有低于预先配置的阈值的相应后验概率的每个音素被识别为发音错误的音素。具体地,每个音素的后验概率中描述的后验概率声学模型来计算每个音素的后验概率。
图10图示了根据本公开的实施例的用于发音错误检测的声学建模的示例性神经网络。如图10所示,X表示帧级MFCC,而Xe表示辅助特征。图10A是i向量提取器的神经网络架构。i向量提取器可以是基于讲话者的或基于口音的。图10B和图10C中的开关仅用于选择一个辅助输入。图10B是用于同种类讲话者i-向量提取器或口音i-向量提取器的神经网络架构。图10C是使用口音一位热编码的神经网络架构。
i向量通常用于讲话者识别和验证。对于语音识别任务中的AM嵌入作为讲话者也是有效的。在一个实施例中,修改的版本允许以固定速更新i向量,即“在线i向量”。
对于从训练数据集或测试数据集提取的每帧特征,如图6a所示,将讲话者i向量连接到MFCC作为辅助网络输入。
训练口音i-向量提取器与讲话者i-向量提取器相同,除了所有讲话者标记被替换为它们相应的口音标记,这些口音标记是母语的或非母语的。在推理阶段,以与图10A所示的讲话者i向量相同的方式使用口音i向量。
应当注意,发音错误检测仅在非母语的语音上执行。该信息用于训练同质讲话者i向量。
在一个实施例中,在训练阶段,由母语的语音和非母语的语音两者训练通用背景模式(UBM)以收集足够的统计量。然后,UBM被用于训练仅在母语发言上的讲话者的同质讲话者i向量提取器。该提取器被称为L1讲话者i向量提取器。可以以相同的方式训练L2讲话者i向量提取器,除了仅使用非母语者。不同于在训练中使用具有母语和非母语的口音的异构数据的讲话者i-向量提取器,同质讲话者i-向量提取器的训练仅使用具有一个口音的同质数据。
在一个实施例中,在推理阶段,只需要选择一个向量提取器作为图10B所示的神经网络架构的辅助特征提取器。在该情况下,L1讲话者i向量提取器用于所有非母语的语音。即,非母语者在推理阶段被有意地视为母语者。这样,与使用L2讲话者i向量提取器相比,提高了发音错误检测的性能。应当注意,在语音识别应用中需要i向量提取器的类型与语音的类型之间的匹配。然而,i向量提取器的类型和语音的类型之间的不匹配有助于改进发音错误检测的性能,这需要有区别的GOP分数。
因为相同口音的讲话者在训练阶段被分组在一起,所以同质讲话者i向量也可被视为隐式口音表示。对于母语语音的同质口音i向量,即L1口音i向量,除了所有的讲话者标记仅被替换为一类标记,即母语之外,每个过程和配置与L1讲话者i向量的过程和配置相同。非母语的情况相同。
在一个实施例中,L1和L2口音一位热编码(OHE)分别被定义为[1,0]和[0,1]。对于从训练数据集中的母语语音中提取的每帧特征,将L1OHE分别连接到如图10C所示的MFCC特征。
在一个实施例中,L1口音OHE用于发音错误检测中的非母语的语音。原因与同质口音或讲话者i向量的情况相同。教练确认有母语和非母语的数据,并从数据中学习其讲话者或口音标记,而输入者使用训练的模型并将每个输入数据标记为母语。
在一个实施例中,也可以使用x向量或基于神经网络激活的嵌入来代替i向量。
训练数据集和测试数据集总结在表5中。k表示以千计。测试数据集包括由56个非母语者读取的267个句子和段落。平均来说,每个记录包括26个字。整个测试数据集包括10386个元音样本,其中5.4%被标记为相似发音错误。被发音错误的音素没有被标记。
表5
小时 语音 讲话者
母语训练数据集A 452 268k 2.3k
母语训练数据集B 1262 608k 33.0k
非母语的训练数据集 1696 1430k 6.0k
非母语的测试数据集 1.1 267 56
用于发音错误检测的AM是具有五层的ResNet型TDNN-F模型。因式分解和TDNN层的输出尺寸分别设置为256和1536。最终输出尺寸为5184。初始和最终学习速率分别设置为1e-3和1e-4。将时段的数目设置为4。未使用压差。口音/讲话者i向量的尺寸被设置为100。来自每个口音的60k语音用于i向量训练。
图11图示了比较与本公开的实施例一致的各种AM的精度与召回曲线。如图11所示,在0.50的召回率时,在非母语的语音被包括在训练数据集中之后,精度从0.58增加到0.74。在包括L1同质口音i向量作为声学建模的辅助特征之后,精度进一步增加到0.77。在包括L1口音一位热编码作为声学建模的辅助特征之后,精度最终增加到0.81。
在一个实施例中,用于发音错误检测的声学建模的神经网络架构包括因式分解的前馈神经网络,即TDNN-F。可替代地,可以使用更复杂的网络,如RNN或注意的序列到序列模型。与基线相比,口音OHE几乎不增加额外的计算成本,因为它仅引入两个额外的尺寸作为输入。
在S440,在识别出每个发音错误的音素之后,在文本转录本中输出每个发音错误的音素。
回到图2,在S220,在文本转录本中输出具有至少对应于元音、辅音和词重音中的一者或多者的发音错误的每个单词。具体地,可以向用户显示文本转录本,并且在文本转录本中突出显示具有与元音、辅音和词重音中的一者或多者相对应的发音错误的单词。可选地,关于文本转录本的发音错误的统计数据可以以各种格式呈现给用户。本公开不限制呈现发音错误的格式。
在本公开的实施例中,用于检测发音错误的声学模型用母语者说出的语音和非母语者说出的语音的组合来训练,而不标记出发音错误,这在0.5的召回率下将发音错误检测精度从0.58显著提高到0.74。基于口音的特征作为辅助输入被输入到声学模型中,并且口音一位热编码被用于在专有测试数据集上将检测精度进一步提高到0.81,并且通过使用从专有数据集训练的相同声学模型在公共L2-ARCTIC测试数据集上将检测精度相对提高6.9%来证明其可推广性。
本公开还提供了一种英语发音评估设备。该设备检查由非母语者说出的语音,并且通过识别发音错误的音素和错放的词重音来向用户提供语音级别的发音评估。该设备还提供发音(GOP)评分的总体良好度。该设备能够适应非母语者的各种口音并处理长达120秒的长句子。
图13图示了根据本公开的实施例的示例性英语发音评估设备。如图13所示,英语发音评估设备1300包括训练引擎1310和推理引擎1320。在训练阶段,训练引擎1310使用由母语者说出的语音、由非母语者说出的语音以及相应的文本转录本来训练声学模型1322。在推理阶段,推理引擎1320使用需要评估的英语语音的音频文件和相应的文本转录本作为声学模型的输入。推理引擎1320在文本转录本中输出发音错误和错放的词重音。
英语发音评估设备1300可以包括处理器和存储器。存储器可用于存储计算机程序指令。处理器可以被配置为调用和执行存储在存储器中的计算机程序指令以实现英语发音评估方法。
在一个实施例中,该处理器被配置为接收包括英语语音和对应于该英语语音的文本转录本的音频文件,将包括在该音频文件中的音频信号输入到一个或多个声学模型,以获得该英语语音的每个单词中的每个音素的语音信息,其中该一个或多个声学模型是用由母语者说出的语音并且进一步用由非母语者说出的语音来训练的,而不标记出发音错误,使得基于由母语和非母语讲话者训练的一个或多个声学模型更准确地检测发音错误、提取输入的音频信号中包含的每个单词的时间序列特征,以将变化长度的每个单词转换成固定长度的特征向量,将提取的每个单词的时间序列特征、获得的每个单词中的每个音素的语音信息、以及音频文件中包括的音频信号输入到词重音模型,以在不扩展短单词以引起输入近似的情况下获得英语语音中具有不同音节数的每个单词中的错放的词重音,并输出具有至少对应于文本转录本中的词重音的发音错误的每个单词。
在一个实施例中,该处理器被配置为接收包括英语语音和对应于该英语语音的文本转录本的音频文件,将包括在该音频文件中的音频信号输入到一个或多个声学模型,以获得该英语语音的每个单词中的每个音素的语音信息,其中该一个或多个声学模型是用由母语者说出的语音并且进一步用由非母语者说出的语音来训练的,而不标记出发音错误,使得基于由母语和非母语讲话者训练的一个或多个声学模型更准确地检测发音错误、提取输入的音频信号中包含的每个单词的时间序列特征,以将变化长度的每个单词转换成固定长度的特征向量,将提取的每个单词的时间序列特征、获得的每个单词中的每个音素的语音信息、以及音频文件中包括的音频信号输入到词重音模型,以在不扩展短单词以引起输入近似的情况下获得英语语音中具有不同音节数的每个单词中的错放的词重音,将得到的每个单词中的每个音素的语音信息输入到元音模型或辅音模型中,以得到英语语音的每个单词中的每个错音音素,并输出具有至少对应于文本转录本中的元音、辅音和词重音中的一者或多者的发音错误的每个单词。
将该音频文件中包含的音频信号输入到对准声学模型,以获取每个单词中每个单词和每个音素的时间边界,将该音频文件中包含的音频信号以及获取的每个单词中每个单词和每个音素的时间边界输入到后验概率声学模型,以获取每个单词中每个音素的每个聚类状态的后验概率分布,将获取的每个单词和每个音素的时间边界与获取的每个单词中每个音素的每个聚类状态的后验概率分布进行相关,以获取每个单词中每个音素的每个senone的后验概率分布,并输出每个单词中每个单词和每个音素的时间边界以及每个单词中每个音素的每个senone的后验概率分布。
在一个实施例中,处理器还被配置为接收每个单词和每个单词中的每个音素的时间边界以及每个单词中的每个音素的后验概率分布,基于词典确定每个单词中的每个音素的实际标记(元音或辅音),将具有低于预先配置的阈值的对应后验概率的每个音素识别为发音错误的音素,并且输出文本转录本中的每个发音错误的音素。
在一个实施例中,该处理器还被配置为接收提取的每个单词的时间序列特征、每个单词中的每个单词和每个音素的时间边界、每个单词中的每个音素的后验概率分布、包括在该音频文件中的音频信号以及对应的文本转录本,将每个单词的时间序列特征、每个单词中的每个单词和每个音素的时间边界、每个单词中的每个音素的后验概率分布、包括在该音频文件中的音频信号以及对应的文本转录本输入到该词重音模型以获得每个单词中的词重音,基于词典确定每个单词中的词重音是否被错放,以及输出在该文本转录本中具有错放的词重音的每个单词。
在一个实施例中,处理器还被配置为将每个单词与至少一个发音错误的音素和每个单词与错放的词重音合在一起作为具有发音错误的单词,并在文本转录本中输出具有发音错误的每个单词。
各种实施例还可以提供计算机程序产品。该计算机程序产品可以包括非暂时性计算机可读存储介质和存储在其中的程序指令,该程序指令被配置为可由计算机执行以使得该计算机执行包括所公开的方法的操作。
在一些实施例中,英语发音评估设备还可包括用户界面,用于用户输入音频文件和相应的文本转录本,并查看文本转录本中的发音错误。
在本公开的实施例中,英语发音评估设备包括用由母语者说出的语音和由非母语者说出的语音的组合来训练的声学模型,而不标记出发音错误,这在0.5的召回率下将发音错误检测精度从0.58显著提高到0.74。此外,基于口音的特征和重音一位热编码被结合到声学模型中,以进一步提高检测精度。用于检测错放的词重音的声学模型采用时间序列特征作为输入,以充分挖掘输入信息。声学模型的网络架构本质上适应于不同音节数的单词,而不扩展短单词,从而减少输入近似,并提高检测精度。因此,英语发音评估设备更准确地检测发音错误和错放的词重音,以提供更理想的用户体验。
尽管在说明书中通过使用特定实施例描述了本公开的原理和实现,但是实施例的前述描述仅旨在帮助理解本公开的方法和方法的核心思想。同时,本领域普通技术人员可以根据本公开的思想对具体实施方式和应用范围进行修改。总之,说明书的内容不应被解释为对本公开的限制。

Claims (20)

1.一种计算机实现的英语发音评估方法,包括:
接收包括英语语音和与所述英语语音对应的文本转录本的音频文件;
将所述音频文件中包括的音频信号输入到一个或多个声学模型中,以获得所述英语语音的每个单词中的每个音素的语音信息,其中所述一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,从而基于所述一个或多个声学模型更准确地检测发音错误,所述一个或多个声学模型用母语者和非母语者的语音进行训练;
提取包括在所述输入音频信号中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度特征向量;
将所述提取的每个单词的时间序列特征、所述获得的每个单词中的每个音素的语音信息以及所述音频文件中包括的所述音频信号输入到词重音模型中,以获得不同音节数的所述英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似;以及
输出具有至少对应于所述文本转录本中的词重音的所述发音错误的每个单词。
2.根据权利要求1所述的方法,还包括:
将每个单词中的所述获得的每个音素的语音信息输入元音模型或辅音模型,以获得所述英语语音的每个单词中的每个发音错误的音素;以及
输出具有至少对应于所述文本转录本中的元音、辅音和所述词重音中的一者或多者的所述发音错误的每个单词。
3.根据权利要求1所述的方法,其中:
所述语音信息至少包括每个单词和每个单词中的每个音素的时间边界以及每个单词中的每个音素的每个senone的后验概率分布;以及
所述时间序列特征至少包括频率、能量和梅尔频率倒谱系数(MFCC)特征。
4.根据权利要求1所述的方法,其中将所述音频文件中包括的所述音频信号输入到所述一个或多个声学模型中包括:
将所述音频文件中包括的所述音频信号输入到对准声学模型中,以得到每个单词和每个单词中每个音素的时间边界;
将包括在所述音频文件中的所述音频信号以及所述获得的每个单词和每个单词中的每个音素的时间边界输入到后验概率声学模型,以获得每个单词中的每个音素的每个senone的后验概率分布;
将所述获得的每个单词和每个单词中的每个音素的时间边界以及每个单词中的每个音素的每个senone的后验概率分布进行相关,以获得每个单词中的每个音素的后验概率分布;以及
输出每个单词和每个单词中每个音素的所述时间边界,以及每个单词中每个音素的所述后验概率分布。
5.根据权利要求2所述的方法,其中将每个单词中的所述获得的每个音素的语音信息输入所述元音模型或所述辅音模型包括:
接收每个单词和每个单词中每个音素的时间边界,以及每个单词中每个音素的所述后验概率分布;
基于词典确定每个单词中每个音素的实际标记(元音或辅音);
将具有低于预先配置的阈值的相应后验概率的每个音素识别为发音错误的音素;以及
在所述文本转录本中输出每个发音错误的音素。
6.根据权利要求1所述的方法,其中将所述提取的每个单词的时间序列特征、所述获得的每个单词中的每个音素的语音信息以及所述音频文件中包括的所述音频信号输入到词重音模型中,以获得不同音节数的所述英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似包括:
接收所述提取的每个单词的时间序列特征、每个单词和每个单词中的每个音素的时间边界、每个单词中的每个音素的后验概率分布、包括在所述音频文件中的所述音频信号,以及所述对应的文本转录本;
将每个单词的所述时间序列特征、每个单词和每个单词中的每个音素的时间边界、每个单词中的每个音素的后验概率分布、所述音频文件中包括的所述音频信号,以及所述对应的文本转录本输入到所述词重音模型,以获得每个单词中的词重音;
基于词典确定每个单词中的所述词重音是否被错放;以及
在文本转录本中输出具有错放的词重音的每个单词。
7.根据权利要求2所述的方法,其中输出具有至少对应于所述文本转录本中的所述元音、所述辅音和所述词重音中的一者或多者的所述发音错误的每个单词包括:
将每个单词与至少一个发音错误的音素和每个单词与错放的词重音组合在一起作为具有所述发音错误的单词;以及
输出在所述文本转录本中具有所述发音错误的每个单词。
8.根据权利要求4所述的方法,其中:
所述对准声学模型包括与隐马尔可夫模型(HMM)级联的高斯混合模型(GMM)或与HMM级联的神经网络模型(NNM)。
9.根据权利要求8所述的方法,其中:
所述GMM由高斯密度的线性组合组成:
其中αm是与∑αm=1的混合比例,并且每个φ(x;μmm)是具有均值μm和协方差矩阵Σm的高斯密度。
10.根据权利要求8所述的方法,其中:
所述NNM是因式分解的时间延迟神经网络(TDNNF)。
11.根据权利要求10所述的方法,其中:
所述TDNNF包括五个隐藏层;
所述TDNNF的每个隐藏层是3级卷积;以及
所述3级卷积包括约束到维数256的2×1卷积、约束到维数256的2×1卷积,以及约束到维数1536的返回到隐藏层的2×1卷积。
12.根据权利要求8所述的方法,其中:
所述HMM是状态聚类的三音素模型,用于为每个音素建模三个不同的状态;以及
语音决策树用于将类似的状态聚类在一起。
13.根据权利要求4所述的方法,其中:
所述后验概率声学模型包括与隐马尔可夫模型(HMM)级联的神经网络模型(NNM);
所述后验概率声学模型的输入包括与所述时间边界对准的所述音频信号和从所述音频信号中提取的所述时间序列特征;以及
所述后验概率声学模型的输出包括每个单词中每个音素的每个senone的所述后验概率分布。
14.根据权利要求6所述的方法,其中所述词重音模型至少包括:
包括双向长短期存储器(LSTM)模型的第二逻辑电平;
包括多个LSTM模块和高速层的第三逻辑电平;
包括内部关注层的第四逻辑电平;
包括多个自我注意块和位置式前馈网络层的第五逻辑电平;以及
包括对应于每个单词的所有音节的目标标记的第六逻辑电平。
15.根据权利要求14所述的方法,其中:
LSTM步骤的最大数目限于50;以及
每个LSTM步骤对应于10ms的持续时间。
16.一种英语发音评估设备,包括:
用于存储程序指令的存储器;以及
用于执行存储在所述存储器中的程序指令的处理器,以执行以下:
接收包括英语语音和与所述英语语音对应的文本转录本的音频文件;
将所述音频文件中包括的音频信号输入到一个或多个声学模型中,以获得所述英语语音的每个单词中的每个音素的语音信息,其中所述一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,从而基于所述一个或多个声学模型更准确地检测发音错误,所述一个或多个声学模型用母语者和非母语者的语音进行训练;
提取包括在所述输入音频信号中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度特征向量;
将所述提取的每个单词的时间序列特征、所述获得的每个单词中的每个音素的语音信息以及所述音频文件中包括的所述音频信号输入到词重音模型中,以获得不同音节数的所述英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似;以及
输出具有至少对应于所述文本转录本中的词重音的所述发音错误的每个单词。
17.根据权利要求16所述的设备,还包括人机界面,所述人机界面被配置为:
允许用户输入包括所述英语语音和对应于所述英语语音的文本转录本的所述音频文件;以及
向所述用户显示具有至少对应于所述文本转录本中的所述词重音的所述发音错误的每个单词。
18.根据权利要求16所述的设备,其中所述处理器还被配置为执行:
将每个单词中的所述获得的每个音素的语音信息输入元音模型或辅音模型,以获得所述英语语音的每个单词中的每个发音错误的音素;以及
输出具有至少对应于所述文本转录本中的元音、辅音和所述词重音中的一者或多者的所述发音错误的每个单词。
19.根据权利要求16所述的设备,其中:
所述语音信息至少包括每个单词和每个单词中的每个音素的时间边界以及每个单词中的每个音素的每个senone的后验概率分布;以及
所述时间序列特征至少包括频率、能量和梅尔频率倒谱系数(MFCC)特征。
20.一种计算机程序产品,包括非暂时性计算机可读存储介质和存储在其中的程序指令,所述程序指令被配置为可由计算机执行以使所述计算机执行以下操作:
接收包括英语语音和与所述英语语音对应的文本转录本的音频文件;
将所述音频文件中包括的音频信号输入到一个或多个声学模型中,以获得所述英语语音的每个单词中的每个音素的语音信息,其中所述一个或多个声学模型用母语者说出的语音进行训练,并且进一步用非母语者说出的语音进行训练,而不标记出发音错误,从而基于所述一个或多个声学模型更准确地检测发音错误,所述一个或多个声学模型用母语者和非母语者的语音进行训练;
提取包括在所述输入音频信号中的每个单词的时间序列特征,以将变化长度的每个单词转换为固定长度特征向量;
将所述提取的每个单词的时间序列特征、所述获得的每个单词中的每个音素的语音信息以及所述音频文件中包括的所述音频信号输入到词重音模型中,以获得不同音节数的所述英语语音中的每个单词中的错放的词重音,而不扩展短单词以引起输入近似;以及
输出具有至少对应于所述文本转录本中的词重音的所述发音错误的每个单词。
CN202180090828.9A 2021-01-08 2021-11-27 用于英语发音评估的方法、设备和计算机程序产品 Pending CN117043857A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/145136 2021-01-08
US17/145,136 US20220223066A1 (en) 2021-01-08 2021-01-08 Method, device, and computer program product for english pronunciation assessment
PCT/CN2021/133747 WO2022148176A1 (en) 2021-01-08 2021-11-27 Method, device, and computer program product for english pronunciation assessment

Publications (1)

Publication Number Publication Date
CN117043857A true CN117043857A (zh) 2023-11-10

Family

ID=82322942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180090828.9A Pending CN117043857A (zh) 2021-01-08 2021-11-27 用于英语发音评估的方法、设备和计算机程序产品

Country Status (3)

Country Link
US (1) US20220223066A1 (zh)
CN (1) CN117043857A (zh)
WO (1) WO2022148176A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220319505A1 (en) * 2021-02-12 2022-10-06 Ashwarya Poddar System and method for rapid improvement of virtual speech agent's natural language understanding
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
CN117877523A (zh) * 2024-01-10 2024-04-12 广州市信息技术职业学校 一种英文发音评测方法、装置、设备和可读存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US20070294082A1 (en) * 2004-07-22 2007-12-20 France Telecom Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8392190B2 (en) * 2008-12-01 2013-03-05 Educational Testing Service Systems and methods for assessment of non-native spontaneous speech
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
WO2014005142A2 (en) * 2012-06-29 2014-01-03 Rosetta Stone Ltd Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system
US9076347B2 (en) * 2013-03-14 2015-07-07 Better Accent, LLC System and methods for improving language pronunciation
US9489943B2 (en) * 2013-10-16 2016-11-08 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
CN105741832B (zh) * 2016-01-27 2020-01-07 广东外语外贸大学 一种基于深度学习的口语评测方法和***
GB201706078D0 (en) * 2017-04-18 2017-05-31 Univ Oxford Innovation Ltd System and method for automatic speech analysis
CN107945788B (zh) * 2017-11-27 2021-11-02 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
GB2575423B (en) * 2018-05-11 2022-05-04 Speech Engineering Ltd Computer implemented method and apparatus for recognition of speech patterns and feedback
US11043213B2 (en) * 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
CN109979257B (zh) * 2019-04-27 2021-01-08 深圳市数字星河科技有限公司 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
US20210319786A1 (en) * 2020-04-08 2021-10-14 Oregon Health & Science University Mispronunciation detection with phonological feedback
CN111653292B (zh) * 2020-06-22 2023-03-31 桂林电子科技大学 一种中国学生英语朗读质量分析方法

Also Published As

Publication number Publication date
WO2022148176A1 (en) 2022-07-14
US20220223066A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
Odell The use of context in large vocabulary speech recognition
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
CN112435654B (zh) 通过帧***对语音数据进行数据增强
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
US11935523B2 (en) Detection of correctness of pronunciation
US20100324897A1 (en) Audio recognition device and audio recognition method
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
Soltau et al. Reducing the computational complexity for whole word models
US20040006469A1 (en) Apparatus and method for updating lexicon
Ettaouil et al. A hybrid ANN/HMM models for arabic speech recognition using optimal codebook
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
Austin et al. Continuous speech recognition using segmental neural nets
Pylkkönen Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training
Getman End-to-end low-resource automatic speech recognition for second language learners
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
Sirigos et al. A hybrid syllable recognition system based on vowel spotting
Dessalegn Syllable based speaker independent Continous speech recognition for Afan Oromo
Nwe et al. Myanmar language speech recognition with hybrid artificial neural network and hidden Markov model
Kurian et al. Automated Transcription System for MalayalamLanguage
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
Dumitru et al. Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL
Schwartz et al. Acoustic-Phonetic Decoding of Speech: Statistical Modeling for Phonetic Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination