CN111986650B - 借助语种识别辅助语音评测的方法及*** - Google Patents

借助语种识别辅助语音评测的方法及*** Download PDF

Info

Publication number
CN111986650B
CN111986650B CN202010785964.7A CN202010785964A CN111986650B CN 111986650 B CN111986650 B CN 111986650B CN 202010785964 A CN202010785964 A CN 202010785964A CN 111986650 B CN111986650 B CN 111986650B
Authority
CN
China
Prior art keywords
score
language
level
evaluation
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010785964.7A
Other languages
English (en)
Other versions
CN111986650A (zh
Inventor
牛传迎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010785964.7A priority Critical patent/CN111986650B/zh
Publication of CN111986650A publication Critical patent/CN111986650A/zh
Application granted granted Critical
Publication of CN111986650B publication Critical patent/CN111986650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种借助语种识别辅助语音评测的方法及***,所述方法执行以下步骤:步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。根据本发明的方法,基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学***;同时,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测***要求的语种发音时又不影响评测打分。

Description

借助语种识别辅助语音评测的方法及***
技术领域
本发明涉及语音评测技术领域,特别涉及一种借助语种识别辅助语音评测的方法及***。
背景技术
目前的语音评测技术常针对特定语种搜集大量发音质量较高的语音数据来训练声学模型,然后通过参考文本、发音词典以及声学模型构建识别网络,最后通过GOP(Goodness Of Pronunciation)算法给出后验概率作为衡量学***均或加权平均依次得到音素、单词、句子、段落、篇章的分数。
这种方法的弊端在于,一方面,目前的语音评测技术通常要求学***的分数;而当学***的分数,例如给定文本为“中国人”,当学习者读“一块五毛钱”时,***识别结果还是“中国人”;另一方面,由于解码路径仅有一条,当学习者不按照给定语种的文本发音时,即按照另外一个语种发音时,评测***很难打零分。例如,参考文本为“你好”,学习者发成“hello”,识别结果还是“你好”,***机器得分通常大于零分;再一方面,基于多语种融合的语音评测***当前还没有实际落地场景。
发明内容
本发明提供一种借助语种识别辅助语音评测的方法及***,用以解决语音评测在学习者乱说情况下不能打零分的问题。
本发明提供了一种借助语种识别辅助语音评测的方法,所述方法执行以下步骤:
步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;
步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
进一步地,在所述步骤1中,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
进一步地,所述步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分执行以下步骤:
步骤S11:提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
步骤S12:根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
步骤S13:根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
步骤S14:根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
进一步地,在所述步骤S11中,根据以下公式确定所述音素层级的GOP后验概率:
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
在所述步骤S11中,基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
在所述步骤S12中,根据以下公式确定所述单词层级的后验概率,
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
在所述步骤S12中,根据以下公式确定所述单词层级的置信分数,
其中,Wkcm表示第k个单词的置信分数;
在所述步骤S13中,根据以下公式确定所述句子层级的分数,
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,β分别为加权系数,满足M>0,/>0≤β≤1,且/>
在所述步骤S13中,根据以下公式统计句子中单词后验概率打零分的比例,
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
在所述步骤S14中,根据以下公式确定句子的初始评测得分,
其中,t1表示zmatch阈值,t2表示Sr阈值。
进一步地,所述步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果执行以下步骤:
步骤S21:将待检测语音转化为语种向量,其中所述语种向量代表语种信息;
步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果。
进一步地,所述步骤S21:将待检测语音转化为语种向量执行以下步骤:
步骤S211:将所述待检测语音经过语音活动检测处理,以剔除所述待检测语音中的静音部分;
步骤S212:提取经过语音活动检测处理的所述待检测语音中的声学特征序列;
步骤S213:采用x-vector提取器,从所述声学特征序列中提取固定长度的向量,得到所述语种向量。
进一步地,所述步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果执行以下步骤:
步骤S221:分别对所述语种向量和所述模型语种向量进行降维处理和规整处理;
步骤S222:将经过降维处理和规整处理的所述语种向量和所述模型语种向量,经过训练好的概率线性判别分析模型进行打分处理,得到与各语种对应的得分;
步骤S223:选择得分最高并且大于语种阈值的语种,作为所述语种识别结果。
进一步地,所述步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
本发明实施例提供的一种借助语种识别辅助语音评测的方法,具有以下有益效果:基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学***;同时,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测***要求的语种发音时又不影响评测打分。
本发明还提供一种借助语种识别辅助语音评测的***,包括:
初始评测得分计算模块,用于根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
语种识别模块,用于对所述待检测语音数据进行语种识别,得到语种识别结果;
语音评测模块,用于根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
进一步地,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
对应地,所述初始评测得分计算模块包括:
音素层级计算单元,用于提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
单词层级计算单元,用于根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
句子层级计算单元,用于根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
初始评测得分计算单元,用于根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
本发明实施例提供的一种借助语种识别辅助语音评测的***,具有以下有益效果:初始评测得分计算模块基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学***;同时,语音评测模块基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测***要求的语种发音时又不影响评测打分。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种借助语种识别辅助语音评测的方法的流程示意图;
图2为本发明实施例中一种借助语种识别辅助语音评测的方法的语种识别的流程示意图;
图3为本发明实施例中一种借助语种识别辅助语音评测的方法中进行语种识别所采用的x-vector提取器的结构图;
图4为本发明实施例中一种借助语种识别辅助语音评测的方法中根据初始评测得分和语种识别结果,得到语音评测结果的语种识别的流程示意图;
图5为本发明实施例中一种借助语种识别辅助语音评测的***的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种借助语种识别辅助语音评测的方法,如图1所示,所述方法执行以下步骤:
步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;
步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
上述技术方案的工作原理为:在所述步骤1中,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
具体地,本发明采用基于多层级分数映射的方法,首先根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;然后对待检测语音数据进行语种识别,得到语种识别结果;最后根据初始评测得分和语种识别结果,得到语音评测结果。
上述技术方案的有益效果为:基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学***;同时,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测***要求的语种发音时又不影响评测打分。
在一个实施例中,所述步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分执行以下步骤:
步骤S11:提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
步骤S12:根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
步骤S13:根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
步骤S14:根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
上述技术方案的工作原理为:在所述步骤S11中,根据以下公式确定所述音素层级的GOP后验概率:
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
在所述步骤S11中,基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
在所述步骤S12中,根据以下公式确定所述单词层级的后验概率,
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
在所述步骤S12中,根据以下公式确定所述单词层级的置信分数,
其中,Wkcm表示第k个单词的置信分数;
在所述步骤S13中,根据以下公式确定所述句子层级的分数,
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,β分别为加权系数,满足M>0,/>0≤β≤1,且/>
在所述步骤S13中,根据以下公式统计句子中单词后验概率打零分的比例,
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
在所述步骤S14中,根据以下公式确定句子的初始评测得分,
其中,t1表示zmatch阈值,t2表示Sr阈值。
上述技术方案的有益效果为:提供了根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分的具体步骤,基于多层级分数映射的方法,分别计算了后验概率和置信分数两个特征,通过加权和的方式更能精确的描述学***;更进一步结合了打零分单词比例这一特征,一定程度上可以覆盖按照规定语种乱说的情况。
在一个实施例中,所述步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果执行以下步骤:
步骤S21:将待检测语音转化为语种向量,其中所述语种向量代表语种信息;
步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果。
上述技术方案的工作原理为:其中,所述步骤S21:将待检测语音转化为语种向量执行以下步骤:
步骤S211:将所述待检测语音经过语音活动检测处理,以剔除所述待检测语音中的静音部分;
步骤S212:提取经过语音活动检测处理的所述待检测语音中的声学特征序列;
步骤S213:采用x-vector提取器,从所述声学特征序列中提取固定长度的向量,得到所述语种向量。
进一步地,所述步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果执行以下步骤:
步骤S221:分别对所述语种向量和所述模型语种向量进行降维处理和规整处理;
步骤S222:将经过降维处理和规整处理的所述语种向量和所述模型语种向量,经过训练好的概率线性判别分析模型进行打分处理,得到与各语种对应的得分;
步骤S223:选择得分最高并且大于语种阈值的语种,作为所述语种识别结果。
具体地,图2示出了语种识别的流程示意图,如上图2所示,语种识别分两个模块,前端模块和后端模块。前端模块主要将一段待检测语音转化为代表语种信息的特殊向量,这里表示为x-vector,具体地,首先一段待检测语音经VAD(Voice Activity Detection,语音活动检测)处理后剔除静音部分,然后提取声学特征序列。提取的声学特征序列经x-vector提取器提取固定长度的向量即为x-vector。其中x-vector提取器的结构如图3所示,整个结构是一个前馈神经网络,由输入层、隐藏层、池化层和输出层组成,又可以按输入特征分为两个层级,在池化层之前是时延神经网络(Time Delay Neural Network,TDNN)。TDNN每次取一段待检测语音的声学特征序列中的固定帧数逐层向上传递,池化层将TDNN的输出进行累计,计算均值和方差,池化层之后是两层全连接层,x-vector可以从这两层中任一层的输出提取,最后是softmax输出层,输出层节点个数为语种个数。后端为打分模块,前端模块得到的各语种模型的x-vector和一段待检测语音的x-vector,分别经过降维和规整,然后经过训练好的概率线性判别分析(Probabilistic Linear DiscriminantAnalysis,PLDA)模型进行打分处理,选择得分最高并且大于阈值的语种作为最终识别语种。
上述技术方案的有益效果为:提供了对待检测语音数据进行语种识别,得到语种识别结果的具体步骤。
在一个实施例中,所述步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
上述技术方案的工作原理为:图4示出了根据初始评测得分和语种识别结果,得到语音评测结果的语种识别的流程示意图,若经过步骤1得到的初始评测得分小于评测总分阈值,则触发第二步语种识别,若语种识别结果不是当前语音评测所规定的语种,则将该句的初始评测得分重置为0分,作为语音评测结果,并且将该句中所有单词层级的置信分数和所有音素层级的置信分数都重置为0分;若语种识别结果为语音评测所要求语种则保持原来句子的初始评测得分;若第一步句子总分大于等于阈值则不触发语种识别,保持原来句子得分。
综上,可以通过以下公式确定语音评测结果,
其中,score表示语音评测总分,Sthreshold表示评测总分阈值。
上述技术方案的有益效果为:提供了根据初始评测得分和语种识别结果,得到语音评测结果的具体步骤,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测***要求的语种发音时又不影响评测打分。
如图2所示,本发明实施例提供了一种借助语种识别辅助语音评测的***,包括:
初始评测得分计算模块201,用于根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
语种识别模块202,用于对所述待检测语音数据进行语种识别,得到语种识别结果;
语音评测模块203,用于根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
上述技术方案的工作原理为:所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
具体地,本发明采用基于多层级分数映射的技术,利用初始评测得分计算模块201根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;利用语种识别模块202对待检测语音数据进行语种识别,得到语种识别结果;利用语音评测模块203根据初始评测得分和语种识别结果,得到语音评测结果。
上述技术方案的有益效果为:初始评测得分计算模块基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学***;同时,语音评测模块基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测***要求的语种发音时又不影响评测打分。
在一个实施例中,所述初始评测得分计算模块201包括:
音素层级计算单元,用于提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
单词层级计算单元,用于根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
句子层级计算单元,用于根据所述单词层级的置信分数和所述单词层级后验概率打零分的后验概率的加权平均,得到句子层级的分数,并统计句子中单词比例;
初始评测得分计算单元,用于根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
上述技术方案的工作原理为:音素层级计算单元根据以下公式确定所述音素层级的GOP后验概率:
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
音素层级计算单元基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
单词层级计算单元根据以下公式确定所述单词层级的后验概率,
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
单词层级计算单元根据以下公式确定所述单词层级的置信分数,
其中,Wkcm表示第k个单词的置信分数;
句子层级计算单元根据以下公式确定所述句子层级的分数,
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,β分别为加权系数,满足M>0,/>0≤β≤1,且/>
句子层级计算单元根据以下公式统计句子中单词后验概率打零分的比例,
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
初始评测得分计算单元根据以下公式确定句子的初始评测得分,
其中,t1表示zmatch阈值,t2表示Sr阈值。
上述技术方案的有益效果为:借助于音素层级计算单元、单词层级计算单元、句子层级计算单元和初始评测得分计算单元,可以得到初始评测得分,基于多层级分数映射的方法,分别计算了后验概率和置信分数两个特征,通过加权和的方式更能精确的描述学***;更进一步结合了打零分单词比例这一特征,一定程度上可以覆盖按照规定语种乱说的情况。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种借助语种识别辅助语音评测的方法,其特征在于,所述方法执行以下步骤:
步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;
步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果;
所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元;
所述步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分执行以下步骤:
步骤S11:提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
步骤S12:根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
步骤S13:根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
步骤S14:根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分;
在所述步骤S13中,根据以下公式确定所述句子层级的分数,
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,β分别为加权系数,满足M>0,/>0≤β≤1,且/>Wk表示第k个单词的后验概率,Wkcm表示第k个单词的置信分数;
在所述步骤S13中,根据以下公式统计句子中单词后验概率打零分的比例,
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数,Wmatch表示依据DTW算法计算识别结果和参考文本中匹配的单词总个数,Wdel表示依据DTW算法计算识别结果和参考文本中删除的单词总个数,Wsub表示DTW算法计算识别结果和参考文本中替换的单词总个数;
在所述步骤S14中,根据以下公式确定句子的初始评测得分,
其中,t1表示zmatch阈值,t2表示Sr阈值,Sm表示句子的初始评测得分;
所述步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
2.如权利要求1所述的方法,其特征在于,在所述步骤S11中,根据以下公式确定所述音素层级的GOP后验概率:
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合,q表示参考文本中的音素模型,P(Oi|q;ts,te)表示i个观测矢量Oi在模型q下的似然分数;
在所述步骤S11中,基于语音识别网络,通过前后向算法获得所述音素层级的置信分数表示第i个音素的置信分数;
在所述步骤S12中,根据以下公式确定所述单词层级的后验概率,
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
在所述步骤S12中,根据以下公式确定所述单词层级的置信分数,
其中,表示第k个单词的置信分数。
3.如权利要求1所述的方法,其特征在于,所述步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果执行以下步骤:
步骤S21:将待检测语音转化为语种向量,其中所述语种向量代表语种信息;
步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量对比,得到语种识别结果。
4.如权利要求3所述的方法,其特征在于,所述步骤S21:将待检测语音转化为语种向量执行以下步骤:
步骤S211:将所述待检测语音经过语音活动检测处理,以剔除所述待检测语音中的静音部分;
步骤S212:提取经过语音活动检测处理的所述待检测语音中的声学特征序列;
步骤S213:采用x-vector提取器,从所述声学特征序列中提取固定长度的向量,得到所述语种向量。
5.如权利要求3所述的方法,其特征在于,所述步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果执行以下步骤:
步骤S221:分别对所述语种向量和所述模型语种向量进行降维处理和规整处理,
步骤S222:将经过降维处理和规整处理的所述语种向量和所述模型语种向量,经过训练好的概率线性判别分析模型进行打分处理,得到与各语种对应的得分;
步骤S223:选择得分最高并且大于语种阈值的语种,作为所述语种识别结果。
6.一种借助语种识别辅助语音评测的***,其特征在于,包括:
初始评测得分计算模块,用于根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
语种识别模块,用于对所述待检测语音数据进行语种识别,得到语种识别结果;
语音评测模块,用于根据所述初始评测得分和所述语种识别结果,得到语音评测结果;
所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元;
对应地,所述初始评测得分计算模块包括:
音素层级计算单元,用于提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
单词层级计算单元,用于根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
句子层级计算单元,用于根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
初始评测得分计算单元,用于根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分;
在所述句子层级计算单元中,根据以下公式确定所述句子层级的分数,
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,β分别为加权系数,满足M>0,/>0≤β≤1,且/>Wk表示第k个单词的后验概率,/>表示第k个单词的置信分数;
在所述句子层级计算单元中,根据以下公式统计句子中单词后验概率打零分的比例,
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数,Wmatch表示依据DTW算法计算识别结果和参考文本中匹配的单词总个数,Wdel表示依据DTW算法计算识别结果和参考文本中删除的单词总个数,Wsub表示DTW算法计算识别结果和参考文本中替换的单词总个数;
在所述初始评测得分计算单元中,根据以下公式确定句子的初始评测得分,
其中,t1表示zmatch阈值,t2表示Sr阈值,Sm表示句子的初始评测得分;
根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
CN202010785964.7A 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及*** Active CN111986650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010785964.7A CN111986650B (zh) 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010785964.7A CN111986650B (zh) 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及***

Publications (2)

Publication Number Publication Date
CN111986650A CN111986650A (zh) 2020-11-24
CN111986650B true CN111986650B (zh) 2024-02-27

Family

ID=73444525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010785964.7A Active CN111986650B (zh) 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及***

Country Status (1)

Country Link
CN (1) CN111986650B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035237B (zh) * 2021-03-12 2023-03-28 平安科技(深圳)有限公司 语音测评方法、装置和计算机设备
CN113096690A (zh) * 2021-03-25 2021-07-09 北京儒博科技有限公司 一种发音评测方法、装置、设备及存储介质
CN115188366A (zh) * 2022-05-12 2022-10-14 广州云趣信息科技有限公司 基于深度学习的语种识别方法、装置、可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
CN102214462A (zh) * 2011-06-08 2011-10-12 北京爱说吧科技有限公司 用于发音评估的方法和***
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及***
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及***、口语评测方法及***
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN108648766A (zh) * 2018-08-01 2018-10-12 云知声(上海)智能科技有限公司 语音评测方法及***
CN110648690A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质
CN111462729A (zh) * 2020-03-31 2020-07-28 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
GB0920480D0 (en) * 2009-11-24 2010-01-06 Yu Kai Speech processing and learning
US11568761B2 (en) * 2017-09-26 2023-01-31 Nippon Telegraph And Telephone Corporation Pronunciation error detection apparatus, pronunciation error detection method and program

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
CN102214462A (zh) * 2011-06-08 2011-10-12 北京爱说吧科技有限公司 用于发音评估的方法和***
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及***
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及***、口语评测方法及***
CN108648766A (zh) * 2018-08-01 2018-10-12 云知声(上海)智能科技有限公司 语音评测方法及***
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN110648690A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
CN111462729A (zh) * 2020-03-31 2020-07-28 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语音识别的语种识别研究;陈灏;设备管理与维修(第17期);第15-16页 *

Also Published As

Publication number Publication date
CN111986650A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111986650B (zh) 借助语种识别辅助语音评测的方法及***
CN109545243B (zh) 发音质量评价方法、装置、电子设备及存储介质
Jiang Confidence measures for speech recognition: A survey
CN112397091B (zh) 中文语音综合评分及诊断***和方法
US8423364B2 (en) Generic framework for large-margin MCE training in speech recognition
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
Lei et al. Dialect classification via text-independent training and testing for Arabic, Spanish, and Chinese
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Zhang et al. A novel decision function and the associated decision-feedback learning for speech translation
Najafian Acoustic model selection for recognition of regional accented speech
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP3444108B2 (ja) 音声認識装置
Lopes et al. Broad phonetic class definition driven by phone confusions
Cordoba et al. Language Identification based on n-gram Frequency Ranking
CN112908359A (zh) 语音测评方法、装置、电子设备及计算机可读介质
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Lin et al. Gated fusion of handcrafted and deep features for robust automatic pronunciation assessment
CN114780786B (zh) 一种基于瓶颈特征和残差网络的语音关键词检索方法
Nallasamy Adaptation techniques to improve ASR performance on accented speakers
Taguchi et al. Learning lexicons from spoken utterances based on statistical model selection
CN114398468B (zh) 一种多语种识别方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant