CN112802494A - 语音评测方法、装置、计算机设备和介质 - Google Patents

语音评测方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN112802494A
CN112802494A CN202110386211.3A CN202110386211A CN112802494A CN 112802494 A CN112802494 A CN 112802494A CN 202110386211 A CN202110386211 A CN 202110386211A CN 112802494 A CN112802494 A CN 112802494A
Authority
CN
China
Prior art keywords
voice
similarity
evaluation
result
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110386211.3A
Other languages
English (en)
Other versions
CN112802494B (zh
Inventor
赵明
田科
潘建伟
吴中勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110386211.3A priority Critical patent/CN112802494B/zh
Publication of CN112802494A publication Critical patent/CN112802494A/zh
Application granted granted Critical
Publication of CN112802494B publication Critical patent/CN112802494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种语音评测方法、装置、计算机设备和介质,其中,语音评测方法包括:将测试文本输入语音合成模型,获取语音合成模型输出的测试文本对应的第一语音;根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和第二语音的第一相似度;根据第一相似度和已知的第二语音评测结果,确定第一语音的评测结果。由于第二语音的评测结果是已知的,根据第一相似度和第二语音的评测结果确定第一语音的评测结果,缩短了语音评测的时间,减少了人工评测的主观因素干扰,提升了评测结果的准确性,从而,提高了语音评测的效率。

Description

语音评测方法、装置、计算机设备和介质
技术领域
本公开涉及语音处理技术领域,尤其涉及一种语音评测方法、装置、计算机设备和介质。
背景技术
语音合成(Text To Speech,TTS)技术能将文本转换成语音输出。随着人工智能产业的飞速发展,TTS广泛应用于语音助手、地图导航和有声朗读等场景中,人们对TTS输出的语音的质量要求也越来越高。
现有技术中,通常是采用人工评测的方式,即,通过人类听力测试对TTS模型输出的语音进行评测打分。例如:由不同的试听者分别对待评测语音进行打分,得出平均意见得分(Mean Opinion Score, MOS)值,分值范围为0-5分,分数越大表示语音质量越好。
然而,通过人工评测的方式对待评测语音进行评测,效率不高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种语音评测方法、装置、计算机设备和介质。
第一方面,本公开提供一种语音评测方法,包括:
将测试文本输入语音合成模型,获取所述语音合成模型输出的所述测试文本对应的第一语音;
根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度;
根据所述第一相似度和已知的第二语音评测结果,确定所述第一语音的评测结果。
可选的,所述音频特征包括:振幅和频率;
所述根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度,包括:
获取所述第一语音的所有第一语音片段分别对应的第一声波波形;
获取所述第二语音的所有第二语音片段分别对应的第二声波波形;
根据所述第一声波波形和所述第二声波波形,获取振幅对应的第一结果和频率对应的第二结果;
根据所述第一结果和所述第二结果,得到所述第一相似度。
可选的,所述根据所述第一声波波形和所述第二声波波形,获取振幅对应的第一结果和频率对应的第二结果,包括:
对所述第一声波波形和所述第二声波波形进行交并比计算,得到振幅对应的第一结果;
对所述第一声波波形进行相似性哈希运算,得到第一相似性哈希运算结果;
对所述第二声波波形进行相似性哈希运算,得到第二相似性哈希运算结果;
获取所述第一相似性哈希运算结果和所述第二相似性哈希运算结果的交集,得到频率对应的第二结果。
可选的,所述获取所述第一语音的所有语音片段分别对应的第一声波波形,包括:
对所述第一语音进行语音分割,得到至少两个第一语音片段;
对所述至少两个第一语音片段分别做傅里叶变换,得到所述第一语音的所有语音片段分别对应的第一声波波形;
所述获取所述第二语音的所有语音片段分别对应的第二声波波形,包括:
对所述第二语音进行语音分割,得到至少两个第二语音片段;
对所述至少两个第二语音片段分别做傅里叶变换,得到所述第二语音的所有语音片段分别对应的第二声波波形。
可选的,所述根据所述第一结果和所述第二结果,得到所述第一相似度,包括:
根据
Figure 615260DEST_PATH_IMAGE001
,得到所述第一相似度;
其中,
Figure 79739DEST_PATH_IMAGE002
为第一相似度,
Figure 14197DEST_PATH_IMAGE003
为第一结果,
Figure 273140DEST_PATH_IMAGE004
为第二结果,
Figure 290119DEST_PATH_IMAGE005
为第一语音片段的数量。
可选的,所述根据所述第一相似度和已知的第二语音评测结果,确定所述第一语音的评测结果,包括:
若所述第一相似度大于第一预设阈值,则确定所述第一语音的评测结果与所述第二语音的评测结果一致,其中,所述第二语音的评测结果为优质语音或者劣质语音。
可选的,还包括:
若所述第一相似度不大于所述第一预设阈值,则将所述第一语音输入语音评测模型,得到评测分数;
根据所述评测分数,确定所述第一语音的评测结果;
其中,所述语音评测模型根据至少两个评测维度的分数输出所述评测分数,所述第一语音对应的评测分数是至少两个评测维度的分数的加权和,所述评测维度包括下述至少两种:吞音、断句错误、机械音、语速和叠字。
可选的,所述根据所述评测分数,确定所述第一语音的评测结果,包括:
若所述评测分数大于第二预设阈值,则确定所述第一语音的评测结果为优质语音;
若所述评测分数小于第三预设阈值,则确定所述第一语音的评测结果为劣质语音。
可选的,所述根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度之前,还包括:
根据自动语音识别算法对所述第一语音进行识别,生成第一文本;
将所述测试文本和所述第一文本进行对比,获取第二相似度;
确定所述第二相似度大于第四预设阈值。
可选的,还包括:
若所述第二相似度不大于所述第四预设阈值,则确定所述第一语音的评测结果为劣质语音。
第二方面,本公开提供一种语音评测装置,包括:
获取模块,用于将测试文本输入语音合成模型,获取所述语音合成模型输出的所述测试文本对应的第一语音;
处理模块,用于根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度;
所述处理模块,还用于根据所述第一相似度和已知的第二语音评测结果,确定所述第一语音的评测结果。
可选的,所述音频特征包括:振幅和频率;
所述处理模块,具体用于:
获取所述第一语音的所有第一语音片段分别对应的第一声波波形;
获取所述第二语音的所有第二语音片段分别对应的第二声波波形;
根据所述第一声波波形和所述第二声波波形,获取振幅对应的第一结果和频率对应的第二结果;
根据所述第一结果和所述第二结果,得到所述第一相似度。
可选的,所述处理模块,具体用于:
对所述第一声波波形和所述第二声波波形进行交并比计算,得到振幅对应的第一结果;
对所述第一声波波形进行相似性哈希运算,得到第一相似性哈希运算结果;
对所述第二声波波形进行相似性哈希运算,得到第二相似性哈希运算结果;
获取所述第一相似性哈希运算结果和所述第二相似性哈希运算结果的交集,得到频率对应的第二结果。
可选的,所述处理模块,具体用于:
对所述第一语音进行语音分割,得到至少两个第一语音片段;
对所述至少两个第一语音片段分别做傅里叶变换,得到所述第一语音的所有语音片段分别对应的第一声波波形;
对所述第二语音进行语音分割,得到至少两个第二语音片段;
对所述至少两个第二语音片段分别做傅里叶变换,得到所述第二语音的所有语音片段分别对应的第二声波波形。
可选的,所述处理模块,具体用于:
根据
Figure 292710DEST_PATH_IMAGE006
,得到所述第一相似度;
其中,
Figure 81675DEST_PATH_IMAGE002
为第一相似度,
Figure 777098DEST_PATH_IMAGE003
为第一结果,
Figure 284303DEST_PATH_IMAGE004
为第二结果,
Figure 90585DEST_PATH_IMAGE005
为第一语音片段的数量。
可选的,所述处理模块,具体用于:
若所述第一相似度大于第一预设阈值,则确定所述第一语音的评测结果与所述第二语音的评测结果一致,其中,所述第二语音的评测结果为优质语音或者劣质语音。
可选的,所述处理模块,还用于:
若所述第一相似度不大于所述第一预设阈值,则将所述第一语音输入语音评测模型,得到评测分数;
根据所述评测分数,确定所述第一语音的评测结果;
其中,所述语音评测模型根据至少两个评测维度的分数输出所述评测分数,所述第一语音对应的评测分数是至少两个评测维度的分数的加权和,所述评测维度包括下述至少两种:吞音、断句错误、机械音、语速和叠字。
可选的,所述处理模块,具体用于:
若所述评测分数大于第二预设阈值,则确定所述第一语音的评测结果为优质语音;
若所述评测分数小于第三预设阈值,则确定所述第一语音的评测结果为劣质语音。
可选的,所述处理模块,还用于:
根据自动语音识别算法对所述第一语音进行识别,生成第一文本;
将所述测试文本和所述第一文本进行对比,获取第二相似度;
确定所述第二相似度大于第四预设阈值。
可选的,所述处理模块,还用于:
若所述第二相似度不大于所述第四预设阈值,则确定所述第一语音的评测结果为劣质语音。
第三方面,本公开提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述方法的步骤。
第四方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和第二语音的第一相似度;根据第一相似度和已知的第二语音评测结果,确定第一语音的评测结果。由于第二语音的评测结果是已知的,根据第一相似度和第二语音的评测结果确定第一语音的评测结果,缩短了语音评测的时间,减少了人工评测的主观因素干扰,提升了评测结果的准确性,从而,提高了语音评测的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开提供的一种语音评测方法实施例的流程示意图;
图2为本公开提供的另一种语音评测方法实施例的流程示意图;
图3为本公开提供的再一种语音评测方法实施例的流程示意图;
图4为本公开提供的又一种语音评测方法实施例的流程示意图;
图5为本公开提供的又一种语音评测方法实施例的流程示意图;
图6为本公开提供的又一种语音评测方法实施例的流程示意图;
图7为本公开提供的一种语音评测装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
TTS技术能将任意文字信息转化为可听的语音信息。现有的TTS技术通常利用神经网络模型实现文本到语音的转换。在TTS模型输出语音后,需要对合成的语音质量进行评测。目前,一般是通过人类听力测试的方式对TTS模型输出的语音进行评测打分,但是,人工评测往往具有主观性,导致评测分数不准确,并且,人工评测的效率不高。
本公开提供了一种语音评测方法,包括:将测试文本输入语音合成模型,获取语音合成模型输出的测试文本对应的第一语音;根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和第二语音的第一相似度;根据第一相似度和已知的第二语音评测结果,确定第一语音的评测结果。由于第二语音的评测结果是已知的,根据第一相似度和第二语音的评测结果确定第一语音的评测结果,缩短了语音评测的时间,减少了人工评测的主观因素干扰,提升了评测结果的准确性,从而,提高了语音评测的效率。
下面以几个具体的实施例对本公开的技术方案进行描述,对于相同或者类似的概念,可以相互参考,不再每处一一赘述。
图1为本公开实施例提供的一种语音评测方法实施例的流程示意图,如图1所示,本实施例的方法包括:
S101:将测试文本输入语音合成模型,获取语音合成模型输出的测试文本对应的第一语音。
其中,语音合成模型可以是基于神经网络搭建的模型,神经网络包括但不限于以下几种:卷积神经网络(convolutionalneuronnetwork,CNN)、循环神经网络(recurrentneural network,RNN)、时间递归神经网络(long-shortterm memory,LSTM),本公开对此不做限制。
以测试文本“大家好,我是来自北京的小红”为例,将测试文本输入TTS模型,获取TTS模型输出的测试文本对应的第一语音“da4 jia1 hao3,wo3 shi4 lai2 zi4 bei3jing1 de0 xiao3 hong2”。
S102:根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和第二语音的第一相似度。
其中,第二语音可以通过录音的方式获取用户朗读测试文本的语音,也可以将测试文本输入另一个TTS模型获取此TTS模型输出的测试文本对应的语音。
可选的,音频特征包括:振幅和频率。
一种可能的实现方式为:如图2所示,
S1021:获取第一语音的所有第一语音片段分别对应的第一声波波形。
对第一语音进行语音分割,得到至少两个第一语音片段。例如:通过语音端点检测(Voice ActivityDetection,VAD)算法对第一语音进行语音分割,得到至少两个第一语音片段。VAD一般用于识别音频数据中的静音片段,提取音频数据中的发音片段。
对至少两个第一语音片段分别做傅里叶变换,得到第一语音的所有语音片段分别对应的第一声波波形。以第一语音被分割成N个第一语音片段为例,对N个语音片段分别做傅里叶变换,得到N个第一声波波形
Figure 999635DEST_PATH_IMAGE007
Figure 334801DEST_PATH_IMAGE007
为第i个第一声波波形,N为大于等于2的整数,i为大于等于1且小于等于N的整数。
S1022:获取第二语音的所有第二语音片段分别对应的第二声波波形。
对第二语音进行语音分割,得到至少两个第二语音片段。同样地,通过VAD对第二语音进行语音分割,得到至少两个第二语音片段。由于第二语音对应的测试文本和第一语音对应的测试文本相同,通过VAD对第二语音进行语音分割得到的第二语音片段的数量与第一语音片段的数量相同。也可以根据第一语音片段的数量,对第二语音进行语音分割,得到至少两个第二语音片段,其中,第二语音片段的数量与第一语音片段的数量相等。
对至少两个第二语音片段分别做傅里叶变换,得到第二语音的所有语音片段分别对应的第二声波波形。以第二语音被分割成N个第二语音片段为例,对N个语音片段分别做傅里叶变换,得到N个第二声波波形
Figure 329302DEST_PATH_IMAGE008
Figure 673696DEST_PATH_IMAGE008
为第i个第二声波波形,N为大于等于2的整数,i为大于等于1且小于等于N的整数。
S1023:根据第一声波波形和第二声波波形,获取振幅对应的第一结果和频率对应的第二结果。
一种可能的实现方式为:如图3所示,
S10231:对第一声波波形和第二声波波形进行交并比计算,得到振幅对应的第一结果。
根据
Figure 437252DEST_PATH_IMAGE009
,确定第一声波波形的振幅和第二声波波形的振幅的相似度,得到振幅对应第一结果。
其中,
Figure 474479DEST_PATH_IMAGE010
为第一结果,
Figure 690696DEST_PATH_IMAGE011
为第i个第一声波波形,
Figure 838781DEST_PATH_IMAGE012
为第i个第二声波波形,
Figure 722423DEST_PATH_IMAGE013
为第i个第一声波波形的面积,
Figure 930551DEST_PATH_IMAGE014
为第i个第二声波波形的面积,i为大于等于1且小于等于N的整数,N为第一语音片段的数量。
S10232:对第一声波波形进行相似性哈希运算,得到第一相似性哈希运算结果。
相似性哈希(hash-based similarity detection, simhash)运算是根据声波波形的形状,将波形向上定义为1,向下定义为0,生成64位的签名。
S10233:对第二声波波形进行相似性哈希运算,得到第二相似性哈希运算结果。
S10234:获取第一相似性哈希运算结果和第二相似性哈希运算结果的交集,得到频率对应的第二结果。
根据
Figure 634064DEST_PATH_IMAGE015
,确定第一声波波形的频率和第二声波波形的频率的相似度,得到频率对应的第二结果。
其中,
Figure 320261DEST_PATH_IMAGE016
为第二结果,
Figure 58410DEST_PATH_IMAGE007
为第i个第一声波波形,
Figure 437438DEST_PATH_IMAGE008
为第i个第二声波波形,
Figure 628248DEST_PATH_IMAGE017
为第i个第一声波波形对应的第一simhash运算结果,
Figure 118135DEST_PATH_IMAGE018
为第i个第二声波波形对应的第二simhash运算结果,
Figure 445212DEST_PATH_IMAGE019
为第i个第一声波波形对应的第一simhash运算结果与第i个第二声波波形对应的第二simhash运算结果的汉明(Hamming)距离,i为大于等于1且小于等于N的整数,N为第一语音片段的数量。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。
S1024:根据第一结果和第二结果,得到第一相似度。
可选的,根据
Figure 995142DEST_PATH_IMAGE020
,得到第一相似度;
其中,
Figure 673248DEST_PATH_IMAGE002
为第一相似度,
Figure 966826DEST_PATH_IMAGE003
为第一结果,
Figure 413988DEST_PATH_IMAGE004
为第二结果,
Figure 869240DEST_PATH_IMAGE005
为第一语音片段的数量。
S103:根据第一相似度和已知的第二语音评测结果,确定第一语音的评测结果。
一种可能的实现方式为:如图4所示,
S1031:若第一相似度大于第一预设阈值,则确定第一语音的评测结果与第二语音的评测结果一致。
其中,第二语音的评测结果为优质语音或者劣质语音。例如:第二语音的评测结果为劣质语音,第一预设阈值为0.8,若第一相似度大于0.8,则确定第一语音的评测结果为劣质语音。
可选的,图4还可以基于图2或图3所示的实施例。
另一种可能的实现方式为:
若第一相似度大于等于第一预设阈值,则确定第一语音的评测结果与第二语音的评测结果一致,其中,第二语音的评测结果为优质语音或者劣质语音。
本实施例,将测试文本输入语音合成模型,获取语音合成模型输出的测试文本对应的第一语音;根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和第二语音的第一相似度;根据第一相似度和已知的第二语音评测结果,确定第一语音的评测结果。由于第二语音的评测结果是已知的,根据第一相似度和第二语音的评测结果确定第一语音的评测结果,缩短了语音评测的时间,减少了人工评测的主观因素干扰,提升了评测结果的准确性,从而,提高了语音评测的效率。
可选的,音频特征包括:音长;
S102的另一种可能的实现方式为:
S1021’:根据第一语音的音长和第二语音的音长,获取第一语音和第二语音的音长差值比例。
可选的,根据
Figure 34642DEST_PATH_IMAGE021
,获取第一语音和第二语音的音长差值比例。其中,
Figure 866332DEST_PATH_IMAGE022
为音长差值比例,
Figure 433579DEST_PATH_IMAGE023
为第一语音的总音长,
Figure 62662DEST_PATH_IMAGE024
为第二语音的总音长,
S1022’:根据音长差值比例,得到第一语音和第二语音的第一相似度。
S1023’:根据音长差值比例、预先定义音长差值比例和第一相似度之间的映射关系,得到第一语音和第二语音的第一相似度。
图5为本公开实施例提供的又一种语音评测方法实施例的流程示意图,图5是在图4所示实施例的基础上,进一步地,S103之后还包括:
S104:若第一相似度不大于第一预设阈值,则将第一语音输入语音评测模型,得到评测分数。
一种可能的实现方式为:若第一相似度小于第一预设阈值,将第一语音输入语音评测模型,得到评测分数。
另一种可能的实现方式为:若第一相似度小于等于第一预设阈值,将第一语音输入语音评测模型,得到评测分数。
其中,语音评测模型根据至少两个评测维度的分数输出评测分数,第一语音对应的评测分数是至少两个评测维度的分数的加权和,评测维度包括下述至少两种:吞音、断句错误、机械音、语速和叠字。
将第一语音输入语音评测模型,获取至少两个评测维度的分数,根据
Figure 980940DEST_PATH_IMAGE025
,得到评测分数。其中,
Figure 350741DEST_PATH_IMAGE026
为第一语音的评测分数,
Figure 506916DEST_PATH_IMAGE027
为第n个评测维度的权重,
Figure 569550DEST_PATH_IMAGE028
为第n个评测维度的分数,
Figure 709544DEST_PATH_IMAGE029
Figure 148616DEST_PATH_IMAGE028
都为大于等于0且小于等于5的整数。例如:语音评测模型根据五个评测维度(吞音、断句错误、机械音、语速和叠字)对第一语音进行打分,得到第一语音“无吞音”、“无断句错误”、“无机械音”“语速正常”和“无叠字”的分数,如表1所示,将各评测维度的分数和各评测维度的权重相乘得到“单项最终得分”,然后将“单项最终得分”相加,输出第一语音的评测分数为2.4分。各评测维度的权重可以根据具体需求设置,本公开对此不做限制。
表1
无吞音 无断句错误 无机械音 语速正常 无叠字
分数 3 2 2 3 3
权重 0.2 0.2 0.4 0.1 0.1
单项最终得分 0.6 0.4 0.8 0.3 0.3
语音评测模型是预先使用样本集对神经网络进行训练得到的,样本集包括TTS模型生成的有吞音、断句错误、有机械音、语速忽快忽慢和有叠字的语音和对应的评测维度的分数。语音评测模型包括声学模型和打分模型,其中,声学模型可以采用卷积神经网络(ConvolutionalNeural Network,CNN)模型,打分模型可以采用多分类逻辑回归(LogisticRegression, LR)模型。语音评测模型识别样本集中的各语音包含吞音、断句错误、有机械音、语速忽快忽慢和叠字的程度并进行分类,得到各评测维度对应的分数,最后将各评测维度的分数进行加权求和,得到一个0-5分的评测分数。
S105:根据评测分数,确定第一语音的评测结果。
一种可能的实现方式为:判断评测分数是否大于第二预设阈值,若是,则确定第一语音的评测结果为优质语音;若否,则判断评测分数是否小于第三预设阈值,若是,则确定第一语音的评测结果为劣质语音;若否,则通过人工评测的方式确定第一语音的评测结果。
另一种可能的实现方式为:判断评测分数是否大于等于第二预设阈值,若是,则确定第一语音的评测结果为优质语音;若否,则判断评测分数是否小于等于第三预设阈值,若是,则确定第一语音的评测结果为劣质语音;若否,则通过人工评测的方式确定第一语音的评测结果。例如,设置第二预设阈值为4,第三预设阈值为2,若评测分数大于等于4,则第一语音的评测结果为优质语音;若评测分数小于等于2,则第一语音的评测结果为劣质语音,若评测分数大于2且小于4,则通过人工评测确定第一语音的评测结果。
本实施例,若第一相似度不大于第一预设阈值,则将第一语音输入语音评测模型,得到评测分数,根据评测分数,确定第一语音的评测结果。由于语音评测模型是预先训练的基于多个评测维度对第一语音进行打分的神经网络模型,利用语音评测模型对第一语音进行评测,提高了语音评测的速度,提升了语音评测结果的准确性和全面性,从而,提高了语音评测的效率。
可选的,若第一语音的评测结果为劣质音频,将第一语音和第一语音的评测结果作为训练样本,输入TTS模型,用于TTS模型的优化,从而,提升了TTS模型的鲁棒性。
图6为本公开提供的又一种语音评测方法实施例的流程示意图,图6是在图1-图5任一所示实施例的基础上,S102之前,还可以包括如下步骤:
S601:根据自动语音识别算法对第一语音进行识别,生成第一文本。
自动语音识别(Automatic Speech Recognition, ASR)算法以语音为研究对象,通过语音信号处理和模式识别将语音信号转换为相应的文本输出。
S602:将测试文本和第一文本进行对比,获取第二相似度。
一种可能的实现方式为:根据莱文斯坦(Levenshtein)距离法将测试文本和第一文本进行对比,获取第二相似度。
其中,Levenshtein距离是指对于两个字符串,由其中一个转成另一个所需要的最少编辑操作次数,编辑操作主要包括:***一个字符、删除一个字符以及将一个字符替换成另一个字符。如果两个字符串间的Levenshtein距离越小,则代表它们越相似。
例如,测试文本的内容为字符串string1,第一文本的内容为string2,string1需要进行M次编辑操作才能转换为string2,根据
Figure 159297DEST_PATH_IMAGE030
获取第二相似度。其中,M为测试文本和第一文本之间的Levenshtein距离,
Figure 392832DEST_PATH_IMAGE031
为测试文本的内容的长度,
Figure 754544DEST_PATH_IMAGE032
为第一文本的内容的长度。
S603:判断第二相似度是否大于第四预设阈值。
一种可能的实现方式为:判断第二相似度是否大于第四预设阈值,若否,则执行S102;若是,则执行S604。
另一种可能的实现方式为:判断第二相似度是否大于等于第四预设阈值,若否,则执行S102;若是,则执行S604。
S604:确定第一语音的评测结果为劣质语音。
例如:测试文本为“大家好,我是来自北京的小红”,根据ASR算法对第一语音进行识别,生成的第一文本为“大好,我是小红”,将测试文本和第一文本进行对比,获取第二相似度为0.67,第四预设阈值为0.9,第二相似度不大于第四预设阈值,则确定第一语音的评测结果为劣质语音。
本实施例,在根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和所述第二语音的第一相似度之前,根据自动语音识别算法对第一语音进行识别,生成第一文本,将测试文本和第一文本进行对比,获取第二相似度,可以识别第一语音中存在“吃字”的情况,能够更快地识别出劣质语音,从而,提高了语音评测的效率。
可选的,在S601之前还可以包括:获取第一语音的音调输出日志,确定第一语音的音调输出日志与测试文本对应的标准音调输出日志一致。若第一语音的音调输出日志与测试文本对应的标准音调输出日志不一致,则确定第一语音的评测结果为劣质音频。
以测试文本“大家好,我是来自北京的小红”为例,测试文本对应的标准音调输出日志为“da4 jia1 hao3,wo3 shi4 lai2 zi4 bei3 jing1 de0 xiao3 hong2”,若第一语音的音调输出日志为“da4 jia4 hao4,wo1 shi1 lai1 zi3 bei3 jing1 de0 xiao3 hong2”,第一语音的音调输出日志与测试文本对应的标准音调输出日志不一致,则确定第一语音的评测结果为劣质音频。
图7为本公开实施例提供的一种语音评测装置的结构示意图,本实施例的装置包括:获取模块701和处理模块702。
其中,获取模块701,用于将测试文本输入语音合成模型,获取语音合成模型输出的测试文本对应的第一语音;
处理模块702,用于根据第一语音的音频特征和测试文本对应的第二语音的音频特征,得到第一语音和第二语音的第一相似度;
处理模块702,还用于根据第一相似度和已知的第二语音评测结果,确定第一语音的评测结果。
可选的,音频特征包括:振幅和频率;
处理模块702,具体用于:
获取第一语音的所有第一语音片段分别对应的第一声波波形;
获取第二语音的所有第二语音片段分别对应的第二声波波形;
根据第一声波波形和第二声波波形,获取振幅对应的第一结果和频率对应的第二结果;
根据第一结果和第二结果,得到第一相似度。
可选的,处理模块702,具体用于:
对第一声波波形和第二声波波形进行交并比计算,得到振幅对应的第一结果;
对第一声波波形进行相似性哈希运算,得到第一相似性哈希运算结果;
对第二声波波形进行相似性哈希运算,得到第二相似性哈希运算结果;
获取第一相似性哈希运算结果和第二相似性哈希运算结果的交集,得到频率对应的第二结果。
可选的,处理模块702,具体用于:
对第一语音进行语音分割,得到至少两个第一语音片段;
对至少两个第一语音片段分别做傅里叶变换,得到第一语音的所有语音片段分别对应的第一声波波形;
对第二语音进行语音分割,得到至少两个第二语音片段;
对至少两个第二语音片段分别做傅里叶变换,得到第二语音的所有语音片段分别对应的第二声波波形。
可选的,处理模块702,具体用于:
根据
Figure 731727DEST_PATH_IMAGE033
,得到第一相似度;
其中,
Figure 862494DEST_PATH_IMAGE002
为第一相似度,
Figure 266930DEST_PATH_IMAGE003
为第一结果,
Figure 115938DEST_PATH_IMAGE004
为第二结果,
Figure 631233DEST_PATH_IMAGE005
为第一语音片段的数量。
可选的,处理模块702,具体用于:
若第一相似度大于第一预设阈值,则确定第一语音的评测结果与第二语音的评测结果一致,其中,第二语音的评测结果为优质语音或者劣质语音。
可选的,处理模块702,还用于:
若第一相似度不大于第一预设阈值,则将第一语音输入语音评测模型,得到评测分数;
根据评测分数,确定第一语音的评测结果;
其中,语音评测模型根据至少两个评测维度的分数输出评测分数,第一语音对应的评测分数是至少两个评测维度的分数的加权和,评测维度包括下述至少两种:吞音、断句错误、机械音、语速和叠字。
可选的,处理模块702,具体用于:
若评测分数大于第二预设阈值,则确定第一语音的评测结果为优质语音;
若评测分数小于第三预设阈值,则确定第一语音的评测结果为劣质语音。
可选的,处理模块702,还用于:
根据自动语音识别算法对第一语音进行识别,生成第一文本;
将测试文本和第一文本进行对比,获取第二相似度;
确定第二相似度大于第四预设阈值。
可选的,处理模块702,还用于:
若第二相似度不大于第四预设阈值,则确定第一语音的评测结果为劣质语音。
本实施例的装置对应的可用于执行上述图1到图6任一所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本公开实施例提供了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时可以实现图1到图6任一所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现图1到图6任一所示方法实施例的技术方案。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种语音评测方法,其特征在于,包括:
将测试文本输入语音合成模型,获取所述语音合成模型输出的所述测试文本对应的第一语音;
根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度;
根据所述第一相似度和已知的第二语音评测结果,确定所述第一语音的评测结果。
2.根据权利要求1所述的方法,其特征在于,所述音频特征包括:振幅和频率;
所述根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度,包括:
获取所述第一语音的所有第一语音片段分别对应的第一声波波形;
获取所述第二语音的所有第二语音片段分别对应的第二声波波形;
根据所述第一声波波形和所述第二声波波形,获取振幅对应的第一结果和频率对应的第二结果;
根据所述第一结果和所述第二结果,得到所述第一相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一声波波形和所述第二声波波形,获取振幅对应的第一结果和频率对应的第二结果,包括:
对所述第一声波波形和所述第二声波波形进行交并比计算,得到振幅对应的第一结果;
对所述第一声波波形进行相似性哈希运算,得到第一相似性哈希运算结果;
对所述第二声波波形进行相似性哈希运算,得到第二相似性哈希运算结果;
获取所述第一相似性哈希运算结果和所述第二相似性哈希运算结果的交集,得到频率对应的第二结果。
4.根据权利要求2所述的方法,其特征在于,所述获取所述第一语音的所有语音片段分别对应的第一声波波形,包括:
对所述第一语音进行语音分割,得到至少两个第一语音片段;
对所述至少两个第一语音片段分别做傅里叶变换,得到所述第一语音的所有语音片段分别对应的第一声波波形;
所述获取所述第二语音的所有语音片段分别对应的第二声波波形,包括:
对所述第二语音进行语音分割,得到至少两个第二语音片段;
对所述至少两个第二语音片段分别做傅里叶变换,得到所述第二语音的所有语音片段分别对应的第二声波波形。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述根据所述第一结果和所述第二结果,得到所述第一相似度,包括:
根据
Figure 821495DEST_PATH_IMAGE001
,得到所述第一相似度;
其中,
Figure 866811DEST_PATH_IMAGE002
为第一相似度,
Figure 527600DEST_PATH_IMAGE003
为第一结果,
Figure 607551DEST_PATH_IMAGE004
为第二结果,
Figure 695593DEST_PATH_IMAGE005
为第一语音片段的数量。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一相似度和已知的第二语音评测结果,确定所述第一语音的评测结果,包括:
若所述第一相似度大于第一预设阈值,则确定所述第一语音的评测结果与所述第二语音的评测结果一致,其中,所述第二语音的评测结果为优质语音或者劣质语音。
7.根据权利要求6所述的方法,其特征在于,还包括:
若所述第一相似度不大于所述第一预设阈值,则将所述第一语音输入语音评测模型,得到评测分数;
根据所述评测分数,确定所述第一语音的评测结果;
其中,所述语音评测模型根据至少两个评测维度的分数输出所述评测分数,所述第一语音对应的评测分数是至少两个评测维度的分数的加权和,所述评测维度包括下述至少两种:吞音、断句错误、机械音、语速和叠字。
8.根据权利要求7所述的方法,其特征在于,所述根据所述评测分数,确定所述第一语音的评测结果,包括:
若所述评测分数大于第二预设阈值,则确定所述第一语音的评测结果为优质语音;
若所述评测分数小于第三预设阈值,则确定所述第一语音的评测结果为劣质语音。
9.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度之前,还包括:
根据自动语音识别算法对所述第一语音进行识别,生成第一文本;
将所述测试文本和所述第一文本进行对比,获取第二相似度;
确定所述第二相似度大于第四预设阈值。
10.根据权利要求9所述的方法,其特征在于,还包括:
若所述第二相似度不大于所述第四预设阈值,则确定所述第一语音的评测结果为劣质语音。
11.一种语音评测装置,其特征在于,包括:
获取模块,用于将测试文本输入语音合成模型,获取所述语音合成模型输出的所述测试文本对应的第一语音;
处理模块,用于根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征,得到所述第一语音和所述第二语音的第一相似度;
所述处理模块,还用于根据所述第一相似度和已知的第二语音评测结果,确定所述第一语音的评测结果。
12.一种计算机设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。
CN202110386211.3A 2021-04-12 2021-04-12 语音评测方法、装置、计算机设备和介质 Active CN112802494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110386211.3A CN112802494B (zh) 2021-04-12 2021-04-12 语音评测方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110386211.3A CN112802494B (zh) 2021-04-12 2021-04-12 语音评测方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN112802494A true CN112802494A (zh) 2021-05-14
CN112802494B CN112802494B (zh) 2021-07-16

Family

ID=75817383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110386211.3A Active CN112802494B (zh) 2021-04-12 2021-04-12 语音评测方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN112802494B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450768A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 语音合成***评测方法、装置、可读存储介质及终端设备
CN113763918A (zh) * 2021-08-18 2021-12-07 单百通 文本语音转化方法、装置、电子设备及可读存储介质
CN114898733A (zh) * 2022-05-06 2022-08-12 深圳妙月科技有限公司 Ai语音数据的分析处理方法及***

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
CN102243871A (zh) * 2010-05-14 2011-11-16 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和***
CN102592589A (zh) * 2012-02-23 2012-07-18 华南理工大学 一种动态归一化数字特征的语音评分方法与装置
US20130262098A1 (en) * 2012-03-27 2013-10-03 Gwangju Institute Of Science And Technology Voice analysis apparatus, voice synthesis apparatus, voice analysis synthesis system
CN103871426A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 对比用户音频与原唱音频相似度的方法及其***
JP5772054B2 (ja) * 2011-02-23 2015-09-02 ヤマハ株式会社 歌唱評価装置
JP5805474B2 (ja) * 2011-09-09 2015-11-04 ブラザー工業株式会社 音声評価装置,音声評価方法,及びプログラム
US9384728B2 (en) * 2014-09-30 2016-07-05 International Business Machines Corporation Synthesizing an aggregate voice
CN108597538A (zh) * 2018-03-05 2018-09-28 标贝(北京)科技有限公司 语音合成***的评测方法和***
CN108922563A (zh) * 2018-06-17 2018-11-30 海南大学 基于偏差器官形态行为可视化的口语学习矫正方法
CN109344388A (zh) * 2018-08-02 2019-02-15 中央电视台 一种垃圾评论识别方法、装置及计算机可读存储介质
CN109920431A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110148427A (zh) * 2018-08-22 2019-08-20 腾讯数码(天津)有限公司 音频处理方法、装置、***、存储介质、终端及服务器
CN110400578A (zh) * 2019-07-19 2019-11-01 广州市百果园信息技术有限公司 哈希码的生成及其匹配方法、装置、电子设备和存储介质
CN110660383A (zh) * 2019-09-20 2020-01-07 华南理工大学 一种基于歌词歌声对齐的唱歌评分方法
CN110726898A (zh) * 2018-07-16 2020-01-24 北京映翰通网络技术股份有限公司 一种配电网故障类型识别方法
CN110853679A (zh) * 2019-10-23 2020-02-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN111091816A (zh) * 2020-03-19 2020-05-01 北京五岳鑫信息技术股份有限公司 一种基于语音评测的数据处理***及方法
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111916108A (zh) * 2020-07-24 2020-11-10 北京声智科技有限公司 一种语音评测方法及装置
CN112397056A (zh) * 2021-01-20 2021-02-23 北京世纪好未来教育科技有限公司 语音评测方法及计算机存储介质

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
CN102243871A (zh) * 2010-05-14 2011-11-16 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和***
JP5772054B2 (ja) * 2011-02-23 2015-09-02 ヤマハ株式会社 歌唱評価装置
JP5805474B2 (ja) * 2011-09-09 2015-11-04 ブラザー工業株式会社 音声評価装置,音声評価方法,及びプログラム
CN102592589A (zh) * 2012-02-23 2012-07-18 华南理工大学 一种动态归一化数字特征的语音评分方法与装置
US20130262098A1 (en) * 2012-03-27 2013-10-03 Gwangju Institute Of Science And Technology Voice analysis apparatus, voice synthesis apparatus, voice analysis synthesis system
CN103871426A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 对比用户音频与原唱音频相似度的方法及其***
US9384728B2 (en) * 2014-09-30 2016-07-05 International Business Machines Corporation Synthesizing an aggregate voice
CN108597538A (zh) * 2018-03-05 2018-09-28 标贝(北京)科技有限公司 语音合成***的评测方法和***
CN108922563A (zh) * 2018-06-17 2018-11-30 海南大学 基于偏差器官形态行为可视化的口语学习矫正方法
CN110726898A (zh) * 2018-07-16 2020-01-24 北京映翰通网络技术股份有限公司 一种配电网故障类型识别方法
CN109344388A (zh) * 2018-08-02 2019-02-15 中央电视台 一种垃圾评论识别方法、装置及计算机可读存储介质
CN110148427A (zh) * 2018-08-22 2019-08-20 腾讯数码(天津)有限公司 音频处理方法、装置、***、存储介质、终端及服务器
CN109920431A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US20200286470A1 (en) * 2019-03-05 2020-09-10 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for outputting information
CN110400578A (zh) * 2019-07-19 2019-11-01 广州市百果园信息技术有限公司 哈希码的生成及其匹配方法、装置、电子设备和存储介质
CN110660383A (zh) * 2019-09-20 2020-01-07 华南理工大学 一种基于歌词歌声对齐的唱歌评分方法
CN110853679A (zh) * 2019-10-23 2020-02-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN111091816A (zh) * 2020-03-19 2020-05-01 北京五岳鑫信息技术股份有限公司 一种基于语音评测的数据处理***及方法
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111916108A (zh) * 2020-07-24 2020-11-10 北京声智科技有限公司 一种语音评测方法及装置
CN112397056A (zh) * 2021-01-20 2021-02-23 北京世纪好未来教育科技有限公司 语音评测方法及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANNIS AGIOMYRGIANNAKIS ET AL.: "《Vocaine the vocoder and applications in speech synthesis》", 《2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
赵博等: "《合成语音自然度客观测度》", 《计算机工程与应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450768A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 语音合成***评测方法、装置、可读存储介质及终端设备
CN113763918A (zh) * 2021-08-18 2021-12-07 单百通 文本语音转化方法、装置、电子设备及可读存储介质
CN114898733A (zh) * 2022-05-06 2022-08-12 深圳妙月科技有限公司 Ai语音数据的分析处理方法及***

Also Published As

Publication number Publication date
CN112802494B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN112802494B (zh) 语音评测方法、装置、计算机设备和介质
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN112397091B (zh) 中文语音综合评分及诊断***和方法
CN101136199B (zh) 语音数据处理方法和设备
US11158322B2 (en) Human resolution of repeated phrases in a hybrid transcription system
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
US9984677B2 (en) Bettering scores of spoken phrase spotting
CN109036471B (zh) 语音端点检测方法及设备
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
CN109461441B (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
CN110390948B (zh) 一种快速语音识别的方法及***
JP5050698B2 (ja) 音声処理装置およびプログラム
CN113920986A (zh) 会议记录生成方法、装置、设备及存储介质
KR100682909B1 (ko) 음성 인식 방법 및 장치
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
CN113823326B (zh) 一种高效语音关键词检测器训练样本使用方法
CN112397048B (zh) 语音合成的发音稳定性评价方法、装置和***及存储介质
Saputri et al. Identifying Indonesian local languages on spontaneous speech data
CN112767961B (zh) 一种基于云端计算的口音矫正方法
US11551666B1 (en) Natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant