CN113450768A - 语音合成***评测方法、装置、可读存储介质及终端设备 - Google Patents

语音合成***评测方法、装置、可读存储介质及终端设备 Download PDF

Info

Publication number
CN113450768A
CN113450768A CN202110713810.1A CN202110713810A CN113450768A CN 113450768 A CN113450768 A CN 113450768A CN 202110713810 A CN202110713810 A CN 202110713810A CN 113450768 A CN113450768 A CN 113450768A
Authority
CN
China
Prior art keywords
sequence
voice
speech
synthesis system
deviation distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110713810.1A
Other languages
English (en)
Inventor
苏雪琦
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110713810.1A priority Critical patent/CN113450768A/zh
Publication of CN113450768A publication Critical patent/CN113450768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本发明属于自然语言处理技术领域,尤其涉及一种语音合成***评测方法、装置、计算机可读存储介质及终端设备。所述方法包括:将预设的文本序列分别输入至待评测的若干个语音合成***中,并分别获取各个语音合成***的输出语音序列;获取与所述文本序列对应的基准语音序列;根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。通过本发明,可以在提高评测效率的同时也提高评测准确度。

Description

语音合成***评测方法、装置、可读存储介质及终端设备
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种语音合成***评测方法、装置、计算机可读存储介质及终端设备。
背景技术
随着技术的发展,当前出现了很多种的语音合成***,用于实现从文本到语音(Text To Speech,TTS)的转换过程,不同的语音合成***之间往往存在较大的性能差异,需要根据实际情况从中选取合适的语音合成***来执行语音合成任务。但目前往往只能依靠用户的主观感受来对语音合成***的优劣进行评测,效率低下且准确度较低。
发明内容
有鉴于此,本发明实施例提供了一种语音合成***评测方法、装置、计算机可读存储介质及终端设备,以解决现有的语音合成***评测方法效率低下且准确度较低的问题。
本发明实施例的第一方面提供了一种语音合成***评测方法,可以包括:
将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列;
获取与所述文本序列对应的基准语音序列;
根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;
选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。
在第一方面的一种具体实现中,所述根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离,可以包括:
分别计算目标语音序列与所述基准语音序列在各个评测维度上的偏差距离,所述目标语音序列为任意一个语音合成***的输出语音序列;
根据所述目标语音序列与所述基准语音序列在各个评测维度上的偏差距离计算所述目标语音序列与所述基准语音序列之间的整体偏差距离。
在第一方面的一种具体实现中,所述评测维度可以包括特征向量、时长和音强;
所述分别计算目标语音序列与所述基准语音序列在各个评测维度上的偏差距离,可以包括:
计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离;
计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离;
计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
在第一方面的一种具体实现中,所述计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离,可以包括:
根据下式计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离:
Figure BDA0003133983590000021
其中,k为所述基准语音序列中的音节序号,1≤k≤K,K为所述基准语音序列中的音节总数,Ps k为所述目标语音序列中的第k个音节的特征向量,Pn k为所述基准语音序列中的第k个音节的特征向量,DTW为动态时间归整函数,Mk为所述目标语音序列的第k个音节的特征向量的维数,Nk为所述基准语音序列的第k个音节的特征向量的维数,Dp为所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离。
在第一方面的一种具体实现中,所述计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离,可以包括:
根据下式计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离:
Figure BDA0003133983590000031
其中,Ts k为所述目标语音序列中的第k个音节的时长,Tn k为所述基准语音序列中的第k个音节的时长,Ta为所述基准语音序列中的K个音节的时长的平均值,Dt为所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离。
在第一方面的一种具体实现中,所述计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离,可以包括:
根据下式计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离:
Figure BDA0003133983590000032
其中,Es k为所述目标语音序列中的第k个音节的音强,En k为所述基准语音序列中的第k个音节的音强,Ea为所述基准语音序列中的K个音节的音强的平均值,De为所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
在第一方面的一种具体实现中,所述根据所述目标语音序列与所述基准语音序列在各个评测维度上的偏差距离计算所述目标语音序列与所述基准语音序列之间的整体偏差距离,可以包括:
根据下式计算所述目标语音序列与所述基准语音序列之间的整体偏差距离:
Figure BDA0003133983590000041
其中,n为评测维度的序号,1≤n≤N,N为评测维度的总数,Dn为所述目标语音序列与所述基准语音序列在第n个评测维度上的偏差距离,ωn为第n个评测维度的权重,且
Figure BDA0003133983590000042
D为所述目标语音序列与所述基准语音序列之间的整体偏差距离。
本发明实施例的第二方面提供了一种语音合成***评测装置,可以包括:
交互模块,用于将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列;
基准语音序列获取模块,用于获取与所述文本序列对应的基准语音序列;
整体偏差距离计算模块,用于根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;
语音合成***选取模块,用于选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。
在第二方面的一种具体实现中,所述整体偏差距离计算模块可以包括:
第一计算子模块,用于分别计算目标语音序列与所述基准语音序列在各个评测维度上的偏差距离,所述目标语音序列为任意一个语音合成***的输出语音序列;
第二计算子模块,用于根据所述目标语音序列与所述基准语音序列在各个评测维度上的偏差距离计算所述目标语音序列与所述基准语音序列之间的整体偏差距离。
在第二方面的一种具体实现中,所述评测维度可以包括特征向量、时长和音强;
所述第一计算子模块可以包括:
第一计算单元,用于计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离;
第二计算单元,用于计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离;
第三计算单元,用于计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
在第二方面的一种具体实现中,所述第一计算单元具体用于根据下式计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离:
Figure BDA0003133983590000051
其中,k为所述基准语音序列中的音节序号,1≤k≤K,K为所述基准语音序列中的音节总数,Ps k为所述目标语音序列中的第k个音节的特征向量,Pn k为所述基准语音序列中的第k个音节的特征向量,DTW为动态时间归整函数,Mk为所述目标语音序列的第k个音节的特征向量的维数,Nk为所述基准语音序列的第k个音节的特征向量的维数,Dp为所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离。
在第二方面的一种具体实现中,所述第二计算单元具体用于根据下式计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离:
Figure BDA0003133983590000052
其中,Ts k为所述目标语音序列中的第k个音节的时长,Tn k为所述基准语音序列中的第k个音节的时长,Ta为所述基准语音序列中的K个音节的时长的平均值,Dt为所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离。
在第二方面的一种具体实现中,所述第三计算单元具体用于根据下式计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离:
Figure BDA0003133983590000061
其中,Es k为所述目标语音序列中的第k个音节的音强,En k为所述基准语音序列中的第k个音节的音强,Ea为所述基准语音序列中的K个音节的音强的平均值,De为所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
在第二方面的一种具体实现中,所述第二计算子模块具体用于根据下式计算所述目标语音序列与所述基准语音序列之间的整体偏差距离:
Figure BDA0003133983590000062
其中,n为评测维度的序号,1≤n≤N,N为评测维度的总数,Dn为所述目标语音序列与所述基准语音序列在第n个评测维度上的偏差距离,ωn为第n个评测维度的权重,且
Figure BDA0003133983590000063
D为所述目标语音序列与所述基准语音序列之间的整体偏差距离。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种语音合成***评测方法的步骤。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种语音合成***评测方法的步骤。
本发明实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述任一种语音合成***评测方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例将预设的文本序列分别输入至待评测的若干个语音合成***中,并分别获取各个语音合成***的输出语音序列;获取与所述文本序列对应的基准语音序列;根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。通过本发明实施例,不再依靠用户的主观感受,而是通过计算语音合成***的输出语音序列与基准语音序列之间的整体偏差距离来对语音合成***的优劣进行评测,且是从若干个不同的评测维度来进行综合考虑,从而在提高评测效率的同时也提高了评测准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的一种具体实施环境的示意图;
图2为本发明实施例中一种语音合成***评测方法的一个实施例流程图;
图3为根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与基准语音序列之间的整体偏差距离的示意流程图;
图4为本发明实施例中一种语音合成***评测装置的一个实施例结构图;
图5为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种不依靠用户主观感受的语音合成***评测方法,通过计算语音合成***的输出语音序列与基准语音序列之间的整体偏差距离来对语音合成***的优劣进行评测,且在评测的过程中,从多个不同的评测维度来进行综合考虑,从而在提高评测效率的同时也提高了评测准确度。
图1所示为本发明实施例的一种具体实施环境的示意图,其中,终端设备为本发明实施例的执行主体,用于进行语音合成***的评测,语音合成***1、语音合成***2、…、语音合成***M分别为待评测的若干个不同的语音合成***。语音合成***的具体数目可以根据实际情况进行设置,本申请实施例对此不作具体限定。终端设备与各个语音合成***之间均存在有线或无线的信息交互连接。
请参阅图2,本发明实施例中一种语音合成***评测方法的一个实施例可以包括:
步骤S201、将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列。
其中的文本序列可以根据实际情况进行设置,例如,可以设置为“一阵风吹来,蜻蜓花摇了几下,那样子多迷人,真像一位穿花裙的姑娘在跳着优美的舞蹈”,当然,也可以根据实际情况设置为其它的文本序列,本申请实施例对此不作具体限定。
终端设备将该文本序列分别输入至待评测的各个语音合成***中,各个语音合成***分别会对该文本序列进行TTS处理,并输出对应的语音序列,此处将其记为输出语音序列。一般地,由于各个语音合成***采用的TTS处理方式各有差异,因此,终端设备从各个语音合成***获取到的输出语音序列也会各不相同。
步骤S202、获取与文本序列对应的基准语音序列。
在本发明实施例的一种具体实现中,可以预先让真人来朗读该文本序列,并对朗读的过程进行语音录制,从而得到与该文本序列对应的语音序列。此处将该语音序列作为对语音合成***进行评测的基准,将其记为基准语音序列。若某一语音合成***的输出语音序列与基准语音序列差异越小,则该语音合成***越可靠,反之,若某一语音合成***的输出语音序列与基准语音序列差异越大,则该语音合成***越不可靠。
预先录制好的基准语音序列可以存储至指定的存储介质中,当需要进行语音合成***评测时,终端设备可以从存储介质中获取该基准语音序列。
步骤S203、根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与基准语音序列之间的整体偏差距离。
以任意一个语音合成***的输出语音序列(将其记为目标语音序列)为例,该语音序列与基准语音序列之间的整体偏差距离的计算过程具体可以包括如图3所示的过程:
步骤S2031、分别计算目标语音序列与基准语音序列在各个评测维度上的偏差距离。
在本发明实施例的一种具体实现中,可以采用动态时间归整(Dynamic TimeWraping,DTW)算法来进行偏差距离的计算,一段语音中含有多个音节,每个音节都含有基频信息,合成语音与自然语音的基频一般都是按照特定的基频序列进行有序排列的音节构成的,音节时长不相同,对应的基频序列长度也会有明显差异。欧式距离常用来表示声学参数,而通过DTW算法计算出来的距离则正是要作相关比较的基频序列的欧氏距离的平方。因此通过对DTW算法计算出来的距离作进一步运算处理,即可得到语音间的基频距离。
DTW算法虽然可以反馈不同语音在基频方面的差异,从而输出客观的评测结果,但对于发音相同、语境不同的情况,无法判断不同语音在时长、停顿、音强上的差异。因此,为了提供更加客观的评测结果,在本发明实施例的另一种具体实现中,可以在DTW算法的基础上增加音频特征的处理,从特征向量、时长和音强等多种维度进行评测,从而进一步提升评测结果的准确性和可靠性。
具体地,可以首先对目标语音序列与基准语音序列进行预处理,预处理的过程可以包括但不限于分帧、预加重和端点检测(Voice Activity Detection,VAD)等步骤。其中,分帧的作用是从语音序列中划分出各个音节;预加重的作用是滤除掉低频干扰,对高频部分进行频谱提升,起到抑制随机噪声和提升清音部分能量的效果;端点检测的作用是从声音信号流里识别和消除长时间的静音期,获取有效语音。
在预处理之后,则可以从特征向量、时长和音强等多种评测维度上进行偏差距离的计算。
在计算目标语音序列与基准语音序列在特征向量这一评测维度上的偏差距离时,可以首先对目标语音序列与基准语音序列的各个音节进行梅尔倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)的计算,将计算结果作为各个音节的特征向量。然后,根据下式计算目标语音序列与基准语音序列在特征向量这一评测维度上的偏差距离:
Figure BDA0003133983590000101
其中,k为基准语音序列中的音节序号,1≤k≤K,K为基准语音序列中的音节总数,Ps k为目标语音序列中的第k个音节的特征向量,Pn k为基准语音序列中的第k个音节的特征向量,DTW为动态时间归整函数,Mk为目标语音序列的第k个音节的特征向量的维数,Nk为基准语音序列的第k个音节的特征向量的维数,Dp为目标语音序列与基准语音序列在特征向量这一评测维度上的偏差距离。
在计算目标语音序列与基准语音序列在时长这一评测维度上的偏差距离时,可以首先计算目标语音序列与基准语音序列的各个音节的时长,然后根据下式计算目标语音序列与基准语音序列在时长这一评测维度上的偏差距离:
Figure BDA0003133983590000111
其中,Ts k为目标语音序列中的第k个音节的时长,Tn k为基准语音序列中的第k个音节的时长,Ta为基准语音序列中的K个音节的时长的平均值,Dt为目标语音序列与基准语音序列在时长这一评测维度上的偏差距离。
在计算目标语音序列与基准语音序列在音强这一评测维度上的偏差距离时,可以首先计算目标语音序列与基准语音序列的各个音节的音强,然后根据下式计算目标语音序列与基准语音序列在音强这一评测维度上的偏差距离:
Figure BDA0003133983590000112
其中,Es k为目标语音序列中的第k个音节的音强,En k为基准语音序列中的第k个音节的音强,Ea为基准语音序列中的K个音节的音强的平均值,De为目标语音序列与基准语音序列在音强这一评测维度上的偏差距离。
步骤S2032、根据目标语音序列与基准语音序列在各个评测维度上的偏差距离计算目标语音序列与基准语音序列之间的整体偏差距离。
具体地,可以根据下式计算目标语音序列与基准语音序列之间的整体偏差距离:
Figure BDA0003133983590000113
其中,n为评测维度的序号,1≤n≤N,N为评测维度的总数,Dn为目标语音序列与基准语音序列在第n个评测维度上的偏差距离,ωn为第n个评测维度的权重,且
Figure BDA0003133983590000114
其具体取值可以根据实际情况进行设置,本申请实施例对其不作具体限定,D为目标语音序列与基准语音序列之间的整体偏差距离。
根据图3所示的过程,遍历各个语音合成***的输出语音序列,则可分别得到各个语音合成***的输出语音序列与基准语音序列之间的整体偏差距离。
步骤S204、选取与基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用优选语音合成***执行语音合成任务。
若某一语音合成***与基准语音序列之间的整体偏差距离越大,则说明该语音合成***越不可靠,反之,若某一语音合成***与基准语音序列之间的整体偏差距离越小,则说明该语音合成***越可靠。因此,可以选取与基准语音序列之间的整体偏差距离最小的语音合成***作为最优的评测结果,将其记为优选语音合成***。当后续接收到语音合成任务时,则可以使用该优选语音合成***来执行语音合成任务。
综上所述,本发明实施例将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列;获取与所述文本序列对应的基准语音序列;根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。通过本发明实施例,不再依靠用户的主观感受,而是通过计算语音合成***的输出语音序列与基准语音序列之间的整体偏差距离来对语音合成***的优劣进行评测,且是从若干个不同的评测维度来进行综合考虑,从而在提高评测效率的同时也提高了评测准确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种语音合成***评测方法,图4示出了本发明实施例提供的一种语音合成***评测装置的一个实施例结构图。
本实施例中,一种语音合成***评测装置可以包括:
交互模块401,用于将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列;
基准语音序列获取模块402,用于获取与所述文本序列对应的基准语音序列;
整体偏差距离计算模块403,用于根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;
语音合成***选取模块404,用于选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。
在本发明实施例的一种具体实现中,所述整体偏差距离计算模块可以包括:
第一计算子模块,用于分别计算目标语音序列与所述基准语音序列在各个评测维度上的偏差距离,所述目标语音序列为任意一个语音合成***的输出语音序列;
第二计算子模块,用于根据所述目标语音序列与所述基准语音序列在各个评测维度上的偏差距离计算所述目标语音序列与所述基准语音序列之间的整体偏差距离。
在本发明实施例的一种具体实现中,所述评测维度可以包括特征向量、时长和音强;
所述第一计算子模块可以包括:
第一计算单元,用于计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离;
第二计算单元,用于计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离;
第三计算单元,用于计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
在本发明实施例的一种具体实现中,所述第一计算单元具体用于根据下式计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离:
Figure BDA0003133983590000141
其中,k为所述基准语音序列中的音节序号,1≤k≤K,K为所述基准语音序列中的音节总数,Ps k为所述目标语音序列中的第k个音节的特征向量,Pn k为所述基准语音序列中的第k个音节的特征向量,DTW为动态时间归整函数,Mk为所述目标语音序列的第k个音节的特征向量的维数,Nk为所述基准语音序列的第k个音节的特征向量的维数,Dp为所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离。
在本发明实施例的一种具体实现中,所述第二计算单元具体用于根据下式计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离:
Figure BDA0003133983590000142
其中,Ts k为所述目标语音序列中的第k个音节的时长,Tn k为所述基准语音序列中的第k个音节的时长,Ta为所述基准语音序列中的K个音节的时长的平均值,Dt为所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离。
在本发明实施例的一种具体实现中,所述第三计算单元具体用于根据下式计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离:
Figure BDA0003133983590000143
其中,Es k为所述目标语音序列中的第k个音节的音强,En k为所述基准语音序列中的第k个音节的音强,Ea为所述基准语音序列中的K个音节的音强的平均值,De为所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
在本发明实施例的一种具体实现中,所述第二计算子模块具体用于根据下式计算所述目标语音序列与所述基准语音序列之间的整体偏差距离:
Figure BDA0003133983590000151
其中,n为评测维度的序号,1≤n≤N,N为评测维度的总数,Dn为所述目标语音序列与所述基准语音序列在第n个评测维度上的偏差距离,ωn为第n个评测维度的权重,且
Figure BDA0003133983590000152
D为所述目标语音序列与所述基准语音序列之间的整体偏差距离。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备5可以是桌上型计算机、笔记本及掌上电脑等计算设备。该终端设备5可包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如执行上述的语音合成***评测方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个语音合成***评测方法实施例中的步骤,例如图2所示的步骤S201至S204。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至404的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音合成***评测方法,其特征在于,包括:
将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列;
获取与所述文本序列对应的基准语音序列;
根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;
选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。
2.根据权利要求1所述的语音合成***评测方法,其特征在于,所述根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离,包括:
分别计算目标语音序列与所述基准语音序列在各个评测维度上的偏差距离,所述目标语音序列为任意一个语音合成***的输出语音序列;
根据所述目标语音序列与所述基准语音序列在各个评测维度上的偏差距离计算所述目标语音序列与所述基准语音序列之间的整体偏差距离。
3.根据权利要求2所述的语音合成***评测方法,其特征在于,所述评测维度包括特征向量、时长和音强;
所述分别计算目标语音序列与所述基准语音序列在各个评测维度上的偏差距离,包括:
计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离;
计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离;
计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
4.根据权利要求3所述的语音合成***评测方法,其特征在于,所述计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离,包括:
根据下式计算所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离:
Figure FDA0003133983580000021
其中,k为所述基准语音序列中的音节序号,1≤k≤K,K为所述基准语音序列中的音节总数,Ps k为所述目标语音序列中的第k个音节的特征向量,Pn k为所述基准语音序列中的第k个音节的特征向量,DTW为动态时间归整函数,Mk为所述目标语音序列的第k个音节的特征向量的维数,Nk为所述基准语音序列的第k个音节的特征向量的维数,Dp为所述目标语音序列与所述基准语音序列在特征向量这一评测维度上的偏差距离。
5.根据权利要求3所述的语音合成***评测方法,其特征在于,所述计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离,包括:
根据下式计算所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离:
Figure FDA0003133983580000022
其中,k为所述基准语音序列中的音节序号,1≤k≤K,K为所述基准语音序列中的音节总数,Ts k为所述目标语音序列中的第k个音节的时长,Tn k为所述基准语音序列中的第k个音节的时长,Ta为所述基准语音序列中的K个音节的时长的平均值,Dt为所述目标语音序列与所述基准语音序列在时长这一评测维度上的偏差距离。
6.根据权利要求3所述的语音合成***评测方法,其特征在于,所述计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离,包括:
根据下式计算所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离:
Figure FDA0003133983580000031
其中,k为所述基准语音序列中的音节序号,1≤k≤K,K为所述基准语音序列中的音节总数,Es k为所述目标语音序列中的第k个音节的音强,En k为所述基准语音序列中的第k个音节的音强,Ea为所述基准语音序列中的K个音节的音强的平均值,De为所述目标语音序列与所述基准语音序列在音强这一评测维度上的偏差距离。
7.根据权利要求2至6中任一项所述的语音合成***评测方法,其特征在于,所述根据所述目标语音序列与所述基准语音序列在各个评测维度上的偏差距离计算所述目标语音序列与所述基准语音序列之间的整体偏差距离,包括:
根据下式计算所述目标语音序列与所述基准语音序列之间的整体偏差距离:
Figure FDA0003133983580000032
其中,n为评测维度的序号,1≤n≤N,N为评测维度的总数,Dn为所述目标语音序列与所述基准语音序列在第n个评测维度上的偏差距离,ωn为第n个评测维度的权重,且
Figure FDA0003133983580000033
D为所述目标语音序列与所述基准语音序列之间的整体偏差距离。
8.一种语音合成***评测装置,其特征在于,包括:
交互模块,用于将预设的文本序列分别输入至待评测的若干个不同的语音合成***中,并分别获取各个语音合成***的输出语音序列;
基准语音序列获取模块,用于获取与所述文本序列对应的基准语音序列;
整体偏差距离计算模块,用于根据预设的若干个评测维度分别计算各个语音合成***的输出语音序列与所述基准语音序列之间的整体偏差距离;
语音合成***选取模块,用于选取与所述基准语音序列之间的整体偏差距离最小的语音合成***作为优选语音合成***,并使用所述优选语音合成***执行语音合成任务。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音合成***评测方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音合成***评测方法的步骤。
CN202110713810.1A 2021-06-25 2021-06-25 语音合成***评测方法、装置、可读存储介质及终端设备 Pending CN113450768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110713810.1A CN113450768A (zh) 2021-06-25 2021-06-25 语音合成***评测方法、装置、可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110713810.1A CN113450768A (zh) 2021-06-25 2021-06-25 语音合成***评测方法、装置、可读存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN113450768A true CN113450768A (zh) 2021-09-28

Family

ID=77812951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110713810.1A Pending CN113450768A (zh) 2021-06-25 2021-06-25 语音合成***评测方法、装置、可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN113450768A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622195A (zh) * 2003-11-28 2005-06-01 株式会社东芝 语音合成方法和语音合成***
CN1641674A (zh) * 2004-01-08 2005-07-20 中国科学院计算技术研究所 计算机语音合成自然度的评测方法和***
JP2010060846A (ja) * 2008-09-03 2010-03-18 Panasonic Electric Works Co Ltd 合成音声評価システム及び合成音声評価方法
CN102103856A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 语音合成方法及***
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置
CN110853679A (zh) * 2019-10-23 2020-02-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
WO2020204256A1 (ko) * 2019-04-04 2020-10-08 미디어젠 주식회사 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
CN112802494A (zh) * 2021-04-12 2021-05-14 北京世纪好未来教育科技有限公司 语音评测方法、装置、计算机设备和介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622195A (zh) * 2003-11-28 2005-06-01 株式会社东芝 语音合成方法和语音合成***
CN1641674A (zh) * 2004-01-08 2005-07-20 中国科学院计算技术研究所 计算机语音合成自然度的评测方法和***
JP2010060846A (ja) * 2008-09-03 2010-03-18 Panasonic Electric Works Co Ltd 合成音声評価システム及び合成音声評価方法
CN102103856A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 语音合成方法及***
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置
WO2020204256A1 (ko) * 2019-04-04 2020-10-08 미디어젠 주식회사 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
CN110853679A (zh) * 2019-10-23 2020-02-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN112802494A (zh) * 2021-04-12 2021-05-14 北京世纪好未来教育科技有限公司 语音评测方法、装置、计算机设备和介质

Similar Documents

Publication Publication Date Title
CN110364140B (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
Singh et al. Vector quantization approach for speaker recognition using MFCC and inverted MFCC
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
US6990446B1 (en) Method and apparatus using spectral addition for speaker recognition
KR20150016225A (ko) 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
CN109817191B (zh) 颤音建模方法、装置、计算机设备及存储介质
JPS6184694A (ja) 認識用辞書学習方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN111445900A (zh) 一种语音识别的前端处理方法、装置及终端设备
US10014007B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN111883106A (zh) 音频处理方法及装置
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成***的激励信号的方法
CN109741761B (zh) 声音处理方法和装置
CA2947957A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
CN116665649A (zh) 基于韵律特征的合成语音检测方法
CN113450768A (zh) 语音合成***评测方法、装置、可读存储介质及终端设备
CN109697985B (zh) 语音信号处理方法、装置及终端
US20090063149A1 (en) Speech retrieval apparatus
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
JP5752488B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
Huh et al. A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination