CN108597538A

CN108597538A - 语音合成的评测方法和

Info

Publication number: CN108597538A
Application number: CN201810179637.XA
Authority: CN
Inventors: 缪冠琼
Original assignee: Mark Bay (beijing) Technology Co Ltd
Current assignee: Beibei Qingdao Technology Co ltd
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2018-09-28
Anticipated expiration: 2038-03-05
Also published as: CN108597538B

Abstract

本申请公开了一种语音合成***的评测方法和***，其中，该评测方法包括客观评测步骤，所述客观评测步骤包括：第一数据接收步骤：接收用户上传的第一数据；第一数据处理步骤：响应于用户对至少一个客观评测模式的选择，对所述第一数据进行解析和拆分，得到与所述客观评测模式对应的第二数据；客观比对步骤：将所述第二数据与第三数据进行比对得到客观评测结果；和客观评测结果输出步骤：将所述客观评测结果输出给所述用户。该方法从客观方面对语音合成***进行了评测，减少了主观因素的干扰和不确定性，评测速度更快，评测结果更准确、更稳定，也更加有证明力。

Description

语音合成***的评测方法和***

技术领域

本申请涉及数据处理领域，特别是涉及一种语音合成***的评测方法和***。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。语音合成能够使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。随着人工智能产业的飞速发展，语音合成***也得到了更加广泛的应用。人们对语音合成的可懂度、自然度、节奏感以及音质的要求也越来越高。

目前针对语音合成***的测评方法仅针对语音的自然度进行评分，即，针对合成的语音效果进行评分，而这种评分标准局限于对自然度优劣的评价，并没有客观的指标，评分人的主观性较强。测评结果提供给用户的反馈只有对合成***优劣的认知，并不能帮助用户找到合成的问题所在，以及解决语音合成***根本性、实质性的问题，达不到提升语音合成效果的作用。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种语音合成***的评测方法，该评测方法包括客观评测步骤，所述客观评测步骤包括：

第一数据接收步骤：接收用户上传的第一数据，其中，所述第一数据是将至少一个测试集输入到待评测的语音合成***后输出的第一前端结果；

第一数据处理步骤：响应于用户对至少一个客观评测模式的选择，对所述第一数据进行解析和拆分，得到与所述客观评测模式对应的第二数据；

客观比对步骤：将所述第二数据与第三数据进行比对得到客观评测结果，其中，所述第三数据是基于所述客观评测模式对预置的所述测试集的完整的客观评测答案进行解析和拆分后得到的数据；和

客观评测结果输出步骤：将所述客观评测结果输出给所述用户。

该方法从客观方面对语音合成***进行了评测，减少了主观因素的干扰和不确定性，评测速度更快，评测结果更准确、更稳定，也更加有证明力。

可选地，所述客观评测模式包括：韵律评测模式、数字符号评测模式、多音字评测模式和分词词性评测模式。

通过各个方面对语音合成***进行测评，能够全面地反映该语音合成***存在的问题，从而使得测评结果更加准确和全面。

可选地，该方法还包括主观评测步骤，所述主观评测步骤包括：

第四数据接收步骤：接收用户上传的第四数据，其中，所述第四数据是将至少一个测试集输入到待评测的语音合成***后输出的第一语音合成结果；

主观评测结果生成步骤：接收用户对至少一个主观评测模式的选择并将选择的结果发送给评测人员，接收所述评测人员基于所述用户选择的主观评测模式对所述第四数据进行评测得到的主观评测结果；和

主观评测结果输出步骤：将所述主观评测结果输出给所述用户。

该方法将客观评测和主观评测相结合，能够对语音合成***进行多个角度的全方位评测，通过主观评测弥补客观评测的不足，能够检测出语音中更细微的缺陷或者杂音变声等通过计算机无法很好识别的问题，从而使得评测结果更加准确。

可选地，所述主观评测模式包括：语音质量对比评测模式和语音质量评分评测模式。

采用语音质量对比评测模式能够比较出两个或两个以上语音合成结果之间优劣。采用语音质量评分评测模式能够对语音合成结果进行清晰度(或可懂度)、自然度和连贯性等方面的分析。主观评测模式分别以横向和纵向两种不同的方式对语音合成***的合成效果进行评测，更好地满足用户的不同需求。

可选地，该方法还包括综合评测步骤，所述综合评测步骤包括：

第五数据接收步骤：接收用户上传的第五数据，其中，所述第五数据是将所有的测试集输入到待评测的语音合成***后输出的第二语音合成结果；

综合评测报告生成步骤：接收用户对综合评测模式的选择，从文本分析、韵律、声学参数和声码器方面对所述第二语音合成结果进行主观评测，对所述待评测的语音合成***进行综合分析，形成综合评测报告；和

综合评测报告输出步骤：将所述综合评测报告输出给所述用户。

该步骤能够使得用户更深入地了解语音合成***的关键问题所在，更高效地达到提升语音合成***合成效果的目的。

根据本申请的另一个方面，提供了一种语音合成***的评测***，该评测***包括客观评测模块，所述客观评测模块包括：

第一数据接收模块，被配置为用于接收用户上传的第一数据，其中，所述第一数据是将至少一个测试集输入到待评测的语音合成***后输出的第一前端结果；

第一数据处理模块，被配置为响应于用户对至少一个客观评测模式的选择，对所述第一数据进行解析和拆分，得到与所述客观评测模式对应的第二数据；

客观比对模块，被配置为用于将所述第二数据与第三数据进行比对得到客观评测结果，其中，所述第三数据是基于所述客观评测模式对预置的所述测试集的完整的客观评测答案进行解析和拆分后得到的数据；和

客观评测结果输出模块，被配置为用于将所述客观评测结果输出给所述用户。

该***从客观方面对语音合成***进行了评测，减少了主观因素的干扰和不确定性，评测速度更快，评测结果更准确、更稳定，也更加有证明力。

可选地，该评测***还包括主观评测模块，所述主观评测模块包括：

第四数据接收模块，被配置为用于接收用户上传的第四数据，其中，所述第四数据是将至少一个测试集输入到待评测的语音合成***后输出的第一语音合成结果；

主观评测结果生成模块，被配置为用于接收用户对至少一个主观评测模式的选择并将选择的结果发送给评测人员，接收所述评测人员基于所述用户选择的主观评测模式对所述第四数据进行评测得到的主观评测结果；和

主观评测结果输出模块，被配置为用于将所述主观评测结果输出给所述用户。

可选地，其特征在于，该评测***还包括综合评测模块，所述综合评测模块包括：

第五数据接收模块，被配置为用于接收用户上传的第五数据，其中，所述第五数据是将所有的测试集输入到待评测的语音合成***后输出的第二语音合成结果；

综合评测报告生成模块，被配置为用于接收用户对综合评测模式的选择，从文本分析、韵律、声学参数和声码器方面对所述第二语音合成结果进行主观评测，对所述待评测的语音合成***进行综合分析，形成综合评测报告；和

综合评测报告输出模块，被配置为用于将所述综合评测报告输出给所述用户。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请的评测方法的客观评测步骤的一个实施例的流程图；

图2是根据本申请的评测方法的主观评测步骤的一个实施例的流程图；

图3是根据本申请的评测方法的综合评测步骤的一个实施例的流程图；

图4是根据本申请的评测***的客观评测模块的一个实施例的框图；

图5是根据本申请的评测***的主观评测模块的一个实施例的框图；

图6是根据本申请的评测***的综合评测模块的一个实施例的框图。

具体实施方式

语音合成***也称文语转换(Text-To-Speech)***。通常，语音合成的过程为将文本输入到语音合成***通过文本预处理、文本分析、韵律层级预测、声学参数生成和语音生成等处理后，产生与输入的文本相对应的合成语音。通常，可以将语音合成的过程分为前端处理环节和后端处理环节，前端处理环节将接收的文本经过一系列的处理过程。语音合成前端处理环节主要是对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，该环节至少包括韵律生成、文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。语音合成后端处理环节主要是利用处理好的文本相关信息，生成语音，包括但不限于利用前端处理结果直接生成语音，或者生成声学参数后进一步利用声码器或滤波器生成语音，或者生成声学参数后从语音合成库中进行单元挑选并拼接出语音。该环节可以包括语音生成模块。合成语音质量的好坏，与这些处理模块的性能都有很大的关系。所以，将影响语音合成质量的***处理问题归结为文本分析问题、韵律层级预测问题、声学参数生成问题和声码器问题等。影响语音合成质量的问题，即为合成***亟待解决的根本问题。文本分析包括：多音字、数字符号、变调；韵律层级预测包括：分词词性、韵律；声学参数包括：音高、时长等。本专利针对以上影响语音合成质量的结构模块逐一进行评测，协助用户分析合成***的关键问题所在，有针对性的解决问题，更高效的实现合成效果的提升。

根据本申请的一个方面，提供了一种语音合成***的评测方法，图1是根据本申请的评测方法的客观评测步骤的一个实施例的流程图。该方法可以包括客观评测步骤，所述客观评测步骤包括：

在该方法中，***管理员可以将至少一个测试集和该测试集对应的完整的评测答案上传至评测***。评测***对上传的评测答案进行解析和拆分，将解析结果存入数据库。拆分的原则可以根据客观评测模式制定。可选地，所述客观评测模式可以包括：韵律评测模式、数字符号评测模式、多音字评测模式和分词词性评测模式。例如，在多音字评测模式下针对测试集中含有多音字的句子，将测试集编号、句子编号、该多音字所在的位置和多音字的发音进行解析和拆分，将拆分后的结果按照一定顺序拼接，将拼接后的结果存入数据库中。在保存时，可以按照测试集进行拆分并保存，即，将该测试集中所有含有多音字的句子中的多音字部分拼接在一个结果中；也可以按照句子进行拆分并保存。

其他的模式与多音字的处理方式相同或者相似。可选地，测试集的数目为一个或多个。测试集可以覆盖财经、军事、小说、科技、娱乐、体育、天气、政治、时尚、对话等领域，每个领域中包含若干个句子，例如，测试集共包含100个句子，每个领域包含10句单句。这些句子中涉及了多音字、数字符号、长短句等。对于不同的测试模式，测试集不同，并且更有针对性。

用户可以下载一个或者多个测试集，将测试集用在评测语音合成***生成出第一前端结果。在一个可选实施方案中，第一前端结果中可以包含多种结果，例如，可以包括韵律、断句、字词切分、多音字、数字等。用户将第一前端结果上传到评测***。评测***在接收到第一前端结果后，对该第一前端结果进行解析和拆分，根据客户选择的客观评测模式，例如，客户选择多音字评测模式，则将该第一前端结果中多音字部分的信息拆分出来，与数据库中存储的相应的评测答案进行比对。服务器会生成比对结果，该结果包括错误列表和改进方案中的一个或多个。

在一个可选实施方案中，第一前端结果中可以是一种针对特定模式生成的结果，例如，可以是韵律结果、断句结果、字词切分结果、多音字结果、数字结果等。用户将第一前端结果上传到服务器。评测***在接收到第一前端结果后，可以将该第一前端结果与服务器中相应的评测答案进行比对；也可以对该第一前端结果进行解析和拆分，此处拆分的目的是为了与测评***中该客观评测模式的评测答案的格式和/或内容对应。例如，不同语音合成***的输出文件的格式可能不同，因此需要对第一前端结果进行解析和拆分，将其转换成与测评答案格式相同或相对应的数据格式。例如，假设客户选择多音字评测模式，输入某个测试集后，语音合成***得到第一前端结果，该第一前端结果为多音字的处理结果。在一个可选的实施方案中，该多音字的处理结果包含测试集的所有句子中的所有的多音字。在另一个可选的实施方案中，该多音字的处理结果包含测试集的所有句子中的部分多音字。对于句子中不是多音字的部分不予提取或者评测。例如，该第一前端结果共包含10个多音字。在测评***中，对于该测试集，多音字评测模式的评测答案中可以包含10个多音字，也可以包含部分多音字，例如包含9个多音字，另外1个由于不作为重点检测对象而不予评测，其原因可以包括：现有的语音合成***对该个多音字的判断准确率非常高，因此为了提高评测速度而不予评测。因此需要将第一前端结果进行解析和拆分，得到9个多音字，进而与评测答案的内容进行对比。在与数据库中存储的相应的评测答案进行比对后，评测***会生成比对结果，该结果包括错误列表和改进方案中的一个或多个。

下面对各个客观评测模式进行说明。

韵律评测模式：也可以称为韵律评测模块，以下各个模式也可以被称为模块，后面不再赘述。韵律评测模式主要针对韵律层级，该层级的预测错误可能直接影响句子的自然度及可懂度。该模式以涵盖若干个测试集对TTS***的前端***进行韵律处理的评测。韵律测试集可以涵盖多个文本领域，每个领域包含多个测试文本，每个测试文本优选为15至35字/句，句子中间没有断标点。韵律问题较多的体现在长句中，该长度的句子，有助于找到韵律处理的问题所在。评测***可以对存这些领域的测试集文本制作成的完整的测评答案，该评测答案通过解析拆分得到能够全面覆盖韵律处理的正确结果的测评答案。评测过程：用户通过下载测试集，利用待测评的语音合成***生成前端结果。该前端结果可以是多音字处理结果，也可以是包含各个测评方面的处理结果，这取决于用户的语音合成***的功能。将该前端结果上传到服务器，服务器中的***程序将用户上传的前端结果与评测答案进行比对，最终***将TTS前端韵律处理的结果呈现给用户，用户通过正确率及错误点，快速定位合成***前端韵律问题所在。

多音字评测模式：由于多音字是影响句子可懂度的一个重要因素，因此该模式也是非常重要的。多音字测试集：此模式以涵盖100余个常用多音字的测试集对TTS前端***进行多音字处理的评测。评测过程：用户下载测试集，利用待测评的语音合成***生成前端结果。用户上传该前端结果与评测***的评测答案进行比对，***迅速得出正确率及问题点。让用户快速了解TTS前端多音字的问题，并有针对性的进行多音字模块的改进。

数字符号评测模式：由于数字符号的类型多样，常以混合方式出现在各个领域的文字中。数字符号的预测错误对句子的理解及句意的表达会产生重大影响。数字符号测试集可以是涵盖多种类型的数字、符号及数字符号组合测试集。评测过程：用户通过下载测试集，生成前端结果，将前端结果上传后测评***为用户呈现出评测结果，让用户清晰地了解此模块的问题所在，有针对性的去解决关键性问题。

分词词性评测模式：分词词性的正确与否，会影响韵律及多音字的正确率，分词词性的预测错误，是导致韵律错误的主要因素之一，从而影响句子的自然度和可懂度。分词词性测试集可以是涵盖了一个或多个领域的测试集。

测评***中该模式的评测答案可以全面覆盖不同粒度的分词词性处理的正确结果。评测过程：用户通过下载测试集，生成前端处理结果并上传到评测***，***能够迅速计算正确率及错误点。根据评测结果，可以帮助用户了解此模式下语音合成***的性能。

以上是对各个模式的可选实施方案，应当理解的是，各个模式不限于上面的实现方案。

可选地，所述方法可以包括主观评测步骤。图2是根据本申请的评测方法的主观评测步骤的一个实施例的流程图。主观评测步骤以代表不同的TTS用户群体的评测人员，分别以横向和纵向两种不同的方式对TTS合成***的语音进行评分。该步骤的目的在于，让用户了解自身TTS***的可优化空间及市场竞争力。

所述主观评测步骤可以包括：

主观评测一般可以从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。

所述主观评测模式包括：语音质量对比评测模式和语音质量评分评测模式。

本步骤被称为主观评测步骤，虽然评测的主体是评测人员，但评测人员在评测过程中采用的是统一的标准答案，因此能够保证评测结果的客观性。在语音质量评分评测模式中，评测打分可以采用5分制评分标准。由评测人员对用户上传的语音合成结果进行打分。5分满分标准为句子自然流畅，清晰，韵律节奏感强，没有发音错误及韵律错误，接近真人发音。句子中有韵律错误的扣1分；有多音字或发音错误的扣1分；有数字符号错误的扣1分；有音高时长问题的扣1分；句子整体不自然的扣1分。

在语音质量对比评测模式中，可以采用两两对比的方式。用户可以同时上传两种语音合成结果。这两种语音合成结果可以分别来自不同的语音合成***，也可以分别来自同一个语音合成***的不同版本。由评测人员对两种语音合成结果进行打分，评测出更优的声音。采用此评测方法，更直观地反映语音合成***的优劣。

可选地，所述方法还包括综合评测步骤，图3是根据本申请的评测方法的综合评测步骤的一个实施例的流程图。所述综合评测步骤包括：

在综合评测步骤中，主要是评测人员对语音合成***的结果进行评测。该步骤可以对合成测试集的样本进行深入分析，从韵律层级预测问题、文本分析问题(例如，可以包括多音字分析、数字符号分析、分词词性分析)、声学参数生成问题和声码器问题等方面，对语音合成***进行全面综合的剖析，形成评测报告。用户通过评测报告，可以更深入地了解合成***的关键问题所在，更高效地达到提升***合成效果的目的。

应该理解的是，客观评测步骤、主观评测步骤和综合评测步骤可以相互独立执行，也可以顺序执行，或者同时执行。具体执行哪个步骤可以根据客户的选择和需要实现。

根据本申请的另一个方面，提供了一种语音合成***的评测***，图4是根据本申请的评测***的客观评测模块的一个实施例的框图。该评测***可以包括客观评测模块，所述客观评测模块包括：

可选地，所述***还包括主观评测模块，图5是根据本申请的评测***的主观评测模块的一个实施例的框图。所述主观评测模块包括：

第四数据接收模块，被配置为用于接收用户上传的第四数据，其中，所述第四数据是将至少一个测试集输入到待评测的语音合成***后输出的第一语音合成结果。

主观评测结果生成模块，被配置为用于接收用户对至少一个主观评测模式的选择并将选择的结果发送给评测人员，接收所述评测人员基于所述用户选择的主观评测模式对所述第四数据进行评测得到的主观评测结果。所述主观评测模式包括：语音质量对比评测模式和语音质量评分评测模式。

可选地，所述***还包括综合评测模块，图6是根据本申请的评测***的综合评测模块的一个实施例的框图。所述综合评测模块可以包括：

本申请实施例还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的语音合成***的评测方法中的任意一个。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行上述语音合成***的评测方法中的任意一个。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音合成***的评测方法，该评测方法包括客观评测步骤，所述客观评测步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述客观评测模式包括：韵律评测模式、数字符号评测模式、多音字评测模式和分词词性评测模式。

3.根据权利要求1所述的方法，其特征在于，该方法还包括主观评测步骤，所述主观评测步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述主观评测模式包括：语音质量对比评测模式和语音质量评分评测模式。

5.根据权利要求1至4的任一项所述的方法，其特征在于，该方法还包括综合评测步骤，所述综合评测步骤包括：

6.一种语音合成***的评测***，该评测***包括客观评测模块，所述客观评测模块包括：

7.根据权利要求6所述的评测***，其特征在于，所述客观评测模式包括：韵律评测模式、数字符号评测模式、多音字评测模式和分词词性评测模式。

8.根据权利要求6所述的评测***，其特征在于，该评测***还包括主观评测模块，所述主观评测模块包括：

9.根据权利要求8所述的评测***，其特征在于，所述主观评测模式包括：语音质量对比评测模式和语音质量评分评测模式。

10.根据权利要求6至9的任一项所述的评测***，其特征在于，该评测***还包括综合评测模块，所述综合评测模块包括：