CN110942765A

CN110942765A - 一种构建语料库的方法、设备、服务器和存储介质

Info

Publication number: CN110942765A
Application number: CN201911095120.3A
Authority: CN
Inventors: 李阳
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-03-31
Anticipated expiration: 2039-11-11
Also published as: CN110942765B

Abstract

本申请涉及智能语音技术领域，特别涉及一种构建语料库的方法、设备、服务器和存储介质，该方法包括：依次读取各条语音资源，每读取一条，执行以下操作：基于一条语音资源，提取相应的语音特征，确定语音特征与已有的各个参考语音特征均未匹配成功时，对应语音特征建立新的语音特征库，以及将语音特征作为参考语音特征存储至新的语音特征库；构建与新的语音特征库相应的新的语料库；将一条语音资源转换为相应的文本语料，以及在确定文本语料与已有的各个参考文本语料均未匹配成功时，将文本语料添加至新的语料库。该方法提升了构建语料库的效率。

Description

一种构建语料库的方法、设备、服务器和存储介质

技术领域

本申请涉及智能语音技术领域，特别涉及一种构建语料库的方法、设备、服务器和存储介质。

背景技术

随着信息技术的发展，智能语音技术已经成为人们信息获取和沟通最便捷、最有效的技术手段之一。

智能语音技术，是实现人机语言交互的手段，语音识别和语音合成是智能语音技术的两个主要分支。语音识别和语音合成的实现，都需要预先构建语料库，基于语料库进行语音识别或者合成。

已有技术下，语料库的一种构建方法为：通过大量志愿者进行语料录制，然后工作人员再对录制的语料信息进行采集、标注和后期维护。

这种构建语料库的方式，语料的采集和构建，很大程度上依赖于人工操作，占用了大量的劳动力，并且人工采集的效率较低，导致语料采集所消耗的时间成本较高，构建语料库的效率比较低。

有鉴于此，需要重新设计一种方法以克服上述缺陷。

发明内容

本申请实施例提供一种构建语料库的方法、设备、服务器和存储介质，用以解决现有技术中存在的构建效率低的技术问题。

本申请实施例提供的具体技术方案如下：

本申请实施例的第一个方面，提供一种构建语料库的方法，包括：

获取网络中已有的语音资源；

依次读取各条语音资源，每读取一条，执行以下操作：

基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的各个参考语音特征均未匹配成功时，对应所述语音特征建立新的语音特征库，以及将所述语音特征作为参考语音特征存储至所述新的语音特征库；

构建与所述新的语音特征库相应的新的语料库；

将所述一条语音资源转换为相应的文本语料，以及在确定所述文本语料与已有的各个参考文本语料均未匹配成功时，将所述文本语料添加至所述新的语料库。

可选的，基于一条语音资源，提取相应的语音特征，具体包括：

基于一条语音资源，提取相应的基音特征和音调特征。

可选的，依次读取各条语音资源之前，进一步包括：

构建普通话特征库，提取普通话的基音特征和音调特征，作为初始的参考语音特征存储至所述普通话特征库；

构建与所述普通话特征库对应的普通话语料库。

可选的，基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的任意一个参考语音特征未匹配成功，具体包括：

获取第一基音数值和第一音调数值，其中，所述第一基音数值由所述任意一个参考语音特征中的基音特征转换得到，所述第一音调数值由所述任意一个参考语音特征中的音调特征转换得到；

基于一条语音资源，提取相应的基音特征和音调特征，将提取的基音特征转换为第二基音数值，将提取的音调特征转换为第二音调数值；

计算所述第二基音数值与预设的第一基音数值的第一差值，以及计算所述第二音调数值与预设的第一音调数值的第二差值；

判定所述第一差值大于预设的第一阈值，且所述第二差值大于预设的第二差值时，则确定所述语音特征与普通话特征库中的参考语音特征未匹配成功。

可选的，进一步包括：

基于一条语音资源，提取相应的语音特征之后，若确定所述语音特征与已有的至少一项参考语音特征匹配成功，则将所述语音特征作为参考语音特征，存储至所述至少一项参考语音特征对应的语音特征库中；

将所述一条语音资源转换为相应的文本语料，以及在确定所述文本语料与已有的至少一条参考文本语料未匹配成功时，将所述文本语料添加至所述至少一条参考文本语料对应的语料库。

本申请实施例的第二个方面，还提供一种构建语料库的设备，包括：

获取单元，用于获取网络中已有的语音资源；

处理单元，用于依次读取各条语音资源，每读取一条，执行以下操作：

构建与所述新的语音特征库相应的新的语料库；

可选的，基于一条语音资源，提取相应的语音特征时，所述处理单元，具体用于：

基于一条语音资源，提取相应的基音特征和音调特征。

可选的，依次读取各条语音资源之前，所述处理单元，进一步用于：

构建与所述普通话特征库对应的普通话语料库。

可选的，基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的任意一个参考语音特征未匹配成功时，所述处理单元，具体用于：

可选的，所述处理单元，进一步用于：

本申请实施例的第三个方面，提供一种服务器，包括：存储器、处理器；其中，

存储器，用于存储可执行指令；

处理器，用于读取并执行存储器中存储的可执行指令，以实现如上述任一项所述的方法。

本申请实施例的第四个方面，还提供一种存储介质，当存储介质中的指令由处理器执行时，使得能够执行如上述任一项所述的方法。

本申请实施例中，通过获取网络中已有的语音资源，依次读取各条语音资源，每读取一条，提取相应的语音特征，当确定所述语音特征与已有的各个参考语音特征均未匹配成功时，对应所述语音特征建立新的语音特征库，并将所述语音特征作为参考语音特征存储至所述新的语音特征库；并构建与所述新的语音特征库相应的语料库；将所述一条语音资源转换为相应的文本语料，当所述文本语料与已有的各个参考文本语料均未匹配成功时，将所述文本语料添加至所述语料库。如此，直接从网络获取已有的语音资源，并对获取的语音资源通过语音特征识别，分别存储至相应的语音特征库中，即可以实现了语料的自动分类；并在当前语料并未在语料库中有所记载时，添加到相应的语料库中，实现了语料库中语料的自动添加，相比于人工采集语音添加至语料库以及人工识别语音进行分类的方式，大大提升了语料库的构建和维护的效率，节省了运维成本。

附图说明

图1为本申请构建语料库方法的一个实施例的流程示意图；

图2为本申请构建语料库设备的一个实施例的结构示意图；

图3为本申请服务器的结构示意图。

具体实施方式

为了解决现有技术中存在的语料库构建效率低的技术问题，本申请实施例中，获取网络中已有的语音资源，从语音资源中提取出语音特征，将语音特征与已有的参考语音特征进行匹配，不能匹配时，则建立新的语音特征库，并构建与特征库相应的语料库，之后将语音资源转换为文本语料，在确定文本语料不能与已有的文本语料匹配时，则将该文本语料添加至相应的语料库。

下面结合附图对本申请可选的实施方式作出进一步详细说明：

语音识别和语音合成技术中，一般是将方言和普通话分开进行识别或合成，因此在本申请实施例中，建立语料库时，方言和普通话应分别构建不同的语料库，对应地，在特征识别过程，应分别建立语音特征库存储各种的语音特征。

因此，作为一种可实施方式，首先构建至少一个语音特征库，作为基础语音特征库。具体地，预先构建普通话特征库，提取普通话的基音特征和音调特征，作为参考语音特征存储至所述普通话特征库；并构建与所述普通话特征库对应的普通话语料库。

其中，提取普通话的基音特征和音调特征之后，将提取的普通话的基音特征转换为第一基音数值，将提取的普通话的音调特征转换为第一音调数值，将第一基音数值和第一音调数值作为基础参考语音特征，存储至所述普通话特征库。

需要说明的是，基础语音特征库并不仅限于普通话特征库，也可以是粤语特征库、四川方言特征库等其他方言特征库，可根据实际的目标用户具体确定基础特征库的语言类别。

参阅图1所示，本申请实施例提供的一种构建语料库的方法的具体流程如下：

S101：获取网络中已有的语音资源。

网络中已有的语音资源，包括网络上的音频、视频节目等语音资源，可通过网络爬虫爬取获得。

可选的，对于获取到的语音资源，应进行预处理，以去除噪声和背景杂音。

S102：从获得的各条语音资源中，读取一条语音资源。

S103：基于读取的一条语音资源，提取相应的语音特征。

在本申请实施例中，提取相应的语音特征，包括提取基音特征和音调特征。

其中，一般而言，声音是由发音体发出的一系列频率、振幅各不相同的振动复合而成的，这些振动中有一个频率最低的振动，由它发出的音就是基音(fundamental tone)，其余为泛音。基音特征则指从语音资源中提取出的包含有基音信息的语音信号。

音调，即声音频率的高低，在本申请实施例中，音调特征，即从语音资源中提取出的含有声音频率高低信息的语音信号。

S104：判断所述语音特征与已有的各个参考语音特征均未匹配成功？若是，则进入S105，否则，进入S107。

可选的，在执行步骤S104时，采用如下方式进行当前一条语音特征与参考语音特征的匹配：

在确定所述语音特征与已有的至少一项参考语音特征匹配成功时，则将所述语音特征作为参考语音特征，存储至所述至少一项参考语音特征对应的语音特征库中。

例如，假设普通话的第一基音数值为65，普通话的第一音调数值为上声、去声、入声和平声的音调数值的均值为98，第一阈值为0.5，第二阈值为0.8，当第二基音数值为67时，则67-65＝2，大于第一阈值0.5，则判定为不匹配；当第二音调数值为99时，99-98＝1，大于第二阈值0.8，则判定为不匹配。

S105：对应所述语音特征建立新的语音特征库，以及将所述语音特征作为参考语音特征存储至所述新的语音特征库。

具体的，以普通话特征库中的普通话语音特征作为参考语音特征为例。

首先，将基于当前读取的一条语音资源提取的基音特征和音调特征，与普通话特征库中的参考语音特征进行对比。

如果至少有一条匹配，则说明当前读取的一条语音资源对应于普通话特征库，因此无需建立新的语音特征库。可选的，此时，标记当前读取的一条语音资源匹配的语音特征库。

如果与所有的参考语音特征均不匹配，则说明当前读取的一条语音资源不属于普通话范畴。此时，需要新建一个与上述一条语音资源对应的新的语音特征库，作为第一种方言特征库，将从上述一条语音资源中提取出的基音特征和音调特征，作为参考语音特征，存储至所述第一种方言特征库中。

对于下一条语音资源，当流程经S101-S103，再次循环到S104时，从下一条语音资源中提取的语音特征，分别与已构建的普通话特征库中的普通话参考语音特征、第一种方言特征库中的参考语音特征进行对比，若与第一种方言特征库中的语音特征匹配，则说明下一条语音资源属于第一种方言，无需新建语音特征库；若都不匹配，则说明下一条语音资源既不属于普通话也不属于第一种方言，判定为第二种方言，则构建第二种方言特征库，以此类推。

例如，假设当前读取的一条语音资源为四川方言，从中提取出基音特征和音调特征后，与普通话特征库中的参考语音特征进行对比，确定均不匹配，则新建四川方言特征库；而读取到的下一条语音资源为河南方言，与普通话特征库中的参考语音特征和四川方言特征库中的参考语音特征进行对比，确定均不匹配，则新建河南方言特征库。

S106：构建与所述新的语音特征库相应的语料库。

可选的，每构建一个新的语音特征库，都对应构建一个新的语料库。

语料，为用于语音识别和语音合成的基础音频素材，可以是单个的字、词、短语或者成语，也可以是一句话。

S107：将所述一条语音资源转换为相应的文本语料。

S108：判断转换得到的所述文本语料与已有的各个参考文本语料均未匹配成功？若是，则进入S109，否则，进入S110。

S109：将所述文本语料添加至所述语料库。

例如，假设一条语音资源是以普通话讲“与你无瓜”，那么在S104中判定与普通话特征库中的参考语音特征匹配，即初步分类为普通话语料，而后，经S108确定与已有的各个参考文本语料均未匹配成功，则在S109中，将“与你无瓜”添加至普通话特征库对应的语料库中。

S110：判断是否存在下一条语音资源？若是，则返回S102，否则，流程结束。

通过循环执行S102-S110，可以构建多个语音特征库和语料库，通过语音特征的自动匹配，不断累积相应的参考语音特征和参考文本语料，通过自主学习得到语料充足的语料库，对于语音合成和语音识别均具有重要的参考价值。

下面列举构建语料库的方法的一个完整实施例：

预先构建普通话特征库，并对应构建普通话语料库。普通话特征库中存储有普通话基音数值(相当于上述第一基音数值)和普通话音调数值(相当于上述第一音调数值)。

从网络中获取已有的语音资源。

读取第n(n为整数，n≥1)条语音资源，假设是以四川方言说出、内容为“我爱我的国家”，提取该语音资源中的基音特征和音调特征，将提取的基音特征转换为第二基音数值，将提取的音调特征转换为第二音调数值。

计算所述第二基音数值与普通话的基音数值的第一差值，并计算所述第二音调数值与普通话音调数值的第二差值。

同时判断第一差值是否大于第一阈值、第二差值是否大于第二阈值，若第一差值大于第一阈值且同时第二差值大于第二阈值时，则判定当前一条语音资源“我爱我的国家”不属于普通话特征库，因此，构建一个新的语音特征库，将“我爱我的国家”对应的第二基音数值和第二音调数值存储至该新的语音特征库，标记为四川方言特征库。

对应于四川方言特征库，构建一个新的语料库，标记为四川方言语料库。

将当前一条语音资源转换为文本语料“我”“爱”“我的”“国家”。

判断四川方言语料库中是否有与“我爱我的国家”匹配的参考文本语料。

对于新建的语料库，显然并未存有参考文本语料，因此直接判定为与已有的参考文本语料均不匹配，将“我”“爱”“我的”“国家”添加至四川方言语料库中。

至此，完成一条语音资源的处理流程。

接下来，判断是否存在下一条语音资源，若是，则赋值n＝n+1，读取赋值后的第n条语音资源并再次执行上述流程，否则结束流程。

参考第n条语音资源的处理过程，可对应得到第n+1、n+2……等语音资源的处理过程，不再一一赘述。

参阅图2所示，本申请实施例提供一种构建语料库的设备，包括：

获取单元201，用于获取网络中已有的语音资源；

处理单元202，用于依次读取各条语音资源，每读取一条，执行以下操作：

基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的各个参考语音特征均未匹配成功时，对应所述语音特征建立新的语音特征库，以及将所述语音特征作为参考语音特征存储至所述新的语音特征库；构建与所述新的语音特征库相应的新的语料库；

可选的，基于一条语音资源，提取相应的语音特征时，所述处理单元202，具体用于：

基于一条语音资源，提取相应的基音特征和音调特征。

可选的，依次读取各条语音资源之前，所述处理单元202，进一步用于：

构建与所述普通话特征库对应的普通话语料库。

可选的，基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的任意一个参考语音特征未匹配成功时，所述处理单元202，具体用于：

可选的，所述处理单元202，进一步用于：

基于同一发明构思，参阅图3所示，本申请实施例还提供一种服务器，包括：存储器301和处理器302，其中，

存储器301，用于存储可执行指令；

处理器302，用于读取并执行存储器中存储的可执行指令，以实现上述任一项所述的构建语料库方法。

基于同一发明构思，本申请实施例还提供一种存储介质，当存储介质中的指令由处理器执行时，使得能够执行如上述任一项所述的构建语料库方法。

综上所述，本申请实施例中，基于从网络中的已有语音资源，依次读取各条语音资源，每读取一条，提取出相应的语音特征，当确定所述语音特征与已有的各个参考语音特征均未匹配成功时，对应所述语音特征建立新的语音特征库，并构建与所述新的语音特征库相应的语料库；之后，将所述一条语音资源转换为相应的文本语料，当所述文本语料与已有的各个参考文本语料均未匹配成功时，将所述文本语料添加至所述语料库。这样，对网络中已有的语音资源通过语音特征的匹配，不同语音特征对应不同的语料库，实现了基于特征匹配的语料自动分类；并在当前语料并未在语料库中有所记载时，添加到相应的语料库中，实现了语料库中语料的自动添加，提升了语料库的构建和维护的效率，节省了运维成本；

进一步地，基音特征和音调特征是语音中能够被量化表示的典型特征，可以体现出不同的语音之间的差别，从语音资源中提取出基音特征和音调特征进行特征匹配，匹配效果好，识别率高。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种构建语料库的方法，其特征在于，包括：

获取网络中已有的语音资源；

依次读取各条语音资源，每读取一条，执行以下操作：

构建与所述新的语音特征库相应的新的语料库；

2.如权利要求1所述的方法，其特征在于，基于一条语音资源，提取相应的语音特征，具体包括：

基于一条语音资源，提取相应的基音特征和音调特征。

3.如权利要求2所述的方法，其特征在于，依次读取各条语音资源之前，进一步包括：

构建与所述普通话特征库对应的普通话语料库。

4.如权利要求2所述的方法，其特征在于，基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的任意一个参考语音特征未匹配成功，具体包括：

5.如权利要求1或2所述的方法，其特征在于，进一步包括：

6.一种构建语料库的设备，其特征在于，包括：

获取单元，用于获取网络中已有的语音资源；

构建与所述新的语音特征库相应的新的语料库；

7.如权利要求6所述的设备，其特征在于，基于一条语音资源，提取相应的语音特征时，所述处理单元，具体用于：

基于一条语音资源，提取相应的基音特征和音调特征。

8.如权利要求7所述的设备，其特征在于，依次读取各条语音资源之前，所述处理单元，进一步用于：

构建与所述普通话特征库对应的普通话语料库。

9.如权利要求7所述的设备，其特征在于，基于一条语音资源，提取相应的语音特征，确定所述语音特征与已有的任意一个参考语音特征未匹配成功时，所述处理单元，具体用于：

10.如权利要求6或7所述的设备，其特征在于，所述处理单元，进一步用于：

11.一种服务器，其特征在于，包括：存储器、处理器；其中，

存储器，用于存储可执行指令；

处理器，用于读取并执行存储器中存储的可执行指令，以实现如权利要求1-5任一项所述的方法。

12.一种存储介质，其特征在于，当存储介质中的指令由处理器执行时，使得能够执行如权利要求1-5任一项所述的方法。