CN111611208A

CN111611208A - 文件存储与查询的方法及装置、存储介质

Info

Publication number: CN111611208A
Application number: CN202010464465.8A
Authority: CN
Inventors: 郑金磊; 刘华; 周伟东; 喻凌; 刘凯
Original assignee: Beijing Taiji Huabao Technology Co ltd
Current assignee: Beijing Taiji Huabao Technology Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-01

Abstract

本发明提供一种文件存储与查询的方法及装置、存储介质，所述方法包括：获取待进行语音合成的文本，对所述文本进行HASH值计算，得到所述文本的HASH值；以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；未查询到相同文件名的语音文件时，基于所述文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。本发明由于通过了严格的文本压缩算法，保证了文本精确去重，防止同样的文本合成多次，节约了处理资源。

Description

文件存储与查询的方法及装置、存储介质

技术领域

本发明涉及智能语音处理中的文件存储技术，尤其涉及一种文件存储与查询的方法及装置、存储介质。

背景技术

在智能语音技术中，存在一个必不可少的环节，就是文本转语音(TTS，Text ToSpeech)，语音合成时需要处理文本、文本转拼音、拼音转矩阵等一系列的消耗***资源及耗时的过程，对于已经合成过的文本，希望通过缓存来查找语音。

对于缓存方案，就是要找到合成文本与合成语音文件的对应关系，这种对应关系可以在数据库中保存，像关系型数据库管理***(MySQL，Structured Query Language)、postgresql这种关系型数据库，通过表结构来反应对应关系，或者像redis、memcache这种非关系型数据库存储，通过键值对来反应对应关系，但是无论哪种对应关系的存储方案，都需要以下几个步骤：合成语音的生成、语音文件在文件***的存储、保存或设置文本及文件存储路径的对应关系、查询文本及文件存储路径的对应关系是否存在、根据是否存在来合成语音或者返回存在的语音文件。这样的方式从开发上，会和数据库进行多次交互；从效率上讲，需要借助于数据库的***和查询，会有一定的耗时；从安全上讲，数据库中的数据一旦丢失，就会丢失所有的对应关系。

发明内容

有鉴于此，本发明的一个方式提供一种文件存储与查询的方法及装置、存储介质。

本发明一方面提供一种文件存储与查询的方法，包括：

获取待进行语音合成的文本，对所述文本进行哈希HASH值计算，得到所述文本的HASH值；

以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；

查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；未查询到相同文件名的语音文件时，基于所述文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

作为一种优选实现方式，所述方法还包括：

获取所述文本的声优、音量、语速、口音的信息至少之一，将所获取的声优、音量、语速、口音中的至少之一与所述文本拼接，形成拼接文本，对所述拼接文本进行哈希HASH值计算，得到所述拼接文本的HASH值。

查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述拼接文本的语音文件；未查询到相同文件名的语音文件时，基于所述拼接文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

作为一种优选实现方式，所述方法还包括：

设定存储语音文件的固定地址池，将所述固定地址池作为所述语音文件目录；或者

获取所述文本的HASH散列值，将所述HASH散列值中指定开始位置和结束位置对应的字符串作为语音文件目录。

作为一种优选实现方式，所述方法还包括：

根据所述文本的HASH散列值，将所述文本对应的语音文件、所述文本的声优、音量、语速、口音的信息至少之一的属性信息进行多级分层存储。

本发明另一方面提供一种文件存储与查询的装置，包括：

获取单元，用于获取待进行语音合成的文本；

计算单元，用于对所述文本进行哈希HASH值计算，得到所述文本的HASH值；

查询单元，用于以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；

调用单元，用于在所述查询单元查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；

语音合成单元，用于在所述查询单元未查询到相同文件名的语音文件时，基于所述文本进行语音合成；

存储单元，用于以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

作为一种优选实现方式，所述获取单元，还用于获取所述文本的声优、音量、语速、口音的信息至少之一；

所述装置还包括：

拼接单元，用于将所获取的声优、音量、语速、口音中的至少之一与所述文本拼接，形成拼接文本；

所述计算单元，还用于对所述拼接文本进行哈希HASH值计算，得到所述拼接文本的HASH值；

所述查询单元，还用于以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；

所述调用单元，还用于在所述查询单元查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述拼接文本的语音文件；

所述语音合成单元，还用于在所述查询单元未查询到相同文件名的语音文件时，基于所述拼接文本进行语音合成；

所述存储单元，还用于以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

作为一种优选实现方式，所述装置还包括：

设定单元，用于设定存储语音文件的固定地址池，将所述固定地址池作为所述语音文件目录。

作为一种优选实现方式，所述计算单元，还用于计算所述文本的HASH散列值；

所述设定单元，还用于将所述HASH散列值中指定开始位置和结束位置对应的字符串作为语音文件目录。

作为一种优选实现方式，所述存储单元，还用于根据所述文本的HASH散列值，将所述文本对应的语音文件、所述文本的声优、音量、语速、口音的信息至少之一的属性信息进行多级分层存储。

本发明又一方面提供一种计算机可读存储介质，其上存取有计算机指令，所述指令被处理器执行时实现如前述的文件存储与查询的方法。

本发明中，针对智能语音机器人的智能语音播报这一应用场景，对于输入的文本，并不直接进行语音合成，而是利用文本与语音文件之间的高度对应性，将文本及文本语音合成后的语音文件进行对应存储，以方便后续有相同的文本时，直接调用所合成的语音文件即可。而现有技术中，存储对应关系的数据时，除了关系数据库之外，再无其他存储方式，而本发明基于文本可进行熵压缩且压缩值唯一这一特性，将文本压缩后的信息作为语音文本的标识名称，以此仅保存语音文件，通过同样的压缩算法即可确定当前待合成的文本是否存在已合成的语音文件，以此来提升语音合成的效率。本发明的技术方案，智能语音无需借助于数据库进行***和查询操作，提高了开发效率、查询效率，且无数据安全问题。本发明由于通过了严格的文本压缩算法，保证了文本精确去重，防止同样的文本合成多次，节约了处理资源。

附图说明

图1为本发明的文件存储与查询的方法的流程示意图；

图2为本发明的文件存储与查询装置的组成结构示意图。

具体实施方式

以下结合附图，详细阐明本发明技术方案的实质。

本发明的技术方案就是利用文件***存储，结合基于文本内容的HASH算法存储的缓存方法，来提高语音文件的缓存效率，由于在一系列的过程中，文件存储在文件***上这一过程是必不可少的，在这一过程中利用文本的HASH散列形成唯一值，解决文本及文件存储路径的对应关系的存储，开发起来简单，无需借助于数据库来保存对应关系，在保证文件***正常的情况下，无数据安全问题。

通过文本HASH算法，将任意长度的内容转换为一个长度固定的字符串，通过这一固定值对应文本自身，结合文件***存储，解决缓存方案中引入数据库的效率问题和数据安全问题。对于要进行语音合成的文本，进行HASH值计算，产生一个32位的唯一值，将这个唯一值作为文件名，根据约定的文件目录下，查询文件是否存在。如存在，则返回所存储的与相应文件名相同的语音文件，如不存在，则进行语音合成，合成的语音文件以文本的HASH值作为文件名，存储在约定的文件目录下。

本发明实施例中，约定的文件目录，可以为指定的固定值，如设定的固定的地址池等。也可以取HASH值中指定开始位置和结束位置的字符串作为上级目录名，可进行多级分层。

以下结合附图，对本发明的技术方案作进一步详细阐明。

图1为本发明的文件存储与查询的方法的流程示意图，如图1所示，本发明的文件存储与查询的方法包括以下处理步骤：

步骤101，获取待进行语音合成的文本，对所述文本进行哈希HASH值计算，得到所述文本的HASH值。

作为一种实现方式，也可以获取所述文本的声优、音量、语速、口音的信息至少之一，将所获取的声优、音量、语速、口音中的至少之一与所述文本拼接，形成拼接文本，对所述拼接文本进行哈希HASH值计算，得到所述拼接文本的HASH值。

本发明实施例中，还支持文本的声优选择，即将文本进行语音合成时，可以选择声优来进行语音合成，还支持音量、语速等的选择。本发明实施例中，还支持口音的选择，即可以选择普通话、方言等口音的语音合成处理。而当文本含有这些属性信息时，可以将这些属性信息作为文本中内容的一部分，进行HASH计算，以确定相同的文本在进行语音合成时是否具有相同的属性要求，即文本内容相同时，若其属性信息如口音不同，则HASH值不同，将作为不同的语音文件进行存储。

本发明实施例中，所采用的HASH算法包括以下之一：MD4、MD5、SHA-1等。

步骤102，以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件。

本发明实施例中，在对文本进行语音合成之前，首先计算其HASH值，并以该计算的HASH值在设定的语音文件目录下查询是否存在相同文件名的语音文件。

步骤103，查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件。

也就是说，本发明实施例中，首先确定欲进行语音合成的文本是否已在之前被处理过，当之前被处理即被语音合成处理过时，则相应的语音文件目录下应当存储有该文本的语音合成文件，当查询到与文本的HASH值相同名称的语音文件时，直接调用该语音文件，并将该语音文件作为所述文本的语音合成后的文件，即智能播报***直接将该语音文件进行输出，作为待语音合成的语音文件直接进行处理即可，不必对文本再执行语音合成的操作。

步骤104，未查询到相同文件名的语音文件时，基于所述文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

当未查询到相同文件名的语音文件时，则意味着该文本之前未被语音合成处理过，则将文本进行语音合成处理。这里，语音合成处理即将文本中的文字转换为播放语音文件，将文本中的汉字、字母、数字、英文字符或语句等转换为相应的读音文件，并将语音合成后的语音文件进行输出。

作为一种优选实现方式，所述方法还包括：

获取所述文本的HASH散列值，将所述HASH散列值中指定开始位置和结束位置对应的字符串作为语音文件目录。本发明实施例中，哈希表(Hash table，也叫散列表)是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。

本发明中，针对智能语音机器人的智能语音播报这一应用场景，对于输入的文本，并不直接进行语音合成，而是利用文本与语音文件之间的高度对应性，将文本及文本语音合成后的语音文件进行对应存储，以方便后续有相同的文本时，直接调用所合成的语音文件即可。而现有技术中，存储对应关系的数据时，除了关系数据库之外，再无其他存储方式，而本发明基于文本可进行熵压缩且压缩值唯一这一特性，将文本压缩后的信息作为语音文本的标识名称，以此仅保存语音文件，通过同样的压缩算法即可确定当前待合成的文本是否存在已合成的语音文件，以此来提升语音合成的效率。本发明的技术方案，智能语音无需借助于数据库进行***和查询操作，提高了开发效率、查询效率，且无数据安全问题。由于通过了严格的文本压缩算法，保证了文本精确去重，防止同样的文本合成多次，节约了处理资源。

图2为本发明的文件存储与查询装置的组成结构示意图，如图2所示，本发明的文件存储与查询装置包括：

获取单元20，用于获取待进行语音合成的文本；

计算单元21，用于对所述文本进行哈希HASH值计算，得到所述文本的HASH值；

查询单元22，用于以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；

调用单元23，用于在所述查询单元查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；

语音合成单元24，用于在所述查询单元未查询到相同文件名的语音文件时，基于所述文本进行语音合成；

存储单元25，用于以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

所述装置还包括：

作为一种优选实现方式，所述装置还包括：

本发明实施例的文件存储与查询装置中各处理单元的功能，可参见本发明实施例的文件存储与查询方法中的相关描述而理解，这里不再赘述其细节。

本发明还提供一种计算机可读存储介质，其上存取有计算机指令，所述指令被处理器执行时实现前述实施例的文件存储与查询方法的步骤。

在本实施例中，至少一个处理器可以构成具有对一个或多个输入执行逻辑运算的电路的任何物理设备。例如，至少一个处理器可以包括一个或多个集成电路(IC)，包括专用集成电路(ASIC)、微芯片、微控制器、微处理器、中央处理单元(CPU)的全部或部分、图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或者适于执行指令或执行逻辑运算的其它电路。由至少一个处理器执行的指令可以例如被预加载到与控制器集成的或嵌入在控制器中的存储器中，或者可以存储在分离的存储器中。存储器可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘、光盘、磁介质、闪存，其它永久、固定或易失性存储器，或者能够存储指令的任何其它机制。可选的是，至少一个处理器可以包括多于一个处理器。每个处理器可以具有相似的结构，或者处理器可以具有彼此电连接或断开的不同构造。例如，处理器可以是分离的电路或集成在单个电路中。当使用多于一个处理器时，处理器可以被配置为独立地或协作地操作。处理器可以以电、磁、光学、声学、机械或通过允许它们交互的其它手段来耦合。

在本实施例中，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

此外，本发明的特征和益处通过参考示例性实施例进行说明。相应地，本发明明确地不应局限于这些说明一些可能的非限制性特征的组合的示例性的实施例，这些特征可单独或者以特征的其它组合的形式存在。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神以权利要求书为准。

Claims

1.一种文件存储与查询的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述文本的声优、音量、语速、口音的信息至少之一，将所获取的声优、音量、语速、口音中的至少之一与所述文本拼接，形成拼接文本，对所述拼接文本进行哈希HASH值计算，得到所述拼接文本的HASH值；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种文件存储与查询的装置，其特征在于，所述装置包括：

获取单元，用于获取待进行语音合成的文本；

6.根据权利要求5所述的装置，其特征在于，所述获取单元，还用于获取所述文本的声优、音量、语速、口音的信息至少之一；

所述装置还包括：

7.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述计算单元，还用于计算所述文本的HASH散列值；

9.根据权利要求8所述的方法，其特征在于，所述存储单元，还用于根据所述文本的HASH散列值，将所述文本对应的语音文件、所述文本的声优、音量、语速、口音的信息至少之一的属性信息进行多级分层存储。

10.一种计算机可读存储介质，其上存取有计算机指令，其特征在于，所述指令被处理器执行时实现如权利要求1至4中任一项所述的文件存储与查询的方法。