CN114038484A

CN114038484A - 语音数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114038484A
Application number: CN202111540628.7A
Authority: CN
Inventors: 崔洋洋; 余俊澎
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-02-11
Anticipated expiration: 2041-12-16
Also published as: CN114038484B

Abstract

本申请涉及一种语音数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：从数据缓冲区获取第一说话者的第一语音数据；确定所述第一语音数据对应的第一语音识别文本；从第二说话者的参考语音中提取韵律特征和音色特征；对所述第一语音数据对应的语气特征、所述韵律特征、所述音色特征以及所述第一语音识别文本进行合成，得到第二语音数据；基于所述第二语音数据生成所述第二说话者的目标语音。采用本方法能够生成可以准确表达说话者情绪的目标语音。

Description

语音数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，语音成为信息的重要载体，个性化语音成为许多应用场景(例如，人机交互场景)中的重要需求。传统技术中，对第一说话者的语音进行转换所得的语音的语气比较生硬，无法准确表达说话者的情绪。怎样生成能够准确表达说话者情绪的个性化语音成为亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种语音数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，使用该方法得到的目标语音可以准确表达说话者的情绪。

第一方面，本申请提供了一种语音数据处理方法。所述方法包括：

从数据缓冲区获取第一说话者的第一语音数据；

确定所述第一语音数据对应的第一语音识别文本；

从第二说话者的参考语音中提取韵律特征和音色特征；

对所述第一语音数据对应的语气特征、所述韵律特征、所述音色特征以及所述第一语音识别文本进行合成，得到第二语音数据；

基于所述第二语音数据生成所述第二说话者的目标语音。

第二方面，本申请还提供了一种语音数据处理装置。所述装置包括：

获取模块，用于从数据缓冲区获取第一说话者的第一语音数据；

确定模块，用于确定所述第一语音数据对应的第一语音识别文本；

提取模块，用于从第二说话者的参考语音中提取韵律特征和音色特征；

合成模块，用于对所述第一语音数据对应的语气特征、所述韵律特征、所述音色特征以及所述第一语音识别文本进行合成，得到第二语音数据；

生成模块，用于基于所述第二语音数据生成所述第二说话者的目标语音。

在一个实施例中，所述获取模块，还用于：

当数据缓冲区的剩余存储空间小于预设阈值时，从所述数据缓冲区获取第一说话者的第一语音数据；

所述确定模块还用于：当所述第一语音数据为有效的语音数据时，执行所述确定所述第一语音数据对应的语音识别文本的步骤。

在一个实施例中，所述确定模块，还用于：

确定所述第一语音数据对应的目标噪声分布地点；

基于所述目标噪声分布地点从模型库中选取目标模型；

通过所述目标模型对所述第一语音数据进行噪声消除处理；

对处理后的所述第一语音数据进行语音识别，得到所述第一语音数据对应的第一语音识别文本。

在一个实施例中，所述装置还包括：

训练模块，用于通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型；

存储模块，用于将地点标识和所述噪声消除模型存入模型库；

所述确定模块，还用于根据所述目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。

在一个实施例中，所述合成模块，还用于

提取所述第一语音识别文本的文本特征；

基于所述文本特征确定所述第一语音数据对应的第一语言种类；

根据所述第一语言种类以及预设的第二语言种类对所述第一语音识别文本进行翻译，得到第二语音识别文本；

对所述语气特征、所述韵律特征、所述音色特征以及所述第二语音识别文本进行合成，得到第二语音数据。

在一个实施例中，所述装置还包括：

压缩模块，用于分别对所述第一语音数据和所述第二语音数据进行压缩；

传输模块，用于将压缩后的所述第一语音数据和压缩后的所述第二语音数据传输到云端；

播放模块，用于响应于数据查询指令，从所述云端获取压缩后的所述第一语音数据和压缩后的所述第二语音数据，并分别基于解压缩的所述第一语音数据和解压缩的所述第二语音数据进行语音播放。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从数据缓冲区获取第一说话者的第一语音数据；

确定所述第一语音数据对应的第一语音识别文本；

从第二说话者的参考语音中提取韵律特征和音色特征；

基于所述第二语音数据生成所述第二说话者的目标语音。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从数据缓冲区获取第一说话者的第一语音数据；

确定所述第一语音数据对应的第一语音识别文本；

从第二说话者的参考语音中提取韵律特征和音色特征；

基于所述第二语音数据生成所述第二说话者的目标语音。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

从数据缓冲区获取第一说话者的第一语音数据；

确定所述第一语音数据对应的第一语音识别文本；

从第二说话者的参考语音中提取韵律特征和音色特征；

基于所述第二语音数据生成所述第二说话者的目标语音。

上述语音数据处理方法、装置、计算机设备、存储介质和计算机程序产品，从数据缓冲区获取第一说话者的第一语音数据，并确定第一语音数据对应的第一语音识别文本。从第二说话者的参考语音中提取韵律特征和音色特征。对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据，并基于第二语音数据生成第二说话者的目标语音。由于所生成的目标语音中包含第一说话者的语气特征以及第二说话者的韵律特征和音色特征，因此目标语音即具有第二说话者音色和韵律的个性化特点，又可以很好的表达第一说话者的情绪。

附图说明

图1为一个实施例中语音数据处理方法的应用环境图；

图2为一个实施例中语音数据处理方法的流程示意图；

图3为一个实施例中确定语音识别文本方法的流程示意图；

图4为一个实施例中去除语音数据中噪声方法的流程示意图；

图5为一个实施例中合成第二语音数据方法的流程示意图；

图6为一个实施例中云端数据库的示意图；

图7为一个实施例中语音转换方法的示意图；

图8为一个实施例中语音转换***示意图；

图9为一个实施例中存储***示意图；

图10为另一个实施例中语音数据处理方法的流程示意图；

图11为一个实施例中语音数据处理装置的结构框图；

图12为另一个实施例中语音数据处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图；

图14为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音数据处理方法，可以应用于如图1所示的应用环境中。其中，数据缓冲区可以存储计算机设备102需要处理的数据。数据缓冲区可以集成在计算机设备102上，也可以放在云上或其他网络服务器上。计算机设备102从数据缓冲区获取第一说话者的第一语音数据；确定第一语音数据对应的第一语音识别文本；从第二说话者的参考语音中提取韵律特征和音色特征；对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据；基于第二语音数据生成第二说话者的目标语音。其中，计算机设备102可以是终端也可以是服务器，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音数据处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S202，从数据缓冲区获取第一说话者的第一语音数据。

其中，数据缓冲区是用于临时存储数据的存储空间。第一说话者是提供第一语音数据的说话者，可以是使用各种语言或者方言的说话者。例如，第一说话者可以使用英语、日语、法语或者中文等，又例如，第一说话者可以使用普通话、四川话或者湖南话等。第一语音数据是用于记录第一说话者语音的数据，包括AIFF(Audio Interchange File Format，音频交换文件)、MPEG(Moving Picture Experts Group，动态图像专家组)、MP3(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层3)、MIDI(Musical Instrument Digital Interface，乐器数字接口)等各种格式的语音数据。

在一个实施例中，计算机设备获取语音采集设备(例如，麦克风)实时采集的第一说话者的模拟语音，将模拟语音转换为数字语音并存入数据缓冲区；计算机设备获取数据缓冲区存储的数字语音，所获取的数字语音为第一语音数据。其中，语音采集设备可以按照预设的时长采集第一说话者的模拟语音，例如，模拟语音的时长为5s。在一个实施例中，计算机设备可以根据模拟语音的时长对数据缓冲区的大小进行调节。

S204，确定第一语音数据对应的第一语音识别文本。

其中，第一语音识别文本是用于记录第一说话者说话内容的文本，可以是TXT(Text，纯文本)格式、JSON(JavaScript Object Notation,JS对象简谱)等各种文本格式。

在一个实施例中，计算机设备可以通过机器学习模型对第一语音数据进行语音识别，得到第一语音识别文本。机器学习模型例如可以是CNN(Convolutional NeuralNetworks，卷积神经网络)模型、DNN(Deep Neural Networks，深度神经网络)模型、ResNet(Residual Net，残差卷积神经网络)模型等。

在另一个实施例中，计算机设备可以提取第一语音数据对应的语音特征；根据语音特征确定第一语音数据对应的音素；基于所得的音素生成第一语音数据对应的第一语音识别文本。

S206，从第二说话者的参考语音中提取韵律特征和音色特征。

其中，第二说话者是第一说话者之外的其他说话者。第二说话者所使用的语言可以与第一说话者相同，也可以与第一说话者不同。参考语音是预先采集的第二说话者的语音。韵律特征是用于表示语音韵律方面特点的特征，包括音高、重音和时域分布等。音色特征是用于表示语音波形特点的特征，包括语音信号频谱和包络。由于每个说话者具有特定的音色特征，根据说话者的音色特征可以对说话者进行区别。

S208，对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据。

其中，语气特征是用于表示说话人情绪的特征，包括声调、速度等。说话人的情绪包括开心、愤怒、伤心、激动等。第二语音数据是用于记录第二说话者的目标语音的数据，可以是AIFF、MP3、MIDI等各种格式的语音数据。

在一个实施例中，S208之前还包括：计算机设备获取第一说话者说话时的模拟语音信号和唇部图像；对根据模拟语音信号生成的第一语音数据以及唇部图像进行存储，然后通过对唇部图像进行图像识别获取第一说话者说话时的口型信息，根据口型信息确定第一语音数据对应的语气特征。

S210，基于第二语音数据生成第二说话者的目标语音。

其中，目标语音是具有第二说话者语音特征的模拟语音信号。目标语音对应的语言和第一语音数据对应的语言可以相同，也可以不同。例如，第一语音数据对应的语言是英语，目标语音对应的语言可以是中文或者法语等，又例如，第一语音数据对应的语言是四川话，目标语音对应的语言可以是普通话或者湖南话等。

上述实施例中，计算机设备从数据缓冲区获取第一说话者的第一语音数据，并确定第一语音数据对应的第一语音识别文本。从第二说话者的参考语音中提取韵律特征和音色特征。对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据，并基于第二语音数据生成第二说话者的目标语音。由于所生成的目标语音中包含第一说话者的语气特征以及第二说话者的韵律特征和音色特征，因此目标语音即具有第二说话者音色和韵律的个性化特点，又可以很好的表达第一说话者的情绪。

在一个实施例中，如图3所示，S202具体包括如下步骤：

S302，当数据缓冲区的剩余存储空间小于预设阈值时，从数据缓冲区获取第一说话者的第一语音数据。

其中，剩余存储空间是数据缓冲区中的可用存储空间。预设阈值是预先设置的数值，例如，预设阈值可以是3千比特或者100比特等。

计算机设备获取语音采集设备实时采集的第一说话者的模拟语音，将模拟语音转换为数字语音并存入数据缓冲区。当数据缓冲区的剩余存储空间小于预设阈值时，说明数据缓冲区已满，计算机设备停止向数据缓冲区中存储数据，并从数据缓冲区中读取第一语音数据。

S304，当第一语音数据为有效的语音数据时，确定第一语音数据对应的语音识别文本。

由于语音采集设备实时采集的第一说话者的语音中可能包含静音段、噪音等，所示，当数据缓冲区存满时，计算机设备从数据缓冲区中读取第一语音数据并判断所读取的第一语音数据是否为有效的语音数据，并在第一语音数据为有效的语音数据时，继续执行确定第一语音数据对应的语音识别文本的步骤。

在一个实施例中，S304具体包括：计算机设备通过VAD(Voice ActivityDetection，语音活动端点检测)技术判断第一语音数据是否为有效的语音数据，当判断结果为是时，确定第一语音数据为有效的语音数据；当判断结果为否时，确定第一语音数据为无效的语音数据。

上述实施例中，当数据缓冲区的剩余存储空间小于预设阈值时，计算机设备从数据缓冲区获取第一说话者的第一语音数据。从而可以实时的从数据缓冲区中获取第一语音数据并根据第一语音数据进行转换得到目标语音，提高了语音数据处理的实时性。当第一语音数据为有效的语音数据时，计算机设备确定第一语音数据对应的语音识别文本。从而可以排除无效的语音数据，避免根据无效的语音数据得到错误的语音识别文本，保证了所得到的目标语音的准确性。

在一个实施例中，如图4所示，S204具体包括如下步骤：

S402，确定第一语音数据对应的目标噪声分布地点。

S404，基于目标噪声分布地点从模型库中选取目标模型。

S406，通过目标模型对第一语音数据进行噪声消除处理。

S408，对处理后的第一语音数据进行语音识别，得到第一语音数据对应的第一语音识别文本。

其中，噪声分布地点是第一语音数据中噪声的分布地点，包括室内、商场、车站、街道等。目标噪声分布地点是某个特定的噪声分布地点，例如，车站。目标模型是用于进行噪声消除的机器学习模型，可以是CNN(Convolutional Neural Networks，卷积神经网络)模型、DNN(Deep Neural Networks，深度神经网络)模型、ResNet(Residual Net，残差卷积神经网络)模型等。

在一个实施例中，S402之前还包括：计算机设备获取第一说话者说话时的周围环境图像。S402具体包括：计算机设备对获取的环境图像进行图像识别，根据识别结果确定第一语音数据对应的目标噪声分布地点。

在一个实施例中，S404之前还包括：通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型；将地点标识和噪声消除模型存入模型库；S404具体包括：根据目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。

其中，地点标识是用于对各噪声分布地点进行标志的标识。例如，车站的地点标识为001，商场的地点标识为002。计算机设备通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练。例如，计算机设备通过从车站采集的语音样本数据，对预训练的噪声消除模型进行训练，得到用于消除噪声分布地点为车站的噪声。计算机设备根据目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。例如，目标噪声分布地点为商场，假设商场对应的地点标识为002，计算机设备从模型库中存储的噪声消除模型中选取与地点标识002匹配的噪声消除模型作为目标模型。

在一个实施例中，当出现新的噪声分布地点时，计算机设备采集该噪声分布地点的语音样本数据，通过采集的语音样本数据训练得到新的噪声消除模型，并将训练所得的噪声消除模型存入模型库，从而可以使模型库中存储的噪声消除模型更加全面，覆盖更多的噪声分布地点。

上述实施例中，计算机设备确定第一语音数据对应的目标噪声分布地点，通过与目标噪声分布地点对应的目标模型对第一语音数据进行噪声消除处理，并对处理后的第一语音数据进行语音识别。根据噪声分布地点有针对性性的选取目标模型，可以通过目标模型更好的去除第一语音数据中的噪声，提高了第一语音识别文本的准确性，从而提高了目标语音的准确性。

在一个实施例中，如图5所示，S208具体包括如下步骤：

S502，提取第一语音识别文本的文本特征。

其中，文本特征是用于表示第一语音识别文本的文本特点的特征，包括词频、互信息等，可以用词向量来表示。例如，文本特征可以是n维的词向量[T]＝[t₁,t₂,…t_n]。

在一个实施例中，计算机设备可以通过Word2Vec模型提取第一语音识别文本对应的文本特征。Word2Vec模型是一种神经网络模型，包括输入层、隐藏层和输出层。

S504，基于文本特征确定第一语音数据对应的第一语言种类。

其中，第一语言种类是第一语音数据对应的语言种类，可以是英语、法语、意大利语等，或者也可以是各种方言。

在一个实施例中，计算机设备可以通过机器学习模型，基于文本特征确定第一语音数据对应的第一语言种类。例如，计算机设备可以通过有监督的机器学习模型LangID(Language ID)，根据文本特征确定第一语音数据对应的第一语言种类。LangID是基于多项式的朴素贝叶斯分类器，是用包括多种语言的多场景的语言数据样本对初始模型进行训练所得的。

S506，根据第一语言种类以及预设的第二语言种类对第一语音识别文本进行翻译，得到第二语音识别文本。

其中，第二语音识别文本是用第二语言种类的语言记录的文本。例如，第二语音识别文本可以是用英语或者法语等语言记录的文本，或者第二语音识别文本也可以是用汉语拼音记录的文本。

在一个实施例中，计算机设备可以通过字典对第一语音识别文本进行翻译，得到第二语音识别文本。或者，计算机设备也可以通过机器学习模型对第一语音识别文本进行翻译，得到第二语音识别文本。或者，计算机设备也可以通过第三方的翻译程序对第一语音识别文本进行翻译，得到第二语音识别文本。

S508，对语气特征、韵律特征、音色特征以及第二语音识别文本进行合成，得到第二语音数据。

上述实施例中，计算机设备基于第一语音识别文本的文本特征确定第一语音数据对应的第一语言种类，并根据第一语言种类以及预设的第二语言种类对第一语音识别文本进行翻译，得到第二语音识别文本，对语气特征、韵律特征、音色特征以及第二语音识别文本进行合成，从而可以根据合成的第二语音数据得到第二说话者的目标语音，所得的目标语音即具有第二说话者音色和韵律的个性化特点，又可以很好的表达第一说话者的情绪。

在一个实施例中，S208之后还包括：分别对第一语音数据和第二语音数据进行压缩；将压缩后的第一语音数据和压缩后的第二语音数据传输到云端；响应于数据查询指令，从云端获取压缩后的第一语音数据和压缩后的第二语音数据，并分别基于解压缩的第一语音数据和解压缩的第二语音数据进行语音播放。

计算机设备可以根据第一语音数据中的噪声分布地点对第一语音数据进行分类存储，例如，计算机设备可以将噪声分布地点为车站的第一语音数据分为一类，并将该类别第一语音数据存储在同一存储区域。例如，如图6所示，计算机设备确定第一语音数据对应的噪声分布地点和用户标识，然后按照噪声分布地点对第一语音数据以及对应的用户标识进行分类存储。

计算机设备可以先将第一语音数据和第二语音数据存储在数据缓冲区，当数据缓冲区存满时，分别对第一语音数据和第二语音数据进行压缩并将压缩后的第一语音数据和压缩后的第二语音数据传输到云端。

上述实施例中，计算机设备分别对第一语音数据和第二语音数据进行压缩，并将压缩后的第一语音数据和压缩后的第二语音数据传输到云端。从而可以在云端存储第一语音数据和第二语音数据，方便对第一语音数据以及第二语音数据进行浏览和查询。

在一个实施例中，如图7所示，计算机设备获取语音采集设备实时采集的第一说话者的第一语音数据，将第一说话者的第一语音数据存储在数据缓冲区和语音数据库。计算机设备判断数据缓冲区的剩余空间是否小于预设阈值，当剩余空间小于或等于预设阈值时，读取数据缓冲区中的第一语音数据并判断第一语音数据是否是有效的语音数据。当剩余空间大于预设阈值时，继续采集第一说话者的第一语音数据，并将第一语音数据存入数据缓冲区。当第一语音数据是有效的语音数据时，对第一语音数据进行语音转换，得到第二说话者的目标语音，并将目标语音存入语音数据库。

在一个实施例中，如图8所示，语音转换***包括学习单元、源语音数据处理单元和目标语音数据处理单元。学习单元从各噪声分布地点采集语音样本数据，并通过各噪声分布地点的语音样本数据分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型。源语音数据处理单元调用学习单元训练所得的噪声消除模型，通过噪声消除模型对第一说话者的第一语音数据进行噪声消除处理，然后根据噪声消除处理后的语音数据确定第一语音识别文本，并从噪声消除处理后的语音数据中提取语气特征。目标语音数据处理单元从第二说话者的参考语音中提取韵律特征和音色特征。计算机设备根据第一语音识别文本、语气特征、韵律特征以及音色特征进行合成，得到第二说话者的目标语音。

在一个实施例中，如图9所示，语音数据存储***包括语音获取单元、离线存储单元、在线存储单元和云端数据库。语音获取单元接收语音采集设备采集的模拟语音信号，并将模拟语音信号转换为数字的第一语音数据。语音获取单元将第一语音数据发送至离线存储单元进行存储。当离线存储单元的剩余存储空间小于预设值时，将第一语音数据发送至在线存储单元进行存储。在线存储单元对第一语音数据进行压缩，并将压缩后的第一语音数据发送至云端数据库。云端数据库对压缩后的第一语音数据进行解压缩，并对解压缩的第一语音数据进行分类存储。

在一个实施例中，如图10所示，语音数据处理方法包括如下步骤：

S1002，当数据缓冲区的剩余存储空间小于预设阈值时，从数据缓冲区获取第一说话者的第一语音数据。

S1004，当第一语音数据为有效的语音数据时，确定第一语音数据对应的目标噪声分布地点；基于目标噪声分布地点从模型库中选取目标模型；通过目标模型对第一语音数据进行噪声消除处理。

S1006，对处理后的第一语音数据进行语音识别，得到第一语音数据对应的第一语音识别文本，并从第一语音数据中提取语气特征。

S1008，提取第一语音识别文本的文本特征。

S1010，基于文本特征确定第一语音数据对应的第一语言种类。

S1012，根据第一语言种类以及预设的第二语言种类对第一语音识别文本进行翻译，得到第二语音识别文本。

S1014，从第二说话者的参考语音中提取韵律特征和音色特征。

S1016，对语气特征、韵律特征、音色特征以及第二语音识别文本进行合成，得到第二语音数据。

S1018，基于第二语音数据生成第二说话者的目标语音。

S1020，分别对第一语音数据和第二语音数据进行压缩，并将压缩后的第一语音数据和压缩后的第二语音数据传输到云端。

S1022，响应于数据查询指令，从云端获取压缩后的第一语音数据和压缩后的第二语音数据，并分别基于解压缩的第一语音数据和解压缩的第二语音数据进行语音播放。

上述S1002至S1022的具体内容可以参考上文所述的具体实现过程。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音数据处理方法的语音数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音数据处理装置实施例中的具体限定可以参见上文中对于语音数据处理方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种语音数据处理装置，包括：获取模块1102、确定模块1104、提取模块1106、合成模块1108与生成模块1110，其中：

获取模块1102，用于从数据缓冲区获取第一说话者的第一语音数据；

确定模块1104，用于确定所述第一语音数据对应的第一语音识别文本；

提取模块1106，用于从第二说话者的参考语音中提取韵律特征和音色特征；

合成模块1108，用于对所述第一语音数据对应的语气特征、所述韵律特征、所述音色特征以及所述第一语音识别文本进行合成，得到第二语音数据；

生成模块1110，用于基于所述第二语音数据生成所述第二说话者的目标语音。

上述实施例中，从数据缓冲区获取第一说话者的第一语音数据，并确定第一语音数据对应的第一语音识别文本。从第二说话者的参考语音中提取韵律特征和音色特征。对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据，并基于第二语音数据生成第二说话者的目标语音。由于所生成的目标语音中包含第一说话者的语气特征以及第二说话者的韵律特征和音色特征，因此目标语音即具有第二说话者音色和韵律的个性化特点，又可以很好的表达第一说话者的情绪。

在一个实施例中，所述获取模块1102，还用于：

在一个实施例中，所述确定模块1104，还用于：

确定所述第一语音数据对应的目标噪声分布地点；

基于所述目标噪声分布地点从模型库中选取目标模型；

通过所述目标模型对所述第一语音数据进行噪声消除处理；

在一个实施例中，如图12所示，所述装置还包括：

训练模块1112，用于通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型；

存储模块1114，用于将地点标识和所述噪声消除模型存入模型库；

所述确定模块1104，还用于根据所述目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。

在一个实施例中，所述合成模块1108，还用于

提取所述第一语音识别文本的文本特征；

在一个实施例中，所述装置还包括：

压缩模块1116，用于分别对所述第一语音数据和所述第二语音数据进行压缩；

传输模块1118，用于将压缩后的所述第一语音数据和压缩后的所述第二语音数据传输到云端；

播放模块1120，用于响应于数据查询指令，从所述云端获取压缩后的所述第一语音数据和压缩后的所述第二语音数据，并分别基于解压缩的所述第一语音数据和解压缩的所述第二语音数据进行语音播放。

上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13、14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：从数据缓冲区获取第一说话者的第一语音数据；确定第一语音数据对应的第一语音识别文本；从第二说话者的参考语音中提取韵律特征和音色特征；对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据；基于第二语音数据生成第二说话者的目标语音。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当数据缓冲区的剩余存储空间小于预设阈值时，从数据缓冲区获取第一说话者的第一语音数据；当第一语音数据为有效的语音数据时，执行确定第一语音数据对应的语音识别文本的步骤。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定第一语音数据对应的目标噪声分布地点；基于目标噪声分布地点从模型库中选取目标模型；通过目标模型对第一语音数据进行噪声消除处理；对处理后的第一语音数据进行语音识别，得到第一语音数据对应的第一语音识别文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型；将地点标识和噪声消除模型存入模型库；根据目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取第一语音识别文本的文本特征；基于文本特征确定第一语音数据对应的第一语言种类；根据第一语言种类以及预设的第二语言种类对第一语音识别文本进行翻译，得到第二语音识别文本；对语气特征、韵律特征、音色特征以及第二语音识别文本进行合成，得到第二语音数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别对第一语音数据和第二语音数据进行压缩；将压缩后的第一语音数据和压缩后的第二语音数据传输到云端；响应于数据查询指令，从云端获取压缩后的第一语音数据和压缩后的第二语音数据，并分别基于解压缩的第一语音数据和解压缩的第二语音数据进行语音播放。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：从数据缓冲区获取第一说话者的第一语音数据；确定第一语音数据对应的第一语音识别文本；从第二说话者的参考语音中提取韵律特征和音色特征；对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据；基于第二语音数据生成第二说话者的目标语音。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当数据缓冲区的剩余存储空间小于预设阈值时，从数据缓冲区获取第一说话者的第一语音数据；当第一语音数据为有效的语音数据时，执行确定第一语音数据对应的语音识别文本的步骤。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定第一语音数据对应的目标噪声分布地点；基于目标噪声分布地点从模型库中选取目标模型；通过目标模型对第一语音数据进行噪声消除处理；对处理后的第一语音数据进行语音识别，得到第一语音数据对应的第一语音识别文本。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型；将地点标识和噪声消除模型存入模型库；根据目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：提取第一语音识别文本的文本特征；基于文本特征确定第一语音数据对应的第一语言种类；根据第一语言种类以及预设的第二语言种类对第一语音识别文本进行翻译，得到第二语音识别文本；对语气特征、韵律特征、音色特征以及第二语音识别文本进行合成，得到第二语音数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别对第一语音数据和第二语音数据进行压缩；将压缩后的第一语音数据和压缩后的第二语音数据传输到云端；响应于数据查询指令，从云端获取压缩后的第一语音数据和压缩后的第二语音数据，并分别基于解压缩的第一语音数据和解压缩的第二语音数据进行语音播放。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：从数据缓冲区获取第一说话者的第一语音数据；确定第一语音数据对应的第一语音识别文本；从第二说话者的参考语音中提取韵律特征和音色特征；对第一语音数据对应的语气特征、韵律特征、音色特征以及第一语音识别文本进行合成，得到第二语音数据；基于第二语音数据生成第二说话者的目标语音。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

从数据缓冲区获取第一说话者的第一语音数据；

确定所述第一语音数据对应的第一语音识别文本；

从第二说话者的参考语音中提取韵律特征和音色特征；

基于所述第二语音数据生成所述第二说话者的目标语音。

2.根据权利要求1所述的方法，其特征在于，所述从数据缓冲区获取第一说话者的第一语音数据包括：

所述方法还包括：

当所述第一语音数据为有效的语音数据时，执行所述确定所述第一语音数据对应的语音识别文本的步骤。

3.根据权利要求1所述的方法，其特征在于，所述确定所述第一语音数据对应的第一语音识别文本包括：

确定所述第一语音数据对应的目标噪声分布地点；

基于所述目标噪声分布地点从模型库中选取目标模型；

通过所述目标模型对所述第一语音数据进行噪声消除处理；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

通过从每个噪声分布地点采集的语音样本数据，分别对预训练的噪声消除模型进行训练，得到至少两个噪声消除模型；

将地点标识和所述噪声消除模型存入模型库；

所述基于所述目标噪声分布地点从模型库中选取目标模型包括：

根据所述目标噪声分布地点对应的地点标识，从模型库中存储的噪声消除模型中选取目标模型。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一语音数据对应的语气特征、所述韵律特征、所述音色特征以及所述第一语音识别文本进行合成，得到第二语音数据包括：

提取所述第一语音识别文本的文本特征；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别对所述第一语音数据和所述第二语音数据进行压缩；

将压缩后的所述第一语音数据和压缩后的所述第二语音数据传输到云端；

响应于数据查询指令，从所述云端获取压缩后的所述第一语音数据和压缩后的所述第二语音数据，并分别基于解压缩的所述第一语音数据和解压缩的所述第二语音数据进行语音播放。

7.一种语音数据处理装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。