CN110097890A

CN110097890A - 一种语音处理方法、装置和用于语音处理的装置

Info

Publication number: CN110097890A
Application number: CN201910305630.2A
Authority: CN
Inventors: 阳家俊; 吴军; 刘恺; 魏远明; 孟凡博; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-06
Anticipated expiration: 2039-04-16
Also published as: CN110097890B

Abstract

本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置。其中的方法具体包括：获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。通过本发明实施例不仅可以实现实时变声，为用户生活增加趣味性，以满足用户多样化的需求，而且可以减少变声过程的操作流程，进一步提高变声的效率。

Description

一种语音处理方法、装置和用于语音处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音处理方法、装置和用于语音处理的装置。

背景技术

随着计算机技术的发展，语音技术也得到迅速的发展，并且在用户的生活中得到了广泛的应用。

例如，语音技术可以广泛用于语音识别、机器翻译、语音合成、对话机器人等各种场景，为用户的工作和生活带来极大的便利。

然而，如何利用语音技术，对用户说话的声音进行进一步处理，为用户生活增加趣味性，以满足用户多样化的需求，仍然有待解决。

发明内容

本发明实施例提供一种语音处理方法、装置和用于语音处理的装置，可以对用户的语音数据进行变声处理，以满足用户多样化的需求。

为了解决上述问题，本发明实施例公开了一种语音处理方法，所述方法包括：

获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；

对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；

根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

另一方面，本发明实施例公开了一种语音处理装置，所述装置包括：

数据获取模块，用于获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；

特征提取模块，用于对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；

数据转换模块，用于根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音处理方法。

本发明实施例包括以下优点：

本发明实施例在获取实时采集语音数据形成的源语音数据流的过程中，可以对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征，进而可以根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。由此，通过本发明实施例，可以一边实时采集源语音数据流，一边将采集的源语音数据流实时转换为目标语音数据流，由于所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。因此，本发明实施例可以在用户A一边说话的过程中，一边将用户A说话的声音转换成用户B的声音，但是用户A说话的内容保持不变。通过本发明实施例不仅可以实现实时变声，为用户生活增加趣味性，以满足用户多样化的需求，而且可以减少变声过程的操作流程，进一步提高变声的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明的一种语音处理装置实施例的结构框图；

图3是本发明的一种用于语音处理的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；

步骤102、对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；

步骤103、根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

本发明实施例的语音处理方法可用于在采集语音数据过程中，对语音数据进行实时变声，例如，在采集用户A说话产生的源语音数据流的过程中，可以输出目标语音数据流，目标语音数据流仍然包含用户A说话的内容，但是声音却变成用户B的声音。

所述语音处理方法可运行于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本发明实施例可以通过连接所述电子设备的麦克风实时采集语音数据，所述语音数据可以是说话或者唱歌等发出的声音。不断采集的语音数据可以形成源语音数据流，采集语音数据的采样频率可根据需要自定义，如每秒40次。

为了增加用户生活的趣味性，以满足用户多样化的需求，本发明实施例可以对采集的用户的语音数据进行变声处理，并且为了进一步提高变声的效率，本发明实施例在采集语音数据生成源语音数据流的过程中，对采集的语音数据进行流式处理，所述流式处理是指对先生成的源语音数据流，直接进行变声处理，对后生成的源语音数据流在生成源语音数据流后也直接进行变声处理，无需等待所有语音数据全部录制完成。

由此，通过本发明实施例，可以在采集语音数据的过程中，一边实时采集源语音数据流，一边提取源语音数据流的源声学特征，以及根据提取的源声学特征，将采集的源语音数据流实时转换为目标语音数据流，其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

在本发明的一种可选实施例中，所述音色特征至少可以包括如下特征中的任意一种：基频、频谱和语速。其中，基频指基音的频率，可以决定整个音的音高。频谱，是频率谱密度的简称，是频率的分布曲线。语速是指人在使用具有传播或沟通意义的词汇表达或传播信息时，单位时间内所包括的词汇容量。在实际应用中，每个人的声音不同，是因为每个人具有不同的音色特征，也即每个人在说话时具有不同的基频、频谱和语速等音色特征。

例如，本发明实施例可以在用户A说话的过程中，一边采集用户A说话产生的源语音数据流，一边对采集的源语音数据流中的音色特征进行转换，得到目标语音数据流，目标语音数据流中保持用户A说话的内容不变，但是音色特征发生改变，使得目标语音数据流听起来是用户B的声音，进而可以实现实时变声，极大地提高变声效率。

在本发明的一种可选实施例中，所述对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征，具体可以包括：

步骤S11、对所述源语音数据流进行分帧处理，以得到所述源语音数据流对应的语音帧序列；

步骤S12、依次对所述语音帧序列中的语音帧进行声学特征提取，以得到所述语音帧对应的源声学特征；其中，所述源声学特征包括：所述语音帧对应的源语音内容、以及所述语音帧对应的源音色特征。

在本发明实施例中，可以根据预先设定的窗长和帧移，对源语音数据流进行分帧处理，将源语音数据流切分为多个语音帧，得到所述源语音数据流对应的语音帧序列；其中，每一个语音帧可以为一个语音片段，进而可以对所述源语音数据流逐帧进行处理。

所述窗长可用于表示每一个语音帧的时长，帧移可用于表示相邻语音帧之间的时差。例如，当窗长为25ms、帧移为15ms时，第一个语音帧为0～25ms，第二个语音帧为15～40ms，依次类推，可以实现对源语音数据流的分帧处理。可以理解，具体的窗长和帧移可以根据实际需求自行设定，本发明实施例对此不加以限制。

在对源语音数据流进行分帧处理之后，可以对语音帧序列中的语音帧依次进行声学特征提取，以得到所述语音帧对应的源声学特征。具体地，可以采用已有或将来出现的声学特征提取方法进行声学特征的提取。声学特征可以包括MFCC(Mel-Frequency CepstrumCoefficient，梅尔频率倒谱系数)特征等。一般来说，这些特征可以是多维的向量，并且其取值可以是离散或连续的。

在本发明实施例中，所述源声学特征中具体可以包括：所述语音帧对应的源语音内容、以及所述语音帧对应的源音色特征。其中，所述源语音内容可以包括：源语音数据流中的说话内容、唱歌内容等，因此，本发明实施例可以保持源语音数据流中的源语音内容不变，仅将所述源语音内容对应的源音色特征转换为目标音色特征，以实现对源语音数据流的实时变声。

在本发明的一种可选实施例中，所述根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流，具体可以包括：

步骤S21、针对所述语音帧序列中的语音帧，依次从所述语音帧对应的源声学特征中提取源语音内容；

步骤S22、根据目标音色特征以及提取的源语音内容，生成所述语音帧对应的目标声学特征；其中，所述目标音色特征与所述源音色特征不同；

步骤S23、对所述语音帧对应的目标声学特征进行语音合成，以得到目标语音数据流。

在本发明实施例中，语音数据的变声发生在将源声学特征转换为目标声学特征这一过程中。具体地，本发明实施例针对所述语音帧序列中的语音帧，依次从所述语音帧对应的源声学特征中提取源语音内容，然后根据目标音色特征以及提取的源语音内容，生成所述语音帧对应的目标声学特征，所述目标音色特征与所述源音色特征不同，就可以得到用户B的声音在说着和用户A相同的内容的目标声学特征。最后对所述目标声学特征进行语音合成，可以得到目标语音数据流，也即输入的是用户A的说话声音和说话内容，而输出的是仍然是用户A的说话内容，但是却是用户B的说话声音。

可以理解，本发明实施例可以利用已有的或将来出现的语音合成方法，对所述语音帧对应的目标声学特征进行语音合成。例如，可以将所述目标声学特征，恢复成对应的波形，通过波形拼接的合成方法，得到目标语音数据流。

在本发明的一种可选实施例中，在依次对所述语音帧序列中的语音帧进行声学特征提取，以得到所述语音帧对应的源声学特征之后，所述方法还可以包括：

步骤S31、将所述语音帧序列中语音帧对应的源声学特征依次输入声学模型，以输出所述语音帧对应的声学状态概率；

步骤S32、记录所述语音帧对应的声学状态概率；

所述根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流，具体可以包括：

将所述语音帧序列中语音帧对应的源声学特征和声学状态概率，输入语音合成网络，以通过所述语音合成网络将所述语音帧的源声学特征转换为目标声学特征，以及对所述目标声学特征进行合成得到目标语音数据流；其中，所述语音合成网络在将所述语音帧的源声学特征转换为目标声学特征的过程中，根据前一个语音帧的目标声学特征和声学状态概率，计算当前语音帧的目标声学特征。

在依次对所述语音帧序列中的语音帧进行声学特征提取，得到所述语音帧对应的源声学特征之后，可以将所述语音帧序列中语音帧对应的源声学特征依次输入声学模型，以输出所述语音帧对应的声学状态概率。

其中，声学模型可以表明语音帧与声学状态概率之间的关系。可以理解的是，在语音识别的过程中，还可以包括其他流程，比如，在得到声学状态概率后，还可以根据语言模型、发音词典等，将语音帧转换为文本，从而完成最终的语音识别。

通常，语音合成是将文本信息转换为语音信息。具体地，可以将待转换为语音信息的文本信息输入语音合成网络，语音合成网络对输入的文本信息进行预测，得到所述文本信息对应的声学特征和所包含的声学状态的状态时长信息，进而可以根据预测的声学特征和所包含的声学状态的状态时长信息，合成得到所述文本信息对应的语音信息。

然而，为了实现对语音数据的实时变声，本发明实施例可以对实时采集的源语音数据流，进行语音识别，在得到所述源语音数据流中的第一帧语音帧对应的声学特征和声学状态概率之后，即可将该语音帧对应的源声学特征和声学状态概率，输入语音合成网络，以输出该语音帧对应的目标语音数据流，不用执行后续的将语音帧转换为文本，以及对文本预测声学特征和所包含的声学状态的状态时长信息等操作，也不用在用户的语音数据全部录制完成后再进行转换，使得语音合成网络可以直接使用已提取的语音帧的源声学特征以及已记录的声学状态，从而使得语音合成网络可以支持对语音帧的流式处理，也即，在接收到用户的第一帧语音帧时即可对该语音帧进行变声，并且播放变声后的语音，可以实现用户一边说话，一边播放变声后的用户声音；通过本发明实施例不仅可以实现实时变声，为用户生活增加趣味性，以满足用户多样化的需求，而且可以减少变声过程的操作流程，进一步提高变声的效率。

此外，由于语音不是单独的频率，而是有许多频率的简谐振动叠加而成，而简谐振动的多个频率通过叠加形成多个幅度不同的波峰。也就是说，每一个语音帧都与其前一个以及后一个语音帧具有关联关系，如果将语音帧单独割裂开来进行处理，将会导致语音处理过程中出现误差。因此，在本发明实施例中，所述语音合成网络在将所述语音帧的源声学特征转换为目标声学特征的过程中，根据前一个语音帧的目标声学特征和声学状态概率，计算当前语音帧的目标声学特征，也即，当前语音帧的状态信息h(t)依赖于当前语音帧的声学特征x(t)和前一个语音帧的状态信息h(t-1)，由此，根据语音帧的上下文相关信息，对语音帧进行处理，可以提高语音识别以及语音合成过程的准确性。

本发明实施例在对采集的语音数据进行实时变声的过程中，可以将实时采集得到的源语音数据流逐帧输入语音识别网络，语音识别网络对依次输入的语音帧进行语音识别，得到语音帧的源声学特征和状态信息，并且将语音识别网络输出的源声学特征和状态信息输入语音合成网络，语音合成网络逐帧进行变声处理，输出将源声学特征转换为目标声学特征的语音帧，以得到目标语音数据流。

所述语音识别网络和/或所述语音合成网络可以融合多种神经网络。所述神经网络包括但不限于以下至少一种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短时记忆)网络、RNN(SimpleRecurrent Neural Network，循环神经网络)、注意力神经网络等。可以理解，本发明实施例对所述语音识别网络以及所述语音合成网络的类型以及训练方法不加以限制。

综上，本发明实施例在获取实时采集语音数据形成的源语音数据流的过程中，可以对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征，进而可以根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。由此，通过本发明实施例，可以一边实时采集源语音数据流，一边将采集的源语音数据流实时转换为目标语音数据流，由于所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。因此，本发明实施例可以在用户A一边说话的过程中，一边将用户A说话的声音转换成用户B的声音，但是用户A说话的内容保持不变，进而可以实现实时变声，极大地提高变声效率。并且可以为用户生活增加趣味性，以满足用户多样化的需求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种语音处理装置实施例的结构框图，所述装置具体可以包括：

数据获取模块201，用于获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；

特征提取模块202，用于对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；

数据转换模块203，用于根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

可选地，所述特征提取模块202，具体可以包括：

分帧子模块，用于对所述源语音数据流进行分帧处理，以得到所述源语音数据流对应的语音帧序列；

特征提取子模块，用于依次对所述语音帧序列中的语音帧进行声学特征提取，以得到所述语音帧对应的源声学特征；其中，所述源声学特征包括：所述语音帧对应的源语音内容、以及所述语音帧对应的源音色特征。

可选地，所述数据转换模块203，具体可以包括：

内容提取子模块，用于针对所述语音帧序列中的语音帧，依次从所述语音帧对应的源声学特征中提取源语音内容；

特征转换子模块，用于根据目标音色特征以及提取的源语音内容，生成所述语音帧对应的目标声学特征；其中，所述目标音色特征与所述源音色特征不同；

语音合成子模块，用于对所述语音帧对应的目标声学特征进行语音合成，以得到目标语音数据流。

可选地，所述装置还可以包括：

状态确定模块，用于将所述语音帧序列中语音帧对应的源声学特征依次输入声学模型，以输出所述语音帧对应的声学状态概率；

状态记录模块，用于记录所述语音帧对应的声学状态概率；

所述数据转换模块203，具体可以包括：

数据转换子模块，用于将所述语音帧序列中语音帧对应的源声学特征和声学状态概率，输入语音合成网络，以通过所述语音合成网络将所述语音帧的源声学特征转换为目标声学特征，以及对所述目标声学特征进行合成得到目标语音数据流；其中，所述语音合成网络在将所述语音帧的源声学特征转换为目标声学特征的过程中，根据前一个语音帧的目标声学特征和声学状态概率，计算当前语音帧的目标声学特征。

可选地，所述音色特征至少可以包括如下特征中的任意一种：基频、频谱和语速。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

图3是根据一示例性实施例示出的一种用于语音处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：获取源语音数据流，所述源语音数据流由实时采集的语音数据形成；对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征；根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流；其中，所述目标声学特征与所述源声学特征包含相同的语音内容和不同的音色特征。

本发明实施例公开了A1、一种语音处理方法，包括：

A2、根据A1所述的方法，所述对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征，包括：

对所述源语音数据流进行分帧处理，以得到所述源语音数据流对应的语音帧序列；

依次对所述语音帧序列中的语音帧进行声学特征提取，以得到所述语音帧对应的源声学特征；其中，所述源声学特征包括：所述语音帧对应的源语音内容、以及所述语音帧对应的源音色特征。

A3、根据A2所述的方法，所述根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流，包括：

针对所述语音帧序列中的语音帧，依次从所述语音帧对应的源声学特征中提取源语音内容；

根据目标音色特征以及提取的源语音内容，生成所述语音帧对应的目标声学特征；其中，所述目标音色特征与所述源音色特征不同；

对所述语音帧对应的目标声学特征进行语音合成，以得到目标语音数据流。

A4、根据A2所述的方法，在依次对所述语音帧序列中的语音帧进行声学特征提取，以得到所述语音帧对应的源声学特征之后，所述方法还包括：

将所述语音帧序列中语音帧对应的源声学特征依次输入声学模型，以输出所述语音帧对应的声学状态概率；

记录所述语音帧对应的声学状态概率；

所述根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流，包括：

将所述语音帧序列中语音帧对应的源声学特征和声学状态概率，输入语音合成网络，以通过所述语音合成网络将所述语音帧的源声学特征转换为目标声学特征，以及对所述目标声学特征进行合成得到目标语音数据流；

其中，所述语音合成网络在将所述语音帧的源声学特征转换为目标声学特征的过程中，根据前一个语音帧的目标声学特征和声学状态概率，计算当前语音帧的目标声学特征。

A5、根据A1至A4中任一所述的方法，所述音色特征至少包括如下特征中的任意一种：基频、频谱和语速。

本发明实施例公开了B6、一种语音处理装置，包括：

B7、根据B6所述的装置，所述特征提取模块，包括：

B8、根据B7所述的装置，所述数据转换模块，包括：

B9、根据B7所述的装置，所述装置还包括：

状态记录模块，用于记录所述语音帧对应的声学状态概率；

所述数据转换模块，包括：

B10、根据B6至B9中任一所述的装置，所述音色特征至少包括如下特征中的任意一种：基频、频谱和语速。

本发明实施例公开了C11、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C12、根据C11所述的装置，所述对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征，包括：

C13、根据C12所述的装置，所述根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流，包括：

C14、根据C12所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

记录所述语音帧对应的声学状态概率；

C15、根据C11至C14中任一所述的装置，所述音色特征至少包括如下特征中的任意一种：基频、频谱和语速。

本发明实施例公开了D16、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A5中一个或多个所述的语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述源语音数据流进行声学特征提取，以得到所述源语音数据流对应的源声学特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述源声学特征，依次将采集的源语音数据流实时转换为具有目标声学特征的目标语音数据流，包括：

4.根据权利要求2所述的方法，其特征在于，在依次对所述语音帧序列中的语音帧进行声学特征提取，以得到所述语音帧对应的源声学特征之后，所述方法还包括：

记录所述语音帧对应的声学状态概率；

5.根据权利要求1至4中任一所述的方法，其特征在于，所述音色特征至少包括如下特征中的任意一种：基频、频谱和语速。

6.一种语音处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述数据转换模块，包括：

9.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至5中一个或多个所述的语音处理方法。