CN114390304B

CN114390304B - 直播变声方法、装置、电子设备及存储介质

Info

Publication number: CN114390304B
Application number: CN202111563735.1A
Authority: CN
Inventors: 汤晓
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-08-08
Anticipated expiration: 2041-12-20
Also published as: CN114390304A

Abstract

本公开关于一种直播变声方法、装置、电子设备及存储介质，该方法包括：在检测到直播间的变声模式开启时，获取目标变声角色以及目标变声角色对应的声音样本，同时获取直播间的待变声音频，并根据目标变声角色对应的声音样本，对待变声音频进行调整，以得到直播间的已变声音频。通过获取目标变声角色以及目标变声角色对应的声音样本，并使用目标变声角色对应的声音样本对获取的直播间的带变声音频进行调整，能够获取与目标变声角色的音色以及音调相同的已变声音频，以便能够将直播间的待变声音频调整为期望的目标变声角色的音色以及音调的音频，从而丰富直播间的声音体验。

Description

直播变声方法、装置、电子设备及存储介质

技术领域

本公开涉及变声技术，尤其涉及一种直播变声方法、装置、电子设备及存储介质。

背景技术

当前的直播涉及到多种类型的直播间，例如唱歌类型的直播间、游戏类型的直播间以及聊天类型的直播间等等，这些直播间都会涉及到主播的发声。

然而，目前的直播间声音体验比较单调，有些主播的声音本身也不是非常好听，导致主播的直播效果较差以及观看直播的用户的观看体验较差。

发明内容

本公开提供一种直播变声方法、装置、电子设备及存储介质，以至少解决相关技术中直播间声音体验比较单调的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播变声方法，包括：

在检测到直播间的变声模式开启时，获取目标变声角色以及所述目标变声角色对应的声音样本；

获取所述直播间的待变声音频；

根据所述目标变声角色对应的声音样本，对所述待变声音频进行调整，以得到所述直播间的已变声音频。

可选地，在获取目标变声角色以及所述目标变声角色对应的声音样本之前，所述方法还包括：

获取多段声音样本以及每段声音样本所对应的发声角色；

建立每段声音样本与其对应的发声角色之间的对应关系；

将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库；

获取所述目标变声角色对应的声音样本，包括：

从所述数据库中查询与所述目标变声角色匹配的发声角色；

获取与查询到的发声角色对应的声音样本。

可选地，获取目标变声角色，包括：

向直播客户端发送所述数据库中包含的多个发声角色，以使所述直播客户端展示包含多个发声角色的页面；

接收所述直播客户端发送的目标变声角色，所述目标变声角色为使用所述直播客户端的用户从所述页面所展示的多个发声角色中选择的一个发声角色。

可选地，所述直播间为游戏直播间，所述获取目标变声角色，包括：

从当前直播的至少一个游戏角色中确定所述直播间的主播正在操作的游戏角色；

将主播正在操作的游戏角色确定为目标变声角色。

可选地，在将主播正在操作的游戏角色确定为目标变声角色之前，所述方法还包括：

将主播正在操作的游戏角色发送给主播端进行审核；

将所述游戏操作角色确定为目标变声角色，包括：

当接收到所述主播端的确认信息时，将所述游戏操作角色确定为目标变声角色；或，

当接收到所述主播端的角色更正信息时，将所述角色更正信息中的更正角色确定为目标变声角色。

可选地，获取所述直播间的待变声音频，包括以下至少一者：

获取所述直播间的主播发出的实时音频；

获取所述直播间的***播报音频；

获取所述直播间的弹幕音频。

根据本公开实施例的第二方面，提供一种直播变声方法，包括：

响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，以使所述服务器开启所述直播间的变声模式；

根据所述用户在直播间的操作，生成目标变声角色的参考信息；

将所述目标变声角色的参考信息发送给所述服务器，以使所述服务器根据所述目标变声角色的参考信息，确定目标变声角色，根据目标变声角色获取对应的声音样本，并根据所述目标变声角色对应的声音样本，对所述直播间的待变声音频进行调整，得到所述直播间的已变声音频；

接收服务器发送的所述直播间的已变声音频，并通过输出组件输出所述已变声音频。

可选地，在根据所述用户在直播间的操作，生成目标变声角色的参考信息之前，所述方法还包括：

将接收到的多段声音样本以及每段声音样本所对应的发声角色发送给服务器，以使所述服务器建立每段声音样本与其对应的发声角色之间的对应关系，并将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库。

可选地，根据所述用户在直播间的操作，生成目标变声角色的参考信息，包括：

接收所述服务器发送的所述数据库中包含的多个发声角色；

在所述直播间展示包含多个发声角色的页面；

根据用户针对所述直播间的页面所展示的多个发声角色的选择操作信息，生成目标变声角色的参考信息，以使所述服务器根据用户针对所述直播间的页面所展示的多个发声角色的选择操作确定目标变声角色。

可选地，所述直播间为游戏直播间，根据所述用户在直播间的操作，生成目标变声角色的参考信息，包括：

获取所述直播间正在直播的当前游戏的视频片段；

接收用户针对直播间的游戏角色的操作信息；

根据所述视频片段和用户针对直播间的游戏角色的操作信息，生成目标变声角色的参考信息，以使所述服务器根据所述当前游戏的视频片段和所述用户针对直播间的游戏角色的操作信息，从当前直播的至少一个游戏角色中确定所述直播间的主播正在操作的游戏角色，并将主播正在操作的游戏角色确定为目标变声角色。

可选地，所述方法还包括：

接收服务器发送的所述直播间的主播正在操作的游戏角色；

展示包含主播正在操作的游戏角色的页面，以使用户进行审核；

接收用户的确认信息，将所述确认信息发送给所述服务器，以使所述服务器将所述游戏操作角色确定为目标变声角色；或，

接收用户的角色更正信息，将所述角色更正信息发送给所述服务器，以使所述服务器将所述角色更正信息中的更正角色确定为目标变声角色。

根据本公开实施例的第三方面，提供一种直播变声装置，包括：

第一获取模块，被配置为在检测到直播间的变声模式开启时，获取目标变声角色以及所述目标变声角色对应的声音样本；

第二获取模块，被配置为获取所述直播间的待变声音频；

变声模块，被配置为根据所述目标变声角色对应的声音样本，对所述待变声音频进行调整，以得到所述直播间的已变声音频。

可选地，在第一获取模块之前，所述装置还包括：

第三获取模块，被配置为获取多段声音样本以及每段声音样本所对应的发声角色；

对应关系建立模块，被配置为建立每段声音样本与其对应的发声角色之间的对应关系；

存储模块，被配置为将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库；

所述第一获取模块包括：

查询子模块，被配置为从所述数据库中查询与所述目标变声角色匹配的发声角色；

第一获取子模块，被配置为获取与查询到的发声角色对应的声音样本。

可选地，所述第一获取模块，包括：

第一发送子模块，被配置为向直播客户端发送所述数据库中包含的多个发声角色，以使所述直播客户端展示包含多个发声角色的页面；

第一接收子模块，被配置为接收所述直播客户端发送的目标变声角色，所述目标变声角色为使用所述直播客户端的用户从所述页面所展示的多个发声角色中选择的一个发声角色。

可选地，所述直播间为游戏直播间，所述第一获取模块，包括：

第一确定子模块，被配置为从当前直播的至少一个游戏角色中确定所述直播间的主播正在操作的游戏角色；

第二确定子模块，被配置为将主播正在操作的游戏角色确定为目标变声角色。

可选地，在所述第二确定子模块之前，所述第一获取模块还包括：

第二发送子模块，被配置为将主播正在操作的游戏角色发送给主播端进行审核；

所述第二确定子模块，包括：

第一确定子单元，被配置为当接收到所述主播端的确认信息时，将所述游戏操作角色确定为目标变声角色；或，

第二确定子单元，被配置为当接收到所述主播端的角色更正信息时，将所述角色更正信息中的更正角色确定为目标变声角色。

可选地，所述第二获取模块，包括以下至少一者：

第二获取子模块，被配置为获取所述直播间的主播发出的实时音频；

第三获取子模块，被配置为获取所述直播间的***播报音频；

第四获取子模块，被配置为获取所述直播间的弹幕音频。

根据本公开实施例的第四方面，提供一种直播变声装置，包括：

响应模块，被配置为响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，以使所述服务器开启所述直播间的变声模式；

生成模块，被配置为根据所述用户在直播间的操作，生成目标变声角色的参考信息；

第一发送模块，被配置为将所述目标变声角色的参考信息发送给所述服务器，以使所述服务器根据所述目标变声角色的参考信息，确定目标变声角色，根据目标变声角色获取对应的声音样本，并根据所述目标变声角色对应的声音样本，对所述直播间的待变声音频进行调整，得到所述直播间的已变声音频；

第一接收模块，被配置为接收服务器发送的所述直播间的已变声音频，并通过输出组件输出所述已变声音频。

可选地，在所述生成模块之前，所述装置还包括：

第二发送模块，被配置为将接收到的多段声音样本以及每段声音样本所对应的发声角色发送给服务器，以使所述服务器建立每段声音样本与其对应的发声角色之间的对应关系，并将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库。

可选地，所述生成模块，包括：

第二接收子模块，被配置为接收所述服务器发送的所述数据库中包含的多个发声角色；

第一展示子模块，被配置为在所述直播间展示包含多个发声角色的页面；

第一生成子模块，被配置为根据用户针对所述直播间的页面所展示的多个发声角色的选择操作信息，生成目标变声角色的参考信息，以使所述服务器根据用户针对所述直播间的页面所展示的多个发声角色的选择操作确定目标变声角色。

可选地，所述直播间为游戏直播间，所述生成模块，包括：

第五获取子模块，被配置为获取所述直播间正在直播的当前游戏的视频片段；

第三接收子模块，被配置为接收用户针对直播间的游戏角色的操作信息；

第二生成子模块，被配置为根据所述视频片段和用户针对直播间的游戏角色的操作信息，生成目标变声角色的参考信息，以使所述服务器根据所述当前游戏的视频片段和所述用户针对直播间的游戏角色的操作信息，从当前直播的至少一个游戏角色中确定所述直播间的主播正在操作的游戏角色，并将主播正在操作的游戏角色确定为目标变声角色。

可选地，所述装置还包括：

第二接收模块，被配置为接收服务器发送的所述直播间的主播正在操作的游戏角色；

第二展示模块，被配置为展示包含主播正在操作的游戏角色的页面，以使用户进行审核；

第三发送模块，被配置为接收用户的确认信息，将所述确认信息发送给所述服务器，以使所述服务器将所述游戏操作角色确定为目标变声角色；或，

第四发送模块，被配置为接收用户的角色更正信息，将所述角色更正信息发送给所述服务器，以使所述服务器将所述角色更正信息中的更正角色确定为目标变声角色。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的直播变声方法以及如第二方面所述的直播变声方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的直播变声方法以及如第二方面所述的直播变声方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的直播变声方法以及如第二方面所述的直播变声方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开通过在检测到直播间的变声模式开启时，获取目标变声角色以及目标变声角色对应的声音样本，同时获取直播间的待变声音频，并根据目标变声角色对应的声音样本，对待变声音频进行调整，以得到直播间的已变声音频。通过获取目标变声角色以及目标变声角色对应的声音样本，并使用目标变声角色对应的声音样本对获取的直播间的带变声音频进行调整，能够获取与目标变声角色的音色以及音调相同的已变声音频，以便能够将直播间的待变声音频调整为期望的目标变声角色的音色以及音调的音频，从而丰富直播间的声音体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种直播变声方法的流程图；

图2是根据一示例性实施例示出的一种获取目标变声角色的方法的流程图；

图3是根据一示例性实施例示出的另一种获取目标变声角色的方法的流程图；

图4是根据一示例性实施例示出的一种直播变声装置的框图；

图5是根据一示例性实施例示出的另一种直播变声方法的流程图；

图6是根据一示例性实施例示出的另一种资料修改处理装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种直播变声方法的流程图，如图1所示，该直播变声方法可以用于服务器，包括以下步骤：

在步骤S11中，在检测到直播间的变声模式开启时，获取目标变声角色以及所述目标变声角色对应的声音样本。

在直播时，主播可登陆客户端，登陆主播的个人账号并开启主播的个人直播间进行直播，直播的内容可包括唱歌、打游戏、聊天等等，观看直播的用户可登陆客户端，并进入其中的一个或多个直播间观看主播的直播，直播间不仅包含主播的音频，还包括一些***语音播报，例如，当某个用户向主播送出了某个礼物，直播间会自动输出：感谢某用户送的某某礼物。

在进行直播变声之前，需要先检测当前直播间是否开启变声模式，其中，开启变声模式的具体方法可为：当检测到主播开启直播间时，会在直播客户端的显示页面显示是否开启变声模式的开关，直播客户端包括主播端和观看端，主播端的主播可点击主播端页面的变声模式的开关来开启或关闭变声模式，并由主播端向服务器发送变声模式开启请求，观看端的观看直播的用户可点击观看端页面的变声模式的开关来开启或关闭变声模式，并由观看端向服务器发送变声模式开启请求，服务器接收到变声模式开启请求后，根据变声模式开启请求中的直播间标识，开启对应直播间的变声模式，此时，当开启对应直播间的变声模式后，即为检测到直播间的变声模式开启。

在检测到直播间的变声模式开启时，即可实时获取目标变声角色以及目标变声角色对应的声音样本，其中目标变声角色可从主播端获取，也可从观看端获取，还可根据主播端的直播内容获取，具体方法参见后续内容，目标变声角色也可从主播端或观看端获取，还可根据目标变声角色，从数据库中获取，具体方法参见后续内容。

在步骤S12中，获取所述直播间的待变声音频。

在变声模式开启后，即可采集直播间的待变声音频，即，在直播间的音频在主播端和观看端输出前，先通过服务器进行进一步的处理再发送至主播端或观看端输出。

在步骤S13中，根据所述目标变声角色对应的声音样本，对所述待变声音频进行调整，以得到所述直播间的已变声音频。

获取直播间的待变声音频后，实时对待变声音频进行处理，具体地，可通过AI语音合成转换技术，根据目标变声角色对应的声音样本，对待变声音频进行调节，具体为根据目标变声角色对应的声音样本的音色和音调，对待变声音频的音色和音调进行调节，以便能够将直播间的待变声音频调整为期望的目标变声角色的音色以及音调的音频，从而丰富直播间的声音体验。

在上述技术方案的基础上，为了便于获取目标变声角色对应的声音样本，在获取目标变声角色以及目标变声角色对应的声音样本之前，可先存储多个声音样本，具体方法为：

获取多段声音样本以及每段声音样本所对应的发声角色；

建立每段声音样本与其对应的发声角色之间的对应关系；

将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库。

其中，获取多段声音样本以及每段声音样本所对应的发声角色的方法可为：获取主播端和/或观看端输入的多段声音样本以及每段声音样本所对应的发声角色，或者，服务器定期从数据库中采集多段声音样本以及每段声音样本所对应的发声角色，例如，声音样本可为歌曲片段，影视剧片段或游戏视频片段，并获取每一声音样本中的发声角色，其中，每一声音样本中只存在一个发声角色。然后，再建立每段声音样本与其对应的发声角色之间的对应关系，最后，将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库，以便通过发声角色快速寻找对应的声音样本。

图2是根据一示例性实施例示出的一种获取目标变声角色的方法的流程图，如图2所示，在上述技术方案的基础上，基于上述包含多段声音样本与其对应的发声角色的数据库，提供一种具体获取目标变声角色的方法：

在步骤S21中，向直播客户端发送所述数据库中包含的多个发声角色，以使所述直播客户端展示包含多个发声角色的页面。

其中，先获取数据库中包含的多个发声角色，然后将获取的多个发声角色发送至直播客户端，其中，直播客户端包括主播端和观看端，以便主播端接收到多个发声角色后，在主播端展示包含多个发声角色的页面，且便于观看端接收到多个发声角色后，在观看端展示包含多个发声角色的页面。

其中，当发声角色较多时，为了便于主播或者观看直播的用户选择目标变声角色，可对多个发声角色进行分组，即，将多个发声角色分为多组，具体可按照发生角色的类型进行分组，例如，可将发生角色分为游戏组、歌手组和演员组等，进一步地，还可将游戏组按照游戏的种类进行分组。再将分组后的多个角色发送给直播客户端，以便直播客户端展示包含多个分组后的发声角色的页面。

在步骤S22中，接收所述直播客户端发送的目标变声角色，所述目标变声角色为使用所述直播客户端的用户从所述页面所展示的多个发声角色中选择的一个发声角色。

其中，接收直播客户端发送的目标变声角色包括：仅仅接收到主播端发送的目标变声角色，或者，仅仅接收到观看端发送的目标变声角色，或者，同时接收到主播端发送的目标变声角色和观看端发送的目标变声角色，当同时接收到主播端发送的目标变声角色和观看端发送的目标变声角色时，可分为主播端发送的目标变声角色和观看端发送的目标变声角色相同或者不同两种情况，其中，目标变声角色为使用所述直播客户端的用户从所述页面所展示的多个发声角色中选择的一个发声角色。

当仅仅接收到主播端发送的目标变声角色或仅仅接收到观看端发送的目标变声角色或主播端发送的目标变声角色和观看端发送的目标变声角色相同时，可直接根据目标变声角色获取对应的声音样本，并根据对应的声音样本得到直播间的已变声音频后，即可将已变声音频发送给对应的主播端和观看端，以便主播端和观看端输出已变声音频。当主播端发送的目标变声角色和观看端发送的目标变声角色不同时，根据主播端发送的目标变声角色获取对应的声音样本，并根据对应的声音样本得到直播间的已变声音频后，即可将已变声音频发送给对应的主播端，并根据观看端发送的目标变声角色获取对应的声音样本，并根据对应的声音样本得到直播间的已变声音频后，即可将已变声音频发送给对应的观看端。

为了丰富变声角色，获取目标变声角色以及所述目标变声角色对应的声音样本的具体方法可为：

主播可通过主播端直接向服务器发送目标变声角色和目标变声角色对应的声音样本，即，服务器接收主播端发送的目标变声角色和目标变声角色对应的声音样本，观看直播的用户可通过观看端直接向服务器发送目标变声角色和目标变声角色对应的声音样本，即，服务器接收观看端发送的目标变声角色和目标变声角色对应的声音样本，从而能够直接根据主播端或观看端的目标变声角色和目标变声角色对应的声音样本，得到直播间的已变声音频，从而不需要再受到数据库中包含的发声角色的限制，能够丰富目标变声角色。

图3是根据一示例性实施例示出的另一种获取目标变声角色的方法的流程图，如图3所示，在上述技术方案的基础上，直播间可具体为游戏直播间，获取目标变声角色的具体方法可为：

在步骤S31中，从当前直播的至少一个游戏角色中确定所述直播间的主播正在操作的游戏角色。

可获取直播间所直播的当前游戏的视频片段，并获取视频片段中包含的至少一个游戏角色，并根据主播端的操作信息，从当前直播的至少一个游戏角色中确定出直播间的主播正在操作的游戏角色。

在步骤S32中，将主播正在操作的游戏角色确定为目标变声角色。

在确定出主播正在操作的游戏角色后，可直接将主播正在操作的游戏角色确定为目标变声角色，以便将直播间输出的声音(待变声音频)调整为主播正在操作的游戏角色的声音，能够将游戏直播的声音和当前正在玩的游戏内容结合，将直播间的声音变成当前的游戏角色声音，提高游戏直播间的多样性和趣味性。

在上述技术方案的基础上，在将主播正在操作的游戏角色确定为目标变声角色之前，所述方法还包括：

将主播正在操作的游戏角色发送给主播端进行审核；

在确定主播正在操作的游戏角色后，可将确定的游戏角色发送给主播端，以便主播端展示包含确定的游戏角色的页面，从而便于主播确定展示的游戏角色是否正确。

将所述游戏操作角色确定为目标变声角色，包括：

其中，主播可根据页面展示的游戏角色，确定展示的游戏角色是否为主播当前实际操作的游戏角色，若是，则主播可通过操作，经主播端向服务器发送确认信息，当服务器接收到主播端的确认信息时，即可将游戏操作角色确定为目标变声角色。

若否，则主播可通过操作，经主播端向服务器发送角色更正信息，角色更正信息包含更正角色，其中，更正角色为主播实际正在操作的游戏角色。当服务器接收到主播端的角色更正信息时，即可将角色更正信息中的更正角色确定为目标变声角色。

在上述技术方案的基础上，获取所述直播间的待变声音频，包括以下至少一者：

获取所述直播间的主播发出的实时音频；

获取所述直播间的***播报音频；

获取所述直播间的弹幕音频。

直播间的音频较多，有直播间的主播发出的实时音频，弹幕音频，也有各种***播报音频以及其它杂声，其中，杂声可为主播吃东西的声音，直播间物品碰撞的声音等，***播报音频为***语音播报，例如，当某个用户向主播送出了某个礼物，直播间会自动输出：感谢某用户送的某某礼物。直播间的弹幕音频为用户观看直播时，在直播间发出的音频，可为对用户的直播进行评价的音频或在直播间进行讨论互动的音频。

图4是根据一示例性实施例示出的一种直播变声装置的框图。参照图4，该装置包括第一获取模块41、第二获取模块42和变声模块43。

该第一获取模块41，被配置为在检测到直播间的变声模式开启时，获取目标变声角色以及所述目标变声角色对应的声音样本；

该第二获取模块42，被配置为获取所述直播间的待变声音频；

该变声模块43，被配置为根据所述目标变声角色对应的声音样本，对所述待变声音频进行调整，以得到所述直播间的已变声音频。

可选地，在第一获取模块之前，所述装置还包括：

所述第一获取模块包括：

可选地，所述第一获取模块，包括：

接收子模块，被配置为接收所述直播客户端发送的目标变声角色，所述目标变声角色为使用所述直播客户端的用户从所述页面所展示的多个发声角色中选择的一个发声角色。

所述第二确定子模块，包括：

可选地，所述第二获取模块，包括以下至少一者：

第三获取子模块，被配置为获取所述直播间的***播报音频；

第四获取子模块，被配置为获取所述直播间的弹幕音频。

本示例性实施例提供的直播变声装置，通过在检测到直播间的变声模式开启时，获取目标变声角色以及目标变声角色对应的声音样本，同时获取直播间的待变声音频，并根据目标变声角色对应的声音样本，对待变声音频进行调整，以得到直播间的已变声音频。通过获取目标变声角色以及目标变声角色对应的声音样本，并使用目标变声角色对应的声音样本对获取的直播间的带变声音频进行调整，能够获取与目标变声角色的音色以及音调相同的已变声音频，以便能够将直播间的待变声音频调整为期望的目标变声角色的音色以及音调的音频，从而丰富直播间的声音体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的另一种直播变声方法的流程图，如图5所示，该直播变声方法可以用于直播客户端，包括以下步骤：

在步骤S51中，响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，以使所述服务器开启所述直播间的变声模式。

直播客户端可包括主播端和观看端，直播客户端可在直播间向用户展示变声模式开关，用户可点击变声模式开关，以便进行变声模式的开启和关闭，当接收到用户针对直播间的变声模式开启操作时，可响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，此时，变声模式开启请求携带直播间的标识，以便服务器根据直播间的标识开启相应的直播间的变声模式。

在步骤S52中，根据所述用户在直播间的操作，生成目标变声角色的参考信息。

直播客户端可获取用户在直播间的操作，并根据用户在直播间的操作，生成目标变声角色的参考信息，其中，用户在直播间的操作可为用户对目标角色的选择操作，或者用户对直播间的目标角色的控制操作。

在步骤S53中，将所述目标变声角色的参考信息发送给所述服务器，以使所述服务器根据所述目标变声角色的参考信息，确定目标变声角色，根据目标变声角色获取对应的声音样本，并根据所述目标变声角色对应的声音样本，对所述直播间的待变声音频进行调整，得到所述直播间的已变声音频。

直播客户端可直接将目标变声角色的参考信息发送给服务器，服务器可根据目标变声角色的参考信息，确定目标变声角色，并根据目标变声角色获取对应的声音样本。其中，服务器根据目标变声角色获取对应的声音样本，以及，服务器根据目标变声角色对应的声音样本，对直播间的待变声音频进行调整，得到直播间的已变声音频的具体方法可参考上述步骤S11至步骤S13的相关介绍，在此不再赘述。

在步骤S54中，接收服务器发送的所述直播间的已变声音频，并通过输出组件输出所述已变声音频。

服务器将变声后的已变声音频发送给直播客户端，此处的直播客户端可为观看端，直播客户端接收到直播间的已变声音频时，可通过输出组件输出已变声音频，例如，可通过直播客户端一侧的终端所携带的声音输出设备输出已变声音频。

在上述技术方案的基础上，还需要预先将每段声音样本与其对应的发声角色之间的对应关系存入数据库，用户先将多段声音样本以及每段声音样本所对应的发声角色通过直播客户端发送给服务器，以便服务器将建立每段声音样本与其对应的发声角色之间的对应关系，并将建立关联关系后的多段声音样本与其对应的发声角色存储至数据库。服务器一侧的具体方法可参考上述服务器部分的相关介绍，在此不再赘述。

在上述技术方案的基础上，提供一种具体生成目标变声角色的参考信息的方法：

接收所述服务器发送的所述数据库中包含的多个发声角色；

在所述直播间展示包含多个发声角色的页面；

上述方法中，服务器可将数据库中包含的多个发声角色发送给直播客户端，直播客户端可根据服务器发送的数据库中包含的多个发声角色，在直播间展示包含多个发声角色的页面，以便供用户进行选择操作，当接收到用户针对直播间的页面所展示的多个发声角色的选择操作信息后，可生成目标变声角色的参考信息，此时，目标变声角色的参考信息表征用户选择的其中一个发声角色。服务器接收到目标变声角色的参考信息后，即可将用户选择的发声角色确定为目标变声角色。具体内容可参考上述步骤S21至步骤S22中的相关介绍，在此不再赘述。

在上述技术方案的基础上，直播间可具体为游戏直播间，根据用户在直播间的操作，生成目标变声角色的参考信息的方法具体可为：

获取所述直播间正在直播的当前游戏的视频片段；

接收用户针对直播间的游戏角色的操作信息；

在上述方法中，直播客户端可获取直播间正在直播的当前游戏的视频片段，并接收用户针对直播间的游戏角色的操作信息，然后，根据视频片段和用户针对直播间的游戏角色的操作信息，生成目标变声角色的参考信息，以便将目标变声角色的参考信息发送给服务器，使服务器根据当前游戏的视频片段和所述用户针对直播间的游戏角色的操作信息，从当前直播的至少一个游戏角色中确定所述直播间的主播正在操作的游戏角色，并将主播正在操作的游戏角色确定为目标变声角色。具体可参考步骤S31至步骤S32中的相关内容。

在上述技术方案的基础上，直播客户端的用户还可协助服务器完成目标变声角色的确定，具体方法为：接收服务器发送的所述直播间的主播正在操作的游戏角色；

在上述方法中，当服务器根据当前游戏的视频片段和用户针对直播间的游戏角色的操作信息，从当前直播的至少一个游戏角色中确定直播间的主播正在操作的游戏角色后，还可将直播间的主播正在操作的游戏角色发送给直播客户端，以便直播客户端展示包含主播正在操作的游戏角色的页面，以使用户进行审核，用户可进行审核操作，当服务器确定的游戏角色正确时，用户可进行确认操作，直播客户端可接收用户的确认信息，并将确认信息发送给服务器，以使服务器将游戏操作角色确定为目标变声角色，当服务器确定的游戏角色正确时，用户可进行更正信息输入操作，直播客户端接收到用户的角色更正信息后，即可将角色更正信息发送给服务器，以使服务器将角色更正信息中的更正角色确定为目标变声角色。

图6是根据一示例性实施例示出的另一种资料修改处理装置的框图。参照图6，该装置包括响应模块61、生成模块62、第一发送模块63和第一接收模块64。

该响应模块61，被配置为响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，以使所述服务器开启所述直播间的变声模式；

该生成模块62，被配置为根据所述用户在直播间的操作，生成目标变声角色的参考信息；

该第一发送模块63，被配置为将所述目标变声角色的参考信息发送给所述服务器，以使所述服务器根据所述目标变声角色的参考信息，确定目标变声角色，根据目标变声角色获取对应的声音样本，并根据所述目标变声角色对应的声音样本，对所述直播间的待变声音频进行调整，得到所述直播间的已变声音频；

该第一接收模块64，被配置为接收服务器发送的所述直播间的已变声音频，并通过输出组件输出所述已变声音频。

可选地，在所述生成模块之前，所述装置还包括：

可选地，所述生成模块，包括：

可选地，所述直播间为游戏直播间，所述生成模块，包括：

可选地，所述装置还包括：

图7是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理***，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、5G或5G)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述直播变声方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述直播变声方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由电子设备700的处理器720执行以完成上述直播变声方法。可选地，该程序代码可以存储在电子设备700的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种直播变声方法，其特征在于，包括：

在检测到直播间的变声模式开启时，获取主播端和/或观看端发送的目标变声角色以及所述目标变声角色对应的声音样本；

获取所述直播间的待变声音频；

通过AI语音合成转换技术，根据所述目标变声角色对应的声音样本，对所述待变声音频进行调整，以得到所述直播间的与所述目标变声角色的音色以及音调相同的已变声音频；

当所述主播端发送的所述目标变声角色和所述观看端发送的所述目标变声角色不同时，根据所述主播端发送的目标变声角色得到与该目标变声角色的音色以及音调相同的已变声音频，将该已变声音频发送给所述主播端，并根据所述观看端发送的目标变声角色得到与该目标变声角色的音色以及音调相同的已变声音频，将该已变声音频发送给所述观看端。

2.根据权利要求1所述的方法，其特征在于，在获取目标变声角色以及所述目标变声角色对应的声音样本之前，所述方法还包括：

获取多段声音样本以及每段声音样本所对应的发声角色；

建立每段声音样本与其对应的发声角色之间的对应关系；

获取所述目标变声角色对应的声音样本，包括：

从所述数据库中查询与所述目标变声角色匹配的发声角色；

获取与查询到的发声角色对应的声音样本。

3.根据权利要求2所述的方法，其特征在于，所述获取目标变声角色，包括：

4.根据权利要求1所述的方法，其特征在于，所述直播间为游戏直播间，所述获取目标变声角色，包括：

将主播正在操作的游戏角色确定为目标变声角色。

5.根据权利要求4所述的方法，其特征在于，在将主播正在操作的游戏角色确定为目标变声角色之前，所述方法还包括：

将主播正在操作的游戏角色发送给主播端进行审核；

将所述游戏操作角色确定为目标变声角色，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，获取所述直播间的待变声音频，包括以下至少一者：

获取所述直播间的主播发出的实时音频；

获取所述直播间的***播报音频；

获取所述直播间的弹幕音频。

7.一种直播变声方法，其特征在于，包括：

响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，以使所述服务器开启所述直播间的变声模式，所述直播客户端包括主播端和观看端；

将所述目标变声角色的参考信息发送给所述服务器，以使所述服务器根据所述目标变声角色的参考信息，确定目标变声角色，根据目标变声角色获取对应的声音样本，并通过AI语音合成转换技术，根据所述目标变声角色对应的声音样本，对所述直播间的待变声音频进行调整，得到所述直播间的与所述目标变声角色的音色以及音调相同的已变声音频；

接收服务器发送的所述直播间的已变声音频，并通过输出组件输出所述已变声音频；

当根据所述主播端的用户在直播间的操作生成的已变声音频，与根据所述观看端的用户在直播间的操作生成的已变声音频不同时，将根据所述主播端的用户在直播间的操作生成的已变声音频，发送给所述主播端，并将根据所述观看端的用户在直播间的操作生成的已变声音频，发送给所述观看端。

8.根据权利要求7所述的方法，其特征在于，在根据所述用户在直播间的操作，生成目标变声角色的参考信息之前，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，

根据所述用户在直播间的操作，生成目标变声角色的参考信息，包括：

接收所述服务器发送的所述数据库中包含的多个发声角色；

在所述直播间展示包含多个发声角色的页面；

10.根据权利要求7所述的方法，其特征在于，所述直播间为游戏直播间，根据所述用户在直播间的操作，生成目标变声角色的参考信息，包括：

获取所述直播间正在直播的当前游戏的视频片段；

接收用户针对直播间的游戏角色的操作信息；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

接收服务器发送的所述直播间的主播正在操作的游戏角色；

12.一种直播变声装置，其特征在于，包括：

第一获取模块，被配置为在检测到直播间的变声模式开启时，获取主播端和/或观看端发送的目标变声角色以及所述目标变声角色对应的声音样本；

第二获取模块，被配置为获取所述直播间的待变声音频；

变声模块，被配置为通过AI语音合成转换技术，根据所述目标变声角色对应的声音样本，对所述待变声音频进行调整，以得到所述直播间的与所述目标变声角色的音色以及音调相同的已变声音频；

发送模块，被配置为当所述主播端发送的所述目标变声角色和所述观看端发送的所述目标变声角色不同时，根据所述主播端发送的目标变声角色得到与该目标变声角色的音色以及音调相同的已变声音频，将该已变声音频发送给所述主播端，并根据所述观看端发送的目标变声角色得到与该目标变声角色的音色以及音调相同的已变声音频，将该已变声音频发送给所述观看端。

13.根据权利要求12所述的装置，其特征在于，在第一获取模块之前，所述装置还包括：

所述第一获取模块包括：

14.根据权利要求13所述的装置，其特征在于，所述第一获取模块，包括：

15.根据权利要求12所述的装置，其特征在于，所述直播间为游戏直播间，所述第一获取模块，包括：

16.根据权利要求15所述的装置，其特征在于，在所述第二确定子模块之前，所述第一获取模块还包括：

所述第二确定子模块，包括：

17.根据权利要求12-16任一所述的装置，其特征在于，所述第二获取模块，包括以下至少一者：

第三获取子模块，被配置为获取所述直播间的***播报音频；

第四获取子模块，被配置为获取所述直播间的弹幕音频。

18.一种直播变声装置，其特征在于，包括：

响应模块，被配置为响应于直播客户端的用户针对直播间的变声模式开启操作，向服务器发送变声模式开启请求，以使所述服务器开启所述直播间的变声模式，所述直播客户端包括主播端和观看端；

第一发送模块，被配置为将所述目标变声角色的参考信息发送给所述服务器，以使所述服务器根据所述目标变声角色的参考信息，确定目标变声角色，根据目标变声角色获取对应的声音样本，并通过AI语音合成转换技术，根据所述目标变声角色对应的声音样本，对所述直播间的待变声音频进行调整，得到所述直播间的与所述目标变声角色的音色以及音调相同的已变声音频；

第一接收模块，被配置为接收服务器发送的所述直播间的已变声音频，并通过输出组件输出所述已变声音频；

音频发送模块，被配置为当根据所述主播端的用户在直播间的操作生成的已变声音频，与根据所述观看端的用户在直播间的操作生成的已变声音频不同时，将根据所述主播端的用户在直播间的操作生成的已变声音频，发送给所述主播端，并将根据所述观看端的用户在直播间的操作生成的已变声音频，发送给所述观看端。

19.根据权利要求18所述的装置，其特征在于，在所述生成模块之前，所述装置还包括：

20.根据权利要求18所述的装置，其特征在于，所述生成模块，包括：

21.根据权利要求18所述的装置，其特征在于，所述直播间为游戏直播间，所述生成模块，包括：

22.根据权利要求18所述的装置，其特征在于，所述装置还包括：

23.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的直播变声方法以及如权利要求7至11中任一项所述的直播变声方法。

24.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的直播变声方法以及如权利要求7至11中任一项所述的直播变声方法。