CN110933330A

CN110933330A - 视频配音方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN110933330A
Application number: CN201911248806.1A
Authority: CN
Inventors: 吴晗; 李文涛
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-03-27

Abstract

本申请公开了一种视频配音方法、装置、计算机设备及计算机可读存储介质，属于计算机技术领域。本申请通过显示配音界面，该配音界面上显示有目标视频的多个视频帧，基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据，该语音数据的音频特征基于该音色类型确定，基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至目标视频中，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同，在上述视频配音过程中，可以将用户提供的文本信息按照特定的音色转换为配音，添加到视频中，无需人工配音，提高了配音效率，进而可以提高视频制作效率。

Description

视频配音方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种视频配音方法、装置、计算机设备及计算机可读存储介质。

背景技术

视频配音是视频制作过程中的一个重要环节，在录制视频时，录制现场所收集的声音往往会存在噪音，影响视频效果，因此，在目前的视频制作过程中，通常在视频录制完成后，需要在专业录音棚或其他安静的环境中，由人工单独录制一段语音，再将语音和视频进行合成，但是这种人工配音的方式，耗费的时间成本较高，配音效率低，进而导致视频制作的周期较长，制作效率低。

发明内容

本申请实施例提供了一种视频配音方法、装置、计算机设备及计算机可读存储介质，可以解决相关技术中视频配音效率低的问题。该技术方案如下：

一方面，提供了一种视频配音方法，该方法包括：

显示配音界面，该配音界面上显示有目标视频的多个视频帧；

基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据，该语音数据的音频特征基于该音色类型确定；

基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至该目标视频中，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。

在一种可能实现方式中，该基于在该配音界面所采集的文本信息以及音色类型，生成与该文本信息相对应的语音数据，包括：

获取该音色类型所对应的音色特征；

获取该文本信息对应的音素序列；

基于该音素序列以及该音色特征，生成该语音数据。

在一种可能实现方式中，该基于该音素序列以及该音色特征，生成该语音数据，包括：

对该文本信息进行情绪识别，得到该文本信息所对应的情绪特征，该情绪特征用于指示该文本信息对应的情绪信息；

基于该音素序列、该音色特征以及该情绪特征，生成语音数据，该语音数据的音频特征基于该情绪信息的变化而变化。

获取该目标视频中背景音乐的音频特征；

基于该音素序列、该音色特征以及该背景音乐的音频特征，生成该语音数据，该语音数据的音频特征基于该背景音乐音频特征的变化而变化。

在一种可能实现方式中，该基于在该配音界面所采集的文本信息以及音色类型，生成与该文本信息相对应的语音数据之后，该方法还包括：

接收对该语音数据的编辑指令，该编辑指令携带有第一音量信息以及第二音量信息；

基于该第一音量信息调整该语音数据的播放音量，基于该第二音量信息调整该目标视频的播放音量。

在一种可能实现方式中，该显示配音界面之后，该方法还包括：

当接收到文本添加指令时，生成与该文本信息相对应的目标图像；

将该目标图像添加至该目标视频帧的目标位置。

一方面，提供了一种视频配音装置，该装置包括：

显示模块，用于显示配音界面，该配音界面上显示有目标视频的多个视频帧；

语音生成模块，用于基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据，该语音数据的音频特征基于该音色类型确定；

语音添加模块，用于基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至该目标视频中，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。

在一种可能实现方式中，该语音生成模块用于：

获取该音色类型所对应的音色特征；

获取该文本信息对应的音素序列；

基于该音素序列以及该音色特征，生成该语音数据。

在一种可能实现方式中，该语音生成模块用于：

获取该目标视频中背景音乐的音频特征；

在一种可能实现方式中，该装置还包括：

接收模块，用于接收对该语音数据的编辑指令，该编辑指令携带有第一音量信息以及第二音量信息；

音量调整模块，用于基于该第一音量信息调整该语音数据的播放音量，基于该第二音量信息调整该目标视频的播放音量。

在一种可能实现方式中，该装置还包括：

图像生成模块，用于当接收到文本添加指令时，生成与该文本信息相对应的目标图像；

图像添加模块，用于将该目标图像添加至该目标视频帧的目标位置。

一方面，提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行以实现该视频配音方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现该视频配音方法所执行的操作。

本申请实施例提供的技术方案，通过显示配音界面，该配音界面上显示有目标视频的多个视频帧，基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据，该语音数据的音频特征基于该音色类型确定，基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至目标视频中，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。在上述视频配音过程中，可以将用户提供的文本信息按照特定的音色转换为配音，添加到视频中，无需人工配音，提高了配音效率，进而可以提高视频制作效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频配音方法的实施环境示意图；

图2是本申请实施例提供的一种视频配音方法的流程图；

图3是本申请实施例提供的一种配音界面的具体形式示意图；

图4是本申请实施例提供的一种文本输入框的具体形式示意图；

图5是本申请实施例提供的一种语音数据预览信息的显示方式示意图；

图6是本申请实施例提供的一种配音界面中音色类型选项的显示方式示意图；

图7是本申请实施例提供的一种视频配音装置的结构示意图；

图8是本申请实施例提供的一种终端的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。本申请实施例提供的方案涉及语音技术中的语音合成技术，具体通过如下实施例进行说明。

图1是本申请实施例提供的一种视频配音方法的实施环境示意图，参见图1，该实施环境可以包括终端110和语音合成平台140。

终端110通过无线网络或有线网络与语音合成平台140相连。终端110可以是智能手机、台式计算机、平板电脑、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持语音合成的应用程序。该应用程序可以是视频类应用程序、音频类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与语音合成平台140相连。

语音合成平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。语音合成平台140用于为支持语音合成的应用程序提供后台服务。可选地，语音合成平台140承担主要语音合成工作，终端110承担次要语音合成工作；或者，语音合成平台140承担次要语音合成工作，终端110承担主要语音合成工作；或者，语音合成平台140或终端110分别可以单独承担语音合成工作。

可选地，语音合成平台140包括：接入服务器、语音合成服务器和数据库。接入服务器用于为终端110提供接入服务。语音合成服务器用于提供语音合成有关的后台服务。语音合成服务器可以是一台或多台。当语音合成服务器是多台时，存在至少两台语音合成服务器用于提供不同的服务，和/或，存在至少两台语音合成服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。语音合成服务器中可以设置有语音合成模型、情绪识别模型等。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述语音合成***还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2是本申请实施例提供的一种视频配音方法的流程图，该方法可以应用于上述终端或者服务器，而终端和服务器均可以视为一种计算机设备，因此本申请实施例基于计算机设备作为执行主体来进行介绍，参见图2，该实施例具体可以包括以下步骤：

201、计算机设备显示配音界面，该配音界面上显示有目标视频的多个视频帧。

其中，该目标视频可以为存储在计算机设备中的任一视频，也可以为具备视频录制功能的计算机设备实时录制的视频，本申请实施例对具体采用哪种视频不做限定。

在本申请实施例中，该计算机设备可以基于视频编辑指令显示该配音界面。在一种可能实现方式中，该视频编辑指令可以由用户对该目标视频所对应的视频编辑控件的触发操作触发，其中，该触发操作可以为点击操作、长按操作等。当然，该视频编辑指令也可以通过其他方式触发，例如，由用户对视频列表中该目标视频显示区域的长按操作触发等，本申请实施例对此不作具体限定。

图3是本申请实施例提供的一种配音界面的具体形式示意图。参见图3，该配音界面可以包括视频帧显示区域301、编辑区域302以及预览区域303。该视频帧显示区域301可以显示有该目标视频的多个视频帧。在一种可能实现方式中，用户可以通过滑动等手势操作调整该视频帧显示区域所显示的视频帧，当该计算机设备检测到该用户选中其中的某一视频帧时，可以在该预览区域303中显示该某一视频帧的预览图像，该编辑区域302可以显示有“添加文本”、“文本转语音”等操作控件。

在一种可能实现方式中，当该计算机设备检测到用户对该“文本转语音”控件的触发操作时，可以在该配音界面的第一目标区域显示文本输入框，该第一目标区域可以为该配音界面中的任一区域。参见图4，图4是本申请实施例提供的一种文本输入框的具体形式示意图。以该第一目标区域401为该配音界面402的下方区域为例，该第一目标区域401中还可包括“确认转换”控件，在本申请实施例中，当该计算机设备检测到用户对该“确认转换”控件的触发操作后，可以继续执行下述步骤202。

在一种可能实现方式中，当该计算机设备检测到用户对该“文本添加”控件的触发操作时，可以在该配音界面的第一目标区域显示文本输入框，该第一目标区域中还可包括“确认添加”控件，在本申请实施例中，用户对该“确认添加”控件的触发操作可以触发文本添加指令，当该计算机设备接收到文本添加指令时，可以生成与该文本信息相对应的目标图像，将该目标图像添加至该目标视频帧的目标位置。其中，该目标视频帧为该多个视频帧中，用户所选中的视频帧。该目标图像可以为包括该文本信息的贴图等，本申请实施例对该目标图像的具体形式不作限定。该目标位置可以由用户进行设置。例如，当该计算机设备检测到用户对该“确认添加”控件的触发操作时，可以生成该目标图像，将该目标图像显示在该目标视频帧的默认位置，该默认位置可以由开发人员进行设置，用户可以在该配音界面的预览区域中查看该目标图像的显示效果，通过拖动操作，调整该目标图像的显示位置。在一种可能实现方式中，用户还可以修改该目标图像的显示样式，本申请实施例对此不做具体限定。

202、计算机设备基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据。

在本申请实施例中，该计算机设备检测到用户对该“确认转换”控件的触发操作后，可以获取用户输入的文本信息以及该文本信息所对应的音色类型，该语音数据的音频特征可以基于该音色类型确定。其中，该被选中的音色类型可以为应用程序默认设置的音色类型，也可以为用户所选择的音色类型，本申请实施例不做具体限定。在一种可能实现方式中，该计算机设备生成该语音数据的过程具体可以包括以下步骤：

步骤一、计算机设备获取该音色类型所对应的音色特征。

在本申请实施例中，一个音色类型可以对应于一个音色特征，该音色特征可以用于指示该音色类型所对应的频率特征、波形特征等。在一种可能实现方式中，该音色特征可以由向量、矩阵等特征参数表示，各个特征参数的维度和具体数值可以由开发人员进行设置，本申请实施例不作限定。

步骤二、计算机设备获取该文本信息对应的音素序列。

在一种可能实现方式中，该计算机设备可以对获取到的文本信息进行预处理，以去除文本信息中的无效字符、消除歧义等，以对中文文本进行预处理为例，该过程可以基于文本正则化、分词、词性预测、多音字消歧等模块完成。其中，文本正则化模块可以用于将文本信息中的***数字、符号等非汉字字符转换为对应的汉字字符，分词模块可以用于将文本信息拆分为多个词组。在一种可能实现方式中，该计算机设备可以基于文本信息与词典的匹配结果进行分词，词性预测模块可以用于对该多个词组的词性进行标注，多音字消歧模块可以用于确定文本信息中各个多音字的读音。在一种可能实现方式中，该计算机设备可以基于一个多音字所在的词组、该词组的词性以及该文本信息的上下文信息，确定该一个多音字的读音。

在一种可能实现方式中，该计算机设备可以将预处理后的文本信息与音素字典进行匹配，得到该文本信息中各个词组所对应的音素信息，基于各个词组对应的音素信息以及各个词组的排列顺序，确定该文本信息所对应的音素序列。在本申请实施例中，该计算机设备还可以对该音素序列中各个音素的持续时间和频率变化信息进行标注。其中，该音素字典可以记录有各个词组与音素的对应关系。

步骤三、计算机设备基于该音素序列以及该音色特征，生成该语音数据。

在一种可能实现方式中，该计算机设备可以基于语音合成模型，生成该语音数据。具体地，该计算机设备可以基于该音色特征调整该语音合成模型中的各组参数，将携带有持续时间和频率变化信息的音素序列输入语音合成模型，基于该音素序列和音色特征，确定该文本信息对应的声音波形，生成语音数据。其中，该语音合成模型可以为WaveNet(波网)模型、DeepVoice2(深度语音)模型、Tacotron(端到端的语音合成)模型等，本申请实施例对具体应用哪种语音合成模型不做限定。

需要说明的是，上述对语音合成过程的描述仅是一种语音合成方法的示例性说明，本申请实施例对具体采用哪种语音合成方法不作限定。

在一种可能实现方式中，该计算机设备还可以对该文本信息进行情绪识别，得到该文本信息所对应的情绪特征，该情绪特征用于指示该文本信息对应的情绪信息，基于该音素序列、该音色特征以及该情绪特征，生成语音数据，该语音数据的音频特征基于该情绪信息的变化而变化。具体地，该计算机设备在对文本信息进行处理时，可以对该文本信息所拆分出的多个词组进行筛选。在一种可能实现方式中，该计算机设备可以基于各词组的词性进行筛选。例如，可以筛选出该文本信息中的形容词，基于各个形容词的出现位置、出现频率以及情绪倾向，确定该文本信息所对应的情绪信息，该计算机设备可以基于该文本信息中的情绪变化，调整语音合成模型中的各组参数，使该语音合成模型所输出语音数据的音频特征可以基于该情绪信息的变化而变化。需要说明的是，上述对文本情绪识别的描述仅是一种文本情绪识别方法的示例性说明，本申请实施例对具体采用哪种文本情绪识别方法不作限定。

在一种可能实现方式中，该计算机设备可以获取该目标视频中背景音乐的音频特征，基于该音素序列、该音色特征以及该背景音乐的音频特征，生成该语音数据，该语音数据的音频特征基于该背景音乐音频特征的变化而变化。其中该背景音乐可以为用户为该目标视频添加的一段音频，也可以为该计算机设备从该目标视频中分离出的音频，本申请实施例对此不作限定。具体地，首先，该计算机设备可以对该背景音乐进行预处理，去除该背景音乐中的静音、杂音等无效信息；然后，将该背景音乐切分为多个音频片段，各个音频片段之间无重叠部分，该计算机设备可以对各个音频片段进行特征提取，得到各个语音片段对应的音频特征；最后，基于各个音频片段的音频特征得到该背景音乐的音频特征基于该背景音乐的音频特征变化信息，该计算机设备可以基于该背景音乐的音频特征以及音频特征变化信息，调整语音合成模型中的各组参数，使该语音合成模型所输出的语音数据可以基于该背景音乐音频特征的变化而变化。需要说明的是，上述对背景音乐的音频特征提取的描述，仅是一种音频特征提取方法的示例性描述，本申请实施例对具体采用哪种音频特征提取方法不作限定。

在本申请实施例中，该计算机设备生成语音数据后，可以在该配音界面的第二目标区域显示该语音数据的预览信息，该第二目标区域可以为该配音界面中的任一区域。参见图5，图5是本申请实施例提供的一种语音数据预览信息的显示方式示意图。以该第二目标区域为视频帧显示区域的下方区域为例，该计算机设备可以获取用户所选择目标视频帧的显示位置，在该目标视频帧显示位置的下方区域501中，显示该语音数据的预览信息。例如，可以显示该语音数据所对应的部分文本信息，本申请实施例对该预览信息的具体内容不作限定。在一种可能实现方式中，用户可以通过滑动操作，切换该视频帧显示区域中所显示的视频帧，当该用户选中任一其他视频帧时，该计算机设备可以修改该语音数据的添加位置，将该语音数据的预览信息显示在该任一其他视频帧的下方区域。

203、计算机设备基于语音数据编辑指令，调整该语音数据的播放音量。

在本申请实施例中，用户可以对已生成的语音数据进行编辑，该计算机设备可以接收对该语音数据的编辑指令，该编辑指令携带有第一音量信息以及第二音量信息，基于该第一音量信息调整该语音数据的播放音量，基于该第二音量信息调整该目标视频的播放音量。在一种可能实现方式中，该计算机设备可以显示有语音编辑页面，该语音编辑页面用于提供播放音量设置功能，该语音编辑页面可以包括播放音量设置区域以及确认控件，用户可以在该语音编辑页面设置该语音数据所对应的第一音量信息以及该目标视频所对应的第二音量信息。当然，还可以对背景音乐的播放音量进行设置，本申请实施例对此不作限定。当该计算机设备检测到用户对该语音编辑页面中确认控件的触发操作时，即用户触发了对该语音数据的编辑指令时，该计算机设备可以基于该编辑指令中的至少一个音量信息对该语音数据的播放音量、该目标视频的播放音量以及背景音乐的播放音量进行设置。其中，该音量信息可以为音量的具体数值，也可以为相对于最大音量的音量比例，例如，可以设置该语音数据的播放音量大小为80％、该背景音乐的播放音量大小为50％、该目标视频的原声播放音量大小为10％。

204、计算机设备基于音色修改指令，调整该语音数据所对应的音色类型。

在本申请实施例中，该计算机设备生成语音数据，用户可以对该语音数据的音色进行修改，该计算机设备可以基于用户的音色修改指令，确定用户所选择的目标音色类型，基于该目标音色类型所对应的音色特征，调整该语音数据的音频特征。在一种可能实现方式中，该配音界面可以显示有多个音色类型选项。图6是本申请实施例提供的一种配音界面中音色类型选项的显示方式示意图。如图6所示，该配音界面可以显示有“萝莉音”、“播音腔”、“御姐音”等音色类型选项。当该计算机设备检测到用户选中任一音色类型选项时，该计算机设备可以获取该音色类型选项所对应的音色标识，基于该音色标识，确定该音色类型所对应的音色特征，基于该音色特征对该语音数据的音频特征进行调整。

在本申请实施例中，采用先调整语音数据的播放音量，再调整语音数据所对应的音色类型的执行顺序进行描述，但在一些可能实施方式中，还可以先执行调整语音数据所对应的音色类型的步骤，再执行调整语音数据的播放音量的步骤，或者，或者两个步骤同时执行，本申请实施例对此不作具体限定。

205、计算机设备基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至目标视频中。

在一种可能实现方式中，该计算机设备检测到用户对配音界面中确认添加控件的触发操作时，可以执行语音数据添加的步骤。例如，该计算机设备可以在该语音数据中添加时间戳，该时间戳可以用于指示该语音数据的播放时间，该计算机设备可以将该语音数据与该目标视频进行打包、封装，完成语音数据添加，本申请实施例对具体采用哪种语音与视频合成的方法不作限定。

在本申请实施例中，该计算机设备完成语音数据添加后，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。

在本申请实施例中，用户进行简单的文本输入操作，即可获取到输入文本所对应的语音数据，完成对视频的配音，提高了视频配音的效率，而且可以对语音数据的音色、音量等进行调整，增强了视频制作的趣味性，配音可以与背景音乐相叠加，用户可以制作出多样化、个性化的配音效果。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图7是本申请实施例提供的一种视频配音装置的结构示意图，参见图7，该装置包括：

显示模块701，用于显示配音界面，该配音界面上显示有目标视频的多个视频帧；

语音生成模块702，用于基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据，该语音数据的音频特征基于该音色类型确定；

语音添加模块703，用于基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至目标视频中，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。

在一种可能实现方式中，该语音生成模块702用于：

获取该音色类型所对应的音色特征；

获取该文本信息对应的音素序列；

基于该音素序列以及该音色特征，生成该语音数据。

在一种可能实现方式中，该语音生成模块702用于：

获取该目标视频中背景音乐的音频特征；

在一种可能实现方式中，该装置还包括：

本申请实施例提供的装置，通过显示配音界面，该配音界面上显示有目标视频的多个视频帧，基于在该配音界面所采集的文本信息以及被选中的音色类型，生成与该文本信息相对应的语音数据，该语音数据的音频特征基于该音色类型确定，基于该多个视频帧中被选中的目标视频帧，将该语音数据添加至目标视频中，该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。应用上述视频配音装置，可以将用户提供的文本信息按照特定的音色转换为配音，添加到视频中，无需人工配音，提高了配音效率，进而可以提高视频制作效率。

需要说明的是：上述实施例提供的视频配音装置在视频配音时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频配音装置与触视频配音方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述技术方案所提供的计算机设备可以实现为终端或服务器，例如，图8是本申请实施例提供的一种终端的结构示意图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：一个或多个处理器801和一个或多个存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器801所执行以实现本申请中方法实施例提供的视频配音方法。

在一些实施例中，终端800还可选包括有：***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口803相连。具体地，***设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

***设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本申请实施例提供的一种服务器的结构示意图，该服务器900可以包括一个或多个处理器(Central Processing Units，CPU)901和一个或多个的存储器902，其中，该一个或多个存储器902中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由处理器执行以完成上述实施例中的视频配音方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来至少一条程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频配音方法，其特征在于，所述方法包括：

显示配音界面，所述配音界面上显示有目标视频的多个视频帧；

基于在所述配音界面所采集的文本信息以及被选中的音色类型，生成与所述文本信息相对应的语音数据，所述语音数据的音频特征基于所述音色类型确定；

基于所述多个视频帧中被选中的目标视频帧，将所述语音数据添加至所述目标视频中，所述语音数据的起始播放时刻与所述目标视频帧的播放时刻相同。

2.根据权利要求1所述的方法，其特征在于，所述基于在所述配音界面所采集的文本信息以及被选中的音色类型，生成与所述文本信息相对应的语音数据，包括：

获取所述音色类型所对应的音色特征；

获取所述文本信息对应的音素序列；

基于所述音素序列以及所述音色特征，生成所述语音数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述音素序列以及所述音色特征，生成所述语音数据，包括：

对所述文本信息进行情绪识别，得到所述文本信息所对应的情绪特征，所述情绪特征用于指示所述文本信息对应的情绪信息；

基于所述音素序列、所述音色特征以及所述情绪特征，生成语音数据，所述语音数据的音频特征基于所述情绪信息的变化而变化。

4.根据权利要求2所述的方法，其特征在于，所述基于所述音素序列以及所述音色特征，生成所述语音数据，包括：

获取所述目标视频中背景音乐的音频特征；

基于所述音素序列、所述音色特征以及所述背景音乐的音频特征，生成所述语音数据，所述语音数据的音频特征基于所述背景音乐音频特征的变化而变化。

5.根据权利要求1所述的方法，其特征在于，所述基于在所述配音界面所采集的文本信息以及被选中的音色类型，生成与所述文本信息相对应的语音数据之后，所述方法还包括：

接收对所述语音数据的编辑指令，所述编辑指令携带有第一音量信息以及第二音量信息；

基于所述第一音量信息调整所述语音数据的播放音量，基于所述第二音量信息调整所述目标视频的播放音量。

6.根据权利要求1所述的方法，其特征在于，所述显示配音界面之后，所述方法还包括：

当接收到文本添加指令时，生成与所述文本信息相对应的目标图像；

将所述目标图像添加至所述目标视频帧的目标位置。

7.一种视频配音装置，其特征在于，所述装置包括：

显示模块，用于显示配音界面，所述配音界面上显示有目标视频的多个视频帧；

语音生成模块，用于基于在所述配音界面所采集的文本信息以及被选中的音色类型，生成与所述文本信息相对应的语音数据，所述语音数据的音频特征基于所述音色类型确定；

语音添加模块，用于基于所述多个视频帧中被选中的目标视频帧，将所述语音数据添加至所述目标视频中，所述语音数据的起始播放时刻与所述目标视频帧的播放时刻相同。

8.根据权利要求7所述的装置，其特征在于，所述语音生成模块用于：

获取所述音色类型所对应的音色特征；

获取所述文本信息对应的音素序列；

基于所述音素序列以及所述音色特征，生成所述语音数据。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频配音方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频配音方法所执行的操作。