CN113518160A

CN113518160A - 视频生成方法、装置、设备及存储介质

Info

Publication number: CN113518160A
Application number: CN202110035480.5A
Authority: CN
Inventors: 黄晓彤; 张涛; 陈晨; 高鹏飞; 黄亚雄; 肖荣涛; 邢小京; 王玥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-10-19

Abstract

本申请公开了一种视频生成方法、装置、设备及介质，运用于人工智能领域。该方法包括：响应于第一录音操作，录制第一语音内容；显示所述第一语音内容对应的第一文本素材和第一多媒体素材；响应于视频生成操作，显示具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的。该方法可以使用户采用较为简易的操作来生成视频。

Description

视频生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种视频生成方法、装置、设备及存储介质。

背景技术

视频是互联网资讯中较为优质的信息传播载体。很多在线资讯网站、视频网站、短视频APP(Application，应用程序)均采用视频作为主要呈现方式。

相关技术中提供有专业的视频制作软件，用户预先准备好文字素材、图片素材、音频素材、视频素材、转场动画等素材文件。然后在视频制作软件中对各种素材进行编辑，以生成视频文件。

由于视频制作软件的人机交互操作较为复杂，对于很多轻量级的视频制作场景来讲，用户使用视频制作软件的学习成本太高，效率较为低下。

发明内容

本申请提供了一种视频生成方法、装置、设备及存储介质，可以以较少的学习成本，以较为简易的录音操作来生成教程、培训类视频。所述技术方案如下：

根据本申请的一方面，提供了一种视频生成方法，所述方法包括：

响应于第一录音操作，录制第一语音内容；

显示所述第一语音内容对应的第一文本素材和第一多媒体素材；

响应于视频生成操作，显示具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的。

根据本申请的另一方面，提供了一种视频生成方法，所述方法应用于服务器中，所述方法包括：

响应于终端中的第一录音操作，获得第一文本素材和第一多媒体素材，所述第一文本素材是对所述第一语音内容进行语音识别所得到的，所述第一多媒体素材是基于所述第一语音内容和所述第一文本素材中的至少一种进行搜索得到的；

响应于所述终端中的视频生成操作，向所述终端发送具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的。

根据本申请的另一方面，提供了一种视频生成装置，所述装置包括：

录制模块，用于响应于第一录音操作，录制第一语音内容；

显示模块，用于显示所述第一语音内容对应的第一文本素材和第一多媒体素材；

所述显示模块，还用于响应于视频生成操作，显示具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的。

在本申请的一个可选设计中，所述显示模块，还用于在录音过程中，显示对所述第一语音内容进行语音识别所得到的所述第一文本素材。

在本申请的一个可选设计中，所述显示模块，还用于在录音结束后，显示所述第一语音内容对应的所述第一多媒体素材。

在本申请的一个可选设计中，所述显示模块，还用于在录音过程中识别到所述第一语音识别内容后，显示所述第一语音识别内容对应的所述第一多媒体素材；在识别到所述第二语音识别内容后，显示更新后的第一多媒体素材；其中，所述更新后的第一多媒体素材与所述第二语音识别内容对应，或者，所述更新后的第一多媒体素材与所述第一语音识别内容和所述第二语音识别内容对应。

在本申请的一个可选设计中，所述显示模块，还用于在录音过程中识别到所述第一语音识别内容后，显示所述第一语音识别内容对应的所述第一多媒体素材；在识别到所述第二语音识别内容后，显示所述第二语音识别内容对应的所述第一多媒体素材。

在本申请的一个可选设计中，所述显示模块，还用于显示视频制作界面，所述视频制作界面包括录音控件。

所述录制模块，还用于响应于所述录音控件上的第一录音操作，录制所述第一语音内容。

在本申请的一个可选设计中，所述第一多媒体素材包括：图片素材；所述第一视频片段的视频帧是基于所述图片素材生成的，所述第一视频片段的音频帧是基于所述语音内容生成的；或，所述第一多媒体素材包括：视频素材；所述第一视频片段的视频帧是基于所述视频素材生成的，所述第一视频片段的音频帧是基于所述语音内容生成的；或，所述第一多媒体素材包括：音频素材；所述第一视频片段的音频帧是基于所述语音内容和所述音频素材生成的。

在本申请的一个可选设计中，所述显示模块，还用于响应于所述第一文本素材上的编辑操作，显示编辑后的第一文本素材；其中，所述编辑操作包括：增加文字操作、删除文本操作、查找文字操作、修改文字操作、替换文字操作、移动文字操作、改变格式操作中的至少一种。

在本申请的一个可选设计中，所述显示模块，还用于显示所述第一多媒体素材对应的更换控件。

所述显示模块，还用于响应于所述更换控件上的更换操作，将备选多媒体素材显示为所述第一多媒体素材，所述备选多媒体素材是基于所述语音内容和所述第一文本素材中的至少一种进行搜索得到的。

在本申请的一个可选设计中，所述显示模块，还用于显示所述第一多媒体素材对应的删除控件；响应于所述删除控件上的删除操作，将所述第一多媒体素材删除且显示导入控件；响应于所述导入控件上的导入操作，将导入的多媒体素材显示为所述第一多媒体素材。

在本申请的一个可选设计中，所述录制模块，还用于响应于第二录音操作，录制第二语音内容。

所述显示模块，还用于显示所述第二语音内容对应的第二文本素材和第二多媒体素材，所述第二文本素材是对所述第二语音内容进行语音识别所得到的，所述第二多媒体素材是基于所述语音内容和所述第二文本素材中的至少一种进行搜索得到的。

所述显示模块，还用于响应于视频生成操作，显示具有第一视频片段和第二视频片段的视频，所述第二视频片段是基于所述第二文本素材和所述第二多媒体素材生成的。

在本申请的一个可选设计中，所述第一视频片段和所述第二视频片段之间还具有转场动画。

在本申请的一个可选设计中，所述第一文本素材以字幕的形式显示在所述第一视频片段中。

在本申请的一个可选设计中，所述显示模块，还用于显示具有所述第一视频片段的所述视频对应的分享控件。

所述装置还包括：

通讯模块，用于响应于所述分享控件上的分享操作，将具有所述第一视频片段的所述视频发送给其它终端；或者，响应于所述分享控件上的分享操作，将具有所述第一视频片段的所述视频发送到网络空间上。

在本申请的一个可选设计中，通讯模块，还用于向服务器发送所述第一语音内容。

所述通讯模块，还用于接收所述服务器回复的所述第一文本素材和所述第一多媒体素材。

在本申请的一个可选设计中，所述装置还包括：

识别模块，用于对所述第一语音内容进行语音识别，得到所述第一文本素材。

所述通讯模块，还用于向服务器发送所述第一文本素材。

所述通讯模块，还用于接收所述服务器基于所述第一文本素材回复的所述第一多媒体素材。

获取模块，用于获取第一文本素材和第一多媒体素材，所述第一文本素材是对第一语音内容进行语音识别所得到的，所述第一多媒体素材是基于所述第一语音内容和所述第一文本素材中的至少一种进行搜索得到的；所述第一语音内容是终端上的第一录音操作录制得到的；

合成模块，用于根据所述第一文本素材和第一多媒体素材生成具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的；

发送模块，用于向所述终端发送具有所述第一视频片段的所述视频。

在本申请的一个可选设计中，所述获取模块，还用于接收由所述终端发送的所述第一语音内容。

所述合成模块，还用于对所述第一语音内容进行语音识别，得到所述第一文本素材；从所述第一文本素材中提取关键词；基于所述关键词，搜索获得所述第一多媒体素材。

在本申请的一个可选设计中，所述获取模块，还用于接收由所述终端发送的所述第一文本素材，所述第一文本素材是所述终端对所述第一语音内容进行语音识别得到的。

所述合成模块，还用于从所述第一文本素材中提取所述关键词；基于所述关键词，搜索获得所述第一多媒体素材。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上所述的视频生成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上所述的视频生成方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。控制器从上述计算机可读存储介质读取上述计算机指令，上述控制器执行上述计算机指令，使得上述显示设备执行如上方面所述的视频生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

只需要用户录制第一语音内容，并进行简单的选择操作，就可以快速和简单地生成视频，不需要用户花费大量的时间去查找多媒体素材，也不需要用户有专业的视频剪辑知识。不仅可以降低用户使用视频制作软件的学习成本，还免去了用户查找素材的过程，提高视频制作的效率和人机交互效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的视频生成方法的示例性界面示意图；

图2是本申请一个示例性实施例提供的计算机***的结构示意图；

图3是本申请一个示例性实施例提供的视频生成方法的流程示意图；

图4是本申请一个示例性实施例提供的视频生成方法的示例性界面示意图；

图5是本申请一个示例性实施例提供的视频生成方法的流程示意图；

图6是本申请一个示例性实施例提供的视频生成方法的示例性界面示意图；

图7是本申请一个示例性实施例提供的视频生成方法的示例性界面示意图；

图8是本申请一个示例性实施例提供的视频生成方法的示例性界面示意图；

图9是本申请一个示例性实施例提供的视频生成方法的流程示意图；

图10是本申请一个示例性实施例提供的视频生成方法的流程示意图；

图11是本申请一个示例性实施例提供的视频生成方法的流程示意图；

图12是本申请一个示例性实施例提供的示例***架构；

图13是本申请一个示例性实施例提供的示例性的语音内容转换为文本素材的架构；

图14是本申请一个示例性实施例提供的后台***结构的示例性结构图；

图15是本申请一个示例性实施例提供的Windows服务器的示例性结构示意图；

图16是本申请一个示例性实施例提供的视频合成方法的流程示意图；

图17是本申请一个示例性实施例提供的视频合成装置的框图；

图18是本申请一个示例性实施例提供的视频合成装置的框图；

图19是本申请一个示例性实施例提供的服务器的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

人工智能(Artificial Intelligence，AI)：人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自然语言处理(Nature Language processing,NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理、图像处理、机器学习等技术，具体通过如下实施例进行说明：

示例性的，如图1所示，以医生制作视频为例，对本申请提供的视频生成方案进行说明。首先，用户界面11是视频制作界面，在用户界面11的顶部上显示有界面内容“创作内容”，在该段文字下面显示有视频标题“湿疹的症状和治疗”，在用户界面11的中部位置显示有文字“按住下方按钮开始录音”，医生可以按住用户界面11上的录音控件101准备开始录制语音内容。

在点击录音控件101后，显示用户界面12，在用户界面12上仍保留显示前述的界面标题“创作内容”和视频标题“湿疹的症状和治疗”，并且在视频标题的下方显示“正在录音”的文字提醒和图形提醒，用于提醒医生正在录制语音内容。在“正在录音”的提醒下方显示有“语音转文字”的工作状态，并在该工作状态的下方以文字的形式显示已经输入完成的语音内容，供医生随时查看。医生可以点击位于用户界面12底部中心位置的暂停控件102，暂时停止语音的录制。类似的，医生也可以点击位于暂停控件右侧的完成控件103，完成该段语音内容的输入。

在医生点击完成控件103后，显示用户界面13，同样地，在用户界面13上保留显示界面标题“创作内容”和视频标题“湿疹的症状和治疗”。在用户界面13的中部位置自上而下显示有播放控件104、第一文本素材105和第一多媒体素材106。其中，播放控件104用于播放输入的语音内容，第一文本素材105是根据输入的语音内容转换而成的文字，第一多媒体素材106是与语音内容和/或第一文本素材105相关的图片，例如，一张湿疹病人的图片。在用户界面13的右上角还显示有删除控件115，如果医生对输入的语音内容不满意，可以点击删除控件115，删除用户界面13上的播放控件104、第一文本素材105和第一多媒体素材106中的全部或一部分。在第一多媒体素材上还显示有更换控件107，如果医生对生成的第一多媒体素材107不满意，可以点击更换控件107，将第一多媒体素材106更换为其它多媒体素材。类似的，在用户界面13的底部也显示有录音控件101和完成控件103，点击录音控件101，医生可以继续录制下一段语音内容；点击完成控件103，即完成语音内容的录制，进入下一个步骤。

假设医生已经录制了两段语音内容，显示用户界面14，在用户界面14上显示有第二文本素材108和第二多媒体素材109，医生也可以更换第二多媒体素材109，或是播放语音内容，这里不再赘述。

在医生已经完成所有语音内容的输入后，点击完成用户界面14上的完成控件103，显示用户界面15，用户可以对用户界面15上显示的第一文本素材105、第一多媒体素材106、第二文本素材108和第二多媒体素材109进行编辑操作，比如，修改第一文本素材105的文字内容，或是点击第一多媒体素材106右上方的删除控件110，删除第一多媒体素材106。

在医生完成编辑操作后，点击用户界面15上的视频生成控件111，显示用户界面16，用户界面16显示有视频112，在视频112的下方显示有文本素材113，文本素材113是根据第一文本素材105和第二文本素材108获得的。医生还可以点击分享控件114，将生成的视频112和文本素材113分享给其它用户，或者上传到预设的网络空间。

图2示出了本申请一个示例性实施例提供的计算机***的结构示意图。该计算机***200包括：终端220和服务器240。

终端220上安装有与视频生成相关的客户端。该客户端可以是APP中的小程序，也可以是专门的应用程序程序，也可以是网页客户端。用户在终端220上进行和视频生成相关的操作。终端220是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

终端220通过无线网络或有线网络与服务器240相连。

服务器240可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器240用于为支持生成视频的应用程序提供后台服务。可选地，服务器240承担主要计算工作，终端220承担次要计算工作；或者，服务器240承担次要计算工作，终端220承担主要计算工作；或者，服务器240和终端220两者采用分布式计算架构进行协同计算。

图3示出了本申请一个示例性实施例提供的视频生成方法的流程示意图。该方法可由图2所示的终端220执行，该方法包括如下步骤：

步骤302：响应于第一录音操作，录制第一语音内容。

第一录音操作指用户录制语音的操作。第一录音操作为通过按压一个或多个预设的物理按键执行语音的录制，用户也可以通过在触摸屏上进行松开、长按、点击、双击和/或滑动所产生的信号执行第一录音操作。

第一语音内容指由用户实时录制的语音。可选地，第一语音内容是通过网络下载获得的，或者，第一语音内容是查询本地存储的音频数据获得的，或者，第一语音内容是由其他终端发送的。本实施例以第一语音内容为用户实时录制为例进行说明。

示例性的，如图4所示，用户界面41为视频制作界面，在用户界面41上显示有录音控件401，用户可以点击录音控件401开始录制第一语音内容，此外在用户界面41上还可以显示有视频标题和/或界面标题，视频标题用于表示待生成视频的主要内容，界面标题表示该用户界面的主要内容。在点击录音控件401后，显示用户界面42，用户界面42是录音界面，在用户界面上保留显示用户界面41上的视频标题和/或界面标题，并且显示提醒图标，提醒图标用于提醒用户终端正在接收用户的第一语音内容，该提醒图标由文字和/或图形构成。在界面42上还可以显示有文本素材403，将输入的部分第一语音内容转换为文字，获得文本素材403，即文本素材403是已经完成语音转换文字的部分。在界面42上还显示有暂停控件404，用户可以点击暂停控件404，以暂时停止第一语音内容的输入。在界面42上还显示有完成控件405，用户可以点击完成控件405，完成第一语音内容的输入。

步骤304：显示第一语音内容对应的第一文本素材和第一多媒体素材。

第一文本素材指通过识别第一语音内容所获得的文本。示例性的，第一语音内容为“如何治疗感冒”，则第一文本素材相应的为“如何治疗感冒”。第一文本素材为第一语音内容的文本表现，第一文本素材和第一语音内容所表达的语义相同。

语音识别可以将用户输入的语音内容转换为文字。存在多种方式可以实现语音识别，例如，建立语音和文字相对应的数据库，当输入一段语音后，在数据库内查找相对应的文字，或者，使用训练完成的语音识别神经网络，该语音识别神经网络可以将输入的语音，输出为文字。

第一文本素材可以是对第一语音内容进行分段翻译获得的，也可以是对第一语音内容进行整体翻译获得的。示例性的，第一语音内容为“要下雨了，记得带伞”，当采用分段翻译时，在输入语音内容“要下雨了”后，对该语音内容进行翻译，在输入语言内容“记得带伞”后，对该语音内容进行翻译，将两段翻译结果进行拼接，获得第一文本素材“要下雨了，记得带伞”。当采用整体翻译时，输入完整的语音内容“要下雨了，记得带伞”后，对该完整的语音内容进行翻译，获得第一文本素材“要下雨了，记得带伞”。

第一多媒体素材是基于第一语音内容和第一文本素材中的至少一种搜索获得的，第一多媒体素材和第一语音内容与第一文本素材之间存在直接或间接的关系。第一多媒体素材包括：图片、视频、音频中的至少一种。示例性的，第一文本素材为“感冒”，则第一多媒体素材是一段如何治疗感冒的视频，或者，是一张男人正在打喷嚏的图片。

示例性的，如图4所示，用户界面42为语音录制的中间用户界面，当用户完成语音录制后，点击用户界面42上的完成控件405，显示用户界面43，在用户界面43上仍旧保留显示视频标题和/或界面标题，在用户界面43上还显示有播放控件406，点击播放控件406，会播放用户录制的第一语音内容，在播放控件406周侧位置还显示有进度条，进度条用于表示第一语音内容的播放进程。用户还可以滑动前述的进度条，调整播放的内容。在用户界面43上还显示有第一文本素材407，第一文本素材407对第一语音内容进行语音识别所获得的。在用户界面43上还显示有第一多媒体素材408。在用户界面上还显示有录音控件401，用于供用户录制下一段语音内容。在用户界面43上还显示有完成控件414，完成控件414的作用与用户界面42中的完成控件405不同，此处完成控件414的作用是完成所有语音内容输入，并准备生成视频。可选地，在用户界面43上还可以显示有删除控件413，点击删除控件413可以删除用户界面上显示的播放控件406、第一文本素材407和第一多媒体素材408等显示元素，重新显示用户界面41。

步骤306：响应于视频生成操作，显示具有第一视频片段的视频，第一视频片段是基于第一文本素材和第一多媒体素材生成的。

视频生成操作用于基于第一文本素材和第一多媒体素材生成具有第一视频片段的视频。视频生成操作为通过按压一个或多个预设的物理按键执行视频的生成，用户也可以通过在触摸屏上进行松开、长按、点击、双击和/或滑动所产生的信号执行视频生成操作。

可选地，第一文本素材以字幕的形式显示在第一视频片段中。该字幕可以横向排列显示在第一视频片段的下侧或上侧，也可以纵向排列显示在第一视频片段的左侧或右侧。本申请对字幕的具体显示位置不做限定。

视频是由多个视频帧和多个音频帧组合而成的，根据第一多媒体素材的不同，生成第一视频片段的情形包括但不限于以下几种情况：

1、第一多媒体素材包括：图片素材。

第一视频片段的全部或部分视频帧是基于上述图片素材生成的，而第一视频片段的全部或部分音频帧是基于语音内容生成的。

2、第一多媒体素材包括：视频素材。

第一视频片段的全部或部分视频帧是基于上述视频素材生成的，而第一视频片段的全部或部分音频帧是基于语音内容生成的。

3、第一多媒体素材包括：音频素材。

第一视频片段的全部或部分音频帧是基于上述音频素材和语音内容生成的。

本申请中的第一视频片段的视频帧和音频帧的生成方式是上述的至少一种或组合。

第一视频片段指基于第一文本素材和第一多媒体素材生成的视频。

可选地，响应于视频生成操作，显示具有第一视频片段的视频和第一文本素材。

可选地，视频会被转码为不同分辨率和码率的视频，以适应不同种类的终端。

示例性的，如图4所示，用户点击用户界面43上的完成控件414，显示用户界面44，在用户界面44上显示有视频410，该视频410是根据第一多媒体素材408和第一文本素材407生成的。用户界面44上还显示有文本素材411，文本素材411包括了第一文本素材407的全部或部分内容，第一文本素材407还可以包括除第一文本素材以外的文本。可选地，用户界面44上还显示有分享控件412，用户点击分享控件412，可以将生成的视频410和文本素材411发送给其他用户，或者是发送到指定的网络空间中。

综上所述，本实施例只需要用户录制语音内容，并进行简单的操作，就可以快速获得视频，不需要用户花费大量的时间去查找素材，也不需要用户有专业的剪辑知识。不仅可以降低用户使用视频制作软件的学习成本，还免去了用户查找素材的过程，提高视频制作的效率和人机交互效率。

图5示出了本申请一个示例性实施例提供的视频生成方法的流程示意图。该方法可由图2所示的终端220执行，该方法包括如下步骤：

步骤501：显示视频制作界面，视频制作界面包括录音控件。

视频制作界面为视频制作的初始界面，用户通过该界面开始制作视频。

录音控件用于开始录制用户的语音。

可选地，在视频制作界面上还显示有视频标题和/或视频概述。

示例性的，如图1所示，用户界面11为视频制作界面，在界面11上显示有录音控件101。还可以显示有界面标题或视频标题。

步骤502：响应于录音控件上的第一录音操作，录制第一语音内容。

在本实施例中，第一语音内容指由用户实时录制的语音。

示例性的，如图1所示，用户点击界面11上的录音控件101，开始录制语音内容，在语音内容的录制过程中，终端的界面显示为用户界面12，在该界面上显示有文字提醒和图形提醒，用于提醒用户正在录制语音内容。在用户界面12上还显示有暂停控件102，暂时停止语音的录制在用户界面12上还显示有完成控件103，用于完成第一语音内容的输入。

步骤503：在录音过程中，显示对第一语音内容进行语音识别所得到的第一文本素材。

第一文本素材是对第一语音内容进行语音识别得到的。

可选地，在录音完成后，显示对第一语音内容进行语音识别所得到的第一文本素材。

示例性的，如图1所示，在用户界面12上，用户正在输入第一语音内容，在用户界面12上显示有第一文本素材105，这里的第一文本素材是对已经输入的第一语音内容进行语音识别所获得的。

步骤504：在录音结束后，显示第一语音内容对应的第一多媒体素材。

第一多媒体素材是基于第一语音内容和第一文本素材中的至少一种进行搜索得到的。

可选地，在录音结束后，显示第一多媒体素材和第一文本素材中的至少一种。

示例性的，如图1所示，在录音结束后显示用户界面13，在用户界面13上还可以显示有播放控件104、第一文本素材105和第一多媒体素材106。

可选地，在录音结束后，显示第一语音内容对应的图片素材、视频素材和音频素材中至少一种。

示例性的，如图7所示，在录音完成后，显示用户界面71，在用户界面71中，显示有多张图片素材701。

示例性的，如图8所示，在录音完成后，显示用户界面81，在用户界面81中，同时显示有多张图片素材801和音频素材802。

可选地，第一文本素材包括第一语音识别内容和第二语音识别内容，第一语音识别内容和第二语音识别内容是对第一语音内容中的不同部分进行语音识别得到的。

可选地，在录音过程中识别到第一语音识别内容后，显示第一语音识别内容对应的第一多媒体素材；在识别到第二语音识别内容后，显示更新后的第一多媒体素材；其中，更新后的第一多媒体素材与第二语音识别内容对应，或者，更新后的第一多媒体素材与第一语音识别内容和第二语音识别内容对应。示例性的，用户输入第一语音内容为“在一个晴天，我去操场跑步”，在用户输入第一语音内容后，终端先获取到第一语音识别内容“在一个晴天”，终端根据第一语音识别内容，在用户界面上显示与“晴天”相关的图片，例如一张太阳的图片，而当终端获取到第二语音识别内容“我去操场跑步”后，更新第一多媒体素材，取消显示原先的第一多媒体素材，显示更新后的第一多媒体素材，例如，一张跑步的人的图片。

可选地，在录音过程中识别到第一语音识别内容后，显示第一语音识别内容对应的第一多媒体素材；在识别到第二语音识别内容后，显示第二语音识别内容对应的第一多媒体素材。示例性的，用户输入第一语音内容“在一个晴天，我去操场跑步”，当终端获得第一语音识别内容“在一个晴天”后，在用户界面上显示与第一语音识别内容对应的第一多媒体素材，例如一张与“晴天”相关的图片，当用户输入第二语音识别内容后，保留显示第一多媒体素材，在用户界面的其它区域显示与第二语音识别内容对应的第一多媒体素材，例如，一张跑步的人的图片。

步骤505：显示第一多媒体素材对应的更换控件。

示例性的，如图1所示，在用户界面13中的第一多媒体106的底部显示有更换控件107，该更换控件107显示为“换一张”的文字标识。

步骤506：响应于更换控件上的更换操作，将备选多媒体素材显示为第一多媒体素材。

更换操作用于用户将第一多媒体素材更换为备选多媒体素材。更换操作为通过按压一个或多个预设的物理按键执行第一多媒体素材的更换，用户也可以通过在触摸屏上进行松开、长按、点击、双击和/或滑动所产生的信号执行更换操作。

备选多媒体素材是基于第一语音内容和第一文本素材中的至少一种进行搜索得到的。

可选地，将至少一个多媒体素材按照搜索结果进行排列，将排列的首个多媒体素材设置为第一多媒体素材，将剩余的多媒体素材设置为备选多媒体素材。

可选地，第一多媒体素材和备选多媒体素材按照与第一文本素材的关联度进行排列，或者按照与第一语音内容的关联度进行排列。

可选地，用户可以重复步骤506。

示例性的，用户可以点击用户界面13中的更换控件107，更换第一多媒体素材106为备选多媒体素材。

步骤507：响应于第二录音操作，录制第二语音内容。

第二录音操作指用户录制语音的操作。第二录音操作指用户录制语音的操作。第二录音操作为通过按压一个或多个预设的物理按键执行语音的录制，用户也可以通过在触摸屏上进行松开、长按、点击、双击和/或滑动所产生的信号执行第二录音操作。可选地，第二录音操作与第一录音操作相同，或不同。

第二语音内容指由用户实时录制的语音。可选地，第二语音内容是通过网络下载获得的，或者，第二语音内容是查询本地存储的音频数据获得的，或者，第二语音内容是由其他终端发送的。本实施例以第二语音内容为由用户实时录制为例进行说明。

示例性的，如图1所示，点击用户界面13上的录音控件101，录制第二语音内容，录制过程的用户界面，请参照用户界面12，这里不再赘述。

步骤508：显示第二语音内容对应的第二文本素材和第二多媒体素材。

第二文本素材是对第二语音内容进行语音识别所得到的。

第二多媒体素材是基于第二语音内容和第二文本素材中的至少一种进行搜索得到的。可选地，第二多媒体素材包括：图片、视频、音频中的至少一种。

示例性的，如图1所示，在第二语音内容录制完成后，显示用户界面14，在界面14上显示有播放控件104、第二文本素材108和第二多媒体素材109。用户界面14上还显示有录音控件101和完成控件103。用户可以点击录音控件101来录制更多的语音内容。当用户完成上述语音内容的输入后，点击完成控件103，结束语音内容的输入。

步骤509：响应于第一文本素材上的编辑操作，显示编辑后的第一文本素材。

编辑操作用于修改第一文本素材。其中，编辑操作包括：增加文字操作、删除文本操作、查找文字操作、修改文字操作、替换文字操作、移动文字操作、改变格式操作中的至少一种。

对第一文本素材和第一多媒体素材的编辑操作，可以在步骤505之前执行。本申请对操作的具体时序不做限定。

可选地，响应于第二文本素材上的编辑操作，显示编辑后的第二文本素材。

用户可以重复步骤509。

示例性的，如图1所示，在完成所有语音内容的输入后，点击用户界面14上的完成控件103，显示用户界面15。在用户界面15上，在用户界面上显示有第一文本素材105、第一多媒体素材106、第二文本素材108和第二多媒体素材109。用户在用户界面15可以直接点击第一文本素材105或者第二文本素材108，对其中的文字内容进行编辑。可选地，在用户界面15上还可以显示更多的文本素材或者多媒体素材，或者，显示更少的文本素材或多媒体素材，本申请对此不做限定。

步骤510：显示第一多媒体素材对应的删除控件。

删除控件用于取消显示第一多媒体素材。

可选地，显示第二多媒体素材对应的删除控件。

示例性的，如图6所示，在用户界面15上显示有删除控件110。删除控件110，删除控件110叠加显示在第一多媒体素材106的上方。

步骤511：响应于删除控件上的删除操作，将第一多媒体素材删除且显示导入控件。

删除操作为通过按压一个或多个预设的物理按键执行第一多媒体素材的删除，用户也可以通过在触摸屏上进行松开、长按、点击、双击和/或滑动所产生的信号执行删除操作。

可选地，响应于第二多媒体素材对应的删除控件上的删除操作，将第二多媒体素材删除且显示导入控件。

可选地，显示第二多媒体素材对应的导入控件，响应于对第二多媒体素材对应的倒入控件上的导入操作，将第二多媒体素材导入。此时，在用户界面上会同时显示第一多媒体素材和第二多媒体素材。用户还可以选择显示更多多媒体素材。

示例性的，如图6所示，点击用户界面15上的删除控件110，显示用户界面61，删除且取消显示第一多媒体素材106，在原来第一多媒体素材106的位置处显示导入控件601，导入控件601可以显示为一段文字，例如，用户界面61上显示的文字“导入其它图片”，也可以以按键的形式显示，本申请对此不作限定。

步骤512：响应于导入控件上的导入操作，将导入的多媒体素材显示为第一多媒体素材。

导入操作用于用户导入需要的多媒体素材。导入操作为通过按压一个或多个预设的物理按键执行多媒体素材的导入，用户也可以通过在触摸屏上进行松开、长按、点击、双击和/或滑动所产生的信号执行导入操作。

可选地，响应于删除控件上的删除操作，将第一多媒体素材删除且显示导入的多媒体素材。此时，不需要用户进行导入操作，终端可以直接将默认路径上的多媒体素材导入且显示。

示例性的，如图6所示，点击导入控件601，显示用户界面62，其中，在用户界面62中多媒体素材由第一多媒体素材106被更换为第一多媒体素材602。

可选地，步骤510至步骤512可以更换为，显示第二多媒体素材对应的删除控件；响应于删除控件上的删除操作，将第二多媒体素材删除且显示导入控件；响应于导入控件上的导入操作，将导入的多媒体素材显示为第二多媒体素材。更换后步骤510至步骤512可以与原步骤510至步骤512共同进行。

用户可以重复步骤510至步骤512。

步骤509与步骤510至步骤512在时序上不分先后。

步骤513：响应于视频生成操作，显示具有第一视频片段和第二视频片段的视频。

视频生成操作用于生成视频的操作。可选地，视频生成操作是点击、双击或按压视频生成控件或视频完成控件，或者，点击、双击或按压物理键盘的按键以生成视频。

第一视频片段和第二视频片段之间还具有转场动画。该过场动画用于衔接第一视频片段和第二视频片段，使得视频的画面播放更为通畅。

第二视频片段是基于第二文本素材和第二多媒体素材生成的。

可选地，在用户界面上还显示有具有第一视频片段的视频对应的分享控件，响应于分享控件上的分享操作，将具有第一视频片段的视频发送给其它终端；或者，响应于分享控件上的分享操作，将具有第一视频片段的视频发送到网络空间上。

示例性的，如图1所示，点击用户界面15上的生成视频控件111，显示用户界面16，其中，用户界面16上显示有视频112，视频112具有第一视频片段和第二视频片段，在视频112的下方显示有文本素材113，文本素材113是根据第一文本素材105和第二文本素材108获得的。在用户界面16上还显示有分享控件114，用户可以通过分享控件114将视频112和文本素材113分享给其它用户，或者上传到预设的网络空间。

综上所述，本实施例可以降低用户使用视频制作软件的学习成本，还免去了用户查找素材的过程，提高视频制作的效率和人机交互效率。

而且，用户可以将多段视频拼接为一段视频，延长视频的时长，丰富视频的内容，进一步提高视频制作效率和人机交互效率。

再之，用户可以对第一多媒体素材和第一文本素材进行编辑，提高视频的质量，使得视频的内容更加贴近实际。

预先说明，本申请共涉及：语音识别过程、关键字提取过程、多媒体素材搜索过程和视频制作过程。

然后上述四个过程中的每个过程，都可以由客户端或服务器来实现，然后至少分为如下几种可能的实现方式：

1、视频制作过程由客户端实现，语音识别过程、关键字提取过程和多媒体素材搜索过程由服务器实现。

2、语音识别过程和视频制作过程由客户端实现，关键字提取过程和多媒体素材搜索过程由服务器实现。

3、语音识别过程、关键字提取过程、多媒体素材搜索过程和视频制作过程均由客户端实现。

4、语音识别过程由客户端实现，关键字提取过程、多媒体素材搜索过程和视频制作过程由客户端实现。

5、语音识别过程和关键字提取过程由客户端实现，多媒体素材搜索过程和视频制作过程由客户端实现。

6、语音识别过程、关键字提取过程和视频制作过程由客户端实现，多媒体素材搜索过程由客户端实现。

下面用图9所示的实施例对上述的实现方式1进行介绍。该方法包括如下步骤：

步骤901：响应于第一录音操作，终端录制第一语音内容。

步骤902：终端向服务器发送第一语音内容。

步骤903：服务器接收第一语音内容。

第一文本素材是对第一语音内容进行语音识别所得到的。

终端接收服务器回复的第一文本素材和第一多媒体素材。

步骤904：服务器对第一语音内容进行语音识别，得到第一文本素材。

步骤905：服务器从第一文本素材中提取关键词。

提取关键词指提取文本素材中的可以表达核心思想的词语。一段文本素材中至少含有一个关键词。示例性的，文本素材为“感冒要怎么治疗？”，这段文本素材中的关键词为“感冒”和“治疗”。提取关键词的方法有多种，例如，将文本素材输入关键词提取神经网络，该神经网络的作用是提取文本素材中的关键词并输出，或者是，根据大量文本素材与关键词之间的关系，建立相应的数据库，从该数据库中检索获得关键词。

步骤906：服务器基于关键词，搜索获得第一多媒体素材。

终端向服务器发送第一文本素材。

可选地，服务器使用搜索引擎搜索第一语音内容和第一文本素材，获得第一多媒体素材，或者，服务器查询本地的存储器，获得第一多媒体素材，在上述的本地存储器中存储有第一语音素材和第一多媒体素材的对应关系或第一文本素材与第一多媒体素材的对应的关系，本申请对此不作限定。

步骤907：服务器向终端发送第一文本素材和第一多媒体素材。

终端接收服务器基于第一文本素材回复的第一多媒体素材。

步骤908：终端接收有服务器发送的第一文本素材和第一多媒体素材。

语音识别指将第一语音内容转换为第一文本素材，且两者表达的含义相同。示例性的，将第一语音内容“如何治疗感冒”，识别为第一文本素材“如何治疗感冒”。

步骤909：基于第一文本素材和第一多媒体素材，终端生成视频。

该视频具有第一视频片段，第一视频片段是根据第一文本素材和第一多媒体素材生成的。

可选地，录音操作分为多次进行，并生成多个视频片段，相邻的视频片段之间的转场动画是自动生成的，或者是用户自行设定的。

步骤910：终端显示视频。

终端向服务器发送关键词。

示例性的，如图1所示，在用户界面16上显示有视频112。

综上所述，本实施例提供了一种生成视频的方法，由于各类终端的处理能力不同，因此，本实施例将视频制作过程放在终端处处理，当终端的性能较差时，本实施例所提供的方法仍可以实现，降低了终端的处理压力。

下面用图10所示的实施例对上述的实现方式2进行介绍。该方法包括如下步骤：

以下步骤中的具体实现过程可以参照步骤901至步骤910，具体步骤在实施主体上会有所差异，但不影响具体的实现过程。

步骤1001：响应于第一录音操作，终端录制第一语音内容。

步骤1002：终端对第一语音内容进行语音识别，得到第一文本素材。

步骤1003：终端向服务器发送第一文本素材。

步骤1004：服务器接收第一文本素材。

步骤1005：服务器从第一文本素材中提取关键词。

步骤1006：基于关键词，服务器搜索获得第一多媒体素材。

步骤1007：服务器向终端发送第一多媒体素材。

步骤1008：终端接收由服务器发送的第一多媒体素材。

步骤1009：基于第一文本素材和第一多媒体素材，终端生成视频。

步骤1010：终端显示视频。

综上所述，本实施例中语音识别过程和视频制作过程由客户端实现，关键字提取过程和多媒体素材搜索过程由服务器实现。由终端承担部分计算任务，可以有效降低服务器的压力。

上述的两个实施方式是根据上面2个实施例易于思及的，此处不再一一赘述。

图11示出了本申请一个示例性实施例提供的视频生成方法的流程示意图。该方法应用于服务器中，该方法可由图2所示的服务器240执行，该方法包括以下步骤：

步骤1101：获取第一文本素材和第一多媒体素材，第一文本素材是对第一语音内容进行语音识别所得到的，第一多媒体素材是基于第一语音内容和第一文本素材中的至少一种进行搜索得到的，第一语音内容中终端上的第一录制操作得到的。

服务器获得第一文本素材和第一多媒体素材。

可选地，第一文本素材和第一多媒体素材是通过终端向服务器发送的，或者，第一文本素材和第一多媒体素材是预先存储于服务器中的。

步骤1102：根据第一文本素材和第一多媒体素材生成具有第一视频片段的视频，第一视频片段是基于第一文本素材和第一多媒体素材生成的。

步骤1103：向终端发送具有第一视频片段的视频。

综上所述，本实施例只需要用户录制语音内容，并进行简单的操作，就可以快速获得视频，不需要用户花费大量的时间去查找素材，也不需要用户有专业的剪辑知识。不仅可以降低用户使用视频制作软件的学习成本，还免去了用户查找素材的过程，提高视频制作的效率和人机交互效率。将处理过程放在服务器中实施，可以减少终端的计算压力，同时，由于服务器的处理能力普遍强于终端，因此可以提高效率。

示例性的，列出本申请的一个示例***器的服务架构，如图12所示：

该服务架构可分为四层，分别是数据接入层1201、业务逻辑层1202、数据访问层1203和持久层1204。应用程序通过数据接入层1201中的restful(一种网络应用程序的设计风格和开发方式)接口接入服务器。

数据接入层1001包括restful接口和接入服务器(Access Server)。其中，restful接口用于接入应用程序，并且在应用程序接入后，对请求进行接收和响应；接入服务器的作用是接收http(一个简单的请求-响应的协议)请求，将该http请求转化为Grpc(Googleremote procedure call，由谷歌公司开发的一种远程过程调用方法)，并调用业务逻辑层。

业务逻辑层1202使用Golang(一种编译语言)实现，对上层暴露Grpc服务，同时对内提供rpc(remote procedure call，远程过程调用)调用。业务逻辑层1002包括语音合成、语音转换、图片搜索、图文合成、图文摘要、视频生成中的至少一种。其中，语音合成指由文本素材生成相应的语音内容，是语音转换的逆过程；语音转换至由语音内容获得相应的文本素材；图片搜索指基于语音内容和文本素材，搜索相应的图片；图文合成指根据图片和文本素材生成相应的文章，该文章中包括了前述的图片和文本素材；图文摘要指提取文本素材中的关键词，并形成相应的摘要；视频生成指根据图片和和语音内容生成视频。业务逻辑层1202还包括服务告警、内容告警、用户管理、文章管理和信息配置中的至少一种。其中，服务告警用于检测服务器提供的服务是否存在风险；内容告警用于服务器提供的内容是否符合预设条件；用户管理给用户提供了管理服务器部分或全部内容的权限；文章管理用于管理服务器内存储的文本素材；信息配置用于配置服务器内容的各类信息。业务逻辑层还包括日志记录。其中，日志记录中记录了服务器的历史记录，便于用户和技术人员查阅。业务逻辑层还可以包括其它的内容，本申请对此不作具体限定。

数据访问层1203用于为服务器提供访问数据的方法。数据访问层1203包括聚合管道(Aggregation Pipeline)、应用程序接口调用(Application Programming InterfaceCaller，API Caller)、Mysql连接池(Mysql为一种开放源代码的关系型数据库管理***，Pool表示连接池，用于存储各类连接)和Redis连接池(Redis是一个开源的数据库，Pool同上，为连接池)中的至少一中。其中，聚合管道是一个基于数据处理管道概念建模的数据聚合框架，可以将输入的文档转换为聚合后的结果；应用程序接口调用用于调用接口所对应的应用程序；Mysql连接池用于提供到Mysql的连接；Redis连接池用于提供到Redis的连接。可选地，数据访问层1003还包括数据库交互，缓存交互、应用程序接***互中的至少一种。

持久层1204主要用于存放各类数据。持久层包括集群和腾讯云分布式文件***(Tencent Cloud China Operating System，Tencent Cloud COS)中的至少一种。其中，集群是一组相互独立的、通过高速网络互联的计算机，它们构成了一个组，并以单一***的模式加以管理。一个客户与集群相互作用时，集群像是一个独立的服务器，一个集群中包括主节点和从节点；腾讯云分布式文件***可以提供分布式存储服务。

在该服务架构的消息队列中包括渗透测试工具(例如Sparta Nginx)、远程过程调用(例如Golong grpc，Golong是一种基于grpc的编程语言)、读取指令(例如Crontab指令)和开源日志组件(例如Logback)中的至少一种。其中，Nginx渗透测试工具用于进行端口扫描；读取指令可以读取输入设备的标准指令，并将其存放于指定的文件中，以供之后读取和执行；开源日志组件可以存储日志。

示例性的，给出一种示例性的语音内容转换为文本素材的架构，如图13所示：

该架构包括业务接入层1301、能力组合1302、语音识别基础1303、语料部分1304和对外能力1305中的至少一种。

业务接入层1301用于接入外部的其它应用，业务接入层1301包括：Web Services(一款独立的应用程序)、超文本传输协议的restful接口和软件开发工具包(SoftwareDevelopment Kit，SDK)中的至少一种。其中，Web Services可以提供数据交互或集成的平台；超文本传输协议的restful接口可以同时支持超文本传输协议接口和restful接口，便于数据交互；软件开发工具包用于为应用程序提供应用程序接口。

能力组合1302将服务器提供的服务进行组合，针对特定的而服务进行打包，并对外提供标准服务接口。能力组合1302包括不同能力组合调用应用程序接口、语音识别开发应用程序接口和语义理解开发应用程序接口中的至少一种。其中，不同能力组合调用应用程序接口用于对外提供可以实现多种不同服务的接口；语音识别开发应用程序接口用于对外提供语音识别的接口；语义理解开发应用程序接口用于对外提供语义理解的接口。能力组合1302还可以提供其他标准服务接口，在此不做赘述，本申请对此不作具体限定。

语音识别基础1303是指服务器所能提供的各类基础服务。语音识别基础1303包括文本转写、声纹识别、录音分割、拼音标注、静音检测中的至少一种。其中，文本转写可以将文本素材转写为其它格式的文本；声纹识别用于识别语音内容所对应的声纹；录音分割用于分割语音内容，便于进行语音识别；拼音标注用于在文本素材上标注相应的拼音；静音检测用于判断语音内容是否处于静音状态，并确定是否需要对其进行语音识别。语音识别基础1303还包括分词、同义词、标注、语法分析、停用词、拼音检索的服务。其中，分词的服务用于判断语音内容中是否存在分词；同义词的服务用于对文本素材中的部分或全部文本进行同义词的替换；标注的服务用于在文本素材中标注拼音或注解；语法分析的服务用于分析文本素材的语法是否正确，并加以修正；拼音检索的服务用于件文本素材中的文本的拼音。

语料部分1304用于存放各类语料和服务，语料部分1304包括语料资源和服务资源。语料部分包括通用语料数据库、专业语料数据库、特殊语料数据库中的至少一种。其中，通用语料数据库存放的是日常使用的语言材料；专业语料数据库存放的是专业领域会使用到的语言材料；特殊语料数据库存放的是一些特殊词汇所对应的语言材料。服务资源包括通用服务数据库、账号服务数据库、调用服务数据库中的至少一种。其中，通用服务数据库存放的是常用服务所需要用到的数据，例如，页面上的显示元素所对应的数据；账号服务数据库存放的是用户的账号信息；调用服务数据库存放的是各类服务所对应的调用接口。

对外能力1305用于向外界其它应用程序提供服务。对外能力1305包括业务调用接口管理、用户管理、接入服务管理、统计分析管理中的至少一种。其中，业务调用接口管理用于向外界提供该架构所能实现的各类服务，比如，文本转写、拼音标注等服务的个体或者组合；用户管理用于对外提供一种管理用户的方法；接入服务管理用于外界其它应用程序接入该架构，并调用该架构的全部或部分功能；统计分析管理用于统计该架构的各类数据，例如，访问人次、使用次数等，并对其进行分析，获得相应的分析结果。

在本实施例中，架构的核心是把语音大数据需要处理的各类基础能力进行模块化区分，并定义各类模块化对外服务接口，使语音大数据的处理更加面向应用的软件***、分析***的业务需求，使大数据中蕴含的价值能被充分挖掘。需要说明的是，语义理解技术在大数据挖掘中也是核心技术，事实上单纯的语音识别技术如果不与语义理解技术进行充分融合，语音大数据挖掘及应用的效果将大打折扣。

示例性的，图14示出了本申请一个示例性实施例提供的后台***结构的示例性结构图。

该后台***包括前端1401、服务端1402和数据端1403。该后台***整体采用LNMP架构(L指Linux，一套常用的操作***；N指Nginx，一个高性能的HTTP和反向代理网页服务器；M指Mysql数据库；P指PHP，Personal Home Page，一种创建动态交互性站点的强有力的服务器端脚本语言)。

前端1401由超文本标记语言(HyperText Markup Language,HTML，一种用于创建网页的标准标记语言)、层叠样式表(Cascading Style Sheets，CSS，一种用来表现HTML文件样式的计算机语言)和极快瑞(JQUERY，一个快速，小型且功能丰富的JavaScript库，可以对HTML文档进行遍历和操纵)组成。

服务端1402由超文本预处理器(PHP)、NGINX、FFMPEG(一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序)、LINUX、图形视频处理软件(例如Adobe After Effects，由Adobe公司推出的一款图形视频处理软件)、视窗服务器(WindowsServer)组成。

数据端1403由数据库(比如MYSQL数据库)组成。

示例性的，图15示出了本申请一个示例性的实施例提供的Windows Server架构。

在该架构中网页客户端(前端)1501通过api接口连接到网关(Gateway)1505上，通过编程语言指令(page)与网页客户端(后端)1504连接，应用程序平台1502和移动端应用程序1503均通过api接口连接到网页客户端(后端)1504上，网关1505通过HTTP API连接到条件随机场算法管理器可扩展节点1506(conditional random field algorithm-managerscalable-nodes，crf-manager scalable-nodes)上，条件随机场算法管理器可扩展节点1506包括基于资源的网络路由器(crf-manager scalable-nodes)、消息推送空间(socketpush rooms，emit)、认证中心/安全中心(auth/security middleware)、存储服务，数据库，文件缓存(storage service db，file，cache)、消息队列的终止和建立(broker mqpublish)、消息队列表(task-queue scheduler)中的至少一种。条件随机场算法管理器可扩展节点1506通过AMQC远程过程调用(其中，AMQP指Advanced Message QueuingProtocol，一个提供统一消息服务的应用层标准高级消息队列协议)连接到条件随机场算法渲染器可伸缩节点1507(conditional random field algorithm-renderer scalable-nodes，crf-renderer scalable-nodes)上，条件随机场算法渲染器可伸缩节点1507包括本地任务管理模板，作业/子作业(local task management templates，jobs/subjobs)、本地配置主题，频道(local configuration topic，channel)、事件预约，通知(event emergingsubscriber，notification)、渲染器适配器层多引擎支持(renderer adapter layermultiple engine support)中的至少一种。在视窗服务器架构中还包括KV缓存器1508(Key-Value Cache，KV指一种计算机缓存的设计)和消息队列1509(Message Queue)。视窗服务器架构还包括底层设备部署1510(deployment infrastructure)，其中，底层设备部署1510包括持续集成编译，测试，创建(Continuous Integration lint，test，build，CIlint，test，build)、临时版本控制及创建(version control staging production)、定义和运行应用程序的工具(例如docker compose)、腾讯云服务器(qcloud services CloudVirtual Machine，qcloud services cvm)、负载均衡监视器(load balance monitor)中的至少一种。

示例性的，图16示出了本申请一个示例性实施例提供的视频合成方法的流程示意图。该方法包括以下步骤：

步骤1601：对第一多媒体素材、第一语音内容和第一文本素材进行标准化处理。

通过FFMPEG对第一多媒体素材、第一语音内容和第一文本素材进行标准化处理。处理内容包括尺寸和编码格式中的至少一个。

步骤1602：将第一多媒体素材、第一语音内容和第一文本素材发送给视窗服务器。

将第一多媒体素材、第一语音内容和第一文本素材以JSON格式发送给视窗服务器上的视频合成服务。

步骤1603：由视窗服务器返回具有第一视频片段的视频。

其中，视窗服务器上的视频合成服务对JSON内容进行解析，提取第一多媒体素材、第一语音内容和第一文本素材及视频配置内容，并对第一多媒体素材、第一语音内容和第一文本素材通过After Effect接口合成第一视频片段的视频。

可选地，通过After effect(一种专业的生成视频的软件)的命令执行程序aerender(是Adobe公司的视频制作工具After effect的命令行执行程序)，并调用模板xml(可扩展标记语言)，为视频添加相应的特效，生成具有第一视频片段的视频。

示例性的，启动命令为“aerender-project test.aepx-comp“test”-RStemplate“test_1”-Omtemplate“test_2”-output test.mov。

具体参数解释如下：

参数project表示目前工程模板文件为test.aepx；

参数comp表示此次合成使用的合成器名称是test；

参数RStemplate表示渲染模板名称是test_1；

参数Omtemplate表示视频输出模板名是test_2；

参数output表示输出视频名为test.mov。

可选地，After effect模板中可添加多段效果，并通过链式循环调用aerender对生成的视频进行反复叠加效果处理。

步骤1604：对具有第一视频片段的视频进行转码。

对具有第一视频片段的视频通过FFMPEG进行转码，生成适配各个终端的格式。

可选地，通过FFMPEG对具有第一视频片段的视频做编码、音频整合、字幕整合处理。

可选地，在aerender处理后，再通过FFMPEG进行再次处理，补充效果内容，例如，增加片头、增加片尾、增加声音、视频编码等。

步骤1605：将转码后的视频发送给终端。

综上所述，本实施例给出了一种实现视频合成的示例性方式，提供了一种技术上的可能。只需要用户录制语音内容，并进行简单的操作，就可以快速获得视频，不需要用户花费大量的时间去查找素材，也不需要用户有专业的剪辑知识。不仅可以降低用户使用视频制作软件的学习成本，还免去了用户查找素材的过程，提高视频制作的效率和人机交互效率。

图17示出了本申请一个示例性实施例提供的视频合成装置的框图，所述装置1700包括：

录制模块1701，用于响应于第一录音操作，录制第一语音内容；

显示模块1702，用于显示所述第一语音内容对应的第一文本素材和第一多媒体素材，所述第一文本素材是对所述第一语音内容进行语音识别所得到的，所述第一多媒体素材是基于所述第一语音内容和所述第一文本素材中的至少一种进行搜索得到的；

在本申请的一个可选设计中，所述显示模块1702，还用于在录音过程中识别到所述第一语音识别内容后，显示所述第一语音识别内容对应的所述第一多媒体素材；在识别到所述第二语音识别内容后，显示更新后的第一多媒体素材；其中，所述更新后的第一多媒体素材与所述第二语音识别内容对应，或者，所述更新后的第一多媒体素材与所述第一语音识别内容和所述第二语音识别内容对应。

在本申请的一个可选设计中，所述显示模块1702，还用于在录音过程中识别到所述第一语音识别内容后，显示所述第一语音识别内容对应的所述第一多媒体素材；在识别到所述第二语音识别内容后，显示所述第二语音识别内容对应的所述第一多媒体素材。

所述显示模块1702，还用于响应于视频生成操作，显示具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的。

在本申请的一个可选设计中，所述显示模块1702，还用于在录音过程中，显示对所述第一语音内容进行语音识别所得到的所述第一文本素材。

在本申请的一个可选设计中，所述显示模块1702，还用于在录音结束后，显示所述第一语音内容对应的所述第一多媒体素材。

在本申请的一个可选设计中，所述显示模块1702，还用于显示视频制作界面，所述视频制作界面包括录音控件。

所述录制模块1701，还用于响应于所述录音控件上的第一录音操作，录制所述第一语音内容。

在本申请的一个可选设计中，所述显示模块1702，还用于响应于所述第一文本素材上的编辑操作，显示编辑后的第一文本素材；其中，所述编辑操作包括：增加文字操作、删除文本操作、查找文字操作、修改文字操作、替换文字操作、移动文字操作、改变格式操作中的至少一种。

在本申请的一个可选设计中，所述显示模块1702，还用于显示所述第一多媒体素材对应的更换控件。

所述显示模块1702，还用于响应于所述更换控件上的更换操作，将备选多媒体素材显示为所述第一多媒体素材，所述备选多媒体素材是基于所述语音内容和所述第一文本素材中的至少一种进行搜索得到的。

在本申请的一个可选设计中，所述显示模块1702，还用于显示所述第一多媒体素材对应的删除控件；响应于所述删除控件上的删除操作，将所述第一多媒体素材删除且显示导入控件；响应于所述导入控件上的导入操作，将导入的多媒体素材显示为所述第一多媒体素材。

在本申请的一个可选设计中，所述录制模块1701，还用于响应于第二录音操作，录制第二语音内容。

所述显示模块1702，还用于显示所述第二语音内容对应的第二文本素材和第二多媒体素材，所述第二文本素材是对所述第二语音内容进行语音识别所得到的，所述第二多媒体素材是基于所述语音内容和所述第二文本素材中的至少一种进行搜索得到的。

所述显示模块1702，还用于响应于视频生成操作，显示具有第一视频片段和第二视频片段的视频，所述第二视频片段是基于所述第二文本素材和所述第二多媒体素材生成的。

在本申请的一个可选设计中，所述显示模块1702，还用于显示具有所述第一视频片段的所述视频对应的分享控件。

所述装置1700还包括：

通讯模块1703，用于响应于所述分享控件上的分享操作，将具有所述第一视频片段的所述视频发送给其它终端；或者，响应于所述分享控件上的分享操作，将具有所述第一视频片段的所述视频发送到网络空间上。

在本申请的一个可选设计中，所述通讯模块1703，还用于向服务器发送所述第一语音内容。

所述通讯模块1703，还用于接收所述服务器回复的所述第一文本素材和所述第一多媒体素材。

在本申请的一个可选设计中，所述装置1700还包括：

识别模块1704，用于对所述第一语音内容进行语音识别，得到所述第一文本素材。

所述通讯模块1703，还用于向服务器发送所述第一文本素材。

所述通讯模块1703，还用于接收所述服务器基于所述第一文本素材回复的所述第一多媒体素材。

在本申请的一个可选设计中，所述识别模块1704，还用于对所述第一语音内容进行语音识别，得到所述第一文本素材；从所述第一文本素材中提取关键词。

所述通讯模块1703，还用于向服务器发送所述关键词；接收所述服务器基于所述关键词回复的所述第一多媒体素材。

图18示出了本申请一个示例性实施例提供的视频合成装置的框图，所述装置1800包括：

获取模块1801，用于获取第一文本素材和第一多媒体素材，所述第一文本素材是对第一语音内容进行语音识别所得到的，所述第一多媒体素材是基于所述第一语音内容和所述第一文本素材中的至少一种进行搜索得到的；所述第一语音内容是终端上的第一录音操作录制得到的；

合成模块1802，用于根据所述第一文本素材和第一多媒体素材生成具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的；

发送模块1803，用于向所述终端发送具有所述第一视频片段的所述视频。

在本申请的一个可选设计中，所述获取模块1801，还用于接收由所述终端发送的所述第一语音内容。

所述合成模块1802，还用于对所述第一语音内容进行语音识别，得到所述第一文本素材；从所述第一文本素材中提取关键词；基于所述关键词，搜索获得所述第一多媒体素材。

在本申请的一个可选设计中，所述获取模块1801，还用于接收由所述终端发送的所述第一文本素材，所述第一文本素材是所述终端对所述第一语音内容进行语音识别得到的。

所述合成模块1802，还用于从所述第一文本素材中提取所述关键词；基于所述关键词，搜索获得所述第一多媒体素材。

图19是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器1900包括中央处理单元(Central Processing Unit，CPU)1901、包括随机存取存储器(RandomAccess Memory，RAM)1902和只读存储器(Read-Only Memory，ROM)1903的***存储器1904，以及连接***存储器1904和中央处理单元1901的***总线1905。所述服务器1900还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(Input/Output，I/O***)1906，和用于存储操作***1913、应用程序1914和其他程序模块1915的大容量存储设备1907。

所述基本输入/输出***1906包括有用于显示信息的显示器1908和用于用户输入信息的诸如鼠标、键盘之类的输入设备1909。其中所述显示器1908和输入设备1909都通过连接到***总线1905的输入输出控制器1910连接到中央处理单元1901。所述基本输入/输出***1906还可以包括输入输出控制器1910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1907通过连接到***总线1905的大容量存储控制器(未示出)连接到中央处理单元1901。所述大容量存储设备1907及其相关联的计算机设备可读介质为服务器1900提供非易失性存储。也就是说，所述大容量存储设备1907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机设备可读介质(未示出)。

不失一般性，所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory，EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)，CD-ROM、数字视频光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的***存储器1904和大容量存储设备1907可以统称为存储器。

根据本公开的各种实施例，所述服务器1900还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即服务器1900可以通过连接在所述***总线1905上的网络接口单元1912连接到网络1911，或者说，也可以使用网络接口单元1912来连接到其他类型的网络或远程计算机设备***(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1901通过执行该一个或一个以上程序来实现上述视频合成方法的全部或者部分步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述各个方法实施例提供的视频合成方法。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的视频合成方法。

可选地，本申请还提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。控制器从上述计算机可读存储介质读取上述计算机指令，上述控制器执行上述计算机指令，使得上述显示设备执行如上方面所述的视频生成方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

响应于第一录音操作，录制第一语音内容；

2.根据权利要求1所述的方法，其特征在于，所述显示所述第一语音内容对应的第一文本素材，包括：

在录音过程中，显示对所述第一语音内容进行语音识别所得到的所述第一文本素材。

3.根据权利要求1所述的方法，其特征在于，所述显示所述第一语音内容对应的第一多媒体素材，包括：

在录音结束后，显示所述第一语音内容对应的所述第一多媒体素材。

4.根据权利要求1所述的方法，其特征在于，所述第一文本素材包括第一语音识别内容和第二语音识别内容，所述第一语音识别内容在所述第二语音识别内容之前识别得到；

所述显示所述第一语音内容对应的第一多媒体素材，包括：

在录音过程中识别到所述第一语音识别内容后，显示所述第一语音识别内容对应的所述第一多媒体素材；

在识别到所述第二语音识别内容后，显示更新后的第一多媒体素材；

其中，所述更新后的第一多媒体素材与所述第二语音识别内容对应，或者，所述更新后的第一多媒体素材与所述第一语音识别内容和所述第二语音识别内容对应。

5.根据权利要求1所述的方法，其特征在于，所述第一文本素材包括第一语音识别内容和第二语音识别内容，所述第一语音识别内容在所述第二语音识别内容之前识别得到；

所述显示所述第一语音内容对应的第一多媒体素材，包括：

在识别到所述第二语音识别内容后，显示所述第二语音识别内容对应的所述第一多媒体素材。

6.根据权利要求1至5任一所述的方法，其特征在于，

所述第一多媒体素材包括：图片素材；所述第一视频片段的视频帧是基于所述图片素材生成的，所述第一视频片段的音频帧是基于所述语音内容生成的；

或，

所述第一多媒体素材包括：视频素材；所述第一视频片段的视频帧是基于所述视频素材生成的，所述第一视频片段的音频帧是基于所述语音内容生成的；

或，

所述第一多媒体素材包括：音频素材；所述第一视频片段的音频帧是基于所述语音内容和所述音频素材生成的。

7.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

响应于所述第一文本素材上的编辑操作，显示编辑后的第一文本素材；

其中，所述编辑操作包括：增加文字操作、删除文本操作、查找文字操作、修改文字操作、替换文字操作、移动文字操作、改变格式操作中的至少一种。

8.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

显示所述第一多媒体素材对应的更换控件；

响应于所述更换控件上的更换操作，将备选多媒体素材显示为所述第一多媒体素材，所述备选多媒体素材是基于所述语音内容和所述第一文本素材中的至少一种进行搜索得到的。

9.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

显示所述第一多媒体素材对应的删除控件；

响应于所述删除控件上的删除操作，将所述第一多媒体素材删除且显示导入控件；

响应于所述导入控件上的导入操作，将导入的多媒体素材显示为所述第一多媒体素材。

10.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

响应于第二录音操作，录制第二语音内容；

显示所述第二语音内容对应的第二文本素材和第二多媒体素材，所述第二文本素材是对所述第二语音内容进行语音识别所得到的，所述第二多媒体素材是基于所述语音内容和所述第二文本素材中的至少一种进行搜索得到的；

所述响应于视频生成操作，显示具有第一视频片段的视频，包括：

响应于视频生成操作，显示具有第一视频片段和第二视频片段的视频，所述第二视频片段是基于所述第二文本素材和所述第二多媒体素材生成的。

11.一种视频生成方法，其特征在于，应用于服务器中，所述方法包括：

获取第一文本素材和第一多媒体素材，所述第一文本素材是对第一语音内容进行语音识别所得到的，所述第一多媒体素材是基于所述第一语音内容和所述第一文本素材中的至少一种进行搜索得到的；所述第一语音内容是终端上的第一录音操作录制得到的；

根据所述第一文本素材和第一多媒体素材生成具有第一视频片段的视频，所述第一视频片段是基于所述第一文本素材和所述第一多媒体素材生成的；

向所述终端发送具有所述第一视频片段的所述视频。

12.一种视频生成装置，其特征在于，所述装置包括：

录制模块，用于响应于第一录音操作，录制第一语音内容；

13.一种视频生成装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的视频生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的视频生成方法。