CN110781328A

CN110781328A - 基于语音识别的视频生成方法、***、装置和存储介质

Info

Publication number: CN110781328A
Application number: CN201910846382.2A
Authority: CN
Inventors: 呼伦夫
Original assignee: Tianmai Juyuan (hangzhou) Media Technology Co Ltd
Current assignee: Beijing Lajin Zhongbo Technology Co ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-02-11

Abstract

本发明公开了一种基于语音识别的视频生成方法、***、装置和存储介质，其中方法包括以下步骤：获取语音信息，并对语音信息进行识别后生成为文字信息；对文字信息进行解析后，获得文字特征；结合文字特征和预设的检索模型获取图片信息和/或视频信息；结合语音信息以及图片信息和/或视频信息生成视频数据。本发明根据用户输入的语音信息进行自动识别和解析，并根据解析获得的文字特征获取到图片信息和/或视频信息，无需人工检索搜集图片或视频素材，极大地节约了视频素材收集时间，提高了制作视频的效率，达到快速制作视频的效果，可广泛应用于视频制作领域。

Description

基于语音识别的视频生成方法、***、装置和存储介质

技术领域

本发明涉及视频制作领域，尤其涉及一种基于语音识别的视频生成方法、***、装置和存储介质。

背景技术

随着互联网技术及自媒体的发展，出现很多视频平台和对应的视频软件，比如今日头条、西瓜视频以及抖音等，同时也产生了很多网络红人和自媒体博主。博主通过制作视频在视频软件上播放，获取点击量和吸引粉丝关注，比如通过制作电影点评视频或者时事点评视频等。博主在制作视频时，既要撰写稿词，又得收集图片或视频素材，所以制作一个视频需要花费较多的时间，严重影响了制作视频的效率。目前，博主们迫切希望有相应的方案帮助提高视频制作效率，然而目前尚没有相应的方案。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能够基于语音识别快速制作视频的方法、***、装置和存储介质。

本发明所采用的第一技术方案是：

一种基于语音识别的视频生成方法，包括以下步骤：

获取语音信息，并对语音信息进行识别后生成为文字信息；

对文字信息进行解析后，获得文字特征；

结合文字特征和预设的检索模型获取图片信息和/或视频信息；

结合语音信息以及图片信息和/或视频信息生成视频数据。

进一步，所述对文字信息进行解析后，获得文字特征这一步骤，具体包括以下步骤：

识别文字信息中的名词词汇，并统计各名词词汇的出现次数；

根据各名词词汇的出现次数获取若干个关键名词词汇作为文字特征。

进一步，所述预设的检索模型为网络爬虫模型，所述结合文字特征和预设的检索模型获取图片信息和/或视频信息具体为：

结合文字特征和网络爬虫模型在网络中进行扫描检索，并获取与文字特征对应的图片信息和/或视频信息。

进一步，所述结合语音信息以及图片信息和/或视频信息生成视频数据这一步骤，具体包括以下步骤：

对检索获得的图片信息和/或视频信息进行排版；

采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据。

进一步，所述采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据这一步骤，具体为：

结合文字特征和预设的模型数据库获取播放场景模型；

采用预设的渲染引擎将语音信息、播放场景模型以及图片信息和/或视频信息合成视频数据。

进一步，还包括字幕生成步骤，所述字幕生成具体包括以下步骤：

按照预设方式将文字信息分成多段字幕后，对每段字幕进行标注排序，并按照排列顺序播放字幕；

通过识别视频播放过程中语音信息的文字，并根据识别到的文字控制各段字幕的显示时间，以使视频中的语音与字幕同步。

本发明所采用的第二技术方案是：

一种基于语音识别的视频生成***，包括：

语音转换模块，用于获取语音信息，并对语音信息进行识别后生成为文字信息；

文字解析模块，用于对文字信息进行解析后，获得文字特征；

图片获取模块，用于结合文字特征和预设的检索模型获取图片信息和/或视频信息；

视频生成模块，用于结合语音信息以及图片信息和/或视频信息生成视频数据。

进一步，所述文字解析模块包括词汇统计单元和特征提取单元；

所述词汇统计单元用于识别文字信息中的名词词汇，并统计各名词词汇的出现次数；

所述特征提取单元用于根据各名词词汇的出现次数获取若干个关键名词词汇作为文字特征。

本发明所采用的第三技术方案是：

一种基于语音识别的视频生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的第四技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明根据用户输入的语音信息进行自动识别和解析，并根据解析获得的文字特征获取到图片信息和/或视频信息，无需人工检索搜集图片或视频素材，极大地节约了视频素材收集时间，提高了制作视频的效率，达到快速制作视频的效果。

附图说明

图1是本发明一种基于语音识别的视频生成方法的步骤流程图；

图2是本发明一种基于语音识别的视频生成***的结构框图；

图3是具体实施例中一种播放场景模型的示意图；

图4是具体实施例中另一种播放场景模型的示意图。

具体实施方式

如图1所示，本实施例提供了一种基于语音识别的视频生成方法，包括以下步骤：

S1、获取语音信息，并对语音信息进行识别后生成为文字信息；

S2、对文字信息进行解析后，获得文字特征；

S3、结合文字特征和预设的检索模型获取图片信息和/或视频信息；

S4、结合语音信息以及图片信息和/或视频信息生成视频数据。

在本实施例方法中，所述语音信息可以为网上下载的语音数据，也可以为用户通过语音输入的语音数据，在本实施例中为用户输入的语音，例如，博主撰写完稿件后，对着稿件念稿词，以输入语音信息。获得语音信息后，对语音信息进行识别，以生成文字信息，其中，对语音信息进行识别可采用现有的技术来实现，比如通过百度AI开放平台进行识别，也可以采用现有的语音转文字的软件进行识别。对文字信息进行解析，从而提取出主要信息，即文字特征，根据获取到的文字特征，采用预设的检索模型获取图片信息和/或视频信息，所述预设的检索模型可以为网络爬虫模型，也可以为图文跨模态检索模型，所述图片信息为与文字特征对应的图片，所述视频信息为与文字特征对应的视频，比如文字特征为大桥，则获得到多个大桥的图片，或者大桥鸟瞰的视频。最后，结合语音信息以及图片信息和/或视频信息生成视频数据。如此，用户只需输入语音信息，即可根据语音信息自动地获取对应的图片和/或视频素材，免除了用户对视频素材收集以及剪辑等麻烦，极大的缩减了视频的制作时间，实现快速制作视频的愿望。

其中，所述步骤S2具体包括步骤S21～S22：

S21、识别文字信息中的名词词汇，并统计各名词词汇的出现次数；

S22、根据各名词词汇的出现次数获取若干个关键名词词汇作为文字特征。

识别文字信息中的名词词汇后，统计各词汇的出现次数，并根据统计结果获取若干个关键名词词汇，比如通过统计，获取出现次数最多的前五个名词词汇作为关键名词词汇。将获得的关键名词词汇作为文字特征，比如输入的文字信息是一篇对电影《大话西游》的点评，识别到的关键词为：大话西游、至尊宝、紫霞仙子和周星驰，则可根据获得的关键词检索对应的图片或视频，比如检索到大话西游中的视频数据或图片数据等。

所述预设的检索模型为网络爬虫模型，所述步骤S3具体为：结合文字特征和网络爬虫模型在网络中进行扫描检索，并获取与文字特征对应的图片信息和/或视频信息。

所述预设的检索模型可以采用网络爬虫模型，也可以为图文跨模态检索模型，当采用图文跨模态检索模型需预先建立图文数据库，最后通过比对图片和文本的相似度矩阵来获得最终的图片信息，这种模型可能比对的结果比较精准，但是由于需要搭建数据库且数据库的资源相对有限，所以本方案中采用网络爬虫模型，通过网络爬虫模型直接从网络中检索与文字特征对应的图片信息和/或视频信息，所述网络爬虫模型采用现有的模型来实现即可，在此并不要求特殊的模型结构。

其中，步骤S4具体包括步骤S41～S42：

S41、对检索获得的图片信息和/或视频信息进行排版；

S42、采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据。

对图片信息和/或视频信息进行排版，这里可由用户自己手动进行排版，也可以由***自动进行排版。手动排版时，可以手动调整设置每张图片或视频的播放顺序以及每张图片或视频的播放时长等，生成连续的画面数据。自动排版时，***自动将图片或视频进行排序，生成连续的画面数据。最后采用AI渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据，生成的新闻视频能够同步在音频上播放新闻稿的语音，在视频上连续播放对应的图片和/或视频。

步骤S42具体包括步骤A1～A2：

A1、结合文字特征和预设的模型数据库获取播放场景模型；

A2、采用预设的渲染引擎将语音信息、播放场景模型以及图片信息和/或视频信息合成视频数据。

为了增加新闻播放的丰富感，设置了播放场景模型，所述播放场景模型为虚拟的播放场景，比如包括虚拟的主持人和虚拟的播放背景等，根据文字特征获取对应的播放场景模型。参照图3，用户制作的是一个点评电影的视频，在识别到对比的关键词后，获取与电影相关联的播放背景，在播放背景中，虚拟主持的穿着比较休闲，且预设动作比较活泼，在播放背景中设有虚拟视频播放窗口，用户播放用户排版的图片数据和/或视频数据。参照图4，用户制作的是一个点评时事的视频，在识别到对比的关键词后，获取与时事相关的播放背景，在播放背景中，虚拟主持的穿着比较正式，且预设的动作也比较端庄。其中，所述模型数据库内包含有多种预先设计的播放场景模型，通过设置多种不同的播放场景模型，针对不同类型的视频内容提供不同的观看视觉，使视频内容更加丰富。

进一步作为优选的实施方式，还包括字幕生成步骤，所述字幕生成具体包括以下步骤：

在本实施例中，先将文字信息分为多段字幕，其中，可以按照符合的断句进行划分，比如在文字信息中遇到一个逗号或句话就划分为一段字幕，也可以按照字数来划分字幕，比如每段字幕固定文字个数，在本实例中采用识别符合的方式划分字幕，具体字幕的在视频如何呈现可采用现有的技术来实现即可，比如字幕的大小、位置和颜色等，这些在本方案中并不做具体的要求。划分好各段字幕后，对各段字幕进行排序，并使字幕按照排列顺序进行显示播放，具体某段字幕在视频画面中的显示时长采用以下方式进行控制：通过识别视频播放过程中语音信息的文字，将识别到文字与字幕中的文字进行匹配，从而获取到各字幕的显示时长，如此控制字幕与视频播放同步。

如图2所示，本实施例还提供了一种基于语音识别的视频生成***，包括：

进一步作为优选的实施方式，所述文字解析模块包括词汇统计单元和特征提取单元；

本实施例的一种基于语音识别的视频生成***，可执行本发明方法实施例所提供的一种基于语音识别的视频生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种基于语音识别的视频生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种基于语音识别的视频生成装置，可执行本发明方法实施例所提供的一种基于语音识别的视频生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本实施例的一种存储介质，可执行本发明方法实施例所提供的一种基于语音识别的视频生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于语音识别的视频生成方法，其特征在于，包括以下步骤：

获取语音信息，并对语音信息进行识别后生成为文字信息；

对文字信息进行解析后，获得文字特征；

结合语音信息以及图片信息和/或视频信息生成视频数据。

2.根据权利要求1所述的一种基于语音识别的视频生成方法，其特征在于，所述对文字信息进行解析后，获得文字特征这一步骤，具体包括以下步骤：

3.根据权利要求2所述的一种基于语音识别的视频生成方法，其特征在于，所述预设的检索模型为网络爬虫模型，所述结合文字特征和预设的检索模型获取图片信息和/或视频信息具体为：

4.根据权利要求1所述的一种基于语音识别的视频生成方法，其特征在于，所述结合语音信息以及图片信息和/或视频信息生成视频数据这一步骤，具体包括以下步骤：

对检索获得的图片信息和/或视频信息进行排版；

5.根据权利要求4所述的一种基于语音识别的视频生成方法，其特征在于，所述采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据这一步骤，具体为：

结合文字特征和预设的模型数据库获取播放场景模型；

6.根据权利要求1所述的一种基于语音识别的视频生成方法，其特征在于，还包括字幕生成步骤，所述字幕生成具体包括以下步骤：

7.一种基于语音识别的视频生成***，其特征在于，包括：

8.根据权利要求7所述的一种基于语音识别的视频生成方法，其特征在于，所述文字解析模块包括词汇统计单元和特征提取单元；

9.一种基于语音识别的视频生成装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-6任一项所述的一种基于语音识别的视频生成方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6任一项所述方法。