CN112992116A

CN112992116A - 一种视频内容自动生成方法和***

Info

Publication number: CN112992116A
Application number: CN202110202986.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-18

Abstract

本发明公开了一种视频内容自动生成方法和***，其中方法包括：将输入数据生成为故事内容；将文本形式的所述故事内容合成为具有指定角色声音特征的朗读音频；将所述朗读音频作为面部动画合成模型的输入，由所述朗读音频驱动角色面部动画并生成面部动画视频。本发明在故事内容生成过程中，仅以一个起始单词作为新词的预测依据，大幅提高了故事内容的生成速度，进而确保了后续的故事内容文本转音频、音频驱动指定角色动画的速度。

Description

一种视频内容自动生成方法和***

技术领域

本发明涉及视频合成技术领域，具体涉及一种视频内容自动生成方法和***。

背景技术

人们在看小说或儿童故事时，故事中文字描述的场景内容会很容易让人联想到一些现实的场景。比如想象女巫的说话声音带有些“邪恶”，公主的说话声音是甜美、清澈的。小说或故事以文字形式呈现给用户无法带给人一种身临其境的感觉，有声小说因此诞生。但有声小说也有其自身的局限性，它只能在听觉上让人觉得身临其境，但缺乏画面感，无法直观的以动画形式将故事的场景内容呈现给用户。为了解决这个问题，语音驱动角色面部动画技术因此而诞生。

但上述的故事内容是预先编写好的，如果事先看过故事内容，故事的结局已被提前知晓，不具有可期待性，人们希望能够自定义故事内容，比如某个孩子想听有关“海洋世界”的故事，只需要给定“海洋”两个字，即可自动形成一篇有关“海洋世界”的故事，故事内容是全新的，将全新的故事内容以音视频形式呈现给用户，更具可期待性。但目前有关故事内容自动生成的方法不多，少有的故事内容自动生成方法中故事内容生成过程算法复杂，故事内容生成速度很慢，无法确保故事内容生成的实时性，导致影响后续的文字转音频、音频转视频的速度。

发明内容

本发明的目的在于提供一种视频内容自动生成方法和***，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种视频内容自动生成方法，具体步骤包括：

1)将输入数据生成为故事内容；

2)将文本形式的所述故事内容合成为具有指定角色声音特征的朗读音频；

3)将所述朗读音频作为面部动画合成模型的输入，由所述朗读音频驱动角色面部动画并生成面部动画视频；

步骤1)中，将输入数据生成为所述故事内容的具体方法步骤包括：

1.1)给定一起始单词；

1.2)将所述起始单词转换为可表征所述起始单词的词向量；

1.3)根据关联所述起始单词的所述词向量，计算词汇表中的每个单词可作为所述起始单词的下一个单词的概率；

1.4)选择概率值最大的单词作为新词加入到所述起始单词的尾部，与所述起始单词形成为新的词序列；

1.5)提取所述词序列中的排序最末的一个单词，并将提取的所述单词作为给定的所述起始单词并重复步骤1.2)-步骤1.4)，形成多个所述词序列；

1.6)按照词序列形成时间由早到晚将各所述词序列拼接形成为文本形式的所述故事内容。

作为本发明的一种优选方案，步骤2)中，将文本形式的所述故事内容合成为具有指定角色声音特征的朗读音频的具体方法步骤包括：

2.1)分析输入的所述故事内容的文本句子结构，以鉴别出文本语言，并对输入文本进行子句切分；

2.2)对切分的所述子句进行文本正则化处理；

2.3)将经正则化处理后的子句文本转换为音素；

2.4)对所述子句进行韵律预测；

2.5)将所述子句的音素和韵律综合形成为语言信息；

2.6)通过预设的时长模型确定所述子句中的每个文字的发音时长；

2.7)通过声学模型将所述语言信息转换为所述指定角色的声音特征；

2.8)通过声码器将所述声音特征转换为声音并输出。

本发明还提供了一种视频内容自动生成***，可实现所述的视频内容自动生成方法，所述视频内容自动生成***包括：

故事内容生成模块，用于将输入数据生成为故事内容；

音频合成模块，连接故事内容生成模块，用于将文本形式的故事内容合成为具有指定角色声音特征的朗读音频；

面部动画合成模块，连接音频合成模块，用于将朗读音频作为面部动画合成模型的输入，由朗读音频驱动角色面部动画并生成面部动画视频。

作为本发明的一种优选方案，所述故事内容生成模块中具体包括：

起始单词给定单元，用于提供给用户给定一起始单词；

单词转换单元，连接所述起始单词给定单元，用于将所述起始单词转换为可表征该所述起始单词的词向量；

单词预测单元，连接所述单词转换单元，用于根据关联该所述起始单词的所述词向量，计算词汇表中的每个单词可作为所述起始单词的下一个单词的概率；

单词选定单元，连接所述单词预测单元，用于从概率计算结果中自动选择概率值最大的所述单词作为可加入到所述起始单词尾部的新词；

新词加入单元，连接所述单词选定单元，用于将所述新词加入到所述起始单词的尾部；

词序列形成单元，连接所述起始单词给定单元和所述新词加入单元，用于将加入到所述起始单词的尾部的所述新词和所述起始单词形成为词序列并保存；

起始单词获取单元，连接所述词序列形成单元和所述单词转换单元，用于从形成的所述词序列中提取排序最末的一个单词作为给定的所述起始单词；

故事内容生成单元，连接所述词序列形成单元，用于按照词序列形成时间由早到晚将各所述词序列拼接形成为文本形式的所述故事内容。

作为本发明的一种优选方案，所述音频合成模块中具体包括：

句子结构分析单元，用于分析输入的所述故事内容的文本句子结构，以鉴别出文本语言，并对输入文本进行子句切分；

文本正则化处理单元，用于对切分的子句进行文本正则化处理；

子句文本转换单元，连接所述文本正则化处理单元，用于将正则化处理后的子句文本转换为音素；

韵律预测单元，用于对所述子句进行韵律预测；

子句语言信息生成单元，分别连接所述子句文本转换单元和所述韵律预测单元，用于将所述子句的音素和韵律综合形成为语言信息；

发音时长设置单元，用于通过预设的时长模型确定所述子句中的每个文字的发音时长；

语言信息转换单元，连接所述子句语言信息生成单元，用于通过声学模型将所述语言信息转换为所述指定角色的声音特征并输出；

声音特征转换单元，连接所述语言信息转换单元，用于通过声码器将所述声音特征转换为声音并输出。

本发明通过获取起始单词，并根据起始单词对应的词向量预测该起始单词的下一个单词，并将预测到的单词加入到起始单词尾部形成词序列，最后将多个词序列按照形成时间先后拼接形成完整的故事内容，由于本发明仅以一个起始单词作为新词的预测依据，大幅提高了故事内容的生成速度，进而确保了后续的故事内容文本转音频、音频驱动指定角色动画的速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的视频内容自动生成方法的步骤图；

图2是将输入数据生成为故事内容的方法步骤图；

图3是将故事内容合成为具有指定角色声音特征的朗读音频的方法步骤图；

图4是本发明一实施例提供的视频内容自动生成***的结构示意图；

图5是本发明一实施例提供的视频内容自动生成***中的故事内容生成模块的内部结构示意图；

图6是本发明一实施例提供的视频内容自动生成***中的音频合成模块的内部结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明一实施例提供的视频内容自动生成方法，如图1所示，包括如下步骤：

步骤1)将输入数据生成为故事内容；

步骤2)将文本形式的故事内容合成为具有指定角色声音特征的朗读音频；

步骤3)将朗读音频作为面部动画合成模型的输入，由朗读音频驱动角色面部动画并生成面部动画视频。

步骤1)中，如图2所示，将输入数据生成为故事内容的具体方法步骤包括：

步骤1.1)给定一起始单词；

步骤1.2)将起始单词转换为可表征起始单词的词向量；

步骤1.3)根据关联该起始单词的词向量，计算词汇表中的每个单词可作为该起始单词的下一个单词的概率；由于根据词向量结合预设的词汇表计算词汇表中的每个单词可作为该起始单词的下一个单词的概率的具体过程并非本发明要求权利保护的范围，所以概率计算的具体过程在此不做阐述；

步骤1.4)选择概率值最大的单词作为新词加入到该起始单词的尾部，与该起始单词形成为新的词序列；

步骤1.5)提取词序列中的排序最末的一个单词，并将提取的该单词作为给定的起始单词并重复步骤1.2)-步骤1.4)，形成多个词序列；

步骤1.6)按照词序列形成时间由早到晚将各词序列拼接形成为文本形式的故事内容。

上述的将输入数据生成为故事内容的原理简述如下：

比如给定起始单词为“海”，通过概率计算，单词“洋”为词汇表中可跟随在“海”的尾部的概率值最大的单词，那么就将单词“洋”加入到“海”的尾部，与“海”组成词序列“海洋”。然后提取词序列“海洋”中的“洋”作为新的起始单词，重复以上的单词预测过程，计算得到“世”为可跟随在“洋”后面的概率值最大的新词，那么将“世”加入到“洋”的尾部，形成新的词序列“洋世”，故事内容预测完成后，将各个词序列拼接起来，比如，将“海洋”“洋世”“世界”拼接起来形成为“海洋世界”。

步骤2)中，如图3所示，将文本形式的故事内容合成为具有指定角色声音特征的朗读音频的方法步骤具体包括：

步骤2.1)分析输入文本(故事内容)的句子结构，以鉴别出文本语言，并对输入文本进行子句切分(将故事内容划分为一个一个句子)；

步骤2.2)对切分的子句进行文本正则化处理；正则化的目的是将句子中的标点符号和数字转化为汉字；

步骤2.3)将子句文本转换为音素；由于中文中存在多音字，所以必须通过一些辅助信息和一些算法来正确的决策汉字到底该怎么读，这些辅助信息包括了分词和每个词的词性，这些辅助信息通常被称为音素；

步骤2.4)对子句进行韵律预测；韵律就是读一句话时的节奏，读句子时没有韵律会显得说话很生硬、不自然，所以需要对每个子句进行韵律预测；

步骤2.5)语言信息生成模块将子句的音素和韵律综合形成为语言信息；

步骤2.6)通过预设的时长模型确定子句中每个文字的发音时长；在朗读一句话的时候，根据上下文语境的不同，每个字朗读发音时间是不一样的，所以为了保证音频输出的自然度，需要确定每个文字的发音时长；

步骤2.7)通过声学模型将语言信息转换为指定角色的声音特征；

步骤2.8)通过声码器将声音特征转化为声音并输出。

本发明还提供了一种视频内容自动生成***，如图4所示，该***包括：

故事内容生成模块，用于将输入数据生成为故事内容；

具体地，如图5所示，故事内容生成模块中包括：

起始单词给定单元，用于提供给用户给定一起始单词；

单词转换单元，连接起始单词给定单元，用于将起始单词转换为可表征该起始单词的词向量；

单词预测单元，连接单词转换单元，用于根据关联该起始单词的词向量，计算词汇表中的每个单词可作为该起始单词的下一个单词的概率；

单词选定单元，连接单词预测单元，用于从概率计算结果中自动选择概率值最大的单词作为可加入到起始单词尾部的新词；

新词加入单元，连接单词选定单元，用于将新词加入到起始单词的尾部；

词序列形成单元，连接起始单词给定单元和新词加入单元，用于将加入到起始单词的尾部的新词和该起始单词形成为词序列并保存；

起始单词获取单元，连接词序列形成单元和单词转换单元，用于从形成的词序列中提取排序最末的一个单词作为给定的起始单词；

故事内容生成单元，连接词序列形成单元，用于按照词序列形成时间由早到晚将各词序列拼接形成为文本形式的故事内容。

具体地，如图6所示，音频合成模块中具体包括：

句子结构分析单元，用于分析输入的故事内容的文本句子结构，以鉴别出文本语言，并对输入文本进行子句切分；

子句文本转换单元，连接文本正则化处理单元，用于将正则化处理后的子句文本转换为音素；

韵律预测单元，用于对子句进行韵律预测；

子句语言信息生成单元，分别连接子句文本转换单元和韵律预测单元，用于将子句的音素和韵律综合形成为语言信息；

发音时长设置单元，用于通过预设的时长模型确定子句中的每个文字的发音时长；

语言信息转换单元，连接子句语言信息生成单元，用于通过声学模型将语言信息转换为指定角色的声音特征并输出；

声音特征转换单元，连接语言信息转换单元，用于通过声码器将声音特征转换为声音并输出。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种视频内容自动生成方法，其特征在于，具体步骤包括：

1)将输入数据生成为故事内容；

1.1)给定一起始单词；

1.2)将所述起始单词转换为可表征所述起始单词的词向量；

2.根据权利要求1所述的视频内容自动生成方法，其特征在于，步骤2)中，将文本形式的所述故事内容合成为具有指定角色声音特征的朗读音频的具体方法步骤包括：

2.2)对切分的所述子句进行文本正则化处理；

2.3)将经正则化处理后的子句文本转换为音素；

2.4)对所述子句进行韵律预测；

2.5)将所述子句的音素和韵律综合形成为语言信息；

2.8)通过声码器将所述声音特征转换为声音并输出。

3.一种视频内容自动生成***，可实现如权利要求1-2任意一项所述的视频内容自动生成方法，其特征在于，所述视频内容自动生成***包括：

故事内容生成模块，用于将输入数据生成为故事内容；

4.根据权利要求3所述的视频内容自动生成***，其特征在于，所述故事内容生成模块中具体包括：

起始单词给定单元，用于提供给用户给定一起始单词；

5.根据权利要求3所述的视频内容自动生成***，其特征在于，所述音频合成模块中具体包括：

韵律预测单元，用于对所述子句进行韵律预测；