CN110704681B

CN110704681B - 一种生成视频的方法及***

Info

Publication number: CN110704681B
Application number: CN201910916151.4A
Authority: CN
Inventors: 范建康; 王标; 刘春华
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2023-03-24
Anticipated expiration: 2039-09-26
Also published as: CN110704681A; US20210097288A1; WO2021060757A1; US11881023B2

Abstract

本发明公开了一种生成视频的方法及***，本发明实施例的服务器端根据原始视频具有的时序特征对原始视频进行语义分析，对原始视频进行分片，得到具有语义信息的视频分片片段；根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；根据匹配得到的对应的具有时序特征的视频生成序列模块将得到具有语义信息的视频分片片段进行重组后，得到用户端的目标视频。这样，本发明实施例就可以根据用户意愿自动生成视频。

Description

一种生成视频的方法及***

技术领域

本发明涉及计算机技术领域，特别涉及一种生成视频的方法及***。

背景技术

目前，当获取到原始视频后，都会对原始视频进行处理，提取视频信息，生成自己感兴趣视频。在对原始视频进行处理时，可以提取视频标签或去除视频冗余部分，得到自己感兴趣的视频片段。

但是，采用上述方法对原始视频进行处理，生成视频时，仅仅是采用诸如提取视频标签或去除视频冗余等简单的手段对原始视频进行处理，没有涉及对原始视频进行统一的分片重组的方法，无法根据用户意愿自动生成视频。

发明内容

有鉴于此，本发明实施例提供一种生成视频的方法，该方法能够根据用户意愿自动生成视频。

本发明实施例还提供一种生成视频的***，该***能够根据用户意愿自动生成视频。

本发明实施例是这样实现的：

一种生成视频的方法，包括：

服务器端根据获取的原始视频具有的时序特征对所述原始视频进行语义分析，对原始视频分片，得到具有语义信息的视频分片片段；

服务器端根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；

服务器端根据匹配得到的对应的具有时序特征的视频生成序列模块将得到具有语义信息的视频分片片段进行重组，得到用户端的目标视频。

所述进行语义分析包括：

通过视频抓取方式、以及语音识别和图像识别方式对原始视频进行语义分析。

在得到用户端的目标视频之前，还包括：

对重组后的视频分片片段进行平滑处理，使得其统一化。

还包括：

所述设置的具有时序特征的视频生成序列模型根据从用户端获取的用户评价信息实时更新。

所述从用户端获取的偏好视频信息包括：

所述用户端为用户终端，在用户终端设置应用，通过应用采用设置的采集设备从用户端获取偏好视频信息。

一种生成视频的***，包括：原始视频接收模块、原始视频分析切片模块、模型生产模块及目标视频生成模块，其中，

原始视频接收模块，用于接收具有时序特征的原始视频；

原始视频分析切片模块，用于根据获取的原始视频具有的时序特征对所述原始视频进行语义分析，对原始视频分片，得到具有语义信息的视频分片片段；

模型生成模块，用于设置具有时序特征的视频生成序列模型；

目标视频生成模块，用于根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；根据匹配得到的对应的具有时序特征的视频生成序列模块将得到具有语义信息的视频分片片段进行重组，得到用户端的目标视频。

所述装置还包括存储模块，用于对具有语义信息的视频分片片段进行存储。

所述装置还包括视频统一处理模块，用于对重组后的视频分片片段进行平滑处理，使得其统一化。

还包括用户评价模块，用于接收用户评价信息，根据用户评价信息对具有时序特征的视频生成序列模型实时更新。

如上所见，本发明实施例的服务器端根据原始视频具有的时序特征对原始视频进行语义分析，对原始视频进行分片，得到具有语义信息的视频分片片段；根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；根据匹配得到的对应的具有时序特征的视频生成序列模块将得到具有语义信息的视频分片片段进行重组后，得到用户端的目标视频。这样，本发明实施例就可以根据用户意愿自动生成视频。

附图说明

图1为本发明实施例提供的生成视频的方法流程图；

图2为本发明实施例提供的服务器端装置示意图；

图3为本发明实施例提供的生成视频的过程示意图；

图4为本发明实施例提供的实施例一实现流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实施例为了根据用户意愿自动生成视频，针对具有时序特征的原始视频基于人工智能(AI)方法进行视频分片分段重组，结合用户端的当前实际情况及用户想要达到的目标视频，得到最终的目标视频。具体地说，本发明实施例的服务器端根据原始视频具有的时序特征对原始视频进行语义分析，对原始视频进行分片，得到具有语义信息的视频分片片段；根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；根据匹配得到的对应的具有时序特征的视频生成序列模块将得到具有语义信息的视频分片片段进行重组，得到用户端的目标视频。这样，本发明实施例就可以根据用户意愿自动生成视频。

这样，本发明实施例就可以根据用户意愿自动生成视频。

图1为本发明实施例提供的生成视频的方法流程图，其具体步骤为：

步骤101、服务器端根据获取的原始视频具有的时序特征对所述原始视频进行语义分析，对原始视频分片，得到具有语义信息的视频分片片段；

步骤102、服务器端根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；

步骤103、服务器端根据匹配得到的对应的具有时序特征的视频生成序列模块将得到具有语义信息的视频分片片段进行重组，得到用户端的目标视频。

在该方法中，所述进行语义分析包括：通过视频抓取方式、语音及图像识别等人工智能技术对原始视频进行语义分析。

在该方法中，所述用户端为用户终端，可以为智能终端，智能终端作为采集用户多种信息的终端设备，需要安装支持该方法的应用后，通过摄像头或话筒等采集设备，采集用户的偏好视频信息，同时接收服务器端发送的用户端的目标视频进行显示。

在该方法中，在得到用户端的目标视频之前，还包括：

对重组后的视频分片片段进行平滑处理，使得其统一化，且得到的用户端的目标视频更加平滑。

在该方法中，还包括：所述设置的具有时序特征的视频生成序列模型根据从用户端获取的用户评价信息实时更新和完善。

图2为本发明实施例提供的服务器端装置示意图，包括：原始视频接收模块、原始视频分析切片模块、模型生产模块及目标视频生成模块，其中，

原始视频接收模块，用于接收具有时序特征的原始视频；

在该装置中，还包括存储模块，用于对具有语义信息的视频分片片段进行存储。

在该装置中，还包括视频统一处理模块，用于对重组后的视频分片片段进行平滑处理，使得其统一化，且得到的用户端的目标视频更加平滑。

在该装置中，还包括用户评价模块，用于接收用户评价信息，根据用户评价信息对具有时序特征的视频生成序列模型实时更新和完善。

图3为本发明实施例提供的生成视频的过程示意图，结合图3对本发明实施例进行详细说明。

原始视频接收模块获取到具有时序特征的原始视频可以是人工导入，也可以是更智能地从网络中的视频网站根据视频相关标签自动搜索相关视频并下载导入。所述原始视频不需要存储，直接传给原始视频分析分片模块进行分析。

原始视频分析分片模块是该装置中的核心模块，运用视频捕捉方式、语音识别方式及图像识别方式等相关人工智能技术获取到该原始视频对应的文本序列，并对获取的文本序列进行语义分析后，根据语义活动信息对原始视频进行切片、去重及去除语义活动无关的视频分片，得到具有语义信息的视频分片片段。

存储模块存储的是具有语义信息的视频分片片段，该存储模块按照语义活动信息为视频分片片段建立索引，这样便于后续目标视频生成模块能够快速定位不同语义活动信息对应的视频分片片段。

模型生成模块在生成具有时序特征的视频生成序列模型时可以采用两种方法。第一种方法：根据原始视频分析分片模块的分析结果自动生成并存储具有时序特征的视频生成序列模型；具有时序关系的视频分片分段会自动产生一个视频生成序列模型。这样产生的视频生成序列模型具有合理性。第二种方式，预先设置具有时序特征的视频生成序列模型，包括模型的类别(诸如：化妆类别、烧菜类别和理发类别等)、步骤及各个步骤对应的权重等信息，这样，将设置的序列模型按照不同需求活动进行分类处理，这样便于视频生成流程中能够快速准确地定位符合需求的序列模型。

目标视频生成模块是该装置中另一个核心模块。在该模块中，已经预先设置了多个具有时序特征的视频生成序列模型，该模块根据从用户端获取的偏好视频信息，匹配合适的序列模块。找到合适的序列模型后，利用深度学习等相关技术从所述视频分片片段中获取并重组对应的视频分片片段信息，从而生成一条完整的符合要求的候选视屏，并根据匹配度为每种生成的候选视频计算一个权重值，然后依据权重值的大小顺序以列表方式传送到客户端的应用中。

视频统一处理模块对确定的作为用户端的目标视频进行统一化处理。由不同原始视频分片片段重组生成的新视频，由于视频及语音不统一，所以本模块对重组后的视频进行视频及语音进行统一化。主要运用人工智能图像识别技术对重组后的视频进行分析并消除差异化，使多个视频片段间实现平滑的过度；利用语音识别技术将多语音片段先转换为统一的文本格式，最后运用文本到语音转换(TTS,Text To Speech)技术将文本转化为统一的语音。

用户评价模块在采纳某个生成后的目标视频之后，并以此目标视频进行操作活动。用户可以根据最终的结果给该视频进行打分或评价，并将用户评价信息返回到服务器端，实现序列模型的自我深度学习来不断地修正和完善。

举两个具体例子对本发明实施例进行说明。

实施例一，以化妆视频这一具有时序特征的活动事件举例说明。在该实施例中，用户端中的用户界面是基于安卓应用***层框架构建，服务器端通过Java Web架构，图像识别Python库以及讯飞语音识别实现。当然，在实现时也采用的人工智能技术不限于此实施例，且可用于用户任何界面中。

结合图4，对实施例一的具体过程详细说明。

第一步骤，用户端的应用提供用户化妆信息输入界面，本界面可以进行文本选择(化妆类型)、语音或图片(化妆品、化妆工具、或/和人脸轮廓及肤色)等信息输入。当用户按下确定按钮后，将用户输入信息通过网络传输到服务器端，也就是传输用户的偏好视频信息；

第二步骤，根据用户提交的化妆信息进行图像、语音或文本等分析识别，获得化妆类型、化妆品及化妆工具等信息，根据用户端输入的信息匹配***中的化妆活动类别中的化妆序列模型，匹配成功后执行下一步骤；

第三步骤，匹配到合适的时序模型后，根据该时序模型在视频切片片段中搜索对应的视频切片片段并重组，则生成化妆视频；

第四步骤，如果重组视频失败，就会切换化妆视频的时序模型，重新进行视频重组，如果重组视频成功就继续执行下一步骤；

第五步骤，在视频统一处理阶段，主要运用人工智能图像识别技术对重组后的视频进行分析并消除差异化，使多个视频片段实现平滑的过渡；并利用语音识别技术将多语音片段先转化为统一的文本格式，最后运用TTS技术将文本转化为统一的语音；

第六步骤，将生成的化妆视频推送给用户端后，用户端通过浏览结果判断是否该视频符合自己的需求。如果不符合，可以提醒用户输入其他的必要相关信息，然后再转入第一步骤继续执行。如果符合要求，则用户可以按照该化妆视频完成化妆操作；

第七步骤，用户根据最终的化妆效果，给该化妆视频进行评价并提交评价结果。

实施例二，以烘焙松软蛋糕视频这一具有时序特征的活动事件举例说明。该实施例的具体过程如下所述。

第一步骤，用户打开该***在移动终端设备，如手机或平板电脑等中的应用，将当前的烘焙工具和烘焙材料及其他相关信息输入到应用中，应用获取到烘焙材料：低筋面粉、酵母、奶粉、色拉油、花生油、细砂糖、精盐和鸡蛋；烘焙工具：烤箱、筷子、打蛋器、碗、模具、量杯及矿泉水；

第二步骤，烘焙松软面包流程：

首先，蛋黄和蛋白分离，一般视频中会通过分蛋器进行分离，但是当前用户没有分蛋器，则服务器端***中有替代分蛋器的视频片段，比如用蛋壳分离或用矿泉水瓶分离蛋白蛋黄，选择此视频切片片段作为蛋黄蛋白分离的参考视频；

其次，蛋黄和蛋白搅拌，由于用户当前有打蛋器，则选择有打蛋器搅拌的视频切片片段；

再次，加入其它材料搅拌，一般视频中有做蛋糕都需要加入黄油，但是当前用户没有黄油而是有花生油，则***就会选择用花生油替代黄油进行搅拌的视频切片片段；

最后，倒入模具烘烤，这个直接选取采用烤箱烘烤的视频切片片段。

第三步骤，经过第二步骤的过程，将使用到的视频切片片段按照时序关系进行重组，重组后的视频在统一处理后生成一个连贯的带有语音的新视频，这样，用户可以在现有材料和工具的基础上，完整地通过用户端完整地体验烘焙松软蛋糕的过程。

可以看出，本发明实施例针对的是具有时序特征的视频自动生成方案，可以允许用户在现有操作环境的基础上，获取得到一个符合当前操作环境的具有时序特征的重组的目标视频。这样，用户完全可以参考这个目标视频利用现在的操作环境完整地完成某个活动。***还可以根据用户的反馈信息不断地修正在服务器端设置的序列模型，以便能够更加生成贴合度更高的目标视频。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种生成视频的方法，其特征在于，包括：

服务器端根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型，所述设置的具有时序特征的视频生成序列模型，包括模型的类别、步骤及各个步骤对应的权重信息；在所述匹配时，根据所述设置的具有时序特征的视频生成序列模型包括的信息，将所述具有语义信息的视频分片片段定位到对应的符合所述信息的具有时序特征的视频生成序列模型中；

服务器端根据匹配得到的对应的具有时序特征的视频生成序列模型将得到具有语义信息的视频分片片段进行重组，得到用户端的目标视频。

2.如权利要求1所述的方法，其特征在于，所述进行语义分析包括：

3.如权利要求1所述的方法，其特征在于，在得到用户端的目标视频之前，还包括：

对重组后的视频分片片段进行平滑处理，使得其统一化。

4.如权利要求1所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，所述从用户端获取的偏好视频信息包括：

6.一种生成视频的***，其特征在于，包括：原始视频接收模块、原始视频分析切片模块、模型生产模块及目标视频生成模块，其中，

原始视频接收模块，用于接收具有时序特征的原始视频；

目标视频生成模块，用于根据从用户端获取的偏好视频信息从设置的具有时序特征的视频生成序列模型中，匹配得到对应的具有时序特征的视频生成序列模型；根据匹配得到的对应的具有时序特征的视频生成序列模型将得到具有语义信息的视频分片片段进行重组，得到用户端的目标视频；

其中，所述设置的具有时序特征的视频生成序列模型，包括模型的类别、步骤及各个步骤对应的权重信息；在所述匹配时，根据所述设置的具有时序特征的视频生成序列模型包括的信息，将所述具有语义信息的视频分片片段定位到对应的符合所述信息的具有时序特征的视频生成序列模型中。

7.如权利要求6所述的***，其特征在于，所述***还包括存储模块，用于对具有语义信息的视频分片片段进行存储。

8.如权利要求6或7所述的***，其特征在于，所述***还包括视频统一处理模块，用于对重组后的视频分片片段进行平滑处理，使得其统一化。

9.如权利要求6或7所述的***，其特征在于，还包括用户评价模块，用于接收用户评价信息，根据用户评价信息对具有时序特征的视频生成序列模型实时更新。