CN117376502B

CN117376502B - 一种基于ai技术的视频制作***

Info

Publication number: CN117376502B
Application number: CN202311671371.8A
Authority: CN
Inventors: 刘秋菊
Original assignee: Xiangfei Tianjin Intelligent Technology Co ltd
Current assignee: Xiangfei Tianjin Intelligent Technology Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-02-13
Anticipated expiration: 2043-12-07
Also published as: CN117376502A

Abstract

本发明涉及视频处理技术领域，具体为一种基于AI技术的视频制作***，基于AI技术的视频制作***包括视频解码模块、特征提取模块、内容识别模块、镜头选择模块、视频帧处理模块、视频合成模块、视频摘要生成模块、特效动态渲染模块。本发明中，深度学习解码算法显著提高视频帧提取准确性和效率，卷积神经网络用于特征提取，使***更深入理解视频内容，递归神经网络用于内容识别，提高时间序列信息解析准确率，强化学习用于镜头选择，优化选择过程，增强视频逻辑性和观赏性，迁移学习和深度卷积网络用于视频帧处理，提升质量和艺术效果多样性，视频编码技术保证压缩效率且不牺牲质量，结合视频摘要生成和特效动态渲染模块，强化视频表现力，吸引观众。

Description

一种基于AI技术的视频制作***

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于AI技术的视频制作***。

背景技术

视频处理技术领域涉及使用计算机和相关算法来处理视频数据，包括视频的编辑、合成、增强、分析等。这个领域包括了广泛的应用，从电影制作到视频广告，从监控***到虚拟现实应用。

基于AI技术的视频制作***是一种计算机软件或硬件***，利用人工智能技术来自动化和优化视频制作过程。这些***使用机器学习、计算机视觉、语音识别等技术，以自动分析、编辑、合成和增强视频素材，以生成高质量的视频内容。***的主要目的是提高视频制作的效率、质量和创造性。旨在减少人工干预，自动识别最佳镜头、音频、特效等元素，以生成令人满意的视频。此外，用于实现个性化视频生成，以满足不同用途和受众的需求。通过使用AI技术，可以改进视频内容的各个方面，包括图像质量、音频质量、特效和后期制作等，确保视频内容的视觉和听觉吸引力。

现有***在多个方面存在不足。现有***往往缺乏高度自动化的特征提取和内容识别能力，导致视频制作过程中需要大量手动干预，效率低下且易出错。而且，传统的镜头选择过程主要依靠人工编辑，这不仅耗时长，而且难以保证故事叙述的连贯性。在视频帧处理方面，没有高级的算法如迁移学习和深度卷积网络的支持，视频质量和艺术风格的提升有限。此外，现有***在视频摘要和特效渲染方面缺乏智能化，往往不能精确抓取视频中的关键信息，或者在特效应用上无法做到与视频内容和情感的高度匹配。

发明内容

本发明的目的是解决现有技术中存在的缺点，而提出的一种基于AI技术的视频制作***。

为了实现上述目的，本发明采用了如下技术方案：一种基于AI技术的视频制作***包括视频解码模块、特征提取模块、内容识别模块、镜头选择模块、视频帧处理模块、视频合成模块、视频摘要生成模块、特效动态渲染模块；

所述视频解码模块基于输入的视频文件，采用基于深度学习的解码算法进行解析，提取出连续的图片帧，生成帧序列；

所述特征提取模块基于视频帧序列，采用卷积神经网络进行图像特征学习，并生成特征数据集；

所述内容识别模块基于特征数据集，采用递归神经网络解析时间序列信息，自动识别与分类视频内容，并生成内容摘要；

所述镜头选择模块基于内容摘要，采用强化学习策略参照场景连续性和情节发展，选择镜头，生成镜头决策列表；

所述视频帧处理模块基于镜头决策列表，采用迁移学习和深度卷积网络进行样式迁移和超分辨率重建，生成高质量视频帧；

所述视频合成模块基于高质量视频帧，采用视频编码技术，将处理过的帧重新编码合成为新的视频文件，生成增强后视频；

所述视频摘要生成模块基于增强后视频，采用长短期记忆网络与注意力机制，提取视频中的关键信息，生成视频摘要；

所述特效动态渲染模块基于视频摘要，利用场景解析和深度学习技术，动态添加或调整视频特效，匹配视频内容和情感，生成特效视频；

所述帧序列具体为按时间顺序排序的视觉图片序列，所述特征数据集具体为多组图片帧的视觉特征和语义标注，所述内容摘要具体包括片段内的时间信息、主要事件和人物，所述镜头决策列表具体为基于情节需求选定的镜头顺序和时间点，所述高质量视频帧具体指经过超分辨率重建和样式迁移后的视频帧。

作为本发明的进一步方案，所述视频解码模块包括视频流分析子模块、帧提取子模块、格式转换子模块；

所述特征提取模块包括图像识别子模块、特征编码子模块、语义分析子模块；

所述内容识别模块包括序列分析子模块、情节提炼子模块、摘要生成子模块；

所述镜头选择模块包括决策支持子模块、镜头评估子模块、编辑规划子模块；

所述视频帧处理模块包括超分辨率子模块、样式迁移子模块、质量评估子模块；

所述视频合成模块包括帧合成子模块、编码优化子模块、文件封装子模块；

所述视频摘要生成模块包括关键信息提取子模块、摘要编辑子模块、高光时刻选择子模块；

所述特效动态渲染模块包括场景解析子模块、特效匹配子模块、渲染优化子模块。

作为本发明的进一步方案，所述视频流分析子模块基于输入的视频文件，采用深度学习解码算法，对视频数据流的编码格式和帧结构进行深入分析，获取视频流特性数据；

所述帧提取子模块基于视频流特性数据，采用逐帧分析法，对视频流进行帧分割，提取出每一帧图像，建立图片帧序列；

所述格式转换子模块基于图片帧序列，采用图像格式标准化技术，转换图像帧格式，生成标准化帧序列；

所述视频流特性数据具体为视频流中包括编码信息、帧率和分辨率的关键参数，所述图片帧序列包括连续、未处理的原始图像帧，所述标准化帧序列具体指转换为JPEG或PNG图像格式。

作为本发明的进一步方案，所述图像识别子模块基于标准化帧序列，采用卷积神经网络，对图像进行特征点检测与识别，获取图像特征点数据集；

所述特征编码子模块基于图像特征点数据集，采用特征向量编码技术，对特征点进行编码，进行数据压缩并保留关键视觉信息，生成编码后特征数据集；

所述语义分析子模块基于编码后特征数据集，采用语义分析算法，对图像内容进行深层次理解，提取场景和对象的语义标签，建立图像语义信息数据集；

所述图像特征点数据集具体为图像中包括边缘、角点、纹理的特征信息，所述编码后特征数据集具体指经过编码的低维度特征表示，所述图像语义信息数据集具体指图像中物体和场景的高层次语义描述。

作为本发明的进一步方案，所述序列分析子模块基于特征数据集，采用长短期记忆网络，进行时间依赖性分析，并进行数据预处理，生成时间序列分析结果；

所述情节提炼子模块基于时间序列分析结果，采用自然语言处理中的实体识别技术，进行情节关键元素提取，并进行情感分析，生成情节提炼报告；

所述摘要生成子模块基于情节提炼报告，采用抽取式摘要方法，进行信息精简，并进行核心句子选择，生成内容摘要；

所述长短期记忆网络具体为一种递归神经网络，用于捕获时间序列数据中的长距离依赖关系，所述实体识别技术包括命名实体识别、关键短语提取，所述抽取式摘要方法具体指从文本中抽取关键句或短语以构建摘要的技术。

作为本发明的进一步方案，所述决策支持子模块基于内容摘要，采用基于模型的强化学习，进行镜头价值评估，并进行决策优化，生成镜头选择方案；

所述镜头评估子模块基于镜头选择方案，采用图像质量评价算法，进行镜头内容质量评估，并进行视觉效果分析，生成镜头质量评估报告；

所述编辑规划子模块基于镜头质量评估报告，采用序列决策过程，进行剪辑规划，并进行场景流程优化，生成镜头决策列表；

所述基于模型的强化学习具体指通过模拟和预测环境反馈来学习最佳策略的方法，所述图像质量评价算法具体为包括图像清晰度、色彩饱和度、对比度的视觉特性评价，所述序列决策过程用于根据预定的规则和目标选择最优的动作序列。

作为本发明的进一步方案，所述超分辨率子模块基于镜头决策列表，采用深度学习卷积神经网络算法进行超分辨率重建，增强画面细节，生成超分辨率视频帧；

所述样式迁移子模块基于超分辨率视频帧，采用迁移学习和深度卷积网络进行样式迁移，利用预训练的风格化模型调整视频帧的视觉风格，生成风格化视频帧；

所述质量评估子模块基于风格化视频帧，采用图像质量评估指标，包括SSIM结构相似性指标和PSNR峰值信噪比，进行质量评估，生成质量评估报告；

所述深度学习卷积神经网络包括特征提取层、非线性映射层和重建层，所述迁移学习和深度卷积网络具体指利用大量已标记数据训练得到的模型参数，所述图像质量评估指标包括局部对比度、亮度、色彩保真度的计算和分析。

作为本发明的进一步方案，所述帧合成子模块基于质量评估报告中筛选的高质量视频帧，采用光流技术和帧插补算法，优化帧间连贯性，生成合成视频流；

所述编码优化子模块基于合成视频流，采用H.265/HEVC编码技术，对视频流进行压缩和质量优化，生成优化后的视频流；

所述文件封装子模块基于优化后的视频流，采用多媒体容器格式化技术，进行MP4或AVI封装，整合音视频数据流，生成增强后视频；

所述光流技术具体为通过分析相邻帧之间像素的运动，来计算中间帧的运动向量，所述H.265/HEVC编码技术具体包括利用帧内预测、帧间预测、变换和量化技术，减少冗余信息，所述多媒体容器格式化技术具体指对视频和音频数据进行封装。

作为本发明的进一步方案，所述关键信息提取子模块基于增强后视频，采用长短期记忆网络与注意力机制，分析视频帧序列，识别并提取关键帧和场景，建立关键信息数据集；

所述摘要编辑子模块基于关键信息数据集，采用序列决策算法，优化信息组合，编辑视频摘要草稿；

所述高光时刻选择子模块基于视频摘要草稿，采用聚类分析和用户反馈学习，筛选高光时刻，生成视频摘要；

所述序列决策算法具体为根据历史信息进行当前决策的算法，用于处理和生成序列数据，所述聚类分析具体为将视频帧分组识别相似特征，所述用户反馈学习包括分析用户行为数据优化高光时刻选择。

作为本发明的进一步方案，所述场景解析子模块基于视频摘要，利用卷积神经网络进行场景解析，辨识元素和属性，提取关键信息，包括情感，生成场景解析报告；

所述特效匹配子模块基于场景解析报告，采用模式匹配算法，根据所述场景解析报告中的辨识元素和属性，动态匹配视频特效，并获取特效匹配数据；

所述渲染优化子模块基于特效匹配数据，采用实时渲染技术和图像合成，调整特效以匹配视频情感，生成特效视频；

所述实时渲染技术具体指计算机图形学中即时计算和生成图像的技术，所述图像合成包括将多个图像层合并。

与现有技术相比，本发明的优点和积极效果在于：

本发明中，深度学习解码算法显著提高了视频帧提取的准确性和效率。卷积神经网络在特征提取模块中的应用，使得***能更深入地理解视频内容。内容识别模块运用递归神经网络，提高时间序列信息解析的准确率，使得内容分类与摘要的生成更加精确。镜头选择模块采用强化学习，有效优化镜头的选择过程，使视频更具逻辑性和观赏性。视频帧处理模块使用迁移学习和深度卷积网络不仅提升视频质量，还增加了艺术效果的多样性。视频编码技术保证视频文件的压缩效率，而不牺牲质量。视频摘要生成模块和特效动态渲染模块的结合，进一步强化视频的表现力，使最终视频在内容与形式上都更加吸引观众。

附图说明

图1为本发明的***流程图；

图2为本发明的***框架示意图；

图3为本发明的视频解码模块流程图；

图4为本发明的特征提取模块流程图；

图5为本发明的内容识别模块流程图；

图6为本发明的镜头选择模块流程图；

图7为本发明的视频帧处理模块流程图；

图8为本发明的视频合成模块流程图；

图9为本发明的视频摘要生成模块流程图；

图10为本发明的特效动态渲染模块流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例一：请参阅图1，一种基于AI技术的视频制作***包括视频解码模块、特征提取模块、内容识别模块、镜头选择模块、视频帧处理模块、视频合成模块、视频摘要生成模块、特效动态渲染模块；

视频解码模块基于输入的视频文件，采用基于深度学习的解码算法进行解析，提取出连续的图片帧，生成帧序列；

特征提取模块基于视频帧序列，采用卷积神经网络进行图像特征学习，并生成特征数据集；

内容识别模块基于特征数据集，采用递归神经网络解析时间序列信息，自动识别与分类视频内容，并生成内容摘要；

镜头选择模块基于内容摘要，采用强化学习策略参照场景连续性和情节发展，选择镜头，生成镜头决策列表；

视频帧处理模块基于镜头决策列表，采用迁移学习和深度卷积网络进行样式迁移和超分辨率重建，生成高质量视频帧；

视频合成模块基于高质量视频帧，采用视频编码技术，将处理过的帧重新编码合成为新的视频文件，生成增强后视频；

视频摘要生成模块基于增强后视频，采用长短期记忆网络与注意力机制，提取视频中的关键信息，生成视频摘要；

特效动态渲染模块基于视频摘要，利用场景解析和深度学习技术，动态添加或调整视频特效，匹配视频内容和情感，生成特效视频；

帧序列具体为按时间顺序排序的视觉图片序列，特征数据集具体为多组图片帧的视觉特征和语义标注，内容摘要具体包括片段内的时间信息、主要事件和人物，镜头决策列表具体为基于情节需求选定的镜头顺序和时间点，高质量视频帧具体指经过超分辨率重建和样式迁移后的视频帧。

***实现自动化制作，降低制作成本和时间，减少人工工作量。通过智能的内容识别，镜头选择优化和高质量视频生成，提高视频质量和观看体验。

内容智能识别使***能够智能识别和分类视频内容，使视频制作更智能和精确。镜头选择优化通过强化学习策略和内容摘要的引导，提高视频的连续性和情节发展，增强了观赏性。

视频摘要提取使得用户快速了解视频内容，而特效动态渲染模块增强视频的吸引力和情感表达。***减少人工编辑的需求，降低成本，提高效率，提供更具吸引力的视频制作方案。

请参阅图2，视频解码模块包括视频流分析子模块、帧提取子模块、格式转换子模块；

特征提取模块包括图像识别子模块、特征编码子模块、语义分析子模块；

内容识别模块包括序列分析子模块、情节提炼子模块、摘要生成子模块；

镜头选择模块包括决策支持子模块、镜头评估子模块、编辑规划子模块；

视频帧处理模块包括超分辨率子模块、样式迁移子模块、质量评估子模块；

视频合成模块包括帧合成子模块、编码优化子模块、文件封装子模块；

视频摘要生成模块包括关键信息提取子模块、摘要编辑子模块、高光时刻选择子模块；

特效动态渲染模块包括场景解析子模块、特效匹配子模块、渲染优化子模块。

视频解码模块中，视频流分析子模块分析输入视频流，确定编解码格式和参数。接着，帧提取子模块将视频流逐帧解析成图像帧序列。格式转换子模块确保所有帧具有一致的通用格式，为后续处理做好准备。

特征提取模块中，通过卷积神经网络提取图像帧的视觉特征。特征编码子模块将这些特征编码，形成特征数据集。语义分析子模块使用特征数据集进行深度语义分析，识别图像帧中的对象、场景和情节。

内容识别模块中，使用递归神经网络解析特征数据集，理解视频内容的时间序列发展。情节提炼子模块自动识别主要情节和事件，简化视频内容。摘要生成子模块将这些信息整合，生成内容摘要，包括时间点、主要事件和人物。

镜头选择模块中，根据内容摘要使用强化学习策略选择最佳镜头，确保视频情节连贯性。镜头评估子模块评估所选镜头的质量和适用性。编辑规划子模块规划所选镜头的排列顺序和时间点，创造完整的视频序列。

视频帧处理模块中，使用超分辨率技术提高图像质量。样式迁移子模块改善帧的视觉效果，使其与整体风格相匹配。质量评估子模块评估处理后的帧，确保高质量输出。

视频合成模块中，将处理后的帧合成为新的视频序列。编码优化子模块使用视频编码技术优化文件大小和质量。文件封装子模块封装最终的视频文件，准备进行播放或分享。

视频摘要生成模块中，编辑生成的内容摘要，提供简洁而清晰的总结。高光时刻选择子模块选择视频中的高光时刻，以强调重要内容。

特效动态渲染模块中，选择和应用特效，匹配视频内容和情感。渲染优化子模块优化特效的应用，提高视觉吸引力。

请参阅图3，视频流分析子模块基于输入的视频文件，采用深度学习解码算法，对视频数据流的编码格式和帧结构进行深入分析，获取视频流特性数据；

帧提取子模块基于视频流特性数据，采用逐帧分析法，对视频流进行帧分割，提取出每一帧图像，建立图片帧序列；

格式转换子模块基于图片帧序列，采用图像格式标准化技术，转换图像帧格式，生成标准化帧序列；

视频流特性数据具体为视频流中包括编码信息、帧率和分辨率的关键参数，图片帧序列包括连续、未处理的原始图像帧，标准化帧序列具体指转换为JPEG或PNG图像格式。

视频流分析子模块中，接收输入的视频文件，采用深度学习解码算法对视频数据流进行分析，深入分析视频的编码格式和帧结构，获取视频流的特性数据。这些特性数据包括视频流的编码信息、帧率和分辨率等关键参数。为后续的处理提供关于视频内容的重要信息，确保后续操作基于准确的数据。

帧提取子模块中，基于视频流特性数据，采用逐帧分析法，逐一提取视频流中的每一帧图像，从而建立图片帧序列。这个图片帧序列包含视频的每一帧，连续、未处理，代表视频的时间轴。通过帧提取，原始视频流被转化为图像帧序列，为后续的图像处理和分析提供原始数据。

格式转换子模块中，接受由帧提取子模块创建的图片帧序列，并使用图像格式标准化技术，将每个图像帧转换为标准的图像格式，如JPEG或PNG。这确保所有帧都采用相同的格式，从而简化后续处理流程，使帧序列具有一致的格式。最终，转换后的帧序列构成标准化帧序列，为后续处理和视频制作的各个步骤提供了统一的数据源。

请参阅图4，图像识别子模块基于标准化帧序列，采用卷积神经网络，对图像进行特征点检测与识别，获取图像特征点数据集；

特征编码子模块基于图像特征点数据集，采用特征向量编码技术，对特征点进行编码，进行数据压缩并保留关键视觉信息，生成编码后特征数据集；

语义分析子模块基于编码后特征数据集，采用语义分析算法，对图像内容进行深层次理解，提取场景和对象的语义标签，建立图像语义信息数据集；

图像特征点数据集具体为图像中包括边缘、角点、纹理的特征信息，编码后特征数据集具体指经过编码的低维度特征表示，图像语义信息数据集具体指图像中物体和场景的高层次语义描述。

图像识别子模块中，输入标准化帧序列接收来自格式转换子模块的标准化帧序列，这些帧都采用相同的图像格式。使用卷积神经网络对每个帧进行特征提取。涉及深度学习框架（如TensorFlow、PyTorch）和训练好的卷积神经网络模型，如VGG、ResNet或Inception。以下是示例代码片段：

import tensorflow as tf；

from tensorflow.keras.applications import VGG16；

# 加载预训练的VGG16模型；

model = VGG16(weights='imagenet', include_top=False)；

# 提取特征；

features = model.predict(frame)；

图像特征点数据集中，从每个帧中提取特征点，这些特征点包括边缘、角点和纹理等特征信息。使用特征检测算法，如SIFT（尺度不变特征变换）或ORB（Oriented FAST andRotated BRIEF）来检测特征点。

特征编码子模块中，从图像识别子模块获取的特征点数据集。特征向量编码采用特征向量编码技术，对每个特征点进行编码。这包括将特征点周围的像素值转化为低维度的特征向量。一个示例是使用PCA（主成分分析）或LDA（线性判别分析）来降低维度。

编码后特征数据集：编码后的特征数据集包含每个特征点的低维度表示，这有助于数据压缩并保留关键的视觉信息。示例代码片段：

from sklearn.decomposition import PCA；

# 使用PCA降低维度；

pca = PCA(n_components=50)；

encoded_features = pca.fit_transform(feature_points)；

语义分析子模块中，接收来自特征编码子模块的编码后特征数据集。语义分析算法使用深度学习方法，如卷积神经网络或循环神经网络，对编码后的特征数据进行深层次的图像内容理解。这包括目标检测、场景分类和语义分割等任务。以下是一个示例代码片段：

import tensorflow as tf；

# 加载已训练的图像分类模型；

model = tf.keras.applications.InceptionV3(weights='imagenet')；

# 对编码后的特征数据进行预测；

predictions = model.predict(encoded_features)；

图像语义信息数据集中，根据深度学习模型的输出，建立图像的语义信息数据集，包括对象识别、场景标签和高层次语义描述。这些信息用于后续的内容摘要和特效动态渲染；

请参阅图5，序列分析子模块基于特征数据集，采用长短期记忆网络，进行时间依赖性分析，并进行数据预处理，生成时间序列分析结果；

情节提炼子模块基于时间序列分析结果，采用自然语言处理中的实体识别技术，进行情节关键元素提取，并进行情感分析，生成情节提炼报告；

摘要生成子模块基于情节提炼报告，采用抽取式摘要方法，进行信息精简，并进行核心句子选择，生成内容摘要；

长短期记忆网络具体为一种递归神经网络，用于捕获时间序列数据中的长距离依赖关系，实体识别技术包括命名实体识别、关键短语提取，抽取式摘要方法具体指从文本中抽取关键句或短语以构建摘要的技术。

序列分析子模块中，输入特征数据集，建立LSTM模型，训练模型处理时间序列数据。对输入数据进行数据预处理操作，包括标准化和填充，确保数据的一致性和质量。子模块生成时间序列分析结果，这是时间序列的预测、模式检测或其他与时间依赖性相关的分析结果。

情节提炼子模块中，基于序列分析子模块的结果，使用自然语言处理中的实体识别技术，如命名实体识别和关键短语提取，对时间序列分析结果中的文本进行分析。进行情感分析确定时间序列的情感极性（积极、消极或中性）。整合实体识别和情感分析的结果，生成情节提炼报告，其中包括关键元素和情感信息。

摘要生成子模块中，接收情节提炼报告，其中包括关键元素和情感信息。采用抽取式摘要方法，从情节提炼报告中提取关键句或短语，构建内容摘要。这涉及使用文本摘要算法，如TextRank或LexRank，选择最相关的句子。选择关键句子构建摘要通常依赖于句子的重要性得分，这些得分由抽取式摘要算法计算。最终，生成内容摘要，提供对原始信息的简化和概括。

请参阅图6，决策支持子模块基于内容摘要，采用基于模型的强化学习，进行镜头价值评估，并进行决策优化，生成镜头选择方案；

镜头评估子模块基于镜头选择方案，采用图像质量评价算法，进行镜头内容质量评估，并进行视觉效果分析，生成镜头质量评估报告；

编辑规划子模块基于镜头质量评估报告，采用序列决策过程，进行剪辑规划，并进行场景流程优化，生成镜头决策列表；

基于模型的强化学习具体指通过模拟和预测环境反馈来学习最佳策略的方法，图像质量评价算法具体为包括图像清晰度、色彩饱和度、对比度的视觉特性评价，序列决策过程用于根据预定的规则和目标选择最优的动作序列。

决策支持子模块中，接收内容摘要作为输入。利用基于模型的强化学习方法，对每个潜在镜头进行价值评估，确定在整体叙事中的贡献度。采用决策优化算法，比如强化学习，综合考虑不同镜头的价值、叙事连贯性等因素，生成最佳的镜头选择方案，这是一组经过精心策划的镜头序列。

镜头评估子模块中，使用图像质量评价算法来评估每个镜头的图像清晰度、色彩饱和度、对比度等视觉特性。除了图像质量，还进行视觉效果分析，考虑镜头之间的过渡和情感表达。综合这些信息，生成镜头质量评估报告，提供详细的镜头评估，包括视觉质量和叙事效果。

编辑规划子模块中，使用序列决策过程，根据预定的规则、目标和之前的评估信息，确定最佳的编辑动作序列。这包括重新排序镜头、添加或删除剪辑等操作，创建最吸引人的场景流程。子模块生成详细的镜头决策列表，指导实际的视频编辑过程。

请参阅图7，超分辨率子模块基于镜头决策列表，采用深度学习卷积神经网络算法进行超分辨率重建，增强画面细节，生成超分辨率视频帧；

样式迁移子模块基于超分辨率视频帧，采用迁移学习和深度卷积网络进行样式迁移，利用预训练的风格化模型调整视频帧的视觉风格，生成风格化视频帧；

质量评估子模块基于风格化视频帧，采用图像质量评估指标，包括SSIM结构相似性指标和PSNR峰值信噪比，进行质量评估，生成质量评估报告；

深度学习卷积神经网络包括特征提取层、非线性映射层和重建层，迁移学习和深度卷积网络具体指利用大量已标记数据训练得到的模型参数，图像质量评估指标包括局部对比度、亮度、色彩保真度的计算和分析。

超分辨率子模块中，接受从镜头决策列表中选择的视频帧，使用深度学习卷积神经网络进行超分辨率重建。特征提取层用于捕获图像的特征，非线性映射层进一步加工这些特征，重建层执行上采样操作，增强图像的清晰度和细节。输出结果是高分辨率视频帧，这些帧将用于下一步的处理。

样式迁移子模块中，使用迁移学习和深度卷积网络，以及预训练的风格化模型。超分辨率视频帧作为输入，迁移学习和深度卷积网络被用于将所需的视觉风格应用于视频帧。这个过程包括视觉风格的调整，确保生成的视频帧符合预定的风格。输出结果是风格化视频帧。

质量评估子模块中，使用图像质量评估指标，如结构相似性指标（SSIM）和峰值信噪比（PSNR），以及局部对比度、亮度、色彩保真度等指标，对视频帧的质量进行全面评估。这个评估过程生成质量评估报告，提供详细的质量信息，确保生成的视频帧满足质量要求。

请参阅图8，帧合成子模块基于质量评估报告中筛选的高质量视频帧，采用光流技术和帧插补算法，优化帧间连贯性，生成合成视频流；

编码优化子模块基于合成视频流，采用H.265/HEVC编码技术，对视频流进行压缩和质量优化，生成优化后的视频流；

文件封装子模块基于优化后的视频流，采用多媒体容器格式化技术，进行MP4或AVI封装，整合音视频数据流，生成增强后视频；

光流技术具体为通过分析相邻帧之间像素的运动，来计算中间帧的运动向量，H.265/HEVC编码技术具体包括利用帧内预测、帧间预测、变换和量化技术，减少冗余信息，多媒体容器格式化技术具体指对视频和音频数据进行封装。

帧合成子模块中，从质量评估报告中筛选出高质量的视频帧，然后应用光流技术，通过分析相邻帧的像素运动，计算中间帧的运动向量，从而提高帧间的连贯性。采用帧插补算法来填充帧率不足的情况，确保视频流在播放时不会出现卡顿。最终，帧合成子模块生成合成视频流，其中包含经过光流分析和帧插补处理的高质量帧，提供更顺畅的观看体验。

编码优化子模块中，接收合成视频流作为输入。采用H.265/HEVC编码技术，包括帧内预测、帧间预测、变换和量化等步骤，减小文件大小并提高视频质量。这一过程有助于降低存储和传输成本，并提供更高质量的视频内容。编码优化子模块生成经过编码处理的优化视频流。

文件封装子模块中，接受优化后的视频流作为输入。然后，采用多媒体容器格式化技术，将视频数据与可能的音频数据（如果有的话）合并，并选择适当的多媒体容器格式，如MP4或AVI。文件封装子模块生成增强后的视频文件，包括合成视频流和音频数据（如果适用），该文件方便地存储、传输和播放。

请参阅图9，关键信息提取子模块基于增强后视频，采用长短期记忆网络与注意力机制，分析视频帧序列，识别并提取关键帧和场景，建立关键信息数据集；

摘要编辑子模块基于关键信息数据集，采用序列决策算法，优化信息组合，编辑视频摘要草稿；

高光时刻选择子模块基于视频摘要草稿，采用聚类分析和用户反馈学习，筛选高光时刻，生成视频摘要；

序列决策算法具体为根据历史信息进行当前决策的算法，用于处理和生成序列数据，聚类分析具体为将视频帧分组识别相似特征，用户反馈学习包括分析用户行为数据优化高光时刻选择。

关键信息提取子模块中，接收增强后的视频作为输入，采用长短期记忆网络（LSTM）与注意力机制，对视频帧序列进行分析。 LSTM有助于捕获帧之间的时间相关性，而注意力机制则能够识别帧的重要性。通过这些技术，关键信息提取子模块识别关键帧和场景，如高潮时刻、情感高潮和关键情节。这些关键帧和场景被整理成一个关键信息数据集，用于后续的摘要编辑。

摘要编辑子模块中，采用序列决策算法，依据历史信息和用户定义的编辑目标，优化信息的组合。这包括确定关键帧的排序和选择，以及决定哪些场景包括在最终的视频摘要中。在编辑视频摘要的过程中，时序性和连贯性得到维护，确保生成的摘要草稿能够传达视频的主要内容和情感。

高光时刻选择子模块中，利用聚类分析技术，对视频帧进行分组并识别相似特征，从中筛选出可能成为高光时刻的备选项。用户反馈学习也被整合，进一步优化高光时刻的选择。用户反馈包括用户对已生成摘要的反馈，如点击率、播放量等，了解用户的兴趣和行为。结合聚类分析和用户反馈，高光时刻选择子模块生成最终的视频摘要，包括最引人注目的部分，供用户观看或分享。

请参阅图10，场景解析子模块基于视频摘要，利用卷积神经网络进行场景解析，辨识元素和属性，提取关键信息，包括情感，生成场景解析报告；

特效匹配子模块基于场景解析报告，采用模式匹配算法，根据所述场景解析报告中的辨识元素和属性，动态匹配视频特效，并获取特效匹配数据；

渲染优化子模块基于特效匹配数据，采用实时渲染技术和图像合成，调整特效以匹配视频情感，生成特效视频；

实时渲染技术具体指计算机图形学中即时计算和生成图像的技术，图像合成包括将多个图像层合并。

场景解析子模块中，接收视频摘要作为输入，利用卷积神经网络（CNN）来处理视频帧，提取关键信息如对象、情感、颜色和位置。根据CNN的输出，生成场景解析报告，其中包括视频内容的详细描述，为后续特效匹配和渲染提供基础。

特效匹配子模块中，接收场景解析报告，采用模式匹配算法，根据报告中的元素和属性信息，动态选择适合的视频特效。匹配算法会从特效库中挑选匹配当前场景的特效。一旦选择特效，特效匹配子模块会获取特效匹配数据，包括所选特效的参数和设置，供后续渲染优化使用。

渲染优化子模块中，利用实时渲染技术和图像合成，允许特效的实时调整，以确保其与视频内容和情感一致。实时渲染技术可按需调整特效，适应视频内容的变化。渲染优化子模块生成具有特效的视频，确保特效与视频内容无缝融合。

以上，仅是本发明的较佳实施例而已，并非对本发明作其他形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于AI技术的视频制作***，其特征在于：所述基于AI技术的视频制作***包括视频解码模块、特征提取模块、内容识别模块、镜头选择模块、视频帧处理模块、视频合成模块、视频摘要生成模块、特效动态渲染模块；

所述帧序列具体为按时间顺序排序的视觉图片序列，所述特征数据集具体为多组图片帧的视觉特征和语义标注，所述内容摘要具体包括片段内的时间信息、主要事件和人物，所述镜头决策列表具体为基于情节需求选定的镜头顺序和时间点，所述高质量视频帧具体指经过超分辨率重建和样式迁移后的视频帧；

所述决策支持子模块基于内容摘要，采用基于模型的强化学习，进行镜头价值评估，并进行决策优化，生成镜头选择方案；

所述基于模型的强化学习具体指通过模拟和预测环境反馈来学习最佳策略的方法，所述图像质量评价算法具体为包括图像清晰度、色彩饱和度、对比度的视觉特性评价，所述序列决策过程用于根据预定的规则和目标选择最优的动作序列；

所述超分辨率子模块基于镜头决策列表，采用深度学习卷积神经网络算法进行超分辨率重建，增强画面细节，生成超分辨率视频帧；

所述深度学习卷积神经网络包括特征提取层、非线性映射层和重建层，所述迁移学习和深度卷积网络具体指利用大量已标记数据训练得到的模型参数，所述图像质量评估指标包括局部对比度、亮度、色彩保真度的计算和分析；

所述关键信息提取子模块基于增强后视频，采用长短期记忆网络与注意力机制，分析视频帧序列，识别并提取关键帧和场景，建立关键信息数据集；

所述序列决策算法具体为根据历史信息进行当前决策的算法，用于处理和生成序列数据，所述聚类分析具体为将视频帧分组识别相似特征，所述用户反馈学习包括分析用户行为数据优化高光时刻选择；

所述特效动态渲染模块包括场景解析子模块、特效匹配子模块、渲染优化子模块；

所述场景解析子模块基于视频摘要，利用卷积神经网络进行场景解析，辨识元素和属性，提取关键信息，包括情感，生成场景解析报告；

2.根据权利要求1所述的基于AI技术的视频制作***，其特征在于：所述视频解码模块包括视频流分析子模块、帧提取子模块、格式转换子模块；

所述视频合成模块包括帧合成子模块、编码优化子模块、文件封装子模块。

3.根据权利要求2所述的基于AI技术的视频制作***，其特征在于：所述视频流分析子模块基于输入的视频文件，采用深度学习解码算法，对视频数据流的编码格式和帧结构进行深入分析，获取视频流特性数据；

4.根据权利要求2所述的基于AI技术的视频制作***，其特征在于：所述图像识别子模块基于标准化帧序列，采用卷积神经网络，对图像进行特征点检测与识别，获取图像特征点数据集；

5.根据权利要求2所述的基于AI技术的视频制作***，其特征在于：所述序列分析子模块基于特征数据集，采用长短期记忆网络，进行时间依赖性分析，并进行数据预处理，生成时间序列分析结果；

6.根据权利要求2所述的基于AI技术的视频制作***，其特征在于：所述帧合成子模块基于质量评估报告中筛选的高质量视频帧，采用光流技术和帧插补算法，优化帧间连贯性，生成合成视频流；