CN110798737A - 视音频合成方法、终端和存储介质 - Google Patents

视音频合成方法、终端和存储介质 Download PDF

Info

Publication number
CN110798737A
CN110798737A CN201911207438.6A CN201911207438A CN110798737A CN 110798737 A CN110798737 A CN 110798737A CN 201911207438 A CN201911207438 A CN 201911207438A CN 110798737 A CN110798737 A CN 110798737A
Authority
CN
China
Prior art keywords
action
audio
video
target audio
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911207438.6A
Other languages
English (en)
Inventor
杜昊燃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reach Best Technology Co Ltd
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Reach Best Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reach Best Technology Co Ltd filed Critical Reach Best Technology Co Ltd
Priority to CN201911207438.6A priority Critical patent/CN110798737A/zh
Publication of CN110798737A publication Critical patent/CN110798737A/zh
Priority to PCT/CN2020/108270 priority patent/WO2021103653A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Circuits (AREA)

Abstract

本申请涉及视频处理领域,尤其涉及视音频合成方法、终端和存储介质,解决了视音频配合效果较差的技术问题。该方法包括:对目标音频进行解析,获得与目标音频对应的音频特征,并基于音频特征,设置相应的动作参数;控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;将所述动态图像和所述目标音频进行合成得到目标视频。该方法制作出的MV律动效果好,提升了用户体验。

Description

视音频合成方法、终端和存储介质
技术领域
本申请涉及视频处理领域,尤其涉及一种视音频合成方法、终端和存储介质。
背景技术
随着智能终端(例如智能手机)的普及和移动流量成本的下降,越来越多的应用程序(Application,APP)支持短视频的播放,多款音乐播放APP、创意短视频社交软件得到了飞速的发展。
已有技术下,部分支持视音频合成的APP,不仅支持用户将自行拍摄的短视频上传到平台与其他用户分享,还支持基于视音频合成技术制作音乐短片(Music Video,MV),一般是提供多款歌曲、音乐或者人物配音等音频素材供用户选择,根据用户的选择指令,将用户上传的图像素材和选择的音频素材进行合成,得到一个制作好的MV后在平台发布。其中,视音频合成时,在用户拍摄上传的原始图像素材基础上,还可添加贴纸组件,增加趣味性。
已有技术下采用的视音频合成方案中,一种方式是提供flash等格式的播放模板,将用户上传的多张图像做成一个简单的视频短片,然后与用户选择的音频进行组合,这种方式一般都是将音频和视频进行简单的组合,很多情况下,合成后的MV作品中的图像与音频不能很好的配合,协调性较差,使得MV作品的表达效果不好。
有鉴于此,需要设计一种新的基于视音频合成技术制作MV的方法,以克服上述缺陷。
发明内容
本申请实施例提供一种视音频合成方法、终端和存储介质,用以解决现有技术中存在的视频和音频配合效果差的技术问题。
本发明实施例提供的具体技术方案如下:
本申请实施例的第一个方面,提供一种视音频合成方法,包括:
获取图像素材和目标音频;
对所述目标音频进行解析,获得与所述目标音频对应的音频特征,以及基于所述音频特征,设置相应的动作参数;
控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;
将所述动态图像和所述目标音频进行合成得到目标视频。
可选的,获取图像素材,具体包括:
获取视频模板;
基于所述视频模板中各个位置对应的素材类型,获取相应的图像素材。
可选的,对所述目标音频进行解析,具体包括:
对所述目标音频进行脉冲编码调制PCM,得到相应的PCM数据;
获得与所述目标音频对应的音频特征,具体包括:
基于所述PCM数据,获得所述目标音频对应的音频特征。
可选的,基于所述音频特征,设置相应的动作参数,具体包括:
根据所述音频特征包含的音调特征、响度特征和节奏特征中的任一种或任意组合,设置所述动作参数中包含的动作对象、动作类型、动作幅度、动作频率和动作时间中的任一种或任意组合。
可选的,若根据所述音调特征,设置动作幅度和/或动作频率,则设置所述动作幅度的大小和所述动作频率的高低与所述音调特征的高低呈正相关;
若根据所述响度特征,设置动作幅度,则设置所述动作幅度的大小与所述响度特征的大小呈正相关;
若根据所述节奏特征,设置动作频率,则设置所述动作频率的高低与所述节奏特征的快慢呈正相关。
可选的,所述图像素材包括至少一张图片和/或贴纸。
本申请实施例的第二个方面,还提供一种终端,包括:
获取单元,用于获取图像素材和目标音频;
解析单元,用于所述目标音频进行解析,获得与所述目标音频对应的音频特征,以及基于所述音频特征,设置相应的动作参数;
生成单元,用于控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;
合成单元,用于将所述动态图像和所述目标音频进行合成。
可选的,获取图像素材时,所述获取单元具体用于:
获取视频模板;
基于所述视频模板中各个位置对应的素材类型,获取相应的图像素材。
可选的,对用户指定的目标音频进行解析时,所述解析单元,具体用于:
对所述目标音频进行脉冲编码调制PCM,得到相应的PCM数据;
获得与所述目标音频对应的音频特征时,所述解析单元,具体用于:
基于所述PCM数据,获得所述目标音频对应的音频特征。
可选的,基于所述音频特征,设置相应的动作参数时,所述解析单元,具体用于:
根据所述音频特征包含的音调特征、响度特征和节奏特征中的任一种或任意组合,设置所述动作参数中包含的动作对象、动作类型、动作幅度、动作频率和动作时间中的任一种或任意组合。
可选的,根据所述音调特征,设置动作幅度和/或动作频率时,所述解析单元,用于设置所述动作幅度的大小和所述动作频率的高低与所述音调特征的高低呈正相关;
根据所述响度特征,设置动作幅度时,所述解析单元,用于设置所述动作幅度的大小与所述响度特征的大小呈正相关;
根据所述节奏特征,设置动作频率时,所述解析单元,用于设置所述动作频率的高低与所述节奏特征的快慢呈正相关。
可选的,所述图像素材包括至少一张图片和/或贴纸。
本申请实施例的第三个方面,还提供一种终端,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现如上述任一项所述的视音频合成方法。
本申请实施例的第四个方面,还提供一种存储介质,当所述存储介质中的指令由处理器执行时,使得能够执行如上述任一项所述的视音频合成方法。
本发明有益效果如下:
本申请实施例提供一种视音频合成方法、终端和存储介质,通过对目标音频进行解析,获得与所述目标音频对应的音频特征,并根据所述音频特征,设置动作参数;然后,控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;将所述动态图像和所述目标音频进行合成得到目标视频。如此,合成后的带有目标音频的短视频中,视频播放时图像素材所展示的动作是依据动作参数设置,而动作参数是基于音频特征设置,这样图像素材能够配合目标音频展示出相应的动作,实现了二者的配合,达到了视频中的图像素材(例如图片或贴纸)跟随音乐律动的效果;并且,图像素材依据音频特征对应展示相应的动作,使得图像素材更好地与音频互动,更易呈现出较为协调的感官效果,降低了制作MV时选择图像素材的难度,从而降低了制作MV的操作难度,提升了用户制作MV作品的操作体验和观看MV作品的感官体验。
附图说明
图1为本申请实施例中视音频合成方法的流程示意图;
图2为本申请实施例中的一个MV作品的视频截图;
图3为本申请实施例中的一个MV作品的视频截图;
图4a-图4c为本申请实施例中执行一次倾斜后复位动作的分解示意图;
图5a-图5b为本申请实施例中执行一次放大动作分解示意图;
图6a-图6c为本申请实施例中执行一次旋转放大出镜动作分解示意图;
图7为本申请实施例中的终端的结构示意图;
图8为本申请实施例中的终端的实体结构示意图。
具体实施方式
为了解决现有技术中的视频和音频配合效果差的技术问题。本申请实施例中,获取图像素材和目标音频,从目标音频中提取音频特征,根据该音频特征,设置相应的动作参数,然后控制图像素材执行与动作参数对应的动作,生成动态图像,并将动态图像和目标音频合成。
本申请实施例提供的视音频合成方法,可以应用于任一款制作创意MV作品的APP中,例如MV Master等,也可以作为MV功能组件,添加到已有技术中的APP中。另外,支持视音频合成的短视频社交类APP中,也可以采用本申请实施例所提出的视音频合成方法合成除MV以外的其它类型的短视频。
在本申请实施例中,作为一种可实施方式,在S101之前,预先制作出通用的至少一个视频模板,在视频模板的基础上,将视频模板中的原有图像模板替换为用户指定的图像素材,制作相应的目标视频,并结合目标音频合成出MV作品。预先制作的视频模板,降低了每一次视音频合成的数据处理时间,提高了视音频合成的效率。
下面结合附图对本申请优选的实施方式作出进一步详细说明:
参阅图1所述,本申请实施例中,视音频合成方法的详细流程如下:
S101:获取图像素材和目标音频。
在本申请实施例中,目标音频可以由用户指定,根据用户的选项指令,确定出目标音频。
具体地,获取视频模板,基于所述视频模板中各个位置对应的素材类型,获取相应的图像素材。
本申请实施例中,素材类型可包括但不限于图片、贴纸、水印、滤镜。为了便于描述,本申请实施例中,仅以获取的图像素材为图片和贴纸为例进行说明。
例如,参阅图2所示,视频模板的中央位置为图片1,图片1为一个小女孩,视频模板的上方位置为贴纸1,贴纸1为一个皇冠,基于视频模板的中央位置和上方位置对应的素材类型,获取图片1和贴纸1。
又例如,获取的图像素材为多张图片和一张贴纸,为了便于描述,仅以其中的一张图片2进行说明,参阅图3所示,图片2为一张人物图片,图片2中间位置带有“Amazing”字样的半圆环状的水波纹效果的组件即为贴纸2,基于视频模板的中央位置和上方位置对应的素材类型,获取图片2和贴纸2。
S102:对目标音频进行解析,获得与所述目标音频对应的音频特征。
在确定目标音频后,对所述目标音频进行脉冲编码调制(Pulse CodeModulation,PCM),得到相应的PCM数据;并基于所述PCM数据,获得所述目标音频对应的音频特征。
音频特征,包括音调特征、响度特征和节奏特征中的任一种或任意组合,其中音调特征指PCM数据中表示音调高低的数据特征,响度特征指PCM数据中表示响度大小的数据特征,节奏特征,指从PCM数据中提取出的表示节奏频率(即节奏快慢)的数据特征,节奏频率可以是音乐上的节拍,即强拍和弱拍的组合规律,例如,常见的1/4、2/4、3/4、4/4、3/8、12/8拍等等,也可以是根据音乐节拍相应的频率,例如对于2/4节拍,则在每一个强拍设置图片按照5-10次/拍的频率抖动或者闪动,每一个弱拍,则保持静止。
例如,确定目标音频为歌曲1后,对歌曲1进行PCM,得到相应的PCM数据,并基于PCM数据,获得歌曲1对应的响度特征和节奏特征,其中,响度特征为80-120分贝,节奏特征为1/4拍。
又例如,确定目标音频为歌曲2后,对歌曲2进行PCM,得到相应的PCM数据,并基于PCM数据,获得歌曲2对应的响度特征和节奏特征,其中,响度特征为100-150分贝,节奏特征为2/4拍。
S103:基于所述音频特征,设置相应的动作参数。
其中,动作参数包括动作对象、动作类型、动作幅度、动作频率和动作时间中的任一种或任意组合。
具体地,基于所述音频特征,设置相应的动作参数,包括根据所述音频特征包含的音调特征、响度特征和节奏特征中的任一种或任意组合,设置所述动作参数中包含的动作对象、动作类型、动作幅度、动作频率和动作时间中的任一种或任意组合。
例如,基于歌曲1的响度特征和节奏特征,即响度特征为80-120分贝,节奏特征为1/4拍,设置相应的动作对象、动作类型、动作幅度、动作频率和动作时间。
又例如,基于歌曲2的响度特征和节奏特征,即响度特征为100-150分贝,节奏特征为2/4拍,设置相应的动作对象、动作类型、动作幅度、动作频率和动作时间。
其中,设置动作对象,就是从图像素材中选择出一张或多张图片、贴纸作为被控制对象,设置动作对象即确定被控制对象。
例如,参阅图2所示,获取的图像素材为图片1和贴纸1,在图片1和贴纸1中,选择贴纸1和图片1作为被控制对象。
又例如,获取的图像素材为多张图片和一张贴纸,选择多张图片和一张贴纸作为被控制对象,为了便于描述,仅以其中的一张图片2进行说明,参阅图3所示,图片2为一张人物图片,图片中间位置带有“Amazing”字样的半圆环状的水波纹效果的组件即为贴纸2,选择贴纸2和图片2作为被控制对象。
设置动作类型,即设置被控制对象的具体动作,动作类型包括各种可执行动作。例如,对于图片,可以是抖动、闪动、放大后恢复、缩小后恢复、平行滑出屏幕后复位、倾斜后复位、百叶窗形式消失后恢复、旋转出屏幕等等非常多种动作类型,一般地,动作频率与音频特征中的节奏特征保持一致或者对应。或者也可以将图片分割为多个部分,依次执行相应的动作。
例如,对于图片1,图片1可执行倾斜后复位的动作,参阅图4a-图4c所示,其中n点为图片1在视频播放窗口上的一个固定位置点,不随图片的动作而动作,执行倾斜动作前的图片1参阅图4a所示,执行到最大倾斜角度后的图片1参阅图4c所示,而后由图4c的状态复位到图4a所示位置,则完成一次倾斜后复位的执行动作。
又例如,对于图片2,图片2执行放大恢复的动作,例如,参阅图5a和图5b所示,图5a和图5b为图片2被分割后的其中一个小图片,该小图片上的三个人物仅为举例,其中m点为该小图片在视频播放窗口上的一个固定位置点,不随图片的动作而动作,执行放大动作前的小图片如图5a所示,执行到最大动作幅度后的放大动作截图参见图5b所示,而后由图5b的状态恢复到图5a所示状态,则完成一次放大动作的执行。
可选的,支持在图片的基础上,设置贴纸,贴纸包括各种展现形式,例如可以是规则的几何形状、不规则的水波纹、萌宠等,贴纸的动作可以与图片的动作保持一致,也可以根据音频特征设置为与图片动作相协调的其它动作,例如,对于水波形效果的贴纸,则可以设置水波纹的波动频率与音频特征中的节奏频率保持一致或者相适应。
例如,参阅图4a-图4b所示,对于贴纸1,贴纸1与图片1的动作保持一致的同时,执行闪动的动作,即,在倾斜过程中,贴纸1闪动,贴纸1完成一次倾斜后复位,执行倾斜动作前的贴纸1参阅图4a所示,在倾斜过程中,闪动的贴纸1参阅图4b所示,执行到最大倾斜角度后的贴纸1参阅图4c所示,而后由图4c的状态复位到图4a所示位置,则完成一次倾斜后复位的动作。
例如,对于贴纸2,设置贴纸2呈水波纹状态的抖动,并且产生的水波纹呈现出五彩斑斓的色彩变化。
动作幅度,即执行动作时,图片或贴纸的动作范围,例如,对于一次放大后恢复为原图片的动作,则动作幅度指的是图片或者贴纸被放大的幅度。
例如,对于图片1和贴纸1,动作幅度指的是图片1和贴纸1倾斜的最大角度,参阅图4c所示,图片1和贴纸1动作幅度皆为45度。
又例如,对于图片2,动作幅度指的是图片2被放大的幅度,图片2的动作幅度可以为图片2大小的2倍,对于贴纸2,动作幅度指的是贴纸2的抖动幅度,贴纸2的动作幅度可以为贴纸2的高度的0.5倍。
动作频率,即执行动作的频率,一般动作频率与音频特征中的节奏特征所表示的频率保持一致。
例如,基于歌曲1的节奏特征,对于贴纸1,设置贴纸1在每一个节拍依次执行倾斜后复位的动作,并在每一个强拍时闪动一次,对于图片1,在每一个节拍依次执行倾斜后复位的动作。
又例如,对于歌曲2的节奏特征,对于贴纸2,设置贴纸2设置贴纸在每一个强拍时呈水波纹状态的大幅度抖动一次,设置贴纸2在每一个弱拍时呈水波纹状态的小幅度抖动一次,对于图片2,将图片2分割为多个小图片,各个小图片在每一个节拍依次执行放大恢复的动作。
动作时间,即执行相应动作的时刻,例如,设置在音频总时长为3分29秒,在音频播放到第1分10秒时开始执行某一张图片或者贴纸的放大动作,按照设置的动作频率,循环多次执行,到1分50秒时结束。
又例如,设置歌曲1总时长为4分20秒,在歌曲1放到第2分20秒时开始执行图片1和贴纸1的倾斜动作,按照设置的动作频率,循环多次执行,到3分10秒时结束。
又例如,设置歌曲2总时长为4分50秒,在歌曲2播放到第1分30秒时,在前1-3秒,每一个节拍闪现一张图片,在4-10秒,将图片2分割为多个小图片,各个小图片在每一个节拍依次执行放大恢复的动作。
具体地,若根据所述音调特征,设置动作幅度和/或动作频率,则设置所述动作幅度的大小和所述动作频率的高低与所述音调特征的高低呈正相关;若根据所述响度特征,设置动作幅度,则设置所述动作幅度的大小与所述响度特征的大小呈正相关;若根据所述节奏特征,设置动作频率,则设置所述动作频率的高低与所述节奏特征的快慢呈正相关。
例如,当所述节奏特征表示轻音乐类型时,则降低所述动作频率,当所述节奏特征表示为动感音乐时,则设置所述动作频率与所述动感音乐的节奏频率保持一致。
又例如,当所述音调特征表示高音类型时,则设置所述动作频率和所述动作频率与音调特征保持一致,当所述音调特征表示低音类型时,降低所述动作频率和所述动作频率。
当设置动作幅度和/或动作频率的参考因素并非单一特征时,则进行组合设置,量化各个音频特征,并进行差值计算,基于差值确定设置方案。例如,当从音频特征中提取出的音调特征显示为低音,量化指标为100赫兹(Hz),而提取出的响度特征的量化指标为150分贝(dB),则将动作幅度增加50个量化值。
S104:控制所述图像素材执行与所述动作参数对应的动作,生成动态图像。
本申请实施例中,可采用但不限于以下方式,控制所述图像素材执行与所述动作参数对应的动作:
调用用户指定的播放控件,加载所述动作参数及图像素材;所述播放控件,用于以所述图像素材为控制对象,执行与所述动作参数对应的动作。
在本申请实施例中,播放控件,包括图片控件和/或贴纸控件,图片控件用于以图片为控制对象,执行相应的动作;贴纸控件,用于以贴纸为控制对象,执行相应的动作。
例如,调用用户指定的播放控件,加载动作参数和图像素材,图片控件用于以图片1为控制对象,执行倾斜后复位的动作,贴纸控件,用于以贴纸1为控制对象,执行倾斜时闪动,倾斜后复位的动作。
又例如,调用用户指定的播放控件,加载动作参数和图像素材,图片控件用于以图片2为控制对象,执行放大后恢复的动作,贴纸控件,用于以贴纸2为控制对象,执行抖动的动作。
可选的,与S101中获取视频模板,相对应地,S103中调用播放控件,包括调用所述视频模板对应的播放控件,在视频模板的基础上加载动作参数和图像素材。
在本申请实施例中,图像素材包括至少一张图片和/或贴纸。
进一步地,基于所述播放控件,生成动态图像。
对加载后的视频模板进行转码处理,生成指定格式的动态图像,即按照动态图像所需要支持的格式类型,按照相应的转码技术进行转码,本申请实施例不逐一列举。
例如,控制图片1和贴纸1执行与动作参数对应的动作,生成的动态图像1为,在歌曲1播放到第2分20秒时,图片1和贴纸1在之后的每一个节拍,依次执行倾斜后复位的动作,参阅图4a-图4b所示,对于图片1,图片1在每一个节拍依次执行倾斜后复位的动作,执行倾斜动作前的图片1参阅图4a所示,执行到最大倾斜角度后的图片1参阅图4c所示,而后由图4c的状态复位到图4a所示位置,则完成一次倾斜后复位的执行动作,对于贴纸1在每一个节拍依次执行倾斜后复位的动作,并在每一个强拍时,贴纸1闪动一次,贴纸1完成一次倾斜后复位,执行倾斜动作前的贴纸1参阅图4a所示,闪动的贴纸1参阅图4b所示,执行到最大倾斜角度后的贴纸1参阅图4c所示,而后由图4c的状态复位到图4a所示位置,则完成一次倾斜后复位的动作,图片1和贴纸1按照设置的动作频率,循环多次执行,到3分10秒时结束。
又例如,控制图片2和贴纸2执行与动作参数对应的动作,生成的动态图像2为,在歌曲1播放到第1分30秒时,对于贴纸2,贴纸2在每一个强拍时呈水波纹状态的大幅度抖动一次,在每一个弱拍,设置贴纸2在每一个弱拍时呈水波纹状态的小幅度抖动一次,并且产生的水波纹呈现出五彩斑斓的色彩变化,对于图片2,在前1-3秒,每一个节拍闪现一张图片,在4-10秒,将图片2分割为多个小图片,各个小图片在每一个节拍依次执行放大恢复的动作。
S105:将所述动态图像和所述目标音频进行合成得到目标视频。
例如,将生成的动态图像1和歌曲1进行合成,得到目标视频。
又例如,将生成的动态图像2和歌曲2进行合成,得到目标视频。
下面列举本申请实施例的视音频合成方法的一个完整实施例。
首先,通过APP的用户交互界面,接收用户输入的确认创建MV作品的指令;
之后,弹出多个备选项以及搜索栏,根据用户的选项或者输入的音频关键字搜索到对应的音频,确定出目标音频。
下一步,显示多个视频模板备选项,根据用户的选择指令,确定出视频模板。视频模板为一个视频格式的基础模板,视频模板中的图像素材可替换为用户指定的图像素材。
下一步,显示多个图像素材备选项和本地图片上传备选项,根据用户的选择指令,确定出图像素材。
之后对目标音频进行解析,获得与目标音频对应的音频特征。在本实施例中,提取出响度特征和节奏特征两种音频特征,其中,响度特征为2/4拍,节奏特征为100-150分贝。
根据目标音频的响度特征和节奏特征,设置相应的动作参数。在本实施例中,假设,用户确定了多张人物图片和一个水波纹效果的贴纸作为图像素材,根据对目标音频的解析结果,解析出的节奏特征为2/4拍,响度特征为100-150分贝,则设置贴纸在每一个强拍时呈水波纹状态的大幅度抖动一次,在每一个弱拍,设置贴纸在每一个弱拍时呈水波纹状态的小幅度抖动一次,并且产生的水波纹呈现出五彩斑斓的色彩变化;对于图片,则根据提取出的节奏特征,在前1-3秒,每一个节拍闪现一张图片,在4-10秒,将一张图片分割为多个小图片,各个小图片在每一个节拍依次执行放大恢复的动作,例如,参阅图5a和图5b所示,图5a和图5b为被分割后的其中一个小图片,该小图片上有三个人物,其中m点为该小图片在视频播放窗口上的一个固定位置点,不随图片的动作而动作,执行放大动作前的小图片如图5a所示,在一个节拍中,执行到最大动作幅度后的放大动作截图参见图5b所示,而后由图5b的状态恢复到图5a所示状态,则完成一次放大动作的执行,一次放大动作对应一个节拍或者半个节拍;其它小图片的放大动作于此雷同,不一一描述,整张图像可由上到下被平行分割为多个小图片,各个小图片按照从上到下的顺序依次执行一次放大动作。
可选的,为丰富视觉效果,还可穿插多个其它动作,例如,其中一个节拍,做整张图片的一次旋转出镜的动作,参阅图6a-图6c所示,图6a中开始旋转,边旋转边放大,放大到图6b所示的状态,而后继续旋转放大如图6c所示,直至消失,一次旋转放大出镜的动作,可在一个节拍内完成。
可选的,也可以隔几个节拍,做两次整张图片的倾斜放大后恢复的动作,动作执行过程同旋转放大,不再赘述。
基于用户指定的视频模板,调用相应的播放控件,加载动作参数和图像素材。
对加载后的视频模板进行转码操作,得到目标视频,将目标视频和目标音频进行合成,得到合成后的MV作品。
基于同一发明构思,参阅图7所示,本申请实施例还提供一种终端,包括:
获取单元701,用于获取图像素材和目标音频;
解析单元702,用于所述目标音频进行解析,获得与所述目标音频对应的音频特征,以及基于所述音频特征,设置相应的动作参数;
生成单元703,用于控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;
合成单元704,用于将所述动态图像和所述目标音频进行合成。
可选的,获取图像素材时,所述获取单元701具体用于:
获取视频模板;
基于所述视频模板中各个位置对应的素材类型,获取相应的图像素材。
可选的,对所述目标音频进行解析时,所述解析单元702,具体用于:
对所述目标音频进行脉冲编码调制PCM,得到相应的PCM数据;
获得与所述目标音频对应的音频特征时,所述解析单元702,具体用于:基于所述PCM数据,获得所述目标音频对应的音频特征。
可选的,基于所述音频特征,设置相应的动作参数时,所述解析单元702,具体用于:根据所述音频特征包含的音调特征、响度特征和节奏特征中的任一种或任意组合,设置所述动作参数中包含的动作对象、动作类型、动作幅度、动作频率和动作时间中的任一种或任意组合。
可选的,根据所述音调特征,设置动作幅度和/或动作频率时,所述解析单元702,用于设置所述动作幅度的大小和所述动作频率的高低与所述音调特征的高低呈正相关;
根据所述响度特征,设置动作幅度时,所述解析单元702,用于设置所述动作幅度的大小与所述响度特征的大小呈正相关;
根据所述节奏特征,设置动作频率时,所述解析单元702,用于设置所述动作频率的高低与所述节奏特征的快慢呈正相关。
基于同一发明构思,参阅图8所示,本申请实施例还提供一种终端,包括:
存储器801,用于存储可执行指令;
处理器802,用于读取并执行存储器中存储的可执行指令,以实现如上述任一项所述的视音频合成方法。
基于同一发明构思,本申请实施例还提供一种存储介质,当所述存储介质中的指令由处理器执行时,使得能够执行如上述任一项所述的视音频合成方法。
本申请实施例中,通过对目标音频进行解析,获得与所述目标音频对应的音频特征,并根据所述音频特征,设置动作参数;然后,控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;将所述动态图像和所述目标音频进行合成得到目标视频。
如此,合成后的带有目标音频的短视频中,视频播放时图像素材所展示的动作是依据动作参数设置,而动作参数是基于音频特征设置,这样图像素材能够配合目标音频展示出相应的动作,实现了二者的配合,达到了视频中的图像素材(例如图片或贴纸)跟随音乐律动的效果,可呈现出生动的律动效果;并且,图像素材依据音频特征对应展示相应的动作,使得图像素材更好地与音频互动,更易呈现出较为协调的感官效果,降低了制作MV时选择图像素材的难度,从而降低了制作MV的操作难度,提升了用户制作MV作品的操作体验和观看MV作品的感官体验,给用户带来更为丰富、生动化的视听体验。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种视音频合成方法,其特征在于,包括:
获取图像素材和目标音频;
对所述目标音频进行解析,获得与所述目标音频对应的音频特征,以及基于所述音频特征,设置相应的动作参数;
控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;
将所述动态图像和所述目标音频进行合成得到目标视频。
2.如权利要求1所述的方法,其特征在于,获取图像素材,具体包括:
获取视频模板;
基于所述视频模板中各个位置对应的素材类型,获取相应的图像素材。
3.如权利要求1所述的方法,其特征在于,对所述目标音频进行解析,具体包括:
对所述目标音频进行脉冲编码调制PCM,得到相应的PCM数据;
获得与所述目标音频对应的音频特征,具体包括:
基于所述PCM数据,获得所述目标音频对应的音频特征。
4.如权利要求1、2或3所述的方法,其特征在于,基于所述音频特征,设置相应的动作参数,具体包括:
根据所述音频特征包含的音调特征、响度特征和节奏特征中的任一种或任意组合,设置所述动作参数中包含的动作对象、动作类型、动作幅度、动作频率和动作时间中的任一种或任意组合。
5.如权利要求4所述的方法,其特征在于,若根据所述音调特征,设置动作幅度和/或动作频率,则设置所述动作幅度的大小和所述动作频率的高低与所述音调特征的高低呈正相关;
若根据所述响度特征,设置动作幅度,则设置所述动作幅度的大小与所述响度特征的大小呈正相关;
若根据所述节奏特征,设置动作频率,则设置所述动作频率的高低与所述节奏特征的快慢呈正相关。
6.如权利要求1-3、5任一项所述的方法,其特征在于,所述图像素材包括至少一张图片和/或贴纸。
7.一种终端,其特征在于,包括:
获取单元,用于获取图像素材和目标音频;
解析单元,用于所述目标音频进行解析,获得与所述目标音频对应的音频特征,以及基于所述音频特征,设置相应的动作参数;
生成单元,用于控制所述图像素材执行与所述动作参数对应的动作,生成动态图像;
合成单元,用于将所述动态图像和所述目标音频进行合成。
8.如权利要求7所述的终端,其特征在于,获取图像素材时,所述获取单元具体用于:
获取视频模板;
基于所述视频模板中各个位置对应的素材类型,获取相应的图像素材。
9.一种终端,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现如权利要求1-6任一项所述的视音频合成方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得能够执行如权利要求1-6任一项所述的视音频合成方法。
CN201911207438.6A 2019-11-29 2019-11-29 视音频合成方法、终端和存储介质 Pending CN110798737A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911207438.6A CN110798737A (zh) 2019-11-29 2019-11-29 视音频合成方法、终端和存储介质
PCT/CN2020/108270 WO2021103653A1 (zh) 2019-11-29 2020-08-10 视音频合成方法、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911207438.6A CN110798737A (zh) 2019-11-29 2019-11-29 视音频合成方法、终端和存储介质

Publications (1)

Publication Number Publication Date
CN110798737A true CN110798737A (zh) 2020-02-14

Family

ID=69447097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911207438.6A Pending CN110798737A (zh) 2019-11-29 2019-11-29 视音频合成方法、终端和存储介质

Country Status (2)

Country Link
CN (1) CN110798737A (zh)
WO (1) WO2021103653A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782858A (zh) * 2020-03-31 2020-10-16 北京沃东天骏信息技术有限公司 音乐匹配的方法和装置
WO2021103653A1 (zh) * 2019-11-29 2021-06-03 北京达佳互联信息技术有限公司 视音频合成方法、终端和存储介质
CN113592986A (zh) * 2021-01-14 2021-11-02 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN113784196A (zh) * 2021-11-11 2021-12-10 深圳市速点网络科技有限公司 一种视频效果元素自动律动展示方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329980A (zh) * 2017-05-31 2017-11-07 福建星网视易信息***有限公司 一种基于音频的实时联动显示方法及存储设备
CN107360383A (zh) * 2017-07-26 2017-11-17 北京百思科技有限公司 一种自动生成视频的方法及***
CN108322802A (zh) * 2017-12-29 2018-07-24 广州市百果园信息技术有限公司 视频图像的贴图处理方法、计算机可读存储介质及终端
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
CN109168026A (zh) * 2018-10-25 2019-01-08 北京字节跳动网络技术有限公司 即时视频显示方法、装置、终端设备及存储介质
CN109495767A (zh) * 2018-11-29 2019-03-19 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110233976A (zh) * 2019-06-21 2019-09-13 广州酷狗计算机科技有限公司 视频合成的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103165152B (zh) * 2011-12-14 2017-02-08 联想(北京)有限公司 播放多媒体文件的方法及装置
CN104144280A (zh) * 2013-05-08 2014-11-12 上海恺达广告有限公司 电子贺卡的语音动作动画同步控制及装置
CN104683781B (zh) * 2013-11-26 2016-08-17 深圳市快播科技有限公司 视频播放处理方法及装置
CN104732593B (zh) * 2015-03-27 2018-04-27 厦门幻世网络科技有限公司 一种基于移动终端的3d动画编辑方法
US20190287553A1 (en) * 2018-03-18 2019-09-19 Christopher Griffin Byerly Automatic phonographic record playing and archiving device, system and method
CN110798737A (zh) * 2019-11-29 2020-02-14 北京达佳互联信息技术有限公司 视音频合成方法、终端和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329980A (zh) * 2017-05-31 2017-11-07 福建星网视易信息***有限公司 一种基于音频的实时联动显示方法及存储设备
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
CN107360383A (zh) * 2017-07-26 2017-11-17 北京百思科技有限公司 一种自动生成视频的方法及***
CN108322802A (zh) * 2017-12-29 2018-07-24 广州市百果园信息技术有限公司 视频图像的贴图处理方法、计算机可读存储介质及终端
CN109168026A (zh) * 2018-10-25 2019-01-08 北京字节跳动网络技术有限公司 即时视频显示方法、装置、终端设备及存储介质
CN109495767A (zh) * 2018-11-29 2019-03-19 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110233976A (zh) * 2019-06-21 2019-09-13 广州酷狗计算机科技有限公司 视频合成的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟秀军等: "《3ds max 6建筑效果图实例技巧教程》", 1 November 2014 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021103653A1 (zh) * 2019-11-29 2021-06-03 北京达佳互联信息技术有限公司 视音频合成方法、终端和存储介质
CN111782858A (zh) * 2020-03-31 2020-10-16 北京沃东天骏信息技术有限公司 音乐匹配的方法和装置
CN111782858B (zh) * 2020-03-31 2024-04-05 北京沃东天骏信息技术有限公司 音乐匹配的方法和装置
CN113592986A (zh) * 2021-01-14 2021-11-02 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN113592986B (zh) * 2021-01-14 2023-05-23 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN113784196A (zh) * 2021-11-11 2021-12-10 深圳市速点网络科技有限公司 一种视频效果元素自动律动展示方法及***
CN113784196B (zh) * 2021-11-11 2022-02-08 深圳市速点网络科技有限公司 一种视频效果元素自动律动展示方法及***

Also Published As

Publication number Publication date
WO2021103653A1 (zh) 2021-06-03

Similar Documents

Publication Publication Date Title
CN110798737A (zh) 视音频合成方法、终端和存储介质
US7952535B2 (en) Electronic visual jockey file
US9691429B2 (en) Systems and methods for creating music videos synchronized with an audio track
US10410392B2 (en) Data structure for computer graphics, information processing device, information processing method and information processing system
US20180295427A1 (en) Systems and methods for creating composite videos
US20140096002A1 (en) Video clip editing system
US20060187331A1 (en) Digital camera having electronic visual jockey capability
KR100597667B1 (ko) 개선된 사용자 인터페이스를 가진 이동통신단말기
RU2625336C2 (ru) Способ и устройство для управления контентом в электронном устройстве
JP6721570B2 (ja) 楽曲再生システム、データ出力装置、及び楽曲再生方法
JP2023554470A (ja) ビデオ処理方法、装置、機器、記憶媒体、及びコンピュータプログラム製品
WO2019233348A1 (zh) 动画展示、制作方法及装置
WO2024007290A1 (zh) 视频的获取方法、电子设备、存储介质和程序产品
CN113792646B (zh) 舞蹈动作辅助生成方法、装置及跳舞设备
JP2010049406A (ja) 絵本画像再生装置、絵本画像再生方法、絵本画像再生プログラム及び記録媒体
JP2012198380A (ja) 表示制御装置
JP5044503B2 (ja) 演出画像再生装置、演出画像再生方法、演出画像再生プログラム及び記録媒体
KR20060054678A (ko) 음향에 동기 된 캐릭터 동영상 구현 장치 및 구현 방법
KR20220154587A (ko) 댄스 매칭 방법 및 시스템
CN114025103A (zh) 视频制作方法及装置
CN115396595B (zh) 视频生成方法、装置、电子设备及存储介质
JP2009296504A (ja) 画像処理装置、画像処理方法およびプログラム
JP5299374B2 (ja) カラオケ装置
JP5551403B2 (ja) 動画作成装置、コンピュータプログラム及び記憶媒体
JP5490480B2 (ja) 動画作成装置、コンピュータプログラム及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214