CN114760534B - 视频生成方法、装置、电子设备及可读存储介质 - Google Patents

视频生成方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114760534B
CN114760534B CN202210311691.1A CN202210311691A CN114760534B CN 114760534 B CN114760534 B CN 114760534B CN 202210311691 A CN202210311691 A CN 202210311691A CN 114760534 B CN114760534 B CN 114760534B
Authority
CN
China
Prior art keywords
sub
target
segment
candidate
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210311691.1A
Other languages
English (en)
Other versions
CN114760534A (zh
Inventor
王愈
李健
陈明
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202210311691.1A priority Critical patent/CN114760534B/zh
Publication of CN114760534A publication Critical patent/CN114760534A/zh
Application granted granted Critical
Publication of CN114760534B publication Critical patent/CN114760534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请是关于一种视频生成方法、装置、电子设备及可读存储介质,涉及视频处理技术领域,该方法包括:获取每个音频子片段对应的若干候选视频子片段;根据音频子片段和候选视频子片段,构建目标候选网格;根据目标候选网格进行全局动态规划,得到每个音频子片段对应的目标视频子片段;根据每个音频子片段以及目标视频子片段,生成目标视频。通过根据目标候选网格进行全局动态规划,使选出的目标视频子片段既考虑到与相应的音频子片段的近似性,也兼顾选出的目标视频子片段前后之间的连贯性。进而解决了现有技术中存在的相邻两个视频片段在相接处连贯性差的技术问题。

Description

视频生成方法、装置、电子设备及可读存储介质
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频生成方法、装置、电子设备及可读存储介质。
背景技术
随着虚拟主播技术的发展,人们在根据音频修改图像序列时,需要根据音频对现有图像序列做局部修改,音频与图像序列中某帧图像的对应关系是根据音频和图像序列的播放顺序配置的,如果音频期望的画面与原图像对应的画面差距太大,则修改幅度较大,容易出现修改不到位,修改后的效果不理想的问题。
为了解决上述存在的问题,现有的技术方案在执行核心算法之前,先根据音频,预选出与期望动作相近的视频片段,以减小核心算法的修改幅度,从而使得生成的新图像更容易贴近发音的内容。
然而,现有的技术方案虽然为每段音频分别预选出最接近的视频片段,但并未考虑选出的视频片段前后之间的连贯性,可能存在跳变,例如:上一个视频片段头向左摆动,到下一个视频片段突然切边到右边。因此,现有的技术方案中相邻两个视频片段在相接处存在连贯性差的技术问题。
发明内容
为克服相关技术中存在的问题,本申请提供一种视频生成方法、装置、电子设备及可读存储介质。
根据本申请实施例的第一方面,提供一种视频生成方法,所述方法包括:
获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;
根据所述音频子片段和所述候选视频子片段,构建目标候选网格;
根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;
根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。
可选地,所述根据所述音频子片段和所述候选视频子片段,构建目标候选网格,包括:
将所述每个音频子片段确定为目标候选网格中的每列;
将每个所述音频子片段对应的若干所述候选视频子片段确定为所述目标候选网格中的每行;
根据所述目标候选网格中的每列和所述目标候选网格中的每行进行组合,得到所述目标候选网格。
可选地,所述根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段,包括:
获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数。
可选地,在所述获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数的步骤之后,还包括:
根据所述目标候选网格n-1列中若干所述候选视频子片段和所述目标候选网格n列中若干所述候选视频子片段进行运算,得到所述目标候选网格n列中若干所述候选视频子片段对应的衔接距离,其中,所述衔接距离用于确定相邻两个所述候选视频子片段在相接处的近似性;
根据所述目标距离和所述衔接距离进行运算,得到若干所述候选视频子片段对应的总距离;
根据若干所述候选视频子片段对应的总距离进行排序,得到目标总距离;
将所述目标总距离对应的候选视频子片段确定为目标视频子片段。
可选地,所述根据每个所述音频子片段以及所述目标视频子片段,生成目标视频,包括:
将每个所述音频子片段和所述目标视频子片段输入至预先生成的人脸修改模型,得到目标图像序列;
组合每个所述音频子片段和所述目标图像序列,生成目标视频。
根据本申请实施例的第二方面,提供一种视频生成装置,所述装置包括:
数据获取模块,用于获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;
数据构建模块,用于根据所述音频子片段和所述候选视频子片段,构建目标候选网格;
数据全局动态规划模块,用于根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;
数据生成模块,用于根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。
可选地,所述数据构建模块,包括:
第一确定子模块,用于将所述每个音频子片段确定为目标候选网格中的每列;
第二确定子模块,用于将每个所述音频子片段对应的若干所述候选视频子片段确定为所述目标候选网格中的每行;
数据组合子模块,用于根据所述目标候选网格中的每列和所述目标候选网格中的每行进行组合,得到所述目标候选网格。
可选地,所述数据全局动态规划模块,包括:
目标距离获取子模块,用于获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数。
可选地,所述数据全局动态规划模块,还包括:
衔接距离获取子模块,用于根据所述目标候选网格n-1列中若干所述候选视频子片段和所述目标候选网格n列中若干所述候选视频子片段进行运算,得到所述目标候选网格n列中若干所述候选视频子片段对应的衔接距离,其中,所述衔接距离用于确定相邻两个所述候选视频子片段在相接处的近似性;
总距离获取子模块,用于根据所述目标距离和所述衔接距离进行运算,得到若干所述候选视频子片段对应的总距离;
目标总距离获取子模块,用于根据所述若干所述候选视频子片段对应的总距离进行排序,得到目标总距离;
确定目标视频子片段子模块,用于将所述目标总距离对应的候选视频子片段确定为目标视频子片段。
可选地,所述数据生成模块包括:
目标图像序列获取子模块,用于将每个所述音频子片段和所述目标视频子片段输入至预先生成的人脸修改模型,得到目标图像序列;
目标视频生成子模块,用于组合每个所述音频子片段和所述目标图像序列,生成目标视频。
根据本申请实施例的第三方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述视频生成方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,存储有计算机程序,当所述计算机程序被处理器执行时实现所述视频生成方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请通过获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;根据所述音频子片段和所述候选视频子片段,构建目标候选网格;根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。通过本申请提供的技术方案,通过根据目标候选网格进行全局动态规划,使选出的目标视频子片段既考虑到与相应的音频子片段的近似性,也兼顾选出的目标视频子片段前后之间的连贯性。进而解决了现有技术中存在的相邻两个视频片段在相接处连贯性差的技术问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种视频生成方法的流程图;
图2是图1所示的根据一示例性实施例示出的一种视频生成方法的流程图中步骤102的流程图;
图3是图1所示的根据一示例性实施例示出的一种视频生成方法的流程图中步骤103的流程图;
图4是图1所示的根据一示例性实施例示出的一种视频生成方法的流程图中步骤104的流程图;
图5是根据一示例性实施例示出的一种视频生成的装置框图;
图6是图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据构建模块502的装置框图;
图7是图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据全局动态规划模块503的装置框图;
图8是图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据生成模块504的装置框图;
图9是根据一示例性实施例示出的一种电子设备的框图;
图10是根据一示例性实施例示出的一种用于全局动态规划的目标候选网格。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种视频生成方法的流程图,如图1所示,包括以下步骤。
步骤101,获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性。
需要说明的是,在本申请实施例中,目标距离用于确定每个候选视频子片段和每个候选视频子片段对应的音频子片段的近似性。将视频子片段按照目标距离进行升序排列,得到升序排列后的视频子片段。通过预先设置的数值n,从升序排列后的视频子片段中选择出目标距离较小的前Sn个,作为第n个音频子片段的若干候选视频子片段。需要说明的是,本申请实施例对预先设置的数值n的具体取值不做具体限定。
步骤102,根据所述音频子片段和所述候选视频子片段,构建目标候选网格。
需要说明的是,在本申请实施例中,根据音频子片段和候选视频子片段,构建目标候选网格。
进一步地,在本申请实施例中,如图2所示,步骤102包括以下步骤。
步骤201,将所述每个音频子片段确定为目标候选网格中的每列。
步骤202,将每个所述音频子片段对应的若干所述候选视频子片段确定为所述目标候选网格中的每行。
步骤203,根据所述目标候选网格中的每列和所述目标候选网格中的每行进行组合,得到所述目标候选网格。
需要说明的是,在本申请实施例中,每个音频子片段为目标候选网格中的每列,例如:如图10所示,1、2……n对应的是第一个音频子片段、第二个音频子片段……第n个音频子片段。
每个音频子片段对应的若干候选视频子片段为目标候选网格中的每行,例如:如图10所示,第一列的候选1、候选2……候选S1指的是第一个音频子片段对应的候选视频子片段1、第一个音频子片段对应的候选视频子片段2……第一个音频子片段对应的候选视频子片段S1;依此类推,第二列的候选1、候选2……候选S2指的是第二个音频子片段对应的候选视频子片段1、第二个音频子片段对应的候选视频子片段2……第二个音频子片段对应的候选视频子片段S2;直到第n列的候选1、候选2……候选SN指的是第n个音频子片段对应的候选视频子片段1、第n个音频子片段对应的候选视频子片段2……第n个音频子片段对应的候选视频子片段SN
根据目标候选网格中的每行,也即每个音频子片段;与目标候选网格中的每行,也即每个音频子片段对应的若干候选视频子片段,共同构建了目标候选网格。
步骤103,根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段。
需要说明的是,在本申请实施例中,根据目标候选网格进行全局动态规划,得到每个音频子片段对应的目标视频子片段。
进一步地,在本申请实施例中,步骤103包括以下步骤:获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数。
需要说明的是,在本申请实施例中,获取目标候选网格n-1列中若干候选视频子片段对应的目标距离,其中,n为大于或者等于2的整数。例如:如图10所示,获取目标候选网格第1列中候选1、候选2……候选S1各自分别所对应的目标距离。
进一步地,在本申请实施例中,如图3所示,步骤103还包括以下步骤。
步骤301,根据所述目标候选网格n-1列中若干所述候选视频子片段和所述目标候选网格n列中若干所述候选视频子片段进行运算,得到所述目标候选网格n列中若干所述候选视频子片段对应的衔接距离,其中,所述衔接距离用于确定相邻两个所述候选视频子片段在相接处的近似性。
需要说明的是,在本申请实施例中,衔接距离用于确定相邻两个候选视频子片段在相接处的近似性。对于目标候选网格中每列的每个候选视频子片段,需要分别计算它与前一列中每个候选子片段之间的衔接距离。具体地,目标候选网格中第n列的每个候选视频子片段,需要分别计算它与第n-1列中每个候选子片段之间的衔接距离,以第n列中某个候选视频子片段和第n-1列中的某个候选视频子片段为例,两个候选视频子片段之间的衔接距离的计算方法为:1)对第n列中的当前某个候选视频子片段,在〈图像片段序号,图像表征向量〉查找表中找到相应的图像表征向量,该向量的后半部分是反向向量;2)对n-1中的某个候选视频子片段,在〈图像片段序号,图像表征向量〉查找表中找到相应的图像表征向量,该向量的前半部分是正向向量;3)计算1)中的反向向量和2)中的正向向量之间的距离(余弦距离,或其他类型的向量距离),作为两个候选视频子片段之间的衔接距离。
步骤302,根据所述目标距离和所述衔接距离进行运算,得到若干所述候选视频子片段对应的总距离。
步骤303,根据若干所述候选视频子片段对应的总距离进行排序,得到目标总距离。
步骤304,将所述目标总距离对应的候选视频子片段确定为目标视频子片段。
需要说明的是,在本申请实施例中,根据目标距离和衔接距离进行运算,得到若干候选视频子片段对应的总距离。具体地,以第n列中某个候选视频子片段和第n-1列中的某个候选视频子片段为例,第n列中某个候选视频子片段对应的总距离=第n列中某个候选视频子片段和第n-1列中的某个候选视频子片段两者之间的衔接距离+第n-1列中的某个候选视频子片段对应的目标距离。
将若干候选视频子片段对应的总距离进行升序排列,得到目标总距离。具体地,将第n列中所有候选视频子片段各自分别对应的总距离进行升序排列,从中选择出最小的总距离,并将最小的总距离作为目标总距离。进一步地,将目标总距离对应的候选视频子片段确定为第n列,也即第n个音频子片段对应的目标视频子片段。
步骤104,根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。
需要说明的是,在本申请实施例中,根据每个音频子片段以及目标视频子片段,生成目标视频。
进一步地,在本申请实施例中,如图4所示,步骤104包括以下步骤。
步骤401,将每个所述音频子片段和所述目标视频子片段输入至预先生成的人脸修改模型,得到目标图像序列。
步骤402,组合每个所述音频子片段和所述目标图像序列,生成目标视频。
需要说明的是,在本申请实施例中,将每个音频子片段和目标视频子片段作为预先生成的人脸修改模型的输入,人脸修改模型的输出能够得到目标图像序列。将每个音频子片段和目标图像序列进行组合,能够生成目标视频。
本申请通过获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;根据所述音频子片段和所述候选视频子片段,构建目标候选网格;根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。通过本申请的实施例提供的技术方案,能够根据目标候选网格进行全局动态规划,使选出的目标视频子片段既考虑到与相应的音频子片段的近似性,也兼顾选出的目标视频子片段前后之间的连贯性。进而解决了现有技术中存在的相邻两个视频片段在相接处连贯性差的技术问题;通过根据目标距离选择出每个音频子片段对应的若干候选视频子片段,实现了能够考虑到每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性。通过对于目标候选网格中每列的每个候选视频子片段,需要分别计算它与前一列中每个候选子片段之间的衔接距离,实现了能够考虑到相邻两个候选视频子片段在相接处的近似性;通过根据目标距离和衔接距离进行运算,得到若干候选视频子片段对应的总距离,并将总距离进行排序,得到最小的总距离,也即目标总距离,进而能够将目标总距离对应的候选视频子片段确定为与音频子片段近似性高,且视频片段前后之间的连贯性好的视频子片段。
图5是根据一示例性实施例示出的一种视频生成的装置框图,参照图5,该装置包括数据获取模块501、数据构建模块502、数据全局动态规划模块503、数据生成模块504。
数据获取模块501,用于获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性。
数据构建模块502,用于根据所述音频子片段和所述候选视频子片段,构建目标候选网格。
数据全局动态规划模块503,用于根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段。
数据生成模块504,用于根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。
图6是图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据构建模块502的装置框图。参照图6,该装置包括第一确定子模块601、第二确定子模块602、数据组合子模块603。
第一确定子模块601,用于将所述每个音频子片段确定为目标候选网格中的每列。
第二确定子模块602,用于将每个所述音频子片段对应的若干所述候选视频子片段确定为所述目标候选网格中的每行。
数据组合子模块603,用于根据所述目标候选网格中的每列和所述目标候选网格中的每行进行组合,得到所述目标候选网格。
进一步地,参照如图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据全局动态规划模块,包括:目标距离获取子模块,用于获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数。
图7是图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据全局动态规划模块503的装置框图。参照图7,该装置包括衔接距离获取子模块701、总距离获取子模块702、目标总距离获取子模块703、确定目标视频子片段子模块704。
衔接距离获取子模块701,用于根据所述目标候选网格n-1列中若干所述候选视频子片段和所述目标候选网格n列中若干所述候选视频子片段进行运算,得到所述目标候选网格n列中若干所述候选视频子片段对应的衔接距离,其中,所述衔接距离用于确定相邻两个所述候选视频子片段在相接处的近似性。
总距离获取子模块702,用于根据所述目标距离和所述衔接距离进行运算,得到若干所述候选视频子片段对应的总距离。
目标总距离获取子模块703,用于根据若干所述候选视频子片段对应的总距离进行排序,得到目标总距离。
确定目标视频子片段子模块704,用于将所述目标总距离对应的候选视频子片段确定为目标视频子片段。
图8是图5所示的根据一示例性实施例示出的一种视频生成的装置框图中数据生成模块504的装置框图。参照图8,该装置包括目标图像序列获取子模块801、目标视频生成子模块802。
目标图像序列获取子模块801,用于将每个所述音频子片段和所述目标视频子片段输入至预先生成的人脸修改模型,得到目标图像序列。
目标视频生成子模块802,用于组合每个所述音频子片段和所述目标图像序列,生成目标视频。
本申请通过获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;根据所述音频子片段和所述候选视频子片段,构建目标候选网格;根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;根据每个所述音频子片段以及所述目标视频子片段,生成目标视频。通过本申请的实施例提供的技术方案,能够根据目标候选网格进行全局动态规划,使选出的目标视频子片段既考虑到与相应的音频子片段的近似性,也兼顾选出的目标视频子片段前后之间的连贯性。进而解决了现有技术中存在的相邻两个视频片段在相接处连贯性差的技术问题;通过根据目标距离选择出每个音频子片段对应的若干候选视频子片段,实现了能够考虑到每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性。通过对于目标候选网格中每列的每个候选视频子片段,需要分别计算它与前一列中每个候选子片段之间的衔接距离,实现了能够考虑到相邻两个候选视频子片段在相接处的近似性;通过根据目标距离和衔接距离进行运算,得到若干候选视频子片段对应的总距离,并将总距离进行排序,得到最小的总距离,也即目标总距离,进而能够将目标总距离对应的候选视频子片段确定为与音频子片段近似性高,且视频片段前后之间的连贯性好的视频子片段。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种用于电子设备900的框图。例如,电子设备900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,电子设备900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出接口912,传感器组件914,以及通信组件916。
处理组件902通常控制电子设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
输入/输出接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到电子设备900的打开/关闭状态,组件的相对定位,例如所述组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变,用户与电子设备900接触的存在或不存在,电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其他实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (7)

1.一种视频生成方法,其特征在于,所述方法包括:
获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;
根据所述音频子片段和所述候选视频子片段,构建目标候选网格;
根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;
根据每个所述音频子片段以及所述目标视频子片段,生成目标视频;
所述根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段,包括:
获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数;
根据所述目标候选网格n-1列中若干所述候选视频子片段和所述目标候选网格n列中若干所述候选视频子片段进行运算,得到所述目标候选网格n列中若干所述候选视频子片段对应的衔接距离,其中,所述衔接距离用于确定相邻两个所述候选视频子片段在相接处的近似性;
根据所述目标距离和所述衔接距离进行运算,得到若干所述候选视频子片段对应的总距离;
根据若干所述候选视频子片段对应的总距离进行排序,得到目标总距离;
将所述目标总距离对应的候选视频子片段确定为目标视频子片段。
2.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述音频子片段和所述候选视频子片段,构建目标候选网格,包括:
将所述每个音频子片段确定为目标候选网格中的每列;
将每个所述音频子片段对应的若干所述候选视频子片段确定为所述目标候选网格中的每行;
根据所述目标候选网格中的每列和所述目标候选网格中的每行进行组合,得到所述目标候选网格。
3.根据权利要求1所述的视频生成方法,其特征在于,所述根据每个所述音频子片段以及所述目标视频子片段,生成目标视频,包括:
将每个所述音频子片段和所述目标视频子片段输入至预先生成的人脸修改模型,得到目标图像序列;
组合每个所述音频子片段和所述目标图像序列,生成目标视频。
4.一种视频生成装置,其特征在于,所述装置包括:
数据获取模块,用于获取每个音频子片段对应的若干候选视频子片段,若干所述候选视频子片段根据目标距离获得,其中,所述目标距离用于确定每个候选视频子片段和每个所述候选视频子片段对应的音频子片段的近似性;
数据构建模块,用于根据所述音频子片段和所述候选视频子片段,构建目标候选网格;
数据全局动态规划模块,用于根据所述目标候选网格进行全局动态规划,得到每个所述音频子片段对应的目标视频子片段;
数据生成模块,用于根据每个所述音频子片段以及所述目标视频子片段,生成目标视频;
所述数据全局动态规划模块,包括:
目标距离获取子模块,用于获取所述目标候选网格n-1列中若干所述候选视频子片段对应的所述目标距离,其中,n为大于或者等于2的整数;
所述数据全局动态规划模块,还包括:
衔接距离获取子模块,用于根据所述目标候选网格n-1列中若干所述候选视频子片段和所述目标候选网格n列中若干所述候选视频子片段进行运算,得到所述目标候选网格n列中若干所述候选视频子片段对应的衔接距离,其中,所述衔接距离用于确定相邻两个所述候选视频子片段在相接处的近似性;
总距离获取子模块,用于根据所述目标距离和所述衔接距离进行运算,得到若干所述候选视频子片段对应的总距离;
目标总距离获取子模块,用于根据所述若干所述候选视频子片段对应的总距离进行排序,得到目标总距离;
确定目标视频子片段子模块,用于将所述目标总距离对应的候选视频子片段确定为目标视频子片段。
5.根据权利要求4所述的视频生成装置,其特征在于,所述数据构建模块,包括:
第一确定子模块,用于将所述每个音频子片段确定为目标候选网格中的每列;
第二确定子模块,用于将每个所述音频子片段对应的若干所述候选视频子片段确定为所述目标候选网格中的每行;
数据组合子模块,用于根据所述目标候选网格中的每列和所述目标候选网格中的每行进行组合,得到所述目标候选网格。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至3中任意一项所述的视频生成方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的视频生成方法。
CN202210311691.1A 2022-03-28 2022-03-28 视频生成方法、装置、电子设备及可读存储介质 Active CN114760534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210311691.1A CN114760534B (zh) 2022-03-28 2022-03-28 视频生成方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210311691.1A CN114760534B (zh) 2022-03-28 2022-03-28 视频生成方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114760534A CN114760534A (zh) 2022-07-15
CN114760534B true CN114760534B (zh) 2024-03-01

Family

ID=82327479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210311691.1A Active CN114760534B (zh) 2022-03-28 2022-03-28 视频生成方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114760534B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
KR101393351B1 (ko) * 2013-06-04 2014-05-09 주식회사 텔레칩스 멀티미디어 컨텐츠에 최적화된 수신측 텔레비전의 오디오 출력환경 자동설정 방법 및 이를 위하 컴퓨터로 판독가능한 기록매체
CN109977262A (zh) * 2019-03-25 2019-07-05 北京旷视科技有限公司 从视频中获取候选片段的方法、装置及处理设备
CN110446066A (zh) * 2019-08-28 2019-11-12 北京百度网讯科技有限公司 用于生成视频的方法和装置
CN111212245A (zh) * 2020-01-15 2020-05-29 北京猿力未来科技有限公司 一种合成视频的方法和装置
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112235631A (zh) * 2019-07-15 2021-01-15 北京字节跳动网络技术有限公司 视频处理方法、装置、电子设备及存储介质
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN113507627A (zh) * 2021-07-08 2021-10-15 北京的卢深视科技有限公司 视频生成方法、装置、电子设备及存储介质
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
KR101393351B1 (ko) * 2013-06-04 2014-05-09 주식회사 텔레칩스 멀티미디어 컨텐츠에 최적화된 수신측 텔레비전의 오디오 출력환경 자동설정 방법 및 이를 위하 컴퓨터로 판독가능한 기록매체
CN109977262A (zh) * 2019-03-25 2019-07-05 北京旷视科技有限公司 从视频中获取候选片段的方法、装置及处理设备
CN112235631A (zh) * 2019-07-15 2021-01-15 北京字节跳动网络技术有限公司 视频处理方法、装置、电子设备及存储介质
CN110446066A (zh) * 2019-08-28 2019-11-12 北京百度网讯科技有限公司 用于生成视频的方法和装置
CN111212245A (zh) * 2020-01-15 2020-05-29 北京猿力未来科技有限公司 一种合成视频的方法和装置
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN113507627A (zh) * 2021-07-08 2021-10-15 北京的卢深视科技有限公司 视频生成方法、装置、电子设备及存储介质
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114760534A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN109600659B (zh) 播放视频时的操作方法、装置、设备及存储介质
CN110825912B (zh) 视频生成方法、装置、电子设备及存储介质
CN109257645B (zh) 视频封面生成方法及装置
CN106657780B (zh) 图像预览方法和装置
CN110662083A (zh) 数据处理方法、装置、电子设备及存储介质
CN110557547B (zh) 镜头位置调整方法及装置
CN109360261B (zh) 图像处理方法、装置、电子设备及存储介质
CN109413478B (zh) 视频编辑方法、装置、电子设备及存储介质
CN109862380B (zh) 视频数据处理方法、装置及服务器、电子设备和存储介质
EP3796317A1 (en) Video processing method, video playing method, devices and storage medium
CN107341509B (zh) 卷积神经网络的训练方法、装置及可读存储介质
US11310443B2 (en) Video processing method, apparatus and storage medium
CN114025105B (zh) 视频处理方法、装置、电子设备、存储介质
CN108986117B (zh) 视频图像分割方法及装置
CN108769769B (zh) 视频的播放方法、装置及计算机可读存储介质
CN110764627A (zh) 一种输入方法、装置和电子设备
CN111800652A (zh) 视频处理方法及装置、电子设备和存储介质
CN112291631A (zh) 信息获取方法、装置、终端及存储介质
CN104850643B (zh) 图片对比方法和装置
CN109783171B (zh) 桌面插件切换方法、装置及存储介质
CN112947490B (zh) 路径平滑方法、装置、设备、存储介质及产品
CN110796012A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN109756783B (zh) 海报的生成方法及装置
CN107239758B (zh) 人脸关键点定位的方法及装置
CN106447747B (zh) 图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant