CN109788308B

CN109788308B - 音视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN109788308B
Application number: CN201910105402.0A
Authority: CN
Inventors: 黄安麒; 李深远; 董治
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2022-07-15
Anticipated expiration: 2039-02-01
Also published as: CN109788308A

Abstract

本发明公开了一种音视频处理方法、装置、电子设备及存储介质，属于数据处理领域。本发明实施例可以根据至少两个音视频对应的音频数据的音频相似度，自动确定该至少两个音视频中具有对齐关系的备选视频片段，进而，可以将不同的备选视频片段处理为同一个目标视频片段，以基于该目标视频片段，生成目标音视频，从而，实现了高效地将该至少两个音视频合并为一个音视频的目的，避免了人工剪辑音视频所造成的效率低以及成本高等问题。

Description

音视频处理方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理领域，特别涉及一种音视频处理方法、装置、电子设备及存储介质。

背景技术

随着数据处理技术的不断发展，对音视频处理方法越来越多。例如，为了满足用户对音视频的多样化需求，可以对不同的音视频进行时间对齐、合成以及拼接等处理，以将该不同的音视频处理为同一音视频。

目前，常用的音视频处理方法为将不同的音视频导入音视频剪辑应用中，基于该音视频剪辑应用，通过人工的方式，将该不同的音视频剪辑为各个音视频片段，进而，手动将符合需求的音视频片段合成或者拼接在一起，最终实现将该不同的音视频处理为同一音视频的目的。

基于上述音视频处理方法，需要通过人工的方式对音视频进行合成或者拼接，处理效率较低，且，人力成本较高，不能快捷地将多个不同的音视频合成或者拼接为同一音视频。

发明内容

本发明实施例提供了一种音视频处理方法、装置、电子设备及存储介质，能够解决人工合成或拼接音视频效率低且成本高的问题。所述技术方案如下：

一方面，提供了一种音视频处理方法，所述方法包括：

获取至少两个音视频；

根据所述至少两个音视频对应的音频数据，在所述至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段，所述对齐关系用于表示视频片段所对应的音频数据的音频相似度符合预设条件；

基于所述具有对齐关系的备选视频片段，生成目标视频片段；

基于任一个音视频，将所述任一个音视频的备选视频片段替换为所述目标视频片段，生成目标音视频。

一方面，提供了一种音视频处理方法，所述方法包括：

获取至少两个音视频；

对于所述至少两个音视频中任意两个音视频，将其中一个音视频的备选视频片段替换为另一个音视频的备选视频片段，生成目标音视频。

一方面，提供了一种音视频处理装置，所述装置包括：

获取模块，用于获取至少两个音视频；

确定模块，用于根据所述至少两个音视频对应的音频数据，在所述至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段，所述对齐关系用于表示视频片段所对应的音频数据的音频相似度符合预设条件；

第一生成模块，用于基于所述具有对齐关系的备选视频片段，生成目标视频片段；

第二生成模块，用于基于任一个音视频，将所述任一个音视频的备选视频片段替换为所述目标视频片段，生成目标音视频。

一方面，提供了一种音视频处理装置，所述装置包括：

获取模块，用于获取至少两个音视频；

生成模块，用于对于所述至少两个音视频中任意两个音视频，将其中一个音视频的备选视频片段替换为另一个音视频的备选视频片段，生成目标音视频。

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如上述音视频处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由一个或多个处理器加载并执行以实现如上述音视频处理方法所执行的操作。

本发明实施例可以根据至少两个音视频对应的音频数据的音频相似度，自动确定该至少两个音视频中具有对齐关系的备选视频片段，进而，可以将不同的备选视频片段处理为同一个目标视频片段，以基于该目标视频片段，生成目标音视频，从而，实现了高效地将该至少两个音视频合并为一个音视频的目的，避免了人工剪辑音视频所造成的效率低以及成本高等问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音视频处理方法的实施环境示意图；

图2是本发明实施例提供的一种音视频处理方法的流程图；

图3是本发明实施例提供的一种音视频处理方法的流程图；

图4是本发明实施例提供的一种音视频处理装置的结构示意图；

图5是本发明实施例提供的一种音视频处理装置的结构示意图；

图6是本发明实施例提供的一种终端600的结构框图；

图7是本发明实施例提供的一种服务器700的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种音视频处理方法的实施环境示意图。参见图1，该实施环境包括多个电子设备，该电子设备可以为多个终端101或者用于为该多个终端提供服务的服务器102。多个终端101通过无线或者有线网络和服务器102连接，该多个终端101可以访问服务器102，该多个终端101可以为电脑、智能手机、平板电脑或者其他电子设备，该多个终端101可以为用户提供音视频存储功能以及音视频处理功能等。服务器102可以为一个或者多个网站服务器，该服务器102可以作为多媒体文件的载体，该服务器102可以为用户提供视频播放、音频播放等多媒体功能，当然，该服务器102还可以在此基础上，为用户提供音视频处理等功能。对于服务器102来说，该服务器102还可以具有至少一种数据库，用以存储音视频等多媒体文件以及用户信息等。

图2是本发明实施例提供的一种音视频处理方法的流程图。参见图2，该实施例包括：

201、电子设备获取至少两个音视频。

在本发明实施例中，该电子设备具有存储功能和音视频处理功能，该至少两个音视频可以为具有相似音频内容的音视频，例如，该至少两个音视频可以为同一首歌曲的不同版本的音视频，例如，该不同版本的音视频可以包括该同一首歌曲的原版音视频以及翻唱音视频等，本发明实施例在此对该至少两个音视频不做具体限定。

其中，该电子设备可以是终端，也可以是服务器。例如，该电子设备为终端，终端可以直接通过录制功能来获取该至少两个音视频，该终端也可以从服务器或者其他终端获取该至少两个音视频。当然，该电子设备也可以为服务器，服务器可以接收终端发送的该至少两个音视频。本发明实施例在此对获取该至少连个音视频的电子设备不做限定。

202、电子设备根据该至少两个音视频对应的音频数据，获取该至少两个音视频的音频特征矩阵。

在本发明实施例中，该音频数据为从每个音视频中分离得到的音频数据，每个音频特征矩阵用于表示每个音视频对应的音频数据的音频特征，例如，该音频特征可以为基频、幅值以及音高等。

例如，电子设备获取该至少两个音视频的音频特征矩阵的过程可以包括以下步骤202A至步骤202B：

202A：电子设备基于该至少两个音视频，获取每个音视频对应的音频数据。

具体地，电子设备可以通过音频分离工具，对该至少两个音视频中的每个音视频分别进行处理，以分离出每个音视频中的音频数据。相应地，电子设备也可以从每个音视频中分离出对应的视频数据。其中，该音频分离工具可以为RealMedia Analyzer工具，当然，该音频分离工具还可以为其他工具，本发明实施例在此不做限定。

202B：电子设备根据每个音视频对应的音频数据，获取该至少两个音视频的音频特征矩阵。

具体地，该电子设备可以通过一种或者多种音频特征提取算法，提取该每个音视频对应的音频数据的音频特征矩阵。例如，该音频特征提取算法可以为傅里叶变换算法、常数Q变换算法、梅尔倒谱系数算法、机器学习算法或者音高旋律提取算法等，本发明实施例在此不做限定。

其中，可以设定该至少两个音视频分别为第一音视频、第二音视频、第三音视频……，可以设定与该至少两个音视频对应的音频特征矩阵分别为A1、A2、A3……。

203、电子设备基于该至少两个音视频的音频特征矩阵，获取多个子矩阵。

在本发明实施例中，每个子矩阵对应的时长相等，每两个子矩阵之间的时间间隔相等。

以第一音视频的音频特征矩阵A1为例，电子设备获取该音频特征矩阵A1的多个子矩阵的过程可以包括以下步骤203A至步骤203B：

203A：电子设备确定单位时长B和单位时间间隔C。

其中，该单位时长B用于确定一个子矩阵所覆盖的时长，该单位时长可以为电子设备所预设的时长，例如，该单位时长可以为1秒。该单位时间间隔C用于确定每两个子矩阵之间的时间间隔，该单位时间间隔C可以为电子设备所预设的时间间隔，例如，该单位时间间隔可以为0.5秒。

203B：电子设备基于该单位时长B和该单位时间间隔C，从该音频特征矩阵A1中，得到该音频特征矩阵A1的第一子矩阵集合，该第一子矩阵集合包括该音频特征矩阵A1的多个子矩阵。

具体地，该电子设备可以每隔单位时间间隔C，从该音频特征矩阵A1中取出单位时长为B的子矩阵D1，从而，基于该各个子矩阵D1，得到该音频特征矩阵A1的第一子矩阵集合[D11，D12，D13……]。其中，子矩阵D11与子矩阵D12之间的时间间隔为C，子矩阵D11或者子矩阵D12等所覆盖的时长为B。

上述步骤203A至步骤203B为电子设备获取音频特征矩阵A1的第一子矩阵集合的过程，以此类推，该电子设备可以获取其他各个音视频的音频特征矩阵的子矩阵集合。

此外，电子设备还可以基于每个音视频的音频特征矩阵的各个子矩阵，获取该每个音视频的中心时间矩阵。

其中，该中心时间矩阵中的各个元素用于表示对应子矩阵的中心时间点。以第一音视频对应的各个子矩阵[D11，D12，D13……]为例，电子设备获取该第一音视频对应的中心时间矩阵的过程可以如下：电子设备可以根据第一子矩阵集合[D11，D12，D13……]中的各个子矩阵分别对应的时间段，确定每个子矩阵对应的中心时间点，电子设备可以基于各个中心时间点，组成该第一音视频的中心时间矩阵。例如，子矩阵D11对应的中心时间点为E11，子矩阵D12对应的中心时间点为E12，子矩阵D13对应的中心时间点为E13……，则该第一音视频的中心时间矩阵可以为[E11，E12，E13……]。以此类推，电子设备可以获取该至少两个音视频的中心时间矩阵。当然，电子设备还可以通过其他方式来获取每个音视频的中心时间矩阵，本发明实施例在此不做限定。

204、电子设备基于该至少两个音视频的多个子矩阵，获取该每两个音视频之间的第一距离矩阵和第二距离矩阵。

在本发明实施例中，该第一距离矩阵和该第二距离矩阵用于获取该每两个音视频之间的音频的相似度。例如，该第一距离矩阵可以为余弦距离矩阵，该第二距离矩阵可以为欧式距离矩阵。当然，该第一距离矩阵和该第二距离矩阵也可以为其他距离矩阵，本发明实施例在此不做限定。

以电子设备获取第一音视频和第二音视频之间的第一距离矩阵为例，该电子设备获取第一距离矩阵的过程可以包括以下步骤204A至步骤204B：

204A：电子设备基于第一音视频对应的第一子矩阵集合[D11，D12，D13……]和第二音视频对应的第二子矩阵集合[D21，D22，D23……]，获取各个第一距离向量。

其中，该第二子矩阵集合[D21，D22，D23……]的获取方式与上述步骤203A至步骤203B的过程同理，本发明实施例在此不做一一赘述。该第一距离向量用于组成该第一距离矩阵。

具体地，以该第一距离矩阵为余弦距离矩阵，该第一距离向量为余弦距离向量为例，电子设备可以通过笛卡尔乘积的方式，计算第一子矩阵集合的各个子矩阵与第二子矩阵集合的各个子矩阵之间的余弦距离，得到各个余弦距离向量。也即是，电子设备可以计算第一子矩阵集合中的每个子矩阵，分别与第二子矩阵中的所有子矩阵之间的余弦距离，得到各个余弦距离向量，则该各个余弦距离向量即为各个第一距离向量。例如，以F表示任两个子矩阵之间的余弦距离，则该各个第一距离向量可以为[F(D11，D21)，F(D11，D22)，F(D11，D23)……]，[F(D12，D21)，F(D12，D22)，F(D12，D23)……]，[F(D13，D21)，F(D13，D22)，F(D13，D23)……]……

204B：电子设备基于该各个第一距离向量，组成该第一音视频与该第二音视频之间的第一距离矩阵。

具体地，由步骤204A可知，该各个第一距离向量可以为[F(D11，D21)，F(D11，D22)，F(D11，D23)……]，[F(D12，D21)，F(D12，D22)，F(D12，D23)……]，[F(D13，D21)，F(D13，D22)，F(D13，D23)……]……，则该第一距离矩阵可以为[[F(D11，D21)，F(D11，D22)，F(D11，D23)……]，[F(D12，D21)，F(D12，D22)，F(D12，D23)……]，[F(D13，D21)，F(D13，D22)，F(D13，D23)……]……]。

上述步骤204A至步骤204B为电子设备获取第一音视频和第二音视频之间的第一距离矩阵的过程，与步骤204A至步骤204B同理，若以G表示任两个子矩阵之间的欧式距离，则电子设备可以得到该第一音视频和该第二音视频之间的第二距离矩阵为[[G(D11，D21)，G(D11，D22)，G(D11，D23)……]，[G(D12，D21)，G(D12，D22)，G(D12，D23)……]，[G(D13，D21)，G(D13，D22)，G(D13，D23)……]……]。

上述步骤204是以电子设备获取第一音视频和第二音视频之间的第一距离矩阵和第二距离矩阵为例进行说明的，以此类推，电子设备可以获取到任两个音视频之间的第一距离矩阵和第二距离矩阵。

此外，电子设备还可以基于第一音视频的中心时间矩阵[E11，E12，E13……]和第二音视频的中心时间矩阵[E21，E22，E23……]，计算第一音视频与第二音视频之间的时间矩阵。其中，该时间矩阵用于表示该第一音视频与该第二音视频之间的时间对应关系。具体地，与上述计算第一距离矩阵的过程同理，电子设备可以得到该第一音视频与第二音视频之间的时间矩阵为[[(E11，E21)，(E11，E22)，(E11，E23)……]，[(E12，E21)，(E12，E22)，(E12，E23)……]，[(E13，E21)，(E13，E22)，(E13，E23)……]……]。

205、电子设备基于该第一距离矩阵和该第二距离矩阵，得到综合距离矩阵。

在本发明实施例中，该综合距离矩阵用于更加准确地表示每两个音视频之间的音频相似度。

具体地，电子设备可以将该第一距离矩阵中的各个元素，与该第二距离矩阵中相同位置的对应元素分别相乘，得到该每两个音视频之间的综合距离矩阵。

以第一音视频的第一距离矩阵[[F(D11，D21)，F(D11，D22)，F(D11，D23)……]，[F(D12，D21)，F(D12，D22)，F(D12，D23)……]，[F(D13，D21)，F(D13，D22)，F(D13，D23)……]……]和第一音视频的第二距离矩阵[[G(D11，D21)，G(D11，D22)，G(D11，D23)……]，[G(D12，D21)，G(D12，D22)，G(D12，D23)……]，[G(D13，D21)，G(D13，D22)，G(D13，D23)……]……]为例，电子设备将对应元素相乘，得到的该第一音视频的综合距离矩阵可以为[[F(D11，D21)*G(D11，D21)，F(D11，D22)*G(D11，D22)，F(D11，D23)*G(D11，D23)……]，[F(D12，D21)*G(D12，D21)，F(D12，D22)*G(D12，D22)，F(D12，D23)*G(D12，D23)……]，[F(D13，D21)*G(D13，D21)，F(D13，D22)*G(D13，D22)，F(D13，D23)*G(D13，D23)……]……]。

以此类推，电子设备可以得到每两个音视频之间的综合距离矩阵。当然，电子设备还可以通过其他方式得到每两个音视频之间的综合距离矩阵，本发明实施例在此不做限定。

206、电子设备基于该综合距离矩阵，获取该每两个音视频之间的最小总距离路径。

在本发明实施例中，该最小总距离路径用于判断该每两个音视频之间的各个音频片段是否具有对齐关系，该对齐关系用于表示每两个音频片段的相似度符合预设条件。

具体地，电子设备可以通过动态时间规整算法，对每两个音视频之间的综合距离矩阵进行分析，得到该每两个音视频之间的最小总距离路径。当然，电子设备还可以通过其他方式，获取该最小总距离路径，本发明实施例在此不做限定。

其中，该最小总距离路径上的各个点与上述步骤204中的时间矩阵中的各个元素相对应，该最小总距离路径上的各个点所对应的时间矩阵中的各个元素用于表示该每两个音视频之间的对齐时间。以第一音视频与第二音视频之间的最小总距离路径为例，例如，该最小总距离路径上的一个点所对应的时间矩阵中的元素为(E11，E21)，则表示该第一音视频的第E11秒与该第二音视频的第E21秒是对齐关系。此外，该最小总距离路径上的各个点也与上述步骤205中的综合距离矩阵中的各个元素相对应，该最小总距离路径上的各个点所对应的综合距离矩阵中的各个元素用于表示在该对齐时间下，该每两个音视频的音频数据之间的综合距离。例如，对于上述元素(E11，E21)对应的该最小总距离路径上的一个点，若该一个点对应的综合距离矩阵中的元素为F(D11，D21)*G(D11，D21)，则表示在该第一音视频的第E11秒与该第二音视频的第E21秒时，该第一音视频的音频数据与该第二音视频的音频数据之间的综合距离为F(D11，D21)*G(D11，D21)。

207、电子设备对该最小总距离路径的各个线段进行分析，确定该每两个音视频之间具有该对齐关系的各个音频片段。

在本发明实施例中，该各个音频片段可以携带有对应的第一时间戳，该对齐关系可以包括直接对齐关系和拉伸对齐关系，其中，该直接对齐关系用于表示两个音频片段之间的音频相似度符合预设条件，且该两个音频片段的时长相等，该拉伸对齐关系用于表示该两个音频片段之间的音频相似度符合预设条件，且该两个音频片段的时长不相等。

以第一音视频与第二音视频为例，电子设备确定该第一音视频与该第二音视频之间具有对齐关系的各个音频片段的过程可以包括以下步骤207A至步骤207C：

207A：电子设备对第一音视频与该第二音视频之间的最小总距离路径进行分析，获取该最小总距离路径的各个线段对应的综合距离信息、长度信息以及角度信息等。

其中，该综合距离信息为综合距离矩阵中的各个对应元素的平均值，该各个对应元素与该最小总距离路径的各个线段上的点相对应，该长度信息为该各个线段的长度，该角度信息为该各个线段所弯曲的最小角度。

具体地，电子设备可以对该最小总距离路径进行霍夫变换，以得到该最小总距离路径的各个线段对应的综合距离信息、长度信息以及角度信息等。

207B：电子设备根据该各个线段的综合距离信息、长度信息以及角度信息等，判断该第一音视频对应的各个第一音频片段与该第二音视频对应的各个第二音频片段的对齐关系。

具体地，电子设备可以通过以下(1)到(3)三种方式来判断该第一音视频对应的各个第一音频片段与该第二音视频对应的各个第二音频片段的对齐关系：

(1)电子设备可以预设第一综合距离阈值和第一长度阈值。电子设备可以将综合距离信息小于该第一综合距离阈值，且，长度信息大于该第一长度阈值，且，角度信息等于45度的线段，作为直接对齐线段，该直接对齐线段所对应的第一音频片段与第二音频片段具有直接对齐关系。其中，该直接对齐线段为该最小总距离路径中的部分线段。

(2)电子设备可以预设第二综合距离阈值和第二长度阈值。电子设备可以将综合距离信息小于该第二综合距离阈值，且，长度信息大于该第二长度阈值，且，角度信息不等于0度、45度以及90度的线段，作为拉伸对齐线段，该拉伸对齐线段所对应的第一音频片段与第二音频片段具有拉伸对齐关系。其中，该拉伸对齐线段为该最小总距离路径中的部分线段。

(3)当电子设备可以将综合距离信息、长度信息以及角度信息不满足上述(1)和(2)中的条件的线段，作为不可对齐线段，该不可对齐线段所对应的第一音频片段与第二音频片段不具有对齐关系。其中，该不可对齐线段为该最小总距离路径中的部分线段。

207C：电子设备确定具有对齐关系的第一音频片段与第二音频片段。

具体地，电子设备可以基于上述(1)和(2)，确定具有直接对齐关系的第一音频片段和第二音频片段，以及具有拉伸对齐关系的第一音频片段和第二音频片段。

上述步骤207A至步骤207C是以电子设备确定该第一音视频与该第二音视频之间具有对齐关系的各个音频片段的过程为例进行说明的，与此同理，电子设备可以确定每两个音视频之间具有对齐关系的各个音频片段。当然，电子设备还可以通过其他方式来确定每两个音视频之间具有对齐关系的各个音频片段，本发明实施例在此不做限定。

208、电子设备基于具有该对齐关系的各个音频片段，确定具有该对齐关系的备选视频片段。

在本发明实施例中，每个备选视频片段可以携带有对应的第二时间戳。

具体地，电子设备基于上述步骤207确定具有对齐关系的各个音频片段之后，电子设备可以根据具有对齐关系的该每个音频片段所携带的第一时间戳，将携带有与第一时间戳相同的第二时间戳的各个视频片段，作为具有该对齐关系的备选视频片段。当然，电子设备还可以通过其他方式，来确定具有该对齐关系的备选视频片段，本发明实施例在此不做限定。

209、当不同音视频的备选视频片段的时长相同时，电子设备基于视频画布的尺寸和预设规则，对各个备选视频片段中的视频帧图像进行截取，得到该各个备选视频片段的目标区域。

在本发明实施例中，该视频画布为待显示不同视频帧图像的画布，该预设规则用于电子设备根据该视频画布的尺寸对各个视频帧图像进行截取，该各个视频帧图像携带有相应的第二时间戳，该目标区域为电子设备从各个视频帧图像中截取到的部分图像。

以第一音视频对应第一备选视频片段和第二音视频对应的第二备选视频片段的时长相同为例，电子设备得到该第一备选视频片段的目标区域的过程可以包括以下步骤209A至步骤209C：

209A：电子设备根据视频画布的尺寸，获取该视频画布的二分之一部分的尺寸。

具体地，电子设备可以将该视频画布平均分为尺寸相等的两部分，例如，电子设备可以将该视频画布平均分为左右相等的两部分，当然，电子设备也可以将该视频画布平均分为上下相等或者对角相等的两部分。电子设备可以获取该尺寸相等的两部分中的任一部分的尺寸。例如，该视频画布的尺寸为高6cm、宽4cm，则电子设备可以获取该视频画布的二分之一部分的尺寸为高3cm、宽2cm。当然，电子设备还可以根据其他方式来获取将该视频画布的二分之一部分的尺寸，本发明实施例在此不做限定。

209B：电子设备对该第一备选视频片段的各个第一视频帧图像进行识别，确定该各个第一视频帧图像中的人物显示区域的中心位置。

具体地，电子设备可以通过机器学习算法分别对该各个第一视频帧图像进行识别，获取到每个第一视频帧图像中的人物显示区域，进而，电子设备可以基于各个人物显示区域，确定每个人物显示区域的中心位置。当然，电子设备还可以通过其他方式来确定该各个第一视频帧图像中的人物显示区域的中心位置，本发明实施例在此不做限定。

209C：电子设备以该人物显示区域的中心位置为中心，从该各个第一视频帧图像中截取上述二分之一尺寸的区域，作为该各个第一视频帧图像的目标区域。

上述步骤209A至步骤209C是以电子设备根据视频画布的二分之一部分的尺寸，对各个第一视频帧图像进行截取，以获取各个第一视频帧图像的目标区域为例进行说明的，当然，在其他实施例中，电子设备还可以通过其他预设规则来获取该目标区域，例如，电子设备还可以根据各个第一视频帧图像中的人物显示区域的尺寸，分别对每个第一视频帧图像进行截取，以获取各个第一视频帧图像的目标显示区域。本发明实施例在此不做具体限定。

对于电子设备获取第二备选视频片段的各个第二视频帧图像的目标区域的过程，可以与上述步骤209A至步骤209C中电子设备获取第一备选视频片段的各个第一视频帧图像的目标区域过程同理。当然，电子设备还可以通过其他方式来获取该各个第二视频帧图像的目标区域，例如，电子设备还可以根据获取到的各个第一视频帧图像的目标区域以及视频画布的尺寸，来获取与每个第一视频帧图像相对应的第二视频帧图像的目标区域。例如，电子设备获取到的第一视频帧图像的目标区域的尺寸为高2cm、宽4cm，且该视频画布的尺寸为高6cm、宽4cm，则电子设备获取到的与该第一视频帧图像相对应的第二视频帧图像的目标区域的尺寸可以为高4cm、宽4cm。本发明实施例在此不做具体限定。

与上述获取第一备选视频片段的目标区域和第二备选视频片段的目标区域同理，当不同音视频的每两个备选视频片段的时长相同时，电子设备可以获取到该每两个备选视频片段的目标区域。

210、电子设备将该各个备选视频片段的目标区域按照所属图像帧绘制在该视频画布中，得到多个目标视频帧图像。

在本发明实施例中，以基于第一备选视频片段的目标区域和第二备选视频片段的目标区域为例，电子设备获取多个目标视频帧图像的过程如下：电子设备可以根据预设绘制规则，将属于相同图像帧的第一视频帧图像的目标区域和第二视频帧图像的目标区域，绘制在该视频画布中，从而实现将该第一备选视频片段与该第二备选视频片段合并成各个目标视频帧图像的目的。例如，电子设备可以将属于相同图像帧的第一视频帧图像的目标区域，绘制在该视频画布的左半部分，电子设备可以将属于相同图像帧的第二视频帧图像的目标区域，绘制在该视频画布的右半边部分。当然，电子设备还可以通过其他方式来得到该多个目标视频帧图像，本发明实施例在此不做限定。

与上述获取第一备选视频片段与第二备选视频片段的多个目标视频帧图像的过程同理，电子设备可以获取到每两个备选视频片段的多个目标视频帧图像，使得在同一个视频画面中可以同时看到多个视频帧图像，使得视频帧图像的显示方式更加多样化。

211、电子设备将该多个目标视频帧图像拼接为该目标视频片段。

在本发明实施例中，该目标视频片段即为将每两个备选视频片段合并之后得到的视频片段。具体地，基于步骤210中得到的多个目标视频帧图像，电子设备可以从第一个目标视频帧图像开始，依次将该各个目标视频帧图像拼接在一起，得到该目标视频片段。

上述步骤209至步骤211为当不同音视频的备选视频片段的时长相同时，电子设备将不同音视频的备选视频片段进行合并，生成目标视频片段的过程。

在其他实施例中，当该不同音视频的备选视频片段的时长不相同时，电子设备可以将该不同音视频的备选视频片段处理为时长相等的视频片段，将该时长相等的视频片段进行合并，生成该目标视频片段。

具体地，以第一备选视频片段的时长与第二备选视频片段的时长不相同为例，电子设备将第一备选视频片段和第二备选视频片段处理为时长相等的两个视频片段的过程可以如下：电子设备可以以第一备选视频片段的时长为基础，将该第二备选视频片段的时长拉伸为该第一备选视频片段的时长。例如，该第一备选视频片段的时长为(a-b)，该第二备选视频片段的时长为(d-c)，则电子设备对第二备选视频片段的时长的拉伸比例可以为R＝(d-a)/(c-b)。当然，电子设备还可以通过其他方式来分别对该第一备选视频片段的时长和该第二备选视频片段的时长进行拉伸，例如，电子设备对第一备选视频片段的时长的拉伸比例可以为S，电子设备对第二备选视频片段的时长的拉伸比例可以为T，其中，S/T＝R，本发明实施例在此对电子设备拉伸第一备选视频片段的时长以及第二备选视频片段的时长的方式不做具体限定。以此类推，电子设备可以将任意两个不同时长的备选视频片段处理为时长相等的两个视频片段。

进而，与上述步骤209至步骤211的过程同理，电子设备可以将进行拉伸处理之后的该时长相等的两个视频片段，合并为目标视频片段，本发明实施例在此对合并为该目标视频片段的过程不做一一赘述。

上述步骤209至步骤211为电子设备对备选视频片段进行合并的过程，此外，电子设备还可以将与该备选视频片段对应的备选音频片段进行合并，得到目标音频片段，以实现在同一视频画面显示不同的视频帧图像的同时，可以播放不同的音频片段，从而达到合唱的目的，提高了对音视频处理的灵活性。

进一步的，电子设备还可以基于任一个音视频，将该音视频中的备选音频片段替换为另一个音视频中的备选音频片段，从而，可以实现在同一视频画面显示不同视频帧图像的同时，达到轮唱的目的，增加了对音视频播放的多样性。

212、电子设备基于任一个音视频，将该任一个音视频的备选视频片段替换为该目标视频片段，得到该目标音视频。

在本发明实施例中，该目标音视频为基于每两个音视频所合并成的音视频。

以第一音视频和第二音视频为例，电子设备可以基于该第一音视频，将该第一音视频中的各个第一备选视频片段，替换为步骤211中得到的目标视频片段。此外，电子设备还可以将与该各个第一备选视频片段对应的各个第一备选音频片段，替换为上述步骤211中的各个目标音频片段。进而，电子设备可以基于替换后的各个目标视频片段、各个目标音频片段以及该第一音视频中的其余视频片段和其余音频片段，生成该目标音视频。以此类推，电子设备可以基于任一个音视频，得到该目标音视频。

上述步骤209至步骤212为电子设备将具有对齐关系的备选视频片段进行合并，生成各个目标视频片段，进而，根据该各个目标视频片段生成目标音视频的过程。该过程使得可以在同一视频画面中同时显示不同的视频帧图像，提高了视频显示的多样性。

进一步的，电子设备还可以将其中一个音视频的备选音频片段替换为另一个音视频的备选音频片段，从而，可以实现在同一视频画面显示不同视频帧图像的同时，达到轮唱的目的。

更进一步的，电子设备还可以对同一视频画面中所显示的不同视频帧图像分别添加放大特效，使得电子设备在播放某一部分音频时，与该部分音频相对应的视频帧图像放大显示，增加了对音视频播放的多样性。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

上述图2所示实施例是以电子设备将不同的备选视频片段合并成目标视频片段，进而，基于该目标视频片段生成目标音视频为例进行说明的，而在一些实施例中，电子设备还可以直接将一个音视频的备选视频片段替换为另一个音视频的备选视频片段，以生成该目标音视频。基于此，图3是本发明实施例提供的一种音视频处理方法的流程图。参见图3，该实施例包括：

301、电子设备获取至少两个音视频。

302、电子设备根据该至少两个音视频对应的音频数据，获取该至少两个音视频的音频特征矩阵。

303、电子设备基于该至少两个音视频的音频特征矩阵，获取多个子矩阵。

304、电子设备基于该至少两个音视频的多个子矩阵，获取该每两个音视频之间的第一距离矩阵和第二距离矩阵。

305、电子设备基于该第一距离矩阵和该第二距离矩阵，得到综合距离矩阵。

306、电子设备基于该综合距离矩阵，获取该每两个音视频之间的最小总距离路径。

307、电子设备对该最小总距离路径的各个线段进行分析，确定该每两个音视频之间具有该对齐关系的各个音频片段。

308、电子设备基于具有该对齐关系的各个音频片段，确定具有该对齐关系的备选视频片段。

在本发明实施例中，上述步骤301至步骤308的过程与上述步骤201至步骤208的过程类似，本发明实施例在此不做一一赘述。

309、对于至少两个音视频中任意两个音视频，电子设备将其中一个音视频的备选视频片段替换为另一个音视频的备选视频片段，生成目标音视频。

在本发明实施例中，当该其中一个音视频的备选视频片段的时长与该另一个音视频的备选视频片段的时长相等时，电子设备可以直接将该其中一个音视频的备选视频片段替换为该另一个音视频的备选视频片段，进而，电子设备可以基于该另一个音视频的备选视频片段以及该其中一个音视频的其他音频片段和视频片段，拼接为该目标音视频。

此外，当该其中一个音视频的备选视频片段的时长与该另一个音视频的备选视频片段的时长不相等时，电子设备可以通过上述步骤211中的方式，将该其中一个音视频的备选视频片段与该另一个音视频的备选视频片段，处理为时长相等的两个视频片段，进而，电子设备可以将处理时长之后的该其中一个音视频的备选视频片段，替换为处理时长之后的该另一个音视频的备选视频片段，生成该目标音视频。

进一步的，电子设备还可以将其中一个音视频的备选视频片段对应的音频片段替换为另一个音视频的备选视频片段对应的音频片段，以生成目标音视频。从而，实现了在相同图像帧仅显示一个视频帧图像的情况下，达到轮唱的目的。本发明实施例在此对电子设备得到该目标音视频的方式不做具体限定。

需要说明的是，上述图2所示实施例与图3所示实施例，可以为两个独立的过程，也即是，电子设备可以分别通过该两个实施例所示的两种方式，生成不同的目标音视频。当然，电子设备也可以结合使用该两个实施例所示的两种方式，以生成同一个目标音视频。本发明实施例在此不做限定。

本发明实施例可以根据至少两个音视频对应的音频数据的音频相似度，自动确定该至少两个音视频中具有对齐关系的备选视频片段，进而，可以将其中一个音视频的备选视频片段替换为另一个音视频的备选视频片段，以生成目标音视频，从而，实现了高效地将该至少两个音视频拼接为一个音视频的目的，避免了人工剪辑音视频所造成的效率低以及成本高等问题。

图4是本发明实施例提供的一种音视频处理装置的结构示意图。参见图4，该装置包括：获取模块401、确定模块402、第一生成模块403和第二生成模块404。

获取模块401，用于获取至少两个音视频；

确定模块402，用于根据该至少两个音视频对应的音频数据，在该至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段，该对齐关系用于表示视频片段所对应的音频数据的音频相似度符合预设条件；

第一生成模块403，用于基于该具有对齐关系的备选视频片段，生成目标视频片段；

第二生成模块404，用于基于任一个音视频，将该任一个音视频的备选视频片段替换为该目标视频片段，生成目标音视频。

在一些实施例中，该第一生成模块403包括：

第一生成单元，用于当不同音视频的备选视频片段的时长相同时，将该不同音视频的备选视频片段进行合并，生成该目标视频片段；

或，

第二生成单元，用于当该不同音视频的备选视频片段的时长不相同时，将该不同音视频的备选视频片段处理为时长相等的视频片段，将该时长相等的视频片段进行合并，生成该目标视频片段。

在一些实施例中，该第一生成单元用于：

基于视频画布的尺寸和预设规则，对各个备选视频片段中的视频帧图像进行截取，得到该各个备选视频片段的目标区域；

将该各个备选视频片段的目标区域按照所属图像帧绘制在该视频画布中，得到多个目标视频帧图像；

将该多个目标视频帧图像拼接为该目标视频片段。

在一些实施例中，该确定模块402包括：

该获取模块，还用于获取该至少两个音视频的音频特征矩阵，每个音频特征矩阵用于表示每个音视频对应的音频数据的音频特征；

确定单元，用于基于该至少两个音视频的音频特征矩阵，在该至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段。

在一些实施例中，该确定单元包括：

获取子单元，用于基于该至少两个音视频的音频特征矩阵，获取每两个音视频之间的最小总距离路径；

确定子单元，用于对该最小总距离路径的各个线段进行分析，确定该每两个音视频之间具有该对齐关系的各个音频片段；

该确定子单元，还用于基于具有该对齐关系的各个音频片段，确定具有该对齐关系的备选视频片段。

在一些实施例中，该获取子单元用于：

基于该至少两个音视频的音频特征矩阵，获取多个子矩阵，每个子矩阵对应的时长相等，每两个子矩阵之间的时间间隔相等；

基于该至少两个音视频的多个子矩阵，获取综合距离矩阵，该综合距离矩阵用于表示该每两个音视频之间的音频相似度；

基于该综合距离矩阵，获取该每两个音视频之间的最小总距离路径。

在一些实施例中，该获取子单元还用于：

基于该至少两个音视频的多个子矩阵，获取该每两个音视频之间的第一距离矩阵和第二距离矩阵；

基于该第一距离矩阵和该第二距离矩阵，得到该综合距离矩阵。

需要说明的是：上述实施例提供的音视频处理装置在音视频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音视频处理装置与音视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种音视频处理装置的结构示意图。参见图5，该装置包括：获取模块501、确定模块502和生成模块503。

获取模块501，用于获取至少两个音视频；

确定模块502，用于根据该至少两个音视频对应的音频数据，在该至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段，该对齐关系用于表示视频片段所对应的音频数据的音频相似度符合预设条件；

生成模块503，用于对于该至少两个音视频中任意两个音视频，将其中一个音视频的备选视频片段替换为另一个音视频的备选视频片段，生成目标音视频。

在一些实施例中，该装置还包括：

替换模块，用于将该其中一个音视频的备选视频片段对应的音频片段替换为该另一个音视频的备选视频片段对应的音频片段。

图6是本发明实施例提供的一种终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本发明中方法实施例提供的音视频处理方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器700的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上CPU(central processingunits，处理器)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的音视频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音视频处理方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音视频处理方法，其特征在于，所述方法包括：

获取至少两个音视频，所述至少两个音视频为同一首歌曲的不同版本的音视频；

基于所述具有对齐关系的备选视频片段，生成目标视频片段，将所述具有对齐关系的备选视频片段对应的备选音频片段进行合并，生成目标音频片段；

基于任一个音视频，将所述任一个音视频的备选视频片段替换为所述目标视频片段，将所述任一个音视频的备选视频片段对应的备选音频片段替换为所述目标音频片段，生成目标音视频；

其中，所述基于所述具有对齐关系的备选视频片段，生成目标视频片段，包括：将属于相同图像帧的各个备选视频片段的视频帧图像的目标区域，绘制在画布中，合并生成多个目标视频帧图像，将所述多个目标视频帧图像进行拼接，生成所述目标视频片段。

2.根据权利要求1所述的方法，其特征在于，所述基于所述具有对齐关系的备选视频片段，生成目标视频片段包括：

当不同音视频的备选视频片段的时长相同时，将所述不同音视频的备选视频片段进行合并，生成所述目标视频片段；

或，

当所述不同音视频的备选视频片段的时长不相同时，将所述不同音视频的备选视频片段处理为时长相等的视频片段，将所述时长相等的视频片段进行合并，生成所述目标视频片段。

3.根据权利要求2所述的方法，其特征在于，所述当不同音视频的备选视频片段的时长相同时，将所述不同音视频的备选视频片段进行合并，生成所述目标视频片段包括：

基于视频画布的尺寸和预设规则，对各个备选视频片段中的视频帧图像进行截取，得到所述各个备选视频片段的目标区域；

将所述各个备选视频片段的目标区域按照所属图像帧绘制在所述视频画布中，得到多个目标视频帧图像；

将所述多个目标视频帧图像拼接为所述目标视频片段。

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个音视频对应的音频数据，在所述至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段包括：

获取所述至少两个音视频的音频特征矩阵，每个音频特征矩阵用于表示每个音视频对应的音频数据的音频特征；

基于所述至少两个音视频的音频特征矩阵，在所述至少两个音视频对应的视频数据中，分别确定所述具有对齐关系的备选视频片段。

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少两个音视频的音频特征矩阵，在所述至少两个音视频对应的视频数据中，分别确定具有对齐关系的备选视频片段包括：

基于所述至少两个音视频的音频特征矩阵，获取每两个音视频之间的最小总距离路径；

对所述最小总距离路径的各个线段进行分析，确定所述每两个音视频之间具有所述对齐关系的各个音频片段；

基于具有所述对齐关系的各个音频片段，确定具有所述对齐关系的备选视频片段。

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少两个音视频的音频特征矩阵，获取每两个音视频之间的最小总距离路径包括：

基于所述至少两个音视频的音频特征矩阵，获取多个子矩阵，每个子矩阵对应的时长相等，每两个子矩阵之间的时间间隔相等；

基于所述至少两个音视频的多个子矩阵，获取综合距离矩阵，所述综合距离矩阵用于表示所述每两个音视频之间的音频相似度；

基于所述综合距离矩阵，获取所述每两个音视频之间的最小总距离路径。

7.根据权利要求6所述的方法，其特征在于，所述基于所述至少两个音视频的多个子矩阵，获取综合距离矩阵包括：

基于所述至少两个音视频的多个子矩阵，获取所述每两个音视频之间的第一距离矩阵和第二距离矩阵；

基于所述第一距离矩阵和所述第二距离矩阵，得到所述综合距离矩阵。

8.一种音视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取至少两个音视频，所述至少两个音视频为同一首歌曲的不同版本的音视频；

第一生成模块，用于基于所述具有对齐关系的备选视频片段，生成目标视频片段，将所述具有对齐关系的备选视频片段对应的备选音频片段进行合并，生成目标音频片段；

第二生成模块，用于基于任一个音视频，将所述任一个音视频的备选视频片段替换为所述目标视频片段，将所述任一个音视频的备选视频片段对应的备选音频片段替换为所述目标音频片段，生成目标音视频；

9.根据权利要求8所述的装置，其特征在于，所述第一生成模块包括：

第一生成单元，用于当不同音视频的备选视频片段的时长相同时，将所述不同音视频的备选视频片段进行合并，生成所述目标视频片段；

或，

第二生成单元，用于当所述不同音视频的备选视频片段的时长不相同时，将所述不同音视频的备选视频片段处理为时长相等的视频片段，将所述时长相等的视频片段进行合并，生成所述目标视频片段。

10.根据权利要求9所述的装置，其特征在于，所述第一生成单元用于：

将所述多个目标视频帧图像拼接为所述目标视频片段。

11.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

所述获取模块，还用于获取所述至少两个音视频的音频特征矩阵，每个音频特征矩阵用于表示每个音视频对应的音频数据的音频特征；

确定单元，用于基于所述至少两个音视频的音频特征矩阵，在所述至少两个音视频对应的视频数据中，分别确定所述具有对齐关系的备选视频片段。

12.根据权利要求11所述的装置，其特征在于，所述确定单元包括：

获取子单元，用于基于所述至少两个音视频的音频特征矩阵，获取每两个音视频之间的最小总距离路径；

确定子单元，用于对所述最小总距离路径的各个线段进行分析，确定所述每两个音视频之间具有所述对齐关系的各个音频片段；

所述确定子单元，还用于基于具有所述对齐关系的各个音频片段，确定具有所述对齐关系的备选视频片段。

13.根据权利要求12所述的装置，其特征在于，所述获取子单元用于：

14.根据权利要求13所述的装置，其特征在于，所述获取子单元还用于：

15.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音视频处理方法所执行的操作。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音视频处理方法所执行的操作。