WO2021213008A1

WO2021213008A1 - 一种视频的音画匹配方法、相关装置以及存储介质

Info

Publication number: WO2021213008A1
Application number: PCT/CN2021/078367
Authority: WO
Inventors: 凌永根; 黄浩智; 沈力
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-04-23
Filing date: 2021-03-01
Publication date: 2021-10-28
Also published as: US20220223182A1; CN111225237B; CN111225237A; EP4033769A1; US11972778B2; EP4033769A4

Abstract

本申请公开了一种视频的音画匹配方法、相关装置以及存储介质，用于人工智能领域。本申请方法包括：获取语音序列；从语音序列中获取待匹配语音片段；从图像序列中获取起止标识的初始位置以及起止标识的移动方向；根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段；对待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段。本申请在合成视频的过程中，利用起止标识定位出图像序列中活动片段的位置，从而将具有动作的活动片段与语音片段进行匹配，使得合成的视频片段更符合人物说话时的自然规律，具有更好的真实性。

Description

一种视频的音画匹配方法、相关装置以及存储介质

本申请要求于2020年04月23日提交中国专利局、申请号为2020103263061、申请名称为“一种视频的音画匹配方法、相关装置以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及视频的音画匹配技术。

背景技术

随着科学技术的不断发展，计算机视觉技术已经被广泛地应用在数字娱乐、医疗健康以及安防监控等很多领域。基于计算机视觉技术合成逼真的视觉内容不仅具有很大的商业价值，而且也是业界一直所期望的。

目前，相关技术提出了一种通过生成式对抗网络(Generative Adversarial Networks，GAN)生成视频的方法，即利用神经网络将已知的图像纹理映射到一个没有见过的场景里，并对映射后的图像进行修复和补全，从而生成期望的视频内容。

然而，采用GAN生成的视频内容中仅包括图像序列，并不包括语音内容，并且受限于训练数据的不足以及训练方法的不稳定性，生成的图像序列往往具有比较明显的瑕疵，从而导致生成的视频内容真实性较差。

发明内容

本申请实施例提供了一种视频的音画匹配方法、相关装置以及存储介质，可以在合成视频的过程中，利用起止标识定位出图像序列中活动片段的位置，从而将具有动作的活动片段与语音片段进行匹配，如此，可以保证合成的视频片段具有更真实的视觉效果，即视频片段中表现出的人物说话的场景更加逼真，与现实场景中人物说话的效果相贴近，难以让人识别出视频片段中的语音和图像是经过合成处理的，此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升合成的视频片段中动作与语音的一致性和连续性。

有鉴于此，本申请第一方面提供一种视频的音画匹配方法，包括：

获取语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段；

对待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

本申请第二方面提供一种音画匹配装置，包括：

接收模块，用于获取语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

获取模块，用于从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

获取模块，还用于从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

获取模块，还用于根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段；

处理模块，用于对待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

本申请第三方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线***；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，以实现上述各方面所述的方法；

总线***用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请第五方面提供了一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例提供的视频的音画匹配方法中，首先接收客户端发送的语音序列，然后从语音序列中获取待匹配语音片段；从图像序列中获取起止标识的初始位置以及起止标识的移动方向，再根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段；最后将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段。通过上述方式，在合成视频的过程中，利用起止标识的位置定位图像序列中活动片段的位置，从而将具有动作的活动片段与语音片段进行匹配，如此，可以保证合成的视频片段具有更真实的视觉效果，即视频片段中表现出的人物说话的场景更加逼真，与现实场景中人物说话的效果相贴近，难以让人识别出视频片段中的语音和图像是经过合成处理的；此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升合成的视频片段中动作与语音的一致性和连续性。

附图说明

图1为本申请实施例中基于音画匹配方法生成视频的一个场景示意图；

图2为本申请实施例中音画匹配***的一个架构示意图；

图3为本申请实施例中视频的音画匹配方法的一个流程示意图；

图4为本申请实施例中视频的音画匹配方法的一个实施例示意图；

图5为本申请实施例中语音序列的一个实施例示意图；

图6A为本申请实施例中图像序列的一个实施例示意图；

图6B为本申请实施例中起止标识初始位置的一个实施例示意图；

图6C为本申请实施例中起止标识初始位置的另一个实施例示意图；

图7为本申请实施例中确定待匹配活动片段的一个实施例示意图；

图8为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图9为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图10为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图11为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图12为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图13为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图14为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图15为本申请实施例中确定待匹配活动片段的另一实施例示意图；

图16为本申请实施例中音画匹配装置一个实施例示意图；

图17为本申请实施例中终端设备一个实施例示意图。

具体实施方式

本申请提供的音画匹配方法应用于合成视频的场景中，即可以合成包括语音信息和图像信息的视频，基于该视频可以实现虚拟偶像、虚拟解说或者虚拟教师等应用。例如，在实现虚拟解说的场景中，可以获取一段视频，该视频包括具有说话动作的图像序列；再获取语音序列，该语音序列可以是预先录制的，也可以是实时采集的，还可以是由文本转换后得到的；然后，采用本申请提供的音画匹配方法，将该语音序列与视频中的图像序列对应起来，合成相应的视频，以此实现虚拟解说。

为了便于理解，下面以实现虚拟播报对象的场景作为示例，结合图1对本申请提供的音画匹配方法适用的应用场景进行介绍。请参阅图1，图1为本申请实施例中基于音画匹配方法生成视频的场景示意图，如图1所示，图1中(A)图所示为用户通过终端设备的麦克风输入语音序列的方式，终端设备可以从用户输入的语音序列中获取待匹配语音片段，并在线确定待匹配活动片段，进而对待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，从而得到如图1中(B)图所示的视频片段，该视频片段中包括所生成的对象的动作画面以及对象的语音，如此合成的视频片段更符合人物说话时的自然规律，使得在终端设备的客户端上展示的视频片段具有更好的真实性。可以理解的是，此处不对应用场景进行穷举。

为了在各种应用场景中，提升视频内容的真实性，本申请提出了一种视频的音画匹配方法，该方法应用于图2所示的视频的音画匹配***，请参阅图2，图2为本申请实施例中音画匹配***的架构示意图，如图2所示，视频的音画匹配***中包括服务器和终端设备，音画匹配装置可以部署于服务器，也可以部署于终端设备。一种示例性的方式为，终端设备获取语音序列，然后从语音序列中获取待匹配语音片段，再按照本申请提供的音画匹配方法从图像序列中获取待匹配活动片段，并在终端设备侧将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，终端设备直接播放即可。另一种示例性的方式为，终端设备获取语音序列，然后将语音序列发送至服务器，由服务器从语音序列中获取待匹配语音片段，再按照本申请提供的音画匹配方法从图像序列中获取待匹配活动片段，并在服务器侧将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，服务器将视频片段反馈至终端设备，由终端设备进行播放。

需要说明的是，图2中的服务器可以是一台服务器，也可以是多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。终端设备除了可以为图2中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)外，还可以为其它语音交互设备，语音交互设备包含但不仅限于智能音响以及智能家电。

虽然图2中仅示出了五个终端设备和一个服务器，但应当理解，图2中的示例仅用于理解本方案，终端设备和服务器的具体数量均应当结合实际情况灵活确定。

本申请实施例可基于人工智能(Artificial Intelligence，AI)技术实现音画匹配。

基于此，下面将介绍视频的音画匹配方法，请参阅图3，图3为本申请实施例中视频的音画匹配方法的一个流程示意图，如图3所示，该方法包括以下步骤：

在步骤S1中，从图像序列中获取起止标识的初始位置以及起止标识的移动方向。

在步骤S2中，首先判断对待匹配活动片段缩放后，是否存在与待匹配语音片段同样的时长的情况，若存在，则执行步骤S3，若不存在，且理由是待匹配语音片段过短，则执行步骤S4。若不存在，且理由是待匹配活动片段过于长的情况，则执行步骤S5。

在步骤S3中，将缩放后的待匹配活动片段与待匹配语音片段直接进行匹配，并且得到视频片段。

在步骤S4中，以起止标识为中心原点生成待匹配活动片段，且与待匹配语音片段进行匹配，并且得到视频片段。

在步骤S5中，生成一段待匹配活动片段与待匹配语音片段匹配，然后重新获取起止标识的初始位置以及移动方向。

本申请实施例提供的方案涉及计算机视觉技术，结合上述介绍，下面将以执行主体为计算机设备中的音画匹配装置，对本申请中视频的音画匹配方法进行介绍，请参阅图4，如图4所示，本申请实施例中视频的音画匹配方法一个实施例包括：

101、获取语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

本实施例中，音画匹配装置可以接收客户端发送的语音序列，并且该语音序列中包括至少一个语音片段。具体地，客户端所发送的语音序列是通过客户端用户在线输入的，例如，用户通过麦克风输入一段语音后生成对应的语音序列，或者用户输入文本内容，对文本内容经过转换后得到的语音序列。此外，音画匹配装置也可以从数据库中获取语音序列，并且该语音序列中包括至少一个语音片段。本申请在此不对语音序列的获取方式做任何限定。

需要说明的是，音画匹配装置可以部署于任意一种计算机设备，如服务器或者终端设备，本申请中以音画匹配装置部署于终端设备为例进行说明，然而这不应理解为对本申请的限定。

102、从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

本实施例中，音画匹配装置可以从语音序列中获取一个待匹配语音片段。具体地，待匹配语音片段的时长为l _i，i为大于或等于1，且小于或等于M的整数。为了将待匹配语音片段和图像序列中的待匹配活动片段进行匹配以及对齐，本申请可以采用每秒30帧的速率从语音序列和图像序列中提取片段。

为了便于理解，请参阅图5，图5为本申请实施例中语音序列的一个实施例示意图，如图5所示，A0用于指示一段语音序列，其中，A1、A2、A3、A4和A5分别指示语音序列中不同的语音片段，而待匹配语音片段可以为这五个语音片段中的任意一个。

103、从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

本实施例中，音画匹配装置需要获取图像序列，其中，图像序列是由多帧图像组成的序列，图像序列中包括活动片段以及静默片段，每个活动片段中均包括对象的动作画面，而每个静默片段中通常不包括对象的动作画面，比如，静默片段可以仅包括背景图像。

音画匹配装置从图像序列中获取起止标识的初始位置以及起止标识的移动方向，起止标识的初始位置可以为活动片段的起始帧或者活动片段的结束帧，其中，起止标识可以为游标(Cursor)或滑动杆，游标具有向前移动或向后移动的能力，因此，可以把游标当作一个指针，游标可以指定图像序列或语音序列中的任何位置。滑动杆与游标类似，也具有向前移动或向后移动的能力，可以指定图像序列或语音序列中的任何位置。因此，起止标识可以表示为图像序列中一个的帧号，时间总长度用帧的数量表示。活动片段中的对象可以指虚拟对象，例如虚拟播报员、虚拟人物或者卡通人物等，该对象也可以指真实对象，例如，用户甲。

具体地，请参阅图6A，图6A为本申请实施例中图像序列的一个实施例示意图，如图6A所示，B0用于指示一段图像序列，其中，B1、B2、B3、B4和B5分别指示图像序列中不同的活动片段。请参阅图6B，图6B为本申请实施例中起止标识的初始位置的一个实施例示意图，如图6B所示，当起止标识的移动方向为正向时，B6用于指示起止标识所对应的初始位置，且该起止标识的初始位置为活动片段B3的起始帧，请参阅图6C，图6C为本申请实施例中起止标识初始位置的另一个实施例示意图，如图6C所示，当起止标识的移动方向为反向时，B7用于指示起止标识所对应的初始位置，且该起止标识的初始位置为活动片段B3的结束帧。

104、根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段；

本实施例中，音画匹配装置可以根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段，该待匹配活动片段包括对象的动作画面。具体地，假设图5中的A3为待匹配语音片段，起止标识的移动方向为正向，且起止标识的初始位置为图6B中的B6所示的位置，基于此，可以确定待匹配活动片段为图6A中的活动片段B3，且该待匹配活动片段B3包括对象的动作画面。

105、将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

本实施例中，音画匹配装置将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段。具体地，假设图5中的A3为待匹配语音片段，图6A中的B3为待匹配活动片段，那么可以将待匹配语音片段A3与待匹配活动片段B3进行合成处理，从而得到视频片段，由于待匹配语音片段A3包括对象的语音，而待匹配活动片段B3包括对象的动作画面，因此，视频片段中同时包括对象的动作画面以及所对应的语音。

可选地，为了进一步提高合成视频的质量，还可以采用神经网络根据说话的内容合成对应的嘴唇形状，然后将嘴唇形状的缝补到合成到的视频片段。

可以理解的是，视频片段包括但不限于虚拟视频片段、合成视频片段以及剪辑视频片段。当视频片段为虚拟视频片段时，该虚拟视频片段包括虚拟对象的动作画面以及虚拟对象的语音。当视频片段为合成视频片段时，该合成视频片段包括对象的动作画面以及对象的语音。当视频片段为剪辑视频片段时，该剪辑视频片段包括从一段完整视频中剪辑得到的部分片段，该片段包括对象的动作画面以及对象的语音。

本申请实施例中，提供了一种视频的音画匹配方法，通过上述方式，在合成视频的过程中，利用起止标识位置定位出图像序列中活动片段的位置，从将具有动作的活动片段与语音片段进行匹配，如此，可以保证合成的视频片段具有更真实的视觉效果，即视频片段中表现出的人物说话的场景更加逼真，与现实场景中人物说话的效果相贴近，难以让人识别出视频片段中的语音和图像是经过合成处理的，此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升合成的视频片段中语音与图像的一致性和连续性。

可选地，在上述图4对应的实施例的基础上，在本申请实施例提供的视频的音画匹配方法的一个可选实施例中，当起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j(j为大于或等于1，且小于或等于(N+1)的整数)个活动片段的起始帧时，根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段，可以包括：

根据最小缩放比例、起止标识的初始位置以及第j个活动片段的结束帧，确定第一正向时长最小值；

根据最大缩放比例、起止标识的初始位置以及第(j+1)个活动片段的起始帧确定第一正向时长最大值；

根据第一正向时长最小值以及第一正向时长最大值确定目标正向时长区间；

若待匹配语音片段在目标正向时长区间内，则根据第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，确定待匹配活动片段；

视频的音画匹配方法还包括：

若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

若更新后的起止标识的初始位置大于或等于第N个活动片段的结束帧所对应的位置，则将起止标识的移动方向调整为反向。

本实施例中，当起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j个活动片段的起始帧时，音画匹配装置可以确定第一正向时长最小值以及第一正向时长最大值，再确定目标正向时长区间，当待匹配语音片段在目标正向时长区间内时，即可确定待匹配活动片段。

具体地，以最小缩放比例为0.8，最大缩放比例为1.25作为示例进行说明。第一正向时长最小值可以通过下式进行计算：

scale _short*(e _j-Index+1)；

第一正向时长最大值可以通过下式进行计算：

scale _long*(s _j+1-Index+1)；

目标正向时长区间可以通过下式进行计算：

[scale _short*(e _j-Index+1),scale _long*(s _j+1-Index+1)]；

其中，Index表示起止标识的初始位置，scale _short表示最小缩放比例，e _j表示第j个活动片段的结束帧，scale _long表示最大缩放比例，s _j+1表示第(j+1)个活动片段的起始帧。

为了便于理解，在起止标识的移动方向为正向时，以起止标识的初始位置为图像序列的第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧作为示例进行说明，请参阅图7，图7为本申请实施例中确定待匹配活动片段的一个实施例示意图，如图7所示，图7中(A)图示出的C0表示起止标识的初始位置Index，即为图像序列的第10帧。C1表示第j个活动片段的起始帧s _j，即为图像序列的第10帧。C2表示第j个活动片段的结束帧e _j，即为图像序列的第16帧。C3表示第(j+1)个活动片段的起始帧s _j+1，即为图像序列的第18帧。C4表示第j个活动片段的长度，C5表示第(j+1)个活动片段的长度。

由前述公式可以得到第一正向时长最小值为5.6，第一正向时长最大值为11.25，由此可以得到目标正向时长区间为[5.6，11.25]。若待匹配语音片段的时长处于[5.6，11.25]，即如图7中(B)图示出的待匹配语音片段C6，则可以根据活动片段C4以及活动片段C5中至少一个活动片段确定待匹配活动片段。

当满足起止标识位置更新条件时，音画匹配装置还可以对起止标识的初始位置进行更新，当更新后的起止标识的初始位置大于或等于第N个活动片段的结束帧所对应的位置，将起止标识的移动方向调整为反向。也就是说，如果起止标识的移动方向为正向，并且更新后的起止标识的初始位置已经超过了图像序列中最后一个活动片段的结束帧，那么需要将起止标识的移动方向更改为反向，进行与正向的类似操作，通过对起止标识的移动方向进行正向至反向的更新与调整，能够对实时输入的语音序列进行匹配，从而实时生成真实性较高的视频。

本申请实施例中，提供了一种确定待匹配活动片段的方法，通过上述方式，在起止标识的移动方向为正向时，具体通过起止标识的初始位置、以及活动片段的起始帧与结束帧，结合待匹配语音片段，确定待匹配活动片段，由此所合成的视频更符合对象实际语音描述时的场景，从而视频更具有真实性。此外，通过活动片段与下一个活动片段的匹配使得不同待匹配语音片段对应的待匹配活动片段是首尾相连的，从而提升了合成的视频片段中语音与图像的一致性和连续性。

可选地，在上述图4对应的实施例的基础上，在本申请实施例提供的视频的音画匹配方法的另一个可选实施例中，根据第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，确定待匹配活动片段，可以包括：

根据起止标识的初始位置以及第j个活动片段的结束帧确定第二正向时长最小值，其中，第二正向时长最小值大于第一正向时长最小值；

根据第一正向时长最小值以及第二正向时长最小值确定第一正向时长区间；

若待匹配语音片段在第一正向时长区间内，则根据待匹配语音片段的时长，对起止标识的初始位置至第j个活动片段的结束帧之间的时长进行缩放处理，得到待匹配活动片段；

若满足起止标识位置更新条件，则对起止标识的初始位置进行更新，可以包括：

若待匹配语音片段在第一正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第j个活动片段的结束帧所对应的位置。

本实施例中，音画匹配装置可以确定第二正向时长最小值，再根据第一正向时长最小值以及第二正向时长最小值确定第一正向时长区间，当待匹配语音片段在第一正向时长区间内时，根据待匹配语音片段的时长，对起止标识的初始位置至第j个活动片段的结束帧之间的时长进行缩放处理，得到待匹配活动片段。当待匹配语音片段在第一正向时长区间内时，表示满足起止标识位置更新条件，即可将起止标识的初始位置更新为第j个活动片段的结束帧所对应的位置。

具体地，第二正向时长最小值可以通过下式进行计算：

e _j-Index+1；

其次，第一正向时长区间可以通过下式进行计算：

[scale _short*(e _j-Index+1)，e _j-Index+1]；

其中，Index表示起止标识的初始位置，scale _short表示最小缩放比例，e _j表示第j个活动片段的结束帧。

为了便于理解，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为6帧作为示例进行说明，请参阅图8，图8为本申请实施例中确定待匹配活动片段的另一实施例示意图，如图8所示，图8中(A)图示出的D0表示起止标识的初始位置Index，且起止标识的初始位置为第10帧。D1表示第j个活动片段的起始帧s _j，且为图像序列的第10帧。D2表示表示第j个活动片段的结束帧e _j，且为图像序列的第16帧。D3表示第(j+1)个活动片段的起始帧s _j+1，且为图像序列的第18帧。 D4表示第j个活动片段的长度，D5表示第(j+1)个活动片段的长度。

由前述公式可以得到第一正向时长最小值为5.6帧，而第二正向时长最小值为7帧，由此可以得到第一正向时长区间为[5.6，7]。假设图8中(B)图示出的待匹配语音片段D6为6帧，即待匹配语音片段的时长处于第一正向时长区间内，由此，可以根据待匹配语音片段D6的时长，对起止标识的初始位置至第j个活动片段的结束帧之间的时长进行缩放处理，例如，将第j个活动片段的时长缩放至6帧。从而与待匹配语音片段D6进行匹配。

若待匹配语音片段的时长处于第一正向时长区间内，则满足起止标识位置更新条件，由此需要将起止标识的初始位置更新为第j个活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第16帧。

根据起止标识的初始位置以及第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，第二正向时长最大值小于第一正向时长最大值；

根据第一正向时长最大值以及第二正向时长最大值确定第二正向时长区间；

若待匹配语音片段在第二正向时长区间内，则根据待匹配语音片段的时长，对起止标识的初始位置至第(j+1)个活动片段的起始帧之间的时长进行缩放处理，得到待匹配活动片段；

若待匹配语音片段在第二正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第(j+1)个活动片段的起始帧所对应的位置。

本实施例中，音画匹配装置可以确定第二正向时长最大值，然后根据第一正向时长最大值以及第二正向时长最大值确定第二正向时长区间，当待匹配语音片段在第二正向时长区间内时，根据待匹配语音片段的时长，对起止标识的初始位置至第(j+1)个活动片段的起始帧之间的时长进行缩放处理，得到待匹配活动片段。当待匹配语音片段在第二正向时长区间内时，将起止标识的初始位置更新为第(j+1)个活动片段的起始帧所对应的位置。

具体地，第二正向时长最大值可以通过下式进行计算：

s _j+1-Index+1；

其次，第二正向时长区间可以通过下式进行计算：

[s _j+1-Index+1，scale _long*(s _j+1-Index+1)]；

其中，Index表示起止标识的初始位置，scale _long表示最大缩放比例，s _j+1 表示第(j+1)个活动片段的起始帧。

为了便于理解，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为10帧作为示例进行说明，请参阅图9，图9为本申请实施例中确定待匹配活动片段的另一实施例示意图，如图9所示，图9中(A)图示出的E0表示起止标识的初始位置Index，且起止标识的初始位置为第10帧。E1表示第j个活动片段的起始帧s _j，且为图像序列的第10帧，E2表示表示第j个活动片段的结束帧e _j，且为图像序列的第16帧，E3表示第(j+1)个活动片段的起始帧s _j+1，且为图像序列的第18帧，E4表示第j个活动片段的长度，E5表示第(j+1)个活动片段的长度。

由前述公式可以得到第一正向时长最大值为11.25帧，而第二正向时长最大值为9帧，由此可以得到第二正向时长区间为[9，11.25]。假设图9中(B)图示出的待匹配语音片段E6为10帧，即待匹配语音片段的时长处于第二正向时长区间内，由此，可以根据待匹配语音片段E6的时长，对起止标识的初始位置至第(j+1)个活动片段的起始帧之间的时长进行缩放处理，例如，将E0至E3之间的时长缩放至10帧。由此可以得到时长与待匹配语音片段E6相同的待匹配活动片段。

若待匹配语音片段的时长处于第二正向时长区间内，则满足起止标识位置更新条件，由此需要将起止标识的初始位置更新为第(j+1)个活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第18帧。

根据第二正向时长最小值与第二正向时长最大值确定第三正向时长区间；

若待匹配语音片段在第三正向时长区间内，则根据起止标识的初始位置以及待匹配语音片段的时长，确定待匹配活动片段；

若待匹配语音片段在第三正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为待匹配活动片段的结束帧所对应的位置。

本实施例中，音画匹配装置确定第二正向时长最小值和第二正向时长最大值，再根据第二正向时长最小值与第二正向时长最大值确定第三正向时长区间，当待匹配语音片段在第三正向时长区间内时，根据起止标识的初始位置以及待匹配语音片段的时长，确定待匹配活动片段。若待匹配语音片段在第三正向时长区间内，则将起止标识的初始位置更新为待匹配活动片段的结束帧所对应的位置。

具体地，第三正向时长区间可以通过下式进行计算：

[e _j-Index+1，s _j+1-Index+1]；

其中，Index表示起止标识的初始位置，e _j表示第j个活动片段的结束帧，s _j+1表示第(j+1)个活动片段的起始帧。

为了便于理解，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为8帧作为示例进行说明，请参阅图10，图10为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图10所示，图10中(A)图示出的F0表示起止标识的初始位置Index，且起止标识的初始位置为第10帧。F1表示第j个活动片段的起始帧s _j，且为图像序列的第10帧，F2表示表示第j个活动片段的结束帧e _j，且为图像序列的第16帧，F3表示第(j+1)个活动片段的起始帧s _j+1，且为图像序列的第18帧，F4表示第j个活动片段的长度，F5表示第(j+1)个活动片段的长度。

由前述公式可以得到第二正向时长最小值为7帧，而第二正向时长最大值为9帧，由此可以得到第三正向时长区间为[7，9]。假设图10中(B)图示出的待匹配语音片段F6为8帧，即待匹配语音片段的时长处于第三正向时长区间内，由此，可以根据起止标识的初始位置F0以及待匹配语音片段F6的时长，采用如下方式确定待匹配活动片段：

[Index，Index+l _i-1]；

其中，Index表示起止标识的初始位置，l _i表示待匹配语音片段的长度。假设待匹配语音片段的长度为8帧，即待匹配活动片段表示为第10帧至第17帧之间的活动片段。

若待匹配语音片段的时长处于第三正向时长区间内，则满足起止标识位置更新条件，由此可以将起止标识的初始位置更新为待匹配活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第17帧，从而保证起止标识的初始位置处于静默片段里。

本申请实施例中，提供了确定待匹配活动片段的方法，通过上述方式，可以在待匹配语音片段长度不同的情况下，采用不同的方式确定待匹配活动片段，从而提升匹配算法的多样性，其次，更新后的起止标识落在静默片段里，使得活动片段配有语音，从而使得合成视频的显得更加自然。更进一步地，本申请提供的匹配方法计算简单，可用于实时计算，能够在线合成视频片段。

可选地，在上述图4对应的实施例的基础上，在本申请实施例提供的视频的音画匹配方法的另一个可选实施例中，根据第一正向时长最小值以及第一正向时长最大值确定目标正向时长区间之后，视频的音画匹配方法还包括：

若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，确定待匹配活动片段；

或者，

若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，确定待匹配活动片段。

本实施例中，当待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值时，音画匹配装置可以采用双向摆动取值的方式确定待匹配活动片段，或者，音画匹配装置可以朝静默片段的方向取若干帧，以确定待匹配活动片段。

具体地，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为3帧作为示例进行说明，由前述公式可以得到目标正向时长区间为[5.6，11.25]，因此，待匹配语音片段未在目标正向时长区间内，且小于第一正向时长最小值5.6，于是可以将起止标识的初始位置作为中心，以移动半径为r在活动片段中来回移动，从而得到待匹配活动片段。

可以理解的是，移动半径通常为大于或等于1，且小于或等于5的整数，且起止标识的初始位置不进行更新。假设半径为3，起止标识的初始位置为第10帧，那么可以取到第10帧、第11帧、第12帧、第11帧、第10帧、第9帧、第8帧、第9帧、第10帧、第11帧、第12帧、第11帧等，以此类推。根据再基于待匹配语音片段的时长，依次获取对应的帧，假设待匹配语音片段的时长为3帧，即从上述序列中取出前3帧图像，即第10帧、第11帧和第12帧。

可以理解的是，在实际应用中，有两种活动片段的设计方式，第一种方式为，将活动片段中第一帧动作画面作为起始帧，将该活动片段中最后一帧动作画面作为结束帧，即活动片段与肉眼看到的具有动作的片段一致。另一种方式为，在第一帧动作画面之前选择若干帧静默画面，并将该静默画面所对应的某一帧作为活动片段的起始帧，类似地，从该活动片段中最后一帧动作画面结束后的若干帧静默画面中选择其中一帧，作为活动片段的结束帧，这样的话，相当于活动片段实际上在头尾部分是包括一小段静默片段的，更贴近于实际的工业应用。基于上述两种方式，本申请提供了以下两种解决方式。

为了便于理解，请参阅图11，图11为本申请实施例中确定待匹配活动片段的另一实施例示意图，如图11所示，图11中(A)图所示出的为头尾部分是包括一小段静默片段的活动片段G1，即活动片段G1中可以包括有动作的图像帧以及静默帧，以起止标识的初始位置为中心，以移动半径为r的正反移动得到待匹配活动片段，在实际应用中，待匹配活动片段通常包括若干静默帧，也可能包括少量活动帧。图11中(B)图所示为不包括静默帧的活动片段G2，即活动片段G2仅包括有动作的图像帧，于是可以直接从起止标识的初始位置向静默片段的方向移动若干帧，取出待匹配活动片段，且待匹配活动片段的帧数与待匹配语音片段的帧数相同。即当起止标识在活动片段的起始帧时，以待匹配语音片段的时长往前取几帧，比如从第10帧向反方向(静默片段的方向)取3帧，从而获取待匹配活动片段。当起止标识在活动片段的结束帧时，以待匹配语音片段的时长往后取几帧，比如从第16帧向正方向(静默片段的方向)取3帧，从而获取待匹配活动片段。

本申请实施例中，提供了一种确定待匹配活动片段的方法，通过上述方式，对于语音片段过短的情况，可以配以静默片段，从而不会显得合成后的视频过于突兀，由此提升视频的真实性。

若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长大于第一正向时长最大值，则从图像序列中获取第k个活动片段，其中，k为大于或等于1，且小于或等于N的整数；

根据最大缩放比例、起止标识的初始位置以及第k个活动片段的起始帧确定第三正向时长最小值；

根据最小缩放比例、起止标识的初始位置以及第(k+1)个活动片段的结束帧确定第三正向时长最大值；

根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间；

若待匹配语音片段在第四正向时长区间内，则根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长；

根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据更新后的起止标识的初始位置匹配对应的动作片段；

若待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第k个活动片段的起始帧所对应的位置。

本实施例中，如果待匹配语音片段过长，则音画匹配装置可以从图像序列中获取第k个活动片段，再确定第三正向时长最小值和第三正向时长最大值，进而确定第四正向时长区间，当待匹配语音片段在第四正向时长区间内时，根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长，以此将待匹配语音片段划分为第一语音片段以及第二语音片段，第二语音片段用于根据更新后的起止标识的初始位置匹配对应的动作片段，也就是将第二语音片段作为下一轮的待匹配语音片段再次进行音画匹配。如果待匹配语音片段在第四正向时长区间内时，表示满足起止标识位置更新条件，再将起止标识的初始位置更新为第k个活动片段的起始帧所对应的位置。

具体地，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为25帧作为示例进行说明，由前述公式可以得到目标正向时长区间为[5.6，11.25]，且第一正向时长最大值为11.25帧，待匹配语音片段未在目标正向时长区间内，且大于第一正向时长最大值，于是需要获取第k个活动片段。

第三正向时长最小值可以通过下式进行计算：

scale _long*(s _k-Index+1)；

第三正向时长最大值可以通过下式进行计算：

scale _short*(e _k+1-Index+1)；

第四正向时长区间可以通过下式进行计算：

[scale _long*(s _k-Index+1),scale _short*(e _k+1-Index+1)]；

待匹配活动片段的时长可以通过下式进行计算：

scale _long*(s _k-Index+1)-1；

其中，Index表示起止标识的初始位置，sk表示第k个活动片段的起始帧，e _k+1表示第(k+1)个活动片段的结束帧，scale _short表示最小缩放比例，scale _long表示最大缩放比例。

以起止标识的初始位置为第10帧，第k个活动片段的起始帧为第26帧，第(k+1)个活动片段的结束帧为第45帧作为示例进行说明，由前述公式可以得到第三正向时长最小值为21.25帧，第三正向时长最大值为28.8帧，根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间为[21.25,28.8]，若待匹配语音片段的时长为25帧，则该待匹配语音片段在第四正向时长区间内，进一步地，根据前述公式可以得到待匹配活动片段的时长为20.25帧。

通过下式进行对第一语音片段进行计算：

[1，scale _long*(s _k-Index+1)-1]；

通过下式进行对第二语音片段的时长进行计算：

l _i＝l _i-scale _long*(s _k-Index+1)；

其中，Index表示起止标识的初始位置，s _k表示第k个活动片段的起始帧，scale _long表示最大缩放比例，l _i表示待匹配语音片段的时长。

因此，由前述公式可以得到第一语音片段第1帧至第20.25帧，第二语音片段的时长为3.75帧。其次，由于待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件，可以将起止标识的初始位置更新为第k个活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第26帧，而前述所得到的第二语音片段可以根据更新后的起止标识的初始位置匹配对应的动作片段，具体匹配方法与前述类似实施例类似，在此不再赘述。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式，可以提升匹配的准确度，由此提升视频中语音片段与活动片段的匹配度，从而提升视频的真实性。

可选地，在上述图4对应的实施例的基础上，在本申请实施例提供的视频的音画匹配方法的另一个可选实施例中，当起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p(p为大于或等于1，且小于或等于N的整数)个活动片段的起始帧时，根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，可以包括：

根据最小缩放比例、起止标识的初始位置以及第p个活动片段的起始帧，确定第一反向时长最小值；

根据最大缩放比例、起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第一反向时长最大值；

根据第一反向时长最小值以及第一反向时长最大值确定目标反向时长区间；

若待匹配语音片段在目标反向时长区间内，则根据第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，确定待匹配活动片段；

视频的音画匹配方法还包括：

若更新后的起止标识的初始位置小于或等于第一个活动片段的起始帧所对应的位置，则将起止标识的移动方向调整为正向。

本实施例中，当起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p个活动片段的起始帧时，音画匹配装置可以确定第一反向时长最小值以及第一反向时长最大值，再确定目标反向时长区间，当待匹配语音片段在目标反向时长区间内时，即可确定待匹配活动片段。若满足起止标识位置更新条件，则对起止标识的初始位置进行更新，若起止标识更新后的位置小于或等于第一个活动片段的起始帧所对应的位置，则将起止标识的移动方向调整为正向。

具体地，以最小缩放比例为0.8，最大缩放比例为1.25作为示例进行说明。第一反向时长最小值可以通过下式进行计算：

scale _short*(Index-s _p+1)；

第一反向时长最大值可以通过下式进行计算：

scale _long*(Index-e _p-1+1)；

目标反向时长区间可以通过下式进行计算：

[scale _short*(Index-s _p+1),scale _long*(Index-e _p-1+1)]；

其中，Index表示起止标识的初始位置，scale _short表示最小缩放比例，s _p表示第p个活动片段的起始帧，scale _long表示最大缩放比例，e _p-1表示第(p-1)个活动片段的结束帧。

为了便于理解，在起止标识的移动方向为反向时，以起止标识的初始位置为图像序列的第18帧，第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧作为示例进行说明，请参阅图12，图12为本申请实施例中确定待匹配活动片段的另一实施例示意图，如图12所示，图12中(A)图示出的H0表示起止标识的初始位置Index，即为图像序列的第第18帧。H1表示第p个活动片段的起始帧s _p，即为图像序列的第11帧。H2表示第(p-1)个活动片段的结束帧e _p-1，即为图像序列的第9帧。H3表示第p个活动片段的长度，H4表示第(p-1)个活动片段的长度。

由前述公式可以得到第一反向时长最小值为6.4帧，而第一反向时长最大值为12.5帧，由此可以得到目标反向时长区间为[6.4，12.5]。若待匹配语音片段的时长处于[6.4，12.5]，即如图12中(B)图示出的待匹配语音片段H5，则可以根据活动片段H3以及活动片段H4中至少一个活动片段确定待匹配活动片段。

当满足起止标识位置更新条件时，音画匹配装置还可以对起止标识的初始位置进行更新，当更新后的起止标识的初始位置小于或等于第一个活动片段的起始帧所对应的位置，将起止标识的移动方向调整为正向。也就是说，如果起止标识的移动方向为反向，并且更新后的起止标识的初始位置已经超过了图像序列中第一个活动片段的第一帧，那么需要将起止标识的移动方向更改为正向，正向的匹配方法在前述实施例中已进行介绍，在此不再赘述。通过对起止标识的移动方向进行正向至反向的更新与调整，能够对实时输入的语音序列进行匹配，从而实时生成真实性较高的视频。

本申请实施例中，提供了另一种获取待匹配活动片段的方法，通过上述方式，所合成的视频更符合对象实际语音描述时的场景，从而视频更具有真实性。此外，通过活动片段与下一个活动片段的匹配使得不同待匹配语音片段对应的待匹配活动片段是首尾相连的，从而提升了合成的视频片段中语音与图像的一致性和连续性。

可选地，在上述图4对应的实施例的基础上，在本申请实施例提供的视频的音画匹配方法的另一个可选实施例中，根据第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，确定待匹配活动片段，可以包括：

根据起止标识的初始位置以及第p个活动片段的起始帧确定第二反向时长最小值，其中，第二反向时长最小值大于第一反向时长最小值；

根据第一反向时长最小值以及第二反向时长最小值确定第一反向时长区间；

若待匹配语音片段在第一反向时长区间内，则根据待匹配语音片段的时长，对第p个活动片段的起始帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段；

若待匹配语音片段在第一反向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第p个活动片段的起始帧所对应的位置。

本实施例中，音画匹配装置可以根据第一反向时长最小值以及第二反向时长最小值确定第一反向时长区间，若待匹配语音片段在第一反向时长区间内，根据待匹配语音片段的时长，对第p个活动片段的起始帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段。若待匹配语音片段在第一反向时长区间内，表示满足起止标识位置更新条件，并且可将起止标识的初始位置更新为第p个活动片段的起始帧所对应的位置。

具体地，第二反向时长最小值可以通过下式进行计算：

Index-s _p+1；

第一反向时长区间可以通过下式进行计算：

[scale _short*(Index-s _p+1),Index-s _p+1]；

其中，Index表示起止标识的初始位置，scale _short表示最小缩放比例，s _p表示第p个活动片段的起始帧。

为了便于理解，以起止标识的初始位置为图像序列的第18帧(第p个活动片段的结束帧)，第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为7帧作为示例进行说明，请参阅图13，图13为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图13所示，图13中(A)图示出的I0表示起止标识的初始位置Index，且起止标识的初始位置为第18帧。I1表示第p个活动片段的起始帧s _p，且为图像序列的第11帧。I2表示第(p-1)个活动片段的结束帧e _p-1，且为图像序列的第9帧。I3表示第p个活动片段的长度，I4表示第(p-1)个活动片段的长度。

由前述公式可以得到第一反向时长最小值为6.4帧，而第二反向时长最小值为8帧，由此可以得到第一反向时长区间为[6.4，8]。而图13中(B)图示出的待匹配语音片段I5的时长为7帧，即待匹配语音片段的时长处于第一反向时长区间内，由此，可以根据待匹配语音片段I5的时长，对第p个活动片段的起始帧至起止标识的初始位置之间的时长进行缩放处理，例如，将第p个活动片段的时长缩放至7帧。从而与待匹配语音片段I5进行匹配。

若待匹配语音片段的时长处于第一正向时长区间内，则满足起止标识位置更新条件，由此需要将起止标识的初始位置更新为第p个活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第18帧更改为第11帧。

根据起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，第二反向时长最大值小于第一反向时长最大值；

根据第一反向时长最大值以及第二反向时长最大值确定第二反向时长区间；

若待匹配语音片段在第二反向时长区间内，则根据待匹配语音片段的时长，对第(p-1)个活动片段的结束帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段；

若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第(p-1)个活动片段的结束帧所对应的位置。

本实施例中，音画匹配装置可以根据第一反向时长最大值以及第二反向时长最大值确定第二反向时长区间，若待匹配语音片段在第二反向时长区间内，则根据待匹配语音片段的时长，对第(p-1)个活动片段的结束帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段。若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件，然后可以将起止标识的初始位置更新为第(p-1)个活动片段的结束帧所对应的位置。

具体地，第二反向时长最大值可以通过下式进行计算：

Index-e _p-1+1；

第二反向时长区间可以通过下式进行计算：

[Index-e _p-1+1,scale _long*(Index-e _p-1+1)]；

其中，Index表示起止标识的初始位置，scale _long表示最大缩放比例，e _p-1表示第(p-1)个活动片段的结束帧。

为了便于理解，以起止标识的初始位置为图像序列的第18帧(第p个活动片段的结束帧)，第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为11帧作为示例进行说明，请参阅图14，图14为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图14所示，图14中(A)图示出的J0表示起止标识的初始位置Index，且起止标识的初始位置为第18帧。J1表示第p个活动片段的起始帧s _p，且为图像序列的第11帧。J2表示第(p-1)个活动片段的结束帧e _p-1，且为图像序列的第9帧。J3表示第p个活动片段的长度，J4表示第(p-1)个活动片段的长度。

由前述公式可以得到第一反向时长最大值为12.5帧，而第二反向时长最大值为10帧，由此可以得到第二反向时长区间为[10，12.5]。而图14中(B)图示出的待匹配语音片段J5为11帧，即待匹配语音片段的时长处于第二反向时长区间内，由此，可以根据待匹配语音片段J5的时长，对第(p-1)个活动片段的结束帧至起止标识的初始位置之间的时长进行缩放处理，例如，也就是将J2至J0之间的时长进行缩放至11帧。由此可以得到时长与待匹配语音片段J5相同的待匹配活动片段。

若待匹配语音片段的时长处于第二反向时长区间内，则满足起止标识位置更新条件，由此可以将起止标识的初始位置更新为第(p-1)个活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第18帧更改为第9帧。

根据第二反向时长最小值与第二反向时长最大值确定第三反向时长区间；

若待匹配语音片段在第三反向时长区间内，则根据起止标识的初始位置以及待匹配语音片段的时长，确定待匹配活动片段；

若待匹配语音片段在第三反向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为待匹配活动片段的起始帧所对应的位置。

本实施例中，音画匹配装置根据第二反向时长最小值与第二反向时长最大值确定第三反向时长区间，若待匹配语音片段在第三反向时长区间内，则根据起止标识的初始位置以及待匹配语音片段的时长，确定待匹配活动片段。若待匹配语音片段在第三反向时长区间内，则表示满足起止标识位置更新条件，并且将起止标识的初始位置更新为待匹配活动片段的起始帧所对应的位置。

具体地，第三反向时长区间可以通过下式进行计算：

[Index-s _p+1，Index-e _p-1+1]；

其中，Index表示起止标识的初始位置，s _p表示第p个活动片段的起始帧，e _p-1表示第(p-1)个活动片段的结束帧。

为了便于理解，以起止标识的初始位置为图像序列的第18帧(第p个活动片段的结束帧)，第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为9帧作为示例进行说明，请参阅图15，图15为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图15所示，图15中(A)图示出的K0表示起止标识的初始位置Index，且起止标识的初始位置为第18帧。K1表示表示第p个活动片段的起始帧s _p，且为图像序列的第11帧。K2表示第(p-1)个活动片段的结束帧e _p-1，且为图像序列的第9帧。K3表示第p个活动片段的长度，K4表示第(p-1)个活动片段的长度。

由前述公式可以得到第二反向时长最小值为8帧，而第二反向时长最大值为10帧，由此可以得到第三反向时长区间为[8，10]。而图15中(B)图示出的待匹配语音片段K5的时长为9帧，即待匹配语音片段的时长处于第三反向时长区间内，由此，可以根据起止标识的初始位置K0以及待匹配语音片段K5的时长，采用如下方式确定待匹配活动片段：

[Index-l _i+1，Index]；

其中，Index表示起止标识的初始位置，l _i表示待匹配语音片段的长度。假设待匹配语音片段的长度为9帧，即待匹配活动片段表示为第10帧至第18帧之间的活动片段。

若待匹配语音片段的时长处于第三反向时长区间内，则满足起止标识位置更新条件，由此可以将起止标识的初始位置更新为待匹配活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第18帧更改为第11帧，从而保证起止标识的初始位置处于静默片段里。

本申请实施例中，提供了另一种获取待匹配活动片段的方法，通过上述方式，可以在待匹配语音片段长度不同的情况下，采用不同的方式对待匹配活动片段进行获取，从而提升匹配算法的多样性，其次，更新后的起止标识的初始位置落在静默片段里，使得活动片段配有语音，从而提升合成视频的显得更加自然。更进一步地，本申请提供的匹配方法计算简单，可用于实时计算，能够在线合成视频片段。

可选地，在上述图4对应的实施例的基础上，在本申请实施例提供的视频的音画匹配方法的另一个可选实施例中，根据第一反向时长最小值以及第一反向时长最大值确定目标反向时长区间之后，视频的音画匹配方法还包括：

若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，确定待匹配活动片段；

或者，

若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，确定待匹配活动片段。

本实施例中，若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，音画匹配装置可以采用双向摆动取值的方式确定待匹配活动片段，或者，音画匹配装置可以朝静默片段的方向取若干帧，以得到待匹配活动片段。

为了便于理解，以起止标识的初始位置为第18帧(第p个活动片段的结束帧)，第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为2帧作为示例进行说明，由前述公式可以得到目标反向时长区间为[6.4，12.5]，因此，待匹配语音片段未在目标反向时长区间内，并且小于第一反向时长最小值6.4，于是可以将起止标识的初始位置作为中心，以移动半径为r在活动片段来回移动得到待匹配活动片段。

可以理解的是，移动半径通常为大于或等于1，且小于或等于5的整数，且起止标识的初始位置不进行更新。假设半径为2，起止标识的初始位置为第18帧，那么可以取到第18帧、第17帧、第18帧、第19帧、第18帧、第17帧、第18帧、第19帧、第18帧、第17帧、第18帧等，以此类推。再基于待匹配语音片段的时长，依次获取对应的帧，假设待匹配语音片段的时长为2帧，即从上述序列中取出前2帧图像，即第17帧和第18帧。

可以理解的是，在实际应用中，有两种活动片段的设计方式，具体两种活动片段的设计方式与前述实施例中介绍的类似，在此不再赘述。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式，对于语音片段过短的情况，可以配以静默片段，从而不会显得合成后的视频过于突兀，由此提升视频的真实性。

若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长大于第一反向时长最大值，则从图像序列中获取第q个活动片段，其中，q为大于或等于1，且小于或等于N的整数；

根据最大缩放比例、起止标识的初始位置以及第q个活动片段的结束帧确定第三反向时长最小值；

根据最小缩放比例、起止标识的初始位置以及第(q-1)个活动片段的起始帧确定第三反向时长最大值；

根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间；

若待匹配语音片段在第四反向时长区间内，则根据起止标识的初始位置、最大缩放比例、第q个活动片段的结束帧，确定待匹配活动片段的时长；

根据待匹配活动片段的时长，将待匹配语音片段划分为第三语音片段以及第四语音片段，其中，第三语音片段的时长与待匹配活动片段的时长一致，第四语音片段用于根据起止标识更新后的位置匹配对应的动作片段；

将起止标识的初始位置更新为第q个活动片段的结束帧所对应的位置。

本实施例中，如果待匹配语音片段过长，则音画匹配装置可以从图像序列中获取第q个活动片段，再确定第三反向时长最小值和第三反向时长最大值，进而确定第四反向时长区间，若待匹配语音片段在第四反向时长区间内，则确定待匹配活动片段的时长，以此将待匹配语音片段划分为第三语音片段以及第四语音片段，第四语音片段用于根据更新后的起止标识的初始位置匹配对应的动作片段，也就是将第四语音片段作为下一轮的待匹配语音片段再次进行音画匹配。如果待匹配语音片段在第四正向时长区间内时，表示满足起止标识位置更新条件，可以将起止标识的初始位置更新为第q个活动片段的结束帧所对应的位置。

具体地，以起止标识的初始位置为图像序列的第38帧(第p个活动片段的结束帧)，第p个活动片段的起始帧为第31帧，第(p-1)个活动片段的结束帧为第29帧，且待匹配语音片段的时长为15帧作为示例进行说明，由前述公式可以得到目标反向时长区间为[6.4，12.5]，第一正向时长最大值为12.5帧，因此，待匹配语音片段未在目标反向时长区间内，且大于第一反向时长最大值，于是需要获取第q个活动片段。

第三反向时长最小值可以通过下式进行计算：

scale _long*(Index-e _q+1)；

第三反向时长最大值可以通过下式进行计算：

scale _short*(Index-s _q-1+1)；

第四反向时长区间可以通过下式进行计算：

[scale _long*(Index-e _q+1)，scale _short*(Index-s _q-1+1)]；

待匹配活动片段的时长可以通过下式进行计算：

scale _long*(Index-e _q+1)-1；

其中，Index表示起止标识的初始位置，e _q表示第q个活动片段的结束帧，s _q-1表示第(q-1)个活动片段的起始帧，scale _short表示最小缩放比例，scale _long 表示最大缩放比例。

以起止标识的初始位置为图像序列的第38帧(第p个活动片段的结束帧)，第(q-1)个活动片段的起始帧为第9帧，第q个活动片段的结束帧为第29帧作为示例进行说明，由前述公式可以得到第三反向时长最小值为12.5帧，第三反向时长最大值为24帧，根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间为[12.5，24]，若待匹配语音片段的时长为15帧，则该待匹配语音片段在第四反向时长区间内，进一步地，根据前述公式可以得到待匹配活动片段的时长为11.5帧。

通过下式进行对第三语音片段进行计算：

[1，scale _long*(Index-e _q+1)]；

通过下式进行对第四语音片段的时长进行计算：

[l _i＝l _i-scale _long*(Index-e _q+1)]；

其中，Index表示起止标识的初始位置，e _q表示第q个活动片段的结束帧，scale _long表示最大缩放比例，l _i表示待匹配语音片段的时长。

因此，由前述公式可以得到第三语音片段为第1帧至第11.5帧，第四语音片段的时长为2.5帧。其次，由于待匹配语音片段在第四反向时长区间内，表示满足起止标识位置更新条件，因此可以将起止标识的初始位置更新为第q个活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第38帧更改为第29帧，而前述所得到的第四语音片段可以根据起止标识更新后的位置匹配对应的动作片段，具体匹配方法与前述类似实施例类似，在此不再赘述。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式。可以提升匹配的准确度，由此，可以保证合成的视频片段具有更真实的视觉效果，即视频片段中表现出的人物说话的场景更加逼真，与现实场景中人物说话的效果相贴近，难以让人识别出视频片段中的语音和图像是经过合成处理的。

下面对本申请中的音画匹配装置进行详细描述，请参阅图16，图16为本申请实施例中音画匹配装置一个实施例示意图，音画匹配装置20包括：

接收模块201，用于获取语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

获取模块202，用于从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

获取模块202，还用于从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

获取模块202，还用于根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，确定待匹配活动片段；

处理模块203，用于对待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

可选地，在上述图16所对应的实施例的基础上，在本申请实施例提供的音画匹配装置20的另一实施例中，音画匹配装置20还包括更新模块204以及调整模块205；

获取模块202，具体用于当起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j个活动片段的起始帧时，根据最小缩放比例、起止标识的初始位置以及第j个活动片段的结束帧，确定第一正向时长最小值，其中，j为大于或等于1，且小于或等于(N+1)的整数；

更新模块204，用于若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

调整模块205，用于若更新后的起止标识的初始位置大于或等于第N个活动片段的结束帧所对应的位置，则将起止标识的移动方向调整为反向。

可选地，在上述图16所对应的实施例的基础上，在本申请实施例提供的音画匹配装置20的另一实施例中，

获取模块202，具体用于根据起止标识的初始位置以及第j个活动片段的结束帧确定第二正向时长最小值，其中，第二正向时长最小值大于第一正向时长最小值；

更新模块204，具体用于若待匹配语音片段在第一正向时长区间内，则满足起止标识位置更新条件；

获取模块202，具体用于根据起止标识的初始位置以及第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，第二正向时长最大值小于第一正向时长最大值；

更新模块204，具体用于若待匹配语音片段在第二正向时长区间内，则满足起止标识位置更新条件；

更新模块204，具体用于若待匹配语音片段在第三正向时长区间内，则满足起止标识位置更新条件；

获取模块202，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，确定待匹配活动片段；

或者，

获取模块202，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，确定待匹配活动片段。

可选地，在上述图16所对应的实施例的基础上，在本申请实施例提供的音画匹配装置20的另一实施例中，音画匹配装置20还包括确定模块206以及划分模块207；

获取模块202，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长大于第一正向时长最大值，则从图像序列中获取第k个活动片段，其中，k为大于或等于1，且小于或等于N的整数；

确定模块206，用于根据最大缩放比例、起止标识的初始位置以及第k个活动片段的起始帧确定第三正向时长最小值；

确定模块206，还用于根据最小缩放比例、起止标识的初始位置以及第(k+1)个活动片段的结束帧确定第三正向时长最大值；

确定模块206，还用于根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间；

确定模块206，还用于若待匹配语音片段在第四正向时长区间内，则根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长；

划分模块207，用于根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据更新后的起止标识的初始位置匹配对应的动作片段；

更新模块204，具体用于若待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件；

获取模块202，具体用于当起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p个活动片段的起始帧时，根据最小缩放比例、起止标识的初始位置以及第p个活动片段的起始帧，确定第一反向时长最小值，其中，p为大于或等于1，且小于或等于N的整数；

更新模块204，还用于若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

调整模块，还用于若更新后的起止标识的初始位置小于或等于第一个活动片段的起始帧所对应的位置，则将起止标识的移动方向调整为正向。

获取模块202，具体用于根据起止标识的初始位置以及第p个活动片段的起始帧确定第二反向时长最小值，其中，第二反向时长最小值大于第一反向时长最小值；

更新模块204，具体用于若待匹配语音片段在第一反向时长区间内，则满足起止标识位置更新条件；

获取模块202，具体用于根据起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，第二反向时长最大值小于第一反向时长最大值；

更新模块204，具体用于若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件；

更新模块204，具体用于若待匹配语音片段在第三反向时长区间内，则满足起止标识位置更新条件；

获取模块202，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，确定待匹配活动片段；

或者，

获取模块202，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，确定待匹配活动片段。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的音画匹配装置20的另一实施例中，

获取模块202，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长大于第一反向时长最大值，则从图像序列中获取第q个活动片段，其中，q为大于或等于1，且小于或等于N的整数；

确定模块206，还用于根据最大缩放比例、起止标识的初始位置以及第q个活动片段的结束帧确定第三反向时长最小值；

确定模块206，还用于根据最小缩放比例、起止标识的初始位置以及第(q-1)个活动片段的起始帧确定第三反向时长最大值；

确定模块206，还用于根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间；

确定模块206，还用于若待匹配语音片段在第四反向时长区间内，则根据起止标识的初始位置、最大缩放比例、第q个活动片段的结束帧，确定待匹配活动片段的时长；

划分模块207，还用于根据待匹配活动片段的时长，将待匹配语音片段划分为第三语音片段以及第四语音片段，其中，第三语音片段的时长与待匹配活动片段的时长一致，第四语音片段用于根据更新后的起止标识的初始位置匹配对应的动作片段；

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的音画匹配装置20的另一实施例中，视频片段为虚拟视频片段、合成视频片段以及剪辑视频片段中的至少一种；

起止标识为游标或滑动杆。

本申请实施例还提供了一种终端设备，终端设备上可以部署有音画匹配装置，如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端设备)、车载电脑等任意终端设备，以终端设备为手机为例：

图17示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图17，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本申请实施例中，该终端设备所包括的处理器380可以执行前述实施例中的功能，此处不再赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法中音画匹配装置所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法中音画匹配装置所执行的步骤。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种视频的音画匹配方法，由计算机设备执行，包括：

获取语音序列，其中，所述语音序列包括M个语音片段，所述M为大于或等于1的整数；

从所述语音序列中获取待匹配语音片段，其中，所述待匹配语音片段属于所述语音序列中的任意一个语音片段；

从图像序列中获取起止标识的初始位置以及所述起止标识的移动方向，其中，所述图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，所述起止标识的初始位置为所述活动片段的起始帧或者所述活动片段的结束帧，所述N为大于或等于1的整数；

根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，确定待匹配活动片段；

对所述待匹配语音片段与所述待匹配活动片段进行合成处理，得到视频片段，其中，所述视频片段包括所述对象的动作画面以及所述对象的语音。
根据权利要求1所述的音画匹配方法，当所述起止标识的移动方向为正向，且所述起止标识的初始位置小于或等于第j个活动片段的起始帧时，所述j为大于或等于1，且小于或等于(N+1)的整数；所述根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，确定待匹配活动片段，包括：

根据最小缩放比例、所述起止标识的初始位置以及所述第j个活动片段的结束帧，确定第一正向时长最小值；

根据最大缩放比例、所述起止标识的初始位置以及第(j+1)个活动片段的起始帧确定第一正向时长最大值；

根据所述第一正向时长最小值以及所述第一正向时长最大值确定目标正向时长区间；

若所述待匹配语音片段在所述目标正向时长区间内，则根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，确定所述待匹配活动片段；

所述方法还包括：

若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新；

若更新后的所述起止标识的初始位置大于或等于第N个活动片段的结束帧所对应的位置，则将所述起止标识的移动方向调整为反向。
根据权利要求2所述的音画匹配方法，所述根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，确定所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及所述第j个活动片段的结束帧确定第二正向时长最小值，其中，所述第二正向时长最小值大于所述第一正向时长最小值；

根据所述第一正向时长最小值以及所述第二正向时长最小值确定第一正向时长区间；

若所述待匹配语音片段在所述第一正向时长区间内，则根据所述待匹配语音片段的时长，对所述起止标识的初始位置至所述第j个活动片段的结束帧之间的时长进行缩放处理，得到所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第一正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第j个活动片段的结束帧所对应的位置。
根据权利要求2所述的音画匹配方法，所述根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，确定所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及所述第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，所述第二正向时长最大值小于所述第一正向时长最大值；

根据所述第一正向时长最大值以及所述第二正向时长最大值确定第二正向时长区间；

若所述待匹配语音片段在所述第二正向时长区间内，则根据所述待匹配语音片段的时长，对所述起止标识的初始位置至所述第(j+1)个活动片段的起始帧之间的时长进行缩放处理，得到所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第二正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第(j+1)个活动片段的起始帧所对应的位置。
根据权利要求2所述的音画匹配方法，所述根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，确定所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及所述第j个活动片段的结束帧确定第二正向时长最小值，其中，所述第二正向时长最小值大于所述第一正向时长最小值；

根据所述起止标识的初始位置以及所述第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，所述第二正向时长最大值小于所述第一正向时长最大值；

根据所述第二正向时长最小值与所述第二正向时长最大值确定第三正向时长区间；

若所述待匹配语音片段在所述第三正向时长区间内，则根据所述起止标识的初始位置以及所述待匹配语音片段的时长，确定所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第三正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述待匹配活动片段的结束帧所对应的位置。
根据权利要求2所述的音画匹配方法，所述根据所述第一正向时长最小值以及所述第一正向时长最大值确定目标正向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标正向时长区间内，且所述待匹配语音片段的时长小于所述第一正向时长最小值，则根据所述待匹配语音片段的时长、所述起止标识的初始位置以及移动半径，确定所述待匹配活动片段；

或者，

若所述待匹配语音片段未在所述目标正向时长区间内，且所述待匹配语音片段的时长小于所述第一正向时长最小值，则根据所述待匹配语音片段的时长以及所述起止标识的初始位置，确定所述待匹配活动片段。
根据权利要求2或6所述的音画匹配方法，所述根据所述第一正向时长最小值以及所述第一正向时长最大值确定目标正向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标正向时长区间内，且所述待匹配语音片段的时长大于所述第一正向时长最大值，则从所述图像序列中获取第k个活动片段，其中，所述k为大于或等于1，且小于或等于N的整数；

根据所述最大缩放比例、所述起止标识的初始位置以及所述第k个活动片段的起始帧确定第三正向时长最小值；

根据所述最小缩放比例、所述起止标识的初始位置以及所述第(k+1)个活动片段的结束帧确定第三正向时长最大值；

根据所述第三正向时长最小值以及所述第三正向时长最大值确定第四正向时长区间；

若所述待匹配语音片段在所述第四正向时长区间内，则根据所述起止标识的初始位置、所述最大缩放比例、所述第k个活动片段的起始帧，确定所述待匹配活动片段的时长；

根据所述待匹配活动片段的时长，将所述待匹配语音片段划分为第一语音片段以及第二语音片段，其中，所述第一语音片段的时长与所述待匹配活动片段的时长一致，所述第二语音片段用于根据更新后的所述起止标识的初始位置匹配对应的动作片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第四正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第k个活动片段的起始帧所对应的位置。
根据权利要求1所述的音画匹配方法，当所述起止标识的移动方向为反向，且所述起止标识的初始位置大于或等于第p个活动片段的起始帧时，所述p为大于或等于1，且小于或等于N的整数；所述根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，确定待匹配活动片段，包括：

根据最小缩放比例、所述起止标识的初始位置以及所述第p个活动片段的起始帧，确定第一反向时长最小值；

根据最大缩放比例、所述起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第一反向时长最大值；

根据所述第一反向时长最小值以及所述第一反向时长最大值确定目标反向时长区间；

若所述待匹配语音片段在所述目标反向时长区间内，则根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，确定所述待匹配活动片段；

所述方法还包括：

若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新；

若更新后的所述起止标识的初始位置小于或等于第一个活动片段的起始帧所对应的位置，则将所述起止标识的移动方向调整为正向。
根据权利要求8所述的音画匹配方法，所述根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，确定所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及所述第p个活动片段的起始帧确定第二反向时长最小值，其中，所述第二反向时长最小值大于所述第一反向时长最小值；

根据所述第一反向时长最小值以及所述第二反向时长最小值确定第一反向时长区间；

若所述待匹配语音片段在所述第一反向时长区间内，则根据所述待匹配语音片段的时长，对所述第p个活动片段的起始帧至所述起止标识的初始位置之间的时长进行缩放处理，得到所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第一反向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第p个活动片段的起始帧所对应的位置。
根据权利要求8所述的音画匹配方法，所述根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，确定所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及所述第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，所述第二反向时长最大值小于所述第一反向时长最大值；

根据所述第一反向时长最大值以及所述第二反向时长最大值确定第二反向时长区间；

若所述待匹配语音片段在所述第二反向时长区间内，则根据所述待匹配语音片段的时长，对所述第(p-1)个活动片段的结束帧至所述起止标识的初始位置之间的时长进行缩放处理，得到所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第二反向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第(p-1)个活动片段的结束帧所对应的位置。
根据权利要求8所述的音画匹配方法，所述根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，确定所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及所述第p个活动片段的起始帧确定第二反向时长最小值，其中，所述第二反向时长最小值大于所述第一反向时长最小值；

根据所述起止标识的初始位置以及所述第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，所述第二反向时长最大值小于所述第一反向时长最大值；

根据所述第二反向时长最小值与所述第二反向时长最大值确定第三反向时长区间；

若所述待匹配语音片段在所述第三反向时长区间内，则根据所述起止标识的初始位置以及所述待匹配语音片段的时长，确定所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第三反向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述待匹配活动片段的起始帧所对应的位置。
根据权利要求8所述的音画匹配方法，所述根据所述第一反向时长最小值以及所述第一反向时长最大值确定目标反向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标反向时长区间内，且所述待匹配语音片段的时长小于所述第一反向时长最小值，则根据所述待匹配语音片段的时长、所述起止标识的初始位置以及移动半径，确定所述待匹配活动片段；

或者，

若所述待匹配语音片段未在所述目标反向时长区间内，且所述待匹配语音片段的时长小于所述第一反向时长最小值，则根据所述待匹配语音片段的时长以及所述起止标识的初始位置，确定所述待匹配活动片段。
根据权利要求8或12所述的音画匹配方法，所述根据所述第一反向时长最小值以及所述第一反向时长最大值确定目标反向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标反向时长区间内，且所述待匹配语音片段的时长大于所述第一反向时长最大值，则从所述图像序列中获取第q个活动片段，其中，所述q为大于或等于1，且小于或等于N的整数；

根据所述最大缩放比例、所述起止标识的初始位置以及所述第q个活动片段的结束帧确定第三反向时长最小值；

根据所述最小缩放比例、所述起止标识的初始位置以及所述第(q-1)个活动片段的起始帧确定第三反向时长最大值；

根据所述第三反向时长最小值以及所述第三反向时长最大值确定第四反向时长区间；

若所述待匹配语音片段在所述第四反向时长区间内，则根据所述起止标识的初始位置、所述最大缩放比例、所述第q个活动片段的结束帧，确定所述待匹配活动片段的时长；

根据所述待匹配活动片段的时长，将所述待匹配语音片段划分为第三语音片段以及第四语音片段，其中，所述第三语音片段的时长与所述待匹配活动片段的时长一致，所述第四语音片段用于根据更新后的所述起止标识的初始位置匹配对应的动作片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在第四正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第q个活动片段的结束帧所对应的位置。
根据权利要求1所述方法，所述视频片段为虚拟视频片段、合成视频片段以及剪辑视频片段中的至少一种；

所述起止标识为游标或滑动杆。
一种音画匹配装置，包括：

接收模块，用于获取语音序列，其中，所述语音序列包括M个语音片段，所述M为大于或等于1的整数；

获取模块，用于从所述语音序列中获取待匹配语音片段，其中，所述待匹配语音片段属于所述语音序列中的任意一个语音片段；

所述获取模块，还用于从图像序列中获取起止标识的初始位置以及所述起止标识的移动方向，其中，所述图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，所述起止标识的初始位置为所述活动片段的起始帧或者所述活动片段的结束帧，所述N为大于或等于1的整数；

所述获取模块，还用于根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，确定待匹配活动片段；

处理模块，用于对所述待匹配语音片段与所述待匹配活动片段进行合成处理，得到视频片段，其中，所述视频片段包括所述对象的动作画面以及所述对象的语音。
一种计算机设备，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求1至14中任一项所述的方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至14中任一项所述的方法。
一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至14任一项所述的方法。