CN112562721B

CN112562721B - 一种视频翻译方法、***、装置及存储介质

Info

Publication number: CN112562721B
Application number: CN202011375314.1A
Authority: CN
Inventors: 王伦基; 叶俊杰; 李�权; 成秋喜; 胡玉针; 李嘉雄; 朱杰; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-04-16
Anticipated expiration: 2040-11-30
Also published as: CN112562721A; WO2022110354A1

Abstract

本发明公开了一种视频翻译方法、***、装置及存储介质，其中方法包括以下步骤：获取视频数据；对所述视频数据进行语音分割，获得语音片段以及与所述语音片段对应的视频片段；对所述语音片段进行语音识别，获得第一文本，对所述第一文本进行翻译，获得第二文本；根据所述第二文本获取合成语音，通过调整所述合成语音和与之对应的所述视频片段，使所述合成语音与所述视频片段匹配；检测并调整所述视频片段中的唇形，以使所述唇形与所述合成语音同步匹配。本发明实现了对视频自动翻译的功能，能够生成目标语言声音的音频，并生成声音与唇形匹配的视频，解决了不同语种间的交流障碍，无需人工配音，降低了翻译成本，可广泛应用于视频处理领域。

Description

一种视频翻译方法、***、装置及存储介质

技术领域

本发明涉及视频处理领域，尤其涉及一种视频翻译方法、***、装置及存储介质。

背景技术

随着互联网的不断发展，视频已经成为信息传递的新载体。但不同语种的客观存在，使信息在交流中遇到了较大阻碍，而目前的解决方法则大多是用添加指定语言字幕或使用人工配音的方式。基于目前的方法，仍存在以下几个缺点：(1)字幕会使观众的注意力集中于文字信息上，容易忽视整体画面；(2)配音需要配音者按照新语种的剧本重新录音，要求其掌握专业技能并擅长目标语言，对配音者要求极高；(3)配音与视频人物的声音不甚相同，缺少原声韵味；(4)配音直接叠加于原始视频后，相对语音会有不同步的嘴唇运动，从而导致较差的用户观感。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种视频翻译方法、***、装置及存储介质。

本发明所采用的技术方案是：

一种视频翻译方法，包括以下步骤：

获取视频数据；

对所述视频数据进行语音分割，获得语音片段以及与所述语音片段对应的视频片段；

对所述语音片段进行语音识别，获得第一文本，对所述第一文本进行翻译，获得第二文本；

根据所述第二文本获取合成语音，通过调整所述合成语音和与之对应的所述视频片段，使所述合成语音与所述视频片段匹配；

检测并调整所述视频片段中的唇形，以使所述唇形与所述合成语音同步匹配；

其中，所述语音片段记录有起始时间和说话人编号。

进一步，所述对所述视频数据进行语音分割，获得语音片段以及与所述语音片段对应的视频片段，包括：

从所述视频数据中获取音频数据，根据所述音频数据获取语音数据；

对所述语音数据进行分割，获得多个所述语音片段，根据所述语音片段获取与之时间上对应的所述视频片段；

提取所述语音片段的特征向量，对提取到的所述特征向量进行聚类，确定说话人的数量，以及为每一个说话人配置编号；

记录每一个所述语音片段的所述起始时间和所述说话人编号。

进一步，所述对所述语音片段进行语音识别，获得第一文本，包括：

对所述语音片段进行语音增强后再进行语音识别，获得第一文本。

进一步，所述根据所述第二文本获取合成语音，包括：

将所述第二文本输入训练好的多对多模型，获得待转换音频；

分离所述语音片段的内容特征以提取说话人特征；

将所述说话人特征与所述待转换音频的内容特征相结合获得频谱图，采用声码器将所述频谱图生成合成语音。

进一步，所述根据所述第二文本获取合成语音，包括：

预先训练获得说话人风格模型，将说话人编号输入所述说话人风格模型，输出说话人风格编码向量；

根据所述第二文本获取字符发音编码向量，将所述字符发音编码向量与所述说话人风格编码向量进行拼接，获得拼接向量；

将所述拼接向量输入预先训练好的解码模型进行解码，获得声音频谱图，采用声码器将所述声音频谱图生成合成语音。

进一步，所述通过调整所述合成语音和与之对应的所述视频片段，使所述合成语音与所述视频片段匹配，包括

比较所述合成语音的时间长度和所述视频片段的时间长度，确定变速参数；

对所述视频片段中的人物动作进行检测，根据动作幅度大小调整所述变速参数；

根据调整后的所述变速参数对合成语音和所述视频片段进行调整，以使所述合成语音的时间长度和所述视频片段的时间长度一致。

进一步，所述检测并调整所述视频片段中的唇形，以使所述唇形与所述合成语音同步匹配，包括：

对所述视频片段中说话人的人脸区域进行检测，获得人脸位置信息；

将所述人脸位置信息向下巴方向延伸多个像素，获取人脸区域图像；

将所述人脸区域图像中包含唇形的下半部分的像素全置于0，以及从所述人脸区域图像选择参考帧，所述参考帧用于编码人物特征信息；

将像素处理后的所述人脸区域图像和所述参考帧进行编码，获得第一个n维的向量，将所述合成语音进行编码，获得第二个n维的向量；

将两个n维的向量进行拼接，将拼接后的向量输入基于生成对抗网络的人物唇形生成模型，获得上半部分与原始图像一致，下半部分与所述合成语音同步的唇形。

进一步，所述对所述视频片段中说话人的人脸区域进行检测，获得人脸位置信息，包括：

采用比较连续帧的颜色直方图的方法进行镜头检测，将所述视频片段切分成多个镜头；

采用第一预设模型对所述镜头进行人脸检测，得到每个所述镜头的每一帧的人脸框；

采用交并比的计算方法，对检测到的所述人脸框进行分组并平滑处理；

采用第二预设模型对分好组的所述人脸框及所述人脸框对应的所述语音片段进行同步检测，获得人脸位置信息。

本发明所采用的另一技术方案是：

一种视频翻译***，包括：

数据获取模块，用于获取视频数据；

数据分割模块，用于对所述视频数据进行语音分割，获得语音片段以及与所述语音片段对应的视频片段；

语音翻译模块，用于对所述语音片段进行语音识别，获得第一文本，对所述第一文本进行翻译，获得第二文本；

长度调整模块，用于根据所述第二文本获取合成语音，通过调整所述合成语音和与之对应的所述视频片段，使所述合成语音与所述视频片段匹配；

唇形调整模块，用于检测并调整所述视频片段中的唇形，以使所述唇形与所述合成语音同步匹配；

其中，所述语音片段记录有起始时间和说话人编号。

本发明所采用的另一技术方案是：

一种视频翻译装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述一种视频翻译方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述一种视频翻译方法。

本发明的有益效果是：本发明实现了对视频自动翻译的功能，能够生成目标语言声音的音频，并生成声音与唇形匹配的视频，解决了不同语种间的交流障碍，无需人工配音，降低了翻译成本。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种视频翻译方法的步骤流程图；

图2是本发明实施例中一种视频翻译方法的结构示意图；

图3是本发明实施例中一种视频翻译方法中预处理的结构示意图；

图4是本发明实施例中语音片段记录的示意图；

图5是本发明实施例中语音片段语音识别的示意图；

图6是本发明实施例中语音片段文本翻译的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供了一种视频翻译方法，包括以下步骤：

S0、获取视频数据。

该视频数据包括电影、演讲、访谈、新闻联播以及电视综艺节目等数据，这些数据包括视频画面数据和音频数据(包括人的语音声音和其他声音)。

S1、对视频数据进行语音分割，获得语音片段以及与语音片段对应的视频片段；其中，语音片段记录有起始时间和说话人编号。

其中，步骤S1包括步骤S11-S14：

S11、从视频数据中获取音频数据，根据音频数据获取语音数据；

S12、对语音数据进行分割，获得多个语音片段，根据语音片段获取与之时间上对应的视频片段；

S13、提取语音片段的特征向量(embedding特征向量，例如i-vector、d-vector等)，对提取到的特征向量进行聚类，确定说话人的数量，以及为每一个说话人配置编号；

S14、记录每一个语音片段的起始时间和说话人编号。

语音及说话人分割可采用以下方式实现：(1)首先进行语音分割，将非语音部分(比如背景音乐、自然环境中的声音(如风、交通杂声)或动物的叫声等)去除，剩下人的话语部分，将输入的话语分割成小段。(2)从分割好的语音片段提取embedding特征向量，例如i-vector、 d-vector等。(3)对每个语音片段提取的embedding进行聚类，确定说话人的数量，并将说话人的身份分配给每个片段。(4)重新分割，通过强制附加约束，进一步细化分类结果，并记录时间点。

具体采用了一个无界交错状态的回归神经网络(uis-rnn)，每个说话者由一个RNN(神经网络)实例建模，这些实例具有相同的参数。可以生成无界数量的RNN实例，将不同的RNN实例的状态(对应不同的说话者)在时域中交叉。通过贝叶斯非参数过程自动学习每个语音中说话者的数量，并通过RNN携带时间序列上的信息，对说话者进行聚类。

S2、对语音片段进行语音识别，获得第一文本，对第一文本进行翻译，获得第二文本。

使用语音翻译文字技术，对语音片段进行识别，得到一句句识别的文字。

语音识别(speech to text)采用了一个由卷积层、循环层和全连接层三个部分组成的神经网络模型，输入要识别的语音，归一化后转换成为频谱图，输入模型，模型输出识别出来的文本。进一步作为可选的实施方式，在对语音片段进行识别前，先对语音片段进行语音增强处理，从而提高语音识别的准确度。

使用文本翻译技术，将语音识别到的文本(即第一文本)转换成目标语言的文本(即第二文本)。

在本实施例中，文本翻译采用了M2M-100模型，该模型不依赖以英语为中心的数据，可以实现100种语言之间的相互翻译(100x100个语言对)。采用了多样化的多对多MMT数据集(跨越100种语言的75亿句子对)进行训练。本实施例提出了一种新的桥梁挖掘(bridgemining)策略，其中按照语言分类、地域和文化相似性将100种语言分成了14个语系。并用一个超大的神经网络进行训练(150亿个参数的MMT模型)。

S3、根据第二文本获取合成语音，通过调整合成语音和与之对应的视频片段，使合成语音与视频片段匹配。

通过上述步骤S1和S2，获得切割好的语音及其对应的说话人编号、翻译好的文本和时间信息。用时间信息对视频进行切割，可以得到对应的视频片段。为了提高观众的观看体验，需要合成语音与原视频说话人的声音相似，可采用多种方式实现这种效果，以下列举两种实现方式，这里应该注意的是，不仅以下列举的方式，其他方式同样适用于本方案，都应该属于本方案的保护范围之内。

第一种实施方式，包括步骤A1-A3：

A1、将第二文本输入训练好的多对多模型，获得待转换音频；

A2、分离语音片段的内容特征以提取说话人特征；

A3、将说话人特征与待转换音频的内容特征相结合获得频谱图，采用声码器将频谱图生成合成语音。

该实现方式为基于深度学习的通过文本生成特定说话人语音的方法，该方法采用训练好的多对多模型，输入文本生成待转换音频，分离原始音频中的内容特征来提取说话人特征(一个256维向量)，然后将说话人特征与待转换音频的内容特征相结合生成频谱图，再利用 WaveNet等声码器生成语音。

第二种实施方式，包括步骤B1-B3：

B1、预先训练获得说话人风格模型，将说话人编号输入说话人风格模型，输出说话人风格编码向量；

B2、根据第二文本获取字符发音编码向量，将字符发音编码向量与说话人风格编码向量进行拼接，获得拼接向量；

B3、将拼接向量输入预先训练好的解码模型进行解码，获得声音频谱图，采用声码器将声音频谱图生成合成语音。

该实现方式由指定说话人跨语言的语音合成模型来实现，具体步骤如下：采用多人多语言数据集训练的基于注意力机制的自编码-解码模型和说话人风格编码器。输入说话人对应编号，输出说话人风格编码向量。输入段落文本，输出字符发音编码向量，与说话人风格编码向量拼接。拼接好的说话人风格编码向量和字符发音编码向量输入自编码-解码模型，进行解码，输出声音频谱图，最后基于声音频谱图使用声码器合成语音。

为了避免合成语音播放完，而画面中的人物口型还在说话，给观众带来突兀感，需要使合成语音与原始视频片段的时间长度不一致，为解决该问题，本实施例采用一种合成语音与原始视频长度匹配方法，对合成语音与其对应视频及进行变速。具体步骤如步骤C1-C3：

C1、比较合成语音的时间长度和视频片段的时间长度，确定变速参数；

C2、对视频片段中的人物动作进行检测，根据动作幅度大小调整变速参数；

C3、根据调整后的变速参数对合成语音和视频片段进行调整，以使合成语音的时间长度和视频片段的时间长度一致。

通过比较视频及语音长度，确定变速参数；对人物动作进行检测，根据动作幅度大小，对视频不同片段进行不同的变速参数调整(比如动作幅度较大的，变速参数可调大些，而动作幅度较小的，变速参数可调小些)；分别对视频和合成语音进行变速处理，得到长度匹配的合成语音及视频。

S4、检测并调整视频片段中的唇形，以使唇形与合成语音同步匹配。

其中，步骤S4包括步骤S41-S45：

S41、对视频片段中说话人的人脸区域进行检测，获得人脸位置信息；

S42、将人脸位置信息向下巴方向延伸多个像素，获取人脸区域图像；

S43、将人脸区域图像中包含唇形的下半部分的像素全置于0，以及从人脸区域图像选择参考帧，参考帧用于编码人物特征信息；

S44、将像素处理后的人脸区域图像和参考帧进行编码，获得第一个n维的向量，将合成语音进行编码，获得第二个n维的向量；

S45、将两个n维的向量进行拼接，将拼接后的向量输入基于生成对抗网络的人物唇形生成模型，获得上半部分与原始图像一致，下半部分与合成语音同步的唇形。

步骤S41具体包括步骤S411-S414：

S411、采用比较连续帧的颜色直方图的方法进行镜头检测，将视频片段切分成多个镜头；

S412、采用第一预设模型对镜头进行人脸检测，得到每个镜头的每一帧的人脸框；

S413、采用交并比的计算方法，对检测到的人脸框进行分组并平滑处理；

S414、采用第二预设模型对分好组的人脸框及人脸框对应的语音片段进行同步检测，获得人脸位置信息。

由于不同的语种发音不同，为了避免合成语音会与原始视频的人物唇形不同步的问题(比如发音是张唇，而画面却是闭唇)，需要对原始视频进行查找，找到与原始语音唇形同步的说话人人脸区域，然后生成与合成语音同步的唇形，替换掉原始视频中说话人的唇形。其中，采用了一种视频中说话人定位的方法，来查找与原始语音唇形同步的说话人人脸区域；采用一种高清视频人物同步唇形的生成方法，生成新的与合成语音同步的唇形。

具体地，一种视频中说话人定位的方法具体步骤如下：

步骤一：视频片段中可能由多个镜头组成，可能是由过场片段、素材、人物画面等组成。采用比较连续帧的颜色直方图的方法进行镜头检测，将视频片段切分成多个镜头；

步骤二：采用S3FD模型(即第一预设模型)进行人脸检测，得到每个镜头的每一帧的人脸框；

步骤三：采用交并比的计算方法，对检测到的人脸框进行分组并平滑；

步骤四：采用SyncNet模型(即第二预设模型)，输入分好组的人脸框及其对应的原始语音进行同步检测；即可以得到与原始语音匹配的说话人人脸区域，用于后续的唇形替换。

一种高清视频人物同步唇形的生成方法，具体步骤如下：

步骤一：通过一种视频中说话人定位的方法得到了说话人的人脸区域，将得到的人脸位置信息向下巴方向延伸5-50个像素，确保人脸检测框能够覆盖整个人脸。

步骤二：对人脸区域图像进行预处理，将每一帧图像包含唇形的下半部分全置于0，让基于条件GAN(生成对抗网络)来生成补全唇形图像。同时从人脸区域图像中选择参考帧，用于编码人物特征信息，即得到了下半部分为0的待生成人脸区域序列和参考帧。

步骤三：对图像及语音进行编码，图像和语音分别输入各自的卷积神经网络，分别得到一个n维的向量；

步骤四：将得到的图像及语音的两个向量进行拼接得到(n，2)的向量，输入训练好的基于条件GAN(生成对抗网络)的高清人物唇形生成模型，可以得到上半部分与原始图像一致，下半部分与合成语音同步的唇形，最后与合成语音合并成视频。

以下结合图2-图6对上述视频翻译方法进行详细解释说明。该视频翻译方法的主要流程为：输入需要翻译的视频，然后经过一个前处理模块，切分成一句句翻译好的文字片段，以及对应的音频片段，视频片段，如图3所示。然后经过说话人定位、语音与视频长度匹配及指定说话人的文本到语音三个模块，生成说话人人脸区域的视频片段及合成语音片段；输入到人物唇部同步视频生成模块，合成并拼接视频，最后生成翻译好的视频，如图2所示。

一种视频翻译方法，包括以下步骤：

步骤一：输入待翻译的视频，并提取其音频。

步骤二：通过说话人分割技术，对提取的音频进行处理，将非语音部分去除，分割成一段段语音片段，并标记每句话的说话人、起始和结束的时间点，如图4所示。

步骤三：通过语音识别技术，将分割好的语音识别成一句句文本，如图5所示。

步骤四：通过文本翻译技术，将语音识别的文本，翻译成目标语言的文本，得到翻译好的文本片段，如图6所示。

步骤五：通过获取到的时间节点，有每句话的起始和结束的时间，可以对视频和提取的音频进行剪辑，得到每句文本与其对应的音频片段和视频片段。

步骤六：通过一种视频中说话人定位的方法，输入音频片段及视频片段，可以得到需要修改的人脸区域视频片段。

步骤七：通过一种指定说话人的文本到语音的方法，将翻译好的文本和说话人编号，生成和指定说话人同样声音的语音。

步骤八：通过一种合成语音与原始视频长度匹配的方法，对语音片段和视频片段进行变速计算，获得语音和视频的速度参数，返回步骤七，重新调整合成语音的语速，和用FFMPEG 对视频片段进行变速，得到变速的语音和视频对。

步骤九：通过一种高清视频人物同步唇形的生成方法，输入变速的语音和视频对，生成语音与唇形匹配的高清视频。

输入视频，通过前处理模块，可以得到处理好的切割好的语音及其对应的说话人编号、翻译好的文本和时间信息；用时间信息对视频进行切割，我们可以得到对应的视频片段(步骤一至步骤五)。因为视频翻译的需要生成目标语言的合成语音，将会有以下几个问题需要解决：

(1)合成语音需要与原视频说话人相似的声音；

(2)合成语音与原始视频片段长度不一致；

(3)合成语音会与原始视频的人物唇形不同步。

在本实施例中，针对问题(1)，采用一种基于深度学习的通过文本生成特定说话人语音的方法或指定说话人跨语言的语音合成模型合成与指定说话人相似的声音的语音。

一种基于深度学习的通过文本生成特定说话人语音的方法，具体步骤如下：采用训练好的多对多模型，输入文本生成待转换音频，分离原始音频中的内容特征以提取说话人特征(一个256维向量)，然后将说话人特征与待转换音频的内容特征相结合生成频谱图，再利用WaveNet等声码器生成语音。

指定说话人跨语言的语音合成模型，具体步骤如下：采用多人多语言数据集训练的基于注意力机制的自编码-解码模型和说话人风格编码器。输入说话人对应编号，输出说话人风格编码向量。输入段落文本，输出字符发音编码向量，与说话人风格编码向量拼接。输入拼接好的说话人风格编码向量和字符发音编码向量，解码，输出声音频谱图，最后使用声码器合成语音。

针对问题(2)，采用了一种合成语音与原始视频长度匹配方法，对合成语音与其对应视频及进行变速。具体步骤如下：通过比较视频及语音长度，确定变速参数；对人物动作进行检测，根据动作幅度大小，对视频不同片段进行不同的变速参数调整；分别对视频和合成语音进行变速处理，得到长度匹配的合成语音及视频。针对问题(3)，需要对原始视频进行查找，找到与原始语音唇形同步的说话人人脸区域，然后生成与合成语音同步的唇形，替换掉原始视频中说话人的唇形。其中，采用了一种视频中说话人定位的方法，来查找与原始语音唇形同步的说话人人脸区域；采用一种高清视频人物同步唇形的生成方法，生成新的与合成语音同步的唇形。

综上所述，本实施例的方法相对于现有技术，具有如下有益效果：

(1)、本实施例实现了对视频的翻译功能，能够生成目标语言且同样人物声音的音频，并生成声音与唇形匹配的视频，解决了不同语种间的交流障碍。

(2)、具有自动化：只需输入原始视频即可，不需要额外提供字幕，时间信息，就可以得到分割好的语音及其对应的说话人编号、翻译好的文本、时间信息。

(3)、可以指定说话人，合成与原始视频说话人声音相似的语音，提升观众体验。

(4)、更自然的语音及视频变速，用于匹配合成语音及原始视频长度，避免出现画面与语音不同步的突兀。

(5)、能对多人交替说话的视频自动定位说话人人脸区域，例如两个人讲相声，可以检测出每个字的说话人的人脸区域，用于唇形替换，避免嘴唇画面与语音发音不同步的突兀。

(6)、生成与合成语音同步的高清唇形图像，替换掉原始视频说话人的唇形。

本实施例还提供一种视频翻译***，包括：

数据获取模块，用于获取视频数据；

数据分割模块，用于对视频数据进行语音分割，获得语音片段以及与语音片段对应的视频片段；

语音翻译模块，用于对语音片段进行语音识别，获得第一文本，对第一文本进行翻译，获得第二文本；

长度调整模块，用于根据第二文本获取合成语音，通过调整合成语音和与之对应的视频片段，使合成语音与视频片段匹配；

唇形调整模块，用于检测并调整视频片段中的唇形，以使唇形与合成语音同步匹配；

其中，语音片段记录有起始时间和说话人编号。

本实施例的一种视频翻译***，可执行本发明方法实施例所提供的一种视频翻译方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种视频翻译装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示的一种视频翻译方法。

本实施例的一种视频翻译装置，可执行本发明方法实施例所提供的一种视频翻译方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的一种视频翻译方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种视频翻译方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频翻译方法，其特征在于，包括以下步骤：

获取视频数据；

其中，所述语音片段记录有起始时间和说话人编号；

所述通过调整所述合成语音和与之对应的所述视频片段，使所述合成语音与所述视频片段匹配，包括

对所述视频片段中的人物动作进行检测，根据动作幅度大小调整所述变速参数；其中，所述变速参数的大小与所述动作幅度的大小正相关；

2.根据权利要求1所述的一种视频翻译方法，其特征在于，所述对所述视频数据进行语音分割，获得语音片段以及与所述语音片段对应的视频片段，包括：

提取所述语音片段的特征向量，对提取到的所述特征向量进行聚类，确定说话人的数量，

以及为每一个说话人配置编号；

3.根据权利要求1所述的一种视频翻译方法，其特征在于，所述根据所述第二文本获取合成语音，包括：

分离所述语音片段的内容特征以提取说话人特征；

4.根据权利要求1所述的一种视频翻译方法，其特征在于，所述根据所述第二文本获取合成语音，包括：

5.根据权利要求1所述的一种视频翻译方法，其特征在于，所述检测并调整所述视频片段中的唇形，以使所述唇形与所述合成语音同步匹配，包括：

6.根据权利要求5所述的一种视频翻译方法，其特征在于，所述对所述视频片段中说话人的人脸区域进行检测，获得人脸位置信息，包括：

7.一种视频翻译***，其特征在于，包括：

数据获取模块，用于获取视频数据；

其中，所述语音片段记录有起始时间和说话人编号；

8.一种视频翻译装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-6任一项所述的一种视频翻译方法。

9.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述的一种视频翻译方法。