CN116193162A

CN116193162A - 数字人视频的字幕添加方法、装置、设备和存储介质

Info

Publication number: CN116193162A
Application number: CN202310201509.1A
Authority: CN
Inventors: 李峰; 罗涛; 李德强; 杨刚
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-30

Abstract

本申请涉及一种数字人视频的字幕添加方法、装置、设备和存储介质。涉及人工智能技术领域。该方法包括：根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段；对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕。本申请提高了分段后的音频片段对应的第二文本段与原始文本中的第一文本段之间的文本匹配度，提高了第一文本段时间戳添加的精准性，保证了为数字人视频添加字幕的精准性。

Description

数字人视频的字幕添加方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数字人视频的字幕添加方法、装置、设备和存储介质。

背景技术

随着音视频技术的发展，数字人视频越来越受到用户的喜爱。在生成数字人视频的过程中，为数字人视频添加字幕成为生成数字人视频的过程中必不可少的重要环节。

目前，为数字人视频添加字幕的方法为：将文本输入数字人引擎，通过数字人引擎内的从文本到语音(TTS，Text To Speech)组件自动生成音频，并利用开源计算机程序(FFMpeg，Fast Forward Mpeg)将文本叠加到视频上方，进而，得到添加字幕后的数字人视频。然而，由于TTS自动生成的音频，无法确认每个音频内容对应的文本，因此，将文本直接叠加到视频上方，存在音频的内容与文本内容不匹配的问题，进而，会影响用户对数字人视频的观看体验。

因此，如何精确的为数字人视频添加字幕，是目前亟需解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种精确的数字人视频的字幕添加方法、装置、设备和存储介质。

第一方面，本申请提供了一种数字人视频的字幕添加方法，该方法包括：

根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；

根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段；

对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；

根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕。

在其中一个实施例中，根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，包括：

根据数字人视频中各图像帧的数字人唇部闭合情况，确定各图像帧的数字人唇部特征；其中，数字人唇部特征包括唇部闭合特征和唇部张开特征；

从唇部闭合特征对应的图像帧中，确定分段帧；

根据分段帧，对数字人视频进行分段。

在其中一个实施例中，从唇部闭合特征对应的图像帧中，确定分段帧，包括：

根据唇部闭合特征对应的图像帧的连续性，将唇部闭合特征对应的图像帧划分为至少一个候选分段集合；

根据各候选分段集合中包含的图像帧的个数，从各候选分段集合中确定至少一个目标分段集合；

从每一目标分段集合包含的图像帧中，选择一个分段帧。

在其中一个实施例中，根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段，包括：

根据数字人视频中各图像帧的数字人唇部特征，以及数字人视频中音频数据的音素间隔，对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

在其中一个实施例中，对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段，包括：

通过至少两个音频识别器对具有时间戳的至少两个音频片段分别进行文本识别，得到每一音频识别器对各音频片段识别的具有时间戳的候选文本段；

根据不同音频识别器对同一音频片段识别的候选文本段的相似度，确定各音频片段对应的具有时间戳的第二文本段。

在其中一个实施例中，根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕，包括：

根据各音频片段对应的具有时间戳的第二文本段，确定原始文本中各第一文本段对应的时间戳；

根据各第一文本段和各第一文本段的时间戳，为数字人视频添加字幕。

第二方面，本申请还提供了一种数字人视频的字幕添加装置。该装置包括：

生成模块，用于根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；

分段模块，用于根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段；

识别模块，用于对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；

添加模块，用于根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕。

第三方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述数字人视频的字幕添加方法、装置、设备和存储介质，首先，根据原始文本包括至少两个第一文本段，生成数字人视频；由于数字人唇部特征与文本和音频的断句方式相关，可以根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行精确分段，得到精确的具有时间戳的至少两个音频片段，并对具有时间戳的至少两个音频片段进行文本识别，得到每个音频片段对应的具有时间戳的第二文本段；然后，基于每个音频片段对应的具有时间戳的第二文本段为原始文本包括的每个第一文本段精确的添加时间戳；最后，基于原始文本中的每个第一文本段和每个第一文本段精确的时间戳，生成数字人视频字幕。本申请中，可以根据数字人视频中各图像帧的数字人唇部特征，进行音频分段，使得分段后的音频片段能够与数字人播报过程中的断句方式匹配，即提高了分段后的音频片段对应的第二文本段与原始文本中的第一文本段之间的文本匹配度，且基于分段后的音频片段中识别的第二文本段的时间戳，为原始文本中的每个第一文本段添加时间戳，提高了第一文本段时间戳添加的精准性，进而保证了基于第一文本段时间戳为数字人视频添加字幕的精准性，提升了用户对数字人视频的观看体验。

附图说明

图1为本实施例提供的一种数字人视频的字幕添加方法的应用环境图；

图2为本实施例提供的第一种数字人视频的字幕添加方法的流程示意图；

图3为本实施例提供的一种对数字人视频进行分段的流程示意图；

图4为本实施例提供的一种确定分段帧的流程示意图；

图5为本实施例提供的第二种数字人视频的字幕添加方法的流程示意图；

图6为本实施例提供的一种数字人视频的字幕添加装置的结构框图；

图7为本实施例提供的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过无线保真(Wireless-Fidelity，WIFI)、移动蜂窝网络、近场通信(Near FieldCommunication，NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种数字人视频的字幕添加方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，如图2所示，提供了一种数字人视频的字幕添加方法，该方法包括以下步骤：

S201、根据原始文本，生成数字人视频。

其中，原始文本包括至少两个第一文本段。

可选的，原始文本是指包括多个文本片段的任意文本。例如，可以是搞笑文字、台词或演讲稿等。第一文本段是指对原始文本按照预先设置的断句方式进行分割，得到的文本段。例如，根据标点符号将原始文本进行分割，得到的文本段。假设原始文本是“好好学习，天天向上”，此时该原始文本中包含两个第一文本段，即“好好学习”和“天天向上”。

数字人视频是指通过人工智能等技术，将虚拟形象、声音、动作等进行组合生成的视频，其中，数字人视频中包括多张图像帧。

本实施例中，可以将原始文本输入到文本分段器中，根据标点符号将原始文本分隔为至少两个第一文本段，调用数字人引擎对至少两个第一文本段进行处理，进而生成一段数字人视频。

例如，将原始文本“好好学习，天天向上”输入到文本分段器中，得到“好好学习”、“天天向上”两个第一文本段，调用数字人引擎对“好好学习”，“天天向上”两个第一文本段处理，进而生成数字人视频。

S202、根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

可选的，数字人唇部特征是表征数字人的唇部状态的特征，唇部状态的特征可以是唇部张开状态对应的唇部张开特征或唇部闭合状态对应的唇部闭合特征，还可以是唇部特征点的位置等特征。数字人唇部特征与音频相关，本实施例中，可以基于唇部状态的特征，确定数字人视频中数字人是否处于播报状态。

音频片段是指从数字人视频的音频数据中截取的片段，每个音频片段在数字人视频中对应的播放时间即为该音频片段具有的时间戳。例如，从数字人视频的音频数据中截取的前5秒片段，即时间戳为“00:00-00:05”的音频片段。

本实施例中，针对数字人视频中的每一图像帧，根据图像识别算法，解析每一图像帧中的数字人唇部状态的特征。由于数字人处于非播报状态时，数字人唇部状态的特征对应的是唇部闭合特征，因此，本实施例中，可以将唇部闭合特征对应的图像帧作为数字人视频的分段位置，进而得到至少两个音频片段。或者，由于数字人处于播报状态时，唇部特征点的位置处于变化的状态，而数字人处于非播报状态时，唇部特征点的位置处于保持不变，因此，本实施例中，可以选择唇部特征点的位置处于保持不变的图像帧，并将该保持不变的图像帧作为数字人视频的分段位置，进而得到至少两个音频片段。

S203、对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段。

可选的，第二文本段是指对数字人视频中具有时间戳的每个音频片段进行文本识别与解析，得到的最终的文本识别结果。本实施例中，每个音频片段都对应一个时间戳，可以将每个音频片段对应的时间戳，作为该音频片段对应的第二文本段的时间戳。

本实施例中，可以通过对数字人视频中的具有时间戳的每个音频片段进行文本解析与识别，输出每个音频片段对应的第二文本段，并将每个音频片段对应的时间戳，作为该音频片段对应的第二文本段的时间戳。

一种可选的实施方式中，为了得到各个音频片段对应的精确的第二文本段，可以通过至少两个音频识别器对具有时间戳的至少两个音频片段分别进行文本识别，得到每一音频识别器对各音频片段识别的具有时间戳的候选文本段；并根据不同音频识别器对同一音频片段识别的候选文本段的相似度，确定各音频片段对应的具有时间戳的第二文本段。

可选的，音频识别器是指将音频转换成文本的程序。本实施例中，候选文本段是指通过音频识别器对具有时间戳的每个音频片段进行文本识别与解析，得到识别结果。

本实施例中，针对每个具有时间戳的音频片段，可以通过多个音频识别器分别对该音频片段进行文本识别，得到每个音频识别器对该音频片段对应的识别结果，即得到候选文本段。针对一个音频片段的识别结果，选择相同文本的候选文本段，并确定相同文本的候选文本段的个数，将数量最大的相同文本的候选文本段，作为第二文本段。其中，为第二文本段添加时间戳的方式，参考上文描述，在此不再赘述。

例如，假设通过5个音频识别器对每个音频片段进行文本识别，3个音频识别器对其中一个音频片段的识别结果是“好好学习”，2个音频识别器对该音频片段的识别结果是“好好学”，则将3个音频识别器识别得到的“好好学习”，作为第二文本段。

S204、根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕。

本实施例中，根据数字人视频中具有时间戳的每个音频片段，得到每个音频片段对应的具有时间戳的第二文本段，之后，可以根据每个音频片段对应的具有时间戳的第二文本段为原始文本(即原始文本中的每一个第一文本段)添加时间戳，并基于添加时间戳后的原始文本，为数字人视频添加字幕。

一种可选的实施方式中，根据各音频片段对应的具有时间戳的第二文本段，确定原始文本中各第一文本段对应的时间戳；根据各第一文本段和各第一文本段的时间戳，为数字人视频添加字幕。

本实施例中，得到每个音频片段对应的具有时间戳的第二文本段之后，将每个音频片段对应的第二文本段与原始文本包括的各第一文本段进行相似度的计算，找到相似度大于文本阈值的第二文本段和第一文本段，并将相似度大于文本阈值的第二文本段和第一文本段作为一组匹配对。针对每组匹配对，将该匹配对中第二文本片段的时间戳作为第一文本段的时间戳。本实施例保证了数字人视频中具有时间戳的第一文本段与具有时间戳的第二文本段匹配，进而，可以精确的为数字人视频添加字幕，提升了用户对视频的观看体验。

假设一组匹配对中，第一文本段是“好好学习”，第二文本段中包括：时间戳:00:00-00:05，文本片段：“好好学习”，则将该匹配对中第二文本片段的时间戳“00:00-00:05”作为第一文本段“好好学习”的时间戳。然后，将第一文本段“好好学习”添加到:00:00-00:05的图像帧中，作为数字人视频中“00:00-00:05”的图像帧对应的字幕。即数字人视频中“00:00-00:05”的图像帧对应的字幕都是“好好学习”。

上述数字人视频的字幕添加方法中，首先，根据原始文本包括至少两个第一文本段，生成数字人视频；由于数字人唇部特征与文本和音频的断句方式相关，可以根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行精确分段，得到精确的具有时间戳的至少两个音频片段，并对具有时间戳的至少两个音频片段进行文本识别，得到每个音频片段对应的具有时间戳的第二文本段；然后，基于每个音频片段对应的具有时间戳的第二文本段为原始文本包括的每个第一文本段精确的添加时间戳；最后，基于原始文本中的每个第一文本段和每个第一文本段精确的时间戳，生成数字人视频字幕。本申请中，可以根据数字人视频中各图像帧的数字人唇部特征，进行音频分段，使得分段后的音频片段能够与数字人播报过程中的断句方式匹配，即提高了分段后的音频片段对应的第二文本段与原始文本中的第一文本段之间的文本匹配度，且基于分段后的音频片段中识别的第二文本段的时间戳，为原始文本中的每个第一文本段添加时间戳，提高了第一文本段时间戳添加的精准性，进而保证了基于第一文本段时间戳为数字人视频添加字幕的精准性，提升了用户对数字人视频的观看体验。

在上述实施例的基础上，为了对数字人视频进行分段进行理解，本实施例给出如下一种对数字人视频进行分段可选实现方式，具体如图3所示，包括如下步骤：

S301、根据数字人视频中各图像帧的数字人唇部闭合情况，确定各图像帧的数字人唇部特征。

其中，数字人唇部特征包括唇部闭合特征和唇部张开特征。

可选的，数字人唇部闭合情况是指描述数字人的唇部状态是否为闭合的情况。数字人唇部特征包括唇部闭合状态对应的唇部闭合特征和唇部张开状态对应的唇部张开特征。本实施例中，可以通过数字化的符号表征数字人唇部特征，例如，通过0表示数字人唇部闭合特征，1表示数字人唇部张开特征。

本实施例中，对数字人视频中各图像帧进行解析获取解析后的各图像帧中数字人的唇部状态，并根据数字人的唇部状态，确定每帧图像帧中的数字人唇部状态特征。

可选的，获取各图像帧中数字人的唇部状态，一种可实现方式为：预先训练一个确定图像帧中数字人的唇部状态的模型，通过该模型对图像帧中数字人的唇部状态对应的数据进行解析，进而得到解析后的各图像帧中数字人的唇部状态。另一种可实现方式为：通过图像识别算法对图像帧中数字人的唇部状态对应的数据进行解析，进而得到解析后的各图像帧中数字人的唇部状态。

可选的，本实施例中，可以记录每帧图像的唇部状态的特征对应的数字，进而得到数字人视频对应的数字符号序列。例如，若0表示数字人唇部闭合特征，1表示数字人唇部张开特征，则数字人视频对应的数字符号序列可以为111100110110001111...10。本实施例中，记录数字人视频对应的数字符号序列，便于后续基于数字人视频对应的数字符号序列对数字人视频进行快速且准确的分段，进而得到具有时间戳和声音的多个片段。

S302、从唇部闭合特征对应的图像帧中，确定分段帧。

可选的，分段帧是指对数字人视频进行分段的图像帧，即将数字人视频在分段帧位置处进行一次划分。

一种可选的实施方式中，在确定数字人视频中的每帧图像帧的数字人唇部特征之后，将所有的闭合特征对应的图像帧作为候选的分段帧，然后，从候选的分段帧中，确定分段帧。

具体的，将数字人唇部特征中的第一个闭合特征作为第一分段帧，确定与第一分段帧相邻的后一个候选的分段帧的时间差是否大于分段阈值，若小于，则将与第一分段帧相邻的后一个候选的分段帧，从候选的分段帧中删除；若大于，则将与第一分段帧相邻的后一个候选的分段帧，作为第二个分段帧。在确定第二个分段帧之后，确定与第二分段帧相邻的后一个候选的分段帧的时间差是否大于分段阈值，若小于，则将与第二分段帧相邻的后一个候选的分段帧，从候选的分段帧中删除；若大于，则将与第二分段帧相邻的后一个候选的分段帧作为第三个分段帧，依次类推，直至确定完成数字人视频中的分段帧。

另一种可选的实施方式中，在确定数字人视频中的每帧图像帧的数字人唇部特征之后，判断闭合特征对应的图像帧的前一帧对应的是否为唇部张开特征对应的图像帧，若是，则将该闭合特征对应的图像帧作为分段帧，否则，则无需将该闭合特征对应的图像帧作为分段帧。

S303、根据分段帧，对数字人视频进行分段。

可选的，将数字人视频在分段帧位置处进行一次划分，具体的，确定每个分段帧在数字人视频中的位置，基于该位置对数字人视频进行划分，得到多个数字人视频段。例如，假设分段帧为2个时，可以根据每个分段帧在数字人视频中的位置，将数字人视频划分成3段。

本实施例中，将数字人唇部特征细化为唇部闭合特征和唇部张开特征，并根据数字人视频中图像帧中的唇部闭合特征，确定对数字人视频进行分段的多个分段帧，并基于每个分段帧，快速且准确的对数字人视频进行分段，显然，本实施例中，将数字人唇部特征进行更细粒度的划分，即得到唇部闭合特征和唇部张开特征，然后基于唇部闭合特征，可以快速且精准得到与唇部闭合特征对应的数字人视频中断句处对应的图像帧，进而根据该数字人视频中断句处对应的图像帧对数字人视频分段，提高了数字人视频的分段效率和准确性。

在上述实施例的基础上，为了减少仅基于唇部闭合特征对确定分段帧，并基于该分段帧对数字人视频进行分段带来的误差。本实施例中，上述S302可通过如下图4所示的方法确定分段帧。

S401、根据唇部闭合特征对应的图像帧的连续性，将唇部闭合特征对应的图像帧划分为至少一个候选分段集合。

可选的，唇部闭合特征对应的图像帧的连续性用于描述同一唇部闭合特征连续出现在多个图像帧的特性。例如，可以是同一唇部闭合特征在数字人视频对应的数字符号序列中连续出现。候选分段集合是指按照唇部闭合特征的连续性，对唇部闭合特征对应的图像帧进行初步划分得到的集合。本实施例中，可以将连续出现同一唇部闭合特征的多个图像帧作为候选分段集合，也可以对于仅出现在一个图像帧中的非连续唇部闭合特征，单独作为一个候选分段集合。

可选的，本实施例中，可以根据唇部闭合特征对应的图像帧的连续性，将数字人视频对应的数字符号序列划分，得到多个连续的唇部闭合特征，以及非连续唇部闭合特征；并将相邻连续的唇部闭合特征作为一个集合，以及非连续唇部闭合特征也作为一个集合，进而得到候选分段集合。

假设数字人视频中的图像帧对应的数字符号序列111101100110001110000011110，可以基于特征“0”的连续性，将该数字符号对应的图像帧划分为“0”、“00”、“000”、“000000”和“00”对应的候选分段集合。

S402、根据各候选分段集合中包含的图像帧的个数，从各候选分段集合中确定至少一个目标分段集合。

可选的，目标分段集合是指满足唇部闭合特征的个数与断句的对应关系，且用于对数字人视频进行分段的集合。

本实施例中，根据每个候选分段集合中包含的图像帧的个数，以及预先设置的唇部闭合特征的个数与断句的对应关系，从候选分段集合中选择满足唇部闭合特征的个数与断句的对应关系的集合，即选择目标分段集合。

假设预先设置的唇部闭合特征的个数与断句的对应关系是当唇部闭合特征的个数不小于3时，对数字人视频进行分段。本实施例中，可以基于候选分段集合中“0”、“00”、“000”、“000000”对应的个数，以及预先设置的唇部闭合特征的个数与断句的对应关系，将候选分段集合“000”和“000000”确定为目标分段集合。

S404、从每一目标分段集合包含的图像帧中，选择一个分段帧。

本实施例中，在确定目标分段集合之后，可以从每个目标分段集合中选择任意一个图像帧作为分段帧。例如，针对每个目标分段集合，可以选择第一帧或中间的一帧或最后一帧作为分段帧，并基于分段帧对数字人视频进行分段。

本实施例中，首先，基于唇部闭合特征对应的图像帧的连续性，选择候选分段集合，并从候选分段集合中选择多个目标分段集合，然后，从每一个目标分段集合中选择一个分段帧。本实施例中，在确定分段帧的过程中，引入唇部闭合特征对应的图像帧的连续性，能够减少仅基于唇部闭合特征确定分段帧，所带来的分段误差，提高了确定分段帧的精确性。

例如，本实施例中，在确定分段帧的过程中，精确的基于候选分段集合“000”和“000000”选择分段帧，避免从候选分段集合“0”和“00”中确定分段帧，进而所带来的分段误差。

在上述实施例的基础上，本实施例还提供了另一种对数字人视频进行分段，得到具有时间戳的至少两个音频片段的可选实施方式。具体的，根据数字人视频中各图像帧的数字人唇部特征，以及数字人视频中音频数据的音素间隔，对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

本实施例中，可以基于上述实施例描述的内容，根据数字人视频中各图像帧的数字人唇部特征，确定对数字人视频进行分段的至少一个第一分段帧，以及根据数字人视频中音频数据的音素间隔，确定对数字人视频进行分段的至少一个第二分段帧，基于第一分段帧和第二分段帧，确定对数字人视频进行分段的目标分段帧，并基于目标分段帧对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

一种可选的实施方式种，对第一分段帧和第二分段帧进行融合处理，例如对第一分段帧和第二分段帧进行求均值计算，得到目标分段帧，并基于目标分段帧对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

另一种可选的实施方式中，对第一分段帧和第二分段帧进行相似度计算，若第一分段帧和第二分段帧的相似度大于帧阈值，则将第一分段帧或第二分段帧中的任意一帧作为目标分段帧，并基于目标分段帧对数字人视频进行分段，得到具有时间戳的至少两个音频片段。若第一分段帧和第二分段帧的相似度小于帧阈值，则人工从第一分段帧或第二分段帧中的选择一帧作为目标分段帧，并基于目标分段帧对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

为了对确定第二分段帧进行理解，本实施例中，提供了一种根据数字人视频中音频数据的音素间隔，确定对数字人视频进行分段的至少一个第二分段帧的可选实施方式。具体的，从数字人视频中提取音频数据，并将提取的音频数据生成音频文件，通过音频分段器逐帧识别音频文件中的音素，并确定各音素对应的时间戳。可选的，音频分段器判断识别出的相邻的两个音素之间的声音间隔是否超过间隔阀值；若超过，则将相邻的两个音素对应的任意一个图像帧作为第二分段帧；否则，无需将相邻的两个音素对应的图像帧作为第二分段帧，其中，间隔阀值与音频对应的声音播放速度成正比。

本实施例，可以根据数字人视频中各图像帧的数字人唇部特征，确定第一分段帧，以及根据数字人视频中音频数据的音素间隔，确定对数字人视频进行分段的第二分段帧，并基于第一分段帧和第二分段帧，确定对数字人视频进行分段的目标分段帧，并基于目标分段帧对数字人视频进行分段，得到具有时间戳的至少两个音频片段。本实施例，可以基于数字人唇部特征和音频数据的音素间隔这两个维度对数字人视频进行分段，提高了对数字人视频进行分段的精确性。

在上述实施例的基础上，本实施例提供了第二种数字人视频的字幕添加方法的可选实现方式，如图5所示，该方法包括以下步骤：

S501、根据原始文本，生成数字人视频。

其中，原始文本包括至少两个第一文本段。

S502、根据数字人视频中各图像帧的数字人唇部闭合情况，确定各图像帧的数字人唇部特征。

其中，数字人唇部特征包括唇部闭合特征和唇部张开特征。

S503、根据唇部闭合特征对应的图像帧的连续性，将唇部闭合特征对应的图像帧划分为至少一个候选分段集合。

S504、根据各候选分段集合中包含的图像帧的个数，从各候选分段集合中确定至少一个目标分段集合。

S505、从每一目标分段集合包含的图像帧中，选择一个分段帧。

S506、根据分段帧，对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

S507、通过至少两个音频识别器对具有时间戳的至少两个音频片段分别进行文本识别，得到每一音频识别器对各音频片段识别的具有时间戳的候选文本段。

S508、根据不同音频识别器对同一音频片段识别的候选文本段的相似度，确定各音频片段对应的具有时间戳的第二文本段。

S509、根据各音频片段对应的具有时间戳的第二文本段，确定原始文本中各第一文本段对应的时间戳。

S510、根据各第一文本段和各第一文本段的时间戳，为数字人视频添加字幕。

一种可选的实施方式中，还可以根据数字人视频中各图像帧的数字人唇部特征，以及数字人视频中音频数据的音素间隔，对数字人视频进行分段，得到具有时间戳的至少两个音频片段。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数字人视频的字幕添加方法的一种数字人视频的字幕添加装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案和有益效果相似，故下面所提供的一个或多个数字人视频的字幕添加装置实施例中的具体限定可以参见上文中对于一种数字人视频的字幕添加方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种数字人视频的字幕添加装置1，包括：

生成模块601，用于根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；

分段模块602，用于根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段；

识别模块603，用于对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；

添加模块604，用于根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕。

在其中一个实施例中，分段模块602，包括：

第一确定单元，用于根据数字人视频中各图像帧的数字人唇部闭合情况，确定各图像帧的数字人唇部特征；其中，数字人唇部特征包括唇部闭合特征和唇部张开特征；

第二确定单元，用于从唇部闭合特征对应的图像帧中，确定分段帧；

分段单元，用于根据分段帧，对数字人视频进行分段。

在其中一个实施例中，第二确定单元，具体用于：

从每一目标分段集合包含的图像帧中，选择一个分段帧。

在其中一个实施例中，分段模块602，具体用于：

在其中一个实施例中，识别模块603，具体用于：

在其中一个实施例中，添加模块604，具体用于：

上述数字人视频的字幕添加装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现数字人视频的字幕添加。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；

从唇部闭合特征对应的图像帧中，确定分段帧；

根据分段帧，对数字人视频进行分段。

从每一目标分段集合包含的图像帧中，选择一个分段帧。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；

从唇部闭合特征对应的图像帧中，确定分段帧；

根据分段帧，对数字人视频进行分段。

从每一目标分段集合包含的图像帧中，选择一个分段帧。

本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；

从唇部闭合特征对应的图像帧中，确定分段帧；

根据分段帧，对数字人视频进行分段。

从每一目标分段集合包含的图像帧中，选择一个分段帧。

需要说明的是，本申请所涉及的数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数字人视频的字幕添加方法，其特征在于，所述方法包括：

根据原始文本，生成数字人视频，其中，所述原始文本包括至少两个第一文本段；

根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段；

对所述具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；

根据所述原始文本和各音频片段对应的具有时间戳的第二文本段，为所述数字人视频添加字幕。

2.根据权利要求1所述的方法，其特征在于，所述根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，包括：

根据所述数字人视频中各图像帧的数字人唇部闭合情况，确定各图像帧的数字人唇部特征；其中，所述数字人唇部特征包括唇部闭合特征和唇部张开特征；

从唇部闭合特征对应的图像帧中，确定分段帧；

根据所述分段帧，对所述数字人视频进行分段。

3.根据权利要求2所述的方法，其特征在于，所述从唇部闭合特征对应的图像帧中，确定分段帧，包括：

根据唇部闭合特征对应的图像帧的连续性，将所述唇部闭合特征对应的图像帧划分为至少一个候选分段集合；

根据各候选分段集合中包含的图像帧的个数，从所述各候选分段集合中确定至少一个目标分段集合；

从每一目标分段集合包含的图像帧中，选择一个分段帧。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段，包括：

根据所述数字人视频中各图像帧的数字人唇部特征，以及所述数字人视频中音频数据的音素间隔，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段。

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述对所述具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段，包括：

通过至少两个音频识别器对所述具有时间戳的至少两个音频片段分别进行文本识别，得到每一音频识别器对各音频片段识别的具有时间戳的候选文本段；

6.根据权利要求1-3中任意一项所述的方法，其特征在于，所述根据所述原始文本和各音频片段对应的具有时间戳的第二文本段，为所述数字人视频添加字幕，包括：

根据所述各音频片段对应的具有时间戳的第二文本段，确定所述原始文本中各第一文本段对应的时间戳；

根据所述各第一文本段和所述各第一文本段的时间戳，为所述数字人视频添加字幕。

7.一种数字人视频的字幕添加装置，其特征在于，所述装置包括：

生成模块，用于根据原始文本，生成数字人视频，其中，所述原始文本包括至少两个第一文本段；

分段模块，用于根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段；

识别模块，用于对所述具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；

添加模块，用于根据所述原始文本和各音频片段对应的具有时间戳的第二文本段，为所述数字人视频添加字幕。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。