CN114999530A

CN114999530A - 音视频剪辑方法及装置

Info

Publication number: CN114999530A
Application number: CN202210542292.6A
Authority: CN
Inventors: 高强; 李旭; 刘杨; ***
Original assignee: Beijing Feixiang Xingxing Technology Co ltd
Current assignee: Beijing Feixiang Xingxing Technology Co ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-02
Anticipated expiration: 2042-05-18

Abstract

本说明书提供音视频剪辑方法及装置，其中所述音视频剪辑方法包括：获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

Description

音视频剪辑方法及装置

技术领域

本说明书涉及计算机技术领域，特别涉及一种音视频剪辑方法。本说明书同时涉及一种音视频剪辑装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

当前，为了提升用户观看视频的效率，需要对视频进行剪辑，删除重复内容或用户不感兴趣的内容。

然而，当前对音视频的剪辑方式为：人工删除不符合需求的视频片段，从而影响了对音视频的剪辑效率。

因此，亟待一种音视频剪辑方法，提升对音视频的剪辑效率。

发明内容

有鉴于此，本说明书实施例提供了一种音视频剪辑方法。本说明书同时涉及一种音视频剪辑装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种音视频剪辑方法，包括：

获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；

基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；

根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；

按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

根据本说明书实施例的第二方面，提供了一种音视频剪辑装置，包括：

获取模块，被配置为获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；

转换模块，被配置为基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；

确定模块，被配置为根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；

剪辑模块，被配置为按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述音视频剪辑方法的步骤。

本说明书提供的音视频剪辑方法，获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

本说明书一实施例实现了基于待剪辑音视频关联的目标语义转换音频文件，提升了得到的音频文本在后续进行语义分析时的准确性；按照目标音频文本对应的目标文本时间区间对待剪辑音视频进行剪辑，提升了对待剪辑音视频的剪辑效率。

附图说明

图1是本说明书一实施例提供的一种音视频剪辑方法的流程图；

图2是本说明书一实施例提供的一种元素恢复模型示意图；

图3是本说明书一实施例提供的一种应用于待剪辑面试音视频的音视频剪辑方法的处理流程图；

图4是本说明书一实施例提供的一种音视频剪辑装置的结构示意图；

图5是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

RNN-Transducer：一种基于循环神经网络的语音识别模型。

CTC：Connectionist Temporal Classification，自动对齐两个不等长序列的方法。

BERT：Bidirectional Encoder Representations from Transformers，是一种用来学习文本表征的双向编码技术。

在本说明书中，提供了一种音视频剪辑方法，本说明书同时涉及一种音视频剪辑装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例提供的一种音视频剪辑方法的流程图，具体包括以下步骤：

步骤102：获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件。

其中，待剪辑音视频是指存在剪辑需求的，并且包含音频流和视频流的视频文件，例如，视频H中包含多段重复内容，或一批视频中包含同类内容，如均包含自我介绍内容的视频组成的视频集合；则可以将视频集合中的每个视频作为待剪辑音视频；音频文件是指从待剪辑音视频中获取到的音频文件；在实际应用中，确定待剪辑音视频后，采集待剪辑音视频的音频流，并对采集到的音频流进行保存，得到与待剪辑音视频关联的音频文件。

例如，获取教学视频G，其中，教学视频G为包含教学视频流和对应的教学音频流的视频；确定存在剪辑需求的教学视频G后，在教学视频G中采集教学音频流，对教学音频流进行保存，得到教学音频文件。

通过获取待剪辑音视频，并确定待剪辑音视频对应的音频文件，便于后续基于音频文件确定待剪辑音视频中需要剪辑的视频片段。

步骤104：基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间。

其中，目标语义是指根据剪辑需求确定的语义数据，例如，目标语义可以是自我介绍、课程介绍等等；音频文本是指对音频文件进行转换得到的文本数据；文本时间区间是指音频文本在音频文件中对应的时间区间，例如，在音频文件中的音频为“大家好，我是小明”，基于音频文件中展示音频“大家好”的时间信息，确定音频文本“大家好”对应的时间区间为第0秒至第3秒，即音频文件第0秒至第3秒，对应播放的音频文本为“大家好”。

在实际应用中，可以通过将音频文件输入至语音转换模型中，得到语音转换模型输出的音频文本；其中，语音转换模型是指可以将音频转换为对应的文本的模型；在实际应用中，可以通过CTC技术、RNN-Transducer技术等实现音频至文本的转换，本申请不做具体限定。

进一步地，为了后续可以在音频文件中更准确的识别到目标语义，进而更准确的进行音视频的剪辑，可以基于与待剪辑音视频关联的目标语义将音频文件转换为音频文本，具体的，基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本的方法可以包括：

将所述音频文件输入至语音转换模型；

通过所述语音转换模型中的特征提取单元对所述音频文件进行处理，获得音频特征；

通过所述语音转换模型中的音频特征处理单元对所述音频特征进行处理，获得待解码音频特征；

通过所述语音转换模型中的解码单元，在预设的语义词语列表中确定关联所述音频文件的目标语义词；

通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行解码处理，获得至少一个音频文本并输出所述语音转换模型。

其中，语音转换模型是指可以对音频文件进行转换得到对应的音频文本的模型；在语音转换模型中可以包含特征提取单元、音频特征处理单元、解码单元等；特征提取单元用于提取输入至语音转换模型中的音频文件的音频特征；音频特征处理单元用于对音频特征进行分类，得到待解码音频特征；解码单元用于根据预设的语义词语列表中的语义词将待解码音频特征进行解码处理，得到音频文本。

在实际应用中，预设的语义词语列表可以是根据目标语义得到的，具体为：识别目标语义中的语义词，并基于语义词生成语义词语列表；例如，目标语义为自我介绍“大家好，我是...”，则根据预设识别规则在目标语义中识别得到的语义词为“大家好”、“我是”等等。

语义转换模型中的解码单元在预设的语义词语列表中根据待解码音频特征确定目标语义词，例如，待解码音频特征中包含“大家好”文本词语对应的音频特征，并且语义词语列表中包含“大家好”语义词，则可以根据“大家好”语义词对应的语义对待解码音频特征进行解码。

例如，将根据待剪辑音视频得到的音频文件J输入至语音转换模型；由语音转换模型中的特征提取单元提取音频文件J中的音频特征；将音频特征输入至音频特征处理单元中，对音频特征进行分类，得到待解码音频特征；确定解码单元中预设的语义词语列表，并基于语义词语列表对待解码音频特征进行解码，得到音频文本，并由语音转换模型输出音频文本。

在实际应用中，每个音频文件存在对应的文本权重，可以基于目标语义词对应的目标语义对文本权重进行调整后，得到音频文本。

具体的，通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行解码处理，获得至少一个音频文本并输出所述语音转换模型的方法可以包括：

通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行处理，获得至少一个初始音频文本，其中，每个初始音频文本携带有文本权重；

对所述至少一个初始音频文本中，与所述目标语义词关联的初始音频文本的文本权重进行调整，获得至少一个携带有目标文本权重的音频文本。

其中，文本权重是指音频文本的文本内容对应的权重；目标文本权重是指基于目标语义词的目标语义对文本权重进行调整后得到的文本权重；初始音频文本是指未经过目标语义进行调整的音频文本。

具体的，解码单元根据目标语义词对应的目标语义与音频文本进行比对，并根据比对结果生成初始音频文本，并且每个初始音频中包含文本权重；在初始音频文本中确定与目标语义词存在关联的一个或多个初始音频文本，并基于预设权重调整值对初始音频文件的文本权重进行调整，得到包含目标文本权重的音频文本，其中，预设权重调整值是指预先设置的用于对文本权重进行调整的数值，例如，预设权重调整值为0.2，则可以确定将初始音频文本的文本权重增加或减少0.2。

例如，语音转换模型中的解码单元根据语义词语列表中的语义词A对应的语义，与待解码特征进行比对，确定每个待解码特征是否与语义词A对应，得到比对结果；基于比对结果获得携带有文本权重的至少一个初始音频文本，其中，初始音频文本中包含与语义词A对应的音频文本以及与语义词A不对应的音频文本；在初始音频文本中确定与语义词A关联的初始音频文本，并根据预设权重调整值0.1对确定的与语义词A关联的初始音频文本的文本权重均进行增加调整。

在实际应用中，为了保证音频转换得到的文本的语义准确性，可以通过确定文本对应的分段元素，并通过基于分段元素对文本进行分段的方式对音频文本进行处理。

具体的，通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行处理，获得至少一个初始音频文本的方法可以包括：

通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行处理，获得至少一个文本片段；

将每个文本片段拼接为文本片段序列，并识别所述文本片段序列对应的分段元素；

根据所述分段元素对所述文本片段序列进行分段，获得至少一个初始音频文本。

其中，文本片段是指识别音频文本中的音频内容的得到与音频内容对应的文本，是音频文件对应的部分文本内容；在实际的语音转换过程中，可以基于语义对部分音频进行转换，得到对应的音频文本，从而得到音频文件对应的多个音频文本；文本片段序列是指根据获得音频文本的顺序对音频文本进行拼接得到的序列；分段元素是指用于基于语义对文本片段序列进行分段的元素。

具体的，解码单元根据目标语义词对应的目标语义对待解码音频特征进行解码处理，得到文本片段，如，对音频“大家好，我是小明”对应的待解码音频特征进行解码，得到文本片段“大家好”、“我”、“是”、“小明”；根据获得文本片段的顺序对文本片段进行拼接，得到文本片段序列，例如，沿用上例，得到文本片段序列“大家好我是小明”；识别文本片段序列对应的分段元素，以及分段元素在文本片段序列中的位置信息，例如，沿用上例，确定文本片段序列“大家好我是小明”对应的分段元素“，”以及分段元素“，”的位置信息；基于分段元素对文本片段序列进行分段，得到至少一个初始音频文本，例如，沿用上例，根据分段元素和分段元素对应的位置信息对“大家好我是小明”进行分段得到“大家好，我是小明”，则确定初始音频文本分别为“大家好”和“我是小明”。

在实际应用中，可以基于元素恢复模型确定文本片段序列对应的初始文本；具体的，识别所述音频文本片段序列对应的分段元素的方法可以包括：

将所述音频文本片段序列输入至元素恢复模型；

获取所述元素恢复模型输出的分段元素以及每个分段元素在所述音频文本片段序列中的位置信息。

其中，元素恢复模型是指预先训练完成的可以根据输入的文本得到文本中的分段元素以及分段元素位置信息的模型。

具体的，将音频分段序列输入至元素恢复模型中，接收元素恢复模型输出的分段元素以及分段元素位置信息。

例如，将文本片段序列“大家好我是小明今天我来教大家一个小技巧”，输入至预先训练完成的RNN标点恢复模型中，如图2所示，由RNN标点恢复模型输出文本片段序列对应的标点符号以及标点符号的位置信息。

进一步地，确定音频文本对应的文本时间区间，从而便于后续基于文本时间区间对待剪辑视频进行处理。

通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行解码处理，获得多个解码向量；

通过所述语音转换模型的输出单元对每个解码向量进行转换，获得每个解码向量对应的词单元；

通过所述输出单元对每个解码向量对应的词单元与所述音频文件进行对齐，获得携带有时间信息的所述至少一个音频文本并输出所述语音转换模型；

相应的，确定每个音频文本对应的文本时间区间的具体方法可以包括：

根据所述至少一个音频文本中携带的时间信息，确定每个音频文本对应的文本时间区间。

具体的，解码单元对待解码音频特征进行解码后，可以得到对应的解码向量；确定每个解码向量对应的词单元，例如，确定文本“你”和文本“好”对应的解码向量分别为向量a和向量b，确定向量a和向量b对应的词单元为g，则后续可以确定将向量a和向量b进行组合得到对应的音频文本。

在语音转换模型中包含输出单元，输出单元对每个解码向量对应的词单元与音频文件进行对齐处理，得到包含时间信息的音频文件；例如，接收到文本“好”对应的解码向量k后，确定解码向量k是否为词单元g中的结束向量，若是，则确定解码向量k在音频文件中对应的时间信息，基于解码向量k对应的时间信息确定词单元g对应的时间区间；若否，则进一步接收解码向量，直至确定接收到词单元的结束向量后，确定结束向量对应的时间信息，基于词单元起始向量对应的时间信息和结束向量对应的时间信息生成音频文件的文本时间区间。

步骤106：根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间。

在确定至少一个音频文本后，在至少一个音频文本确定包含目标语义的目标音频文本，并确定目标音频文本对应的目标文件时间区间。

例如，确定音频文件对应的音频文本组成音频文本集合Q，根据目标语义P在音频文本集合Q{音频文本1、音频文本2...音频文本n}确定音频文本2、音频文本3以及音频文本8中包含目标语义P，则分别确定音频文本2、音频文本3以及音频文本8对应的文本时间区间。

进一步地，可以通过语义分析模型来判断音频文本是否包含目标语义，具体的，根据所述目标语义在所述至少一个音频文本中确定目标音频文本的方法可以包括：

将每个音频文本输入至语义分析模型进行处理，获得每个音频文本包含目标语义的概率值；

将每个音频文本对应的概率值与预设概率阈值进行比较，根据比较结果在至少一个音频文本中筛选目标音频文本。

其中，语义分析模型是指可以基于输入音频文本输出音频文本包含目标语义的概率的模型；语义分析模型可以是通过对通用模型，如，BERT模型，进行训练得到的。

在实际应用中，可以采用下述方式得到训练完成的语义分析模型；具体的，将每个音频文本输入至语义分析模型进行处理之前，还可以包括：

获取包含目标语义的样本数据集；

基于所述样本数据集中的样本数据对所述语义分析模型进行训练。

其中，样本数据集是指基于目标语义生成的样本数据集，如，对样本音频文件进行转换得到样本音频文本；根据目标语义对样本音频文本进行标注，在样本音频文本中包含目标语义的情况下标注“包含目标语义”标签，在样本音频文本中不包含目标语义的情况下标注“不包含目标语义”标签；基于包含标签的样本音频文本生成样本数据集；基于样本数据集对语义分析模型进行微调，得到训练完成的语义分析模型。

例如，采用预设样本集对BERT模型进行预训练；获取样本音频文件S，并将音频文件S转换为样本音频文本；确定目标语义为课程介绍，则基于目标语义对样本音频文本添加“包含目标语义”标签和“不包含目标语义”标签；基于包含标签的样本音频文本生成样本数据集合；基于样本数据集合对预训练完成的BERT模型进行微调，得到训练完成的语义分析模型。

在获得语义分析模型后，将每个音频文本输入至语义分析模型进行处理，并接收语义分析模型输出的每个音频文本包含目标语义的概率值；其中，概率值是指音频文本包含目标语义的概率数值，例如，音频文本H包含目标语义的概率值为85％；将每个音频文本对应的概率值与预设概率阈值进行比较，其中，预设概率阈值是指音频文本对应的概率值的上限值，将超过预设概率阈值的音频文本作为目标音频文本，并确定目标音频文本对应的文本时间区间。

例如，确定音频文件A对应的音频文本1、音频文本2和音频文本3，以及每个音频文本对应的概率值30％、95％、90％；确定预设概率阈值为85％，则可以确定音频文本3和音频文本2为目标音频文本，并分别确定音频文本3和音频文本2对应的文本时间区间。

通过确定包含目标语义的目标音频文本，并确定目标音频文本对应的文本时间区间，以便后续基于文本时间区间对待剪辑音视频进行剪辑。

步骤108：按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

在确定目标文本时间区间后，基于目标文本时间区间确定视频片段，并根据视频片段对待剪辑音视频进行剪辑。

在实际应用中，按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频的方法可以包括：

基于所述目标文本时间区间在所述待剪辑视频中确定待处理音视频片段；

删除所述待剪辑音视频中的所述待处理音视频片段，获得目标音视频。

其中，待处理音视频片段是指基于目标文本时间区间确定的音频频片段。

具体的，根据目标文本时间区间可以在待剪辑音视频确定包含目标语义的音视频所在的时间区间，如，根据文本时间区间第3至第5秒，确定待剪辑音视频中包含目标语义；基于时间区间确定待剪辑音视频中的待处理音视频片段，并在待剪辑音视频中对确定的每个待处理音视频片段进行删除，得到剪辑完成的目标音视频。

本申请的音视频剪辑方法，通过获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件，以便基于音频文件得到对应的音频文本；基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间，从而提升音频文本的准确性，便于后续在音频文本识别目标语义；根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间，以便高效的确定包含目标语义的音频文本；按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频，以便根据包含目标语义的音频文本对应的文本时间区间剪辑待剪辑视频，提升剪辑效率。

下述结合附图3，以本说明书提供的音视频剪辑方法在待剪辑面试音视频的应用为例，对所述待剪辑面试音视频方法进行进一步说明。其中，图3示出了本说明书一实施例提供的一种应用于待剪辑面试视频的音视频剪辑方法的处理流程图，具体包括以下步骤：

步骤302：获取待剪辑面试音视频，并确定待剪辑面试音视频关联的音频文件。

具体的，采集待剪辑面试音视频中的音频流，得到音频文件。

步骤304：将音频文件输入至语音转换模型，并基于语音转换模型中的特征提取单元对音频文件进行处理，获得音频特征。

步骤306：基于语音转换模型中的音频特征处理单元对音频特征进行处理，获得待解码音频特征。

步骤308：基于语音转换模型中的解码单元，在预设的语义词语列表中确定关联音频文件的目标语义词。

步骤310：按照目标语义词对应的目标语义，对待解码音频特征进行解码处理，获得音频文本以及对应的文本时间区间。

具体的，解码单元按照目标语义词对应的目标语义，对待解码音频特征进行处理，获得至少一个文本片段。将每个文本片段拼接为文本片段序列，并识别文本片段序列对应的分段元素。根据分段元素对文本片段序列进行分段，获得至少一个初始音频文本。在至少一个初始音频文本中确定与目标语义词关联的初始音频文本的文本权重进行调整，获得至少一个携带有目标文本权重的音频文本；确定每个音频文本对应的文本时间区间。

步骤312：将每个音频文本输入至语义分析模型进行处理，获得每个音频文本包含目标语义的概率值。

步骤314：将每个音频文本对应的概率值与预设概率阈值进行对比，根据对比结果在至少一个音频文本中筛选目标音频文本，并确定目标音频文本对应的文本时间区间。

步骤316：基于目标文本时间区间在待剪辑面试音视频中确定待处理音视频片段，并对待处理音视频片段进行删除，获得目标面试音视频。

本申请的音视频剪辑方法，通过获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件，以便基于音频文件得到对应的音频文本；基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间，从而提升音频文本的准确性，便于后续在音频文本中识别目标语义；根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间，以便高效的确定包含目标语义的音频文本；按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频，以便根据包含目标语义的音频文本对应的文本时间区间剪辑待剪辑视频，提升剪辑效率。

与上述方法实施例相对应，本说明书还提供了音视频剪辑装置实施例，图4示出了本说明书一实施例提供的一种音视频剪辑装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；

转换模块404，被配置为基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；

确定模块406，被配置为根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；

剪辑模块408，被配置为按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

可选地，所述转换模块404，进一步被配置为：

将所述音频文件输入至语音转换模型；

可选地，所述转换模块404，进一步被配置为：

相应的，确定每个音频文本对应的文本时间区间，包括：

可选地，所述转换模块404，进一步被配置为：

可选地，所述确定模块406，进一步被配置为：

可选地，所述装置还包括，训练模块，被配置为：

获取包含目标语义的样本数据集；

可选地，所述剪辑模块408，进一步被配置为：

可选地，所述转换模块404，进一步被配置为：

将所述音频文本片段序列输入至元素恢复模型；

本申请的音视频剪辑装置，获取模块，被配置为获取待剪辑音视频，并确定所述待剪辑音视频关联的音频文件；转换模块，被配置为基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，以及确定每个音频文本对应的文本时间区间；确定模块，被配置为根据所述目标语义在所述至少一个音频文本中确定目标音频文本，并确定所述目标音频文本对应的目标文本时间区间；剪辑模块，被配置为按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频。

上述为本实施例的一种音视频剪辑装置的示意性方案。需要说明的是，该音视频剪辑装置的技术方案与上述的音视频剪辑方法的技术方案属于同一构思，音视频剪辑装置的技术方案未详细描述的细节内容，均可以参见上述音视频剪辑方法的技术方案的描述。

图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音视频剪辑方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音视频剪辑方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音视频剪辑方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音视频剪辑方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音视频剪辑方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，基于所述待剪辑音视频关联的目标语义将所述音频文件转换为至少一个音频文本，包括：

将所述音频文件输入至语音转换模型；

3.如权利要求2所述的方法，其特征在于，通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行解码处理，获得至少一个音频文本并输出所述语音转换模型，包括：

4.如权利要求2所述的方法，其特征在于，通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行解码处理，获得至少一个音频文本并输出所述语音转换模型，包括：

相应的，确定每个音频文本对应的文本时间区间，包括：

5.如权利要求3所述的方法，其特征在于，通过所述解码单元按照所述目标语义词对应的所述目标语义，对所述待解码音频特征进行处理，获得至少一个初始音频文本，包括：

6.如权利要求1所述的方法，其特征在于，根据所述目标语义在所述至少一个音频文本中确定目标音频文本，包括：

7.如权利要求6所述的方法，其特征在于，将每个音频文本输入至语义分析模型进行处理之前，还包括：

获取包含目标语义的样本数据集；

8.如权利要求1所述的方法，其特征在于，按照所述目标文本时间区间对所述待剪辑音视频进行剪辑，获得目标音视频，包括：

9.如权利要求5所述的方法，其特征在于，识别所述音频文本片段序列对应的分段元素，包括：

将所述音频文本片段序列输入至元素恢复模型；

10.一种音视频剪辑装置，其特征在于，包括：

11.一种计算设备，其特征在于，包括存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现权利要求1至9任意一项所述音视频剪辑方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至9任意一项所述音视频剪辑方法的步骤。