CN114996506A

CN114996506A - 语料生成方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN114996506A
Application number: CN202210572357.1A
Authority: CN
Inventors: 王书培; 刘攀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-09-02

Abstract

本发明实施例公开了一种语料生成方法、装置、电子设备和计算机可读存储介质；本发明实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；该方案可以大大提升语音识别中的语料生成的准确性。

Description

语料生成方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种语料生成方法、装置和计算机可读存储介质。

背景技术

近年来，随着互联网技术的飞速发展，语料在语言识别领域也变得越来越重要，语料的准确性往往可以决定语言识别的准确性。因此，需要生成准确的语料。现有的语料生成方法往往通过语音识别后辅助人工的方式进行标注。

在对现有技术的研究和实践过程中，本发明的发明人发现通过人工的方式往往需要大量的人力资源，而且比较容易产生误差，另外，对于一些小范围传播的特殊语言，语音识别的准确率往往较低，因此，导致语料生成的准确性较低。

发明内容

本发明实施例提供一种语料生成方法、装置、电子设备和计算机可读存储介质，可以提高语料生成的准确性。

一种语料生成方法，包括：

获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；

在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；

计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；

根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；

基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。

相应的，本发明实施例提供一种语料生成装置，包括：

获取单元，用于获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；

转换单元，用于在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；

计算单元，用于计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；

筛选单元，用于根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；

生成单元，用于基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。

可选的，在一些实施例中，所述计算单元，具体可以用于在所述字幕内容中识别出字幕字符串，并在所述文本内容中识别出文本字符串；计算所述字幕字符串与所述文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离；基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度。

可选的，在一些实施例中，所述计算单元，具体可以用于将所述字幕字符串与文本字符串进行融合，得到字符串距离；计算所述类编辑距离与字符串距离之间的距离差值；计算所述距离差值与所述字符串距离之间的比值，得到所述候选视频的文本相似度。

可选的，在一些实施例中，所述获取单元，具体可以用于对所述候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧；在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域；在所述视频帧中识别出所述字幕区域对应的文本，得到所述候选视频的字幕内容。

可选的，在一些实施例中，所述获取单元，具体可以用于对分帧后的视频帧进行文本识别，得到所述视频帧的视频帧文本；基于所述视频帧文本，对所述视频帧进行分类，得到每一视频帧文本对应的视频帧集合；根据所述视频帧对应的播放时间，对所述视频帧集合中的视频帧进行排序，并基于排序结果，在所述视频帧集合中筛选出关键视频帧。

可选的，在一些实施例中，所述获取单元，具体可以用于在所述视频帧文本中筛选出所述关键视频帧的至少一个关键视频帧文本，并在所述关键视频帧中识别出每一所述关键视频帧文本的文本位置信息；基于所述关键视频帧文本，在所述文本位置信息中筛选出目标位置信息；在所述关键视频帧中定位出所述目标位置信息对应的位置区域，得到所述候选视频的字幕区域。

可选的，在一些实施例中，所述获取单元，具体可以用于根据预设关键词，获取目标语言的基础视频集合；在所述基础视频集合中识别出每一视频的视频类型和所述视频类型的置信度；基于所述视频类型和置信度，在所述基础视频集合中筛选出至少一个候选视频。

可选的，在一些实施例中，所述获取单元，具体可以用于对所述基础视频集合中的每一视频的音频帧进行音频检测，得到所述音频帧的音频类型；对所述视频进行静音检测，并基于检测结果，对所述视频进行音频切割，得到至少一个音频片段；对所述音频片段进行特征提取，并基于提取出的音频特征和音频类型，确定所述视频的视频类型和所述视频类型的置信度。

可选的，在一些实施例中，所述获取单元，具体可以用于根据所述音频类型和音频特征，确定所述音频片段的语音类型和所述语音类型的分类信息；获取所述音频片段的音频时长，并基于所述音频时长，确定所述语音类型的分类权重；根据所述分类权重和分类信息，将所述视频的音频片段对应的语音类型进行融合，以得到所述视频的视频类型和所述视频类型的置信度。

可选的，在一些实施例中，所述生成单元，具体可以用于在所述字幕内容中筛选出所述目标视频的目标字幕内容；并在所述目标视频中提取出所述目标字幕内容对应的时间轴；将所述目标视频的音频内容、目标字幕内容和时间轴作为初始语料，并将所述初始语料发送至校验服务器进行校验，以得到所述目标语言的语料。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的语料生成方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种语料生成方法中的步骤。

本发明实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；由于该方案可以在候选视频中识别出字幕内容，并将候选视频的音频内容转换为文本内容，然后，根据字幕内容和文本内容的相似度，从而准确筛选出目标语言的目标视频，而且还可以将目标视频的字幕内容作为人工标注的参考，因此，可以大大提升语料生成的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语料生成方法的场景示意图；

图2是本发明实施例提供的语料生成方法的流程示意图；

图3是本发明实施例提供的方言视频的搜索示意图；

图4是本发明实施例提供的音频片段的语音类型的示意图；

图5是本发明实施例提供的筛选关键视频帧的示意图；

图6是本发明实施例提供的方言视频的识别流程示意图；

图7是本发明实施例提供的方言语料识别的示意图；

图8是本发明实施例提供的语料生成的整体流程示意图；

图9是本发明实施例提供的方言语料生成的流程示意图；

图10是本发明实施例提供的语料生成的另一流程示意图；

图11是本发明实施例提供的语料生成装置的结构示意图；

图12是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语料生成方法、装置、电子设备和计算机可读存储介质。其中，该语料生成装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以语料生成装置集成在电子设备中为例，电子设备获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料，进而提升语料生成的准确性。

其中，语料可以为经过标注的音频内容，主要包括音频文件和该音频文件对应的标注文本组成，该标注文本通过时间轴等形式与音频文件中的音频内容一一对应。语料是构成语料库的基本单位。所谓语料库是指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。语料通常可以用于声学模型或者音频识别模型等的训练，还可以用于问答搜索等场景。

其中，本申请实施例提供的语料生成方法涉及人工智能领域中的语音技术和自然语音处理(NLP)方向。本申请实施例可以对候选视频的视频帧进行文本识别，并在候选视频中提取出音频内容，并将音频内容转换为文本内容等。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中，可以理解的是，在本申请的具体实施方式中，涉及到对象的候选视频等相关数据，当本申请以下实施例运用到具体产品或技术中时，需要获得许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从语料生成装置的角度进行描述，该语料生成装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC，Personal Computer)、可穿戴设备、虚拟现实设备或其他可以生成语料的智能设备等设备。

一种语料生成方法，包括：

获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容，在候选视频中提取出音频内容，并将音频内容转换为文本内容，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料。

如图2所示，该语料生成方法的具体流程如下：

101、获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容。

其中，字幕内容为视频帧中字幕的内容信息，所谓字幕可以为以文字形式显示电视、电影、舞台作品中的对话等非影像内容，也泛指影视作品后期加工的文字。在电影银幕或电视机荧光屏下方出现的解说文字以及种种文字，如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。影视作品的对话字幕，一般出现在屏幕下方，而戏剧作品的字幕，则可能显示于舞台两旁或上方。

其中，获取至少一个候选视频的方式可以有多种，具体可以如下：

例如，可以根据预设关键词，获取目标语言的基础视频集合，在基础视频集合中识别出每一视频的视频类型和视频类型的置信度，基于视频类型和置信度，在基础视频集合中筛选出至少一个候选视频。

其中，根据预设关键词，获取目标语言的基础视频集合的方式可以有多种，比如，可以获取预设关键词，在预设关键词中筛选出目标语言的目标关键词，并基于目标关键词，在网络或者视频平台获取原始视频，从而得到基础视频集合。

其中，目标关键词可以通过目标语言确定，比如，以目标语言为方言为例，则目标关键词就可以为四川话、重庆话、东北方言或上海话等等。基于该目标关键词，就可以搜索出可能为方言的视频，从而得到基础视频集合。以目标关键词为四川话为例，就可以在视频平台中搜索出包含四川话的原始视频，搜索过程可以如图3所示。

在获取基础视频集合之后，便可以在基础视频集合中识别出每一视频的视频类型和该视频类型的置信度，所谓视频类型可以理解为该视频中音频数据的场景标签，主要用于判断视频中的音频数据所处的音频场景，该音频场景可以有多种，比如，可以包括语音、歌曲和人群等等。在基础视频集合中识别出每一视频的视频类型的方式可以有多种，比如，对基础视频集合中的每一视频的音频帧进行音频检测，得到音频帧的音频类型，对视频进行静音检测，并基于检测结果，对视频进行音频切割，得到至少一个音频片段，对音频片段进行特征提取，并基于提取出的音频特征和音频类型，确定视频的视频类型和视频类型的置信度。

其中，音频类型用于指示音频帧是否为语音，因此，音频类型就可以包括语音标签和非语音标签。对音频帧进行音频检测的方式可以有多种，比如，在视频中提取出音频信息，并对该音频信息进行分帧，得到至少一帧音频帧，采用音频检测技术(VAD)对音频帧进行音频检测，从而得到该音频帧的音频类型。

其中，对视频进行音频切割的方式可以有多种，比如，可以基于检测结果，在视频的音频信息中识别出存在静音音频帧的静音区间，在视频的音频信息中删除静音区间对应的音频，就可以得到至少一个音频片段。

在对视频进行音频切割之后，便可以对音频片段进行特征提取，特征提取的方式可以有多种，比如，可以采用x-vector embedding模型(一种音频特征提取模型)做为主***，对每个音频片段进行特征提取，通过TDNN网络和Statistics Pooling层，得到表征音频内容信息的音频特征(embedding)。

在提取出音频特征之后，便可以基于提取出的音频特征和音频特征，确定视频的视频类型和视频类型的置信度，确定视频类型和该视频类型的置信度的方式可以有多种，比如，根据音频类型和音频特征，确定音频片段的语音类型和语音类型的分类信息，获取音频片段的音频时长，并基于音频时长，确定语音类型的分类权重，根据分类权重和分类信息，将视频的视频片段对应的语音类型进行融合，以得到视频的视频类型和视频类型的置信度。

其中，语音类型用于指示音频片段在在语音或者非语音场景下所处的子场景信息，比如，以场景为语音为例，语音类型就可以包括汉语或者其他语种，以场景为歌曲为例，语音类型就可以包括歌曲的类型，譬如，可以包括清唱、歌唱、纯音乐，具体可以如图4所示。根据音频类型和音频特征，确定音频片段的语音类型和语音类型的分类信息的方式可以有多种，比如，音频片段内的音频帧的音频类型进行融合，得到音频片段的基础语音类型，采用后端分类器对音频特征在基础语音类型上进行分类，从而得到每一音频片段的语音类型和该语音类型的类别得分，将该类别得分作为分类信息。

在确定语音类型的分类信息和分类权重之后，便可以将视频的音频片段对应的语音类型进行融合，融合的方式可以有多种，比如，可以基于分类权重，对分类信息进行加权，得到加权后分类信息，根据加权后分类信息，在语音类型中筛选出目标语音类型，并将目标语音类型作为视频类型，将目标语音类型对应的置信度作为视频类型的置信度。

在确定出视频的视频类型和该视频类型的置信度之后，便可以基于视频类型和置信度，在基础视频集合中筛选出至少一个候选视频，筛选候选视频的方式可以有多种，比如，可以在基础视频集合中筛选出视频类型为目标视频类型的视频，得到候选视频集合，并在候选视频集合中筛选出置信度超过预设置信度阈值的视频，得到至少一个候选视频。

在获取出至少一个候选视频之后，便可以对候选视频的视频帧进行文本识别，得到候选视频的字幕内容，文本识别的方式可以有多种，比如，可以对候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧，在关键视频帧中定位出目标位置区域，得到候选视频的字幕区域，在视频帧中识别出字幕区域对应的文本，得到候选视频的字幕内容。

其中，在分帧后的视频帧中筛选出关键视频帧的方式可以有多种，比如，对分帧后的视频帧进行文本识别，得到视频帧的视频帧文本，基于视频帧文本，对视频帧进行分类，得到每一视频帧文本对应的视频帧集合，根据视频帧对应的播放时间，对视频帧集合中的视频帧进行排序，并基于排序结果，在视频帧集合中筛选出关键视频帧。

其中，基于排序结果，在视频帧集合中筛选出关键视频帧的方式可以有多种，比如，可以基于排序结果，在视频帧集合中筛选出播放时间最早的视频帧，从而得到关键视频，由此，就可以发现关键视频帧就可以理解为视频帧的视频帧文本与上一帧视频帧存在变化的视频帧，具体可以如图5所示。

在筛选出关键视频帧之后，便可以在关键视频帧中定位出目标位置区域，得到候选视频的字幕区域，所谓字幕区域可以理解为字幕在视频帧中所出位置区域，定位出字幕区域的方式可以有多种，比如，可以在视频帧文本中筛选出关键视频帧的至少一个关键视频帧文本，并在关键视频帧中识别出每一关键视频帧文本的文本位置信息，基于关键视频帧文本，在文本位置信息中筛选出目标位置信息，在关键视频帧中定位出目标位置信息对应的位置区域，得到候选视频的字幕区域。

其中，基于关键视频帧文本，在文本位置信息中筛选出目标位置信息的方式可以有多种，比如，在文本位置信息中筛选出关键视频帧文本存在变化的文本位置信息，得到候选位置信息，在候选位置信息中筛选出纵坐标不变的位置信息，从而得到目标位置信息。关键视频帧中除了字幕以外，可能还会存在台标或者广告等信息，除了字幕会存在变化以外，而且字幕的纵坐标是不会发生变化，其他内容的横纵坐标都并不会发生变化，从而就可以筛选出字幕存在的位置信息。

在筛选出目标位置信息之后，便可以在关键视频帧中定位出目标位置信息对应的位置区域，定位的方式可以有多种，比如，可以在关键视频帧中定位出每一目标位置信息对应的初始位置区域，将该初始位置区域进行融合，得到候选视频的字幕区域，或者，还可以在关键视频帧中定位出每一目标位置信息对应的初始位置区域，在初始位置区域中筛选出横坐标最大或者长度最长的位置区域作为字幕区域。

102、在候选视频中提取出音频内容，并将音频内容转换为文本内容。

其中，在候选视频中提取出音频内容的方式可以有多种，具体可以如下：

例如，可以直接在候选视频中分离出音频数据，从而得到音频内容，或者，还可以在候选视频中提取出音频数据，得到初始音频内容，对初始音频内容进行静音检测，并基于检测结果，在初始音频内容中筛选出静音内容，得到候选视频的音频内容。

在提取出音频内容之后，便可以将音频内容转换为文本内容，转换为文本内容的方式可以有多种，比如，可以采用语音识别技术(Automatic Speech Recognition，ASR)服务将视频的音频内容转换为文本内容，或者，还可以采用其他语音转换技术将音频内容转换为文本内容。

103、计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度。

其中，文本相似度用于指示字幕内容和文本内容之间文本的相似度信息。

其中，计算字幕内容和文本内容之间的相似度的方式可以有多种，具体可以如下：

例如，可以在字幕内容中识别出字幕字符串，并在文本内容中识别出文本字符串，计算字幕字符串与文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离，基于字幕字符串、文本字符串和类编辑距离，确定候选视频的文本相似度。

其中，计算字幕字符串与文本字符串之间的转换操作次数的方式可以有多种，比如，可以采用***、删除和替换等方式将字幕字符串转换为文本字符串，或者，将文本字符串转换为字幕字符串，***操作次数加1，替换操作次数加2，由此，可以计算出转换的操作次数，并在操作次数中筛选出最少的操作次数，从而得到字幕字符串与文本字符串之间的类编辑距离。

在计算出类编辑距离之后，便可以基于字幕字符串、文本字符串和类编辑距离，确定候选视频的文本相似度，确定文本相似度的方式可以有多种，比如，可以将字幕字符串与文本字符串进行融合，得到字符串距离，计算类编辑距离与字符串距离之间的距离差值，计算距离差值与字符串距离之间的比值，得到候选视频的文本相似度，具体可以如公式(1)所示：

r＝(sum-ldist)/sum (1)

其中，r为文本相似度，也可以称为莱温斯坦比，sum为字符串距离，ldist为类编辑距离。

其中，字符串距离可以理解为字幕字符串与文本字符串的长度综合，比如，如str1＝'abc'，str2＝'cde'，sum＝3+3＝6。计算文本相似的代码信息可以如下所示：

104、根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频。

例如，可以获取预设文本相似度阈值集合，并在预设文本相似度阈值集合中筛选出目标语言对应的目标文本相似度阈值。将目标文本相似度阈值与候选视频的文本相似度进行对比，基于对比结果，在候选视频中筛选出文本相似度未超过目标文本相似度阈值的视频，从而得到目标语言对应的目标视频。

其中，文本相似度阈值可以根据实际应用来设定，以目标语言为方言为例，文本相似度阈值就可以为50％，则可以在候选视频中筛选出未超过50％的视频作为方言视频，文本相似度超过目标文本相似度阈值的视频就可以为普通话视频，因此，对方言视频的识别可以如图6所示，通过ASR技术识别出视频数据的文本内容，通过OCR技术识别出字幕内容，并计算文本内容与字幕内容的文本相似度，然后，将文本相似度与文本相似度阈值进行对比，低阈值的为方言视频进行保留，高阈值的就可以普通话视频进行剥离，从而就可以得到目标视频。

105、基于目标视频的音频内容和字幕内容，生成目标语言对应的语料。

例如，可以在字幕内容中筛选出目标视频的目标字幕内容，在目标视频中提取出目标字幕内容对应的时间轴，将目标视频的音频内容、目标字幕内容和时间轴作为初始语料信息，并将初始语料发送至校验服务器进行校验，以得到目标语言的语料。

其中，将初始语料发送至校验服务器进行校验的方式可以有多种，比如，将初始语料发送至校验服务器，以便人工校对修改兜底，然后，调整部分时间轴，从而就可以得到目标语言的ASR语料。

其中，该方案同时针对获取到的方言数据训练集语料标注困难的情况(大量方言普通标注人员仅能听懂1-2个地区)，结合多模态的标注形式将视频直观呈现的方式同时利用OCR识别结果辅助人工进行标注，有效的解决人工标注困难的问题，具体可以如图7所示。

可选的，在生成目标语言的语料之后，还可以基于语料对语言识别模型进行训练，得到训练后语言识别模型，并基于训练后语言识别模型对待识别语音进行识别，得到待识别语音对应的文本内容。

其中，在语料生成的整体过程中，分别采用ASR和OCR的技术，用于筛选出目标视频，并辅助人工进行标注，从而得到ASR语料，具体流程可以如图8所示。

其中，以语料为方言为例，生成方言语料的整体过程可以如图9所示，输入筛选视频，对视频进行音频类型检测，得到带场景标签和分数的音频，场景标签可以包括语音、歌曲、人群、干扰音等等。在视频中筛选出分数超过80分，且场景为语音的视频，从而得到候选视频。通过字幕提取服务获取候选视频的字幕信息，并通过OCR技术在视频帧中识别出候选视频的字幕内容，通过音频ASR服务将音频内容转换为文本内容，计算字幕内容和文本内容的文本相似度，当文本相似度超过50％时，判断候选视频为普通话视频，并进行剥离，当文本相似度未超过50％时，判定为方言视频进行保留，然后，提取方言视频的目标字幕内容，将音频、时间戳(时间轴)和对应的字幕内容作为初始语料，并对初始语料进行人工校验修改，从而得到ASR语料。

由以上可知，本申请实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；由于该方案可以在候选视频中识别出字幕内容，并将候选视频的音频内容转换为文本内容，然后，根据字幕内容和文本内容的相似度，从而准确筛选出目标语言的目标视频，而且还可以将目标视频的字幕内容作为人工标注的参考，因此，可以大大提升语料生成的准确性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该语料生成装置具体集成在电子设备，电子设备为服务器，目标语言为方言为例进行说明。

如图10所示，一种语料生成方法，具体流程如下：

201、服务器获取至少一个候选方言视频。

例如，服务器获取预设关键词，在预设关键词中筛选出方言的目标关键词，并基于目标关键词，在网络或者视频平台获取原始视频，从而得到基础方言视频集合。在基础方言视频集合中的每一视频中提取出音频信息，并对该音频信息进行分帧，得到至少一帧音频帧，采用音频检测技术(VAD)对音频帧进行音频检测，从而得到该音频帧的音频类型。对视频进行静音检测，基于检测结果，在视频的音频信息中识别出存在静音音频帧的静音区间，在视频的音频信息中删除静音区间对应的音频，就可以得到至少一个音频片段。

服务器采用x-vector embedding模型做为主***，对每个音频片段进行特征提取，通过TDNN网络和Statistics Pooling层，得到表征音频内容信息的音频特征(embedding)。音频片段内的音频帧的音频类型进行融合，得到音频片段的基础语音类型，采用后端分类器对音频特征在基础语音类型上进行分类，从而得到每一音频片段的语音类型和该语音类型的类别得分，将该类别得分作为分类信息。

服务器获取音频片段的音频时长，并基于音频时长，确定语音类型的分类权重，基于分类权重，对分类信息进行加权，得到加权后分类信息，根据加权后分类信息，在语音类型中筛选出目标语音类型，并将目标语音类型作为视频类型，将目标语音类型对应的置信度作为视频类型的置信度。在基础视频集合中筛选出视频类型为语言的视频，得到候选方言视频集合，并在候选视频集合中筛选出置信度超过预设置信度阈值的视频，得到至少一个候选方言视频。

202、服务器对候选方言视频的视频帧进行文本识别，得到候选方言视频的字幕内容。

例如，服务器对候选视频进行分帧，对分帧后的视频帧进行文本识别，得到视频帧的视频帧文本。基于视频帧文本，对视频帧进行分类，得到每一视频帧文本对应的视频帧集合，根据视频帧对应的播放时间，对视频帧集合中的视频帧进行排序，基于排序结果，在视频帧集合中筛选出播放时间最早的视频帧，从而得到关键视频。

服务器在视频帧文本中筛选出关键视频帧的至少一个关键视频帧文本，并在关键视频帧中识别出每一关键视频帧文本的文本位置信息。在文本位置信息中筛选出关键视频帧文本存在变化的文本位置信息，得到候选位置信息，在候选位置信息中筛选出纵坐标不变的位置信息，从而得到目标位置信息。关键视频帧中除了字幕以外，可能还会存在台标或者广告等信息，除了字幕会存在变化以外，而且字幕的纵坐标是不会发生变化，其他内容的横纵坐标都并不会发生变化，从而就可以筛选出字幕存在的位置信息。在关键视频帧中定位出每一目标位置信息对应的初始位置区域，将该初始位置区域进行融合，得到候选视频的字幕区域，或者，还可以在关键视频帧中定位出每一目标位置信息对应的初始位置区域，在初始位置区域中筛选出横坐标最大或者长度最长的位置区域作为字幕区域。

203、服务器在候选方言视频中提取出音频内容。

例如，服务器可以直接在候选方言视频中分离出音频数据，从而得到音频内容，或者，还可以在候选方言视频中提取出音频数据，得到初始音频内容，对初始音频内容进行静音检测，并基于检测结果，在初始音频内容中筛选出静音内容，得到候选方言视频的音频内容。

204、服务器将音频内容转换为文本内容。

例如，服务器采用ASR服务将候选方言视频的音频内容转换为文本内容，或者，还可以采用其他语音转换技术将音频内容转换为文本内容。

205、服务器计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度。

例如，服务器可以在字幕内容中识别出字幕字符串，并在文本内容中识别出文本字符串。采用***、删除和替换等方式将字幕字符串转换为文本字符串，或者，将文本字符串转换为字幕字符串，***操作次数加1，替换操作次数加2，由此，可以计算出转换的操作次数，并在操作次数中筛选出最少的操作次数，从而得到字幕字符串与文本字符串之间的类编辑距离。将字幕字符串与文本字符串进行融合，得到字符串距离，计算类编辑距离与字符串距离之间的距离差值，计算距离差值与字符串距离之间的比值，得到候选视频的文本相似度，具体可以如公式(1)所示。

206、服务器根据文本相似度，在候选方言视频中筛选出至少一个目标方言视频。

例如，服务器获取预设文本相似度阈值集合，并在预设文本相似度阈值集合中筛选出目标语言对应的目标文本相似度阈值(50％)。将目标文本相似度阈值与候选方言视频的文本相似度进行对比，基于对比结果，在候选方言视频中筛选出文本相似度未超过目标文本相似度阈值的视频，从而得到目标方言视频。

207、服务器基于目标方言视频的音频内容和字幕内容，生成方言对应的语料。

例如，服务器可以在字幕内容中筛选出目标方言视频的目标字幕内容，在目标方言视频中提取出目标字幕内容对应的时间轴，将目标方言视频的音频内容、目标字幕内容和时间轴作为初始语料信息，将初始语料发送至校验服务器，以便人工校对修改兜底，然后，调整部分时间轴，从而就可以得到方言的ASR语料。

可选的，服务器在生成目标语言的语料之后，还可以基于语料对方言识别模型进行训练，得到训练后方言识别模型，并基于训练后方言识别模型对待识别语音进行识别，得到待识别语音对应的文本内容。

由以上可知，本实施例服务器在获取至少一个候选方言视频，并对候选方言视频的视频帧进行文本识别，得到候选方言视频的字幕内容后，在候选方言视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选方言视频的文本相似度，然后，根据文本相似度，在候选方言视频中筛选出至少一个目标方言视频，基于目标方言视频的音频内容和字幕内容，生成方言对应的语料；由于该方案可以在候选方言视频中识别出字幕内容，并将候选方言视频的音频内容转换为文本内容，然后，根据字幕内容和文本内容的相似度，从而准确筛选出目标方言视频，而且还可以将目标方言视频的字幕内容作为人工标注的参考，因此，可以大大提升方言语料生成的准确性。

为了更好地实施以上方法，本发明实施例还提供一种语料生成装置，该语料生成装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图11所示，该语料生成装置可以包括获取单元301、转换单元302、计算单元303、筛选单元304和生成单元305，如下：

(1)获取单元301；

获取单元301，用于获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容。

例如，获取单元301，具体可以用于根据预设关键词，获取目标语言的基础视频集合，在基础视频集合中识别出每一视频的视频类型和视频类型的置信度，基于视频类型和置信度，在基础视频集合中筛选出至少一个候选视频。对候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧，在关键视频帧中定位出目标位置区域，得到候选视频的字幕区域，在视频帧中识别出字幕区域对应的文本，得到候选视频的字幕内容。

(2)转换单元302；

转换单元302，用于在候选视频中提取出音频内容，并将音频内容转换为文本内容。

例如，转换单元302，具体可以用于在候选视频中分离出音频数据，从而得到音频内容，或者，还可以在候选视频中提取出音频数据，得到初始音频内容，对初始音频内容进行静音检测，并基于检测结果，在初始音频内容中筛选出静音内容，得到候选视频的音频内容。采用ASR服务将视频的音频内容转换为文本内容，或者，还可以采用其他语音转换技术将音频内容转换为文本内容。

(3)计算单元303；

计算单元303，用于计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度。

例如，计算单元303，具体可以用于在字幕内容中识别出字幕字符串，并在文本内容中识别出文本字符串，计算字幕字符串与文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离，将字幕字符串与文本字符串进行融合，得到字符串距离，计算类编辑距离与字符串距离之间的距离差值，计算距离差值与字符串距离之间的比值，得到候选视频的文本相似度。

(4)筛选单元304；

筛选单元304，用于根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频。

例如，筛选单元304，具体可以用于获取预设文本相似度阈值集合，并在预设文本相似度阈值集合中筛选出目标语言对应的目标文本相似度阈值。将目标文本相似度阈值与候选视频的文本相似度进行对比，基于对比结果，在候选视频中筛选出文本相似度未超过目标文本相似度阈值的视频，从而得到目标语言对应的目标视频。

(5)生成单元305；

生成单元305，用于基于目标视频的音频内容和字幕内容，生成目标语言对应的语料。

例如，生成单元305，具体可以用于在字幕内容中筛选出目标视频的目标字幕内容，在目标视频中提取出目标字幕内容对应的时间轴，将目标视频的音频内容、目标字幕内容和时间轴作为初始语料信息，并将初始语料发送至校验服务器进行校验，以得到目标语言的语料。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在获取单元301获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，转换单元302在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算单元303计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，筛选单元304根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，生成单元305基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；由于该方案可以在候选视频中识别出字幕内容，并将候选视频的音频内容转换为文本内容，然后，根据字幕内容和文本内容的相似度，从而准确筛选出目标语言的目标视频，而且还可以将目标视频的字幕内容作为人工标注的参考，因此，可以大大提升语料生成的准确性。

本发明实施例还提供一种电子设备，如图12所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图12中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

例如，电子设备根据预设关键词，获取目标语言的基础视频集合，在基础视频集合中识别出每一视频的视频类型和视频类型的置信度，基于视频类型和置信度，在基础视频集合中筛选出至少一个候选视频。对候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧，在关键视频帧中定位出目标位置区域，得到候选视频的字幕区域，在视频帧中识别出字幕区域对应的文本，得到候选视频的字幕内容。在候选视频中分离出音频数据，从而得到音频内容，或者，还可以在候选视频中提取出音频数据，得到初始音频内容，对初始音频内容进行静音检测，并基于检测结果，在初始音频内容中筛选出静音内容，得到候选视频的音频内容。采用ASR服务将视频的音频内容转换为文本内容，或者，还可以采用其他语音转换技术将音频内容转换为文本内容。在字幕内容中识别出字幕字符串，并在文本内容中识别出文本字符串，计算字幕字符串与文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离，将字幕字符串与文本字符串进行融合，得到字符串距离，计算类编辑距离与字符串距离之间的距离差值，计算距离差值与字符串距离之间的比值，得到候选视频的文本相似度。获取预设文本相似度阈值集合，并在预设文本相似度阈值集合中筛选出目标语言对应的目标文本相似度阈值。将目标文本相似度阈值与候选视频的文本相似度进行对比，基于对比结果，在候选视频中筛选出文本相似度未超过目标文本相似度阈值的视频，从而得到目标语言对应的目标视频。在字幕内容中筛选出目标视频的目标字幕内容，在目标视频中提取出目标字幕内容对应的时间轴，将目标视频的音频内容、目标字幕内容和时间轴作为初始语料信息，并将初始语料发送至校验服务器进行校验，以得到目标语言的语料。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本发明实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；由于该方案可以在候选视频中识别出字幕内容，并将候选视频的音频内容转换为文本内容，然后，根据字幕内容和文本内容的相似度，从而准确筛选出目标语言的目标视频，而且还可以将目标视频的字幕内容作为人工标注的参考，因此，可以大大提升语料生成的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种语料方法中的步骤。例如，该指令可以执行如下步骤：

例如，根据预设关键词，获取目标语言的基础视频集合，在基础视频集合中识别出每一视频的视频类型和视频类型的置信度，基于视频类型和置信度，在基础视频集合中筛选出至少一个候选视频。对候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧，在关键视频帧中定位出目标位置区域，得到候选视频的字幕区域，在视频帧中识别出字幕区域对应的文本，得到候选视频的字幕内容。在候选视频中分离出音频数据，从而得到音频内容，或者，还可以在候选视频中提取出音频数据，得到初始音频内容，对初始音频内容进行静音检测，并基于检测结果，在初始音频内容中筛选出静音内容，得到候选视频的音频内容。采用ASR服务将视频的音频内容转换为文本内容，或者，还可以采用其他语音转换技术将音频内容转换为文本内容。在字幕内容中识别出字幕字符串，并在文本内容中识别出文本字符串，计算字幕字符串与文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离，将字幕字符串与文本字符串进行融合，得到字符串距离，计算类编辑距离与字符串距离之间的距离差值，计算距离差值与字符串距离之间的比值，得到候选视频的文本相似度。获取预设文本相似度阈值集合，并在预设文本相似度阈值集合中筛选出目标语言对应的目标文本相似度阈值。将目标文本相似度阈值与候选视频的文本相似度进行对比，基于对比结果，在候选视频中筛选出文本相似度未超过目标文本相似度阈值的视频，从而得到目标语言对应的目标视频。在字幕内容中筛选出目标视频的目标字幕内容，在目标视频中提取出目标字幕内容对应的时间轴，将目标视频的音频内容、目标字幕内容和时间轴作为初始语料信息，并将初始语料发送至校验服务器进行校验，以得到目标语言的语料。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种语料生成方法中的步骤，因此，可以实现本发明实施例所提供的任一种语料生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语料生成方面或者语音识别方面的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种语料生成方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语料生成方法，其特征在于，包括：

2.根据权利要求1所述的语料生成方法，其特征在于，所述计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度，包括：

在所述字幕内容中识别出字幕字符串，并在所述文本内容中识别出文本字符串；

计算所述字幕字符串与所述文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离；

基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度。

3.根据权利要求2所述的语料生成方法，其特征在于，所述基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度，包括：

将所述字幕字符串与文本字符串进行融合，得到字符串距离；

计算所述类编辑距离与字符串距离之间的距离差值；

计算所述距离差值与所述字符串距离之间的比值，得到所述候选视频的文本相似度。

4.根据权利要求1至3任一项所述的语料生成方法，其特征在于，所述对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容，包括：

对所述候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧；

在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域；

在所述视频帧中识别出所述字幕区域对应的文本，得到所述候选视频的字幕内容。

5.根据权利要求4所述的语料生成方法，其特征在于，所述在分帧后的视频帧中筛选出关键视频帧，包括：

对分帧后的视频帧进行文本识别，得到所述视频帧的视频帧文本；

基于所述视频帧文本，对所述视频帧进行分类，得到每一视频帧文本对应的视频帧集合；

根据所述视频帧对应的播放时间，对所述视频帧集合中的视频帧进行排序，并基于排序结果，在所述视频帧集合中筛选出关键视频帧。

6.根据权利要求4所述的语料生成方法，其特征在于，所述在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域，包括：

在所述视频帧文本中筛选出所述关键视频帧的至少一个关键视频帧文本，并在所述关键视频帧中识别出每一所述关键视频帧文本的文本位置信息；

基于所述关键视频帧文本，在所述文本位置信息中筛选出目标位置信息；

在所述关键视频帧中定位出所述目标位置信息对应的位置区域，得到所述候选视频的字幕区域。

7.根据权利要求1至3所述的语料生成方法，其特征在于，所述获取至少一个候选视频，包括：

根据预设关键词，获取目标语言的基础视频集合；

在所述基础视频集合中识别出每一视频的视频类型和所述视频类型的置信度；

基于所述视频类型和置信度，在所述基础视频集合中筛选出至少一个候选视频。

8.根据权利要求7所述的语料生成方法，其特征在于，所述在所述基础视频集合中识别出每一视频的视频类型和所述视频类型的置信度，包括：

对所述基础视频集合中的每一视频的音频帧进行音频检测，得到所述音频帧的音频类型；

对所述视频进行静音检测，并基于检测结果，对所述视频进行音频切割，得到至少一个音频片段；

对所述音频片段进行特征提取，并基于提取出的音频特征和音频类型，确定所述视频的视频类型和所述视频类型的置信度。

9.根据权利要求8所述的语料生成方法，其特征在于，所述基于提取出的音频特征和音频类型，确定所述视频的视频类型和所述视频类型的置信度，包括：

根据所述音频类型和音频特征，确定所述音频片段的语音类型和所述语音类型的分类信息；

获取所述音频片段的音频时长，并基于所述音频时长，确定所述语音类型的分类权重；

根据所述分类权重和分类信息，将所述视频的音频片段对应的语音类型进行融合，以得到所述视频的视频类型和所述视频类型的置信度。

10.根据权利要求1至3任一项所述的语料生成方法，其特征在于，所述基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料，包括：

在所述字幕内容中筛选出所述目标视频的目标字幕内容；

并在所述目标视频中提取出所述目标字幕内容对应的时间轴；

将所述目标视频的音频内容、目标字幕内容和时间轴作为初始语料，并将所述初始语料发送至校验服务器进行校验，以得到所述目标语言的语料。

11.一种语料生成装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至10任一项所述的语料生成方法中的步骤。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至10任一项所述语料生成方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至10任一项所述的语料生成方法中的步骤。