CN118038852A

CN118038852A - 语料的获取方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN118038852A
Application number: CN202410132418.1A
Authority: CN
Inventors: 周逸铭; 康健; 李�杰
Original assignee: China Telecom Artificial Intelligence Technology Beijing Co ltd
Current assignee: China Telecom Artificial Intelligence Technology Beijing Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-05-14

Abstract

本发明公开了一种语料的获取方法、装置、电子设备、存储介质和程序产品。其中，该方法包括：获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。本发明解决了获取语料的效率低的技术问题。

Description

语料的获取方法、装置、电子设备、存储介质和程序产品

技术领域

本发明涉及大模型领域，具体而言，涉及一种语料的获取方法、装置、电子设备、存储介质和程序产品。

背景技术

目前，变体语言(比如，方言)是自然语言的变体，通常在特定地理区域或社会群体中使用。传统的语音识别技术常常面临方言差异的挑战，因为传统的语音识别技术主要针对标准语言进行训练和优化。

在相关技术中，方言语料往往难以获得，尤其是一些相对小众的方言，想要仅仅通过传统录音和标注方法，模型训练的成本高且耗时长，存在获取语料的效率低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语料的获取方法、装置、电子设备、存储介质和程序产品，以至少解决获取语料的效率低的技术问题。

根据本发明实施例的一个方面，提供了一种语料的获取方法。该方法可以包括：获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。

可选地，确定音视频数据中音频数据对应的第一文本内容，包括：利用语音识别模型对音频数据中出现的人声进行识别，得到第一文本内容，其中，语音识别模型用于识别变体语言。

可选地，确定音视频数据中图像数据对应的第二文本内容，包括：确定图像数据中的文本区域和文本区域对应的位置信息；对文本区域进行识别，得到文本区域中的第三文本内容、以及第三文本内容对应的初始识别置信度；基于位置信息、第三文本内容和初始识别置信度，得到第二文本内容。

可选地，确定图像数据中的文本区域，包括：确定图像数据中的至少一子文本区域，其中，子文本区域中包含部署角度满足水平阈值的文本；对至少一子文本区域进行聚类合并，得到文本区域。

可选地，基于位置信息、第三文本内容和初始识别置信度，得到第二文本内容，包括：基于位置信息，从第三文本内容中筛选出图像数据中的字幕文本；对图像数据中的字幕文本进行合并，得到合并文本；基于初始识别置信度，确定合并文本对应的目标识别置信度；基于目标识别置信度、图像数据对应的时间信息和合并文本，得到第二文本内容。

可选地，基于目标识别置信度、图像数据对应的时间信息和合并文本，得到第二文本内容，包括：确定图像数据的相邻帧图像；确定图像数据中的合并文本和相邻帧图像中的合并文本的第一相似度；响应于第一相似度大于相似度阈值，将合并文本和相邻帧图像对应的合并文本中，目标识别置信度大于置信度阈值的合并文本，确定为第二文本内容；将图像数据中的合并文本的文本内容，以及相邻帧图像中的合并文本的文本内容，更新为第二文本内容。

可选地，对第一文本内容和第二文本内容进行匹配，得到匹配信息，包括：对音频数据进行人声定位，得到音频数据中至少一人声对应的第一文本内容的第一起止时间；确定第二文本内容第二起止时间；基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，得到匹配信息。

可选地，确定第二文本内容的起止时间，得到第二起止时间，包括：确定视频数据的多帧图像数据中，文本内容为第二文本内容的第一个图像数据，以及文本内容为第二文本内容的最后一个图像数据；基于第一个图像数据出现的时间，以及最后一个图像数据的出现时间，确定第二起止时间。

可选地，基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，得到匹配信息，包括：扩展第一起止时间，得到第三起止时间；确定多个第二文本内容中，第二起止时间位于第三起止时间中的至少一匹配文本内容；分别对至少一匹配文本内容和第一文本内容进行匹配，得到匹配信息。

根据本发明实施例的另一方面，还提供了一种语料的获取装置。该装置可以包括：获取单元，用于获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；第一确定单元，用于确定音视频数据中音频数据对应的第一文本内容，以及音视频数据中图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；处理单元，用于对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；第二确定单元，用于基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；组合单元，用于将音频数据和目标文本内容进行组合，得到目标语料。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质存储有多条指令，上述指令适于由处理器加载并执行任意一项上述的语料的获取方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，上述存储器用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现任意一项上述的语料的获取方法。

根据本发明实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现任意一项上述的语料的获取方法。

在本发明实施例中，获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。也就是说，在本发明实施例获取带变体语言和文本内容的音视频数据，对音视频数据中的音频数据进行处理，得到第一文本信息，且对音视频数据中的多帧图像数据进行处理，得到第二文本信息，对第一文本信息和第二文本信息进行匹配，以确定与音频数据匹配的目标文本内容，可以将音频数据和目标文本内容进行组合，从而得到可以作为训练数据的方言语料，进而实现了提高获取语料的效率的技术效果，解决了获取语料的效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种语料的获取方法的流程图；

图2是根据本发明实施例的一种基于OCR和VAD的语音识别方言语料处理的流程图；

图3是根据本发明实施例的一种语料的获取装置的结构示意图；

图4是本发明实施例中一种电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

光学字符识别技术(Optical Character Recognition，简称为OCR)，用于将图像或扫描的文本转化为机器可编辑的文本数据，通过图像处理和字符识别技术，可以将印刷或手写字符从纸质文档或图像中提取，以便进一步处理、编辑或存储；

语音端点检测(Voice Activity Detection，简称为VAD)，用于从含有静音、噪音等的语音信号中找到人声的起点和终点；

自动语音识别(Automatic Speech Recognition，简称为ASR)，可以为一种将人类语音转化为文本或指令的技术，可以包括语音助手(如Siri、Alexa、Google Assistant)、语音转写、电话自动化***、语音命令控制等。

根据本发明实施例，提供了一种语料的获取方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种语料的获取方法的流程图，如图1所示，该方法可以包括如下步骤：

步骤S102，获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据。

在该实施例中，当需要获取语料时，可以获取音视频数据。其中，音视频数据可以为获取训练语音识别模型的语料，可以包括用于表示变体语言的音频数据和图像数据，比如，可以为带有字幕和方言音频的音视频数据。变体语言可以为方言、俚语、口音、行话等内容，需要说明的是，此处仅为举例说明，不对变体语言的类型做具体限制。音频数据可以为一种语音信号，可以包含变体语言的发音。图像数据中可以包含字幕，可以用于进一步验证音频数据中发音对应的文本内容。

可选地，上述音视频数据可以包含多帧图像数据。可以下载带有字幕且包含方言音频的音视频数据，其中，音视频数据中的音频数据可以包含方言音频。

举例而言，可以从综艺、脱口秀、影视剧、互联网等地方，获取各种带有变体语音，以及字幕的音视频数据。其中，音视频数据中可以包含音频数据和多帧图像数据。音频数据可以为包含方言的音频数据。图像数据中可以包含方言对应的字幕。需要说明的是，此处仅为举例说明，不对音视频数据的获取来源做具体限制。

步骤S104，确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据。

在该实施例中，可以确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容。其中，第一文本内容可以为自动语音识别(Automatic Speech Recognition，简称为ASR)的结果，可以用于确定音频对应的文字内容，可以用于表示音频数据中人声发出的语言的内容，可以为初始文本信息。第二文本内容可以为从图像数据中提出到的文字，可以用于描述图像数据中的字幕内容。

可选地，音视频数据中当音频数据中出现人声时，可以确定人声发出的内容，以得到第一文本内容。音视频数据可以由多帧图像组成。因此，可以提取分别提取每帧图像数据中显示的文本，以得到图像数据对应的第二文本内容。

步骤S106，对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度。

在该实施例中，可以对第一文本内容和第二文本内容进行匹配，得到匹配信息，通过匹配信息可以确定第一文本内容和第二文本内容之间的匹配程度。其中，匹配信息可以用于表征第一文本内容和第二文本内容中文本的相似程度。

可选地，对第一文本内容和第二文本内容进行匹配，可以确定第一文本内容和第二文本内容中存在相同文本的位置，以确定匹配信息。

步骤S108，基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容。

在该实施例中，可以基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容。其中，目标文本内容可以为变体语言对应的文本。

步骤S110，将音频数据和目标文本内容进行组合，得到目标语料。

在该实施例中，可以将音频数据和目标文本内容进行组合，以得到目标语料。其中，目标语料可以为方言语料或者俚语语料等，可以用于训练声学模型，以提高声学模型对变体语言进行识别的准确性，需要说明的是，此处仅为举例说明，不对目标语料的类型做具体限制。声学模型可以用于识别变体语言。

由于变体语言(比如，方言)往往比较难以获得，尤其是一些相对小众的方言，如果只是通过传统录音和标注方法，会使得声学模型的训练成本高且耗时长，存在模型对变体语言识别的准确性低的技术问题。为解决上述技术问题，在该实施例中，获取音视频数据，确定音视频数据中音频数据所发出的第一文本内容，以及音视频数据中多帧图像中的字幕内容(第二文本内容)。将第一文本内容和第二文本内容进行匹配，得到匹配信息，基于匹配信息确定与音频数据匹配程度高的目标文本内容，将音频数据和目标文本内容进行组合，从而可以得到包含变体语言的发音和对应的文本的目标语料。通过这种方式可以丰富声学模型的训练数据，从而达到提高声学模型对标题语言识别的准确性。

通过上述步骤S102至步骤S106，响应于数据传输请求，从数据传输请求中确定至少一第一标识信息，其中，第一标识信息用于标识待传输数据的用户设备；确定与第一标识信息关联的第二标识信息；将第一标识信息和待传输数据传输至第二标识信息标识的会话管理功能中，以使得会话管理功能向用户设备中的目标用户设备组传输待传输数据，其中，目标用户设备组中不同目标用户设备的第一标识信息相同。也就是说，在本发明实施例确定与用户设备的第一标识信息关联的第二标识信息，基于第二标识信息，直接调用会话管理功能向具有相同第一标识的用户设备传输数据，以避免需要重复调用相同的会话管理功能向多个用户设备传输待传输数据，从而实现了避免数据传输过程中资源浪费的技术效果，解决了获取语料的效率低的技术问题。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施例方式，步骤S104，确定音视频数据中音频数据对应的第一文本内容，包括：利用语音识别模型对音频数据中出现的人声进行识别，得到第一文本内容，其中，语音识别模型用于识别变体语言。

在该实施例中，可以利用语音识别模型对音频数据中出现的人生进行识别，以得到第一文本内容。其中，语音识别模型可以用于将音频数据中的变体语言转换为文本内容，比如，可以为基于注意力机制的神经网络结构(conformer)的方言语音识别模型，需要说明的是，此处仅为举例说明，不对方言语音识别模型的类型做具体限制。

可选地，该实施例可以使用收集的少量方言数据(也即，方言语料)先训练一个基于conformer的方言语音识别模型。该模型可以通过结合声学特征提取的卷积神经网络(Convolutional Neural Network，简称为CNN)结构和用于上下文建模的注意力机制(Transformer)结构构建得到，通过上述构建方式，使得模型能够有效地捕捉音频数据的时序性和上下文信息，从而提高了识别的准确性。其中，训练的方言语音识别模型，提取的声学特征可以为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称为MFCC)，可以采用编码器-解码器结构。编码器可以用于将音频数据的声学特征编码为上下文表示，而解码器则将上下文表示转化为文本输出，以得到第一文本内容。

可选地，当获取到音视频数据后，可以提取音视频数据中的音频数据，利用方言语音识别模型对音频中出现的人声进行是被，以得到第一文本内容。其中，人声可以为视频中说话的声音，此处的人声可以包括变体语言，比如，普通话、方言、俚语等，需要说明的是，此处仅为举例说明，不对人声的类型做具体限制。

由于此时的方言语音识别模型只是利用了少量语料训练得到，因此，利用该模型得到的第一文本内容不会非常准确，会在之后的步骤中，基于第二文本内容对第一文本内容进行修正。

作为一种可选的实施例方式，步骤S104，确定音视频数据中图像数据对应的第二文本内容，包括：确定图像数据中的文本区域和文本区域对应的位置信息；对文本区域进行识别，得到文本区域中的第三文本内容、以及第三文本内容对应的初始识别置信度；基于位置信息、第三文本内容和初始识别置信度，得到第二文本内容。

在该实施例中，图像数据中可能多个地方都出现了文本，但是，其中会存在不是我们需要的文本，可以通过以下步骤对出现文本的多个文本区域进行处理，以确保第二文本内容为我们需要的内容：

可选地，确定图像数据中的文本区域和文本区域对应的位置信息，可以通过文字识别模型对文本区域进行识别，得到文本区域中至少一第三文本内容，以及第三文本内容对应的初始识别置信度，基于位置信息和初始识别置信度，对第三文本内容进行处理，以得到第二文本内容。其中，文本区域可以为图像数据中存在文本的区域，比如，可以为存在字幕的区域、存在文字的字幕的区域。位置信息可以用于确定文本区域在图像数据中所处的区域，可以用(X，Y)表示，可以包括文本区域的部署位置和部署角度。初始识别置信度可以用于表征文本区域中的第三文本内容中包含真实文本的可能性大小。文字识别模型可以为基于语义视觉文本相关性算法(Semantic Visual Textual Relevance，简称为SVTR)构建得到，可以用于识别文本区域中的文本内容。

可选地，图像数据中可能多个区域会出现文本，因此，可以确定图像区域中的文本区域和文本区域对应的位置信息。可以通过文字识别模型对文本区域进行识别，以确定至少一个文本区域中的第三文本内容，且通过文字识别模型可以确定第三文本内容对应的初始识别置信度。基于位置信息、初始识别置信度对第三文本内容进行筛选与处理，以得到第二文本内容。

可选地，由于很多包含方言音频的音视频数据的年代比较久远，清晰度不是很高，因此，可以选择每秒抽取多帧图像数据来做光学字符识别。为了兼顾批量处理OCR的效率，可以选择每秒抽取4帧，即1秒4帧图像，相邻两帧之间时间上相差0.25秒的频率，对音视频数据进行截取。比如，一集30分钟的视频数据，按照该方式一共可以截取出7200张图片，以得到多帧的图像数据。需要说明的是，上述数据的大小仅为举例说明，此处不做具体限制，可以根据实际情况对帧数的大小进行选择。

举例而言，可以采用中文识别模型和中文检测模型对截取的图像数据做OCR。可以利用中文检测模型确定图像数据中的文本区域和文本区域对应的位置信息。且可以通过文字识别模型对文本区域进行识别，以确定文本区域中的第三文本内容，以及第三文本区域对应的初始识别置信度。基于初始识别置信度和位置信息，对第三文本内容进行调整，以得到第二文本内容。其中，中文检测模型可以采用数据库算法(Database Algorithm，简称为DB)，可以为DB模块。

可选地，中文检测模型可以用于进行文本检测，通过中文检测模型可以定位和提取图像数据中的文本区域，以及文本区域对应的位置信息。其中，中文检测模型可以为轻量级的深度学习模型，比如，也可以为场景文本检测模型(Efficient and Accurate SceneText Detector，简称为EAST)。需要说明的是，此处仅为举例说明，对文本检测模型的类型不做具体限制。

可选地，文字识别模型可以用于完成文本识别任务，也即，可以将检测出的文本区域中的字符转化为可读的文本字符串，以得到文本区域对应的第三文本内容。

举例而言，文字识别模型也可以由变分自编码器和Transformer模型构建得到，可以采用序列到序列的算法，文字识别模型利用该算法可以先将每个文本区域切割成单个字符，并将切割后的字符送入变分自编码器中进行特征提取和编码。然后，使用Transformer模型进行解码和生成相应的文本序列，以得到准确的第三文本内容。同时，文字识别模型为了提高鲁棒性，采用了注意力机制来对不同字符之间的依赖关系进行建模，以提高识别准确性。

可选地，经过中文检测模型可以确定图像数据中出现文本的文本区域以及位置信息，通过文字识别模型可以识别得到文本区域中的具体内容(第三文本内容)以及初始识别置信度。

作为一种可选的实施例方式，确定图像数据中的文本区域，包括：确定图像数据中的至少一子文本区域，其中，子文本区域中包含部署角度满足水平阈值的文本；对至少一子文本区域进行聚类合并，得到文本区域。

在该实施例中，在图像数据中可能有多处存在文本，因此，可以确定图像数据中部署角度满足水平阈值的至少一子文本区域，对至少一子文本区域进行聚类合并，以得到文本区域。其中，水平阈值可以为预先设定的值，比如，可以为180度，需要说明的是，此处仅为举例说明，不对水平阈值的大小做具体限制。部署角度可以为子文本区域放置的角度。子文本区域可以包括文本行或者文本片段。

由于可能部分图像数据中会存在台标、广告等非字幕的无关文本，因此，可能会识别出不止一处文本，但是，识别出的文本中，只有字幕文本是需要的，因此，可以检测部署角度为水平或近似水平的文本区域，以得到至少一文本区域。通过对检测到的文本行进行聚类和合并操作，将它们组合成更大的文本区域，以得到最终的文本检测结果，也即，文本区域。

作为一种可选的实施例方式，步骤S104基于位置信息、第三文本内容和初始识别置信度，得到第二文本内容，包括：基于位置信息，从第三文本内容中筛选出图像数据中的字幕文本；对图像数据中的字幕文本进行合并，得到合并文本；基于初始识别置信度，确定合并文本对应的目标识别置信度；基于目标识别置信度、图像数据对应的时间信息和合并文本，得到第二文本内容。

在该实施例中，由于图像数据中的字幕文本可以用于确定音频数据中的标题语言实际想要表达的内容，因此，可以从第三文本内容中筛选出图像数据的字幕文本。同时，由于同一张图像数据中，字幕中间可能是存在空格的，因此，可以对字幕文本进行合并，以得到合并文本。

可选地，基于位置信息，可以从第三文本内容中筛选出图像数据中的字幕文本，对可以对图像数据中的字幕文本进行合并，以得到合并文本。可以基于初始识别置信度，确定合并文本对应的目标识别置信度，基于目标置信度、图像数据对应的时间信息和合并文本，得到第二文本内容。其中，图像数据对应的时间信息可以用于确定图像数据在音视频数据中出现的时间。

由于可能部分图片中存在台标、广告等非字幕的无关文本，因此可能会识别出不止一处文本区域。因此，可以在批量识别完所有帧的图像数据中的第三文本内容后，可以对第三文本内容出现的位置进行统计处理。因为，可以默认同一个视频的字幕是出现在大致同一个位置的，所以可以通过统计得出多帧图像数据中，出现频率最高的第三文本内容的大概位置。又因为字幕都是横向的，所以每一条字幕的四个端点的X轴位置不固定，但是Y轴是相对固定的，因此我们可以通过统计得出字幕出现区域Y轴的固定区间，以此来筛除那些非字幕文本。通过上述方法，可以基于位置信息，从第三文本内容中筛选出图像数据中的字幕文本。

可选地，由于同一张图像数据中的字幕文本的中间可能是存在空格的，因此，文本区域的识别结果也会多个，这个时候可以将多个文本区域进行合并，得到合并文本。确定合并文本中每个第三文本内容的初始识别置信度，确定多个第三文本内容中初始识别置信度的均值，以得到合并文本对应的目标识别置信度。通过这一步骤，可以得到每帧图像数据对应的包含时间信息、第三文本内容、目标识别置信度的三元组数据。

可选地，基于目标识别置信度、图像数据对应的时间信息和合并文本，可以进一步确定第二文本内容。

作为一种可选的实施例方式，基于目标识别置信度、图像数据对应的时间信息和合并文本，得到第二文本内容，包括：确定图像数据的相邻帧图像；确定图像数据中的合并文本和相邻帧图像中的合并文本的第一相似度；响应于第一相似度大于相似度阈值，将合并文本和相邻帧图像对应的合并文本中，目标识别置信度大于置信度阈值的合并文本，确定为第二文本内容；将图像数据中的合并文本的文本内容，以及相邻帧图像中的合并文本的文本内容，更新为第二文本内容。

在该实施例中，由于相邻的若干张图像数据可能会对应同一条字幕文本，但是由于图像数据的清晰度低、OCR模型(文本检测模型+文本识别模型)的结果存在误差等原因，导致字幕文本应该相同的图像数据，会识别出的不同的字幕文本。因此，我们需要去判断相邻的图像数据是否对应同一条字幕文本，如果相邻的图像数据对应的是同一条字幕文本，则可以统一多帧图像数据中的字幕文本。

可选地，确定图像数据的相邻帧图像。确定图像数据中的合并文本和相邻帧图像的合并文本二者之间的第一相似度，如果第一相似度大于相似度阈值，则可以将合并文本和相邻帧图像对应的合并文本中，目标置信度大于置信度阈值的合并文本确定为第二文本内容。可以将图像数据中合并文本的文本内容，以及相邻帧图像中的合并文本的文本内容，更新为第二文本内容。

举例而言，确定图像数据一的相邻帧图像二和相邻帧图像三，其中，相邻帧图像二播放时间在图像数据一之前，相邻帧图像三的播放时间在图像数据二之前。确定图像数据一中的合并文本与相邻帧图像二的合并文本二者之间的第一相似度，以及图像数据一中的合并文本与相邻帧图像三的合并文本二者之间的第一相似度。如果第一相似度大于相似度阈值，则可以确定图像数据一、图像数据二和图像数据三对应的字幕是相同的，因此，确定图像数据一的合并文本、图像数据二的合并文本和图像数据三的合并文本中，目标置信度最大的合并文本，可以将目标置信度最大的合并文本确定为第二文本内容。分别将图像数据一中的合并文本、图像数据二中的合并文本和图像数据三中的合并文本，更新为第二文本内容。

可选地，确定相邻图像数据中的合并文本(也即，最终显示的字幕)是否为同一条，若是，则合并，确定每一条字幕的起始时间以及内容文本，筛除掉过短的或者OCR置信度过低的字幕。

举例而言，可以采取计算相邻文本相似度的办法，如果相邻图像数据之间的合并文本的第一相似度大于相似度阈值，则可以认为相邻图像数据对应的是同一字幕。经过实验测定相似度阈可以为0.5。可以从第一个出现字幕(可以为合并文本)的帧图像数据向后比较，如果比较得到的第一相似度大于阈值，则更新识别结果置信度更高的合并文本为两个图像数据的字幕对应的正确文本(也即，第二文本内容)。并且更新该第二文本内容对应的起始位置的时间(也即，起始时间)和结束位置的时间(也即，终止时间)。若中间遇到了OCR没有识别出合并文本的情况，则跳过并继续向后比较相似度，直到出现与正确文本第一相似度小于相似度阈值的时候，认为当前帧为一个新的字幕的起点，便将上一帧认为是前一条字幕的结束，再从当前帧开始对下一条字幕做合并操作。经过上述处理，便可以得到包括起始时间、结束时间、第二文本内容、识别置信度的三元组。

可选地，筛除其中第二文本内容的识别置信度低于0.8的三元组，因为，如果某一条字幕对应的所有帧图像数据的置信度最高也达不到0.8，可以认为该图像数据的识别结果较差。同时，过短的识别结果大概率是错误的，因此，可以筛除时长过短的三元组，即，仅仅出现了2帧或2帧以下的第二文本内容。可以通过以上步骤过滤掉很大一部分错误文本。需要说明的是，上述数字的大小仅为举例说明，可以根据实际情况进行选择，此处不做具体限制。

作为一种可选的实施例方式，步骤S106，对第一文本内容和第二文本内容进行匹配，得到匹配信息，包括：对音频数据进行人声定位，得到音频数据中至少一人声对应的第一文本内容的第一起止时间；确定第二文本内容的第二起止时间；基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，得到匹配信息。

在该实施例中，可以对音频数据进行人声定位，以得到音频数据中至少一人声对应的第一文本内容的第一起止时间。其中，音频数据可以包括至少一段人声对应的第一起止时间。第一起止时间可以包括人声的起始时间和终止时间。

可选地，在多帧图像数据中，会存在第二文本内容相同的情况，确定在视频数据中，第二文本内容第一次出现的时刻以及结束时刻，以得到第二文本内容对应的第二起止时间。

举例而言，提取视频数据中的音频信息。同时，可以使用基于注意力机制的神经网络结构的语音端点检测模型(Voice Activity Detection，简称为VAD)，批量处理提取出的音频信息，也即，利用语音端点检测模型确定音频信息中人声的起点和终点，以得到第一起止时间。

可选地，语音端点检测模型的输入特征可以为梅尔频率倒谱系数MFCC，语音端点检测模型可以由线性层和多个核心模块组成。其中，每个核心模块由前馈网络模块、卷积模块、多头注意力机制模块和层归一化层组成，每个模块均有残差连接。

可选地，语音端点检测模型可以将噪声(包含静音)、人声进行两分类，可以通过VAD对音频中的每一句人声进行定位并获取人声的起止时间，从而得到第一起止时间。其中，第一起止时间包含人声起始时间和终止时间。

作为一种可选的实施例方式，确定第二文本内容的起止时间，得到第二起止时间，包括：确定视频数据的多帧图像数据中，文本内容为第二文本内容的第一个图像数据，以及文本内容为第二文本内容的最后一个图像数据；基于第一个图像数据出现的时间，以及最后一个图像数据的出现时间，确定第二起止时间。

在该实施例中，可以确定视频数据的多帧图像数据中，文本内容为第二文本内容的第一个图像数据，以及文本内容为第二文本内容的最后一个图像数据，可以基于第一个图像数据出现的时间，以及最后一个图像数据的出现时间，确定第二起止时间。

需要说明的是，第一个图像数据和最后一个图像数据的时间之间不可以存在其他第二文本内容。比如，如果多帧图像数据中的第二文本内容分别为文本内容一、文本内容一、文本内容二和文本内容一，则可以确定文本内容一的起止时间为开始时间为第一秒，停止时间为第二秒而并非第四秒。如果多帧图像数据中的第二文本内容分别为文本内容一、文本内容一、文本内容一和文本内容二，则可以确定文本内容一的起止时间为开始时间为第一秒，停止时间为第三秒。

作为一种可选的实施例方式，基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，得到匹配信息，包括：扩展第一起止时间，得到第三起止时间；确定多个第二文本内容中，第二起止时间位于第三起止时间中的至少一第二目标文本内容；分别对至少一第二目标文本内容和第一文本内容进行匹配，得到匹配信息。

在该实施例中，由于音频数据和多帧图像数据是从同一个音视频数据中提取得到的，因此，第一文本内容和第二文本内容应该是相同的，因此，可以基于第一起止时间和第二起止时间，对第一文本内容和第二文本内容进行匹配，以得到匹配信息，基于匹配信息，可以从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容。

可选地，将相近时间的ASR结果(也即，第一文本内容)和OCR结果(也即，第二文本内容)进行匹配，若匹配上，则用OCR结果来替代ASR结果，也即，得到VAD结果作为时间戳加OCR文本作为标注的语音识别方言语料。

由于只是通过时间戳粗糙地将OCR结果和ASR结果对齐，会存在方言识别准确率低的问题；同时，如果只是由人工来判定、筛选，会存在数据处理的效率低的问题。为解决上述问题，在该实施例中，采用得到的OCR结果对得到的VAD和ASR结果做修正。

可选地，由于视频数据中第一文本内容出现的第一起止时间仅仅是在视频中人声说话的时间附近，而第二文本内容的第二起止时间是从声学层面上获取的每句话发声的起止时间，因此，第一起止时间给定的时间戳是更加准确的，而第二起止时间的时间戳只能作为参考来用第二文本内容修正第一文本内容。因此，确定多个第二文本内容中，第二起止时间位于第三起止时间中的至少一匹配文本内容；分别对至少一匹配文本内容和第一文本内容进行匹配，得到匹配信息。

可选地，基于匹配信息，可以选择至少一匹配文本内容中与第一文本内容匹配程度高的目标匹配文本内容，且将第一文本内容替换为目标匹配文本内容。

举例而言，因为过短的文本内容可能会影响ASR文本和OCR文本匹配的准确度，因此，可以将过短的ASR结果合并，比如，可以合并成长度为7-15秒之间语音对应的文本。对于每一条ASR的识别文本，其对应的字幕出现时间一般应该在VAD得到的开始时间前三秒，到VAD得到的结束时间后三秒为止。因此，可以扩展第一起止时间，得到第三起止时间【start，end】。由于已确定每一条第二文本内容出现的起止时间，因此，第二文本内容对应的第二起止时间中，只要有一部分时间出现在【start，end】之间，则可以将OCR结果字幕(第二文本内容)认为是可能存在可以匹配ASR结果(第一文本内容)的字幕。之后将所有这些可能的字幕合并成一条长文本，可以认为现在的ASR文本的对应OCR文本存在于这条长文本之内。之后通过匹配算法来准确定位ASR文本对应的具体OCR文本。分别将ASR文本的前5个字和后5个字和长文本做匹配，找到匹配度在0.8之上的位置，之后则将这两个位置包括中间的部分作为对应的OCR文本。同时使用上一句ASR文本的末尾以及下一句ASR文本的开头5个字符与该长文本做匹配，如果能有能匹配上的位置，则也作为可能的本句的开头或者结尾的位置。如果出现多个满足匹配要求的位置，则将通过以上规则得到的多条OCR文本和原ASR文本做相似度计算，相似度最高且OCR文本和ASR文本长度比在1.5以内的为认为的正确文本。如果找不到满足匹配要求的位置，则放弃匹配，即舍弃该ASR文本。之后用OCR结果去替代原ASR文本，则得到了修正后的目标文本内容。

在本发明实施例中，获取带变体语言和文本内容的音视频数据，对音视频数据中的音频数据进行处理，得到第一文本信息，且对音视频数据中的多帧图像数据进行处理，得到第二文本信息，对第一文本信息和第二文本信息进行匹配，以确定与音频数据匹配的目标文本内容，可以将音频数据和目标文本内容进行组合，从而得到可以作为训练数据的方言语料，进而实现了提高获取语料的效率的技术效果，解决了获取语料的效率低的技术问题。

下面从一种终端能力和网络服务类型指示及其使用方法对本发明实施例进行进一步介绍。

语音识别技术可以用于将声音信号转化为可读的文本，该技术的核心在于声学模型，它能够识别语音中的音素、音节和声音特征。通常，声学模型的发展依赖于深度学习技术，如深度神经网络(Deep Neural Network，简称为DNN)和卷积神经网络，以提高准确性和鲁棒性。

同时，语音识别***还需要结合语言模型，以便更好地理解和解释口头语言的含义。语言模型考虑了单词和短语之间的关系，帮助***更准确地转化语音输入为文本输出。同时，大规模的训练数据对于提高语音识别***性能至关重要。这些训练数据包括语音样本和相应的文本转录，以供机器学习模型学习并不断优化。

方言是自然语言的变体，通常在特定地理区域或社会群体中使用。传统的语音识别技术常常面临方言差异的挑战，因为它们主要针对标准语言进行训练和优化。为了解决这一难题，使语言识别技术能够准确地识别并理解各种方言，需要大量方言语料，这包括方言发音、词汇表和语法规则的广泛覆盖。方言语料的丰富性对于语言模型的训练和性能至关重要，需要包括来自各个社区或地理区域的方言样本，涵盖各种方言变体和发音差异来对语言模型进行训练。同时，方言语料还需要包括不同年龄、性别、社会群体和使用场景的代表性样本，以确保语言模型的鲁棒性和普适性。丰富的方言语料还有助于改进模型的声学和语言模型，从而提高方言语音识别的准确性和可用性。

但是，在相关技术中，方言语料往往难以获得，尤其是一些相对小众的方言，想要仅仅通过传统录音和标注方法，模型训练的成本高且耗时长。而且用OCR提取字幕后，如何兼顾准确率和留存率来获得标注文本也需要一定方法。

为解决上述在语言识别过程中的问题，在该实施例中，提出了一种基于OCR和VAD的语音识别方言语料处理方法，该方法可以对从带内嵌字幕的方言视频中获取可以用于训练方言语音识别模型的语音识别语料，并且利用OCR的结果对语料的文本进行修正，以提高语料的质量，进一步提升方言语音识别模型的质量，从而实现了提高方言识别的准确率的技术效果，解决了方言识别的准确率低的技术问题。

图2是根据本发明实施例的一种基于OCR和VAD的语音识别方言语料处理的流程图，如图2所示，该方法可以包括以下步骤：

步骤S201，获取带字幕的音视频数据。

在该实施例中，可以下载带有字幕且包含方言音频的音视频数据，其中，音视频数据中的音频数据可以包含方言音频。

步骤S202，提示音视频数据的音频数据，并确定音频信息中人声的第一起止时间。

在该实施例中，提取音视频数据中的音频信息。同时，可以使用基于注意力机制的神经网络结构的语音端点检测模型，批量处理提取出的音频信息，也即，利用语音端点检测模型确定音频信息中人声的起点和终点，以提高语音交互对话的流畅性与用户体验。

可选地，语音端点检测模型可以将噪声(包含静音)、人声进行两分类，通过VAD可以对音频中的每一句人声定位并获取他们的起止时间。其中，起止时间包含起始时间和终止时间。

步骤S203，对人声进行语音识别，确定第一文本内容。

在该实施例中，可以使用收集的少量方言数据(也即，方言语料)先训练一个基于conformer的方言语音识别模型。该模型可以通过结合声学特征提取的CNN结构，以及用于上下文建模的Transformer结构构建得到，通过上述构建方式，使得模型能够有效地捕捉音频数据的时序性和上下文信息，从而提高了识别的准确性。其中，训练的方言语音识别模型，提取的声学特征可以为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称为MFCC)，可以采用编码器-解码器结构。编码器可以用于将音频数据的声学特征编码为上下文表示，而解码器则将上下文表示转化为文本输出，以得到第一文本内容。

可选地，使用训练处的方言语音识别模型对确定了起止时间的语音信息进行转换处理，得到初始文本信息。

可选地，由于此时的方言语音识别模型只是利用了少量语料训练得到，因此，利用该模型得到的第一文本内容不会非常准确，会在之后的步骤中，基于第二文本内容对第一文本内容进行修正。

步骤S204，对音视频数据进行截取，得到多帧图像数据。

在该实施例中，由于很多包含方言音频的音视频数据的年代比较久远，清晰度不是很高，因此，可以选择每秒抽取多帧图像数据来做光学字符识别。为了兼顾批量处理OCR的效率，可以选择每秒抽取4帧，即1秒4帧图像，相邻两帧之间时间上相差0.25秒的频率，对音视频数据进行截取。比如，一集30分钟的视频数据，按照该方式一共可以截取出7200张图片，以得到多帧的图像数据。需要说明的是，上述数据的大小仅为举例说明，此处不做具体限制，可以根据实际情况对帧数的大小进行选择。

步骤S205，识别图像数据的文本位置和第二文本内容。

在该实施例中，可以采用中文检测模型和中文识别模型的方式，对截取的图像数据做OCR。其中，中文检测模型可以采用数据库算法(Database Algorithm，简称为DB)。中文识别模型可以采用SVTR算法。

步骤S206，从第二文本内容中筛选出字幕文本。

在该实施例中，由于可能部分图片中存在台标、广告等非字幕的无关文本，因此可能会识别出不止一处文本区域。因此，可以在批量识别完所有帧的图像数据中的第三文本内容后，可以对第三文本内容出现的位置进行统计处理。因为，可以默认同一个视频的字幕是出现在大致同一个位置的，所以可以通过统计得出多帧图像数据中，出现频率最高的第三文本内容的大概位置。又因为字幕都是横向的，所以每一条字幕的四个端点的X轴位置不固定，但是Y轴是相对固定的，因此我们可以通过统计得出字幕出现区域Y轴的固定区间，以此来筛除那些非字幕文本。通过上述方法，可以基于位置信息，从第三文本内容中筛选出图像数据中的字幕文本。

步骤S207，对相邻图像数据的字幕进行处理。

在该实施例中，确定相邻图片的字幕是否为同一条，若是，则合并，最终得到每一条字幕的起始时间以及内容，筛除掉过短的或者OCR置信度过低的字幕。

可选地，可以进一步处理得到的一系列三元组数据。

可选地，因为相邻的若干张图片其实对应同一条字幕，所以需要把他们合并到一起，但是由于清晰度低、OCR模型结果存在误差等，往往同一条字幕的不同图片会识别出不同的文本，因此，需要先去判断相邻图片是否对应同一条字幕。

可选地，采取计算相邻文本相似度的办法，如果相似度大于阈值，即认为他们对应同一字幕。这里我们实验后将阈值定为0.5。我们从第一个出现字幕的帧向后比较，如果相似度大于阈值，则更新识别结果置信度更高的文本为当前字幕的正确文本，并且更新起始位置和结束位置的时间。若中间遇到了OCR没有识别出文本的情况，则跳过并继续向后比较相似度，直到出现与正确文本相似度小于阈值的时候，认为当前帧为一个新的字幕的起点，便将上一帧认为是前一条字幕的结束，再从当前帧开始对下一条字幕做合并操作。经过上述处理，便可以得到包括起始时间、结束时间、文本、识别置信度的三元组。之后再去掉其中包含的***数字，因为10 9 8 7会OCR成10987，不同的断句读起来会不一样。

可选地，筛除其中识别置信度低于0.8的三元组，因为如果某一条字幕对应的所有帧置信度最高也达不到0.8可以认为识别较差；同筛除时长过短的三元组，即仅仅出现了2帧或2帧以下的OCR文本，我们可以认为过短的识别结果大概率是错误的。可以通过以上步骤过滤掉很大一部分错误文本。需要说明的是，上述数字的大小仅为举例说明，可以根据实际情况进行选择，此处不做具体限制。

步骤S208，将相近时间的ASR结果和OCR结果进行匹配。

在该实施例中，将相近时间的ASR结果(也即，第一文本内容)和OCR结果(也即，第二文本内容)进行匹配，若匹配上，则用OCR结果来替代ASR结果，也即，得到VAD结果作为时间戳加OCR文本作为标注的语音识别方言语料。

由于只是通过时间戳粗糙地将OCR和ASR结果对齐，会存在方言识别准确率低的问题；同时，如果只是由人工来判定、筛选，会存在数据处理的效率低的问题。为解决上述问题，在该实施例中，采用得到的OCR结果对得到的VAD和ASR结果做修正。

可选地，由于视频中字幕出现的时间仅仅是在视频中人说话的时间附近，而VAD是从声学层面上获取的每句话发声的起止时间，因此，VAD结果给定的时间戳是更加准确的，而OCR的时间戳只能作为参考来帮助用OCR结果修正ASR文本。

举例而言，因为过短的文本可能会影响ASR文本和OCR文本匹配的准确度，因此，可以将过短的ASR结果合并，比如，可以合并成长度为7-15秒之间语音对应的文本。对于每一条ASR的识别文本，其对应的字幕出现时间一般应该在VAD得到的开始时间前三秒，到VAD得到的结束时间后三秒为止，为了方便后续描述可以将起止时间表示为【start，end】。由于在步骤S205中已确定每一条OCR结果出现的起止时间，因此，只要有一部分时间出现在【start，end】之间，则将该OCR结果字幕认为是可能存在可以匹配ASR结果的字幕。之后将所有这些可能的字幕合并成一条长文本，可以认为现在的ASR文本的对应OCR文本存在于这条长文本之内。之后通过匹配算法来准确定位ASR文本对应的具体OCR文本。分别将ASR文本的前5个字和后5个字和长文本做匹配，找到匹配度在0.8之上的位置，之后则将这两个位置包括中间的部分作为对应的OCR文本。同时使用上一句ASR文本的末尾以及下一句ASR文本的开头5个字符与该长文本做匹配，如果能有能匹配上的位置，则也作为可能的本句的开头或者结尾的位置。如果出现多个满足匹配要求的位置，则将通过以上规则得到的多条OCR文本和原ASR文本做相似度计算，相似度最高且OCR文本和ASR文本长度比在1.5以内的为认为的正确文本。如果找不到满足匹配要求的位置，则放弃匹配，即舍弃该ASR文本。之后用OCR结果去替代原ASR文本，则得到了修正后的语音识别方言语料。

在该实施例中，获取带变体语言和文本内容的音视频数据，对音视频数据中的音频数据进行处理，得到第一文本信息，且对音视频数据中的多帧图像数据进行处理，得到第二文本信息，对第一文本信息和第二文本信息进行匹配，以确定与音频数据匹配的目标文本内容，可以将音频数据和目标文本内容进行组合，从而得到可以作为训练数据的方言语料，进而实现了提高获取语料的效率的技术效果，解决了获取语料的效率低的技术问题。

仍需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种语料的获取装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“单元”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

根据本发明实施例，还提供了一种用于实施上述语料的获取装置实施例，图3是根据本发明实施例的一种语料的获取装置的结构示意图，如图3所示，上述语料的获取装置，包括：获取单元302、第一确定单元304、处理单元306、第二确定单元308和组合单元310。

上述获取单元302，用于获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据。

上述第一确定单元304，用于确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据。

上述处理单元306，用于对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度。

上述第二确定单元308，用于基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容。

上述组合单元310，用于将音频数据和目标文本内容进行组合，得到目标语料。

在本发明实施例中，通过上述获取单元302，获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据。通过上述第一确定单元304，确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据。通过上述处理单元306，对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度。通过上述第二确定单元308，基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容。通过上述组合单元310，用于将音频数据和目标文本内容进行组合，得到目标语料，从而实现了提高获取语料的效率的技术效果，解决了获取语料的效率低的技术问题。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；或者，上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是，获取单元302、第一确定单元304、处理单元306、第二确定单元308和组合单元310对应于实施例中的步骤S102至步骤S110，上述单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例中的相关描述，此处不再赘述。

上述的语料的获取装置还可以包括处理器和存储器，获取单元302、第一确定单元304、处理单元306、第二确定单元308和组合单元310等均作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序模块，上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本发明实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种语料的获取方法。

可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中，上述非易失性存储介质包括存储的程序。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：响应于数据传输请求，从数据传输请求中确定至少一第一标识信息，其中，第一标识信息用于标识待传输数据的用户设备；确定与第一标识信息关联的第二标识信息；将第一标识信息和待传输数据传输至第二标识信息标识的会话管理功能中，以使得会话管理功能向用户设备中的目标用户设备组传输待传输数据，其中，目标用户设备组中不同目标用户设备的第一标识信息相同。

根据本发明实施例，还提供了一种处理器的实施例。可选地，在本实施例中，上述处理器用于运行程序，其中，上述程序运行时执行上述任意一种语料的获取方法。

根据本发明实施例，还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有上述任意一种的语料的获取方法步骤的程序。

可选地，上述计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。

图4是本发明实施例中一种电子设备的示意图，如图4所示，本发明实施例提供了一种电子设备，该电子设备40包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取音视频数据，其中，音视频数据包括用于表示变体语言的音频数据，以及图像数据；确定音频数据对应的第一文本内容，以及图像数据对应的第二文本内容，其中，第一文本内容用于描述音频数据，第二文本内容用于描述图像数据；对第一文本内容和第二文本内容进行匹配，得到匹配信息，其中，匹配信息用于表示第一文本内容和第二文本内容之间的匹配程度；基于匹配信息，从第一文本内容和第二文本内容中，确定与音频数据匹配的目标文本内容；将音频数据和目标文本内容进行组合，得到目标语料。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述模块的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的非易失性存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语料的获取方法，其特征在于，包括：

获取音视频数据，其中，所述音视频数据包括用于表示变体语言的音频数据，以及图像数据；

确定所述音频数据对应的第一文本内容，以及所述图像数据对应的第二文本内容，其中，所述第一文本内容用于描述所述音频数据，所述第二文本内容用于描述所述图像数据；

对所述第一文本内容和所述第二文本内容进行匹配，得到匹配信息，其中，所述匹配信息用于表示所述第一文本内容和所述第二文本内容之间的匹配程度；

基于所述匹配信息，从所述第一文本内容和所述第二文本内容中，确定与所述音频数据匹配的目标文本内容；

将所述音频数据和所述目标文本内容进行组合，得到目标语料。

2.根据权利要求1所述的方法，其特征在于，确定所述音视频数据中所述音频数据对应的所述第一文本内容，包括：

利用语音识别模型对所述音频数据中出现的人声进行识别，得到所述第一文本内容，其中，所述语音识别模型用于识别所述变体语言。

3.根据权利要求1所述的方法，其特征在于，确定所述音视频数据中所述图像数据对应的所述第二文本内容，包括：

确定所述图像数据中的文本区域和所述文本区域对应的位置信息；

对所述文本区域进行识别，得到所述文本区域中的第三文本内容、以及所述第三文本内容对应的初始识别置信度；

基于所述位置信息、所述第三文本内容和所述初始识别置信度，得到所述第二文本内容。

4.根据权利要求3所述的方法，其特征在于，确定所述图像数据中的所述文本区域，包括：

确定所述图像数据中的至少一子文本区域，其中，所述子文本区域中包含部署角度满足水平阈值的文本；

对所述至少一子文本区域进行聚类合并，得到所述文本区域。

5.根据权利要求3所述的方法，其特征在于，基于所述位置信息、所述第三文本内容和所述初始识别置信度，得到所述第二文本内容，包括：

基于所述位置信息，从所述第三文本内容中筛选出所述图像数据中的字幕文本；

对所述图像数据中的所述字幕文本进行合并，得到合并文本；

基于所述初始识别置信度，确定所述合并文本对应的目标识别置信度；

基于所述目标识别置信度、所述图像数据对应的时间信息和所述合并文本，得到所述第二文本内容。

6.根据权利要求5所述的方法，其特征在于，基于所述目标识别置信度、所述图像数据对应的时间信息和所述合并文本，得到所述第二文本内容，包括：

确定所述图像数据的相邻帧图像；

确定所述图像数据中的所述合并文本和所述相邻帧图像中的所述合并文本的第一相似度；

响应于所述第一相似度大于相似度阈值，将所述合并文本和所述相邻帧图像对应的合并文本中，所述目标识别置信度大于置信度阈值的合并文本，确定为所述第二文本内容；

将所述图像数据中的所述合并文本的文本内容，以及所述相邻帧图像中的合并文本的文本内容，更新为所述第二文本内容。

7.根据权利要求1所述的方法，其特征在于，对所述第一文本内容和所述第二文本内容进行匹配，得到匹配信息，包括：

对所述音频数据进行人声定位，得到所述音频数据中至少一人声对应的第一文本内容的第一起止时间；

确定所述第二文本内容的第二起止时间；

基于所述第一起止时间和所述第二起止时间，对所述第一文本内容和所述第二文本内容进行匹配，得到所述匹配信息。

8.根据权利要求7所述的方法，其特征在于，确定第二文本内容的起止时间，得到所述第二起止时间，包括：

确定所述视频数据的多帧图像数据中，所述文本内容为所述第二文本内容的第一个所述图像数据，以及所述文本内容为所述第二文本内容的最后一个所述图像数据；

基于第一个所述图像数据出现的时间，以及最后一个所述图像数据的出现时间，确定所述第二起止时间。

9.根据权利要求7所述的方法，其特征在于，基于所述第一起止时间和所述第二起止时间，对所述第一文本内容和所述第二文本内容进行匹配，得到所述匹配信息，包括：

扩展所述第一起止时间，得到第三起止时间；

确定多个所述第二文本内容中，所述第二起止时间位于所述第三起止时间中的至少一匹配文本内容；

分别对至少一所述匹配文本内容和所述第一文本内容进行匹配，得到所述匹配信息。

10.一种语料的获取装置，其特征在于，包括：

获取单元，用于获取音视频数据，其中，所述音视频数据包括用于表示变体语言的音频数据，以及图像数据；

第一确定单元，用于确定所述音频数据对应的第一文本内容，以及所述图像数据对应的第二文本内容，其中，所述第一文本内容用于描述所述音频数据，所述第二文本内容用于描述所述图像数据；

处理单元，用于对所述第一文本内容和所述第二文本内容进行匹配，得到匹配信息，其中，所述匹配信息用于表示所述第一文本内容和所述第二文本内容之间的匹配程度；

第二确定单元，用于基于所述匹配信息，从所述第一文本内容和所述第二文本内容中，确定与所述音频数据匹配的目标文本内容；

组合单元，用于将所述音频数据和所述目标文本内容进行组合，得到目标语料。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

12.一种存储有计算机指令的非易失性存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。