CN110210299A

CN110210299A - 语音训练数据生成方法、装置、设备及可读存储介质

Info

Publication number: CN110210299A
Application number: CN201910342237.0A
Authority: CN
Inventors: 彭捷
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-09-06

Abstract

本发明涉及数据采集技术领域，公开了一种语音训练数据生成方法、装置、设备及可读存储介质。语音训练数据生成方法包括：获取视频文件，并检测所述视频文件是否为目标视频文件；若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。通过本发明，大大提高了生成语音训练数据的效率，且降低了生成成本。

Description

语音训练数据生成方法、装置、设备及可读存储介质

技术领域

本发明涉及数据采集技术领域，尤其涉及语音训练数据生成方法、装置、设备及可读存储介质。

背景技术

近年来，基于深度神经元网络的语音识别技术已经越来越成熟，该技术需要利用大量语音数据训练深度神经元网络从而获取语音识别模型。

而目前普遍采用人工录制以及人工标注的方式，得到用于训练深度神经元网络的语音数据，人工工作量大、语音数据获取周期长，使得训练性能优良的语音识别模型需要付出较高的代价。

发明内容

本发明的主要目的在于提供一种语音训练数据生成方法、装置、设备及可读存储介质，旨在解决现有技术中生成大批量语音训练数据的效率低且成本高的技术问题。

为实现上述目的，本发明提供一种语音训练数据生成方法，所述语音训练数据生成方法包括以下步骤：

获取视频文件，并检测所述视频文件是否为目标视频文件；

若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；

对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；

将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；

提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。

可选地，所述获取视频文件，并检测所述视频文件是否为目标视频文件的步骤包括：

获取视频文件，并检测所述视频文件是否为带字幕版视频文件；

若所述视频文件为带字幕版视频文件，则将所述视频文件设为目标视频文件。

可选地，所述获取视频文件，并检测所述视频文件是否为带字幕版视频文件的步骤包括：

从所述视频文件中获取N张待测图片；

检测所述N张待测图片中目标图片的数量是否大于或等于

若所述N张待测图片中目标图片的数量大于或等于则确定所述视频文件为带字幕版视频文件。

可选地，所述检测所述N张待测图片中目标图片的数量是否大于或等于的步骤包括：

分别对所述N张待测图片的预设区域进行OCR识别，得到N个OCR识别结果；

检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于

若所述N个OCR识别结果中识别结果不为空的数量大于或等于则确定所述N张待测图片中目标图片的数量大于或等于

可选地，所述对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果的步骤包括：

对每张图片帧的预设区域进行OCR识别，得到每张图片帧的OCR识别结果。

可选地，所述将OCR识别结果相同的图片帧归集到同一组，得到若干图片组的步骤包括：

基于每张图片帧的时间戳，按照时间先后顺序，从第二帧图片帧开始，依次判断当前图片帧与上一图片帧的OCR识别结果是否相同；

若当前图片帧与上一图片帧的OCR识别结果相同，则将当前图片帧归集到上一图片帧所在的图片组；

若当前图片帧与上一图片帧的OCR识别结果不相同，则将当前图片帧归集到新的图片组；

当对所有图片帧的判断结束时，得到若干图片组。

可选地，所述提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据的步骤包括：

获取每个图片组中每张图片帧对应的时间戳，并确定每个图片组对应的最小时间戳和最大时间戳；

根据所述每个图片组对应的最小时间戳和最大时间戳，确定每个图片组对应的发音时间段；

根据所述每个图片组对应的发音时间段，从所述视频文件对应的音频文件中，提取每个发音时间段对应的子音频文件，得到每个图片组对应的子音频文件；

将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干组语音训练数据。

此外，为实现上述目的，本发明还提供一种语音训练数据生成装置，所述语音训练数据生成装置包括：

检测模块，用于获取视频文件，并检测所述视频文件是否为目标视频文件；

分帧模块，用于若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；

识别模块，用于对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；

分组模块，用于将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；

提取模块，用于提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。

可选地，所述检测模块包括：

检测单元，用于获取视频文件，并检测所述视频文件是否为带字幕版视频文件；

判定单元，用于若所述视频文件为带字幕版视频文件，则将所述视频文件设为目标视频文件。

可选地，所述检测单元包括：

获取子单元，用于从所述视频文件中获取N张待测图片；

检测子单元，用于检测所述N张待测图片中目标图片的数量是否大于或等于

所述判定单元，还用于若所述N张待测图片中目标图片的数量大于或等于则所述视频文件为带字幕版视频文件。

可选地，检测子单元包括：

识别子子单元，用于分别对所述N张待测图片的预设区域进行OCR识别，得到N个OCR识别结果；

检测子子单元，用于检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于

所述判定单元，还用于若N个OCR识别结果中识别结果不为空的数量大于或等于则所述N张待测图片中目标图片的数量大于或等于

可选地，所述识别模块包括：

识别单元，用于对每张图片帧的预设区域进行OCR识别，得到每张图片帧的OCR识别结果。

可选地，所述分组模块包括：

判断单元，用于基于每张图片帧的时间戳，按照时间先后顺序，从第二帧图片帧开始，依次判断当前图片帧与上一图片帧的OCR识别结果是否相同；

第一归集单元，用于若当前图片帧与上一图片帧的OCR识别结果相同，则将当前图片帧归集到上一图片帧所在的图片组；

第二归集单元，用于若当前图片帧与上一图片帧的OCR识别结果不相同，则将当前图片帧归集到新的图片组；

当对所有图片帧的判断结束时，得到若干图片组。

可选地，所述提取模块包括：

时间戳确定单元，用于获取每个图片组中每张图片帧对应的时间戳，并确定每个图片组对应的最小时间戳和最大时间戳；

发音时间段确定单元，用于根据所述每个图片组对应的最小时间戳和最大时间戳，确定每个图片组对应的发音时间段；

提取单元，用于根据所述每个图片组对应的发音时间段，从所述视频文件对应的音频文件中，提取每个发音时间段对应的子音频文件，得到每个图片组对应的子音频文件；

关联单元，用于将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干组语音训练数据。

此外，为实现上述目的，本发明还提供一种语音训练数据生成设备，所述语音训练数据生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音训练数据生成程序，所述语音训练数据生成程序被所述处理器执行时实现如上所述的语音训练数据生成方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有语音训练数据生成程序，所述语音训练数据生成程序被处理器执行时实现如上所述的语音训练数据生成方法的步骤。

本发明中，获取视频文件，并检测所述视频文件是否为目标视频文件；若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与 OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。通过本发明，大大提高了生成语音训练数据的效率，且降低了生成成本。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的语音训练数据生成设备结构示意图；

图2为本发明语音训练数据生成方法一实施例的流程示意图；

图3为本发明语音训练数据生成装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的语音训练数据生成设备结构示意图。

本发明实施例语音训练数据生成设备可以是PC，也可以是便携计算机、服务器等终端设备。

如图1所示，该语音训练数据生成设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线 1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的语音训练数据生成设备结构并不构成对语音训练数据生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音训练数据生成程序。

在图1所示的语音训练数据生成设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005 中存储的语音训练数据生成程序，并执行以下语音训练数据生成方法的各个实施例的操作。

参照图2，图2为本发明语音训练数据生成方法一实施例的流程示意图。

本发明语音训练数据生成方法一实施例中，语音训练数据生成方法包括：

步骤S10，获取视频文件，并检测所述视频文件是否为目标视频文件；

本实施例中，可以是从网络上下载视频文件，例如：电影、电视剧、纪录片等。以一部电影进行详细说明。获取到视频文件(即一部电影)后，首先检测该视频文件是否为目标视频文件。即检测该视频文件在播放时，视频画面上是否有字幕，若有，则为目标视频文件。

一实施例中，可从在该视频文件的相关介绍信息中，检索是否存在“带字幕”、“有字幕”等字眼，若存在则认定该视频文件为目标视频文件。

步骤S20，若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；

本实施例中，若视频文件为目标视频文件，则进一步对目标视频文件进行图像分帧处理，得到若干图片帧。

一段视频是由若干帧图片组成的，可以通过一些现有的开源软件对目标视频文件进行图像分帧处理(即将一段视频拆分为一帧一帧的图片)，得到若干图片帧。

步骤S30，对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；

本实施例中，OCR是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。本实施例中通过OCR技术对每张图片帧进行识别，即可得到每张图片帧的OCR识别结果。

由于OCR技术是用于识别图片中的文字，每张图片帧的OCR识别结果，即每张图片帧的文字识别结果。在本实施例中，由于视频文件是带有字幕的目标视频文件，则将每张图片帧的OCR识别结果，作为每张图片帧对应的字幕识别结果。

步骤S40，将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；

本实施例中，考虑到有些图片帧可能是没有字幕的，即这些图片帧的OCR 识别结果为空，则在步骤S30之后，先将OCR识别结果为空的图片帧剔除，然后进行步骤S40。

本实施例中，播放视频的原理即按照图片帧的时间戳先后顺序，依次显示图片帧。即每张图片帧都带有时间戳。按照时间戳的时间先后顺序，将若干张图片帧称为第一图片帧、第二图片帧、第三图片帧……第N图片帧。即第一图片帧的时间戳最靠前，第二图片帧的时间戳次之，依次类推。然后依次比较相邻两张图片帧的OCR识别结果是否一致，若一致，则将两张图片帧放入同一图片组中，若不一致，则将两张图片帧分别放入两个图片组中。例如，若第一图片帧与第二图片帧的OCR识别结果一致，则将第一图片帧和第二图片帧放入第一图片组中；然后继续比较第二图片帧和第三图片帧的OCR识别结果是否一致，若一致，则将第三图片帧也放入第一图片组中；然后继续比较第三图片帧和第四图片帧的OCR识别结果是否一致，若不一致，则将第四图片帧放入新的图片组，即第二图片组中。直至对所有的图片帧判断结束时，按照上述规则，得到若干图片组。

步骤S50，提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。

本实施例中，以第一图片组为例，第一图片组中包括X张图片帧，且每张图片帧的OCR识别结果是一致的，为OCR识别结果1。X张图片帧对应的时间戳中，最小的时间戳为T1，最大的时间戳为T2，则在该视频文件对应的音频文件中，T1至T2这段时间对应的音频片段文件1，为第一图片组对应的音频片段文件。第一图片组对应的OCR识别结果，即OCR识别结果1。即第一图片组对应的OCR识别结果和音频片段文件为：OCR识别结果1和音频片段文件1，同理可以得到第二图片组对应的OCR识别结果2和音频片段文件2、第三图片组对应的OCR识别结果3和音频片段文件3……

将OCR识别结果1和音频片段文件1作为一组语音训练数据、OCR识别结果2和音频片段文件2作为一组语音训练数据、OCR识别结果3和音频片段文件3作为一组语音训练数据……如此，可得到若干组语音训练数据。

本实施例中，获取视频文件，并检测所述视频文件是否为目标视频文件；若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；提取每个图片组对应的OCR识别结果和子音频文件，得到若干语音训练数据。通过本实施例，大大提高了生成语音训练数据的效率，且降低了生成成本。

进一步地，在本发明语音训练数据生成方法一实施例中，上述步骤S10包括：

步骤S101，获取视频文件，并检测所述视频文件是否为带字幕版视频文件；

本实施例中，可以是从网络上下载视频文件，例如：电影、电视剧、纪录片等。以一部电影进行详细说明。

一可选实施例中，获取到视频文件(即一部电影)后，首先检测该视频文件在播放时，视频画面上是否有字幕，若有，则为带字幕版视频文件。

另一可选实施例中，可从在该视频文件的相关介绍信息中，检索是否存在“带字幕”、“有字幕”等字眼，若存在则认定该视频文件为带字幕版视频文件。

步骤S102，若所述视频文件为带字幕版视频文件，则将所述视频文件设为目标视频文件。

本实施例中，若视频文件为带字幕版视频文件，则可用于执行后续步骤，即将视频文件视为目标视频文件。

进一步地，在本发明语音训练数据生成方法一实施例中，上述步骤S101 包括：

步骤S1011，从所述视频文件中获取N张待测图片；

本实施例中，可以是从视频文件的播放时间轴上随机选取N个播放节点，并获取每个播放节点对应的待测图片，得到N张待测图片。

步骤S1012，检测所述N张待测图片中目标图片的数量是否大于或等于

由于只有带字幕的视频文件才符合方案需求，因此，需要检测视频文件的图片帧是否为带字幕的图片帧。在本实施例中，对每一张待测图片进行OCR 识别，若存在OCR识别结果，则对应的图片帧为目标图片帧；若不存在OCR 识别结果，则对应的图片帧为非目标图片帧。

步骤S1013，若所述N张待测图片中目标图片的数量大于或等于则所述视频文件为带字幕版视频文件。

本实施例中，待测图片的总量为N，将阈值设置为若目标图片帧的数量大于或等于则说明带字幕的图片帧占待测图片总量的一半以上，则可判定视频文件为带字幕版视频文件。当然，阈值的设置并不限制为可根据实际需要设置合适的阈值。

进一步地，在本发明语音训练数据生成方法一实施例中，上述步骤S1012 包括：

分别对所述N张待测图片的预设区域进行OCR识别，得到N个OCR识别结果；检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于若N个OCR识别结果中识别结果不为空的数量大于或等于则所述N 张待测图片中目标图片的数量大于或等于

一般来说，播放视频时，字幕的显示位置在视频下方，即字幕的显示位置在图片帧的下方区域。本实施例中，以图片帧下方区域作为预设区域。分别对每张待测图片的预设区域进行OCR识别。提高了OCR识别效率以及OCR 识别结果的可靠性。

在本实施例中，对每一张待测图片进行OCR识别，若存在OCR识别结果，则对应的图片帧为目标图片帧；若不存在OCR识别结果，则对应的图片帧为非目标图片帧。待测图片的总量为N，将阈值设置为若目标图片帧的数量大于或等于则说明带字幕的图片帧占待测图片总量的一半以上，则可判定视频文件为带字幕版视频文件。当然，阈值的设置并不限制为可根据实际需要设置合适的阈值。

进一步地，在本发明语音训练数据生成方法一实施例中，上述步骤S30包括：

本实施例中，由于播放视频时，字幕的显示位置一般在视频下方，即字幕的显示位置在图片帧的下方区域。因此可以以图片帧下方区域作为预设区域。分别对每张待测图片的预设区域进行OCR识别。提高了OCR识别效率以及 OCR识别结果的可靠性。本实施例中，可根据实际需要设置预设区域的范围，在此不作限制。

进一步地，在本发明语音训练数据生成方法一实施例中，上述步骤S40包括：

步骤S401，基于每张图片帧的时间戳，按照时间先后顺序，从第二帧图片帧开始，依次判断当前图片帧与上一图片帧的OCR识别结果是否相同；

本实施例中，播放视频的原理即按照图片帧的时间戳先后顺序，依次显示图片帧。即每张图片帧都带有时间戳。按照时间戳的时间先后顺序，将若干张图片帧称为第一图片帧、第二图片帧、第三图片帧……第N图片帧。即第一图片帧的时间戳最靠前，第二图片帧的时间戳次之，依次类推。

首先创建第一图片组，并将第一图片帧放入第一图片组中，然后依次判断第二图片帧与第一图片帧的OCR识别结果是否相同、第三图片帧与第二图片帧的OCR识别结果是否相同……第N图片帧与第N-1图片帧的OCR识别结果是否相同。

步骤S402，若当前图片帧与上一图片帧的OCR识别结果相同，则将当前图片帧归集到上一图片帧所在的图片组；

步骤S403，若当前图片帧与上一图片帧的OCR识别结果不相同，则将当前图片帧归集到新的图片组；

本实施例中，若当前图片帧与上一图片帧的OCR识别结果相同，则将当前图片帧归集到上一图片帧所在的图片组。例如，若第二图片帧与第一图片帧的OCR识别结果相同，则将第二图片帧放入第一图片组；若第三图片帧与第二图片帧的OCR识别结果相同，则将第三图片帧放入第一图片组……直至检测到当前图片帧与上一图片帧的OCR识别结果不相同。例如，若第四图片帧与第三图片帧的OCR识别结果不同，则创建新的图片组，即第二图片组，并将第四图片帧放入第二图片组。然后继续判断第五图片帧与第四图片帧的 OCR识别结果是否相同……

步骤S404，当对所有图片帧的判断结束时，得到若干图片组。

本实施例中，按照上述分组规则，当对所有的图片帧判断结束时，即可得到若干图片组。

进一步地，在本发明语音训练数据生成方法一实施例中，上述步骤S50包括：

步骤S501，获取每个图片组中每张图片帧对应的时间戳，并确定每个图片组对应的最小时间戳和最大时间戳；

本实施例中，以第一图片组为例，第一图片组中包括X张图片帧，且每张图片帧的OCR识别结果是一致的，为OCR识别结果1。X张图片帧对应的时间戳中，最小的时间戳为T1(最先被放入第一图片组的图片帧对应的时间戳)，最大的时间戳为T2(最后被放入第一图片组的图片帧对应的时间戳)。

步骤S502，根据所述每个图片组对应的最小时间戳和最大时间戳，确定每个图片组对应的发音时间段；

本实施例中，第一图片组在屏幕上的播放时间为T1至T2这段时间，第一图片组对应的发音时间段同为T1至T2。同理，可得到每个图片组对应的发音时间段。

步骤S503，根据所述每个图片组对应的发音时间段，从所述视频文件对应的音频文件中，提取每个发音时间段对应的子音频文件，得到每个图片组对应的子音频文件；

本实施例中，得到每个图片组对应的发音时间段之后，便可根据每个图片组对应的发音时间段，从视频文件对应的音频文件中，提取得到每个发音时间段对应的子音频文件，即得到每个图片组对应的子音频文件。

步骤S504，将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干组语音训练数据。

本实施例中，若第一图片组对应的OCR识别结果和音频片段文件分别为：OCR识别结果1和音频片段文件1，第二图片组对应的OCR识别结果和音频片段文件分别为：OCR识别结果2和音频片段文件2、第三图片组对应的OCR 识别结果和音频片段文件分别为：OCR识别结果3和音频片段文件3......

容易理解的是，第一图片组显示时，音频片段文件1在播放，且音频片段文件1的文字内容即OCR识别结果1；同理，第二图片组显示时，音频片段文件2在播放，且音频片段文件2的文字内容即OCR识别结果2……

将OCR识别结果1和音频片段文件1关联为一组语音训练数据、将OCR 识别结果2和音频片段文件2关联为一组语音训练数据、将OCR识别结果3 和音频片段文件3关联为一组语音训练数据……即可得到若干组语音训练数据。

参照图3，图3为本发明语音训练数据生成装置一实施例的功能模块示意图。

在本发明语音训练数据生成装置一实施例中，语音训练数据生成装置包括：

检测模块10，用于获取视频文件，并检测所述视频文件是否为目标视频文件；

分帧模块20，用于若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；

识别模块30，用于对每张图片帧进行OCR识别，得到每张图片帧的OCR 识别结果；

分组模块40，用于将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；

提取模块50，用于提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。

本实施例中，获取视频文件，并检测所述视频文件是否为目标视频文件；若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与 OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。通过本实施例，大大提高了生成语音训练数据的效率，且降低了生成成本。

此外，本发明实施例还提出一种可读存储介质，所述可读存储介质上存储有语音训练数据生成程序，所述语音训练数据生成程序被处理器执行时实现如上语音训练数据生成方法的各个实施例的操作。

本发明可读存储介质即计算机可读存储介质，本发明可读存储介质的具体实施例与上述语音训练数据生成方法的各个实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音训练数据生成方法，其特征在于，所述语音训练数据生成方法包括以下步骤：

获取视频文件，并检测所述视频文件是否为目标视频文件；

对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；

2.如权利要求1所述的语音训练数据生成方法，其特征在于，所述获取视频文件，并检测所述视频文件是否为目标视频文件的步骤包括：

3.如权利要求2所述的语音训练数据生成方法，其特征在于，所述获取视频文件，并检测所述视频文件是否为带字幕版视频文件的步骤包括：

从所述视频文件中获取N张待测图片；

检测所述N张待测图片中目标图片的数量是否大于或等于

4.如权利要求3所述的语音训练数据生成方法，其特征在于，所述检测所述N张待测图片中目标图片的数量是否大于或等于的步骤包括：

5.如权利要求1所述的语音训练数据生成方法，其特征在于，所述对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果的步骤包括：

6.如权利要求1所述的语音训练数据生成方法，其特征在于，所述将OCR识别结果相同的图片帧归集到同一组，得到若干图片组的步骤包括：

当对所有图片帧的判断结束时，得到若干图片组。

7.如权利要求1至6中任一项所述的语音训练数据生成方法，其特征在于，所述提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据的步骤包括：

8.一种语音训练数据生成装置，其特征在于，所述语音训练数据生成装置包括：

9.一种语音训练数据生成设备，其特征在于，所述语音训练数据生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音训练数据生成程序，所述语音训练数据生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音训练数据生成方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有语音训练数据生成程序，所述语音训练数据生成程序被处理器执行时实现如权利要求1至7中任一项所述的语音训练数据生成方法的步骤。