CN110210299A - 语音训练数据生成方法、装置、设备及可读存储介质 - Google Patents

语音训练数据生成方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110210299A
CN110210299A CN201910342237.0A CN201910342237A CN110210299A CN 110210299 A CN110210299 A CN 110210299A CN 201910342237 A CN201910342237 A CN 201910342237A CN 110210299 A CN110210299 A CN 110210299A
Authority
CN
China
Prior art keywords
video file
picture
training data
recognition result
voice training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910342237.0A
Other languages
English (en)
Inventor
彭捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910342237.0A priority Critical patent/CN110210299A/zh
Publication of CN110210299A publication Critical patent/CN110210299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及数据采集技术领域,公开了一种语音训练数据生成方法、装置、设备及可读存储介质。语音训练数据生成方法包括:获取视频文件,并检测所述视频文件是否为目标视频文件;若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。通过本发明,大大提高了生成语音训练数据的效率,且降低了生成成本。

Description

语音训练数据生成方法、装置、设备及可读存储介质
技术领域
本发明涉及数据采集技术领域,尤其涉及语音训练数据生成方法、装置、设备及可读存储介质。
背景技术
近年来,基于深度神经元网络的语音识别技术已经越来越成熟,该技术需要利用大量语音数据训练深度神经元网络从而获取语音识别模型。
而目前普遍采用人工录制以及人工标注的方式,得到用于训练深度神经元网络的语音数据,人工工作量大、语音数据获取周期长,使得训练性能优良的语音识别模型需要付出较高的代价。
发明内容
本发明的主要目的在于提供一种语音训练数据生成方法、装置、设备及可读存储介质,旨在解决现有技术中生成大批量语音训练数据的效率低且成本高的技术问题。
为实现上述目的,本发明提供一种语音训练数据生成方法,所述语音训练数据生成方法包括以下步骤:
获取视频文件,并检测所述视频文件是否为目标视频文件;
若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;
对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;
将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;
提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。
可选地,所述获取视频文件,并检测所述视频文件是否为目标视频文件的步骤包括:
获取视频文件,并检测所述视频文件是否为带字幕版视频文件;
若所述视频文件为带字幕版视频文件,则将所述视频文件设为目标视频文件。
可选地,所述获取视频文件,并检测所述视频文件是否为带字幕版视频文件的步骤包括:
从所述视频文件中获取N张待测图片;
检测所述N张待测图片中目标图片的数量是否大于或等于
若所述N张待测图片中目标图片的数量大于或等于则确定所述视频文件为带字幕版视频文件。
可选地,所述检测所述N张待测图片中目标图片的数量是否大于或等于的步骤包括:
分别对所述N张待测图片的预设区域进行OCR识别,得到N个OCR识别结果;
检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于
若所述N个OCR识别结果中识别结果不为空的数量大于或等于则确定所述N张待测图片中目标图片的数量大于或等于
可选地,所述对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果的步骤包括:
对每张图片帧的预设区域进行OCR识别,得到每张图片帧的OCR识别结果。
可选地,所述将OCR识别结果相同的图片帧归集到同一组,得到若干图片组的步骤包括:
基于每张图片帧的时间戳,按照时间先后顺序,从第二帧图片帧开始,依次判断当前图片帧与上一图片帧的OCR识别结果是否相同;
若当前图片帧与上一图片帧的OCR识别结果相同,则将当前图片帧归集到上一图片帧所在的图片组;
若当前图片帧与上一图片帧的OCR识别结果不相同,则将当前图片帧归集到新的图片组;
当对所有图片帧的判断结束时,得到若干图片组。
可选地,所述提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据的步骤包括:
获取每个图片组中每张图片帧对应的时间戳,并确定每个图片组对应的最小时间戳和最大时间戳;
根据所述每个图片组对应的最小时间戳和最大时间戳,确定每个图片组对应的发音时间段;
根据所述每个图片组对应的发音时间段,从所述视频文件对应的音频文件中,提取每个发音时间段对应的子音频文件,得到每个图片组对应的子音频文件;
将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干组语音训练数据。
此外,为实现上述目的,本发明还提供一种语音训练数据生成装置,所述语音训练数据生成装置包括:
检测模块,用于获取视频文件,并检测所述视频文件是否为目标视频文件;
分帧模块,用于若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;
识别模块,用于对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;
分组模块,用于将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;
提取模块,用于提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。
可选地,所述检测模块包括:
检测单元,用于获取视频文件,并检测所述视频文件是否为带字幕版视频文件;
判定单元,用于若所述视频文件为带字幕版视频文件,则将所述视频文件设为目标视频文件。
可选地,所述检测单元包括:
获取子单元,用于从所述视频文件中获取N张待测图片;
检测子单元,用于检测所述N张待测图片中目标图片的数量是否大于或等于
所述判定单元,还用于若所述N张待测图片中目标图片的数量大于或等于则所述视频文件为带字幕版视频文件。
可选地,检测子单元包括:
识别子子单元,用于分别对所述N张待测图片的预设区域进行OCR识别,得到N个OCR识别结果;
检测子子单元,用于检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于
所述判定单元,还用于若N个OCR识别结果中识别结果不为空的数量大于或等于则所述N张待测图片中目标图片的数量大于或等于
可选地,所述识别模块包括:
识别单元,用于对每张图片帧的预设区域进行OCR识别,得到每张图片帧的OCR识别结果。
可选地,所述分组模块包括:
判断单元,用于基于每张图片帧的时间戳,按照时间先后顺序,从第二帧图片帧开始,依次判断当前图片帧与上一图片帧的OCR识别结果是否相同;
第一归集单元,用于若当前图片帧与上一图片帧的OCR识别结果相同,则将当前图片帧归集到上一图片帧所在的图片组;
第二归集单元,用于若当前图片帧与上一图片帧的OCR识别结果不相同,则将当前图片帧归集到新的图片组;
当对所有图片帧的判断结束时,得到若干图片组。
可选地,所述提取模块包括:
时间戳确定单元,用于获取每个图片组中每张图片帧对应的时间戳,并确定每个图片组对应的最小时间戳和最大时间戳;
发音时间段确定单元,用于根据所述每个图片组对应的最小时间戳和最大时间戳,确定每个图片组对应的发音时间段;
提取单元,用于根据所述每个图片组对应的发音时间段,从所述视频文件对应的音频文件中,提取每个发音时间段对应的子音频文件,得到每个图片组对应的子音频文件;
关联单元,用于将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干组语音训练数据。
此外,为实现上述目的,本发明还提供一种语音训练数据生成设备,所述语音训练数据生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音训练数据生成程序,所述语音训练数据生成程序被所述处理器执行时实现如上所述的语音训练数据生成方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有语音训练数据生成程序,所述语音训练数据生成程序被处理器执行时实现如上所述的语音训练数据生成方法的步骤。
本发明中,获取视频文件,并检测所述视频文件是否为目标视频文件;若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与 OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。通过本发明,大大提高了生成语音训练数据的效率,且降低了生成成本。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的语音训练数据生成设备结构示意图;
图2为本发明语音训练数据生成方法一实施例的流程示意图;
图3为本发明语音训练数据生成装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
如图1所示,图1为本发明实施例方案涉及的硬件运行环境的语音训练数据生成设备结构示意图。
本发明实施例语音训练数据生成设备可以是PC,也可以是便携计算机、服务器等终端设备。
如图1所示,该语音训练数据生成设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线 1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的语音训练数据生成设备结构并不构成对语音训练数据生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音训练数据生成程序。
在图1所示的语音训练数据生成设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005 中存储的语音训练数据生成程序,并执行以下语音训练数据生成方法的各个实施例的操作。
参照图2,图2为本发明语音训练数据生成方法一实施例的流程示意图。
本发明语音训练数据生成方法一实施例中,语音训练数据生成方法包括:
步骤S10,获取视频文件,并检测所述视频文件是否为目标视频文件;
本实施例中,可以是从网络上下载视频文件,例如:电影、电视剧、纪录片等。以一部电影进行详细说明。获取到视频文件(即一部电影)后,首先检测该视频文件是否为目标视频文件。即检测该视频文件在播放时,视频画面上是否有字幕,若有,则为目标视频文件。
一实施例中,可从在该视频文件的相关介绍信息中,检索是否存在“带字幕”、“有字幕”等字眼,若存在则认定该视频文件为目标视频文件。
步骤S20,若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;
本实施例中,若视频文件为目标视频文件,则进一步对目标视频文件进行图像分帧处理,得到若干图片帧。
一段视频是由若干帧图片组成的,可以通过一些现有的开源软件对目标视频文件进行图像分帧处理(即将一段视频拆分为一帧一帧的图片),得到若干图片帧。
步骤S30,对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;
本实施例中,OCR是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。本实施例中通过OCR技术对每张图片帧进行识别,即可得到每张图片帧的OCR识别结果。
由于OCR技术是用于识别图片中的文字,每张图片帧的OCR识别结果,即每张图片帧的文字识别结果。在本实施例中,由于视频文件是带有字幕的目标视频文件,则将每张图片帧的OCR识别结果,作为每张图片帧对应的字幕识别结果。
步骤S40,将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;
本实施例中,考虑到有些图片帧可能是没有字幕的,即这些图片帧的OCR 识别结果为空,则在步骤S30之后,先将OCR识别结果为空的图片帧剔除,然后进行步骤S40。
本实施例中,播放视频的原理即按照图片帧的时间戳先后顺序,依次显示图片帧。即每张图片帧都带有时间戳。按照时间戳的时间先后顺序,将若干张图片帧称为第一图片帧、第二图片帧、第三图片帧……第N图片帧。即第一图片帧的时间戳最靠前,第二图片帧的时间戳次之,依次类推。然后依次比较相邻两张图片帧的OCR识别结果是否一致,若一致,则将两张图片帧放入同一图片组中,若不一致,则将两张图片帧分别放入两个图片组中。例如,若第一图片帧与第二图片帧的OCR识别结果一致,则将第一图片帧和第二图片帧放入第一图片组中;然后继续比较第二图片帧和第三图片帧的OCR识别结果是否一致,若一致,则将第三图片帧也放入第一图片组中;然后继续比较第三图片帧和第四图片帧的OCR识别结果是否一致,若不一致,则将第四图片帧放入新的图片组,即第二图片组中。直至对所有的图片帧判断结束时,按照上述规则,得到若干图片组。
步骤S50,提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。
本实施例中,以第一图片组为例,第一图片组中包括X张图片帧,且每张图片帧的OCR识别结果是一致的,为OCR识别结果1。X张图片帧对应的时间戳中,最小的时间戳为T1,最大的时间戳为T2,则在该视频文件对应的音频文件中,T1至T2这段时间对应的音频片段文件1,为第一图片组对应的音频片段文件。第一图片组对应的OCR识别结果,即OCR识别结果1。即第一图片组对应的OCR识别结果和音频片段文件为:OCR识别结果1和音频片段文件1,同理可以得到第二图片组对应的OCR识别结果2和音频片段文件2、第三图片组对应的OCR识别结果3和音频片段文件3……
将OCR识别结果1和音频片段文件1作为一组语音训练数据、OCR识别结果2和音频片段文件2作为一组语音训练数据、OCR识别结果3和音频片段文件3作为一组语音训练数据……如此,可得到若干组语音训练数据。
本实施例中,获取视频文件,并检测所述视频文件是否为目标视频文件;若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;提取每个图片组对应的OCR识别结果和子音频文件,得到若干语音训练数据。通过本实施例,大大提高了生成语音训练数据的效率,且降低了生成成本。
进一步地,在本发明语音训练数据生成方法一实施例中,上述步骤S10包括:
步骤S101,获取视频文件,并检测所述视频文件是否为带字幕版视频文件;
本实施例中,可以是从网络上下载视频文件,例如:电影、电视剧、纪录片等。以一部电影进行详细说明。
一可选实施例中,获取到视频文件(即一部电影)后,首先检测该视频文件在播放时,视频画面上是否有字幕,若有,则为带字幕版视频文件。
另一可选实施例中,可从在该视频文件的相关介绍信息中,检索是否存在“带字幕”、“有字幕”等字眼,若存在则认定该视频文件为带字幕版视频文件。
步骤S102,若所述视频文件为带字幕版视频文件,则将所述视频文件设为目标视频文件。
本实施例中,若视频文件为带字幕版视频文件,则可用于执行后续步骤,即将视频文件视为目标视频文件。
进一步地,在本发明语音训练数据生成方法一实施例中,上述步骤S101 包括:
步骤S1011,从所述视频文件中获取N张待测图片;
本实施例中,可以是从视频文件的播放时间轴上随机选取N个播放节点,并获取每个播放节点对应的待测图片,得到N张待测图片。
步骤S1012,检测所述N张待测图片中目标图片的数量是否大于或等于
由于只有带字幕的视频文件才符合方案需求,因此,需要检测视频文件的图片帧是否为带字幕的图片帧。在本实施例中,对每一张待测图片进行OCR 识别,若存在OCR识别结果,则对应的图片帧为目标图片帧;若不存在OCR 识别结果,则对应的图片帧为非目标图片帧。
步骤S1013,若所述N张待测图片中目标图片的数量大于或等于则所述视频文件为带字幕版视频文件。
本实施例中,待测图片的总量为N,将阈值设置为若目标图片帧的数量大于或等于则说明带字幕的图片帧占待测图片总量的一半以上,则可判定视频文件为带字幕版视频文件。当然,阈值的设置并不限制为可根据实际需要设置合适的阈值。
进一步地,在本发明语音训练数据生成方法一实施例中,上述步骤S1012 包括:
分别对所述N张待测图片的预设区域进行OCR识别,得到N个OCR识别结果;检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于若N个OCR识别结果中识别结果不为空的数量大于或等于则所述N 张待测图片中目标图片的数量大于或等于
一般来说,播放视频时,字幕的显示位置在视频下方,即字幕的显示位置在图片帧的下方区域。本实施例中,以图片帧下方区域作为预设区域。分别对每张待测图片的预设区域进行OCR识别。提高了OCR识别效率以及OCR 识别结果的可靠性。
在本实施例中,对每一张待测图片进行OCR识别,若存在OCR识别结果,则对应的图片帧为目标图片帧;若不存在OCR识别结果,则对应的图片帧为非目标图片帧。待测图片的总量为N,将阈值设置为若目标图片帧的数量大于或等于则说明带字幕的图片帧占待测图片总量的一半以上,则可判定视频文件为带字幕版视频文件。当然,阈值的设置并不限制为可根据实际需要设置合适的阈值。
进一步地,在本发明语音训练数据生成方法一实施例中,上述步骤S30包括:
对每张图片帧的预设区域进行OCR识别,得到每张图片帧的OCR识别结果。
本实施例中,由于播放视频时,字幕的显示位置一般在视频下方,即字幕的显示位置在图片帧的下方区域。因此可以以图片帧下方区域作为预设区域。分别对每张待测图片的预设区域进行OCR识别。提高了OCR识别效率以及 OCR识别结果的可靠性。本实施例中,可根据实际需要设置预设区域的范围,在此不作限制。
进一步地,在本发明语音训练数据生成方法一实施例中,上述步骤S40包括:
步骤S401,基于每张图片帧的时间戳,按照时间先后顺序,从第二帧图片帧开始,依次判断当前图片帧与上一图片帧的OCR识别结果是否相同;
本实施例中,播放视频的原理即按照图片帧的时间戳先后顺序,依次显示图片帧。即每张图片帧都带有时间戳。按照时间戳的时间先后顺序,将若干张图片帧称为第一图片帧、第二图片帧、第三图片帧……第N图片帧。即第一图片帧的时间戳最靠前,第二图片帧的时间戳次之,依次类推。
首先创建第一图片组,并将第一图片帧放入第一图片组中,然后依次判断第二图片帧与第一图片帧的OCR识别结果是否相同、第三图片帧与第二图片帧的OCR识别结果是否相同……第N图片帧与第N-1图片帧的OCR识别结果是否相同。
步骤S402,若当前图片帧与上一图片帧的OCR识别结果相同,则将当前图片帧归集到上一图片帧所在的图片组;
步骤S403,若当前图片帧与上一图片帧的OCR识别结果不相同,则将当前图片帧归集到新的图片组;
本实施例中,若当前图片帧与上一图片帧的OCR识别结果相同,则将当前图片帧归集到上一图片帧所在的图片组。例如,若第二图片帧与第一图片帧的OCR识别结果相同,则将第二图片帧放入第一图片组;若第三图片帧与第二图片帧的OCR识别结果相同,则将第三图片帧放入第一图片组……直至检测到当前图片帧与上一图片帧的OCR识别结果不相同。例如,若第四图片帧与第三图片帧的OCR识别结果不同,则创建新的图片组,即第二图片组,并将第四图片帧放入第二图片组。然后继续判断第五图片帧与第四图片帧的 OCR识别结果是否相同……
步骤S404,当对所有图片帧的判断结束时,得到若干图片组。
本实施例中,按照上述分组规则,当对所有的图片帧判断结束时,即可得到若干图片组。
进一步地,在本发明语音训练数据生成方法一实施例中,上述步骤S50包括:
步骤S501,获取每个图片组中每张图片帧对应的时间戳,并确定每个图片组对应的最小时间戳和最大时间戳;
本实施例中,以第一图片组为例,第一图片组中包括X张图片帧,且每张图片帧的OCR识别结果是一致的,为OCR识别结果1。X张图片帧对应的时间戳中,最小的时间戳为T1(最先被放入第一图片组的图片帧对应的时间戳),最大的时间戳为T2(最后被放入第一图片组的图片帧对应的时间戳)。
步骤S502,根据所述每个图片组对应的最小时间戳和最大时间戳,确定每个图片组对应的发音时间段;
本实施例中,第一图片组在屏幕上的播放时间为T1至T2这段时间,第一图片组对应的发音时间段同为T1至T2。同理,可得到每个图片组对应的发音时间段。
步骤S503,根据所述每个图片组对应的发音时间段,从所述视频文件对应的音频文件中,提取每个发音时间段对应的子音频文件,得到每个图片组对应的子音频文件;
本实施例中,得到每个图片组对应的发音时间段之后,便可根据每个图片组对应的发音时间段,从视频文件对应的音频文件中,提取得到每个发音时间段对应的子音频文件,即得到每个图片组对应的子音频文件。
步骤S504,将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干组语音训练数据。
本实施例中,若第一图片组对应的OCR识别结果和音频片段文件分别为:OCR识别结果1和音频片段文件1,第二图片组对应的OCR识别结果和音频片段文件分别为:OCR识别结果2和音频片段文件2、第三图片组对应的OCR 识别结果和音频片段文件分别为:OCR识别结果3和音频片段文件3......
容易理解的是,第一图片组显示时,音频片段文件1在播放,且音频片段文件1的文字内容即OCR识别结果1;同理,第二图片组显示时,音频片段文件2在播放,且音频片段文件2的文字内容即OCR识别结果2……
将OCR识别结果1和音频片段文件1关联为一组语音训练数据、将OCR 识别结果2和音频片段文件2关联为一组语音训练数据、将OCR识别结果3 和音频片段文件3关联为一组语音训练数据……即可得到若干组语音训练数据。
参照图3,图3为本发明语音训练数据生成装置一实施例的功能模块示意图。
在本发明语音训练数据生成装置一实施例中,语音训练数据生成装置包括:
检测模块10,用于获取视频文件,并检测所述视频文件是否为目标视频文件;
分帧模块20,用于若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;
识别模块30,用于对每张图片帧进行OCR识别,得到每张图片帧的OCR 识别结果;
分组模块40,用于将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;
提取模块50,用于提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。
本实施例中,获取视频文件,并检测所述视频文件是否为目标视频文件;若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与 OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。通过本实施例,大大提高了生成语音训练数据的效率,且降低了生成成本。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有语音训练数据生成程序,所述语音训练数据生成程序被处理器执行时实现如上语音训练数据生成方法的各个实施例的操作。
本发明可读存储介质即计算机可读存储介质,本发明可读存储介质的具体实施例与上述语音训练数据生成方法的各个实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音训练数据生成方法,其特征在于,所述语音训练数据生成方法包括以下步骤:
获取视频文件,并检测所述视频文件是否为目标视频文件;
若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;
对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;
将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;
提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。
2.如权利要求1所述的语音训练数据生成方法,其特征在于,所述获取视频文件,并检测所述视频文件是否为目标视频文件的步骤包括:
获取视频文件,并检测所述视频文件是否为带字幕版视频文件;
若所述视频文件为带字幕版视频文件,则将所述视频文件设为目标视频文件。
3.如权利要求2所述的语音训练数据生成方法,其特征在于,所述获取视频文件,并检测所述视频文件是否为带字幕版视频文件的步骤包括:
从所述视频文件中获取N张待测图片;
检测所述N张待测图片中目标图片的数量是否大于或等于
若所述N张待测图片中目标图片的数量大于或等于则确定所述视频文件为带字幕版视频文件。
4.如权利要求3所述的语音训练数据生成方法,其特征在于,所述检测所述N张待测图片中目标图片的数量是否大于或等于的步骤包括:
分别对所述N张待测图片的预设区域进行OCR识别,得到N个OCR识别结果;
检测所述N个OCR识别结果中识别结果不为空的数量是否大于或等于
若所述N个OCR识别结果中识别结果不为空的数量大于或等于则确定所述N张待测图片中目标图片的数量大于或等于
5.如权利要求1所述的语音训练数据生成方法,其特征在于,所述对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果的步骤包括:
对每张图片帧的预设区域进行OCR识别,得到每张图片帧的OCR识别结果。
6.如权利要求1所述的语音训练数据生成方法,其特征在于,所述将OCR识别结果相同的图片帧归集到同一组,得到若干图片组的步骤包括:
基于每张图片帧的时间戳,按照时间先后顺序,从第二帧图片帧开始,依次判断当前图片帧与上一图片帧的OCR识别结果是否相同;
若当前图片帧与上一图片帧的OCR识别结果相同,则将当前图片帧归集到上一图片帧所在的图片组;
若当前图片帧与上一图片帧的OCR识别结果不相同,则将当前图片帧归集到新的图片组;
当对所有图片帧的判断结束时,得到若干图片组。
7.如权利要求1至6中任一项所述的语音训练数据生成方法,其特征在于,所述提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据的步骤包括:
获取每个图片组中每张图片帧对应的时间戳,并确定每个图片组对应的最小时间戳和最大时间戳;
根据所述每个图片组对应的最小时间戳和最大时间戳,确定每个图片组对应的发音时间段;
根据所述每个图片组对应的发音时间段,从所述视频文件对应的音频文件中,提取每个发音时间段对应的子音频文件,得到每个图片组对应的子音频文件;
将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干组语音训练数据。
8.一种语音训练数据生成装置,其特征在于,所述语音训练数据生成装置包括:
检测模块,用于获取视频文件,并检测所述视频文件是否为目标视频文件;
分帧模块,用于若所述视频文件为目标视频文件,则对所述目标视频文件进行图像分帧处理,得到若干图片帧;
识别模块,用于对每张图片帧进行OCR识别,得到每张图片帧的OCR识别结果;
分组模块,用于将OCR识别结果相同的图片帧归集到同一组,得到若干图片组;
提取模块,用于提取每个图片组对应的子音频文件,并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据,得到若干语音训练数据。
9.一种语音训练数据生成设备,其特征在于,所述语音训练数据生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音训练数据生成程序,所述语音训练数据生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音训练数据生成方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有语音训练数据生成程序,所述语音训练数据生成程序被处理器执行时实现如权利要求1至7中任一项所述的语音训练数据生成方法的步骤。
CN201910342237.0A 2019-04-26 2019-04-26 语音训练数据生成方法、装置、设备及可读存储介质 Pending CN110210299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910342237.0A CN110210299A (zh) 2019-04-26 2019-04-26 语音训练数据生成方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910342237.0A CN110210299A (zh) 2019-04-26 2019-04-26 语音训练数据生成方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110210299A true CN110210299A (zh) 2019-09-06

Family

ID=67786552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910342237.0A Pending CN110210299A (zh) 2019-04-26 2019-04-26 语音训练数据生成方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110210299A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526382A (zh) * 2020-04-20 2020-08-11 广东小天才科技有限公司 一种直播视频文本生成方法、装置、设备及存储介质
CN111539427A (zh) * 2020-04-29 2020-08-14 武汉译满天下科技有限公司 一种视频字幕的提取方法及***
CN115396690A (zh) * 2022-08-30 2022-11-25 京东方科技集团股份有限公司 音频与文本组合方法、装置、电子设备及存储介质
CN116468054A (zh) * 2023-04-26 2023-07-21 中央民族大学 基于ocr技术辅助构建藏汉音译数据集的方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828166B1 (ko) * 2007-06-12 2008-05-08 고려대학교 산학협력단 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
US20150088508A1 (en) * 2013-09-25 2015-03-26 Verizon Patent And Licensing Inc. Training speech recognition using captions
US20160293160A1 (en) * 2013-04-02 2016-10-06 Igal NIR Automatic Generation Of A Database For Speech Recognition From Video Captions
CN106792071A (zh) * 2016-12-19 2017-05-31 北京小米移动软件有限公司 字幕处理方法及装置
CN108833973A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 视频特征的提取方法、装置和计算机设备
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828166B1 (ko) * 2007-06-12 2008-05-08 고려대학교 산학협력단 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
US20160293160A1 (en) * 2013-04-02 2016-10-06 Igal NIR Automatic Generation Of A Database For Speech Recognition From Video Captions
US20150088508A1 (en) * 2013-09-25 2015-03-26 Verizon Patent And Licensing Inc. Training speech recognition using captions
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
CN106792071A (zh) * 2016-12-19 2017-05-31 北京小米移动软件有限公司 字幕处理方法及装置
CN108833973A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 视频特征的提取方法、装置和计算机设备
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526382A (zh) * 2020-04-20 2020-08-11 广东小天才科技有限公司 一种直播视频文本生成方法、装置、设备及存储介质
CN111539427A (zh) * 2020-04-29 2020-08-14 武汉译满天下科技有限公司 一种视频字幕的提取方法及***
CN111539427B (zh) * 2020-04-29 2023-07-21 深圳市优优品牌传播有限公司 一种视频字幕的提取方法及***
CN115396690A (zh) * 2022-08-30 2022-11-25 京东方科技集团股份有限公司 音频与文本组合方法、装置、电子设备及存储介质
CN116468054A (zh) * 2023-04-26 2023-07-21 中央民族大学 基于ocr技术辅助构建藏汉音译数据集的方法及***
CN116468054B (zh) * 2023-04-26 2023-11-07 中央民族大学 基于ocr技术辅助构建藏汉音译数据集的方法及***

Similar Documents

Publication Publication Date Title
CN110210299A (zh) 语音训练数据生成方法、装置、设备及可读存储介质
US11055342B2 (en) System and method for rich media annotation
CN107169430B (zh) 基于图像处理语义分析的阅读环境音效增强***及方法
CN103761892B (zh) 一种语音播放纸质书籍内容的方法及装置
CN110246512A (zh) 声音分离方法、装置及计算机可读存储介质
CN103559880B (zh) 语音输入***和方法
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN110348444A (zh) 基于深度学习的错题收集方法、装置及设备
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
CN103646074B (zh) 一种确定图片簇描述文本核心词的方法及装置
CN102855317A (zh) 一种基于演示视频的多模式索引方法及***
US20160217704A1 (en) Information processing device, control method therefor, and computer program
CN109165564B (zh) 电子相册、生成方法、***、存储介质及计算机设备
CN110287788A (zh) 一种视频分类方法及装置
CN104298694A (zh) 一种照片信息添加方法、装置及移动终端
CN110610500A (zh) 基于动态语义特征的新闻视频自适应拆条方法
JP2017016296A (ja) 画像表示装置
CN109739354A (zh) 一种基于声音的多媒体交互方法及装置
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
WO2023029397A1 (zh) 训练数据获取方法、异常行为识别网络训练方法及装置、计算机设备、存储介质、计算机程序、计算机程序产品
CN111026786B (zh) 一种听写列表生成方法及家教设备
CN110019913A (zh) 图片匹配方法、用户设备、存储介质及装置
CN109062905B (zh) 一种弹幕文本价值评价方法、装置、设备及介质
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
CN108804917A (zh) 一种文件检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination