CN104244107B

CN104244107B - 一种基于字幕检测与识别的视频字幕还原方法

Info

Publication number: CN104244107B
Application number: CN201410423647.5A
Authority: CN
Inventors: 程国艮; 袁翔宇; 王宇晨
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Chinese translation language through Polytron Technologies Inc
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2017-08-08
Anticipated expiration: 2034-08-26
Also published as: CN104244107A

Abstract

本发明是一种基于字幕检测与识别的视频字幕还原方法，包括以下步骤：步骤1：将视频上传到分析设备；步骤2：检测每帧上的字幕区域；步骤3：通过滑动窗口检测字幕；步骤4：将检测出来的字幕，其中的某一帧，使用OCR技术，识别出文字，将文字与字幕的起始和截止时间，存储为文本字幕。本发明通过字幕检测，检测出视频上的硬字幕，并通过光学字符识别技术，识别出硬字幕中的内容，还原得到软字幕（文本字幕）。

Description

一种基于字幕检测与识别的视频字幕还原方法

技术领域

本发明涉及视频字幕编辑技术领域，尤指一种基于字幕检测与识别的视频字幕还原方法。

背景技术

互联网上的视频很多都是硬字幕（字幕直接融合在视频图像之上），修正难度大，一旦出错必须整个视频文件重新制作，因为无法分离，限制了用户对字体风格个人喜好的修改。

发明内容

本发明的目的在于提供一种基于字幕检测与识别的视频字幕还原方法，解决现有技术存在的缺憾。

本发明是一种基于字幕检测与识别的视频字幕还原方法，包括以下步骤：

步骤1：将视频上传到分析设备；

步骤2：检测每帧上的字幕区域；

步骤3：通过滑动窗口检测字幕，滑动窗口里存储了最多连续的M帧图像的字幕候选区数据，并维护一个计数器。当滑动窗口为空时，直接将新帧放入。如果滑动窗口不为空且时，对于新帧，计算新帧与窗口内各帧的重叠区域，新帧与窗口内各帧的重叠区域均大于b%时，如果滑动窗口内帧数量小于M，则将新帧添加进滑动窗口中，若滑动窗口已满，则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时，如果计数器大于阈值N，则认为检测出一条字幕，该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间，根据滑动窗口的大小和计数器值，可以计算该条字幕所跨越的帧的数量，得出字幕的截止时间。无论是否检测出字幕，都将新帧加入滑动窗口内，同时，计数器置为0，所述M、N、b为预先设置的固定值；

步骤4：将检测出来的字幕，其中的某一帧，使用OCR技术，识别出文字，将文字与字幕的起始和截止时间，存储为文本字幕。

所述步骤2包括以下流程：

（a）对于视频的每一帧图像，取其底部一小部分来进行分析；

（b）视频字幕通常为白色和蓝色，并且有比较强的边缘；检测出视频图像里的此类区域，存储为该帧视频的字幕候选区。

本发明的有益技术效果在于：本发明通过字幕检测，检测出视频上的硬字幕，并通过光学字符识别技术，识别出硬字幕中的内容，还原得到软字幕（文本字幕）。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。

步骤1：将视频上传到分析设备；

步骤2：检测每帧上的字幕区域；视频字幕的特点是，大多出现在视频下部区域，字体颜色单一，检测字幕区的流程为：

步骤3：通过滑动窗口检测字幕。所检测出来的字幕候选区域可能是字幕，也可能是其他和字幕颜色类似的区域。视频中字幕通常会在同一位置在多帧中出现，我们根据这一特性，设计了一个滑动窗口，来筛选字幕。

所述滑动窗口里存储了最多连续的M帧图像的字幕候选区数据，并维护一个计数器。当滑动窗口为空时，直接将新帧放入。如果滑动窗口不为空且时，对于新帧，计算新帧与窗口内各帧的重叠区域，新帧与窗口内各帧的重叠区域均大于b%时，如果滑动窗口内帧数量小于M，则将新帧添加进滑动窗口中，若滑动窗口已满，则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时，如果计数器大于阈值N，则认为检测出一条字幕，该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间，根据滑动窗口的大小和计数器值，可以计算该条字幕所跨越的帧的数量，得出字幕的截止时间。无论是否检测出字幕，都将新帧加入滑动窗口内，同时，计数器置为0，所述M、N、b为预先设置的固定值；

Claims

1.一种基于字幕检测与识别的视频字幕还原方法，其特征在于，包括以下步骤：

步骤 1 ：将视频上传到分析设备；

步骤 2 ：检测每帧上的字幕区域；

步骤 3 ：通过滑动窗口检测字幕，滑动窗口里存储了最多连续的 M 帧图像的字幕候选区数据，并维护一个计数器；当滑动窗口为空时，直接将新帧放入；如果滑动窗口不空时，对于新帧，计算新帧与窗口内各帧的重叠区域，新帧与窗口内各帧的重叠区域均大于b% 时，如果滑动窗口内帧数量小于 M，则将新帧添加进滑动窗口中，若滑动窗口已满，则计数器加 1 ；如果新帧与窗口内某一帧的重叠区域小于 b% 时；此时，如果计数器大于阈值 N，则认为检测出一条字幕，该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间，根据滑动窗口的大小和计数器值，可以计算该条字幕所跨越的帧的数量，得出字幕的截止时间；这种情况下，如果新帧与窗口内某一帧的重叠区域小于 b%，无论是否检测出字幕，都将新帧加入滑动窗口内，同时，计数器置为 0，所述 M、 N、 b 为预先设置的固定值；

步骤 4 ：将检测出来的字幕，其中的某一帧，使用 OCR 技术，识别出文字，将文字与字幕的起始和截止时间，存储为文本字幕。

2.根据权利要求 1 所述的一种基于字幕检测与识别的视频字幕还原方法，其特征在于，所述步骤 2 包括以下流程：