CN104244107A - 一种基于字幕检测与识别的视频字幕还原方法 - Google Patents

一种基于字幕检测与识别的视频字幕还原方法 Download PDF

Info

Publication number
CN104244107A
CN104244107A CN201410423647.5A CN201410423647A CN104244107A CN 104244107 A CN104244107 A CN 104244107A CN 201410423647 A CN201410423647 A CN 201410423647A CN 104244107 A CN104244107 A CN 104244107A
Authority
CN
China
Prior art keywords
captions
frame
video
sliding window
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410423647.5A
Other languages
English (en)
Other versions
CN104244107B (zh
Inventor
程国艮
袁翔宇
王宇晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese translation language through Polytron Technologies Inc
Original Assignee
Mandarin Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mandarin Technology (beijing) Co Ltd filed Critical Mandarin Technology (beijing) Co Ltd
Priority to CN201410423647.5A priority Critical patent/CN104244107B/zh
Publication of CN104244107A publication Critical patent/CN104244107A/zh
Application granted granted Critical
Publication of CN104244107B publication Critical patent/CN104244107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Circuits (AREA)
  • Television Systems (AREA)

Abstract

本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:步骤1:将视频上传到分析设备;步骤2:检测每帧上的字幕区域;步骤3:通过滑动窗口检测字幕;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。

Description

一种基于字幕检测与识别的视频字幕还原方法
技术领域
本发明涉及视频字幕编辑技术领域,尤指一种基于字幕检测与识别的视频字幕还原方法。
背景技术
互联网上的视频很多都是硬字幕(字幕直接融合在视频图像之上),修正难度大,一旦出错必须整个视频文件重新制作,因为无法分离,限制了用户对字体风格个人喜好的修改。
发明内容
本发明的目的在于提供一种基于字幕检测与识别的视频字幕还原方法,解决现有技术存在的缺憾。
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;
步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
所述步骤2包括以下流程:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
本发明的有益技术效果在于:本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种基于字幕检测与识别的视频字幕还原方法, 包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;视频字幕的特点是,大多出现在视频下部区域,字体颜色单一,检测字幕区的流程为:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
步骤3: 通过滑动窗口检测字幕。所检测出来的字幕候选区域可能是字幕,也可能是其他和字幕颜色类似的区域。视频中字幕通常会在同一位置在多帧中出现,我们根据这一特性,设计了一个滑动窗口,来筛选字幕。
所述滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。

Claims (2)

1.一种基于字幕检测与识别的视频字幕还原方法,其特征在于, 包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;
步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器;当滑动窗口为空时,直接将新帧放入;如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1;如果新帧与窗口内某一帧的重叠区域小于b%时;此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间;无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
2.根据权利要求1所述的一种基于字幕检测与识别的视频字幕还原方法,其特征在于,所述步骤2包括以下流程:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
CN201410423647.5A 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法 Active CN104244107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410423647.5A CN104244107B (zh) 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410423647.5A CN104244107B (zh) 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法

Publications (2)

Publication Number Publication Date
CN104244107A true CN104244107A (zh) 2014-12-24
CN104244107B CN104244107B (zh) 2017-08-08

Family

ID=52231310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410423647.5A Active CN104244107B (zh) 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法

Country Status (1)

Country Link
CN (1) CN104244107B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735521A (zh) * 2015-03-30 2015-06-24 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
CN106295592A (zh) * 2016-08-17 2017-01-04 北京金山安全软件有限公司 一种媒体文件字幕的识别方法、装置及电子设备
CN108769776A (zh) * 2018-05-31 2018-11-06 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
CN109508217A (zh) * 2018-10-22 2019-03-22 郑州云海信息技术有限公司 一种数据处理方法、装置、设备及介质
CN109583441A (zh) * 2018-10-19 2019-04-05 天津大学 基于监控平台的字幕识别方法
CN110163129A (zh) * 2019-05-08 2019-08-23 腾讯科技(深圳)有限公司 视频处理的方法、装置、电子设备及计算机可读存储介质
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115151A (zh) * 2007-07-10 2008-01-30 北京大学 一种视频字幕提取的方法
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
CN101453575A (zh) * 2007-12-05 2009-06-10 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
US20110181773A1 (en) * 2010-01-25 2011-07-28 Kabushiki Kaisha Toshiba Image processing apparatus
CN102833638A (zh) * 2012-07-26 2012-12-19 北京数视宇通技术有限公司 基于字幕信息的视频自动切分及标注方法及***
US8355079B2 (en) * 2009-02-10 2013-01-15 Thomson Licensing Temporally consistent caption detection on videos using a 3D spatiotemporal method
CN103067775A (zh) * 2013-01-28 2013-04-24 Tcl集团股份有限公司 一种音视频终端的字幕显示方法、音视频终端及服务器
US20130279563A1 (en) * 2012-04-19 2013-10-24 Vixs Systems, Inc. Detection of video feature based on variance metric
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115151A (zh) * 2007-07-10 2008-01-30 北京大学 一种视频字幕提取的方法
CN101453575A (zh) * 2007-12-05 2009-06-10 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
US8355079B2 (en) * 2009-02-10 2013-01-15 Thomson Licensing Temporally consistent caption detection on videos using a 3D spatiotemporal method
US20110181773A1 (en) * 2010-01-25 2011-07-28 Kabushiki Kaisha Toshiba Image processing apparatus
US20130279563A1 (en) * 2012-04-19 2013-10-24 Vixs Systems, Inc. Detection of video feature based on variance metric
CN102833638A (zh) * 2012-07-26 2012-12-19 北京数视宇通技术有限公司 基于字幕信息的视频自动切分及标注方法及***
CN103067775A (zh) * 2013-01-28 2013-04-24 Tcl集团股份有限公司 一种音视频终端的字幕显示方法、音视频终端及服务器
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735521A (zh) * 2015-03-30 2015-06-24 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
CN104735521B (zh) * 2015-03-30 2018-04-13 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
CN106295592A (zh) * 2016-08-17 2017-01-04 北京金山安全软件有限公司 一种媒体文件字幕的识别方法、装置及电子设备
CN108769776A (zh) * 2018-05-31 2018-11-06 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
CN108769776B (zh) * 2018-05-31 2021-03-19 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
CN109583441A (zh) * 2018-10-19 2019-04-05 天津大学 基于监控平台的字幕识别方法
CN109508217A (zh) * 2018-10-22 2019-03-22 郑州云海信息技术有限公司 一种数据处理方法、装置、设备及介质
CN110163129A (zh) * 2019-05-08 2019-08-23 腾讯科技(深圳)有限公司 视频处理的方法、装置、电子设备及计算机可读存储介质
CN110163129B (zh) * 2019-05-08 2024-02-13 腾讯科技(深圳)有限公司 视频处理的方法、装置、电子设备及计算机可读存储介质
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置

Also Published As

Publication number Publication date
CN104244107B (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN104244107A (zh) 一种基于字幕检测与识别的视频字幕还原方法
CN106254933B (zh) 字幕提取方法及装置
US8817339B2 (en) Handheld device document imaging
EP3118772A1 (en) Image content providing apparatus and image content providing method
KR100999056B1 (ko) 이미지 컨텐츠에 대해 트리밍을 수행하기 위한 방법, 단말기 및 컴퓨터 판독 가능한 기록 매체
US8355079B2 (en) Temporally consistent caption detection on videos using a 3D spatiotemporal method
CN105469026B (zh) 针对文档图像的水平和垂直线检测和移除
EP2709038A1 (en) Device and method for detecting the presence of a logo in a picture
CN109766883B (zh) 基于深度神经网络的网络视频字幕的快速提取方法
CN104298982A (zh) 一种文字识别方法及装置
US20150278630A1 (en) Method and apparatus for recognizing a character based on a photographed image
TW201344546A (zh) 相片資料夾之代表縮圖之自動選擇方法及自動選擇系統
CN107203763B (zh) 文字识别方法和装置
CN105763884A (zh) 视频处理方法、装置及设备
US20170024005A1 (en) Electronic device and facial expression operation method
WO2014065033A8 (ja) 類似画像検索装置
CN112822539B (zh) 信息显示方法、装置、服务器及存储介质
US20180336243A1 (en) Image Search Method, Apparatus and Storage Medium
US20070061727A1 (en) Adaptive key frame extraction from video data
CN104125487A (zh) 一种上传图像数据的方法和装置
US9852350B2 (en) Character string recognition device
CN108229476B (zh) 标题区域检测方法及***
US20170171644A1 (en) Method and electronic device for creating video image hyperlink
KR101822443B1 (ko) 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치
CN108304825B (zh) 一种文本检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee after: Chinese translation language through Polytron Technologies Inc

Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee before: Mandarin Technology (Beijing) Co., Ltd.

CP01 Change in the name or title of a patent holder