CN104244107B - 一种基于字幕检测与识别的视频字幕还原方法 - Google Patents

一种基于字幕检测与识别的视频字幕还原方法 Download PDF

Info

Publication number
CN104244107B
CN104244107B CN201410423647.5A CN201410423647A CN104244107B CN 104244107 B CN104244107 B CN 104244107B CN 201410423647 A CN201410423647 A CN 201410423647A CN 104244107 B CN104244107 B CN 104244107B
Authority
CN
China
Prior art keywords
captions
frame
video
sliding window
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410423647.5A
Other languages
English (en)
Other versions
CN104244107A (zh
Inventor
程国艮
袁翔宇
王宇晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese translation language through Polytron Technologies Inc
Original Assignee
Mandarin Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mandarin Technology (beijing) Co Ltd filed Critical Mandarin Technology (beijing) Co Ltd
Priority to CN201410423647.5A priority Critical patent/CN104244107B/zh
Publication of CN104244107A publication Critical patent/CN104244107A/zh
Application granted granted Critical
Publication of CN104244107B publication Critical patent/CN104244107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Circuits (AREA)
  • Television Systems (AREA)

Abstract

本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:步骤1:将视频上传到分析设备;步骤2:检测每帧上的字幕区域;步骤3:通过滑动窗口检测字幕;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。

Description

一种基于字幕检测与识别的视频字幕还原方法
技术领域
本发明涉及视频字幕编辑技术领域,尤指一种基于字幕检测与识别的视频字幕还原方法。
背景技术
互联网上的视频很多都是硬字幕(字幕直接融合在视频图像之上),修正难度大,一旦出错必须整个视频文件重新制作,因为无法分离,限制了用户对字体风格个人喜好的修改。
发明内容
本发明的目的在于提供一种基于字幕检测与识别的视频字幕还原方法,解决现有技术存在的缺憾。
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;
步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
所述步骤2包括以下流程:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
本发明的有益技术效果在于:本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种基于字幕检测与识别的视频字幕还原方法, 包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;视频字幕的特点是,大多出现在视频下部区域,字体颜色单一,检测字幕区的流程为:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
步骤3: 通过滑动窗口检测字幕。所检测出来的字幕候选区域可能是字幕,也可能是其他和字幕颜色类似的区域。视频中字幕通常会在同一位置在多帧中出现,我们根据这一特性,设计了一个滑动窗口,来筛选字幕。
所述滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。

Claims (2)

1.一种基于字幕检测与识别的视频字幕还原方法,其特征在于, 包括以下步骤 :
步骤 1 :将视频上传到分析设备 ;
步骤 2 :检测每帧上的字幕区域 ;
步骤 3 :通过滑动窗口检测字幕,滑动窗口里存储了最多连续的 M 帧图像的字幕候选 区数据,并维护一个计数器 ;当滑动窗口为空时,直接将新帧放入 ;如果滑动窗口不空时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b% 时,如果滑动窗口内帧数量小于 M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器 加 1 ;如果新帧与窗口内某一帧的重叠区域小于 b% 时 ;此时,如果计数器大于阈值 N,则认 为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间;这种情况下,如果新帧与窗口内某一帧的重叠区域小于 b%,无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为 0,所述 M、 N、 b 为预先设置的 固定值 ;
步骤 4 :将检测出来的字幕,其中的某一帧,使用 OCR 技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
2.根据权利要求 1 所述的一种基于字幕检测与识别的视频字幕还原方法,其特征在于,所述步骤 2 包括以下流程 :
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析 ;
(b)视频字幕通常为白色和蓝色,并且有比较强的边缘 ;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
CN201410423647.5A 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法 Active CN104244107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410423647.5A CN104244107B (zh) 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410423647.5A CN104244107B (zh) 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法

Publications (2)

Publication Number Publication Date
CN104244107A CN104244107A (zh) 2014-12-24
CN104244107B true CN104244107B (zh) 2017-08-08

Family

ID=52231310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410423647.5A Active CN104244107B (zh) 2014-08-26 2014-08-26 一种基于字幕检测与识别的视频字幕还原方法

Country Status (1)

Country Link
CN (1) CN104244107B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735521B (zh) * 2015-03-30 2018-04-13 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
CN106295592A (zh) * 2016-08-17 2017-01-04 北京金山安全软件有限公司 一种媒体文件字幕的识别方法、装置及电子设备
CN108769776B (zh) * 2018-05-31 2021-03-19 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
CN109583441A (zh) * 2018-10-19 2019-04-05 天津大学 基于监控平台的字幕识别方法
CN109508217B (zh) * 2018-10-22 2022-03-08 郑州云海信息技术有限公司 一种数据处理方法、装置、设备及介质
CN110163129B (zh) * 2019-05-08 2024-02-13 腾讯科技(深圳)有限公司 视频处理的方法、装置、电子设备及计算机可读存储介质
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115151A (zh) * 2007-07-10 2008-01-30 北京大学 一种视频字幕提取的方法
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
CN101453575A (zh) * 2007-12-05 2009-06-10 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
CN102833638A (zh) * 2012-07-26 2012-12-19 北京数视宇通技术有限公司 基于字幕信息的视频自动切分及标注方法及***
US8355079B2 (en) * 2009-02-10 2013-01-15 Thomson Licensing Temporally consistent caption detection on videos using a 3D spatiotemporal method
CN103067775A (zh) * 2013-01-28 2013-04-24 Tcl集团股份有限公司 一种音视频终端的字幕显示方法、音视频终端及服务器
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5423425B2 (ja) * 2010-01-25 2014-02-19 富士通モバイルコミュニケーションズ株式会社 画像処理装置
US9071842B2 (en) * 2012-04-19 2015-06-30 Vixs Systems Inc. Detection of video feature based on variance metric

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115151A (zh) * 2007-07-10 2008-01-30 北京大学 一种视频字幕提取的方法
CN101453575A (zh) * 2007-12-05 2009-06-10 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
US8355079B2 (en) * 2009-02-10 2013-01-15 Thomson Licensing Temporally consistent caption detection on videos using a 3D spatiotemporal method
CN102833638A (zh) * 2012-07-26 2012-12-19 北京数视宇通技术有限公司 基于字幕信息的视频自动切分及标注方法及***
CN103067775A (zh) * 2013-01-28 2013-04-24 Tcl集团股份有限公司 一种音视频终端的字幕显示方法、音视频终端及服务器
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Also Published As

Publication number Publication date
CN104244107A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104244107B (zh) 一种基于字幕检测与识别的视频字幕还原方法
US20220070405A1 (en) Detection of Transitions Between Text and Non-Text Frames in a Video Stream
US20150382083A1 (en) Pictorial summary for video
EP1986128A2 (en) Image processing apparatus, imaging apparatus, image processing method, and computer program
US11138171B2 (en) Passenger flow information collection method and apparatus, and passenger flow information processing method and apparatus
US20160029106A1 (en) Pictorial summary of a video
JP2008520152A (ja) 画像中のテキストの検出および修正
US20160247024A1 (en) Method for output creation based on video content characteristics
US8947600B2 (en) Methods, systems, and computer-readable media for detecting scene changes in a video
CN104735521B (zh) 一种滚动字幕检测方法及装置
CN104123396A (zh) 一种基于云电视的足球视频摘要生成方法及装置
CN105763884A (zh) 视频处理方法、装置及设备
CN107203763B (zh) 文字识别方法和装置
CN106507175A (zh) 视频图像处理方法及装置
WO2014065033A8 (ja) 類似画像検索装置
CN108985244B (zh) 一种电视节目类型识别方法及装置
KR102426089B1 (ko) 전자 장치 및 전자 장치의 요약 영상 생성 방법
CN112822539B (zh) 信息显示方法、装置、服务器及存储介质
KR101667011B1 (ko) 입체 영상의 장면 전환 검출 장치 및 방법
EP2147546A1 (en) Method and apparatus for detecting a transition between video segments
EP3070669A1 (en) Method and apparatus for color smoothing in an alpha matting process
CN108304825B (zh) 一种文本检测方法及装置
KR101436908B1 (ko) 화상 처리 장치 및 화상 처리 방법
US9860509B2 (en) Method and a system for determining a video frame type
EP2849454A1 (en) Method, system and computer program products for providing an edited video signal to a viewer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee after: Chinese translation language through Polytron Technologies Inc

Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee before: Mandarin Technology (Beijing) Co., Ltd.

CP01 Change in the name or title of a patent holder