CN106295592A - 一种媒体文件字幕的识别方法、装置及电子设备 - Google Patents

一种媒体文件字幕的识别方法、装置及电子设备 Download PDF

Info

Publication number
CN106295592A
CN106295592A CN201610681287.8A CN201610681287A CN106295592A CN 106295592 A CN106295592 A CN 106295592A CN 201610681287 A CN201610681287 A CN 201610681287A CN 106295592 A CN106295592 A CN 106295592A
Authority
CN
China
Prior art keywords
frame picture
caption
unique
media file
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610681287.8A
Other languages
English (en)
Inventor
田昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201610681287.8A priority Critical patent/CN106295592A/zh
Publication of CN106295592A publication Critical patent/CN106295592A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Television Systems (AREA)

Abstract

本发明实施例提供一种媒体文件字幕的识别方法、装置及电子设备,其中,方法包括筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面;根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;对所述文字信息进行处理生成字幕信息。相比于现有技术的方案,本发明不需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率。

Description

一种媒体文件字幕的识别方法、装置及电子设备
技术领域
本发明涉及电子技术领域,尤其涉及一种媒体文件字幕的识别方法、装置及电子设备。
背景技术
随着网络的发展,特别是移动网络的更新换代,网络宽带有了极大的提高,视频的传输变得十分便利。根据著名视频网站YouTube的统计,平均每月该网站播放视频时长总计超过40亿小时。面对如此庞大的视频数据量和用户需求,对视频字幕的文字信息进行功能扩展显得尤为重要,但是有很多视频的字幕都不是单独的关联文件,而是与视频的每一帧放到了一起,需要将视频帧中的字幕内容识别为文字信息以便于进行功能扩展。
现有视频字幕的识别技术,大多是获取视频中的帧画面,直接对帧画面进行识别得到文字信息,进而将识别的文字信息与视频的帧画面时间戳信息结合得到字幕信息。
现有技术直接对视频的帧画面进行处理,字幕识别的效率低。
发明内容
本发明提出了一种媒体文件字幕的识别方法、装置及电子设备,通过将多个帧画面进行比较,不同帧画面对应同一字幕内容时,获取一个帧画面作为该字幕内容的唯一帧画面进行识别,进而识别出该唯一帧画面的文字信息,生成字幕信息,避免对同一字幕内容识别多幅帧画面的情况,提高字幕识别的效率。
在一个方面,本发明实施例提供了媒体文件字幕的识别方法,所述方法包括:
筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;
对所述文字信息进行处理生成字幕信息。
其中,所述筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面,具体为:
每隔固定的帧数来获取所述媒体文件的帧画面;
将所述帧画面转换成灰度图像;
统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
其中,所述筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面,具体为:
每隔固定的帧数获取所述媒体文件的帧画面,当获得多幅帧画面时,对所述多幅帧画面进行多线程处理,每个线程的处理步骤包括:
将所述帧画面转换成灰度图像;
统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
其中,所述根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面,具体为:
步骤1获取所述待处理帧画面中的第一帧画面作为当前帧画面,第二帧画面作为对比帧画面;
步骤2判断所述当前帧画面和所述对比帧画面的字幕内容是否发生变化,若判断出发生变化执行步骤3,若判断出未发生变化执行步骤4;
步骤3提取所述当前帧帧画面作为唯一帧画面,并将所述对比帧画面作为当前帧画面,获取所述对比帧画面的下一帧作为对比帧画面,执行步骤2;
步骤4将所述当前帧画面和所述对比帧画面中的任一帧画面作为当前帧画面,获取所述对比帧画面的下一帧画面作为对比帧画面,执行步骤2。
其中,如果获取到多个字幕内容对应的唯一帧画面,则所述对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息,具体为:
对获取到的多个字幕内容分别对应的唯一帧画面进行多线程光学字符识别,得到每幅唯一帧画面对应的文字信息。
其中,所述对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息,具体为:
将所述唯一帧画面进行光学字符识别,得到所述唯一帧画面对应的文字信息;或者
将所述唯一帧画面发送至远程服务器,接收所述远程服务器识别返回的文字信息。
其中,所述对所述文字信息进行处理得到字幕信息,具体为:
获取所述唯一帧画面的时间戳信息;
将所述文字依据所述时间戳信息生成字幕信息。
优选地,所述对所述文字信息进行处理得到字幕信息后,所述方法还包括:
将所述字幕信息导入所述媒体文件中,同步显示所述字幕信息中的文字。
优选地,所述对所述文字信息进行处理得到字幕信息后,所述方法还包括:
将所述字幕信息发送至远程服务器,使所述远程服务器对所述字幕信息进行审查校准并保存,再次需要识别所述媒体文件字幕时,从所述远程服务器调用校准后的字幕信息。
在另一个方面,本发明实施例提供了媒体文件字幕的识别装置,所述装置包括:筛选模块、去重模块、识别模块和字幕生成模块;
所述筛选模块,用于筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面;
所述去重模块,用于根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
所述识别模块,用于对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;
所述字幕生成模块,用于对所述文字信息进行处理生成字幕信息。
其中,所述筛选模块包括第一获取单元、转换单元、统计单元、计算单元和筛选单元,其中:
所述第一获取单元,用于每隔固定的帧数来获取所述媒体文件的帧画面;
所述转换单元,用于将所述帧画面转换成灰度图像;
所述统计单元,用于统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
所述计算单元,用于选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
所述筛选单元,用于筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
其中,所述筛选模块包括第一获取单元和多个处理模块,其中:
所述第一获取单元,用于每隔固定的帧数获取所述媒体文件的帧画面;
每个所述处理模块包括转换单元、统计单元、计算单元和筛选单元;
所述转换单元,用于将所述帧画面转换成灰度图像;
所述统计单元,用于统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
所述计算单元,用于选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
所述筛选单元,用于筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
其中,所述去重模块包括第二获取单元、判断单元、提取单元、第一帧画面确定单元、第二帧画面确定单元,其中:
所述第二获取单元用于获取所述待处理帧画面中的第一帧画面作为当前帧画面,第二帧画面作为对比帧画面;
所述判断单元,用于判断所述当前帧画面和所述对比帧画面的字幕内容是否发生变化;
所述提取单元,用于当所述判断单元判断所述当前帧画面和所述对比帧画面的字幕内容发生变化时,提取所述当前帧帧画面作为唯一帧画面;
所述第一帧画面确定单元,用于当所述判断单元判断所述当前帧画面和所述对比帧画面的字幕内容发生变化时,将所述对比帧画面作为当前帧画面,并获取所述对比帧画面的下一帧作为对比帧画面;
所述第二帧画面确定单元,用于当所述判断单元判断所述当前帧画面和所述对比帧画面的字幕内容未发生变化时,将所述当前帧画面和所述对比帧画面中的任一帧画面作为当前帧画面,并获取所述对比帧画面的下一帧画面作为对比帧画面。
其中,所述识别模块包括多个识别单元,具体用于将多个字幕内容分别对应的唯一帧画面进行多线程光学字符识别,得到每幅唯一帧画面对应的文字信息。
其中,所述识别模块,具体用于将所述字幕内容识别为字幕文字;或者
具体用于将所述唯一帧画面发送至远程服务器,接收所述远程服务器识别返回的文字信息。
其中,所述字幕生成模块包括第三获取单元和字幕生成单元,其中:
所述第三获取单元,用于获取所述唯一帧画面的时间戳信息;
所述字幕生成单元,用于将所述文字依据所述时间戳信息生成字幕信息。
优选地,所述装置还包括字幕显示模块,用于将所述字幕信息导入所述媒体文件中,同步显示所述字幕信息中的文字。
优选地,所述装置还包括审查模块,用于将所述字幕信息发送至远程服务器,再次需要识别所述媒体文件字幕时,从所述远程服务器调用校准后的字幕信息。
在另一个方面,本发明实施例提供了一种终端,包括:如上所述的媒体文件字幕的识别装置。
在另一个方面,本发明实施例提供了一种电子设备,包括:壳体、处理器、存储器、显示屏、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上,所述显示屏外嵌于所述壳体上且连接所述电路板;所述电源电路,用于为电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码和数据;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;
对所述文字信息进行处理生成字幕信息。
本发明的上述方案至少包括以下有益效果:
本发明对于同一字幕内容,仅对该字幕内容对应的唯一帧画面进行识别操作,相比于现有技术的方案,本发明不需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1示出了本发明实施例一中媒体文件字幕的识别方法的示意图;
图2示出了本发明实施例二中媒体文件字幕的识别方法的示意图;
图3示出了本发明实施例二中根据字幕内容对待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面方法的示意图;
图4示出了本发明实施例三中媒体文件字幕的识别装置的结构示意图;
图5示出了本发明实施例四中媒体文件字幕的识别装置的结构示意图;
图6示出了本发明实施例四中筛选模块的结构示意图;
图7示出了本发明实施例四中去重模块的结构示意图;
图8示出了本发明实施例四中识别模块的结构示意图;
图9示出了本发明实施例五中电子设备的结构示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
本发明的实施例提供一种媒体文件字幕的识别方法、装置及电子设备,对于同一字幕内容,仅对该字幕内容对应的唯一帧画面进行识别操作,相比于现有技术的方案,本发明不再需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率。
本发明的实施例中,媒体文件可以是视频文件或者视频流,该视频文件或者视频流的来源包括但不限于:(1)存储设备内保存的视频文件;(2)直播视频流,例如电视直播视频流、网络直播视频流等等。
实施例一
图1为本发明提供的一种媒体文件字幕的识别方法的第一实施例流程示意图。本发明实施例一提供的媒体文件字幕的识别方法包括:
步骤101、筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
步骤102、根据字幕内容对待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
步骤103、对唯一帧画面进行识别,得到唯一帧画面对应的文字信息;
步骤104、对文字信息进行处理生成字幕信息。
本发明实施例对于同一字幕内容,仅对该字幕内容对应的唯一帧画面进行识别操作,相比于现有技术的方案,本发明不再需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率。
实施例二
图2为本发明提供的一种媒体文件字幕的识别方法的第二实施例流程示意图。本发明实施例二提供的媒体文件字幕的识别方法包括:
步骤201、筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
在本实施例中提供了两种筛选出媒体文件帧画面中有字幕内容的待处理帧画面的方法,其中,第一种方法对多幅有字幕内容的帧画面进行字幕内容进行多线程的处理,使同一字幕内容对应唯一帧画面;第二种方法对有字幕内容的帧画面进行字幕内容比较,使同一字幕内容对应唯一帧画面。具体如下:
本实施例中,筛选出媒体文件帧画面中有字幕内容的待处理帧画面的第一种方法,每隔固定的帧数获取媒体文件的帧画面,当获得多幅帧画面时,对所述多幅帧画面进行多线程处理,每个线程的处理步骤包括:
将帧画面转换成灰度图像;
统计灰度图像中各像素点的灰度值,得到帧画面的灰度直方图;
选取灰度值范围的第一阈值和第二阈值,计算灰度直方图的局部信息熵;筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
本实施例中,筛选出媒体文件帧画面中有字幕内容的待处理帧画面的第二种方法,每隔固定的帧数来获取媒体文件的帧画面;将帧画面转换成灰度图像;统计灰度图像中各像素点的灰度值,得到帧画面的灰度直方图;选取灰度值范围的第一阈值和第二阈值,计算灰度直方图的局部信息熵,第二阈值大于第一阈值;筛选出局部信息熵大于第三阈值的帧画面,局部信息熵大于第三阈值的帧画面为有字幕内容的待处理帧画面。
例如,根据灰度图像中各像素点的灰度值i(i∈[0,255]),得到帧画面的灰度直方图为H[i];选取灰度值的范围为第一阈值θep1≤i≤第二阈值θep2
将灰度直方图进行归一化处理:
得到直方图局部信息熵:
若ep1≥第三阈值EPL,则认为帧画面有字幕内容。
步骤202、根据字幕内容对待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
在本实施例中,对有字幕内容的帧画面进行字幕内容比较,使同一字幕内容对应唯一帧画面的方法如图3所示,包括:
步骤2021获取待处理帧画面中的第一帧画面作为当前帧画面,第二帧画面作为对比帧画面;
步骤2022判断当前帧画面和对比帧画面的字幕内容是否发生变化,若判断出发生变化执行步骤2023,若判断出未发生变化执行步骤2024;
步骤2023提取当前帧帧画面作为唯一帧画面,并将对比帧画面作为当前帧画面,获取对比帧画面的下一帧作为对比帧画面,执行步骤2022;
步骤2024将当前帧画面和对比帧画面中的任一帧画面作为当前帧画面,获取对比帧画面的下一帧画面作为对比帧画面,执行步骤2022。
其中,可以利用笔画方向来判断当前帧和对比帧的字幕内容是否发生变化,首先对帧画面做边缘检测,然后统计边缘像素的梯度方向构成的直方图,使用OpenCV函数compareHist产生一个表达当前帧画面及对比帧画面的边缘像素的梯度方向直方图的相似度的数值,并确定一个门限值,若该数值不低于门限值,则认为字幕内容未发生变化。
例如,当前帧画面的边缘像素的梯度方向直方图为H1,对比帧画面的边缘像素的梯度方向直方图为H2,由OpenCV函数compareHist生成对比标准d(H1,H2),
d ( H 1 , H 2 ) = Σ i ( H 1 ( i ) - H 2 ( i ) ) 2 H 1 ( i ) + H 2 ( i )
其中,i为像素值,i∈[0,255],
若d(H1,H2)≥门限值D(H1,H2),则认为字幕内容未发生变化。
步骤203、对唯一帧画面进行识别,得到唯一帧画面对应的文字信息;
在本实施例提供了三种将唯一帧画面中的字幕内容识别为字幕文字的方法:
本实施例中将唯一帧画面中的字幕内容识别为字幕文字的第一种方法,具体为将多个字幕内容分别对应的唯一帧画面进行多线程光学字符识别,得到每幅唯一帧画面对应的文字信息。
本实施例中将唯一帧画面中的字幕内容识别为字幕文字的第二种方法,具体为将唯一帧画面进行光学字符识别,得到唯一帧画面对应的文字信息;
本实施例中将唯一帧画面中的字幕内容识别为字幕文字的第三种方法,具体为将唯一帧画面发送至远程服务器,接收远程服务器识别返回的文字信息。
步骤204、对文字信息进行处理生成字幕信息。
在本实施例中,将字幕文字进行处理得到字幕信息具体为:将字幕文字添加至文本文件中,然后根据文本文件的内容和时间戳,按照一句时间代码加一句字幕的格式生成字幕信息,即按照一句时间代码加一句字幕的格式向字幕信息中写入文字。
字幕的种类有多种,现在比较常用的字幕格式有图形格式和文本格式两类,相对于图形格式字幕而言,文本格式字幕有尺寸小、格式简单、便于制作和修改的特点,文本格式字幕包括utf、idx、sub、srt、smi、rt、txt、ssa、aq、jss、js、ass,其中srt格式的文本字幕使用最为广泛,它能兼容各种常见的媒体播放器,暴风影音、QQ影音等均可自动加载该类型的字幕。因此,在本实施例中,字幕信息采用srt格式,当然本实施例并不限定字幕信息的格式,只要字幕信息的格式能够支持所使用的媒体播放器即可。
步骤205、将字幕信息导入媒体文件中,同步显示字幕信息中的文字。
在本实施例中,字幕信息存储在媒体文件所在的文件夹内,当播放媒体文件时,该字幕信息可自动导入并同步显示。
此外,为了优化字幕的显示效果,可以将字幕信息中较长的句子分行显示。
步骤206、将字幕信息发送至远程服务器,使远程服务器对字幕信息进行审查校准并保存,再次需要识别媒体文件字幕时,从远程服务器调用校准后的字幕信息。
本发明实施例对媒体文件的帧画面进行多线程的筛选得到包含字幕内容的帧画面,通过去重获取每个同一字幕内容对应的唯一帧画面,仅对多个字幕内容分别对应的唯一帧画面进行多线程识别操作,并对字幕信息进行审查校准。相比于现有技术的方案,本发明对媒体文件的帧画面进行多线程的筛选,减少了获取包含字幕内容的帧画面所需时间;通过去重,不再需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率;对多个字幕内容分别对应的唯一帧画面进行多线程的识别,进一步提高了字幕识别的效率;对字幕信息进行审查校准,提高了再次获取的媒体文件字幕的速度和准确度。
基于同一发明构思,本发明实施例中还提供了一种媒体文件字幕的识别装置,由于这些***解决问题的原理与一种媒体文件字幕的识别方法相似,因此这些***的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,本发明实施例中提供了一种媒体文件字幕的识别装置,装置可以包括:
筛选模块301,用于筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
去重模块302,用于根据字幕内容对待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
识别模块303,用于对唯一帧画面进行识别,得到唯一帧画面对应的文字信息;
字幕生成模块304,用于对文字信息进行处理生成字幕信息。
本发明实施例去重模块获取同一字幕内容对应的唯一帧画面,识别模块仅对该字幕内容对应的唯一帧画面进行识别操作,相比于现有技术的方案,本发明的字幕识别装置不再需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率。
如图5所示,本发明实施例中提供了另一种媒体文件字幕的识别装置,装置可以包括:
筛选模块401,用于筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
本实施例中,如图6所示,筛选模块401所述筛选模块包括第一获取单元和多个处理模块,其中:
所述第一获取单元,用于每隔固定的帧数获取所述媒体文件的帧画面;
每个所述处理模块包括转换单元、统计单元、计算单元和筛选单元;
所述转换单元,用于将所述帧画面转换成灰度图像;
所述统计单元,用于统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
所述计算单元,用于选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
所述筛选单元,用于筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
本实施例还提供了另一种筛选模块,可以包括第一获取单元4011、转换单元4012、统计单元4013、计算单元4014和筛选单元4015,其中:
第一获取单元4011,用于每隔固定的帧数来获取媒体文件的帧画面;
转换单元4012,用于将帧画面转换成灰度图像;
统计单元4013,用于统计灰度图像中各像素点的灰度值,得到帧画面的灰度直方图;
计算单元4014,用于选取灰度值范围的第一阈值和第二阈值,计算灰度直方图的局部信息熵;
筛选单元4015,用于筛选出局部信息熵大于第三阈值的帧画面。
去重模块402,用于对有字幕内容的帧画面进行字幕内容比较,使同一字幕内容对应唯一帧画面;
本实施例中,如图7所示,去重模块402包括第二获取单元4021、判断单元4022、提取单元4023、第一帧画面确定单元4024、第二帧画面确定单元4025,其中:
第二获取单元4021,用于获取待处理帧画面中的第一帧画面作为当前帧画面,第二帧画面作为对比帧画面;
判断单元4022,用于判断当前帧画面和对比帧画面的字幕内容是否发生变化;
提取单元4023,用于当判断单元4022判断当前帧画面和对比帧画面的字幕内容发生变化时,提取当前帧帧画面作为唯一帧画面;
第一帧画面确定单元4024,用于当判断单元4022判断当前帧画面和对比帧画面的字幕内容发生变化时,将对比帧画面作为当前帧画面,并获取对比帧画面的下一帧作为对比帧画面;
第二帧画面确定单元4025,用于当判断单元4022判断当前帧画面和对比帧画面的字幕内容未发生变化时,将当前帧画面和对比帧画面中的任一帧画面作为当前帧画面,并获取对比帧画面的下一帧画面作为对比帧画面。
识别模块403,将唯一帧画面中的字幕内容识别为字幕文字;
本实施例中,如图8所示识别模块403可以包括多个识别单元,具体用于将多个字幕内容分别对应的唯一帧画面进行多线程光学字符识别,得到每幅唯一帧画面对应的文字信息。
本实施例中还提供了另一种识别模块403,用于将字幕内容识别为字幕文字;或者用于将唯一帧画面发送至远程服务器,接收远程服务器识别返回的文字信息。
字幕生成模块404,对字幕文字进行处理得到字幕信息。
本实施例中,字幕生成模块404包括第三获取单元和字幕生成单元,其中:
第三获取单元,用于获取唯一帧画面的时间戳信息;
字幕生成单元,用于将文字依据时间戳信息生成字幕信息。
字幕显示模块405,用于将字幕信息导入媒体文件中,同步显示字幕信息中的文字;
审查模块406,用于将字幕信息发送至远程服务器,再次需要识别媒体文件字幕时,从远程服务器调用校准后的字幕信息。
本发明实施例筛选模块对媒体文件的帧画面进行多线程的筛选得到包含字幕内容的帧画面,去重模块获取同一字幕内容对应的唯一帧画面,识别模块仅对多个字幕内容分别对应的唯一帧画面进行多线程识别操作,审查模块对字幕信息进行审查校准。相比于现有技术的方案,本发明的字幕识别装置对媒体文件的帧画面进行多线程的筛选,减少了获取包含字幕内容的帧画面所需时间;通过去重,不再需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率;对多个字幕内容分别对应的唯一帧画面进行多线程的识别,进一步提高了字幕识别的效率;对字幕信息进行审查校准,提高了再次获取的媒体文件字幕的速度和准确度。
如图9所示,本发明实施例中还提供了一种电子设备,包括:壳体501、处理器502、存储器503、显示屏(图中未示出)、电路板504和电源电路505,其中,电路板504安置在壳体501围成的空间内部,处理器502和存储器503设置在电路板504上,显示屏外嵌于壳体501上且连接电路板504;电源电路505,用于为电子设备的各个电路或器件供电;存储器503用于存储可执行程序代码和数据;处理器502通过读取存储器503中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;
对所述文字信息进行处理生成字幕信息。
本发明实施例中的电子设备,筛选出有字幕内容的帧画面,获取同一字幕内容对应的唯一帧画面,仅对该字幕内容对应的唯一帧画面进行识别操作,相比于现有技术的方案,本发明的电子设备不再需要将同一字幕内容对应的多幅帧画面进行多次识别,同一字幕内容只需对对应的一幅帧画面进行识别,得到文字信息即可,提高了字幕识别的效率。
为了描述的方便,以上***的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种媒体文件字幕的识别方法,其特征在于,包括:
筛选出媒体文件帧画面中有字幕内容的待处理帧画面;
根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;
对所述文字信息进行处理生成字幕信息。
2.如权利要求1所述的方法,其特征在于,所述筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面,具体为:
每隔固定的帧数来获取所述媒体文件的帧画面;
将所述帧画面转换成灰度图像;
统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
3.如权利要求1所述的装置,其特征在于,所述筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面,具体为:
每隔固定的帧数获取所述媒体文件的帧画面,当获得多幅帧画面时,对所述多幅帧画面进行多线程处理,每个线程的处理步骤包括:
将所述帧画面转换成灰度图像;
统计所述灰度图像中各像素点的灰度值,得到所述帧画面的灰度直方图;
选取灰度值范围的第一阈值和第二阈值,计算所述灰度直方图的局部信息熵;
筛选出局部信息熵大于第三阈值的帧画面作为待处理帧画面。
4.如权利要求1所述的方法,其特征在于,所述根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面,具体为:
步骤401获取所述待处理帧画面中的第一帧画面作为当前帧画面,第二帧画面作为对比帧画面;
步骤402判断所述当前帧画面和所述对比帧画面的字幕内容是否发生变化,若判断出发生变化执行步骤403,若判断出未发生变化执行步骤404;
步骤403提取所述当前帧帧画面作为唯一帧画面,并将所述对比帧画面作为当前帧画面,获取所述对比帧画面的下一帧作为对比帧画面,执行步骤402;
步骤404将所述当前帧画面和所述对比帧画面中的任一帧画面作为当前帧画面,获取所述对比帧画面的下一帧画面作为对比帧画面,执行步骤402。
5.如权利要求1所述的方法,其特征在于,如果获取到多个字幕内容对应的唯一帧画面,则所述对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息,具体为:
对获取到的多个字幕内容分别对应的唯一帧画面进行多线程光学字符识别,得到每幅唯一帧画面对应的文字信息。
6.如权利要求1所述的方法,其特征在于,所述对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息,具体为:
将所述唯一帧画面进行光学字符识别,得到所述唯一帧画面对应的文字信息;或者
将所述唯一帧画面发送至远程服务器,接收所述远程服务器识别返回的文字信息。
7.如权利要求1所述的方法,其特征在于,所述对所述文字信息进行处理得到字幕信息,具体为:
获取所述唯一帧画面的时间戳信息;
将所述文字依据所述时间戳信息生成字幕信息。
8.如权利要求1-7任一项所述的方法,其特征在于,所述对所述文字信息进行处理得到字幕信息后,所述方法还包括:
将所述字幕信息导入所述媒体文件中,同步显示所述字幕信息中的文字。
9.如权利要求8所述的方法,其特征在于,所述对所述文字信息进行处理得到字幕信息后,所述方法还包括:
将所述字幕信息发送至远程服务器,使所述远程服务器对所述字幕信息进行审查校准并保存,再次需要识别所述媒体文件字幕时,从所述远程服务器调用校准后的字幕信息。
10.一种媒体文件字幕的识别装置,其特征在于,包括:筛选模块、去重模块、识别模块和字幕生成模块;
所述筛选模块,用于筛选出所述媒体文件帧画面中有字幕内容的待处理帧画面;
所述去重模块,用于根据字幕内容对所述待处理帧画面进行去重,获取同一字幕内容对应的唯一帧画面;
所述识别模块,用于对所述唯一帧画面进行识别,得到所述唯一帧画面对应的文字信息;
所述字幕生成模块,用于对所述文字信息进行处理生成字幕信息。
CN201610681287.8A 2016-08-17 2016-08-17 一种媒体文件字幕的识别方法、装置及电子设备 Pending CN106295592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610681287.8A CN106295592A (zh) 2016-08-17 2016-08-17 一种媒体文件字幕的识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610681287.8A CN106295592A (zh) 2016-08-17 2016-08-17 一种媒体文件字幕的识别方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN106295592A true CN106295592A (zh) 2017-01-04

Family

ID=57679560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610681287.8A Pending CN106295592A (zh) 2016-08-17 2016-08-17 一种媒体文件字幕的识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN106295592A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112925905A (zh) * 2021-01-28 2021-06-08 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN114071184A (zh) * 2021-11-11 2022-02-18 腾讯音乐娱乐科技(深圳)有限公司 一种字幕定位方法、电子设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761205A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机***工程有限公司 基于内容的网络色情图像和不良图像检测***
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
CN102004916A (zh) * 2010-11-15 2011-04-06 无锡中星微电子有限公司 图像特征提取***及其方法
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103186780A (zh) * 2011-12-30 2013-07-03 乐金电子(中国)研究开发中心有限公司 视频字幕识别方法及装置
CN103607635A (zh) * 2013-10-08 2014-02-26 十分(北京)信息科技有限公司 一种字幕识别方法、装置和终端
CN103634605A (zh) * 2013-12-04 2014-03-12 百度在线网络技术(北京)有限公司 视频画面的处理方法及装置
CN104021385A (zh) * 2013-03-02 2014-09-03 北京信息科技大学 基于模板匹配及曲线拟合的视频字幕细化方法
CN104244107A (zh) * 2014-08-26 2014-12-24 中译语通科技(北京)有限公司 一种基于字幕检测与识别的视频字幕还原方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761205A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机***工程有限公司 基于内容的网络色情图像和不良图像检测***
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
CN102004916A (zh) * 2010-11-15 2011-04-06 无锡中星微电子有限公司 图像特征提取***及其方法
CN103186780A (zh) * 2011-12-30 2013-07-03 乐金电子(中国)研究开发中心有限公司 视频字幕识别方法及装置
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN104021385A (zh) * 2013-03-02 2014-09-03 北京信息科技大学 基于模板匹配及曲线拟合的视频字幕细化方法
CN103607635A (zh) * 2013-10-08 2014-02-26 十分(北京)信息科技有限公司 一种字幕识别方法、装置和终端
CN103634605A (zh) * 2013-12-04 2014-03-12 百度在线网络技术(北京)有限公司 视频画面的处理方法及装置
CN104244107A (zh) * 2014-08-26 2014-12-24 中译语通科技(北京)有限公司 一种基于字幕检测与识别的视频字幕还原方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112925905A (zh) * 2021-01-28 2021-06-08 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN112925905B (zh) * 2021-01-28 2024-02-27 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN114071184A (zh) * 2021-11-11 2022-02-18 腾讯音乐娱乐科技(深圳)有限公司 一种字幕定位方法、电子设备及介质

Similar Documents

Publication Publication Date Title
CN106303303A (zh) 一种媒体文件字幕的翻译方法、装置及电子设备
US20190172193A1 (en) Method and apparatus for evaluating image definition, computer device and storage medium
US20090040215A1 (en) Interpreting Sign Language Gestures
CN107657255B (zh) 网络阅卷方法、装置、可读存储介质以及电子设备
CN109919244B (zh) 用于生成场景识别模型的方法和装置
CN111862035B (zh) 光斑检测模型的训练方法、光斑检测方法、设备及介质
CN105913088A (zh) 一种卡顿识别方法、装置及计算设备
CN111738041A (zh) 一种视频分割方法、装置、设备及介质
CN105718861A (zh) 一种识别视频流数据类别的方法及装置
CN103186780B (zh) 视频字幕识别方法及装置
CN110059624B (zh) 用于检测活体的方法和装置
CN106295592A (zh) 一种媒体文件字幕的识别方法、装置及电子设备
CN111028222A (zh) 视频检测方法和装置、计算机存储介质及相关设备
CN111898587A (zh) 一种视频打码处理方法和装置
CN105979283A (zh) 视频转码方法和装置
CN107483916A (zh) 音视频档案质量检测***的控制方法
CN109151520B (zh) 一种生成视频的方法、装置、电子设备及介质
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN110728193A (zh) 一种脸部图像丰富度特征的检测方法及设备
CN113095178A (zh) 不良信息检测方法、***、电子设备和可读存储介质
CN110475139B (zh) 一种视频字幕的遮挡方法、装置、存储介质及电子设备
CN112287790A (zh) 影像处理方法、装置、存储介质及电子设备
CN111369557A (zh) 图像处理方法、装置、计算设备和存储介质
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN113365145B (zh) 视频处理、视频播放方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication