CN114598921A - 视频帧提取方法、装置、终端设备和存储介质 - Google Patents

视频帧提取方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN114598921A
CN114598921A CN202210223894.5A CN202210223894A CN114598921A CN 114598921 A CN114598921 A CN 114598921A CN 202210223894 A CN202210223894 A CN 202210223894A CN 114598921 A CN114598921 A CN 114598921A
Authority
CN
China
Prior art keywords
video
processed
video frame
frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210223894.5A
Other languages
English (en)
Other versions
CN114598921B (zh
Inventor
李�浩
李富强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202210223894.5A priority Critical patent/CN114598921B/zh
Publication of CN114598921A publication Critical patent/CN114598921A/zh
Application granted granted Critical
Publication of CN114598921B publication Critical patent/CN114598921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种视频帧提取方法、装置、终端设备和存储介质,其中方法包括:从待处理视频流中提取多个待处理视频帧;对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧,能够以较快的速度处理视频流提取所需代表帧,提升效率并且减少人力成本和时间成本。

Description

视频帧提取方法、装置、终端设备和存储介质
技术领域
本发明涉及视频处理技术领域,尤其是涉及一种视频帧提取方法、装置、终端设备和存储介质。
背景技术
随着科技的发展和一些环境影响,通过视频传递信息的方式应用广泛,比如网课或直播。在真人家教视频辅导场景中,教师在视频中以PPT文档的形式对学生进行知识点的讲解,在视频播放中教师往往会来回走动,这会遮挡住背后文档中的题目信息。
而对于该类视频常常需要提取适当的视频页面,用于视频辅导封面介绍和课程宣传等。通常要提取该类视频页面,需要人工在视频流中逐一筛选、截取,依靠人眼的判别去分析出无遮挡的页面,筛选效率低,耗费大量的人力和时间成本。
发明内容
本申请提供了一种视频帧提取方法、装置、终端设备和存储介质。
第一方面,提供了一种视频帧提取方法,所述方法包括:
从待处理视频流中提取多个待处理视频帧;
对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;
从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧。
可选的,所述从所述多个待处理视频帧中确定目标视频帧,包括:
步骤S1、构建视频帧字典,所述视频帧字典的键为第一视频帧的文本行矩形的最大宽度值,所述视频帧字典的值为所述第一视频帧,所述第一视频帧属于所述待处理视频帧;
步骤S2、获取第二视频帧的文本行矩形的最大宽度值,所述第二视频帧为所述多个待处理视频帧中所述第一视频帧的下一帧;
步骤S3、若所述第二视频帧的文本行矩形的最大宽度值大于所述视频帧字典的键,更新所述视频帧字典;若所述第二视频帧的文本行矩形的最大宽度值不大于所述视频帧字典的键,不更新所述视频帧字典;
步骤S4、将所述第二视频帧作为所述第一视频帧;
重复步骤S2-步骤S4,直到全部所述待处理视频帧处理完毕,确定所述目标视频帧,所述目标视频帧为所述视频帧字典的值。
可选的,所述更新所述视频帧字典,包括:
更新所述视频帧字典的键为所述第二视频帧的文本行矩形的最大宽度值;
更新所述视频帧字典的值为所述第二视频帧的视频帧。
可选的,所述对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值,包括:
对所述多个待处理视频帧进行文本行检测处理,获得所述每个待处理视频帧中的文本行;
获取文本行矩形,所述文本行矩形为所述文本行的最小包围矩形;
计算所述每个待处理视频帧中所有的文本行矩形的宽度,获得所述每个待处理视频帧的文本行矩形的最大宽度值。
可选的,所述从待处理视频流中提取多个待处理视频帧,包括:
按照预设提取规则对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧,所述多个待处理视频帧的数量小于所述待处理视频流中全部视频帧的数量。
可选的,所述按照预设提取规则对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧,包括:
基于预设差帧数N,按照每N帧提取一视频帧的方式对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧,所述N为大于1的整数;或者,
按照预设时长间隔,对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧。
可选的,所述方法还包括:
对所述多个待处理视频帧进行文本识别处理,确定所述多个待处理视频帧中是否包含同类帧,所述同类帧的帧内文字内容相同;
在所述多个待处理视频帧中包含同类帧的情况下,对所述同类帧进行文本行检测处理,获得所述同类帧中每一帧的文本行矩形的宽度总和;
从所述同类帧中确定代表视频帧,所述代表视频帧为所述同类帧中文本行矩形的宽度总和最大的视频帧。
第二方面,提供了一种视频帧提取装置,包括:
帧提取模块,用于从待处理视频流中提取多个待处理视频帧;
文本行检测模块,对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;
确定模块,用于从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧。
第三方面,提供了一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面及其任一种可能的实现方式的步骤。
第四方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如上述第一方面及其任一种可能的实现方式的步骤。
本申请通过从待处理视频流中提取多个待处理视频帧;对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧,能够以较快的速度处理视频流提取所需代表帧,提升效率,并且减少人力成本和时间成本。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种视频帧提取方法的流程示意图;
图2为本申请实施例提供的一种待处理的某一视频帧示意图;
图3为本申请实施例提供的另一种待处理的某一视频帧示意图;
图4为本申请实施例提供的一种视频帧文本行检测示意图;
图5为本申请实施例提供的一种目标视频帧确定方法的流程示意图;
图6为本申请实施例提供的一种视频帧提取装置的结构示意图;
图7为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种视频帧提取方法的流程示意图。该方法可包括:
101、从待处理视频流中提取多个待处理视频帧。
本申请实施例的执行主体可以为一种视频帧提取装置,具体实现中,可以为一种电子设备或终端设备,包括但不限于台式计算机,或者膝上型计算机、平板计算机之类的其它便携式设备。
在一种可选的实施方式中,在上述从待处理视频流中提取多个待处理视频帧之前,上述方法还包括:
获取实时拍摄的视频流作为上述待处理视频流;或者,
获取历史生成的视频流作为上述待处理视频流。
具体的,本申请实施例中的待处理视频流可以按照预设路径获取或手动选择文件。在实际应用中,上述待处理视频流文件可以是实时拍摄的真人家教视频,也可以是提前准备好的家教辅导视频文件,且视频文件的背景中含有教师讲解的在线文档PPT,本申请实施例对此不作限制。本申请实施例中的视频帧提取方法可以对这类视频文件进行处理,以从中自动提取适合的视频帧。
在一种可选的实施方式中,上述步骤101包括:
按照预设提取规则对上述待处理视频流进行差帧提取,获得上述多个待处理视频帧,上述多个待处理视频帧的数量小于上述待处理视频流中全部视频帧的数量。
具体的,由于视频流文件可能时长较长、帧数较多,视频流中也有大量的重复和近似的视频帧,因此为了提升处理速度,可采用差帧提取的方式获取视频帧。即间隔提取部分视频帧进行处理。上述预设提取规则可以根据需要进行设置。
可以参见图2和图3,图2和图3分别为本申请实施例提供的一种待处理的某一视频帧示意图,图2和图3为从同一视频流中提取的不同视频帧,该视频流为真人讲课视频,人物背后为课件PPT页面,此处图2和图3中的PPT页面相同,但图3中部分内容被人物遮挡。
进一步可选的,上述按照预设提取规则对上述待处理视频流进行差帧提取,获得上述多个待处理视频帧,包括:
基于预设差帧数N,按照每N帧提取一视频帧的方式对上述待处理视频流进行差帧提取,获得上述多个待处理视频帧,上述N为大于1的整数;或者,
按照预设时长间隔,对上述待处理视频流进行差帧提取,获得上述多个待处理视频帧。
本申请实施例中可以预先设置上述差帧数N,即可以按照每N帧提取一视频帧的方式进行差帧提取,获得多个待处理视频帧。该差帧数N可以根据需要设置,例如N=5或10,本申请实施例对此不作限制。若N=5则,每5帧提取一帧,举例来讲,可提取视频流中的第1帧、第6帧、第11帧...以此类推。
另外,也可以预先设置提取的时长间隔t,即在待处理视频流中每隔时长t提取一帧,来获得多个待处理视频帧。该时长间隔t可以根据需要设置,例如t=4s,本申请实施例对此不作限制。
102、对上述多个待处理视频帧进行文本行检测处理,获得每个上述待处理视频帧的文本行矩形的最大宽度值。
具体的,对于提取获得的待处理视频帧,可以进行文本行检测处理。本申请实施例中涉及到的文本行检测技术是在输入图像基础上,检测出所有可能的文本行区域。
可选的,本申请实施例中可以采用任意基于深度学习的文本行检测方案。
在一种可选的实施方式中,上述步骤102包括:
对上述多个待处理视频帧进行文本行检测处理,获得上述每个待处理视频帧中的文本行;
获取文本行矩形,上述文本行矩形为上述文本行的最小包围矩形;
计算上述每个待处理视频帧中所有的文本行矩形的宽度,获得上述每个待处理视频帧的文本行矩形的最大宽度值。
具体的,在文本行检测处理后确定文本行区域,找到其中每一文本行区域的最小包围矩形,此处称为文本行矩形。文本行矩形的宽度可以表示该行文本长度,因此可以获取每一视频帧中每个文本行矩形的宽度,并从中确定其中最大的一个宽度值,即该待处理视频帧的文本行矩形的最大宽度值。
在一种实施方式中,可以通过获取文本行矩形的左上角坐标和右下角坐标,从而计算出文本行矩形的宽度。
举例来讲,可以参见图4所示的一种视频帧文本行检测示意图,如图4所示,是对该视频帧进行文本行检测后,得到在该帧页面中所出现过的所有文本行,获取文本行的最小包围矩形框(如图中矩形框所示),可以计算得到该矩形框的宽度,即文本行矩形的宽度。例如,对于某一个文本行text_line,其最小包围矩形框的左上角坐标为(xmin,ymin),右下角坐标为(xmax,ymax),那么该文本行矩形的宽度为:xmax-ymin
103、从上述多个待处理视频帧中确定目标视频帧,上述目标视频帧为上述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧。
具体的,本申请实施例中可以获取每个待处理视频帧中文本行矩形的最大宽度值,并从中保留该值最大的一个视频帧,作为上述目标视频帧。视频帧中文本行矩形的最大宽度值,在一定程度上可以反应画面中文本的遮挡情况,文本行矩形的最大宽度值越小,可能存在更多的文本被遮挡,比如图2的文本行矩形的最大宽度值大于图3的文本行矩形的最大宽度值,优先选择图2所示的视频帧。
该目标视频帧即为最终需要提取的视频帧,可以用作视频代表画面,比如可以提取该目标视频帧,作为视频辅导封面介绍或课程宣传;也可以保存目标视频帧,作为学习资料等使用。
需要注意的是,本申请实施例中的视频帧提取方法,该待处理视频流可以为同一文字背景的视频流A,比如在讲解同一PPT页面a时的视频片段,则可以通过上述视频帧提取方法,提取出该段视频片段中未被遮挡的(或者说遮挡相对最少的)一帧,作为代表视频帧,可以更全面地展示该视频流A或者说该PPT页面a的内容。
对于包含不同文字背景的视频流B,可以看做存在多个PPT页面的视频片段集合。则可以先识别页面文字,根据文字背景的变化划分多个视频片段,针对每个视频片段,可以独立执行上述视频帧提取方法,以获得每个视频片段的代表视频帧,可以保存所有提取的代表视频帧,也可以进一步从这些代表视频帧中选择一帧作为最终该视频流B的代表视频帧。
其中,上述步骤103还可以参考图5所示实施例中的具体描述,此处不再赘述。
本申请实施例中,通过从待处理视频流中提取多个待处理视频帧;对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧,能够以较快的速度处理视频流提取所需代表帧,可以批量自动化的处理,提升效率,并且减少人力成本和时间成本。
图5为本申请实施例提供的一种目标视频帧确定方法的流程示意图,如图5所示,该方法为图1所示实施例中步骤103的一种可选实施方式。
501、构建视频帧字典,上述视频帧字典的键为第一视频帧的文本行矩形的最大宽度值,上述视频帧字典的值为上述第一视频帧,上述第一视频帧属于上述待处理视频帧;
502、获取第二视频帧的文本行矩形的最大宽度值,上述第二视频帧为上述多个待处理视频帧中上述第一视频帧的下一帧;
503、若上述第二视频帧的文本行矩形的最大宽度值大于上述视频帧字典的键,更新上述视频帧字典;若上述第二视频帧的文本行矩形的最大宽度值不大于上述视频帧字典的键,不更新上述视频帧字典;
504、将上述第二视频帧作为上述第一视频帧;
505、重复步骤502-步骤504,直到全部上述待处理视频帧处理完毕,确定上述目标视频帧,上述目标视频帧为上述视频帧字典的值。
在已获取每一帧中的文本行矩形的最大宽度值(即xmax-ymin)之后,可以构建一个视频帧字典,其中字典的键是文本行矩形的最大宽度值(max_rectangle_length),字典的值是对应的该视频帧页面(img_data),该字典具体可表示如下:
dict={“max_rectangle_lenhth”:“img_data”};
依次对待处理视频帧进行处理,即将第一视频帧及其文本行矩形的最大宽度值代入上述字典,然后循环上述方法处理下一视频帧(第二视频帧),继续提取第二视频帧中的文本行矩形的最大宽度值,如果第二视频帧中的文本行矩形的最大宽度值不大于已有字典中的文本行宽度值,那么就保持该字典不变;如果该文本行宽度值大于已有字典中的文本行宽度值,那么就更新该字典。
在一种实施方式中,上述更新上述视频帧字典,包括:
更新上述视频帧字典的键为上述第二视频帧的文本行矩形的最大宽度值;
更新上述视频帧字典的值为上述第二视频帧的视频帧。
对待处理视频帧依次进行处理,直至处理完全部的待处理视频帧,获得最后更新完毕的字典。此时该字典中的键就是该待处理视频帧中出现过的最大的文本行矩形的宽度,该字典的值就是所对应的需要提取的视频帧——上述目标视频帧,可以表示为:
final_dict={“find_max_rectangle_length”:“final_img_data”};
在一种可选的实施方式中,该方法还包括:
601、对多个待处理视频帧进行文本识别处理,确定上述多个待处理视频帧中是否包含同类帧,上述同类帧的帧内文字内容相同;
602、在上述多个待处理视频帧中包含同类帧的情况下,对上述同类帧进行文本行检测处理,获得上述同类帧中每一帧的文本行矩形的宽度总和;
603、从上述同类帧中确定代表视频帧,上述代表视频帧为上述同类帧中文本行矩形的宽度总和最大的视频帧。
其中,上述同类帧指的就是包含相同文字背景的视频帧。前述实施例中已经提到,对于包含不同文字背景的视频流B,可以看做存在多个PPT页面的视频片段集合。则可以先识别页面文字,根据文字背景的变化划分多个视频片段;针对每个视频片段,可以独立执行上述视频帧提取方法,此时提取出来的即为同类帧,以从中确定该视频片段的代表视频帧。可以保存所有提取的代表视频帧,也可以进一步从这些代表视频帧中选择一帧作为最终该视频流B的代表视频帧。
可选的,本申请实施例中可以选择任意文本识别算法执行上述文本识别处理的步骤。其中,上述602步骤中的文本行检测处理和同类帧中每一帧的文本行矩形的宽度总和计算,可以参考图1和图4所示实施例中的相关具体描述,包括如何获取视频帧中文本行矩形的宽度,即只需要将一个视频帧中检测到的所有文本行矩形的宽度相加,获得每一帧的文本行矩形的宽度总和,此处不再赘述。
进一步的,可以选取同类帧中文本行矩形的宽度总和最大的视频帧,作为同类帧的代表视频帧,即可以达到在相同文字背景的视频片段中,提取无遮挡或最小遮挡的视频帧的效果。
基于上述视频帧提取方法实施例的描述,本申请实施例还公开了一种视频帧提取装置。请参见图6,视频帧提取装置600包括:
帧提取模块610,用于从待处理视频流中提取多个待处理视频帧;
文本行检测模块620,对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;
确定模块630,用于从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧。
根据本申请的一个实施例,图1和图5所示的方法所涉及的各个步骤均可以是由图6所示的视频帧提取装置600中的各个模块执行的,此处不再赘述。
本申请实施例中的视频帧提取装置600,可以从待处理视频流中提取多个待处理视频帧;对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧,能够以较快的速度处理视频流提取所需代表帧,可以批量自动化的处理,提升效率,并且减少人力成本和时间成本。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种终端设备。请参见图7,该终端设备700至少包括处理器701、输入设备702、输出设备703以及计算机存储介质704。其中,终端设备700内的处理器701、输入设备702、输出设备703以及计算机存储介质704可通过总线或其他方式连接。
计算机存储介质704可以存储在终端设备700的存储器中,上述计算机存储介质704用于存储计算机程序,上述计算机程序包括程序指令,上述处理器701用于执行上述计算机存储介质704存储的程序指令。处理器701(或称CPU(Central Processing Unit,中央处理器))是终端设备700的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例上述的处理器701可以用于进行一系列的处理,包括如图1和图5所示实施例中方法等等。
本申请实施例还提供了一种计算机存储介质(Memory),上述计算机存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端设备的操作***。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器701加载并执行计算机存储介质中存放的一条或多条指令,以实现上述实施例中的相应步骤;具体实现中,计算机存储介质中的一条或多条指令可以由处理器701加载并执行图1和/或图5中方法的任意步骤,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器,或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

Claims (10)

1.一种视频帧提取方法,其特征在于,所述方法包括:
从待处理视频流中提取多个待处理视频帧;
对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;
从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧。
2.根据权利要求1所述的视频帧提取方法,其特征在于,所述从所述多个待处理视频帧中确定目标视频帧,包括:
步骤S1、构建视频帧字典,所述视频帧字典的键为第一视频帧的文本行矩形的最大宽度值,所述视频帧字典的值为所述第一视频帧,所述第一视频帧属于所述待处理视频帧;
步骤S2、获取第二视频帧的文本行矩形的最大宽度值,所述第二视频帧为所述多个待处理视频帧中所述第一视频帧的下一帧;
步骤S3、若所述第二视频帧的文本行矩形的最大宽度值大于所述视频帧字典的键,更新所述视频帧字典;若所述第二视频帧的文本行矩形的最大宽度值不大于所述视频帧字典的键,不更新所述视频帧字典;
步骤S4、将所述第二视频帧作为所述第一视频帧;
重复步骤S2-步骤S4,直到全部所述待处理视频帧处理完毕,确定所述目标视频帧,所述目标视频帧为所述视频帧字典的值。
3.根据权利要求2所述的视频帧提取方法,其特征在于,所述更新所述视频帧字典,包括:
更新所述视频帧字典的键为所述第二视频帧的文本行矩形的最大宽度值;
更新所述视频帧字典的值为所述第二视频帧的视频帧。
4.根据权利要求1所述的视频帧提取方法,其特征在于,所述对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值,包括:
对所述多个待处理视频帧进行文本行检测处理,获得所述每个待处理视频帧中的文本行;
获取文本行矩形,所述文本行矩形为所述文本行的最小包围矩形;
计算所述每个待处理视频帧中所有的文本行矩形的宽度,获得所述每个待处理视频帧的文本行矩形的最大宽度值。
5.根据权利要求1-4任一项所述的视频帧提取方法,其特征在于,所述从待处理视频流中提取多个待处理视频帧,包括:
按照预设提取规则对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧,所述多个待处理视频帧的数量小于所述待处理视频流中全部视频帧的数量。
6.根据权利要求5所述的视频帧提取方法,其特征在于,所述按照预设提取规则对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧,包括:
基于预设差帧数N,按照每N帧提取一视频帧的方式对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧,所述N为大于1的整数;或者,
按照预设时长间隔,对所述待处理视频流进行差帧提取,获得所述多个待处理视频帧。
7.根据权利要求1所述的视频帧提取方法,其特征在于,所述方法还包括:
对所述多个待处理视频帧进行文本识别处理,确定所述多个待处理视频帧中是否包含同类帧,所述同类帧的帧内文字内容相同;
在所述多个待处理视频帧中包含同类帧的情况下,对所述同类帧进行文本行检测处理,获得所述同类帧中每一帧的文本行矩形的宽度总和;
从所述同类帧中确定代表视频帧,所述代表视频帧为所述同类帧中文本行矩形的宽度总和最大的视频帧。
8.一种视频帧提取装置,其特征在于,包括:
帧提取模块,用于从待处理视频流中提取多个待处理视频帧;
文本行检测模块,对所述多个待处理视频帧进行文本行检测处理,获得每个所述待处理视频帧的文本行矩形的最大宽度值;
确定模块,用于从所述多个待处理视频帧中确定目标视频帧,所述目标视频帧为所述多个待处理视频帧中文本行矩形的最大宽度值最大的视频帧。
9.一种终端设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的视频帧提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的视频帧提取方法的步骤。
CN202210223894.5A 2022-03-07 2022-03-07 视频帧提取方法、装置、终端设备和存储介质 Active CN114598921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210223894.5A CN114598921B (zh) 2022-03-07 2022-03-07 视频帧提取方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210223894.5A CN114598921B (zh) 2022-03-07 2022-03-07 视频帧提取方法、装置、终端设备和存储介质

Publications (2)

Publication Number Publication Date
CN114598921A true CN114598921A (zh) 2022-06-07
CN114598921B CN114598921B (zh) 2024-04-12

Family

ID=81807060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210223894.5A Active CN114598921B (zh) 2022-03-07 2022-03-07 视频帧提取方法、装置、终端设备和存储介质

Country Status (1)

Country Link
CN (1) CN114598921B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090417A (zh) * 2023-04-11 2023-05-09 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937766B1 (en) * 1999-04-15 2005-08-30 MATE—Media Access Technologies Ltd. Method of indexing and searching images of text in video
CN111768346A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN113033552A (zh) * 2021-03-19 2021-06-25 北京字跳网络技术有限公司 文本识别方法、装置和电子设备
CN113408241A (zh) * 2021-07-16 2021-09-17 网易(杭州)网络有限公司 文本数据的处理方法、装置、电子设备及可读介质
CN113591530A (zh) * 2021-02-24 2021-11-02 腾讯科技(深圳)有限公司 一种视频检测方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937766B1 (en) * 1999-04-15 2005-08-30 MATE—Media Access Technologies Ltd. Method of indexing and searching images of text in video
CN111768346A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN113591530A (zh) * 2021-02-24 2021-11-02 腾讯科技(深圳)有限公司 一种视频检测方法、装置、电子设备和存储介质
CN113033552A (zh) * 2021-03-19 2021-06-25 北京字跳网络技术有限公司 文本识别方法、装置和电子设备
CN113408241A (zh) * 2021-07-16 2021-09-17 网易(杭州)网络有限公司 文本数据的处理方法、装置、电子设备及可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090417A (zh) * 2023-04-11 2023-05-09 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114598921B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN107181976B (zh) 一种弹幕显示方法及电子设备
CN111327945B (zh) 用于分割视频的方法和装置
CN109803180B (zh) 视频预览图生成方法、装置、计算机设备及存储介质
JP6970145B2 (ja) 音声出力方法および装置
CN110225366B (zh) 视频数据处理及广告位确定方法、装置、介质及电子设备
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN110688524B (zh) 视频检索方法、装置、电子设备及存储介质
CN110083740B (zh) 视频指纹提取及视频检索方法、装置、终端及存储介质
JP7331146B2 (ja) サブタイトルのクロスボーダーの処理方法、装置及び電子装置
CN107395594A (zh) 一种拖拽验证码的自动识别方法
CN111385665A (zh) 弹幕信息的处理方法、装置、设备及存储介质
EP3408752B1 (en) Object management and visualization using a computing device
CN114598921A (zh) 视频帧提取方法、装置、终端设备和存储介质
CN108921792B (zh) 用于处理图片的方法和装置
EP3564833A1 (en) Method and device for identifying main picture in web page
CN109522429B (zh) 用于生成信息的方法和装置
CN112215221A (zh) 一种车架号自动识别方法
CN111127310B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN113391779B (zh) 类纸屏幕的参数调节方法、装置及设备
CN111208955A (zh) 打印方法、装置及服务器
CN113762307A (zh) 一种图像识别方法和装置
CN113676734A (zh) 图像压缩方法和图像压缩装置
CN114640876A (zh) 多媒体业务视频显示方法、装置、计算机设备及存储介质
CN108376161B (zh) 显示网页的方法、装置、终端及存储介质
CN111083552A (zh) 一种缩略图生成方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant