CN109583443B - 一种基于文字识别的视频内容判断方法 - Google Patents

一种基于文字识别的视频内容判断方法 Download PDF

Info

Publication number
CN109583443B
CN109583443B CN201811360543.9A CN201811360543A CN109583443B CN 109583443 B CN109583443 B CN 109583443B CN 201811360543 A CN201811360543 A CN 201811360543A CN 109583443 B CN109583443 B CN 109583443B
Authority
CN
China
Prior art keywords
character
training
image
files
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811360543.9A
Other languages
English (en)
Other versions
CN109583443A (zh
Inventor
周建波
高岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811360543.9A priority Critical patent/CN109583443B/zh
Publication of CN109583443A publication Critical patent/CN109583443A/zh
Application granted granted Critical
Publication of CN109583443B publication Critical patent/CN109583443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于文字识别的视频内容判断方法,包括步骤:A.对视频画面进行截图;B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;C.检测到文字区域后,调用预先训练完毕的文字识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容;D.针对识别出的文字内容,进行自然语言处理,理解其语义,做出相应的视频播放设置。本发明的视频内容判断方法能够实时运行在嵌入式平台上,能够识别出视频中文字信息,并根据文字信息的提示,进行场景设置。

Description

一种基于文字识别的视频内容判断方法
技术领域
本发明涉及图像识别技术领域,特别涉及一种基于文字识别的视频内容判断方法。
背景技术
随着人工智能技术的大力发展,人工智能已逐渐进入到人类生活的各个方面。利用人工智能技术,使电视具备智能化,可以大大改善用户的使用体验,使人们的生活变得更加的便利。
电视中视频图像信息,往往包含着大量的信息内容。在一帧图像中,除了图像画面,还可能包含文字信息,这些文字信息通常是对当前播放场景重要信息的显示。对比于***的图像信息,分析文字信息,通常更容易了解到当前播放是哪一种场景。
目前大部分产品的人工智能技术都是运行在互联网的云服务器端,因为搭载Android***本身的硬件条件限制,无法运行大规模的计算,也不能占据太多的资源,如CPU的占用,因此,暂时没有较好的针对运行在嵌入式平台上的图像场景中文字识别的技术方案。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于文字识别的视频内容判断方法,实现能够实时运行在嵌入式平台上,能够识别出视频中文字信息,并根据文字信息的提示,进行场景设置(图像或语音设置),适用于特定的领域,如电视领域等。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于文字识别的视频内容判断方法,包括以下步骤:
A.对视频画面进行截图;
B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;
C.检测到文字区域后,调用预先训练完毕的文字识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容;
D.针对识别出的文字内容,进行自然语言处理,理解其语义,做出相应的视频播放设置。
进一步地,所述步骤A中还包括对截图画面进行需要文字识别的若干图像区域的划分设置;
所述步骤B具体为:
B1.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;
B2.若检测到的文字区域,在预先设定的需要文字识别的图像区域,则进入步骤C,否则,返回步骤A。
进一步地,所述步骤B中的文字检测模型为卷积神经网络。
进一步地,所述卷积神经网络为基于tensorflow的mobilenet-ssd神经网络。
进一步地,对所述卷积神经网络的训练步骤过程如下:
S1.针对神经网络输入特点,收集预设数量的有文字内容的视频图像样本;
S2.对每一张有文字内容的视频图像样本,至少提取出文字所在区域的矩形框坐标、文字内容、文字语言类别的信息以及图像样本本身的图像大小和图像格式信息;
S3.针对步骤S1及步骤S2获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件,其中,训练文件和验证文件的图像不同,训练文件和验证文件存储的图像格式和图像信息格式相同;
S4.利用训练文件对模型进行训练,以生成预先确定的文字检测模型,并利用验证文件对生成的文字检测模型进行验证;
S5.若验证准确率大于或等于预设阈值,或者训练步数达到一定的步数,则训练完成;
S6.若验证准确率低于预设阈值,则增加有文字内容的视频图像样本,或者调试模型参数,并重复执行上述步骤S1至步骤S4,直到训练完成。
进一步地,所述步骤C中的文字识别模型为基于注意力模型的卷积循环神经网络。
进一步地,所述基于注意力模型的卷积循环神经网络为基于tensorflow的Attention-CRNN神经网络。
进一步地,所述基于注意力模型的卷积循环神经网络的训练步骤如下:
S101.创建中文字典,并裁剪文字检测模型中使用的视频图像样本中的文字区域图像,生成文字图像样本数据集;
S102.将样本数据集结合中文字典,生成训练所需要的tfrecord格式文件,同样分为训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同;
S103.利用训练文件对模型进行训练,以生成预先确定的文字识别模型,并利用验证文件对生成的文字识别模型进行验证;
S104.若验证准确率大于或等于预设阈值,或者训练步数达到一定的步数,则训练完成;
S105.若验证准确率低于预设阈值,则增加有文字内容的视频图像样本,或者调试模型参数,重复执行上述步骤S101至S103,直到训练完成。
进一步地,所述步骤D具体包括以下步骤:
D1.对识别的文字进行分词,分成单个的词组;
D2.对每个词组与预先确定的词组表进行关键字匹配;
D3.若当前图像中有词组为预先确定的词组,且持续数帧图像皆为该预先确定的词组,则判断当前图像场景为该预先确定的词组场景,并进行对应的场景处理。
本发明与现有技术相比,具有以下的有益效果:
在本发明的基于文字识别的视频内容判断方法中,可通过自动对视频图像中的文字进行识别,来判断当前视频图像展示的内容,并做出相应的场景内容处理,本发明的基于文字识别的视频内容判断方法能够实时运行在嵌入式平台上,当应用于Android智能电视时,可使Android智能电视更加智能,让用户更能感受到Android智能电视带来的乐趣,从而提升用户的满意程度。
附图说明
图1是本发明的一个实施例中基于文字识别的视频内容判断方法的流程示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
如图1所示,一种基于文字识别的视频内容判断方法,本实施例中将该方法应用于智能电视***,主要包括以下步骤流程:
步骤1:对视频画面进行截图:
当电视***检测到有视频流,便每隔1s从视频流中截取一帧当前的视频图像,视频图像为1080P(大小:1920*1080)。同时,后台程序获取图像后,通过图像缩放技术,统一生成宽度为640,高度为360大小的图像,送入到预先训练的文字检测模型中进行检测。
步骤2:调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域:
预先训练完毕的文字检测模型对图像进行文字区域的分析,自动找到画面中的文字区域,给出文字区域的坐标和宽高,得到若干文字区域。
为了提高效率,通常会预先设置好需要进行文字识别的若干图像区域。当检测到的文字区域,在预先设定的需要文字识别的图像区域内,则进入下一步进行文字识别;若检测到的文字区域,不在预先设定的需要文字识别的图像区域内,则不进行下一步的文字识别,直接对下一帧图像进行文字检测识别。
本实施例中,对于检测到的文字区域,会对图片进行缩放,方法如下:
对于横向文字区域,固定高度为150,当宽度小于600,则填充图像到宽度为600。当宽度大于600,则将图像裁为多张500*150的图像(其中,第一张图像特殊,裁为550*150),在边缘处会做特殊处理,即将原图像待裁边缘处,左右各取50*150放入到新裁剪的图像中。最后一张图像若不到600宽度,则填充到600宽度。最终将文字区域图像生成若干600*150的图像。
对于竖向文字区域,则根据字体比例约为0.7~1的原则和文字区域长宽比,将文字裁为单个文字来做识别,裁完单个文字图像后,缩放图像固定高度为150,填充图像宽度到600。最后生成若干文字区域图像。
步骤3:检测到文字区域后,调用预先训练完毕的文字识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容:
调用预先训练完毕的中文文本识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容。
步骤4:针对识别出的文字内容,进行自然语言处理,理解其语义,做出相应的视频播放设置:
具体包括以下步骤:
步骤4.1.对识别的文字进行分词,分成单个的词组;
步骤4.2.对每个词组与预先确定的词组表进行关键字匹配;
步骤4.3.若当前图像中有词组为预先确定的词组,且持续数帧图像皆为该预先确定的词组,则判断当前图像场景为该预先确定的词组场景,并进行对应的场景处理。
具体的,本实施例中,对于文字内容,会预先定义的文字有“广告”、“新闻”等词组。这些词组皆可表示当前视频播放的图像内容类别。针对提取出的文字内容,进行自然语言处理,如分词,词组匹配等。当连续几帧皆在同一个位置检测到预先定义的词组如“广告”或“新闻”词组,则认定当前场景为广告或新闻等场景,再根据不同的场景后续做出相应的视频播放设置。
具体的,上述预先训练完毕的文字检测模型为卷积神经网络,且本实施例中是具体采用谷歌的基于tensorflow的mobilenet-ssd神经网络。该神经网络的训练过程如下:
A、针对神经网络输入特点,在电视播放视频中收集约5000张的有文字内容的视频图像样本,统一设置为640*360的大小;
B、对每一张有文字内容的视频图像样本,提取出文字所在区域的矩形框坐标、文字内容、文字语言类别等信息以及图像样本本身的图像大小和图像格式等信息;
C、针对上述两步获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同。
D、利用训练文件对模型进行训练,以生成预先确定的文字检测模型,并利用验证文件对生成的文字检测模型进行验证;
E、若验证准确率大于或等于预设阈值(本实施例中预设的验证准确率阈值为95%),或者训练步数达到一定的步数(2万步),则训练完成;
F、若验证准确率低于预设阈值(95%),则增加有文字内容的视频图像样本,或者调试模型参数,重复执行上述步骤A、B、C、D、E,直到训练完成。
G、生成tflite模型文件,以供android程序调用。
具体的,上述预先训练完毕的文字识别模型为基于注意力模型的卷积循环神经网络,本实施例中具体采用谷歌的基于tensorflow的Attention-CRNN神经网络。虽然,Attention-CRNN是由几个不同的神经网络及部件(CNN、RNN、Attention)构成的,但它们可以使用同一个损失函数进行端到端训练。因此该模型可统一进行训练,其训练过程如下:
A、创建中文字典,中文字典包含5462个汉字。字典中只有两列,左边一列为序列号(0,1,……),右边一列为汉字(毖,恫,……);
B、裁剪文字检测模型中使用的视频图像样本中的文字区域图像,生成图像大小宽度为600、高度为150的文字图像样本数据集;
C、将样本数据集结合中文字典,生成训练所需要的tfrecord格式文件,同样分为训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同。
D、利用训练文件对模型进行训练,以生成预先确定的文字识别模型,并利用验证文件对生成的文字检测模型进行验证;
E、若验证准确率大于或等于预设阈值(本实施例中预设的验证准确率阈值为90%),或者训练步数达到一定的步数(2万步),则训练完成;
F、若验证准确率低于预设阈值(90%),则增加有文字内容的视频图像样本,或者调试模型参数,重复执行上述步骤A、B、C、D、E,直到训练完成。
G、生成tflite模型文件,以供android程序调用。。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (5)

1.一种基于文字识别的视频内容判断方法,其特征在于,包括以下步骤:
A.对视频画面进行截图;
B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;
C.检测到文字区域后,调用预先训练完毕的文字识别模型,循环对每一块文字区域进行文字识别,识别出每个文字区域的文字内容;
D.针对识别出的文字内容,进行自然语言处理,理解其语义,做出相应的视频播放设置;
所述步骤A中还包括对截图画面进行需要文字识别的若干图像区域的划分设置;
所述步骤B具体为:
B1.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析,找到画面中的文字区域并分割出来,获得一块或多块文字区域;
B2.若检测到的文字区域,在预先设定的需要文字识别的图像区域,则进入步骤C,否则,返回步骤A;
所述步骤B中的文字检测模型为基于tensorflow的mobilenet-ssd神经网络的卷积神经网络;对所述卷积神经网络的训练步骤过程如下:
S1.针对神经网络输入特点,收集预设数量的有文字内容的视频图像样本;
S2.对每一张有文字内容的视频图像样本,至少提取出文字所在区域的矩形框坐标、文字内容、文字语言类别的信息以及图像样本本身的图像大小和图像格式信息;
S3.针对步骤S1及步骤S2获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件,其中,训练文件和验证文件的图像不同,训练文件和验证文件存储的图像格式和图像信息格式相同;
S4.利用训练文件对模型进行训练,以生成预先确定的文字检测模型,并利用验证文件对生成的文字检测模型进行验证;
S5.若验证准确率大于或等于预设阈值,或者训练步数达到一定的步数,则训练完成;
S6.若验证准确率低于预设阈值,则增加有文字内容的视频图像样本,或者调试模型参数,并重复执行上述步骤,直到训练完成。
2.根据权利要求1所述的一种基于文字识别的视频内容判断方法,其特征在于,所述步骤C中的文字识别模型为基于注意力模型的卷积循环神经网络。
3.根据权利要求2所述的一种基于文字识别的视频内容判断方法,其特征在于,所述基于注意力模型的卷积循环神经网络为基于tensorflow的Attention-CRNN神经网络。
4.根据权利要求3所述的一种基于文字识别的视频内容判断方法,其特征在于,所述基于注意力模型的卷积循环神经网络的训练步骤如下:
S101.创建中文字典,并裁剪文字检测模型中使用的视频图像样本中的文字区域图像,生成文字图像样本数据集;
S102.将样本数据集结合中文字典,生成训练所需要的tfrecord格式文件,同样分为训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同;
S103.利用训练文件对模型进行训练,以生成预先确定的文字识别模型,并利用验证文件对生成的文字识别模型进行验证;
S104.若验证准确率大于或等于预设阈值,或者训练步数达到一定的步数,则训练完成;
S105.若验证准确率低于预设阈值,则增加有文字内容的视频图像样本,或者调试模型参数,重复执行上述步骤,直到训练完成。
5.根据权利要求1至4中任一所述的一种基于文字识别的视频内容判断方法,其特征在于,所述步骤D具体包括以下步骤:
D1.对识别的文字进行分词,分成单个的词组;
D2.对每个词组与预先确定的词组表进行关键字匹配;
D3.若当前图像中有词组为预先确定的词组,且持续数帧图像皆为该预先确定的词组,则判断当前图像场景为该预先确定的词组场景,并进行对应的场景处理。
CN201811360543.9A 2018-11-15 2018-11-15 一种基于文字识别的视频内容判断方法 Active CN109583443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811360543.9A CN109583443B (zh) 2018-11-15 2018-11-15 一种基于文字识别的视频内容判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811360543.9A CN109583443B (zh) 2018-11-15 2018-11-15 一种基于文字识别的视频内容判断方法

Publications (2)

Publication Number Publication Date
CN109583443A CN109583443A (zh) 2019-04-05
CN109583443B true CN109583443B (zh) 2022-10-18

Family

ID=65922743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811360543.9A Active CN109583443B (zh) 2018-11-15 2018-11-15 一种基于文字识别的视频内容判断方法

Country Status (1)

Country Link
CN (1) CN109583443B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210299A (zh) * 2019-04-26 2019-09-06 平安科技(深圳)有限公司 语音训练数据生成方法、装置、设备及可读存储介质
CN111081105B (zh) * 2019-07-17 2022-07-08 广东小天才科技有限公司 一种黑屏待机状态下的听写检测方法及电子设备
CN110490232B (zh) * 2019-07-18 2021-08-13 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110458162B (zh) * 2019-07-25 2023-06-23 上海兑观信息科技技术有限公司 一种智能提取图像文字信息的方法
CN111147891B (zh) * 2019-12-31 2022-09-13 杭州威佩网络科技有限公司 视频画面中对象的信息的获取方法、装置及设备
CN111814642A (zh) * 2020-06-30 2020-10-23 北京玩在一起科技有限公司 一种电竞赛事数据的识别方法及***
CN113255689B (zh) * 2021-05-21 2024-03-19 北京有竹居网络技术有限公司 一种文本行图片的识别方法、装置和设备
CN115937855B (zh) * 2023-03-10 2023-06-06 四川语璐科技有限公司 一种基于大数据的智能设备控制方法及***

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003051031A2 (en) * 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
CN101667251A (zh) * 2008-09-05 2010-03-10 三星电子株式会社 具备辅助定位功能的ocr识别方法和装置
CN101692269A (zh) * 2009-10-16 2010-04-07 北京中星微电子有限公司 一种处理视频节目的方法和装置
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN103020618A (zh) * 2011-12-19 2013-04-03 北京捷成世纪科技股份有限公司 视频图像文字的检测方法及***
CN103336954A (zh) * 2013-07-08 2013-10-02 北京捷成世纪科技股份有限公司 一种视频中的台标识别方法和装置
CN103503463A (zh) * 2011-11-23 2014-01-08 华为技术有限公司 视频广告播放方法、设备和***
CN103544467A (zh) * 2013-04-23 2014-01-29 Tcl集团股份有限公司 一种台标检测识别的方法及其装置
CN105183758A (zh) * 2015-07-22 2015-12-23 深圳市万姓宗祠网络科技股份有限公司 一种连续记录视频、影像的内容识别方法
CN105516802A (zh) * 2015-11-19 2016-04-20 上海交通大学 多特征融合的新闻视频摘要提取方法
JP2016119552A (ja) * 2014-12-19 2016-06-30 三星電子株式会社Samsung Electronics Co.,Ltd. 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
CN106557768A (zh) * 2016-11-25 2017-04-05 北京小米移动软件有限公司 对图片中的文字进行识别的方法及装置
CN108182420A (zh) * 2018-01-24 2018-06-19 北京中科火眼科技有限公司 一种基于广告字样检测的广告定位方法
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
US8769584B2 (en) * 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
WO2015033500A1 (ja) * 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
CN107564034A (zh) * 2017-07-27 2018-01-09 华南理工大学 一种监控视频中多目标的行人检测与跟踪方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别***及识别方法
CN108460106A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种识别广告视频的方法和装置
CN108229442B (zh) * 2018-02-07 2022-03-11 西南科技大学 基于ms-kcf的图像序列中人脸快速稳定检测方法
CN108399161A (zh) * 2018-03-06 2018-08-14 平安科技(深圳)有限公司 广告图片鉴定方法、电子装置及可读存储介质
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003051031A2 (en) * 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
CN101667251A (zh) * 2008-09-05 2010-03-10 三星电子株式会社 具备辅助定位功能的ocr识别方法和装置
CN101692269A (zh) * 2009-10-16 2010-04-07 北京中星微电子有限公司 一种处理视频节目的方法和装置
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN103503463A (zh) * 2011-11-23 2014-01-08 华为技术有限公司 视频广告播放方法、设备和***
CN103020618A (zh) * 2011-12-19 2013-04-03 北京捷成世纪科技股份有限公司 视频图像文字的检测方法及***
CN103544467A (zh) * 2013-04-23 2014-01-29 Tcl集团股份有限公司 一种台标检测识别的方法及其装置
CN103336954A (zh) * 2013-07-08 2013-10-02 北京捷成世纪科技股份有限公司 一种视频中的台标识别方法和装置
JP2016119552A (ja) * 2014-12-19 2016-06-30 三星電子株式会社Samsung Electronics Co.,Ltd. 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN105183758A (zh) * 2015-07-22 2015-12-23 深圳市万姓宗祠网络科技股份有限公司 一种连续记录视频、影像的内容识别方法
CN105516802A (zh) * 2015-11-19 2016-04-20 上海交通大学 多特征融合的新闻视频摘要提取方法
CN106557768A (zh) * 2016-11-25 2017-04-05 北京小米移动软件有限公司 对图片中的文字进行识别的方法及装置
CN108182420A (zh) * 2018-01-24 2018-06-19 北京中科火眼科技有限公司 一种基于广告字样检测的广告定位方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
A Method of Caption Detection in News Video;He Huang 等;《3rd International Conference on Multimedia Technology ICMT 2013》;20131130(第2013期);502-509 *
Effects of Captioning on Video Comprehension and Incidental Vocabulary Learning;Maribel Montero Perez 等;《Language Learning & Technology》;20140228;第18卷(第01期);118-141 *
两阶段的视频字幕检测和提取算法;王智慧 等;《计算机科学》;20180815;第45卷(第08期);50-53 *
低分辨率自然场景文本识别;浦世亮 等;《中国安防》;20170901(第(2017)09期);94-101 *
基于卷积神经网络的航班跟踪视频关键信息识别;宁煜西 等;《空军预警学院学报》;20181015;第32卷(第05期);353-358 *
基于文本特征的视频检索和提取技术研究;张华;《电脑知识与技术》;20101025;第06卷(第30期);8609-8610 *
基于本体的视频语义内容分析;白亮 等;《计算机科学》;20090715;第36卷(第07期);170-174 *
基于深度学习的场景文字检测与识别;白翔 等;《中国科学:信息科学》;20180520;第48卷(第05期);51-64 *
数字视频中标题文字的检测与提取;李雪龙 等;《北京电子科技学院学报》;20071215;第15卷(第04期);23-27 *
视频中的文字探测;王辰 等;《小型微型计算机***》;20020421;第23卷(第04期);478-481 *

Also Published As

Publication number Publication date
CN109583443A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109583443B (zh) 一种基于文字识别的视频内容判断方法
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN106406806B (zh) 一种用于智能设备的控制方法及装置
EP4009231A1 (en) Video frame information labeling method, device and apparatus, and storage medium
CN106878632B (zh) 一种视频数据的处理方法和装置
CN108764480B (zh) 一种信息处理的***
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN111813998B (zh) 一种视频数据处理方法、装置、设备及存储介质
CN109086276B (zh) 数据翻译方法、装置、终端及存储介质
CN112399269B (zh) 视频分割方法、装置、设备及存储介质
US20240064383A1 (en) Method and Apparatus for Generating Video Corpus, and Related Device
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN114996506B (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN113705300A (zh) 音转文训练语料的获取方法、装置、设备以及存储介质
CN116962787A (zh) 一种基于视频信息的交互方法、装置、设备及存储介质
CN116524906A (zh) 用于语音识别的训练数据生成方法、***和电子设备
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
CN112668561B (zh) 教学类视频的切分确定方法和装置
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN112347764B (zh) 生成弹幕云的方法、装置和计算机设备
CN108021918B (zh) 文字识别方法及装置
CN112802469A (zh) 一种获取语音识别模型训练数据的方法及装置
CN112149564A (zh) 一种基于小样本学习的面容分类识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant