CN109583443B

CN109583443B - 一种基于文字识别的视频内容判断方法

Info

Publication number: CN109583443B
Application number: CN201811360543.9A
Authority: CN
Inventors: 周建波; 高岚
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2022-10-18
Anticipated expiration: 2038-11-15
Also published as: CN109583443A

Abstract

本发明公开了一种基于文字识别的视频内容判断方法，包括步骤：A.对视频画面进行截图；B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析，找到画面中的文字区域并分割出来，获得一块或多块文字区域；C.检测到文字区域后，调用预先训练完毕的文字识别模型，循环对每一块文字区域进行文字识别，识别出每个文字区域的文字内容；D.针对识别出的文字内容，进行自然语言处理，理解其语义，做出相应的视频播放设置。本发明的视频内容判断方法能够实时运行在嵌入式平台上，能够识别出视频中文字信息，并根据文字信息的提示，进行场景设置。

Description

一种基于文字识别的视频内容判断方法

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于文字识别的视频内容判断方法。

背景技术

随着人工智能技术的大力发展，人工智能已逐渐进入到人类生活的各个方面。利用人工智能技术，使电视具备智能化，可以大大改善用户的使用体验，使人们的生活变得更加的便利。

电视中视频图像信息，往往包含着大量的信息内容。在一帧图像中，除了图像画面，还可能包含文字信息，这些文字信息通常是对当前播放场景重要信息的显示。对比于***的图像信息，分析文字信息，通常更容易了解到当前播放是哪一种场景。

目前大部分产品的人工智能技术都是运行在互联网的云服务器端，因为搭载Android***本身的硬件条件限制，无法运行大规模的计算，也不能占据太多的资源，如CPU的占用，因此，暂时没有较好的针对运行在嵌入式平台上的图像场景中文字识别的技术方案。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种基于文字识别的视频内容判断方法，实现能够实时运行在嵌入式平台上，能够识别出视频中文字信息，并根据文字信息的提示，进行场景设置(图像或语音设置)，适用于特定的领域，如电视领域等。

为了达到上述的技术效果，本发明采取以下技术方案：

一种基于文字识别的视频内容判断方法，包括以下步骤：

A.对视频画面进行截图；

B.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析，找到画面中的文字区域并分割出来，获得一块或多块文字区域；

C.检测到文字区域后，调用预先训练完毕的文字识别模型，循环对每一块文字区域进行文字识别，识别出每个文字区域的文字内容；

D.针对识别出的文字内容，进行自然语言处理，理解其语义，做出相应的视频播放设置。

进一步地，所述步骤A中还包括对截图画面进行需要文字识别的若干图像区域的划分设置；

所述步骤B具体为：

B1.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析，找到画面中的文字区域并分割出来，获得一块或多块文字区域；

B2.若检测到的文字区域，在预先设定的需要文字识别的图像区域，则进入步骤C，否则，返回步骤A。

进一步地，所述步骤B中的文字检测模型为卷积神经网络。

进一步地，所述卷积神经网络为基于tensorflow的mobilenet-ssd神经网络。

进一步地，对所述卷积神经网络的训练步骤过程如下：

S1.针对神经网络输入特点，收集预设数量的有文字内容的视频图像样本；

S2.对每一张有文字内容的视频图像样本，至少提取出文字所在区域的矩形框坐标、文字内容、文字语言类别的信息以及图像样本本身的图像大小和图像格式信息；

S3.针对步骤S1及步骤S2获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件，其中，训练文件和验证文件的图像不同，训练文件和验证文件存储的图像格式和图像信息格式相同；

S4.利用训练文件对模型进行训练，以生成预先确定的文字检测模型，并利用验证文件对生成的文字检测模型进行验证；

S5.若验证准确率大于或等于预设阈值，或者训练步数达到一定的步数，则训练完成；

S6.若验证准确率低于预设阈值，则增加有文字内容的视频图像样本，或者调试模型参数，并重复执行上述步骤S1至步骤S4，直到训练完成。

进一步地，所述步骤C中的文字识别模型为基于注意力模型的卷积循环神经网络。

进一步地，所述基于注意力模型的卷积循环神经网络为基于tensorflow的Attention-CRNN神经网络。

进一步地，所述基于注意力模型的卷积循环神经网络的训练步骤如下：

S101.创建中文字典，并裁剪文字检测模型中使用的视频图像样本中的文字区域图像，生成文字图像样本数据集；

S102.将样本数据集结合中文字典，生成训练所需要的tfrecord格式文件，同样分为训练文件和验证文件，训练文件和验证文件的图像不同，但其存储的图像格式和图像信息格式相同；

S103.利用训练文件对模型进行训练，以生成预先确定的文字识别模型，并利用验证文件对生成的文字识别模型进行验证；

S104.若验证准确率大于或等于预设阈值，或者训练步数达到一定的步数，则训练完成；

S105.若验证准确率低于预设阈值，则增加有文字内容的视频图像样本，或者调试模型参数，重复执行上述步骤S101至S103，直到训练完成。

进一步地，所述步骤D具体包括以下步骤：

D1.对识别的文字进行分词，分成单个的词组；

D2.对每个词组与预先确定的词组表进行关键字匹配；

D3.若当前图像中有词组为预先确定的词组，且持续数帧图像皆为该预先确定的词组，则判断当前图像场景为该预先确定的词组场景，并进行对应的场景处理。

本发明与现有技术相比，具有以下的有益效果：

在本发明的基于文字识别的视频内容判断方法中，可通过自动对视频图像中的文字进行识别，来判断当前视频图像展示的内容，并做出相应的场景内容处理，本发明的基于文字识别的视频内容判断方法能够实时运行在嵌入式平台上，当应用于Android智能电视时，可使Android智能电视更加智能，让用户更能感受到Android智能电视带来的乐趣，从而提升用户的满意程度。

附图说明

图1是本发明的一个实施例中基于文字识别的视频内容判断方法的流程示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

实施例一：

如图1所示，一种基于文字识别的视频内容判断方法，本实施例中将该方法应用于智能电视***，主要包括以下步骤流程：

步骤1：对视频画面进行截图：

当电视***检测到有视频流，便每隔1s从视频流中截取一帧当前的视频图像，视频图像为1080P(大小：1920*1080)。同时，后台程序获取图像后，通过图像缩放技术，统一生成宽度为640，高度为360大小的图像，送入到预先训练的文字检测模型中进行检测。

步骤2：调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析，找到画面中的文字区域并分割出来，获得一块或多块文字区域：

预先训练完毕的文字检测模型对图像进行文字区域的分析，自动找到画面中的文字区域，给出文字区域的坐标和宽高，得到若干文字区域。

为了提高效率，通常会预先设置好需要进行文字识别的若干图像区域。当检测到的文字区域，在预先设定的需要文字识别的图像区域内，则进入下一步进行文字识别；若检测到的文字区域，不在预先设定的需要文字识别的图像区域内，则不进行下一步的文字识别，直接对下一帧图像进行文字检测识别。

本实施例中，对于检测到的文字区域，会对图片进行缩放，方法如下：

对于横向文字区域，固定高度为150，当宽度小于600，则填充图像到宽度为600。当宽度大于600，则将图像裁为多张500*150的图像(其中，第一张图像特殊，裁为550*150)，在边缘处会做特殊处理，即将原图像待裁边缘处，左右各取50*150放入到新裁剪的图像中。最后一张图像若不到600宽度，则填充到600宽度。最终将文字区域图像生成若干600*150的图像。

对于竖向文字区域，则根据字体比例约为0.7～1的原则和文字区域长宽比，将文字裁为单个文字来做识别，裁完单个文字图像后，缩放图像固定高度为150，填充图像宽度到600。最后生成若干文字区域图像。

步骤3：检测到文字区域后，调用预先训练完毕的文字识别模型，循环对每一块文字区域进行文字识别，识别出每个文字区域的文字内容：

调用预先训练完毕的中文文本识别模型，循环对每一块文字区域进行文字识别，识别出每个文字区域的文字内容。

步骤4：针对识别出的文字内容，进行自然语言处理，理解其语义，做出相应的视频播放设置：

具体包括以下步骤：

步骤4.1.对识别的文字进行分词，分成单个的词组；

步骤4.2.对每个词组与预先确定的词组表进行关键字匹配；

步骤4.3.若当前图像中有词组为预先确定的词组，且持续数帧图像皆为该预先确定的词组，则判断当前图像场景为该预先确定的词组场景，并进行对应的场景处理。

具体的，本实施例中，对于文字内容，会预先定义的文字有“广告”、“新闻”等词组。这些词组皆可表示当前视频播放的图像内容类别。针对提取出的文字内容，进行自然语言处理，如分词，词组匹配等。当连续几帧皆在同一个位置检测到预先定义的词组如“广告”或“新闻”词组，则认定当前场景为广告或新闻等场景，再根据不同的场景后续做出相应的视频播放设置。

具体的，上述预先训练完毕的文字检测模型为卷积神经网络，且本实施例中是具体采用谷歌的基于tensorflow的mobilenet-ssd神经网络。该神经网络的训练过程如下：

A、针对神经网络输入特点，在电视播放视频中收集约5000张的有文字内容的视频图像样本，统一设置为640*360的大小；

B、对每一张有文字内容的视频图像样本，提取出文字所在区域的矩形框坐标、文字内容、文字语言类别等信息以及图像样本本身的图像大小和图像格式等信息；

C、针对上述两步获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件，训练文件和验证文件的图像不同，但其存储的图像格式和图像信息格式相同。

D、利用训练文件对模型进行训练，以生成预先确定的文字检测模型，并利用验证文件对生成的文字检测模型进行验证；

E、若验证准确率大于或等于预设阈值(本实施例中预设的验证准确率阈值为95％)，或者训练步数达到一定的步数(2万步)，则训练完成；

F、若验证准确率低于预设阈值(95％)，则增加有文字内容的视频图像样本，或者调试模型参数，重复执行上述步骤A、B、C、D、E，直到训练完成。

G、生成tflite模型文件，以供android程序调用。

具体的，上述预先训练完毕的文字识别模型为基于注意力模型的卷积循环神经网络，本实施例中具体采用谷歌的基于tensorflow的Attention-CRNN神经网络。虽然，Attention-CRNN是由几个不同的神经网络及部件(CNN、RNN、Attention)构成的，但它们可以使用同一个损失函数进行端到端训练。因此该模型可统一进行训练，其训练过程如下：

A、创建中文字典，中文字典包含5462个汉字。字典中只有两列，左边一列为序列号(0，1，……)，右边一列为汉字(毖，恫，……)；

B、裁剪文字检测模型中使用的视频图像样本中的文字区域图像，生成图像大小宽度为600、高度为150的文字图像样本数据集；

C、将样本数据集结合中文字典，生成训练所需要的tfrecord格式文件，同样分为训练文件和验证文件，训练文件和验证文件的图像不同，但其存储的图像格式和图像信息格式相同。

D、利用训练文件对模型进行训练，以生成预先确定的文字识别模型，并利用验证文件对生成的文字检测模型进行验证；

E、若验证准确率大于或等于预设阈值(本实施例中预设的验证准确率阈值为90％)，或者训练步数达到一定的步数(2万步)，则训练完成；

F、若验证准确率低于预设阈值(90％)，则增加有文字内容的视频图像样本，或者调试模型参数，重复执行上述步骤A、B、C、D、E，直到训练完成。

G、生成tflite模型文件，以供android程序调用。。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于文字识别的视频内容判断方法，其特征在于，包括以下步骤：

A.对视频画面进行截图；

D.针对识别出的文字内容，进行自然语言处理，理解其语义，做出相应的视频播放设置；

所述步骤A中还包括对截图画面进行需要文字识别的若干图像区域的划分设置；

所述步骤B具体为：

B2.若检测到的文字区域，在预先设定的需要文字识别的图像区域，则进入步骤C，否则，返回步骤A；

所述步骤B中的文字检测模型为基于tensorflow的mobilenet-ssd神经网络的卷积神经网络；对所述卷积神经网络的训练步骤过程如下：

S6.若验证准确率低于预设阈值，则增加有文字内容的视频图像样本，或者调试模型参数，并重复执行上述步骤，直到训练完成。

2.根据权利要求1所述的一种基于文字识别的视频内容判断方法，其特征在于，所述步骤C中的文字识别模型为基于注意力模型的卷积循环神经网络。

3.根据权利要求2所述的一种基于文字识别的视频内容判断方法，其特征在于，所述基于注意力模型的卷积循环神经网络为基于tensorflow的Attention-CRNN神经网络。

4.根据权利要求3所述的一种基于文字识别的视频内容判断方法，其特征在于，所述基于注意力模型的卷积循环神经网络的训练步骤如下：

S105.若验证准确率低于预设阈值，则增加有文字内容的视频图像样本，或者调试模型参数，重复执行上述步骤，直到训练完成。

5.根据权利要求1至4中任一所述的一种基于文字识别的视频内容判断方法，其特征在于，所述步骤D具体包括以下步骤：

D1.对识别的文字进行分词，分成单个的词组；

D2.对每个词组与预先确定的词组表进行关键字匹配；