CN111274985B

CN111274985B - 视频文本识别***、视频文本识别装置与电子设备

Info

Publication number: CN111274985B
Application number: CN202010082008.2A
Authority: CN
Inventors: 任化强
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2024-03-26
Anticipated expiration: 2040-02-06
Also published as: CN111274985A

Abstract

本发明实施例涉及计算机技术领域，公开了一种视频文本识别***、视频文本识别装置与电子设备。视频文本识别***，包括：文本区域提取模块，用于从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息；文字检测模块，用于根据所述文本框区域信息，从所述特征图像中提取文字区域信息与文字特征图；文字识别模块，用于根据所述文字区域信息，从所述文字特征图中识别出文字信息。本发明中，文本区域提取模块和文字检测模块均利用原始的特征图像进行特征提取，减小了文本区域提取模块输出的结果对文字检测模块的影响，同时简化了文字信息的提取流程，提高了文字识别效率。

Description

视频文本识别***、视频文本识别装置与电子设备

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种视频文本识别***、视频文本识别装置与电子设备。

背景技术

随着互联网的飞速发展，使得用户可以通过各种终端获取各类型比赛的视频，例如篮球、足球以及网球等。在获取比赛视频中的比分时，可以通过文字识别技术与背景识别技术对视频图像中的比分区域进行检测，然后对比分区域中的具体比分进行检测和识别。

发明人发现现有技术中至少存在如下问题：在比分识别过程，每个环节均采用独立串行的算法，前面环节的检测结果准确度对后续各环节的检测识别都有较大影响，算法依赖程度较高。

发明内容

本发明实施方式的目的在于提供一种视频文本识别***、视频文本识别装置与电子设备，文本区域提取模块和文字检测模块均利用原始的特征图像进行特征提取，减小了文本区域提取模块输出的结果对文字检测模块的影响，同时简化了文字信息的提取流程，提高了文字识别效率。

为解决上述技术问题，本发明的实施方式提供了一种视频文本识别***，包括：文本区域提取模块，用于从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息；文字检测模块，用于根据所述文本框区域信息，从所述特征图像中提取文字区域信息与文字特征图；文字识别模块，用于根据所述文字区域信息，从所述文字特征图中识别出文字信息。

本发明的实施方式还提供了一种视频文本识别装置，包括上述的视频文本识别***。

本发明的实施方式还提供了一种电子设备，包括上述的视频文本识别装置。

本发明实施方式相对于现有技术而言，利用文本区域提取模块从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息，再通过文字检测模块根据文本框区域信息，从特征图像中提取文字区域信息与文字特征图，继而文字识别模块能够根据文字区域信息，从文字特征图中识别出文字信息，文本区域提取模块和文字检测模块均利用原始的特征图像进行特征提取，减小了文本区域提取模块输出的结果对文字检测模块的影响，同时简化了文字信息的提取流程，提高了文字识别效率。

另外，在训练过程中所采用的所述视频文本识别***的损失函数为：L_模型＝aL_RPN+L_TDN+L_TRN；L_模型表示所述视频文本识别***的损失函数，L_RPN表示所述文本区域提取模块的损失函数，L_TDN表示所述文字检测模块的损失函数，L_TRN表示所述文字识别模块的损失函数，0＜a≤1。本实施方式中，在对视频文本识别***进行训练时，通过设置的视频文本识别***的损失函数整合了文本区域提取模块、文字检测模块以及文字识别模块，从而在对视频文本识别***进行训练时，结合了三个模块的反馈结果来对视频文本识别***进行优化，能够得到效果更好的视频文本识别***。

另外，所述视频文本识别***的训练过程如下：将样本库中的多个视频帧的训练图像输入到所述视频文本识别***，得到所述视频文本识别***输出的多个识别结果；所述识别结果包括所述文本区域提取模块的预测文本框区域信息、所述文字检测模块的预测文字区域信息以及所述文字识别模块的预测文本标签序列；对于每个所述训练图像，将所述训练图像的标注信息与所述训练图像对应的所述识别结果代入所述视频文本识别***的损失函数，得到所述视频文本识别***的损失函数值；根据所述视频文本识别***的损失函数值，对所述视频文本识别***进行优化处理。本实施方式提供对视频文本识别***的进行优化的一种具体实现方式，该优化过程可以为反向传播迭代优化处理，具体通过损失函数值表征标注信息与识别结果之间的差距程度，损失函数值能够有效的表示视频文本识别***的准确度。

另外，其中，N表示预设的锚框的数量，N’表示值为正的锚框的数量，λ为预设值，P_i表示第i个锚框的置信度，P_i ^*表示所述标注信息中第i个锚框的置信度，t_i表示第i个锚框的位置向量，t_i ^*表示所述标注信息中第i个锚框的位置向量，L_cls表示损失函数的分类部分，L_reg表示损失函数的回归部分。本实施方式提供了文本区域提取模块与文字检测模块的损失函数的一种具体公式，a的值可以按照需求来设定，以满足不同应用场景下对文本框区域信息的精度要求。

另外，L_cls为交叉熵函数，L_reg为Smooth函数。本实施方式提供了损失函数的分类部分与回归部分的一种具体设置方式，其中采用交叉熵函数作为损失函数的分类部分函数，能够衡量预测置信度Pi与实际置信度Pi*之间的差异性，从而在后续的优化过程中能够让预测置信度Pi更加接近于实际置信度Pi*；另外，采用Smooth函数作为损失函数的回归部分函数，减少了***的学习率，使得梯度更加稳定，避免了梯度***的问题。

另外，其中，l_i表示第i个所述训练图像的标识信息中的文本标签序列，y_i表示所述文字识别模块输出的第i个所述训练图像的预测文本标签序列。本实施方式提供了文字识别模块的损失函数的一种具体公式。

另外，a为0.5。本实施例中提供了在对文本区域信息检测精度要求较低时a值的一种具体设置方式。

另外，所述视频文本识别***还包括：图像特征提取模块，用于从输入的视频帧的图像中获取所述特征图像。本实施方式中，在视频文本识别网络模块中加入了图像特征提取模块，对视频帧的图像进行特征提取，得到相应的特征图像。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的视频文本识别***的方框示意图；

图2是根据本发明第一实施方式中的视频文本识别***的RPN模块的方框示意图；

图3是根据本发明第一实施方式中的视频文本识别***的TDN模块的方框示意图；

图4是根据本发明第一实施方式中的视频文本识别***的TRN模块的方框示意图；

图5是根据本发明第二实施方式中的视频文本识别***的训练过程的具体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种视频文本识别***，用于提取视频帧图像中的文本信息，举例来说，视频为比赛视频，则视频帧图像为对比赛视频进行抽帧处理得到的图像，此时文本信息即为比分牌上的比分；其中，抽帧间隔可以根据比赛视频的场景来设定，对分数变化较快的比赛设置较短的抽帧间隔，对分数变化较慢的比赛设置较长的抽帧间隔。本实施例中以及之后的实施例中均以视频帧图像为对比赛视频进行抽帧处理得到的图像、文本信息为比分牌上的比分为例进行说明。

请参考图1，视频文本识别***包括依次连接的文本区域提取模块1、文字检测模块2以及文字识别模块3。在一个例子中，视频文本识别***还包括图像特征提取模块4。

图像特征提取模块4用于从输入的视频帧的图像中获取特征图像，图像特征提取模块4用于接收比赛视频的视频帧图像，并从视频帧图像中提取出所需的特征图像，继而将特征图像输入到文本区域提取模块1。

具体的，图像特征提取模块4可以为一个卷积神经网络，可以对视频帧的图像进行特征提取，得到相应的特征图像，以卷积神经网络为VGG16卷积神经网络为例，VGG16卷积神经网络总共有16层，包括13个卷积层和3个全连接层；从比赛视频抽帧得到的视频帧的图像输入到VGG16卷积神经网络后，首先经过两个结构相同的卷积层进行两次卷积，这两个卷积层均包括64个3*3的卷积核，进行第一次池化，然后经过两个结构相同的卷积层进行两次卷积，这两个卷积层均包括128个3*3的卷积核，进行第二次池化，之后经过两个结构相同的卷积层进行两次卷积，这两个卷积层均包括512个3*3的卷积核，进行第三次池化，最后经过三个全连接层进行三次全连接，便可以得到从视频帧的图像中提取的特征图像。举例来说，一张宽为W、高为H的视频帧的图像经过VGG16卷积神经网络后，能够得到(W/16)*(H/16)*512大小的特征图像，然后该特征图像被分别输出到文本区域提取模块1与文字检测模块2。

文本区域提取模块1在接收到图像特征提取模块4发送的视频帧的特征图像后，能够从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息。具体的，文本区域提取(Region Proposal Network，简称RPN)模块1用于从视频帧的特征图像上提取出比分牌区域信息，并将该比分牌区域信息输入到文字检测模块2；其中比分牌区域信息利用坐标的形式来表示，例如比分牌区域的坐标为{x1，y1，x2，y2}，x1、x2表示比分牌区域四个角点的横坐标，y1、y2表示比分牌区域四个角点的纵坐标，横坐标与纵坐标两两组合可以得到比分牌区域的四个角点的坐标，分别为(x1，y1)、(x1，y2)、(x2，y1)、(x2，y2)。

请参考图2，为RPN模块1的一种结构图，其包括卷积层、池化层、激活函数以及全连接层。具体的，上述的(W/16)*(H/16)*512大小的特征图像输入到RPN模块1后，首先经过包括512个3*3的卷积核的卷积层的卷积，然后使用两个滤波器对卷积层的输出分别进行卷积，两个滤波器的卷积核分别为5*3和3*1，经过3*1卷积核计算的结果输入到激活函数(例如为softmax函数)进行预分类，再与经过5*3卷积核计算的结果进行整合，使用全连接层和激活函数(例如为Relu函数)进行分类与回归，可以得到比分牌区域的坐标和经过softmax激活函数得到的是否为比分牌的结果。其中，两个滤波器的卷积的层数可以根据RPN模块1的锚框规格来定义，本实施例中采用的锚框的规格包括(16*16)(32*32)两种，大小比例分别设置为(1:1)(2:1)，即特征图像上的每个特征点对应4个规格大小的锚框，因此设置两个滤波器的卷积的层数分别为8(卷积核为5*3)和16(卷积核为3*1)。

在一个例子中，在得到输出的比分牌区域的坐标后，还可以使用非最大抑制(NonMaximum Suppression，简称NMS)策略对得到的所有的比分牌区域坐标进行局部的最大搜索，搜索预设领域范围内的最大值，滤除重复的比分牌，从而能够得到更为准确的比分牌区域坐标。

文字检测模块2在接收到图像特征提取模块4发送的视频帧的特征图像与文本区域提取模块1发送的包含文字信息的文本框区域信息后，能够根据文本框区域信息，从特征图像中提取文字区域信息与文字特征图，即文字检查模块2利用原始的特征图像进行特征提取，来获取相应的文字特征图，可以减小了文本区域提取模块1输出的文本框区域信息的影响。

具体的，输入到文字检测(Text Detect Network，简称TDN)模块2在接收到为RPN模块1输入的比分牌区域坐标与图像特征提取模块4输出的特征图像后，请参考图3，为TDN模块2的一种结构图，首先利用自适应池化层(RIO Pooling)对输入的比分牌区域坐标和特征图像进行池化，具体池化方式为：将特征图像映射到比分牌区域坐标所对应的位置，然后将映射后的区域划分为多个相同大小的部分，然后分别对每个部分进行最大值池化，从而能够得到高度固定、宽度不定的的多张特征图，即得到包含任意宽度的多张特征图，特征图的大小为W_min*H_R。

然后，将包含任意宽度的多张特征图按列进行转换成序列(q₁，q₂，…，q_w)，再利用长短期记忆网络(Long Short-Term Memory，简称LSTM)模型对其进行序列化处理，即将这些特征图输入到LSTM模型中进行编码，LSTM模型具有记忆能力，其能够按照时序依次处理对应于任意宽度的多个特征图的序列(q₁，q₂，…，q_w)，取LSTM模型的隐层的输出h_w作为宽度，便可以得到固定宽度的序列(h₁，h₂，…，h_w)，最后接入全连接层进行文字区域的分类与回归处理，便可以得到文字区域信息和文字特征图，并输入到文字识别模块3中。其中文字区域信息同样可以用坐标来表示，例如文字区域坐标为{x₃，y₃，x₄，y₄}，x₃、x₄表示文字区域四个角点的横坐标，y₃、y₄表示文字区域四个角点的纵坐标，横坐标与纵坐标两两组合可以得到文字区域的四个角点的坐标，分别为(x₃，y₃)、(x₃，y₃)、(x₄，y₄)、(x₄，y₄)。

文字识别模块3在接收到文字检测模块2发送的文字区域信息与文字特征图后，能够根据文字区域信息，从文字特征图中识别出文字信息，即文字识别模块3能够对文字区域内的文字进行识别，获取相应的文字。

具体的，请参考图4，为文字识别(Text Recognition Network，简称TRN)模块3的一种结构图，输入到TRN模块3的为TDN模块2输出的文字区域坐标和文字特征图，TRN模块3能够从文字特征图中识别出文字区域内的文字信息。TRN模块3在接收到文字区域坐标和文字特征图后，首先将文字区域坐标映射到文字特征图中，提取文字特征图中文字区域内的文字特征数据，继而利用两个卷积层和激活函数继续提取文字特征数据中的文字特征，然后将提取出的文字特征按列进行转换成序列(q₁，q₂，…，q_w)，再输入到LSTM模型进行序列化处理，得到序列(h₁，h₂，…，h_w)，最后通过连接时序分类(Connectionist TemporalClassification，简称CTC)模块对各个文字进行时序归纳，CTC模块能够解决输入特征与输出文字的对齐问题，从而能够得到不定长的文字结果，即得到了比分牌上的比分。

本实施方式相对于现有技术而言，利用文本区域提取模块从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息，再通过文字检测模块根据文本框区域信息，从特征图像中提取文字区域信息与文字特征图，继而文字识别模块能够根据文字区域信息，从文字特征图中识别出文字信息，文本区域提取模块和文字检测模块均利用原始的特征图像进行特征提取，减小了文本区域提取模块输出的结果对文字检测模块的影响，同时简化了文字信息的提取流程，提高了文字识别效率。

本发明的第二实施方式涉及一种视频文本识别***，本实施方式是在第一实施方式基础上的改进，主要改进之处在于：在对视频文本识别***进行训练时，整合了文本区域提取模块、文字检测模块以及文字识别模块的损失函数。

在构建视频文本识别***时，首先，依次构建文本区域提取模块、文字检测模块以及文字识别模块，实现了视频文本识别***的初步搭建，在初步搭建完成后，需要利用预设的样本库对初步搭建的视频文本识别***进行训练，以得到满足要求的视频文本识别***，本实施方式的视频文本识别***的训练过程的具体流程如图5所示。

步骤101，将样本库中的多个视频帧的训练图像输入到视频文本识别***，得到视频文本识别***输出的多个识别结果。

具体而言，样本库中包含了从比赛视频中提取出的多个视频帧的训练图像，每个训练图像均包含标注信息，标注信息包括：参考文本框区域信息，参考文字区域信息以及参考文本标签序列。其中，训练图像的标注信息中的参考文本框区域信息用于对文本区域提取模块进行回归，训练图像的标注信息中的参考文字区域信息用于对文字识别模块进行回归，训练图像的标注信息中的参考文本标签序列用于对文字识别模块的文本标签序列进行预测。

以任一训练图像为例，在对视频文本识别***进行训练时，该训练图像输入到视频文本识别***后，文本区域提取模块能够从该训练图像中提取包含文字信息的预测文本框区域信息，文字检测模块能够根据预测文本框区域信息，从训练图像中提取预测文字区域信息，文字识别模块则根据预设文字区域信息，输出预测文本标签序列，视频文本识别***作为一个整体，其在接收到训练图像后输出的识别结果包括上述的预测文本框区域信息、预测文字区域信息以及预测文本标签序列。

步骤102，对于每个训练图像，将训练图像的标注信息与训练图像对应的识别结果代入视频文本识别***的损失函数，得到视频文本识别***的损失函数值。

具体而言，本实施例中，在对视频文本识别***进行训练时，设定该视频文本识别***的损失函数为：L_模型＝aL_RPN+L_TDN+L_TRN。

其中，L_模型表示视频文本识别***的损失函数，L_RPN表示文本区域提取模块的损失函数，L_TDN表示文字检测模块的损失函数，L_TRN表示文字识别模块的损失函数，0＜a≤1从而整合了文本区域提取模块、文字检测模块以及文字识别模块的视频文本识别***，以使视频文本识别***的损失函数能够整合者三个模块的输出。在一个例子中，a的值可以按照需求来设定，以满足不同应用场景下对文本框区域信息的精度要求，例如在对比赛视频的视频帧图像的比分牌区域的检测精度要求较低，则可以设a为0.5。需要说明的是，本实施例中还可以在文字识别模块的损失函数和/或文字检测模块的损失函数前添加相应的权重参数，同样可以满足不同应用场景下对文本框区域信息的精度要求。

在一个例子中，可以设置文本区域提取模块的损失函数L_RPN与文字检测模块的损失函数L_TDN采用相同的损失函数，具体如下：

其中，N表示预设的锚框的数量，N’表示值为正的锚框的数量，λ为预设值，P_i表示第i个锚框的置信度，P_i ^*表示标注信息中第i个锚框的置信度，t_i表示第i个锚框的位置向量，t_i ^*表示标注信息中第i个锚框的位置向量，L_cls表示损失函数的分类部分，L_reg表示损失函数的回归部分。其中，可以设定一个正向阈值，例如0.7，当锚框的值大于正向阈值0.7时，判定锚框的值为正。

在一个例子中，可以设置损失函数的分类部分L_cls采用交叉熵函数，交叉熵损失函数能够用来衡量预测值与实际值之间的差异性，即能够用来衡量预测置信度P_i与实际置信度P_i ^*之间的差异性，从而在后续的优化过程中能够让预测置信度P_i更加接近于实际置信度P_i ^*，采用了交叉熵函数的分类部分L_cls的具体公式如下：

其中，N表示预设的锚框的数量，P_i表示第i个锚框的置信度(预测置信度P_i)，P_i ^*表示标注信息中第i个锚框的置信度(实际置信度P_i ^*)。

在一个例子中，可以设置损失函数的回归部分L_reg采用Smooth函数，减少了视频文本识别***的学习率，使得梯度更加稳定，避免了梯度***的问题，采用了Smooth函数的回归部分L_reg的具体公式如下：

其中，x＝t_i-t_i ^*，t_i表示第i个锚框的位置向量(预测位置向量t_i)，t_i ^*表示标注信息中第i个锚框的位置向量(实际位置向量t_i ^*)。

以任一训练图像为例，将该训练图像的标注信息中的参考文本框区域信息与训练图像对应的识别结果中的预测文本框区域信息代入L_RPN的损失函数，对于损失函数的分类部分L_cls来说，可以计算得到识别结果对应的第i个锚框的置信度P_i(预测置信度P_i)与标注信息对应的第i个锚框的置信度P_i ^*(实际置信度P_i ^*)，再将置信度P_i与置信度P_i ^*代入到分类部分L_cls函数中，计算得到第i个锚框对应的分类部分函数的值L_cls(P_i，P_i ^*)，进一步的对N个锚框的分类部分L_cls函数求和并除以N求平均值，便可以得到最终的分类部分的值；对于损失函数的回归部分L_reg来说，可以计算得到识别结果对应的第i个锚框的位置向量t_i与标注信息对应的第i个锚框的位置向量t_i ^*，再将位置向量t_i与位置向量t_i ^*带入到回归部分L_reg函数中，计算得到第i个锚框对应的回归部分函数的值L_reg(t_i，t_i ^*)，进一步的对值为正的N’个锚框的回归部分L_reg函数求和并除以N’求平均值，便可以得到最终的回归部分的值，将最终的分类部分的值与最终的回归部分的值求和并可以得到L_RPN的损失函数的值。文字检测模块的损失函数L_TDN的计算方式与上述类似，唯一不同之处在于输入到损失函数L_TDN中的为训练图像的标注信息中的参考文字区域信息与训练图像对应的识别结果中的预测文字区域信息，在此不再赘述。

在一个例子中，文字识别模块的损失函数L_TRN的具体计算公式为：

其中，l_i表示第i个训练图像的标识信息中的文本标签序列，y_i表示文字识别模块输出的第i个训练图像的预测文本标签序列，p为条件概率函数。

以任一训练图像为例，将该训练图像的标注信息中的参考文本标签序列l_i与训练图像对应的识别结果中的预测文本标签序列y_i代入到文字识别模块的损失函数L_TRN中，可以求出条件概率函数P(l_i丨y_i)的值，继而可以求出文字识别模块的损失函数L_TRN的值。

综上可知，对于每个训练图像，将该训练图像的标注信息与该训练图像输入到视频文本识别***得到的识别结果，代入视频文本识别***的损失函数L_模型，可以得到一个损失函数值，该损失函数值表征标注信息与识别结果之间的差距程度，能够用来表示视频文本识别***的准确度，损失函数值越小，表示视频文本识别***的准确度越高，即该视频文本识别***得到的识别结果越接近于标注信息。

步骤103，根据视频文本识别***的损失函数值，对视频文本识别***进行优化处理。

具体而言，根据视频文本识别***的损失函数值来判断该视频文本识别***是否满足要求，若损失函数值大于预设的损失阈值，则采用预设的优化函数(例如随机梯度下降算法)对视频文本识别***进行优化，调整视频文本识别***的参数，再重复步骤101至步骤103中的过程，直至得到损失函数值小于预设的损失阈值，判定该视频文本识别***为满足要求的视频文本识别***。

本实施方式相对于第一实施方式而言，在对视频文本识别***进行训练时，通过设置的视频文本识别***的损失函数整合了文本区域提取模块、文字检测模块以及文字识别模块，从而在对视频文本识别***进行训练时，结合了三个模块的反馈结果来对***进行优化，能够得到效果更好的视频文本识别***。

本发明第三实施方式涉及一种视频文本识别装置，包括第一实施例或第二实施例中的视频文本识别***，视频文本识别装置能够在接收到视频文件时，根据预设的抽帧间隔从视频文件中抽取视频帧的图像，并将抽取的视频帧的图像依次输入到视频文本识别***中，从而能够提取视频帧图像中的文本信息，实现了端到端的文字信息的检测，视频文件例如为比赛视频，则视频帧图像为对比赛视频进行抽帧处理得到的图像，此时文本信息即为比分牌上的比分。

本实施方式相对于现有技术而言，提供了一种包括第一实施例或第二实施例中的视频文本识别***的视频文本识别装置，利用文本区域提取模块从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息，再通过文字检测模块根据文本框区域信息，从特征图像中提取文字区域信息与文字特征图，继而文字识别模块能够根据文字区域信息，从文字特征图中识别出文字信息，文本区域提取模块和文字检测模块均利用原始的特征图像进行特征提取，减小了文本区域提取模块输出的结果对文字检测模块的影响，同时简化了文字信息的提取流程，提高了文字识别效率。

本发明的第四实施方式涉及一种电子设备，例如为手机、平板电脑等。电子设备包括第四实施例中的视频文本识别装置，电子设备可以从接收的是视频文件中提取视频帧图像中的文本信息。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频文本识别***，其特征在于，包括：

文本区域提取模块，用于从接收到的视频帧的特征图像中提取包含文字信息的文本框区域信息；

文字检测模块，用于根据所述文本框区域信息，从所述特征图像中提取文字区域信息与文字特征图；

文字识别模块，用于根据所述文字区域信息，从所述文字特征图中识别出文字信息；

其中，所述文本区域提取模块和所述文字检测模块均利用原始的所述特征图像进行特征提取；

在训练过程中所采用的所述视频文本识别***的损失函数为：L_模型＝aL_RPN+L_TDN+L_TRN；L_模型表示所述视频文本识别***的损失函数，L_RPN表示所述文本区域提取模块的损失函数，L_TDN表示所述文字检测模块的损失函数，L_TRN表示所述文字识别模块的损失函数，0＜a≤1；

所述文本区域提取模块的损失函数L_RPN与所述文字检测模块的损失函数L_TDN的计算公式为：

其中，N表示预设的锚框的数量，N’表示值为正的锚框的数量，λ为预设值，P_i表示第i个锚框的置信度，P_i ^*表示标注信息中第i个锚框的置信度，t_i表示第i个锚框的位置向量，t_i ^*表示所述标注信息中第i个锚框的位置向量，L_cls表示损失函数的分类部分，L_reg表示损失函数的回归部分；

所述文字识别模块的损失函数L_TRN的计算公式为：

其中，l_i表示第i个训练图像的标识信息中的文本标签序列，y_i表示所述文字识别模块输出的第i个所述训练图像的预测文本标签序列。

2.根据权利要求1所述的视频文本识别***，其特征在于，所述视频文本识别***的训练过程如下：

将样本库中的多个视频帧的训练图像输入到所述视频文本识别***，得到所述视频文本识别***输出的多个识别结果；所述识别结果包括所述文本区域提取模块的预测文本框区域信息、所述文字检测模块的预测文字区域信息以及所述文字识别模块的预测文本标签序列；

对于每个所述训练图像，将所述训练图像的标注信息与所述训练图像对应的所述识别结果代入所述视频文本识别***的损失函数，得到所述视频文本识别***的损失函数值；

根据所述视频文本识别***的损失函数值，对所述视频文本识别***进行优化处理。

3.根据权利要求1所述的视频文本识别***，其特征在于，L_cls为交叉熵函数，L_reg为Smooth函数。

4.根据权利要求1所述的视频文本识别***，其特征在于，a为0.5。

5.根据权利要求1所述的视频文本识别***，其特征在于，所述视频文本识别***还包括：

图像特征提取模块，用于从输入的视频帧的图像中获取所述特征图像。

6.一种视频文本识别装置，其特征在于，包括：权利要求1至5中任一项所述的视频文本识别***。

7.一种电子设备，其特征在于，包括：权利要求6所述的视频文本识别装置。