CN110874553A

CN110874553A - 一种识别模型训练方法及装置

Info

Publication number: CN110874553A
Application number: CN201811019880.1A
Authority: CN
Inventors: 陈凯; 谢迪; 浦世亮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2020-03-10

Abstract

本申请实施例提供了一种识别模型训练方法及装置，识别模型训练方法包括：获取序列样本；将序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率；根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算前后向目标序列的第三概率；根据第一概率、第二概率及第三概率，计算目标函数；根据目标函数，利用预设训练算法，训练识别模型。通过本方案，可以实现识别模型的实时识别。

Description

一种识别模型训练方法及装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种识别模型训练方法及装置。

背景技术

随着人工智能技术的发展，机器学习作为人工智能的核心技术，已在目标检测与跟踪、行为检测与识别、语音识别等方面得到了广泛应用。DNN(Deep Neural Network，深度神经网络)作为机器学习研究中的一个新兴领域，通过模仿人脑的机制来解析数据，是一种通过建立和模拟人脑进行分析学习的智能模型。

传统的DNN中，如CNN(Convolutional Neural Network，卷积神经网络)，网络模型建立输入数据与输出结果之间的映射关系，通过将输入数据输入网络模型，得到输出结果，不同时刻的输入数据所得到的输出结果之间相互独立。然而在一些特殊的应用场景中，例如语音识别、视频目标跟踪等场景中，每一时刻的数据与其他时刻的数据之间具有较大关联。RNN(Recurrent Neural Network，循环神经网络)是一种实现循环序列运算的DNN，RNN对每一个输入数据的运算都依赖于对其他时刻的输入数据的运算结果。

在对基于RNN建立的识别模型进行训练时，多采用前向计算的方式，前向计算的过程是将过去时刻的运算结果引入当前时刻的运算中。训练获得的模型会倾向于利用尽可能多的未来信息，使得每一时刻的运算结果往往具有延迟性，导致识别模型无法满足实时识别的要求。

发明内容

本申请实施例的目的在于提供一种识别模型训练方法及装置，以实现识别模型的实时识别。具体技术方案如下：

第一方面，本申请实施例提供了一种识别模型训练方法，所述方法包括：

获取序列样本；

将所述序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率；

根据所述预设前向目标序列及所述预设后向目标序列，按照同一位置所述预设后向目标序列中的目标在前、所述预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算所述前后向目标序列的第三概率；

根据所述第一概率、所述第二概率及所述第三概率，计算目标函数；

根据所述目标函数，利用预设训练算法，训练所述识别模型。

可选的，所述识别模型包括循环神经网络及联结主义时序分类算法；

所述将所述序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率，包括：

将所述序列样本输入所述循环神经网络，通过所述循环神经网络的前向计算，得到所述序列样本中各特征的输出概率组成的第一概率序列，并根据所述第一概率序列，利用所述联结主义时序分类算法，计算预设前向目标序列的第一概率；

通过所述循环神经网络的后向计算，得到所述序列样本中各特征的输出概率组成的第二概率序列，并根据所述第二概率序列，利用所述联结主义时序分类算法，计算预设后向目标序列的第二概率。

可选的，所述计算所述前后向目标序列的第三概率，包括：

根据所述第一概率序列及所述第二概率序列，计算所述第一概率序列中的各输出概率与所述第二概率序列中相同时刻的输出概率的均值，得到第三概率序列；

根据所述第三概率序列，利用所述联结主义时序分类算法，计算所述前后向目标序列的第三概率。

可选的，所述根据所述第一概率、所述第二概率及所述第三概率，计算目标函数，包括：

根据所述第一概率、所述第二概率及所述第三概率，利用目标函数计算公式，计算目标函数，其中，所述目标函数计算公式，为：

g＝-log(P_f)-log(P_b)-log(P_fb)

所述g为所述目标函数，所述P_f为所述第一概率，所述P_b为所述第二概率，所述P_fb为所述第三概率。

可选的，所述预设训练算法，包括：反向传播算法；

所述根据所述目标函数，利用预设训练算法，训练所述识别模型，包括：

根据所述目标函数，确定将所述序列样本输入所述识别模型后，得到的预测序列与预设目标序列之间的误差，所述预设目标序列为所述预设前向目标序列或者所述预设后向目标序列；

根据所述误差，利用所述反向传播算法，通过调整所述识别模型的各参数训练所述识别模型。

第二方面，本申请实施例提供了一种识别模型训练装置，所述装置包括：

获取模块，用于获取序列样本；

识别模块，用于将所述序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率；

排列模块，用于根据所述预设前向目标序列及所述预设后向目标序列，按照同一位置所述预设后向目标序列中的目标在前、所述预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列；

计算模块，用于计算所述前后向目标序列的第三概率；根据所述第一概率、所述第二概率及所述第三概率，计算目标函数；

训练模块，用于根据所述目标函数，利用预设训练算法，训练所述识别模型。

所述识别模块，具体用于：

可选的，所述计算模块，具体用于：

g＝-log(P_f)-log(P_b)-log(P_fb)

可选的，所述预设训练算法，包括：反向传播算法；

所述训练模块，具体用于：

本申请实施例提供的一种识别模型训练方法及装置，通过获取序列样本，将该序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率，根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算前后向目标序列的第三概率，根据第一概率、第二概率及第三概率，计算目标函数，根据该目标函数，利用预设训练算法，训练识别模型。通过对预设前向目标序列和预设后向目标序列的重排列，在前后向目标序列中约束了每一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，这样，计算得到的目标函数中加入了对前向计算和后向计算的解码位置的约束，即针对每一位置的目标解码，后向计算早于前向计算，由于前向计算会延迟，而后向计算会提前，这样，通过对解码位置的约束，使得训练的识别模型中前向计算的结果不延时、后向计算的结果不提前，实现了识别模型的实时识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的基于RNN的语音识别框图；

图2为本申请实施例的识别模型训练方法的流程示意图；

图3为本申请实施例的识别模型训练装置的结构示意图；

图4为本申请实施例的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为基于RNN的语音识别框图，记输入的语音特征序列为x＝[x₁,x₂,x₃,…,x_T]，RNN为序列学习网络模型，可以为LSTM(Long Short Term Memory，长短期记忆)网络、GRU(Gated Recurrent Unit，门控循环单元)网络等。

当前常用的RNN中，通常采用双向计算处理输入特征序列，或者采用前向计算处理输入特征序列。如果采用双向计算处理输入特征序列，则任一时刻的输出结果都与整个输入特征序列有关，只能用于离线识别，无法用于实时识别；如果采用前向计算处理输入特征序列，RNN的网络模型也是采用前向计算的方式训练得到的，最终训练好的网络模型在识别时会有长短不一的延时，识别模型也无法满足实时识别的要求。

为了实现识别模型的实时识别，本申请实施例提供了一种识别模型训练方法、装置、电子设备及机器可读存储介质。

下面，首先对本申请实施例所提供的识别模型训练方法进行介绍。

本申请实施例所提供的一种识别模型训练方法的执行主体可以为执行智能算法的电子设备，该电子设备可以为具有目标检测与跟踪、行为检测与识别或者语音识别等功能的智能设备，例如远程计算机、远程服务器、智能相机、智能语音设备等等，执行主体中应该至少包括搭载有核心处理芯片的处理器。实现本申请实施例所提供的一种识别模型训练方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种方式。

如图2所示，本申请实施例所提供的一种识别模型训练方法，可以包括如下步骤：

S201，获取序列样本。

本实施例可应用于语音识别、目标跟踪等场景，因此，序列样本可以为语音序列、视频帧序列、文字序列等。

S202，将序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率。

识别模型为实现语音识别、目标识别等功能的DNN模型，为了实现对序列的循环运算，识别模型中包括RNN，以及进行概率计算的算法单元，进行概率计算的算法可以包括CTC(Connectionism Temporal Classification，联结主义时序分类)、HMM(Hidden MarkovModel，隐马尔科夫模型)、Attention(注意力)机制等。

RNN的运算过程包括前向计算和后向计算，前向计算为在对某一时刻的特征进行运算时，运算的输入除了该时刻的特征以外还需要考虑该时刻之前各时刻的运算状态；后向计算为在对某一时刻的特征进行运算时，运算的输入除了该时刻的特征以外还需要考虑该时刻之后各时刻的运算状态。预设前向目标序列为在进行前向计算时期望能够得到的目标序列，预设后向目标序列为在进行后向计算时期望能够得到的目标序列，通常情况下，预设前向目标序列与预设后向目标序列相同。第一概率即为通过前向计算得到预设前向目标序列的概率，第二概率即为通过后向计算得到预设后向目标序列的概率。

可选的，识别模型可以包括RNN及CTC算法。

RNN是一个强大的序列学习模型，但它要求输入是预先分割的数据，因此应用受到较大的限制。与CTC结合则可以避免预先分割数据的要求，其基本思路是，将RNN的网络输出解释为所有可能的类别序列的概率分布。给定该分布，目标函数即为最大化预设目标序列的概率。

针对RNN的每一个时刻t的输入，网络输出层都有L+1(L为类别集合数目)个节点，其中，前L个节点的输出为在时刻t观察到各个类别的概率，第L+1个节点的输出为观察到空格的概率。加入空格输出使得CTC可以处理真值预设目标序列中相邻目标类别相同的情况。综合所有时刻输出层的值，即可计算出任意目标序列的概率。CTC综合考虑了所有的对齐情况，所以不需要预先分割数据。

相应的，S202具体可以为：

将序列样本输入RNN，通过RNN的前向计算，得到序列样本中各特征的输出概率组成的第一概率序列，并根据第一概率序列，利用CTC算法，计算预设前向目标序列的第一概率；

通过RNN的后向计算，得到序列样本中各特征的输出概率组成的第二概率序列，并根据第二概率序列，利用CTC算法，计算预设后向目标序列的第二概率。

通过RNN的前向计算，可以得到第一概率序列[p_f1,p_f2,p_f3,…,p_fT]，其中，n∈[1,T]为输入特征序列的时刻，设定预设前向目标序列为[π_f1,π_f2,π_f3,…,π_fU]，经过CTC算法计算预设前向目标序列的第一概率为P_f；通过RNN的后向计算，可以得到第二概率序列[p_b1,p_b2,p_b3,…,p_bT]，设定预设后向目标序列为[π_b1,π_b2,π_b3,…,π_bU]，经过CTC算法计算预设后向目标序列的第二概率为P_b。

S203，根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算前后向目标序列的第三概率。

由于在RNN的运算中，前向计算会有延时、后向计算会提前，为了让前向计算不延时、后向计算不提前，本实施例利用前后向RNN的解码结果互相约束，即根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，如上述，设定预设前向目标序列为[π_f1,π_f2,π_f3,…,π_fU]、预设后向目标序列为[π_b1,π_b2,π_b3,…,π_bU]，则得到的前后向目标序列为[π_b1,π_f1,π_b2,π_f2,π_b3,π_f3,…,π_bU,π_fU]。通过CTC、HMM、Attention等算法机制可计算得到前后向目标序列的第三概率。

可选的，S203中计算前后向目标序列的第三概率的步骤，具体可以为：

根据第一概率序列及第二概率序列，计算第一概率序列中的各输出概率与第二概率序列中相同时刻的输出概率的均值，得到第三概率序列；

根据第三概率序列，利用CTC算法，计算前后向目标序列的第三概率。

在利用CTC算法计算第三概率之前，需要对前后向互约束的第三概率序列进行计算，第三概率序列的计算方式就是将第一概率序列中的各输出概率与第二概率序列中相同时刻的输出概率相加并除以二(即计算第一概率序列中的各输出概率与第二概率序列中相同时刻的输出概率的均值)，例如第一概率序列为[p_f1,p_f2,p_f3,…,p_fT]、第二概率序列为[p_b1,p_b2,p_b3,…,p_bT]，则第三概率序列为[(p_f1+p_b1)/2,(p_f2+p_b2)/2,(p_f3+p_b3)/2,…,(p_fT+p_bT)/2]，利用CTC算法，计算前后向目标序列的第三概率为P_fb。

S204，根据第一概率、第二概率及第三概率，计算目标函数。

目标函数为进行识别模型训练时所依据的函数，例如梯度训练中的梯度函数等，表征了模型参数调整的方向和程度，本实施例中分别计算了预设前向目标序列的第一概率、预设后向目标序列的第二概率以及前后向目标序列的第三概率，综合这三个概率，可以计算目标函数，该目标函数更为完整的表征了模型参数调整的方向和程度。该目标函数在保证前向计算和后向计算的识别率的同时，也对它们的解码顺序做了限制。

可选的，S204具体可以为：

根据第一概率、第二概率及第三概率，利用目标函数计算公式，计算目标函数，其中，目标函数计算公式，为：

g＝-log(P_f)-log(P_b)-log(P_fb) (1)

g为目标函数，P_f为第一概率，P_b为第二概率，P_fb为第三概率。

针对例如反向传播算法等训练算法，目标函数与概率之间为对数关系，可以分别对第一概率、第二概率和第三概率求对数的相反数，再将三个结果相加记得到目标函数。

S205，根据目标函数，利用预设训练算法，训练识别模型。

预设训练算法可以为反向传播算法、梯度算法等常用的训练算法，这里不做具体限定。

可选的，预设训练算法可以包括：反向传播算法。

相应的，S205具体可以为：

根据目标函数，确定将序列样本输入识别模型后，得到的预测序列与预设目标序列之间的误差，其中，预设目标序列为预设前向目标序列或者预设后向目标序列；

根据预测序列与预设目标序列之间的误差，利用反向传播算法，通过调整识别模型的各参数，训练识别模型。

训练的过程就是将序列样本输入识别模型，得到预测序列，计算预测序列与预设目标序列之间的误差，基于该误差，利用反向传播算法，不断调整识别模型的模型参数，通过多次的循环迭代对识别模型进行训练。在训练得到最终的识别模型后，在对语音序列、视频序列等输入进行识别时，可以直接使用RNN的前向计算实时获得识别结果。

应用本实施例，通过获取序列样本，将该序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率，根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算前后向目标序列的第三概率，根据第一概率、第二概率及第三概率，计算目标函数，根据该目标函数，利用预设训练算法，训练识别模型。通过对预设前向目标序列和预设后向目标序列的重排列，在前后向目标序列中约束了每一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，这样，计算得到的目标函数中加入了对前向计算和后向计算的解码位置的约束，即针对每一位置的目标解码，后向计算早于前向计算，由于前向计算会延迟，而后向计算会提前，这样，通过对解码位置的约束，使得训练的识别模型中前向计算的结果不延时、后向计算的结果不提前，实现了识别模型的实时识别。

相应于上述方法实施例，本申请实施例提供了一种识别模型训练装置，如图3所示，该识别模型训练装置可以包括：

获取模块310，用于获取序列样本；

识别模块320，用于将所述序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率；

排列模块330，用于根据所述预设前向目标序列及所述预设后向目标序列，按照同一位置所述预设后向目标序列中的目标在前、所述预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列；

计算模块340，用于计算所述前后向目标序列的第三概率；根据所述第一概率、所述第二概率及所述第三概率，计算目标函数；

训练模块350，用于根据所述目标函数，利用预设训练算法，训练所述识别模型。

可选的，所述识别模型可以包括循环神经网络及联结主义时序分类算法；

所述识别模块320，具体可以用于：

可选的，所述计算模块340，具体可以用于：

g＝-log(P_f)-log(P_b)-log(P_fb)

可选的，所述预设训练算法，可以包括：反向传播算法；

所述训练模块350，具体可以用于：

相应于上述方法实施例，本申请实施例提供了一种电子设备，如图4所示，该电子设备包括处理器401和存储器402，其中，

所述存储器402，用于存放计算机程序；

所述处理器401，用于执行所述存储器402上所存放的计算机程序时，实现上述识别模型训练方法的任一步骤。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括GPU(Graphics Processing Unit，图形处理器)、CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本实施例中，该电子设备的处理器通过读取存储器中存储的计算机程序，并通过运行该计算机程序，能够实现：通过获取序列样本，将该序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率，根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算前后向目标序列的第三概率，根据第一概率、第二概率及第三概率，计算目标函数，根据该目标函数，利用预设训练算法，训练识别模型。通过对预设前向目标序列和预设后向目标序列的重排列，在前后向目标序列中约束了每一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，这样，计算得到的目标函数中加入了对前向计算和后向计算的解码位置的约束，即针对每一位置的目标解码，后向计算早于前向计算，由于前向计算会延迟，而后向计算会提前，这样，通过对解码位置的约束，使得训练的识别模型中前向计算的结果不延时、后向计算的结果不提前，实现了识别模型的实时识别。

另外，相应于上述实施例所提供的识别模型训练方法，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述识别模型训练方法的任一步骤。

本实施例中，计算机可读存储介质在运行时执行本申请实施例所提供的识别模型训练方法的计算机程序，因此能够实现：通过获取序列样本，将该序列样本输入识别模型，得到预设前向目标序列的第一概率及预设后向目标序列的第二概率，根据预设前向目标序列及预设后向目标序列，按照同一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，排列得到前后向目标序列，并计算前后向目标序列的第三概率，根据第一概率、第二概率及第三概率，计算目标函数，根据该目标函数，利用预设训练算法，训练识别模型。通过对预设前向目标序列和预设后向目标序列的重排列，在前后向目标序列中约束了每一位置预设后向目标序列中的目标在前、预设前向目标序列中的目标在后的顺序，这样，计算得到的目标函数中加入了对前向计算和后向计算的解码位置的约束，即针对每一位置的目标解码，后向计算早于前向计算，由于前向计算会延迟，而后向计算会提前，这样，通过对解码位置的约束，使得训练的识别模型中前向计算的结果不延时、后向计算的结果不提前，实现了识别模型的实时识别。

对于电子设备以及计算机可读存储介质实施例而言，由于其所涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备以及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种识别模型训练方法，其特征在于，所述方法包括：

获取序列样本；

2.根据权利要求1所述的方法，其特征在于，所述识别模型包括循环神经网络及联结主义时序分类算法；

3.根据权利要求2所述的方法，其特征在于，所述计算所述前后向目标序列的第三概率，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率、所述第二概率及所述第三概率，计算目标函数，包括：

g＝-log(P_f)-log(P_b)-log(P_fb)

5.根据权利要求1所述的方法，其特征在于，所述预设训练算法，包括：反向传播算法；

6.一种识别模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取序列样本；

7.根据权利要求6所述的装置，其特征在于，所述识别模型包括循环神经网络及联结主义时序分类算法；

所述识别模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述计算模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述计算模块，具体用于：

g＝-log(P_f)-log(P_b)-log(P_fb)

10.根据权利要求6所述的装置，其特征在于，所述预设训练算法，包括：反向传播算法；

所述训练模块，具体用于：