CN107194438A

CN107194438A - 一种基于多重栈式自编码的深度特征表示方法

Info

Publication number: CN107194438A
Application number: CN201710375648.0A
Authority: CN
Inventors: 胡瑞敏; 熊明福; 陈军; 沈厚明; 梁超; 陈金; 徐东曙; 郑淇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2017-09-22

Abstract

本发明涉及一种基于多重栈式自编码的深度特征表示方法。通过构建不同结构的栈式自编码网络，用以获取目标对象不同层级结构的特征表达。首先建立浅层（隐藏层数较少）的神经网络结构，采用后向传播的方法训练网络参数，使其达到结构最优，并获取网络倒数第二层的输出，即为特征表达；其次分别建立较深层次的网络结构，按照类似的方式训练网络参数，以此获取相应层的输出（特征表达）；再次根据特征组合及选择的方式，对上述所得到的特征进行融合和选择，以获取表征目标的层级特征表示。而进行相应的视觉任务（图像分类，识别，检测）。

Description

一种基于多重栈式自编码的深度特征表示方法

技术领域

本发明涉及一种深度特征表示方法，具体涉及一种基于多重栈式自编码的深度特征表示方法。

背景技术

在计算机视觉和多媒体应用中的一个关键性问题就是如何构造一个辨别力和鲁棒性都比较强的特征。在传统的视频分析及图像处理领域中已存在很多常用的底层视觉特征特征(诸如颜色、纹理、SIFT、HOG、LBP等)，并且在一些视觉任务中也取得了较好的效果。当然，这些特征依然存在着一些限制：首先此类特征的提取过程都是人工设计，存在一定的算法复杂性，一般适用于较小型的数据集，然而当前所采用的视频图像几乎都是超十万级别的数据，因此，难以满足当前大数据中特征提取的需求。其次由于受到现实客观因素的影响，当前面临的数据类型复杂多变(灰度图、彩色图、光照、遮挡的视频数据等)，传统的底层视觉特征不足以有效表达此类数据的特征信息。因此，设计新的算法提取视频图像中的辨别性特征以应对当前复杂多变的数据类型显得尤为必要。随着计算机视觉和机器学习算法的发展，深度学习技术(deep learning)作为一种新型的机器学习算法，其源于人工神经网络技术，从仿生学的原理模拟人脑对目标对象抽取层级特征的判别信息，其强大的信息判别能力得到了当前众多研究者的青睐。虽然这些算法在特征提取的采用分级处理的方法，也为复杂问题提供了有效的解决方案，但是对于特征提取过程的错综复杂的表示结果却很难直观地感受。除此之外，传统的深度体系结构只能提取单层的结构，这会导致失去一些有识别力的精准代表图片的信息。因此，本发明提出一种多重栈式自编码联合特征学习的技术，该方法通过多重自编码深度网络，从多个维度提取目标不同层级的特征信息，实现对目标的准确标准和判别。

发明内容

针对于对特征提取结果的复杂结果不能直观感受和深度体系结构只能提取单层结构的不足，本发明提出了一种可行的方法用于精确提取目标图片的特征，即试图模仿人类大脑的视觉皮质，结合图片表示的多层次特征来实现获取目标图片的特征。

为了实现上述目标，本发明采用的技术方案为一种基于多重栈式自编码的深度特征表示方法。

一种基于多重栈式自编码的深度特征表示方法，其特征在于，基于栈式自编码的基本原则。首先，说明一下，一个自编码需要一个输入x＝R^d和第一个潜在表示的输入的映射h∈R^d′，用一个确定性的函数h＝f_θ＝σ(W_x+b)，参数θ＝{W，b}。然后利用这个方式通过反向映射重置输入：y＝f_θ′(h)＝σ(W′h+b′)，θ′＝{W′，b′}。两个参数通常以W′＝W^T的形式被限制，在编码输入和解码潜在表示y_i时使用相同的权重。参数会通过训练集D_n＝{(x₀，t₀)，...(x_n，t_n)}最小化一个适当的价值函数被最佳化，具体包括：

步骤1，建立多重多层次的自动编码,通过把不同层次的特征组合到一起实现由粗到精的过程。框架结合多个自编码器，它们每个都有不同的结构。拥有越少隐藏层的网络会得到目标低层次的信息，然后把这些特征组合到一起形成最终的表示，这样我们就可以得到由粗到精的目标特征表示。训练原始图片时，我们的框架会从不同的视角去获取它们的表示。通过这种方法，我们依靠新的推理体系确保每一层都会重置输入。这样得到的特征会更加的具有代表性和说服力。

步骤2，进行分层优化深度网络结构(栈式自编码网络结构)。

步骤3，对每个特征分配权重。为了得到一个更具鲁棒性的目标表示特征，对每个特征分配不同的权重。根据深度神经网络结构的特点，隐藏层层次越丰富对应的特征就越有判别力，因此我们对从更深层次的网络所提取的特征相应地设置更高的权重。这个进程通过下式表达：

其中F代表最终的综合特征，f_i代表从i-th自编码器获得的特征，K代表深度自编码器的数量。

步骤4，进行分类。经过不同层次自动编码获得的不同特征会通过权重分配进行预处理。最后把经过处理的特征组合到一起形成最终的表示。之后，通过softmax分类器得到最终的分类结果。softmax分类器我们可以归纳为分类标签超过两个以上的分类问题，其是逻辑回归的一般形式。

在上述基于多重栈式自编码的深度特征表示方法，所述步骤2具体包括：

对栈式自编码网络的分层优化过程是通过反向传播算法来完成的，其主要思路如下：对栈式编码器给定一个样例(x,y)，我们首先进行“前向传导”计算，计算出网络中所有节点的激活值a_i，包括h_w，b(x)的输出值(其中参数θ＝{W，b})。之后针对弟l层的每一个节点i，我们计算其“残差”该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为(第nl层表示输出层)。对于隐藏单元，我们将基于节点(第l+1层节点)残差的加权平均值计算这些节点以作为输入。具体来说，反向传播算法可以表示为以下几个步骤：

步骤2.1:进行前馈传导计算，利用前向传导公式，得到L₂,L₃,…直到输出层L_nl的激活值；

步骤2.2:对输出层(第nl层)，计算残差：δ^(nl)＝-(y-a^(nl))·f′(Z^(nl))；

步骤2.3：对于l＝nl-1,nl-2,nl-3,…,2的各层，计算：δ^(l)＝((W^(l))^Tδ^(l+1))·f′(Z^(l))；

步骤2.4:计算最终需要的偏导数值：

而在实际中应注意：以上的第2步和第3步中，我们需要为每一个i值计算其假设f(Z)是sigmoid函数，并且我们已经在前向传导运算中得到了那么使用我们早先推导出的f′(Z)表达式，就可以计算的得到此过程为对一层栈式自编码网络进行优化与求导过程，因此，我们可以重复梯度下降法的迭代步骤来减小代价函数J(W,b)的值，进而求解整个栈式自编码网络结构。

3、根据权利要求1所述基于多重栈式自编码的深度特征表示方法，其特征在于：所述步骤3具体包括：

通过前面已经了解到如何使用一个自编码器从无标注数据中学习特征。具体来说分为以下几个步骤：

步骤3.1:假定有一个无标注的训练数据集(下标μ代表“不带类标”)。利用训练得到的模型参数W⁽¹⁾，b⁽¹⁾，W⁽²⁾，b⁽²⁾，给定输入数据x(可能需要首先对这些数据做白化或其它适当的预处理)，可以计算隐藏单元的激活量(activations)a。如前所述，相比原始输入x来说，a可能是一个更好的特征描述，即我们所谓的特征表示(去掉自编码网络最后一层的输出，为了和上述一直，此处特征用f表示)；

步骤3.2:针对不同的栈式自编码结构，其隐藏层数是不一样的，在本发明中，我们采用隐藏层数分别为3,4,5，因此其中所获得的特征表示(去掉自编码网络的最后一层的数据输出)为f₃，f₄，f₅。而根据深度神经网络的原理，一般来说，网络层数越深，最后将能够获得鲁棒性更强的特征。所以，在本发明中，三种特征的表征能力将以f₅＞f₄＞f₃的方式排列。因此，三种特征对最终目标特征表示的表现力贡献程度也会不一样，所以在最后进行特征组合的时候，其权重系数也会不一样；

步骤3.3:通过上述步骤步骤3.2,我们获取了不同的特征表示，由于每种特征的表征能力不一样，在本步骤中，我们采取2:3:5的比例来分配相应的权重系数，而在权重系数分配中，必须满足(其中K代表自编码器的数量，λ_i表示每种特征的权重系数，因此通过此种方式可以分别求出每种特征的相应贡献程度。然后通过系数相加的方式获得最后的目标特征表示(如权利要求1中步骤3所示)。

在上述基于多重栈式自编码的深度特征表示方法，所述步骤4中，通过所获取的目标特征表示，利用softmax回归模型对目标特征进行分类，该模型是logistic回归模型在多类问题上的推广。其具体步骤包括：

步骤4.1:通过上述多层特征的权重系数求和相加的方式所获得目标特征后，对特征所表述的目标进行类别标记，用于softmax模型的进行分类，以检验多种深度层级特征的效果；

步骤4.2:由前一步骤中所获得的特征训练集假设由m个已标记的样本所组成，即{(x⁽¹⁾,y⁽¹⁾),…,(x^(m),y^(m))}，其中输入特征x⁽ⁱ⁾∈Rⁿ⁺¹，类别标记y可以取k个不同的值，因此，y⁽ⁱ⁾∈{1,2,…,k}。对于给定的测试输入x，我们想用假设函数针对每一个类别j估算出概率值。也就是说，我们估计x的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值。具体地说，我们的假设函数h_θ(x⁽ⁱ⁾)形式如下：

其中θ₁，θ₂，...，θ_k∈Rⁿ⁺¹是模型参数，这一项是对概率分布进行归一化，使得所有概率和为1；

步骤4.3:softmax的代价函数如下所示(其中1{·}表示示性函数，取值规则为1{值为真的表达式}＝1)：

对于J(θ)的最小化问题，我们采用梯度下降法完成求导过程，其梯度公式如下：

有了上面的偏导数公式以后，我们就可以将它代入到梯度下降法等算法中，来最小化J(θ)，从而求出每种类别的概率，实现最终分类过程。

本发明具有以下积极效果和优点：1、本发明通过以一种逐层的方式获取目标不同层次的信息最终得到目标的特征表示。2、试图从仿生学的角度模仿人类大脑视觉皮质。通过这种方式可以获得图片表示的强有力的特征。

附图说明

图1为本发明的流程图

具体实施方式

首先，说明一下栈式自编码的基本原则。一个自编码需要一个输入x＝R^d和第一个潜在表示的输入的映射h∈R^d′，用一个确定性的函数h＝f_θ＝σ(W_x+b)，参数θ＝{W，b}。然后利用这个方式通过反向映射重置输入：y＝f_θ′(h)＝σ(W′h+b′)，θ′＝{W′，b′}。两个参数通常以W′＝W^T的形式被限制，在编码输入和解码潜在表示y_i时使用相同的权重。参数会通过训练集D_n＝{(x₀，t₀)，...(x_n，t_n)}最小化一个适当的价值函数被最佳化。

首先，建立多重多层次的自动编码。这个过程完全无人监督，模仿人类大脑的认知能力，通过把不同层次的特征组合到一起实现由粗到精的过程。框架结合多个自动编码，它们每个都有不同的结构。拥有越少隐藏层的网络会得到目标低层次的信息，例如边缘；而深层次的网络可以得到高层次的内容，例如目标的一部分或者是完整的一部分。然后把这些特征组合到一起形成最终的表示。这样我们就可以由粗到精的获得物体的特征。训练原始图片时我们的框架会从不同的视角去获取它们的表示。通过这种方法，我们依靠新的推理体系确保每一层都会重置输入。这样得到的特征会更加的具有代表性和说服力。

其次，进行分层优化和微调。

(1)传统的自编码把k-th层的表示作为(k+1)-th层的输入，k-th层也是在(k-1)-th训练之后得到的。这种方式的最大缺点就是在第一层之后图片的像素会被弃置了，因此更高层的模型会与输入产生更稀疏的联系。这会导致模型的学习很脆弱和不实际。我们则是通过组合不同层次的不同的特征来处理这个问题，这种方式可以互相弥补。

(2)微调的目的是获得最优化的神经网络参数。当有过多的参数的时候深度模型可能会过度拟合，所以在训练多层次结构时使用反向传播算法。计算一个关于一个模型的多层次的权重的目标函数的斜率的过程只不过是派生物的链式法则的一个实际应用。一旦派生物经过计算，它就直接关于每个模型权重的斜率。

再就是对每个特征分配权重。为了得到一个有代表性的表示，对每个特征分配不同的权重。根据深度神经网络的方式，层次越丰富对应的特征就越有判别力。因此我们对从更深层次的网络提取的特征相应地设置一个更高的权重。这个进程通过下式表达：

其中F代表最终的综合特征，f_i代表从i-th自动编码获得的特征，K代表深度自动编码的数量。

最后是分类。经过不同层次自动编码获得的不同特征会通过权重分配进行预处理。最后把经过处理的特征组合到一起形成最终的代表。之后，通过softmax分类器得到综合性的特征。分类器会归纳分类标签依赖于超过两个可能的因素的分类问题的逻辑回归。

二、下面具体介绍本发明的具体方法：基于栈式自编码的基本原则。首先，说明一下，一个自编码需要一个输入x＝R^d和第一个潜在表示的输入的映射h∈R^d′，用一个确定性的函数h＝f_θ＝σ(W_x+b)，参数θ＝{W，b}。然后利用这个方式通过反向映射重置输入：y＝f_θ′(h)＝σ(W′h+b′)，θ′＝{W′，b′}。两个参数通常以W′＝W^T的形式被限制，在编码输入和解码潜在表示yi时使用相同的权重。参数会通过训练集D_n＝{(x₀，t₀)，...(x_n，t_n)}最小化一个适当的价值函数被最佳化，具体包括：

步骤2，进行分层优化深度网络结构(栈式自编码网络结构)。

2、根据权利要求1所述基于多重栈式自编码的深度特征表示方法，其特征在于：所述步骤2具体包括：

步骤2.4:计算最终需要的偏导数值：

4、根据权利要求1所述基于多重栈式自编码的深度特征表示方法，其特征在于：所述步骤4中，通过所获取的目标特征表示，利用softmax回归模型对目标特征进行分类，该模型是logistic回归模型在多类问题上的推广。其具体步骤包括：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于多重栈式自编码的深度特征表示方法，其特征在于，基于栈式自编码的基本原则；首先，说明一下，一个自编码需要一个输入x＝R^d和第一个潜在表示的输入的映射h∈R^d′，用一个确定性的函数h＝f_θ＝σ(W_x+b)，参数θ＝{W，b}；然后利用这个方式通过反向映射重置输入：y＝f_θ′(h)σ(W′h+b′)，θ′＝{W′，b′}；两个参数通常以W′＝W^T的形式被限制，在编码输入和解码潜在表示y_i时使用相同的权重；参数会通过训练集D_n＝{(x₀，t₀)，...(x_n，t_n)}最小化一个适当的价值函数被最佳化，具体包括：

步骤1，建立多重多层次的自动编码,通过把不同层次的特征组合到一起实现由粗到精的过程；框架结合多个自编码器，它们每个都有不同的结构；拥有越少隐藏层的网络会得到目标低层次的信息，然后把这些特征组合到一起形成最终的表示，这样我们就可以得到由粗到精的目标特征表示；训练原始图片时，我们的框架会从不同的视角去获取它们的表示；通过这种方法，我们依靠新的推理体系确保每一层都会重置输入；这样得到的特征会更加的具有代表性和说服力；

步骤2，进行分层优化深度网络结构(栈式自编码网络结构)；

步骤3，对每个特征分配权重；为了得到一个更具鲁棒性的目标表示特征，对每个特征分配不同的权重；根据深度神经网络结构的特点，隐藏层层次越丰富对应的特征就越有判别力，因此我们对从更深层次的网络所提取的特征相应地设置更高的权重；这个进程通过下式表达：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>F</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&lambda;</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&lambda;</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中F代表最终的综合特征，f_i代表从i-th自编码器获得的特征，K代表深度自编码器的数量；

步骤4，进行分类；经过不同层次自动编码获得的不同特征会通过权重分配进行预处理；最后把经过处理的特征组合到一起形成最终的表示；之后，通过softmax分类器得到最终的分类结果；softmax分类器我们可以归纳为分类标签超过两个以上的分类问题，其是逻辑回归的一般形式。

2.根据权利要求1所述基于多重栈式自编码的深度特征表示方法，其特征在于：所述步骤2具体包括：

对栈式自编码网络的分层优化过程是通过反向传播算法来完成的，其主要思路如下：对栈式编码器给定一个样例(x,y)，我们首先进行“前向传导”计算，计算出网络中所有节点的激活值a_i，包括h_W，b(x)的输出值(其中参数θ＝{W，b})；之后针对弟l层的每一个节点i，我们计算其“残差”该残差表明了该节点对最终输出值的残差产生了多少影响；对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为(第nl层表示输出层)；对于隐藏单元，我们将基于节点(第l+1层节点)残差的加权平均值计算这些节点以作为输入；具体来说，反向传播算法可以表示为以下几个步骤：

步骤2.4:计算最终需要的偏导数值：

<mrow> <msub> <mo>&dtri;</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <msup> <mrow> <mo>(</mo> <msup> <mi>a</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>,</mo> </mrow>

<mrow> <msub> <mo>&dtri;</mo> <msup> <mi>b</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow>

3.根据权利要求1所述基于多重栈式自编码的深度特征表示方法，其特征在于：所述步骤3具体包括：

通过前面已经了解到如何使用一个自编码器从无标注数据中学习特征；具体来说分为以下几个步骤：

步骤3.1:假定有一个无标注的训练数据集(下标μ代表“不带类标”)；利用训练得到的模型参数W⁽¹⁾，b⁽¹⁾，W⁽²⁾，b⁽²⁾，给定输入数据x(可能需要首先对这些数据做白化或其它适当的预处理)，可以计算隐藏单元的激活量(activations)a；如前所述，相比原始输入x来说，a可能是一个更好的特征描述，即我们所谓的特征表示(去掉自编码网络最后一层的输出，为了和上述一直，此处特征用f表示)；

步骤3.2:针对不同的栈式自编码结构，其隐藏层数是不一样的，在本发明中，我们采用隐藏层数分别为3,4,5，因此其中所获得的特征表示(去掉自编码网络的最后一层的数据输出)为f₃，f₄，f₅；而根据深度神经网络的原理，一般来说，网络层数越深，最后将能够获得鲁棒性更强的特征；所以，在本发明中，三种特征的表征能力将以f₅＞f₄＞f₃的方式排列；因此，三种特征对最终目标特征表示的表现力贡献程度也会不一样，所以在最后进行特征组合的时候，其权重系数也会不一样；

步骤3.3:通过上述步骤步骤3.2,我们获取了不同的特征表示，由于每种特征的表征能力不一样，在本步骤中，我们采取2:3:5的比例来分配相应的权重系数，而在权重系数分配中，必须满足(其中K代表自编码器的数量，λ_i表示每种特征的权重系数，因此通过此种方式可以分别求出每种特征的相应贡献程度；然后通过系数相加的方式获得最后的目标特征表示(如权利要求1中步骤3所示)。

4.根据权利要求1所述基于多重栈式自编码的深度特征表示方法，其特征在于：所述步骤4中，通过所获取的目标特征表示，利用softmax回归模型对目标特征进行分类，该模型是logistic回归模型在多类问题上的推广；其具体步骤包括：

步骤4.2:由前一步骤中所获得的特征训练集假设由m个已标记的样本所组成，即{(x⁽¹⁾,y⁽¹⁾),…,(x^(m),y^(m))}，其中输入特征x⁽ⁱ⁾∈Rⁿ⁺¹，类别标记y可以取k个不同的值，因此，y⁽ⁱ⁾∈{1,2,…,k}；对于给定的测试输入x，我们想用假设函数针对每一个类别j估算出概率值；也就是说，我们估计x的每一种分类结果出现的概率；因此，我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值；具体地说，我们的假设函数h_θ(x⁽ⁱ⁾)形式如下：

<mrow> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>2</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>...</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>k</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mn>1</mn> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mn>2</mn> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <mn>...</mn> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>k</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <mo>&lsqb;</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mi>log</mi> <mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow>

<mrow> <msub> <mo>&dtri;</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mo>&lsqb;</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>