CN107169503B

CN107169503B - 一种室内场景的分类方法及装置

Info

Publication number: CN107169503B
Application number: CN201710188784.9A
Authority: CN
Inventors: 张俊宇; 黄惠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2020-05-22
Anticipated expiration: 2037-03-27
Also published as: CN107169503A

Abstract

本发明适用计算机技术领域，提供了一种室内场景的分类方法及装置，该方法包括：接收输入的待分类场景图片，根据预设的观测区域定位模型从待分类场景图片中获取当前局部观测区域，对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量，根据特征向量获取待分类场景图片的分类预测结果，判断分类预测结果是否满足预设的场景图片分类条件，当不满足时，根据观测区域定位模型从待分类场景图片中获取下一局部观测区域，并将下一局部观测区域设置为当前局部观测区域，跳转至对当前局部观测区域的图像信息进行处理的步骤，当满足条件时，根据分类预测结果获取待分类场景图片的分类标签，从而提高了场景识别分类的分类速率和准确性。

Description

一种室内场景的分类方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种室内场景的分类方法及装置。

背景技术

智能识别和分类是计算机视觉中重点研究的问题。在众多的研究中，热点主要聚焦于物体识别(一张图片包含一个或多个物体)和人脸识别(一张带人脸的图像)。相比于这些研究，室内场景识别极具挑战，是最为困难的分类任务之一。其难点主要在于室内场景不仅包含了大量不同的物体，而且这些物体在空间中的摆放形式千差万别，要对室内场景进行准确地分类，不仅要分析场景中物体的信息，还需提取整个场景结构的特征。

为了提高识别场景的能力，不少学者对此进行了深入研究，提出了很多行之有效的方法。目前的场景识别分类方法主要包括空间金字塔法、基于高层次语义信息的方法和基于卷积神经网络的方法。

这些方法有着明显的缺陷，空间金字塔法的特征表示只依赖于低层次的几何信息，缺少对高层次语义信息的提取，识别场景的能力很受限制，基于高层次语义信息的场景识别方法受限于所选物体的范围，大大地影响了模型分类的能力，基于卷积神经网络的方法主要缺点在于训练过程需要消耗大量的资源，而且主要在物体的检测和分类上效果明显，例如，使用基于卷积神经网络的方法在计算机视觉***识别(ImageNet)数据集上进行物体识别时，可以达到94％的识别率，而使用基于卷积神经网络的方法在公开的MIT-67数据集上进行场景的分类时，只能达到69％的识别率，原因是室内场景的识别不只依赖于场景中的物体，还需要连接物体之间的整体关系，而卷积神经网络方法直接提取的特征不能较好地把握整体和局部信息的融合。

发明内容

本发明的目的在于提供一种室内场景的分类方法及装置，旨在解决现有的场景识别分类方法的准确性不高、分类速率不佳的问题。

一方面，本发明提供了一种室内场景的分类方法，所述方法包括下述步骤：

接收输入的待分类场景图片；

根据预设的观测区域定位模型从所述待分类场景图片中获取当前局部观测区域；

对所述当前局部观测区域的图像信息进行处理，以得到所述待分类场景图片的特征向量；

根据所述特征向量获取所述待分类场景图片的分类预测结果，判断所述分类预测结果是否满足预设的场景图片分类条件；

当所述分类预测结果不满足所述场景图片分类条件时，根据所述观测区域定位模型从所述待分类场景图片中获取下一局部观测区域，并将所述下一局部观测区域设置为所述当前局部观测区域，跳转至所述对所述当前局部观测区域的图像信息进行处理，以得到所述待分类场景图片的特征向量的步骤；

当所述分类预测结果满足所述场景图片分类条件时，根据所述分类预测结果获取所述待分类场景图片的分类标签。

另一方面，本发明提供了一种室内场景的分类装置，所述装置包括：

图片接收单元，用于接收输入的待分类场景图片；

区域获取单元，用于根据预设的观测区域定位模型从所述待分类场景图片中获取当前局部观测区域；

向量获取单元，用于对所述当前局部观测区域的图像信息进行处理，以得到所述待分类场景图片的特征向量；

条件判断单元，用于根据所述特征向量获取所述待分类场景图片的分类预测结果，判断所述分类预测结果是否满足预设的场景图片分类条件；

重复执行单元，用于当所述分类预测结果不满足所述场景图片分类条件时，根据所述观测区域定位模型从所述待分类场景图片中获取下一局部观测区域，并将所述下一局部观测区域设置为所述当前局部观测区域，并触发所述向量获取单元对所述当前局部观测区域的图像信息进行处理；以及

场景分类单元，用于当所述分类预测结果满足所述场景图片分类条件时，根据所述分类预测结果获取所述待分类场景图片的分类标签。

本发明在接收输入的待分类场景图片后，根据预设的观测区域定位模型从待分类场景图片中获取当前局部观测区域，对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量，根据特征向量获取待分类场景图片的分类预测结果，判断分类预测结果是否满足预设的场景图片分类条件，当分类预测结果不满足场景图片分类条件时，根据观测区域定位模型从待分类场景图片中获取下一局部观测区域，并将下一局部观测区域设置为当前局部观测区域，跳转至对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量的步骤，直至分类预测结果满足场景图片分类条件，当分类预测结果满足场景图片分类条件时，根据分类预测结果获取待分类场景图片的分类标签，从而提高了场景识别分类的分类速率和准确性。

附图说明

图1是本发明实施例一提供的室内场景的分类方法的实现流程图；

图2是本发明实施例二提供的室内场景的分类方法中建立观测区域定位模型的实现流程图；

图3是本发明实施例三提供的室内场景的分类装置的结构示意图；以及

图4是本发明实施例四提供的室内场景的分类装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的室内场景的分类方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收输入的待分类场景图片。

在步骤S102中，根据预设的观测区域定位模型从待分类场景图片中获取当前局部观测区域。

在本发明实施例中，待分类场景图片为待识别分类的室内场景对应的图片。为了降低识别分类过程中计算的复杂度，提高识别分类的可控性，根据观测区域定位模型每次只从场景图片中选择一个局部观测区域，以进行识别和分类。

在步骤S103中，对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量。

在本发明实施例中，优选地，在获取到当前局部观测区域的图像信息之后，对当前局部观测区域的图像信息进行处理时，首先对当前局部观测区域的图像信息进行编码，得到局部特征向量，然后对得到的局部特征向量与预先得到的特征向量执行融合操作，得到待分类场景图片图像信息的特征向量，从而提高了特征向量的全面性，进而提高对场景图片分类的准确性。

在步骤S104中，根据特征向量获取待分类场景图片的分类预测结果。

在步骤S105中，判断分类预测结果是否满足预设的场景图片分类条件。

在本发明实施例中，分类预测结果包括分类结果和对应的预测概率，在得到待分类场景图片图像信息的特征向量之后，根据特征向量可以预测得到场景图片的多个分类结果及对应的预测概率，多个分类结果的预测概率总和为100％，判断这些多个分类结果中是否存在对应的预测概率大于预设阈值的分类结果，即判断分类预测结果是否满足预设的对待分类场景图片进行分类的条件。作为示例地，预测概率的预设阈值可以设置为65％，判断这些多个分类结果中是否存在对应的预测概率大于65％的分类结果。

在步骤S106中，当分类预测结果不满足场景图片分类条件时，根据观测区域定位模型从待分类场景图片中获取下一局部观测区域，并将下一局部观测区域设置为当前局部观测区域，跳转至对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量的步骤。

在本发明实施例中，当这些多个分类结果中不存在对应的预测概率大于预设阈值的分类结果时，说明现有的分类预测结果不满足预设的对待分类场景图片进行分类的条件，若要实现对待分类场景图片的分类，还需要获取场景图片更多的区域信息，因此，根据观测区域定位模型获取下一个局部观测区域，并将下一局部观测区域设置为当前局部观测区域，重复进行图像信息处理并获取分类预测结果，直至分类预测结果满足场景图片分类条件。

在步骤S107中，当分类预测结果满足场景图片分类条件时，根据分类预测结果获取待分类场景图片的分类标签。

在本发明实施例中，当这些预测得到的多个分类结果中存在对应的预测概率大于预设阈值的分类结果时，说明分类预测结果已经满足预设的对待分类场景图片进行分类的条件，即已经可以实现对待分类场景图片的分类，因此，获取分类预测结果中对应的预测概率大于预设阈值的分类结果，将该分类结果设置为待分类场景图片的分类标签，从而提高了场景图片分类的准确性。

在本发明实施例中，接收输入的待分类场景图片，根据预设的观测区域定位模型从待分类场景图片中获取当前局部观测区域，从而降低了待分类场景图片识别分类的复杂度，提高了识别分类的可控性，对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量，从而提高场景图片分类的分类速率，根据特征向量获取待分类场景图片的分类预测结果，判断分类预测结果是否满足预设的场景图片分类条件，当分类预测结果不满足场景图片分类条件时，根据观测区域定位模型从待分类场景图片中获取下一局部观测区域，并将下一局部观测区域设置为当前局部观测区域，重复进行图像信息处理并获取分类预测结果，直至分类预测结果满足场景图片分类条件，当分类预测结果满足场景图片分类条件时，根据分类预测结果获取待分类场景图片的分类标签，从而提高了场景图片分类的准确性。

实施例二：

图2示出了本发明实施例二提供的室内场景的分类方法中建立观测区域定位模型的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，接收输入的待训练场景图片，根据预设的高斯分布从待训练场景图片中获取当前训练用局部观测区域。

在本发明实施例中，待训练场景图片为室内场景的局部观测区域定位训练过程中输入的需要分类的场景图片。为了降低识别分类过程中计算的复杂度，提高识别分类的可控性，根据观测区域定位模型每次从场景图片中选择一个局部观测区域，以进行识别和分类。优选地，在训练过程中可以根据实际情况调整局部观测区域的大小，以优化训练结果。

在步骤S202中，根据当前训练用局部观测区域对待训练场景图片进行分类操作并计算分类操作的奖励值。

在本发明实施例中，通过对当前训练用局部观测区域的图像信息的处理，得到待训练场景图片的特征向量之后，根据特征向量对待训练场景图片进行分类，得到待训练场景图片的分类标签。优选地，在获取到局部观测区域的图像信息之后，在对当前训练用局部观测区域的图像信息进行处理时，首先对当前训练用局部观测区域的图像信息进行编码，得到局部特征向量，然后对得到的局部特征向量与预先得到的特征向量执行融合操作，得到待分类场景图片图像信息的特征向量，从而提高了特征向量的全面性，进而提高对场景图片分类的准确性。优选地，在训练过程中可以调节特征向量的维度，以优化训练结果。

在本发明实施例中，在每次得到待训练场景图片的分类标签之后，获取待训练场景图片的标准分类标签，判断得到的待训练场景图片的分类标签是否正确，并计算分类的奖励值。优选地，在计算分类的奖励值时，根据分类奖励值的计算公式

计算分类的奖励值，其中，r_t为第t次分类的奖励值，t为分类次数，y为训练得到的分类标签，loss_t为第t次分类的分类误差，y＝max_ylogp(y)表示得到的分类标签是正确的，从而避免重复观察同样区域，避免观测噪声太多的区域。优选地，在训练过程中可适当改变奖励值的计算公式中的反馈值，以优化模型收敛的速度，从而优化训练模型。

在步骤S203中，判断是否达到预设的训练结束条件。

在步骤S204中，当未达到预设的训练结束条件时，根据高斯分布从待训练场景图片中获取下一训练用局部观测区域，将下一训练用局部观测区域设置为当前训练用局部观测区域，跳转至根据当前训练用局部观测区域对待训练场景图片进行分类操作并计算分类操作的奖励值的步骤。

在本发明实施例中，在训练的过程中，下一训练用局部观测区域可以从一个给定方差的高斯分布中采样得到。重复对采样得到的下一训练用局部观测区域进行识别，根据识别到的信息对待训练场景图片进行分类，得到分类标签，每一次分类都可以通过计算得到对应的奖励值。

在步骤S205中，当达到预设的训练结束条件时，获取所有待训练场景图片中每张待训练场景图片的奖励值的代数和，以得到每张待训练场景图片的总奖励值，根据总奖励值建立总奖励值最大化的观测区域定位模型。

在本发明实施例中，若达到预设的训练结束条件，则获取待训练场景图片的奖励值的代数和，以得到这张待训练场景图片的总奖励值，所有待训练场景图片中每张待训练场景图片都有对应的总奖励值，根据总奖励值建立可以使总奖励值最大化的观测区域定位模型，以用于在对待分类场景图片分类的过程中确定最优的下一个局部观测区域，从而提高场景识别分类的分类速率和准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例三：

图3示出了本发明实施例三提供的室内场景的分类装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，室内场景的分类装置包括图片接收单元31、区域获取单元32、向量获取单元33、条件判断单元34以及场景分类单元35，其中：

图片接收单元31，用于接收输入的待分类场景图片。

区域获取单元32，用于根据预设的观测区域定位模型从待分类场景图片中获取当前局部观测区域。

向量获取单元33，用于对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量。

在本发明实施例中，优选地，在获取到局部观测区域的图像信息之后，对局部观测区域的图像信息进行处理时，首先对局部观测区域的图像信息进行编码，得到局部特征向量，然后对得到的局部特征向量与预先得到的特征向量执行融合操作，得到待分类场景图片图像信息的特征向量，从而提高了特征向量的全面性，进而提高对场景图片分类的准确性。

因此，优选地，该向量获取单元33包括：

编码操作单元331，用于对当前局部观测区域的图像信息进行编码，得到局部特征向量；以及

融合操作单元332，用于对局部特征向量与预先存储的特征向量执行融合操作，得到场景图片的特征向量。

条件判断单元34，用于根据特征向量获取待分类场景图片的分类预测结果，判断分类预测结果是否满足预设的场景图片分类条件。

重复执行单元35，用于当分类预测结果不满足场景图片分类条件时，根据观测区域定位模型从待分类场景图片中获取下一局部观测区域，并将下一局部观测区域设置为当前局部观测区域，并触发向量获取单元33对当前局部观测区域的图像信息进行处理。

场景分类单元36，用于当分类预测结果满足场景图片分类条件时，根据分类预测结果获取待分类场景图片的分类标签。

在本发明实施例中，当这些预测得到的多个分类结果中存在对应的预测概率大于预设阈值的分类结果时，说明分类预测结果已经满足预设的对待分类场景图片进行分类的条件，即已经可以实现对待分类场景图片的分类，因此，场景分类单元获取分类预测结果中对应的预测概率大于预设阈值的分类结果，将该分类结果设置为待分类场景图片的分类标签，从而提高了场景图片分类的准确性。

在本发明实施例中，室内场景的分类装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考前述实施例一的描述，在此不再赘述。

实施例四：

图4示出了本发明实施例四提供的室内场景的分类装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，室内场景的分类装置包括训练区域获取单元401、区域训练单元402、循环训练单元403、定位模型建立单元404、图片接收单元405、区域获取单元406、向量获取单元407、条件判断单元408以及场景分类单元409，其中：

训练区域获取单元401，用于接收输入的待训练场景图片，根据预设的高斯分布从待训练场景图片中获取当前训练用局部观测区域。

区域训练单元402，用于根据当前训练用局部观测区域对待训练场景图片进行分类操作并计算分类操作的奖励值。

在本发明实施例中，在每次得到待训练场景图片的分类标签之后，获取待训练场景图片的标准分类标签，判断得到的待训练场景图片的分类标签是否正确，奖励值计算单元根据判断结果计算分类的奖励值。优选地，在计算分类的奖励值时，根据分类奖励值的计算公式

计算分类的奖励值，其中，r_t为第t次分类的奖励值，t为分类次数，y为训练得到的分类标签，loss_t为第t次分类的分类误差，y＝max_y logp(y)表示得到的分类标签是正确的，从而避免重复观察同样区域，避免观测噪声太多的区域。优选地，在训练过程中可适当改变奖励值的计算公式中的反馈值，以优化模型收敛的速度，从而优化训练模型。

因此，优选地，该区域训练单元402包括：

训练分类单元4021，用于对当前训练用局部观测区域的图像信息进行处理，得到待训练场景图片的当前特征向量，根据当前特征向量对待训练场景图片进行分类，得到待训练场景图片的分类标签；以及

奖励值计算单元4022，用于获取待训练场景图片的标准分类标签，将得到的分类标签与标准分类标签进行比较，判断得到的分类标签是否正确，根据判断结果计算分类的奖励值。

优选地，该奖励值计算单元4022包括：

计算子单元，用于计算分类误差，获取分类次数，通过分类奖励值的计算公式

计算分类的奖励值，其中，r_t为第t次分类的奖励值，t为分类次数，y为训练得到的分类标签，loss_t为第t次分类的分类误差，y＝max_y logp(y)表示得到的分类标签是正确的。

循环训练单元403，用于当未达到预设的训练结束条件时，根据高斯分布从待训练场景图片中获取下一训练用局部观测区域，将下一训练用局部观测区域设置为当前训练用局部观测区域，并触发区域训练单元402根据当前训练用局部观测区域对待训练场景图片进行分类操作并计算分类操作的奖励值。

定位模型建立单元404，用于当达到预设的训练结束条件时，获取所有待训练场景图片中每张待训练场景图片的奖励值的代数和，以得到每张待训练场景图片的总奖励值，根据总奖励值建立总奖励值最大化的观测区域定位模型。

图片接收单元405，用于接收输入的待分类场景图片。

区域获取单元406，用于根据预设的观测区域定位模型从待分类场景图片中获取当前局部观测区域。

向量获取单元407，用于对当前局部观测区域的图像信息进行处理，以得到待分类场景图片的特征向量。

条件判断单元408，用于根据特征向量获取待分类场景图片的分类预测结果，判断分类预测结果是否满足预设的场景图片分类条件。

在本发明实施例中，得到待分类场景图片图像信息的特征向量之后，根据特征向量可以预测得到场景图片的多个分类结果及对应的预测概率，多个分类结果的预测概率总和为100％，条件判断单元判断这些多个分类结果中是否存在对应的预测概率大于预设阈值的分类结果，即判断分类预测结果是否满足预设的对待分类场景图片进行分类的条件。

重复执行单元409，用于当分类预测结果不满足场景图片分类条件时，根据观测区域定位模型从待分类场景图片中获取下一局部观测区域，并将下一局部观测区域设置为当前局部观测区域，并触发向量获取单元407对当前局部观测区域的图像信息进行处理。

场景分类单元410，用于当分类预测结果满足场景图片分类条件时，根据分类预测结果获取待分类场景图片的分类标签。

在本发明实施例中，室内场景的分类装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考前述实施例的描述，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种室内场景的分类方法，其特征在于，所述方法包括下述步骤：

接收输入的待分类场景图片；

当所述分类预测结果满足所述场景图片分类条件时，根据所述分类预测结果获取所述待分类场景图片的分类标签；

接收输入的待分类场景图片的步骤之前，所述方法还包括：

接收输入的待训练场景图片，根据预设的高斯分布从所述待训练场景图片中获取当前训练用局部观测区域；

根据所述当前训练用局部观测区域对所述待训练场景图片进行分类操作并计算所述分类操作的奖励值；

当未达到预设的训练结束条件时，根据所述高斯分布从所述待训练场景图片中获取下一训练用局部观测区域，将所述下一训练用局部观测区域设置为当前训练用局部观测区域，跳转至根据所述当前训练用局部观测区域对所述待训练场景图片进行分类操作并计算所述分类操作的奖励值的步骤；

当达到预设的训练结束条件时，获取所有待训练场景图片中每张待训练场景图片的所述奖励值的代数和，以得到每张待训练场景图片的总奖励值，根据所述总奖励值建立总奖励值最大化的观测区域定位模型。

2.如权利要求1所述的方法，其特征在于，根据所述当前训练用局部观测区域对所述待训练场景图片进行分类操作并计算所述分类操作的奖励值的步骤，包括：

对所述当前训练用局部观测区域的图像信息进行处理，得到所述待训练场景图片的当前特征向量，根据所述当前特征向量对所述待训练场景图片进行分类，得到所述待训练场景图片的分类标签；

获取所述待训练场景图片的标准分类标签，将所述得到的分类标签与所述标准分类标签进行比较，判断所述得到的分类标签是否正确，根据所述判断结果计算所述分类操作的奖励值。

3.如权利要求2所述的方法，其特征在于，根据所述判断结果计算所述分类操作的奖励值的步骤，包括：

计算分类误差，获取分类次数，通过预设的分类操作的奖励值的计算公式__

计算所述分类操作的奖励值，r_t 为第t次分类操作的奖励值，t为分类次数，y为所述训练得到的分类标签，losstloss_t 为第t次分类的分类误差，y＝max_ylogp (y) 表示得到的分类标签是正确的。

4.如权利要求1所述的方法，其特征在于，对所述当前局部观测区域的图像信息进行处理，以得到所述待分类场景图片的特征向量的步骤，包括：

对所述当前局部观测区域的图像信息进行编码，得到局部特征向量；

对所述局部特征向量与预先存储的特征向量执行融合操作，得到所述场景图片的特征向量。

5.一种室内场景的分类装置，其特征在于，所述装置包括：

图片接收单元，用于接收输入的待分类场景图片；

场景分类单元，用于当所述分类预测结果满足所述场景图片分类条件时，根据所述分类预测结果获取所述待分类场景图片的分类标签；

所述装置还包括：

训练区域获取单元，用于接收输入的待训练场景图片，根据预设的高斯分布从所述待训练场景图片中获取当前训练用局部观测区域；

区域训练单元，用于根据所述当前训练用局部观测区域对所述待训练场景图片进行分类操作并计算所述分类操作的奖励值；

循环训练单元，用于当未达到预设的训练结束条件时，根据所述高斯分布从所述待训练场景图片中获取下一训练用局部观测区域，将所述下一训练用局部观测区域设置为当前训练用局部观测区域，并触发所述区域训练单元根据所述当前训练用局部观测区域对所述待训练场景图片进行分类操作并计算所述分类操作的奖励值；以及

定位模型建立单元，用于当达到预设的训练结束条件时，获取所有待训练场景图片中每张待训练场景图片的总奖励值，根据所述总奖励值建立总奖励值最大化的观测区域定位模型。

6.如权利要求5所述的装置，其特征在于，所述区域训练单元包括：

训练分类单元，用于对所述当前训练用局部观测区域的图像信息进行处理，得到所述待训练场景图片的当前特征向量，根据所述当前特征向量对所述待训练场景图片进行分类，得到所述待训练场景图片的分类标签；以及

奖励值计算单元，用于获取所述待训练场景图片的标准分类标签，将所述得到的分类标签与所述标准分类标签进行比较，判断所述得到的分类标签是否正确，根据所述判断结果计算所述分类操作的奖励值。

7.如权利要求6所述的装置，其特征在于，所述奖励值计算单元包括：

计算子单元，用于计算分类误差，获取分类次数，通过预设的分类操作的奖励值的计算公式

计算所述分类操作的奖励值，r_t 为第t次分类操作的奖励值，t为分类次数，y为所述训练得到的分类标签，loss_t 为第t次分类的分类误差，y＝max_ylogp (y) 表示得到的分类标签是正确的。

8.如权利要求5所述的装置，其特征在于，所述向量获取单元包括：

编码操作单元，用于对所述当前局部观测区域的图像信息进行编码，得到局部特征向量；以及

融合操作单元，用于对所述局部特征向量与预先存储的特征向量执行融合操作，得到所述场景图片的特征向量。