CN112818933A

CN112818933A - 目标对象的识别处理方法、装置、设备及介质

Info

Publication number: CN112818933A
Application number: CN202110221208.6A
Authority: CN
Inventors: 赵珂; 赵代平; 李展鹏; 孙德乾; 胡超凡; 孔祥晖
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-18

Abstract

本说明书实施例提供一种目标对象的识别处理方法、装置、设备及介质。所述方法包括：获取待识别处理的第一图像；根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，其中，所述第一图像和所述第二图像对应于同一拍摄场景，所述第二图像的分辨率低于所述第一图像的分辨率；基于所述目标图像区域对所述目标对象进行识别处理。由于全图检测时采用低分辨率图像，因而可以提高位置检测的速度，在进行属性、状态等识别时，采用高分辨率图像，则可以保证识别结果的精度和准确度。

Description

目标对象的识别处理方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种目标对象的识别处理方法、装置、设备及介质。

背景技术

随着成像技术的发展，目前大多图像采集设备可以通过拍摄得到较高分辨率的图像。而在图像处理过程中，通常需要对图像进行全图检测以确定图像中目标对象的位置，再对目标对象对应的图像区域进行进一步处理，这就需消耗较大的计算资源，并且耗费较长的时间。因而，有必要提供一种可以提高对图像中的目标对象进行识别处理的方案。

发明内容

本公开实施例提供一种目标对象的识别处理方法、装置、设备及介质。

根据本公开实施例的第一方面，提供一种目标对象识别处理的方法，所述方法包括：

获取待识别处理的第一图像；

根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，其中，所述第一图像和所述第二图像对应于同一拍摄场景，所述第二图像的分辨率低于所述第一图像的分辨率；

基于所述目标图像区域对所述目标对象进行识别处理。

在一些实施例中，所述第一图像和所述第二图像被拍摄的时间间隔不超过预设阈值。

在一些实施例中，所述第一图像从第一视频流的视频帧中获得，所述第二图像通过对所述第一视频流的视频帧下采样获得，或所述第二图像从第二视频流的视频帧中获得。

在一些实施例中，所述第二图像与所述第一视频流中的指定视频帧同时采集或所述第二图像通过对所述第一视频流中的指定视频帧下采样得到，所述第一图像包括所述第一视频流中与所述指定视频帧的帧间间距小于预设阈值的多个视频帧。

在一些实施例中，所述第一视频流和所述第二视频流通过同一个摄像装置的不同分辨率的视频通道采集得到，或

所述第一视频流和所述第二视频流分别通过不同分辨率的两个摄像装置采集得到。

在一些实施例中，所述方法还包括：

响应于未在所述目标图像区域中识别到所述目标对象，基于所述第一视频流中最新采集的视频帧或所述第二视频流中最新采集的视频帧更新所述第二图像，以更新所述位置信息。

在一些实施例中，所述根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，包括：

响应于所述第一图像与所述第二图像的坐标系不同，确定所述第一图像的坐标系与所述第二图像的坐标系之间的映射关系；

基于所述映射关系以及所述位置信息在所述第一图像中确定包括所述目标对象的目标图像区域。

在一些实施例中，基于所述目标图像区域对所述目标对象进行识别处理，包括：

对所述目标图像区域进行特征提取；

基于提取得到的特征识别所述目标对象的属性信息和/或状态信息。

在一些实施例中，所述方法还包括：

基于所述属性信息和/或所述状态信息生成用于描述所述目标对象在特定场景下的状态的报表，并显示给用户。

在一些实施例中，所述位置信息包括所述目标对象对应的对象框的边界点的位置信息，根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，包括：

基于所述边界点的位置信息以及缩放比例在所述第一图像中确定多个像素点，所述缩放比例基于所述第一图像的分辨率和所述第二图像的分辨率确定；

以所述多个像素点为边界点在所述第一图像中确定所述目标图像区域。

根据本公开实施例的第二方面，提供一种目标对象的识别处理装置，所述装置包括：

获取模块，用于获取待识别处理的第一图像；

处理模块，用于根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，其中，所述第一图像和所述第二图像对应于同一拍摄场景，所述第二图像的分辨率低于所述第一图像的分辨率；

识别模块，用于基于所述目标图像区域对所述目标对象进行识别处理。

在一些实施例中，所述装置还用于：

在一些实施例中，所述处理模块用于根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域时，具体用于：

在一些实施例中，所述识别模块用于基于所述目标图像区域对所述目标对象进行识别处理时，具体用于：

对所述目标图像区域进行特征提取；

在一些实施例中，所述装置还用于：

基于所述属性信息和/或所述状态信息生成用于描述所述目标对象在特定场景下的状态的报表。

在一些实施例中，所述位置信息包括所述目标对象对应的对象框的边界点的位置信息，所述处理模块用于根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域时，具体用于：

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括处理器、存储器、存储于所处存储器可供所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现上述第一方面提及的任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时，可实现上述第一方面所述的方法。

本公开实施例中，在对目标对象进行识别时，可以使用针对同一场景的两种分辨率的图像，低分辨率的图像可以用于全图检测，以确定目标对象在低分辨率图像中的位置，然后再基于目标对象在低分辨率图像中的位置在高分辨率图像中确定目标对象对应的图像区域，利用高分辨率图像中目标对象对应的图像区域做后续的识别处理。由于在对目标对象进行位置检测时，需要作全图检测，因而可以采用低分辨率图像进行检测，以提高目标对象的位置检测的速度，在进行属性、状态等精细化信息的识别时，则采用高分辨率图像进行识别，可以保证识别结果的精度和准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的一种对目标对象进行识别处理的流程图。

图2是本公开实施例的一种对目标对象进行识别处理的示意图。

图3是本公开实施例的一种应用场景的示意图。

图4是本公开实施例的一种对目标对象进行识别处理的装置的逻辑结构示意图。

图5是本公开实施例的一种电子设备的逻辑结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

在很多业务场景中，比如线下教育、视频会议、安防等场景，可以采用高分辨率的摄像头等摄像装置，采集目标对象的图像或者视频，然后对目标对象的属性或者状态进行识别。比如，识别人脸是否为目标人脸，识别人脸的表情、年龄、性别，或者识别肢体的动作、姿态等，以用于后续的应用。在对目标对象的属性或者状态进行识别之前，可以先对整张图像进行检测，确定目标对象在图像中的位置，然后再对该位置对应的图像区域进行属性、状态的识别。比如，在进行人脸识别时，可以先确定图像中人脸的位置，比如，在图像中确定包含人脸的人脸框，然后再对人脸框对应的图像区域进行后续识别处理，以确定人脸对应的身份信息、性别信息、表情姿态等。在确定目标对象的位置时，由于需对整张图像进行检测，在图像分辨率比较高的情况下，需消耗大量计算资源，且耗时很长，影响最终的目标对象识别的速度。

基于此，本公开实施例提供了一种目标对象的识别处理方法，在对目标对象进行识别时，可以使用针对同一场景的两种分辨率的图像，低分辨率的图像可以用于全图检测，以确定目标对象在低分辨率图像中的位置，然后再基于该位置在高分辨率图像中确定目标对象对应的图像区域，利用高分辨率图像中目标对象对应的图像区域做后续的识别处理，由于全图检测时采用低分辨率图像，因而可以提高位置检测的速度，在进行属性、状态等信息的识别时，采用高分辨率图像，则可以保证识别结果的精度和准确度。当然，在实际应用过程中，也可以采用多于两种分辨率的图像，比如，低分辨率的图像用于全图检测，结合不同识别需求，采用不同分辨率的图像进行不同属性或状态的识别。在本公开实施例中，以两种分辨率的图像为例阐述方案细节，但并不作为对技术方案使用方式的限定。

本公开实施例中提供的方法可以由任一具备足够计算能力的电子设备执行，比如，可以是服务器、笔记本电脑、手机、平板或者摄像装置等。比如，在一些实施例中，可以由摄像装置直接采集到视频或图像后，执行对图像或视频中目标对象进行识别的步骤。在一些实施例中，也可以由服务器在接收到摄像装置采集的到的图像或视频后，执行对图像或视频中目标对象进行识别的步骤。其中，服务器可以是一个独立的服务器，也可以是服务器集群，本公开实施例不做限制。

本公开实施例中的目标对象可以是各种需要识别其属性信息或者状态信息的对象，比如，可以是人物、动物或者景物，也可以是人物、动物或景物的局部部位，比如，人物的人脸、肢体等。

以下结合图1和图2对本公开实施例提供的目标对象的识别处理方法进行介绍，图1为该方法的处理流程图，图2为该方法处理过程示意图，具体包括以下步骤：

S102、获取待识别处理的第一图像；

S104、根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，其中，所述第一图像和所述第二图像对应于同一拍摄场景，所述第二图像的分辨率低于所述第一图像的分辨率；

S106、基于所述目标图像区域对所述目标对象进行识别处理。

针对同一拍摄场景，可以获取该场景对应的两种不同分辨率的图像，以下将分辨率较高的图像统称为第一图像，分辨率较低的图像统称为第二图像。

由于在对目标对象进行位置检测时，对图像分辨率要求较低，因而可以对分辨率较低的第二图像进行全图检测，确定目标对象在第二图像中的位置信息。其中，目标对象在第二图像中的位置信息可以是第二图像中目标对象对应的各像素点的像素坐标，或者是目标对象的轮廓点的像素坐标，或者是包含目标对象的一个对象框的坐标，比如，可以是包含目标对象的矩形框的边界点或四个顶点的像素坐标，或者是包含目标对象的矩形框的中心点的像素坐标以及边长。位置信息可以是各种可以用于确定目标对象在第二图像中的位置的信息，本公开实施例不做限制。

在获取到待识别处理的第一图像时，可以根据目标对象在第二图像中的位置信息在该第一图像中确定包括目标对象的目标图像区域。其中，第一图像可以是通过高清摄像头采集的分辨率较高的图像，由于其分辨率较高，用于对目标对象进行识别处理时，可以得到比较准确的结果。第一图像和第二图像可以是针对同一拍摄场景同时采集的图像，也可以在相隔较短的时间间隔采集的图像，以确保两帧图像中的场景比较接近，目标对象的位置变化较小。可以根据目标对象在第二图像的位置信息确定目标对象在第一图像中的位置，并在第一图像中确定包括目标对象的目标图像区域，用于后续的识别处理。其中，目标图像区域可以是仅由目标对象对应的像素点构成的图像区域，也可以是包括目标对象对应的像素点以及部分背景像素点的图像区域，比如，可以是目标对象对应的对象框所框选的包括目标对象及部分背景图像的图像区域。

在第一图像中确定目标图像区域后，可以根据目标图像区域对目标对象进行识别处理，比如，可以将目标图像区域输入到预先训练的模型中，以对目标对象的属性信息、状态信息等细节信息进行识别。比如，目标对象可以是人脸，可以基于第二图像中人脸的位置在第一图像确定一个人脸框，然后将人脸框对应的图像区域输入到人脸识别模型中，以进行人脸比对，人脸表情识别、肤色识别、性别识别、年龄识别等各种识别处理。或者，目标对象可以是肢体，可以将第一图像中包含肢体的图像区域输入到模型中，以识别肢体的动作、姿态等信息。

针对同一拍摄场景，通过获取两种不同分辨率的图像，低分辨率的图像用于全图检测，以确定目标对象在低分辨率图像的位置信息，再根据目标对象在低分辨率图像中的位置在高分辨率图像中确定包括目标对象的图像区域，然后利用高分辨率图像中的包括目标对象的图像区域对目标对象进行识别，通过低分辨率的图像进行全图检测，可以减少在对目标对象进行位置检测时消耗的计算资源，同时，也可以提高检测的速度。利用高分辨率图像中包括目标对象的图像区域进行对目标对象进行属性、状态等细节信息的识别处理，可以提高检测结果的精度和准确度，从而实现对目标对象进行快速而准确地识别。

由于目标对象在第一图像的位置可以根据目标对象在第二图像中的位置映射得到，因而，需尽可能保证拍摄两种图像时，目标对象的位置基本没有变化，即未发生变化，或是变化很小可忽略不计，以便通过目标对象在第二图像中的位置信息在第一图像中确定的包括目标对象的目标图像区域比较准确。

在一些实施例中，第一图像和第二图像被拍摄的时间间隔不超过预设时间阈值，其中，预设时间阈值可以根据实际应用场景设定，比如，在一些场景中，目标对象的位置基本不发生变化，比如，线下课堂或线下会议场景，学生和参会人员的位置基本不发生变化，因而，预设时间阈值可以设置的大一些。在一些场景，目标对象可能是运动的，其位置会实时变化，因而，预设时间阈值可以设置的小一些，以确保将目标对象在第二图像中的位置映射到第一图像后，确定的目标图像区域中包括目标对象。

在一些场景，可以通过拍摄目标对象在一段时间内的视频流来对目标对象的属性、状态等信息进行识别，比如，在线下教育的场景，可以拍摄学生在一堂课中的视频，通过对视频中学生的表情、姿态、动作等进行识别分析，以确定学生在课堂中的学习状态。因此，在一些实施例中，第一图像可以从第一视频流的视频帧中获得，第二图像可以通过对第一视频流的视频帧下采样获得。比如，可以通过摄像装置采集目标对象的视频流，从视频流中获取到一帧待识别的第一图像后，可以对第一图像进行下采样处理，得到分辨率较低的第二图像，下采样的频率可以依据实际需求设置，然后，可以根据目标对象在第二图像的位置信息在第一图像中确定目标图像区域。当然，可以对每一帧第一图像都进行一次下采样处理，得到第二图像，用于确定目标图像区域。在目标对象位置变化不大的场景，为了提高处理效率，也可以在得到一帧第二图像后，供后续多帧第一图像使用，用于确定后续多帧第一图像中的目标对象的位置。

在一些实施例中，在获取高分辨率的第一视频流的同时，也可以获取低分辨率的第二视频流，第二图像也可以从第二视频流的视频帧中获得。第二图像可以是第二视频流中和第一图像同时采集的图像，也可以是第二视频流中和第一图像采集时间间隔较短的图像。

在一些实施例中，第一视频流和第二视频流可以通过同一个摄像装置的不同分辨率的视频通道采集得到。目前，很多摄像装置都可以支持同时采集多通道的视频或者图像，不同通道在同一时间采集的视频或者图像中的分辨率不一样，图像或者视频的内容完全一样。

在一些实施例中，第一视频流和第二视频流也可以通过分辨率不同的两个摄像装置采集得到。比如，针对同一个场景，可以采用两个不同分辨率的摄像装置同时采集视频流，低分辨率摄像装置采集的视频帧用于目标对象的位置检测，高分辨率摄像装置采集的视频帧用于目标对象的识别。

在一些场景中，由于目标对象位置变化较小，因而，针对同一帧第二图像确定的目标对象的位置信息，可以用于多帧第一图像中目标对象的位置的确定，当然，为了确保这多帧第一图像中目标对象的位置变化较小，这多帧第一图像尽可能是连续的多帧图像或者是邻近的多帧图像。因此，在一些实施例中，第二图像可以是与第一视频流中的指定视频帧同时采集的一帧图像，或者第二图像是通过对象第一视频流中的指定视频帧下采样得到的图像，此时，第一图像可以是第一视频流中和该指定视频帧的帧间间距小于预设阈值的多个视频帧。从而，一帧第二图像确定的位置信息可以重复给多帧第一图像使用，提高效率。第一图像可以是帧间间距小于预设阈值的多帧图像，比如，可以是帧间间距小于5帧，或者小于10帧的多帧图像，这多帧图像中目标对象的位置往往比较接近，因而，均可以根据第二图像中目标对象的位置信息确定在这多帧图像中确定包括目标对象的区域。其中，这多帧图像可以是连续采集的图像，也可以是不连续采集的图像，本公开实施例不作限制。

在一些实施例中，在一帧第二图像中确定目标对象的位置后，可以供后续多帧第一图像使用，由于目标对象的位置可能发生变化，如果目标对象的位置发生较大变化，那么基于已经确定的位置信息在第一图像中确定的目标图像区域可能不包含目标对象。因此，在一些实施例中，如果在目标图像区域识别不到目标对象，说明此时目标对象的位置发生了较大的变化，基于已确定的位置信息在第一图像中确定的目标对象的位置不太准确，因此，可以基于第一视频流中最新采集的视频帧或第二视频流中最新采集的视频帧更新第二图像，重新确定目标对象在更新后的第二图像中的位置信息，供后续的第一图像使用。比如，如果第二图像通过对第一图像下采样得到，那么可以获取当前第一视频流中最新的一帧的视频帧，对其下采样，得到新的第二图像，并确定目标对象在新的第二图像的位置信息，用于第一视频流中后续视频帧中目标图像区域的确定。如果第二图像从第二视频流中获取，那么可以是从第二视频流中获取最新的一帧视频帧作为第二图像，并确定目标对象在该第二图像中的位置信息，用于第一视频流中后续视频帧中目标图像区域的确定。

在一些场景，如果第一图像和第二图像通过同一个摄像头采集，或者第二图像基于第一图像下采样得到，那么两种图像的坐标系是一致的，因而，在根据目标对象在第二图像的位置信息确定第一图像的目标图像区域时，无需先进行坐标系的转化，直接基于位置信息、第一图像分辨率以及第二图像的分辨率即可以在第一图像中确定目标图像区域。

在一些实施例中，在第二图像中确定的目标对象的位置信息可以是目标对象对应的像素点的像素点坐标，此时，在根据目标对象在第二图像的位置信息确定第一图像的目标图像区域时，可以先根据第一图像与第二图像的分辨率确定一个缩放比例，然后根据该缩放比例和目标对象在第二图像中对应的像素点的像素点坐标确定目标对象在第一图像中对应的像素点的像素坐标，以得到目标图像区域。比如，目标对象在第二图像中各像素点的像素坐标为P2，目标对象在第一图像中的对应的像素点的像素坐标P1，则P1可以根据缩放比例和P2确定。举个例子，第二图像为100×100的图像，第一图像为200×200的图像，则第一图像相比于第二图像，在行和列方向上的缩放比例均为2，假设目标对象在第二图像的一个像素点的坐标为(1，1)，那么，该像素点在第一图像的对应像素点的坐标为(1，1)、(1，2)、(2，1)和(2，2)，以此类推即可以确定第一图像中目标对象的各像素点的坐标。

在一些场景，为了提高处理效率，在第二图像中确定的目标对象的位置信息可以是包括目标对象的选框的位置信息。该选框可以是矩形框、运行框或者是其他不规则形状的选框。在第一图像中确定目标图像区域是时，可以直接将选框的位置映射到第一图像，从而确定目标图像区域。比如，在一些实施例中，在第二图像中确定的目标对象的位置信息可以是包含目标对象的矩形框的边界点的位置信息，其中，边界点可以是矩形框的四个顶点，根据目标对象在第二图像中的位置信息在第一图像中确定目标图像区域时，可以先根据第一图像的分辨率和第二图像的分辨率确定缩放比例，然后根据边界点的位置信息以及缩放比例在第一图像中确定多个像素点，以这多个像素点为边界点在第一图像中确定一矩形区域，即为目标图像区域。举个例子，第二图像为100×100的图像，第一图像为200×200的图像，则第一图像相比于第二图像，在行和列方向上的缩放比例均为2，假设第二图像中包括目标对象的矩形框的四个顶点的坐标为(1，1)、(1，2)、(2，1)、(2，2)，那么在第二图像上确定的包括目标对象的矩形框的四个顶点的坐标为(2，2)、(2，4)、(4，2)、(4，4)。

当然，由于一些场景中，一帧第二图像上的目标对象的位置信息可以供多帧第一图像使用，由于多帧第一图像上的目标对象的位置会变化，为了保证根据位置信息确定的目标图像区域中包括目标对象，因此，在第二图像中确定包括目标对象的矩形框后，可以对矩形框进行放大处理，从而即便目标对象的位置发生了变化，根据放大后的矩形框在第一图像确定的矩形框也包括完整的目标对象。当然，在一些实施例中，也可以根据第二图像中包括目标对象的矩形框在第一图像中确定矩形框后，再对第一图像中的矩形框进行放大处理，以确保目标对象在矩形框内。

在一些实施例中，第一图像和第二图像通过两个不同分辨率的摄像装置采集得到，因此，第一图像和第二图像的坐标系不一样，在根据目标对象在第二图像的位置信息确定第一图像的目标图像区域时，可以先确定第一图像的坐标系和第二图像的坐标系之间的映射关系，然后基于该映射关系以及该位置信息确定目标区域。比如，可以先将两种图像映射到同一个坐标系下，然后在采用上述方法在第一图像中确定目标图像区域。其中，采集第一图像和第二图像的两个摄像装置的相对位置关系可以预先标定，然后基于两个摄像装置的相对位置关系确定两种图像的坐标系的映射关系，并基于该映射关系将两种图像的坐标***一，比如，可以将第二图像的坐标系映射到第一图像的坐标系下，或者将第一图像的坐标系映射到第二图像的坐标系下，或者将第一图像的坐标系和第二图像的坐标系分别映射到另一坐标系下等，然后再进行目标对象位置的映射。

在一些实施例中，在对目标图像区域对目标对象进行识别处理时，可以先对目标图像区域进行特征提取，然后基于提取得到的特征识别目标对象的属性信息、状态信息中的一种或者多种。

在一些实施例中，在确定目标对象的属性信息和/或状态信息后，可以根据属性信息或状态信息生成用于描述目标对象在特定场景下的状态的报表，然后显示给用户。其中，特定场景是指用户需通过摄像装置观测目标对象状态的场景，比如学生上课或考试的场景、工位上工人作业场景等。以线下教育为例，可以通过摄像装置采集学生上课或考试时的视频流。然后识别学生的表情、姿态、动作等信息，基于这些信息确定学生是否存在上课打瞌睡、***等现象，然后生成用于描述学生在上课或考试场景下的状态的报表，教师或家长可以查看该报表了解学生上课或考试时的状态。

为了进一步解释本公开实施例提供的目标对象的识别处理方法，以下结合一个具体实施例加以详细解释。

目前，线下教育的场景通常会使用摄像装置采集学生在上课或者考试时的视频图像，通过对视频图像中学生的状态、表情、动作、姿态进行识别和分析，以确定学生的学习状态，比如、在上课是否打瞌睡、考试时是否作弊等等。为了节省计算资源，提高检测效率，如图3所示，可以使用一个支持同时采集多通道视频的摄像装置采集课堂中学生的视频，其中，摄像装置可以同时采集两路视频流，一路是低分辨率视频流(比如1080P)，一路高分辨率视频流(比如4k分辨率)，在对高分辨率视频流中的各图像帧中的学生进行识别时，可以从两路视频中获取同时采集的高分辨率图像1和低分辨率图像1，然后对低分辨率图像1进行人脸位置检测，以在低分辨率图像1中确定人脸框0。然后根据高分辨率图像1和低分辨率图像1的分辨率确定缩放比例，根据缩放比例将低分辨率图像1中的人脸框0映射到高分辨率图像1中，在高分辨率图像1中确定包含人脸的人脸框1，然后从高分辨率图像1截取该人脸框1，输入后续的模型中进行人脸身份识别、表情识别、动作识别等属性信息或状态信息的识别。当然，针对每帧高分辨率图像，都可以用同时采集的低分辨率图像确定人脸位置，但是，由于通常学生位置变化不大，因而，在使用一帧低分辨率图像确定人脸位置后，可以供后续多帧高分辨率图像使用。比如，在根据低分辨率图像1上的人脸框0在高分辨率图像1上确定人脸框1后，还可以继续使用低分辨率图像1上的人脸框0在高分辨率图像2、高分辨率图像3、高分辨率图像4中确定人脸框2、人脸框3、人脸框4，用于后续属性信息或状态信息的识别。当然，为了确保根据人脸框0在高分辨率图像中确定的人脸框包含人脸，其余的高分辨率图像与高分辨率图像1的帧间距离最好控制在一定范围内，比如，不超过5帧或10帧。此外，为了避免因为人脸位置的变化导致在根据低分辨率图像上的人脸框0在高分辨率图像中确定的人脸框中的人脸不完整，在确定高分辨率图像中的人脸框后(比如人脸框1、人脸框2、人脸框3)，可以对高分辨率的人脸框进行放大处理，然后截取放大后的人脸框中的图像区域用于后续的人脸识别。当然，如果在高分辨率图像中确定的人脸框中无法识别到人脸，这时说明人脸位置发生较大的变化，因而根据低分辨率图像1上的人脸框在高分辨率图像确定的人脸位置可能不准确，因此，可以重新从低分辨率视频流中重新获取最新的一帧低分辨率图像，然后确定人脸框，用于后续高分辨率图像中人脸位置的确定。

当然，在识别学生人脸的同时，也可以识别学生的肢体信息，通过对肢体信息的识别可以分析学生的动作和状态，在识别到高分辨率视频流中各学生的属性和状态信息后，可以基于识别到的属性和状态信息生成一个用于描述学生上课或考试状态的报表，以记录学生的上课状态，比如，上课是否打瞌睡、考试是否作弊等等。同时，也可以根据学生的状态报表对老师的授课情况进行分析，以确定老师的授课质量。

通过用不同分辨率的两路视频流来进行人脸表情、姿态、肢体动作等属性信息或状态信息的识别，即可以提高识别速度，又可以保证识别结果的准确度。

相应地，本公开实施例提供一种目标对象的识别处理装置，如图4所示，所述装置40包括：

获取模块41，用于获取待识别处理的第一图像；

处理模块42，用于根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，其中，所述第一图像和所述第二图像对应于同一拍摄场景，所述第二图像的分辨率低于所述第一图像的分辨率；

识别模块43，用于基于所述目标图像区域对所述目标对象进行识别处理。

在一些实施例中，所述装置还用于：

基于所述映射关系以及所述位置信息在所述第一图像中确定包括所述目标对象的目标图像区域。在一些实施例中，所述识别模块用于基于所述目标图像区域对所述目标对象进行识别处理时，具体用于：

对所述目标图像区域进行特征提取；

在一些实施例中，所述装置还用于：

进一步的，本公开实施例还提供一种电子设备，如图5所示，所述电子设备50包括处理器51、存储器52、存储于所处存储器52可供所述处理器51执行的计算机程序，所述处理器51执行所述计算机程序时，实现上述任一项实施例所述的方法。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种目标对象的识别处理方法，其特征在于，所述方法包括：

获取待识别处理的第一图像；

基于所述目标图像区域对所述目标对象进行识别处理。

2.根据权利要求1所述方法，其特征在于，所述第一图像和所述第二图像被拍摄的时间间隔不超过预设阈值。

3.根据权利要求1或2所述方法，其特征在于，所述第一图像从第一视频流的视频帧中获得，所述第二图像通过对所述第一视频流的视频帧下采样获得，或所述第二图像从第二视频流的视频帧中获得。

4.根据权利要求3所述方法，其特征在于，所述第二图像与所述第一视频流中的指定视频帧同时采集或所述第二图像通过对所述第一视频流中的指定视频帧下采样得到，所述第一图像包括所述第一视频流中与所述指定视频帧的帧间间距小于预设阈值的多个视频帧。

5.根据权利要求3或4所述方法，其特征在于，所述第一视频流和所述第二视频流通过同一个摄像装置的不同分辨率的视频通道采集得到，或

6.根据权利要求3-5任一项所述方法，其特征在于，所述方法还包括：

7.根据权利要求1所述方法，其特征在于，所述根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述基于所述目标图像区域对所述目标对象进行识别处理，包括：

对所述目标图像区域进行特征提取；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述位置信息包括所述目标对象对应的对象框的边界点的位置信息，所述根据目标对象在第二图像中的位置信息在所述第一图像中确定包括所述目标对象的目标图像区域，包括：

11.一种目标对象的识别处理装置，其特征在于，所述装置包括：

获取模块，用于获取待识别处理的第一图像；

12.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、存储于所处存储器可供所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时，可实现权利1-10任一项所述的方法。