CN113033349A

CN113033349A - 行人重识别的俯视图像选取方法、存储介质和电子设备

Info

Publication number: CN113033349A
Application number: CN202110262883.3A
Authority: CN
Inventors: 徐子豪; 郑翔
Original assignee: Beijing Vion Intelligent Technology Co ltd
Current assignee: Beijing Vion Intelligent Technology Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-25
Anticipated expiration: 2041-03-11
Also published as: CN113033349B

Abstract

本发明提供了一种行人重识别的俯视图像选取方法、存储介质和电子设备，其中，俯视图像选取方法包括：通过取像设备获取俯视视角的视频，并提取视频中行人的俯视图像母集；对俯视图像母集进行行人检测，获取行人中目标行人P的行进轨迹，提取俯视图像子集；得到目标行人P的头中心点得分和脚中心点得分；根据筛除条件和选取条件，在多个俯视图像块中选取最优俯视行人抓拍图像块，作为对目标行人P进行特征提取的基础。本发明解决了现有技术中的图像处理和行人识别技术领域中，无法在行人重识别技术中高效地利用俯视图像作为模型图像样本输入，即无法从众多的俯视图像中选取出最优图像，从而导致现有的行人重识别方法存在使用局限性的问题。

Description

行人重识别的俯视图像选取方法、存储介质和电子设备

技术领域

本发明涉及图像处理和行人识别技术领域，具体而言，涉及一种行人重识别的俯视图像选取方法、存储介质和电子设备。

背景技术

目前，很多公共场所均配置有用于人员数据统计的监控装置；例如，商场或门店在人员进出口处通常会安装用于客流统计的摄像头，以有利于对进出商场或门店的人员数量进行宏观调控，也便于通过大数据对人员的需求进行精准匹配，提升商场或门店服务的智能化以及便利化。

现有的用于客流统计的摄像头往往以内嵌或突出的方式垂直安装于建筑物的顶部，此类摄像头的取像方向垂直于地面，其拍摄的图像为固定区域范围内的俯视图像，而俯视图像中拍摄的行人的有效身体面积很小，进而能够直观获得的行人身体特征的信息量很少，相关技术中，此类俯视图像通常仅能够用于对往来人流的简单计数统计。

随着人工智能的应用推广，行人重识别技术应用于视频监控领域，可以准确地发现同一个行人在多摄像头下的活动画面和轨迹，从而有利于对于公共场所内的行人的监测与跟踪，大大地提升公共场所的安全性。而现有的用于客流统计的摄像头无法在行人重识别技术中使用，往往还需要再安装额外的视频监控摄像头，这样纷乱繁杂安装的摄像头既不利于建筑物的整体外观美感，容易使人产生压抑感，又会增加额外的成本，不利于整体经济性的提升。

因此，现有的图像处理和行人识别技术领域中，无法在行人重识别技术中有效地利用俯视图像作为模型图像样本输入，即无法从众多的俯视图像中选取出最优图像，从而导致现有的行人重识别方法存在使用局限性。

发明内容

本发明的主要目的在于提供一种行人重识别的俯视图像选取方法、存储介质和电子设备，以解决现有的图像处理和行人识别技术领域中，无法在行人重识别技术中高效地利用俯视图像作为模型图像样本输入，即无法从众多的俯视图像中选取出最优图像，从而导致现有的行人重识别方法存在使用局限性的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种行人重识别的俯视图像选取方法，包括：步骤SC1，通过取像设备获取俯视视角的视频，并提取视频中行人的俯视图像母集；步骤SC2，通过CenterNet的深度神经网络模型对俯视图像母集进行行人检测，并对检测结果跟踪匹配，以获取行人中目标行人P的行进轨迹，根据目标行人P的行进轨迹，提取包含有目标行人P的所有俯视图像块的俯视图像子集；步骤SC3，对于各俯视图像块，根据其包含的目标行人P的检测结果计算得到目标行人P的头中心点得分和脚中心点得分；步骤SC4，以目标行人P的检测结果和/或头中心点得分和脚中心点得分作为影响因子，根据筛除条件和选取条件，在俯视图像子集的多个俯视图像块中选取一个作为目标行人P的最优俯视行人抓拍图像块，作为对目标行人P进行特征提取的基础。

进一步地，检测结果包括：在俯视图像中，目标行人P的头中心点位置和脚中心点位置，以及目标行人P的头外接矩形框的位置和大小；筛除条件包括：(1)、当俯视图像块中的目标行人P的头中心点相对于脚中心点靠近其所在的俯视图像的中心点时，排除该俯视图像块；和/或(2)、当俯视图像块中的目标行人P的头外接矩形框和其所在的俯视图像的边缘小于预设边缘距离时，排除该俯视图像块；和/或(3)、当俯视图像块中的目标行人P的头中心点和其所在的俯视图像的中心点小于预设接近距离时，排除该俯视图像块；和/或(4)、当俯视图像块中的目标行人P的脚中心点得分小于第一预设得分值时，排除该俯视图像块；和/或(5)、当俯视图像块中的目标行人P的头中心点得分小于第二预设得分值时，排除该俯视图像块；选取条件包括：将经过筛除条件排除后的剩余多个俯视图像块依据其上的目标行人P的头中心点位置与脚中心点位置之间的距离降序排列，择优选取位于序列中的第一个俯视图像块作为最优俯视行人抓拍图像块。

进一步地，预设边缘距离大于等于20像素且小于等于30像素；预设接近距离大于等于80像素且小于等于120像素；第一预设得分大于等于0.45且小于等于0.55；第二预设得分大于等于0.75且小于等于0.85。

进一步地，目标行人P的行进轨迹包括至少一段优选轨迹段，优选轨迹段由目标行人P所在的俯视图像的外边沿向俯视图像的中心点一侧延伸，最优俯视行人抓拍图像块在优选轨迹段所对应的多个俯视图像块中选取。

进一步地，检测结果包括：在俯视图像中，目标行人P的头中心点位置和脚中心点位置，以及目标行人P的头外接矩形框的位置和大小；步骤SC3包括：获取目标行人P描述为头中心点的低分辨率热图，取头中心点的低分辨率热图中峰值点的值，作为目标行人P的头中心点得分；获取目标行人P描述为脚中心点的低分辨率热图，目标行人P所在的俯视图像中的脚中心点位置在脚中心点的低分辨率热图中的对应点的值，作为目标行人P的脚中心点得分。

进一步地，低分辨率热图由俯视图像按预设比例缩小形成；检测结果中，俯视图像中的目标行人P的头中心点位置的获取步骤包括：(1)、将头中心点的低分辨率热图按预设比例放大还原为俯视图像的原图大小，得到原图分辨率下的头中心点初始位置；(2)、通过头中心点的横向偏移量dx和头中心点的纵向偏移量dy对头中心点初始位置进行校正，获得俯视图像中的目标行人P的头中心点位置；检测结果中，俯视图像中的目标行人P的头外接矩形框的位置和大小的获取步骤包括：以目标行人P的头中心点位置为中心原点，以头外接矩形框宽度w和头外接矩形框高度h分别作为头外接矩形框的宽度和高度，获取俯视图像中的目标行人P的头外接矩形框的位置和大小；检测结果中，俯视图像中的目标行人P的脚中心点位置的获取步骤包括：通过脚中心点的横向偏移量fdx和脚中心点纵向偏移量fdy对头中心点初始位置进行校正，获得俯视图像中的目标行人P的脚中心点位置。

进一步地，头中心点的低分辨率热图中峰值点的值大于预设行人判定值。

进一步地，预设行人判定值大于等于0.75且小于等于0.85。

根据本发明的另一方面，提供了一种存储介质，存储介质为计算机可读存储介质，存储介质上存储有计算机程序指令，其中，程序指令被处理器执行时用于实现上述的俯视图像选取方法的步骤。

根据本发明的另一方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，处理器、存储器和通信元件通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行上述的俯视图像选取方法的步骤。

应用本发明的技术方案，通过为不同的俯视图像块中的行人的头中心点和脚中心点进行赋值，使其获得头中心点得分和脚中心点得分，使用两者作为筛除俯视图像子集中多余的俯视图像块，而选取一个俯视图像块作为最优俯视行人抓拍图像块的影响因子，从而能够高效地、准确地排除不符合要求的俯视图像子集中的俯视图像块，获取最优俯视行人抓拍图像块，确保对应行人在后续特征提取中的可靠性，大大地提升行人重识别的准确率；可见，通过对俯视图像的有效处理，使得行人重识别技术中能够有效地利用俯视图像作为模型图像样本输入，提升行人重识别技术的实用性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种可选实施例的基于俯视图像的行人重识别方法的流程图；

图2示出了根据本发明的一种可选实施例的基于俯视图像的行人轨迹生成方法的流程图；

图3示出了图2中的基于俯视图像的行人轨迹生成方法的步骤SB2中，对所有行人中的目标行人P的检测结果跟踪匹配的流程图；

图4示出了根据本发明的一种可选实施例的行人重识别的俯视图像选取方法的流程图；

图5示出了根据本发明的一种可选实施例的行人重识别的俯视图像校正方法的流程图；

图6示出了根据本发明的一种可选实施例的利用垂直安装的取像设备所拍摄的俯视视角的视频中的包含有目标行人P的俯视图像母集中的一帧俯视图像；

图7示出了对图6的俯视图像抠取后包含有目标行人P的俯视图像块(或最优俯视行人抓拍图像块)；

图8示出了一种可选实施例中对图7的俯视图像块进行投影变换后的正视图像块(或基础行人正视图像块)；

图9示出了另一种可选实施例中对图7的俯视图像块进行投影变换后的正视图像块(或基础行人正视图像块)。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”、“和”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决现有技术中的现有技术中的图像处理和行人识别技术领域中，无法在行人重识别技术中高效地利用俯视图像作为模型图像样本输入，即无法从众多的俯视图像中选取出最优图像，从而导致现有的行人重识别方法存在使用局限性的问题，本发明提供了一种行人重识别的俯视图像选取方法、存储介质和电子设备，其中，存储介质为计算机可读存储介质，存储介质上存储有计算机程序指令，程序指令被处理器执行时用于实现本发明的基于俯视图像的行人重识别方法的步骤、基于俯视图像的行人轨迹生成方法的步骤、行人重识别的俯视图像选取方法的步骤或行人重识别的俯视图像校正方法的步骤。电子设备包括：处理器、存储器、通信元件和通信总线，处理器、存储器和通信元件通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行本发明的基于俯视图像的行人重识别方法的步骤、基于俯视图像的行人轨迹生成方法的步骤、行人重识别的俯视图像选取方法的步骤或行人重识别的俯视图像校正方法的步骤。

应用本发明的技术方案，能够对俯视图像进行深度分析利用，从中获取有用的行人信息，实现多帧俯视图像中对同一行人的精确匹配，从而使行人重识别技术得以应用，顺利实现对行人的跨镜头精确监测和跟踪的问题。

具体而言，图1是根据本发明的一种实施例的基于俯视图像的行人重识别方法的流程图。该行人重识别方法包括步骤如下步骤：步骤SA1，通过取像设备获取俯视视角的视频，并提取视频中行人的俯视图像母集；步骤SA2，通过CenterNet的深度神经网络模型对俯视图像母集进行行人检测，并对检测结果跟踪匹配，以获取行人中目标行人P的行进轨迹，根据目标行人P的行进轨迹，提取包含有目标行人P的所有俯视图像块的俯视图像块子集；步骤SA3，在俯视图像块子集中筛选出最优俯视行人抓拍图像块，并对最优俯视行人抓拍图像块进行投影变换，以将最优俯视行人抓拍图像块矫正成为基础行人正视图像块；步骤SA4，通过人体姿态估计神经网络模型对基础行人正视图像块进行关键点预测后进行图像对齐，以获取标准行人正视图像块；步骤SA5，利用行人重识别神经网络模型对标准行人正视图像块中的目标行人P进行特征提取；步骤SA6，依次遍历多个取像设备，进行步骤SA1至步骤SA5中的操作，并对各取像设备中提取到目标行人P的特征进行特征相似度判断。进而能够在多个取像设备视频中准确地捕捉到目标行人P，顺利实现对目标行人P的跨镜头精确监测和跟踪。

需要说明的是，本发明的技术方案能够对特定的取像设备所获取的俯视图像进行处理分析，特定的取像设备可选为垂直安装在建筑物上取像设备，本发明中所指的取像设备可以为照相机或摄像机等电子设备，还可以是以内嵌的方式安装在建筑物的天花板上的摄像头，或外露于建筑物的天花板外的摄像头。

需要解释的是，垂直安装是指取像设备的拍摄中心线垂直于地面，此类取像设备所拍摄的俯视图像以拍摄中心线为中心点向四周拍摄，此种安装方式使得取向设备更容易进行隐藏式安装，提升建筑物外观美感，同时能够实现对往来行人进行录像以及双向人数统计功能；此外，垂直安装的取向设备所拍摄的视频为俯视角度，因此形成的俯视图像母集中的俯视图像也全部为俯视角度，针对此类典型的俯视图像，利用本发明的行人重识别方法能够进一步处理，最终结合多个取像设备实现行人重识别的效果。当然，采用非垂直安装方式的取像设备所拍摄到的俯视图像仍然能够利用本发明的技术方案进行分析处理，当取像设备倾斜安装时，即取像设备的拍摄中心线与地面呈一定夹角时，取像设备所拍摄到的俯视图像同样能够利用本发明的行人重识别方法进行处理。

本发明的优选实施例仅以垂直安装在建筑物顶部的客流相机所拍摄的俯视图像加以解释说明。如图6所示，为一典型的垂直安装在建筑物顶部的客流相机所拍摄的俯视图像。该俯视图像中，黑色方框中框选出的部分为目标行人P。

如图1所示，针对本发明的基于俯视图像的行人重识别方法中的步骤SA2，本发明还提供一种基于俯视图像的行人轨迹生成方法，如图2所示，行人轨迹生成方法包括：步骤SB1，通过CenterNet的深度神经网络模型对俯视图像母集进行行人检测，遍历俯视图像母集的各俯视图像中的所有行人，获取各行人对应的检测结果，其中，检测结果包括：在俯视图像中，行人的头中心点位置和行人的头外接矩形框的位置和大小；步骤SB2，对所有行人的检测结果跟踪匹配，将属于目标行人P的多个检测结果归类，获取目标行人P对应的行进轨迹。由于在俯视图像中，保留最完整便是行人的头部特征，其被遮挡的可能性最小，受其他身体特征的影响也会很小，因此，应用本发明的技术方案，选用行人的头中心点位置和行人的头的外接矩形框的位置和大小作为行人跟踪匹配的结果，在俯视图像母集的多帧俯视图像有效地区分出多个行人，同时更准确地捕获目标行人P，确保目标行人P的行进轨迹真实有效。也就是说，利用上述的行人轨迹生成方法，能够对俯视图像母集中的多帧俯视图像检测，根据检测结果稳定地匹配出不同行人并归类，从而能够取每个行人在该取像设备的拍摄区域内的行进轨迹；进而有利于后续准确锁定获取目标行人P在该取像设备的拍摄区域内的行进轨迹。利用上述方案能够充分利用类似于客流统计摄像头的取向设备拍摄的俯视图像作为视频监控中用于获取在行人重识别技术中充当能够生成行人轨迹的图像样本，从而能够生成可靠的行人轨迹。

下面对一种基于俯视图像的行人轨迹生成方法中的技术方案进一步具体地解释说明，可选地，俯视图像母集的俯视图像共为n帧，其中，n为大于等于2的正整数；如图3所示，在步骤SB2中，对所有行人中的目标行人P的检测结果跟踪匹配包括：

步骤SB21，对n帧俯视图像按时间依次排序，并顺次检测n帧俯视图像，直至获取目标行人P首次出现的第m帧俯视图像，其中m+1≤n；

步骤SB22，通过光流法在第m+1帧俯视图像中预测目标行人P的头中心点位置；

步骤SB23，使用在第m+1帧俯视图像中预测目标行人P的头中心点位置处的外接矩形框，依次与第m+1帧俯视图像中检测到的所有行人的头外接矩形框进行IOU匹配计算，并获取至少一个IOU匹配计算结果，取所有IOU匹配计算结果中的最大值者作为第m+1帧俯视图像的匹配值；其中，第m+1帧俯视图像中预测到的目标行人P的头中心点位置的外接矩形框相当于第m帧俯视图像中目标行人P的头外接矩形框的迁移形成。

步骤SB24，将第m+1帧俯视图像的匹配值与标准匹配判定值进行比较，

当第m+1帧俯视图像的匹配值大于等于标准匹配判定值时，判定第m+1帧俯视图像中匹配有目标行人P的头外接矩形框，则应用第m+1帧俯视图像中匹配到的目标行人P的头中心点位置和其头外接矩形框，在第m+1帧俯视图像中更新目标行人P的行进轨迹；或

当第m+1帧俯视图像的匹配值小于标准匹配判定值时，判定第m+1帧俯视图像中未匹配有目标行人P的头外接矩形框，则应用步骤SB22中预测的目标行人P的头中心点位置，在第m+1帧俯视图像中更新目标行人P的行进轨迹；

步骤SB25，重复步骤SB22至步骤SB24，直至遍历第m帧俯视图像后的所有俯视图像，在第n帧俯视图像中获取目标行人P对应的行进轨迹。

根据上述的操作步骤，能够快速地、稳定地、便捷地得到各行人的行进轨迹，当然也能准确地锁定目标行人P对应的行进轨迹。

需要说明的是，目标行人P是为了便于清楚的说明本发明的技术方案而选定的特定行人，其实质上可以是泛指的行人，即可以为取像设备获取的俯视视角视频中的任一行人。

可选地，标准匹配判定值大于等于0.75且小于等于0.85。优选地，标准匹配判定值为0.8。当标准匹配判定值为此优选值时，俯视图像中匹配目标行人P的精确性达到佳效果。

在步骤SB25中，当连续达到预设次数判定第m+1帧俯视图像中未匹配有目标行人P的头外接矩形框时，则判断目标行人P消失。可选地，预设次数的选择范围在36次至48次之间。这样，就是判断目标行人P离开了取像设备的拍摄区域，则以最后一帧匹配有目标行人P的俯视图像中可以获取的目标行人P的行进轨迹。

在本发明中的步骤SB1中，CenterNet的深度神经网络模型的输出包括：俯视图像中目标行人描述为头中心点的低分辨率热图，目标行人描述为脚中心点的低分辨率热图；以及6回归量参数，6回归量参数分别为：俯视图像中头中心点的横向偏移量dx，头中心点的纵向偏移量dy，头外接矩形框宽度w，头外接矩形框高度h，俯视图像中脚中心点的横向偏移量fdx和脚中心点纵向偏移量fdy；其中，低分辨率热图由俯视图像按预设比例缩小形成。

在本发明中，CenterNet的深度神经网络模型损失函数定义为Focal Loss损失函数和L1损失函数的线性组合，其中，L1损失函数包含有目标行人P的头中心点位置和脚中心点位置的回归量。本发明中所提及的头中心点位置为：俯视图像中行人的头所占据的俯视图像的区域的几何中心点；脚中心点位置为：行人的双脚所占据的俯视图像的区域的两个几何中心点的连线的中点。

具体而言，L1损失函数包含有目标行人P的头中心点的横向偏移量dx，头中心点的纵向偏移量dy，头外接矩形框宽度w，头外接矩形框高度h，脚中心点的横向偏移量fdx和脚中心点纵向偏移量fdy。

需要说明的是，本发明的CenterNet的深度神经网络模型的模型结构更复杂、表达能力更强，能够挖掘出海量数据中蕴藏的丰富的有价值的信息。本发明的CenterNet的深度神经网络模型能够从多帧俯视图像的众多行人中分类识别出目标行人P，进而可以提取更有效的特征。

在本发明的对目标行人P的检测结果中，俯视图像中的行人的头中心点位置的获取步骤包括：(1)、将头中心点的低分辨率热图按预设比例放大还原为俯视图像的原图大小，得到原图分辨率下的头中心点初始位置；(2)、通过头中心点的横向偏移量dx和头中心点的纵向偏移量dy对头中心点初始位置进行校正，获得俯视图像中的行人的头中心点位置。

优选地，低分辨率热图与俯视图像之间放缩的预设比例为4，即低分辨率热图由俯视图像的分辨率缩小4倍形成，低分辨率热图按分辨率放大4倍后还原为俯视图像的原图大小。

在本发明的对目标行人P的检测结果中，俯视图像中的行人的头外接矩形框的位置和大小的获取步骤包括：以行人的头中心点位置为中心原点，以头外接矩形框宽度w和头外接矩形框高度h分别作为头外接矩形框的宽度和高度，获取俯视图像中的行人的头外接矩形框的位置和大小。这样，可以精确地将目标行人P的头部完全置于头外接矩形框内。

如图1所示，针对本发明的基于俯视图像的行人重识别方法中的步骤SA3，本发明还提供一种用于行人重识别的俯视图像选取方法，如图4所示，用于行人重识别的俯视图像选取方法包括：

步骤SC1，通过取像设备获取俯视视角的视频，并提取视频中行人的俯视图像母集；

步骤SC2，通过CenterNet的深度神经网络模型对俯视图像母集进行行人检测，并对检测结果跟踪匹配，以获取行人中目标行人P的行进轨迹，根据目标行人P的行进轨迹，提取包含有目标行人P的所有俯视图像块的俯视图像子集；

步骤SC3，对于各俯视图像块，根据其包含的目标行人P的检测结果计算得到目标行人P的头中心点得分和脚中心点得分；

步骤SC4，以目标行人P的检测结果和/或头中心点得分和脚中心点得分作为影响因子，根据筛除条件和选取条件，在俯视图像子集的多个俯视图像块中选取一个作为目标行人P的最优俯视行人抓拍图像块，作为对目标行人P进行特征提取的基础。

可见，本发明中，通过为不同的俯视图像块中的行人的头中心点和脚中心点进行赋值，使其获得头中心点得分和脚中心点得分，使用两者作为筛除俯视图像子集中多余的俯视图像块，而选取一个俯视图像块作为最优俯视行人抓拍图像块的影响因子，从而能够高效地、准确地排除不符合要求的俯视图像子集中的俯视图像块，获取最优俯视行人抓拍图像块，确保对应行人在后续特征提取中的可靠性，大大地提升行人重识别的准确率；可见，通过对俯视图像的有效处理，使得行人重识别技术中能够有效地利用俯视图像作为模型图像样本输入，提升行人重识别技术的实用性。

在实施本发明的用于行人重识别的俯视图像选取方法中，检测结果包括：在俯视图像中，目标行人P的头中心点位置和脚中心点位置，以及目标行人P的头外接矩形框的位置和大小。在本发明中，用于框取目标行人P的头的外接矩形框不局限于矩形，也可以是任意四边形，在本申请中优选为矩形。

为有效地筛除俯视图像子集的多个俯视图像块中的不符合最优俯视行人抓拍图像块选取条件的俯视图像块，上述的筛除条件包括：

(1)、为了避免因后期因遮挡和检测器误导而导致对俯视图像块进行抠取时出现错误，当俯视图像块中的目标行人P的头中心点相对于脚中心点靠近其所在的俯视图像的中心点时，排除该俯视图像块；和/或

(2)、为了防止俯视图像块被抠取后出现行人头部出现不完整的状况，当俯视图像块中的目标行人P的头外接矩形框和其所在的俯视图像的边缘小于预设边缘距离时，排除该俯视图像块；和/或

(3)、为了防止俯视图像块出现行人人体不够舒展的状况，当俯视图像块中的所述目标行人P的头中心点和其所在的俯视图像的中心点小于预设接近距离时，排除该俯视图像块；和/或

(4)、为了有效排除俯视图像块中行人的脚被遮挡的俯视图像块，当俯视图像块中的目标行人P的脚中心点得分小于第一预设得分值时，排除该俯视图像块；和/或

(5)、为了有效排除俯视图像块中行人的头被遮挡的俯视图像块，当俯视图像块中的目标行人P的头中心点得分小于第二预设得分值时，排除该俯视图像块；

同样地，为进一步步准确地获取俯视图像子集的多个俯视图像块中唯一的最优俯视行人抓拍图像块，上述的选取条件包括：将经过筛除条件排除后的剩余多个俯视图像块依据其上的目标行人P的头中心点位置与脚中心点位置之间的距离降序排列，择优选取位于序列中的第一个俯视图像块作为最优俯视行人抓拍图像块。这样，确保选取的最优俯视行人抓拍图像块中的目标行人P是最为舒展的人体图像。

可选地，预设边缘距离大于等于20像素且小于等于30像素；预设接近距离大于等于80像素且小于等于120像素；第一预设得分大于等于0.45且小于等于0.55；第二预设得分大于等于0.75且小于等于0.85。

优选地，预设边缘距离为20像素，预设接近距离为100像素；第一预设得分为0.5，第二预设得分为0.8。此参数的设置有利于提升多余俯视图像块的筛除效率。

还需要补充说明的是，目标行人P的行进轨迹包括至少一段优选轨迹段，优选轨迹段由目标行人P所在的俯视图像的外边沿向俯视图像的中心点一侧延伸，最优俯视行人抓拍图像块在优选轨迹段所对应的多个俯视图像块中选取。也就是说，当目标行人P经过取像设备的拍摄区域的过程中，最优俯视行人抓拍图像块应尽量在目标行人P朝向俯视图像的中心点靠近的俯视图像块中选取，而尽量避免在目标行人P远离俯视图像的中心点的俯视图像块中选取；这是因为按此条件选取的最优俯视行人抓拍图像块，能够获取目标行人P的正面信息，正面信息优于背面信息。

如图6所示，图6中黑色方框中框选出的部分为目标行人P，进而旋转得到图7中的包含有目标行人P的一个俯视图像块，在该俯视图像块中，目标行人P的头中心点位置显示为O1、脚中心点位置为O2、头外接矩形框为K，其中，头外接矩形框的宽度为w，高度为h。

当然，在本实施例中，图7的包含有目标行人P的俯视图像块也可以作为俯视图像子集中的最优俯视行人抓拍图像块。

如图4所示，具体地，步骤SC3包括：获取目标行人P描述为头中心点的低分辨率热图，取头中心点的低分辨率热图中峰值点的值，作为目标行人P的头中心点得分；获取目标行人P描述为脚中心点的低分辨率热图，目标行人P所在的俯视图像中的脚中心点位置在脚中心点的低分辨率热图中的对应点的值，作为目标行人P的脚中心点得分。这样，给出了具体获取头中心点得分和脚中心点得分的依据，高效、准确、快捷。

与基于俯视图像的行人轨迹生成方法中相同，低分辨率热图由俯视图像按预设比例缩小形成；且在本发明的对目标行人P的检测结果中，俯视图像中的目标行人P的头中心点位置的获取步骤包括：(1)、将头中心点的低分辨率热图按预设比例放大还原为俯视图像的原图大小，得到原图分辨率下的头中心点初始位置；(2)、通过头中心点的横向偏移量dx和头中心点的纵向偏移量dy对头中心点初始位置进行校正，获得俯视图像中的目标行人P的头中心点位置。

同样地，在本发明的对目标行人P的检测结果中，俯视图像中的目标行人P的头外接矩形框的位置和大小的获取步骤包括：以目标行人P的头中心点位置为中心原点，以头外接矩形框宽度w和头外接矩形框高度h分别作为头外接矩形框的宽度和高度，获取俯视图像中的目标行人P的头外接矩形框的位置和大小。

此外，在本发明的对目标行人P的检测结果中，俯视图像中的目标行人P的脚中心点位置的获取步骤包括：通过脚中心点的横向偏移量fdx和脚中心点纵向偏移量fdy对头中心点初始位置进行校正，获得俯视图像中的目标行人P的脚中心点位置。这样，在已知目标行人P的头中心点初始位置的情况下，结合脚中心点的横向偏移量fdx和脚中心点纵向偏移量fdy能够精确地获取目标行人P的脚中心点位置，之后将该目标行人P的脚中心点位置反算到脚中心点的低分辨率热图中，得到对应点的值，变为目标行人P的脚中心点得分。

为了确保目标行人P的头中心点的得分有效性，即确保俯视图像中有目标行人存在，头中心点的低分辨率热图中峰值点的值大于预设行人判定值。

可选地，预设行人判定值大于等于0.75且小于等于0.85。行人判定值优选为0.8。

如图1所示，针对本发明的基于俯视图像的行人重识别方法中的步骤SA3，本发明还提供一种用于行人重识别的俯视图像校正方法，能够将俯视图像块校正成为正视图像块，当然，如果经历了上述的用于行人重识别的俯视图像选取方法后，已经在俯视图像子集中选取到最优俯视行人抓拍图像块，那么利用此俯视图像校正方法，能够进一步将最优俯视行人抓拍图像块校正形成基础行人正视图像块。如图8和图9所示，为图7通过本发明的俯视图像校正方法被校正后形成的正视图像块或基础行人正视图像块。

具体地，用于行人重识别的俯视图像校正方法包括：

步骤SD1，通过取像设备获取俯视视角的视频，构建包含有目标行人P的多个俯视图像块的俯视图像块子集，其中，每个俯视图像块为视频中包含有目标行人P的不同时间点处的一帧俯视图像上的截图(例如图7所示)；

步骤SD2，选择性地将俯视图像块子集中的至少一个俯视图像块通过基于单应矩阵的投影变换形成正视图像块(例如图8和图9所示)，以将俯视图像块中的目标行人P由俯视视角校正成侧视视角。

通过对俯视图像块子集中的多个俯视图像块进行选取后再进行基于单应矩阵的投影变换，从而获得一个正视图像块；该正视图像块中的目标行人P被有效地从俯视图像块中的俯视视角转换成了侧视视角，从而能够通过俯视图像块获取目标行人P更多的有效信息，进而有利于后续对目标行人P进行特征提取和特征比对，大大地提升行人重识别的准确率；可见，通过对俯视图像的有效处理，使得行人重识别技术中能够有效地利用俯视图像作为模型图像样本输入，提升行人重识别技术的实用性。

需要说明的是，利用本发明的俯视图像校正方法将俯视图像块校正成正视图像块的效果，取决于俯视图像块的画质以及俯视图像块中行人的姿态和被遮挡情况，最理想的效果是将俯视图像块校正成类似于图9中示出的目标行人P的标准***的正视图像块，为达成此种校正效果，相当于将图7的俯视图像块中的目标行人P的拍摄视角沿水平方向进行旋转拉伸，旋转拉伸中的旋转角度优选在0°至45°之间，在此范围内的旋转能够将因旋转造成的俯视图像块中的目标行人P缺失或多出虚假图像特征被忽略；即，因旋转拉伸过程导致校正后的正视图像块比较于原始的俯视图像块出现的图像特征误差尽可能小，而不影响后续的对目标行人P的特征提取结果的精度。还需要补充说明的是，上述旋转拉伸中出现的虚假图像特征可以以原始俯视图像中的目标行人P的图像特征为基础选择性添加或剔除。

在本发明的实施例中，如图9所示，当原始俯视图像块的拍摄角度超出45°的极限范围时，在对其进行校正后能够达到的效果达不到图9中示出的目标行人P的标准***正视图像块，而是如图8所示的拍摄方向仍与水平方向存在一定夹角，此时被校正后的图像块在本发明中也一并称为正视图像块，此时目标行人P的***并非能够展示出人体最大面积的***。

在本发明的一个未图示的可选实施例中，利用本发明的俯视图像校正方法还可以对图7的俯视图像块中的目标行人P的拍摄视角绕竖直方向的轴线进行旋转拉伸，即绕竖直方向的轴线旋转角度优选在0°至15°，同样地，这是为了能够将因旋转造成的俯视图像块中的目标行人P缺失或多出虚假图像特征被忽略；即，因旋转拉伸过程导致校正后的正视图像块比较于原始的俯视图像块出现的图像特征误差尽可能小，而不影响后续的对目标行人P的特征提取结果的精度。

在本发明中，由俯视图像块形成正视图像块的投影变换公式包括：

公式(1)：

公式(2)：

公式(3)：

其中，在公式(1)中，

记为单应矩阵T'，(x_a,y_a)为俯视图像块中的原点坐标，(x_b,y_b)为原点坐标(x_a,y_a)投影变换到正视图像块中的终点坐标。这样，利用上述的投影变换公式遍历俯视图像块中的所有像素点的原点坐标(x_a,y_a)后得到用于构成正视图像块且与原点坐标(x_a,y_a)一一对应的终点坐标(x_b,y_b)，多个终点坐标(x_b,y_b)组成正视图像块。

在本发明中，将俯视图像进行投影区域划分，即俯视图像包括多个投影分区域，多个投影分区域以俯视图像的中点为中心呈圆周分布，且多个投影分区域一一对应具有不同单应矩阵T'的多个投影变换公式；多个投影分区域一一对应多个正视视角虚拟相机，多个正视视角虚拟相机与多个投影变换公式一一对应；即，每一个单应矩阵T'表示的是取像设备在某个三角形的角度范围内变换到其对应的虚正视视角虚拟相机的投影矩阵。

在步骤SD2中，匹配俯视图像块中的原点坐标(x_a,y_a)在多个投影分区域中的位置后，选择与其相对应的投影变换公式进行投影变换，就能够得到正视图像块中的终点坐标(x_b,y_b)。

需要说明的是，单应矩阵T'是通过对取像设备进行张氏棋盘格的标定操作获取。单应矩阵T'由取像设备的内部参数和外部参数构成，在应用环境下，由于取像设备的内部参数不变，而取像设备的外部参数(即取像设备与正视视角虚拟相机间的旋转位移)也不变，故在实际应用时，只需要根据目标行人P的脚中心点确定投影到对应的正视视角虚拟相机，使用对应的单应矩阵T'计算即可。

也就是说，各俯视图像块与唯一一个投影分区域相匹配，以俯视图像块中的目标行人P的脚中心点的位置作为匹配基础点。

可选地，各投影分区域的圆周角度相等，且俯视图像被分为投影分区域的个数大于等于3且小于等于9。优选为6，这样，这是考虑到成本和计算量以及确保被分割的投影分区域不至于太过稀疏而影响校正效果。当然，在不考虑成本和计算量的情况下，俯视图像被分为投影分区域的个数越大越好。

为了使得本发明的行人重识别方法步骤连贯，顺利地对之前选取好的最优俯视行人抓拍图像块进行校正，在步骤SD2中，在包含有目标行人P的多个俯视图像块中筛选出最优俯视行人抓拍图像块，将对最优俯视行人抓拍图像块进行投影变换后形成的正视图像块作为基础行人正视图像块。

在本发明的基于俯视图像的行人重识别方法的步骤SA4中，通过人体姿态估计神经网络模型对基础行人正视图像块进行关键点预测包括：步骤SA41，将基础行人正视图像块输入人体姿态估计神经网络模型后，计算得出多张人体关键点热力图；步骤SA42，获取各张人体关键点热力图的最大值位置处的坐标，并将其映射到基础行人正视图像块的原图分辨率后，得到基础行人正视图像块上与多张人体关键点热力图一一对应的目标行人P的多个人体关键点A的坐标(X_a，Y_a)。

进一步地，在步骤SA4中，图像对齐包括：步骤SA43，给定行人匹配图像，在其上标定出与多个人体关键点A一一对应的多个人体匹配关键点B，并获取其各自的坐标(X_b，Y_b)；步骤SA44，对多个人体关键点A，根据第一预设选取原则，得到3个第一有效关键点A1，并获取其各自的坐标(X_a1，Y_a1)；对多个人体匹配关键点B，根据第二预设选取原则，获取3个第二有效关键点B1，并获取其各自的坐标(X_b1，Y_b1)；步骤SA45，构造由基础行人正视图像块到标准行人正视图像块的仿射变换公示：

其中，

为仿射变换矩阵T；步骤SA46，根据3个第一有效关键点A1的坐标(X_a1，Y_a1)以及3个第二有效关键点B1的坐标(X_b1，Y_b1)求解出仿射变换矩阵T；步骤SA47，利用仿射变换公示对基础行人正视图像块进行仿射变换，遍历基础行人正视图像块的所有像素点后，得到标准行人正视图像块。由于人体是一个立体，同时拥有多种姿态，需要使用人体关键点位置来进一步对做图像对齐操作，利用本发明的图像对齐方式，对人脸的几何信息影响微小，有利于保证人脸识别的准确率。

需要说明的是，人体关键点热力图的最大值为与其对应的人体关键点A的置信度得分；且多个人体关键点A为17个，包括：目标行人P的1个鼻子点位、2个眼点位、2个耳点位、2个肩点位、2个肘点位、2个手点位、2个臀点位、2个膝点位和2个脚点位；

第一预设选取原则包括：

(1)、以对1个鼻子点位、2个眼点位和2个耳点位的坐标求均值的方式获取其几何中点位作为1号第一有效关键点A1；

(2)、对2个肩点位、2个臀点位、2个膝点位和2个脚点位的按照置信度得分降序排列，取排序第一的作为2号第一有效关键点A1；

(3)、在除1个鼻子点位、2个眼点位、2个耳点位和2号第一有效关键点A1的剩余11个人体关键点A中，任意选取与1号第一有效关键点A1和2号第一有效关键点A1的连线不共线的1个人体关键点A作为3号第一有效关键点。

为了提升第二有效关键点B1的获取便捷性，可选地，在多个人体匹配关键点B中获取3个第二有效关键点B1的第二预设选取原则与第一预设选取原则相对应。

基于俯视图像的行人重识别方法的步骤SA5中，将标准行人正视图像块调整为预设分辨率的输入图像块后输入行人重识别神经网络模型。

预设分辨率优选为128×384。

进一步地，在步骤SA6中，进行特征相似度判断为：分别获取输入行人重识别神经网络模型的任意两张输入图像块的两个输出特征向量；计算两个输出特征向量的余弦距离，当余弦距离大于标准距离判定值，则判定两张输入图像块中的行人均为目标行人P；当余弦距离小于标准距离判定值时，则判定两张输入图像块中的行人为不同人体。

可选地，标准距离判定值大于等于0.78且小于等于0.82。优选地，标准距离判定值为0.78。

本发明中所指的低分辨率热图即为本领域中通用的将原图分辨率缩小后的heatmap。

本发明的技术方案实施产生的有益效果：

1、利用俯视相机(本发明中取像设备的优选)的视角范围(拍摄区域)内的边缘图像以及俯视相机的投影矩阵，将呈放射状分布的各方向的俯视图像块转换为类似侧视效果的正视图像块，用于提取ReID信息，相当于使现有的俯视相机增加了一个输出ReID信息的功能。

2、跟踪俯视相机的视野内每个行人，选取其最优俯视行人抓拍图像块后提取ReID信息。能够确保俯视相机下每个经过视野的行人输出一张最优抓拍图。

本发明能利用现有已经密集安装在例如商场等公共设置的垂直俯视相机，对视野范围内的行人进行检测和跟踪，选取出行人在边缘视角图像中的最佳抓拍图，然后通过畸变校正和投影计算，将该最佳抓拍图的图像还原为侧视方向，并提取出行人的ReID信息，实现行人在俯视相机间的跨镜跟踪功能。另外，由于本方案提取的ReID信息也是还原到侧视方向，所以也可与经典的监控场景使用的相机等取向设备取得的ReID信息进行匹配，直接利用现有的ReID匹配方法即可。此方案一方面将现有的垂直俯视相机进行功能扩展，使其能提供行人的ReID信息，另一方面利用已经密集安装的垂直俯视相机。此外，通过对多个点位多个行人的轨迹分析和统计，可以为用户提供游逛轨迹、区域逗留时间、店铺关联等更多有用信息。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种行人重识别的俯视图像选取方法，其特征在于，包括：

步骤SC1，通过取像设备获取俯视视角的视频，并提取所述视频中行人的俯视图像母集；

步骤SC2，通过CenterNet的深度神经网络模型对所述俯视图像母集进行行人检测，并对检测结果跟踪匹配，以获取所述行人中目标行人P的行进轨迹，根据所述目标行人P的行进轨迹，提取包含有所述目标行人P的所有俯视图像块的俯视图像子集；

步骤SC3，对于各所述俯视图像块，根据其包含的所述目标行人P的检测结果计算得到所述目标行人P的头中心点得分和脚中心点得分；

步骤SC4，以所述目标行人P的检测结果和/或所述头中心点得分和脚中心点得分作为影响因子，根据筛除条件和选取条件，在所述俯视图像子集的多个所述俯视图像块中选取一个作为所述目标行人P的最优俯视行人抓拍图像块，作为对所述目标行人P进行特征提取的基础。

2.根据权利要求1所述的俯视图像选取方法，其特征在于，所述检测结果包括：在俯视图像中，所述目标行人P的头中心点位置和脚中心点位置，以及所述目标行人P的头外接矩形框的位置和大小；

所述筛除条件包括：

(1)、当所述俯视图像块中的所述目标行人P的头中心点相对于脚中心点靠近其所在的俯视图像的中心点时，排除该俯视图像块；和/或

(2)、当所述俯视图像块中的所述目标行人P的头外接矩形框和其所在的俯视图像的边缘小于预设边缘距离时，排除该俯视图像块；和/或

(3)、当所述俯视图像块中的所述目标行人P的头中心点和其所在的所述俯视图像的中心点小于预设接近距离时，排除该俯视图像块；和/或

(4)、当所述俯视图像块中的所述目标行人P的脚中心点得分小于第一预设得分值时，排除该俯视图像块；和/或

(5)、当所述俯视图像块中的所述目标行人P的头中心点得分小于第二预设得分值时，排除该俯视图像块；

所述选取条件包括：

将经过所述筛除条件排除后的剩余多个所述俯视图像块依据其上的所述目标行人P的头中心点位置与脚中心点位置之间的距离降序排列，择优选取位于序列中的第一个所述俯视图像块作为所述最优俯视行人抓拍图像块。

3.根据权利要求2所述的俯视图像选取方法，其特征在于，

所述预设边缘距离大于等于20像素且小于等于30像素；

所述预设接近距离大于等于80像素且小于等于120像素；

所述第一预设得分大于等于0.45且小于等于0.55；

所述第二预设得分大于等于0.75且小于等于0.85。

4.根据权利要求2所述的俯视图像选取方法，其特征在于，所述目标行人P的行进轨迹包括至少一段优选轨迹段，所述优选轨迹段由所述目标行人P所在的俯视图像的外边沿向所述俯视图像的中心点一侧延伸，所述最优俯视行人抓拍图像块在所述优选轨迹段所对应的多个俯视图像块中选取。

5.根据权利要求1所述的俯视图像选取方法，其特征在于，所述检测结果包括：在俯视图像中，所述目标行人P的头中心点位置和脚中心点位置，以及所述目标行人P的头外接矩形框的位置和大小；步骤SC3包括：

获取所述目标行人P描述为头中心点的低分辨率热图，取所述头中心点的低分辨率热图中峰值点的值，作为所述目标行人P的头中心点得分；

获取所述目标行人P描述为脚中心点的低分辨率热图，所述目标行人P所在的俯视图像中的脚中心点位置在所述脚中心点的低分辨率热图中的对应点的值，作为所述目标行人P的脚中心点得分。

6.根据权利要求5所述的俯视图像选取方法，其特征在于，所述低分辨率热图由所述俯视图像按预设比例缩小形成；

所述检测结果中，所述俯视图像中的所述目标行人P的头中心点位置的获取步骤包括：

(1)、将所述头中心点的低分辨率热图按所述预设比例放大还原为所述俯视图像的原图大小，得到原图分辨率下的头中心点初始位置；

(2)、通过所述头中心点的横向偏移量dx和所述头中心点的纵向偏移量dy对所述头中心点初始位置进行校正，获得所述俯视图像中的所述目标行人P的头中心点位置；

所述检测结果中，所述俯视图像中的所述目标行人P的头外接矩形框的位置和大小的获取步骤包括：

以所述目标行人P的头中心点位置为中心原点，以所述头外接矩形框宽度w和所述头外接矩形框高度h分别作为所述头外接矩形框的宽度和高度，获取所述俯视图像中的所述目标行人P的头外接矩形框的位置和大小；

所述检测结果中，所述俯视图像中的所述目标行人P的脚中心点位置的获取步骤包括：

通过所述所述脚中心点的横向偏移量fdx和所述脚中心点纵向偏移量fdy对所述头中心点初始位置进行校正，获得所述俯视图像中的所述目标行人P的脚中心点位置。

7.根据权利要求5所述的俯视图像选取方法，其特征在于，所述头中心点的低分辨率热图中峰值点的值大于预设行人判定值。

8.根据权利要求7所述的俯视图像选取方法，其特征在于，所述预设行人判定值大于等于0.75且小于等于0.85。

9.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现权利要求1-8中任一项所述的俯视图像选取方法的步骤。

10.一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的俯视图像选取方法的步骤。