CN117036448B

CN117036448B - 一种多视角相机的场景构建方法及***

Info

Publication number: CN117036448B
Application number: CN202311300861.7A
Authority: CN
Inventors: 顾平
Original assignee: Shenzhen Fanlai Intelligent Co ltd
Current assignee: Shenzhen Fanlai Intelligent Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-04-02
Anticipated expiration: 2043-10-10
Also published as: CN117036448A

Abstract

本发明属于相机技术领域，具体涉及一种多视角相机的场景构建方法及***。所述方法包括：步骤1：基于多视角相机阵列的多信息源事件感知器的构建；步骤2：复杂三维空间区域事件触发源的构建；步骤3：基于三维人体姿态关键点的触发对象的构建；步骤4：进行事件触发与记录；所述方法采用多视角相机阵列构建多信息源事件感知器，实现了多个视角下的人体三维重建，完成了事件感知，同时，采用可编排的三维空间作为事件触发源，实现了复杂结构的事件触发。

Description

一种多视角相机的场景构建方法及***

技术领域

本发明属于相机技术领域，具体涉及一种多视角相机的场景构建方法及***。

背景技术

三维重建(3D Reconstruct1n)是对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。

在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全，因此三维重建需要利用经验知识，而多视图的三维重建(类似人的双目定位)相对比较容易，其方法是先对摄像机进行标定，即计算出摄像机的图像坐标系与世界坐标系的关系，然后利用多个二维图像中的信息重建出三维信息。

在三维重建中，复杂三维空间区域事件触发源的构建是其中的关键，事件触发与记录是在进行视频处理过程中，为了准确定位和描述发生活动或者异常的场景而进行的标记和记录。

在当前的常用的非耦合式视频场景中，事件通常只在单视图中进行定义，并且通过简单的二维图像区域进行描述，容易产生大量的漏检和误检，并且难以对复杂场景进行检测。此外，单视图中的往往难以进行复杂的事件定义。

发明内容

有鉴于此，本发明的主要目的在于提供一种多视角相机的场景构建方法及***，所述方法采用多视角相机阵列构建多信息源事件感知器，实现了多个视角下的人体三维重建，完成了事件感知，同时，采用可编排的三维空间作为事件触发源，实现了复杂结构的事件触发。

为达到上述目的，本发明的技术方案是这样实现的：

一种多视角相机的场景构建方法，所述方法包括以下步骤：

步骤1：基于多视角相机阵列的多信息源事件感知器的构建，具体包括：

步骤1.1：进行多视角相机的内参标定；

步骤1.2：进行多视角相机的外参标定以及多视角相机参数的捆集调整；

步骤1.3：多视角相机获取多视图，基于多视图，进行人体三维重建与追踪，完成多信息源事件感知器的构建；

步骤2：复杂三维空间区域事件触发源的构建；

步骤3：基于三维人体姿态关键点的触发对象的构建；

步骤4：进行事件触发与记录，具体包括：

步骤4.1：运行基于多视角相机阵列的多信息源事件感知器；

步骤4.2：持续检测并重建人体信息；

步骤4.3：检查人体信息与设定好的构成事件触发源的三维空间区域的包含关系，如果满足包含条件，则检测人体姿态是否符合事件其中包含的事件开始人体姿态关键点信号，如果满足，则触发该事件触发源所对应的事件，并开始记录；若已经存在触发的事件，则检测其是否满足事件持续的人体姿态关键点信号，如果满足，则进行持续记录，否则结束事件记录；如果不满足包含条件，并且事件已经触发，则结束事件记录。

进一步的，所述步骤2中复杂三维空间区域事件触发源的构建的方法包括：步骤2.1：在多视图中选定事件区域的临界点；步骤2.2：基于三角测量法计算出在相机坐标系下的临界点；步骤2.3：构建由多面体包成的事件三维空间区域，以此作为区域的事件触发源。

进一步的，所述步骤2.3中构建由多面体包成的事件三维空间区域的方法包括：基于在相机坐标系下的临界点，构建一个正N面体的边界，将事件区域包裹在内；所述N的取值须满足以下约束条件：

其中，n为多视角相机的视角数；(x_n,y_n)为临界点的坐标。

进一步的，所述步骤3中基于三维人体姿态关键点的触发对象的构建的方法包括：步骤3.1：选定事件触发源；步骤3.2：定义若干事件开始的人体姿态关键点信号与事件持续的人体姿态关键点信号，并将其与对应事件一起注册到事件触发源中，完成触发对象的构建。

进一步的，所述步骤1.1中进行内参标定的方法包括：将多组已知尺寸的高精度正立方体组合分别组成形状互不相同的，不规则立方体；用多视角相机在多个不同的角度对不规则立方体进行拍摄，得到多组拍摄结果；将多组拍摄结果的深度数据，分别通过透视投影逆过程生成回投至相机局部坐标系下的三维空间中，生成相同帧数的法向图，并在法向图上划分标定物体的平面，得到多组平面深度数据；将多组平面深度数据进行数据融合，得到融合深度数据；将融合深度数据通过透视投影逆过程回投至相机局部坐标系下的三维空间中，得到各个平面对应的三维点集；得到的每个三维点集进行最小二乘拟合方法，获取三维点集对应的平面；基于得到的平面计算被标记的平面与平面之间的夹角与距离；实际测量高精度立方体的被标记的平面与平面之间的夹角和距离，得到的夹角与距离比较，构造以差值最小为目的的优化目标函数，通过该优化目标函数使用非线性迭代优化方法，对多视角相机的内参进行优化，使得目标函数最小化，完成对多视角相机的内参标定。

进一步的，所述将多组平面深度数据进行数据融合，得到融合深度数据的方法包括：其中，R为融合深度数据，m为平面深度数据的组数；o为每组高精度正立方体组合中包含的正立方体数；r_i为平面深度数据；s为不规则立方体的表面积；m为每组高精度正立方体组合中的正立方体的平均面数。

进一步的，所述步骤1.2中进行外参标定的方法：获取多视角相机在三个正则方向下的夹角；进而获取多视角相机在三个正则方向下的外参在所述夹角下的投影，分别得到三组外参投影集合；所述三个正则方向分别为第一正则方向、第二正则方向和第三正则方向；使用如下公式计算三个正则方向的拟合误差：

；

其中，l为每个正则方向下的外参投影集合中的参数数量；w₁为误差计算函数，y_l多视角相机在某一正则方向的外参，为多视角相机在某一正则方向下的投影外参；θ_k为多视角相机在某一正则方向的夹角；根据计算得到的拟合误差，将拟合误差最小时对应的正则方向作为标准投影方向，将该正则方向下投影得到的外参投影集合作为外参。

进一步的，所述步骤1.2中进行多视角相机参数的捆集调整的方法为并行的捆集调整方法。

进一步的，所述步骤1.3中多视角相机获取多视图，基于多视图，进行人体三维重建与追踪，完成多信息源事件感知器的构建的方法包括：在每个多视图下，进行人体三维重建与追踪，得到多个人体三维重建与追踪结果；在每个人体三维重建与追踪结果下，进行信息源事件感知器构建，将每个信息源事件感知器组合成多信息源事件感知器。

一种多视角相机的场景构建***，所述***包括：多信息源事件感知器的构建单元，配置用于基于多视角相机阵列的多信息源事件感知器的构建；区域事件触发源构建单元，配置用于进行复杂三维空间区域事件触发源的构建；触发对象构建单元，配置用于基于三维人体姿态关键点的触发对象的构建：事件处理单元，配置用于进行事件触发与记录。

本发明的一种多视角相机的场景构建方法及***，具有如下有益效果：本发明采用多视角相机阵列构建多信息源事件感知器，能够针对复杂场景进行有效感知，并且对于遮挡有很强的健壮性，能够通过多个视角的信息互补来实现人体三维重建，进而完成事件感知任务。同时，本发明采用可编排三维空间区域作为事件触发源，通过编排可编辑的三维空间区域，来构建多种事件类型且具有复杂结构的事件触发源。此外，使用三维人体姿态关键点作为事件触发对象，通过检测三维人体姿态关键点的特定姿态以及关键点与三维空间区域的交互关系，来触发和记录相应的事件。

附图说明

图1为本发明实施例提供的一种多视角相机的场景构建方法的方法流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

一种多视角相机的场景构建方法，所述方法包括以下步骤：

步骤1.1：进行多视角相机的内参标定；

步骤2：复杂三维空间区域事件触发源的构建；

步骤3：基于三维人体姿态关键点的触发对象的构建；

步骤4：进行事件触发与记录，具体包括：

步骤4.1：运行基于多视角相机阵列的多信息源事件感知器；

步骤4.2：持续检测并重建人体信息；

具体的，在计算机视觉中，三维重建是根据单视图或者多视图的图像重建三维信息的过程，由于单视频的信息不完全，因此三维重建需要利用先验知识，而多视图的三维重建能够利用更多的视点的二维图像的信息，重建出三维模型。然而，目前大多的三维重建算法，对二维信息的利用不够精确和全面，计算过程过度依赖外部设备提供的信息，如深度相机提供的深度信息等，或依赖于对目标和背景的分割结果等，造成重建出的结果仍比较粗糙。

在本发明中，采用多视角相机阵列构建多信息源事件感知器，能够针对复杂场景进行有效感知。由于其结果没有依赖于目标和背景的分割结果，而是通过检测三维人体姿态关键点的特定姿态以及关键点与三维空间区域的交互关系，来触发和记录相应的事件，其重建结果精度更高，且更能适用于复杂三维场景。

实施例2

在上一实施例的基础上，所述步骤2中复杂三维空间区域事件触发源的构建的方法包括：步骤2.1：在多视图中选定事件区域的临界点；步骤2.2：基于三角测量法计算出在相机坐标系下的临界点；步骤2.3：构建由多面体包成的事件三维空间区域，以此作为区域的事件触发源。

具体的，事件触发源界定了事件触发的区域。

实施例3

在上一实施例的基础上，所述步骤2.3中构建由多面体包成的事件三维空间区域的方法包括：基于在相机坐标系下的临界点，构建一个正N面体的边界，将事件区域包裹在内；所述N的取值须满足以下约束条件：其中，n为多视角相机的视角数；(x_n,y_n)为临界点的坐标。

具体的，通常来说，正N面体的N值越大，得到的事件区域就更加精确，则后续的场景构建结果也更加准确。

实施例4

在上一实施例的基础上，所述步骤3中基于三维人体姿态关键点的触发对象的构建的方法包括：步骤3.1：选定事件触发源；步骤3.2：定义若干事件开始的人体姿态关键点信号与事件持续的人体姿态关键点信号，并将其与对应事件一起注册到事件触发源中，完成触发对象的构建。

具体的，在图像处理中，关键点本质上是一种特征。它是对一个固定区域或者空间物理关系的抽象描述，描述的是一定邻域范围内的组合或上下文关系。它不仅仅是一个点信息，或代表一个位置，更代表着上下文与周围邻域的组合关系。关键点检测的目标就是通过计算机从图像中找出这些点的坐标，作为计算机视觉领域的一个基础任务，关键点的检测对于高级别任务，例如识别和分类具有至关重要的意义。

具体的，现有技术中的内参标定算法往往仅基于单一参数或参数集合来实现，这种结果的准确率较低。而由于本发明的场景构建是基于多视角相机的。在这种情况下，采用传统的内参标定方法，准确率会更低。

人体姿态关键点检测(Human Keypoint Detection)又称为人体姿态识别，旨在准确定位图像之中人体关节点的位置，是人体动作识别、人体行为分析、人机交互的前置任务。与人脸关键点检测不同，人体的躯干部位更为灵活，变化更为难以预测，基于坐标回归的方法难以胜任，通常使用热力图回归的关键点检测方法。

实施例5

在上一实施例的基础上，所述步骤1.1中进行内参标定的方法包括：将多组已知尺寸的高精度正立方体组合分别组成形状互不相同的，不规则立方体；用多视角相机在多个不同的角度对不规则立方体进行拍摄，得到多组拍摄结果；将多组拍摄结果的深度数据，分别通过透视投影逆过程生成回投至相机局部坐标系下的三维空间中，生成相同帧数的法向图，并在法向图上划分标定物体的平面，得到多组平面深度数据；将多组平面深度数据进行数据融合，得到融合深度数据；将融合深度数据通过透视投影逆过程回投至相机局部坐标系下的三维空间中，得到各个平面对应的三维点集；得到的每个三维点集进行最小二乘拟合方法，获取三维点集对应的平面；基于得到的平面计算被标记的平面与平面之间的夹角与距离；实际测量高精度立方体的被标记的平面与平面之间的夹角和距离，得到的夹角与距离比较，构造以差值最小为目的的优化目标函数，通过该优化目标函数使用非线性迭代优化方法，对多视角相机的内参进行优化，使得目标函数最小化，完成对多视角相机的内参标定。

关键点检测方法总体上可以分成两个类型，一个种是用坐标回归的方式来解决，另一种是将关键点建模成热力图，通过像素分类任务，回归热力图分布得到关键点位置。这两个方法，都是一种手段或者是途径，解决的问题就是要找出这个点在图像当中的位置与关系

实施例6

在上一实施例的基础上，所述将多组平面深度数据进行数据融合，得到融合深度数据的方法包括：其中，R为融合深度数据，m为平面深度数据的组数；o为每组高精度正立方体组合中包含的正立方体数；r_i为平面深度数据；s为不规则立方体的表面积；m为每组高精度正立方体组合中的正立方体的平均面数。

具体的，对多组平面深度数据进行数据融合，基于融合后得到的融合深度数据更能从整体上反应多视角相机在多个角度下拍摄得到的结果。从而使得标定结果更加准确。

实施例7

在上一实施例的基础上，所述步骤1.2中进行外参标定的方法：获取多视角相机在三个正则方向下的夹角；进而获取多视角相机在三个正则方向下的外参在所述夹角下的投影，分别得到三组外参投影集合；所述三个正则方向分别为第一正则方向、第二正则方向和第三正则方向；使用如下公式计算三个正则方向的拟合误差：

；

具体的，外参标定中，现有技术的方法如果带入到多视角相机中，则很容易使得结果不够准确。而通过多个正则方向的投影，再基于各个正则方向的拟合误差来进行外参标定，则结果更加准确。

实施例8

在上一实施例的基础上，所述步骤1.2中进行多视角相机参数的捆集调整的方法为并行的捆集调整方法。

实施例9

在上一实施例的基础上，所述步骤1.3中多视角相机获取多视图，基于多视图，进行人体三维重建与追踪，完成多信息源事件感知器的构建的方法包括：在每个多视图下，进行人体三维重建与追踪，得到多个人体三维重建与追踪结果；在每个人体三维重建与追踪结果下，进行信息源事件感知器构建，将每个信息源事件感知器组合成多信息源事件感知器。

实施例10

需要说明的是，上述实施例提供的***，仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元来完成，即将本发明实施例中的单元或者步骤再分解或者组合，例如，上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子单元，以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称，仅仅是为了区分各个单元或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“另一部分”等是配置用于区别类似的对象，而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术标记作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非配置用于限定本发明的保护范围。

Claims

1.一种多视角相机的场景构建方法，其特征在于，所述方法包括以下步骤：

步骤1.1：进行多视角相机的内参标定；

步骤2：复杂三维空间区域事件触发源的构建；

步骤3：基于三维人体姿态关键点的触发对象的构建；

步骤4：进行事件触发与记录，具体包括：

步骤4.1：运行基于多视角相机阵列的多信息源事件感知器；

步骤4.2：持续检测并重建人体信息；

步骤4.3：检查人体信息与设定好的构成事件触发源的三维空间区域的包含关系，如果满足包含条件，则检测人体姿态是否符合事件其中包含的事件开始人体姿态关键点信号，如果满足，则触发该事件触发源所对应的事件，并开始记录；若已经存在触发的事件，则检测其是否满足事件持续的人体姿态关键点信号，如果满足，则进行持续记录，否则结束事件记录；如果不满足包含条件，并且事件已经触发，则结束事件记录；

所述步骤1.1中进行内参标定的方法包括：将多组已知尺寸的高精度正立方体组合分别组成形状互不相同的，不规则立方体；用多视角相机在多个不同的角度对不规则立方体进行拍摄，得到多组拍摄结果；将多组拍摄结果的深度数据，分别通过透视投影逆过程生成回投至相机局部坐标系下的三维空间中，生成相同帧数的法向图，并在法向图上划分标定物体的平面，得到多组平面深度数据；将多组平面深度数据进行数据融合，得到融合深度数据；将融合深度数据通过透视投影逆过程回投至相机局部坐标系下的三维空间中，得到各个平面对应的三维点集；得到的每个三维点集进行最小二乘拟合方法，获取三维点集对应的平面；基于得到的平面计算被标记的平面与平面之间的夹角与距离；实际测量高精度立方体的被标记的平面与平面之间的角度和距离，得到的夹角与距离比较，构造以差值最小为目的的优化目标函数，通过该优化目标函数使用非线性迭代优化方法，对多视角相机的内参进行优化，使得目标函数最小化，完成对多视角相机的内参标定。

2.如权利要求1所述的方法，其特征在于，所述步骤2中复杂三维空间区域事件触发源的构建的方法包括：步骤2.1：在多视图中选定事件区域的临界点；步骤2.2：基于三角测量法计算出在相机坐标系下的临界点；步骤2.3：构建由多面体包成的事件三维空间区域，以此作为区域的事件触发源。

3.如权利要求2所述的方法，其特征在于，所述步骤2.3中构建由多面体包成的事件三维空间区域的方法包括：基于在相机坐标系下的临界点，构建一个正N面体的边界，将事件区域包裹在内；所述N的取值须满足以下约束条件：其中，n为多视角相机的视角数；(x_n,y_n)为临界点的坐标。

4.如权利要求3所述的方法，其特征在于，所述步骤3中基于三维人体姿态关键点的触发对象的构建的方法包括：步骤3.1：选定事件触发源；步骤3.2：定义若干事件开始的人体姿态关键点信号与事件持续的人体姿态关键点信号，并将其与对应事件一起注册到事件触发源中，完成触发对象的构建。

5.如权利要求4所述的方法，其特征在于，所述将多组平面深度数据进行数据融合，得到融合深度数据的方法包括：其中，R为融合深度数据，m为平面深度数据的组数；o为每组高精度正立方体组合中包含的正立方体数；r_i为平面深度数据；s为不规则立方体的表面积；H为每组高精度正立方体组合中的正立方体的平均面数。

6.如权利要求5所述的方法，其特征在于，所述步骤1.2中进行外参标定的方法：获取多视角相机在三个正则方向下的夹角；进而获取多视角相机在三个正则方向下的外参在所述夹角下的投影，分别得到三组外参投影集合；所述三个正则方向分别为第一正则方向、第二正则方向和第三正则方向；使用如下公式计算三个正则方向的拟合误差：

；

其中，l为每个正则方向下的外参投影集合中的参数数量；w₁为误差计算函数，y_l为多视角相机在某一正则方向的外参，为多视角相机在某一正则方向下的投影外参；θ_k为多视角相机在某一正则方向的夹角；根据计算得到的拟合误差，将拟合误差最小时对应的正则方向作为标准投影方向，将该正则方向下投影得到的外参投影集合作为外参。

7.如权利要求6所述的方法，其特征在于，所述步骤1.2中进行多视角相机参数的捆集调整的方法为并行的捆集调整方法。

8.如权利要求7所述的方法，其特征在于，所述步骤1.3中多视角相机获取多视图，基于多视图，进行人体三维重建与追踪，完成多信息源事件感知器的构建的方法包括：在每个多视图下，进行人体三维重建与追踪，得到多个人体三维重建与追踪结果；在每个人体三维重建与追踪结果下，进行信息源事件感知器构建，将每个信息源事件感知器组合成多信息源事件感知器。

9.一种用于实现权利要求1至8之一所述方法的多视角相机的场景构建***，其特征在于，所述***包括：多信息源事件感知器的构建单元，配置用于基于多视角相机阵列的多信息源事件感知器的构建；区域事件触发源构建单元，配置用于进行复杂三维空间区域事件触发源的构建；触发对象构建单元，配置用于基于三维人体姿态关键点的触发对象的构建：事件处理单元，配置用于进行事件触发与记录。