WO2022095543A1

WO2022095543A1 - 图像帧拼接方法和装置、可读存储介质及电子设备

Info

Publication number: WO2022095543A1
Application number: PCT/CN2021/113122
Authority: WO
Inventors: 施文博
Original assignee: 贝壳技术有限公司
Priority date: 2020-11-04
Filing date: 2021-08-17
Publication date: 2022-05-12
Also published as: CN112399188A

Abstract

公开了一种图像帧拼接方法和装置、电子设备和存储介质。该方法包括：获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流；响应于在移动全景拍摄设备的过程中接收到的多个拍摄指令，通过全景拍摄设备获取设定空间中的多个位置的图像以得到多帧场景图像；基于预览视频流估计多帧场景图像的相应位姿信息；以及基于多帧场景图像的相应位姿信息，对多帧场景图像进行拼接以得到设定空间的全景图像。

Description

图像帧拼接方法和装置、可读存储介质及电子设备

技术领域

本公开涉及计算机视觉技术，尤其涉及一种图像帧拼接方法和装置、计算机可读存储介质、电子设备及计算机程序产品。

背景技术

随着终端在人们生活中的普及和应用，用户可以采用终端进行全景图像的拍摄。相关技术中的全景图像是基于拼接多幅图像以达到广角的效果，来展现更多的场景。但对于一些特殊场景，如建筑物中的重复性纹理、墙壁的遮挡、以及相似的空间等，经常会出现错误拼接的问题。

发明内容

根据本公开实施例的一个方面，提供了一种图像帧拼接方法，包括：获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流；响应于在移动所述全景拍摄设备的过程中接收到的多个拍摄指令，通过所述全景拍摄设备获取所述设定空间中的多个位置的图像以得到多帧场景图像；基于所述预览视频流估计所述多帧场景图像的相应位姿信息；基于所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像。

根据本公开实施例的另一个方面，提供了一种图像帧拼接装置，包括用于实现上述图像帧拼接方法的装置。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述图像帧拼接方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述图像帧拼接方法。

根据本公开实施例的另一个方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述图像帧拼接方法。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是根据本公开的一个实施例的图像帧拼接方法的流程图。

图2是根据本公开的又一个实施例的图像帧拼接方法的流程图。

图3是根据本公开的再一个实施例的图像帧拼接方法的流程图。

图4是根据本公开的另一个实施例的图像帧拼接方法的流程图。

图5是根据本公开的一个实施例的图像帧拼接装置的结构示意图。

图6是根据本公开一示例性实施例的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，在分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

图1是根据本公开一示例性实施例的图像帧拼接方法的流程图。本实施例可应用在电子设备上，如图1所示，该图像帧拼接方法包括如下步骤：

S102，获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流。

设定空间可以是室内的房间，也可以是室外的场所。全景拍摄设备用于表示设有全景拍摄相机和控制器的设备，其中，全景拍摄相机可以是鱼眼全景相机、多镜头全景相机或可以生成全景拍摄效果的移动客户端；控制器可以包括SLAM(即时定位与地图构建)***。预览视频流用于表示移动全景拍摄设备初始化后生成的连续图像帧数据。

S104，响应于在移动全景拍摄设备的过程中接收到的多个拍摄指令，通过全景拍摄设备获取设定空间中的多个位置的图像以得到多帧场景图像。

本公开实施例还可以通过手机等远程设备实时查看预览视频流，并通过远程设备发送拍摄指令，实现远程控制。

S106，基于预览视频流估计多帧场景图像的相应位姿信息。

多帧场景图像的相应位姿信息用于表示与多帧场景图像中的相应场景图像对应的全景拍摄设备的位移和姿态。

S108，基于多帧场景图像的相应位姿信息，对多帧场景图像进行拼接以得到设定空间的全景图像。

例如，对整套房源A进行全景拍摄。首先通过在房源A的房间A1中移动鱼眼全景相机来获取预览视频流a1。在获取预览视频流a1后，用户利用鱼眼全景相机对房间A1进行连续拍摄来获取房间A1的多个位置的图像，得到房间A1的多帧场景图像。然后，用户继续移动鱼眼全景相机到下一房间A2，按照同样的方式，对房间A2进行拍摄。直到完成对房源A中全部房间的拍摄后，基于全部预览视频流估计房源A的多帧场景图像的相应位姿信息，并根据所述相应位姿信息确定房源A的多帧场景图像之间的相互关系。将相邻的场景图像拼接起来，即可得到房源A的全景图像。

根据本公开实施例的图像帧拼接方法，获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流；响应于在移动全景拍摄设备的过程中接收到的多个拍摄指令，通过全景拍摄设备获取设定空间中的多个位置的图像以得到多帧场景图像；基于预览视频流估计多帧场景图像的相应位姿信息；基于多帧场景图像的相应位姿信息，对多帧场景图像进行拼接以得到设定空间的全景图像。本公开实施例利用多帧场景图像的相应位姿信息可以有效解决全景图像中的场景图像的错误拼接问题。此外，利用全景拍摄设备的预览视频流还可以对拍摄设定空间的全景拍摄设备的全局姿态进行估计，以获取准确的全景图像。

在一些实施方式中，步骤S106之前还可以包括：移除预览视频流中的移动目标，以获得移除了移动目标的预览视频流，则步骤S106进一步可以包括：基于移除了移动目标的预览视频流估计多帧场景图像的相应位姿信息。

图2是根据本公开另一示例性实施例的图像帧拼接方法的流程示意图。上述移除预览视频流中的移动目标，可以包括如下步骤：

S201，对预览视频流中的场景图像进行移动目标检测以确定是否检测到移动目标。

移动目标可以是人或动物。

S202，响应于检测到移动目标，基于预设的第二神经网络，移除移动目标。

本公开实施例可以通过特征点检测确定是否存在移动目标。预设的第二神经网络用于表示检测移动目标以及移除移动目标的神经网络，例如，SSD(单个深度神经网络模型，Single Shot MultiBox Detector)、Yolo(一眼就能认出你模型，You Only look once)，Deeplab(空洞卷积模型)。

本公开实施例可以移除场景图像中多余的移动目标，使得图像帧信息更加完整准确。

图3是根据本公开另一示例性实施例的图像帧拼接方法的流程示意图，在上述图1所示实施例的基础上，步骤S106具体可以包括如下步骤：

S301，基于即时定位与建图算法和回环检测算法，对全景拍摄设备的运动轨迹进行处理，以估计与预览视频流中的场景图像对应的全景拍摄设备的位姿信息。

即时定位与建图(SLAM)算法和回环检测算法被预存在即时定位与建图(SLAM)***中。即时定位与建图(SLAM)算法的目的是估计全景拍摄设备的运动轨迹中的各个时刻的位姿；回环检测算法的目的是找到当前场景在历史中是否出现过，如果出现过，就可以相应提供一个非常强的约束条件，即把偏离较大的全景拍摄设备轨迹修正到正确的位置上。

S302，基于与预览视频流中的场景图像对应的全景拍摄设备的位姿信息，获取多帧场景图像的相应位姿信息。

由此，本公开实施例利用即时定位与建图算法和回环检测算法可以对各个时刻的全景拍摄设备的位姿信息进行估计，从而实现对场景图像之间的相对位移和相对旋转的估计，以保证各帧场景图像之间的顺畅跳转。

在一些实施方式中，步骤S108之前还可以包括如下步骤：获取全景拍摄设备的位姿尺度，则步骤108还可以包括：基于全景拍摄设备的位姿尺度和多帧场景图像的相应位姿信息，对多帧场景图像进行拼接。

位姿尺度用于表示多帧场景图像中的图上距离与设定空间中对应的实际距离之比。

在一些实施方式中，上述获取全景拍摄设备的位姿尺度可以包括如下步骤：基于全景拍摄设备与固定参照物之间的实际距离，获取全景拍摄设备的位姿尺度；或基于预设的第一神经网络，对所述预览视频流进行处理以获取全景拍摄设备的位姿尺度。

固定参照物可以是房间的地面或天花板。例如，设定观测点与多帧场景图像中的地面之间的距离为1，安放在三角架上的鱼眼全景相机与地面之间的实际距离为1.5米，则观测点与多帧场景图像中的地面之间的距离与安放在三角架上的鱼眼全景相机与地面之间的实际距离之比为1:1.5；或，通过预设的第一神经网络即获取深度信息的神经网络，对预览视频流进行处理以确定鱼眼全景相机的位姿尺度，例如：将预览视频流数据输入由测试集训练后得到的卷积神经网络模型，即可得到鱼眼全景相机的位姿尺度。

本公开实施例通过全景拍摄设备与固定参照物之间的实际距离或将预览视频流输入预设的第一神经网络的方式，获取全景拍摄设备的位姿尺度，以确定多帧场景图像中的信息与实际场景中信息的距离对应关系。

图4是根据本公开另一示例性实施例的图像帧拼接方法的流程示意图，在上述图1所示实施例的基础上，步骤S108具体可以包括如下步骤：

S401，基于多帧场景图像的相应位姿信息，确定多帧场景图像的拼接顺序。

多帧场景图像的拼接顺序用于表示全景拍摄设备对应的位姿连续变化的顺序，即平移坐标的变化和旋转坐标的变化。

S402，基于多帧场景图像的拼接顺序，确定设定空间的全景图像。

在一些实施方式中，若多帧场景图像中存在具有图像重叠的场景图像，则对图像重叠的部分进行图像融合处理。

例如，基于多帧场景图像的拼接顺序，将相邻图像帧中存在重叠的部分进行融合处理后，按照拼接顺序，将图像帧拼接至一起，得到全景图像。此外，本公开实施例还可以将该全景图像投射至球面、柱面或立方体上，以实现全方位的视图浏览。

本公开实施例利用多帧场景图像的位姿信息，对多帧场景图像进行拼接，有效解决了全景拍摄设备遇到相似空间的不同全景图像时，容易给出错误估计，以至于出现多帧场景图像错误拼接的问题。

本公开实施例提供的任一种图像帧拼接方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种图像帧拼接方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像帧拼接方法。下文不再赘述。

图5是根据本公开一示例性实施例的图像帧拼接装置的结构示意图。该装置可以设置于终端设备、服务器等电子设备中，以执行本公开上述任一实施例的图像帧拼接方法。如图5所示，该装置包括：

第一获取模块51，被配置为获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流；

第一得到模块52，被配置为响应于在移动所述全景拍摄设备的过程中接收到的多个拍摄指令，通过所述全景拍摄设备获取所述设定空间中的多个位置的图像以得到多帧场景图像；

估计模块53，被配置为基于所述预览视频流估计所述多帧场景图像的相应位姿信息；以及

第二得到模块54，被配置为基于所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像。

基于本公开上述实施例提供的图像帧拼接装置，获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流；响应于在移动全景拍摄设备的过程中接收到的多个拍摄指令，通过全景拍摄设备获取设定空间中的多个位置的图像以得到多帧场景图像；基于预览视频流估计多帧场景图像的相应位姿信息；基于多帧场景图像的相应位姿信息，对多帧场景图像进行拼接以得到设定空间的全景图像。本公开实施例利用多帧场景图像的相应位姿信息图像可以有效解决全景图像中的场景图像的错误拼接问题。此外，利用全景拍摄设备中的预览视频流还可以对拍摄设定空间的全景拍摄设备的全局姿态进行估计，以获取准确的全景图像。

在一些实施方式中，所述估计模块53包括：

移除单元，被配置为移除所述预览视频流中的移动目标，以得到移除了移动目标的预览视频流；以及

第一估计单元，被配置为基于移除了移动目标的预览视频流，估计所述多帧场景图像的相应位姿信息。

在一些实施方式中，所述移除单元包括：

第一确定单元，被配置为对所述预览视频流中的场景图像进行移动目标检测以确定是否检测到移动目标；以及

处理单元，被配置为响应于检测到移动目标，基于预设的第二神经网络，移除所述移动目标。

在一些实施方式中，所述估计模块53包括：

第二估计单元，被配置为基于即时定位与建图算法和回环检测算法，对所述全景拍摄设备的运动轨迹进行处理，以估计与所述预览视频流中的场景图像对应的全景拍摄设备的位姿信息；以及

第一获取单元，被配置为基于与所述预览视频流中的场景图像对应的全景拍摄设备的位姿信息，获取所述多帧场景图像的相应位姿信息。

在一些实施方式中，所述第二得到模块54包括：

第二获取单元，被配置为获取所述全景拍摄设备的位姿尺度，其中，所述位姿尺度用于表示所述多帧场景图像中的图上距离与所述设定空间中的对应实际距离之比；以及

拼接单元，被配置为基于所述全景拍摄设备的位姿尺度和所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像。

在一些实施方式中，所述第二获取单元被配置为：

基于所述全景拍摄设备与固定参照物之间的实际距离，获取所述全景拍摄设备的位姿尺度；或

基于预设的第一神经网络，对所述预览视频流进行处理以获取所述全景拍摄设备的位姿尺度。

在一些实施方式中，所述第二得到模块54包括：

第二确定单元，被配置为基于所述多帧场景图像的相应位姿信息，确定所述多帧场景图像的拼接顺序；以及

第三确定单元，被配置为基于所述多帧场景图像的拼接顺序，确定所述设定空间的全景图像。

在一些实施方式中，还包括：

融合模块，被配置为响应于确定所述多帧场景图像中的至少一个场景图像存在图像重叠，对所述图像重叠的部分进行图像融合处理。

下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图6图示了根据本公开实施例的电子设备的框图。

如图6所示，电子设备60包括一个或多个处理器61和存储器62。

处理器61可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备60中的其他组件以执行期望的功能。

存储器62可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器61可以运行所述程序指令，以实现上文所述的本公开的各个实施例的图像帧拼接方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备60还可以包括：输入装置63和输出装置64，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置63可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置63可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备63还可以包括例如键盘、鼠标等等。

该输出装置64可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备60中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备60还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像帧拼接方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像帧拼接方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种图像帧拼接方法，包括：

获取通过在设定空间中移动全景拍摄设备而拍摄的预览视频流；

响应于在移动所述全景拍摄设备的过程中接收到的多个拍摄指令，通过所述全景拍摄设备获取所述设定空间中的多个位置的图像以得到多帧场景图像；

基于所述预览视频流估计所述多帧场景图像的相应位姿信息；以及

基于所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像。
根据权利要求1所述的方法，其中，所述基于所述预览视频流估计所述多帧场景图像的相应位姿信息，包括：

移除所述预览视频流中的移动目标，以得到移除了移动目标的预览视频流；以及

基于所述移除了移动目标的预览视频流，估计所述多帧场景图像的相应位姿信息。
根据权利要求2所述的方法，其中，所述移除所述预览视频流中的移动目标，包括：

对所述预览视频流中的场景图像进行移动目标检测以确定是否检测到移动目标；以及

响应于检测到移动目标，基于预设的第二神经网络，移除所述移动目标。
根据权利要求1-3任一所述的方法，其中，所述基于所述预览视频流估计所述多帧场景图像的相应位姿信息，包括：

基于即时定位与建图算法和回环检测算法，对所述全景拍摄设备的运动轨迹进行处理，以估计与所述预览视频流中的场景图像对应的全景拍摄设备的位姿信息；以及

基于与所述预览视频流中的场景图像对应的全景拍摄设备的位姿信息，获取所述多帧场景图像的相应位姿信息。
根据权利要求1-4任一所述的方法，其中，所述基于所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像，包括：

获取所述全景拍摄设备的位姿尺度，其中，所述位姿尺度用于表示所述多帧场景图像中的图上距离与所述设定空间中的对应实际距离之比；以及

基于所述全景拍摄设备的位姿尺度和所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像。
根据权利要求5所述的方法，其中，所述获取所述全景拍摄设备的位姿尺度，包括：

基于所述全景拍摄设备与固定参照物之间的实际距离，获取所述全景拍摄设备的位姿尺度；或

基于预设的第一神经网络，对所述预览视频流进行处理以获取所述全景拍摄设备的位姿尺度。
根据权利要求1-4任一所述的方法，其中，所述基于所述多帧场景图像的相应位姿信息，对所述多帧场景图像进行拼接以得到所述设定空间的全景图像，包括：

基于所述多帧场景图像的相应位姿信息，确定所述多帧场景图像的拼接顺序；以及

基于所述多帧场景图像的拼接顺序，确定所述设定空间的全景图像。
根据权利要求1-7任一所述的方法，还包括：

响应于确定所述多帧场景图像中的至少一个场景图像存在图像重叠，对所述图像重叠的部分进行图像融合处理。
一种图像帧拼接装置，包括：用于实现权利要求1-8中任一项所述方法的装置。
一种计算机可读存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序用于执行权利要求1-8中任一项所述的方法。
一种电子设备，包括：

处理器；以及

用于存储所述处理器可执行指令的存储器，其中，所述可执行指令在由所述处理器执行时实现权利要求1-8中任一项所述的方法。
一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。