CN113168700A

CN113168700A - 电子装置及其控制方法

Info

Publication number: CN113168700A
Application number: CN201980079168.7A
Authority: CN
Inventors: 李洹宇; 权兑奕; 金德镐; 柳柄旭; 李健日; 李在雄; 任成训; 郑智元
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-12-19
Filing date: 2019-09-30
Publication date: 2021-07-23
Also published as: EP3837665A1; EP3837665A4; KR20200081527A; US11436760B2; WO2020130299A1; US20200202576A1

Abstract

一种电子装置通过重叠图像帧的部分区域来获得全景图像，并从全景图像或全景图像内最大尺寸的预定形状的区域中识别对象。

Description

电子装置及其控制方法

技术领域

符合本公开的设备和方法涉及电子装置及其控制方法，更具体地，涉及用于识别对象的电子装置及其控制方法。

本公开还涉及使用机器学习算法及其应用来模拟人脑的功能(例如识别和判断)的人工智能(AI)***。

背景技术

最近，实现人类级人工智能(AI)的人工智能***已经部署在各个领域。与传统的基于规则的智能***不同，人工智能***是包含在机器中的***，该机器学习、判断并迭代地改进其功能的执行。例如，随着人工智能***的使用增加，识别率和对用户偏好的理解可能相应地增加。因此，传统的基于规则的智能***已经逐渐被基于深度学习的人工智能***所取代。

人工智能技术由机器学习(如深度学习)和实现机器学习的元素技术(Elementtechnology)组成。

机器学习是一种对输入数据的特征进行分类和/或训练的算法技术。元素技术是利用机器学习算法，如深度学习，模拟人脑的识别、判断等功能的技术，包括语言理解、视觉理解、推理/预测、知识表示、运动控制等。

人工智能技术可以应用于各种领域，其例子如下所述。语言理解是用于识别和应用/处理人类语言/字符的技术，包括自然语言处理、机器翻译、对话***、查询响应、语音识别/合成等。视觉理解是一种像被人感知一样识别和处理对象的技术，包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推理预测是一种用于判断和逻辑推断和预测信息的技术，包括基于知识/概率的推理、优化预测、基于偏好的规划和推荐。知识表示是一种将人类经验信息自动化为知识数据的技术，包括知识构建(数据生成/分类)和知识管理(数据利用)。运动控制是用于控制设备或对象的自主运动的技术，例如，车辆的行进和机器人的运动，包括运动控制(导航、碰撞和行进)、操作控制(行为控制)等。

最近，已经开发了各种类型的设备，例如包括相机的眼镜设备。然而，当使用眼镜设备中提供的相机捕获对象时，由于用户的头部或身体的运动，可能会出现图像模糊。例如，参考图1，眼镜设备可以包括相机，并且由于用户的移动，在由相机捕获的图像中可能出现图像模糊。

图像模糊可能会对需要实时图像分析的增强现实(AR)服务造成障碍，并且对象的识别和跟踪可能很困难。

因此，已经开发了用于消除图像模糊的稳定方法。然而，传统上可以为每个图像帧设置参数。在图像快速运动的情况下，图像数据可能会因过度裁剪而丢失。

发明内容

【技术问题】

示例性实施例的一个方面涉及一种用于通过从多个连续帧中改善对象识别性能来提供包括运动稳定对象的增强现实(AR)功能的电子装置及其控制方法。

【技术解决方案】

根据一个实施例，提供了一种电子装置，包括存储器和处理器，处理器被配置为基于第一帧的像素信息和至少一个第二图像帧的像素信息，通过将存储在存储器中的第一图像帧的部分区域与存储在存储器中的至少一个第二图像帧的部分区域重叠来获得全景图像，识别全景图像内最大尺寸的预定形状的区域，并从全景图像的整个区域或预定形状的区域中识别对象。

处理器还可以被配置为基于第一图像帧的像素信息和至少一个第二图像帧的像素信息，通过重叠第一图像帧和至少一个第二图像帧中相邻图像帧的像素值之间具有最小差异的区域来获得全景图像。

处理器还可以被配置为基于第一图像帧的像素信息和至少一个第二图像帧的像素信息获得第一图像帧和至少一个第二图像帧中的相邻图像帧之间的运动值，并且基于运动值通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像。

处理器还可以被配置为基于相邻图像帧中的像素值之间的差和相邻图像帧之间的运动值来转换运动值，并且基于转换的运动值通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像。

所述处理器还可以被配置为基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息，针对所述第一图像帧和所述至少一个第二图像帧中的每一个执行包括旋转、位置移动或尺寸调整中的至少一个的图像处理，并且通过重叠执行所述图像处理的帧的部分区域来获得全景图像。

所述电子装置还可以包括显示器，其中所述处理器还被配置为控制所述显示器显示所述第一图像帧，并且基于从所述全景图像识别的所述对象，控制所述显示器根据关于所述对象被识别的位置的信息和关于所述图像处理的信息，在所述第一图像帧中显示所述对象的区域上显示包括图形用户界面、字符、图像、视频或3D模型中的至少一个的所述对象。

所述至少一个第二图像帧可以是在所述第一图像帧之前捕获的图像帧，其中所述处理器还被配置为基于所述全景图像和在所述第一图像帧之后捕获的第三图像帧上的像素信息，通过将所述全景图像的部分区域与所述第三图像帧的部分区域重叠来更新所述全景图像，识别所述更新的全景图像内的最大尺寸的预定形状的区域，并且从所述更新的全景图像或所述更新的全景图像内的预定形状的区域中重新识别对象。

第三图像帧可以是在第一图像帧之后捕获的图像帧，并且处理器可以进一步被配置为基于第一图像帧相对于第三图像帧的比率和小于预定比率的第三图像帧的重叠区域，重新识别更新的全景图像中的对象，或者在更新的全景图像内以预定形状的区域。

所述处理器还可以被配置为基于在全景图像中识别的多个对象，基于全景图像的多个相应区域的多个重叠图像帧中的至少一个或者多个相应区域中的图像帧的捕获时间，将加权值分配给多个相应区域，并且基于多个相应区域的加权值识别多个对象中的至少一个。

该电子装置还可以包括包含电路的相机，其中处理器还被配置为通过相机执行连续捕获来获得多个图像帧。

根据示例性实施例，提供了一种用于控制电子装置的方法，该方法包括基于多个帧中的第一图像帧的像素信息和至少一个第二图像帧的像素信息，通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像，识别全景图像内最大尺寸的预定形状的区域，并从全景图像的整个区域或预定形状的区域中识别对象。

该获取可以包括基于第一图像帧的像素信息和至少一个第二图像帧的像素信息，通过重叠第一图像帧和至少一个第二图像帧之间的相邻图像帧的像素值之间具有最小差异的区域来获取全景图像。

该获得可以包括基于第一图像帧的像素信息和至少一个第二图像帧的像素信息获得第一图像帧和至少一个第二图像帧中的相邻图像帧之间的运动值，并且基于该运动值通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像。

该获得可以包括基于相邻图像帧中的像素值之间的差和相邻图像帧之间的运动值来转换运动值，并且基于转换的运动值，通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像。

该获取可以包括基于第一图像帧的像素信息和至少一个第二图像帧的像素信息，相对于所述第一图像帧或所述至少一个第二图像帧中的每一个执行包括旋转、位置移动或尺寸调整中的至少一个的图像处理，并且通过重叠其中执行图像处理的帧的部分区域来获取全景图像。

该方法可以进一步包括显示第一图像帧，并且基于从全景图像识别的对象，基于关于从全景图像识别对象的位置的信息和关于图像处理的信息，在第一图像帧中显示对象的区域上显示包括图形用户界面、字符、图像、视频或3D模型中的至少一个的对象。

该至少一个第二帧可以是在第一图像帧之前捕获的帧，其中该方法还包括基于全景图像和在第一图像帧之后捕获的第三图像帧上的像素信息，通过将全景图像的部分图像与第三图像帧的部分区域重叠来更新全景图像，识别更新的全景图像内最大尺寸的预定形状的区域，以及从更新的全景图像的整个区域或更新的全景图像内的预定形状的区域重新识别对象。

第三图像帧可以是在第一图像帧之后捕获的图像帧，其中对象的重新识别包括，基于第一图像帧相对于第三图像帧的比率和小于预定比率的第三图像帧的重叠区域，重新识别更新的全景图像中的对象，或者在更新的全景图像内以预定形状的区域。

对象的识别可以包括基于在全景图像中识别的多个对象，基于全景图像的多个相应区域的多个重叠图像帧中的至少一个或多个相应区域中的图像帧的捕获时间，将加权值分配给多个相应区域，以及基于多个相应区域的加权值识别多个对象中的至少一个。

该方法还可以包括通过电子装置中提供的相机执行连续捕获来获得多个图像帧。

【有利效果】

根据本公开的各方面，一种电子装置从多个连续帧生成全景图像，从具有最小运动差的帧区域中识别对象，并且尽管相机快速移动也提高了对象识别的准确性，从而向用户提供包括运动稳定对象的增强现实(AR)。

附图说明

图1是示出眼镜设备的视图；

图2A是根据实施例的电子装置的框图；

图2B是根据实施例的电子装置的框图；

图2C是根据实施例的电子装置的多个模块的框图；

图3是解释根据实施例的运动稳定的视图；

图4A是解释根据实施例的用于生成全景图像的方法的视图；

图4B是解释根据实施例的用于生成全景图像的方法的视图；

图5A是解释根据实施例的用于为每个参考帧生成全景图像的方法的视图；

图5B是解释根据实施例的用于为每个参考帧生成全景图像的方法的视图；

图6是解释根据实施例的用于识别对象并显示对象识别结果的方法的视图；

图7A是解释根据实施例的对象的重新识别操作的视图；

图7B是解释根据实施例的对象的重新识别操作的视图；

图8是解释根据实施例的用于识别最终对象的方法的视图；

图9是示出根据实施例的电子装置的框图；

图10是根据实施例的训练单元的框图；

图11是根据实施例的响应单元的框图；

图12是示出根据实施例的电子装置可与外部服务器相关联地操作以训练和判断数据的示例的视图；和

图13是根据实施例的用于控制电子装置的方法的流程图。

具体实施方式

【发明模式】

本公开的实施例可以进行多种修改。因此，实施例在附图中示出，并在详细描述中详细描述。然而，应当理解，本公开不限于特定实施例，而是包括所有修改、等同物和替换，而不脱离本公开的范围和精神。此外，没有详细描述众所周知的功能或构造，以避免不必要的细节模糊本公开。

在下文中，将参考附图详细描述本公开。

本说明书中使用的所有术语，包括技术和科学术语，具有相关领域技术人员通常理解的相同含义。然而，这些术语可以根据本领域技术人员的意图、法律或技术解释以及新技术的出现而变化。此外，申请人可以选择一些条款。这些术语可以按照本文定义的含义来解释，除非另有说明，否则可以基于本说明书的全部内容和本领域的普通技术知识来解释

单数表达也包括复数含义，只要它在上下文中没有不同的含义。在本说明书中，诸如“包括”和“具有/含有”的术语应被解释为表示说明书中存在这样的特征、数字、操作、元件、组件或其组合，不排除添加一个或多个其他特征、数字、操作、元件、组件或其组合的存在或可能性。

在本公开中，表述“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或多个”等包括所列项目的所有可能组合。

术语和标签，如“第一”和“第二”，用于区分一个组件和另一个组件，而不限制组件。

当一个元件(例如，第一组成元件)被称为与另一个元件(例如，第二组成元件)“可操作地(或通信地)耦合”或“连接到”另一个元件时，该元件间接连接或耦合到另一个元件，或者连接或耦合到另一个元件，其间***一个或多个中间元件(例如，第三组成元件)。然而，当一个元件(例如，第一组成元件)被“直接连接”或“直接耦合”到另一个组成元件(例如，第二组成元件)时，在一个元件和另一个元件之间没有另一个组成元件(例如，第三组成元件)。

在一个实施例中，“模块”、“单元”或“部件”执行至少一个功能或操作，并且可以实现为硬件(例如处理器或集成电路)、由处理器执行的软件或其组合。此外，多个“模块”、“多个”单元或多个“部件”可以集成到至少一个模块或芯片中，并且可以实现为至少一个处理器，除了应该在特定硬件中实现的“模块”、“单元”或“部件”。

在本说明书中，术语“用户”可以指使用电子装置的人或使用该电子装置的装置(例如，人造电子装置)。

在下文中，将参考附图详细描述本公开。

图2A是根据实施例的电子装置100的框图。

参考图2A，电子装置100可以包括存储器110和处理器120。

根据各种实施例的电子装置100可以是例如增强现实(AR)眼镜装置。AR眼镜装置可以是用于提供增强现实功能的装置。增强现实可以是允许用户通过眼镜装置感知覆盖在真实环境上的虚拟对象的技术。例如，当从用户通过眼镜观看时，虚拟对象被覆盖并显示在真实环境上时，用户可以将虚拟对象识别为真实世界的一部分。通过增强现实，可以通过将虚拟对象覆盖在从用户观看的实际图像上的方式来提供现实图像，因为实际环境和虚拟屏幕不能被清楚地区分。

根据本公开的各种实施例的电子装置100可以是智能手机、平板个人计算机(台式PC)、移动电话、视频电话、电子书阅读器、膝上型个人计算机(膝上型PC)、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机或可穿戴设备，或者它们可以是其中的一部分。可穿戴设备可以是附件类型的设备，例如手表、戒指、手镯、手镯、项链、一副眼镜、隐形眼镜或头戴式设备(HMD)、织物或服装一体式(例如，电子装备)、身体附着类型(例如，皮肤垫或纹身)、或生物可植入电路。

在一些实施例中，电子装置的例子可以是家用电器。家用电器可以包括例如电视、数字视盘(DVD)播放器、音频、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、机顶盒、家庭自动化控制面板、安全控制面板、电视盒(例如Samsung HomeSync^TM,Apple TV^TM,或GoogleTV^TM)、游戏控制台(例如Xbox^TM和PlayStation^TM)、电子词典、电子钥匙、摄像机或电子相框。

在另一个实施例中，电子装置可以是各种医疗设备中的任何一种(例如，各种便携式医疗测量设备，例如血糖仪、心率仪、血压计或体温仪)、磁共振血管造影术(MRA)、磁共振成像(MRI)、计算机断层摄影(CT)、相机、超声波设备、导航设备、全球导航卫星***(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐设备(例如，导航设备、陀螺罗盘等)、航空电子装置、安全设备、车辆的头部单元、工业或家庭机器人、金融机构的ATM(自动柜员机)、商店的销售点(POS)、或物联网(IoT)，如灯泡、各种传感器、电表或煤气表、洒水装置、火警报警器、恒温器、路灯、烤面包机、锻炼设备、热水罐、加热器、锅炉等。

电子装置100可以是在多个图像帧中识别对象的任何对象。

存储器110可以存储多个图像帧。多个图像帧可以是由电子装置100中提供的相机捕获的多个帧。当电子装置100是AR眼镜装置时，在捕获帧的同时，由于用户的运动导致AR眼镜的移动，可能出现图像模糊。

多个帧可以是一个场景的图像。例如，多个帧可以是交叉点的图像。然而，由于用户的移动，多个帧中的交叉点可以在帧内的不同位置被捕获。例如，在第一帧中，交叉点的中心可以是帧的中心。但是，在第二帧中，交叉点的中心可能不是帧的中心。

本公开不限于此，而是多个帧可以是多个场景的图像。处理器120可以基于多个相应场景将多个帧分成多个组。多个组中的每一组可以是一个场景。

然而，本公开不限于此。电子装置100可以接收由外部装置捕获的多个帧，并且存储器110可以存储所接收的多个帧。

存储器110可以实现为硬盘、非易失性存储器和易失性存储器，以及存储数据的任何类型的存储器。

处理器120可以控制电子装置100的整体操作。

根据实施例，处理器120可以实现为数字信号处理器(DSP)、微处理器或时间控制器(TCON)，但不限于此。处理器120可以包括一个或多个中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、或通信处理器(CP)、ARM处理器等，或者可以由相应的术语来定义。处理器120可以实现为片上***(SoC)、具有内置处理算法的大规模集成电路(LSI)，或者以现场可编程门阵列(FPGA)的形式。处理器120可以通过执行存储在存储器120中并从存储器120加载的计算机可执行指令来执行各种功能。

处理器120可以基于存储在存储器110中的多个帧中的第一帧和至少一个第二帧上的像素信息，通过将第一帧的部分区域与至少一个第二帧的部分区域重叠来获得全景图像。

例如，处理器120可以基于存储在存储器110中的多个帧中的第一帧的像素信息和第二帧的像素信息，通过将第一帧的部分区域与第二帧的部分区域重叠来获得全景图像。具体而言，第一帧和第二帧中的每一帧可以是分辨率为1920×1080的图像，并且如果从第一帧的像素(21，1)到像素(1920，1080)的第一正方形区域的像素值与从第一帧的像素(1，1)到像素(1900，1080)的第二正方形区域的像素值一致，则处理器120可以获得全景图像，使得第一帧的第一正方形区域与第二帧的第二正方形区域重叠。这是因为，虽然在实际拍摄过程中第一帧的拍摄时间和第二帧的拍摄时间之间的差非常小，但是拍摄角度可以通过用户运动的影响而改变。

为了便于解释，该实施例描述了两个帧彼此重叠，但是处理器120可以通过重叠三个或更多个图像来获得全景图像。

处理器120可以基于第一帧和第二帧中的每一个的像素信息，通过重叠相邻帧之间的像素值具有最小差异的区域来获得全景图像。在多于两帧的情况下，可以考虑每一帧的像素信息。这是因为在实际拍摄过程中，尽管第一帧和第二帧的拍摄点之间的差异非常小，但是像素值可能由于光量的变化而改变。例如，在上述示例中，第一帧的第一正方形区域和第二帧的第二正方形区域的像素值可能彼此不一致。因此，处理器120可以通过逐像素地在第二帧上移动第一帧来获得重叠区域之间像素值差最小的区域，并且通过将第一帧与第二帧重叠来获得全景图像，使得像素值差最小。

处理器120可以基于第一帧和第二帧(并且如果采用多于两个帧，还基于附加帧)中的每一个的像素信息获得相邻帧之间的运动值，并且基于获得的运动值通过将第一帧的部分区域与第二帧的部分区域重叠来获得全景图像。在上述示例中，处理器120可以基于第一帧和第二帧上的像素信息获得第一帧和第二帧之间的运动值(20，0)。处理器120可以基于运动值通过将第一帧与第二帧重叠来获得全景图像。

然而，本公开不限于此，并且运动值可以是在捕获帧时获得的值。例如，电子装置100可以进一步包括包含电路的相机，并且处理器120可以通过相机进行连续拍摄来获得多个帧。处理器120可以基于多个相应帧的相应捕获时间通过传感器感测电子装置100的运动。处理器120可以基于感测到的电子装置100的运动来获得相邻帧之间的运动值。

处理器120可以转换基于相邻帧中的像素值之间的差和相邻帧之间的运动值(运动矢量)获得的运动值，并且基于转换的运动值将第一帧的部分区域与至少一个第二帧的部分区域重叠以获得全景图像。例如，处理器120可以稳定多个连续帧的相邻帧之间的运动值，并转换运动值。可以通过转换运动值来减小相邻运动值之间的偏差。

处理器120可以基于相邻帧的像素值来稳定运动值。处理器120可以基于运动稳定模型来稳定每个运动值。运动稳定模块可以是通过人工算法训练获得的模型，以基于相邻帧中像素值之间的差来稳定运动值。处理器120可以对每个运动值执行稳定操作，并减少相邻运动值之间的偏差。通过这样做，可以通过最小化相邻运动值之间的偏差来减少在再现多个帧时出现的图像模糊。

使用转换后的运动值获得全景图像的方法可以与使用转换前的运动值获得全景图像的方法相同。因此，将省略其详细描述。

处理器120可以识别全景图像中最大尺寸的预定形状的区域。最大尺寸可以对应于刻在全景图像的重叠图像内的预定形状的最大尺寸。例如，处理器120可以识别与全景图像中的多个帧具有相同纵横比的最大尺寸的正方形区域。然而，本公开不限于此。预定形状可以是各种形状，例如对角线形状、圆形形状等。为了便于解释，正方形区域将是预定形状的区域的例子。

处理器120可以从整个全景图像或预定形状的区域中识别对象。例如，处理器120可以从全景图像中识别对象，并将所识别区域的预定形状的区域识别为最终识别区域。

处理器120可以基于第一帧和至少一个第二帧上的像素信息，针对第一帧和至少一个第二帧中的每一个执行图像处理中的至少一个，例如旋转、位置移动和尺寸调整，并且通过重叠执行图像处理的帧的部分区域来获得全景图像。

电子装置100还可以包括显示器，并且处理器120可以控制显示器在其上显示第一帧，并且当从全景图像中识别出对象时，可以控制显示器在其上显示对象，该对象包括基于关于从全景图像中识别出对象的位置的信息和图像处理信息，在第一帧中显示对象的区域上的图形用户界面(GUI)、字符、图像、视频或3D模型中的至少一个。处理器120可以在全景图像内执行对象识别，并且在显示帧的识别区域上显示对象。该对象可以是虚拟2D/3D内容。

至少一个第二帧可以是在第一帧之前捕获的帧。处理器120可以基于全景图像和在第一帧之后捕获的第三帧上的像素信息，通过将全景图像的部分区域与第三帧的部分区域重叠来更新全景图像，识别更新后的全景图像内具有最大尺寸的确定形状的区域，并且再次识别更新后的全景图像中的对象，或者更新后的全景图像内具有预定形状的区域。

换句话说，处理器120可以基于多个帧中的每一个生成全景图像，并因此生成与多个帧对应数量的全景图像。处理器120可以将对应于紧接在当前帧之前的帧的全景图像与当前帧重叠，以生成对应于当前帧的全景图像。也就是说，处理器120可以通过根据当前帧的变化更新全景图像来获得全景图像。当全景图像被更新时，处理器120可以从全景图像中移除最老的帧。

第三帧可以是紧接着第一帧捕获的帧，并且如果第一帧相对于第三帧和第三帧的重叠区域之间的比率小于预定比率，则处理器120可以获得关于不能从第一和第二帧导出的新场景的图像。因此，可以在为识别新对象而更新的全景图像内或者在更新的全景图像的预定形状的区域内再次识别对象。如果第一帧相对于第三帧和第三帧的重叠区域之间的比率等于或大于预定比率，则处理器120可以获得类似于第一帧的场景的图像，并且可以不在更新的全景图像中再次识别对象，因为场景没有实质性改变。在这种情况下，处理器120可以在更新之前利用从全景图像中识别的对象信息，即，无需进一步更新。因此，与每次提供输入图像时识别对象的传统方法相比，通过减少基于由相机捕获的图像的运动的对象识别操作的次数，可以降低电子装置100的功耗。

当从全景图像中识别出多个对象时，处理器120可以基于作为对象识别结果获得的识别置信度值、全景图像中的多个区域中的每个区域的重叠帧的数量或多个区域中的每个区域中的帧的捕获时间中的至少一个，将加权值分配给多个区域中的每个区域，并且基于分配给多个区域中的每个区域的加权值来识别多个对象中的至少一个。

例如，当从全景图像中识别出多个对象时，处理器120可以识别在多个对象的每一个的位置处的重叠帧的数量，并且将在具有最大数量的重叠帧的区域中识别出的对象识别为最终对象。当从全景图像中识别出多个对象时，处理器120可以识别在多个对象中的每一个的位置处的重叠帧的捕获时间，通过将最高权重分配给最后捕获的帧的方式将权重值分配给多个对象中的每一个，并且将被分配最高权重值的对象识别为最终对象。

这种用于识别对象的方法可以通过过滤从最老的帧获得的对象识别结果来减少在对象识别中出现的错误。例如，如果在第一帧中存在经过的汽车，并且在第一帧之后获得的第三帧中不存在汽车，则在从包括第一帧、第三帧和随后获得的帧的全景图像获得的对象识别结果中，可以从最终对象识别结果中排除当前不存在的汽车。

图2B是电子装置100的详细框图。电子装置100可以包括存储器110和处理器120。参考图2B，电子装置100可以包括通信接口130、显示器140、用户接口150、输入/输出接口160、相机170、扬声器180和麦克风190。

存储器110可以实现为例如ROM(例如电可擦除可编程只读存储器(EEPROM))、RAM的内部存储器或与处理器120分离的存储器。在这种情况下，取决于数据存储的目的，存储器110可以以嵌入在电子装置100中的存储器或者电子装置100中的可移除存储器的形式来实现。例如，用于驱动电子装置100的数据可以存储在嵌入在电子装置100中的存储器中，并且用于电子装置100的扩展功能的数据可以存储在可附接到电子装置100或可从电子装置100拆卸的存储器中。嵌入在电子装置100中的存储器可以用易失性存储器(例如，动态RAM(DRAM)、或静态RAM(SDRAM)、同步动态RAM(SDRAM)等)、非易失性存储器(例如，一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、屏蔽ROM、闪存ROM、闪存(例如，NAND闪存或NOR闪存)、硬盘驱动器或固态驱动器(SSD)中的至少一个来实现。可从电子装置100移除的存储器可以用存储卡(例如，紧凑型闪存、安全数字(SD)、微安全数字(SD)、迷你安全数字(SD)、极限数字(xD)等)、可连接到USB端口的外部存储器(例如，USB存储器)等来实现。

存储器110可以存储各种数据，例如用于实现电子装置100的功能的操作***(O/S)软件模块、运动稳定模块、全景图像生成模块、对象识别模块等。

处理器120可以通过执行存储在存储器110中并从存储器110加载的各种程序来控制电子装置100的整体操作。

处理器120可以包括RAM 121、ROM 122、主CPU 123、图形处理器或图形处理单元(GPU)124、第一到第n接口125-1到125-n以及总线126。

RAM 121、ROM 122、主CPU 123、GPU 124和第一到第n接口125-1到125-n可以通过总线126连接。

ROM 122可以存储命令集等，用于***启动。如果输入开机命令并供电，则CPU 123可以根据存储在ROM 122中的命令将存储在存储器180中的操作***复制到RAM 121中，执行操作***并执行***引导。当引导完成时，CPU 123可以将存储在存储器180中的各种程序复制到RAM 121，执行复制到RAM 121的应用程序并执行各种操作。

主CPU 123可以访问存储器110，并且通过使用存储在存储器110中的O/S来执行引导。主CPU 123可以通过使用存储在存储器110中的各种程序、内容数据等来执行各种操作。

第一到第n接口125-1到125-n可以连接到如上所述的各种组成元件。接口之一可以是通过网络连接到外部装置的网络接口。

处理器120和/或GPU 124可以执行图形处理(视频处理)。处理器120和/或GPU 124可以通过使用计算单元和渲染单元生成包括诸如图标、图像、文本等各种对象的屏幕。计算单元可以通过使用接收到的控制命令根据屏幕布局来计算对象的属性值，例如坐标值、形状、大小、颜色等。渲染单元可以基于由计算单元计算的属性值来生成包括对象的各种布局的屏幕。由渲染单元生成的屏幕可以显示在显示器140的显示区域中。处理器120和/或GPU124可以对视频数据执行各种处理，例如解码、放大、噪声滤波等。

处理器120可以被配置成执行音频数据的处理。处理器120可以执行各种图像处理，例如音频数据的解码、缩放、噪声滤波、帧速率转换、分辨率转换等。

通信接口130可以根据各种类型的通信方法来执行与各种类型的外部装置的通信。通信接口130包括Wi-Fi模块131、蓝牙模块132、红外通信模块133、无线通信模块134等。每个通信模块可以以至少一个硬件芯片的形式实现。

处理器120可以使用通信接口130与各种外部装置通信。外部装置可以是诸如TV的显示设备、诸如机顶盒的视频处理设备、外部服务器、诸如遥控器的控制设备、诸如蓝牙扬声器的音频输出设备、照明设备、诸如智能吸尘器和智能冰箱的家用电器、诸如IOT家庭管理器的服务器等。

Wi-Fi芯片131或蓝牙芯片132可以分别使用Wi-Fi方法和蓝牙方法来执行通信。当使用Wi-Fi芯片131或蓝牙芯片132时，可以首先发送和接收诸如SSID和会话密钥的各种连接信息，可以基于连接信息建立通信连接，并且可以基于此发送和接收各种信息。

红外通信模块133可以根据红外数据协会(IrDA)技术执行通信，用于使用时间射线和毫米波之间的红外线在短距离无线传输数据。

无线通信模块134可以包括至少一个通信芯片，用于根据各种通信标准形成通信，所述通信标准例如是IEEE、ZigBee、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)、***(4G)、第五代(5G)等。

此外，通信接口130可以包括LAN(局域网)模块、以太网模块或使用成对电缆、同轴电缆或光纤电缆执行通信的有线通信模块中的至少一个。

根据一个示例，通信接口130可以使用相同的通信模块(例如，Wi-Fi模块)来与诸如遥控器和外部服务器的外部装置通信。

根据另一示例，通信接口130可以使用不同的通信模块(例如，Wi-Fi模块)来与诸如遥控器和外部服务器的外部装置通信。例如，通信接口130可以使用以太网模块或Wi-Fi模块中的至少一个来与外部服务器通信，并且可以使用蓝牙模块来与诸如遥控器的外部装置通信。然而，这仅仅是一个示例，并且当与多个外部装置或外部服务器通信时，通信接口130可以使用各种通信模块中的至少一个通信模块。

同时，根据实施例，电子装置100可以进一步包括调谐器和解调器。

调谐器可以通过调谐用户选择的频道或通过天线接收的射频(RF)广播信号中的所有预存频道来接收RF广播信号。

解调单元可以接收并解调由调谐器转换的数字IF信号DIF，并执行频道解码。

显示器140可以被实现为各种类型的显示器，例如液晶显示器(LCD)、有机发光二极管(OLED)显示器、等离子显示面板(PDP)等。显示器140还可以包括驱动电路、背光单元等，其可以以a-si TFT、低温多晶硅(LTPS)TFT、有机TFT(OTFT)等的形式实现。同时，显示器140可以被实现为与触摸传感器、柔性显示器、三维显示器(3D显示器)等相结合的触摸屏。

此外，根据实施例，显示器140可以包括用于输出图像的显示面板，以及容纳显示面板的边框。特别地，根据实施例，边框可以包括用于感测用户交互的触摸传感器。

用户接口150可以被实现为诸如按钮、触摸板、鼠标和键盘的设备，或者能够执行上述显示功能和操作输入功能的触摸屏。按钮可以是各种类型的按钮，例如机械按钮、触摸板、旋转按钮等，设置在电子装置100的主体外部的随机区域中，例如前表面单元、侧表面单元和后表面单元。

输入/输出接口160可以是高清多媒体接口(HDMI)、移动高清链路(MHL)、通用串行总线(USB)、显示端口(DP)、迅雷、视频图形阵列(VGA)端口、RGB端口、D-超小型(D-SUB)和数字视觉接口(DVI)中的任何一个的接口。除了通信接口130之外，输入/输出接口160还可以用于与外部装置通信。

输入/输出接口160可以输入和输出音频信号和视频信号中的至少一个。

根据示例实施例，输入/输出接口160可以分别包括用于仅输入和输出音频信号的端口，以及用于仅输入和输出视频信号的端口，并且可以被实现为用于输入和输出音频信号和视频信号的单个端口。

电子装置100可以实现为没有显示器的装置，以将图像信号发送到单独的显示装置。

相机170可以被配置成在用户的控制下捕获静止图像或视频图像。相机可以在特定点捕获静止图像，或者连续捕获静止图像。

除了由输入/输出接口160处理的各种音频数据之外，扬声器180可以被配置为输出各种报警声音或语音消息。

麦克风190可以被配置成接收用户语音和其他声音，并将用户语音和其他声音转换成音频数据。

麦克风190可以在激活状态下接收用户语音。例如，麦克风190可以向上、向前或侧向与电子装置100一体形成。麦克风190可以包括用于以模拟形式收集用户语音的麦克风、用于放大收集的用户语音的放大器电路、用于对放大的用户语音进行采样并将采样的用户语音转换成数字信号的音频-数字(A/D)转换电路、从转换后的数字信号中去除噪声分量的滤波电路等。

电子装置100可以从包括麦克风的外部装置接收用户语音信号。接收的用户语音信号可以是数字语音信号，但也可以是模拟语音信号。例如，电子装置100可以通过诸如蓝牙、Wi-Fi等无线通信方法接收用户语音信号。外部装置可以实现为遥控设备或智能手机。

电子装置100可以向外部服务器发送语音信号，用于从外部装置接收的语音信号的语音识别。

用于与外部装置或外部服务器通信的通信模块可以被实现为一个或多个模块。例如，电子装置可以通过使用蓝牙模块来执行通信，并且通过使用以太网调制解调器或Wi-Fi模块来执行与外部服务器的通信。

电子装置100可以接收语音并将该语音转换成句子。例如，电子装置100可以将语音到文本(STT)直接应用于通过麦克风190接收的数字语音信号，并将数字语音信号转换成文本信息。

电子装置100可以发送通过语音识别服务器接收的数字语音信号。语音识别服务器可以通过使用语音转文本(STT)将数字语音信号转换成文本信息。语音识别服务器可以向另一个服务器或电子装置发送文本信息，用于执行对应于该文本信息的研究。在一些情况下，电子装置100可以直接执行对对应于文本信息的信息的搜索。

图2C是电子装置100的多个模块的框图。存储器110可以存储O/S软件模块111、运动稳定模块112、全景图像生成模块113、对象识别模块114和调整模块115。

O/S软件模块111可以是用于控制电子装置100的整体操作的模块。例如，O/S软件模块111可以用于打开或关闭电子装置100，并且可以包括操作信息，例如待机状态下的存储器管理。

运动稳定模块112可以是用于稳定多个帧之间的运动值的模块。运动稳定模块112可以稳定多个帧之间的运动值，并在重放视频进行图像处理时消除图像模糊。

全景图像生成模块113可以是用于通过运动稳定模块112重叠具有稳定运动值的多个帧来生成全景图像的模块。当当前帧改变时，全景图像生成模块113可以更新现有的全景图像。全景图像生成模块113可以从全景图像中移除最老的帧，并将新的帧与全景图像重叠。

对象识别模块114可以是用于从通过全景图像生成模块113生成的全景图像中识别对象的模块。对象识别模块114可以从整个全景图像中识别对象，或者在确定全景图像中预定形状的区域之后，从预定形状的区域中识别对象。如果在预定形状的区域中识别出对象之后没有识别出有意义的对象，则对象识别模块114可以从整个全景图像中识别出对象。有意义的对象可以是由对象识别模块114识别的对象。有意义的对象可以是用户设置的对象。

调整模块115可以是用于识别指示对象的GUI的显示位置的模块。由相机170捕获的帧可以不同于用户通过AR眼镜观看的图像。当相机170的视角大时，相机170捕获的帧可以包括比通过用户的AR眼镜观看的图像的区域大的区域。调整模块115可以计算要在AR眼镜的显示器140上显示的位置，以指示从GUI观看的图像的对象指示用户的对象。例如，调整模块115可以通过使用根据视角捕获的帧和通过用户的AR眼镜观看的图像之间的预定比率来获得指示对象的GUI的显示位置。

如上所述，处理器120可以从连续的多个帧生成全景图像，并从生成的全景图像中识别对象。

在下文中，将参考附图详细描述电子装置100的操作。

图3是解释根据本公开实施例的运动稳定的视图。参考图3，Ct可以指示运动值，并且Ct*可以指示转换后的运动值。

多个运动值可以被转换以减少多个帧的相邻帧的运动值之间的偏差。例如，参考图3左侧所示的Ct，如果指示运动值的函数被低通滤波，则可以转换运动值，如图3左侧的Ct*处所示。当再现具有改变的运动值的多个帧时，而不是当再现改变运动值之前的多个帧时，可以减少图像模糊。

然而，参考图3，在左侧示出了根据不反映每个帧的特性的传统技术转换运动值的结果。可以基于指示重叠区域的调整程度的第一函数和相对于运动值的第二函数来转换运动值。在传统技术中，第一函数和第二函数已经以相同的方式应用于所有运动值。

图3示出了处理器120基于其左侧的运动稳定模型来稳定每个运动值。运动稳定模型可以是通过人工算法训练和获得的模块，以基于相邻帧之间的像素值的差来稳定运动值。当使用运动稳定模型时，可以通过反映每个帧的特征来识别第一函数和第二函数。不同的函数可以应用于每个运动值。不同的函数意味着函数的参数不同。

当图像变化严重时，可以表现出比传统情况下改善的稳定功能。例如，根据常规技术，如果在多个帧中存在具有严重图像模糊的部分和没有图像模糊的部分，则不反映这种特征，并且可以基于一个函数来执行稳定化。因此，具有严重图像模糊的部分可能不太抖动，但是没有图像模糊的部分可能抖动。在这点上，当使用运动稳定模型时，可以基于针对每个运动值生成的函数来执行稳定。因此，具有严重图像模糊的部分可以较少抖动，并且没有图像模糊的部分可以保持没有抖动的状态。

图4A和图4B是解释根据本公开实施例的用于生成全景图像的方法的视图。

处理器120可以基于多个帧中的第一帧和至少一个第二帧的每一个上的像素信息，通过将第一帧的部分区域与至少一个第二帧的部分区域重叠来获得全景图像。例如，如图4A所示，处理器120可以通过使用第一帧和N个第二帧来获得全景图像。处理器120可以通过重叠N+1帧来获得全景图像。第一帧可以是当前帧，第二帧可以是在第一帧之前捕获的帧。第一帧和N个第二帧可以是连续的帧。

处理器120可以基于转换的运动值Ct*和运动值Ct获得传递函数△Ht，并且基于传递函数将第一帧与N个第二帧重叠。

处理器120可以识别全景图像中最大尺寸的正方形区域410。传统上，可以降低分辨率，因为在多个帧的整个区域中使用重叠的正方形区域420。然而，根据本公开，可以生成全景图像，并且可以将分辨率提高到超过传统技术的分辨率，因为在全景图像中使用了最大尺寸的正方形区域410。此外，正方形区域410的分辨率可以高于帧的分辨率。

参考图4B，处理器120可以将第一帧转换成正方形区域410。

图5A和图5B是解释根据实施例的用于为每个参考帧生成全景图像的方法的视图。参考图5A和5B，为了便于解释，通过使用第一帧和两个第二帧获得全景图像。

参考图5A，处理器120可以通过使用第一帧(帧t-1)和两个第二帧(帧t-2和t-3)来获得第一全景图像。T-1、t-2、t-3可能仅用于解释帧的顺序，并不具有时间意义。即，图5A是解释用于转换第一帧(帧t-1)的第一全景图像的生成的视图。

处理器120可以基于第一帧和两个第二帧上的像素信息，通过将第一帧与两个第二帧重叠来获得第一全景图像。处理器120可以用第一全景图像中最大尺寸的正方形区域来替换第一帧(帧t-1)。

参考图5B，处理器120可以使用第一帧(帧t)和两个第二帧(帧t-1和t-2)获得第二全景图像。处理器120可以通过分析三个帧以及使用第一全景图像来重叠帧。

处理器120可以从第一全景图像中移除帧t-3的非重叠部分，并且重叠帧t以获得第二全景图像。通过这种方法，可以实时生成全景图像。

处理器120可以用第二全景图像中最大尺寸的正方形区域替换第一帧(帧t)。

处理器120可以通过对多个帧重复相同的任务来最小化图像模糊。

图6是解释根据实施例的用于识别对象并显示对象识别结果的方法的视图。

参考图6，阶段1和5示出了通过电子装置100的显示器140显示的图像。例如，当电子装置100是AR眼镜装置时，处理器120可以控制相机170并捕获帧，如阶段1和5所示，并控制显示器140显示捕获的帧。处理器120可以控制显示器140在阶段1和阶段5显示帧，同时在阶段2至阶段4执行操作。

处理器120可以在阶段1对帧执行图像处理，并且在阶段2将图像处理后的帧与先前的全景图像重叠以生成全景图像。例如，处理器120可以顺时针方向将阶段1的帧旋转30度，以另外将该帧与先前的全景图像重叠。

在阶段3，处理器120可以从全景图像中识别对象。处理器120可以基于关于阶段1的帧的图像处理信息，转换关于从全景图像中识别对象的位置的信息。例如，处理器120可以在反时钟方向上将关于从全景图像中识别出对象的位置的信息旋转30度，作为阶段4的帧。处理器120可以基于图像处理信息仅转换关于从全景图像中识别对象的位置的信息，但是基于阶段1的图像处理信息连同图像处理帧一起，转换关于从全景图像中识别对象的位置的信息。

处理器120可以控制显示器140在阶段1的帧的显示对象的区域中显示图形用户界面(GUI)610、620，例如阶段5的帧。

如上所述，可以通过使用全景图像来提高对象识别性能。特别地，即使用户移动，也可以通过与前一帧匹配来提高对象识别性能。

图7A和图7B是解释根据实施例的对象的重新识别操作的视图。

处理器120可以基于全景图像和在第一帧之后捕获的第三帧上的像素信息，通过将全景图像的部分区域与第三帧的部分区域重叠来更新全景图像，在更新的全景图像中识别最大尺寸的正方形区域，并且在识别的正方形区域中重新识别对象。第三帧可以是在第一帧之后捕获的帧。

参考图7A，如果第一帧相对于第三帧710的尺寸和第三帧710的重叠区域之间的比率小于预定比率，则处理器120可以重新识别更新的全景图像内的对象。

参考图7B，如果第一帧相对于第三帧710的尺寸和第三帧710的重叠区域之间的比率等于或大于预定比率，则处理器120可以不执行重新识别操作。也就是说，当图像模糊不明显或者当前一帧和当前帧之间的变化或运动小时，处理器120可以不执行对象的重新识别操作。

这种操作可以最小化处理器120的处理，并实现实时对象识别。

图8是解释根据实施例的用于识别最终对象的方法的视图。

图8是示出全景图像的视图，其中三个帧810-1、810-2和810-3彼此重叠，并且在全景图像中具有最大尺寸的正方形区域820。假设三个帧的捕获时间以810-1、810-2和810-3为顺序。也就是说，假设810-3帧最后与全景图像重叠。

当从全景图像中识别出多个对象时，处理器120可以基于多个相应全景图像的重叠帧的数量、多个相应区域中的帧的捕获时间中的至少一个，将加权值分配给多个区域中的每一个，并且基于多个区域中的每一个的加权值来识别多个对象中的至少一个。

例如，第一对象830和第二对象840可以被分配比第三对象850和第四对象860更高的加权值，用于出现在更多数量的重叠帧中。基于帧的捕获时间，第四对象860可以被分配比第三对象850更高的加权值。第一对象830和第二对象840可以具有相同的加权值。然而，处理器120可以考虑对象的尺寸来分配加权值。在这种情况下，第一对象830可以被分配比第二对象840更高的加权值。

通过这种方法，处理器120可以识别多个对象中的最终对象。

然而，本公开不限于此。处理器120可以从全景图像中识别多个对象。

图9是根据实施例的电子装置900的框图。电子装置900可以是用于通过人工算法稳定运动值的装置。

参考图9，电子装置900可以包括训练单元910和响应单元920。

训练单元910可以通过使用训练数据来生成或训练用于稳定运动值的人工智能模型。训练单元910可以通过使用收集的训练数据来生成具有识别标准的识别模型。

响应单元920可以通过使用预定数据作为训练的人工智能模型的输入数据来稳定多个运动值。

作为示例，训练单元910和响应单元920可以包括在电子装置900中。然而，本公开不限于此，并且训练单元910和响应单元920可以安装在电子装置100中。具体而言，训练单元910的至少一部分和响应单元920的至少一部分可以实现为安装在电子装置100上的软件模块或至少一个硬件芯片。例如，训练单元910和响应单元920中的至少一个可以被制造为用于人工智能(AI)的硬件芯片，或者安装在如上所述的各种电子装置上的传统通用处理器(例如，CPU或应用处理器)或图形处理器(例如，CPU)的一部分。用于人工智能的硬件芯片可以是专用于概率计算的处理器，并且具有比常规通用处理更高的并行处理能力，以快速处理人工智能领域中的操作，例如机器训练。当训练单元910和响应单元920体现为软件模块(或包括指令的程序模块)时，软件模块的计算机代码可以存储在计算机可读的非暂时性计算机可读介质中。在这种情况下，软件模块可以在操作***(OS)或预定应用程序的控制下执行。软件模块的一部分可以由操作***(OS)提供，另一部分可以由预定的应用程序提供。

训练单元910和响应单元920可以安装在一个电子装置中，或者分别安装在单独的电子装置中。例如，训练单元910和响应单元920中的一个可以包括在电子装置100中，另一个可以包括在电子装置900中。训练单元910和响应单元920可以通过有线或无线方式向响应单元920提供由训练单元910建立的模型信息，并且输入到训练单元920的数据可以作为附加训练数据提供给训练单元910。

图10是根据实施例的训练单元910的框图。

参考图10，根据示例实施例的训练单元910可以包括训练数据获取单元910-1和模型训练单元910-4。训练单元910可以进一步包括训练数据预处理器910-2、训练数据选择器910-3和模型评估单元910-5。

训练数据获取单元910-1可以获得用于稳定运动值的人工智能模型所需的训练数据。作为示例，训练数据获取单元910-1可以获得多个运动值和多个转换后的运动值作为训练数据。训练数据可以是由训练单元910或训练单元910的制造商收集或测试的数据。

模型训练单元910-4可以训练人工智能模型以具有通过使用训练数据来稳定运动值的标准。例如，模型训练单元910-4可以通过监督学习使用至少部分训练数据来训练人工智能模型。例如，模型训练单元910-4可以在没有任何进一步指导的情况下使用训练数据自己训练，并且通过无监督学习来训练人工智能模型，以找到用于稳定运动值的标准。另外，模型学习单元910-4可以使用例如关于根据学习提供响应的结果是否正确的反馈，通过强化学习来训练人工智能模型。模型学习单元910-4还可以使用例如包括误差反向传播方法或梯度下降方法的训练算法来训练人工智能模型。

模型训练单元910-4可以通过使用输入数据来训练关于哪个训练数据将用于稳定运动值的标准。

当存在多个预先建立的人工智能模型时，模型训练单元910-4可以将输入训练数据和基础训练数据之间具有高相关性的人工智能模型识别为待训练的人工智能模型。在这种情况下，可以通过数据类型预先分类基础训练数据，可以通过数据类型预先建立人工智能模型。

当人工智能模型被训练时，模型训练单元910-4可以存储训练的人工智能模型。模型训练单元910-4可以将训练的人工智能模型存储在电子装置900的存储器中。模型训练单元910-4可以将训练的人工智能模型存储在通过有线或无线网络连接到电子装置900的电子装置的服务器或存储器中。

训练单元910还可以包括训练数据预处理器910-2或训练数据选择器910-3，以改善人工智能模型的响应结果或节省生成人工智能模型所需的资源或时间。

训练数据预处理器910-2可以预处理获得的数据，使得获得的数据可以用于训练以稳定运动值。训练数据预处理器910-2可以以预定格式制造获得的数据。例如，训练数据预处理器910-2可以将多个运动值分成多个部分。

训练数据选择器910-3可以从从训练数据获取单元910-1获取的数据和由训练数据预处理器910-2预处理的数据之间选择训练所需的数据。所选择的训练数据可以被提供给模型训练单元910-4。训练数据选择器910-3可以从根据预定识别标准获取或预处理的数据中选择训练所需的训练数据。训练数据选择器910-3可以通过模型训练单元910-4的训练，根据预定的识别标准选择训练数据。

训练单元910还可以包括模型评估单元910-5，用于改善人工智能模型的响应结果。

模型评估单元910-5可以将评估数据输入到人工智能模型中，并且如果从评估数据输出的响应结果不满足预定标准，则可以允许模型训练单元910-4再次训练。在这种情况下，评估数据可以是用于评估人工智能模型的预定义数据。

当存在多个训练的人工智能模型时，模型训练单元910-5可以评估每个训练的人工智能模型是否满足预定标准，并且将满足预定标准的模型识别为最终的人工智能模型。当存在满足预定标准的多个模型时，模型评估单元910-5可以以较高评估分数的顺序将任何一个或预定数量的预设模型识别为最终人工智能模型。

图11是示出根据实施例的响应单元920的框图。

参考图11，根据实施例的响应单元920可以包括输入数据获取单元920-1和响应结果提供器920-4。

响应单元920可以进一步包括输入数据预处理器920-2、输入数据选择器920-3和模型更新单元920-5。

输入数据获取单元920-1可以获得稳定运动值所需的数据。响应结果提供器920-4可以将从输入数据获取单元920-1获得的输入数据作为输入值应用于被训练的人工智能模型，并稳定运动值。响应结果提供器920-4可以应用由输入数据预处理器920-2或输入数据选择器920-3选择的数据作为输入值，并获得响应结果。响应结果可以通过人工智能模型来识别。

响应结果提供器920-4可以应用人工智能模块来稳定从输入数据获取单元920-1获取的运动值，并稳定来自对话的运动值。

响应单元920还可以包括输入数据预处理器920-2或输入数据选择器920-3，通过改进人工智能模型的响应结果，或者节省用于提供响应结果的资源或时间。

输入数据预处理器920-2可以预处理获得的数据，使得获得的数据可以用于稳定运动值。也就是说，输入数据预处理器920-2可以以预定义的格式制造从响应结果提供器920-4获得的数据。

输入数据选择器920-3可以从从输入数据获取单元920-1获得的数据和由输入数据预处理器920-2预处理的数据之间选择提供响应所需的数据。所选择的数据可以被提供给响应结果提供器920-4。输入数据选择器920-3可以根据用于提供响应的预定识别标准来选择部分或全部获得的或预处理的数据。输入数据选择器920-3可以根据由模型训练单元910-4的训练预定的选择标准来选择数据。

模型更新单元920-5可以基于由响应结果提供器920-4提供的响应结果来控制人工智能模型被更新。例如，模型更新单元920-5可以向模型训练单元910-4提供由响应结果提供器920-4提供的响应结果，并请求模型训练单元910-4另外训练或更新人工智能模型。

图12是示出根据实施例的电子装置100可与外部服务器相关联地操作以训练和判断数据的示例的视图。

参考图12，外部服务器可以训练用于稳定来自对话的运动值的标准，并且电子装置100可以基于服务器的训练结果来稳定运动值。

服务器S的模型训练单元910-4可以执行如图10所示的训练单元910的功能。服务器S的模型训练单元910-4可以通过使用该信息来训练关于哪个滤波器将用于稳定运动值或者如何稳定运动值的标准。

电子装置100的响应结果提供器920-4可以通过将由输入数据选择器920-3选择的数据应用于由服务器S生成的人工智能模型来稳定运动值。电子装置100的响应结果提供器920-4可以从服务器(S)接收由服务器(S)生成的人工智能模型，并且通过使用接收的人工智能模型来稳定运动值。

图13是根据实施例的用于控制电子装置的方法的流程图。

在步骤S1310，可以通过基于多个帧中的第一帧和至少一个第二帧上的像素信息将第一帧的部分区域与至少一个第二帧的部分区域重叠来获得全景图像。在步骤S1320，可以在全景图像内识别最大尺寸的预定形状的区域。在步骤S1330，可以从整个全景图像或预定形状的区域中识别对象。

步骤S1310的获取可以包括基于第一帧和至少一个第二帧中的每一个上的像素信息，通过重叠相邻帧中的像素值之间具有最小差异的区域来获取全景图像。

在步骤S1310的获得可以包括基于第一帧和至少一个第二帧中的每一个上的像素信息获得相邻帧之间的运动值，并且基于获得的运动值通过将第一帧的部分区域与至少一个第二帧的部分区域重叠来获得全景图像。

获得S1310可以包括基于相邻帧中的像素值和相邻帧之间的运动值之间的差来转换获得的运动值，并且基于转换的运动值通过将第一帧的部分区域与第二帧的部分区域重叠来获得全景图像。

获取S1310可以包括基于第一帧和至少一个第二帧中的每一个上的像素信息，相对于第一帧和至少一个第二帧执行图像处理中的至少一个，例如旋转、位置移动或尺寸调整。

该显示可以进一步包括显示第一帧，并且基于从全景图像中识别的对象，基于从全景图像中识别对象的位置的信息和图像处理信息，在第一帧中显示对象的区域上显示包括图形用户界面(GUI)、字符、图像、视频或3D模型中的至少一个的对象。

该至少一个第二帧可以是在第一帧之前或紧接在第一帧之前捕获的帧，并且该方法可以进一步包括通过基于全景图像和在第一帧之后捕获的第三帧上的像素信息将全景图像的部分区域与第三帧的部分区域重叠来更新全景图像，识别更新的全景图像内最大尺寸的预定形状的区域，并且重新识别更新的全景图像中的对象或更新的全景图像内的预定形状。

第三帧可以是紧接在第一帧之后捕获的帧，并且如果第一帧相对于第三帧和第三帧的重叠区域之间的比率小于预定比率，则重新识别对象可以包括重新识别更新的全景图像内或更新的全景图像内的预定形状的区域内的对象。

当从全景图像中识别出多个对象时，该方法可以包括基于相应多个区域的重叠帧的数量或多个区域中的每个区域中的帧的捕获时间中的至少一个，将加权值分配给多个区域中的每个区域，并且基于多个区域中的每个区域的加权值来识别多个对象中的至少一个。

该方法还可以包括通过电子装置中提供的相机执行连续捕获来获得多个帧。

根据本公开的各种实施例，电子装置可以从多个连续帧生成全景图像，并且通过识别对象来提高对象识别的准确性。

根据本公开的各种实施例，应用可以安装在传统的电子装置上。

根据本公开的各种实施例的方法可以相对于传统电子装置体现为软件和硬件。

根据本公开的各种示例实施例，可以由电子装置中提供的嵌入式服务器、电子装置或显示装置来执行。

本公开的各种实施例可以实现为包括存储在机器可读存储介质中的命令的软件。机器可以是调用存储在存储介质中的命令的装置，并且可以根据所调用的命令来操作，包括根据所公开的示例实施例的电子装置(例如，电子装置(A))。当命令由处理器执行时，处理器可以直接或在处理器的控制下，使用其他组件来执行对应于该命令的功能。该命令可以包括由编译器或解释器生成或执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。“非临时”是指存储介质不包括信号，而是有形的，但不区分数据是半永久存储还是临时存储在存储介质上。

根据实施例，根据本文公开的各种实施例的方法可以在计算机程序产品中提供。计算机程序产品可以作为商品在卖方和买方之间进行交易。计算机程序产品可以以机器可读存储介质(例如，光盘只读存储器(CD-ROM))的形式分发，或者通过应用商店(例如，PlayStore^TM)在线分发。在在线分发的情况下，计算机程序产品的至少一部分可以临时存储或临时创建在存储介质上，例如制造商的服务器、应用商店的服务器或中继服务器的存储器。

根据各种实施例的每个组件(例如，模块或程序)可以由单个实体或多个实体组成，并且可以省略上述子组件的一些子组件，或者其他组件可以进一步包括在各种实施例中。替代地或附加地，一些组件(例如，模块或程序)可以被集成到一个实体中，以执行由在集成之前每个组件执行的相同或相似的功能。根据各种实施例，由模块、程序或其他组件执行的操作可以顺序地、并行地、重复地或启发式地执行，或者至少一些操作可以以不同的顺序执行，或者省略，或者可以进一步添加另一功能。

尽管已经示出和描述了实施例，但是本领域技术人员将理解，在不脱离本公开的原理和精神的情况下，可以对这些实施例进行改变。因此，本公开的范围不被解释为限于所描述的实施例，而是由所附权利要求及其等同物来限定。

Claims

1.一种电子装置，包括:

存储器；和

处理器，被配置为:

基于第一帧的像素信息和至少一个第二图像帧的像素信息，通过将存储在存储器中的第一图像帧的部分区域与存储在存储器中的至少一个第二图像帧的部分区域重叠来获得全景图像，

识别全景图像内最大尺寸的预定形状的区域，以及

从全景图像的整个区域或预定形状的区域中识别对象。

2.根据权利要求1所述的电子装置，其中，所述处理器还被配置为基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息，通过重叠在所述第一图像帧和所述至少一个第二图像帧之间的相邻图像帧的像素值之间具有最小差异的区域来获得所述全景图像。

3.根据权利要求2所述的电子装置，其中，所述处理器还被配置为:

基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息，获得所述第一图像帧和所述至少一个第二图像帧中的相邻图像帧之间的运动值，以及

基于运动值，通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像。

4.根据权利要求3所述的电子装置，其中，所述处理器还被配置为:

基于相邻图像帧中的像素值之间的差和相邻图像帧之间的运动值来转换运动值，以及

基于转换的运动值，通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像。

5.根据权利要求1所述的电子装置，其中，所述处理器还被配置为:

基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息，针对所述第一图像帧和所述至少一个第二图像帧中的每一个执行包括旋转、位置移动或尺寸调整中的至少一个的图像处理，以及

通过重叠执行图像处理的帧的部分区域来获得全景图像。

6.根据权利要求5所述的电子装置，进一步包括:

显示器，

其中所述处理器还被配置成:

控制所述显示器显示所述第一图像帧，以及

基于从全景图像识别的对象，根据关于对象被识别的位置的信息和关于图像处理的信息，控制显示器在第一帧中显示对象的区域上显示包括图形用户界面、字符、图像、视频或3D模型中的至少一个的对象。

7.根据权利要求1所述的电子装置，其中，所述至少一个第二图像帧是在所述第一图像帧之前捕获的图像帧，并且

其中所述处理器还被配置成:

基于全景图像和在第一图像帧之后捕获的第三图像帧上的像素信息，通过将全景图像的部分区域与第三图像帧的部分区域重叠来更新全景图像，

在更新的全景图像内识别最大尺寸的预定形状的区域，以及

从更新的全景图像或更新的全景图像内的预定形状的区域中重新识别对象。

8.根据权利要求7所述的电子装置，其中，所述第三图像帧是在所述第一图像帧之后捕获的图像帧，并且

其中所述处理器还被配置为基于第一图像帧相对于第三图像帧之间的比率和小于预定比率的第三图像帧的重叠区域，重新识别更新的全景图像中的对象，或者在更新的全景图像内以预定形状的区域。

9.根据权利要求1所述的电子装置，其中，所述处理器还被配置为:

基于在全景图像中识别的多个对象，基于全景图像的多个相应区域的多个重叠图像帧中的至少一个或者多个相应区域中的图像帧的捕获时间，将加权值分配给多个相应区域，以及

基于多个相应区域的加权值识别多个对象中的至少一个。

10.根据权利要求1所述的电子装置，进一步包括:

相机，包括电路，

其中所述处理器还被配置成通过经由所述相机执行连续捕获来获得所述多个图像帧。

11.一种用于控制电子装置的方法，该方法包括:

基于多个帧中的第一图像帧的像素信息和至少一个第二图像帧的像素信息，通过将第一图像帧的部分区域与至少一个第二图像帧的部分区域重叠来获得全景图像；

识别全景图像内最大尺寸的预定形状的区域；和

从全景图像的整个区域或预定形状的区域中识别对象。

12.根据权利要求11所述的方法，其中所述获得包括基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息，通过重叠在所述第一图像帧和所述至少一个第二图像帧之间的相邻图像帧的像素值之间具有最小差异的区域来获得所述全景图像。

13.根据权利要求12所述的方法，其中所述获得包括基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息获得所述第一图像帧和所述至少一个第二图像帧中的相邻图像帧之间的运动值，以及

基于所述运动值，通过将所述第一图像帧的部分区域与所述至少一个第二图像帧的部分区域重叠来获得所述全景图像。

14.如权利要求13所述的方法，其中所述获得包括基于相邻图像帧中的像素值之间的差和相邻图像帧之间的运动值来转换运动值，以及

15.根据权利要求11所述的方法，其中，所述获得包括基于所述第一图像帧的像素信息和所述至少一个第二图像帧的像素信息，相对于所述第一图像帧或所述至少一个第二图像帧中的每一个执行包括旋转、位置移动或尺寸调整中的至少一个的图像处理，并且

通过重叠其中执行图像处理的帧的部分区域来获得全景图像。