KR102556606B1 - XR device operation system by use of cloud AI - Google Patents

XR device operation system by use of cloud AI Download PDF

Info

Publication number
KR102556606B1
KR102556606B1 KR1020210147242A KR20210147242A KR102556606B1 KR 102556606 B1 KR102556606 B1 KR 102556606B1 KR 1020210147242 A KR1020210147242 A KR 1020210147242A KR 20210147242 A KR20210147242 A KR 20210147242A KR 102556606 B1 KR102556606 B1 KR 102556606B1
Authority
KR
South Korea
Prior art keywords
object recognition
cloud
cloud server
present
representative image
Prior art date
Application number
KR1020210147242A
Other languages
Korean (ko)
Other versions
KR20230062217A (en
Inventor
임화섭
윤홍수
신호동
임선영
Original Assignee
가온그룹 주식회사
케이퓨처테크 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가온그룹 주식회사, 케이퓨처테크 주식회사 filed Critical 가온그룹 주식회사
Priority to KR1020210147242A priority Critical patent/KR102556606B1/en
Priority to PCT/KR2021/015487 priority patent/WO2023074970A1/en
Publication of KR20230062217A publication Critical patent/KR20230062217A/en
Application granted granted Critical
Publication of KR102556606B1 publication Critical patent/KR102556606B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 일반적으로 XR 콘텐츠를 위해 촬영영상에서 객체를 인식 처리하는 기술에 관한 것이다. 특히, 본 발명은 XR 디바이스가 주변 촬영영상과 공간정보를 기초로 일정 구간마다 객체 식별을 수행하여 대표이미지를 클라우드 서버로 전달하고, 클라우드 서버가 대표이미지를 AI 딥러닝 연산에 적용하여 객체 인식을 수행하고 그 결과를 XR 디바이스로 반환하도록 구성함으로써 XR 객체인식을 효과적으로 처리할 수 있는 클라우드 AI 기반의 XR 객체인식 처리 기술에 관한 것이다. 본 발명에 따르면 XR 디바이스가 촬영영상에서 객체를 식별하고 클라우드 기반으로 객체 인식을 수행하도록 구성함으로써 XR 콘텐츠를 위한 객체인식 과정을 효과적으로 처리할 수 있는 장점이 있다. 또한, 본 발명에 따르면 객체 인식 과정을 효과적으로 수행할 수 있어 저성능의 XR 디바이스로도 XR 콘텐츠를 실시간으로 제공할 수 있는 장점이 있다. 또한, 본 발명에 따르면 클라우드 AI 딥러닝 기반으로 특징 기반 객체인식 과정을 수행하므로 객체 정보를 학습함에 따라 객체 인식율과 인식 정확도를 점차적으로 향상시킬 수 있는 장점이 있다.The present invention generally relates to a technology for recognizing and processing an object in a captured image for XR content. In particular, in the present invention, the XR device performs object identification for each predetermined section based on the surrounding captured images and spatial information, transmits the representative image to the cloud server, and the cloud server applies the representative image to AI deep learning operation to perform object recognition. It is about cloud AI-based XR object recognition processing technology that can effectively process XR object recognition by configuring it to perform and return the result to the XR device. According to the present invention, there is an advantage in that an object recognition process for XR content can be effectively processed by configuring the XR device to identify an object in a captured image and perform object recognition based on a cloud. In addition, according to the present invention, an object recognition process can be effectively performed, so that XR contents can be provided in real time even with a low-performance XR device. In addition, according to the present invention, since a feature-based object recognition process is performed based on cloud AI deep learning, the object recognition rate and recognition accuracy can be gradually improved as object information is learned.

Description

클라우드 AI 기반의 XR 디바이스 운영 시스템 {XR device operation system by use of cloud AI}XR device operation system based on cloud AI {XR device operation system by use of cloud AI}

본 발명은 일반적으로 XR 콘텐츠를 위해 촬영영상에서 객체를 인식 처리하는 기술에 관한 것이다.The present invention generally relates to a technology for recognizing and processing an object in a captured image for XR content.

특히, 본 발명은 XR 디바이스가 주변 촬영영상과 공간정보를 기초로 일정 구간마다 객체 식별을 수행하여 대표이미지를 클라우드 서버로 전달하고, 클라우드 서버가 대표이미지를 AI 딥러닝 연산에 적용하여 객체 인식을 수행하고 그 결과를 XR 디바이스로 반환하도록 구성함으로써 XR 객체인식을 효과적으로 처리할 수 있는 클라우드 AI 기반의 XR 디바이스 운영 기술에 관한 것이다.In particular, in the present invention, the XR device performs object identification for each predetermined section based on the surrounding captured images and spatial information, transmits the representative image to the cloud server, and the cloud server applies the representative image to AI deep learning operation to perform object recognition. It is about a cloud AI-based XR device operation technology that can effectively process XR object recognition by configuring it to perform and return the result to the XR device.

최근 들어 정보통신기술(ICT) 분야에서는 확장현실(XR; eXtended Reality) 기술에 대한 관심이 높다. 확장현실(XR)은 일반적으로 가상현실(VR), 증강현실(AR), 혼합현실(MR)을 총칭하는 용어이다. 가상현실(VR; Virtual Reality)은 컴퓨터그래픽(CG)으로 가상의 세계를 생성하여 표시하는 기술이고, 증강현실(AR; Augmented Reality)은 현실 세계의 영상에 컴퓨터그래픽 콘텐츠를 추가하여 표시하는 기술이고, 혼합현실(MR; Mixed Reality)은 현실 세계의 영상에 컴퓨터그래픽 콘텐츠를 독립적으로 결합 또는 믹싱하는 기술이다. 이러한 확장현실(XR; eXtended Reality) 기술은 게임, 콘서트, 실습교육, 대테러 작전, 화재 진압훈련 등 활용도가 높다.Recently, in the field of information and communication technology (ICT), interest in extended reality (XR) technology is high. Extended reality (XR) is a term that generally refers to virtual reality (VR), augmented reality (AR), and mixed reality (MR). Virtual Reality (VR) is a technology that creates and displays a virtual world with computer graphics (CG), and Augmented Reality (AR) is a technology that adds computer graphic content to images of the real world and displays them. , Mixed Reality (MR) is a technology that independently combines or mixes computer graphic contents with images of the real world. This extended reality (XR) technology is highly applicable to games, concerts, hands-on training, counterterrorism operations, and firefighting training.

확장현실을 구현하기 위해서는 현실세계를 촬영한 영상을 분석하여 그 촬영영상에 어떠한 객체(objects, 사물)가 포함되어 있는지 인식해야 한다. 즉, 먼저 촬영영상에 객체가 포함되어 있다는 사실을 식별해야 하고, 다음으로는 그 식별된 객체가 어떠한 사물인지(예: 사람, 자동차, 개, 고양이, 거북이 등) 인식해야 한다. In order to implement augmented reality, it is necessary to recognize which objects (things) are included in the captured image by analyzing the image captured in the real world. That is, first, it is necessary to identify the fact that an object is included in the photographed image, and then it is necessary to recognize what kind of object the identified object is (eg, a person, a car, a dog, a cat, a turtle, etc.).

일반적으로 이러한 과정은 컴퓨터 비전(computer vision) 기반으로 복잡한 영상 분석을 통해 이루어진다. 컴퓨터 비전 기술은 카메라 촬영영상을 실시간으로 분석해야 하기 때문에 데이터 처리량이 많을 수밖에 없다. In general, this process is performed through complex image analysis based on computer vision. Computer vision technology inevitably requires a lot of data processing because it needs to analyze camera images in real time.

XR 디바이스는 사용자가 예를 들어 헤드마운트 방식으로 착용하는데, 이러한 XR 디바이스에서 객체인식을 수행한다면 엄청난 고성능을 구현해야 하기 때문에 상당한 어려움이 있다. The XR device is worn by the user, for example, in a head-mounted fashion. If object recognition is performed on such an XR device, it is very difficult to achieve high performance.

그렇다고 외부 서버에서 객체인식을 수행하도록 구성한다면 XR 디바이스와 외부 서버 간에 엄청난 데이터 송수신이 이루어져야 하므로 하나의 XR 디바이스가 무선 네트워크 자원을 너무 많이 차지해버리는 문제점이 있다. 또한, 대용량 데이터 송수신을 처리해야 하므로 실시간 응답을 구현하기 힘들 뿐만 아니라 XR 디바이스가 여전히 고성능이어야 한다.However, if an external server is configured to perform object recognition, there is a problem in that one XR device occupies too much wireless network resources because an enormous amount of data must be transmitted and received between the XR device and the external server. In addition, it is difficult to implement real-time response due to the large amount of data transmission and reception, and the XR device must still have high performance.

대한민국 공개특허 10-2019-0104945호(2019.09.11) "XR 디바이스 및 그 제어 방법"Republic of Korea Patent Publication No. 10-2019-0104945 (2019.09.11) "XR device and its control method"

본 발명의 목적은 일반적으로 XR 콘텐츠를 위해 촬영영상에서 객체를 인식 처리하는 기술을 제공하는 것이다. An object of the present invention is to generally provide a technology for recognizing and processing objects in a captured image for XR content.

특히, 본 발명의 목적은 XR 디바이스가 주변 촬영영상과 공간정보를 기초로 일정 구간마다 객체 식별을 수행하여 대표이미지를 클라우드 서버로 전달하고, 클라우드 서버가 대표이미지를 AI 딥러닝 연산에 적용하여 객체 인식을 수행하고 그 결과를 XR 디바이스로 반환하도록 구성함으로써 XR 객체인식을 효과적으로 처리할 수 있는 클라우드 AI 기반의 XR 디바이스 운영 기술을 제공하는 것이다. In particular, an object of the present invention is that the XR device performs object identification for each certain section based on surrounding images and spatial information, transmits the representative image to the cloud server, and the cloud server applies the representative image to AI deep learning operation to object It is to provide a cloud AI-based XR device operation technology that can effectively handle XR object recognition by configuring it to perform recognition and return the result to the XR device.

한편, 본 발명의 해결 과제는 이들 사항에 제한되지 않으며 본 명세서의 기재로부터 다른 해결 과제가 이해될 수 있다. On the other hand, the problem of the present invention is not limited to these matters, and other problems can be understood from the description of this specification.

상기의 목적을 달성하기 위하여 본 발명은 네트워크로 연결된 XR 디바이스(100)와 클라우드 서버(200)가 협조 동작하여 XR 콘텐츠를 처리하는 클라우드 AI 기반의 XR 디바이스 운영 시스템을 제공한다.In order to achieve the above object, the present invention provides a cloud AI-based XR device operating system in which an XR device 100 connected to a network and a cloud server 200 cooperatively operate to process XR content.

본 발명에 따른 클라우드 AI 기반의 XR 디바이스 운영 시스템은, 주변 촬영영상(V)을 생성하는 카메라 모듈과 주변 공간정보(S)를 획득하는 센서 모듈을 구비하고, 일정 시간구간 단위로 촬영영상(V)과 공간정보(S)로부터 객체의 존재를 식별하고 그 식별된 객체가 포함된 대표이미지(I)를 추출하여 클라우드 서버(200)로 전송하며, 클라우드 서버(200)로부터 객체인식 결과(R)와 보조정보(A)를 제공받아 XR 콘텐츠를 생성 표시하도록 구성된 XR 디바이스(100); XR 디바이스(100)로부터 수신한 대표이미지(I)의 AI 딥러닝 연산에 의해 객체인식 결과(R)를 획득하고, 데이터베이스 조회 또는 인터넷 검색을 통해 객체인식 결과(R)와 관련된 보조정보(A)를 획득하고, 객체인식 결과(R)와 보조정보(A)를 XR 디바이스(100)로 전송하도록 구성된 클라우드 서버(200);를 포함하여 구성된다.
본 발명에서 XR 디바이스(100)는 대표이미지(I)와 공간정보(S)를 클라우드 서버(200)로 전송하고, 클라우드 서버(200)는 대표이미지(I)와 공간정보(S)의 조합에 대해 AI 딥러닝 연산을 수행하도록 구성될 수 있다.
본 발명에서 공간정보(S)는 깊이정보 및 입체정보를 포함하여 구성될 수 있다.
The cloud AI-based XR device operating system according to the present invention includes a camera module that generates a surrounding image (V) and a sensor module that acquires surrounding spatial information (S), and includes a captured image (V) in units of a certain time interval. ) and spatial information (S) to identify the existence of an object, extract a representative image (I) containing the identified object, and transmit it to the cloud server 200, and obtain an object recognition result (R) from the cloud server 200 and an XR device 100 configured to generate and display XR content by receiving the auxiliary information (A); The object recognition result (R) is obtained by AI deep learning operation of the representative image (I) received from the XR device 100, and auxiliary information (A) related to the object recognition result (R) is obtained through database inquiry or Internet search. and a cloud server 200 configured to acquire and transmit the object recognition result (R) and auxiliary information (A) to the XR device 100.
In the present invention, the XR device 100 transmits the representative image (I) and spatial information (S) to the cloud server 200, and the cloud server 200 determines the combination of the representative image (I) and spatial information (S). It can be configured to perform AI deep learning operations on
In the present invention, spatial information (S) may include depth information and three-dimensional information.

삭제delete

삭제delete

삭제delete

삭제delete

본 발명에 따르면 XR 디바이스가 촬영영상에서 객체를 식별하고 클라우드 기반으로 객체 인식을 수행하도록 구성함으로써 XR 콘텐츠를 위한 객체인식 과정을 효과적으로 처리할 수 있는 장점이 있다. According to the present invention, there is an advantage in that an object recognition process for XR content can be effectively processed by configuring the XR device to identify an object in a captured image and perform object recognition based on a cloud.

또한, 본 발명에 따르면 객체 인식 과정을 효과적으로 수행할 수 있어 저성능의 XR 디바이스로도 XR 콘텐츠를 실시간으로 제공할 수 있는 장점이 있다. In addition, according to the present invention, an object recognition process can be effectively performed, so that XR contents can be provided in real time even with a low-performance XR device.

또한, 본 발명에 따르면 클라우드 AI 딥러닝 기반으로 특징 기반 객체인식 과정을 수행하므로 객체 정보를 학습함에 따라 객체 인식율과 인식 정확도를 점차적으로 향상시킬 수 있는 장점이 있다.In addition, according to the present invention, since a feature-based object recognition process is performed based on cloud AI deep learning, the object recognition rate and recognition accuracy can be gradually improved as object information is learned.

[도 1]은 본 발명에 따른 클라우드 AI 기반의 XR 객체인식 처리 구성을 나타내는 도면.
[도 2]는 본 발명에서 XR 디바이스의 처리 과정을 나타내는 도면.
[도 3]은 본 발명에서 클라우드 서버의 처리 과정을 나타내는 도면.
[도 4]는 본 발명에 따른 클라우드 AI 기반의 XR 객체인식 처리 방법의 전체 프로세스를 나타내는 도면.
[Figure 1] is a diagram showing the configuration of cloud AI-based XR object recognition processing according to the present invention.
[Figure 2] is a view showing the processing process of the XR device in the present invention.
[Figure 3] is a diagram showing the process of the cloud server in the present invention.
[Figure 4] is a diagram showing the entire process of the cloud AI-based XR object recognition processing method according to the present invention.

이하에서는 도면을 참조하여 본 발명을 상세하게 설명한다.Hereinafter, the present invention will be described in detail with reference to the drawings.

[도 1]은 본 발명에 따른 클라우드 AI 기반의 XR 객체인식 처리 구성을 나타내는 도면이다. [Figure 1] is a diagram showing the configuration of cloud AI-based XR object recognition processing according to the present invention.

XR 디바이스(100)는 XR 콘텐츠와 관련하여 사용자 인터페이스를 담당하는 장치로서 예컨대 HMD(Head-Mounted Display)의 형태로 사용자가 장착한다. XR 디바이스(100)는 내부에 카메라 모듈과 각종 센서 모듈을 갖추고 있어 사용자 주변에 관한 영상을 촬영하고 평면(2D) 또는 입체(3D) 정보를 센싱한다. The XR device 100 is a device responsible for a user interface in relation to XR content, and is mounted by a user in the form of, for example, a Head-Mounted Display (HMD). The XR device 100 has a camera module and various sensor modules inside to take images of the user's surroundings and sense flat (2D) or stereoscopic (3D) information.

XR 디바이스(100)는 인터넷을 통해 클라우드 서버(200)에 연결되어 있다. 클라우드 서버(200)는 AI 딥러닝 연산 기능과 데이터베이스 정보관리 기능을 구비하고 있어 객체 인식(object recognition) 처리를 담당한다. The XR device 100 is connected to the cloud server 200 through the Internet. The cloud server 200 has an AI deep learning operation function and a database information management function and is in charge of object recognition processing.

본 발명에서 XR 디바이스(100)는 카메라 모듈에 의해 사용자 주변에 대한 촬영영상(V)을 생성하고 센서 모듈에 의해 사용자 주변 공간에 대한 공간정보(S)를 생성한다. 이때, 공간정보(S)는 깊이정보와 입체정보를 포함할 수 있다. 종래기술에서와 같이 고화질의 촬영영상(V)을 그대로 분석하여 객체 인식하도록 구성하면 XR 디바이스(100)의 연산 부담이 매우 크다. 그에 따라, 본 발명에서는 시스템 경량화를 구현하기 위해 XR 디바이스(100)의 연산 부담을 낮추는 구성을 채택하였다.In the present invention, the XR device 100 generates a photographed image (V) of the user's surroundings by the camera module and spatial information (S) of the user's surrounding space by the sensor module. At this time, the spatial information (S) may include depth information and stereoscopic information. As in the prior art, when a high-quality captured image V is analyzed as it is and configured to recognize an object, the computational burden of the XR device 100 is very large. Accordingly, in the present invention, a configuration that reduces the computational burden of the XR device 100 is adopted in order to implement system weight reduction.

[도 2]는 본 발명에서 XR 디바이스(100)의 처리 과정을 나타내는 도면이다.[FIG. 2] is a diagram showing the process of the XR device 100 in the present invention.

본 발명에서 XR 디바이스(100)는 미리 설정된 일정 시간구간(예: 1초) 단위로 촬영영상(V)에 대한 대표이미지(I)를 추출하여 클라우드 서버(200)로 전달하는 역할을 담당하도록 구성한다. 이때, 대표이미지(I)는 해당 시간구간 동안의 촬영영상(V)을 대표하는 이미지여야 하므로, XR 디바이스(100)는 해당 시간구간 동안의 촬영영상(V)으로부터 객체를 식별한 후, 촬영영상(V)의 일련의 이미지 프레임들 중에서 그 식별된 객체가 온전하게 포함되는 프레임 이미지를 선별하여 대표이미지(I)로 삼는 것이 바람직하다. In the present invention, the XR device 100 is configured to play a role in extracting a representative image (I) for a captured image (V) in units of a predetermined time interval (eg, 1 second) and delivering it to the cloud server 200. do. At this time, since the representative image (I) must be an image representing the captured image (V) during the corresponding time interval, the XR device 100 identifies the object from the captured image (V) during the corresponding time interval, and then captures the captured image. It is preferable to select a frame image in which the identified object is completely included among the series of image frames of (V) and use it as the representative image (I).

객체 식별(object identification)은 촬영영상(V) 내에 객체가 포함되어 있다고 식별하는 것을 의미하며, 그 객체가 어떠한 것인지 알아낼 필요는 없다. 객체 식별은 촬영영상(V)을 복잡하게 분석할 필요없이 코딩유닛(예: 매크로블록) 단위로 모션벡터를 분석하는 것에 의해서도 달성할 수 있다. 따라서, 객체 식별 과정은 객체 인식 과정에 비해 매우 적은 연산량으로 달성할 수 있어 XR 디바이스(100)가 수행하도록 구성하더라도 무방하다. 이때, 촬영영상(V)에 의해서만 객체 식별을 수행하는 것보다 공간정보(S)를 조합하여 객체 식별을 수행하는 것이 정확도가 더 높다. 그에 따라, 촬영영상(V)에 공간정보(S)를 조합하여 객체 식별을 수행하는 것이 바람직하다.Object identification means identifying that an object is included in the photographed image V, and there is no need to find out what the object is. Object identification can also be achieved by analyzing a motion vector in units of coding units (eg, macroblocks) without the need for complex analysis of the photographed image V. Therefore, the object identification process can be achieved with a very small amount of computation compared to the object recognition process, so it is okay to configure the XR device 100 to perform it. At this time, it is more accurate to perform object identification by combining spatial information (S) than performing object identification only by the photographed image (V). Accordingly, it is preferable to perform object identification by combining the spatial information (S) with the photographed image (V).

XR 디바이스(100)는 일정 시간구간(예: 1초)마다 해당 구간의 촬영영상(V)에 대한 대표이미지(I)를 추출하여 클라우드 서버(200)로 전송한다. 대표이미지(I)는 프레임 이미지 한장으로 구성되는 것이 바람직한데, 구현 예에 따라서는 비교적 적은 수(예: 5장)의 프레임 이미지로 구성될 수도 있다. 또한, 대표이미지(I)만 클라우드 서버(200)로 전송할 수도 있고, 대표이미지(I)와 공간정보(S)를 함께 클라우드 서버(200)로 전송하도록 구성될 수도 있다.The XR device 100 extracts a representative image (I) of a captured image (V) of the corresponding section for every predetermined time interval (eg, 1 second) and transmits the extracted representative image (I) to the cloud server (200). The representative image (I) is preferably composed of one frame image, but may be composed of a relatively small number (eg, 5) of frame images depending on implementation examples. In addition, only the representative image (I) may be transmitted to the cloud server 200, or the representative image (I) and spatial information (S) may be transmitted to the cloud server 200 together.

클라우드 서버(200)는 XR 디바이스(100)로부터 제공받은 대표이미지(I)로부터 객체 인식을 수행한다. [도 3]은 본 발명에서 클라우드 서버(200)가 객체 인식을 위해 수행하는 처리 과정을 나타내는 도면이다.The cloud server 200 performs object recognition from the representative image I provided from the XR device 100 . 3 is a diagram illustrating a process performed by the cloud server 200 for object recognition in the present invention.

클라우드 서버(200)는 대표이미지(I)로부터, 또는 대표이미지(I)와 공간정보(S)의 조합을 AI 딥러닝 연산에 투입하여 그 결과로부터 객체식별, 특징추출, 객체인식을 수행한다. 객체인식에 의해 해당 객체가 무엇인지 알게 된다. [도 3]에서는 해당 객체가 거북이라는 것을 알게 되었다.The cloud server 200 inputs the representative image (I) or a combination of the representative image (I) and spatial information (S) to AI deep learning operation, and performs object identification, feature extraction, and object recognition from the result. By object recognition, we know what the object is. In [Fig. 3], it is found that the object is a turtle.

이를 위해, 클라우드 서버(200)는 이미지에 대한 객체 인식에 미리 훈련되어 있는 AI 딥러닝 모듈을 구비하고 있다. 이때, 바람직하게는 XR 디바이스(100)가 대표이미지(I)를 예컨대 1초마다 전송함에 따라 객체인식 과정을 지속적으로 수행하게 되어 딥러닝이 강화된다. 인공지능(AI)에서는 딥러닝, 머신러닝 등의 여러가지 용어가 사용되고 있는데, 본 명세서에는 이들을 총칭하여 딥러닝이라고 표기하였다.To this end, the cloud server 200 has an AI deep learning module pre-trained in object recognition for images. At this time, preferably, as the XR device 100 transmits the representative image I every second, for example, the object recognition process is continuously performed, so that deep learning is strengthened. In artificial intelligence (AI), various terms such as deep learning and machine learning are used, and in this specification, they are collectively referred to as deep learning.

한편, [도 3]에서 객체식별, 특징추출, 객체인식을 모두 AI 딥러닝 연산을 통해 달성할 수도 있고, 일부 단계, 예컨대 객체식별은 별도의 전처리(preprocessing)를 통해 수행할 수도 있다. 또는, 객체식별에 관한 정보는 XR 디바이스(100)가 클라우드 서버(200)로 제공하도록 구성할 수도 있다.Meanwhile, object identification, feature extraction, and object recognition in FIG. 3 may all be achieved through AI deep learning operations, and some steps, for example, object identification, may be performed through separate preprocessing. Alternatively, object identification information may be configured so that the XR device 100 provides it to the cloud server 200.

이상의 요지를 정리하면, XR 디바이스(100)는 자신의 주변에 대해 예컨대 30 FPS(Frame/Second)로 촬영영상(V)을 생성하는데, 이 촬영영상(V)에 대해 1초 단위로 대표이미지(I)를 추출한다. 즉, 1초에 대응하는 30 프레임의 이미지에 대해 객체를 식별하고 그 객체가 온전히 포함되어 있는 대표이미지(I)를 한장 추출하여 클라우드 서버(200)로 전송한다. XR 디바이스(100)는 1초마다 대표이미지(I)를 한장씩 클라우드 서버(200)로 전송하는 것이다. 클라우드 서버(200)는 대표이미지(I)를 AI 딥러닝 모듈에 입력하여 그 출력으로부터 객체인식 결과(R)를 얻는다.In summary, the XR device 100 generates a captured image (V) at, for example, 30 FPS (Frame/Second) for its surroundings, and a representative image ( I) is extracted. That is, an object is identified for 30 frames of images corresponding to 1 second, and one representative image (I) containing the object is extracted and transmitted to the cloud server 200. The XR device 100 transmits one representative image I to the cloud server 200 every second. The cloud server 200 inputs the representative image (I) to the AI deep learning module and obtains an object recognition result (R) from the output.

그리고 나서, 클라우드 서버(200)는 객체인식 결과(R)에 대응하는 보조정보(A)를 검색하여 획득한다. 데이터베이스로부터 보조정보(A)를 얻을 수도 있고, 인터넷 검색을 통해 보조정보(A)를 실시간으로 얻을 수도 있다. 예를 들어, 객체인식 결과(R)가 거북이인 경우에는 보조정보(A)로서 해당 거북이의 품종, 거북이 먹이, 영양제, 거북이 케어 방법, SNS 거북이 이미지, 근처 동물병원의 이름과 위치 등을 들 수 있다.Then, the cloud server 200 searches for and obtains auxiliary information (A) corresponding to the object recognition result (R). Auxiliary information (A) may be obtained from a database or may be obtained in real time through an Internet search. For example, if the object recognition result (R) is a turtle, auxiliary information (A) includes the turtle's breed, turtle food, nutritional supplements, turtle care method, SNS turtle image, and the name and location of a nearby veterinary hospital. there is.

이러한 보조정보(A)는 클라우드 서버(200)가 XR 디바이스(100)로 객체인식 결과(R)와 함께 제공하는 것이 바람직하다. 그리고, 사용자 설정 또는 사용자 선택에 따라 클라우드 서버(200)에 저장해두었다가 클라우드 서버(200)와 연결된 다른 디바이스들, 예컨대 스마트폰, 랩톱컴퓨터, 자율주행차량, 스마트가전(미도시) 등에서 객체인식 결과(R)와 보조정보(A)를 활용하도록 구성할 수도 있다.It is preferable that the cloud server 200 provides such auxiliary information (A) to the XR device 100 together with the object recognition result (R). And, according to user settings or user selection, object recognition results are stored in the cloud server 200 and stored in other devices connected to the cloud server 200, such as smart phones, laptop computers, autonomous vehicles, smart home appliances (not shown) ( It can also be configured to utilize R) and auxiliary information (A).

[도 4]는 본 발명에 따른 클라우드 AI 기반의 XR 객체인식 처리 방법의 전체 프로세스를 나타내는 도면이다.[Figure 4] is a diagram showing the entire process of the cloud AI-based XR object recognition processing method according to the present invention.

단계 (S100, S110) : 먼저, XR 디바이스(100)가 내부 카메라 모듈에 의해 주변 촬영영상(V)을 생성하고 내부 센서 모듈에 의해 주변 공간정보(S)를 획득한다. 이때, 공간정보(S)는 깊이정보와 입체정보를 포함할 수 있다. 다음으로는 미리 설정된 일정 구간(예: 1초) 단위로 이하의 과정이 반복 수행된다.Steps (S100, S110): First, the XR device 100 generates a surrounding photographed image (V) by an internal camera module and acquires surrounding spatial information (S) by an internal sensor module. At this time, the spatial information (S) may include depth information and stereoscopic information. Next, the following process is repeatedly performed in units of preset intervals (eg, 1 second).

단계 (S120 ~ S140) : XR 디바이스(100)는 촬영영상(V) 및 공간정보(S)를 분석하여 객체를 식별한다. 객체 식별은 해당 시간구간의 촬영영상(V) 내에 객체가 포함되어 있다고 식별하는 것을 의미하며, 그 객체가 무엇인지까지 알아낼 필요는 없다. 객체 식별은 촬영영상(V)을 분석하여 달성할 수도 있지만, 그 객체가 존재하는지 여부만 판단하면 충분하므로 좀더 효과적인 알고리즘, 예컨대 코딩유닛(예: 매크로블록) 단위로 모션벡터를 분석하는 것에 의해서도 달성할 수 있다. 이때, 평면상의 이미지만으로 객체를 식별하면 오류가 많이 날 수 있으므로 깊이정보와 입체정보와 같은 공간정보(S)도 조합하여 사용함으로써 객체 식별의 정확도를 높이는 구성이 바람직하다.Steps (S120 to S140): The XR device 100 identifies an object by analyzing the photographed image (V) and spatial information (S). Object identification means identifying that an object is included in the photographed image V of a corresponding time section, and there is no need to find out what the object is. Object identification can be achieved by analyzing the captured image (V), but since it is sufficient to determine whether the object exists, it can also be achieved by a more effective algorithm, for example, motion vector analysis in units of coding units (e.g., macroblocks). can do. At this time, since a lot of errors may occur when an object is identified only with a flat image, it is preferable to use a combination of spatial information (S) such as depth information and three-dimensional information to increase the accuracy of object identification.

XR 디바이스(100)는 해당 시간구간의 촬영영상(V)에 대해 위 식별된 객체가 포함된 대표이미지(I)를 추출하고, 그 대표이미지(I)를 클라우드 서버(200)로 전송한다. 이때, 대표이미지(I)만 클라우드 서버(200)로 전송할 수도 있고, 대표이미지(I)와 공간정보(S)를 함께 클라우드 서버(200)로 전송하도록 구성될 수도 있다.The XR device 100 extracts a representative image (I) including the identified object from the captured image (V) of the corresponding time section, and transmits the representative image (I) to the cloud server 200. At this time, only the representative image (I) may be transmitted to the cloud server 200, or the representative image (I) and spatial information (S) may be transmitted to the cloud server 200 together.

단계 (S150 ~ S180) : 클라우드 서버(200)는 대표이미지(I)에 대해 AI 딥러닝 연산을 수행하여, 그 AI 딥러닝 연산의 출력으로부터 객체인식 결과(R)를 획득한다. 객체인식에 의해 해당 객체가 무엇인지(예: 사람, 자동차, 개, 고양이, 거북이 등) 알게 된다. 이때, 객체인식의 정확도를 높이기 위해 대표이미지(I)와 공간정보(S)의 조합에 대해 AI 딥러닝 연산을 수행하도록 구성할 수도 있다. 클라우드 서버(200)는 XR 콘텐츠 생성을 위해 객체인식 결과(R)를 XR 디바이스(100)로 전송한다.Step (S150 ~ S180): The cloud server 200 performs an AI deep learning operation on the representative image (I), and obtains an object recognition result (R) from the output of the AI deep learning operation. Through object recognition, it is known what the object is (e.g., a person, a car, a dog, a cat, a turtle, etc.). At this time, in order to increase the accuracy of object recognition, it may be configured to perform AI deep learning operation on the combination of representative image (I) and spatial information (S). The cloud server 200 transmits the object recognition result R to the XR device 100 to generate XR content.

한편, 클라우드 서버(200)는 객체인식 결과(R)와 관련된 보조정보(A)를 검색하여 획득하고, 이 보조정보(A)를 객체인식 결과(R)에 추가하여 XR 디바이스(100)로 전송하도록 구성하는 것이 바람직하다. [도 3]을 참조하면, 객체인식 결과(R)가 '거북이'인 경우에 보조정보(A)는 해당 거북이의 품종, 거북이 먹이, 영양제, 거북이 케어 방법, SNS 거북이 이미지, 근처 동물병원의 이름과 위치 등이 될 수 있다.Meanwhile, the cloud server 200 searches for and obtains auxiliary information (A) related to the object recognition result (R), adds the auxiliary information (A) to the object recognition result (R), and transmits the auxiliary information (A) to the XR device 100. It is desirable to configure it so that Referring to [Fig. 3], when the object recognition result (R) is 'turtle', auxiliary information (A) is the turtle's breed, turtle food, nutrients, turtle care method, SNS turtle image, and the name of a nearby veterinary hospital. and location, etc.

단계 (S190) : 다음으로, XR 디바이스(100)는 객체인식 결과(R)와 보조정보(A)를 이용하여 XR 콘텐츠를 생성 표시한다. 이 과정은 공지기술로도 구현 가능하고, 본 발명이 XR 콘텐츠를 생성 표시에 관한 기술은 아니므로 이에 관한 자세한 설명은 생략한다.Step (S190): Next, the XR device 100 generates and displays XR content using the object recognition result (R) and auxiliary information (A). This process can be implemented with known technology, and since the present invention is not a technology for generating and displaying XR contents, a detailed description thereof will be omitted.

한편, 본 발명은 컴퓨터가 읽을 수 있는 비휘발성 기록매체에 컴퓨터가 읽을 수 있는 코드의 형태로 구현되는 것이 가능하다. 이러한 비휘발성 기록매체로는 다양한 형태의 스토리지 장치가 존재하는데 예컨대 하드디스크, SSD, CD-ROM, NAS, 자기테이프, 웹디스크, 클라우드 디스크 등이 있고 네트워크로 연결된 다수의 스토리지 장치에 코드가 분산 저장되고 실행되는 형태도 구현될 수 있다. 또한, 본 발명은 하드웨어와 결합되어 특정의 절차를 실행시키기 위하여 매체에 저장된 컴퓨터프로그램의 형태로 구현될 수도 있다.On the other hand, the present invention can be implemented in the form of computer readable codes on a computer readable non-volatile recording medium. As such non-volatile recording media, there are various types of storage devices, such as hard disks, SSDs, CD-ROMs, NAS, magnetic tapes, web disks, and cloud disks. and can be implemented in a form that is executed. In addition, the present invention may be implemented in the form of a computer program stored in a medium in order to execute a specific procedure in combination with hardware.

Claims (5)

네트워크로 연결된 XR 디바이스(100)와 클라우드 서버(200)가 협조 동작하여 XR 콘텐츠를 처리하는 클라우드 AI 기반의 XR 디바이스 운영 시스템으로서,
주변 촬영영상(V)을 생성하는 카메라 모듈과 주변 공간정보(S)를 획득하는 센서 모듈을 구비하고, 일정 시간구간 단위로 상기 촬영영상(V)과 공간정보(S)로부터 객체의 존재를 식별하고 그 식별된 객체가 포함된 대표이미지(I)를 추출하여 클라우드 서버(200)로 전송하며, 상기 클라우드 서버(200)로부터 객체인식 결과(R)와 보조정보(A)를 제공받아 XR 콘텐츠를 생성 표시하도록 구성된 XR 디바이스(100);
상기 XR 디바이스(100)로부터 수신한 대표이미지(I)의 AI 딥러닝 연산에 의해 객체인식 결과(R)를 획득하고, 데이터베이스 조회 또는 인터넷 검색을 통해 상기 객체인식 결과(R)와 관련된 보조정보(A)를 획득하고, 상기 객체인식 결과(R)와 상기 보조정보(A)를 상기 XR 디바이스(100)로 전송하도록 구성된 클라우드 서버(200);
를 포함하여 구성되는 클라우드 AI 기반의 XR 디바이스 운영 시스템.
A cloud AI-based XR device operating system in which the networked XR device 100 and the cloud server 200 cooperate to process XR content,
A camera module for generating a captured image (V) of the surroundings and a sensor module for acquiring spatial information (S) of the surroundings are provided, and the existence of an object is identified from the captured image (V) and the spatial information (S) in units of a predetermined time interval. And the representative image (I) containing the identified object is extracted and transmitted to the cloud server 200, and the object recognition result (R) and auxiliary information (A) are provided from the cloud server 200 to generate XR content. an XR device 100 configured to create and display;
An object recognition result (R) is obtained by an AI deep learning operation of the representative image (I) received from the XR device 100, and auxiliary information related to the object recognition result (R) through a database search or Internet search ( a cloud server 200 configured to acquire A) and transmit the object recognition result R and the auxiliary information A to the XR device 100;
A cloud AI-based XR device operating system composed of
청구항 1에 있어서,
상기 XR 디바이스(100)는 상기 대표이미지(I)와 상기 공간정보(S)를 상기 클라우드 서버(200)로 전송하고,
상기 클라우드 서버(200)는 상기 대표이미지(I)와 상기 공간정보(S)의 조합에 대해 AI 딥러닝 연산을 수행하도록 구성되는 것을 특징으로 하는 클라우드 AI 기반의 XR 디바이스 운영 시스템.
The method of claim 1,
The XR device 100 transmits the representative image (I) and the spatial information (S) to the cloud server 200,
The cloud server 200 is a cloud AI-based XR device operating system, characterized in that configured to perform an AI deep learning operation on the combination of the representative image (I) and the spatial information (S).
청구항 1에 있어서,
상기 공간정보(S)는 깊이정보 및 입체정보를 포함하여 구성되는 것을 특징으로 하는 클라우드 AI 기반의 XR 디바이스 운영 시스템.
The method of claim 1,
The spatial information (S) is a cloud AI-based XR device operating system, characterized in that configured to include depth information and three-dimensional information.
삭제delete 삭제delete
KR1020210147242A 2021-10-29 2021-10-29 XR device operation system by use of cloud AI KR102556606B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210147242A KR102556606B1 (en) 2021-10-29 2021-10-29 XR device operation system by use of cloud AI
PCT/KR2021/015487 WO2023074970A1 (en) 2021-10-29 2021-10-30 Cloud ai-based xr object-recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210147242A KR102556606B1 (en) 2021-10-29 2021-10-29 XR device operation system by use of cloud AI

Publications (2)

Publication Number Publication Date
KR20230062217A KR20230062217A (en) 2023-05-09
KR102556606B1 true KR102556606B1 (en) 2023-07-19

Family

ID=86158230

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210147242A KR102556606B1 (en) 2021-10-29 2021-10-29 XR device operation system by use of cloud AI

Country Status (2)

Country Link
KR (1) KR102556606B1 (en)
WO (1) WO2023074970A1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102282465B1 (en) * 2014-10-27 2021-07-27 한화테크윈 주식회사 Method and Apparatus for loitering visualization
KR102425578B1 (en) * 2017-08-08 2022-07-26 삼성전자주식회사 Method and apparatus for recognizing an object
KR102288323B1 (en) * 2019-07-19 2021-08-10 주식회사 엘지유플러스 Method for providing augmented reality service by cloud server, terminal and cloud server using the same
KR20190103099A (en) * 2019-08-16 2019-09-04 엘지전자 주식회사 Xr device and method for controlling the same
KR20190104945A (en) 2019-08-23 2019-09-11 엘지전자 주식회사 Xr device and method for controlling the same
KR20210057611A (en) * 2019-11-12 2021-05-21 엘지전자 주식회사 Artificial intelligence apparatus and method for recognizing object included in image data

Also Published As

Publication number Publication date
WO2023074970A1 (en) 2023-05-04
KR20230062217A (en) 2023-05-09

Similar Documents

Publication Publication Date Title
US10769411B2 (en) Pose estimation and model retrieval for objects in images
Xian et al. Structure-guided ranking loss for single image depth prediction
US11361505B2 (en) Model retrieval for objects in images using field descriptors
KR102319177B1 (en) Method and apparatus, equipment, and storage medium for determining object pose in an image
CN111179324B (en) Object six-degree-of-freedom pose estimation method based on color and depth information fusion
Betancourt et al. The evolution of first person vision methods: A survey
CN113420719B (en) Method and device for generating motion capture data, electronic equipment and storage medium
US20190392587A1 (en) System for predicting articulated object feature location
US20210027097A1 (en) Training methods for deep networks
CN108734078B (en) Image processing method, image processing apparatus, electronic device, storage medium, and program
CN112784765B (en) Method, apparatus, device and storage medium for recognizing motion
CN113902956B (en) Training method of fusion model, image fusion method, device, equipment and medium
CN111667005A (en) Human body interaction system adopting RGBD visual sensing
US11380121B2 (en) Full skeletal 3D pose recovery from monocular camera
CN111897422B (en) Real object interaction method and system for real-time fusion of virtual and real objects
WO2023184817A1 (en) Image processing method and apparatus, computer device, computer-readable storage medium, and computer program product
JP2023131117A (en) Joint perception model training, joint perception method, device, and medium
CN114187392A (en) Virtual even image generation method and device and electronic equipment
CN112580666A (en) Image feature extraction method, training method, device, electronic equipment and medium
KR102556606B1 (en) XR device operation system by use of cloud AI
CN115136205A (en) Unknown object recognition for robotic devices
CN114862716B (en) Image enhancement method, device, equipment and storage medium for face image
Yang et al. Towards generic 3d tracking in RGBD videos: Benchmark and baseline
Lee et al. Privacy-protection drone patrol system based on face anonymization
US12051168B2 (en) Avatar generation based on driving views

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right