KR102577472B1

KR102577472B1 - 동작 인식을 위한 가상 학습 데이터를 생성하는 방법 및 장치

Info

Publication number: KR102577472B1
Application number: KR1020180031896A
Authority: KR
Inventors: 김영희; 김진서; 박순찬; 박재휘; 박지영; 심광현; 유문욱; 정혁
Original assignee: 한국전자통신연구원
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2023-09-12
Also published as: KR20190110227A; US20190295278A1; US10685454B2

Abstract

동작 인식을 위한 가상 학습 데이터 생성 방법이 개시된다. 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 방법은, 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하는 단계; 상기 3차원 인체 모델의 볼륨 데이터를 3차원 선형 구조로 변환하여 인체 근골격 정보를 추출하는 단계; 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계; 및 상기 영상 및 근골격 정보의 데이터 셋을 동작 인식을 위한 가상 학습 데이터로 제공하는 단계를 포함할 수 있다.

Description

동작 인식을 위한 가상 학습 데이터를 생성하는 방법 및 장치{APPARATUS AND METHOD FOR GENERATING SYNTHETIC LEARNING DATA FOR MOTION RECOGNITION}

본 발명은 동작 인식을 위한 학습 데이터를 생성하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 사람의 동작을 인식하기 위해 다중 뎁스 카메라를 이용하여 가상 학습 데이터를 생성하는 방법 및 장치에 관한 것이다.

최근 딥러닝(Deep Learning)을 이용한 영상 인식이 좋은 성과를 보임에 따라서 자율 주행, 물체 인식, 동작 인식 등 다양한 분야에서 연구가 진행되고 있다. 이에 더하여 저가의 RGB-D 센서 카메라가 일반화됨에 따라서 이러한 센서를 사용하여 깊이 영상 또는 컬러 영상으로부터 사람의 근골격 정보를 추출하고 이를 기반으로 사람의 동작을 인식하거나 영상 자체로부터 동작을 인식하는 연구들이 활발히 진행되고 있다. 인간의 동작 인식은 보안, 감시, 스포츠 분석, 인간 컴퓨터 상호 작용 및 비디오 검색 등 다양한 어플리케이션에 활용될 수 있다.

딥러닝을 이용한 영상인식 방법은 학습 단계에서 많은 데이터가 필요하고 학습에 사용되는 데이터의 양이 인식 성능을 좌우할 정도로 중요하다. 따라서 다양하고 많은 학습 데이터가 필요하다 할 것이다. 많은 연구 분야에서 학습에 필요한 좋은 데이터를 공개하는 것만으로도 이슈가 되고 있다. 최근 몇 년 사이에는 실제 데이터를 제작하는 것이 비용 면이나 시간 면에서 너무 많은 자원을 필요로 함으로서, 가상의 데이터를 생성하는 방법들이 연구되고 있다.

가상의 데이터를 생성하는 기존의 방법들은 만들어진 3차원 인체 모델과 모션 데이터를 사용하여 그래픽스 렌더링 기술로 가상데이터를 생성하는 방식을 이용한다. 실제 촬영한 데이터를 사용하는 것보다는 비용과 시간 면에서 많은 도움이 되지만 여전히 문제는 남아있다. 가상의 인체 모델을 실제 사람과 같이 정교하게 모델링하고 사실적으로 움직이게 하는 것은 많은 시간과 자원을 필요로 하고, 가상의 모델에 다양한 옷을 입히는 것 또한 한계가 있다.

예를 들어, 가상의 모델에 치마를 입히고 움직임에 따라서 치마가 자연스럽게 움직이게 하려면 천 시뮬레이션(cloth simulation)과 같은 작업이 추가되어야 한다. 또한 필요한 모션 데이터와 충분한 양의 모션 데이터를 구하는 것도 쉽지 않다. 원하는 모션 데이터를 모캡(MoCap) 시스템으로 촬영하여 획득하는 것은 상당한 비용이 요구되고, CMU(Carnegie Mellon University) 모션 데이터와 같이 공개된 데이터를 사용하는 경우는 필요한 모션 데이터를 구하기 어려울 수 있다. 인체 모델과 동작 데이터를 연결하는 모션 리타게팅(Motion Retargeting) 또한 상당히 많은 시간을 요하는 작업이다.

따라서, 보다 효율적이고 저비용으로 동작 인식에 사용되는 가상 학습 데이터를 생성하는 방법이 요구된다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 동작 인식을 위한 가상 학습 데이터 생성 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 상기 가상 학습 데이터 생성 방법을 이용하는 가상 학습 데이터 생성 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 장치에 의해 수행되는 동작 인식을 위한 가상 학습 데이터 생성 방법은, 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하는 단계; 상기 3차원 인체 모델의 볼륨 데이터를 3차원 선형 구조로 변환하여 인체 근골격 정보를 추출하는 단계; 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계; 및 상기 영상 및 근골격 정보의 데이터 셋을 동작 인식을 위한 가상 학습 데이터로 제공하는 단계를 포함할 수 있다.

상기 인체 영상은 깊이 영상 및 컬러 영상 중 하나 이상을 포함할 수 있다.

상기 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하는 단계는, 복수의 깊이 카메라를 이용해 획득한 이미지로부터 프레임별로 상기 3차원 인체 모델을 생성하는 단계를 포함할 수 있다.

상기 깊이 카메라는 RGB-D 센서 또는 깊이 센서를 포함할 수 있다.

상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는, 깊이 맵을 이용한 렌더링 기술을 이용해 영상 및 근골격 정보의 데이터 셋을 생성하는 단계를 포함할 수 있다.

상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는 또한, 카메라 위치 및 카메라 특성 중 적어도 하나를 추가하여 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링함으로써 깊이 영상과 근골격 정보의 데이터 셋을 생성하는 단계를 포함할 수 있다.

상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는, 인체 모델의 텍스쳐, 배경 이미지, 카메라의 위치, 조명의 위치 및 종류 중 적어도 하나를 추가하여 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하고 컬러 영상과 근골격 정보의 데이터 셋을 생성하는 단계를 포함할 수 있다.

상기 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하는 단계는, 상기 복수의 깊이 카메라를 이용해 획득한 이미지로부터 도출한 볼륨 데이터를 이용해 메쉬를 생성하는 단계; 및 상기 생성된 3D 메쉬에 대해 홀 필링을 수행하는 단계를 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동작 인식을 위한 가상 학습 데이터 생성 장치는, 프로세서 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리를 포함할 수 있다.

여기서, 적어도 하나의 명령은 상기 프로세서로 하여금, 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하도록 하는 명령; 상기 3차원 인체 모델의 볼륨 데이터를 3차원 선형 구조로 변환하여 인체 근골격 정보를 추출하도록 하는 명령; 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령; 및 상기 영상 및 근골격 정보의 데이터 셋을 동작 인식을 위한 가상 학습 데이터로 제공하도록 하는 명령을 포함할 수 있다.

여기서, 인체 영상은 깊이 영상 및 컬러 영상 중 하나 이상을 포함할 수 잇다.

또한, 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하도록 하는 명령은, 복수의 깊이 카메라를 이용해 획득한 이미지로부터 프레임별로 상기 3차원 인체 모델을 생성하도록 하는 명령을 포함할 수 있다.

추가적으로, 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성하도록 하는 명령은, 복수의 깊이 카메라를 이용해 획득한 이미지로부터 도출한 볼륨 데이터를 이용해 메쉬를 생성하도록 하는 명령; 및 상기 생성된 3D 메쉬에 대해 홀 필링을 수행하도록 하는 명령을 포함할 수 있다.

한편, 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령은, 그래픽스의 깊이 맵을 이용한 렌더링 기술을 이용해 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령을 포함할 수 있다.

3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령은 또한, 카메라 위치 및 카메라 특성 중 적어도 하나를 추가하여 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링함으로써 깊이 영상과 근골격 정보의 데이터 셋을 생성하도록 하는 명령을 포함할 수 있다.

추가적으로, 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령은, 인체 모델의 텍스쳐, 배경 이미지, 카메라의 위치, 조명의 위치 및 종류 중 적어도 하나를 추가하여 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하고 컬러 영상과 근골격 정보의 데이터 셋을 생성하도록 하는 명령을 포함할 수 있다.

가상 학습 데이터 생성 장치는 상기 프로세서에 의해 생성된 3차원 인체 모델, 컬러 영상 및 근골격 정보의 데이터 셋, 상기 깊이 영상 및 근골격 정보의 데이터 셋 등의 정보 또는 데이터를 저장하는 저장소를 포함할 수 있다.

가상 학습 데이터 생성 장치는 또한, 인체에 대한 컬러 이미지 및 깊이 이미지 중 적어도 하나의 이미지를 획득하는 복수의 카메라 또는 센서를 포함하는 카메라 모듈을 포함할 수 있다. 여기서, 센서는 다중 RGB-D 센서 또는 깊이 센서를 포함할 수 있다.

상기와 같은 본 발명의 실시예들에 따르면, 기 생성된 가상의 3차원 인체 모델과 모션 데이터를 사용하여 학습 데이터를 생성하는 기존 방법에서 필요했던 가상의 인체 모델 생성, 모션 데이터 획득, 및 모션 리타겟팅 등의 절차를 제거할 수 있다.

또한, 본 발명에 따르면, 가상의 인체 모델을 사용하는 경우에 비하여 다양한 의상을 착용한 사람들에 대한 다양한 데이터를 획득할 수 있다.

도 1은 본 발명의 일 실시예에 따라 영상 및 근골격 정보의 데이터 셋을 생성하는 과정을 개념적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따라 3D 인체 모델을 생성하는 방법의 개념도이다.
도 3은 본 발명의 일 실시예에 따라 3D 인체 근골격 추출 방법에 따라 추출된 인체 근골격 좌표 정보를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 깊이 영상 및 근골격 정보의 데이터 셋을 도시한다.
도 5는 본 발명의 일 실시예에 따른 컬러 영상 및 근골격 정보의 데이터 셋을 도시한다.
도 6은 본 발명의 일 실시예에 따른 인체 모델의 텍스쳐 매핑 과정을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 방법의 동작 순서도이다.
도 8은 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 장치의 블록 구성도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명은 깊이 영상 또는 컬러 영상을 이용한 동작 인식을 위해 필요한 가상 데이터를 생성하는 시스템에서, 모든 과정을 실제 사람의 움직임에서 획득한 데이터를 기반으로 하여 수행하고, 저비용으로 다양한 가상 데이터를 생성하는 방법을 제안한다.

도 1은 본 발명의 일 실시예에 따라 영상 및 근골격 정보의 데이터 셋을 생성하는 과정을 개념적으로 나타낸 도면이다.

본 발명에서는 다수의 뎁스 카메라를 사용하여 3차원 인체 모델과 동작 데이터를 실시간으로 생성하고 이를 기반으로 깊이 또는 컬러 영상과 동작 데이터가 일치된 데이터 셋을 저비용으로 다양하게 만들 수 있는 가상 데이터 생성 방법을 제안한다.

도 1을 참조하면, 동작 인식의 학습을 위하여 깊이 또는 컬러 영상과 인체 근 골격 정보 세트 데이터를 가상으로 생성하기 위한 전체 프로세스가 개시된다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 방법에 따르면, 3D 인체 모델, 인체의 근 골격 정보, 텍스쳐, 배경 이미지, 영상 및 근 골격 정보의 데이터 셋(set)이 차례로 생성될 수 있다.

좀더 구체적으로, 3D 인체 모델은 다중 RGB-D 센서 또는 깊이 센서를 여러 개 사용하는 카메라를 이용해 획득한 이미지로부터 사람이 움직임에 따라서 실시간으로 모든 프레임에서 생성된다(S110). RGB-D 센서 또는 깊이 센서를 이용하는 카메라에 의해 획득되는 객체 이미지는 한 쌍의 2D 이미지를 포함하는데, 그 중 하나는 표준 레드-그린-블루(RGB) 값을 갖는 컬러 이미지이고, 다른 하나는 이미지 내 각 픽셀이 그레이스케일 값으로 표현되는 깊이 이미지일 수 있다. RGB-D 센서의 대표적인 예로는 마이크로소프트의 키넥트(Kinect) 센서를 들 수 있다.

이후, 3차원 인체 모델로부터 3차원의 인체 근 골격 정보가 실시간으로 모든 프레임에서 추출된다(120). 생성된 인체 모델과 근 골격 정보를 기반으로 다양한 데이터를 생성하기 위하여 다양한 텍스쳐를 이용해 인체 모델의 의상을 변경할 수 있다(130). 추가적으로, 깊이 영상 데이터에서는 배경이 필요 없지만 컬러 영상 데이터에서는 다양한 배경의 데이터들이 필요할 수 있다. 따라서, 컬러 영상에 대해 배경 이미지를 선택할 수 있고(S140), 그에 따라 다양한 데이터를 생성할 수 있다.

깊이 또는 컬러 영상을 획득할 카메라를 도 1에 도시된 바와 같이 임의의 위치로 설정하고 그래픽스의 깊이 맵(depth map)을 이용한 렌더링 기술을 이용하면 깊이 영상과 근 골격 정보 세트 데이터를 획득할 수 있다(S150). 또한 그래픽스의 3D 렌더링 기술을 이용하면 컬러 영상과 근 골격 정보 세트를 획득할 수 있다. 카메라의 특성과 위치를 바꾸어 가며 원하는 데이터를 필요한 만큼 생성할 수 있다.

렌더링(Rendering)은 컴퓨터 프로그램을 사용하여 모델(또는 이들을 모아놓은 장면인 씬(scene) 파일)로부터 영상을 만들어내는 과정을 지칭한다. 하나의 씬 파일에는 정확히 정의된 언어나 자료 구조로 이루어진 개체들이 있으며, 여기에는 가상의 장면(씬)을 표현하는 도형의 배열, 시점, 텍스처 매핑, 조명, 셰이딩 정보가 포함될 수 있다. 씬 파일에 포함된 자료들은 렌더링 프로그램에서 처리되어 결과물로서 디지털 이미지, 래스터 그래픽스 이미지 파일을 생성할 수 있다. GPU는 중앙 처리 장치(CPU)가 복잡한 렌더링 계산을 수행할 때 도움을 준다.

도 2는 본 발명의 일 실시예에 따라 3D 인체 모델을 생성하는 방법의 개념도이다.

다중 깊이 카메라를 이용한 3차원 인체 모델 생성 및 동작 데이터 생성 시스템은 도 2와 같다. 도 2는 4개의 카메라를 사용하여 4개의 카메라의 깊이 정보로부터 3차원 인체 모델을 만드는 환경을 보여준다. 사용되는 카메라의 수는 변동 가능하고 사용된 카메라들은 캘리브레이션(Camera Calibration)되어 있는 것이 바람직하다.

본 발명의 일 실시예에 따른3차원 인체 모델을 생성하기 위해, GPU(Graphics Processing Units) 가속 기반의 키넥트퓨전(KinectFusion)과 같이 볼륨 데이터를 사용하고 마칭 큐브(marching cube) 방식으로 메쉬(mesh)를 생성하는 방식을 이용한다. 이후 3D 렌더링 과정에서 깊이 영상을 얻기 위해서는 인체 모델에 홀(hole)이 없어야 한다. 그러나 다수의 깊이(depth) 카메라를 사용하더라도 깊이 데이터는 자기 가림(self-occlusion)에 의해 또는 깊이 카메라의 특성에 의해 수 많은 홀(hole)이 존재하게 된다. 이처럼, GPU 가속 기반의 홀-필링(hole-filling) 알고리즘을 사용함으로써 실시간으로 3차원 인체 모델을 생성할 수 있다.

모든 과정에 대해 GPU 가속을 하더라도 연산량이 많아 실시간으로 인체 모델을 생성할 수 없는 경우에 볼륨 데이터의 해상도를 조절할 수 있다. 낮은 볼륨 해상도에서 만들어진 인체 모델은 인체 모델의 디테일이 줄어들지만 가상의 깊이 정보 데이터를 생성하기에 충분하다. 해상도를 유지하고자 하는 경우는 다수의 GPU를 사용하고 프레임 단위로 GPU 들이 연산을 나누어 수행하면 고 해상도의 인체 모델을 실시간으로 생성할 수 있다.

도 3은 본 발명의 일 실시예에 따라 3D 인체 근골격 추출 방법에 따라 추출된 인체 근골격 좌표 정보를 나타낸다.

본 발명에서는, 다수 카메라의 깊이 데이터나 포인트 클라우드(point cloud)로부터 인체 근골격 정보를 추출하지 않고, 앞서 설명한 절차에 따라 실시간으로 생성된 3차원 인체 모델로부터 인체 근 골격 정보를 추출한다. 추출된 인체 근 골격의 3차원 좌표 정보는 도 3에 도시된 바와 같다.

본 발명의 일 실시예에 따른 3차원 인체 모델의 볼륨 데이터는 SDF(signed distance function)와 같은 암시적 표현(implicit shape representation)의 데이터를 포함한다. 암시적 표현의 데이터를 세션화(thinning)하거나 3차원 거리 맵(distance map)을 추출하면 3차원 선형 구조(linear structure)로 변환할 수 있다. 도출된 3차원 선형 구조에 일반적인 인체의 근 골격이 가지는 특성 정보를 반영하여 3차원 인체 근 골격 정보를 추출할 수 있다.

인체의 근 골격 정보는 사람의 관절 부위 및 몸의 움직임에 관여하는 주요한 뼈의 위치를 포함할 수 있다. 팔에서 골격 정보는 손 지점, 손목 지점, 팔꿈치 지점 및 어깨 지점을 포함할 수 있고, 다리에서 골격 정보는 발 지점, 발목 지점, 무릎 지점 및 엉덩이 지점을 포함할 수 있다. 나머지 골격 정보는 머리 지점, 어깨 중심 지점, 척추 지점, 엉덩이 중심 지점을 포함할 수 있다.

도 4 및 도 5는 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 방법에 의해 생성된 영상 및 근골격 정보의 데이터 세트를 도시한다. 도 4는 깊이 영상 및 근골격 정보의 데이터 셋을 도시하고, 도 5는 컬러 영상 및 근골격 정보의 데이터 셋을 도시한다.

그래픽스의 깊이 버퍼를 사용한 렌더링 기술을 이용하면 앞서 생성된 3차원 인체 모델과 3차원 인체 근골격 정보로부터 임의의 카메라 위치와 카메라 특성에 맞는 깊이 영상과 근골격 정보의 데이터 셋을 획득할 수 있다.

또한, 카메라의 위치, 조명의 위치 및 종류, 배경 이미지, 인체 모델의 텍스쳐 등을 선택하고 그래픽스의 3D 렌더링 기술을 이용하면 원하는 컬러 영상과 근 골격 정보의 데이터 셋을 획득할 수 있다. 또한 실제 환경을 촬영한 데이터를 모사하기 위하여 인체 모델과 배경 등에 노이즈를 추가할 수 있다.

일반적으로 임의의 카메라 시점에서의 깊이 정보 또는 컬러 정보와 사람의 관절 정보(2D 또는 3D)를 하나의 데이터 셋으로 하여 동작인식을 위한 학습데이터로 사용한다.

한편, 3차원 인체 모델에 텍스쳐 매핑을 수행하는 과정은 숙련된 디자이너의 많은 시간과 노력을 요하는 작업이다. 텍스쳐 매핑(texture mapping) 은 컴퓨터 그래픽스 분야에서 가상의 3차원 물체의 표면에 세부적인 질감의 묘사를 하거나 색을 칠하는 기법이다. 일반적으로는 수식이나 2차원의 그림을 3차원 물체의 표면에 여러 가지 방법을 통하여 적용하고 이에 따라 컴퓨터 그래픽 화면을 만들어 나갈 때 마치 실제의 물체처럼 느껴지게끔 그 세부 묘사를 하는 것이다.

일반적인 텍스쳐 매핑의 초기 단계에서는 하나의 동작 데이터 세트, 즉 연속적인 프레임들에서 메쉬 구조에 변화가 없는 3차원 인체모델이 있고 해당 모델은 리깅(rigging) 작업이 되어 있는 상태이다. 이러한 인체 모델에 동작 데이터를 적용하면 인체 모델이 움직이는 연속적인 프레임들이 생성될 수 있다. 여기서, 리깅은 모델링된 각가그이 어브젝트에 뼈대와 근육을 만들어주는 작업을 의미할 수 있다. 리깅 작업을 통해 해당 오브젝트 또는 캐릭터가 움직일 수 있다.

텍스쳐 매핑의 처음 단계에서 인체 모델의 uv맵과 이에 부합하는 텍스쳐가 생성되면 연속적으로 이어지는 프레임에서는 자동으로 uv 매핑된다. 여기서, uv 매핑은 2차원 그림을 3차원 모델로 만드는 모델링 프로세스이다. 본 명세서에서는 편의상, uv 매핑을 텍스쳐 매핑이라고 칭하기로 한다. 이러한 과정은 앞서 설명한 인체 모델과 동작데이터가 주어질 때 적용할 수 있는 방법이다.

복수의 카메라로부터 실시간으로 복원된 인체 모델은 매 프레임마다 메쉬 구조가 변화하므로, 모든 프레임에서 uv맵과 텍스쳐를 생성해야 한다. 하지만, 이러한 과정에는 많은 노력과 시간이 소요되므로, 해당 과정을 매 프레임에서 수행하는 것은 대용량 학습 데이터를 생성하고자 하는 본 발명의 의도에 적합하지 않다.

도 6은 본 발명의 일 실시예에 따른 인체 모델의 텍스쳐 매핑 과정을 나타낸 도면이다.

본 발명의 일 실시예에 따른 텍스쳐 매핑에 따르면, 우선 T-포즈(T-pose)의 인체 모델(a)를 생성한다. 이후, 앞서 본 발명의 실시예에 따라 추출된 근 골격 정보를 기반으로 인체 모델을 실린더 모델로 매핑한다(b). 실린더 모델이 마련되면, 원통좌표계 변환 및 투영을 통해, 실린더 모델에 대응하는 uv 맵과 텍스쳐(c 및 d)를 생성하고 이어지는 프레임에 적용한다. 여기서, 이어지는 프레임의 근 골격 정보에 따라서 실린더 모델(실린더 길이, 실린더 지름)의 구조가 조금씩 바뀔 수 있고, 그에 따라 uv맵 또한 조금씩 바뀔 수 있다.

본 발명의 일 실시예에 따른 텍스쳐 매핑은 uv 맵 생성시 일반적인 절차에 따라 uv 맵을 생성하는 대신, 신체 파트들 간의 간격을 여유롭게 띄우고, T-포즈에서 텍스쳐를 생성할 때 각 신체 파트별 영역에 대한 텍스쳐가 신체 파트별 영역의 실제 사이즈보다 크도록 텍스쳐를 생성할 수 있다. 이러한 방법에 따르면, uv맵이 약간씩 변화하더라도 각 신체 파트별 영역에 원하는 텍스쳐를 입힐 수 있다. 이러한 본 발명의 일 실시예에 따르면 일반적인 애니메이션처럼 프레임간 일치하는 정확한 텍스쳐가 입혀지지는 않지만 한 번의 uv맵 생성과 텍스쳐 생성으로 원하는 텍스쳐를 입힐 수 있다는 이점이 있다. 또한, 본 발명은 학습에 필요한 다양한 데이터 세트를 생성하기 위한 것으로, 애니메이션에 적용되는 텍스쳐 매핑에 비해 텍스쳐의 질을 어느 정도 양보할 수 있다.

도 7은 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 방법의 동작 순서도이다.

도 7에 도시된 가상 학습 데이터 생성 방법은 본 발명에 따른 가상 학습 데이터 생성 장치에 의해 수행될 수 있다.

가상 학습 데이터 생성 장치는 우선, 복수의 깊이 카메라를 이용해 움직이는 인체에 대한 영상을 실시간으로 획득하고(S610), 인체의 움직임에 따라 실시간으로 3차원 인체 모델을 생성한다(S610).

여기서, 3차원 인체 모델을 생성하는 단계는, 구체적으로, 복수의 깊이 카메라를 이용해 획득한 이미지로부터 도출한 볼륨 데이터를 이용해 메쉬를 생성하고, 생성된 3D 메쉬에 대해 홀 필링을 수행함으로써 3차원 인체 모델을 생성한다.

3차원 인체 모델이 완성되면, 3차원 인체 모델의 볼륨 데이터를 3차원 선형 구조로 변환하여 인체 근골격 정보를 추출한다(S640). 이후, 3차원 인체 모델

및 상기 인체 근골격 정보를 렌더링하여(S650), 인체 영상 및 근골격 정보의 데이터 셋을 생성할 수 있다(S660).

여기서, 인체 영상 및 근골격 정보의 데이터 셋은 그래픽스의 깊이 맵을 이용한 렌더링 기술을 이용해 생성될 수 있다.

또한, 인체 모델의 텍스쳐, 배경 이미지, 카메라의 위치, 조명의 위치 및 종류, 중 적어도 하나를 추가하여 3차원 인체 모델 및 인체 근골격 정보를 렌더링하고 컬러 영상과 근골격 정보의 데이터 셋을 생성할 수 있다.

생성된 영상 및 근골격 정보의 데이터 셋은 동작 인식을 위한 가상 학습 데이터로 제공된다(S670).

도 8은 본 발명의 일 실시예에 따른 가상 학습 데이터 생성 장치의 블록 구성도이다.

본 발명의 일 실시예에 따른 가상 학습 데이터 생성 장치(100)는 프로세서(110) 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리(120), 저장소(storage)(130), 및 카메라 모듈(340)을 포함할 수 있다. 한편, 프로세서(110)는 CPU(Central Processing Unit) 및 GPU(Graphics Processing Unit)를 포함할 수 있다.

한편, 저장소(storage)(130)는 프로세서에 의해 생성된 3차원 인체 모델, 컬러 영상 및 근골격 정보의 데이터 셋, 상기 깊이 영상 및 근골격 정보의 데이터 셋 등의 정보 또는 데이터를 저장할 수 있다.

추가적으로, 카메라 모듈(140)은 인체에 대한 컬러 이미지 및 깊이 이미지 중 적어도 하나의 이미지를 획득하는 복수의 카메라 또는 센서를 포함할 수 있다. 여기서, 센서는 다중 RGB-D 센서 또는 깊이 센서를 포함할 수 있다.

이상에서 설명한 바와 같이, 본 발명은 동작인식을 위한 깊이 영상 또는 컬러 영상과 인체 근 골격 정보 세트의 가상 데이터를 만드는 데 있어, 만들어진 3차원 인체 모델과 모션데이터를 사용하는 방법이 아닌 실시간으로 3차원 인체 모델을 만들고 만들어진 인체 모델로부터 근 골격 정보를 추출하여 가상 데이터를 만드는 방법을 제시한다.

본 발명에서는 다수의 RGB-D 카메라 또는 다수의 뎁스 카메라를 사용하여 사람이 움직이는 상황에서 실시간으로 모든 프레임에서 3차원 인체 모델을 생성하고, 모든 프레임의 인체 근 골격 정보를 추출한다. 따라서 가상의 인체 모델을 만들고, 모캡을 이용하여 모션 데이터를 획득하고, 모션 리타게팅으로 모델을 움직이게 하는 모든 과정을 제거할 수 있다. 또한 가상의 인체 모델을 사용하는 경우에 비하여 다양한 의상을 착용한 사람들에 대한 다양한 데이터를 획득할 수 있다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 가상 학습 데이터 생성 장치 110: 프로세서
120: 메모리 130: 저장소 140: 카메라 모듈

Claims

가상 학습 데이터 생성 장치에 의해 수행되는 동작 인식을 위한 가상 학습 데이터 생성 방법으로서,
서로 다른 방향들에서 인체의 움직임을 촬영한 복수의 깊이 카메라들의 이미지들로부터 프레임별로 인체 영상을 획득하여 실시간으로 3차원 인체 모델을 생성하는 단계;
상기 3차원 인체 모델의 볼륨 데이터를 3차원 선형 구조로 변환하여 인체 근골격 정보를 추출하는 단계-여기서, 상기 3차원 선형 구조로의 변환은 SDF(signed distance function) 또는 암시적 표현의 데이터를 포함하는 상기 볼륨 데이터를 세선화(thinning)하거나 3차원 거리 맵을 추출하는 것을 포함하며, 추출되는 인체 근골격 정보는 상기 3차원 선형 구조에 인체 모델의 근 골격이 가지는 특성 정보를 반영한 것임-;
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계; 및
상기 인체 영상 및 근골격 정보의 데이터 셋을 동작 인식을 위한 가상 학습 데이터로 제공하는 단계를 포함하는, 가상 학습 데이터 생성 방법.
청구항 1에 있어서,
상기 프레임별로 실시간 획득되는 인체 영상은 깊이 영상 및 컬러 영상 중 하나 이상을 포함하는, 가상 학습 데이터 생성 방법.
삭제
청구항 1에 있어서,
상기 복수의 깊이 카메라들은 RGB-D 센서 또는 깊이 센서를 포함하는, 가상 학습 데이터 생성 방법.
청구항 1에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는, 깊이 맵을 이용한 렌더링 기술을 이용하는, 가상 학습 데이터 생성 방법.
청구항 1에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는, 상기 3차원 인체 모델과 인체 근골격 정보로부터 특정 카메라 위치 및 카메라 특성에 맞는 깊이 영상과 근골격 정보의 데이터 셋을 생성하는, 가상 학습 데이터 생성 방법.
청구항 1에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는, 인체 모델의 텍스쳐, 배경 이미지, 카메라의 위치, 조명의 위치 및 종류 중 적어도 하나를 추가하여 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하고 컬러 영상과 인체 근골격 정보의 데이터 셋을 생성하는, 가상 학습 데이터 생성 방법.
청구항 1에 있어서,
상기 3차원 인체 모델을 생성하는 단계는,
상기 볼륨 데이터로부터 3D 메쉬를 생성하는 단계; 및
상기 생성된 3D 메쉬에 대해 홀 필링(hole filling)을 수행하는 단계를 포함하는, 가상 학습 데이터 생성 방법.
청구항 1에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하는 단계는,
상기 3차원 인체 모델에 대한 T-포즈를 생성하는 단계;
상기 T-포즈의 인체 모델을 실린더 모델로 매핑하는 단계; 및
상기 실린더 모델에 대응하는 uv 맵 및 텍스쳐를 생성하고 이어지는 프레임에 상기 uv 맵과 텍스쳐를 적용하는 단계를 포함하며,
상기 이어지는 프레임의 근 골격 정보에 따라서 상기 실린더 모델의 구조가 변경되고 상기 uv 맵이 변경되는, 가상 학습 데이터 생성 방법.
청구항 9에 있어서,
상기 uv 맵의 생성시,
상기 T-포즈의 인체 모델의 신체 파트들 간 간격이 일정 값 이상이고, 상기 T-포즈의 인체 모델에서 상기 텍스쳐의 생성 시, 각 신체 파트별 영역에 대한 텍스쳐의 사이즈가 실제 신체 파트별 영역의 실제 사이즈보다 크게 생성되는, 가상 학습 데이터 생성 방법.
동작 인식을 위한 가상 학습 데이터를 생성하는 장치로서,
프로세서; 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고,
상기 적어도 하나의 명령은,
서로 다른 방향들에서 인체의 움직임을 촬영한 복수의 깊이 카메라들의 이미지들로부터 프레임별로 인체 영상을 획득하여 실시간으로 3차원 인체 모델을 생성하도록 하는 명령;
상기 3차원 인체 모델의 볼륨 데이터를 3차원 선형 구조로 변환하여 인체 근골격 정보를 추출하도록 하는 명령-여기서, 상기 3차원 선형 구조로의 변환은 SDF(signed distance function) 또는 암시적 표현의 데이터를 포함하는 상기 볼륨 데이터를 세선화(thinning)하거나 3차원 거리 맵을 추출하는 것을 포함하며, 추출되는 인체 근골격 정보는 상기 3차원 선형 구조에 인체 모델의 근 골격이 가지는 특성 정보를 반영한 것임-;
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령; 및
상기 인체 영상 및 근골격 정보의 데이터 셋을 동작 인식을 위한 가상 학습 데이터로 제공하도록 하는 명령을 포함하는, 가상 학습 데이터 생성 장치.
청구항 11에 있어서,
상기 프레임별로 실시간 획득되는 인체 영상은 깊이 영상 및 컬러 영상 중 하나 이상을 포함하는, 가상 학습 데이터 생성 장치.
삭제
청구항 11에 있어서,
상기 복수의 깊이 카메라들은 RGB-D 센서 또는 깊이 센서를 포함하는, 가상 학습 데이터 생성 장치.
청구항 11에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령은,
상기 3차원 인체 모델에 대한 T-포즈를 생성하도록 하는 명령;
상기 T-포즈의 인체 모델을 실린더 모델로 매핑하도록 하는 명령; 및
상기 실린더 모델에 대응하는 uv 맵 및 텍스쳐를 생성하고 이어지는 프레임에 적용하도록 하는 명령을 포함하며,
상기 이어지는 프레임의 근 골격 정보에 따라서 상기 실린더 모델의 구조가 변경되고 상기 uv 맵이 변경되는, 가상 학습 데이터 생성 장치.
청구항 11에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령은,
상기 3차원 인체 모델과 인체 근골격 정보로부터 특정 카메라 위치 및 카메라 특성에 맞는 깊이 영상과 인체 근골격 정보의 데이터 셋을 생성하도록 하는 명령을 포함하는, 가상 학습 데이터 생성 장치.
청구항 11에 있어서,
상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하여 인체 영상 및 근골격 정보의 데이터 셋을 생성하도록 하는 명령은,
인체 모델의 텍스쳐, 배경 이미지, 카메라의 위치, 조명의 위치 및 종류 중 적어도 하나를 추가하여 상기 3차원 인체 모델 및 상기 인체 근골격 정보를 렌더링하고 컬러 영상과 인체 근골격 정보의 데이터 셋을 생성하도록 하는 명령을 포함하는, 가상 학습 데이터 생성 장치.
청구항 11에 있어서,
상기 3차원 인체 모델을 생성하도록 하는 명령은,
상기 볼륨 데이터로부터 3D 메쉬를 생성하도록 하는 명령; 및
상기 생성된 3D 메쉬에 대해 홀 필링(hole filling)을 수행하도록 하는 명령을 포함하는, 가상 학습 데이터 생성 장치.
청구항 11에 있어서,
상기 프로세서에 의해 생성된 3차원 인체 모델, 컬러 영상 및 인체 근골격 정보의 데이터 셋, 상기 깊이 영상 및 인체 근골격 정보의 데이터 셋 중 적어도 하나를 저장하는 저장소를 더 포함하는, 가상 학습 데이터 생성 장치.
삭제