KR20220027187A

KR20220027187A - 장면 인터랙션 방법 및 장치, 전자 장치 및 컴퓨터 저장 매체

Info

Publication number: KR20220027187A
Application number: KR1020227002916A
Authority: KR
Inventors: 위솬 량
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2020-01-16
Filing date: 2020-11-10
Publication date: 2022-03-07
Also published as: CN111274910A; US12033241B2; CN111274910B; JP7408792B2; EP3998550A1; JP2022551660A; WO2021143315A1; EP3998550A4; US20220156986A1

Abstract

본 출원은 장면 인터랙션 방법 및 장치, 전자 장치 및 컴퓨터 저장 매체를 제공하며, 인공지능 기술 분야에 속한다. 상기 방법은: 가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정하는 단계; 각각의 실제 장면의 실제 장면 정보를 실시간으로 획득하는 단계; 각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하는 단계; 및 상기 가상 장면과 상기 실제 장면 간의 대응관계에 따라 상기 적어도 하나의 실제 장면의 장면 특징을 상기 가상 장면에 매핑하는 단계를 포함한다. 본 출원을 통해 인터랙션 효과가 향상될 뿐만 아니라 더욱 다양한 인터랙션 효과가 달성될 수 있다.

Description

장면 인터랙션 방법 및 장치, 전자 장치 및 컴퓨터 저장 매체

본 출원은 2020년 1월 16일에 출원된 중국 특허 출원 번호 202010049112.1에 기초하여 출원되고 그에 대한 우선권을 주장하며, 이는 그 전문이 참고로 포함된다.

본 출원은 인공 지능 기술 분야에 관한 것으로, 장면 인터랙션 방법 및 장치, 전자 장치 및 컴퓨터 저장 매체에 관한 것이지만 이에 제한되지는 않는다.

인터넷과 정보 기술의 발달로 점점 더 많은 기업이 네트워크 통신 기술의 도움으로 다양한 온라인 및 오프라인 마케팅 활동을 조직하고 착수할 수 있다. 활동 현장에 있는 사용자는 오프라인 활동에 직접 참여할 수 있고, 활동 현장에 있지 않은 사용자는 휴대폰이나 컴퓨터와 같은 네트워크 통신 장치의 도움으로 온라인 활동에 참여할 수 있다.

그렇지만, 종래의 활동을 조직화하는 방식에서는 온라인 활동과 오프라인 활동이 분리되어 있다. 결과적으로, 일반적으로 직접적인 인터랙션을 수행하기 어렵거나 제한된 형태의 단순한 인터랙션만 수행할 수 있다. 따라서 활동 장면의 인터랙션 효율성과 인터랙션 품질을 어떻게 향상시킬 것인가는 현재 해결해야 할 시급한 과제이다.

이러한 관점에서, 본 출원의 실시예는 인터랙션 효율을 향상시킬 뿐만 아니라 더욱 다양한 인터랙션 효과를 달성하기 위해 장면 인터랙션 방법 및 장치, 전자 장치, 및 컴퓨터 저장 매체를 제공한다.

본 출원의 실시예에서의 기술적 솔루션은 다음과 같이 구현된다:

본 출원의 실시예는 전자 장치에 의해 수행되는 장면 인터랙션 방법을 제공한다. 방법은: 가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정하는 단계; 각각의 실제 장면의 실제 장면 정보를 실시간으로 획득하는 단계; 각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하는 단계; 및 상기 가상 장면과 상기 실제 장면의 대응관계에 따라 상기 적어도 하나의 실제 장면의 장면 특징을 상기 가상 장면에 매핑하는 단계를 포함한다.

본 출원의 실시예는 장면 인터랙션 장치를 제공한다. 장치는: 가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정하도록 구성된 장면 결정 모듈; 실시간으로 각각의 실제 장면의 실제 장면 정보를 획득하도록 구성된 정보 획득 모듈; 각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하도록 구성된 특징 추출 모듈; 및 가상 장면과 실제 장면 간의 대응관계에 따라 적어도 하나의 실제 장면의 장면 특징을 가상 장면에 매핑하도록 구성된 특징 매핑 모듈을 포함한다.

본 출원의 실시예는 컴퓨터 판독 가능형 저장 매체를 제공한다. 컴퓨터 판독 가능형 저장 매체는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 프로세서에 의해 실행될 때 전술한 기술 솔루션에 따른 장면 인터랙션 방법을 구현한다.

본 출원의 실시예는 전자 장치를 제공한다. 전자 장치는 프로세서; 및 프로세서의 실행 가능한 명령어를 저장하도록 구성된 메모리; 여기서 프로세서는 전술한 기술 솔루션에 따라 장면 인터랙션 방법을 수행하기 위해 실행 가능한 명령을 실행하도록 구성된다.

본 출원의 실시예에서 제공되는 기술적 솔루션에서, 실제 장면 정보에 대해 특징 추출을 수행하여 실제 장면의 장면 특징을 획득하고, 실제 장면의 장면 특징을 가상 장면에 매핑함으로써, 온라인 가상 장면과 오프라인 캐릭터 및 장면의 실시간 통합 및 인터랙션을 구현하여 인터랙션 효율성을 향상시킬 뿐만 아니라 더욱 다양한 인터랙션 효과를 달성한다.

본 명세서에 첨부된 도면은 명세서에 포함되어 그 일부를 구성하고, 본 출원의 실시예를 예시하고, 본 명세서와 함께 본 출원의 실시예의 원리를 설명하는 데 사용된다. 명백히, 후술하는 첨부 도면은 본 출원의 일부 실시예에 불과하며, 당업자는 창조적 노력 없이 첨부 도면에 따라 다른 첨부 도면을 추가로 얻을 수 있다. 첨부 도면에서:
도 1은 본 출원의 실시예에 따른 기술 솔루션이 적용되는 예시적인 시스템 아키텍처의 개략도를 개략적으로 도시한다.
도 2는 본 출원의 일부 실시예에 따른 장면 인터랙션 방법의 단계의 흐름도를 개략적으로 도시한다.
도 3은 본 출원의 실시예에서 가상 장면과 실제 장면이 인터랙션하는 애플리케이션 장면의 개략도를 개략적으로 도시한다.
도 4는 본 출원의 실시예에 따른 WebSocket을 기반으로 구축된 실시간 인터랙션 장면 통신 모델의 개략도를 개략적으로 도시한다.
도 5는 본 출원의 실시예에 따른 WebSocket 프로토콜에 기반한 통신 시퀀스 다이어그램을 개략적으로 도시한다.
도 6은 본 출원의 일부 실시예에 따른 이미지 정보에 대해 특징 추출을 수행하는 단계의 흐름도를 개략적으로 도시한다.
도 7은 본 출원의 실시예에 따라 CNN 모델을 사용하여 이미지 특징을 추출하는 개략적인 원리도를 개략적으로 도시한다.
도 8은 본 출원의 실시예에서 TensorFlow의 개략적인 시스템 레이아웃 다이어그램을 개략적으로 도시한다.
도 9는 본 출원의 일부 실시예에서 장면 특징에 대한 특징 매핑을 수행하는 단계의 흐름도를 개략적으로 도시한다.
도 10은 본 출원의 실시예에 의해 제공되는 장면 인터랙션 방법의 애플리케이션 장면의 단계들의 흐름도를 개략적으로 도시한다.
도 11a는 본 출원의 실시예에서 획득된 3차원 공간 이미지 정보의 표시 상태의 개략도를 개략적으로 도시한다.
도 11b는 본 출원의 실시예에서 실제 장면 콘텐츠를 통합한 후 가상 장면의 표시 상태의 개략도를 개략적으로 도시한다.
도 12는 본 출원의 실시예에서 음성 파형 그래프와 배경 음악 사이의 매칭 관계의 개략도를 개략적으로 도시한다.
도 13은 본 출원의 실시예에서 장면 인터랙션에 사용되는 변경 제어기를 개략적으로 도시한다.
도 14는 본 출원의 일부 실시예에서 장면 인터랙션 장치의 구조적 블록도를 개략적으로 도시한다.
도 15는 본 출원의 실시예에 따른 전자 디바이스를 구현하도록 구성된 컴퓨터 시스템의 개략적인 구조도이다.

이제 예시적인 구현이 첨부 도면을 참조하여 보다 포괄적으로 설명된다. 그러나 본 발명의 실시 예는 다양한 형태로 구현될 수 있으며 여기에서 설명하는 예에 한정되는 것은 아니다. 역으로, 이러한 구현은 본 출원을 보다 포괄적이고 완전하게 만들고 예시적인 구현의 개념을 당업자에게 완전히 전달하기 위해 제공된다.

또한, 설명된 특징, 구조 또는 특징은 임의의 적절한 방식으로 하나 이상의 실시예에서 조합될 수 있다. 다음 설명에서, 본 출원의 실시예의 완전한 이해를 제공하기 위해 많은 특정 세부사항이 제공된다. 그렇지만, 당업자는 본 출원의 실시예의 기술적 솔루션이 하나 이상의 특정 세부사항 없이 구현될 수 있거나, 또는 다른 방법, 유닛, 장치 또는 단계가 채택될 수 있음을 인지해야 한다. 다른 경우에, 잘 알려진 방법, 장치, 구현 또는 동작은 본 출원의 실시예의 관점을 모호하게 하는 것을 피하기 위해 상세하게 도시되거나 설명되지 않는다.

첨부된 도면에 도시된 블록도는 단지 기능적 엔티티일 뿐이며 물리적으로 독립된 엔티티에 반드시 대응하는 것은 아니다. 구체적으로, 이러한 기능 엔티티는 소프트웨어의 형태로 구현되거나, 하나 이상의 하드웨어 모듈 또는 집적 회로에서 구현되거나, 상이한 네트워크 및/또는 프로세서 장치 및/또는 마이크로컨트롤러 장치에서 구현될 수 있다.

첨부된 도면에 도시된 흐름도는 단지 설명을 위한 예시일 뿐이며, 반드시 모든 내용 및 동작/단계를 포함하는 것은 아니며, 반드시 설명된 순서대로 수행되는 것은 아니다. 예를 들어, 일부 작업/단계는 더 분할될 수 있는 반면 일부 작업/단계는 결합되거나 부분적으로 결합될 수 있다. 따라서 실제 실행 순서는 실제 상황에 따라 다를 수 있다.

본 출원의 관련 기술에서, 단순한 온라인 또는 오프라인 활동은 현재의 다양한 라이프스타일을 만족시킬 수 없고, 새로운 청소년 사용자 그룹은 점점 더 호기심과 흥미를 갖게 된다.

따라서, 본 출원의 실시예는 관련 기술의 문제점을 기반으로, 컴퓨터 비전 기술, 컴퓨터 음성 기술 및 머신 러닝과 같은 인공 지능 기술을 기반으로 하는 장면 인터랙션 방법 및 장치, 전자 장치 및 컴퓨터 저장 매체를 제공하고 인공 지능 기술 분야에 관한 것이다. 장면 인터랙션 방법은 인공지능 기술을 사용하여 오프라인 캐릭터와 장면과 온라인 가상 장면 간의 실시간 통합 및 인터랙션을 구현하는 인공 지능 분야에 적용될 수 있다.

다음은 인공지능 기술을 설명한다. 인공 지능(AI)은 디지털 컴퓨터 또는 디지털 컴퓨터가 제어하는 머신을 사용하여 인간의 지능을 시뮬레이션, 연장 및 확장하고, 환경을 인식하고, 지식을 얻고, 지식을 사용하여 최적의 결과를 얻을 수 있는 이론, 방법, 기술 및 애플리케이션 시스템이다. AI 기술은 포괄적인 학문이며 하드웨어 수준 기술과 소프트웨어 수준 기술을 모두 포함하는 광범위한 분야와 관련이 있다. 본 출원의 실시예는 인공지능(AI)의 컴퓨터 비전(CV) 기술 및 음성 처리 기술에 관한 것이다.

컴퓨터 비전(computer vision, CV)은 인간의 눈 대신에 머신이 카메라 및 컴퓨터를 사용하여 목표에 대한 인식, 추적, 측정 등과 같은 머신 비전을 "볼 수 있게" 하고 구체적으로 구현하게 하며, 그래픽 처리를 추가로 수행함으로써 컴퓨터가 목표를 사람의 눈이 관찰하기에 더 적합하거나 탐지용 기기로 전송하기에 더 적합한 이미지로 처리하도록 하는 방법을 연구하는 과학이다. CV는 과학 분야로서 관련 이론과 기술을 연구하고 이미지나 다차원 데이터에서 정보를 얻을 수 있는 AI 시스템 구축을 시도한다. CV 기술에는 일반적으로 이미지 처리, 이미지 인식, 이미지 의미론적 이해, 이미지 검색, 광학 문자 인식(optical character recognition, OCR), 비디오 처리, 비디오 의미론적 이해, 비디오 콘텐츠/행동 인식, 3차원 객체 재구성, 3D 기술, 가상현실, 증강현실, 동기식 위치추적, 지도 구축 등이 포함되며, 일반 얼굴 인식 및 지문 인식과 같은 생체 특징 인식 기술이 더 포함된다. 음성 기술의 핵심 기술로는 자동 음성 인식(Automatic Speech Recognition, ASR) 기술, 텍스트-음성(Text-to-Speech, TTS) 기술, 성문 인식 기술 등이 있다. 듣고, 보고, 말하고, 느낄 수 있는 컴퓨터를 만드는 것은 인간-컴퓨터 인터랙션의 미래 발전 방향이며 음성은 미래에 가장 유망한 인간-컴퓨터 인터랙션 방법 중 하나가 되었다.

도 1은 본 출원의 실시예에 따른 기술 솔루션이 적용되는 예시적인 시스템 아키텍처의 개략도를 개략적으로 도시한다.

도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 클라이언트(110), 네트워크(120) 및 서버(130)를 포함할 수 있다. 클라이언트(110)는 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크탑 컴퓨터와 같은 다양한 단말 장치를 포함할 수 있다. 서버(130)는 네트워크 서버, 애플리케이션 서버, 데이터베이스 서버 등의 다양한 서버 장치를 포함할 수 있다. 네트워크(120)는 클라이언트(110)와 서버(130) 간의 통신 링크를 제공할 수 있는 다양한 연결 형태의 통신 매체, 예를 들면, 유선 통신 링크 또는 무선 통신 링크일 수 있다.

본 출원의 실시예의 시스템 아키텍처는 구현 요건에 따라 임의의 수량의 클라이언트, 임의의 수량의 네트워크, 및 임의의 수량의 서버를 포함할 수 있다. 예를 들어, 서버(130)는 복수의 서버 장치를 포함하는 서버 그룹일 수 있고, 클라이언트(110)는 동일한 오프라인 활동 장면 또는 복수의 상이한 오프라인 활동 장면에 분산된 복수의 단말 장치를 포함하는 단말 장치 클러스터일 수 있다. 또한, 본 출원의 실시예의 장면 인터랙션 방법은 클라이언트(110)에 적용되거나, 서버(130)에 적용되거나, 더 나아가 클라이언트(110)와 서버(130)가 함께 수행될 수 있으며, 본 출원의 실시예에 특별히 한정되는 것은 아니다.

도 1을 참조하면, 본 출원의 실시예의 장면 인터랙션 방법의 애플리케이션 장면이 설명된다:

기업 마케팅 활동은 설명을 위한 예로서 사용된다. 기업이 온라인과 오프라인 마케팅 활동을 동기적으로 조직하는 경우 마케팅 활동을 동기화하는 데 사용되는 애플리케이션을 채택할 수 있다. 애플리케이션은 판매자 버전과 사용자 버전을 포함할 수 있다. 기업은 단말에서 애플리케이션의 판매자 버전 클라이언트를 실행하고 로그인하여 활동을 시작할 수 있다. 온라인 사용자는 단말에서 애플리케이션의 사용자 버전 클라이언트를 실행하고 로그인하여 온라인 동기화를 수행할 수 있다. 본 출원의 실시예에서, 서버(130)는 애플리케이션에 대응하는 서버이고, 클라이언트(110)는 가맹점 클라이언트 및 온라인 사용자 클라이언트를 포함한다. 가맹점은 클라이언트(110)를 이용하여 가상의 장면을 형성하고, 각 사용자는 클라이언트(110)를 이용하여 사용자가 위치한 현재 환경의 실제 장면에 대응하는 데이터를 업로드하고, 클라이언트(110)는 실제 장면에 대응하는 데이터를 네트워크(120)를 이용하여 서버(130)에 전송함으로써, 서버(130)는 실시간으로 실제 장면의 실제 장면 정보를 획득하고, 각각의 실제 장면 정보에 대해 특징 추출을 수행하고, 이에 대응하여 각각의 실제 장면의 장면 특징을 획득하고, 마지막으로 가상 장면과 실제 장면 간의 대응관계에 따라 적어도 하나의 실제 장면의 장면 특징을 가상 장면에 매핑할 수 있고, 이에 의해 오프라인 캐릭터 및 장면과 온라인 가상 장면과의 실시간 통합 및 인터랙션을 구현하고, 이는 인터랙션 효율을 향상시킬 뿐만 아니라 더욱 다양한 인터랙션 효과를 얻을 수 있다.

본 출원의 실시예에 의해 제공되는 장면 인터랙션 방법 및 장치, 전자 장치, 및 컴퓨터 저장 매체는 특정 구현을 참조하여 아래에서 상세히 설명된다.

도 2는 본 출원의 일부 실시예에 따른 장면 인터랙션 방법의 단계의 흐름도를 개략적으로 도시한다. 이 방법은 가상 장면을 표시하는 클라이언트, 예를 들어, 온라인 라이브 방식으로 온라인 활동 장면을 표시하는 휴대폰이나 컴퓨터와 같은 단말 장치에 적용될 수 있다. 또한, 본 방법은 온라인 및 오프라인 활동 장면의 콘텐츠를 통합하는 서버, 예를 들어 라이브 콘텐츠를 제공하고 온라인 라이브 플랫폼에 대한 기술 지원을 제공하는 서버 장치에도 적용될 수 있다. 도 2에 도시된 바와 같이, 방법은 주로 다음 단계를 포함할 수 있다:

단계 S210: 가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정한다.

가상 장면은 휴대전화나 컴퓨터와 같은 디스플레이 인터페이스가 있는 단말 장치를 이용하여 사용자에게 표시되고, 네트워크 통신을 이용하여 온라인 사용자와 인터랙션하는 온라인 활동 장면일 수 있는 반면, 실제 장면은 대응하는 온라인 활동 장면과 인터랙션하는 오프라인 활동 장면이다. 일부 선택적인 구현에서, 하나의 가상 장면만이 하나의 실제 장면과 인터랙션할 수 있거나 둘 이상의 실제 장면과 동시에 인터랙션할 수 있다.

도 3은 본 출원의 실시예에서 가상 장면과 실제 장면이 인터랙션하는 애플리케이션 장면의 개략도를 개략적으로 도시한다. 도 3에 도시된 바와 같이, 가상 장면(310)은 네트워크 통신을 통해 적어도 하나의 실제 장면(320)과 연결되어, 적어도 하나의 실제 장면(320)과 동시에 인터랙션할 수 있다. 도면에 도시된 가상 장면(310)은 가상 추첨의 애플리케이션 장면이다. 또한, 가상 장면(310)은 가상 턴테이블, 가상 버블 블로잉, 가상 자동차 운전, 가상 투표 등 다양한 애플리케이션 장면일 수도 있다.

단계 S220: 각각의 실제 장면의 실제 장면 정보를 실시간으로 획득한다.

실제 장면의 실제 장면 정보는 가상 장면과 실제 장면 간의 네트워크 통신 연결을 이용하여 실시간으로 획득될 수 있다. 예를 들어, 실제 장면에서 카메라나 마이크와 같은 정보 획득 디바이스를 이용하여 실시간으로 활동 현장에서 정보 획득을 수행하고, 그런 다음 획득한 정보를 서버나 클라이언트로 전송하고 이 서버나 클라이언트는 네트워크 통신 연결을 사용하여 가상 장면을 찾는다. 일부 선택적 구현에서, 이 단계에서 전송 제어 프로토콜(Transmission Control Protocol, TCP)을 기반으로 하는 풀-듀플렉스 통신 프로토콜(WebSocket)의 실시간 통신 링크가 가상 장면과 실제 장면 및 실제 장면 사이에 구축되고, 실시간 통신 링크를 사용하여 실제 장면의 정보를 얻는다.

도 4는 본 출원의 실시예에 따른 WebSocket을 기반으로 구축된 실시간 인터랙션 장면 통신 모델의 개략도를 개략적으로 도시한다. WebSocket 프로토콜은 TCP 기반의 새로운 네트워크 프로토콜로 http 프로토콜과 같은 애플리케이션 계층 프로토콜에 속한다. WebSocket 프로토콜은 브라우저와 서버 간의 풀-듀플렉스 통신을 구현하며, 즉 서버가 능동적으로 정보를 클라이언트에 전송할 수 있도록 한다. 도 4에 도시된 바와 같이, 통신 모델은 애플리케이션 계층(410), 소켓 추상화 계층(420), 전송 계층(430), 네트워크 계층(440) 및 링크 계층(450)을 포함할 수 있다. 애플리케이션 계층(410)은 복수의 사용자 프로세스를 포함하며 사용자 인터페이스 및 서비스 지원을 제공하는 것을 주로 담당한다. 소켓 추상화 계층(420)은 애플리케이션 계층(410)이 네트워크에서 프로세스의 통신을 구현하기 위해 호출할 수 있도록 TCP/IP 계층의 복잡한 동작을 몇 개의 간단한 인터페이스로 추상화한다. 전송 계층(430)은 연결 지향 TCP 프로토콜과 비연결 UDP 프로토콜을 포함하며, 주로 전체 메시지를 프로세스에서 다른 프로세스로 전송하는 역할을 한다. UDP 프로토콜은 사용자 데이터그램 프로토콜로서 애플리케이션 프로그램에 대한 연결을 구축함이 없이 캡슐화된 IP 데이터그램을 전송하는 방법을 제공할 수 있으며, UDP 프로토콜과 TCP 프로토콜은 전송 계층(430)에서 서로를 보완하는 두 가지 주요 프로토콜이다. 네트워크 계층(440)은 ICMP 프로토콜, IP 프로토콜, IGMP 프로토콜을 포함하며, 호스트 사이 또는 호스트와 라우터 또는 스위치 사이의 패킷 데이터의 라우팅 및 전송을 주로 담당한다. ICMP 프로토콜은 인터넷 제어 메시지 프로토콜이며 주로 오류 보고, 제한된 제어와 상태 정보의 교환 등을 포함하는, 호스트와 라우터 간의 제어 정보를 전송하는 데 사용된다. IP 프로토콜은 인터넷 프로토콜이며 주로 데이터 라우팅 및 전송을 담당하여 컴퓨터가 다른 컴퓨터와 데이터그램을 주고받을 수 있도록 한다. IGMP 프로토콜은 인터넷 그룹 관리 프로토콜(Internet Group Management Protocol)이며, 호스트와 멀티캐스트 라우터 사이에서 실행되며 멀티캐스트 그룹 구성원의 가입 및 탈퇴를 관리하고 멀티캐스트 그룹 구성원의 정보를 유지 관리하는 데 사용된다. 링크 계층(450)은 ARP 프로토콜, 하드웨어 인터페이스 및 RARP 프로토콜을 포함하며, 주로 노드 간의 링크 설정 및 관리를 담당하며, 오류가 있는 물리 채널을 오류가 없는 데이터 프레임을 안정적으로 전송하는 데이터 링크로 변경하는 데 사용된다. ARP 프로토콜은 주소 확인 프로토콜(Address Resolution Protocol)이며, 목표 하드웨어 장치(460)의 IP 주소를 이용하여 목표 하드웨어 장치(460)의 물리적 주소(MAC address)를 해석하는데 사용되며, RARP 프로토콜은 물리적 주소를 IP 주소로 변환하는 데 사용된다.

도 5는 본 출원의 실시예에 따른 WebSocket 프로토콜에 기반한 통신 시퀀스 다이어그램을 개략적으로 도시한다. 도 5에 도시된 바와 같이, WebSocket 클라이언트(510)는 먼저 TCP 클라이언트(520)에 연결 요청(51)(연결)을 전송한다. 연결 요청(51)에 기초하여, TCP 클라이언트(520)는 동기화 시퀀스 번호(synchronize sequence numbers, SYN) 메시지(52)를 TCP 서버(530)로 전송하고, TCP 서버(530)는 SYN 메시지와 확인 문자(ACK)를 사용하여 형성된 SYN+ACK 패킷(53)으로 TCP 클라이언트(520)에 응답한다. SYN+ACK 패킷(53)을 수신한 후, TCP 클라이언트(520)는 ACK 패킷(도면에 도시되지 않음)을 TCP 서버(530)로 전송하고, 한편 웹소켓 클라이언트(510)로 연결된 확인 메시지(54)(연결됨)를 리턴한다. 연결이 구축된 후, WebSocket 클라이언트(510)는 TCP 클라이언트(520)와 핸드셰이크(55)를 완료한다. TCP 서버(530)와 WebSocket 서버(540)는 TCP 클라이언트(520)와 TCP 서버(530)를 사용하여 통신하고 서로 인터랙션하여 메시지 전송(56)(보내기) 및 메시지 수신(57)(받기)을 수행한다.

단계 S230: 각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득한다.

이 단계의 특징 추출에 의해 획득되는 장면 특징은 이미지 특징 또는 오디오 특징 중 적어도 하나를 포함한다. 단계 S220에서 실시간으로 획득된 실제 장면의 각각의 실제 장면 정보에 있어서, 이 단계는 먼저 실제 장면 정보에서 이미지 정보 및 오디오 정보를 획득하고, 그런 다음 이미지 정보에 대해 특징 추출을 수행하여, 실제 장면의 이미지 특징을 획득하며, 오디오 정보에 대해 특징 추출을 수행하여 실제 장면의 오디오 특징을 획득한다.

예를 들어, 이미지 정보 대해 특징 추출을 수행하는 경우, 이미지 정보 대해 장면 인식을 수행하여 실제 장면의 장면 이미지 특징을 획득하고, 이미지 정보 대해 얼굴 인식을 수행하여 실제 장면의 캐릭터 이미지 특징을 획득하고, 이미지 정보에 대해 캐릭터 액션 인식을 수행하여 실제 장면의 액션 이미지 특징을 획득할 수 있다. 장면 이미지 특징은 실제 장면의 활동 장소 및 활동 배경과 같은 정보와 관련된 것으로, 예를 들어 장면 이미지 특징은 실제 장면이 실내 장면이나 야외 장면 또는 특정 쇼핑몰 또는 야외 광장임을 반영하는 데 사용할 수 있다. 캐릭터 이미지 특징은 실제 장면에서 오프라인 활동에 참여하는 사람들과 관련된 것이고, 예를 들어 캐릭터 이미지 특징은 얼굴 인식을 기반으로 실제 장면에서 호스트, 게스트 또는 관객과 같은 활동 참가자를 추적할 수 있다. 액션 이미지 특징은 활동 현장에서 캐릭터의 신체 액션과 관련되며, 예를 들어 특정 자세 또는 제스처는 특정된 액션 지시를 나타낼 수 있다.

오디오 정보에 대해 특징 추출을 수행하는 경우, 오디오 정보에 대해 음성 인식을 수행하여 실제 장면의 텍스트 오디오 특징을 획득하고, 오디오 정보에 대해 파형 검출을 수행하여 실제 장면의 파형 오디오 기능을 획득할 수 있다. 텍스트 오디오 특징은 실제 장면에서 활동 참여자 간의 대화와 같은 음성 콘텐츠와 관련되며, 예를 들어 텍스트 오디오 특징은 관련 음성 콘텐츠에 대해 음성 인식을 수행하여 획득한 텍스트 문자 또는 특정 문자 코드일 수 있다. 파형 오디오 특징은 배경 음악, 음향 효과, 현장 활동 분위기 등의 실제 장면과 관련된 것으로, 예를 들어 파형 오디오 특징은 실제 장면의 시끄러운 상태 또는 조용한 상태를 반영할 수 있다.

단계 S240: 가상 장면과 실제 장면 간의 대응관계에 따라 적어도 하나의 실제 장면의 장면 특징을 가상 장면에 매핑한다.

S230 단계에서 추출된 다양한 장면 특징은 가상 장면과 실제 장면의 대응관계에 따라 특정한 특징 매핑 방식을 이용하여 가상 장면에 매핑될 수 있으며, 예를 들어, 이미지 특징은 가상 장면에서 가상의 배경이나 가상의 캐릭터와 같은 대응하는 가상의 이미지에 매핑될 수 있고, 오디오 특징은 가상 장면에서 배경음악, 음향효과, 음성지시와 같은 콘텐츠가 되도록 매핑될 수 있으며, 이에 의해 장면 콘텐츠에서 실제 장면과 가상 장면 사이의 인터랙션을 구현할 수 있다.

본 출원의 실시예에서 제공하는 장면 인터랙션 방법에서, 실제 장면의 영상 및 음성과 같은 정보에 대한 인식을 수행하고, 통신을 온라인 서버로 변환하여 단말 화면에 표시함으로써, 오프라인 캐릭터와 장면은 실시간 통합 및 인터랙션을 위해 온라인 가상 장면과 결합되며, 이에 의해 인터랙션 효율성을 향상시킬 뿐만 아니라 더욱 다양한 인터랙션 효과를 달성한다.

일부 실시예에서, 활동의 재미 및 인터랙티비티는 오프라인 인식 수행 및 온라인 가상 장면의 통합, 및 비디오 기술, 음성 기술, 엔티티 원격 감지 기술의 조합을 통해 향상될 수 있다. 따라서 다른 지역의 모든 활동 참가자는 원격 인터랙션을 위해 가상 장면에 통합될 수 있으며 이는 브랜드 마케팅에 대한 활동의 영향을 향상시키고 사용자의 활동 참여를 향상시키고 활동의 재미와 제어 가능성을 향상시키고, 활동의 가치를 향상시키며 응용 가능성이 매우 넓다.

실제 장면 정보에 대한 특징 추출에 기초하여, 실제 장면의 장면 핵심 특성이 가상 장면에 표시될 수 있고 인터랙션이 구현될 수 있다. 실제 장면 정보로부터 획득되는 이미지 정보는 일반적으로 카메라와 같은 이미지 획득 디바이스에 의해 획득되는 동적 비디오 이미지일 수 있으며, 동일한 실제 장면에 대해 복수의 카메라에 의해 서로 다른 위치에서 이미지 획득이 수행될 수 있다. 이를 기반으로 이미지 특징 추출의 처리 효율을 향상시키기 위해 동적 비디오 이미지를 미리 스플라이싱 및 변환하여 정적 이미지를 형성할 수 있다. 도 6은 본 출원의 일부 실시예에 따른 이미지 정보에 대해 특징 추출을 수행하는 단계의 흐름도를 개략적으로 도시한다. 도 6에 도시된 바와 같이, 전술한 실시예에 기초하여, 이미지 정보에 대해 특징 추출을 수행하는 단계는 다음과 같은 단계를 포함할 수 있다.

단계 S610: 이미지 정보로부터 상이한 이미지 획득 파라미터에 대응하는 실제 장면의 부분 이미지를 획득한다.

이미지 획득 파라미터는 이미지 획득 각도 또는 이미지 획득 범위 중 적어도 하나를 포함할 수 있다. 예를 들어, 이미지 획득 각도와 이미지 획득 범위가 서로 다른 복수 대의 카메라를 배치하여 동일한 실제 장면에 배치하여 동시에 촬영할 수 있으며, 각 카메라에서 획득한 비디오 이미지는 실제 장면의 부분 이미지이다.

단계 S620: 동일한 시간 간격에 속하는 부분 이미지에 대해 이미지 스플라이싱을 수행하여 실제 장면의 통합 이미지를 획득한다.

연속적으로 획득된 실제 장면의 부분 이미지를 미리 설정된 시간 길이에 따라 분할하여 서로 다른 시간 간격에 대응하는 부분 이미지를 획득할 수 있다. 그런 다음, 서로 다른 이미지 획득 파라미터에 대응하면서 동일한 시간 간격에 속하는 실제 장면의 부분 이미지를 스플라이싱하여 실제 장면의 통합 이미지를 얻는다.

단계 S630: 통합 이미지에 대해 특징 추출을 수행하여 실제 장면의 이미지 특징을 획득한다.

이미지 스플라이싱 후, 서로 다른 시간 간격에 대응하는 정적 통합 이미지가 획득될 수 있다. 특징 추출은 실제 장면의 대응하는 이미지 특징을 획득하기 위해 각각의 통합 이미지에 대해 수행될 수 있다. 일부 선택적 구현에서, 이 단계는 먼저 통합 이미지에 대한 에지 검출을 수행하여 통합 이미지의 특징 영역을 획득하고, 그런 다음 특징 영역에 대한 특징 추출을 수행하여 실제 장면의 이미지 특징을 획득할 수 있다. 에지 검출을 수행함으로써 특징 추출의 범위를 좁힐 수 있고 특징 추출의 속도 및 정확도를 향상시킬 수 있다.

특징 추출은 사전 훈련된 머신 러닝 모델을 이용하여 실제 장면 정보의 이미지 정보 대해 수행될 수 있으며, 예를 들어, 입력 이미지에 대한 컨볼루션 및 풀링을 수행하기 위해 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)이 사용되어, 마지막으로 이미지 기능을 출력할 수 있다. 도 7은 본 출원의 실시예에 따라 CNN 모델을 사용하여 이미지 특징을 추출하는 개략적인 원리도를 개략적으로 도시한다. 도 7에 도시된 바와 같이, CNN 모델의 입력 이미지는 이미지 스플라이싱 이후의 시간 간격의 통합 이미지(710)이다. 동일한 시간 간격에 대응하는 실제 장면의 복수 그룹의 부분 이미지 및 다른 이미지 획득 파라미터는 수평 방향을 따라 시간순으로 배열되고, 수직 방향을 따라 다른 이미지 획득 파라미터에 따라 배열된다. 동적으로 변화하는 이미지는 정적 통합 이미지(710)로 스플라이싱된다. CNN 모델은 적어도 하나 이상의 컨볼루션 레이어(720)를 포함하고, 추가적으로 하나 이상의 풀링 레이어(730) 및 하나 이상의 다른 네트워크 구조(740)를 포함할 수도 있다(예를 들어, 일부 실시예에서, 다른 네트워크 구조(740)는 완전 연결 계층일 수 있다). 복수의 네트워크 계층이 계층별로 특징 추출 및 특징 매핑을 수행한 후, 통합 이미지(710)에 대응하는 이미지 특징이 최종적으로 출력된다.

본 출원의 실시예는 TensorFlow를 사용하여 신경망을 훈련할 수 있다. 도 8은 본 출원의 실시예에서 TensorFlow의 개략적인 시스템 레이아웃 다이어그램을 개략적으로 도시한다.

도 8에 도시된 바와 같이, TensorFlow 클러스터(810)(TF 클러스터)는 복수의 TensorFlow 서버(811)(TF Server)를 포함하고, 이들 TF 서버(811)는 일련의 배치 처리 태스크 작업으로 분할되고 태스크 작업은 일련의 태스크를 처리하는 역할을 한다. TF 클러스터(810)는 일반적으로 상대적으로 높은 수준의 목표에 초점을 맞추는데, 예를 들어 신경망은 복수의 머신을 이용하여 병렬로 훈련된다.

작업은 동일한 특정 목표에 전용되는 일련의 태스크를 포함한다. 예를 들어, 파라미터 서버(812)에 대응하는 작업 n은 네트워크 파라미터의 저장 및 업데이트와 관련된 일을 처리하기 위해 사용된다. 컴퓨팅 서버(813)(작업자(worker))에 대응하는 작업 0, ... 및 작업 n-1은 계산에 사용되는 집약적인 스테이트리스 노드(intensive stateless node)를 유지하는 데 사용된다. 일반적으로 작업의 태스크는 다른 시스템에서 실행된다.

태스크는 일반적으로 특정 단일 TensorFlow 서버의 처리 프로세스와 연관되고 특정 작업에 속하며 그 작업의 태스크 목록에서 고유한 인덱스를 갖는다.

TensorFlow 서버는 grpc_tensorflow_server의 처리 프로세스를 실행하기 위해 사용되며 클러스터의 구성원이며 마스터 서비스와 작업자 서비스를 외부에 노출시킨다.

마스터 서비스는 일련의 원격 분산 디바이스와 인터랙션하는 데 사용되는 원격 프로시저 호출(remote procedure call, RPC) 서비스이다. 마스터 서비스는 세션 수행에 사용되는 세션 인터페이스, 즉 tensorflow::Session 인터페이스를 구현하며, 복수의 작업자 서비스를 조정하는 데 사용된다.

작업자 서비스는 TensorFlow 그래프(TF 그래프)의 부분적인 내용을 수행하는 RPC 서비스이다.

TensorFlow 클라이언트(820)는 일반적으로 TF 그래프를 구성하고, TensorFlow 클러스터와의 인터랙션을 완료하기 위해 tensorflow::Session 인터페이스를 사용한다. TensorFlow 클라이언트는 일반적으로 Python 또는 C++를 사용하여 작성된다. 일반적으로, TensorFlow 클라이언트는 복수의 TensorFlow 서버와 동시에 인터랙션할 수 있고, TensorFlow 서버는 또한 복수의 TensorFlow 클라이언트를 동시에 서비스할 수 있다.

TensorFlow를 기반으로 신경망을 구축한 후, 신경망 훈련을 위해 샘플 데이터를 사용할 수 있다. 오프라인 활동에 대응하는 실제 장면의 경우, 많은 양의 오프라인 활동 장면 비디오가 녹화되어 시뮬레이션 방식으로 입력될 수 있다.

TensorFlow에서 tf.nn.conv2d 알고리즘을 사용함으로써, 많은 양의 비디오 및 픽처 이미지가 훈련을 위해 호출될 수 있다. 이미지 에지 인식은 OPEN CV를 이용하여 수행될 수 있다. 인식된 블록은 특정 모양 데이터를 가지고 있으며, 모양 데이터와 훈련 이미지 데이터 통계 작성을 통해 블록의 특징을 비교하여 인식할 수 있다. 신경망에서 네트워크 파라미터의 지속적인 업데이트 및 최적화는 반복 훈련을 위한 샘플 데이터를 사용하여 구현될 수 있다. 예를 들어, 알고리즘 공식 a*0.5+b는 특정 네트워크 계층에 포함되며 공식에 대한 반복적인 업데이트 프로세스는 다음과 같다:

5.4*5.0+1.88=28.88

9.35805*5.0+2.67161=49.4619

9.4589*5.0+2.69178=49.9863

9.46147*5.0+2.69229=49.9996

9.46154*5.0+2.69231=50.0

업데이트 프로세스에 따르면, 파라미터 a의 값은 5.4에서 9.4589로 점차 증가하고, 9.46154로 더 증가함을 알 수 있다. 파라미터 b의 값은 1.88에서 2.67161로 점차 증가하고 2.69231로 더 증가한다.

일부 선택적인 구현에서, 지원 벡터 머신(support vector machine, SVM)에 기반한 분류기가 예로서 취해지며, 다음 손실 함수가 사용될 수 있다:

여기서 y는 -1과 +1 사이의 예측 값이고 t는 목표 값(-1 또는 +1)이다. -1과 +1 사이의 y 값이 충분하면 |y|>1은 권장되지 않으며, 즉 분류기가 과신하지 않도록 권장된다. 분할선에서 1 이상 떨어진 거리에서 올바르게 분류된 샘플에 대한 보상은 없다.

또한, 본 출원의 일부 선택적인 구현에서, tf.train.GradientDescentOptimizer는 Tensorflow에서 경사 하강 알고리즘을 구현하기 위한 최적화기로 사용될 수 있다. 경사 하강 알고리즘은 표준 경사 하강(Standard Gradient Descent, GD), 배치 경사 하강(Batch Gradient Descent, BGD), 스토캐스틱 경사 하강(Stochastic Gradient Descent, SGD) 중 어느 하나일 수 있다.

표준 GD를 예로 든다. 학습 및 훈련의 네트워크 파라미터가 W이고 손실 함수가 J(W)인 경우 네트워크 파라미터, 즉 관련 경사에 대한 손실 함수의 편미분은 dJ(W)이고 학습률은 η이다. 따라서 경사 하강을 사용하여 네트워크 파라미터를 업데이트하는 공식은 다음과 같다:

네트워크 파라미터의 조정은 경사 방향의 감소 방향을 따라 손실 함수를 최소화한다. 기본 정책은 제한된 시야 내에서 가장 빠른 내리막 경로(fastest downhill path)를 찾는 것이다. 한 걸음 걸을 때마다 현재 위치에서 가장 가파른 경사 방향을 기준으로 다음 걸음을 결정한다.

TensorFlow의 훈련을 기반으로 획득된 신경망은 실제 장면의 실제 장면 정보에 대해 특징 추출을 수행하는 데 사용될 수 있으며, 추출된 장면 특징은 해당 가상 장면에 매핑된다. 도 9는 본 출원의 일부 실시예에서 장면 특징에 대한 특징 매핑을 수행하는 단계의 흐름도를 개략적으로 도시한다. 도 9에 도시된 바와 같이, 전술한 실시예에 기초하여, 단계 S240에서, 가상 장면과 실제 장면 간의 대응관계에 따라 적어도 하나의 실제 장면의 장면 특징을 가상 장면에 매핑하는 단계는 다음과 같은 단계를 포함할 수 있다.

단계 S910: 가상 장면과 실제 장면의 대응관계에 따라 가상 장면의 각각의 실제 장면에 대응하는 특징 매핑 영역을 결정한다.

가상 장면에서 특정 장면 디스플레이 영역의 일부가 실제 장면에 대응하는 특징 매핑 영역으로 결정될 수 있다. 가상 장면이 복수의 실제 장면과 동시에 인터랙션하는 경우, 각각의 실제 장면은 가상 장면에서 결정된 특징 매핑 영역에 대응할 수 있으며, 이러한 특징 매핑 영역은 서로 이격된 디스플레이 영역이거나 부분적으로 또는 완전히 중첩된 디스플레이 영역일 수 있다.

단계 S920: 특징 매핑 영역에서 대응하는 실제 장면의 장면 특징과 매핑 관계를 갖는 장면 콘텐츠를 표시한다.

특징 맵핑 영역은 제1 특징 맵핑 영역 및 제2 특징 맵핑 영역을 포함한다. 제1 특징 매핑 영역 및 제2 특징 매핑 영역은 완전히 중첩되는 디스플레이 영역일 수 있거나, 부분적으로 중첩되는 디스플레이 영역일 수 있거나, 완전히 중첩되지 않고 상호 이격된 디스플레이 영역일 수 있다.

실제 장면의 장면 특징이 이미지 특징인 경우, 제1 특징 매핑 영역에는 이미지 특징과 매핑 관계를 갖는 이미지 응답 콘텐츠가 표시될 수 있다. 장면 특징이 오디오 특징인 경우, 오디오 특징과 매핑 관계를 갖는 오디오 응답 콘텐츠가 제2 특징 매핑 영역에 표시될 수 있다.

일부 선택적인 구현에서, 이미지 응답 콘텐츠가 이미지 특징에 기초하여 표시될 때, 장면 이미지 특징, 캐릭터 이미지 특징, 또는 액션 이미지 특징 중 적어도 하나는 이미지 특징으로부터 획득될 수 있고, 그런 다음 장면 이미지 특징과 매핑 관계가 있는 가상 배경 이미지가 첫 번째 특징 매핑 영역에 표시되고, 캐릭터 이미지 특징과 매핑 관계가 있는 가상 캐릭터 이미지가 첫 번째 특징 매핑 영역에 표시되고, 액션 이미지 기능과 매핑 관계가 있는 액션 응답 콘텐츠가 첫 번째 특징 매핑 영역에 표시된다. 이미지 특징이 장면 이미지 특징, 캐릭터 이미지 특징 및 액션 이미지 특징 중 하나 이상을 포함하는 경우, 복수의 이미지 특징은 동일한 첫 번째 특징 매핑 영역에 동시에 표시될 수 있거나, 복수의 이미지 특징이 서로 다른 첫 번째 기능 매핑 영역에 각각 표시될 수 있다. 가상 복권을 예로 들면, 인식에 의해 획득된 액션 이미지 특징이 사용자의 턴테이블을 돌리는 액션에 대응하는 경우, 가상 장면에서 가상의 복권 턴테이블이 회전을 시작하도록 제어될 수 있다.

일부 선택적 구현에서, 오디오 응답 콘텐츠가 오디오 특징에 기초하여 표시될 때, 텍스트 오디오 특징 및 파형 오디오 특징은 오디오 특징으로부터 획득될 수 있고, 그런 다음 텍스트와 매핑 관계가 있는 텍스트 응답 콘텐츠가 두 번째 특징 매핑 영역에 표시되고, 파형 오디오 기능과 매핑 관계가 있는 오디오 동적 효과가 두 번째 특징 매핑 영역에 표시된다.

도 10은 본 출원의 실시예에 의해 제공되는 장면 인터랙션 방법의 애플리케이션 장면의 단계들의 흐름도를 개략적으로 도시한다. 이 방법은 주로 가상 장면을 동적으로 제어하는 서버 장치에 적용될 수 있다. 도 10에 도시된 바와 같이, 이 애플리케이션 장면에서 수행되는 장면 인터랙션 방법은 주로 다음 단계를 포함한다.

단계 S1010: 오프라인 장면에서 복수의 카메라와 복수의 마이크를 연다. 복수의 카메라를 이용하여 사용자 액션과 같은 활동 콘텐츠와 관련된 3차원 공간 이미지 정보를 획득하고, 복수의 마이크를 이용하여 사용자 음성과 같은 활동 콘텐츠와 관련된 3차원 음성 정보를 획득한다.

도 11a는 본 출원의 실시예에서 획득된 3차원 공간 이미지 정보의 표시 상태의 개략도를 개략적으로 도시한다. 도 11a에 도시된 바와 같이, 복수의 카메라를 이용하여 획득한 3차원 공간 이미지 정보는 캐릭터뿐만 아니라 캐릭터가 위치한 장면도 포함하며, 물론 캐릭터의 동작 및 표정 등의 보다 상세한 정보를 더 포함할 수 있다.

단계 S1020: WebSocket을 사용하여 실시간으로 이미지 정보 및 음성 정보를 수신한다.

단계 S1030: 이미지 정보에 대해 문자 인식, 동작 인식 및 장면 인식을 수행한다.

단계 S1040: 인덱스 순회를 사용하여 가상 장면의 일부 영역에 대해 동적 변경을 수행한다. 예를 들어, 특징 영역은 실시간으로 획득된 이미지 특징에 따라 매트화될 수 있다. 특징 영역이 매트화된 후, 각 클라이언트의 매팅의 이미지 특징은 활동의 다른 가상 장면에 균일하게 스케줄링되고, 각각의 실제 장면 캐릭터와 캐릭터의 액션은 계산에 의해 가상 장면에 배치되어 가상 장면은 실제 활동 유형에 맞춰진다. 도 11b는 본 출원의 실시예에서 실제 장면 콘텐츠를 통합한 후 가상 장면의 디스플레이 상태의 개략도를 개략적으로 도시한다. 도 11b에 도시된 바와 같이, 오프라인 활동 장면의 실제 장면 캐릭터는 실제 장면 객체(1110)의 형태로 가상 장면에 배치되고, 가상 장면에서 생성된 가상 장면 객체(1120)와 함께 사용자에게 제시된다. 실제 장면 객체(1110)의 캐릭터 액션 및 자세는 실제 장면 캐릭터와 실시간으로 변화하는 반면, 가상 장면 객체(1120)는 실제 활동 유형에 따라 구성 및 조정될 수 있다.

단계 S1050: 음성 정보를 인식하고 음성 정보를 텍스트로 변환하고 음성 파형 그래프를 획득한다. 텍스트는 예를 들어 "로또 추첨 시작" 또는 "투표 시작"과 같은 음성 지시를 형성하는 데 사용될 수 있다. 음성 파형 그래프는 적절한 배경 음악을 일치시키는 데 사용될 수 있다. 도 12는 본 출원의 실시예에서 음성 파형 그래프와 배경 음악 사이의 매칭 관계의 개략도를 개략적으로 도시한다. 도 12에 도시된 바와 같이, 음성 정보를 이용하여 구한 음성 파형 그래프(121)에 따라 유사한 매칭 파형 그래프(122)가 얻어지고, 매칭 파형 그래프에 기초하여 해당 배경 음악이 결정될 수 있다.

단계 S1060: 인덱스 순회를 사용하여 가상 장면의 음악 동적 효과에 대한 동적 변경을 수행한다. 가상 장면의 배경 음악은 현장 음성 파형 그래프에 따라 매칭될 수 있으며, 예를 들어 오프라인 활동 현장이 상대적으로 조용한 경우 매칭 결과에 따라 배경 음악을 상대적으로 잔잔한 배경 음악으로 변경할 수 있다.

일부 선택적인 구현에서, 특징 매핑 영역은 실시간으로 획득된 이미지 특징에 따라 매트화될 수 있다. 특징 매핑 영역이 매트화된 후, 각 클라이언트의 매트의 이미지 특징은 현재 활동에 대응하는 가상 장면에 균일하게 스케줄링되고, 실제 장면의 각 캐릭터와 캐릭터의 액션은 계산에 의해 가상 장면에 배치되어 가상 장면이 실제 활동 유형에 맞춰진다. 또한, 실제 장면에서 획득한 음성 정보에 따라 활동의 배경 음악이 대안적으로 매칭될 수 있다.

일부 실시예에서, 실제 장면의 장면 특징을 가상 장면에 매핑하는 것에 더하여, 인터랙션 콘텐츠는 가상 장면에 따라 실제 장면에 추가로 피드백될 수 있다. 도 13은 본 출원의 실시예에서 장면 인터랙션에 사용되는 변경 제어기를 개략적으로 도시한다. 도 13에 도시된 바와 같이, 마이크로컨트롤러 유닛(Microcontroller Unit, MCU) 기반의 MCU 컨트롤러(1310)는 사물 인터넷(Internet of Things) 형태의 하드웨어 장치를 이용하여 활동 현장의 엔티티 장면을 대화식으로 제어할 수 있다. 데이터 통신은 블루투스 통신 모듈(1320) 또는 다른 종류의 근거리 통신 장치를 이용하여 활동 현장에서 수행될 수 있다. 센서(1330)를 이용하여 활동 현장의 인터랙티브 경험 정보를 검출하고 획득할 수 있다. 진동 모듈(1340)을 이용하여 활동 현장에서 물리적 진동 효과를 제공할 수 있다. 조명 모듈(1350)을 이용하여 활동 현장에서 조명 시각 효과를 제공할 수 있다. 스피커(1360)를 이용하여 활동 현장에서 음악 효과를 제공할 수 있다.

본 출원의 실시예에서 제공되는 장면 인터랙션 방법에서, TensorFlow를 사용하여 오프라인 장면 및 캐릭터에 대한 물리적 인식을 수행하고, 단말 화면에 표시하기 위해 온라인 서버로 통신을 변환함으로써, 가상 복권 추첨, 가상 턴테이블, 가상 거품 불기, 가상 자동차 운전 및 가상 투표와 같은 애플리케이션 장면을 포함하여 통합 및 인터랙션을 위한 온라인 가상 장면과 오프라인 캐릭터 및 장면이 결합되어 활동의 재미와 인터랙션이 오프라인 인식 수행과 온라인 가상 장면의 통합, 비디오 기술, 음성 기술 및 개체 원격 감지 기술의 조합을 통해 향상된다. 따라서 다른 지역의 모든 활동 참가자는 원격 인터랙션을 위해 가상 장면에 통합될 수 있으며 이는 브랜드 마케팅에 대한 활동의 영향을 향상시키고 사용자의 활동 참여를 향상시키며 활동의 재미와 제어 가능성을 향상시키며, 활동의 가치를 향상시키며 애플리케이션 가능성이 매우 넓다.

본 출원의 실시예에서 방법의 단계가 첨부 도면에서 특정 순서로 설명되었지만, 이는 단계가 특정 순서로 수행되어야 함을 요구하거나 암시하지 않거나, 도시된 모든 단계가 예상 결과를 달성하기 위해 수행된다. 추가적으로 또는 대안적으로, 일부 단계는 생략될 수 있고, 복수의 단계가 하나의 단계로 결합되거나, 및/또는 하나의 단계가 실행을 위해 복수의 단계로 분해될 수 있다.

다음은 본 출원의 이전 실시예에서 장면 인터랙션 방법을 구현하는 데 사용될 수 있는 본 출원의 실시예의 장치 실시예를 설명한다. 본 출원의 장치 실시예에서 개시되지 않은 세부사항에 대해서는, 본 출원의 장면 인터랙션 방법의 실시예를 참조할 수 있다.

도 14는 본 출원의 일부 실시예에서 장면 인터랙션 장치의 단계의 구조적 블록도를 개략적으로 도시한다. 도 14에 도시된 바와 같이, 장면 인터랙션 장치(1400)는 주로:

가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정하도록 구성된 장면 결정 모듈(1410);

실시간으로 각각의 실제 장면의 실제 장면 정보를 획득하도록 구성된 정보 획득 모듈(1420);

각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하도록 구성된 특징 추출 모듈(1430); 및

가상 장면과 실제 장면 간의 대응관계에 따라 적어도 하나의 실제 장면의 장면 특징을 가상 장면에 매핑하도록 구성된 특징 매핑 모듈(1440)

을 포함한다.

일부 실시예에서, 장면 특징은 이미지 특징 또는 오디오 특징 중 적어도 하나를 포함한다.

일부 실시예에서, 특징 추출 모듈(1430)은 각각의 실제 장면 정보에서 이미지 정보 및 오디오 정보를 획득하도록 구성된 정보 추출 유닛; 이미지 정보에 대해 특징 추출을 수행하여 실제 장면의 이미지 특징을 획득하도록 구성된 이미지 특징 추출 유닛; 및 오디오 정보에 대해 특징 추출을 수행하여 실제 장면의 오디오 특징을 획득하도록 구성된 오디오 특징 추출 유닛을 포함한다.

일부 실시예에서, 이미지 특징 추출 유닛은: 실제 장면의 장면 이미지 특징을 획득하기 위해 이미지 정보에 대해 장면 인식을 수행하도록 구성된 장면 인식 서브유닛; 실제 장면의 캐릭터 이미지 특징을 획득하기 위해 이미지 정보에 대한 얼굴 인식을 수행하도록 구성된 얼굴 인식 서브유닛; 실제 장면의 액션 이미지 특징을 획득하기 위해 이미지 정보에 대한 캐릭터 액션 인식을 수행하도록 구성된 캐릭터 액션 인식 서브유닛; 및 장면 이미지 특징, 캐릭터 이미지 특징, 및 액션 이미지 특징을 실제 장면의 이미지 특징으로 결정하도록 구성된 제1 결정 서브유닛을 포함한다.

일부 실시예에서, 이미지 특징 추출 유닛은: 이미지 정보로부터 상이한 이미지 획득 파라미터에 대응하는 실제 장면의 부분 이미지를 획득하도록 구성된 부분 이미지 획득 서브유닛; 실제 장면의 통합 이미지를 획득하기 위해 동일한 시간 간격에 속하는 부분 이미지에 대해 이미지 스플라이싱을 수행하도록 구성된 이미지 스플라이싱 서브유닛; 및 실제 장면의 이미지 특징을 획득하기 위해 통합 이미지에 대한 특징 추출을 수행하도록 구성된 이미지 특징 추출 서브유닛을 포함한다.

일부 실시예에서, 이미지 획득 파라미터는 이미지 획득 각도 또는 이미지 획득 범위 중 적어도 하나를 포함한다.

일부 실시예에서, 이미지 특징 추출 서브유닛은: 통합 이미지에 대해 에지 검출을 수행하여, 통합 이미지의 특징 영역을 획득하도록 구성된 에지 검출 서브유닛; 및 특징 영역에 대한 특징 추출을 수행하여 실제 장면의 이미지 특징을 획득하도록 구성된 특징 추출 서브유닛을 포함한다.

일부 실시예에서, 오디오 특징 추출 유닛은: 실제 장면의 텍스트 오디오 특징을 획득하기 위해 오디오 정보에 대해 음성 인식을 수행하도록 구성된 음성 인식 서브유닛; 실제 장면의 파형 오디오 특징을 획득하기 위해 오디오 정보에 대한 파형 검출을 수행하도록 구성된 파형 검출 서브유닛; 및 텍스트 오디오 특징 및 파형 오디오 특징을 실제 장면의 오디오 특징으로 결정하도록 구성된 제2 결정 서브유닛을 포함한다.

일부 실시예에서, 특징 맵핑 모듈(1440)은 가상 장면과 실제 장면 간의 대응관계에 따라 가상 장면의 각각의 실제 장면에 대응하는 특징 맵핑 영역을 결정하도록 구성된 영역 결정 유닛; 및 특징 매핑 영역에서 대응하는 실제 장면의 장면 특징과 매핑 관계를 갖는 장면 콘텐츠를 표시하도록 구성된 콘텐츠 디스플레이 유닛을 포함한다.

일부 실시예에서, 특징 맵핑 영역은 제1 특징 맵핑 영역 및 제2 특징 맵핑 영역을 포함하고; 콘텐츠 디스플레이 유닛은 장면 특징이 이미지 특징인 경우, 제1 특징 매핑 영역에서 이미지 특징과 매핑 관계를 갖는 이미지 응답 콘텐츠를 표시하도록 구성된 이미지 응답 콘텐츠 디스플레이 서브유닛; 및 장면 특징이 오디오 특징인 경우, 제2 특징 매핑 영역에서 오디오 특징과 매핑 관계를 갖는 오디오 응답 콘텐츠를 표시하도록 구성된 오디오 응답 콘텐츠 디스플레이 서브유닛을 포함한다.

일부 실시예에서, 이미지 응답 콘텐츠 디스플레이 서브유닛은: 이미지 특징으로부터 장면 이미지 특징, 캐릭터 이미지 특징, 또는 액션 이미지 특징 중 적어도 하나를 획득하도록 구성된 이미지 특징 획득 서브유닛; 제1 특징 매핑 영역에서 장면 이미지 특징과 매핑 관계를 갖는 가상 배경 이미지를 표시하도록 구성된 가상 배경 이미지 표시 서브유닛; 제1 특징 매핑 영역에서 캐릭터 이미지 특징과 매핑 관계를 갖는 가상 캐릭터 이미지를 표시하도록 구성된 가상 캐릭터 이미지 디스플레이 서브유닛; 및 상기 제1 특징 매핑 영역에서 상기 액션 이미지 특징과 매핑 관계를 갖는 액션 응답 콘텐츠를 표시토록 구성된 액션 응답 콘텐츠 디스플레이 서브유닛을 포함한다.

일부 실시예에서, 오디오 응답 콘텐츠 디스플레이 서브유닛은: 오디오 특징으로부터 텍스트 오디오 특징 및 파형 오디오 특징을 획득하도록 구성된 오디오 특징 획득 서브유닛; 제2 특징 매핑 영역에서 텍스트 오디오 특징과 매핑 관계를 갖는 텍스트 응답 콘텐츠를 표시하도록 구성된 텍스트 응답 콘텐츠 디스플레이 서브유닛; 및 제2 특징 매핑 영역에서 파형 오디오 특징과 매핑 관계를 갖는 오디오 동적 효과를 표시하도록 구성된 오디오 동적 효과 표시 서브유닛을 포함한다. 일부 실시예에서, 정보 획득 모듈(1420)은 가상 장면과 실제 장면 간의 실시간 통신을 수행하는 TCP를 기반으로 하는 WebSocket의 실시간 통신 링크를 구축하도록 구성된 링크 설정 유닛; 및 실시간 통신 링크를 사용하여 실제 장면의 실제 장면 정보를 획득하도록 구성된 링크 통신 유닛을 포함한다.

본 출원의 실시예에서 제공되는 장면 인터랙션 장치의 세부사항은 대응하는 실시예 방법에서 구체적으로 설명되었다. 따라서 여기에서 세부 사항을 다시 설명하지 않는다.

도 15는 본 출원의 실시예에 따른 전자 디바이스를 구현하도록 구성된 컴퓨터 시스템의 개략적인 구조도이다.

도 15에 도시된 전자 장치의 컴퓨터 시스템(1500)은 예시일 뿐이며, 본 출원의 실시예의 기능 및 사용 범위에 대한 어떠한 제한도 구성하지 않는다.

도 15에 도시된 바와 같이, 컴퓨터 시스템(1500)은 중앙 처리 장치(CPU)(1501)를 포함하는데, 이것은 읽기 전용 메모리(ROM)(1502)에 저장된 프로그램 또는 저장부(1508)로부터 RAM(1503)으로 로드된 프로그램에 기초하여 다양한 적절한 동작 및 처리를 수행할 수 있다. RAM(1503)은 시스템 동작에 필요한 다양한 프로그램 및 데이터를 더 저장한다. CPU(1501), ROM(1502), 및 RAM(1503)은 버스(1504)를 통해 서로 접속된다. 입출력(I/O) 인터페이스(1505)도 버스(1504)에 접속된다.

I/O 인터페이스(1505)에는 키보드, 마우스 등을 포함하는 입력부(1506); CRT(Cathode Ray Tube), LCD(Liquid Crystal Display), 스피커 등을 포함하는 출력부(1507); 하드 디스크 등을 포함하는 저장부(1508); 및 부분 영역 네트워크(LAN) 카드 또는 모뎀과 같은 네트워크 인터페이스 카드를 포함하는 통신부(1509)를 포함한다. 통신부(1509)는 인터넷 등의 네트워크를 이용하여 통신 처리를 행한다. 드라이브(1510)는 또한 필요에 따라 I/O 인터페이스(1505)에 연결된다. 드라이브(1510)에는 자기디스크, 광디스크, 광자기디스크, 반도체 메모리 등과 같은 이동식 매체(1511)가 필요에 따라 탑재되어 이동식 매체에서 읽어들인 컴퓨터 프로그램이 필요에 따라 저장부(1508)에 인스톨된다.

구체적으로, 본 출원의 실시예에 따르면, 다양한 방법 흐름도에서 설명된 프로세스는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 출원의 실시예는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하는 데 사용되는 프로그램 코드를 포함한다. 이러한 실시예에서, 통신부(1509)를 사용함으로써, 컴퓨터 프로그램은 네트워크로부터 다운로드 및 설치될 수 있고 및/또는 이동식 매체(1511)로부터 설치될 수 있다. 컴퓨터 프로그램이 CPU(1501)에 의해 실행될 때, 본 출원의 시스템이 실행된다.

본 출원의 실시예에 나타난 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능형 신호 매체 또는 컴퓨터 판독 가능형 저장 매체 또는 이들의 임의의 조합일 수 있다. 컴퓨터 판독 가능형 저장 매체는 예를 들어 전기, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 구성요소, 또는 이들의 임의의 조합일 수 있지만 이에 제한되지는 않는다. 컴퓨터 판독 가능형 저장 매체는: 하나 이상의 전선을 갖는 전기적 연결, 휴대용 컴퓨터 자기 디스크, 하드 디스크, RAM(Random Access Memory), ROM(Read-Only Memory), 소거 가능한 프로그램 가능 읽기 전용 메모리(EPROM), 플래시 메모리, 광섬유, 콤팩트디스크 읽기 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치, 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 국한되지는 않는다. 본 출원의 실시예에서, 컴퓨터 판독 가능형 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형의 매체일 수 있고, 프로그램은 명령 실행 시스템, 장치 또는 장치에 의해 또는 조합되어 사용될 수 있다. 본 출원의 실시예에서, 컴퓨터 판독 가능형 신호 매체는 기저대역에 있거나 반송파의 일부로서 전파되는 데이터 신호를 포함할 수 있고, 데이터 신호는 컴퓨터 판독 가능형 프로그램 코드를 실어 전달한다. 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 이들의 임의의 적절한 조합을 포함하지만 이에 제한되지 않는 복수의 형태일 수 있다. 컴퓨터 판독 가능형 신호 매체는 컴퓨터 판독 가능형 저장 매체 외에 컴퓨터 판독 가능형 모든 매체를 더 포함할 수 있다. 컴퓨터 판독 가능형 매체는 명령 실행 시스템, 장치 또는 장치에 의해 사용되거나 조합되어 사용되는 프로그램을 전송, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 무선 매체, 유선 매체 등, 또는 이들의 임의의 적절한 조합을 포함하나 이에 제한되지 않는 임의의 적절한 매체를 사용하여 전송될 수 있다.

첨부 도면의 흐름도 및 블록도는 본 출원의 다양한 실시예에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품에 의해 구현될 수 있는 가능한 시스템 아키텍처, 기능, 및 동작을 예시한다. 이와 관련하여 흐름도 또는 블록도의 각 상자는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 모듈, 프로그램 세그먼트 또는 코드의 일부에는 지정된 논리 기능을 구현하는 데 사용되는 하나 이상의 실행 가능한 명령이 포함된다. 대안으로 사용되는 일부 구현에서, 상자에 주석이 달린 기능은 대안적으로 첨부 도면에 주석이 달린 것과 다른 순서로 발생할 수 있다. 예를 들어, 연속적으로 도시된 두 개의 박스는 실제로 기본적으로 병렬로 수행될 수 있고, 때때로 두 개의 박스가 역순으로 수행될 수 있다. 이것은 관련 기능에 의해 결정된다. 블록도 및/또는 흐름도의 각 상자와 블록도 및/또는 흐름도의 상자 조합은 지정된 기능 또는 동작을 수행하도록 구성된 전용 하드웨어 기반 시스템을 사용하여 구현되거나 전용 하드웨어와 컴퓨터 명령어의 조합을 사용하여 구현될 수 있다.

전술한 상세한 설명에서 동작을 수행하도록 구성된 장치의 복수의 모듈 또는 유닛이 논의되었지만, 그러한 구분이 필수는 아니다. 실제로, 본 출원의 실시예의 구현에 따르면, 전술한 둘 이상의 모듈 또는 유닛의 특징 및 기능은 구체적으로 하나의 모듈 또는 유닛에서 구현될 수 있다. 반대로, 상술한 하나의 모듈 또는 유닛의 특징 및 기능을 더 세분화하여 복수의 모듈 또는 유닛으로 지정할 수 있다.

이상과 같은 실시예에 대한 설명을 통해, 당업자는 본 명세서에서 설명된 실시예가 소프트웨어를 통해 구현될 수도 있고, 필요한 하드웨어와 결합된 소프트웨어를 통해 구현될 수도 있음을 쉽게 이해할 수 있을 것이다. 따라서, 본 출원의 실시예의 기술 솔루션은 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 비휘발성 저장 매체(이것은 CD-ROM, USB 플래시 드라이브, 이동식 하드 디스크 등이 될 수 있다) 또는 네트워크 상에 저장될 수 있고, 컴퓨팅 장치(이것은 PC, 서버, 터치 단말, 네트워크 장치 등일 수 있다)가 본 출원의 실시예에 따른 방법을 수행할 수 있도록 명령하는 수 개의 명령을 포함할 수 있다

본 출원의 다른 실시예는 여기에서 본 출원의 명세서 및 실시를 고려함으로써 당업자에게 명백할 것이다. 본 출원은 본 출원의 일반적인 원칙에 따라 본 출원의 임의의 변형, 사용 또는 적응적 변경을 포함하도록 의도되었으며, 본 출원에서 공개되지 않은 해당 기술 분야의 잘 알려진 지식 및 통상적인 기술 수단을 포함한다.

본 출원은 위에서 설명되고 첨부 도면에 도시된 정확한 구조에 제한되지 않으며, 본 출원의 범위를 벗어나지 않는 한 수정 및 변경이 이루어질 수 있다. 본 출원의 범위는 첨부된 청구범위에 의해서만 제한된다.

산업상 이용 가능성:

본 출원의 실시예에서, 온라인 활동과 오프라인 활동이 동기화될 필요가 있을 때, 실제 장면 정보에 대해 특징 추출을 수행함으로써 실제 장면의 장면 특징을 획득하고, 실제 장면의 장면 특징 가상 장면에 매핑되어 오프라인 캐릭터와 장면과 온라인 가상 장면의 실시간 통합 및 인터랙션을 구현하여 인터랙션 효율성을 향상시킬 뿐만 아니라 더욱 다양한 인터랙션 효과를 얻을 수 있다. 또한, 이 방법은 온라인 사용자의 활동 참여도를 높이고 산업적 활용도가 높은 활동의 가치를 높일 수 있다.

Claims

전자 장치에 의해 수행되는 장면 인터랙션 방법으로서,
가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정하는 단계;
각각의 실제 장면의 실제 장면 정보를 실시간으로 획득하는 단계;
각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하는 단계; 및
상기 가상 장면과 상기 실제 장면 간의 대응관계에 따라 상기 적어도 하나의 실제 장면의 장면 특징을 상기 가상 장면에 매핑하는 단계
를 포함하는 장면 인터랙션 방법.
제1항에 있어서,
상기 장면 특징은 이미지 특징 또는 오디오 특징 중 적어도 하나를 포함하는, 장면 인터랙션 방법.
제2항에 있어서,
상기 각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하는 단계는:
각각의 실제 장면 정보에서 이미지 정보 및 오디오 정보를 획득하는 단계;
상기 이미지 정보에 대해 특징 추출을 수행하여 상기 실제 장면의 이미지 특징을 획득하는 단계; 및
상기 오디오 정보에 대해 특징 추출을 수행하여 상기 실제 장면의 오디오 특징을 획득하는 단계
를 포함하는, 장면 인터랙션 방법.
제3항에 있어서,
상기 이미지 정보에 대해 특징 추출을 수행하여 상기 실제 장면의 이미지 특징을 획득하는 단계는:
상기 이미지 정보에 대해 장면 인식을 수행하여 상기 실제 장면의 장면 이미지 특징을 획득하는 단계;
상기 이미지 정보에 대한 얼굴 인식을 수행하여 상기 실제 장면의 캐릭터 이미지 특징을 획득하는 단계;
상기 이미지 정보에 대한 캐릭터 액션 인식을 수행하여 상기 실제 장면의 액션 이미지 특징을 획득하는 단계; 및
상기 장면 이미지 특징, 상기 캐릭터 이미지 특징 및 상기 액션 이미지 특징을 상기 실제 장면의 이미지 특징으로 결정하는 단계
를 포함하는, 장면 인터랙션 방법.
제3항에 있어서,
상기 이미지 정보에 대해 특징 추출을 수행하여 상기 실제 장면의 이미지 특징을 획득하는 단계는:
상기 이미지 정보로부터 상이한 이미지 획득 파라미터에 대응하는 상기 실제 장면의 부분 이미지를 획득하는 단계;
동일한 시간 간격에 속하는 상기 부분 이미지에 대해 이미지 스플라이싱(image splicing)을 수행하여 실제 상기 장면의 통합 이미지를 획득하는 단계; 및
상기 통합 이미지에 대해 특징 추출을 수행하여 상기 실제 장면의 이미지 특징을 획득하는 단계
를 포함하는, 장면 인터랙션 방법.
제5항에 있어서,
상기 이미지 획득 파라미터는 이미지 획득 각도 또는 이미지 획득 범위 중 적어도 하나를 포함하는, 장면 인터랙션 방법.
제5항에 있어서,
상기 통합 이미지에 대해 특징 추출을 수행하여 상기 실제 장면의 이미지 특징을 획득하는 단계는:
상기 통합 이미지에 대해 에지 검출을 수행하여 상기 통합 이미지에서 특징 영역을 획득하는 단계; 및
상기 특징 영역에 대해 특징 추출을 수행하여 상기 실제 장면의 이미지 특징을 획득하는 단계
를 포함하는, 장면 인터랙션 방법.
제3항에 있어서,
상기 오디오 정보에 대해 특징 추출을 수행하여 상기 실제 장면의 오디오 특징을 획득하는 단계는:
상기 오디오 정보에 대해 음성 인식을 수행하여 상기 실제 장면의 텍스트 오디오 특징을 획득하는 단계;
상기 오디오 정보에 대해 파형 검출을 수행하여 상기 실제 장면의 파형 오디오 특징을 획득하는 단계; 및
상기 텍스트 오디오 특징 및 상기 파형 오디오 특징을 상기 실제 장면의 오디오 특징으로 결정하는 단계
를 포함하는, 장면 인터랙션 방법.
제1항에 있어서,
상기 가상 장면과 상기 실제 장면 간의 대응관계에 따라 상기 적어도 하나의 실제 장면의 장면 특징을 상기 가상 장면에 매핑하는 단계는:
상기 가상 장면과 상기 실제 장면의 대응관계에 따라 상기 가상 장면에서 각각의 실제 장면에 대응하는 특징 매핑 영역을 결정하는 단계; 및
상기 특징 매핑 영역에서 대응하는 실제 장면의 장면 특징과 매핑 관계를 갖는 장면 콘텐츠를 표시하는 단계
를 포함하는, 장면 인터랙션 방법.
제9항에 있어서,
상기 특징 맵핑 영역은 제1 특징 맵핑 영역 및 제2 특징 맵핑 영역을 포함하고; 그리고
상기 특징 매핑 영역에서 대응하는 실제 장면의 장면 특징과 매핑 관계를 갖는 장면 콘텐츠를 표시하는 단계는:
상기 장면 특징이 이미지 특징인 경우, 상기 제1 특징 매핑 영역에서 상기 이미지 특징과 매핑 관계를 갖는 이미지 응답 콘텐츠를 표시하는 단계; 및
상기 장면 특징이 오디오 특징인 경우, 상기 제2 특징 매핑 영역에서 상기 오디오 특징과 매핑 관계를 갖는 오디오 응답 콘텐츠를 표시하는 단계
를 포함하는, 장면 인터랙션 방법.
제10항에 있어서,
상기 제1 특징 매핑 영역에서 상기 이미지 특징과 매핑 관계를 갖는 이미지 응답 콘텐츠를 표시하는 단계는:
상기 이미지 특징으로부터 장면 이미지 특징, 캐릭터 이미지 특징, 또는 액션 이미지 특징 중 적어도 하나를 획득하는 단계;
상기 제1 특징 매핑 영역에서 상기 장면 이미지 특징과 매핑 관계를 갖는 가상 배경 이미지를 표시하는 단계;
상기 제1 특징 매핑 영역에서 상기 캐릭터 이미지 특징과 매핑 관계를 갖는 가상 캐릭터 이미지를 표시하는 단계; 및
상기 제1 특징 매핑 영역에서 상기 액션 이미지 특징과 매핑 관계를 갖는 액션 응답 콘텐츠를 표시하는 단계
를 포함하는, 장면 인터랙션 방법.
제10항에 있어서,
상기 제2 특징 매핑 영역에서 상기 오디오 특징과 매핑 관계를 갖는 오디오 응답 콘텐츠를 표시하는 단계는:
상기 오디오 특징으로부터 텍스트 오디오 특징 및 파형 오디오 특징을 획득하는 단계;
상기 제2 특징 매핑 영역에서 상기 텍스트 오디오 특징과 매핑 관계를 갖는 텍스트 응답 콘텐츠를 표시하는 단계; 및
상기 제2 특징 매핑 영역에서 상기 파형 오디오 특징과 매핑 관계를 갖는 오디오 동적 효과를 표시하는 단계
를 포함하는, 장면 인터랙션 방법.
제1항에 있어서,
상기 각각의 실제 장면의 실제 장면 정보를 실시간으로 획득하는 단계는:
상기 가상 장면과 상기 실제 장면 간의 실시간 통신을 수행하는 전송 제어 프로토콜(Transmission Control Protocol, TCP)에 기초하여 풀-듀플렉스 통신 프로토콜(WebSocket)의 실시간 통신 링크를 구축하는 단계; 및
상기 실시간 통신 링크를 사용하여 상기 실제 장면의 실제 장면 정보를 획득하는 단계
를 포함하는, 장면 인터랙션 방법.
장면 인터랙션 장치로서,
가상 장면과 인터랙션하는 적어도 하나의 실제 장면을 결정하도록 구성되어 있는 장면 결정 모듈;
각각의 실제 장면의 실제 장면 정보를 실시간으로 획득하도록 구성되어 있는 정보 획득 모듈;
각각의 실제 장면 정보에 대해 특징 추출을 수행하여 상응하는 각각의 실제 장면의 장면 특징을 획득하도록 구성되어 있는 특징 추출 모듈; 및
상기 가상 장면과 상기 실제 장면 간의 대응관계에 따라 상기 적어도 하나의 실제 장면의 장면 특징을 상기 가상 장면에 매핑하도록 구성되어 있는 특징 매핑 모듈
을 포함하는 장면 인터랙션 방법.
전자 장치로서,
프로세서, 및
상기 프로세서의 실행 가능한 명령을 저장하도록 구성되어 있는 메모리
를 포함하며,
상기 프로세서는 상기 실행 가능한 명령을 실행함으로써 제1항 내지 제13항 중 어느 한 항에 따른 장면 인터랙션 방법을 수행하도록 구성되어 있는 전자 장치.
컴퓨터 판독 가능형 저장 매체로서,
컴퓨터 실행 가능형 명령을 저장하며, 프로세서에 의해 실행될 때, 상기 컴퓨터 실행 가능형 명령은 제1항 내지 제13항 중 어느 한 항에 따른 장면 인터랙션 방법을 실행하는, 컴퓨터 판독 가능형 저장 매체,