KR20210156283A

KR20210156283A - 프롬프트 정보 처리 장치 및 방법

Info

Publication number: KR20210156283A
Application number: KR1020217037924A
Authority: KR
Inventors: 타오루이 렌; 이페이 구오
Original assignee: 삼성전자주식회사
Priority date: 2019-04-19
Filing date: 2020-04-20
Publication date: 2021-12-24
Also published as: US20220207872A1; CN111832360A; WO2020214006A1

Abstract

프롬프트 정보 처리 장치 및 방법이 제공된다. 그 장치는 하나 이상의 명령어들을 저장하도록 구성된 메모리, 상기 메모리에 저장된 하나 이상의 명령어들을 실행하여, 프롬프트 정보를 획득하고 객체를 획득하여 그 객체에 기반하여 프롬프트 정보를 출력하도록 구성된 프로세서를 포함할 수 있다.

Description

프롬프트 정보 처리 장치 및 방법

본 개시는 컴퓨터 기술 분야에 관한 것으로, 특히 프롬프트 정보(prompt information) 처리 방법, 장치, 전자 기기 및 판독가능 저장 매체에 관한 것이다.

정보가 폭발적으로 증가하는 현 시대에서는 리마인더(reminder) 내용, 시간, 장소, 인물 등을 포함하는 일상적 일과 생활에 있어서의 많은 파편화된 정보들을 기록해야 할 필요가 있다. 사용자들은 보통, 노트북 상이나 모바일 전화나 태블릿 등의 전자 기기들 상에 그러한 파편화된 정보를 기록한다. 리마인더 시간이 도래하면, 전자 기기는 해당 리마인더들을 사용자에게 푸쉬할 것이다.

하지만 현재의 리마인더 항목들에 대한 설정은 사용자가 주도적으로 완료해야 한다. 사용자는 리마인더 항목을 설정하기 위한 명료한 명령을 제공해야 하고, 전자 기기는 그러한 사용자 명령에 기반하여 리마인더 항목을 설정한다. 또한, 사용자가 음성 명령을 개시하여 리마인더 항목을 설정할 경우, (제한된 사용자 음성 입력, 불충분한 표준 단어들 등과 같은) 다양한 이유들로 인해 부정확한 리마인더 항목들을 설정하거나 리마인더 항목 설정 실패와 같은 문제들이 있을 수 있다. 따라서, 현재의 리마인더 항목들의 구현에 있어서, 사용자 경험이 열악하여 사용자의 실질적 적용 요건을 만족하지 못할 수 있다.

본 출원의 실시예들의 목적은 기존 기술의 결함들 중 적어도 하나를 해결하기 위한 것이다. 본 출원의 실시예들에 의해 제공되는 해법들은 다음과 같다:

제1측면에서, 본 개시의 실시예는 프롬프트(prompt) 정보 처리 방법을 제공하며, 그 방법은 프롬프트 정보를 획득하는 단계; 사용자 보기(view) 이미지에서 객체를 획득하고 상기 객체에 기반하여 프롬프트 정보를 출력하는 단계를 포함한다.

제2측면에서, 본 개시의 실시예는 프롬프트 정보 처리 장치를 제공하며, 그 장치는 프롬프트 정보를 획득하도록 구성되는 프롬프트 정보 획득 모듈; 사용자 보기 이미지에서 객체를 획득하고 상기 객체에 기반하여 상기 프롬프트 정보를 출력하도록 구성되는 객체 획득 모듈을 포함한다.

제3측면에서, 본 개시의 실시예는 전자 기기를 제공하며, 그 전자 기기는 프로세서 및 메모리를 포함하고; 상기 메모리는 기계 판독가능 명령어들을 저장하고; 상기 프로세서는 상기 기계 판독가능 명령어들을 실행하여 본 개시의 실시예에 의해 제공되는 상기 방법을 구현하도록 구성된다.

옵션으로서, 상기 전자 기기는 증강 현실(AR) 기기나 가상 현실(VR) 기기를 포함한다.

제4측면에서, 본 개시의 실시예는 컴퓨터 판독가능 저장 매체를 제공하며, 상기 판독가능 저장 매체는 컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행되어 본 개시의 실시예에 의해 제공되는 상기 방법을 구현한다.

본 개시의 실시예들은 프롬프트 정보를 처리하기 위한 방법들 및 장치들을 제공한다.

일 실시예에서, 프롬프트 정보 처리 장치는 하나 이상의 명령어들을 저장하도록 구성된 메모리, 상기 메모리에 저장된 상기 하나 이상의 명령어들을 실행하여, 프롬프트 정보를 획득하고 객체를 획득하여 그 객체에 기반하여 프롬프트 정보를 출력하도록 구성된 프로세서를 포함할 수 있다.

일 실시예에서, 상기 프롬프트 정보 및 상기 객체는 사용자 음성 명령을 획득하여 분석하고, 사용자 보기 이미지를 획득하여 분석하고, 상기 사용자 음성 명령 분석의 결과 및 상기 사용자 보기 이미지 분석의 결과에 기반하여 상기 프롬프트 정보 및 상기 객체를 결정함으로써 획득된다.

일 실시예에서, 상기 적어도 하나의 프로세서는 상기 사용자 음성 명령에 기반하여 이미지 분석 알고리즘을 결정하고, 상기 결정된 이미지 분석 알고리즘에 기반하여 상기 사용자 보기 이미지를 분석하도록 더 구성된다.

일 실시예에서, 상기 적어도 하나의 프로세서는 상기 사용자 보기 이미지 분석의 예비 결과에 기반하여 상기 사용자 음성 명령을 분석하고, 상기 사용자 음성 명령 분석의 예비 결과에 기반하여 상기 사용자 보기 이미지를 분석하도록 더 구성된다.

일 실시예에서, 상기 객체는 상기 사용자 음성 명령 분석의 결과 및 상기 사용자 보기 이미지 분석의 결과에 기반하여 상기 프롬프트 정보에 대한 복수의 선택가능 객체 옵션들을 결정하고; 상기 복수의 선택가능 객체 옵션들로부터의 사용자 선택에 기반하여 객체를 획득함으로써 획득된다.

일 실시예에서, 상기 객체는 상기 사용자 음성으로 전달되는 객체 지시 정보에 기반하여 상기 사용자 보기 이미지 내 상기 객체를 결정함으로써 획득된다.

일 실시예에서, 상기 객체는 사용자 음성 명령을 획득하여 분석하고, 상기 사용자 음성 명령 분석의 결과에 기반하여 상기 프롬프트 정보를 결정하고, 객체 지시 정보가 상기 사용자 음성 명령으로 전달되는지 여부를 결정하고, 상기 객체 지시 정보가 상기 사용자 음성 명령으로 전달되지 않는다고 판단 시, 상기 사용자 음성 명령 분석의 결과에 기반하여 상기 객체를 자동으로 결정함으로써 획득된다.

일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 객체의 위치 정보가 변경될 때, 상기 객체의 변경된 위치 정보에 따라 사용자 보기 이미지 안에 상기 프롬프트 정보를 디스플레이 하도록 더 구성된다.

일 실시예에서, 상기 프롬프트 정보 및 상기 객체는 사용자의 이력 상의 이미지를 획득하고, 상기 이력 상의 이미지에 기반하여 사용자 행동을 인식하고, 상기 사용자 행동에 기반하여 상기 프롬프트 정보를 자동으로 생성함으로써 획득된다.

일 실시예에서, 상기 프롬프트 정보 및 상기 객체는, 사진을 획득하고, 상기 사진을 디스플레이 하고, 상기 디스플레이 된 사진과 관련된 사용자 입력을 획득하고, 상기 디스플레이 된 사진과 관련된 상기 사용자 입력을 분석하여 상기 프롬프트 정보 및 상기 객체를 결정함으로써 획득된다.

일 실시예에서, 상기 프롬프트 정보는 다른 기기로부터 상기 프롬프트 정보를 수신함으로써 획득되고, 상기 적어도 하나의 프로세서는 상기 객체에 기반하여 사용자 보기 이미지 내에 상기 프롬프트 정보를 디스플레이 하도록 더 구성된다.

일 실시예에서, 상기 객체는 상기 객체를 결정하기 위해 사용될 수 있는 상기 다른 기기에 의해 전송되는 정보를 획득하고, 상기 객체를 결정하기 위해 사용될 수 있는 상기 수신된 정보에 기반하여 상기 사용자 보기 이미지 내에서 상기 객체를 결정함으로써 획득된다.

일 실시예에서, 상기 프롬프트 정보는 다른 기기로부터 상기 프롬프트 정보를 수신함으로써 획득되고, 상기 적어도 하나의 프로세서는 사진 및 사용자 보기 이미지 사이의 매핑 관계에 기반하여 상기 사진 안에 상기 프롬프트 정보를 디스플레이 하도록 더 구성된다.

다른 실시예에서, 프롬프트 정보 처리 방법이 제공된다. 그 방법은 프롬프트 정보를 획득하는 단계, 및 객체를 획득하고 상기 객체에 기반하여 상기 프롬프트 정보를 출력하는 단계를 포함할 수 있다.

본 개시에 의해 제공되는 기술적 해법들이 가져다 주는 바람직한 효과들은, 본 개시의 실시예에 의해 제공되는 프롬프트 정보 처리 방법이, 사용자 보기 이미지에 대한 이미지 인식을 수행하고, 기존의 프롬프트 정보 처리 방법들과 비교하여 다각화된 프롬프트 정보 디스플레이를 구현함으로써 결정된 객체에 따라 프롬프트 정보를 사용자에게 디스플레이 할 수 있어, 사용자 경험을 향상시키고 사용자 요구조건을 보다 잘 만족시킬 수 있다는 것이다.

본 개시 및 그 이점들에 대한 보다 완전한 이해를 위해, 지금부터 유사 참조부호들이 유사 구성요소들을 나타내는 첨부된 도면들과 함께 취해진 이하의 설명을 참조한다.
도 1은 본 개시의 일 실시예에 의해 제공되는 프롬프트 정보 처리 방법을 예시한 개략적 흐름도이다.
도 2는 본 개시의 일 실시예에 의해 제공되는 프롬프트 정보 처리 시스템의 개략적 구성도를 도시한다.
도 3은 본 개시의 일 실시예에 의해 제공되는 이미지 인식 모듈의 개략적 구성도를 도시한다.
도 4는 본 개시의 일 실시예에 의해 제공되는 이미지 인식 모듈에 의한 이미지 인식 수행의 동작 원리를 보이는 개략도를 도시한다.
도 5는 본 개시의 일 실시예에 의해 제공되는 자동 음성 인식 및 자연 언어 이해 모듈의 개략적 구성도를 도시한다.
도 6은 본 개시의 일 실시예에 의해 제공되는 이미지 인식 출력 저장 및 분석 모듈과 음성 이해 출력 저장 및 분석 모듈의 개략적 구성도를 도시한다.
도 7a는 본 개시의 일 실시예에 의해 제공되는 사용자 보기(view) 이미지의 개략도를 도시한다.
도 7b는 예 1에서 도 7a의 사용자 보기 이미지에 대한 객체 인식 결과의 개략도를 도시한다.
도 7c는 예 1에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 7d는 본 개시의 예 2에서 도 7a의 사용자 보기 이미지에 대한 객체 인식 결과의 개략도를 도시한다.
도 7e는 예 2에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 8은 본 개시의 예 3에 의해 제공되는 사용자 선호 사항에 따라 객체를 선택하는 동작 원리의 개략도를 도시한다.
도 9는 본 개시의 예 4에서 제공되는 프롬프트 정보 처리 시스템의 개략적 구성도를 도시한다.
도 10은 본 개시의 예 4에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 11a는 본 개시의 예 5에서 제공되는 애플리케이션 장면의 개략도를 도시한다.
도 11b는 예 5에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 12는 본 개시의 예 5에서 제공되는 프롬프트 정보 처리 시스템의 개략적 구성도를 도시한다.
도 13a는 본 개시의 예 6에서 제공되는 애플리케이션 장면의 개략도를 도시한다.
도 13b는 예 6에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 14는 본 개시의 예 7에서 제공되는 프롬프트 정보 처리 방법의 동작 원리에 대한 개략도를 도시한다.
도 15a는 본 개시의 예 8에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 15b는 예 8에서 객체가 이동한 장면에 대한 개략도를 도시한다.
도 15c는 예 8에서의 프롬프트 정보에 대한 디스플레이의 다른 개략도를 도시한다.
도 16은 본 개시의 예 9에서 제공되는 이미지 인식 모듈의 개략적 구성도를 도시한다.
도 17는 본 개시의 예 9에서 제공되는 프롬프트 정보 처리 시스템의 개략적 구성도를 도시한다.
도 18a는 본 개시의 예 10에서 제공되는 사용자 보기 이미지의 개략도를 도시한다.
도 18b는 예 10에서의 이미지를 사용자가 편집하는 개략도를 도시한다.
도 18c는 예 10에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 19는 예 10의 프롬프트 정보 처리 방법의 동작 원리에 대한 개략도를 도시한다.
도 20a는 본 개시의 예 11에서의 애플리케이션 장면의 개략도를 도시한다.
도 20b는 예 11에서의 이미지를 사용자가 편집하는 개략도를 도시한다.
도 20c는 예 11에서의 프롬프트 정보에 대한 디스플레이의 개략도를 도시한다.
도 21은 본 개시의 일 실시예에 의해 제공되는 프롬프트 정보 처리 장치의 개략적 구성도를 도시한다.
도 22는 본 개시의 일 실시예에 의해 제공되는 전자 기기의 개략적 구성도를 도시한다.

본 개시의 실시예들을 지금부터 상세히 기술할 것이다. 이 실시예들의 예들은 도면에 도시되어 있으며, 동일하거나 유사한 참조 부호들은 동일하거나 유사한 요소들 또는 동일하거나 유사한 기능을 가진 요소들을 일컫는다. 첨부된 도면들을 참조하여 앞으로 기술되는 실시예들은 예시적인 것으로서, 본 개시를 설명하기 위해 사용된 것일 뿐으로, 그에 대해 한정되는 것으로 간주되어서는 안된다.

이 분야의 숙련자라면 다르게 기술하지 않는 한, 단수형은 복수형을 포함하도록 되어있을 수 있다는 것을 알 수 있을 것이다. "구비한다/구비하는", "포함한다/포함하는"이라는 용어들은 이 명세서에 사용될 때 언급한 특성들, 정수들, 단계들, 동작들, 구성요소들 및/또는 컴포넌트들의 존재를 특정하지만 하나 이상의 다른 특성들, 정수들, 단계들, 동작들, 구성요소들, 컴포넌트들 및/또는 이들의 그룹들의 존재나 추가를 배제하지 않는다. 한 구성요소가 다른 구성요소에 "연결"되거나 "결합"된 것으로 언급될 때, 그것은 다른 구성요소에 직접 연결 또는 결합되거나 그 사이에 개재되는 구성요소들과 함께 제공될 수 있다는 것을 알아야 한다. 또한 여기에 사용되는 "연결"이나 "결합"은 무선 연결이나 결합을 포함할 수 있다. 이 명세서에 사용된 바와 같은 "및/또는"이라는 용어는 하나 이상의 관련된 나열 항목들 전체나 어느 하나 또는 그 조합들을 포함한다.

"연결(결합)한다"는 말과 그 파생어들은 둘 이상의 구성요소들이 서로 물리적 접촉 상태에 있든지 그렇지 않든지, 그들 간의 어떤 직접적이거나 간접적인 통신을 일컫는다. "전송한다", "수신한다", 그리고 "통신한다" 라는 용어들뿐 아니라 그 파생어들은 직간접적 통신 모두를 포함한다. "포함하다" 및 "구비한다"는 용어들 및 그 파생어들은 제한 없는 포함을 의미한다. "또는"이라는 말은 '및/또는'을 의미하는 포괄적인 말이다 "~와 관련된다" 및 그 파생어들은 포함한다, ~ 안에 포함된다, ~와 상호연결한다, 내포한다, ~안에 내포된다, ~에/와 연결한다, ~에/와 결합한다, ~와 통신할 수 있다, ~와 협력한다, 개재한다, 나란히 놓는다, ~에 근사하다, ~에 속박된다, 가진다, ~의 특성을 가진다, ~와 관계를 가진다는 등의 의미이다. "컨트롤러"라는 용어는 적어도 한 동작을 제어하는 어떤 장치, 시스템, 또는 그 일부를 의미한다. 그러한 컨트롤러는 하드웨어나 하드웨어와 소프트웨어 및/또는 펌웨어의 조합으로 구현될 수 있다. 어떤 특정 컨트롤러와 관련된 기능은 국지적이든 원격으로든 중앙 집중되거나 분산될 수 있다. "적어도 하나의~"라는 말은 항목들의 리스트와 함께 사용될 때, 나열된 항목들 중 하나 이상의 서로 다른 조합들이 사용될 수 있고, 그 리스트 내 오직 한 항목만이 필요로 될 수 있다는 것을 의미한다. 예를 들어, "A, B, 및 C 중 적어도 하나"는 다음과 같은 조합들 중 어느 하나를 포함한다: A, B, C, A 및 B, A 및 C, B 및 C, 및 A와 B와 C.

또한, 이하에 기술되는 다양한 기능들은 하나 이상의 컴퓨터 프로그램들에 의해 구현되거나 지원될 수 있으며, 그 프로그램들 각각은 컴퓨터 판독가능 프로그램 코드로 구성되고 컴퓨터 판독가능 매체에서 실시된다. "애플리케이션" 및 "프로그램"이라는 용어는 하나 이상의 컴퓨터 프로그램, 소프트웨어 성분, 명령어 집합, 절차, 함수, 객체, 클래스, 인스턴스, 관련 데이터, 또는 적합한 컴퓨터 판독가능 프로그램 코드의 구현에 적합한 그들의 일부를 일컫는다. "컴퓨터 판독가능 프로그램 코드"라는 말은 소스 코드, 객체 코드, 및 실행 코드를 포함하는 모든 타입의 컴퓨터 코드를 포함한다. "컴퓨터 판독가능 매체"라는 말은 ROM(read only memory), RAM(random access memory), 하드 디스크 드라이브, 컴팩트 디스크(CD), 디지털 비디오 디스크(DVD), 또는 어떤 다른 유형의 메모리와 같이, 컴퓨터에 의해 액세스될 수 있는 모든 유형의 매체를 포함한다. "비일시적" 컴퓨터 판독가능 매체는 일시적인 전기 또는 기타 신호들을 전송하는 유선, 무선, 광학, 또는 기타 통신 링크들을 배제한다. 비일시적 컴퓨터 판독가능 매체는 데이터가 영구적으로 저장될 수 있는 매체, 및 재기록가능 광학 디스크나 삭제가능 메모리 장치와 같이 데이터가 저장되고 나중에 덮어 쓰여질 수 있는 매체를 포함한다.

다른 소정 단어들 및 어구들에 대한 정의가 이 특허 문서 전체에 걸쳐 제공된다. 당업자는 대부분의 경우들은 아니어도 많은 경우, 그러한 정의들이 그렇게 정의된 단어들 및 어구들의 이전뿐 아니라 이후 사용에도 적용된다는 것을 알 수 있을 것이다.

본 개시의 실시예들에 의해 제공되는 해법들을 보다 잘 예시하기 위해, 본 개시와 연관된 관련 기술들이 우선 다음과 같이 기술된다.

인공 지능의 발전으로, 전자 기기들 상에 정보를 기록하는 방식은 원래 수동으로 정보를 입력하는 것에서 음성으로 제어되는 정보 입력으로까지 진보해 왔고, 이는 우리 삶에 많은 편리함을 가져다준다. 현재 대부분의 전자 기기들(모바일 전화, 태블릿 컴퓨터 등)은 사용자를 위한 리마인더(reminder) 항목들의 사전 설치 수단(pre-installed means)을 가지고 있으며, 리마인더 항목들은 일반적으로 아래와 같은 기능들을 지원한다:

1. 리마인더 내용의 설정 또는 편집;

2. 구체적 리마인더 시간 또는 주기적 리마인더 시간 설정;

3. 리마인더 항목의 우선순위 설정;

4. 리마인더 항목의 카테고리 속성 설정, 및 리마인더 항목의 완료 조건에 따라 그것이 속하는 카테고리를 수정. 예를 들어, 여러 개의 리마인더 항목들이 미완성 카테고리 내에 존재하고, 그 후에 사용자가 완료된 내용을 완료 카테고리로 설정할 수 있음;

5. 추가적 메모들을 추가;

6. 리마인더 항목이 촉발되는 위치를 리마인더로 설정;

7. 모바일 전화 번호, 지리적 위치 등과 같이, 리마인더 항목과 관련된 특징 정보를 설정; 및

8. 설정된 리마인더 항목을 삭제.

음성 어시스턴트(assistant)에 의해 설정된 리마인더 항목은 다음과 같은 다양한 상황들로 구분될 수 있다:

1. 리마인더 항목의 목적과 내용이 한 번에 명료하게 말해진다. 예를 들어, 사용자는 음성 어시스턴트에게 "내일 아침 8 시에 회의가 있다는 리마인더 항목을 설정해"라고 말했고, 시스템은 사용자를 위해 내용이 "회의"인 리마인더 항목을 설정하고, 그 시간을 다음날 아침 8 시로 설정할 것이다.

2. 리마인더 항목의 목적과 내용이 각기 분석된다. 예를 들어, 사용자가 음성 어시스턴트에 "리마인더 항목을 설정해"라고 말한다. 음성 어시스턴트는 "좋아. 상기시킬 내용을 말해줘"라고 요구한 후 사용자의 다음 명령을 기다릴 것이고, 그러면 사용자는 다시 리마인더 내용인 "내일 오전 8시 회의"를 입력하고 음성 어시스턴트는 내용이 다음 날 오전 8 시의 "회의"인 리마인더 내용을 생성할 것이다.

음성으로 리마인더 항목들의 추가를 지원하기 위한 다양한 기술들이 있으며, 구체적으로 다음과 같은 것을 포함할 수 있다.

1. 자동 음성 인식(ASR)을 이용하여 사용자의 음성 정보가 텍스트 정보로 변환된다;

2. 텍스트는 자연 언어 이해 도구들(NLU)을 통해 분석되고, 리마인더 항목 동작들은 사용자의 요구조건에 따라 설정된다;

3. 음성 어시스턴트는 TTS(text to speech) 도구를 사용하여 확인 정보를 재생한다.

또한, 인공 지능의 발전으로 AR/VR 기기들 또한 대중화되어 있어, 사람들이 AR/VR 장면들 안에서 다양한 가상 객체들을 생성할 수 있게 하며, AR/VR 기기들이 실제 세상에 보다 가깝고 보다 풍부한 콘텐츠를 사용자에게 제공할 수 있으므로, 결과적으로 리마인더 항목의 기능이 AR/VR 기기들에 의해 실현될 수 있는 경우, 사용자에게는 어떤 개인 맞춤형 리마인더 서비스가 보다 직관적으로 제공될 수 있다.

본 개시의 실시예들에서 기술되는 AR/VR 기기들은 포괄적 개념으로, AR/VR 장면을 위해 설계된 전용 기기이거나, AR/VR 기능들을 지원하는 다른 기기, 예를 들어 AR 기능을 가진 모바일 전화들이나 태블릿 등일 수 있으며, 본 개시의 실시예에서 일반적으로 AR/VR 기기들이라 부를 것이다.

프롬프트 정보가 AR/VR 기기들과 같은 기기를 사용해 디스플레이될 때, 프롬프트 정보의 가상 리마인더 태그가 위에 디스플레이될 수 있는 객체는 다음과 같은 것을 포함할 수 있으나 그에 한정하지 않는다:

1. 메모들 및 그림들과 같은 고정적 가상 객체들;

2. 상호 동작하기 위해 사용될 수 있는 앨범들 및 책들과 같은 가상 객체들;

3. 멀티미디어 정보를 제공할 수 있는 텔레비전 및 태블릿과 같은 가상 객체들;

4. 동물 및 캐릭터와 같이 자율 모션 속성을 가진 가상 객체들.

기술적 관점에서 볼 때, AR 기기는 실제 장면을 모델링해야 하고, VR 기기는 가상 장면의 모델을 이미 가지고 있으며, 이때 가상 리마인더 태그가 그 이미 설정된 장면 모델 안에 배치된다. 사용자가 AR/VR 기기를 사용하여 장면 내 가상 객체와 상호 동작하는 경우는 다음과 같은 것을 포함할 수 있으나, 그에 국한되지 않는다:

1. 기기의 자이로스코프 및 카메라와 같은 센서 수단에 의해 장면 내 AR/VR 기기의 위치 및 시야각을 계산;

2. AR/VR 기기가 3 차원(3D) 공간의 가상 객체를 생성하여, 사용자의 시각 상태에 따라 사용자 눈에 가상 객체의 투영 이미지를 렌더링한 후, 그것을 사용자에게 디스플레이;

3. 원격 제어 동작, 제스처 인식, 발화 인식 및 기타 기술을 통해 가상 객체들과 실시간 상호 동작(인터랙션)이 수행됨.

AR/VR 장면 내 가상 리마인더 태그가 객체에 할당될 수 있다, 즉 가상 리마인더 태그를 위치시키기 위해 장면 내 다른 정보가 요구된다. 예를 들어, 장면 내 실제 객체에 대한 가상 리마인더 태그가 생성되고, 그 태그는 형태가 풍부하므로, 사용자는 가상 메모, 앨범, 비디오 재생기 등을 볼 수 있다.

기존 항목 리마인딩(reminding) 기능이 사용자의 일과 생활 요구조건들 대부분을 만족시킬 수 있다고 하더라도, 본 개시의 발명자들은 기존 항목 리마인딩 기능이 여전히 아래와 같이 개선되어야 할 하나 이상의 문제들을 가진다는 것을 발견하였다:

1. 모바일 전화와 같은 전자 기기에 의해 설정되는 리마인더 항목들은 일반적으로 스크린을 통해 텍스트 정보를 사용자들에게 바로 디스플레이하거나 음성 어시스턴트를 통해 정보를 브로드캐스팅하는 것을 포함하는, 제한된 방식으로 사용자에게 정보를 디스플레이한다;

2. 실시간 장면들과 관련된 리마인더들은 해당 장면을 기술하기 위해 많은 서술(statements)을 요하는 텍스트 표현만을 사용하고, 그러한 동작은 복잡하고 간단하지도 직관적이지도 못하다;

3. 이미지 인식 알고리즘은 자동 음성 인식 및 자연 언어 이해 모듈의 동작과 별개로서, 보다 많은 정보를 얻기 위해, 많은 알고리즘 모듈들이 동시에 장면 내 객체 속성들을 산출하도록 작동할 필요가 있으며, 이때 그 산출 양이 많고 자원 소비도 많다.

4. 자동 음성 인식 및 자연 언어 이해 또한 이미지 인식 모듈과는 별개로서, 음성 인식 및 언어 이해는 사용자에 의한 음성 정보 입력을 충분히 활용하여 가장 가능한 결과가 출력으로서 선택되며, 이때 시스템은 해당 장면과 결부하여 사용자 의도를 가장 만족시키는 출력을 제공할 수 없다.

5. 일상 생활에서 이용자 인구는 매우 광범위하고 모든 사람이 각자의 습관을 가진다; 지역 사투리 특성을 가진 비표준 중국어와 같이 표준을 벗어나는 음성 명령에 있어, 일부 사용자들은 사적인 이유나 지리적 이유로 객체나 사건에 대해 다른 명칭을 사용하며, 이때 학습 라이브러리를 확장함으로써 그것이 개선될 수는 있겠지만, 각각의 사용자의 특수한 습관들을 전적으로 고려할 수는 없다.

6. 기존 시스템은 입력 정보가 제한되어 있으므로 사용자의 동작 의도를 자동으로 판단할 수 없고, 그에 따라 시스템은 사용자의 가능한 요구조건들에 따라 사용자에 대한 리마인더 항목을 자동으로 설정해 줄 수 없다.

7. 기존 행동 인식 알고리즘은 사용자의 단순한 행동을 계산할 수 있지만, 그 알고리즘이 보통 일부 단순 규칙들에 의거하여 장면 내 객체를 그 객체의 속성 정보와 연관시킬 수 없으므로, 그 출력이 단순하고 정확도가 낮다.

8. 기존 행동 인식 알고리즘은 소정 행동들에 대한 인식만을 수행할 수 있고, 사용자의 개인적 습관에 따라 맞춤화된 처리를 수행할 수 없다.

9. 장면 안에 가상 객체를 생성하기 위해, 기존의 AR/VR 시스템은 장면 내 객체에 따라 가상 객체의 위치를 확인해야 하며, 가상 객체의 위치는 고정된 장면에 따라 좌우되므로, 사용자가 여러 장면들 내 객체들의 클래스에 대해 동일한 태그를 사용한다는 요건을 만족시킬 수 없다.

10. 기존 AR/VR 시스템에서, 객체가 이동될 때, 그에 부착된 태그가 효과적으로 추적 및 기록될 수 없다.

11. 기존 AR/VR 시스템에서, 태그가 장면 내 유사하거나 동일한 복수의 객체들 중 하나에 부가되어야 할 때, 시스템은 사용자 명령이 별로 명확하지 않으면 사용자 선호 사항에 따라 그 복수의 객체들 중 하나를 선택할 수 없다.

12. 기존 AR/VR 시스템은 음성이나 원격 제어를 통해 상호동작하며 모바일 전화 및 태블릿과 같은 다른 전자 기기와의 상호동작이 부족하다.

종래 기술에서의 적어도 하나의 기술적 문제를 해결하기 위해, 본 개시의 실시예들은 프롬프트 정보 처리 방법, 장치, 전자 기기, 및 판독가능 저장 매체를 저장한다. 이하는 본 개시의 실시예들에 의해 제공되는 해법에 대한 상세한 설명이다.

도 1은 본 개시의 실시예에 의해 제공되는 프롬프트 정보 처리 방법의 개략적 흐름도를 도시하며, 도 1에 도시된 바와 같이 그 방법은 다음과 같은 단계들을 포함할 수 있다:

단계 S110: 프롬프트 정보를 획득하는 단계;

단계 S120: 사용자 보기 이미지(user view image) 내에서 객체를 획득하고 상기 객체에 기반하여 프롬프트 정보를 출력하는 단계.

객체는 사용자 보기 이미지에 대한 이미지 인식을 수행함으로써 판단될 수 있다.

사용자 보기 이미지는 사용자 보기 내에 위치하는 이미지라는 것을 알 수 있다. 이미지는 사용자 보기 내에서 획득된 이미지일 수 있고, 사용자의 현재 보기에 대한 획득 범위의 비디오 스트림들 내 하나 이상의 이미지 프레임일 수 있다. 또한, 사용자가 보는 장면이 실제 장면일 때, 사용자 보기 이미지는 사용자의 현재 보기의 실제 이미지이다. 사용자가 보는 장면이 가상 장면이면, 사용자 보기 이미지는 사용자가 보는 가상의 장면이다.

본 개시의 다른 실시예에서, 객체는 다음 방식들 중 적어도 하나에 따라 결정될 수 있다:

사용자 보기 이미지에 대한 이미지 인식을 수행함으로써 결정;

사용자 보기 이미지 내 객체 데이터에 따라 결정.

실제 보기 이미지나 가상 보기 이미지에 있어서, 보기 이미지에 대한 인식을 수행하는 방식은 모두, 프롬프트 정보가 디스플레이될 때 요구되는 기본 객체를 획득하는데 사용될 수 있다. 사용자 보기에 의해 보여지는 장면이 가상 장면이면(즉, VR 장면이면), 그 장면 내 각각의 객체의 (가상 장면 내 위치를 포함하는) 데이터가 장면 안에 고정되고, 그에 따라 VR 장면 안에서 가상 객체를 구축하는 (위치 정보를 포함하는) 디지털 정보에 기반하여 사용자 보기의 가상 이미지 내 객체를 결정할 수도 있다.

본 개시의 실시예에 의해 제공되는 방법은 사용자 보기 이미지 내 객체에 기반하여 프롬프트 정보를 출력할 수 있으므로, 프롬프트 정보가 AR/VR 기기를 통해 사용자 보기 내 객체 상에 디스플레이될 수 있다. 이러한 해법에 기반하여, 사용자에게 보다 다각화된 즉석 구현예들이 제공되며, 이는 사용자에게 실제 세계에 보다 근접한 리마인더 콘텐츠를 디스플레이하고, 사용자의 통찰력을 높이며, 사용자의 실제 적용 요건들을 보다 잘 만족시킬 수 있다.

본 개시의 다른 실시예에서, 프롬프트 정보는 다음과 같은 방식들 중 적어도 하나에 따라 획득될 수 있다:

사용자 명령에 따라 획득되는 프롬프트 정보;

다른 기기에 의해 전송된 프롬프트 정보;

사용자 의도에 따라 자동 생성된 프롬프트 정보;

미리 설정된 방식에 기반하여 생성된 프롬프트 정보.

사용자 명령은 사용자가 제안한 프롬프트 정보를 생성하도록 지시하기 위한 명령어, 다른 기기에 의해 전송된 명령어, 또는 사용자에 의해 이미지를 편집하기 위한 명령어를 포함할 수 있으나, 그에 국한되는 것은 아니다. 또한, 사용자 명령의 구체적인 형식은 본 개시의 실시예에서 한정되지 않으며, 비한정적으로 음성 명령, 텍스트 명령 등을 포함할 수 있다. 본 개시의 실시예에 대한 다음 내용에서, 사용자 명령을 나타내기 위해 음성 명령이 사용된다. 예를 들어, 사용자가 "내일 오전 10 시에 약을 복용하라는 리마인더 설정을 도와줘"라는 음성 명령을 발화한 경우, 대응하는 프롬프트 정보는 그 음성 명령에 기반하여 얻어질 수 있다, 예를 들어, 프롬프트 정보는 내용이 약을 섭취하는 것이고 리마인딩 시간이 내일 오전 10시인 정보일 수 있다.

미리 설정된 방식에 기반하여 생성되는 프롬프트 정보에 있어서, 미리 설정된 방식은 텍스트 방식, 비텍스트 방식 등을 포함할 수 있으나, 그에 한정되지 않는다. 구체적으로, 미리 설정된 방식이 텍스트 방식일 때 생성된 리마인더 정보는 텍스트 형식의 정보일 수 있고, 이 때 프롬프트 정보의 구체적 텍스트 내용은 사용자 명령에 기반하여 획득되거나, 다른 기기로부터 수신된 프롬프트 정보거나, 사용자 의도에 따라 자동 생성되는 것일 수 있다; 비텍스트 방식은 특정 비텍스트 디스플레이 방식을 포함하나 그에 국한되지 않는다, 예를 들어 그것은 보기 이미지 내 객체들의 속성 정보 또는 다른 관련 객체의 속성 정보를 변경할 수 있다. 구체적으로, 사람이 객체를 강조할 수 있고, 컬러를 바꿀 수 있고, 보기 이미지 내 객체의 다른 속성 정보를 바꿀 수 있다.

본 개시의 다른 실시예에서, 사용자 의도는 다음과 같은 방식들 중 적어도 하나에 따라 획득될 수 있다:

사용자의 이력 상의 이미지를 획득;

이력 상의 이미지에 기반하여 사용자 의도를 인식.

구체적으로, 사용자의 이력 상의 이미지를 인식 및 분석함으로써, 가능한 사용자의 의도가 판단될 수 있고, 그에 따라 그 분석된 사용자 의도에 기반하여 해당하는 프롬프트 정보가 자동으로 생성될 수 있다.

본 개시의 실시예의 해법은 사용자의 가능한 요구조건을 분석하기 위해 사용자의 이력 상의 이미지에 기반하여 사용자 의도를 자동으로 분석할 수 있고, 그에 따라 그 요구조건에 따라 사용자에 대한 해당되는 프롬프트 정보가 자동으로 설정될 수 있다. 이 방법을 통해, 사용자의 적극적 참여를 요구하지 않고 사용자를 위한 해당 리마인더 항목들을 설정하는 것이 가능하고, 그에 따라 사용자의 요구조건을 보다 잘 만족시킬 수 있다. 프롬프트 정보가 사용자 의도에 기반하여 자동으로 생성되는 경우, 프롬프트 정보가 디스플레이될 때 기반하는 객체는 사용자 의도와 관련된 객체일 수 있다.

당연히 실제 적용예들에서는 다른 방식으로서, 해당 프롬프트 정보가 사용자 의도에 기반하여 생성된 후, 리마인더 항목이 설정되어야 하는지 여부가 사용자에게 프롬프트될 수 있으며, 이후 사용자가 리마인더 항목을 설정하기로 결정한 피드백을 수신한 후 그러한 프롬프트 정보가 저장된다(즉, 프롬프트 정보의 리마인더 항목을 설정). 사용자가 리마인더 항목을 설정하고 싶어하지 않는다는 피드백을 수신한 경우, 프롬프트 정보는 저장되지 않을 것이다, 즉 리마인더 항목의 설정을 취소한다.

본 개시의 다른 실시예에서, 상기 객체는 다음 정보들 중 적어도 하나에 따라 결정될 수 있다:

사용자 명령으로 전달된 객체 지시 정보;

사용자 보기 이미지 내 사용자의 포커스 지점;

사용자의 개인화된 정보;

객체에 대한 사용자의 이력 상의 행동;

객체를 결정하기 위해 사용될 수 있는 다른 기기에 의해 전송되는 정보;

사용자 명령으로 전달되는 객체 지시 정보는 객체를 명시적으로 나타내는 정보이거나, 객체 지시 정보에 따라 객체를 결정하기 위해 사용될 수 있는 정보일 수 있다, 예를 들어 객체의 속성 정보를 포함할 수 있다. 예를 들어, 사용자 명령이 "이 컴퓨터에서 메일을 보내기 위한 리마인더 태그를 설정해줘"이면, 명령 내 객체 지시 정보는 "이 컴퓨터"이고, 지시 정보는 정보를 나타내는 일반 텍스트이다. 다른 예로, 사용자 명령이 "이 빨간 객체 위에 메일 전송 리마인더를 설정하는 것을 도와줘"이면, 그 명령 내 객체 지시 정보는 "빨간 객체"이고, 여기서 빨간이라는 것은 객체의 컬러 속성이고, 그에 따라 빨간 객체에 의해 지시되는 실제 객체가 사용자 보기 이미지에 대한 인식 수행을 통한 객체로서 인식될 수 있다.

본 개시의 실시예에서, 사용자의 포커스 지점은 사용자 눈의 시점(gaze point) 및/또는 사용자의 다른 부분들의 지시 지점을 포함할 수 있다, 예를 들어 포커스 지점이 손가락이나 다른 부분들의 지시 지점일 수 있다는 것을 알아야 한다.

사용자의 개인화 정보는 사용자 자신과 관련된 사용자 정보를 나타내며, 사용자의 관심, 나이, 성별, 직업, 지리적 위치, 사회적 관계, 사용자에 대한 관심의 내용, 사용자 행동, 사용자 습관, 선호 및 다른 관련 정보를 포함할 수 있으나 그에 국한되지 않는다. 실제 적용예들에서, 사용자 명령 또는 다른 정보가 별로 명료하지 않다는 것에 기반하여, 객체가 사용자 명령 및/또는 다른 정보에 의거하여 결정될 수 없거나, 사용자 명령이나 다른 정보에 의거하여 결정된 선택적 객체들이 하나 이상일 때, 사용자의 개인화 정보(예를 들어, 사용자 선호 사항)에 따라 하나의 객체를 결정할 수 있다.

객체에 대한 사용자의 이력 상의 행동에 있어서, 이 때의 객체는 사용자가 그러한 행동을 할 때의 행동과 관련된 객체를 포함할 수 있으나 그에 국한되지 않는다. 다른 방법으로서, 사용자의 행동은 사용자 이미지를 분석함으로써 인식될 수 있고, 그 행동과 관련된 객체는 프롬프트 정보를 디스플레이할 때의 기본 객체로서 사용된다, 예를 들어 사용자의 하나 이상의 이력 상의 이미지들이 획득될 수 있고, 사용자의 이력 상의 행동은 이미지들을 분석함으로써 결정되고, 객체는 그 행동에 기반하여 결정된다.

또한, 객체는 다른 장치들이 보낸 객체를 판단하기 위해 사용될 수 있는 정보에 따라 결정될 수 있으며, 객체를 결정하기 위해 사용될 수 있는 정보의 구체적 형식은 그것이 사용자 보기 이미지 내 객체 정보를 결정하기 위해 사용될 수 있다면 본 개시의 실시예에서 한정되지 않는다. 예를 들어, 객체 정보를 결정하기 위해 사용될 수 있는 정보는 객체의 이름이거나, 객체 지시 정보일 수 있다. 예를 들어, 객체 지시 정보는 객체의 특징, 구체적으로 다른 이미지들 내 객체의 특징점 같은 것일 수 있고, 이 때 사용자 보기 이미지 내 객체는 특징점 매칭을 이용하여 얻어질 수 있다.

본 개시의 다른 실시예에서, 객체 지시 정보는 객체의 속성 정보를 포함하며, 여기서 객체는 다음과 같은 방식들 중 적어도 하나를 통해 획득된다:

사용자가 위치하는 장면 및/또는 객체의 속성 정보에 따라 이미지 인식 알고리즘을 결정하고; 객체를 인식하기 위해 결정된 이미지 인식 알고리즘에 따라 사용자 보기 이미지에 대한 인식을 수행함.

이미지 인식의 정확도를 향상시키기 위한 다른 방법으로서, 사용자의 시각적 보기 이미지가 인식되기 전에, 사용자가 위치하는 장면의 장면 정보 및/또는 사용자 명령으로 전달되는 객체의 속성 정보에 의해 적절한 이미지 인식 알고리즘이 선택될 수 있다. 사용자 보기 이미지는 선택된 알고리즘에 기반하여 인식되고, 그에 따라 인식의 정확도를 향상시키고 컴퓨팅 자원의 오버헤드를 줄일 수 있다. 당연히, 이미지에서 인식되어야 할 객체가 상술한 방법들 중 어느 하나에 기반하여 결정될 수 있다.

본 개시의 다른 실시예에서, 사용자 보기 이미지 내 객체 및 프롬프트 정보를 획득한 후, 이 방법은 다음과 같은 것을 더 포함할 수 있다:

객체에 기반하여 사용자 보기 이미지 내에 프롬프트 정보를 디스플레이한다.

구체적으로, 프롬프트 정보는 사용자 보기 이미지 내 객체의 위치 정보에 기반하여 AR/VR 기기에 의해 사용자 보기 이미지 내에 객체 상에 디스플레이될 수 있다.

프롬프트 정보가 사용자 보기 이미지 내에 디스플레이될 때, 보기 이미지는 사용자의 현재 보기 이미지라는 것을 알 수 있다. 프롬프트 정보가 일정 기간 동안 연속적으로 사용자에게 디스플레이되어야 할 때, 보기 이미지는 사용자 보기의 수집된 비디오 스트림 내 프레임 이미지일 수 있고, 프롬프트 정보를 연속적으로 디스플레이할 때, 비디오 스트림 내 객체가 객체 추적을 이용하여 추적될 수 있다; 프롬프트 정보는 이미지들의 다양한 프레임들 내 객체에 기반하여 사용자에게 디스플레이된다. 다시 말해, 사용자의 현재 보기 이미지 내 객체는 사용자의 이력 상의 보기 이미지 내 객체에 기반하여 결정될 수 있다.

다른 한 방식의 실제 적용예들에서, 사용자가 위치하는 장면 및/또는 객체의 속성 정보에 따라 이미지 인식 알고리즘이 결정될 수 있다; 사용자의 이력 상의 보기 이미지는 이력 상의 보기 이미지 내 객체를 인식하기 위해 결정된 이미지 인식 알고리즘에 따라 사용자의 이력 상의 보기 이미지가 인식된다; 그런 다음 현재 보기 이미지 내 객체가 이력 상의 보기 이미지 내 객체에 따라 결정된다.

이러한 방식의 경우, 구체적으로, 이력 상의 보기 이미지는 이력 상의 보기 이미지 내 객체의 객체 식별 정보를 얻기 위해 결정된 이미지 인식 알고리즘에 의해 인식될 수 있고, 현재의 보기 이미지 내 객체는 그 식별 정보에 기반하여 인식될 수 있다. 다시 말하면, 현재의 보기 이미지 내 객체를 결정하기 위해 이력 상의 보기 이미지 내 객체의 관련 정보에 기반하여 객체 추적이 수행될 수 있다. 객체 식별 정보는 객체가 이력 상의 보기 이미지 안에 위치하는 이미지 영역의 특징점일 수 있고, 이때 현재의 보기 이미지 내 객체는 이력 상의 보기 이미지 및 현재의 보기 이미지 간 특징점 매칭을 수행하여 결정될 수 있다.

다른 대안적 방식에서, 사용자가 위치하는 장면 및/또는 객체의 속성 정보에 따라 이미지 인식 알고리즘이 역시 결정될 수 있다; 이력 상의 보기 이미지 내 객체를 인식하기 위해 결정된 이미지 인식 알고리즘에 따라 사용자의 이력 상의 보기 이미지에 대한 인식이 수행된다; 그런 다음 현재의 보기 이미지 내 객체가 사용자가 위치하는 장면 내 객체의 장면 위치 정보에 따라 결정된다.

사용자가 위치하는 고정된 장면(실제 장면 또는 가상 장면일 수 있음)의 경우, 장면 내 각각의 객체의 장면 위치 정보는 일반적으로 고정된다. 이 경우, 장면의 파노라마 이미지를 미리 획득함으로써, 장면 내 각각의 객체의 장면 위치 정보가 그 파노라마 이미지에 기반하여 얻어진다. 이력 상의 보기 이미지 내 객체가 이력 상의 보기 이미지에 대한 인식을 수행함으로써 결정된 후, 객체의 장면 위치 정보가 고정되어 있으므로, 결과적으로 이 때, 현재의 보기 이미지 내 객체는 객체의 장면 위치 정보에 기반하여 결정될 수 있다.

상기 방식들 중 어느 하나에 기반하여, 객체에 대한 추적 처리가 실현될 수 있고, 그에 따라 프롬프트 정보는 사용자의 각각의 보기 이미지 내 객체의 위치 정보에 기반하여 사용자에게 디스플레이될 수 있다.

본 개시의 대안적 실시예에서, 방법은 다음과 같은 것을 더 포함한다:

객체의 위치 정보가 변경될 때, 객체의 변경된 위치 정보에 따라 사용자 보기 이미지 안에 프롬프트 정보를 디스플레이하는 단계.

실제 적용예들에서, 사용자가 이동하거나 장면 내 객체가 움직일 때, 사용자 보기 이미지 내 객체의 위치 역시 변경된다. 이 때, 객체는 사용자 보기 이미지를 재인식함으로써 결정될 수 있고, 혹은 사용자 보기 이미지 내 객체가 다른 추적 수단을 통해 발견될 수 있다.

본 개시의 다른 실시예에서, 객체가 현재의 보기 이미지 내에 위치하지 않을 때, 이 방법은 다음 단계들 중 적어도 하나를 더 포함한다:

객체의 안내 정보를 생성하여 그 안내 정보에 기반하여 현재의 보기 이미지 안에 객체를 위치시키는 단계;

사용자 보기 이미지 내에 프롬프트 정보를 디스플레이 하는 단계;

다른 기기에게 프롬프트 정보를 전송하여 그 프롬프트 정보를 다른 기기를 통해 사용자에게 디스플레이 하는 단계.

프롬프트 정보를 디스플레이 할 때 사용자의 현재의 보기 변경 또는 다른 이유로 인해 객체가 사용자의 현재 보기를 떠나는 것을 피하기 위해, 프롬프트 정보는 상기 방법들 중 어느 하나에 의해 사용자에게 디스플레이되도록 보장될 수 있다.

본 개시에 의해 제공되는 다른 실시예에서, ASR 기술 및 NLU 기술과 연관지어 AR/VR 장면 정보(이미지들을 포함함)를 사용함으로써, 사용자에게 새로운 경험의 AR/VR 기반의 리마인더 서비스가 제공된다.

다른 방식으로서, 도 2는 본 개시의 실시예에 적합한 프롬프트 정보 처리 시스템의 개략적 구성도를 도시한다. 도 2에 도시된 바와 같이, 시스템은 주로 9 개의 모듈들, 즉 비디오 입력 모듈(1), 데이터베이스 모듈(2), 음성 입력 모듈(3), 이미지 인식 모듈(4), 결정 모듈(5), 자동 음성 인식 및 자연 언어 이해 모듈(6), 이미지 인식 출력 저장 및 분석 모듈(7), 음성 이해 출력 저장 및 분석 모듈(8), 및 VR/AR 리마인더 설정 모듈(9)을 포함할 수 있다.

실제 개시들에서, 처리 시스템 내 각각의 모듈은 실제 적용 요건에 따라 하나 이상의 기기들 상에 배치될 수 있다, 예를 들어 단말 기기, 클라우드 서버, 및 물리적 서버와 같은 하나 이상의 기기들 상에 각각 배치될 수 있다는 것을 알아야 한다.

상기 각각의 모듈들에 있어서, 비디오 입력 모듈(1), 데이터베이스 모듈(2) 및 음성 입력 모듈(3)은 시스템의 입력 부분들이고; 이미지 인식 모듈(4), 결정 모듈(5), 및 자동 음성 인식 및 자연 언어 이해 모듈(6)은 시스템의 메인 정보 처리 부분들이며; 이미지 인식 출력 저장 및 분석 모듈(7), 음성 이해 출력 저장 및 분석 모듈(8), 및 VR/AR 리마인더 설정 모듈(9)은 시스템의 출력 및 저장 부분들이다. 구체적으로,

1. 비디오 입력 모듈(1)은 구체적으로, AR 기기의 카메라 입력 또는 VR 기기에 의한 장면 입력 렌더러일 수 있고, 또는 다른 이미지 수집 기기들에 의해 수집되는 사용자 이미지 및/또는 사용자 보기 이미지일 수 있으며, 이들은 전체 시스템에 사용자가 위치하는 장면 또는 사용자가 보는 장면에 대한 이미지 정보를 제공한다.

2. 데이터베이스 모듈(2)은 미리 설정된 시스템 데이터 및 이력 상의 데이터 분석 및 사용자의 사용 습관으로부터 추출된 주요 정보를 저장하기 위해 사용되는 시스템의 저장 부분이고, 주요 정보는 사용자의 개인화 정보, 장면 정보의 관련 정보, 및 객체의 관련 정보(즉, 주제) 등을 포함할 수 있다; 주요 정보는 사용자가 사용하는 기기 안에 저장되거나, 네트워크를 통해 연결된 전용 서버 상에 저장될 수 있고, 조정되고 업데이트될 수 있다.

3. 음성 입력 모듈(3)은 비한정적으로 기기의 마이크로폰을 포함하는 시스템의 음성 수집 부분이다. 음성 입력 모듈은 사용자의 음성 명령을 디지털 전자 신호로 변환하여, 시스템의 다른 모듈들에, 분석될 수 있는 음성 데이터의 소스를 제공한다.

4. 이미지 인식 모듈(4)은 비디오 입력 모듈(1)로부터 이미지 신호들을 연속해서 수신하고, 이미지 인식 기술 및 장면 이해 기술을 통해 장면 안에 존재하는 객체들 및 그들의 위치 관계를 추출할 수 있다.

5. 자동 음성 인식 및 자연 언어 이해 모듈(6)은 자동 음성 인식 기술을 통해 음성 입력 모듈(3)에 의해 출력된 전자 음성 신호를 텍스트 정보로 변환할 수 있고, 사용자의 의도를 파악하기 위해 자연 언어 이해 기술을 통해 텍스트 정보를 분석할 수 있다.

자동 음성 인식 및 자연 언어 이해 모듈(6)에 의해 출력된 정보의 일부가 이미지 인식 모듈(4)의 입력으로서 사용될 수 있으며, 이러한 정보의 일부는 이미지 인식 모듈(4)의 불필요한 입력 정보이지만, 다른 해법으로서 이 정보 부분은 이미지 인식 모듈(4)이 인식의 정확도를 향상시키고 계산 자원의 오버헤드를 줄이기 위한 적절한 이미지 인식 알고리즘을 선택할 수 있게 하는데 사용될 수 있다.

6. 결정 모듈(5)은 이미지 인식 모듈(4) 및 자동 음성 인식 및 자연 언어 이해 모듈(6)로부터 출력을 수신하고, 이때 그 모듈은 이미지 정보 및 음성 정보의 포괄적 판정을 통해 음성 인식 및 자연 언어 이해에 대한 고정밀 결과 및 이미지 인식에 대한 고정밀 결과를 제공할 수 있다.

7. 이미지 인식 출력 저장 및 분석 모듈(7)은 결정 모듈(5)로부터 출력 정보를 수신하고, 이때 그 정보는 이미지 인식 모듈(4)의 출력 결과와 관련되나, 이미지 인식 모듈(4)에 의해 출력되는 정보가 현재의 장면 내 이미지 인식의 모든 정보들의 합이라는 것은 제외하며, 이미지 인식 출력 저장 및 분석 모듈(7)은 그 사용자를 위해 유용한 정보를 저장하는데 이때 현재 유용한 정보뿐 아니라 이력 상의 정보까지 저장한다. 그 모듈은 또한, 사용자의 사용 의도를 얻기 위해 시간 순서 관련 정보의 분석을 담당한다.

8. 음성 이해 출력 저장 및 분석 모듈(8)은 결정 모듈(5)로부터 출력 정보를 수신하고, 이때 그 정보는 자동 음성 인식 및 자연 언어 이해 모듈(6)의 출력 결과와 관련되나, 그 모듈(6)에 의해 출력되는 정보가 현재의 장면 내 음성 이해에 대한 모든 정보들의 합이라는 것은 제외하며, 그 모듈(8)은 그 사용자를 위해 유용한 정보를 저장하는데 이때 현재 유용한 정보뿐 아니라 이력 상의 정보까지 저장한다. 그 모듈은 또한, 사용자의 사용 의도를 얻기 위해 시간 순서 관련 정보의 분석을 담당한다.

위에서 언급한 모듈(7) 및 모듈(8)에서 기술된 유용한 정보는 장면 상태, 객체, 사용자의 활동 동향 의도, 사용자의 말 의도 등에 대한 인식에 영향을 주는 정보를 의미한다.

9. VR/AR 리마인더 설정 모듈(9)은 사용자의 다양한 장소들, 다양한 장면들 및 다양한 시간들에 대한 리마인더 정보의 저장을 주로 담당하고, 적합한 장소, 장면 및 시간에 가상 리마인더 태그를 이용하여 VR/AR 기기를 통해 사용될 정보의 디스플레이를 담당하거나, 가상 리마인더 태그가 AR/VR의 보기 안에 없을 때 음성 브로드캐스팅이나 다른 방식들을 통해 사용자에게 태그에 해당하는 리마인더 정보를 제공할 수도 있다.

다른 해법으로서, 도 3은 이미지 인식 모듈의 개략적 구조도를 도시한다. 도면에 도시된 바와 같이, 이 해법에서의 인식 모듈은 비디오 프레임 획득 모듈(4_1), 이미지 분할 모듈(4_2), 및 객체 인식 모듈(4_3)을 포함할 수 있다.

비디오 프레임 획득 모듈(4_1)은 비디오 입력 모듈(1)에 의해 출력된 비디오 스트림 데이터를 디코딩할 입력 정보로서 사용하고, 그 출력은 비디오 프레임 데이터이고, 각각의 프레임의 데이터는 완전한 장면 픽처(picture) 정보를 포함하며, 모듈(4_1)은 시스템의 계산 자원들의 조건에 따라 프레임 추출을 이용하여 산출될 비디오 프레임의 프레임 레이트를 유연하게 조정할 수 있다.

이미지 분할 모듈(4_2)은 획득된 이미지에 대해 객체 분할을 수행하고, 이어지는 객체 인식을 위해 분할된 객체 이미지를 제공하기 위해 여러 객체들을 분할(segment)하도록 구성되며, 여기서 이미지 분할 모듈에 의해 사용되는 이미지 분할 알고리즘은 R-CNN(Region-based Convolutional Neural Network), Fast R-CNN(Fast Region-based Convolutional Neural Network), Faster R-CNN(Faster Region-based Convolutional Neural Network), Mask R-CNN(Mask Region-based Convolutional Neural Network) 등을 포함할 수 있으나, 그에 국한되지 않는다. 이 모듈은 본 개시의 실시예에서 상기 방법들 중 하나 이상을 이용하거나, 기술이 진보하면서 다른 방법들을 대신 사용할 수 있다.

객체 인식 모듈(4_3)의 입력 데이터는 두 부분으로 분할될 수 있으며, 한 부분은 이미지 분할 모듈의 입력으로 나온 것이고(즉, 분할 후 각각의 객체가 계산 및 인식을 위한 모듈로 입력됨), 나머지 부분은 불필요한 입력(즉, 자동 음성 인식 및 자연 언어 이해 모듈(6)의 출력)이다. 다시 말해, 모듈 안에서 다양한 이미지 인식 알고리즘들(하나 이상)이 음성 인식의 결과에 따라 선택될 수 있다. 모듈(6)의 출력 정보가 존재하지 않으면, 다양한 장면들에 따라 소정의 알고리즘 설정이 이때 선택된 알고리즘 조합으로서 선택될 수 있다.

일 예로서, 도 4는 본 개시의 실시예에 의해 제공되는 이미지 인식 모듈의 동작 원리를 보여주는 개략도를 도시한다; 도면에 도시된 바와 같이, 실제 적용예들에서, N 개의 서로 다른 이미지 알고리즘들, 구체적으로 도면의 후보 알고리즘 라이브러리에 보여진 것과 같은 후보 알고리즘 1, 후보 알고리즘 2,..., 후보 알고리즘 N이 이 모듈 안에 미리 저장될 수 있다. 서로 다른 알고리즘들이 동일한 문제에 대해 계산되거나, 다양한 문제들에 대해 계산될 수 있다. 예를 들어, 컬러를 산출하고 현재의 객체의 컬러를 획득하는 두 개의 알고리즘들이 존재하지만, 한 알고리즘은 객체 자체에 가까운 컬러를 얻기 위해 조명 간섭을 배제하고, 두 번째 경우는 조명 간섭을 배제하지 않으므로 획득된 컬러가 가능한 많이 사용자의 실제 경험에 가깝다. 다른 알고리즘들은 모양을 기술하기 위한 알고리즘, 객체 클래스를 인식하기 위한 알고리즘 등을 포함하지만 그에 국한되지 않으며, 이러한 알고리즘들을 합한 것을 일괄적으로 알고리즘 라이브러리라고 부른다. 이 예에서, 후보 알고리즘 라이브러리 내, 객체 특성들을 산출하기 위한 알고리즘들의 총 개수가 N이라고 가정하고, N의 수는 고정되어 있지 않으며 시스템이 업데이트되면서 증가하거나 감소할 수 있다.

도 4에 도시된 알고리즘 선택기는 후보 알고리즘 라이브러리 안에서, 운영되어야 하는 알고리즘을 선택해야 하고, 그러한 선택은 자동 음성 인식 및 자연 언어 이해 모듈의 출력에 따라 좌우될 수 있거나, 다양한 장면들에 대해 미리 설정된 알고리즘 선택일 수 있다. 총 M 개의 알고리즘들(도면에 도시된 것과 같이 선택된 알고리즘 1, 선택된 알고리즘 2,..., 선택된 알고리즘 M)은 이미지에 대한 계산 및 분석을 위해 선택된다고 가정한다. M 값은 다양한 음성 명령들이나 장면 변화들에 따라 적응적으로 변경될 수 있다. 예를 들어, 명령이 노란 컵이 마크되어야 한다고 지시할 때, 동시에 동작 또는 선택될 수 있는 알고리즘은 적어도 하나의 컬러 인식 알고리즘 및 객체 분류 알고리즘을 포함해야 한다. 이미지 인식의 결과(즉, 객체 인식 모듈의 출력)는 장면 이미지에 대해 선택된 알고리즘 라이브러리 내 알고리즘들에 의해 획득되는 결과들의 집합일 수 있다.

자동 음성 인식 및 자연 언어 이해 모듈(6)의 경우, 현재, 음성이 보통 자동 음성 인식 알고리즘에 의해 먼저 텍스트로 변환되고, 그런 다음 자연 언어 이해를 통해 텍스트에 대해 구조 분석이 수행되어 사용자 명령의 실제 목적을 찾도록 한다. 기존의 자동 음성 인식은 문장의 맥락에 따라 에러들을 가능한 많이 정정할 수 있었으나, 환경적 영향으로 야기되는 인식 에러들, 사용자 액센트들 등이 이어지는 자연 언어 이해 부분들에 대한 정확한 분석에 영향을 미칠 것이므로, 시스템이 사용자 명령을 부정확하게 이해하는 결과를 가져온다. 실제 적용예들에서, 실제 객체를 나타내기 위해 사용자가 대명사를 사용하는 경우들도 있다. 자동 음성 인식 모듈이 사용자의 음성 명령을 텍스트로 정확하게 변환하더라도, 자연 언어 이해 부분이 사용자의 실제 의도를 정확히 분석할 수 없다는 문제는 여전히 존재한다.

상기 문제들에 대한 대안적 해법으로서, 도 5는 본 개시의 일 실시예에 의해 제공되는 자동 음성 인식 및 자연 언어 이해 모듈의 동작 원리 및 구조를 보여주는 개략도를 도시한다. 도 5에 도시된 바와 같이, 그 모듈은 구체적으로 자동 음성 인식 모듈(6_1) 및 자연 언어 이해 모듈(6_2)을 포함할 수 있다. 자동 음성 인식 모듈(6_1)이 음성 입력을 인식할 때, 불확실한 단어들에 대해 몇 가지의 가장 가능한 옵션들이 주어질 수 있으며(도면에 도시된 것과 같은 후보 1, 후보 2,..., 후보 P), 그러면 자연 언어 이해 모듈(6_2)이 단어들 사이의 구속 관계에 따라 일부 불가능한 옵션들을 더 배제하고, 분석하는 목적어(문법), 술어 및 부사들과 같은 성분 분해를 수행할 수 있고, 불확실한 부분들에 대한 여러 가능한 옵션들(도면에 도시된 바와 같이 술어 후보들, 부사 후보들,..., 목적어(문법) 후보들 등)을 제공할 수 있으며, 이것은 결정 모듈에 의해 추가로 결정될 수 있다.

결정 모듈(5)은 언어 이해 및 이미지 정보의 결합에 따른 판단을 내릴 수 있다. 구체적으로, 결정 모듈은 모듈(6)로부터의 분석 결과를 수신할 수 있고, 데이터베이스 모듈(2)로부터 획득된 정보가 사용되어, 사용자가 다른 명칭을 이용해 한 객체를 습관적으로 언급하거나 하나의 행동 명령을 다른 표현을 사용해 기술하는지 여부를 학습하도록 할 수 있다. 그러한 습관이 있다면, 모호성을 제거하기 위해 분석 결과 내 해당 표현을 대체하기 위한 표준 명칭이 사용되어 대체 동작을 수행할 수 있다. 그런 다음 결정 모듈(5)이 실제 장면 내 객체의 속성 정보에 따른 판단을 수행하고, 사용자 명령을 실제 장면과 정확하게 매핑시키고, 최종적으로 객체 인식 및 음성 인식 결과를 정확하게 얻을 수 있으며, 동시에 명령과 무관한 객체들을 가려내어, 유용한 정보를 모듈(7) 및 모듈(8)에게 출력할 수 있다.

예를 들어, 일 예로서 사용자의 장면 안에 빨간 찻주전자가 있다고, 사용자가 그 찻주전자 상에 내일 오전 회의를 상기시키도록 리마인더를 설정하고자 하며, 사용자는 찻주전자를 "캔-캔(can-can)"이라고 부르는 것이 평소 습관이라고 가정한다. 사용자가 "저 빨간 캔-캔 상에 내일 오전에 있는 회의에 대한 리마인더를 마크해"라는 명령을 발화할 때, 이미지 인식 모듈(4)은 컬러 인식 알고리즘, 형태 인식 알고리즘 및 객체 인식 알고리즘을 활성화하고, 테이블 위에 빨간 사과와 빨간 찻주전자가 있다는 것을 인식한다; 그런 다음 자동 음성 인식 및 자연 언어 이해 모듈(6)이 액션은 리마인더를 설정하는 것이고, 분석을 통해 리마인더 내용이 "내일 오전 회의"이고, 부사는 "빨간 캔-캔 상에"라고 파악한 다음, 데이터베이스 모듈에 저장된 데이터와 비교 후 사용자가 찻주전자를 "캔-캔"이라고 말하는 것이 습관화 되어 있다고 판단한다. 그에 따라, 데이터베이스 모듈 내 데이터를 기반으로, 사용자에 의해 부사적으로 실제 표현된 것이 "빨간 찻주전자 상에"라고 파악될 수 있고, 빨간 사과 위에 리마인더를 설정하는 옵션은 배제되어, 최종적으로 분석 상 이미지의 출력이 장면 내 빨간 찻주전자임이 판단된다; 자동 음성 인식 및 자연 언어 이해 모듈의 출력은 "빨간 찻주전자 상에 내일 아침 회의에 대한 리마인더를 설정해"이므로, 실제 장면, 사용자의 명령, 및 사용자의 개인화 정보(이 예에서 객체에 대한 사용자의 호칭 습관)이 제대로 상관됨으로써 이미지 인식의 정확도와 음성 인식의 정확도를 높일 수 있다.

또한, 상기 내용으로부터 알 수 있는 바와 같이, 본 개시의 실시예들에 의해 제공되는 이미지 인식 출력 저장 및 분석 모듈(7)과 음성 이해 출력 저장 및 분석 모듈(8)은 현재 사용자의 액션들과 명령들을 저장할뿐만 아니라 이력 상의 인식 정보까지 저장할 수 있다. 예를 들어, 비한정적으로 단순 규칙을 사용하고, 가장 최근에 높은 빈도로 인식된 결과에 대한 온전한 오리지널 인식 데이터를 유지하며, 장기간 결과들에 대한 분류 압축을 수행해 그 결과 정보만을 유지함으로써 저장 공간을 저장하면서 정확한 정보를 제공하도록, 그러한 이력 상의 정보는 해당 정보의 중요도, 빈도 및 시간 근접도에 따라 서로 다른 저장 공간들을 사용하여 할당될 수 있다.

다른 해법으로서, 도 6은 본 개시의 실시예에 의해 제공되는 이미지 인식 출력 저장 및 분석 모듈(7)과 음성 이해 출력 저장 및 분석 모듈(8)의 개략적 구성도를 도시한다. 도면에 도시된 것과 같이, 모듈(7)은 구체적으로 이미지 인식 결과 저장 모듈(7_1) 및 사용자 액션 행동 분석 모듈(7_2)을 포함하며, 모듈(7_2)은 모듈(7_1)에 저장된 데이터 획득 및 사용자의 고유 행동 액션들을 판단하는 것을 담당할 수 있으며, 그에 따라 생성된 행동 액션 또한 현 시점의 중요 정보로서 모듈(7_1) 안에 재저장될 수 있다.

실제 적용예들에서는 액션 인식이 장시간 후 모듈(7_1)에 의해 생성된 일부 데이터의 결과이므로, 데이터 자장에 필요한 저장 공간을 줄이기 위해 최초의 판정 데이터는 삭제되는 한편 해당 액션의 결과만을 보유하여 데이터 압축의 역할을 할 수 있다. 또한, 현재의 모션 분석이 미래의 액션 분석을 위한 알고리즘 기반과 데이터 지원을 제공할 수 있으므로, 모듈(7_2)에 저장된 데이터를 개선하는데 도움을 줄 수 있다. 따라서, 모듈(7_2)은 모듈(7_1)로부터 획득된 데이터를 통해 사용자의 특정 행동 액션 데이터를 결정할 수 있어, 모듈(7_2) 내 데이터를 개선하고 업데이트할 수 있다.

마찬가지로, 모듈(8) 역시 두 가지 모듈들, 즉 도면에 도시된 언어 인식 결과 저장 모듈(8_1) 및 사용자 언어 행동 분석 모듈(8_2)을 포함한다. 모듈(8)의 내부 구조는 모듈(7)의 것과는 상이하고, 이들은 서로 다른 내용에 대해 서로 다른 알고리즘을 이용하는데, 모듈(7)은 이미지 콘텐츠에 대한 분석을 이용하고 그 분석 결과가 액션 행동이며, 모듈(8)은 언어 콘텐츠에 대한 분석을 이용하고 그 분석 결과가 언어 행동이다. 모듈(9)은 VR/AR 리마인더 설정 모듈이며, 모듈(7_1), 모듈(7_2), 모듈(8_1) 및 모듈(8_2)로부터 데이터를 획득할 수 있고, 사용자가 자동으로 마크하는 것을 도와야 하는 콘텐츠 및 사용자의 행동 액션을 포괄적으로 결정할 수 있다.

본 개시의 실시예에 의해 제공되는 해법에 대한 보다 나은 설명 및 이해를 위해, 본 개시의 실시예에 의해 제공되는 해법의 관련 콘텐츠가 몇 가지 예들을 참조하여 이하에서 상세히 기술될 것이다.

예 1

이 예에서 프롬프트 정보를 처리하는 해법의 장면도(scene diagram)가 도 7a에서 보여지며, 사용자는 사용자가 가지고 있는 AR 기기를 통해 도 7a에 도시된 사용자 보기 이미지를 획득할 수 있다. 사용자가 리마인더 항목을 설정해야 할 경우, "찻주전자 위에 메모를 작성하여, 특허 제안을 잊지 말라고 마크 해"와 같은 리마인더를 설정하는 명령을 발화하기 위해 AR 기기가 사용될 수 있다. 음성 입력의 경우, 음성 입력을 생성하는 텍스트 정보가 자동 음성 인식 모듈에 의해 분석될 수 있고, 텍스 정보 내 모든 형태소들이 자연 언어 이해 모듈에 의해 획득된다. 이 예에서, 형태소는 구체적으로 다음과 같은 것을 포함할 수 있다: 목적어(문법): "a note(메모)", 부사: "on the teapot(찻주전자 상에)", 정보: "do not forget patent proposal(특허 제안을 잊지 마)", 및 행동: "put(작성 해)". 이미지 인식 모듈의 경우, 실행되어야 하는 이미지 인식 알고리즘이, 음성 명령의 내용에 따라 선택될 수 있다. 예를 들어, 이 예에서 이미지 인식 알고리즘은 형태 인식 알고리즘 및 객체 인식 알고리즘을 포함할 수 있다. 형태 인식 알고리즘에 기반하여 찻주전자 크기와 유사한 객체가 찾아질 수 있고, 객체 인식 알고리즘을 통해 카테고리가 찻주전자인 객체가 찾아질 수 있다. 선택된 이미지 인식 알고리즘은 사용자가 보는 장면의 왼쪽 아래 코너에 빨간 찻주전자가 있다는 것을 확인하기 위해 사용되며, 이 예에서 프롬프트 정보를 디스플레이하기 위해 획득된 객체는 구체적으로 도 7b에 도시된 직사각형 점선 박스 안에 있는 찻주전자이다. 결정 네트워크(즉, 결정 모듈)는 이미지 및 음성에 대한 입력 정보를 요약하여 이미지 인식 결과 및 언어 이해 결과를 저장한다. 마지막으로, AR 시스템(이 예에서 처리 시스템)의 리마인더 설정 모듈이 정확한 명령을 획득하고 정확하게 리마인더 항목(즉, 리마인더 정보)을 설정하며, 이것은 구체적으로 도 7c에 보여진다: 인식된 찻주전자에 기반하여, 사용자 음성 명령을 토대로 얻어진 프롬프트 정보(도면에 도시된 "특허 제안을 잊지 마, 2018.03.13")가 메모 형식으로 사용자의 현재 보기 이미지 안에 디스플레이될 수 있으며, 여기서 도면의 리마인더 정보 내 시간(2018.03.13)은 사용자의 음성 명령을 수신할 때의 날짜일 수 있다. 당연히 실제 적용예들에서, 사용자가 리마인더 시간을 제공하면, 프롬프트 태그 안에 디스플레이된 시간은 사용자가 상기해야 할 시간일 수도 있다, 예를 들어 사용자 명령이 "찻주전자 위에 내일 특허 제안을 잊지 마라는 메모 작성을 도와 줘(help me put a note on the teapot: do not forget patent proposal tomorrow)"인 경우, 도 7c의 프롬프트 정보는 "do not forget the patent proposal 2018.03.14(특허 제안을 잊지 마, 2018. 03. 14)일 수 있다.

현재의 예에서, 도 7a에 도시된 사용자 보기 이미지는 도 7c에 도시된 사용자 보기 이미지와 동일한 이미지이거나, 동일한 이미지가 아닐 수 있다는 것을 알 수 있다. 이것은 실제 적용예들에서, 사용자가 전체 프로세스 중에 이동하지 않았더라도, 도 7c에 도시된 사용자 보기 이미지의 수집 시간이 시간 순서 상 도 7a에 도시된 사용자 보기 이미지이거나, 동일한 이미지가 아닐 수 있기 때문이다. 또한, 사용자가 도 7a에 도시된 이미지를 획득한 후 이동한 경우, 도 7c에 도시된 사용자 보기 이미지는 프롬프트 정보를 디스플레이하는 동안 도 7a에 도시된 사용자 보기 이미지와 다를 가능성이 있다. 그것이 같은 이미지이거나 사용자가 이동하지 않은 경우, 프롬프트 정보는 도 7a의 찻주전자 위치에 기반하여 디스플레이될 수 있고, 사용자가 이동한 경우 이미지가 바뀔 때, 도 7b의 보기 이미지는, 찻주전자가 도 7b에 도시된 것과 같이 위치되고 그것이 이미지 인식을 수행하여 인식되는 이미지 영역의 특징점 정보에 기반하여 현재의 보기 이미지와 포인트 매칭이 수행될 수 있다. 도 7b 내 찻주전자의 특징점 정보에 기반하여, 도 7c의 찻주전자의 현재 위치 정보가 결정되고, 그 위치 정보에 기반하여 리마인더 태그가 도 7c에 도시된 것과 같은 사용자 보기 이미지 안에 디스플레이된다.

예 2

도 7a에 도시된 장면을 계속 예로 든다. 이 장면에서, 사용자 명령들에 대해 다수의 이용 가능한 옵션들이 존재할 때, 시스템은 사용자에게 질의하여 제안사항들을 제공하며, 보다 나은 서비스를 사용자에게 제공하기 위해 사용자가 결정을 내린 후 사용자의 선택 설정(선호)사항들을 기록할 수 있다.

구체적으로, 사용자 명령이 "특허 제안을 잊지 않기 위해 벽에 리마인더를 설정해"임을 가정할 때, 이미지 인식 모듈은 도 7a에 도시된 사용자 보기 이미지를 인식함으로써 장면 이미지 내에서 벽의 위치를 인식하며, 사용자 명령 속의 정보는 사용자 명령을 인식함에 따른 장면 내 객체에 해당하며, 이때 다수의 옵션 객체들, 예를 들어 도 7d의 점선 박스 안에 보여진 것과 같은 벽의 여러 영역들이 찾아질 수 있다. 사용자의 흐릿한 설명으로 인해 여러 선택사항들이 존재하는 한편, 시스템이 사용자에게 질문하여 사용자의 습관에 따라 제안사항들을 제공할 수 있으므로, 사용자 명령에 기반하여, 예를 들어 "좋아요, 어디에 쓰고 싶은가요, 오른쪽 하단 코너요?"와 같은 피드백이 이루어질 수 있다. "오른쪽 하단 코너 좋아"와 같이, 피드백에 기반한 사용자의 응답이 수신되면, 프롬프트 정보(도면에 도시된 "특허 제안을 잊지 마)가 도 7e에 도시된 것과 같이 사용자의 피드백에 기반하여 사용자의 현재 보기 이미지 내 벽의 오른쪽 하단 코너에 디스플레이될 수 있다. 또한, 시스템은 사용자의 선택을 기억할 수도 있으며, 사용자의 선택에 기반하여 데이터베이스 모듈의 사용자 데이터베이스 안에 사용자의 관련 정보를 저장한 후 사용자의 개인화 정보를 업데이트할 수 있다.

예 3

예 2에 주어진 적용 장면에서, 해당하는 실제 장면들 안에 다수의 위치들이 있을 때 어떻게 처리를 수행할 지에 대해 주어진 해법이 존재한다. 이 예의 적용 장면에서, 사용자가 가상 리마인더를 설정하는 디스플레이된 형식을 명시적으로 지시하지 않을 때, 시스템이 사용자의 설정에 따라 제안 사항들을 제공할 수도 있다.

도 8에 도시된 바와 같은 AR 장면의 경우, 시스템이 프롬프트 정보를 디스플레이 하기 위해 선택할 수 있는 복수의 실제 객체 옵션들을 획득할 때, 즉 다수의 선택 가능한 객체들이 존재할 때, 또는 VR 장면의 경우, 시스템이 프롬프트 정보를 디스플레이 하기 위해 선택할 수 있는 복수이 가상 객체 옵션들을 획득할 때, 시스템은 사용자의 설정에 따라 각각의 선택 가능한 객체들에 대한 가중치들을 설정하기 위해 선호도 선택기를 이용할 수 있다. 도면에 도시된 것과 같이, 선택 가능한 실제 객체들의 개수가 M이라고 가정할 때, 도면에 도시된 W2_1은 첫번째 선택가능 실제 객체의 가중치를 나타내고, W2_M은 M 번째 선택가능 실제 객체를 나타내고; 마찬가지로, W1_1은 첫번째 선택가능 가상 객체의 가중치를 나타내고, W1_N은 N 번째 선택가능 가상 객체의 가중치를 나타내며, 선호도 선택기는 사용자 행동 습관 분석의 분석 결과에 기반하여 상기 가중치들을 설정할 수 있다, 즉 가중치들이 사용자의 습관에 따라 설정되고, 사용자 행동 습관 정보가 데이터베이스 모듈 안에 저장된 사용자 관련 정보(도면에 도시된 사용자 데이터)로부터 획득될 수 있다. 그런 다음, 시스템이 흐릿한 설명을 경험할 때, 시스템은 사용자 이력 상의 가중치들에 따라 추천안을 제시하며, 사용자가 최종적으로 선택을 행한 후 가중치들을 업데이트하여 그 가중치들을 데이터베이스 안에 저장할 수 있다. 가중치의 초기 값은 대부분의 사용자들의 행동 습관들을 카운트함에 따른 초기값으로 주어질 수 있다.

예 4

도 7a에 도시된 장면을 이 예에서 계속 예로 들 것이다. 이 예에서, 사용자는 AR 시스템(이 예에서 프롬프트 정보 처리 시스템)을 사용해 찻주전자 상에 리마인더를 설정해야 한다.

음성 부분의 경우, AR 시스템이 (예를 들어 AR 기기를 통해) 사용자의 음성 명령을 수집하고, 그런 다음 자동 음성 인식 모듈을 통해 "빨간 포트-포트 상에 내일 메일 보내는 것을 잊지 말라는 리마인더 메모를 설정해"와 같은 사용자 음성 명령의 텍스트 정보를 인식하며, 자연 언어 이해 모듈을 통해 말을 분할하여 "리마인더 메모를 설정해"인 액션과 목적어(문법)의 조합, "내일 메일 보내는 것을 잊지말라"인 메모 내용, 그리고 "포트-포트 상에"인 부사를 획득한다; 자연 언어 이해 모듈을 통해 획득된 정보의 일부가 이미지 인식 모듈로 제공될 수 있고, 모든 분석 결과들이 결정 네트워크(즉, 결정 모듈)로 제공된다.

이미지 부분의 경우, AR 기기의 카메라가 장면의 비디오를 수집할 수 있고, 그것의 적어도 하나의 프레임 이미지가 이미지 인식 모듈로 보내진다. 이미지 인식 모듈은 먼저, 이미지 인식 알고리즘을 통해 장면 내 여러 객체들을 구별할 수 있다. 예를 들어, 학습된 컨볼루션 및 디컨볼루션 네트워크가 장면 내 여러 객체들을 분할하기 위해 사용될 수 있고; 이미지 인식 모듈에 대한 사용자의 요구가 "빨간 찻주전자" 위에 메모를 설정하라는 것이기 때문에, 그 알고리즘 선택기는 컬러 인식 알고리즘 및 객체 검출 알고리즘을 선택하여 사용할 수 있으며, 분할된 이미지가 그 선택된 알고리즘에 의해 인식되는데, 인식된 빨간 객체는 찻주전자이다.

결정 네트워크는 이미지 인식 모듈 및 자연 언어 이해 모듈의 출력 결과에 기반하는 비교 및 분석 후 장면 내 빨간 객체가 "찻주전자"라고 판단하고; 그런 다음 사용자 데이터베이스에 의거해 사용자가 표현한 "빨간 포트-포트"가 장면 내 "빨간 찻주전자"라고 포괄적으로 판정하고; 포괄적 판정을 통해, 장면 내 유용한 객체(즉, 빨간 찻주전자)가 이미지 인식의 출력 결과로서 사용되고, 사용자의 명령이 "빨간 찻주전자 위에 "내일 메일 보내는 것을 잊지 말라"는 리마인더 메모를 설정하라"는 것으로 수정되며, 최종적으로 시스템의 리마인더 설정 모듈이 리마인더 태그의 설정을 완성하여 그 리마인더 태그가 도 10에 도시된 것과 같이 빨간 찻주전자에 기반하여 사용자 보기 이미지 안에 디스플레이된다. 도면 내 프롬프트 정보의 시간이 "내일"에 해당하는 실제 시간일 수 있고, 당연히 프롬프트 정보의 특정 내용은 "내일 메일을 보내는 것을 잊지 마 2018.03.13"라는 것일 수 있으며, 이때, 정보 속의 시간은 사용자가 그 명령을 발화할 때의 시간일 수 있다.

도 9는 이 예에서 제공되는 이 예의 상기 프롬프트 정보 처리 방법을 구현하기 위한 처리 시스템의 개략적 구성도이다. 도 9에 도시된 바와 같이, 이미지 인식 모듈은 이미지 분할 네트워크(도면에서 제1계층 안에 보여지는 컨볼루션 신경망(CNN) 계층들 + 디컨볼루션 신경망(DCNN) 계층들), 및 이미지 인식 네트워크(제2계층에 보여진 FC(fully connected) 계층들+CNN 계층들)를 포함할 수 있고, 이때 이미지 인식 네트워크는 알고리즘 선택기(도면에서 보이는 모듈 S)를 포함한다.

비디오 입력 및 음성 입력은 결정 네트워크가 장치의 정확한 사용자 의도 파악에 도움을 주도록 공동 영향을 미칠 수 있다. 이미지 인식의 예비 결과들은 음성 인식 결과들에서 선택 가능한 대안들을 제거하는 데 도움을 줄 수 있다. 부사, 목적어 및 액션을 포함하는 음성 인식의 예비 결과들이 이미지 결정 네트워크에서 맞는 객체들을 찾는데 도움을 준다. 이미지 및 음성 정보의 상호 융합은 특정 장면 내에서 빠르고 정확한 인식을 가능하게 한다.

획득한 이미지, 즉 비디오 입력(이 예에서 도 7a에 보여지는 이미지)의 경우, 이미지 분할 결과(도면에서 보여지는 객체 분할 일부의 이미지)가 이미지 분할 네트워크의 처리를 통해 획득된다; 분할 마크(도면의 이미지 A에서 보여진 직사각 프레임)가 있는 이미지 A가 이미지 분할 결과에 기반하여 얻어진다; 사용자의 음성 입력에 기반하여 얻어진 정보(빨간 포트-포트)가 알고리즘 선택기의 입력으로서 사용된다; 그 알고리즘은 입력에 기반하여 객체 인식 알고리즘 및 컬러 인식 알고리즘으로 결정될 수 있다; 이미지 인식 네트워크는 결정된 알고리즘에 기반하여 이미지 A에 대한 인식을 수행하고, 그 이미지에 대한 예비 인식 결과(도면에서 보여지는 FC 계층들의 출력, 즉 결정 네트워크의 부분 입력)를 얻는다.

사용자의 음성 입력의 경우, ASR 모듈 및 NLU 모듈이 음성 입력 정보 안의 액션 행동이 "설정해"이고, 목적어(문법)가 "리마인더 메모"이고, 메모 내용이 "내일 메일 보내는 것을 잊지말라"(도면에 도시되지 않음)이고, 부사가 "빨간 포트-포트 상에"라고 분석 및 획득한다.

사용자 음성 명령의 인식 결과(도면에 보여진 음성 인식의 예비 결과), 이미지의 예비 인식 결과(도면에 보여진 이미지 인식의 예비 결과), 및 데이터베이스 모듈(도면에 도시된 사용자 관련 데이터베이스)에 저장된 정보(사용자의 개인화 정보 등)이 결정 네트워크의 입력으로서 사용될 수 있다; 음성 인식 결과, 이미지 인식 결과 및 사용자의 관련 정보에 기반하여, 결정 네트워크는 장면 내 유용한 객체 출력이 프롬프트 정보를 디스플레이하기 위한 객체 1(즉, 빨간 찻주전자)이라고 포괄적으로 판정한다; 객체는 프롬프트 정보가 첨가되는 객체이고, 프롬프트 정보의 구체적 내용(도면에 보여진 텍스트)은 도 10에 도시된 "메일 보내는 것을 잊지 마(do not forget to send a mail) 2018.03.14"일 수 있고, 출력 부사인 "위에(on)..."와 액션 정보인 "작성해(put)"가 찻주전자에 대응하는 프롬프트 태그의 위치를 나타내기 위해 사용된다.

예 5

이 예에서, 사용자 행동에 기반하여 프롬프트 정보를 자동으로 생성하기 위한 해법이 제공된다.

도 11a 및 11b는 이 예의 장면에 대한 개략도들을 도시한다. 이 예에서, 사용자 이미지에 기반하여 프롬프트 정보를 생성하는 기기와 정보를 디스플레이하는 기기 모두가 일 예로 AR 안경으로 된다. 사용자가 AR 안경을 착용할 때, 도 11a에 보여진 캐비넷의 왼쪽 하단 서랍 안에 아스피린 약병이 놓여지고, 이미지 수집 모듈이 사용자가 서랍 안에 약병을 놓는 비디오 스트림을 수집하고, 시각적 입력으로서 작용하는 비디오 스트림이 이미지 인식 모듈로 입력되며, 이미지 인식 모듈은 사용자의 손 안에 있는 약에 대한 정보를 획득하고, 사용자의 캐비넷을 인식하고, 사용자가 좌측 하단 코너에서 캐비넷을 당겨서 서랍 안에 약을 놓는 액션을 인식하며, 그런 다음 이 액션에 따라, 시스템(이 예에서 AR 시스템)이 사용자가 현재의 시간 정보, 위치 정보 및 약품 정보와 함께 마크되는 리마인더를 자동으로 기록하는 것을 도울 수 있다; 도 11b에 도시된 것과 같이, 사용자가 그 약을 다시 찾아야 할 때, 리마인더는 사용자가 자신이 놓은 것들을 찾는 것을 빠르게 도울 수 있다. 여기서, 액션 행동이 일어날 때 관련된 언어 행동이 동시에 일어날 수 있고, 그러면 언어 행동 역시 리코딩 시 리마인더 안에 기록될 것이고; 언어 행동이 무관한 행동이면, 그것이 상기 같은 리마인더에 함께 기록되지 않을 것이라는 것을 알아야 한다.

도 12는 이 예의 프롬프트 정보 처리 방법을 구현하기 위한 시스템의 개략도이다. 도 11a 및 11b에 도시된 것과 같이, 이 예는 사용자가 약을 놓는 장면을 보여준다. 다음은 시스템의 각각의 부분들의 알고리즘 모듈들이 구체적으로 협업하는 방법을 설명한다.

도 12에 도시된 것과 같이, 이 예에서 이미지 인식 시 객체의 인식 기능은 컨볼루션 신경망(도면에 도시된 컨볼루션 계층) 및 완전 연결(fully connected) 계층으로 구성될 수 있고, 구체적으로 이들은 도면에서 보이는 상반부의 두 브랜치들이다. 네트워크 구조를 통해, 장면 내 두 개의 관련 객체들, 즉 약병(즉, 도면의 객체 1)과 서랍(도면의 객체 2)이 인식될 수 있다. 약병의 경우, 그 속성들은 다음과 같은 것을 포함한다: 1. 저장된 약의 종류; 2. 그 약이 찾기 쉽지 않고 정기적으로 사용되어야 하므로, 이들은 자동으로 태깅되어야 한다; 3. 약병에 저장된 아스피린은 진통제, 해열제 및 혈전 제거 기능을 가진다. 서랍의 경우, 그 속성들은 다음과 같은 것을 포함한다: 1. 적은 용량의 약을 저장; 2. 신발을 저장; 3. 도구들 등을 저장. 객체의 속성 정보가 미리 알려지거나, 온라인으로 조회함으로써 알려지거나, 미리 구성된 객체 정보 데이터베이스 안에서 조회하여 알려질 수 있다.

이 예의 액션 인식 네트워크(도면에서 하향식 세번째 계층 브랜치)가 구체적으로, 컨볼루션 신경망 및 반복 신경망(도면에 도시된 RNN 계층들)을 통해 입력 이미지 시퀀스(도면에서 보여진 이미지 프레임들의 시퀀스, 즉 사용자 비디오 스트림)를 처리하여, 사용자가 서랍에 약을 놓는 액션을 인식할 수 있다.

실제 적용예들에서, 사용자 행동 분석의 결과는 사용자가 실행할 수 있는 액션이라는 것을 알아야 한다. 네트워크는 사용자 액션을 100% 결정하지는 못하지만 가장 가능한 순위의 몇 가지 옵션들을 제공할 수 있으므로, 도면에 도시된 바와 같이 사용자 행동 분석이 사용자 비디오 스트림에 기반하여 수행되어, 사용자가 실행할 수 있는 세 개의 액션들, 즉 가능한 액션 1(possible action_1), 가능한 액션 2(possible action_2), 및 가능한 액션 3(possible action 3)을 획득할 수 있다. 이때 결정 네트워크는 사용자가 무엇을 했는지와 그 의도가 무엇인지를 이미지 인식의 결과 및 액션 인식의 결과에 기반하여 포괄적으로 판정할 수 있다.

실제 적용예들에서, 사용자가 약을 위치시키는 것을 끝내고, "내일 이 시간에 약 먹으라고 나한테 상기시켜 줘"라는 음성 명령을 내리는 경우, 상기 이미지 인식의 데이터, 객체 속성들의 데이터, 사용자 데이터베이스 내 데이터 등과 함께 자연 언어 이해 모듈을 통해 이 명령 분석에 따른 데이터가 행동 분석 모듈의 입력으로서 사용될 수 있고, 이들이 행동 분석 모듈에 의해 포괄적으로 판단되어, 관련된 액션 인식 결과, 즉 사용자가 좌측 하단 코너에 있는 서랍 안에 아스피린을 저장하고 시스템이 사용자를 도와서 약을 쉽게 찾고 내일 이 시간에 약을 먹으라고 사용자에게 상기시켜야 한다는 결과를 얻는다.

마지막으로, 결정 네트워크가 이미지 인식의 결과(인식된 관련 객체를 포함하고, 객체 속성 정보 역시 포함할 수 있음) 및 사용자 액션 인식의 결과에 기반하여 포괄적 분석을 통해 사용자의 행동 태그를 획득할 수 있다; 태그는 구체적으로, 객체(즉, 상기 관련된 객체), 시간(즉, 액션이 발생한 시간), 장소(즉, 침실이나 거실, 캐비넷 옆이나 측면과 같이 액션이 발생한 위치), 및 관계(액션 자체와 객체 간의 관계, 예를 들어 사용자가 약을 먹는 액션과 약병과 약병을 저장하는 캐비넷 사이의 관계)를 포함할 수 있으며, 따라서 사용자의 가능한 요구조건이 그 태그를 분석함으로써 얻어질 수 있어, 해당 프롬프트 정보를 생성할 수 있고, 프롬프트 정보가 객체 위에 디스플레이될 수 있다, 예를 들어 약 위치와 관련된 리마인더가 사용자 액션에 따라 사용자를 위해 자동 설정될 수 있다. 도 11b에 구체적으로 도시된 것과 같이, 프롬프트 정보인 "아스피린이 여기 있다(aspirin is here) 2018.4.10"가 캐비넷과 관련되어 디스플레이되어, 사용자가 아스피린을 2018년 4월 10일에 이 캐비넷에 넣었다는 것을 사용자에게 상기시킬 수 있다.

또한 이 예의 적용 장면에서, 사용자 데이터베이스 내 데이터에 따라 사용자의 이력 상의 액션들로부터 사용자의 습관을 찾거나 주기적 액션들을 기록하는 것 또한 가능하다. 예를 들어 사용자는 명령에 대한 어떤 액션을 맞춤화 할 수 있고, 또는 사용자가 매일 정오나 밤에 약을 복용한다.

가장 잘 쓰는 AR/VR 장면들에서 사람들은 하나의 태그 정보를 특정 장면 내 하나의 객체에 결부시켜야 한다. 사실상 그것은 불특정 참조라는 문제에 직면할 수 있다. 본 개시의 실시예가 제공하는 해법에 기반하여, 불특정 객체 기반 AR/VR 리마인딩(reminding) 기능이 그러한 장면을 위해 구현될 수 있다. 예를 들어, 모듈(8)의 출력에 따라 사용자 의도를 판단한 후, 객체 A에 마크를 남길 필요가 있으며, 여기서 객체 A는 객체의 종류에 대한 특정 참조가 아닌 일반 용어이다(또한 객체들의 리스트에 대한 지시 정보라고 이해될 수 있다). 그러면 모듈(7)의 출력에서 객체 A에 대한 특별한 객체가 존재하는지 여부가 판단될 수 있고, 있으면 해당하는 리마인딩 액션이 일어날 수 있다. 본 개시의 실시예의 해법을 통해, 리마인딩 기능을 위한 사용자의 자체 요구조건 외에, 사용자가 네트워크를 통하여 권한을 가진 다른 기기에 의해 제기된 명령들을 수신할 수도 있다. 달리 표현하면, 사용자 명령은 현재의 AR/VR 기기의 사용자 발화 명령이거나, 다른 기기가 전송하여 현재의 AR/VR 기기가 수신한 명령일 수 있다. 이러한 종류의 장면들 안에서 프롬프트 정보가 처리되는 방식이 이하에서 예와 함께 상세히 설명될 것이다.

예 6

도 13a 및 13b는 이 예에서 한 적용 장면에 대한 개략도들을 도시한다. 이 예에서, AR 안경을 착용한 소년이 도 13a에 도시된 것처럼 거리를 걷고 있다. 소년의 여자친구는 커피가 필요하여, 소년이 사용하는 AR 안경으로 소녀를 위해 커피를 가져다 달라는 요청을 보낸다. 이 장면에서 그 요청이 이 예의 사용자 명령이고, 그 명령에서 "커피"가 사용자 명령을 통해 전달되는 객체 지시 정보이며, 그 지시 정보에 따라 획득해야 할 객체는 커피숍이라는 것이 알려진다. AR 시스템(AR 안경이거나 AR 안경과 통신하는 서버일 수 있음)은 요청을 분석하여, 커피숍 문에 리마인더 기능을 설정해야 한다고 분석한다. 커피숍이 불특정 목표이므로, 소년의 이동 중에 AR 안경은 실시간으로 소년의 보기 이미지들을 얻을 수 있고, AR 시스템이 그 보기 이미지들에 대한 인식을 수행할 수 있다. 소년이 어떤 커피숍을 지나갈 때나 어떤 커피숍이 소년의 보기 안에 나타날 때, AR 시스템이 객체 인식을 통해 그 커피숍의 간판을 인식할 수 있고, 여자친구에게 커피를 가져다 주라는 프롬프트 정보를 생성할 수 있으며, 프롬프트 정보와 인식된 커피숍을 함께 소년의 보기 이미지 안에 디스플레이 할 수 있다. 또한, 실제 적용예들에서 AR 시스템은 여자친구의 개인 정보를 획득함으로써 여자친구의 선호사항들을 학습할 수도 있으며, 프롬프트 정보가 여자친구의 선호 정보도 포함하여 실제 적용 요건을 보다 잘 만족시킬 수 있다. 구체적으로, 도 13b에 도시된 것과 같이 이 예에서는 사용자 명령에 대응하는 사용자의 개인 정보에 기반하여, 여자친구가 좋아하는 커피가 카푸치노라는 것을 알게되고, 그에 따라 시스템이 생성하는 프롬프트 정보는 "여자친구가 커피가 필요하며, 그녀의 습관에 의거하면, 카푸치노가 필요하다"가 될 수 있고, 시스템은 보기 이미지 내 커피숍 상에 그러한 정보를 디스플레이한다.

예 7

이 예에서 적용 장면은, 엄마가 "우리 가족이 나에게 감기 약을 좀 가져다 줘야 해"라고 말할 때, 프롬프트 정보 처리 시스템이 남편과 아들에게 자동으로 통지하고, 비고정(불특정된 구체적 문제) 태그(즉, 프롬프트 태그)를 설정하여, 약국에서 대기태세를 발령하고 감기 약 구매에 관한 정보를 디스플레이 하도록 할 수 있다. 그녀의 가족이 어떤 약국을 지나갈 때, 그들에게 프롬프트 정보가 뜰 수 있다. 가족 중 한 명이 액션을 완료할 때, 시스템 데이터베이스가 해당 약의 구매 요구가 완료된 것으로 설정할 것이고, 나머지 가족들은 해당 요청을 취소하는 리마인더를 수신할 것이다.

예 6 및 예 7의 적용 장면들은 복수의 사용자 기기들 사이에서 상호동작을 수행해야 한다. 이는 기기 네트워킹 및 다중 사용자 데이터베이스 지원을 필요로 한다. 다른 해법으로서, 도 14는 상기 불특정 객체 참조의 AR/VR 리마인딩 기능을 구현하기 위한 시스템(이 예에서 프롬프트 정보 처리 시스템)의 동작 원리에 대한 개략도를 도시한다.

도 14에 도시된 바와 같이, 시스템은 명령을 발하는 사용자(제1사용자라고 칭함)의 기기(제1기기라고 칭함) 및 리마인더 태그(즉, 프롬프트 정보)가 디스플레이되는 사용자(제2사용자라고 칭함)의 기기(제2기기라고 칭함)를 포함할 수 있고, 제1기기는 통신을 통해 제2기기에 연결된다. 도 14에 상응하여, 제1사용자는 도면에 도시된 관련인(예를 들어 예 6에서 보여진 여자친구)이고, 제1기기는 관련인의 기기로서, 구체적으로 사용자의 AR/VR 기기, 모바일 전화, 태블릿 또는 다른 단말 기기들일 수 있다; 제2사용자는 도면에 도시된 것을 사용하는 사람(예를 들어 예 6에 보여진 소년)이고, 제2기기는 그것을 사용하는 사람의 기기로서 구체적으로 그 사용자의 AR/VR 기기 또는 AR/VR 기능을 가지는 모바일 전화, 태블릿, 또는 다른 단말 기기들일 수 있다. 시스템에 기반하여 리마인딩 기능을 구현하기 위한 프로세스는 구체적으로 다음과 같은 것을 포함할 수 있다:

제1기기가 제1사용자가 보낸 음성 명령을 수신한 후, 그 음성 명령이 ASR 모듈과 NLU 모듈에 의해 파싱되어(parsed) 음성 인식을 얻고, 시스템의 결정 모듈이 그 음성 인식 결과에 따라 불특정 객체(예를 들어 예 6에서의 커피숍)에 기반하여 태그(즉, 예 6에서 커피를 가져오라는 프롬프트 정보 등의 리마인더 태그)를 생성할 수 있다; 또한, 시스템은 관련 사용자의 데이터베이스에 의한 태그 관련 사용자의 개인 정보(예를 들어, 도면에 도시된 것과 같이 여자친구가 카푸치노를 좋아한다는 정보)를 또한 획득할 수 있다. 제2기기는 제2사용자의 비디오 스트림을 수집하고, 비디오 스트림 내 이미지들이 이미지 인식 모듈(이 예에서 보여진 컨볼루션 신경망 및 완전 연결 계층)에 의해 인식되어 이미지 인식 결과를 얻는다. 상기 태그, 사용자 개인 정보, 이미지 인식 결과는 모두 시스템의 결정 모듈(도면에 보여진 결정 트리)로 입력되고, 결정 네트워크가 그 정보에 기반하여 포괄적 분석 및 판단을 수행한다. 상기 불특정 객체의 조건을 만족하는 객체(예를 들어, 예 6의 어떤 커피숍)가 이미지들 안에 나타날 때, 도면에 보여진 객체 4가 조건을 만족하는 객체이며, 결정 네트워크는 그 객체에 기반하여 제2사용자의 보기 이미지 안에 리마인더 태그를 디스플레이할 수 있다.

실제 적용예들에서, 도면에 도시된 시스템의 다양한 기능 부분들(ASR 모듈, NLU 모듈, 이미지 인식 모듈, 결정 네트워크 등) 은 하나 이상의 기기들, 예를 들어 제1기기, 제2기기, 서버 등과 같은 것들 상에 배치될 수 있다.

예 8

본 개시의 실시예에 의해 제공되는 해법에 기반하여, 이 예는 객체가 이동한 후 프롬프트 태그를 어떻게 업데이트할지에 대한 문제를 해결하기 위해 객체 위치가 변화할 때 특정 객체를 엮어 업데이트하는 AR/VR 리마인딩 기능을 구현한다. 이 예의 해법에서, 본 개시의 실시예의 처리 시스템의 객체 인식 및 액션 인식 기능이 태그를 객체에 엮기 위해 사용되어, 객체 위치가 변화할 때 태그가 업데이트되도록 한다.

이 예의 적용 장면에 대한 개략도가 도 15a에 도시된다. 도면에 도시된 바와 같이, 사용자는 "다음 주에 화초에 물을 주라고 상기시켜 줘"라는 명령을 발하고, 그러한 사용자 명령 획득 후, 시스템이 사용자 보기 이미지를 분석해 사용자가 위치하는 환경에 대한 분석을 수행하여, 장면 내 객체가 "화초"라고 인식한다. 사용자 명령에 대한 인식 결과 및 사용자 보기 이미지에 대한 인식 결과에 기반하여, 시스템은 도면에 도시된 프롬프트 정보 "4.20에 물을 주는 것을 상기시켜, 2018.4.13"를 획득하고, 그 프롬프트 정보 내 시간 "2018.4.13"은 시스템이 사용자 명령을 수신할 때의 시간이고, 시간 "4.20"은 사용자가 물 주는 액션을 수행하고자 하는 시간이다. 사용자의 현재 보기 이미지 내 프롬프트 정보와 화초가 사용자의 AR/VR 기기에 의해 함께 디스플레이될 수 있다(VR 기기가 사용될 때, VR 장면이 사용자가 위치하는 실제 장면에 기반하여 모델링되는 장면일 수 있다).

하나의 경우, 사용자가 AR/VR 기기를 이용하면서 객체를 이동할 때, 시스템은 먼저 이미지 인식 모듈을 사용해 객체가 리마인더 태그가 있는 객체인지 여부를 인식할 수 있고, 객체가 리마인더 태그가 있는 객체라고 인식되면, 시스템은 사용자 보기 이미지를 인식하여 사용자의 이동 액션을 인식할 수 있다. 도 15b에 도시된 것과 같이, 사용자가 도면에 도시된 경로 S1을 따라 경로의 시작 위치에서 경로의 최종 위치로 화초를 옮긴다고 가정한다. 사용자 액션이 완료된 후, 시스템은 사용자의 AR/VR 기기를 통해 사용자의 현재 보기 이미지를 획득할 수 있다. 사용자가 도 15a에 도시된 거실에서 도 15c에 도시된 침실로 경로 S1을 따라 화초를 옮긴다고 가정한다. 이때, 시스템은 도 15c에 도시된 것과 같이 현재의 보기 이미지를 인식한다. 구체적으로 다른 방식으로서, 시스템은 화초들이 도 15a에 도시된 이미지 안에 위치하는 영역의 국지적 특징들(코너의 특징들 등)을 추출하여 그러한 국지적 특징들에 기반하여 도 15c에 도시된 이미지 안에서 화초들을 찾을 수 있다, 즉 그러한 국지적 특징들에 기반하여 도 15a 및 15c의 두 이미지들에 대한 객체(이 예에서 화초) 추적을 수행한다. 도 15c에서 화초를 인식한 후, 시스템은 객체에 결합된 리마인더 태그의 위치 속성을 업데이트하며, 도 15c에 도시된 바와 같이 도 15c 내 화초와 함께 리마인더 태그를 디스플레이한다.

또한, 리마인더 태그의 설정이 완료된 후, 사용자의 위치가 옮겨졌다면(예를 들어 사용자가 외출함), 이때 사용자의 현재 보기 이미지는 그러한 화초를 포함하지 않을 가능성이 있으므로, 가상 리마인더 태그가 생성되지 않을 수 있다. 또한, 도 15b에 도시된 것과 같이, 사용자가 집으로 돌아오면, 사용자가 집으로 돌아온 후 도면에 도시된 경로 S2를 따라 이동한다고 가정할 때, 사용자 보기 안에 화초가 다시 등장하고, 이때 화초를 찾기 위해 사용자의 현재 보기 이미지가 다시 인식되거나, 이력 상의 이미지 내 객체에 대해 획득된 식별 정보(예를 들어, 상기 국지적 특성들)에 기반하여 현재 보기 이미지 내에서 화초가 인식된다; 그 화초에 기반하여 사용자의 현재 보기 이미지 안에 프롬프트 정보가 디스플레이된다.

또한, 리마인더 태그에 해당하는 사용자 항목의 실행 시간이 도래할 때, 이 예에서와 같이 현재 날짜가 4.20인데 사용자의 보기 이미지 안에 화초가 존재하지 않으면, 이 시점에 이력 상의 기록의 사용자 집의 객체들과 사용자의 현재 보기 이미지 내 객체들 간 상대적 위치 관계에 기반하여 사용자를 위한 안내 정보가 생성될 수 있고, 사용자가 그 안내 정보에 따라 이동할 수 있으므로, 화초들이 사용자 보기 안에 나타나거나 프롬프트 정보가 사용자의 다른 단말 기기들로 보내질 수 있다.

다시 말해, 사용자가 객체를 찾아야 할 때 시스템이 객체에 대해 기록된 위치 정보에 따라 자동으로 검색 경로를 설계하고, 찾아야 할 객체를 찾도록 사용자를 안내할 수 있다.

다른 경우(사용자가 AR/VR 기기를 사용하지 않을 때 사용자가 객체(이 예에서 화초)를 이동하거나, 누군가 다른 사람이 객체를 이동하면, 시스템은 그 객체에 대한 이동을 감지할 수 없는 경우), 사용자가 다시 AR/VR 기기를 사용할 때, 시스템은 이미지 인식 결과로부터 새로운 환경에서 검출된 유사한 특징들을 가진 객체가 이전에 리마인딩(상기)을 위해 마크되었다는 것을 학습한다; 비슷한 모양들을 가진 두 개의 객체들이 존재한다는 것을 배제할 수 없기 때문에, 그러한 경우를 만나면 시스템이 사용자에게 그것이 새로운 객체인지 이동했던 이전의 객체인지 여부를 질의할 수 있다. 사용자가 이전 객체의 위치가 이동되었다는 정보를 주면, 최초의 리마인더 태그의 위치 속성이 업데이트될 수 있고, 비슷하거나 동일한 외양을 가진 다른 객체인 경우 반복된 질문을 피하기 위해 여기에서 시스템이 마크될(marked) 수 있다.

예 9

리마인더 태그와 관련된 객체의 위치가 움직이는 경우와 관련해, 도 16은 본 개시의 실시예에 의해 제공되는 프롬프트 정보 처리 시스템의 작업 플로우를 보여주는 개략도이다.

도 16에 도시된 바와 같이, 이 예에서 시스템의 이미지 인식 모듈은 객체 인식 네트워크, 장면 인식 네트워크, 및 이미지 특성 추출기를 포함할 수 있다. 장면 1(예를 들어, 도 15a에 도시된 장면)의 겨우, 보기 이미지(도면에서 도시된 장면 1의 이미지 입력)가 사용자의 AR/VR 기기, 모바일 전화, 태블릿 등에 의해 획득되고, 그 이미지가 객체 인식 네트워크 및 장면 인식 네트워크에 각기 입력된다; 객체 인식 네트워크는 도면에 도시된 객체들(1_1 및 2)과 같은 장면 내 객체들을 인식한다. 이 예에서, 객체 1은 프롬프트 정보와 관련된 객체(즉, 예 8의 화초와 같이 리마인더 태그를 디스플레이하는 객체)이고, 객체 2가 객체 데이터베이스(데이터베이스 모듈의 일부)에 저장될 수 있다. 장면 인식 네트워크는 현재의 장면이 장면 1이라고 인식하고, 장면 1의 관련 정보를 장면 데이터베이스(데이터베이스 모듈에 장면 정보를 저장하기 위한 데이터베이스)에 저장한다. 사용자 보기가 바뀔 때, 바뀐 장면이 장면 2(도 15c에 도시된 것과 같은 장면)라고 가정하고 장면 2 안의 사용자 보기 이미지(도면에 도시된 장면 2의 이미지 입력)가 객체 인식 네트워크 및 장면 인식 네트워크에 각기 입력된다; 객체 인식 네트워크는 장면 내 객체들, 예를 들어 도면에 도시된 객체(1_2) 및 객체(3)를 인식하며, 장면 인식 네트워크는 현재의 장면이 장면(2)라고 인식하여 장면 데이터베이스 안에 장면(2)의 관련 정보를 또한 저장한다.

이 예에서, 이미지 특성 추출기가 사용되어 인식된 객체들의 특성들을 추출하여, 그러한 특성들에 기반하여 객체들이 동일한 객체라고 확인될 수 있다. 특성 추출기에 의해 추출된 특성들은 객체의 크기, 모양, 컬러, 패턴 스타일, 위치 정보 등을 포함할 수 있으나 그에 국한되지 않으며, 알고리즘이 정보 비교를 통해 객체를 다시 인식할 수 있다. 예를 들어, 장면 1에서 인식된 객체(1_1) 및 객체(2)의 경우, 이미지 특성 추출기는 그 두 객체들의 특성들을 각각 추출하고 기록할 수 있고, 장면 2에서 인식된 객체(1_2) 및 객체(3)의 경우, 같은 알고리즘이 이 두 객체들에 대한 특성 추출 및 객체 인식을 수행할 수 있다. 이때, 특성 비교 프로세스에서, 알고리즘은 장면 1 안의 객체(1_1)와 장면 2 안의 객체(1_2)가 모양, 크기, 컬러 및 패턴 스타일과 같은 특성들이 일치하나 마크된 위치 정보는 불일치한다는 것을 발견하고, 최종적으로 알고리즘이 객체(1_1)과 객체(1_2)가 동일하다고 판단함으로써, 객체(1_1) 및 객체(1_2)는 도면에서 일괄적으로 객체(1)로 인식되고 객체(1)가 장면 1에서 장면 2로 이동된다는 결론이 얻어진다. 인식된 모든 객체들의 특성들이 통합 서식설정 정보에 따라 객체 특성 데이터베이스 안에 저장된다. 사용자의 개인 연관 데이터베이스는 객체 및 사용자의 관련 정보를 저장하며, 그 정보는 객체 특성 데이터베이스와 관련되고 사용자의 객체 인식 및 행동 습관 분석 서비스에 대해 함께 사용될 수 있다.

본 개시의 실시예는 AR/VR 기반 리마인딩 시스템을 제공하며, AR/VR 기반 리마인딩 기능을 구현한다. 본 개시의 실시예에서의 해법에 기반하여, 사용자가 리마인더를 설정하는 것을 용이하게 할 수 있을 뿐만 아니라 다른 모바일 전화, 태블릿 및 다른 단말들과 네트워크를 통해 상호 동작할 수 있다. 모바일 전화, 태블릿 또는 다른 단말들이 사용자 AR/VR 장면 내 이미지의 프레임을 획득할 수 있고, 이미지 안에 태그가 마크되며, 이때 마크되는 정보는 정보 공유를 실현하기 위해 AR/VR의 사용자에게 실시간으로 전송되거나 편집 완료 후 한 번에 전송된다. 이때, 이미지 상의 사용자의 마크 정보 및/또는 편집 정보가 프롬프트 정보로서 사용될 수 있다.

도 17은 본 예에서 제공되는 프롬프트 정보 처리 시스템(AR/VR 리마인딩 시스템이라고 간단히 불릴 수 있음)의 개략적 구성도이며, 도면에서 보여진 각각의 구성에 대한 상세힌 내용은 다음과 같다:

1. AR/VR 기기의 비디오 입력 모듈은 AR/VR 기기의 비디오 정보(즉, 이미지)를 실시간으로 획득하기 위해 사용된다.

2. 특정 장면 획득 및 업로딩 모듈, 즉 장면 내 프레임 이미지를 수동이나 음성 유도식이나 자동으로 인터셉트(intercept)하여 그것을 모바일 전화나 태블릿 같은 단말로 업로드한다;

3. 모바일 전화 및 태블릿과 같은 단말 기기는 장면 이미지를 수신하고, 스마트 음성 도우미나 수기(handwriting) 또는 다른 도구들을 사용하여 이미지 위에 가상 리마인더 태그를 직접 설정할 수 있다.

4. 장면 분석 모듈의 경우, 이 모듈은 이미지 인식 모듈의 일부로서 AR/VR 기기, 모바일 전화 및 태블릿과 같은 단말 기기들 상에 존재하고, 주로 장면 내 객체 정보를 분석하고, 장면 내 객체들에 대해 이미지 분할을 수행하여 리마인더 태그 추가 모듈이 리마인더 태그를 이미지 내 정확한 위치에 추가하는 것을 보다 용이하게 한다; 정면 분석 모듈은 또한, 장면 내 코너 특성들(즉, 이미지 특성들)을 또한 수집하며, 여기서 공통 코너 특성들은 SIFT(scale-invariant feature transform) 특성들, SURF(Speeded Up Robust Features), FAST 코너 특성들, BRISK(binary robust invariant scalable keypoint) 특성들 등을 포함하고, 이러한 코너 특성들은 모바일 전화나 태블릿과 같은 단말들이 수신하는 이미지들을 필수적인 부분인 실제 AR/VR 장면들로 매핑하는 것을 도울 수 있다;

5. 정보 다운로딩 모듈은 장면 분석 모듈의 결과 및 AR/VR 기기에 추가된 태그 정보를 리턴한다.

6. 리마인더 태그 장면 재구성 모듈은 AR/VR의 실제 장면 비디오와, 모바일 전화나 태블릿과 같은 단말 기기로부터 리턴된 정보에 대한 매칭 분석을 수행하고, AR/VR 장면 안에 리마인더 태그를 재구성한다.

이하에서는 두 가지 구체적 예들을 들어 정보 공유 장면 내 프롬프트 정보 처리 방법을 기술한다.

예 10

이 예에서, 엄마가 전자렌지를 사용하는 도중에 아들에게 도움을 구하는 장면을 예로 든다.

이 예에서 엄마의 보기 이미지가 도 18a에 도시된다. 엄마는 전자렌지 사용 방법을 모르며, 도 18a에 도시된 전자렌지의 사진을 찍어 도움을 청하기 위해 아들에게 보낸다. 아들의 모바일 전화가 이 사진을 수신한 후, 아들은 도 18b에 도시된 것과 같이 전화 상에 디스플레이된 사진을 편집하여 메시지들을 작성한다; 아들이 사진 위에 텍스트를 편집하고 그것을 마크할 수 있다(그림에서 보여진 화살표). 본 개시의 실시예의 해법을 통해, 엄마는 도 18c에 도시된 것과 같이, AR 기기를 통해 아들이 마크한 전자렌지의 사용 지침(즉, 상술한 텍스트 및 마크)을 볼 수 있다.

도 19는 상기 정보 공유 해법을 구현하기 위한 시스템의 동작 원리를 보여주는 개략도이다. 도면에 도시된 바와 같이, 도면의 좌측 상부에 있는 모바일 전화가 아들의 모바일 전화이고, 좌측 하부에 있는 AR 안경과 모바일 전화(당연히 이 두 기기들은 AR 및 사진 찍기 기능들을 가진 기기일 수 있음)는 엄마의 단말 기기들이다. 아들 측에서는, 이동 전화가 도 18a에 도시된 사진을 수신한 후, 수기나 음성이나 다른 수단(도면의 우측 상부 코너에 보여지는 멀티미디어 정보를 지원하는 부분)을 통해 편집될 수 있다. 편집된 이미지의 경우, 장면 분석 모듈의 객체 인식 네트워크가 그 편집된 이미지를 인식하고, 이미지 안의 객체가 전자렌지임을 인식하며, 장면 분석 모듈의 장면 특성 추출 네트워크는 편집된 이미지 내 코너 특성들을 추출한다. 그 후, 시스템은 이때 엄마의 보기 이미지를 획득하고, 객체 인식 네트워크를 통해 보기 이미지를 인식하고, 장면 특성 추출 네트워크를 통해 보기 이미지 내 코너 특성들을 추출하고, 편집된 이미지로부터 추출된 국지적 코너 특성과 보기 이미지로부터 추출된 국지적 코너 특성의 특성 매칭을 수행하고, 편집된 이미지 내 편집 정보의 위치 정보(즉, 도면에 도시된 마크 정보) 및 현재 보기 이미지 내 해당 위치 사이의 매핑, 즉 편집된 이미지와 보기 이미지 사이의 매핑(도면에 도시된 사진 및 장면 간 매핑)을 결정할 수 있다; 이 매핑 관계에 기반하여, 편집 정보는 엄마의 현재 보기 이미지에 동기될 수 있다, 즉 아들의 편집 정보(도면에 도시된 AR 장면 내 프롬프트 출력)가 엄마의 현재 보기 이미지에 동기되어 디스플레이될 수 있어, AR 장면 내 객체(이 예의 전자렌지)와 관련된 프롬프트 정보의 디스플레이를 실현할 수 있다. 이 예의 편집 정보가 리마인더 정보이다.

이러한 종류의 적용 장면에서, 안경을 쓴 사람이 이동할 때 그 안경도 이동할 것이므로, 이미지 매칭을 이용하여 서로 다른 이미지들 내 동일 객체를 판단할 필요가 있다. 또한, 실제 적용예들에서, 상기 매칭이 완료된 후, 객체의 추적이 객체 추적 알고리즘을 토대로 구현될 수 있어, 자원 소비가 상대적으로 적다. 한편, 교정(calibration) 오차들을 주기적으로 매칭해야 한다. 또한 도면에 도시된 장면 데이터베이스는 현재 장면의 데이터를 저장하고, 이전 장면의 데이터를 또한 저장할 수 있어, 사용자에게 콘텐츠가 한번 리마인딩된 후, 사용자의 보기가 그 장면을 다시 입력한 경우, 다음에 그것을 볼 때 사용자에게 리마인딩될 수 있다.

예 11

다수 인의 회의가 메모를 공유하는 적용 장면이 이 예에서 보여진다. 회의실 장면에 대한 개략도인 도 20a에 도시된 바와 같이, 다수의 회의 참석자들이 같은 장면의 이미지들을 촬영할 때, 본 개시의 실시예에 의해 제공되는 시스템은 다수인의 회의 메모들을 공유할 수 있다.

구체적으로, 회의의 참석자들이 우선 회의실(당연히 다른 영역들일 수 있음)의 하얀 벽에 대한 사진들을 찍을 수 있다. 회의 중에, 도 20b에 도시된 바와 같이 회의 참석자가 자신이 찍은 사진 위에 회의 순간들이나 다른 메모를 작성할 때, 그러한 회의 순간들이나 메모들이 프롬프트 정보(즉, 공유되어야 하는 정보)로서 사용될 수 있다. 본 개시의 실시예에 의해 제공된 정보 공유 기능에 기반하여, 이러한 회의 순간들이나 메모들이 다른 회의 참석자들이 찍은 다른 사진들에 디스플레이될 수 있고, 권한을 가진 다른 회의 참석자들이 도 20c에 도시된 것과 같이 같은 장면 안에서 다른 사용자들이 마크된 내용을 획득할 수 있다. 당연히, 다른 추후 회의 참석자들도 그 동일 장면을 촬영함으로써 공유 정보를 획득할 수 있다. 이 예에서 다수인의 정보 공유에 대한 구체적인 구현은 예 10의 상기 내용을 참조할 수 있다.

일 실시예에서, 적어도 하나의 프로세서는 사용자 음성 명령에 기반하여 사용자 보기 이미지를 분석하도록 더 구성된다.

상기 자동으로 결정된 객체는 불특정 객체일 수 있다.

일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 객체의 위치 정보가 변경될 때, 상기 객체의 변경된 위치 정보에 따라 사용자 보기 이미지 안에 상기 프롬프트 정보를 디스플레이하도록 더 구성된다.

일 실시예에서, 상기 프롬프트 정보 및 상기 객체는, 사진을 획득하고, 상기 사진을 디스플레이하고, 상기 디스플레이된 사진과 관련된 사용자 입력을 획득하고, 상기 디스플레이된 사진과 관련된 상기 사용자 입력을 분석하여 상기 프롬프트 정보 및 상기 객체를 결정함으로써 획득된다.

상기 사진은 현재의 기기나 다른 기기로부터 획득될 수 있다.

일 실시예에서, 상기 프롬프트 정보는 다른 기기로부터 상기 프롬프트 정보를 수신함으로써 획득되고, 상기 적어도 하나의 프로세서는 상기 객체에 기반하여 사용자 보기 이미지 내에 상기 프롬프트 정보를 디스플레이하도록 더 구성된다.

상기 객체는 다른 기기로부터 수신될 수 있다.

상기 객체를 결정하기 위해 사용될 수 있는 상기 다른 기기에 의해 전송되는 정보는 불특정 참조일 수 있다.

일 실시예에서, 상기 프롬프트 정보는 다른 기기로부터 상기 프롬프트 정보를 수신함으로써 획득되고, 상기 적어도 하나의 프로세서는 사진 및 사용자 보기 이미지 사이의 매핑 관계에 기반하여 상기 사진 안에 상기 프롬프트 정보를 디스플레이하도록 더 구성된다.

상기 객체는 다른 기기로부터 수신될 수 있다.

본 출원은 AI 분야의 이미지 인식 기술을 AR/VR을 사용하는 사용자의 장면에 대한 자동 음성 인식 및 자연 언어 이해 기술과 결합한 시스템을 제안함으로써, AR/VR에 기반하여 지능적으로 리마인더 항목을 설정 및 사용하는 서비스를 사용자에게 제공할 수 있다. 본 출원의 실시예들에 의해 제공되는 해법들은 다음과 같은 것을 달성한다:

1. 리마인딩 항목들의 기존 표시 방식이 한정되어 있다는 문제와 관련하여, 본 개시의 실시예는 멀티미디어 정보를 통해 리마인더 항목을 디스플레이할 수 있는 멀티미디어 정보를 사용하여 리마인딩 항목을 생성하는 해법을 제안하고, 이때 멀티미디어 정보는 텍스트, 이미지, 사운드, 비디오 및 수퍼 링크, 하이퍼텍스트 등을 포함한다.

2. 실시간 장면들/가상 장면들 안에 리마인더 항목들을 생성하기 위해 AR/VR 기기들을 사용함으로써, 보다 직관적이고 편리하다는 것에 더해, 복잡하고 단순하지도 직관적이지도 않게 모바일 전화 상에서 리마인더 항목들을 기록하기 위해 텍스트를 사용하는 결함이 그 리마인더 항목들이 나타날 때의 시간, 그러한 리마인더 항목들이 나타나는 지리적 위치 및 표현의 형식 등을 합리적으로 제어함으로써 해소된다;

3. 음성 명령들의 차이로 인해, 자동 음성 인식 및 자연 언어 이해 모듈의 결과들에 따라 이미지 인식 모듈이 인식 단계의 인식 작업들을 동적으로 조정할 수 있어, 객체를 정확하게 인식하면서 자원 소비를 줄일 수 있다;

4. 사용자 의도를 보다 정확하게 판단하기 위해, 이미지 인식 모듈의 인식 결과가 자동 음성 인식 및 자연 언어 이해 모듈에 의해 인식된 결과와 결합된다.

5. 시스템은 사용자와 관련된 데이터베이스에 기록된 장면 및 사용자의 이용에 따라 사용자가 사용한 객체들이나 이벤트들에 대한 다른 명칭이나 사용자의 비표준 음성 명령들을 분석할 수 있다; 실제 사용 시, 시스템은 데이터베이스 내 정보에 따라 인식된 결과들을 정정함으로써 시스템이 사용자 의도를 정확히 파악하고 정확한 피드백을 줄 수 있게 지원할 수 있다;

6. 시각 및 청각 멀티 모드 정보 입력의 이용은 현재의 장면에 따라 보다 풍부한 정보를 제공하여, 사용자의 잠정적 요구조건들을 자동으로 판단하고 일부 장면들 내 리마인더 항목들을 자동으로 설정할 수 있다;

7. 일부 객체들의 특별한속성들을 인식하고 그러한 속성들을 사용자의 액션 판정에 더할 수 있으며, 그 목적은 사용자의 액션을 보다 정확하게 판정하고 리마인더 항목들을 자동으로 생성할 수 있도록 하는 것이다; 예를 들어, 이미지 인식 모듈이 사용자가 하나의 약병을 섭취했다고 인식하면, 사용자가 정기적으로 그 약을 섭취하거나 그 사람 주위의 사람들이 정기적으로 약을 섭취한다고 판정하는 것이 용이하며, 그러한 정보에 따라 정기적 투약에 대한 리마인더 및 약의 위치에 대한 리마인더가 생성될 수 있다.

8. 사용자의 이력 상의 이미지 인식 결과 및 음성 이해 결과가 저장되어 사용자의 자체 행동에 대해 승인하는 액션을 발굴하도록 하여, 시스템이 다양한 사용자 습관들에 대해 다양한 액션 인식 시스템들을 설정할 수 있게 된다.

9. 이미지 인식 기술 및 자연 언어 이해 기술을 이용하여, 실제 장면 내 객체 및 가상 리마인더 태그 간 일대다 결합 관계를 실현하는 것이 가능하다.

10. 사용자 액션에 대한 인식과 객체 인식이라는 두 부분의 결합으로부터 이익을 취하여, 사용자가 같은 객체를 한 장면에서 다른 장면으로 이동한다고 판정하는 것이 용이하고, 그에 따라 태그 정보는 객체의 이동에 따라 위치 정보를 업데이트 할 수 있다.

11. 이미지 인식 기술에 더하여, 시스템은 사용자 위치, 선호도 및 기타 정보를 기록하여 마크된 객체에 대한 사용자의 실제 요구조건들을 승인하고, 컴퓨터가 판정을 할 수 없을 때 질의를 행하도록 한다, 예를 들어 사용자가 벽에 다수의 사진들을 마주하고 리마인더 항목인 "내일 저녁 식사"를 제공할 때, 사용자는 사용자의 습관에 따라 우측을 중심으로 사진의 우측에 가상 태그를 추가할 수 있다;

12. 모바일 전화나 태블릿 상의 사용자 장면에 대한 그림이 오픈될 수 있고, 스타일러스, 음성 또는 키보드 입력을 이용하여 전자 태그가 그림 상에 설정되며, 전자 태그는 다른 AR/VR 기기로 실시간 전송되거나 태그가 생성된 후 한 번에 다른 AR/VR 기기로 제공된다; (이 기능은 원격으로 가족을 일부 가정용 가전기기들의 온전한 동작들로 잘 안내할 수 있고, 또한 가족에게 메시지를 남기는 기능 및 기타 기능들을 가질 수도 있다).

도 1에 도시된 방법과 같은 원리에 따라, 본 개시의 실시예 역시 프롬프트 정보 처리 장치를 제공한다. 도 21에 도시된 바와 같이, 프롬프트 정보 처리 장치(100)는 프롬프트 정보 획득 모듈(110) 및 객체 획득 모듈(120)을 포함할 수 있다.

프롬프트 정보 획득 모듈(110)은 프롬프트 정보를 획득하도록 구성된다.

객체 획득 모듈(120)은 사용자 보기 이미지에서 객체를 획득하고 상기 객체에 기반하여 상기 프롬프트 정보를 출력하도록 구성된다.

이와 달리, 객체는 다음 방식들 중 적어도 하나에 따라 결정될 수 있다:

사용자 보기 이미지 내 객체 데이터에 따라 결정.

이와 달리, 객체 정보가 다음 방식들 중 적어도 하나에 따라 획득될 수 있다:

사용자 명령에 의해 획득되는 프롬프트 정보;

다른 기기에 의해 전송된 프롬프트 정보;

사용자 의도에 따라 자동 생성된 프롬프트 정보;

미리 설정된 방식에 기반하여 생성된 프롬프트 정보.

이와 달리, 객체는 다음 정보 중 적어도 하나에 따라 결정될 수 있다:

사용자 명령으로 전달된 객체 지시 정보;

사용자 보기 이미지 내 사용자의 포커스 지점;

사용자의 개인화된 정보;

객체에 대한 사용자의 이력 상의 행동;

이와 달리, 객체 지시 정보는 객체의 속성 정보를 포함하며, 여기서 객체는 다음과 같은 방식들 중 적어도 하나를 통해 획득된다:

이와 달리, 장치가 정보 디스플레이 모듈을 더 포함할 수 있고, 그 모듈은 다음과 같이 구성된다:

이와 달리, 정보 디스플레이 모듈이 다음과 같이 더 구성된다:

객체의 위치 정보가 변경될 때, 객체의 변경된 위치 정보에 따라 사용자 보기 이미지 안에 프롬프트 정보를 디스플레이한다.

이와 달리, 장치가 프롬프트 정보 재처리 모듈을 더 포함할 수 있고, 그 모듈은 다음과 같은 단계들 중 적어도 하나를 수행하도록 구성된다:

객체의 안내 정보를 생성하여 그 안내 정보에 기반하여 사용자 보기 이미지 안에 객체를 위치시키는 단계;

본 개시의 실시예는 전자 기기를 더 제공하며, 그 전자 기기는 프로세서 및 메모리를 포함하고; 상기 메모리는 기계 판독가능 명령어들을 저장하고; 상기 프로세서는 상기 기계 판독가능 명령어들을 실행하여 본 개시의 실시예들 중 어느 하나에서 제공되는 상기 방법을 구현하도록 구성된다.

이와 달리, 전자 기기는 AR 기기 또는 VR 기기를 포함할 수 있다.

본 개시의 실시예는 또한 컴퓨터 판독가능 저장 매체를 제공하며, 상기 판독가능 저장 매체는 컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행되어 본 개시의 실시예들 중 어느 하나에 의해 제공되는 상기 방법을 구현한다.

일 예로서, 도 22는 본 개시의 실시예의 해법에 적합한 전자 기기(4000)의 개략적 구조도를 도시하며, 도 22에 도시된 것과 같이 전자 기기(4000)는 프로세서(4001) 및 메모리(4003)를 포함할 수 있다. 프로세서(4001)는 메모리(4003)에, 예를 들어 버스(4002)를 통해 연결된다. 이와 달리, 전자 기기(4000)는 송수신기(4004)를 더 포함할 수 있다. 실제 응용예들에서는, 송수신기(4004)의 개수가 한 개로 한정되지 않으며, 전자 기기(4000)의 구조가 본 개시의 실시예들에 대한 제한을 조각하지 않는다는 것을 알아야 한다.

프로세서(4001)는 중앙 처리부(CPU), 범용 프로세서, 디지털 신호 프로세서(DSP), ASIC(Application Specific Integrated Circuit), 및 FPGA(Field Programmable Gate Array)나 다른 프로그램 가능한 로직 소자, 트랜지스터 로직 소자, 하드웨어 구성요소, 또는 이들의 임의의 조합일 수 있다. 본 개시와 관련하여 설명된 다양한 예시적 논리 블록들, 모듈들 및 회로들을 구현하거나 수행하는 것이 가능하다. 프로세서(4001)는 또한, 하나 이상의 마이크로프로세서 조합들, DSP 및 마이크로프로세서의 조합 등과 같은 컴퓨팅 기능들의 조합일 수도 있다.

버스(4002)는 상기 구성요소들 간에 정보를 통신하기 위한 경로를 포함할 수 있다. 버스(4002)는 PCI(Peripheral Component Interconnect) 버스 또는 EISA(Extended Industry Standard Architecture) 버스일 수 있다. 버스(4002)는 어드레스 버스, 데이터 버스, 제어 버스 등으로 구분될 수 있다. 표현 상의 편의를 위해, 도 22에서 하나의 굵은 선만이 버스를 표현하기 위해 사용되었으나, 이것이 버스가 하나만 존재한다거나 한 타입의 버스만 존재한다는 것을 의미하지는 않는다.

메모리(4003)는 고정 정보 및 명령어들을 저장할 수 있는 ROM(Read Only Memory) 또는 다른 타입의 정적 저장 소자, 정보 및 명령어를 저장할 수 있는 RAM(Random Access Memory) 또는 다른 타입의 동적 저장 소자일 수 있고, EEPROM(Electrically Erasable Programmable Read Only Memory), CD-ROM(Compact Disc Read Only Memory) 또는 다른 광학 디스크 저장부, 디스크 저장부(압축 광 디스크, 레이저 디스크, 광학 디스크, DVD(digital versatile discs), 블루레이 디스크 등을 포함), 자기 디스크 저장 매체 또는 다른 자기 저장 소자, 또는 명령어 형식의 원하는 프로그램 코드들을 포함하거나 저장하는데 사용될 수 있고 컴퓨터를 통해 접근될 수 있는 어떤 다른 매체일 수 있으나, 이러한 것에 국한되지 않는다.

메모리(4003)는 본 개시의 해법을 실행하기 위한 응용 프로그램 코드들을 저장하는데 사용되며, 실행을 위해 프로세서(4001)에 의해 제어된다. 프로세서(4001)는 메모리(4003)에 저장된 응용 프로그램 코드들을 실행하도록 구성되어, 상기 방법 실시예들 중 어느 하나에 보여진 해법을 구현한다.

도면의 흐름도들의 여러 단계들은 화살표로 지시된 것과 같이 순차적으로 표시되고 있으나, 그러한 단계들이 반드시 화살표들로 지시된 순서대로 수행되는 것은 아니라는 것을 알아야 한다. 여기에서 명시적으로 서술된 것을 제외하고, 그러한 단계들에 대한 실행은 엄격히 순차적으로 제한되는 것이 아니며, 다른 순서들로도 수행될 수 있다. 또한 도면의 흐름도에서의 단계들 중 적어도 일부는 반드시 동시에 수행되지 않고 다른 시간대에 실행될 수 있는 복수의 하위 단계들을 포함할 수 있으며, 그 실행 순서가 순차적으로 수행될 필요는 없고 다른 단계들의 하위 단계들의 적어도 일부와 함께 교대로 수행될 수 있다

상술한 것은 본 개시의 실시예들 중 일부일 뿐이며, 당업자라면 본 개시의 원리에서 벗어나지 않고 여러 개선과 수정을 행할 수 있다는 것을 또한 알아야 한다. 그것이 본 개시의 보호 범위로 간주될 것이다.

Claims

프롬프트 정보 처리 장치로서,
하나 이상의 명령어들을 저장하도록 구성된 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 명령어들을 실행하여,
프롬프트 정보를 획득하고,
객체를 획득하고 상기 객체에 기반하여 상기 프롬프트 정보를 출력하도록 구성된 적어도 하나의 프로세서를 포함하는 프롬프트 정보 처리 장치.
제1항에 있어서, 상기 프롬프트 정보 및 상기 객체는
사용자 음성 명령을 획득하여 분석하고,
사용자 보기 이미지(user view image)를 획득하여 분석하고,
상기 사용자 음성 명령 분석의 결과 및 상기 사용자 보기 이미지 분석의 결과에 기반하여 상기 프롬프트 정보 및 상기 객체를 결정함으로써 획득되는 프롬프트 정보 처리 장치.
제2항에 있어서, 상기 적어도 하나의 프로세서는,
상기 사용자 음성 명령에 기반하여 이미지 분석 알고리즘을 결정하고,
상기 결정된 이미지 분석 알고리즘에 기반하여 상기 사용자 보기 이미지를 분석하도록 더 구성되는 프롬프트 정보 처리 장치.
제2항에 있어서, 상기 적어도 하나의 프로세서는,
상기 사용자 보기 이미지 분석의 예비 결과에 기반하여 상기 사용자 음성 명령을 분석하고,
상기 사용자 음성 명령 분석의 예비 결과에 기반하여 상기 사용자 보기 이미지를 분석하도록 더 구성되는 프롬프트 정보 처리 장치.
제2항에 있어서, 상기 객체는
상기 사용자 음성 명령 분석의 결과 및 상기 사용자 보기 이미지 분석의 결과에 기반하여 상기 프롬프트 정보에 대한 복수의 선택가능 객체 옵션들을 결정하고;
상기 복수의 선택가능 객체 옵션들로부터의 사용자 선택에 기반하여 상기 객체를 획득함으로써 획득되는 프롬프트 정보 처리 장치.
제2항에 있어서, 상기 객체는
상기 사용자 음성을 통해 전달되는 객체 지시 정보에 기반하여 상기 사용자 보기 이미지 내 상기 객체를 결정함으로써 획득되는 프롬프트 정보 처리 장치.
제1항에 있어서, 상기 객체는
사용자 음성 명령을 획득하여 분석하고,
상기 사용자 음성 명령 분석의 결과에 기반하여 상기 프롬프트 정보를 결정하고,
객체 지시 정보가 상기 사용자 음성 명령을 통해 전달되는지 여부를 결정하고,
상기 객체 지시 정보가 상기 사용자 음성 명령을 통해 전달되지 않는다고 판단 시, 상기 사용자 음성 명령 분석의 결과에 기반하여 상기 객체를 자동으로 결정함으로써 획득되는 프롬프트 정보 처리 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 객체의 위치 정보가 변경될 때, 상기 객체의 변경된 위치 정보에 따라 사용자 보기 이미지 안에 상기 프롬프트 정보를 디스플레이하도록 더 구성되는 프롬프트 정보 처리 장치.
제1항에 있어서, 상기 프롬프트 정보 및 상기 객체는
사용자의 이력 상의 이미지를 획득하고,
상기 이력 상의 이미지에 기반하여 사용자 행동을 인식하고,
상기 사용자 행동에 따라 상기 프롬프트 정보를 자동으로 생성함으로써 획득되는 프롬프트 정보 처리 장치.
제1항에 있어서, 상기 프롬프트 정보 및 상기 객체는
사진을 획득하고,
상기 사진을 디스플레이하고,
상기 디스플레이된 사진과 관련된 사용자 입력을 획득하고,
상기 디스플레이된 사진과 관련된 상기 사용자 입력을 분석하여 상기 프롬프트 정보 및 상기 객체를 결정함으로써 획득되는 프롬프트 정보 처리 장치.
제1항에 있어서,
상기 프롬프트 정보는 다른 기기로부터 상기 프롬프트 정보를 수신함으로써 획득되고,
상기 적어도 하나의 프로세서는 상기 객체에 기반하여 사용자 보기 이미지 내에 상기 프롬프트 정보를 디스플레이하도록 더 구성되는 프롬프트 정보 처리 장치.
제11항에 있어서, 상기 객체는
상기 객체를 결정하기 위해 사용될 수 있는 상기 다른 기기에 의해 전송되는 정보를 획득하고,
상기 객체를 결정하기 위해 사용될 수 있는 상기 수신된 정보에 기반하여 상기 사용자 보기 이미지 내에서 상기 객체를 결정함으로써 획득되는 프롬프트 정보 처리 장치.
제1항에 있어서,
상기 프롬프트 정보는 다른 기기로부터 상기 프롬프트 정보를 수신함으로써 획득되고,
상기 적어도 하나의 프로세서는 사진 및 사용자 보기 이미지 사이의 매핑 관계에 기반하여 상기 사진 안에 상기 프롬프트 정보를 디스플레이하도록 더 구성되는 프롬프트 정보 처리 장치.
프롬프트 정보 처리 방법으로서,
프롬프트 정보를 획득하는 단계; 및
객체를 획득하고 상기 객체에 기반하여 상기 프롬프트 정보를 출력하는 단계를 포함하는 프롬프트 정보 처리 방법.
컴퓨터 판독가능 저장 매체로서, 상기 판독가능 저장 매체는 컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행되어 제14항의 방법을 구현하는 컴퓨터 판독가능 저장 매체.