KR20240009984A - 전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색 - Google Patents

전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색 Download PDF

Info

Publication number
KR20240009984A
KR20240009984A KR1020237043214A KR20237043214A KR20240009984A KR 20240009984 A KR20240009984 A KR 20240009984A KR 1020237043214 A KR1020237043214 A KR 1020237043214A KR 20237043214 A KR20237043214 A KR 20237043214A KR 20240009984 A KR20240009984 A KR 20240009984A
Authority
KR
South Korea
Prior art keywords
augmented reality
user
scan
electronic eyewear
display
Prior art date
Application number
KR1020237043214A
Other languages
English (en)
Inventor
데이비드 메이센홀더
카메론 셰필드
조셉 티모시 포티어
레이몬드 정
안드레이 리빈
조나단 게디스
Original Assignee
스냅 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스냅 인코포레이티드 filed Critical 스냅 인코포레이티드
Publication of KR20240009984A publication Critical patent/KR20240009984A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Optics & Photonics (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

증강 현실 특징부들은 전자 안경류 디바이스의 카메라를 사용하여 스캔 이미지를 캡처하고 스캔 이미지를 처리하여 맥락 신호들을 추출함으로써 전자 안경류 디바이스의 디스플레이에 표시하기 위해 선택된다. 동시에, 전자 안경류 디바이스의 마이크에 의해 사용자로부터의 음성 데이터를 캡처하고, 캡처된 음성 데이터의 음성-텍스트 변환을 수행하여 음성 데이터의 키워드들을 식별한다. 그런 다음 추출된 맥락 신호들과 식별된 키워드들을 사용하여 추출된 맥락 신호들 및 식별된 키워드들과 일치하는 적어도 하나의 증강 현실 특징부를 선택하고, 사용자 선택을 위해 선택된 증강 현실 특징부를 디스플레이에 제시한다. 따라서, 맥락 정보는 전자 안경류 디바이스에 의해 캡처된 스캔 이미지의 맥락에 가장 적합한 증강 현실 특징부를 제공하기 위해 검색 결과들을 개선한다.

Description

전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색
[0001] 본 출원은 2021년 5월 19일자로 출원된 미국 가출원 제63/190,613호에 대한 우선권을 주장하며, 그 내용들은 전체적으로 본 명세서에 참고로 포함된다.
[0002] 본 개시에 제시된 예들은 스마트 안경과 같은 웨어러블 전자 디바이스들을 포함한 휴대용 전자 디바이스들을 위한 검색 인터페이스에 관한 것이다. 보다 구체적으로, 본 개시는 전자 안경류 디바이스를 위한 맥락에 맞는 시각 및 음성 검색 특징부들에 대해 설명한다(그러나, 이에 제한되지 않음).
[0003] 전자 안경류 디바이스들과 같은 웨어러블 전자 디바이스들은 사용자의 스마트폰과 같은 모바일 디바이스들에서 실행되는 애플리케이션 프로그램들과 통신할 수 있고, 일부 경우들에는 서버와 직접 통신할 수도 있다. 어느 경우든 전자 안경류 디바이스는 통신 애플리케이션 백엔드 서비스들뿐만 아니라 텍스트 음성 변환, 샤잠 플레이어®(SHAZAM PLAYER®) 앱 등과 같은 제3 자 애플리케이션 프로그래밍 인터페이스들(API들)과의 직접적인 디바이스 통합을 지원할 수 있다. 전자 안경류 디바이스들의 착용자는 전자 안경류 디바이스와의 상호작용을 통해 디스플레이 특징부들을 선택할 수 있다.
[0004] 개시된 다양한 구현예들의 특징들은 첨부된 도면들을 참조하는 이하의 상세한 설명으로부터 쉽게 이해될 것이다. 참조 번호는 설명 내 각각의 요소와 함께, 그리고 여러 도면들 전체에 걸쳐 사용된다. 복수의 유사한 요소들이 존재하는 경우, 하나의 참조 숫자가 유사한 요소들에 할당될 수 있으며, 특정 요소를 지칭하는 소문자가 추가될 수 있다.
[0005] 도면들에 도시된 다양한 요소들은 달리 명시되지 않는 한 실척대로 그려져 있지 않다. 다양한 요소들의 치수들은 명확성을 위해 확대되거나 축소될 수 있다. 여러 도면들은 하나 이상의 구현예들을 묘사하며, 단지 예시적으로 제시된 것으로서 제한적인 것으로 해석되어서는 안 된다. 도면에는 이하의 도면들이 포함된다.
[0006] 도 1a는 이미지 디스플레이를 갖는 우측 광학 조립체를 도시하는 전자 안경류 디바이스의 예시적인 하드웨어 구성의 측면도를 예시한다.
[0007] 도 1b는 도 1a의 전자 안경류 디바이스의 템플의 최상부 단면도를 예시한다.
[0008] 도 2a는 예시적인 하드웨어 구성에서 전자 안경류 디바이스의 예시적인 하드웨어 구성의 배면도를 예시한다.
[0009] 도 2b는 예시적인 하드웨어 구성에서 다른 전자 안경류 디바이스의 예시적인 하드웨어 구성의 배면도를 예시한다.
[0010] 도 2c 및 도 2d는 2 개의 서로 다른 유형들의 이미지 디스플레이들을 포함하는 전자 안경류 디바이스의 예시적인 하드웨어 구성들의 배면도들을 예시한다.
[0011] 도 3은 적외선 방출기, 적외선 카메라, 프레임 전면, 프레임 배면 및 회로 기판을 묘사하는 도 2a의 전자 안경류 디바이스의 배면 사시도를 예시한다.
[0012] 도 4는 도 3의 전자 안경류 디바이스의 적외선 방출기 및 프레임을 통해 절개된 단면도를 예시한다.
[0013] 도 5는 좌측 원시 이미지로서의 좌측 가시광 카메라에 의해 캡처된 가시광 및 우측 원시 이미지로서의 우측 가시광 카메라에 의해 캡처된 가시광의 일 예를 예시한다.
[0014] 도 6은 전자 안경류 디바이스의 전자 구성요소들의 블록도를 예시한다.
[0015] 도 7a, 도 7b 및 도 7c는 샘플 구성에서 배경 스캔 동안의 샘플 사용자 디스플레이들을 예시한다.
[0016] 도 8은 해변 장면의 이미지로부터 추출된 맥락 신호들과 함께 사용자의 디스플레이에 제시되는 해변 장면의 시각적 스캔을 예시한다.
[0017] 도 9는 샘플 구성에서 연관된 결과들과 함께 시각적 스캔 및 음성 스캔 모드들을 예시한다.
[0018] 도 10은 샘플 구성에서 언어적 스캔, 시각적 스캔 및 통합 스캔의 흐름도를 예시한다.
[0019] 도 11은 본 명세서에 설명된 시스템들 및 방법들에 따라 서버 및 디바이스 허브 중 적어도 하나를 구현하도록 조정된 컴퓨터 시스템의 샘플 구성을 예시한다.
[0020] 증강 현실 객체들 또는 다른 특징부들에 대한 검색은 음성 명령들 및 선택될 증강 현실 객체들 및 특징부들에 대한 맥락을 제공하기 위해 처리되는 캡처된 이미지들에 의해 개시될 수 있다. 증강 현실 콘텐츠는 시청하는 환경에 적합해야 하므로 맥락이 중요하다. 예를 들어, 사용자가 전자 안경류 디바이스를 착용하고 음성으로 '생일 케이크 체험'을 검색하는 경우, 사용자가 눈앞에 있는 사람의 얼굴에 케이크가 적용되기를 원한다면 사람의 얼굴이 케이크로 바뀌게 되는 증강 현실 검색 결과만 표시될 수 있다. 그러나 검색 알고리즘이 모든 맥락 정보를 가지고 있어 사용자 앞에 사람이 없다는 것을 알고 있다면 알고리즘은 케이크로 바뀔 수 있는 사람의 얼굴이 없다는 것을 이해할 수 있다. 이러한 경우 알고리즘은 사용자에게 접시에 담긴 케이크를 대신 보여주도록 선택할 수 있다. 이 경우, 맥락 정보는 전자 안경류 디바이스에 의해 캡처되는 장면의 맥락에 가장 적합한 증강 현실 특징부를 제공하기 위해 검색 결과들을 개선하는 데 사용될 수 있다.
[0021] 샘플 구성에서, 사용자는 전자 안경류 디바이스를 사용하여 장면을 "스캔"하여 전자 안경류 디바이스에 장착된 외부를 향한 카메라로 이미지를 캡처할 수 있고, 다수의 마이크들로부터 소리를 캡처할 수 있다. 캡처된 이미지는 디스플레이된 애니메이션의 영역과 일치하도록 처리되어 사용자가 장면의 특정 객체에 초점을 맞추도록 스캔을 안내할 수 있다. 일부 예들에서는 안구 추적과 같은 다른 수단에 의해 초점을 맞출 수 있다. 캡처된 이미지는 객체(예를 들어, 접시)가 무엇인지 이해하기 위해 처리된다. 이 정보는 전자 안경류 디바이스의 디스플레이를 통해 저장되거나 사용자에게 텍스트로 표시될 수 있다. 동시에, 마이크들에 의해 캡처된 소리는 사용자 명령을 식별하거나 장면에서 객체들의 관련성을 설정하기 위해 처리될 수 있다. 예를 들어, 캡처된 소리를 처리하여 사용자가 말하고 있는지 또는 방관자가 소리를 내는지 여부를 확인할 수 있다. 또한, 소리를 처리하여 사용자가 카메라가 인식한 것과 같은 장면에서 무언가에 대해 질문하고 있는지 또는 사용자가 장면과 관련된 결과를 요청하고 있는지 또는 관련 없는 결과를 요청하고 있는지 판단할 수도 있다. 시각 및 소리 스트림들이 모두 처리되어 사용자의 의도를 결정한 후, 가장 관련성이 높은 검색 결과들이 사용자에게 전달될 수 있다.
[0022] 사용자가 스캔된 장면에 대한 증강 현실 특징부를 선택하기 위해 전자 안경류 디바이스를 사용하여 장면을 스캔하도록 선택하면, 전자 안경류 디바이스는 사용자가 보고 있는 것의 이미지를 캡처할 수 있고, 또한 전자 안경류 디바이스의 사용자 입 주변에 위치한 마이크들로 음성 명령들을 캡처할 수 있다. 음성 명령들은 사용자의 의도와 사용자의 의도에 부합하는 검색 결과 유형을 결정하기 위해 캡처된 이미지로부터의 맥락 정보로 증강될 수 있다. 따라서, 전자 안경류 디바이스는, 음성 명령과 일치하고 사용자가 전자 안경류 디바이스에서 보고 있는 이미지에 의해 맥락화되는 증강 현실 특징부 선택을 제공할 수 있다.
[0023] 따라서, 본 개시는 음성에 의해 개시된 장면의 스캔을 사용하거나 전자 안경류 디바이스의 사용자로부터 키워드들을 식별하여 전자 안경류 디바이스의 디스플레이에 표시하기 위한 증강 현실 특징부들을 선택하기 위한 시스템 및 방법에 관한 것이다. 전자 안경류 디바이스의 카메라가 스캔 이미지를 캡처하고 스캔 이미지를 처리하여 맥락 신호들을 추출한다. 동시에, 사용자로부터 음성 데이터를 캡처하고, 캡처된 음성 데이터의 음성-텍스트 변환이 수행되어 음성 데이터의 키워드들을 식별한다. 그런 다음 추출된 맥락 신호들과 식별된 키워드들을 사용하여 추출된 맥락 신호들 및 식별된 키워드들과 일치하는 적어도 하나의 증강 현실 특징부를 선택하고, 선택된 증강 현실 특징부는 디스플레이에 제시되어 사용자가 선택할 수 있도록 한다. 따라서, 맥락 정보는 전자 안경류 디바이스에 의해 캡처된 스캔 이미지의 맥락에 가장 적합한 증강 현실 특징부를 제공하기 위해 검색 결과들을 개선한다.
[0024] 이하의 상세한 설명은 본 개시에 제시된 예들을 예시하는 시스템들, 방법들, 기술들, 명령 시퀀스들 및 컴퓨터 프로그램 제품들을 포함한다. 개시된 주제 및 주제와 관련된 교시내용들에 대한 완전한 이해를 제공하기 위한 목적으로 수많은 세부 사항들 및 예들이 포함된다. 그러나 관련 기술의 당업자들은 이러한 세부 사항들 없이도 관련 교시내용들을 적용하는 방법을 이해할 수 있다. 관련 교시내용들은 다양한 방식들로 적용되거나 실행될 수 있기 때문에, 개시된 주제의 양태들은 설명된 특정 디바이스들, 시스템들 및 방법들에 한정되지 않는다. 본 명세서에 사용된 용어 및 명명법은 특정 양태들을 설명하기 위한 목적일 뿐이며, 이를 제한하기 위한 것이 아니다. 일반적으로, 잘 알려진 명령 인스턴스들, 프로토콜들, 구조들 및 기술들은 반드시 상세하게 제시되지 않는다.
[0025] 본 명세서에서 사용되는 바와 같은 "연결하다", "연결되는", "결합하다" 및 "결합되는"이라는 용어는 하나의 시스템 요소에 의해 생성되거나 공급되는 전기적 또는 자기적 신호들이 다른 결합되거나 연결된 시스템 요소에 부여되는 링크 등을 포함하는 임의의 논리적, 광학적, 물리적 또는 전기적 연결을 지칭한다. 달리 설명되지 않는 한, 결합되거나 연결된 요소들 또는 디바이스들은 반드시 서로 직접적으로 연결될 필요는 없으며 중간 구성요소들, 요소들 또는 연통 매체들에 의해 분리될 수 있으며, 중간 구성요소들, 요소들 또는 연통 매체들 중 하나 이상은 전기 신호들을 수정, 조작 또는 전달할 수 있다. "상에(on)"라는 용어는 요소에 의해 직접적으로 지지되거나, 요소에 통합되거나 요소에 의해 지지되는 다른 요소를 통해 요소에 의해 간접적으로 지지되는 것을 의미한다.
[0026] 예들의 추가적인 목적들, 장점들 및 새로운 특징들은 이하의 설명에 부분적으로 제시될 것이고, 부분적으로는 이하 및 첨부된 도면들을 검토함으로써 당업자들에게 명백해지거나, 예들의 생산 또는 작동에 의해 학습될 수 있을 것이다. 본 주제의 목적들 및 장점들은 첨부된 청구항들에 구체적으로 지적된 방법론들, 수단들 및 조합들에 의해 실현 및 달성될 수 있다.
[0027] 도면들 중 임의의 도면에 도시된 바와 같은 안구 스캐너 및 카메라를 통합하는 전자 안경류 디바이스, 연관된 구성요소들 및 임의의 완전한 디바이스들의 배향들은 예시 및 논의 목적들로만 오직 예로서 제공된다. 특정 가변 광학 프로세싱 애플리케이션을 위해 작동할 때, 전자 안경류 디바이스는 전자 안경류 디바이스의 특정 애플리케이션에 적합한 임의의 다른 방향, 예를 들어, 위, 아래, 옆 또는 임의의 다른 배향으로 배향될 수 있다. 또한, 본 명세서에서 사용되는 범위 내에서, 전방, 후방, 내측, 외측, 지향, 좌측, 우측, 측면, 종방향, 상하, 상부, 하부, 최상부, 저부 및 측과 같은 임의의 방향성 용어는 단지 예시로서만 사용되며, 본 명세서에 달리 설명되는 바와 같이 구성된 임의의 광학기 또는 광학기의 구성요소의 방향 또는 배향을 제한하는 것은 아니다.
[0028] 이제 첨부된 도면들에 예시되고 아래에서 논의되는 예들을 상세히 참고한다. 도 1 내지 도 11을 참조하여 맥락별 시각 및 음성 검색 특징부들을 갖춘 샘플 전자 안경류 디바이스에 대해 설명한다.
[0029] 도 1a는 이미지 디스플레이(180D)(도 2a)를 갖는 우측 광학 조립체(180B)를 포함하는 전자 안경류 디바이스(100)의 예시적인 하드웨어 구성의 측면도를 예시한다. 전자 안경류 디바이스(100)는 스테레오 카메라를 형성하는 다수의 가시광 카메라들(114A-B)(도 5)을 포함하며, 그 중 우측 가시광 카메라(114B)는 우측 템플(110B) 상에 위치하며, 좌측 가시광 카메라(114A)는 좌측 템플(110A) 상에 위치한다.
[0030] 좌측 및 우측 가시광 카메라들(114A-B)은 가시광 범위의 파장에 민감한 이미지 센서를 포함할 수 있다. 가시광 카메라들(114A-B)은 각각 정면을 향한 서로 다른 커버리지 각도를 갖는데, 예를 들어, 가시광 카메라(114B)는 묘사된 커버리지 각도(111B)를 갖는다. 커버리지 각도는 가시광 카메라(114A-B)의 이미지 센서가 전자기 복사를 포착하여 이미지들을 생성하는 각도 범위이다. 이러한 가시광 카메라(114A-B)의 예들에는 고해상도 상보형 금속 산화막 반도체(CMOS) 이미지 센서 및 640 p(예를 들어, 총 0.3 메가픽셀용 640 x 480 픽셀들), 720 p 또는 1080 p와 같은 비디오 그래픽 어레이(VGA) 카메라가 포함된다. 가시광 카메라들(114A-B)로부터의 이미지 센서 데이터는 지리적 위치 데이터와 함께 캡처되고, 이미지 프로세서에 의해 디지털화되어, 메모리에 저장될 수 있다.
[0031] 입체 영상을 제공하기 위해, 가시광 카메라들(114A-B)은 장면의 이미지가 캡처되는 타임스탬프와 함께 디지털 프로세싱을 위한 이미지 프로세서(도 6의 요소(612))에 결합될 수 있다. 이미지 프로세서(612)는, 가시광 카메라(114A-B)로부터 신호들을 수신하고 가시광 카메라들(114A-B)로부터의 이들 신호들을 메모리(도 6의 요소(634))에 저장하기에 적합한 포맷으로 처리하는 회로를 포함할 수 있다. 타임스탬프는 가시광 카메라들(114A-B)의 작동을 제어하는 이미지 프로세서(612) 또는 다른 프로세서에 의해 추가될 수 있다. 가시광 카메라들(114A-B)은 스테레오 카메라가 인간의 양안 시력을 시뮬레이션할 수 있도록 한다. 스테레오 카메라들은 또한 각각 동일한 타임스탬프를 갖는 가시광 카메라들(114A-B)로부터 캡처된 2 개의 이미지들(도 5의 요소들(558A-B))에 기초하여 3 차원 이미지들(도 5의 이미지(515))을 재생할 수 있는 기능을 제공한다. 이러한 3 차원 이미지들(515)은 몰입감 있는 실제 경험, 예를 들어 가상 현실 또는 비디오 게임을 가능하게 한다. 입체 영상의 경우, 이미지들(558A-B)의 쌍은 주어진 순간에 좌측 및 우측 가시광 카메라들(114A-B) 각각에 대해 하나의 이미지로 생성될 수 있다. 좌측 및 우측 가시광 카메라들(114A-B)의 전방 지향 시야(FOV)(111A-B)로부터 생성된 이미지들(558A-B)의 쌍이 (예를 들어, 이미지 프로세서(612)에 의해) 함께 스티칭될 때, 광학 조립체(180A-B)에 의해 깊이 인식이 제공된다.
[0032] 일 예에서, 전자 안경류 디바이스(100)는 프레임(105), 우측 림(107B), 프레임(105)의 우측 측면 측(170B)으로부터 연장되는 우측 템플(110B) 및 사용자에게 그래픽 사용자 인터페이스를 제시하기 위해 광학 조립체(180B)를 포함하는 시스루 이미지 디스플레이(180D)(도 2a 내지 도 2b)를 포함한다. 전자 안경류 디바이스(100)는 장면의 제1 이미지를 캡처하기 위해 프레임(105) 또는 좌측 템플(110A)에 연결된 좌측 가시광 카메라(114A)를 포함한다. 전자 안경류 디바이스(100)는 제1 이미지와 부분적으로 중첩되는 장면의 제2 이미지를 (예를 들어, 좌측 가시광 카메라(114A)와 동시에) 캡처하기 위해 프레임(105) 또는 우측 템플(110B)에 연결된 우측 가시광 카메라(114B)를 더 포함한다. 도 1a 내지 도 1b에는 도시되지 않았지만, 프로세서(632)(도 6)는 전자 안경류 디바이스(100)에 결합되고 가시광 카메라들(114A-B)에 연결되며, 프로세서(632)에 액세스 가능한 메모리(634)(도 6) 및 메모리(634) 내 프로그래밍은 전자 안경류 디바이스(100) 자체에 제공될 수 있다.
[0033] 도 1a에는 도시되지 않았지만, 전자 안경류 디바이스(100)는 또한 머리 움직임 추적기(도 1b의 요소(109)) 또는 안구 움직임 추적기(도 2a의 요소(113) 또는 도 2b 내지 도 2c의 요소(213))를 포함할 수 있다. 전자 안경류 디바이스(100)는, 각각 디스플레이된 이미지들의 시퀀스를 제시하기 위한 광학 조립체(180A-B)의 시스루 이미지 디스플레이들(180C-D) 및 디스플레이된 이미지들(515)의 시퀀스를 제시하기 위해 광학 조립체(180A-B)의 시스루 이미지 디스플레이들(180C-D)에 결합되어 광학 조립체(180A-B)의 이미지 디스플레이들(180C-D)을 제어하는 이미지 디스플레이 드라이버(도 6의 요소(642))를 더 포함할 수 있으며, 이들에 대해서는 추가로 후술된다. 전자 안경류 디바이스(100)는 메모리(634) 및 이미지 디스플레이 드라이버(642) 및 메모리(634)에 액세스하는 프로세서(632)뿐만 아니라 메모리(634) 내의 프로그래밍을 더 포함할 수 있다. 프로세서(632)에 의한 프로그래밍의 실행은 시스루 이미지 디스플레이들(180C-D)을 통해, 디스플레이된 이미지들의 시퀀스의 초기 디스플레이된 이미지, 초기 머리 방향 또는 초기 시선 방향에 대응하는 초기 시야를 갖는 초기 디스플레이된 이미지를 제시하는 기능들을 포함하는 기능들을 수행하도록 전자 안경류 디바이스(100)를 구성한다.
[0034] 프로세서(632)에 의한 프로그래밍의 실행은 추가로, (ⅰ) 머리 움직임 추적기(도 1b의 요소(109))를 통해, 사용자 머리의 머리 움직임을 추적하거나, 또는 (ⅱ) 안구 움직임 추적기(도 2a의 요소(113) 또는 도 2b 내지 도 2c의 요소(213))를 통해, 전자 안경류 디바이스(100)의 사용자 눈의 안구 움직임을 추적함으로써 전자 안경류 디바이스(100) 사용자의 움직임을 검출하도록 전자 안경류 디바이스(100)를 구성할 수 있다. 프로세서(632)에 의한 프로그래밍의 실행은 추가로 사용자의 검출된 움직임에 기초하여 초기 디스플레이된 이미지의 초기 시야에 대한 시야 조정을 결정하도록 전자 안경류 디바이스(100)를 구성할 수 있다. 시야 조정은 연속적인 머리 방향 또는 연속적인 눈의 방향에 대응하는 연속적인 시야를 포함할 수 있다. 프로세서(632)에 의한 프로그래밍의 실행은 추가로 시야 조정에 기초하여 디스플레이된 이미지들의 시퀀스의 연속적인 디스플레이된 이미지를 생성하도록 전자 안경류 디바이스(100)를 구성할 수 있다. 프로세서(632)에 의한 프로그래밍의 실행은 추가로 광학 조립체(180A-B)의 시스루 이미지 디스플레이들(180C-D)을 통해 연속적으로 디스플레이된 이미지들을 제시하도록 전자 안경류 디바이스(100)를 구성한다.
[0035] 도 1b는 우측 가시광 카메라(114B), 머리 움직임 추적기(109) 및 회로 기판(140)을 묘사하는 도 1a의 전자 안경류 디바이스(100)의 템플의 최상부 단면도를 예시한다. 좌측 가시광 카메라(114A)의 구성 및 배치는 연결부들 및 결합이 좌측 측면 측(170A)(도 2a)에 있다는 점을 제외하고는 우측 가시광 카메라(114B)와 실질적으로 유사하다. 도시된 바와 같이, 전자 안경류 디바이스(100)는 우측 가시광 카메라(114B) 및 연성 인쇄 회로 기판(PCB)(140)일 수 있는 회로 기판을 포함한다. 우측 힌지(126B)는 우측 템플(110B)을 전자 안경류 디바이스(100)의 힌지 암(125B)에 연결한다. 일부 예들에서, 우측 가시광 카메라(114B), 연성 PCB(140) 또는 다른 전기 커넥터들 또는 접점들의 구성요소들은 우측 템플(110B) 또는 우측 힌지(126B)에 위치할 수 있다.
[0036] 도시된 바와 같이, 전자 안경류 디바이스(100)는 머리 움직임 추적기(109)를 포함할 수 있으며, 머리 움직임 추적기(109)는 예를 들어 관성 측정 유닛(IMU)을 포함한다. 관성 측정 유닛은 가속도계들 및 자이로스코프들, 때로는 자력계들도 포함한 조합을 사용하여 신체의 특정 힘, 각도 속도, 그리고 때로는 신체를 둘러싼 자기장을 측정하고 보고하는 전자 디바이스이다. 관성 측정 유닛은 하나 이상의 가속도계들을 사용하여 선형 가속도를 검출하고, 하나 이상의 자이로스코프들을 사용하여 회전 속도를 검출하는 방식으로 작동한다. 관성 측정 유닛들의 전형적인 구성들은 좌-우 움직임에 대한 수평축(X), 최상부-저부 움직임에 대한 수직축(Y), 상-하 움직임에 대한 깊이 또는 거리축(Z)의 세 축들 각각에 대해 축마다 가속도계, 자이로, 자력계가 하나씩 포함된다. 가속도계는 중력 벡터를 검출한다. 자력계는 방향 기준을 생성하는 나침반과 같이 자기장의 회전(예를 들어, 남쪽, 북쪽 등)을 정의한다. 3 개의 가속도계들은 위에서 정의된 수평축, 수직축 및 깊이축을 따라 가속도를 검출하며, 이는 지면, 전자 안경류 디바이스(100) 또는 전자 안경류 디바이스(100)를 착용하는 사용자를 기준으로 정의될 수 있다.
[0037] 전자 안경류 디바이스(100)는 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적함으로써 전자 안경류 디바이스(100) 사용자의 움직임을 검출할 수 있다. 머리 움직임은 이미지 디스플레이 상에 초기 디스플레이된 이미지가 제시되는 동안 초기 머리 방향으로부터 수평축, 수직축 또는 이들의 조합에 따른 머리 방향의 변화를 포함한다. 일 예에서, 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것은 관성 측정 유닛(109)을 통해 수평축(예를 들어, X 축), 수직축(예를 들어, Y 축) 또는 이들의 조합(예를 들어, 가로 또는 대각선 움직임) 상에서의 초기 머리 방향을 측정하는 것을 포함한다. 머리 움직임 추적기(109)를 통해, 사용자 머리의 머리 움직임을 추적하는 것은 관성 측정 유닛(109)을 통해 초기 디스플레이된 이미지가 제시되는 동안 수평축, 수직축 또는 이들의 조합 상에서의 연속적인 머리 방향을 측정하는 것을 더 포함한다.
[0038] 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것은, 초기 머리 방향 및 연속적인 머리 방향 모두에 기초하여 머리 방향의 변화를 결정하는 것을 더 포함할 수 있다. 전자 안경류 디바이스(100) 사용자의 움직임을 검출하는 것은, 머리 움직임 추적기(109)를 통해 사용자 머리의 머리 움직임을 추적하는 것에 대응하여, 머리 방향의 변화가 수평축, 수직축 또는 이들의 조합 상에서 편차 각도 임계값을 초과하는 지를 결정하는 것을 더 포함할 수 있다. 샘플 구성들에 있어서, 편차 각도 임계값은 약 3°내지 10°이다. 본 명세서에서 사용되는 바와 같이, 각도를 지칭할 때 "약(about)"이라는 용어는 명시된 수량으로부터 ± 10 %를 의미한다.
[0039] 수평축을 따른 변화는 예를 들어, 3 차원 객체의 가시성을 숨기거나, 숨기지 않거나, 또는 다른 방식으로 조정함으로써, 캐릭터들, 비트모지들, 애플리케이션 아이콘들 등과 같은 3 차원 객체들을 시야 안팎으로 슬라이드한다. 예를 들어 사용자가 위쪽을 바라볼 때 수직축을 따른 변화는, 일 예에서는 날씨 정보, 시간, 날짜, 캘린더 약속들 등을 디스플레이한다. 다른 예에서, 사용자가 수직축을 따라 아래쪽을 바라볼 때, 전자 안경류 디바이스(100)의 전원이 꺼질 수 있다.
[0040] 도 1b에 도시된 바와 같이, 우측 템플(110B)은 템플 본체(211) 및 템플 캡을 포함하며, 도 1b의 단면에서는 템플 캡이 생략되어 있다. 우측 템플(110B) 내부에 배치된 다양한 상호연결 회로 기판들, 예를 들어, PCB들 또는 연성 PCB들(140)은 우측 가시광 카메라(114B), 마이크(들)(130), 스피커(들)(132), 저전력 무선 회로(예를 들어, 블루투스®를 통한 무선 근거리 네트워크 통신용) 및 고속 무선 회로(예를 들어, 와이파이®를 통한 무선 로컬 영역 네트워크 통신용)에 대한 제어기 회로들을 포함한다.
[0041] 우측 가시광 카메라(114B)는 연성 PCB(140) 상에 결합되거나 배치되고, 우측 템플(110B)에 형성된 개구부(들)를 통해 조준되는 가시광 카메라 커버 렌즈에 의해 커버된다. 일부 예들에서, 우측 템플(110B)에 연결된 프레임(105)은 가시광 카메라 커버 렌즈용 개구부(들)를 포함한다. 프레임(105)은 사용자의 눈으로부터 외측을 향하도록 구성된 전방 지향 측을 포함할 수 있다. 가시광 카메라 커버 렌즈용 개구부는 전방 지향 측 상에서 이를 관통하여 형성될 수 있다. 예에서, 우측 가시광 카메라(114B)는 전자 안경류 디바이스(100) 사용자의 우측 눈의 시선 또는 관점에 대해 외측을 향하는 커버리지 각도(111B)를 갖는다. 가시광 카메라 커버 렌즈는 또한 외측을 향하는 커버리지 각도를 갖는 개구부가 형성되는 우측 템플(110B)의 외측 지향 표면에 부착될 수 있지만, 서로 다른 외측 방향으로 부착될 수 있다. 결합은 중간 구성요소들을 통해 간접적으로 이루어질 수도 있다.
[0042] 좌측(제1) 가시광 카메라(114A)는 좌측 광학 조립체(180A)의 좌측 시스루 이미지 디스플레이(180C)에 연결되어, 제1 연속적으로 디스플레이된 이미지의 제1 배경 장면을 생성할 수 있다. 우측(제2) 가시광 카메라(114B)는 우측 광학 조립체(180B)의 우측 시스루 이미지 디스플레이(180D)에 연결되어 제2 연속적으로 디스플레이된 이미지의 제2 배경 장면을 생성할 수 있다. 제1 배경 장면 및 제2 배경 장면은 부분적으로 중첩되어 연속적으로 디스플레이된 이미지의 3 차원 관찰 가능 영역을 제시할 수 있다.
[0043] 연성 PCB(140)는 우측 템플(110B) 내부에 배치될 수 있고, 우측 템플(110B)에 수용된 하나 이상의 다른 구성요소들에 결합될 수 있다. 우측 템플(110B)의 회로 기판들(140) 상에 형성되는 것으로 도시되어 있지만, 우측 가시광 카메라(114B)는 좌측 템플(110A), 힌지 암들(125A-B) 또는 프레임(105)의 회로 기판들(140) 상에 형성될 수 있다.
[0044] 도 2a는 전자 안경류 디바이스(100)의 일 예의 하드웨어 구성의 배면도를 예시한다. 도 2a에 도시된 바와 같이, 전자 안경류 디바이스(100)는 사용자가 착용하도록 구성된 형태이며, 도 2a의 예에서는 안경이다. 전자 안경류 디바이스(100)는 다른 형태들을 취할 수 있는데, 예를 들어, 헤드기어, 헤드셋 또는 헬멧과 같은 다른 유형들의 프레임워크들을 통합할 수 있다.
[0045] 안경 예에서, 전자 안경류 디바이스(100)는 사용자의 코에 맞게 조정된 브리지(106)를 통해 우측 림(107B)에 연결된 좌측 림(107A)을 포함하는 프레임(105)을 포함한다. 좌측 및 우측 림들(107A-B)은 렌즈 및 시스루 디스플레이들(180C-D)과 같은 개개의 광학 요소(180A-B)를 보유지지하는 개개의 애퍼처들(175A-B)을 포함한다. 본 명세서에서 사용되는 바와 같이, 렌즈라는 용어는 광이 수렴/발산을 일으키거나 또는 수렴/발산을 거의 또는 전혀 일으키지 않는 곡면 및 평평한 표면들을 갖는 유리 또는 플라스틱의 투명 또는 반투명 부재들을 포함하고자 하는 의도를 갖는다.
[0046] 비록 2 개의 광학 요소들(180A-B)을 갖는 것으로 도시되어 있지만, 전자 안경류 디바이스(100)는 전자 안경류 디바이스(100)의 적용예 또는 의도된 사용자에 따라 단일 광학 요소와 같은 다른 배열체들을 포함할 수 있다. 추가로 도시된 바와 같이, 전자 안경류 디바이스(100)는 프레임(105)의 좌측 측면 측(170A)에 인접한 좌측 템플(110A) 및 프레임(105)의 우측 측면 측(170B)에 인접한 우측 템플(110B)을 포함한다. 템플들(110A-B)은 개개의 측면들(170A-B) 상의 프레임(105)에 통합(예시된 바와 같음)되거나, 또는 개개의 측면들(170A-B)의 프레임(105)에 부착된 별도의 구성요소들로 구현될 수 있다. 대안적으로, 템플들(110A-B)은 프레임(105)에 부착된 힌지 암들(125A-B)에 통합될 수 있다.
[0047] 도 2a의 예에서, 적외선 방출기(115) 및 적외선 카메라(120)를 포함하는 안구 스캐너(113)가 제공될 수 있다. 가시광 카메라들은 전형적으로 적외선 검출을 차단하기 위한 청색 광 필터를 포함한다. 일 예에서, 적외선 카메라(120)는 청색 필터가 제거된 저해상도 비디오 그래픽 어레이(VGA) 카메라(예를 들어, 총 0.3 메가픽셀용 640 x 480 픽셀들)와 같은 가시광 카메라이다. 적외선 방출기(115) 및 적외선 카메라(120)는 프레임(105) 상에 공동 위치될 수 있다. 예를 들어, 둘 다 좌측 림(107A)의 상부 부분에 연결된 것으로 도시된다. 프레임(105) 또는 좌측 및 우측 템플들(110A-B) 중 하나 이상은 적외선 방출기(115) 및 적외선 카메라(120)를 포함하는 회로 기판(도시되지 않음)을 포함할 수 있다. 적외선 방출기(115) 및 적외선 카메라(120)는 예를 들어, 납땜에 의해 회로 기판에 연결될 수 있다.
[0048] 적외선 방출기(115) 및 적외선 카메라(120)가 모두 우측 림(107B) 상에 있거나, 프레임(105) 상의 서로 다른 위치들에 있는 배열들을 포함하여 적외선 방출기(115) 및 적외선 카메라(120)의 다른 배열들이 구현될 수 있다. 예를 들어, 적외선 방출기(115)가 좌측 림(107A) 상에 있을 수 있고, 적외선 카메라(120)가 우측 림(107B) 상에 있을 수 있다. 다른 예에서, 적외선 방출기(115)는 프레임(105) 상에 있을 수 있고, 적외선 카메라(120)는 템플들(110A-B) 중 하나에 있을 수 있으며, 그 반대의 경우도 가능하다. 적외선 방출기(115)는 본질적으로 프레임(105), 좌측 템플(110A) 또는 우측 템플(110B) 상의 임의의 위치에 연결되어 적외선 광의 패턴을 방출할 수 있다. 마찬가지로, 적외선 카메라(120)는 본질적으로 방출된 적외선 광의 패턴에서 적어도 하나의 반사 변화를 캡처하기 위해 프레임(105), 좌측 템플(110A) 또는 우측 템플(110B) 상의 임의의 위치에 연결될 수 있다.
[0049] 적외선 방출기(115) 및 적외선 카메라(120)는 개개의 눈 포지션 및 시선 방향을 식별하기 위해, 눈의 일부 또는 전체 시야로 사용자의 눈을 향해 내측을 향하도록 배열될 수 있다. 예를 들어, 적외선 방출기(115) 및 적외선 카메라(120)는 눈 바로 앞, 프레임(105)의 상부 또는 프레임(105)의 양쪽 단부들에 있는 템플들(110A-B)에 포지셔닝될 수 있다.
[0050] 도 2b는 다른 전자 안경류 디바이스(200)의 예시적인 하드웨어 구성의 배면도를 예시한다. 이 예시적인 구성에서, 전자 안경류 디바이스(200)는 우측 템플(210B) 상에 안구 스캐너(213)를 포함하는 것으로 묘사되어 있다. 도시된 바와 같이, 적외선 방출기(215) 및 적외선 카메라(220)가 우측 템플(210B) 상에 공동 위치된다. 안구 스캐너(213) 또는 안구 스캐너(213)의 하나 이상의 구성요소들은 좌측 템플(210A) 상에, 그리고 전자 안경류 디바이스(200)의 다른 위치들, 예를 들어 프레임(105) 상에 위치할 수 있다는 것을 이해해야 한다. 적외선 방출기(215) 및 적외선 카메라(220)는 도 2a의 것과 유사하지만, 안구 스캐너(213)는 앞서 도 2a에서 설명한 바와 같이 서로 다른 광 파장들에 민감하도록 변화될 수 있다. 도 2a와 유사하게, 전자 안경류 디바이스(200)는 브리지(106)를 통해 우측 림(107B)에 연결되는 좌측 림(107A)을 포함하는 프레임(105)을 포함한다. 좌측 및 우측 림들(107A-B)은 시스루 디스플레이(180C-D)를 포함하는 개개의 광학 요소들(180A-B)을 보유지지하는 개개의 애퍼처들을 포함할 수 있다.
[0051] 도 2c 내지 도 2d는 두 가지 서로 다른 유형들의 시스루 이미지 디스플레이들(180C-D)을 포함하는 전자 안경류 디바이스(100)의 예시적인 하드웨어 구성들의 배면도들을 예시한다. 일 예에서, 광학 조립체(180A-B)의 이러한 시스루 이미지 디스플레이들(180C-D)은 통합 이미지 디스플레이를 포함한다. 도 2c에 도시된 바와 같이, 광학 조립체들(180A-B)은 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이, 도파관 디스플레이 또는 임의의 다른 이러한 디스플레이와 같은 임의의 적합한 유형의 적합한 디스플레이 매트릭스(180C-D)를 포함한다.
[0052] 광학 조립체(180A-B)는 또한 렌즈들, 광학 코팅들, 프리즘들, 미러들, 도파관들, 광학 스트립들 및 임의의 조합의 다른 광학 구성요소들을 포함할 수 있는 광학 층 또는 층들(176)을 포함한다. 광학 층들(176A-N)은, 적절한 크기 및 구성을 갖고 디스플레이 매트릭스로부터 광을 수신하기 위한 제1 표면 및 사용자의 눈으로 광을 방출하기 위한 제2 표면을 포함하는 프리즘을 포함할 수 있다. 광학 층들(176A-N)의 프리즘은 사용자의 눈이 대응하는 좌측 및 우측 림들(107A-B)을 통해 볼 때 사용자가 프리즘의 제2 표면을 볼 수 있도록 좌측 및 우측 림들(107A-B)에 형성된 개개의 애퍼처들(175A-B)의 전부 또는 적어도 일부에 걸쳐 연장될 수 있다. 광학 층들(176A-N)의 프리즘의 제1 표면은 프레임(105)으로부터 상부로 향하고, 디스플레이 매트릭스는 프리즘을 덮어 디스플레이 매트릭스에 의해 방출된 광자들 및 광이 제1 표면과 충돌하도록 한다. 프리즘은 광이 프리즘 내에서 굴절되어 광학 층들(176A-N)의 프리즘의 제2 표면에 의해 사용자의 눈을 향하도록 크기 설정 및 형상화될 수 있다. 이와 관련하여, 광학 층들(176A-N)의 프리즘의 제2 표면은 볼록하여 광을 눈의 중앙으로 향하게 할 수 있다. 프리즘은 선택적으로, 시스루 이미지 디스플레이들(180C-D)에 의해 투사된 이미지를 확대하도록 크기 설정 및 형상화될 수 있고, 광은 프리즘을 통과하여 제2 표면에서 보이는 이미지가 시스루 이미지 디스플레이들(180C-D)로부터 방출되는 이미지보다 하나 이상의 치수들에서 더 커지도록 이동한다.
[0053] 다른 예에서, 광학 조립체(180A-B)의 시스루 이미지 디스플레이들(180C-D)은 도 2d에 도시된 바와 같이 투사 이미지 디스플레이를 포함할 수 있다. 광학 조립체(180A-B)는 프로젝터(150)를 포함하는데, 프로젝터는 스캐닝 미러, 검류계, 레이저 프로젝터 또는 다른 유형들의 프로젝터들을 사용하는 3 색 프로젝터일 수 있다. 작동 중에, 프로젝터(150)와 같은 광학 소스는 전자 안경류 디바이스(100)의 템플들(110A-B) 중 하나에 또는 그 위에 배치된다. 광학 조립체(180-B)는 광학 조립체(180A-B)의 렌즈의 폭에 걸쳐 또는 렌즈의 전면 표면과 배면 표면 사이의 렌즈의 깊이에 걸쳐 이격된 하나 이상의 광학 스트립들(155A-N)을 포함할 수 있다.
[0054] 프로젝터(150)에 의해 투사된 광자들이 광학 조립체(180A-B)의 렌즈에 걸쳐 이동함에 따라, 광자들은 광학 스트립들(155A-N)과 마주친다. 특정 광자가 특정 광학 스트립을 만나면, 그 광자는 사용자의 눈 쪽으로 방향이 변경되거나 다음 광학 스트립으로 전달된다. 프로젝터(150)의 변조와 광학 스트립들의 변조의 조합은 특정 광자들 또는 광 빔들을 제어할 수 있다. 일 예로, 프로세서는 기계적, 음향 또는 전자기 신호들을 개시하여 광학 스트립들(155A-N)을 제어한다. 2 개의 광학 조립체들(180A-B)을 갖는 것으로 도시되어 있지만, 전자 안경류 디바이스(100)는 단일 또는 3 개의 광학 조립체들과 같은 다른 배열체들을 포함할 수 있거나, 광학 조립체(180A-B)는 전자 안경류 디바이스(100)의 적용예 또는 의도된 사용자에 따라 서로 다른 배열을 배열하였을 수 있다.
[0055] 도 2c 내지 도 2d에 추가로 도시된 바와 같이, 전자 안경류 디바이스(100)는 프레임(105)의 좌측 측면 측(170A)에 인접한 좌측 템플(110A) 및 프레임(105)의 우측 측면 측(170B)에 인접한 우측 템플(110B)을 포함한다. 템플들(110A-B)은 개개의 측방 측면들(170A-B) 상의 프레임(105)에 통합(예시되는 바와 같음)되거나, 또는 개개의 측면들(170A-B)의 프레임(105)에 부착된 별도의 구성요소들로서 구현될 수 있다. 대안적으로, 템플들(110A-B)은 프레임(105)에 부착된 힌지 암들(125A-B)에 통합될 수 있다.
[0056] 일 예에서, 시스루 이미지 디스플레이들은 제1 시스루 이미지 디스플레이(180C) 및 제2 시스루 이미지 디스플레이(180D)를 포함한다. 전자 안경류 디바이스(100)는 개개의 제1 및 제2 광학 조립체(180A-B)를 보유지지하는 제1 및 제2 애퍼처들(175A-B)을 포함할 수 있다. 제1 광학 조립체(180A)는 제1 시스루 이미지 디스플레이(180C)(예를 들어, 도 2c의 디스플레이 매트릭스 또는 광학 스트립들 및 좌측 템플(110A) 내 프로젝터(도시되지 않음))를 포함할 수 있다. 제2 광학 조립체(180B)는 제2 시스루 이미지 디스플레이(180D)(예를 들어, 도 2c의 디스플레이 매트릭스 또는 광학 스트립들 및 우측 템플(110B) 내 프로젝터(150))를 포함할 수 있다. 연속적으로 디스플레이된 이미지의 연속 시야는 수평으로, 수직으로 또는 대각선으로 측정된 약 15°내지 30°, 보다 구체적으로 24°의 시야각을 포함할 수 있다. 연속적인 시야를 갖는 연속적으로 디스플레이된 이미지는 제1 및 제2 이미지 디스플레이들 상에 제시된 2 개의 디스플레이된 이미지들을 함께 스티칭하여 볼 수 있는 결합된 3 차원 관찰 가능 영역을 나타낸다.
[0057] 본 명세서에서 사용되는 바와 같이, "시야각"은 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D) 각각에 제시된 디스플레이된 이미지들과 연관된 시야의 각도 범위를 나타낸다. "커버리지 각도"는 가시광 카메라들(114A-B) 또는 적외선 카메라(220)의 렌즈가 이미지화할 수 있는 각도 범위를 나타낸다. 전형적으로, 렌즈에 의해 생성되는 이미지 원은 필름 또는 센서를 완전히 덮을 수 있을 정도로 충분히 크며, 가능하게는 일부 비네팅(vignetting)(즉, 이미지 중앙에 비해 주변부로 갈수록 이미지의 밝기 또는 채도가 감소하는 현상)을 포함할 수 있다. 렌즈의 커버리지 각도가 센서를 완전히 채우지 못하면, 전형적으로 에지를 향해 강한 비네팅이 있는 이미지 원이 표시되며 유효 시야각은 커버리지 각도로 제한된다. "시야"는 전자 안경류 디바이스(100)의 사용자가 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D) 상에 제시된 디스플레이된 이미지들을 통해 사용자의 눈들로 볼 수 있는 관찰 가능한 영역의 범위를 설명하기 위한 것이다. 광학 조립체(180A-B)의 이미지 디스플레이(180C)는 15° 내지 30°, 예를 들어 24°의 커버리지 각도를 갖는 시야를 가질 수 있고, 480 x 480 픽셀들의 해상도를 가질 수 있다.
[0058] 도 3은 도 2a의 전자 안경류 디바이스(100)의 배면 사시도를 예시한다. 전자 안경류 디바이스(100)는 적외선 방출기(215), 적외선 카메라(220), 프레임 전면(330), 프레임 배면(335) 및 회로 기판(340)을 포함한다. 도 3을 참조하면, 전자 안경류 디바이스(100)의 프레임의 좌측 림의 상부 부분은 프레임 전면(330) 및 프레임 배면(335)을 포함할 수 있음을 알 수 있다. 프레임 배면(335) 상에는 적외선 방출기(215)를 위한 개구부가 형성되어 있다.
[0059] 프레임의 좌측 림의 상부 중간 부분의 원형 단면(4)에 도시된 바와 같이, 연성 PCB(340)일 수 있는 회로 기판이 프레임 전면(330)과 프레임 배면(335) 사이에 끼워져 있다. 또한, 좌측 힌지(126A)를 통해 좌측 템플(110A)을 좌측 힌지 암(325A)에 부착하는 것이 더 상세하게 도시되어 있다. 일부 예들에서, 적외선 방출기(215), 연성 PCB(340) 또는 다른 전기 커넥터들 또는 접점들을 포함하는 안구 움직임 추적기(213)의 구성요소들은 좌측 힌지 암(325A) 또는 좌측 힌지(126A) 상에 위치할 수 있다.
[0060] 도 4는 도 3의 전자 안경류 디바이스(100)의 원형 단면(4)에 대응하는 프레임 및 적외선 방출기(215)로부터 취해진 단면도이다. 도 4의 단면에는 전자 안경류 디바이스(100)의 다수의 층들이 예시되어 있다. 도시된 바와 같이, 프레임은 프레임 전면(330) 및 프레임 배면(335)을 포함한다. 연성 PCB(340)는 프레임 전면(330) 상에 배치되고 프레임 배면(335)에 연결된다. 적외선 방출기(215)는 연성 PCB(340) 상에 배치되고 적외선 방출기 커버 렌즈(445)에 의해 커버된다. 예를 들어, 적외선 방출기(215)는 연성 PCB(340)의 배면으로 리플로우될 수 있다. 리플로우링은 두 구성요소들을 연결하기 위해 솔더 페이스트를 녹이는 제어된 열에 연성 PCB(340)를 노출시킴으로써 적외선 방출기(215)를 연성 PCB(340)의 배면 상에 형성된 접촉 패드(들)에 부착시킨다. 일 예에서, 리플로우링은 적외선 방출기(215)를 연성 PCB(340) 상에 표면 장착하고 두 구성요소들을 전기적으로 연결하는 데 사용된다. 그러나, 예를 들어, 적외선 방출기(215)로부터의 리드들을 상호연결부들을 통해 연성 PCB(340)에 연결하기 위해 관통 구멍들이 사용될 수 있다는 것을 이해해야 한다.
[0061] 프레임 배면(335)은 적외선 방출기 커버 렌즈(445)용 적외선 방출기 개구부(450)를 포함할 수 있다. 적외선 방출기 개구부(450)는 프레임 배면(335)의 후방 지향 측 상에 형성되며, 이는 사용자 눈을 향해 내측을 향하도록 구성된다. 예에서, 연성 PCB(340)는 연성 PCB 접착제(460)를 통해 프레임 전면(330)에 연결될 수 있다. 적외선 방출기 커버 렌즈(445)는 적외선 방출기 커버 렌즈 접착제(455)를 통해 프레임 배면(335)에 연결될 수 있다. 결합은 또한 중간 구성요소들을 통해 간접적으로 이루어질 수도 있다.
[0062] 도 5은 카메라들(114A-B)로 가시광을 캡처하는 일 예를 예시한다. 가시광은 원형 시야(FOV)(111A)를 갖는 좌측 가시광 카메라(114A)에 의해 캡처된다. 선택된 직사각형의 좌측 원시 이미지(558A)는 이미지 프로세서(612)(도 6)에 의한 이미지 프로세싱에 사용된다. 가시광은 또한 원형 FOV(111B)를 갖는 우측 가시광 카메라(114B)에 의해 캡처된다. 이미지 프로세서(612)에 의해 선택된 직사각형의 우측 원시 이미지(558B)는 프로세서(612)에 의한 이미지 프로세싱에 사용된다. 중첩 시야(513)를 갖는 좌측 원시 이미지(558A) 및 우측 원시 이미지(558B)의 프로세싱에 기초하여, 이하 몰입 이미지로 지칭되는 3 차원 장면의 3 차원 이미지(515)가 프로세서(612)에 의해 생성되고 디스플레이들(180C 및 180D)에 의해 디스플레이되며, 사용자가 볼 수 있게 된다.
[0063] 도 6은 전자 안경류 디바이스(100 또는 200)에 배열된 예시적인 전자 구성요소들을 포함하는 고수준의 기능 블록도를 예시한다. 예시된 전자 구성요소들은 프로세서(632), 메모리(634) 및 시스루 이미지 디스플레이(180C 및 180D)를 포함한다.
[0064] 메모리(634)는 이미지(515)에서의 제어를 위한 프로세서(632)의 명령들을 포함하여, 전자 안경류 디바이스들(100 및 200)의 기능을 구현하기 위한 프로세서(632)에 의한 실행 명령들을 포함한다. 프로세서(632)는 배터리(650)로부터 전력을 공급받고, 메모리(634)에 저장되거나 프로세서(632)에 온칩으로 통합된 명령들을 실행하여 전자 안경류 디바이스들(100 및 200)의 기능을 수행하고, 무선 연결들을 통해 외부 디바이스들과 통신을 수행한다.
[0065] 전자 안경류 디바이스들(100 및 200)은 안구 움직임 추적기(645)(예를 들어, 도 2b에서 적외선 방출기(215) 및 적외선 카메라(220)로서 도시됨)를 통합할 수 있고, 다양한 네트워크들을 통해 연결된 모바일 디바이스(690) 및 서버 시스템(698)을 통해 사용자 인터페이스 조정들을 제공할 수 있다. 모바일 디바이스(690)는 스마트폰, 태블릿, 랩톱 컴퓨터, 액세스 포인트, 또는 저전력 무선 연결부(625) 및 고속 무선 연결부(637)를 모두 사용하여 전자 안경류 디바이스들(100 또는 200)과 연결할 수 있는 임의의 다른 디바이스일 수 있다. 모바일 디바이스(690)는 추가로 네트워크(695)를 통해 서버 시스템(698)에 연결된다. 네트워크(695)는 유선 및 무선 연결들의 임의의 조합을 포함할 수 있다.
[0066] 전자 안경류 디바이스들(100 및 200)는 적어도 2 개의 가시광 카메라들(114A-B)(하나는 좌측 측면 측(170A)과 연관되고, 하나는 우측 측면 측(170B)과 연관됨)을 포함할 수 있다. 전자 안경류 디바이스(100 및 200)는 광학 조립체(180A-B)의 2 개의 시스루 이미지 디스플레이들(180C-D)(하나는 좌측 측면 측(170A)과 연관되고, 하나는 우측 측면 측(170B)과 연관됨)을 더 포함한다. 전자 안경류 디바이스(100 및 200)는 또한 이미지 디스플레이 드라이버(642), 이미지 프로세서(612), 저전력 회로(620) 및 고속 회로(630)를 포함한다. 도 6에 도시된 전자 안경류 디바이스들(100 및 200)에 대한 구성요소들은 템플들 내의 하나 이상의 회로 기판들, 예를 들어, PCB 또는 연성 PCB(140) 상에 위치한다. 대안적으로 또는 추가적으로, 묘사된 구성요소들은 전자 안경류 디바이스들(100 및 200)의 템플들, 프레임들, 힌지들, 힌지 암들 또는 브리지에 위치할 수 있다. 좌측 및 우측 가시광 카메라들(114A-B)은 상보성 금속 산화물 반도체(CMOS) 이미지 센서, 전하 결합 디바이스, 렌즈 또는 미지의 객체들이 있는 장면들의 이미지들을 포함하여 데이터를 캡처하는 데 사용될 수 있는 임의의 다른 개개의 가시 또는 광 캡처 요소들과 같은 디지털 카메라 요소들을 포함할 수 있다.
[0067] 안구 움직임 추적 프로그래밍(645)은 전자 안경류 디바이스들(100 또는 200)이 안구 움직임 추적기(213)를 통해 전자 안경류 디바이스들(100 또는 200)의 사용자 눈의 눈 움직임을 추적하도록 하는 명령들을 포함하여, 사용자 인터페이스 시야 조정 명령들을 구현한다. 다른 구현된 명령들(기능들)은 전자 안경류 디바이스들(100 및 200)이 연속적인 눈 방향에 대응하는 사용자의 검출된 눈의 움직임에 기초하여 초기 FOV(111A-B)에 대한 FOV 조정을 결정하게 한다. 추가로 구현된 명령들은 시야 조정에 기초하여 일련의 디스플레이된 이미지들의 연속적인 디스플레이된 이미지를 생성한다. 연속적으로 디스플레이된 이미지는 사용자 인터페이스를 통해 사용자에게 가시적 출력으로서 생성된다. 이러한 가시적 출력은 광학 조립체(180A-B)의 시스루 이미지 디스플레이들(180C-D) 상에 나타나며, 이미지 디스플레이 드라이버(642)에 의해 구동되어 초기 시야를 갖는 초기 디스플레이된 이미지 및 연속 시야를 갖는 연속 디스플레이된 이미지를 포함하는 디스플레이된 이미지들의 시퀀스를 제시한다.
[0068] 도 6에 도시된 바와 같이, 고속 회로(630)는 고속 프로세서(632), 메모리(634) 및 고속 무선 회로(636)를 포함한다. 예에서, 이미지 디스플레이 드라이버(642)는 고속 회로(630)에 결합되고 고속 프로세서(632)에 의해 작동되어 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)을 구동한다. 고속 프로세서(632)는 전자 안경류 디바이스(100 또는 200)에 필요한 임의의 일반 컴퓨팅 시스템의 고속 통신들 및 작동을 관리할 수 있는 임의의 프로세서일 수 있다. 고속 프로세서(632)는 고속 무선 회로(636)를 사용하여 고속 무선 연결부(637) 상에서 무선 로컬 영역 네트워크(WLAN)로의 고속 데이터 전송을 관리하는 데 필요한 프로세싱 리소스들을 포함한다. 특정 예들에서, 고속 프로세서(632)는 리눅스 운영 체제 또는 전자 안경류 디바이스(100 또는 200)의 다른 운영 체제와 같은 운영 체제를 실행하고, 운영 체제는 실행을 위해 메모리(634)에 저장된다. 임의의 다른 역할들 이외에, 전자 안경류 디바이스(100 또는 200)를 위한 소프트웨어 아키텍처를 실행하는 고속 프로세서(632)는 고속 무선 회로(636)와의 데이터 전송을 관리하는 데 사용된다. 특정 예들에서, 고속 무선 회로(636)는 본 명세서에서 와이파이®로도 지칭되는 전기전자기술자협회(IEEE) 802.11 통신 표준들을 구현하도록 구성된다. 다른 예들에서, 다른 고속 통신 표준들은 고속 무선 회로(636)에 의해 구현될 수 있다.
[0069] 전자 안경류 디바이스들(100 및 200)의 저전력 무선 회로(624) 및 고속 무선 회로(636)는 단거리 트랜시버들(블루투스®) 및 무선 광역, 로컬 또는 광역 네트워크 트랜시버들(예를 들어, 셀룰러 또는 와이파이®)을 포함할 수 있다. 저전력 무선 연결부(625) 및 고속 무선 연결부(637)를 통해 통신하는 트랜시버들을 포함하는 모바일 디바이스(690)는, 네트워크(695)의 다른 요소들과 마찬가지로, 전자 안경류 디바이스(100 및 200)의 아키텍처의 상세들을 사용하여 구현될 수 있다.
[0070] 메모리(634)는 다양한 데이터 및 애플리케이션들을 저장할 수 있는 임의의 저장 디바이스를 포함하며, 여기에는 특히, 컬러 맵들, 좌측 및 우측 가시광 카메라들(114A-B) 및 이미지 프로세서(612)에 의해 생성된 카메라 데이터 및 이미지 디스플레이 드라이버(642)에 의해 광학 조립체(180A-B)의 시스루 이미지 디스플레이들(180C-D) 상에 디스플레이하기 위해 생성된 이미지들이 포함될 수 있다. 메모리(634)가 고속 회로(630)와 통합된 것으로 도시되어 있지만, 다른 예들에서, 메모리(634)는 전자 안경류 디바이스(100 또는 200)의 독립적인 자립형 요소일 수 있다. 이러한 특정 예들에서, 전기 라우팅 라인들은 이미지 프로세서(612) 또는 저전력 프로세서(622)로부터 메모리(634)로의 고속 프로세서(632)를 포함하는 시스템 온 칩을 통한 연결을 제공할 수 있다. 다른 예들에서, 고속 프로세서(632)는 메모리(634)를 수반하는 읽기 또는 쓰기 작업이 필요할 때마다 저전력 프로세서(622)가 고속 프로세서(632)를 부팅할 수 있도록 메모리(634)의 어드레싱을 관리할 수 있다.
[0071] 서버 시스템(698)은 예를 들어, 네트워크(695)를 통해 모바일 디바이스(690) 및 전자 안경류 디바이스들(100 및 200)과 통신할 수 있는 프로세서, 메모리 및 네트워크 통신 인터페이스를 포함하는 서비스 또는 네트워크 컴퓨팅 시스템의 일부로서의 하나 이상의 컴퓨팅 디바이스들일 수 있다. 전자 안경류 디바이스들(100 및 200)은 호스트 컴퓨터와 연결될 수 있다. 예를 들어, 전자 안경류 디바이스들(100 및 200)은 고속 무선 연결부(637)를 통해 모바일 디바이스(690)와 페어링되거나, 네트워크(695)를 통해 서버 시스템(698)에 연결될 수 있다.
[0072] 전자 안경류 디바이스들(100 및 200)의 출력 구성요소들은 도 2c 내지 도 2d에 설명된 바와 같이 광학 조립체(180A-B)의 좌측 및 우측 이미지 디스플레이들(180C-D)과 같은 시각적 구성요소들(예를 들어, 액정 디스플레이(LCD), 플라스마 디스플레이 패널(PDP), 발광 다이오드(LED) 디스플레이, 프로젝터 또는 도파관과 같은 디스플레이)을 포함한다. 광학 조립체(180A-B)의 이미지 디스플레이들(180C-D)은 이미지 디스플레이 드라이버(642)에 의해 구동된다. 전자 안경류 디바이스들(100 및 200)의 출력 구성요소들은 음향 구성요소들(예를 들어, 스피커들), 햅틱 구성요소들(예를 들어, 진동 모터), 기타 신호 발생기들 등을 더 포함한다. 전자 안경류 디바이스들(100 및 200), 모바일 디바이스(690) 및 서버 시스템(698)의 입력 구성요소들은 영숫자 입력 구성요소들(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성된 터치 스크린, 광-광학 키보드, 또는 다른 영숫자 입력 구성요소들), 포인트 기반 입력 구성요소들(예를 들어, 마우스, 터치 패드, 트랙볼, 조이스틱, 모션 센서, 또는 다른 포인팅 기구들), 촉각 입력 구성요소들(예를 들어, 물리적 버튼, 터치들 또는 터치 제스처들의 위치 및 힘을 제공하는 터치 스크린 또는 다른 촉각 입력 구성요소들), 오디오 입력 구성요소들(예를 들어, 마이크) 등을 포함할 수 있다.
[0073] 전자 안경류 디바이스들(100 및 200)는 선택적으로 주변 광 및 스펙트럼 센서들, 생체인식 센서들, 열 센서(640) 또는 전자 안경류 디바이스(100 또는 200)와 통합된 다른 디스플레이 요소들과 같은 추가적인 주변 디바이스 요소들을 포함할 수 있다. 예를 들어, 주변 디바이스 요소들은 출력 구성요소들, 모션 구성요소들, 포지션 구성요소들 또는 본 명세서에 설명된 임의의 다른 요소들을 포함하는 임의의 I/O 구성요소들을 포함할 수 있다. 전자 안경류 디바이스들(100 및 200)는 다른 형태들을 취할 수 있으며, 예를 들어, 헤드기어, 헤드셋 또는 헬멧과 같은 다른 유형들의 프레임워크들을 통합할 수 있다.
[0074] 예를 들어, 전자 안경류 디바이스들(100 및 200)의 생체인식 구성요소들은 표정들(예를 들어, 손 표정들, 얼굴 표정들, 음성 표정들, 신체 제스처들, 또는 안구 추적)을 검출하고, 생체 신호들(예를 들어, 혈압, 심박수, 체온, 땀 또는 뇌파들)을 측정하고, 사람을 식별(예를 들어, 음성 식별, 망막 식별, 안면 식별, 지문 식별 또는 뇌파 기반 식별)하는 등의 기능을 수행하는 구성요소들을 포함할 수 있다. 모션 구성요소들은 가속도 센서 구성요소들(예를 들어, 가속도계), 중력 센서 구성요소들, 회전 센서 구성요소들(예를 들어, 자이로스코프) 등을 포함한다. 포지션 구성요소들은 위치 좌표들을 생성하는 위치 센서 구성요소들(예를 들어, 글로벌 포지셔닝 시스템(GPS) 수신기 구성요소), 포지셔닝 시스템 좌표들을 생성하는 와이파이® 또는 블루투스® 트랜시버들, 고도 센서 구성요소들(예를 들어, 고도를 도출할 수 있는 기압을 검출하는 고도계들 또는 기압계들), 배향 센서 구성요소들(예를 들어, 자력계들) 등을 포함한다. 이러한 포지셔닝 시스템 좌표들은 또한 저전력 무선 회로(624) 또는 고속 무선 회로(636)를 거쳐 모바일 디바이스(690)로부터 무선 연결들(625 및 637)을 통해 수신될 수 있다.
맥락별 시각 및 음성 스캔
[0075] 전자 안경류 디바이스(100)의 사용자는 장면을 스캔하여 객체들을 식별하고, 증강 현실 특징부 저장소로부터 증강 현실 특징부들을 선택하여 전자 안경류 디바이스(100)를 통해 보이는 현실 세계 이미지에 디스플레이할 수 있다. 예를 들어, 증강 현실 렌즈들은 장면의 객체들에 기초하여 선택되어 현실 세계 이미지의 객체들에 적용될 수 있다. 장면을 스캔하면 사용자는 적절한 증강 현실 특징부(예를 들어, 렌즈)을 적시에 수신하여 장면의 객체들에 적용할 수 있다. 본 명세서에 설명된 샘플 구성들에서, 전자 안경류 디바이스(100)는 시각적 스캔, 음성 스캔 또는 둘 다를 사용하여 장면에 적용될 증강 현실 특징부를 식별할 수 있다. 특정 구성에서, 캡처된 장면은 음성 스캔 및 시각적 스캔을 모두 사용하는 통합 스캔에 의해 분석되어 가장 관련성이 높은 증강 현실 특징부들의 선택을 위한 맥락을 제공할 수 있다.
[0076] 본 명세서에서 사용되는 바와 같이, "맥락 신호"는 스캔 검색을 안내하기 위해 사용자 및 사용자 주변의 장면으로부터의 맥락 데이터를 포함한다. 예를 들어, 맥락 신호는 디스플레이되는 장소들(예를 들어, 해변, 도시, 동네, 호텔, 식료품점, 공항 등) 또는 객체들(예를 들어, 차량, 애니메이션 아보카도 등)의 유형 및 추적 객체들(예를 들어, 얼굴, 손들, 신체, 애완 동물들 등)이 현실 세계 장면에 존재하는지 여부를 식별할 수 있다. 맥락 신호들에는 마커들 및 조명 조건들뿐만 아니라 음성 또는 음악과 같은 캡처된 소리들, 시간, 요일, 날짜 등이 포함될 수도 있다. 맥락 신호에는 장면을 추적하기 위해 사용자의 시선 방향과 사용자 머리의 선형 또는 회전 움직임이 추가로 포함될 수 있다. 반면에, 음성 스캔은 전자 안경류 디바이스(100)를 절전 모드로부터 깨워 카메라에 의한 스캔을 개시하거나 키워드들을 추출하기 위해 사용자의 음성을 음성-텍스트 처리하여 결정된 증강 현실 특징부들에 대한 검색을 개시하는 문구인 "호출어(wake word)"에 의해 시작될 수 있다. 어느 경우든, "신호 설명자 텍스트"는 캡처된 장면의 객체들 또는 캡처된 음성의 단어들이 인식될 때 전자 안경류 디바이스(100)의 디스플레이에 제시될 수 있다. 신호 설명자 텍스트는 어떤 유형의 증강 현실(예를 들어, 렌즈) 결과들이 선택될 것인지를 암시할 수 있다. 전자 안경류 디바이스(100)에 의해 시작된 스캔은 임의의 다른 사용자 인터페이스를 대체하는 몰입형 흐름을 제공할 수 있으며, 스캔 프로세스 동안 아이들 애니메이션, 음성 애니메이션, 스캔 미리보기 이미지, 신호 설명자 텍스트 및 음성 텍스트 변환 중 하나 이상을 포함할 수 있다.
[0077] 샘플 구성에서, 전자 안경류 디바이스(100)에 의한 시각적 스캔은 언제든지 버튼을 가볍게 치는 것 또는 스캔 버튼을 길게 누르는 것과 같은 스캔 개시 수단으로 활성화될 수 있다. 시각적 스캔의 경우, 캡처된 이미지는 전자 안경류 디바이스(100) 상의 딥 러닝 모델의 학습된 신경망으로 전달되거나, 전자 안경류 디바이스(100)에 액세스 가능한 백엔드 서버 시스템(698)에서 이용 가능한 백엔드 서비스들로 전달되어 캡처된 이미지를 처리하여 장면 내의 객체들을 식별할 수 있다. 설정된 신뢰 점수를 초과하는 인식 점수를 갖는 객체들은 스캔에 대응하여 전자 안경류 디바이스(100)의 디스플레이에 제공될 렌즈들 또는 다른 증강 현실 객체들에 대한 태그들(키워드들)로 식별될 수 있다. 그러나, 버튼을 충분히 길게 눌러 다른 디바이스와의 페어링을 시작하면, 시각적 스캔이 취소될 수 있으며, 이 경우 애니메이션이 중지되고 소리가 중지되며 스캔 결과들이 표시되지 않는다. 반면에, 음성 스캔은 "헤이 시리(Hey Siri)", "알렉사(Alexa)", "헤이 스냅챗(Hey Snapchat)" 등과 같은 적절한 호출어를 제공하여 시작할 수 있다. 음성 데이터는 전자 안경류 디바이스(100) 상의 음성-텍스트 변환 서비스 또는 전자 안경류 디바이스(100)에 액세스 가능한 백엔드 서버 시스템(698)에서 이용 가능한 백엔드 서비스들로 제공되어 사용자의 음성 단어들을 전사할 수 있다. 식별된 음성 단어들은 캡처된 음성 데이터에 대응하여 전자 안경류 디바이스(100)의 디스플레이에 제공될 렌즈들 또는 다른 증강 현실 객체들에 대한 태그들(키워드들)로 사용될 수 있다.
[0078] 디스플레이가 꺼져 있거나 아이들 상태일 때 음성 스캔 또는 시각적 스캔을 활성화하면 디스플레이가 켜지고 스캔 애니메이션이 표시될 수 있고, 전자 안경류 디바이스(100)가 절전 모드에 있는 상태에서 음성 스캔 또는 시각적 스캔을 활성화하면 전자 안경류 디바이스(100)가 활성 모드로 전환된다. 이 경우, 시스템이 활성화되거나 아이들 상태가 되면 시각적 스캔 또는 음성 스캔이 다시 활성화되어 스캔 애니메이션 및 스캔 특징부가 개시될 수 있다. 또한, 렌즈 캐러셀 또는 증강 현실 특징부들의 다른 메뉴가 디스플레이되는 동안 스캔 특징부가 활성화되면, 전자 안경류 디바이스(100)의 사용자 인터페이스가 스캔 애니메이션을 표시하도록 교체될 수 있다. 그러나, 전자 안경류 디바이스(100)의 일부 특징부들이 활성화되어 있는 경우에는 스캔 애니메이션을 배경에서 유지하여 기존 디스플레이를 방해하지 않도록 하는 것이 바람직할 수 있다. 소리들 또는 디스플레이된 단어들 또는 아이콘들과 같은 스캔 알림들은 배경 스캔이 시작되었음을 나타내는 데 사용될 수 있다. 예를 들어, 도 7a에 도시된 것처럼 디스플레이에 배경 스캔이 수행되고 있음을 나타낼 수 있다. 배경 스캔이 완료되면, 도 7b에 도시된 바와 같이 완료된 스캔 결과들에 대한 알림이 디스플레이에 제공될 수 있다. 스캔 결과들의 선택에 따라, 스캔 결과들은 도 7c에 도시된 바와 같이 스캔 캐러셀에서 제공될 수 있거나, 달리 사용자 선택을 위해 사용자 인터페이스에 디스플레이될 수 있다.
[0079] 스캔은, 예를 들어 스캔 애니메이션 동안 아래로 스와이프함으로써 언제든지 취소될 수 있다. 스캔이 취소되면, 사용자는 이전 경험 또는 흐름으로부터의 화면으로 되돌아갈 것이다. 스캔이 개시될 때 디스플레이가 꺼져 있었다면, 스캔이 취소될 때 디스플레이가 꺼질 것이다.
[0080] 따라서, 버튼을 가볍게 치는 것과 호출어 모두 스캔 특징부를 활성화하는 데 사용될 수 있다. 샘플 구성들에서, 시각적 스캔 및 음성 스캔 특징부들은 모두 스캔 애니메이션과 결합되어, 사용자들이 어떤 스캔 양식이 사용되고 있는지 및 검색에 어떤 맥락 정보가 사용되고 있는지 이해하는 데 도움이 될 수 있다. 시각적 스캔이 기본 검색 방식이 될 수 있으며, 사용자가 말할 때 음성 스캔이 개시될 수 있다. 사용자의 음성 명령들이 전형적으로 사용자의 의도를 더 결정적으로 파악할 수 있기 때문에, 음성 스캔 및 검색은 전형적으로 시각적 스캔 및 검색보다 우선적으로 수행될 것이다.
[0081] 음성 스캔을 개시하기 위한 음성 명령에 의해 스캔이 시작되든, 또는 시각적 스캔을 개시하기 위한 버튼 누름에 의해 스캔이 개시되든, 스캔 이미지 및 연속 마이크 입력은 가능한 한 빨리 사용자에게 결과들이 전달될 수 있도록 처리를 위해 즉시 캡처되어 백엔드 서비스들에 제공될 수 있다. 스캔이 개시되면 사용자는 스캔 애니메이션을 볼 수 있다. 스캔 애니메이션은 동적이며, 시각적 애니메이션과 음성 펄싱 또는 음성 애니메이션 간에 전환될 수 있다. 스캔이 활성화되면, 사용자는 시각적 및 맥락 스캐닝을 나타내는 시각적 애니메이션을 즉시 볼 수 있다. 스캔 애니메이션에는 디스플레이의 에지를 따라 움직이는 타이머와 디스플레이의 4 개의 에지들 모두에 애니메이션을 제공하는 시각적 검색이 포함될 수 있다. 이 애니메이션은 또한 사용자가 스캔하고자 하는 현실 세계의 객체의 프레임을 구성하는 데 사용할 수 있는 뷰파인더의 역할을 할 수도 있다.
[0082] 샘플 구성들에서, 사용자가 스캔의 처음 몇 초(예를 들어, 2 초) 동안 말을 하지 않으면, 스캔 미리보기 이미지가 캡처되어 스캔된 것에 대한 시각적 피드백을 사용자에게 제공하기 위해 사용자에게 디스플레이될 수 있다. 스캔 애니메이션이 이 미리보기 이미지에 맞게 축소되어 사용자가 스캔 중인 항목을 알 수 있다. 미리보기 이미지는 처음 몇 초(예를 들어, 2 초) 동안 지속될 수 있으며, 그 후 미리보기 이미지가 사라지고 스캔 애니메이션이 디스플레이 영역에 다시 맞춰질 수 있다. 그 후, 장면에서 맥락 신호들이 인식되면 신호 설명자 텍스트가 디스플레이에 나타날 수 있다. 예를 들어, 도 8의 스캔의 경우 "해변", "바다", "오두막", "모래" 등의 맥락 신호들이 디스플레이에 신호 설명자 텍스트로 디스플레이될 수 있다. 사용자가 말하지 않는 경우, 시각적 애니메이션은 몇 초(예를 들어, 5 초) 더 지속되다가 종료되고 시각적 스캔 결과들을 갖는 렌즈 캐러셀 또는 다른 사용자 인터페이스로 전환될 수 있다.
[0083] 반면에, 시각적 스캔을 위해 스캔 타이머가 활성화된 후에 사용자가 말을 하면, 타이머는 사라지고 애니메이션은 음성에 반응하는 음성 펄스 애니메이션으로 변경될 것이다. 존재하는 모든 시각적 신호 설명자 텍스트는 사라지고 음성-텍스트 변환 결과들로 대체된다. 따라서, 사용자가 호출어로 음성 스캔을 활성화하면, 사용자는 음성으로 원활하게 검색을 계속할 수 있다. 예를 들어, 사용자가 "헤이 스냅챗, 멋진 우주 렌즈들 좀 보여줘"라고 말할 수 있다. 이 경우 임의의 신호 설명자들이 나타나기 전에 이러한 전환이 빠르게 이루어질 것으로 가정할 수 있다. 스캔 동안 사용자가 말을 하면, 음성 펄스 애니메이션이 전자 안경류 디바이스가 사용자의 말을 듣고 있다는 피드백을 제공할 수 있다. 음성-텍스트 변환은 스캔으로부터 추출한 신호 설명자 텍스트와 구분하기 위해 디스플레이 저부에 정렬되고 이탤릭체로 표시될 수 있다. 음성-텍스트 변환은 우측으로부터 좌측으로 채워질 수 있으며, 텍스트가 많은 경우 텍스트가 위로 이동하는 것처럼 보일 수 있다. 샘플 구성들에서는 디스플레이 에지들에서의 애니메이션이 말하는 내용과 동기화되어 펄싱될 수 있다. 사용자가 일정 시간(예를 들어, 1.5 초) 동안 더 이상 말을 하지 않을 때까지 일반 소리 볼륨으로 펄싱이 계속될 수 있다. 사용자가 일정 시간(예를 들어, 3 초) 동안 말을 멈추면 음성 스캔이 종료된다. 그런 다음, 스캔 애니메이션이 완료된 후, 사용자는 새로운 스캔 결과들이 제공될 렌즈 캐러셀 또는 다른 사용자 인터페이스로 되돌아갈 것이다.
[0084] 예를 들어, 시각적 스캔이 "해변", "바다", "오두막", "모래"의 맥락 신호들을 식별하는 경우, 이러한 맥락 신호들과 관련된 증강 현실 특징부들(예를 들어, 렌즈들)이 렌즈 캐러셀 또는 다른 사용자 인터페이스에 제시될 것이다. 유사하게, 시각적 스캔이 사용자가 "우주" 또는 "UFO들"과 관련된 증강 현실 특징부들을 요청했음을 식별하면, 요청된 특징부들(예를 들어, "우주" 또는 "UFO들")과 관련된 증강 현실 특징부들(예를 들어, 렌즈들)이 렌즈 캐러셀 또는 다른 사용자 인터페이스에 제시될 것이다.
[0085] 스캔 캐러셀의 제1 증강 현실 특징부는 기본으로 선택된다. 미리결정된 수의 증강 현실 특징부들(예를 들어, 렌즈들)이 사용자 선택을 위해 캐러셀 또는 다른 사용자 인터페이스에 나타날 것이다. 캐러셀 또는 기타 사용자 인터페이스에서 제공되는 스캔 결과들에는 스캔과는 독립적으로 제공되는 일반 옵션과 구분하기 위해 스캔 아이콘이 배지로 표시될 수 있다. 사용자는 스캔 결과들을 스와이프하여 스캔 동안 식별되지 않은 일반 옵션들을 찾을 수 있다. 결과들이 혼동되지 않도록 스캔 결과들은 스캔이 완료될 때 활성화된 입력 방식(시각적/맥락별 또는 음성)으로 제한될 수 있다. 예를 들어, 사용자가 해변에 있는 동안 스캔 중에 아무 말도 하지 않으면, 스캔 결과들에 사용자가 있는 위치(해변)와 사용자가 보고 있는 것(예를 들어, 모래, 바다, 하늘)이 반영된다. 그러나 사용자가 해변에 있는 상태에서 "멋진 우주 렌즈들을 보여줘"라고 말하면, 스캔 결과들은 사용자가 말한 것을 반영하여 우주와 관련된 스캔 결과들(예를 들어, 외계인들, 우주선들 등)을 표시한다. 사용자는 렌즈 캐러셀 또는 활성화를 위한 다른 사용자 인터페이스에서 렌즈를 선택함으로써 스캔 결과들에서 임의의 렌즈를 볼 수 있다.
[0086] 스캔 결과들은 사용자가 렌즈 캐러셀을 탐색하거나 캐러셀 또는 다른 사용자 인터페이스로부터 렌즈들 또는 다른 증강 현실 특징부들과 상호작용하는 동안 렌즈 캐러셀 또는 다른 사용자 인터페이스에 유지될 것이다. 배경 스캔 결과들은 배경 스캔 후 렌즈 캐러셀 또는 다른 사용자 인터페이스가 처음으로 표시될 때까지 지속될 수 있다. 그러면 배경 스캔 결과들은 다른 스캔 결과들과 동일한 로직을 따른다. 사용자는 특정 증강 현실 스캔 결과를 "즐겨 찾기"로 식별하고 스캔 결과들이 지워진 후 다시 쉽게 사용할 수 있도록 저장할 수 있다.
[0087] 시각적 스캔이 임의의 높은 신뢰도 신호들을 초래하지 않거나 대응하는 호환 가능한 증강 현실 특징부들(예를 들어, 렌즈들)이 없는 경우, 시간, 조명, 실내/실외 등과 같은 보다 보편적인 맥락별 증강 현실 특징부들(예를 들어, 렌즈들)에 대한 결과들이 제공될 수 있다. 반면에 음성 스캔에서 결과들이 나오지 않으면 사용자는 빈 캐러셀로 이동하여 하위 텍스트가 포함된 힌트 레이블과 함께 "발견된 결과들 없음"을 표시할 수 있다. 예를 들어, 사용자는 회전 제안들과 함께 제공된 음성 데이터에 기초하여 무엇을 말해야 하는지에 대한 지시를 받을 수 있다.
[0088] 상술한 시각적 스캔 및 음성 스캔은 별도의 진입점들, 즉 시각적 검색을 위한 시각적 스캔의 버튼 누름 및 음성 검색을 위한 음성 스캔의 호출어를 갖는다는 것을 알 수 있을 것이다. 두 접근 방식들 모두 사용자에게 디스플레이할 원하는 증강 현실 특징부(예를 들어, 렌즈)를 찾는 동일한 기능을 수행한다. 샘플 구성에서는 두 가지 작업들을 결합하여 사용자가 말하는 내용과 맥락 신호들을 고려하는 통합 스캔을 개시할 수 있다. 그러나 활성 시각적 스캔들 및 음성 스캔들을 동시에 제공하면, 혼란스러운 결과들이 발생할 수 있다. 위의 예에서, 사용자가 해변에 있는 상태에서 우주 렌즈를 요청하면 결과들이 예측 불가능할 수 있다. 예를 들어, 스캔 결과들에는 해변 관련 증강 현실 특징부들(렌즈들)과 우주 관련 특징부들(렌즈들)이 포함될 수 있으며, 둘 사이에 아무런 연결이 없을 수도 있다. 결과들을 보다 예측 가능하게 하기 위해, 음성 데이터뿐만 아니라 이미지 스캔 데이터는 사용자의 의도를 결정하기 위해 처리될 수 있다.
[0089] 예를 들어, 음성-텍스트 변환 결과들은 사용자의 의도를 매우 잘 나타낸다. 음성 스캔이 활성화되면, 음성 애니메이션이 표시될 수 있고, 음성-텍스트 변환 결과들이 사용자 확인을 위해 디스플레이에 제시될 수 있다. 제시된 음성-텍스트 변환 결과들에 대한 사용자의 승인은 사용자의 의사를 잘 나타낸다. 따라서, 상기 예들에서 언급한 바와 같이, 사용자가 버튼을 눌러 시각적 스캔을 시작한 후에 말을 하면, 전자 안경류 디바이스(100)는 음성 스캔으로 전환하고 사용자가 음성 요청들에 기초하여 스캔 결과들을 볼 수 있음을 나타내는 음성 스캔 애니메이션을 시작할 것이다. 그러나 사용자가 말을 하지 않으면, 전자 안경류 디바이스(100)는 기본적으로 아이들 애니메이션으로 전환되고, 시각적 스캔 결과들을 표시한다. 디스플레이 주변의 타이머는 (객체들의 식별을 위한) 시각적 스캔의 진행 상황을 표시하고 사용자가 음성 스캔으로 전환하기 위해 말할 시간이 얼마나 남았는지를 암시할 수 있다. 아이들 애니메이션은 스캔 결과들이 시각적 스캔에 기초하여야 할 것임을 나타낼 수 있다. 도 9에 도시된 바와 같이, 버튼을 누르거나 호출어를 말함으로써 시작되는 적절한 스캔 애니메이션(900)이 제공될 수 있다. 도시된 바와 같이, 시각적 스캔 결과들이 시각적 스캔을 위해 제공되거나, 음성 스캔 결과들이 음성 스캔을 위해 제공될 수 있다.
[0090] 다른 구성에서, 사용자가 특정 객체에 대한 증강 현실 특징부(예를 들어, 렌즈)를 요청하고, 증강 현실 특징부가 시각적 스캔에 의해 제공된 맥락 결과들에 기초하여 선택되는 혼합 양식 음성 쿼리가 제공될 수 있다. 이 통합 스캔 구성에서 음성 스캔들은 음성-텍스트 변환이 표시된 후 시각적 스캔 디스플레이로 전환된다. 통합 스캔의 경우 초기 스캔 결과들은 음성 스캔을 기반으로 한다. 또한 시각적 스캔을 시작하기 위한 버튼 누름은 초기 스캔 결과들을 맥락에 맞는 시각적 정보와 일치하는 스캔 결과들로 여과하기 위한 맥락을 제공하기 위해 처리되는 이미지를 캡처하는 데 사용된다. 위의 예에서 통합된 스캔 결과들은 해변 환경에서 디스플레이하기에 적합한 공간 렌즈들을 제공한다(즉, '공간' 키워드와 '해변' 키워드가 병합된 렌즈들이 우선순위로 지정됨). 이렇게 하면, 통합 스캔에 대한 응답으로 제공되는 증강 현실 특징부들이 장면의 맥락에 더 잘 맞을 수 있다. 위에서 언급했듯이 맥락 특징부들에는 위치, 장면에 얼굴이 있는지 여부, 증강 현실 경험을 잠금 해제하는 특정 객체 또는 마커, 장면에 있는 객체(예를 들어, 정지 표지판), 하늘 등이 포함될 수 있다. 이러한 맥락별 특징부들은 증강 현실 특징부들(예를 들어, 렌즈들)의 메타데이터(예를 들어, 키워드들)와 매칭하기 위한 메타데이터로서 제공될 수 있다.
[0091] 도 10은 샘플 구성에서 음성 스캔, 시각적 스캔 및 통합 스캔의 흐름도(1000)를 예시한다.
[0092] 도 10에서, 시각적 스캔은 1010에서 버튼 누름을 검출하면 시작될 수 있다. 시각적 스캔 프로세스는 1020에서 장면의 이미지를 캡처하고, 온보드 처리를 위해 전자 안경류 디바이스(100)의 처리 시스템(630)에 캡처된 이미지를 제공하거나, 인터넷(695) 및 모바일 디바이스(690)에 대한 고속 무선 연결부(637)를 통해 백엔드 서버 시스템(698)의 백엔드 이미지 처리 서비스들로 캡처된 이미지를 제공하는 것을 포함한다. 처리는 1030에서 캡처된 이미지를 처리하여 캡처된 장면에서 장소들 또는 객체들의 종류, 추적 객체들 또는 마커들의 존재, 조명 조건들 등과 같은 맥락 신호들를 추출하고, 선택적으로 상기 맥락 신호들을 전자 안경류 디바이스(100)의 디스플레이에 디스플레이하는 것을 포함한다. 그런 다음, 추출된 맥락 신호들은 1040에서 증강 현실 특징부들(예를 들어, 렌즈들)의 메타데이터와 일치시켜 캡처된 장면에 적용하기에 적합한 증강 현실 특징부들을 식별하는 데 사용된다. 1050에서, 선택된 증강 현실 특징부들은 전자 안경류 디바이스(100)에 의해 보여지는 현실 세계 장면에 적용하기 위한 선택을 위해 사용자에게 제시된다.
[0093] 한편, 1060에서, "호출어"(예를 들어, "헤이 스냅챗")를 청취하기 위해 마이크(130)를 사용하여 음성 스캔이 시작될 수 있다. 1070에서, 호출어를 수신하면, 마이크(130)는 음성 캡처를 시작한다. 캡처된 음성 데이터는 온보드 처리를 위해 전자 안경류 디바이스(100)의 처리 시스템(630)에 제공되거나, 인터넷(695) 및 모바일 디바이스(690)에 대한 고속 무선 연결부(637)를 통해 백엔드 서버 시스템(698)의 백엔드 음성-텍스트 변환 서비스들에 제공된다. 1080에서, 처리는 전자 안경류 디바이스(100)의 디스플레이에 표시하기 위해 선택적으로 전자 안경류 디바이스(100)로 다시 제공되는 텍스트를 식별하기 위해 음성 데이터를 처리하여 음성-텍스트 변환을 적용하는 것을 포함한다. 1080에서의 음성-텍스트 변환은 또한 1090에서 전자 안경류 디바이스(100)의 디스플레이에 표시되는 현재 장면에 적용하기 위해 선택될 증강 현실 특징부들(예를 들어, 렌즈들)의 메타데이터와 일치시키기 위해 사용되는 음성 데이터의 키워드들을 식별한다. 1050에서, 선택된 증강 현실 특징부들은 전자 안경류 디바이스(100)에 의해 보여지고 있는 현실 세계 장면에 적용하기 위해 선택되도록 사용자에게 제시된다.
[0094] 전술한 바와 같이, 시각적 스캔 모드는 호출어가 검출되지 않을 때 사용된다. 1060에서, 사용자로부터 호출어를 수신하면, 전자 안경류 디바이스는 상충되는 결과들을 피하기 위해 음성 스캔 모드로 기본 설정되도록 프로그래밍될 수 있다. 그러나, 전술한 통합 스캔 모드에서는 음성 스캔 모드와 시각적 스캔 모드가 동시에 활성화되어 1080에서 음성 데이터로부터 키워드들을 추출하고, 1030에서 캡처된 이미지로부터 맥락 신호들을 추출할 수 있다. 이 경우, 1095에서, 추출된 키워드들과 추출된 맥락 신호들은 음성 데이터로부터 추출된 키워드들을 이용하여 식별된 증강 현실 특징부들을 여과하기 위해 추출된 맥락 특징부들을 이용하여 증강 현실 특징부들을 선별하는 데 사용될 수 있다. 1095에서 선택된 증강 현실 특징부들은 1050에서, 전자 안경류 디바이스(100)에 의해 보여지는 현실 세계 장면에 적용하기 위한 선택을 위해 사용자에게 제시된다.
[0095] 당업자들에게는 통합 스캔 모드가 단순히 하나의 스캔 작업의 결과들을 사용하여 설명된 바와 같이 다른 스캔 작업의 결과들을 여과할 수 있다는 것이 인식될 것이다. 그러나, 스캔 결과들은, 예를 들어, 검출 신뢰도, 유사성 등에 기초하여 식별된 키워드들 및 맥락 신호들에 가중치를 부여함으로써, 보다 정교한 방식으로 결합될 수 있다. 또한, 본 명세서에 설명된 기술들은, 예를 들어, 소리들, 시각적 오버레이들, 수정된 조명들 또는 전자 안경류 디바이스(100)를 통해 볼 수 있는 현실 세계 장면을 수정할 수 있는 다른 특징부들을 선택함으로써, 다른 방식들로 보여지는 이미지들을 증강시키는 데 사용될 수 있다. 이러한 다른 수정 사항들은 당업자들에게 명백해질 것이다.
시스템 구성
[0096] 본 명세서에 설명된 기술들은 본 명세서에 설명된 컴퓨터 시스템들 중 하나 이상 또는 하나 이상의 다른 시스템들과 함께 사용될 수 있다. 예를 들어, 본 명세서에 설명된 다양한 절차들은 하드웨어 또는 소프트웨어, 또는 이 둘의 조합으로 구현될 수 있다. 예를 들어, 아래에 설명되는 프로세서, 메모리, 저장부, 출력 디바이스(들), 입력 디바이스(들) 또는 통신 연결부들 중 적어도 하나는 각각 하나 이상의 하드웨어 구성요소들의 적어도 일부일 수 있다. 전용 하드웨어 로직 구성요소들은 본 명세서에 설명된 기술들 중 하나 이상의 적어도 일부를 구현하도록 구성될 수 있다. 예를 들어, 이러한 하드웨어 논리 구성요소들은 필드 프로그래머블 게이트 어레이들(FPGA들), 프로그램 특정 집적 회로들(ASIC들), 프로그램 특정 표준 제품들(ASSP들), 시스템 온 칩 시스템들(SOC들), 복합 프로그래머블 논리 소자들(CPLD들) 등을 포함할 수 있다(그러나, 이에 제한되지 않음). 다양한 양태들의 장치들 및 시스템들을 포함할 수 있는 적용예들에는 다양한 전자 및 컴퓨터 시스템들이 광범위하게 포함될 수 있다. 기술들은 모듈들 사이 및 모듈들을 통해 연통할 수 있는 관련 제어 및 데이터 신호들이 있는 둘 이상의 특정 상호연결 하드웨어 모듈들 또는 디바이스들을 사용하여 구현하거나, 주문형 집적 회로의 일부들로서 구현할 수 있다. 또한, 본 명세서에 설명된 기술들은 컴퓨터 시스템에 의해 실행 가능한 소프트웨어 프로그램들에 의해 구현될 수 있다. 일 예로서, 구현예들은 분산 처리, 구성요소/객체 분산 처리 및 병렬 처리가 포함될 수 있다. 또한, 가상 컴퓨터 시스템 처리는 본 명세서에 설명된 바와 같이, 기술들 또는 기능들 중 어느 하나 이상을 구현하도록 구성될 수 있다.
[0097] 예로서, 도 11은 본 명세서에 설명된 시스템들 및 방법들에 따라 백엔드 서비스들(예를 들어, 음성-텍스트 또는 이미지 처리 서비스들)을 구현하도록 조정된 컴퓨터 시스템(1100)의 샘플 구성을 예시한다. 특히, 도 11은 하나 이상의 구성들이 구현될 수 있는 기계(1100)의 일 예의 구성의 블록도를 예시한다. 대안적인 구성들에서, 기계(1100)는 독립형 디바이스로서 작동하거나 다른 기계들에 연결(예를 들어, 네트워크로 연결)될 수 있다. 네트워크 배치에서, 기계(1100)는 서버-클라이언트 네트워크 환경들에서 서버 기계, 클라이언트 기계 또는 이들 둘 모두의 용량으로 작동할 수 있다. 일 예로, 기계(1100)는 피어-투-피어(P2P)(또는 다른 분산) 네트워크 환경에서 피어 기계로 작동할 수 있다. 샘플 구성들에서, 기계(1100)는 개인용 컴퓨터(PC), 태블릿 PC, 셋톱 박스(STB), 개인 디지털 비서(PDA), 휴대 전화, 스마트폰, 웹 어플라이언스, 서버, 네트워크 라우터, 스위치 또는 브리지 또는 해당 기계에 의해 수행될 동작들을 지정하는 명령들(순차적 또는 기타)을 실행할 수 있는 임의의 기계일 수 있다. 예를 들어, 기계(1100)는 통신 시스템의 워크스테이션, 프론트-엔드 서버, 또는 백-엔드 서버 역할을 할 수 있다. 기계(1100)는 본 명세서에 설명된 바와 같이 생성된 봇들을 구현하는 데 사용되는 소프트웨어를 실행하여 본 명세서에 설명된 방법들을 구현할 수 있다. 또한, 단일 기계(1100)만 예시되어 있지만, "기계"이라는 용어는 클라우드 컴퓨팅, 서비스형 소프트웨어(SaaS), 기타 컴퓨터 클러스터 구성들과 같이 본 명세서에 논의된 방법론들 중 임의의 하나 이상을 수행하기 위한 명령들의 세트(또는 복수의 세트들)를 개별적으로 또는 공동으로 실행하는 기계들의 임의의 모음을 포함하는 것으로 간주되어야 한다.
[0098] 본 명세서에 설명된 바와 같이, 예들은 프로세서들, 로직 또는 다수의 구성요소들, 모듈들, 또는 메커니즘들(본 명세서에서, "모듈들")을 포함할 수 있거나 이들 상에서 동작할 수 있다. 모듈들은 지정된 작업들을 수행할 수 있는 유형의 실체들(예를 들어, 하드웨어)이며 특정 방식으로 구성 또는 배열될 수 있다. 일 예에서, 회로들은 모듈로서 지정된 방식으로 (예를 들어, 내부적으로 또는 다른 회로들과 같은 외부 실체들과 관련하여) 배열될 수 있다. 일 예에서, 하나 이상의 컴퓨터 시스템들(예를 들어, 독립형, 클라이언트 또는 서버 컴퓨터 시스템) 또는 하나 이상의 하드웨어 프로세서들의 전체 또는 일부는 지정된 작업들을 수행하도록 작동하는 모듈로서 펌웨어 또는 소프트웨어(예를 들어, 명령들, 적용예 일부 또는 적용예)에 의해 구성될 수 있다. 일 예로, 소프트웨어는 기계 판독 가능 매체에 상주할 수 있다. 소프트웨어는, 모듈의 기본 하드웨어에 의해 실행될 때, 하드웨어가 지정된 작업들을 수행하게 한다.
[0099] 따라서, "모듈"이라는 용어는 유형의 하드웨어 또는 소프트웨어 실체 중 적어도 하나를 포함하는 것으로 이해되며, 물리적으로 구성되거나, 구체적으로 구성(예를 들어, 하드와이어링) 또는 일시적으로(예를 들어, 임시적으로) 구성(예를 들어, 프로그래밍)되어 지정된 방식으로 작동하거나 본 명세서에 설명된 작동의 일부 또는 전부를 수행하도록 구성되는 실체가 된다. 모듈들이 일시적으로 구성되는 예들을 고려할 때, 모듈들 각각은 어느 한 순간에 인스턴스화될 필요는 없다. 예를 들어, 모듈들이 소프트웨어를 사용하여 구성된 범용 하드웨어 프로세서를 포함하는 경우, 범용 하드웨어 프로세서는 서로 다른 시간들에 개개의 서로 다른 모듈들로 구성될 수 있다. 따라서, 소프트웨어는, 예를 들어, 한 인스턴스에서 특정 모듈을 구성하고 서로 다른 인스턴스에서 서로 다른 모듈을 구성하도록 하드웨어 프로세서를 구성할 수 있다.
[0100] 기계(예를 들어, 컴퓨터 시스템)(1100)는 하드웨어 프로세서(1102)(예를 들어, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 하드웨어 프로세서 코어 또는 이들의 임의의 조합), 메인 메모리(1104) 및 정적 메모리(1106)를 포함할 수 있으며, 이들의 일부 또는 전부가 상호링크(예를 들어, 버스)(1108)를 통해 서로 연통할 수 있다. 기계(1100)는 디스플레이 유닛(1110)(비디오 디스플레이로서 도시됨), 영숫자 입력 디바이스(1112)(예를 들어, 키보드) 및 사용자 인터페이스(UI) 탐색 디바이스(1114)(예를 들어, 마우스)를 더 포함할 수 있다. 일 예에서, 디스플레이 유닛(1110), 입력 디바이스(1112) 및 UI 탐색 디바이스(1114)는 터치 스크린 디스플레이일 수 있다. 기계(1100)는 대용량 저장 디바이스(예를 들어, 구동 유닛)(1116), 신호 생성 디바이스(1118)(예를 들어, 스피커), 네트워크 인터페이스 디바이스(1120) 및 하나 이상의 센서들(1122)을 추가적으로 포함할 수 있다. 예시적인 센서들(1122)은 위성 위치 확인 시스템(GPS) 센서, 나침반, 가속도계, 온도, 조명, 카메라, 비디오 카메라, 물리적 상태들 또는 포지션들의 센서들, 압력 센서들, 지문 센서들, 망막 스캐너들 또는 다른 센서들 중 하나 이상을 포함한다. 기계(1100)는 하나 이상의 주변 디바이스들(예를 들어, 프린터, 카드 리더기 등)과 연통하거나 이들을 제어하기 위한 직렬(예를 들어, 범용 직렬 버스(USB)), 병렬 또는 기타 유선 또는 무선(예를 들어, 적외선(IR), 근거리 통신(NFC) 등) 연결과 같은 출력 제어기(1124)를 포함할 수 있다.
[0101] 대용량 저장 디바이스(1116)는, 본 명세서에 설명된 기술들 또는 기능들 중 임의의 하나 이상에 의해 구현되거나 활용되는 데이터 구조들 또는 명령들(1128)(예를 들어, 소프트웨어)의 하나 이상의 세트들이 저장되는 기계 판독 가능 매체(1126)를 포함할 수 있다. 명령들(1128)은 또한 기계(1100)에 의해 실행되는 동안 메인 메모리(1104), 정적 메모리(1106) 또는 하드웨어 프로세서(1102) 내에 완전히 또는 적어도 부분적으로 존재할 수 있다. 일 예에서, 하드웨어 프로세서(1102), 메인 메모리(1104), 정적 메모리(1106) 또는 대용량 저장 디바이스(1116) 중 하나 또는 임의의 조합은 기계 판독 가능 매체를 구성할 수 있다.
[0102] 기계 판독 가능 매체(1126)는 단일 매체로서 예시되어 있지만, "기계 판독 가능 매체"라는 용어는 하나 이상의 명령들(1128)을 저장하도록 구성된 단일 매체 또는 복수의 매체들(예를 들어, 중앙 집중식 또는 분산식 데이터베이스 또는 연관된 캐시들 및 서버들 중 적어도 하나)을 포함할 수 있다. "기계 판독 가능 매체"라는 용어는 기계(1100)에 의한 실행을 위한 명령들을 저장, 인코딩 또는 운반할 수 있고, 기계(1100)가 본 개시의 기술들 중 어느 하나 이상을 수행하게 하거나, 그러한 명령들에 의해 사용되거나 명령들과 연관된 데이터 구조들을 저장, 인코딩 또는 운반할 수 있는 임의의 매체를 포함할 수 있다. 비제한적인 기계 판독 가능 매체의 예들에는 고체 상태 메모리들, 및 광학 및 자기 매체들을 포함할 수 있다. 기계 판독 가능 매체들의 구체적인 예들로는 반도체 메모리 디바이스들(예를 들어, 전기적 프로그램 가능 읽기 전용 메모리(EPROM), 전기적 지우기 가능 프로그램 가능 읽기 전용 메모리(EEPROM)) 및 플래시 메모리 디바이스들과 같은 비휘발성 메모리; 내장 하드 디스크들 및 이동식 디스크들과 같은 자기 디스크들; 자기 광학 디스크들; 랜덤 액세스 메모리(RAM); 솔리드 스테이트 드라이브들(SSD), CD-ROM 및 DVD-ROM 디스크들이 포함될 수 있다. 일부 예들에서, 기계 판독 가능 매체들은 비일시적 기계 판독 가능 매체들을 포함할 수 있다. 일부 예들에서, 기계 판독 가능 매체들은 일시적 전파 신호가 아닌 기계 판독 가능 매체들을 포함할 수 있다.
[0103] 명령들(1128)은 네트워크 인터페이스 디바이스(1120)를 거쳐 송신 매체를 사용하여 통신 네트워크(1132)를 통해 추가로 송신 또는 수신될 수 있다. 기계(1100)는 다수의 전송 프로토콜들(예를 들어, 프레임 릴레이, 인터넷 프로토콜(IP), 송신 제어 프로토콜(TCP), 사용자 데이터그램 프로토콜(UDP), 하이퍼텍스트 전송 프로토콜(HTTP) 등) 중 임의의 하나를 이용하여 하나 이상의 다른 기계들과 통신할 수 있다. 예시적인 통신 네트워크들에는 특히, 근거리 통신망(LAN), 광역 통신망(WAN), 패킷 데이터 네트워크(예를 들어, 인터넷), 모바일 전화 네트워크들(예를 들어, 셀룰러 네트워크들), 일반 전화(POTS) 네트워크들 및 무선 데이터 네트워크들(예를 들어, 와이파이®(Wi-Fi®)로 알려진 전기전자기술자협회(IEEE) 802.11 표준들의 군), IEEE 802.15.4 표준들의 군, 롱텀에볼루션(LTE) 표준들의 군, 범용 이동 통신 시스템(UMTS) 표준들의 군, 피어투피어(P2P) 네트워크들 등)이 포함될 수 있다. 일 예에서, 네트워크 인터페이스 디바이스(1120)는 통신 네트워크(1132)에 연결하기 위한 하나 이상의 물리적 잭들(예를 들어, 이더넷, 동축, 또는 전화 잭들) 또는 하나 이상의 안테나들(1130)을 포함할 수 있다. 일 예에서, 네트워크 인터페이스 디바이스(1120)는 단일 입력 다중 출력(SIMO), 다중 입력 다중 출력(MIMO) 또는 다중 입력 단일 출력(MISO) 기술들 중 적어도 하나를 사용하여 무선 통신하기 위한 복수의 안테나들(1130)을 포함할 수 있다. 일부 예들에서, 네트워크 인터페이스 디바이스(1120)는 다중 사용자 MIMO 기술들을 사용하여 무선 통신할 수 있다.
[0104] 본 명세서에 설명된 특징들 및 흐름도들은 방법 단계들로서 하나 이상의 방법들 또는 전술한 바와 같은 하나 이상의 애플리케이션들에서 구체화될 수 있다. 일부 구성들에 따르면, 일부 예들에 따르면, "애플리케이션" 또는 "애플리케이션들"은 프로그램들에서 정의된 기능들을 실행하는 프로그램(들)이다. 객체 지향 프로그래밍 언어들(예를 들어, 객체 지향-C, 자바, 또는 C++) 또는 절차적 프로그래밍 언어들(예를 들어, C 또는 조립체 언어)과 같은 다양한 방식들로 구조화된 애플리케이션들 중 하나 이상을 생성하기 위해 다양한 프로그래밍 언어들이 이용될 수 있다. 구체적인 예에서, 제3 자 애플리케이션(예를 들어, 특정 플랫폼의 공급업체가 아닌 다른 주체가 안드로이드™ 또는 IOS™ 소프트웨어 개발 키트(SDK)를 사용하여 개발한 애플리케이션)은 IOS™, 안드로이드™, 윈도우즈® 폰 또는 다른 모바일 운영 체제들과 같은 모바일 운영 체제에서 실행되는 모바일 소프트웨어일 수 있다. 이 예에서, 제3 자 애플리케이션은 본 명세서에 설명된 기능을 용이하게 하기 위해 운영 체제에 의해 제공되는 API 호출들을 발동할 수 있다. 애플리케이션들은 임의의 유형의 컴퓨터 판독 가능 매체 또는 컴퓨터 저장 디바이스에 저장될 수 있으며 하나 이상의 범용 컴퓨터들에서 실행될 수 있다. 또한, 본 명세서에 개시된 방법들 및 프로세스들은 대안적으로 특수 컴퓨터 하드웨어 또는 애플리케이션 특정 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 복합 프로그래머블 논리 소자(CPLD)에 구현될 수 있다.
[0105] 동 기술의 프로그램 양태들은 전형적으로 기계 판독 가능 매체의 유형에 탑재되거나 구현되는 실행 코드 또는 연관된 데이터 중 적어도 하나의 형태의 "제품들" 또는 "제조물들"로 생각될 수 있다. 예를 들어, 프로그래밍 코드에는 터치 센서 또는 본 명세서에 설명된 기타 기능들에 대한 코드가 포함될 수 있다. "저장" 유형 매체는 컴퓨터들, 프로세서들 등의 유형 메모리 또는 이에 연관된 모듈들, 예를 들어, 다양한 반도체 메모리들, 테이프 드라이브들, 디스크 드라이브들 등의 일부 또는 전부를 포함하며, 소프트웨어 프로그래밍을 위해 언제든지 비일시적 저장소를 제공할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 기타 다양한 통신 네트워크들을 통해 통신될 수 있다. 예를 들어, 그러한 통신들은 하나의 컴퓨터 또는 프로세서로부터 다른 컴퓨터 또는 프로세서로, 예를 들어, 서비스 제공자의 서버 시스템(698) 또는 호스트 컴퓨터로부터 클라이언트 디바이스들의 컴퓨터 플랫폼들로 소프트웨어를 로딩할 수 있게 할 수 있다. 따라서, 프로그래밍, 미디어 콘텐츠 또는 메타 데이터 파일들을 전달할 수 있는 또 다른 유형의 매체들에는 유선 및 광 지상통신 네트워크들을 통해 그리고 다양한 무선 링크들에 걸쳐 로컬 디바이스들 사이의 물리적 인터페이스들에서 사용되는 것과 같은 광학, 전기 및 전자기파들이 포함된다. 유선 또는 무선 링크들, 광학 링크들 등과 같이 이러한 전파들을 전달하는 물리적 요소들도 소프트웨어가 포함된 매체들로 간주될 수 있다. 본 명세서에서 사용되는 바와 같이, "비일시적", "유형적" 또는 "저장" 매체들로 제한되지 않는 한, 컴퓨터 또는 기계 "판독 가능 매체"와 같은 용어들은 실행을 위해 프로세서에 명령들 또는 데이터를 제공하는 데 기여하는 임의의 매체를 지칭한다.
[0106] 따라서, 기계 판독 가능 매체는 많은 형태들의 유형적 저장 매체를 취할 수 있다. 비휘발성 저장 매체들에는 예를 들어, 도면들에 도시된 클라이언트 디바이스, 매체들의 게이트웨이, 트랜스코더 등을 구현하는 데 사용될 수 있는 것과 같은 임의의 컴퓨터(들) 등의 저장 디바이스들 중 임의의 것과 같은 광학 디스크 또는 자기 디스크가 포함된다. 휘발성 저장 매체들은 그러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형적 송신 매체들에는 컴퓨터 시스템 내의 버스를 포함하는 전선들을 포함한 구리선 및 광섬유들; 동축 케이블들이 포함된다. 반송파 송신 매체들은 전기 또는 전자기 신호들 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신들 동안 생성되는 것들과 같은 음향 또는 광파들의 형태를 취할 수 있다. 따라서, 컴퓨터 판독 가능 매체들의 통상적인 형태들에는 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 종이 테이프, 구멍들의 패턴들이 있는 임의의 다른 물리적 저장 매체, RAM, PROM 및 EPROM, 플래시-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령들을 전달하는 반송파, 이러한 반송파를 전달하는 케이블들 또는 링크들 또는 컴퓨터가 프로그래밍 코드 또는 데이터 중 적어도 하나를 읽을 수 있는 임의의 다른 매체가 포함된다. 이러한 형태들의 컴퓨터 판독 가능 매체들 중 다수는 실행을 위해 하나 이상의 명령들의 하나 이상의 시퀀스들을 프로세서로 전달하는 데 관여할 수 있다.
[0107] 보호의 범위는 이제 이어지는 청구항들에 의해서만 제한된다. 그 범위는 본 명세서 및 이어지는 출원 경과에 비추어 해석될 때 청구항들에 사용된 언어의 통상적인 의미와 일치할 정도로 넓은 것으로, 그리고 모든 구조적 및 기능적 등가물들을 포함하는 것으로 해석될 수 있도록 의도되었으며, 또한 그렇게 해석되어야 한다. 그럼에도 불구하고, 청구항들 중 어느 것도 특허법 제101조, 제102조 또는 제103조의 요건을 충족하지 못하는 주제를 포함하도록 의도되지 않았으며, 그러한 방식으로 해석되어서도 안 된다. 그러한 주제의 의도하지 않은 포용은 이에 의해 부인된다.
[0108] 직전에 언급된 것을 제외하고, 기재되거나 예시된 어떠한 것도 임의의 구성요소, 단계, 특징, 목적, 이점, 혜택, 또는 이와 동등한 것이 청구항들에 기재되어 있는지 여부에 관계없이, 공중에게 헌납되도록 의도되거나 해석되어서는 안 된다.
[0109] 본 명세서에서 사용되는 용어들 및 표현들은, 본 명세서에서 특정한 의미들이 달리 규정된 경우를 제외하고, 대응하는 개개의 조사 및 연구 분야들과 관련하여 그러한 용어들 및 표현들에 부여되는 것과 같은 통상적인 의미들을 갖는 것으로 이해될 것이다. 제1, 제2 등과 같은 관계적 용어들은 그러한 개체들 또는 행위들 간에 임의의 실제 그러한 관계나 순서를 반드시 요구하거나 암시하지 않고 하나의 개체 또는 행위를 다른 개체 또는 행위와 구별하기 위해서만 사용될 수 있다. "포함하다", "포함하는" 또는 그 밖의 이들의 임의의 변형은 비-배타적 포함을 포함하기 위한 것으로, 요소들 또는 단계들의 목록을 포함하는 프로세스, 방법, 물품 또는 장치가 해당 요소들 또는 단계들만을 포함하지 않고 해당 프로세스, 방법, 물품 또는 장치에 명시적으로 나열되거나 내재되지 않은 다른 요소들 또는 단계들을 포함할 수 있다. 단수로 표현된 요소는, 추가적인 제약들 없이, 그 요소를 포함하는 프로세스, 방법, 물품 또는 장치에 추가적인 동일한 요소들의 존재를 배제하지 않는다.
[0110] 달리 명시되지 않는 한, 이하의 청구항들을 포함하여 본 명세서에 기재된 임의의 그리고 모든 측정들, 값들, 등급들, 포지션들, 규모들, 크기들 및 기타 사양들은 근사치이며, 정확한 것은 아니다. 이러한 수량들은 해당 수량들이 관련된 기능들 및 해당 기술 분야에서 통상적인 것과 일치하는 합리적인 범위를 갖도록 의도되었다. 예를 들어, 명시적으로 달리 언급되지 않는 한, 파라미터 값 등은 언급된 수량으로부터 ± 10 %만큼 다를 수 있다.
[0111] 또한, 전술한 발명을 실시하기 위한 구체적인 내용에서는, 본 개시의 간소화 목적으로 다양한 특징들이 다양한 예들에서 함께 그룹화되어 있음을 알 수 있다. 이러한 개시의 방법은 청구된 예들이 각각의 청구항에 명시적으로 기재된 것보다 더 많은 특징들을 필요로 한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 이하의 청구항들에서 알 수 있듯이, 보호해야 할 주제는 개시된 임의의 단일 예의 모든 특징들에 한정되지 않는다. 따라서, 이하의 청구항들은 발명을 실시하기 위한 구체적인 내용에 통합되며, 각각의 청구항은 개별적으로 청구되는 주제로서 독립적으로 존재한다.
[0112] 전술한 바와 같이, 최상의 모드 및 다른 예들로 간주되는 것을 설명하였으나, 다양한 수정들이 이루어질 수 있으며, 본 명세서에 개시된 주제는 다양한 형태들 및 예들로 구현될 수 있고, 수많은 적용예들에 적용될 수 있으며, 그 중 일부만이 본 명세서에 설명되었다는 것이 이해될 수 있다. 이하의 청구항들은 본 개념들의 진정한 범위 내에 속하는 임의의 및 모든 수정들 및 변형들을 청구하는 것을 목적으로 한다.

Claims (20)

  1. 사용자의 머리에 착용되도록 조정되는 전자 안경류 디바이스로서,
    디스플레이;
    사용자 주변의 시야 영역에서 장면을 캡처하도록 배열된 적어도 하나의 카메라;
    스캔 이미지를 캡처하기 위해 상기 적어도 하나의 카메라에 의해 상기 장면의 스캔을 시작하기 위한 스캔 개시 수단;
    명령들을 저장하는 메모리; 및
    프로세서를 포함하며,
    상기 프로세서는,
    상기 사용자 또는 상기 스캔 이미지 중 적어도 하나로부터 적어도 하나의 맥락 신호(contextual signal)를 추출하기 위해 상기 스캔 이미지를 처리하거나 상기 스캔 이미지를 이미지 처리 디바이스로 전송하는 동작;
    증강 현실 특징부 저장소로부터 적어도 하나의 추출된 맥락 신호와 일치하는 적어도 하나의 증강 현실 특징부를 선택하기 위해 상기 적어도 하나의 추출된 맥락 신호를 사용하거나 상기 적어도 하나의 추출된 맥락 신호를 상기 증강 현실 특징부 저장소로 전달하는 동작; 및
    적어도 하나의 선택된 증강 현실 특징부를 사용자가 선택할 수 있도록 상기 디스플레이에 제시하는 동작을 포함하는 동작들을 수행하기 위한 명령들을 수행하는, 전자 안경류 디바이스.
  2. 제1 항에 있어서,
    상기 프로세서는, 상기 적어도 하나의 추출된 맥락 신호를 상기 디스플레이에 제시하는 동작을 포함한 추가 동작들을 수행하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  3. 제1 항에 있어서,
    상기 적어도 하나의 추출된 맥락 신호는 사용자 주변의 시야 영역 또는 사용자로부터의 맥락 데이터 중 적어도 하나와 일치하는 증강 현실 특징부에 대한 검색을 안내하기 위해 상기 사용자 주변의 시야 영역 및 상기 사용자로부터의 맥락 데이터를 포함하는, 전자 안경류 디바이스.
  4. 제3 항에 있어서,
    상기 적어도 하나의 추출된 맥락 신호는 상기 스캔 이미지에 포함되는 객체 또는 장소의 유형 중 적어도 하나를 식별하는, 전자 안경류 디바이스.
  5. 제3 항에 있어서,
    상기 적어도 하나의 추출된 맥락 신호는 임의의 추적 객체들 또는 마커들이 상기 스캔 이미지에 위치하는지 여부를 식별하는, 전자 안경류 디바이스.
  6. 제1 항에 있어서,
    상기 스캔 개시 수단은 스캔 버튼을 가볍게 치는 것 또는 상기 스캔 버튼을 길게 누르는 것을 포함하는, 전자 안경류 디바이스.
  7. 제1 항에 있어서,
    상기 프로세서는, 배경 스캔이 시작되었음을 나타내기 위해 상기 디스플레이에 스캔 알림들을 제시하는 동작을 포함한 추가 동작들을 수행하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  8. 제1 항에 있어서,
    상기 프로세서는, 사용자 선택을 위해 증강 현실 특징부들의 캐러셀에서 상기 디스플레이에 상기 적어도 하나의 선택된 증강 현실 특징부를 제시하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  9. 제8 항에 있어서,
    상기 프로세서는, 상기 적어도 하나의 선택된 증강 현실 특징부를 상기 캐러셀 내의 임의의 다른 증강 현실 특징부와 구별하는 스캔 아이콘으로 상기 캐러셀 내의 상기 적어도 하나의 선택된 증강 현실 특징부를 배지(badge)하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  10. 제1 항에 있어서,
    상기 사용자로부터 음성 데이터를 캡처하는 마이크를 더 포함하며,
    상기 프로세서는,
    상기 사용자로부터 음성 데이터를 캡처하는 동작;
    상기 음성 데이터에서 적어도 하나의 키워드를 식별하기 위해 상기 캡처된 음성 데이터의 음성-텍스트 변환을 수행하거나, 상기 캡처된 음성 데이터를 음성 데이터 처리 디바이스로 전송하는 동작;
    증강 현실 특징부 저장소로부터 적어도 하나의 식별된 키워드와 일치하는 적어도 하나의 증강 현실 특징부를 선택하기 위해 상기 적어도 하나의 식별된 키워드를 사용하거나, 상기 적어도 하나의 식별된 키워드를 상기 증강 현실 특징부 저장소로 전달하는 동작; 및
    사용자 선택을 위해 상기 적어도 하나의 선택된 증강 현실 특징부를 상기 디스플레이에 제시하는 동작을 포함하는 동작들을 수행하기 위한 추가 명령들을 실행하는, 전자 안경류 디바이스.
  11. 제10 항에 있어서,
    상기 프로세서는, 상기 적어도 하나의 식별된 키워드를 상기 디스플레이에 제시하는 동작을 포함한 추가 동작들을 수행하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  12. 제10 항에 있어서,
    상기 프로세서는, 상기 스캔 개시 수단이 상기 장면의 스캔을 시작한 후 상기 사용자가 말을 했는지 여부를 결정하는 동작, 및 상기 장면의 스캔이 시작된 후 상기 사용자가 말을 한 경우, 상기 사용자로부터 음성 데이터를 캡처하고 상기 사용자가 상기 사용자의 음성 데이터에 기초하여 스캔 결과들을 볼 것임을 나타내는 음성 스캔 애니메이션을 상기 디스플레이 상에서 시작하는 동작을 포함한 추가 동작들을 수행하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  13. 제10 항에 있어서,
    상기 프로세서는,
    증강 현실 특징부 저장소로부터 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드와 일치하는 적어도 하나의 증강 현실 특징부를 선택하기 위해 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드를 사용하거나, 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드를 상기 증강 현실 특징부 저장소로 전달하는 동작; 및
    사용자 선택을 위해 상기 적어도 하나의 선택된 증강 현실 특징부를 상기 디스플레이에 제시하는 동작을 포함한 추가 동작들을 수행하기 위한 명령들을 실행하는, 전자 안경류 디바이스.
  14. 전자 안경류 디바이스의 디스플레이에 제시하기 위한 증강 현실 특징부들을 선택하는 방법으로서,
    스캔 이미지를 캡처하기 위해 상기 전자 안경류 디바이스의 적어도 하나의 카메라로 장면의 스캔을 시작하는 단계;
    사용자 또는 상기 스캔 이미지 중 적어도 하나로부터 적어도 하나의 맥락 신호를 추출하기 위해 상기 스캔 이미지를 처리하거나 상기 스캔 이미지를 이미지 처리 디바이스로 전송하는 단계;
    상기 사용자로부터 음성 데이터를 캡처하는 단계;
    상기 음성 데이터에서 적어도 하나의 키워드를 식별하기 위해 상기 캡처된 음성 데이터의 음성-텍스트 변환을 수행하거나, 상기 캡처된 음성 데이터를 음성 데이터 처리 디바이스로 전송하는 단계;
    증강 현실 특징부 저장소로부터 적어도 하나의 추출된 맥락 신호 및 적어도 하나의 식별된 키워드와 일치하는 적어도 하나의 증강 현실 특징부를 선택하기 위해 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드를 사용하거나, 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드를 상기 증강 현실 특징부 저장소로 전달하는 단계; 및
    사용자 선택을 위해 적어도 하나의 선택된 증강 현실 특징부를 상기 디스플레이에 제시하는 단계를 포함하는, 증강 현실 특징부들을 선택하는 방법.
  15. 제14 항에 있어서,
    상기 적어도 하나의 추출된 맥락 신호 또는 상기 적어도 하나의 식별된 키워드 중 적어도 하나를 상기 전자 안경류 디바이스의 디스플레이에 제시하는 단계를 더 포함하는, 증강 현실 특징부들을 선택하는 방법.
  16. 제14 항에 있어서,
    상기 적어도 하나의 선택된 증강 현실 특징부를 상기 디스플레이에 제시하는 단계는, 사용자 선택을 위해 증강 현실 특징부들의 캐러셀에 상기 적어도 하나의 선택된 증강 현실 특징부를 제시하는 단계를 포함하는, 증강 현실 특징부들을 선택하는 방법.
  17. 제16 항에 있어서,
    상기 적어도 하나의 선택된 증강 현실 특징부를 상기 캐러셀 내의 임의의 다른 증강 현실 특징부와 구별하는 스캔 아이콘으로 상기 캐러셀 내의 상기 적어도 하나의 선택된 증강 현실 특징부를 배징하는 단계를 더 포함하는, 증강 현실 특징부들을 선택하는 방법.
  18. 제14 항에 있어서,
    상기 장면의 스캔이 시작된 후 사용자가 말을 했는지 여부를 결정하는 단계, 및 상기 장면의 스캔이 시작된 후 상기 사용자가 말을 한 경우, 상기 사용자로부터 음성 데이터를 캡처하는 단계 및 상기 사용자가 상기 사용자의 음성 데이터에 기초하여 스캔 결과들을 볼 것임을 나타내는 음성 스캔 애니메이션을 상기 디스플레이 상에서 시작하는 단계를 더 포함하는, 증강 현실 특징부들을 선택하는 방법.
  19. 명령들을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 명령들은, 적어도 하나의 프로세서에 의해 실행될 때 상기 프로세서가,
    스캔 이미지를 캡처하기 위해 전자 안경류 디바이스의 적어도 하나의 카메라에 의해 장면의 스캔을 시작하는 동작;
    사용자 또는 상기 스캔 이미지 중 적어도 하나로부터 적어도 하나의 맥락 신호를 추출하기 위해 상기 스캔 이미지를 처리하거나 상기 스캔 이미지를 이미지 처리 디바이스로 전송하는 동작;
    상기 사용자로부터 음성 데이터를 캡처하는 동작;
    상기 음성 데이터에서 적어도 하나의 키워드를 식별하기 위해 상기 캡처된 음성 데이터의 음성-텍스트 변환을 수행하거나, 상기 캡처된 음성 데이터를 음성 데이터 처리 디바이스로 전송하는 동작;
    증강 현실 특징부 저장소로부터 적어도 하나의 추출된 맥락 신호 및 적어도 하나의 식별된 키워드와 일치하는 적어도 하나의 증강 현실 특징부를 선택하기 위해 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드를 사용하거나, 상기 적어도 하나의 추출된 맥락 신호 및 상기 적어도 하나의 식별된 키워드를 상기 증강 현실 특징부 저장소로 전달하는 동작; 및
    사용자 선택을 위해 적어도 하나의 선택된 증강 현실 특징부를 디스플레이에 제시하는 동작을 포함하는 동작들을 수행함으로써, 전자 안경류 디바이스의 디스플레이에 제시하기 위한 증강 현실 특징부들을 선택하도록 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  20. 제19 항에 있어서,
    상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 프로세서가 상기 적어도 하나의 추출된 맥락 신호 또는 상기 적어도 하나의 식별된 키워드 중 적어도 하나를 상기 전자 안경류 디바이스의 디스플레이에 제시하도록 하는 명령들을 더 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020237043214A 2021-05-19 2022-05-12 전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색 KR20240009984A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163190613P 2021-05-19 2021-05-19
US63/190,613 2021-05-19
PCT/US2022/028985 WO2022245629A1 (en) 2021-05-19 2022-05-12 Contextual visual and voice search from electronic eyewear device

Publications (1)

Publication Number Publication Date
KR20240009984A true KR20240009984A (ko) 2024-01-23

Family

ID=81928064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237043214A KR20240009984A (ko) 2021-05-19 2022-05-12 전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색

Country Status (5)

Country Link
US (1) US20220375172A1 (ko)
EP (1) EP4341779A1 (ko)
KR (1) KR20240009984A (ko)
CN (1) CN117321547A (ko)
WO (1) WO2022245629A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11933986B2 (en) * 2022-03-11 2024-03-19 Bank Of America Corporation Apparatus and methods to extract data with smart glasses

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10209955B2 (en) * 2013-11-15 2019-02-19 Kopin Corporation Automatic speech recognition (ASR) feedback for head mounted displays (HMD)
CN108369630A (zh) * 2015-05-28 2018-08-03 视觉移动科技有限公司 用于智能家居的手势控制***和方法
US10045001B2 (en) * 2015-12-04 2018-08-07 Intel Corporation Powering unpowered objects for tracking, augmented reality, and other experiences
RU2632144C1 (ru) * 2016-05-12 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Компьютерный способ создания интерфейса рекомендации контента
CN111654473B (zh) * 2016-12-13 2022-07-19 创新先进技术有限公司 基于增强现实的虚拟对象分配方法及装置
AU2018256365A1 (en) * 2017-04-19 2019-10-31 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
US10712901B2 (en) * 2018-06-27 2020-07-14 Facebook Technologies, Llc Gesture-based content sharing in artificial reality environments
US11609675B2 (en) * 2018-12-19 2023-03-21 Google Llc Placement of objects in an augmented reality environment

Also Published As

Publication number Publication date
CN117321547A (zh) 2023-12-29
EP4341779A1 (en) 2024-03-27
WO2022245629A1 (en) 2022-11-24
US20220375172A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
EP4172726A1 (en) Augmented reality experiences using speech and text captions
US9342610B2 (en) Portals: registered objects as virtualized, personalized displays
US9255813B2 (en) User controlled real object disappearance in a mixed reality display
CN105009039A (zh) 使用imu的直接全息图操纵
US11610607B1 (en) Video highlights with user viewing, posting, sending and exporting
US20240135926A1 (en) Voice-controlled settings and navigation
US20220375172A1 (en) Contextual visual and voice search from electronic eyewear device
US20230068730A1 (en) Social connection through distributed and connected real-world objects
US11538499B1 (en) Video highlights with auto trimming
KR20230070308A (ko) 웨어러블 장치를 이용한 제어가능한 장치의 위치 식별
US11886646B2 (en) Personalized calibration of user interfaces
US20240095086A1 (en) Mobile device resource optimized kiosk mode
US20230274547A1 (en) Video highlights with user trimming
US20230060838A1 (en) Scan-based messaging for electronic eyewear devices
US11982808B2 (en) Extended field-of-view capture of augmented reality experiences
US20230069328A1 (en) Snapshot messages for indicating user state
US20240069843A1 (en) Extending user interfaces of mobile apps to ar eyewear
US20240231558A9 (en) Digital assistant interactions in extended reality
EP4396648A1 (en) Scan-based messaging for electronic eyewear devices
EP4396651A1 (en) Snapshot messages for indicating user state
EP4396650A1 (en) Social connection through distributed and connected real-world objects