KR102323232B1

KR102323232B1 - 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템

Info

Publication number: KR102323232B1
Application number: KR1020190082147A
Authority: KR
Inventors: 쉬첸 야오
Original assignee: 바이두 유에스에이 엘엘씨
Priority date: 2018-12-28
Filing date: 2019-07-08
Publication date: 2021-11-05
Also published as: CN111383635A; JP2020109463A; KR20200083155A; US20200211542A1; US11151993B2

Abstract

스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신한다. 상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정한다. 상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화한다.

Description

시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템{Method and System for Activating Voice Commands of a Smart Display Device based on a Vision-based Mechanism}

본 발명의 실시예는 일반적으로 스마트 표시 장치에 관한 것이다. 더 구체적으로, 본 발명의 실시예는 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 것에 관한 것이다.

구글 홈(Google Home) 스마트 디스플레이 또는 아마존 에코 쇼(Amazon Echo Show) 등과 같은 스마트 표시 장치는 음성 조수 스마트 스피커일 수 있고, 해당 스피커는 통합된 디스플레이 또는 터치 스크린 디스플레이를 포함하여 사용자에게 정보를 나타낸다. 스마트 표시 장치의 사용자로부터의 음성 명령을 통하거나 터치 스크린 디스플레이를 경유한 명령의 물리적 입력을 통해, 명령 및 명령어는 스마트 표시 장치에 제공된다. 다음, 수신된 명령을 기반으로, 스마트 표시 장치의 디스플레이는 디스플레이를 경유하여 사용자에게 정보를 나타낸다.

본 발명의 일 실시예는 특징을 기반으로 스마트 표시 장치를 제어하기 위한 컴퓨터 구현 방법을 개시한다. 상기 방법은, 스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신하는 단계; 상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계; 및 상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화하는 단계를 포함한다.
본 발명의 일 실시예는 비일시적인 기계 판독 가능한 매체를 개시한다. 상기 비일시적인 기계 판독 가능한 매체에 명령어가 저장되고, 상기 명령어가 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 조작을 수행하도록 하며, 상기 조작은, 스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신하는 단계; 상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계; 및 상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화하는 단계를 포함한다.
본 발명의 일 실시예는 시스템을 개시한다. 상기 시스템은 프로세서; 및 메모리를 포함하되, 상기 메모리는 명령어를 저장하도록 상기 프로세서에 연결되고, 상기 명령어가 상기 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 조작을 수행하도록 하며, 상기 조작은, 스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신하는 단계; 상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계; 및 상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화하는 단계를 포함한다.

본 발명의 실시예는 첨부된 도면의 각 도면에서 한정적이 아니고 예를 드는 방식으로 도시되고, 도면의 유사한 첨부기호가 유사한 부품을 가리킨다.
도1은 일 실시예에 따른 스마트 표시 장치의 디스플레이 제어기의 예시를 나타내는 블록도이다.
도2는 실시예에 따른 알고리즘 제어 모듈에 제공되어 스마트 표시 장치의 기록 장치를 활성화할지 여부를 확정하는 특징의 예시의 도시이다.
도3은 일 실시예에 따른 스마트 표시 장치의 로컬 모델을 생성하는 프로세스를 나타내는 흐름도이다.
도4는 일 실시예에 따른 이미지에 존재하는 얼굴을 기반으로 스마트 표시 장치의 기록 장치를 활성화할 것을 확정하는 프로세스를 나타내는 흐름도이다.
도5는 일 실시예에 따른 데이터 처리 시스템을 나타내는 블록도이다.

이하, 기술된 세부 사항들을 참조하여 본 발명의 다양한 실시예와 방면에 대해 설명하기로 하는 바, 첨부된 도면은 상기 다양한 실시예를 나타낸다. 이하의 설명과 도면은 본 발명에 대한 설명일 뿐, 본 발명을 한정하는 것으로 해석하여서는 아니된다. 본 발명의 다양한 실시예들에 대한 완전한 이해를 제공하기 위해 대량의 특정된 세부 사항들에 대해 설명하였다. 그러나, 일부 상황에서는, 본 발명의 실시예에 대한 간결한 기술을 제공하기 위해 널리 알려져 있거나 관습적인 세부 사항에 대해서는 설명하지 않는다.

본 명세서에 있어서, "일 실시예" 또는 "실시예"에 대한 언급은 해당 실시예를 결합하여 설명한 특정의 특징, 구조 또는 특징이 본 발명의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 본 발명의 여러 곳에 나타난 문구 "일 실시예에 있어서"는 전부 동일한 실시예를 가리켜야만 하는 것이 아니다.

따라서, 본 발명의 실시예는 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 스마트 표시 장치를 제공한다. 정상적인 상황에서, 이른바 웨이크 단어(wake word)를 이용함으로써 스마트 표시 장치는 활성화된다. 스마트 표시 장치에 음성 명령을 제공하는 사용자에 있어서, 사용자는 스마트 표시 장치를 활성화하는 웨이크 단어를 먼저 진술하고, 이어서 원하는 명령을 진술할 필요가 있다. 예를 들어, 사용자는 스마트 표시 장치가 날씨를 표시하기를 원할 경우, "알렉사(Alexa), 오늘 날씨가 어떻습니까?"라고 할 수 있다. 웨이크 단어(예를 들어, 알렉사)를 확인하자 마자, 스마트 표시 장치는 사용자의 명령을 기반으로 임무를 활성화하고 수행할 수 있다. 예를 들어, 날씨를 조회하고 날씨를 사용자에게 나타낼 수 있다.

그러나, 스마트 표시 장치에 다수의 명령을 제공하는 사용자에 대해, 사용자는 각 개별 명령 앞에 웨이크 단어를 사용할 필요가 있다. 이런 프로세스는 번거롭고, 불량한 사용자 체험을 유발할 가능성이 있다. 또한, 사용자가 각 명령 앞에 웨이크 단어를 사용하는 것을 잊을 수 있으므로, 사용자는 스마트 표시 장치로 명령을 반복할 필요가 있다.

발명의 시스템의 실시예 및 방법은, 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 기록 장치를 활성화할지 여부를 확정함으로써 해당 임무의 해결 방안을 제공한다. 스마트 표시 장치는 광 캡처 장치(예를 들어, 카메라)를 포함할 수 있고, 광 캡처 장치는 스마트 표시 장치의 주변 환경의 하나 또는 다수의 이미지를 캡처할 수 있다. 예를 들어, 카메라는 비디오를 캡처할 수 있고, 해당 비디오는 스마트 표시 장치 앞의 환경의 일련의 이미지를 포함한다. 광 캡처 장치는 이미지를 스마트 표시 장치의 기록 제어기에 제공한다.

기록 제어기는 광 캡처 장치에서 수신된 이미지에 얼굴이 존재하는지 여부를 확정한다. 광 캡처 장치에 의해 수신된 이미지에 존재하는 얼굴은, 사용자가 스마트 표시 장치를 사용하고 있는 것을 지시할 수 있다. 실시예에 있어서, 기록 제어기는 이미지의 추가 특징(예를 들어, 이미지에 존재하는 얼굴의 심도 및 이미지에 존재하는 얼굴의 응시 방향)을 확정할 수 있다. 이미지에 존재하는 얼굴을 기반으로, 기록 제어기는 스마트 표시 장치의 기록 장치를 활성화할지 여부를 확정할 수 있다. 예를 들어, 기록 제어기는 기록 장치를 통해 음성 인식을 활성화할 수 있다. 음성 인식이 활성화되자 마자, 기록 장치는 사용자로부터 음성 명령을 수신할 수 있으며, 해당 음성 명령은 음성 분석(예를 들어, 음성 인식) 및 음성 명령에 기반하는 임무의 후속 수행을 위해 스마트 표시 장치에 제공된다.

따라서, 스마트 표시 장치에 의해 캡처된 이미지 내 얼굴의 존재를 이용함으로써, 스마트 표시 장치의 기록 제어기는 스마트 표시 장치의 음성 인식을 활성화할 시기를 지능적으로 확정할 수 있다. 음성 인식을 활성화할 시기를 지능적으로 확정함으로써, 사용자는 스마트 표시 장치에 음성 명령을 제공하기 전에 웨이크 단어를 더 이상 사용할 필요가 없고, 따라서, 사용자 체험을 개선시킨다. 또한, 스마트 표시 장치의 음성 인식을 지능적으로 활성화/비활성화하는 것은 사용자가 존재하지 않을 때 음성 인식의 활성화를 방지할 수 있고, 따라서, 스마트 표시 장치의 전력 소비량을 감소시킨다.

도1은 일 실시예에 따른 스마트 표시 장치(100)의 디스플레이 제어기의 예시를 나타내는 블록도이다. 도1을 참조하면, 스마트 표시 장치(100)는 광 캡처 장치(105) 및 기록 장치(150)에 작동적으로 연결된 기록 제어기(110)를 포함하나, 이에 한정되지 않는다. 기록 제어기(110)는 소프트웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 기록 제어기(110)의 적어도 일부 부품은 메모리(예를 들어, 동적 RAM(DRAM) 등과 같은 랜덤 액세스 메모리(RAM))에 로딩되고, 스마트 표시 장치(100; 미도시)의 하나 또는 다수의 프로세서(예를 들어, 중앙 처리 장치(CPU) 또는 범용 처리 장치(GPU) 등과 같은 마이크로 프로세서)의 처리 논리에 의해 실행될 수 있다.

광 캡처 장치(105)는 입사광을 이미지로 캡처하고, 캡처된 광에 대응되는 신호를 기록 제어기(110)에 송신하도록 구성될 수 있다. 실시예에 있어서, 광 캡처 장치(105)는 기록 제어기(110)에 작동적으로 연결된 카메라일 수 있다. 실시예에 있어서, 광 캡처 장치(105)는 단일 카메라일 수 있다. 일부 실시예에 있어서, 광 캡처 장치(105)는 다수의 카메라일 수 있다.

기록 제어기(110)는 얼굴 검출 모듈(115)을 포함할 수 있다. 얼굴 검출 모듈(115)은 이미지에 존재하는 하나 또는 다수의 얼굴을 확인하도록 구성될 수 있다. 실시예에 있어서, 얼굴 검출 모듈(115)은 이미지 내의 얼굴의 윤곽 박스 및 윤곽 박스가 이미지 내의 얼굴에 대응되는 신뢰 수준을 출력할 수 있다. 일부 실시예에 있어서, 스마트 표시 장치(100)에 저장된 로컬 모델(130)을 기반으로, 얼굴 검출 모듈(115)은 이미지에 얼굴이 존재하는 것을 확정할 수 있다. 예를 들어, 얼굴 검출 모듈(115)은 이미지에 존재하는 주장된 얼굴과 로컬 모델(130)에 대해 비교를 진행하여, 이미지에 존재하는 얼굴은 사실 사용자의 얼굴인지 여부를 확정할 수 있다. 실시예에 있어서, 아래의 도3에 진일보로 상세히 설명된 바와 같이, 로컬 모델(130)은 스마트 표시 장치(100)에 의해 전에 등록되고 훈련된 사용자의 이미지에 대응될 수 있다.

일부 실시예에 있어서, 얼굴 검출 모듈(115)은 한 세트의 사용자 중의 특정한 사용자를 확인하도록 구성될 수 있다. 이 세트의 사용자 중의 각각은 로컬 모델(130)에서 사용될 하나 또는 다수의 이미지를 제공하여, 이미지 중의 각 사용자를 차후 확인할 수 있다. 예를 들어, 사용자 A가 이미지에 존재할 경우, 얼굴 검출 모듈(115)은 확률적 분류 임무를 통해, 사용자 A가 이미지에 존재하는 것을 확인할 수 있다.

기록 제어기(110)는 심도 계산 모듈(120)을 더 포함할 수 있다. 심도 계산 모듈(120)은 이미지 중 얼굴의 심도를 확정하도록 구성될 수 있다. 얼굴의 심도는 얼굴과 스마트 표시 장치(100)의 광 캡처 장치(105) 사이의 거리에 대응될 수 있다. 일부 실시예에 있어서, 심도 계산 모듈(120)은 다수의 카메라를 이용하여 이미지에 존재하는 얼굴의 심도를 확정할 수 있다. 예를 들어, 제1 카메라에 의해 캡처된 제1 이미지와 제2 카메라에 의해 동시에 캡처된 제2 이미지에 대해 비교를 진행하여 이미지 내 얼굴의 심도를 확정할 수 있다. 단일 카메라를 포함하는 실시예에 있어서, 심도 계산 모듈(120)은 물체가 차지하는 이미지의 부분을 확정함으로써 물체에서 카메라까지의 거리를 근사적으로 계산할 수 있다. 예를 들어, 인물의 얼굴이 이미지의 80%를 차지할 경우, 심도 계산 모듈(120)은 인물이 카메라에 매우 가까운 것을 근사적으로 계산할 수 있다.

기록 제어기(110)는 응시 검출 모듈(125)을 포함할 수 있다. 응시 검출 모듈(125)은 이미지 중의 얼굴이 광 캡처 장치(105) 또는 스마트 표시 장치(100)를 바라보고 있는지를 검출하도록 구성될 수 있다. 실시예에 있어서, 응시 검출 모듈(125)은 하나 또는 다수의 알고리즘을 이용하여 이미지 중 얼굴의 눈의 위치를 검출할 수 있다. 다음, 응시 검출 모듈(125)은, 얼굴의 눈이 광 캡처 장치(105) 또는 스마트 표시 장치(100)를 향하는 방향으로 바라보고 있는지를 확정할 수 있다.

실시예에 있어서, 얼굴 검출 모듈(115), 심도 계산 모듈(120) 및/또는 응시 검출 모듈(125)은 병행으로 작동될 수 있다. 일부 실시예에 있어서, 얼굴 검출 모듈(115), 심도 계산 모듈(120) 및/또는 응시 검출 모듈(125)은 순서에 따라 작동될 수 있다. 예를 들어, 얼굴 검출 모듈(115)은 심도 계산 모듈(120)에 데이터를 제공할 수 있고, 심도 계산 모듈(120)은 응시 검출 모듈(125)에 데이터를 제공할 수 있다.

기록 장치(150)는 전해지는 사운드(예를 들어, 음성 명령)를 캡처하도록 구성될 수 있다. 실시예에 있어서, 기록 장치(150)는 기록 제어기(110)에 작동적으로 연결된 마이크로폰일 수 있다. 실시예에 있어서, 기록 장치(150)는 단일 마이크로폰일 수 있다. 일부 실시예에 있어서, 기록 장치(150)는 다수의 마이크로폰일 수 있다. 예를 들어, 기록 장치(150)는 마이크로폰 어레이일 수 있고, 해당 마이크로폰 어레이는 선형, 삼각형, 사각형 또는 원형 레이아웃으로 배열된 2~8 개의 마이크로폰을 포함한다.

기록 제어기(110)는 알고리즘 제어 모듈(135)을 더 포함할 수 있다. 알고리즘 제어 모듈(135)은 얼굴 검출 모듈(115), 심도 계산 모듈(120) 및/또는 응시 검출 모듈(125)에서 데이터를 수신할 수 있다. 알고리즘 제어 모듈(135)은 수신된 데이터를 기반으로 스마트 표시 장치(100)의 기록 장치(150)를 활성화 또는 비활성화할지 여부를 확정하도록 구성될 수 있다. 실시예에 있어서, 알고리즘 제어 모듈(135)은 기계 학습 모델을 이용하여 기록 장치(150)를 활성화 또는 비활성화할지 여부를 확정하고 신뢰 점수를 확정할 수 있다. 실시예에 있어서, 기계 학습 모델은 원격 서버(예를 들어, 클라우드 기반의 플랫폼)에서 수신될 수 있다. 알고리즘 제어 모듈(135)이 이용할 수 있는 기계 학습 모델의 예시는 선형 모델, 비선형 모델, 얕은 모델 및 심층 모델을 포함하나, 이에 한정되지 않는다. 제어 알고리즘 모듈(135)이 기록 장치(150)를 활성화/비활성화할 것을 확정할 때, 기록 제어기(110)는 기록 장치(150)에 신호를 송신함으로써 진행된 확정을 기반으로 기록 장치(150)를 활성화할 수 있다.

도2는 실시예에 따른 알고리즘 제어 모듈에 제공되어 스마트 표시 장치의 기록 장치를 활성화할지 여부를 확정하는 특징의 예시의 도시(200)이다. 전술한 바와 같이, 광 캡처 장치에서 수신된 하나 또는 다수의 이미지와 관련된 특징은 알고리즘 제어 모듈(135)에 제공될 수 있다. 알고리즘 제어 모듈(135)은 수신된 특징을 기계 학습 모델의 입력으로 사용할 수 있고, 기계 학습 모델은 스마트 표시 장치(150)의 기록 장치를 활성화할지 여부를 확정할 수 있다. 각 특징은 기록 장치(150)를 활성화할지 여부에 대한 기계 학습 모델의 확정에 영향을 미칠 수 있다.

블록(210)에서, 전술한 바와 같이, 기록 제어기는 이미지에 얼굴이 존재하는지 여부를 확정할 수 있다. 알고리즘 제어 모듈(135)은 이미지 중 얼굴의 존재를 이용하여 기록 장치(150)를 활성화할지 여부를 확정할 수 있다. 예를 들어, 얼굴이 이미지에 존재할 경우, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 증가될 수 있다.

블록(215)에서, 기록 제어기는 이미지 중 얼굴의 심도를 확정할 수 있다. 알고리즘 제어 모듈(135)은 이미지 중 얼굴의 심도를 이용하여 기록 장치(150)를 활성화할지 여부를 확정할 수 있다. 실시예에 있어서, 이미지 중의 얼굴에서 스마트 표시 장치까지의 거리가 역치 거리보다 적을 경우, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 증가될 수 있다. 예를 들어, 사용자의 얼굴이 스마트 표시 장치부터 2피트의 역치 거리 내에 있고, 이는 사용자가 아마 스마트 표시 장치를 사용하고 있는 것을 지시할 경우, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 증가될 수 있다. 일부 실시예에 있어서, 이미지 중 얼굴에서 스마트 표시 장치까지의 거리가 역치 거리를 초과할 경우, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 감소될 수 있다. 예를 들어, 사용자의 얼굴에서 스마트 표시 장치까지의 거리가 20피트의 역치보다 클 경우, 해당 사용자는 스마트 표시 장치를 사용하고 있지 않을 수 있다. 따라서, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 감소될 수 있다.

블록(220)에서, 기록 제어기는 이미지 중 얼굴의 응시 방향을 확정할 수 있다. 알고리즘 제어 모듈(135)은 이미지 중 얼굴의 응시 방향을 이용하여 기록 장치(150)를 활성화할지 여부를 확정할 수 있다. 예를 들어, 이미지 중 얼굴의 응시 방향이 스마트 표시 장치를 향하는 방향이고, 이는 사용자가 아마 스마트 표시 장치의 기록 장치(150)를 사용하고 있는 것을 지시할 경우, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 증가될 수 있다. 그러나, 이미지 중 얼굴의 응시 방향이 스마트 표시 장치를 향하는 방향이 아니고, 이는 인물이 스마트 표시 장치의 기록 장치(150)를 사용하지 않을 수 있는 것을 지시할 경우, 알고리즘 제어 모듈(135)이 기록 장치(150)를 활성화할 것을 확정하는 확률은 감소될 수 있다.

비록 도시(200)는 기록 장치(150)를 활성화할지 여부를 확정하기 위한 블록(210), 블록(215) 및 블록(220)의 특징을 포함하지만, 실시예에 있어서, 다소간의 특징을 이용하여 기록 장치(150)를 활성화할지 여부를 확정할 수 있음을 유의하여야 한다.

도3은 일 실시예에 따른 스마트 표시 장치의 로컬 모델을 생성하는 프로세스(300)를 나타내는 흐름도이다. 프로세스(300)는 처리 논리에 의해 수행될 수 있고, 처리 논리는 소프트웨어, 하드웨어 또는 이들의 조합을 포함할 수 있다. 예를 들어, 프로세스(300)의 하나 또는 다수의 조작은 도1의 기록 제어기(110)에 의해 수행될 수 있다.

도3을 참조하면, 조작(305)에서, 처리 논리는 광 캡처 장치에서 이미지를 수신한다. 사용자의 얼굴이 수신된 이미지에 존재할 수 있다. 조작(310)에서, 처리 논리는 스마트 표시 장치에 저장된 하나 또는 다수의 로컬 모델을 식별한다. 전에 도1에 설명된 바와 같이, 로컬 모델은 로컬 모델(130)에 대응될 수 있다.

조작(315)에서, 처리 논리는 조작(305)에서 수신된 이미지가 새로운 얼굴을 포함하는지 여부를 확정한다. 처리 논리는 수신된 이미지 중의 얼굴과 하나 또는 다수의 로컬 모델에 대해 비교를 진행하여, 이미지가 새로운 얼굴을 포함하는지 여부를 확정할 수 있다. 예를 들어, 수신된 이미지에 존재하는 얼굴이 상술한 로컬 모델들 중의 하나에 대응되지 않을 경우, 해당 이미지는 스마트 장치에 등록되지 않는 새로운 얼굴을 포함할 수 있다. 이미지가 새로운 얼굴을 포함하지 않을 경우, 프로세스(300)는 조작(305)으로 돌아가, 후속 이미지를 수신할 수 있다.

이미지가 새로운 얼굴을 포함할 경우, 조작(320)에서, 처리 논리는 스마트 표시 장치의 보안 자격증명을 수신한다. 예를 들어, 처리 논리는 스마트 표시 장치의 사용자가 스마트 표시 장치의 사용자 이름 및 비밀 번호 또는 스마트 표시 장치의 임의 기타 유형의 보안 자격증명을 입력하도록 제시할 수 있다. 보안 자격증명이 수신되자 마자, 스마트 표시 장치는 새로운 사용자를 스마트 표시 장치의 사용자로 등록할 수 있다. 새로운 사용자를 등록하는 단계는, 새로운 사용자에게 사용자 이름을 분배하는 단계, 새로운 사용자에게 권한을 분배하는 단계, 새로운 사용자에게 선호 사항을 전달하는 단계 등을 포함할 수 있다.

일부 실시예에 있어서, 사용자가 스마트 표시 장치에 보안 자격증명을 제공하지 못할 경우, 사용자는 게스트 모드로 스마트 표시 장치를 사용할 수 있다. 게스트 모드로 작동할 때, 해당 사용자는 등록된 사용자에 비해 더 낮은 권한 수준을 구비할 수 있다. 예를 들어, 게스트 모드로 작동할 때, 사용자는 날씨 또는 뉴스에 액세스할 수 있지만, 스마트 표시 장치에 저장된 개인 정보에 액세스하거나 구매를 진행하지 못할 수 있다.

조작(325)에서, 처리 논리는 다른 사용자를 스마트 표시 장치에 등록할지 여부를 확정한다. 사용자에게 다른 사용자를 등록할지를 문의하도록 프롬프트(예를 들어, 음성 프롬프트 또는 스마트 표시 장치의 디스플레이 상의 프롬프트)를 제공함으로써, 처리 논리는 다른 사용자를 등록할지를 확정할 수 있다. 다른 사용자를 등록할 경우, 프로세스(300)는 조작(305)으로 돌아가, 다른 사용자에 대해 프로세스(300)를 반복한다.

스마트 표시 장치에 등록될 기타 사용자가 없을 경우, 조작(330)에서, 스마트 표시 장치의 처리 논리는 새로운 사용자의 로컬 모델을 스마트 표시 장치의 처리 논리에 의해 훈련한다. 일부 실시예에 있어서, 이미지는 원격 서버 (예를 들어, 클라우드 기반의 플랫폼)에 제공될 수 있으며, 원격 서버는 새로운 사용자의 로컬 모델을 훈련하고, 훈련된 로컬 모델을 스마트 표시 장치에 송신할 수 있다. 이미지가 원격 서버에 제공되기 전에, 로컬 모델을 생성하고 훈련하기 위해, 스마트 표시 장치는 이미지를 원격 서버에 제공하도록 사용자의 허가를 획득할 수 있다. 다음, 전에 도1에 설명된 바와 같이, 훈련된 로컬 모델은 스마트 표시 장치에 의해 사용될 수 있다.

도4는 일 실시예에 따른 이미지에 존재하는 얼굴을 기반으로 스마트 표시 장치의 기록 장치를 활성화할 것을 확정하는 프로세스(400)를 나타내는 흐름도이다. 프로세스(400)는 처리 논리에 의해 수행될 수 있고, 처리 논리는 소프트웨어, 하드웨어 또는 이들의 조합을 포함할 수 있다. 예를 들어, 프로세스(400)는 도1의 기록 제어기(110)에 의해 수행될 수 있다. 도4를 참조하면, 조작(401)에서, 처리 논리는 스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신한다. 조작(402)에서, 이미지에 존재하는 얼굴을 기반으로, 처리 논리는 스마트 표시 장치와 관련된 기록 장치를 활성화할지 여부를 확정한다. 조작(403)에서, 이미지에 존재하는 얼굴을 기반으로 기록 장치를 활성화할 것이 확정됨에 응답하여, 처리 논리는 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화한다. 음성 인식이 활성화되자 마자, 기록 장치는 사용자로부터 음성 명령을 수신할 수 있으며, 해당 음성 명령은 음성 분석(예를 들어, 음성 인식) 및 음성 명령에 기반하는 임무의 후속 수행을 위해 처리 논리에 송신될 수 있다.

일부 실시예에 있어서, 처리 논리는 광 캡처 장치에서 하나 또는 다수의 이미지를 수신할 수 있다. 후속 이미지를 수신하자 마자, 처리 논리는후속 이미지에 얼굴이 존재하는지 여부를 확정할 수 있다. 후속 이미지에 얼굴이 존재하지 않을 경우, 처리 논리는 기록 장치를 비활성화할 수 있다. 예를 들어, 사용자의 얼굴이 후속 이미지에 더 이상 존재하지 않을 경우, 사용자는 스마트 표시 장치를 더 이상 사용하지 않을 수 있다. 따라서, 처리 논리는 기록 장치를 비활성화할 것을 확정할 수 있다.

도5는 본 발명의 일 실시예와 함께 사용될 수 있는 데이터 처리 시스템의 예시를 나타내는 블록도이다. 예를 들어, 시스템(1500)은 상술한 상기 프로세스 또는 방법 중의 임의의 하나를 수행하는 임의 데이터 처리 시스템을 표시할 수 있고, 예를 들어, 상술한 클라이언트 장치 또는 서버, 또는 상술한 도1의 스마트 표시 장치(100) 등을 표시할 수 있다.

시스템(1500)은 다수의 상이한 부품을 포함할 수 있다. 이러한 부품들은 집적 회로(IC), 집적 회로의 일부분, 분리된 전자 장치 또는 회로판(예를 들어, 컴퓨터 시스템의 메인보드 또는 플러그인 카드)에 적합한 기타 모듈로 구현될 수 있거나, 또는 기타 방식으로 컴퓨터 시스템의 섀시 내에 통합된 부품으로 구현될 수 있다.

시스템(1500)은 컴퓨터 시스템의 다수의 부품의 고차적 도면을 도시하는 것을 목적으로 함을 더 유의하여야 한다. 그러나, 일부 실시예에서 추가 부품이 존재할 수 있고, 또한, 기타 실시예에서는 도시된 부품의 상이한 배치가 나타날 수 있다는 것을 이해하여야 한다. 시스템(1500)은 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 서버, 이동 전화, 미디어 플레이어, 개인용 휴대 단말기(PDA), 스마트워치, 개인 휴대 통신기, 게임 장치, 네트워크 라우터 또는 허브, 무선 액세스 포인트(AP) 또는 리피터, 셋탑 박스, 또는 이들의 조합을 표시할 수 있다. 또한, 오직 하나의 기계 또는 시스템만 도시하였으나, 용어 "기계" 또는 "시스템"은 단독적으로 또는 공동으로 하나(또는 다수)의 명령어 집합을 실행하여 본 명세서에 설명된 임의의 하나 또는 다수의 방법을 수행하는 기계 또는 시스템의 임의의 집합을 포함한다는 것으로도 이해되어야 한다.

일 실시예에 있어서, 시스템(1500)은 버스 또는 인터커넥트(1510)를 통하여 연결된 프로세서(1501), 메모리(1503) 및 장치(1505-1508)를 포함한다. 프로세서(1501)는 하나의 프로세서 코어 또는 다수의 프로세서 코어를 포함하는 하나의 프로세서 또는 다수의 프로세서를 표시할 수 있다. 프로세서(1501)는 하나 또는 다수의 범용 프로세서를 표시할 수 있고, 예를 들어, 마이크로 프로세서, 중앙 처리 장치(CPU) 등을 표시할 수 있다. 더 구체적으로, 프로세서(1501)는 복잡 명령어 집합 컴퓨팅(CISC) 마이크로 프로세서, 축소 명령어 집합 컴퓨팅(RISC) 마이크로 프로세서, 훨씬 긴 명령어(VLIW) 마이크로 프로세서, 또는 기타 명령어 집합을 실현하는 프로세서, 또는 명령어 집합의 조합을 실현하는 프로세서일 수 있다. 프로세서(1501)는 하나 또는 다수의 전용 프로세서일 수도 있고, 예를 들어, 전용 집적 회로(ASIC), 셀룰러 또는 베이스밴드 프로세서, 필드 프로그램 가능한 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 네트워크 프로세서, 그래픽 프로세서, 통신 프로세서, 암호화 프로세서, 코프로세서, 내장형 프로세서 또는 명령어를 처리할 수 있는 모든 기타 유형의 논리일 수 있다.

프로세서(1501)는 상기 시스템의 각종 부품들과 통신하기 위한 메인 처리 유닛 및 중앙 허브로 작용할 수 있으며, 상기 프로세서(1501)는 초저전압 프로세서와 같은 저출력 다중 코어 프로세서 소켓일 수 있다. 이러한 프로세서는 시스템 온 칩(SoC)으로 구현될 수 있다. 프로세서(1501)는 본 명세서에 기재된 조작 및 단계를 수행하기 위한 명령어를 실행하도록 구성된다. 시스템(1500)은 선택적인 그래픽 서브 시스템(1504)과 통신하기 위한 그래픽 인터페이스를 더 포함할 수 있고, 상기 그래픽 서브 시스템(1504)은 디스플레이 제어기, 그래픽 프로세서 및/또는 표시 장치를 포함할 수 있다.

프로세서(1501)는 메모리(1503)와 통신할 수 있고, 메모리(1503)는 일 실시예에서 다수의 메모리 장치로 구현되어 기정 량의 시스템 메모리를 제공할 수 있다. 메모리(1503)는 랜덤 액세스 메모리(RAM), 동적 RAM(DRAM), 싱크로너스 DRAM(SDRAM), 스태틱 RAM(SRAM)과 같은 하나 또는 다수의 휘발성 저장(또는 메모리) 장치 또는 기타 유형의 저장 장치를 포함할 수 있다. 메모리(1503)는 프로세서(1501) 또는 기타 임의의 장치에 의해 실행되는 명령어 서열을 포함하는 정보를 저장할 수 있다. 예를 들어, 다양한 운영 체제, 장치 드라이버, 펌웨어(예를 들어, 기본 입출력 체계 또는 BIOS) 및/또는 애플리케이션의 실행 가능한 코드 및/또는 데이터는 메모리(1503)에 로딩되어, 프로세서(1501)에 의해 실행될 수 있다. 운영 체제는 임의의 유형의 운영 체제일 수 있으며, 예를 들어, Microsoft®의 Windows® 운영 체제, 애플의 Mac OS®/iOS®, Google®의 Android®, Linux®, Unix®, 또는 기타 실시간 또는 내장형 운영 체제일 수 있다.

시스템(1500)은 네트워크 인터페이스 장치(1505), 선택적인 입력 장치(1506) 및 기타 선택적인 I/O 장치(1507)를 포함하는 장치(1505-1508)와 같은 I/O 장치를 더 포함할 수 있다. 네트워크 인터페이스 장치(1505)는 무선 트랜시버 및/또는 네트워크 인터페이스 카드(NIC)를 포함할 수 있다. 무선 트랜시버는 WiFi 트랜시버, 적외선 트랜시버, 블루투스 트랜시버, WiMax 트랜시버, 무선 셀룰러 텔레포니 트랜시버, 위성 트랜시버(예를 들어, 위성 위치 확인 시스템(GPS) 트랜시버) 또는 기타 무선 주파수(RF) 트랜시버 또는 이들의 조합일 수 있다. NIC는 이더넷 카드일 수 있다.

입력 장치(1506)는 마우스, 터치 패드, 터치 감응식 스크린(표시 장치(1504)에 통합될 수 있음), 스타일러스와 같은 포인터 장치, 및/또는 키보드(예를 들어, 물리적 키보드 또는 터치 감응식 스크린의 일부분으로 표시된 가상 키보드)를 포함할 수 있다. 예를 들어, 입력 장치(1506)는 터치 스크린에 연결된 터치 스크린 제어기를 포함할 수 있다. 터치 스크린 및 터치 스크린 제어기는, 예를 들어, 다수의 터치 감응 기술(용량성, 저항성, 적외선, 및 표면 탄성파 기술을 포함하나, 이에 한정되지 않음) 중 임의의 하나, 및 기타 근접각 센서 어레이 또는 터치 스크린과의 하나 또는 다수의 접촉점을 확정하기 위한 기타 부품을 이용하여 터치 스크린의 접촉 및 이동 또는 중단을 검출할 수 있다

I/O 장치(1507)는 오디오 장치를 포함할 수 있다. 오디오 장치는 스피커 및/또는 마이크로 폰 을 포함함으로써 음성 인식, 음성 복제, 디지털 기록 및/또는 텔레포니 기능과 같은 음성 지원 기능이 가능하도록 할 수 있다. 기타 I/O 장치(1507)는 범용 직렬 버스 라인(USB) 포트, 병렬 포트, 직렬 포트, 프린터, 네트워크 인터페이스, 버스 브리지(예를 들어, PCI-PCI 브리지), 센서(예를 들어, 가속도계, 자이로스코프(gyroscope), 자력계, 광 센서, 나침반, 근접각 센서 등과 같은 동작 센서) 또는 이들의 조합을 더 포함할 수 있다. 장치(1507)는 이미징 처리 서브 시스템(예를 들어, 카메라)을 더 포함할 수 있고, 상기 이미징 처리 서브 시스템은 고체 촬상 소자(CCD) 또는 상보형 금속산화 반도체(CMOS) 광학 센서와 같이, 사진 및 비디오 클립을 기록하는 것과 같은 카메라 기능을 향상하도록 하기 위한 광학 센서를 포함할 수 있다. 일부 센서는 센서 허브(미도시)를 통해 상호연결 장치(1510)에 연결될 수 있고, 키보드 또는 온도 센서와 같은 기타 장치는 시스템(1500)의 구체적인 구성 또는 디자인에 따라 내장된 제어기(미도시)에 의해 제어될 수 있다.

데이터, 애플리케이션, 하나 또는 다수의 운영 체제 등과 같은 정보에 대한 영구 저장을 제공하기 위해, 프로세서(1501)에 대용량 저장 장치(미도시)가 연결될 수도 있다. 각종 실시예에 있어서, 더 얇고 가벼운 시스템 디자인을 실현하고 시스템 응답력을 향상시키기 위해, 상기 대용량 저장 장치는 고체 디바이스(SSD)를 통해 구현될 수 있다. 그러나, 기타 실시예에 있어서, 대용량 저장 장치는 주로 하드디스크 드라이브(HDD)를 이용하여 구현될 수 있으며, 비교적 적은 량의 SSD 저장 장치를 SSD 캐시로 작용하도록 하여 파워 다운 상황에서 맥락 상태 및 기타 유사한 정보에 대한 비휘발성 저장을 실현함으로써, 시스템 활동이 리부팅될 경우 빠른 파워 업을 실현할 수 있다. 또한, 플래시 장치는, 예를 들어, 직렬 주변 장치 인터페이스(SPI)를 통해 프로세서(1501)에 연결될 수 있다. 이러한 플래시 장치는 시스템 소프트웨어에 대한 비휘발성 저장을 제공할 수 있고, 상기 시스템 소프트웨어는 상기 시스템의 기본 입/출력 시스템(BIOS) 및 기타 펌웨어를 포함한다.

저장 장치(1508)는 컴퓨터 액세스 가능한 저장 매체(1509; 기계 판독 가능한 저장 매체 또는 컴퓨터 판독 가능한 매체라고도 함)를 포함할 수 있고, 컴퓨터 액세스 가능한 저장 매체에는 본 명세서에 설명된 임의 하나 또는 다수의 방법 또는 기능을 구현하는 하나 또는 다수의 명령어 집합 또는 소프트웨어(예를 들어, 모듈, 유닛 및/또는 로직(1528))가 저장된다. 처리 모듈/유닛/로직(1528)은 전술된 부품 중의 임의의 하나를 표시할 수 있고, 예를 들어, 상술한 기록 제어기(110)를 표시할 수 있다. 처리 모듈/유닛/로직(1528)은 데이터 처리 시스템(1500), 메모리(1503) 및 프로세서(1501)에 의해 실행되는 동안, 완전히 또는 적어도 부분적으로 메모리(1503) 및/또는 프로세서(1501) 내에 위치될 수도 있으며, 여기서 데이터 처리 시스템(1500), 메모리(1503) 및 프로세서(1501)는 기계 액세스 가능한 저장 매체를 구성하기도 한다. 처리 모듈/유닛/로직(1528)은 네트워크를 통해 네트워크 인터페이스 장치(1505)를 경유하여 전송 또는 수신될 수도 있다.

컴퓨터 판독 가능한 저장 매체(1509)는 상술한 일부 소프트웨어 기능을 영구적으로 저장하기 위한 것일 수도 있다. 예시적인 실시예에서 컴퓨터 판독 가능한 저장 매체(1509)는 단일 매체로 도시되었으나, 용어 "컴퓨터 판독 가능한 저장 매체"는 하나 또는 다수의 명령어 집합을 저장하는 단일 매체 또는 다수의 매체(예를 들어, 중앙 집중식 또는 분산형 데이터베이스 및/또는 관련된 캐시 및 서버)를 포함하는 것으로 이해해야 한다. 또한, 용어 "컴퓨터 판독 가능한 저장 매체"는 명령어 집합을 저장하거나 인코딩할 수 있는 임의의 매체를 포함하는 것으로 이해해야 하고, 상기 명령어 집합은 기계에 의해 실행되고, 기계로 하여금 본 발명의 하나 또는 다수의 방법을 실행하도록 한다. 따라서, 용어 "컴퓨터 판독 가능한 저장 매체"는 고체 메모리, 광학 매체 및 자기식 매체 또는 기타 임의의 비일시적인 기계 판독 가능한 매체를 포함하나 이에 한정되지 않는 것으로 이해해야 한다.

본 명세서에 설명된 처리 모듈/유닛/로직(1528), 부품 및 기타 특징은 이산형 하드웨어 부품으로 구현되거나 ASICS, FPGA, DSP 또는 유사한 장치와 같은 하드웨어 부픔의 기능에 통합될 수 있다. 이외에, 처리 모듈/유닛/로직(1528)은 하드웨어 장치 내에서 펌웨어 또는 기능성 회로로 구현될 수 있다. 또한, 처리 모듈/유닛/로직(1528)은 하드웨어 장치 및 소프트웨어 부품의 임의의 조합으로 구현될 수 있다.

시스템(1500)은 데이터 처리 시스템의 각종 부품으로 도시되었으나, 이러한 세부 사항들은 본 발명의 실시예에 밀접히 관련되는 것이 아니므로, 부품들이 상호 연결되도록 하는 임의의 특정 체계 구조 또는 방식을 표시하는 것이 아님을 유의해야 한다. 또한, 더 적은 부품을 구비하거나 더 많은 부품을 구비할 수 있는 네트워크 컴퓨터, 휴대용 컴퓨터, 이동 전화, 서버 및/또는 기타 데이터 처리 시스템은 본 발명의 실시예와 함께 사용될 수 있음은 자명한 것이다.

상기 상세한 설명 중의 일부분은 이미 컴퓨터 메모리 내의 데이터 비트에 대한 연산의 알고리즘 및 기호적 표현에 따라 나타났다. 이러한 알고리즘적 설명 및 표현은 데이터 처리 분야의 당업자들이 그들 작업의 요지를 해당 분야의 기타 당업자들한테 효율적으로 전달하기 위해 사용하는 방식이다. 여기서, 알고리즘은 통상적으로 원하는 결과를 달성하기 위한 조작의 자기 부합적 시퀸스로 구상된다. 이러한 조작들은 물리량에 대한 물리적 조작을 필요로 하는 조작이다.

그러나, 이러한 용어 및 유사한 용어들은 모두 적당한 물리량에 연관되어야 하고, 단지 이러한 량에 적용된 편리한 라벨일 뿐이라는 것을 명기해야 한다. 상술한 기재로부터 명확히 알 수 있는 바와 같이 기타 구체적인 설명이 없는 한, 첨부된 청구항에 기재된 용어와 같은 용어를 사용하여 진행한 설명은 명세서 전체를 걸쳐 컴퓨터 시스템 또는 유사한 전자 계산 장치의 동작 및 처리를 가리킨다는 것은 자명한 것이며, 상기 컴퓨터 시스템 또는 전자 계산 장치는 컴퓨터 시스템의 레지스터 및 메모리 내의 물리(전자)량으로 표시된 데이터를 조작하고, 상기 데이터를 컴퓨터 시스템 메모리 또는 레지스터 또는 기타 유사한 정보 저장, 전송 또는 표시 장치 내에서 유사하게 물리량으로 표시된 기타 데이터로 전환한다

도면에 나타난 기술은 하나 또는 다수의 전자 기기 상에 저장되고 실행된 코드 및 데이터를 이용하여 구현될 수 있다. 이런 전자 기기는 컴퓨터 판독 가능한 매체(예를 들어, 자기 디스크, 광 디스크, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리 장치, 상변화 메모리와 같은 비일시적인 컴퓨터 판독 가능한 매체 및 전자, 광학, 어쿠스틱 또는 기타 형식의 전파 신호와 같은 일시적인 컴퓨터 판독 가능한 매체(예를 들어, 반송파, 적외선 신호 및 디지털 신호))를 이용하여 코드 및 데이터를(내부로 및/또는 네트워크를 통행 기타 전자 기기와) 저장하고 전달한다.

첨부된 도면에 도시된 과정 또는 방법은 하드웨어(예를 들어, 회로, 전용 논리 등), 소프트웨어(예를 들어, 비일시적인 컴퓨터 판독 가능한 매체에 내장됨) 또는 이들의 조합을 포함하는 처리 논리에 의해 실행될 수 있다. 비록 위에서 일부 순차적인 조작에 의해 상기 과정 또는 방법에 대해 설명하였으나, 설명된 조작 중의 일부는 상이한 순서로 실행될 수도 있음을 자명할 것이다. 또한, 일부 조작은 순차적인 순서가 아니라, 병행으로 수행될 수 있다.

상기 명세서에서, 본 발명의 상세한 예시적 실시예들을 참조하여 본 발명의 실시예에 대해 설명하였다. 첨부된 청구항에 기재된 본 발명의 더 넓은 사상 및 범위를 벗어나지 않으면서 각종 변경을 진행할 수 있음은 명백할 것이다. 따라서, 본 명세서 및 도면은 제한적인 의미가 아닌, 설명적인 의미로 이해하여야 한다.

Claims

특징을 기반으로 스마트 표시 장치를 제어하기 위한 컴퓨터 구현 방법에 있어서,
스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신하는 단계;
상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계; 및
상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화하는 단계를 포함하고,
상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계는,
상기 이미지에 상기 얼굴이 존재하는지 여부를 확정하는 단계;
상기 이미지 중의 상기 얼굴에서 상기 스마트 표시 장치까지의 거리를 확정하는 단계;
상기 스마트 표시 장치에 대한 상기 이미지 중의 상기 얼굴의 응시 방향을 확정하는 단계; 및
상기 얼굴이 존재하는지 여부의 확정 결과, 상기 얼굴에서 상기 스마트 표시 장치까지의 거리 및 상기 스마트 표시 장치에 대한 상기 얼굴의 응시 방향에 기반하여, 기계 학습 모델이 음성 인식을 활성화할지 여부를 확정하는 단계를 포함하고,
상기 방법은,
참조 카메라에 의해 참조 이미지를 획득하고, 상기 이미지와 동시에 획득된 참조 이미지를 비교하여 상기 이미지 중 얼굴의 심도를 확정하는 단계; 및
상기 이미지에 상기 얼굴이 존재함에 응답하여, 상기 이미지 중 상기 얼굴의 심도 및 상기 이미지 중 상기 얼굴이 차지하는 이미지 부분이 역치 부분을 초과함에 기반하여, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 스마트 표시 장치와 관련된 상기 광 캡처 장치에서 제2 이미지를 수신하는 단계;
상기 얼굴이 상기 제2 이미지에 존재하는지 여부를 확정하는 단계; 및
상기 얼굴이 상기 제2 이미지에 존재하지 않는 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 비활성화하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 얼굴과 관련된 사용자를 식별하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제3항에 있어서,
상기 얼굴과 관련된 상기 사용자를 식별하는 단계는, 상기 이미지에 존재하는 상기 얼굴과 로컬 모델에 존재하는 상기 사용자의 얼굴의 비교에 의해 수행되는, 컴퓨터 구현 방법.
비일시적인 기계 판독 가능한 매체에 있어서,
상기 비일시적인 기계 판독 가능한 매체에 명령어가 저장되고, 상기 명령어가 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 조작을 수행하도록 하며, 상기 조작은,
스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신하는 단계;
상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계; 및
상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화하는 단계를 포함하고,
상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계는,
상기 이미지에 상기 얼굴이 존재하는지 여부를 확정하는 단계;
상기 이미지 중의 상기 얼굴에서 상기 스마트 표시 장치까지의 거리를 확정하는 단계;
상기 스마트 표시 장치에 대한 상기 이미지 중의 상기 얼굴의 응시 방향을 확정하는 단계; 및
상기 얼굴이 존재하는지 여부의 확정 결과, 상기 얼굴에서 상기 스마트 표시 장치까지의 거리 및 상기 스마트 표시 장치에 대한 상기 얼굴의 응시 방향에 기반하여, 기계 학습 모델이 음성 인식을 활성화할지 여부를 확정하는 단계를 포함하고,
상기 조작은,
참조 카메라에 의해 참조 이미지를 획득하고, 상기 이미지와 동시에 획득된 참조 이미지를 비교하여 상기 이미지 중 얼굴의 심도를 확정하는 단계; 및
상기 이미지에 상기 얼굴이 존재함에 응답하여, 상기 이미지 중 상기 얼굴의 심도 및 상기 이미지 중 상기 얼굴이 차지하는 이미지 부분이 역치 부분을 초과함에 기반하여, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화하는 단계를 더 포함하는, 비일시적인 기계 판독 가능한 매체.
제5항에 있어서,
상기 조작은,
상기 스마트 표시 장치와 관련된 상기 광 캡처 장치에서 제2 이미지를 수신하는 단계;
상기 얼굴이 상기 제2 이미지에 존재하는지 여부를 확정하는 단계; 및
상기 얼굴이 상기 제2 이미지에 존재하지 않는 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 비활성화하는 단계를 더 포함하는, 비일시적인 기계 판독 가능한 매체.
제5항에 있어서,
상기 조작은, 상기 얼굴과 관련된 사용자를 확인하는 단계를 더 포함하는, 비일시적인 기계 판독 가능한 매체.
제7항에 있어서,
상기 얼굴과 관련된 상기 사용자를 확인하는 단계는, 상기 이미지에 존재하는 상기 얼굴과 로컬 모델에 존재하는 상기 사용자의 얼굴의 비교에 의해 수행되는, 비일시적인 기계 판독 가능한 매체.
시스템에 있어서,
프로세서; 및
메모리를 포함하되, 상기 메모리는 명령어를 저장하도록 상기 프로세서에 연결되고, 상기 명령어가 상기 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 조작을 수행하도록 하며, 상기 조작은,
스마트 표시 장치와 관련된 광 캡처 장치에서 이미지를 수신하는 단계;
상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계; 및
상기 이미지에 존재하는 상기 얼굴을 기반으로 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화할 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 활성화하는 단계를 포함하고,
상기 이미지에 존재하는 얼굴을 기반으로, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화할지 여부를 확정하는 단계는,
상기 이미지에 상기 얼굴이 존재하는지 여부를 확정하는 단계;
상기 이미지 중의 상기 얼굴에서 상기 스마트 표시 장치까지의 거리를 확정하는 단계;
상기 스마트 표시 장치에 대한 상기 이미지 중의 상기 얼굴의 응시 방향을 확정하는 단계; 및
상기 얼굴이 존재하는지 여부의 확정 결과, 상기 얼굴에서 상기 스마트 표시 장치까지의 거리 및 상기 스마트 표시 장치에 대한 상기 얼굴의 응시 방향에 기반하여, 기계 학습 모델이 음성 인식을 활성화할지 여부를 확정하는 단계를 포함하고,
상기 조작은,
참조 카메라에 의해 참조 이미지를 획득하고, 상기 이미지와 동시에 획득된 참조 이미지를 비교하여 상기 이미지 중 얼굴의 심도를 확정하는 단계; 및
상기 이미지에 상기 얼굴이 존재함에 응답하여, 상기 이미지 중 상기 얼굴의 심도 및 상기 이미지 중 상기 얼굴이 차지하는 이미지 부분이 역치 부분을 초과함에 기반하여, 상기 스마트 표시 장치와 관련된 기록 장치의 음성 인식을 활성화하는 단계를 더 포함하는, 시스템.
제9항에 있어서,
상기 조작은,
상기 스마트 표시 장치와 관련된 상기 광 캡처 장치에서 제2 이미지를 수신하는 단계;
상기 얼굴이 상기 제2 이미지에 존재하는지 여부를 확정하는 단계; 및
상기 얼굴이 상기 제2 이미지에 존재하지 않는 것이 확정됨에 응답하여, 상기 스마트 표시 장치와 관련된 상기 기록 장치의 상기 음성 인식을 비활성화하는 단계를 더 포함하는, 시스템.
제9항에 있어서,
상기 조작은, 상기 얼굴과 관련된 사용자를 확인하는 단계를 더 포함하는, 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제