KR102203720B1

KR102203720B1 - 음성 인식 방법 및 장치

Info

Publication number: KR102203720B1
Application number: KR1020170080450A
Authority: KR
Inventors: 백열민; 이광국
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2021-01-15
Also published as: KR20190001067A

Abstract

본 발명은 음성 인식 방법 및 장치에 관한 것이다. 입력되는 영상에 기 설정된 웨이크업 행동 명령이 포함된 경우에 웨이크업 모드로 전환함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않는다. 또, 기 설정된 웨이크업 행동 명령 및 웨이크업 소리 명령에 따라 웨이크업 모드로 전환함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않을 뿐만 아니라 사용자의 제스처가 웨이크업 행동 명령과 우연히 일치할 때에도 웨이크업 소리 명령이 없으면 웨이크업 모드로 전환되기 않기 때문에 사용자에 의한 웨이크업 명령을 매우 정확하게 파악할 수 있어서 웨이크업 모드로의 오동작 우려를 더욱 낮출 수 있다.

Description

음성 인식 방법 및 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION}

본 발명은 음성 인식 방법 및 장치에 관한 것으로, 더욱 상세하게는 웨이크업(wake-up) 명령에 의해 웨이크업 모드로 전환하는 음성 인식 방법 및 장치에 관한 것이다.

전자 장치에 대한 기술이 고도화되면서, 사용자의 음성 명령을 이용하여 전자 장치의 각종 기능을 활성화하거나 실행시킬 수 있는 음성 인식 기능이 전자 장치에 탑재되고 있다.

이러한 음성 인식 기능이 탑재된 전자 장치에서는 음성 인식 기능을 사용하기 위하여 전자 장치를 웨이크업 시켜야 하고, 이를 위해 웨이크업 소리 명령이 사용된다.

종래에는 웨이크업 키워드를 사전에 설정해 웨이크업 키워드 모델을 전자 장치에 미리 저장해 두고, 입력되는 신호에서 웨이크업 키워드 모델을 이용하여 웨이크업 키워드가 검출되는지를 판정하며, 웨이크업 키워드가 검출되면 웨이크업 대기 모드에서 웨이크업 모드로 전환한다.

그런데, 음성 인식 기능이 탑재된 전자 장치가 잡음 환경에서 운용되는 경우에는 오동작이 발생할 수 있었다. 예를 들어, 주변에 있는 텔레비전에서 출력되는 소리나 주변 사람들의 대화 중에 우연히 웨이크업 키워드가 포함된 경우에 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하는 문제점이 있었다.

대한민국 공개특허공보 제10-2016-0110085호, 공개일자 2016년 09월 21일.

본 발명의 일 실시예에 의하면, 입력되는 영상에 기 설정된 웨이크업 행동 명령이 포함된 경우에 웨이크업 모드로 전환하는 음성 인식 방법 및 장치를 제공한다.

또, 기 설정된 웨이크업 행동 명령 및 웨이크업 소리 명령에 따라 웨이크업 모드로 전환하는 음성 인식 방법 및 장치를 제공한다.

본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있는 범위의 언급되지 않은 또 다른 해결하고자 하는 과제까지 포함되는 것이다.

본 발명의 일 관점에 따른 음성 인식 장치에서 수행되는 음성 인식 방법은, 웨이크업 대기 모드에서 입력 영상을 분석하여 상기 입력 영상 내에 존재하는 사용자의 시선 정보를 파악하는 단계와, 상기 파악된 시선 정보와 기 설정된 기준 정보를 비교한 결과에 기초하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단하는 단계와, 상기 웨이크업 행동 명령이 입력되는지 여부에 따라 상기 웨이크업 대기 모드에서 웨이크업 모드로 전환하는 단계를 포함할 수 있다.

본 발명의 다른 관점에 따른 음성 인식 장치에서 수행되는 음성 인식 방법은, 웨이크업 대기 모드에서 입력 영상을 분석하여 기 설정된 웨이크업 행동 명령이 입력되었으면, 음성 인식 모드로 전환하는 단계와, 상기 음성 인식 모드에서 기 설정된 웨이크업 소리 명령이 입력되면, 웨이크업 모드로 전환하는 단계를 포함할 수 있다.

본 발명의 또 다른 관점에 따른 음성 인식 장치는, 음성을 입력 받는 음성 입력부와, 영상을 입력 받는 영상 입력부와, 제어부를 포함하며, 상기 제어부는, 웨이크업 대기 모드 중 상기 영상 입력부를 통한 입력 영상을 분석하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단하고, 상기 웨이크업 행동 명령이 입력되는지 여부에 따라 상기 웨이크업 대기 모드에서 웨이크업 모드로 전환할 수 있다.

본 발명의 실시예에 의하면, 입력되는 영상에 기 설정된 웨이크업 행동 명령이 포함된 경우에 웨이크업 모드로 전환함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않는다.

또, 기 설정된 웨이크업 행동 명령 및 웨이크업 소리 명령에 따라 웨이크업 모드로 전환함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않을 뿐만 아니라 사용자의 제스처가 웨이크업 행동 명령과 우연히 일치할 때에도 웨이크업 소리 명령이 없으면 웨이크업 모드로 전환되기 않기 때문에 사용자에 의한 웨이크업 명령을 매우 정확하게 파악할 수 있어서 웨이크업 모드로의 오동작 우려를 더욱 낮출 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치를 포함하는 음성 인식 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명에서 웨이크업 행동 명령을 식별하는 과정을 설명하기 위한 흐름도이다.
도 5는 본 발명에서 시선 정보를 파악하는 과정을 설명하기 위한 흐름도이다.
도 6은 본 발명에서 웨이크업 행동 명령의 유효성을 판정하는 과정을 설명하기 위한 흐름도이다.
도 7은 본 발명에서 웨이크업 행동 명령의 유효성을 판정할 때에 이용하는 큐(queue)의 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치를 포함하는 음성 인식 시스템의 구성도이다.

이에 나타낸 바와 같이 일 실시예에 따르면 음성 인식 시스템은, 촬영 장치(10), 통신망(20), 음성 인식 서버(30) 및 음성 인식 장치(100)를 포함한다. 촬영 장치(10)에 의해 촬영된 영상을 음성 인식 장치(100)가 입력 받을 수 있도록 촬영 장치(10)와 음성 인식 장치(100)가 접속되며, 음성 인식 장치(100)와 음성 인식 서버(30)는 통신망(20)을 통해 접속된다. 다만, 이러한 음성 인식 시스템은 일 실시예에 불과하므로, 도 1을 통해 본 발명의 사상이 한정 해석되는 것은 아니며, 도시된 것 외의 다른 구성요소를 추가로 포함하거나, 도시된 구성요소 중 일부를 포함하지 않을 수 있다. 예를 들어, 도 1에는 하나의 촬영 장치(10)를 포함하는 실시예에 대해 나타내었으나 복수의 촬영 장치(10)를 포함할 수 있다.

도 1에서는 촬영 장치(10)와 음성 인식 장치(100)를 별개로 구현한 경우를 예시하였으나 음성 인식 장치(100)는 촬영 장치(10)를 일체로 포함할 수 있다. 예를 들어, 카메라 모듈 등의 촬영 장치(10)가 음성 인식 장치(100)에 탑재될 수 있다. 또, 도 1에서는 음성 인식 장치(100)와 음성 인식 서버(30)를 별개로 구현한 경우를 예시하였으나, 음성 인식 장치(100)는 음성 인식 서버(30)를 일체로 포함할 수 있다. 예를 들어, 음성 인식 서버(30)는 음성 인식 엔진 등의 형태로 음성 인식 장치(100)에 탑재될 수 있다. 또, 도 1의 음성 인식 장치(100)는 음성 인식 기능과 다른 기능이 함께 탑재된 전자 장치일 수 있다. 예를 들어, 음성 인식 기능이 탑재된 이동통신 단말이나 음성 인식 기능이 탑재된 스마트 스피커 등과 같은 각종 스마트 장치일 수 있다.

촬영 장치(10)는 음성 인식 장치(100)의 일측에 고정되는 형태로 설치될 수 있으며, 주변의 영상을 촬영하여 음성 인식 장치(100)에게 전달할 수 있다. 예를 들어, 촬영 장치(10)는 카메라를 포함할 수 있다.

통신망(20)은 이동통신망, 유선통신망, 근거리무선통신망, 무선랜 등을 포함할 수 있다.

음성 인식 서버(30)는 음성 인식 장치(100)로부터 전송 받은 소리 신호에 대한 음성 인식을 처리하고, 음성 인식 처리에 따른 음성 인식 결과를 음성 인식 장치(100)에게 회신할 수 있다. 예를 들어, 음성 인식 서버(30)는 딥러닝(deep learning) 기반의 음성 인식 엔진을 포함할 수 있다.

음성 인식 장치(100)는 웨이크업 대기 모드에서 웨이크업 행동 명령 및/또는 웨이크업 소리 명령에 따라 웨이크업 모드로 전환하며, 웨이크업 모드에서 음성 인식 결과를 음성 명령으로 인지하여 해당 음성 명령의 내용을 수행할 수 있다. 이러한 음성 인식 장치(100)는 음성 입력부(110), 영상 입력부(120), 제어부(130), 저장부(140) 및 통신부(150)를 포함할 수 있다.

음성 인식 장치(100)의 음성 입력부(110)는 주변에서 발생되는 음성을 입력 받아 전기적인 신호로 변환하여 제어부(130)에게 제공한다. 예를 들어, 음성 입력부(110)는 마이크로폰(microphone)을 포함할 수 있다.

음성 인식 장치(100)의 영상 입력부(120)는 촬영 장치(10)로부터 영상 신호를 전달 받아 제어부(130)에게 제공한다. 예를 들어, 영상 입력부(120)는 각종 멀티미디어 인터페이스를 포함할 수 있다.

음성 인식 장치(100)의 제어부(130)는 웨이크업 대기 모드에서 촬영 장치(10)로부터의 입력 영상을 분석하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단하고, 웨이크업 행동 명령이 입력되는지 여부에 따라 웨이크업 대기 모드에서 웨이크업 모드로 전환하며, 음성 인식 결과를 음성 명령으로 인지하여 해당 음성 명령의 내용을 수행할 수 있다. 여기서, 웨이크업 대기 모드는 음성 인식 장치(100)가 음성 입력부(110)를 통한 입력 음성에 대해 음성 인식을 하지 않고 무시하는 상태로 정의할 수 있다.

또는, 음성 인식 장치(100)의 제어부(130)는 웨이크업 대기 모드에서 촬영 장치(10)로부터의 입력 영상을 분석하여 기 설정된 웨이크업 행동 명령이 입력되었으면 음성 인식 모드로 전환하고, 음성 인식 모드에서 영상이 입력될 때에 함께 음성 입력부(110)를 통해 입력되는 소리를 분석하여 기 설정된 웨이크업 소리 명령이 입력되는지를 판단하며, 웨이크업 소리 명령이 입력되는지 여부에 따라 음성 인식 모드에서 웨이크업 모드로 전환하고, 웨이크업 모드에서 다양한 음성 명령에 대한 음성 인식 결과를 인지하여 해당 음성 명령의 내용을 수행할 수 있다. 여기서, 웨이크업 대기 모드는 음성 인식 장치(100)가 음성 입력부(110)를 통한 입력 음성에 대해 음성 인식을 하지 않고 무시하는 상태로 정의할 수 있으며, 음성 인식 모드는 음성 인식 장치(100)가 기 설정된 웨이크업 소리 명령 이외의 입력 음성을 무시하는 상태로 정의할 수 있다. 예를 들어, 제어부(120)는 CPU(Central Processing Unit) 등과 같은 프로세서를 포함할 수 있다.

음성 인식 장치(100)의 저장부(140)에는 음성 인식 장치(100)의 구동을 위한 운영체제 프로그램이 저장될 수 있고, 음성 입력부(110)를 통해 입력되는 음성 신호와 영상 입력부(120)를 통해 입력되는 영상 신호가 저장될 수 있다. 또, 제어부(130)에 의한 음성 인식 및 명령 수행 과정에서 생성되는 휘발성 처리 정보 및 비휘발성 처리 정보가 저장될 수 있다. 예를 들어, 저장부(140)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리, 램, 롬 중 적어도 하나의 타입의 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다. 또는, 저장부(140)는 제어부(130)의 내장 메모리로 구현할 수도 있다.

음성 인식 장치(100)의 통신부(150)는 제어부(130)의 웨이크업 모드 중 제어에 따라 소리 신호를 통신망(20)을 통해 음성 인식 서버(30)에게 전송하고, 음성 인식 서버(30)로부터 음성 인식 결과를 회신 받아 제어부(130)에게 제공할 수 있다. 예를 들어, 통신부(150)는 이동통신 모뎀, 유선통신 모뎀, 근거리무선통신 모뎀, 무선랜 모뎀 등을 포함할 수 있다.

이와 같이 구성되는 음성 인식 장치(100)를 포함하는 음성 인식 시스템의 세부적인 동작 과정에 대해서는 아래에서 다시 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.

도 1 및 도 2를 참조하면, 먼저 음성 인식 장치(100)의 제어부(130)는 웨이크업 대기 모드(S210)에서 영상 입력부(120)의 입력 영상을 분석하며(S220), 입력 영상에 대한 분석 결과에 기초하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단한다(S230). 웨이크업 행동 명령은 음성 인식 장치(100)의 웨이크업을 위한 사전에 설정된 것이며, 사용자는 특정 제스처(gesture)를 취하는 행동을 하여 음성 인식 장치(100)에게 웨이크업 모드로 전환할 것을 명령할 수 있다. 예를 들어, 웨이크업 행동 명령은 사용자가 음성 인식 장치(100)를 바라보는 제스처, 사용자가 음성 인식 장치(100)를 향해 특정 손짓을 하는 제스처 등을 포함할 수 있다.

이어서, 제어부(130)는 영상 입력부(120)를 통해 웨이크업 행동 명령이 입력되는지 여부에 따라 웨이크업 대기 모드에서 웨이크업 모드로 전환한다. 즉, 단계 S230의 판단 결과에서 웨이크업 행동 명령이 입력된 것으로 판단되면 웨이크업 모드에 진입한다(S240). 예를 들어, 웨이크업 모드에서는 음성 입력부(110)를 통해 소리 신호를 입력 받고, 제어부(130)의 제어에 따라 통신부(150)가 통신망(20)을 통해 음성 인식 서버(30)에게 소리 신호를 전송하여 음성 인식을 요청하고, 음성 인식 서버(30)로부터 음성 인식 결과를 회신 받으며, 음성 인식 결과를 음성 명령으로 인지하여 해당 음성 명령의 내용을 수행할 수 있다.

이처럼, 웨이크업 행동 명령에 따라 음성 인식 장치(100)가 웨이크업 대기 모드에서 웨이크업 모드로 전환되게 함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않는다.

그리고, 제어부(130)는 웨이크업 모드에서 기 설정된 웨이크업 대기 조건이 만족할 경우에 웨이크업 대기 모드로 복귀한다(S250). 예를 들어, 웨이크업 모드에서 기 설정된 시간 동안에 음성 명령이 인지되지 않으면 웨이크업 대기 모드로 전환할 수 있다.

도 3은 본 발명의 다른 실시예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다. 도 3에 나타낸 실시예에 의하면 음성 인식 장치(100)는 웨이크업 행동 명령이 입력되는지를 판정하는 과정과 웨이크업 소리 명령이 입력되는지를 판정하는 과정을 순차적으로 수행하게 된다.

도 1 및 도 3을 참조하면, 먼저 음성 인식 장치(100)의 제어부(130)는 웨이크업 대기 모드(S310)에서 영상 입력부(120)의 입력 영상을 분석하며(S320), 입력 영상에 대한 분석 결과에 기초하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단한다(S330). 웨이크업 행동 명령은 음성 인식 장치(100)의 웨이크업 모드로 전환하기 위해 사전에 설정된 것이며, 사용자는 특정 제스처를 취하는 행동을 하여 음성 인식 장치(100)에게 웨이크업 모드로 전환할 것을 명령할 수 있다. 예를 들어, 웨이크업 행동 명령은 사용자가 음성 인식 장치(100)를 바라보는 제스처, 사용자가 음성 인식 장치(100)를 향해 특정 손짓을 하는 제스처 등을 포함할 수 있다.

이어서, 제어부(130)는 영상 입력부(120)를 통해 웨이크업 행동 명령이 입력되는지 여부에 따라 웨이크업 대기 모드에서 음성 인식 모드로 전환하고(S340), 음성 인식 모드에서 음성 입력부(110)를 통해 입력되는 소리 신호를 분석하며(S350), 소리 신호에 대한 분석 결과에 기초하여 기 설정된 웨이크업 소리 명령이 입력되는지를 판단한다(S360). 웨이크업 키워드가 사전에 설정되어 웨이크업 키워드 모델이 저장부(140)에 미리 저장되고, 제어부(130)는 입력되는 소리 신호에서 웨이크업 키워드 모델을 이용하여 웨이크업 키워드가 검출되는지를 판정하며, 웨이크업 키워드가 검출되면 웨이크업 소리 명령이 입력된 것으로 판단할 수 있다.

다음으로, 제어부(130)는 음성 입력부(110)를 통해 웨이크업 소리 명령이 입력되는지 여부에 따라 음성 인식 모드에서 웨이크업 모드로 전환한다. 즉, 단계 S330의 판단 결과에서 웨이크업 행동 명령이 입력된 것으로 판단됨과 아울러 단계 S360에서 웨이크업 소리 명령이 입력된 것으로 판정된 경우에, 비로서 웨이크업 모드에 진입한다(S370).

이처럼, 웨이크업 행동 명령 및 웨이크업 소리 명령이 모두 입력되는 경우에만 음성 인식 장치(100)를 웨이크업 모드로 전환할 때에는 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않을 뿐만 아니라 사용자의 제스처가 웨이크업 행동 명령과 우연히 일치할 때에도 웨이크업 소리 명령이 없으면 웨이크업 모드로 전환되기 않기 때문에 사용자에 의한 웨이크업 명령을 매우 정확하게 파악할 수 있어서 웨이크업 모드로의 오동작 우려를 더욱 낮출 수 있다.

그리고, 제어부(130)는 웨이크업 모드에서 기 설정된 웨이크업 대기 조건이 만족할 경우에 웨이크업 대기 모드로 복귀한다(S380). 예를 들어, 웨이크업 모드에서 기 설정된 시간 동안에 음성 명령이 인지되지 않으면 웨이크업 대기 모드로 전환할 수 있다.

도 4는 본 발명에서 웨이크업 행동 명령을 식별하는 과정을 설명하기 위한 흐름도이다. 앞서 설명한 바와 같이 웨이크업 행동 명령은 사전에 약속 및 설정된 경우라면 사용자의 다양한 제스처를 포함할 수 있으며, 도 4에서는 사용자가 음성 인식 장치(100)를 바라보는 제스처가 웨이크업 행동 명령에 포함되는 경우를 예시하였다.

도 1 및 도 4를 참조하면, 먼저 음성 인식 장치(100)의 제어부(130)는 웨이크업 대기 모드에서 영상 입력부(120)를 통해 입력되는 영상 신호를 분석하여 영상 내에 존재하는 사용자의 시선 정보를 파악한다. 예를 들어, 영상 내에서 사용자의 얼굴 영역을 추출한 후에 추출된 얼굴 영역에 대해 얼굴 방향 정보를 시선 정보로서 파악할 수 있다. 또는, 영상 내에서 사용자의 눈 영역을 추출한 후에 추출된 눈 영역에서 눈동자 방향 정보를 시선 정보로서 파악할 수 있다.

그리고, 제어부(130)는 영상 신호에서 파악된 시선 정보와 기 설정된 기준 정보를 비교한 결과에 기초하여 웨이크업 행동 명령인지를 식별한다. 예를 들어, 사용자와 음성 인식 장치(100)를 가상선으로 연결하고, 사용자의 시선 정보에 기초하여 시선의 중심과 가상선 사이의 각도를 계산하며, 계산된 각도가 기 설정된 기준 각도를 비교한 결과에 따라 사용자가 음성 인식 장치(100)를 바라보고 있는지를 판단한다. 예컨대, 사용자의 시선 중심과 가상선 사이의 각도가 5°이하일 경우에 사용자가 음성 인식 장치(100)를 바라보고 있다고 판단할 수 있다. 이어서, 제어부(130)는 사용자가 음성 인식 장치(100)는 바라보는 지속 시간과 기 설정된 기준 시간을 비교하며, 지속 시간과 기준 시간을 비교한 결과에 따라 사용자가 음성 인식 장치(100)를 바라보는 제스처를 식별한다. 예컨대, 사용자가 음성 인식 장치(100)는 바라보는 지속 시간이 0.5초를 넘어서는 경우에 사용자가 음성 인식 장치(100)를 바라보는 제스처라고 식별할 수 있다. 이렇게, 사용자가 음성 인식 장치(100)를 바라보는 제스처가 식별되면 제어부(130)는 입력 영상 내에 웨이크업 행동 명령이 포함된 것으로 판단할 수 있다.

도 5는 본 발명에서 시선 정보를 파악하는 과정을 설명하기 위한 흐름도이다. 음성 인식 장치(100)의 제어부(130)는 앞서 언급한 바와 같이 사용자의 얼굴 방향 정보나 눈동자 방향정보 등을 시선 정보로서 파악할 수 있으며, 도 5에서는 사용자의 얼굴 방향 정보를 시선 정보로서 파악하는 경우를 예시하였다.

도 1 및 도 5를 참조하면, 먼저 음성 인식 장치(100)의 제어부(130)는 영상 입력부(120)를 통해 입력되는 영상을 대상으로 얼굴 검출 알고리즘을 수행하여 사용자의 얼굴 영역을 추출한다(S510).

이어서, 제어부(130)는 사용자의 얼굴 영역에 대해 얼굴 방향 정보를 사용자의 시선 정보로서 파악한다(S520). 예를 들어, 제어부(130)는 DNN(Deep Neural Network) 기계 학습 알고리즘을 이용하여 사용자의 얼굴 방향 정보를 파악할 수 있다. 제어부(130)는 DNN 기계 학습을 통해 사용자의 얼굴 영역 영상과 얼굴 방향 정보를 사전에 학습하고, 단계 S510에서 추출된 사용자의 얼굴 영역 영상이 입력되면 DNN 기계 학습 알고리즘을 통해 해당 얼굴 영역에 대한 얼굴 방향 정보를 출력할 수 있다. 예컨대, 얼굴 방향 정보로서 얼굴 방향 각도 값인 피치(pitch), 요(yaw), 롤(roll) 값을 출력할 수 있다. 여기서, 제어부(130)는 단계 S510에서 추출된 얼굴 영역 영상의 크기를 DNN 기계 학습에 적합한 크기로 조정한 후에 DNN 기계 학습 알고리즘을 수행할 수 있다.

도 6은 본 발명에서 웨이크업 행동 명령의 유효성을 판정하는 과정을 설명하기 위한 흐름도이다. 앞서 설명한 바와 같이 제어부(130)는 웨이크업 대기 모드에서 웨이크업 행동 명령이 식별되면 웨이크업 행동 명령과 함께 음성 입력부(110)를 통해 입력되는 소리를 분석하여 기 설정된 웨이크업 소리 명령이 입력되는지를 판단할 수 있다. 여기서, 입력되는 소리 신호에 대해 분석 시작점과 분석 종료점을 설정할 필요가 있으며, 이를 위해 웨이크업 행동 명령이 식별된 시각을 소리 신호에 대한 분석 시작점으로 설정할 수 있고, 주기적으로 웨이크업 행동 명령의 유효성을 판정하여 사용자의 음성 인식 장치(100)에 대한 응시 상태가 응시해제로 구별될 때를 소리 신호에 대한 분석 종료점으로 설정할 수 있다.

도 1, 도 6 및 도 7을 참조하면, 먼저 음성 인식 장치(100)의 제어부(130)는 소정 주기마다(예컨대, 매 프레임마다) 파악되는 얼굴 방향 정보를 시간 순서대로 누적한다(S610). 예를 들어, 얼굴 방향 정보를 시간 순서대로 제 1 시간 구간과 제 2 시간 구간으로 구분할 수 있으며, 시간 순서가 앞선 제 1 시간 구간은 큐(queue) B에 저장할 수 있고, 시간 순서가 뒤진 제 2 시간 구간은 큐 A에 저장할 수 있다.

이어서, 제어부(130)는 누적된 얼굴 방향 정보에 대해 얼굴 방향 정보의 변화 패턴을 파악한다(S620). 예를 들어, 제 1 시간 구간에 대응하는 큐 B 및 제 2 시간 구간에 대응하는 큐 A에 대해 각각 응시 여부를 구별할 수 있다. 예컨대, 매 프레임마다 단계 S520에서 얼굴 방향 정보로서 출력된 얼굴 방향 각도 값인 피치, 요, 롤 값을 기 설정된 임계 범위값과 비교하며, 얼굴 방향 각도 값이 기 설정된 임계 범위값에 포함될 경우에는 해당 필드의 큐 값을 『yes』로 저장하고, 얼굴 방향 각도 값이 기 설정된 임계 범위값을 벗어날 경우에는 해당 필드의 큐 값을 『no』로 저장한다. 그리고, 큐 A와 큐 B에 대해 각각 『yes』와 『no』의 개수를 비교하여 『0』 또는 『1』의 2진수로 표현한다. 예컨대, 해당 큐에 『no』보다 『yes』가 더 많으면 『1』로 표현하고, 해당 큐에 『yes』보다 『no』가 더 많으면 『0』으로 표현한다.

그리고, 제어부(130)는 앞서 파악된 파악된 변화 패턴과 기 설정된 기준 패턴을 비교한 결과에 기초하여 사용자의 응시 상태를 응시시작, 상태유지 및 응시해제 중에서 어느 하나로 구별한다(S630). 예를 들어, 제어부(130)는 아래의 표 1과 같은 테이블을 이용하여 사용자의 응시 상태를 구별할 수 있다.

큐 A	0	1	0	1
큐 B	0	0	1	1
응시 상태	상태유지(해제)	응시시작	응시해제	상태유지(응시)

시간 순서가 앞선 큐 B는 『0』이고 시간 순서가 뒤진 큐 A는 『1』이면 사용자의 음성 인식 장치(100)에 대한 응시 상태가 응시시작으로 구별되며, 음성 입력부(110)를 통해 입력되는 소리를 분석하여 기 설정된 웨이크업 소리 명령이 입력되는지를 판단할 때에 소리 신호에 대한 분석 시작점이 된다.

그리고, 시간 순서가 앞선 큐 B는 『1』이고 시간 순서가 뒤진 큐 A는 『0』이면 사용자의 음성 인식 장치(100)에 대한 응시 상태가 응시해제로 구별되며, 음성 입력부(110)를 통해 입력되는 소리를 분석하여 기 설정된 웨이크업 소리 명령이 입력되는지를 판단할 때에 소리 신호에 대한 분석 종료점이 된다.

다음으로, 제어부(130)는 단계 S630에서 구별된 응시 상태에 따라 웨이크업 행동 명령의 유효성을 판정한다(S640). 예를 들어, 단계 S630에서 응시 상태가 『응시시작』이나 『상태유지(응시) 』로 구별될 경우에는 이전에 식별된 웨이크업 행동 명령이 계속 유효한 것으로 판정할 수 있고, 단계 S630에서 응시 상태가 『응시해제』나 『상태유지(해제) 』로 구별될 경우에는 이전에 식별된 웨이크업 행동 명령을 유효하지 않는 것으로 판정할 수 있다.

지금까지 설명한 바와 같이, 본 발명의 실시예에 따르면 입력되는 영상에 기 설정된 웨이크업 행동 명령이 포함된 경우에 웨이크업 모드로 전환함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않는다.

또, 기 설정된 웨이크업 행동 명령 및 웨이크업 소리 명령에 따라 웨이크업 모드로 전환함으로써, 잡음 환경에서 의도하지 않은 잡음에 의해 불필요하게 웨이크업 모드로 전환되는 오동작이 발생하지 않을 뿐만 아니라 사용자의 제스처가 웨이크업 행동 명령과 우연히 일치할 때에도 웨이크업 소리 명령이 없으면 웨이크업 모드로 전환되기 않기 때문에 사용자에 의한 웨이크업 명령을 매우 정확하게 파악할 수 있어서 웨이크업 모드로의 오동작 우려를 더욱 낮출 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

본 발명의 실시예에 따르면, 음성 인식 기능이 탑재된 전자장치에서 웨이크업 행동 명령 및/또는 웨이크업 소리 명령에 따라 웨이크업 모드로 전환할 수 있다.

이러한 본 발명은 음성 인식 기능이 탑재된 이동통신 단말이나 음성 인식 기능이 탑재된 스마트 스피커 등과 같은 각종 스마트 장치처럼 음성 인식 기능이 탑재된 전자장치를 이용하는 기술 분야에 널리 이용할 수 있다.

100 : 음성 인식 장치 110 : 음성 입력부
120 : 영상 입력부 130 : 제어부
140 : 저장부 150 : 통신부

Claims

음성 인식 장치에서 수행되는 음성 인식 방법으로서,
웨이크업 대기 모드에서 입력 영상을 분석하여 상기 입력 영상 내에 존재하는 사용자의 시선 정보를 파악하는 단계와,
상기 파악된 시선 정보와 기 설정된 기준 정보를 비교한 결과에 기초하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단하는 단계와,
상기 웨이크업 행동 명령이 입력되는지 여부에 따라 상기 웨이크업 대기 모드에서 웨이크업 모드로 전환하는 단계를 포함하고,
상기 웨이크업 행동 명령이 입력되는지를 판단하는 단계는,
상기 파악된 시선 정보를 시간 순서대로 누적하여 변화 패턴을 파악한 후 기 설정된 기준 패턴과 비교한 결과에 기초하여 상기 사용자의 응시 상태를 응시시작, 상태유지(응시), 상태유지(해제) 및 응시해제 중에서 어느 하나로 구별하고, 응시시작이나 상태유지(응시)로 구별된 경우에는 이전에 식별된 웨이크업 행동 명령이 계속 유효한 것으로 판정하나 상기 응시상태가 응시해제나 상태유지(해제)로 구별될 경우에는 상기 이전에 식별된 웨이크업 행동 명령을 유효하지 않는 것으로 판정하는
음성 인식 방법.
제 1 항에 있어서,
상기 시선 정보를 파악하는 단계는,
상기 입력 영상 내에 존재하는 사용자의 얼굴 영역을 추출하는 단계와,
상기 추출된 얼굴 영역에 대해 얼굴 방향 정보를 상기 시선 정보로서 파악하는 단계를 포함하는
음성 인식 방법.
제 2 항에 있어서,
상기 웨이크업 행동 명령이 입력되는지를 판단하는 단계는,
소정 주기로 파악되는 상기 얼굴 방향 정보를 시간 순서대로 누적하는 단계와,
상기 누적에 따른 상기 얼굴 방향 정보의 변화 패턴을 파악하는 단계와,
상기 파악된 얼굴 방향 정보의 변화 패턴과 상기 기 설정된 기준 패턴을 비교한 결과에 기초하여 상기 사용자의 응시 상태를 응시시작, 상태유지 및 응시해제 중에서 어느 하나로 구별하는 단계와,
상기 구별된 응시 상태에 따라 상기 이전에 식별된 웨이크업 행동 명령의 유효성을 판정하는 단계를 포함하는
음성 인식 방법.
제 3 항에 있어서,
상기 얼굴 방향 정보를 시간 순서대로 제 1 시간 구간과 제 2 시간 구간으로 구분하며, 상기 제 1 시간 구간과 상기 제 2 시간 구간에 대해 각각 응시 여부를 구별하고, 구별된 상기 제 1 시간 구간의 응시 여부 및 상기 제 2 시간 구간의 응시 여부에 따라 상기 사용자의 응시 상태를 응시시작, 상태유지 및 응시해제 중에서 어느 하나로 구별하는
음성 인식 방법.
음성 인식 장치에서 수행되는 음성 인식 방법으로서,
웨이크업 대기 모드에서 입력 영상을 분석하여 기 설정된 웨이크업 행동 명령이 입력되었으면, 음성 인식 모드로 전환하는 단계와,
상기 음성 인식 모드에서 기 설정된 웨이크업 소리 명령이 입력되면, 웨이크업 모드로 전환하는 단계를 포함하고,
상기 웨이크업 행동 명령이 입력되었는지는 상기 입력 영상 내에 존재하는 사용자의 시선 정보를 파악한 후 상기 파악된 시선 정보와 기 설정된 기준 정보를 비교한 결과에 기초하여 식별하며, 상기 파악된 시선 정보를 시간 순서대로 누적하여 변화 패턴을 파악한 후 기 설정된 기준 패턴과 비교한 결과에 기초하여 상기 사용자의 응시 상태를 응시시작, 상태유지(응시), 상태유지(해제) 및 응시해제 중에서 어느 하나로 구별하고, 응시시작이나 상태유지(응시)로 구별된 경우에는 이전에 식별된 웨이크업 행동 명령이 계속 유효한 것으로 판정하나 상기 응시상태가 응시해제나 상태유지(해제)로 구별될 경우에는 상기 이전에 식별된 웨이크업 행동 명령을 유효하지 않는 것으로 판정하는
음성 인식 방법.
제 5 항에 있어서,
상기 웨이크업 대기 모드에서는, 상기 음성 인식 장치가 입력 음성을 무시하며,
상기 음성 인식 모드에서는, 상기 음성 인식 장치가 상기 웨이크업 소리 명령 이외의 입력 음성을 무시하는
음성 인식 방법.
삭제
제 5 항에 있어서,
상기 입력 영상 내에 존재하는 사용자의 얼굴 영역을 추출하고, 상기 추출된 얼굴 영역에 대해 얼굴 방향 정보를 상기 시선 정보로서 파악하는
음성 인식 방법.
제 8 항에 있어서,
상기 웨이크업 행동 명령이 입력되었는지를 식별하기 위해, 소정 주기로 파악되는 상기 얼굴 방향 정보를 시간 순서대로 누적하는 단계와,
상기 누적에 따른 상기 얼굴 방향 정보의 변화 패턴을 파악하는 단계와,
상기 파악된 얼굴 방향 정보의 변화 패턴과 상기 기 설정된 기준 패턴을 비교한 결과에 기초하여 상기 사용자의 응시 상태를 응시시작, 상태유지 및 응시해제 중에서 어느 하나로 구별하는 단계와,
상기 구별된 응시 상태에 따라 상기 이전에 식별된 웨이크업 행동 명령의 유효성을 판정하는 단계를 더 포함하는
음성 인식 방법.
제 9 항에 있어서,
상기 얼굴 방향 정보를 시간 순서대로 제 1 시간 구간과 제 2 시간 구간으로 구분하며, 상기 제 1 시간 구간과 상기 제 2 시간 구간에 대해 각각 응시 여부를 구별하고, 구별된 상기 제 1 시간 구간의 응시 여부 및 상기 제 2 시간 구간의 응시 여부에 따라 상기 사용자의 응시 상태를 응시시작, 상태유지 및 응시해제 중에서 어느 하나로 구별하는
음성 인식 방법.
제 1 항 내지 제 6 항, 제 8 항 내지 제 10 항 중에서 어느 한 항에 기재된 음성 인식 방법을 프로세서가 수행하도록 하기 위하여
컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
음성을 입력 받는 음성 입력부와,
영상을 입력 받는 영상 입력부와,
제어부를 포함하며,
상기 제어부는,
웨이크업 대기 모드 중 상기 영상 입력부를 통한 입력 영상을 분석하여 상기 입력 영상 내에 존재하는 사용자의 시선 정보를 파악하고, 상기 파악된 시선 정보와 기 설정된 기준 정보를 비교한 결과에 기초하여 기 설정된 웨이크업 행동 명령이 입력되는지를 판단하고, 상기 웨이크업 행동 명령이 입력되는지 여부에 따라 상기 웨이크업 대기 모드에서 웨이크업 모드로 전환하되, 상기 파악된 시선 정보를 시간 순서대로 누적하여 변화 패턴을 파악한 후 기 설정된 기준 패턴과 비교한 결과에 기초하여 상기 사용자의 응시 상태를 응시시작, 상태유지(응시), 상태유지(해제) 및 응시해제 중에서 어느 하나로 구별하고, 응시시작이나 상태유지(응시)로 구별된 경우에는 이전에 식별된 웨이크업 행동 명령이 계속 유효한 것으로 판정하나 상기 응시상태가 응시해제나 상태유지(해제)로 구별될 경우에는 상기 이전에 식별된 웨이크업 행동 명령을 유효하지 않는 것으로 판정하는
음성 인식 장치.