WO2022124637A1

WO2022124637A1 - 전자장치 및 그의 제어방법

Info

Publication number: WO2022124637A1
Application number: PCT/KR2021/017218
Authority: WO
Inventors: 유지원
Original assignee: 삼성전자(주)
Priority date: 2020-12-10
Filing date: 2021-11-23
Publication date: 2022-06-16
Also published as: EP4227940A4; US20220406308A1; EP4227940A1; CN116615780A; KR20220082577A

Abstract

전자장치는 사용자음성 입력을 수신하고, 상기 전자장치와 연관된 적어도 하나의 항목에 대응하는 상기 전자장치의 상태를 식별하고, 복수의 음성인식엔진과 복수의 상태 간의 복수의 연관도에 기초하여, 상기 복수의 음성인식엔진 중에서 상기 식별된 상태에 대응하는 하나의 음성인식엔진을 선택하고, 상기 선택된 음성인식엔진에 기초하여 상기 사용자음성 입력에 대응하는 동작을 수행하도록 제어하는 프로세서를 포함한다.

Description

전자장치 및 그의 제어방법

본 출원은 2020년 12월 10일자로 대한민국특허청에 제출된 대한민국특허출원 10-2020-0172604호에 기초한 우선권을 주장하며, 그 개시 내용은 전체가 참조로 본 개시에 포함된다.

본 개시는 사용자음성 음성을 인식할 수 있게 하는 전자장치와 그의 제어방법에 관한 것이다.

음성인식을 기능을 가진 전자장치는 사용자음성 음성을 마이크로폰을 통해 수신하고, 수신된 사용자음성 음성을 서버의 음성인식엔진에 전달하여 인식을 수행할 수 있다. 이때, 음성인식엔진은 사용자음성을 인식한 결과를 전자장치로 전달하고, 전자장치는 인식 결과를 실행한다.

그러나, 서버의 음성인식엔진은 전자장치의 상태에 따라, 예를 들면 전원 오프 상태 또는 네트워크가 연결되지 않은 상태에서 사용자음성이 전달될 수 없어 음성인식을 수행하지 못하는 문제가 발생할 수 있다.

또한, 전원제어, 채널제어, 볼륨제어 등과 같이 전자장치의 기능을 제어하는 사용자음성 명령은 전자장치 내에 마련된 온디바이스 음성인식엔진에 의해 처리하는 것이 더 효율적이나, 서버 음성인식엔진이 선택되어 음성인식이 비효율적으로 처리되는 문제가 발생할 수 있다.

본 개시는, 상술한 종래의 문제를 해결하기 위한 것으로, 전자장치의 상태를 반영하여 효율적으로 음성인식을 수행하도록 하는 전자장치와 그의 제어방법을 제공한다.

상기 과제를 달성하기 위한 일 양상에 따른 전자장치가 제공된다. 전자장치는, 사용자음성 입력을 수신하고, 상기 전자장치와 연관된 적어도 하나의 항목에 대응하는 상기 전자장치의 상태를 식별하고, 복수의 음성인식엔진과 복수의 상태 간의 복수의 연관도에 기초하여, 상기 복수의 음성인식엔진 중에서 상기 식별된 상태에 대응하는 하나의 음성인식엔진을 선택하고, 상기 선택된 음성인식엔진에 기초하여 상기 사용자음성 입력에 대응하는 동작을 수행하도록 제어하는 프로세서를 포함한다.

상기 복수의 음성인식엔진은 상기 전자장치 내에 포함된 온디바이스 음성인식엔진과 서버에 마련된 서버 음성인식엔진을 포함하며, 상기 프로세서는, 상기 온디바이스 음성인식엔진 또는 상기 서버 음성인식엔진을 선택하도록 제어할 수 있다.

상기 프로세서는 복수의 인텐트 중에서 상기 수신되는 사용자음성 입력에 대응하는 인텐트를 식별하고, 상기 복수의 음성인식엔진과 상기 복수의 인텐트 간의 관계에 기초하여, 상기 음성인식엔진을 선택하도록 제어할 수 있다.

상기 복수의 음성인식엔진 중 하나는 상기 사용자음성 입력의 인텐트를 분석하는 디폴트 음성인식엔진을 포함할 수 있다.

상기 복수의 인텐트 중 적어도 하나의 인텐트를 상기 복수의 음성인식엔진에 할당한 제1참조데이터가 저장된 저장부를 더 포함할 수 있다.

상기 저장부는 상기 복수의 음성인식엔진과 상기 복수의 상태 사이의 연관도와, 상기 복수의 음성인식엔진과 상기 복수의 인텐트 사이의 연관도 사이의 연관도들 중 적어도 하나를 포함하는 제2참조데이터를 저장할 수 있다.

상기 프로세서는 상기 사용자음성 입력의 인텐트와 연관된 각 음성인식엔진에 대한 연관도를 산출하도록 제어할 수 있다.

상기 프로세서는 상기 사용자음성 입력의 인식결과에 기초하여 상기 복수의 음성인식엔진과 상기 복수의 상태 사이의 연관도와, 상기 복수의 음성인식엔진과 상기 복수의 인텐트 사이의 연관도 사이의 연관도들 중 적어도 하나가 조정되도록 제어할 수 있다.

상기 프로세서는 상기 사용자음성 입력의 인식결과에 대응하는 이력정보에 관한 데이터를 저장하도록 상기 저장부를 제어하고, 상기 이력정보를 기초로 동일한 연관도를 가진 복수의 음성인식엔진 중에서 상기 음성인식엔진을 선택하도록 제어할 수 있다.

상기 프로세서는 상기 사용자음성 입력의 인식결과에 대응하는 이력정보에 관한 데이터를 저장하도록 상기 저장부를 제어하고, 상기 이력정보를 기초로 음성인식엔진을 결정하는 룰을 생성할 수 있다.

본 개시의 일 양상에 따른 전자장치의 제어방법이 제공된다. 전자장치의 제어방법은 사용자음성 입력을 수신하는 단계, 상기 전자장치와 연관된 적어도 하나의 항목에 대응하는 상기 전자장치의 상태를 식별하는 단계, 복수의 음성인식엔진과 복수의 상태 간의 복수의 연관도에 기초하여, 상기 복수의 음성인식엔진 중에서 상기 식별된 상태에 대응하는 하나의 음성인식엔진을 선택하는 단계 및 상기 선택된 음성인식엔진에 기초하여 상기 사용자음성 입력에 대응하는 동작을 수행하도록 제어하는 단계를 포함한다.

상기 복수의 음성인식엔진은 상기 전자장치 내에 포함된 온디바이스 음성인식엔진과 서버에 마련된 서버 음성인식엔진을 포함하며, 상기 전자장치의 제어방법은 상기 온디바이스 음성인식엔진 또는 상기 서버 음성인식엔진을 선택하는 단계를 더 포함할 수 있다.

상기 전자장치의 제어방법은 복수의 인텐트 중에서 상기 수신되는 사용자음성 입력에 대응하는 인텐트를 식별하는 단계 및 상기 복수의 음성인식엔진과 상기 복수의 인텐트 간의 관계에 기초하여, 상기 음성인식엔진을 선택하는 단계를 더 포함할 수 있다.

상기 전자장치의 제어방법은 상기 복수의 인텐트 중 적어도 하나의 인텐트를 상기 복수의 음성인식엔진에 제1참조데이터를 저장부에 저장하는 단계를 더 포함할 수 있다.

본 개시에 따르면, 전자장치는 사용자음성 입력을 수신하였을 때 많은 음성인식엔진들 중에 전자장치의 상태에 맞는 최적의 음성인식엔진을 선택함으로써 음성인식 성공률, 정확도 및 속도를 향상시킬 수 있다. 특히, 본 개시의 전자장치는 다양한 상황에 적합한 온디바이스(OnDevice) 음성인식엔진 또는 서버(Server) 음성인식엔진을 선택함으로써 효율적인 음성인식의 수행이 가능하다.

도 1은 일 실시예에 따른 전자장치가 복수의 음성인식엔진을 이용하여 음성인식을 수행하는 환경을 나타내는 도면이다.

도 2는 전자장치의 구성 블록도이다.

도 3은 본 개시의 일 실시예에 따른 전자장치의 프로세서 구성을 나타내는 블록도이다.

도 4는 일 실시예에 따른 사용자음성의 각 인텐트를 엔진 별로 할당한 리스트를 예로 나타낸 제1참조데이터이다.

도 5는 일 실시예에 따른 전자장치에 관련된 항목의 상태와 엔진들 간의 연관도를 나타낸 제2참조데이터이다.

도 6은 일 실시예에 따른 사용자음성 인식 처리 결과에 대한 이력데이터를 나타낸 제3참조데이터이다.

도 7은 본 개시의 제1실시예에 따른 전자장치의 제어방법을 나타내는 순서도이다.

도 8은 일 실시예에 따른 전자장치가 제1참조데이터와 제2참조데이터를 이용하여 엔진을 선택하는 제1예를 나타내는 예시도이다.

도 9는 일 실시예에 따른 전자장치가 제1참조데이터와 제2참조데이터를 이용하여 엔진을 선택하는 제2예를 나타내는 예시도이다.

도 10은 일 실시예에 따른 전자장치가 제1참조데이터와 제2참조데이터를 이용하여 엔진을 선택하는 제3예를 나타내는 예시도이다.

도 11은 일 실시예에 따른 전자장치가 제3참조데이터를 이용하여 엔진을 선택하는 일예를 나타내는 예시도이다.

도 12는 일 실시예에 따른 전자장치가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제1예를 나타내는 예시도이다.

도 13은 일 실시예에 따른 전자장치가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제2예를 나타내는 예시도이다.

도 14는 일 실시예에 따른 전자장치가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제3예를 나타내는 예시도이다.

도 15는 일 실시예에 따른 전자장치가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제4예를 나타내는 예시도이다.

도 16은 일 실시예에 따른 전자장치가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제5예를 나타내는 예시도이다.

도 17은 일 실시예에 따른 전자장치가 사용자음성의 처리 결과를 반영하여 업데이트한 결과를 나타내는 예시도이다.

도 18은 일 실시예에 따른 전자장치가 사용자음성의 인식을 거절한 결과를 반영하여 업데이트한 결과를 나타내는 예시도이다.

도 19는 본 개시의 제2실시예에 따른 전자장치의 제어방법을 나타내는 순서도이다.

도 20은 본 개시의 제2실시예에 따른 전자장치가 사용자음성에 대한 인식 엔진을 선택하는 일예를 나타내는 예시도이다.

도 21은 본 개시의 제3실시예에 따른 전자장치의 제어방법을 나타내는 순서도이다.

도 22는 본 개시의 제3실시예에 따른 전자장치가 사용자음성에 대한 인식 엔진을 선택하는 일예를 나타내는 예시도이다.

도 23은 본 개시의 제4실시예에 따른 전자장치의 제어방법을 나타내는 순서도이다.

도 24는 본 개시의 제5실시예에 따른 전자장치의 프로세서의 구성을 나타내는 블록도이다.

도 25는 본 개시의 제6실시예에 따른 전자장치의 프로세서의 구성을 나타내는 블록도이다.

도 26은 본 개시의 제7실시예에 따른 전자장치의 프로세서의 구성을 나타내는 블록도이다.

도 27은 일 실시예에 따른 전자장치가 참조데이터를 획득하는 예시를 나타내는 구성 블록도이다.

이하에서는 첨부 도면을 참조하여 본 개시의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 개시의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 개시를 설명함에 있어서 본 개시와 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

이 기술 분야에 관례적인 바와 같이, 실시예들은 설명된 기능 또는 기능들을 수행하는 블록들로 설명 및 예시된다. 본 개시에서 제어부, 디바이스, 엔진, 드라이버 등과 같은 유닛들 또는 모듈들 등으로 언급되는 이러한 블록들은 로직 게이트, 집적회로, 패시브 전자소자, 액티브 전자소자, 광학소자, 하드웨어 내장 회로 등과 같은 아날로그 또는 디지털 회로들에 의해 물리적으로 실현되어 펌웨어와 소프트웨어에 의해 구동될 수 있다. 회로들은, 예를 들면, 인쇄회로기판과 같은 기판 지지부 또는 하나 이상의 반도체칩으로 구현될 수 있다. 블록에 포함된 회로는 전용 하드웨어, 프로세서(예를 들면, 하나의 이상의 프로그램 마이크로프로세서 및 관련 회로), 또는 블록의 일부 기능을 수행하는 전용 하드웨어와 블록의 다른 기능을 수행하는 프로세서의 조합에 의해 실현될 수 있다. 실시예들의 각 블록은 두 개 이상의 상호 작용하는 별개의 블록들로 물리적으로 분리될 수 있다. 마찬가지로, 실시예들의 블록들은 더 복잡한 블록들로 물리적으로 결합될 수 있다.

본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

또한, 본 개시의 실시예에서 '상부', '하부', '좌측', '우측', '내측', '외측', '내면', '외면', '전방', '후방' 등의 용어는 도면을 기준으로 정의한 것이며, 이에 의해 각 구성요소의 형상이나 위치가 제한되는 것은 아니다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 서브 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(general-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 개시에서, 사용자라는 용어는 전자장치(1)를 사용하는 사람 또는 전자장치(1)를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 전자장치(1)가 복수의 음성인식엔진을 이용하여 음성인식을 수행하는 환경을 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 개시의 일 실시예에 따른 전자장치(1)는 예를 들면 영상을 표시 가능한 디스플레이장치일 수 있다. 디스플레이장치인 경우, 전자장치(1)는 TV, 컴퓨터, 태블릿, 휴대용 미디어 플레이어, 웨어러블 디바이스, 비디오 월, 전자액자 등을 포함할 수 있다. 다만, 실제로 전자장치(1)는 디스플레이장치뿐만 아니라, 디스플레이를 구비하지 않은 셋탑박스 등의 영상처리장치이거나, 냉장고, 세탁기 등의 생활가전이거나, 컴퓨터본체와 같은 정보처리장치 등 다양한 종류의 장치를 포함할 수 있다. 또한, 전자장치(1)는 하나의 고정된 위치에 설치되어 사용되는 장치일 수 있고, 사용자가 휴대하고 이동하면서 사용이 가능한 모바일기기(4)일 수도 있다.

전자장치(1)는 사용자음성을 수신할 수 있다. 즉, 전자장치(1)는 사용자가 소정의 명령어를 발화하면, 발화에 따른 사용자음성을 획득한다. 발화에 따른 사용자음성을 획득하기 위하여, 전자장치(1)는 자체에 내장된 발화를 수집하는 마이크로폰을 구비하거나, 또는 마이크로폰을 가진 리모트 컨트롤러(3) 또는 모바일폰과 같은 별도의 외부장치로부터 사용자음성을 수신할 수도 있다.

리모컨 컨트롤러(3)는 마이크로폰으로 음성을 수신하면 아날로그 음성 신호를 디지털화 하여 블루투수 등으로 전자장치(1) 측으로 전송한다.

전자장치(1)는 자체 내장된 마이크로폰으로 음성을 수신하면 아날로그 음성 신호를 디지털화 하여 전자장치(1)의 프로세서(16)로 전송한다. 이때, 디지털화 음성 정보를 수신한 전자장치(1)는 이를 STT서버로 전송한다.

STT서버는 음성신호 관련 데이터를 적절한 텍스트로 변환하는 STT서버의 역할만 수행하는 것일 수도 있으며, STT서버 기능도 함께 수행하는 메인 서버일 수도 있다.

STT서버에서 처리된 데이터는 전자장치(1)가 다시 수신하거나 다른 서버로 바로 전송할 수도 있다.

전자장치(1)는 STT서버로 음성정보를 전송하지 않고 자체적으로 모두 처리할 수 있다. 이때, 전자장치(1)는 자체적으로 STT서버 역할을 수행할 수 있다.

전자장치(1)는 STT서버에서 전송된 텍스트나 자체적으로 변환한 텍스트를 이용하여 특정 기능 수행할 수 있다. 이때, 기능을 수행하는 것이 전자장치(1)의 프로세서(16)에 의한 경우도 있으나, 변환된 텍스트를 별도의 서버(STT서버와 다른 서버 또는 STT서버 역할도 하는 서버)로 전송할 수 있다. 이를 수신한 STT서버는 데이터 처리하여 전자장치(1)로 전송하고, 전자장치는 수신한 데이터를 기반으로 특정 기능을 수행한다.

전자장치(1)는 복수의 음성인식엔진(이하 "엔진"이라 칭한다)(10a, 10b, 10c, …)(20A, 20B, 20C, …)를 이용하여 수신된 사용자음성을 인식할 수 있다. 하나의 엔진, 예를 들면, 복수의 엔진(10a, 10b, 10c, …)(20A, 20B, 20C, …) 중 하나는 인공지능에 기반해서 사용자음성에 대한 내용 및 문맥의 분석을 통해 해당 발화의 인텐트(intent)를 판단하고, 판단 결과에 대응하는 동작이 수행되도록 처리하는 어플리케이션 서비스이다. 예를 들면, 엔진(10a, 10b, 10c, …)(20A, 20B, 20C, …)은 전자장치(1)에 입력되는 사용자음성을 STT 처리하여 텍스트 데이터를 도출하고, 도출된 텍스트 데이터를 딥 러닝 또는 머신러닝에 기반하여 의미 분석을 수행함으로써 텍스트 데이터의 의미를 판단하며, 판단한 의미에 맞는 서비스를 제공할 수 있다.

복수의 엔진(10a, 10b, 10c, …)(20A, 20B, 20C, …)은 전자장치(1) 내부에서 대부분의 동작이 수행되는 온디바이스(OnDevice) 엔진(10a, 10b, 10c, …) 및 전자장치(1)와 통신하는 서버 또는 외부장치에서 동작이 수행되는 서버 엔진(20A, 20B, 20C, …)을 포함할 수 있다.

도 2는 전자장치(1)의 구성 블록도이다.

도 2에 도시된 바와 같이, 전자장치(1)은 인터페이스(11), 디스플레이부(12), 사용자입력부(13), 저장부(14), 마이크로폰(15) 및, 프로세서(16)를 포함한다.

이하, 전자장치(1)의 구성에 관해 설명한다. 본 실시예서는 전자장치(1)가 TV인 경우에 관해 설명하지만, 전자장치(1)는 다양한 종류의 장치일 수 있으므로, 본 실시예가 전자장치(1)의 구성을 한정하는 것은 아니다. 전자장치(1)가 전적으로 디스플레이장치로 구현되지 않는 경우도 가능하며, 이 경우의 전자장치(1)는 디스플레이부(12)와 같은 영상 표시를 위한 구성요소들을 포함하지 않을 수 있다. 예를 들면 전자장치(1)가 셋탑박스인 경우에, 전자장치(1)는 인터페이스부(11)를 통해 외부의 TV에 영상신호를 출력할 수 있다.

인터페이스부(11)는 다양한 종류의 유선 및 무선 통신 프로토콜에 대응하는 통신모듈, 통신칩 등의 구성요소들 중 적어도 하나 이상을 포함하는 단방향 또는 양방향 통신회로이다.

인터페이스부(11)는 각종 외부장치, 예를 들면 서버(2), 리모트 컨트롤러(3) 또는 모바일기기(4)로부터 간접적으로 사용자음성을 수신할 수 있다.

인터페이스부(11)는 유선 인터페이스부와 무선 인터페이스부를 포함할 수 있다.

유선 인터페이스부는 방송신호를 수신하기 위한 지상파, 위성방송 안테나 연결 튜너, 케이블 방송 케이블 연결 인터페이스 등을 포함할 수 있다.

유선 인터페이스부는 영상기기 연결을 위한 HDMI, DP, DVI, Component, S-Video, 컴포지트(RCA 단자) 등을 포함할 수 있다.

유선 인터페이스부는 범용 전자기기 연결을 위한 USB 인터페이스 등을 포함할 수 있다.

유선 인터페이스부는 광케이블 기기의 연결 인터페이스를 포함할 수 있다.

유선 인터페이스부는 헤드셋, 이어폰, 외부 스피커 등의 오디오기기 연결 인터페이스를 포함할 수 있다.

유선 인터페이스부는 이더넷 등 유선 네트워크 기기의 연결 인터페이스를 포함할 수 있다.

무선 인터페이스부는 Wi-fi, 블루투스, ZigBee, Z-wave, RFID, WiGig, WirelessHD, UWB(Ultra-Wide Band), Wireless USB, NFC(Near Field Communication) 등 무선 네트워크 기기의 연결 인터페이스를 포함할 수 있다.

무선 인터페이스부는 리모컨신호 송신 및/또는 수신을 위한 IR 송수신 모듈을 포함할 수 있다.

무선 인터페이스부는 2G ~ 5G 등 이동통신기기 연결 인터페이스를 포함할 수 있다.

인터페이스부(11)는 서버(2), 리모트 컨트롤러(3), 모바일기기(4) 각각에 대해 전용으로 통신을 수행하는 전용통신모듈을 포함할 수 있다.

인터페이스부(11)는 서버(2), 리모트 컨트롤러(3), 모바일기기(4) 모두와 통신을 수행하는 공용통신모듈 등을 포함할 수 있다. 예를 들면 서버(2), 리모트컨트롤러(3) 및 모바일기기(4)는 모두 Wi-fi 모듈을 통해 통신을 수행할 수 있다.

인터페이스부(11)는 입력 인터페이스부와 출력 인터페이스부를 포함할 수도 있다. 이때, 입력 인터페이스부와 출력 인터페이스부는 하나의 모듈로 통합되거나 별도의 모듈로 구현될 수도 있다.

디스플레이부(12)는 화면 상에 영상을 표시할 수 있는 디스플레이 패널을 포함한다. 디스플레이 패널은 액정 방식과 같은 수광 구조 또는 OLED 방식과 같은 자발광 구조로 마련된다. 디스플레이부(12)는 디스플레이 패널의 구조에 따라서 부가적인 구성을 추가로 포함할 수 있는데, 예를 들면 디스플레이 패널이 액정 방식이라면, 디스플레이부(12)는 액정 디스플레이 패널과, 광을 공급하는 백라이트 유닛과, 액정 디스플레이 패널의 액정을 구동시키는 패널구동기판을 포함한다.

사용자입력부(13)는 사용자의 입력을 수행하기 위해 사용자가 조작할 수 있도록 마련된 다양한 종류의 입력 인터페이스 관련 회로를 포함한다. 사용자입력부(13)는 전자장치(1)의 종류에 따라서 여러 가지 형태의 구성이 가능하며, 예를 들면 전자장치(1)의 기계적 또는 전자적 버튼, 터치패드, 센서, 카메라, 디스플레이부(12)에 설치된 터치스크린 등이 있다.

저장부(14)는 디지털화된 데이터를 저장한다. 저장부(14)는 전원의 제공 유무와 무관하게 데이터를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(16)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), 램(RAM; Random Access Memory) 등이 있다. 본 실시예에 따른 저장부(14)는 복수의 엔진(10a, 10b, 10c, …) 및 이를 실행시키는 복수의 어플리케이션이 저장될 수 있다. 저장부(14)에 저장된 어플리케이션이 프로세서(16)에 의해 구동됨으로써 엔진(10a, 10b, 10c, …)이 실행될 수 있다. 복수의 엔진(10a, 10b, 10c, …) 중 하나는 수신된 사용자음성에 대한 인텐트를 분석하도록 디폴트로 설정될 수 있다.

저장부(14)는 전자장치(1)의 상태정보와 엔진들 간의 연관도가 설정된 제1참조데이터(400)(도 4에 도시), 복수의 인텐트 중에서 선택된 적어도 하나의 인텐트를 각 엔진 별로 할당한 제2참조데이터(도 5에 도시), 사용자음성에 대한 엔진 선택과 인식결과 실행 이력데이터(도 6에 도시), 및 엔진선택 룰 데이터를 포함할 수 있다.

마이크로폰(15)은 사용자음성을 비롯한 외부 환경의 소리를 수집한다. 마이크로폰(15)은 수집된 소리의 음성신호를 프로세서(16)에 전달한다.

프로세서(16)는 인쇄회로기판 상에 장착되는 CPU, 칩셋, 버퍼, 회로 등으로 구현되는 하나 이상의 하드웨어 프로세서를 포함하며, 설계 방식에 따라서는 SOC(system on chip)로 구현될 수도 있다. 프로세서(16)는 전자장치(1)가 디스플레이장치인 경우에 디멀티플렉서, 디코더, 스케일러, 오디오 DSP(Digital Signal Processor), 앰프 등의 다양한 프로세스에 대응하는 모듈들을 포함한다. 여기서, 이러한 모듈들 중 일부 또는 전체가 SOC에 포함될 수 있다. 예를 들면, 디멀티플렉서, 디코더, 스케일러 등 영상처리와 관련된 모듈이 영상처리 SOC에 포함되고, 오디오 DSP는 SOC와 별도의 칩셋에 포함되는 것이 가능하다.

프로세서(16)는 수신된 사용자음성에 대한 인텐트를 분석하기 위해 예컨대 디폴트 엔진(10a)을 실행할 수 있다.

프로세서(16)는 복수의 엔진(10a, 10b, 10c, …)(20A, 20B, 20C, …) 중 전자장치(1)과 관련된 항목의 전자장치(1)의 상태에 적합한 엔진 또는 엔진들들을 선택하고, 선택된 엔진 또는 엔진들에 음성 인식을 위해 사용자음성을 전달할 수 있다.

프로세서(16)는 엔진 또는 엔진들의 수행한 인식 결과를 수신하면, 예를 들면 전자장치(1)의 기능 실행, 결과 출력, 결과 저장, 또는 외부장치로의 결과 전송 등의 동작을 수행할 수 있다.

전자장치(1)는 다음과 같은 다양한 방법으로 사용자가 발화한 음성을 획득할 수 있다.

전자장치(1)는 소리를 수집하는 마이크로폰(15)을 구비할 수 있다. 마이크로폰(15)을 통해 수집된 사용자음성의 음성신호는 디지털신호로 변환되어 프로세서(16)에 전달된다.

실시예들에서, 리모트 컨트롤러(3)가 마이크로폰(35)을 구비한 경우에, 전자장치(1)는 마이크로폰(35)을 통해 수집된 사용자음성의 음성신호를 리모트 컨트롤러(3)로부터 인터페이스부(11)를 통해 수신할 수도 있다. 리모트 컨트롤러(3)는 마이크로폰(35)을 통해 수집된 사용자음성의 음성신호를 디지털신호로 변환하고, 이 디지털신호를 수신 가능한 프로토콜에 따라서 리모컨통신부(31)를 통해 인터페이스부 (11)로 전송한다. 실시예들에서, 리모컨통신부(31)와 모바일통신부(41)과 같은 통신부는, 예를 들면, 통신 모듈, 통신 칩 등과 같은 적어도 하나의 구성요소를 포함하는 단방향 또는 양방향 통신회로를 포함할 수 있는 통신 인터페이스일 수 있다.

실시예들에서, 모바일기기(4)와 같은 범용기기의 경우에, 전자장치(1)의 제어를 위해 마련된 어플리케이션을 인스톨하여 실행시킴으로써 모바일기기(4)는 리모트 컨트롤러(3)와 유사하게 동작할 수 있다. 모바일기기(4)는 상기한 어플리케이션이 실행되는 동안 마이크로폰(45)을 통해 수집된 사용자음성의 음성신호를 디지털신호로 변환하여, 모바일통신부(41)를 통해 인터페이스부(11)로 전송한다.

이하, 본 개시의 실시예에 따른 프로세서(16)가 복수의 엔진(10a, 10b, 10c, …)(20A, 20B, 20C, …) 중 적어도 하나를 선택하여 사용자음성을 처리하도록 하는 예들을 설명한다.

도 3은 본 개시의 일 실시예에 따른 전자장치(1)의 프로세서(16) 구성을 나타내는 블록도이고, 도 4는 사용자음성의 각 인텐트를 엔진 별로 할당한 리스트를 예로 나타낸 제1참조데이터(400)이고, 도 5는 전자장치(1)에 관련된 항목의 상태와 엔진들 간의 연관도를 나타낸 제2참조데이터(500)이고, 도 6은 사용자음성 인식 처리 결과에 대한 이력데이터를 나타낸 제3참조데이터(600)이다.

도 3에 도시된 바와 같이, 복수의 엔진(10a, 10b, 10c)(20A, 20B, 20C, 20D) 중 적어도 하나를 선택하여 사용자음성을 처리하는 동작은 전자장치(1)의 프로세서(16)에 의해 수행된다. 또한, 본 전자장치(1)와 서버(2)는 각각 복수 또는 단일의 온디바이스 엔진(10a, 10b, 10c과 서버 엔진(20A, 20B, 20C, 20D)을 구비할 수 있다.

프로세서(16)는 인텐트 분석부(161), 상태분석부(162), 엔진 선택부(163), 엔진-상태 연관도 산출부(164), 엔진 후보 그룹 판단부(165), 음성인식부(166), 기능실행부(167), 연관도조정부(168) 및 룰(rule) 생성부(169)를 포함할 수 있다.

인텐트 분석부(161)는 소정의 경로를 통해 사용자음성이 수신되면, 디폴트로 설정된 예를 들면 엔진(10a)을 실행하여 사용자음성의 인텐트를 분석한다. 사용자음성의 인텐트 분석은 예를 들면 서포트 벡터 머신(SVM), 심층 학습 기반 모델, 또는 합성곱 신경망 모델을 이용한 방법을 사용할 수 있다.

도 4에 나타낸 바와 같이, 사용자음성의 인텐트는 사용자가 원하는 명령 또는 서비스 요청으로, 예를 들면 채널제어, 전원제어, 볼륨제어, Q&A, 날씨검색, 쇼핑, 음악, 또는 영화 중 적어도 하나를 포함할 수 있다. 사용자음성의 인텐트는 전술한 인텐트들로 한정되지 않는다.

엔진(10a~10c)(20A~20D)은 각각 주력으로 하는 적어도 하나의 인텐트를 제공할 수 있다. 예를 들면, 온디바이스 엔진(10a~10c)은 모두 채널제어, 전원제어, 볼륨제어 인텐트를 제공할 수 있다. 또한, 서버 엔진(20A)은 Q&A, 날씨검색, 쇼핑 인텐트를 제공하고, 서버 엔진(20B)는 날씨검색, 쇼핑, 음악 인텐트를 제공하고, 서버 엔진(20C)는 Q&A, 음악, 영화 인텐트를 제공하고, 서버 엔진(20D)은 쇼핑, 음악, 영화 인텐트를 제공할 수 있다. 실시예들에서, 온디바이스 엔진(10a~10c)은 전자장치(1)의 기능 제어를 가능하게 하고, 서버 엔진(20A~20D)은 사용자가 원하는 서비스를 제공하는 것을 가능하게 할 수 있다.

제1참조데이터(400)에서, 채널제어, 전원제어, 볼륨제어 인텐트는 온디바이스 엔진(10a~10c)에 관련된 제1인텐트 그룹과 Q&A, 날씨검색, 쇼핑, 영화 인텐트는 서버 엔진(20A~20D)에 관련된 제2인텐트 그룹으로 구분될 수 있다.

엔진(10a~10c)(20A~20D)이 제공하는 인텐트는 도 4에 도시한 바와 같이 3개로 한정되지 않으며, 또한 서로 중첩될 수도 있다.

도 3에 도시된 상태분석부(162)는 전자장치(1)와 연관된 적어도 하나의 항목에 관한 전자장치(1)의 상태를 분석할 수 있다.

도 5에 나타낸 바와 같이, 전자장치(1)와 연관된 항목은 예를 들면 전원상태, 네트워크 상태, 계정로그인 상태, 음성화자, 음성입력경로, 트리거 유무, 또는 어플리케이션 상태 중 적어도 하나를 포함한다. 전자장치(1)와 연관된 항목은 전술한 항목들로 한정되지 않는다.

전자장치(1)의 상태는 예를 들면 전원상태 항목의 전원 "OFF", "standby", "ON"으로 구분할 수 있고, 네트워크 상태 항목의 "online", "offline"으로 구분할 수 있고, 계정 로그인 상태 항목의 "없음", "있음"으로 구분할 수 있고, 음성의 화자 항목의 "어린이", "여자", "남자", "노인"으로 구분할 수 있고, 음성경로 항목의 "리모트 컨트롤러", "마이크로폰", "외부스피커"으로 구분할 수 있고, 트리거(인텐트 분석엔진) 항목의 "트리거 엔진 분석 인텐트 선택 YES", "트리거 엔진 분석 인텐트 선택 NO), "트리거가 아닌 엔진 분석 인텐트 선택 YES", "트리거가 아닌 엔진 분석 인텐트 선택 NO"로 구분할 수 있고, 앱 실행 상태 항목의 "Web", "OTT", LiveTV", "20C의 엔진 앱", "기타 앱"으로 구분할 수 있다. 전자장치(1)의 상태는 전술한 상태들로 한정되지 않는다.

도 5에 도시한 제2참조데이터(500)는 전자장치(1)와 연관된 적어도 하나의 항목들과 각 항목에 속한 전자장치(1)의 상태들에 대해 복수의 엔진들 각각이 얼마나 관련성이 있는지를 나타내는 연관도가 사전 설정될 수 있다. 이 연관도는 음성인식의 경험이 축적되면서 증가하거나 감소되도록 조정될 수 있다.

제2참조데이터(500)에서, 연관도는 각 상태에 대해 관련도가 가장 높은 엔진은 1.0, 가장 낮은 엔진은 0.1로 설정하였다. 그러나, 이러한 연관도는 설명을 위한 예로서 다른 기준, 예를 들면 1~100 또는 % 등으로 다양하게 설정될 수도 있다.

제2참조데이터(500)에서, 복수의 엔진들은 전자장치(1) 내에 있는 온디바이스 엔진(10a~10c)과 서버 엔진(20A~20D)으로 분류될 수 있다.

제2참조데이터(500)에서, 전자장치(1)와 관련된 항목 중 전원상태, 네트워크 상태, 계정로그인 상태는 온디바이스 엔진들(10a~10c)에 관련된 제1상태 그룹으로, 음성화자, 음성입력경로, 트리거 유무, 어플리케이션 상태는 서버 엔진들(20A~20D)에 관련된 제2상태 그룹으로 분류할 수 있다.

엔진 선택부(163)는 저장부(14)의 룰 DB의 제3참조데이터(600)를 기초로 사용자음성의 인텐트와 전자장치(1)의 상태에 관련된 엔진이 엔진 선택 룰로 설정된 것이 있는지를 검색한다.

도 6에 도시한 바와 같이, 제3참조데이터(600)는 사용자음성의 인텐트와 전자장치의 상태들에 대해 특정 엔진이 처리한 음성 인식 이력들이 반복 저장된 데이터로서, 특정 횟수 이상의 동일한 결과가 기록되는 경우에 엔진선택 룰로 지정되는 것을 나타내고 있다.

제3참조데이터는 인텐트 "채널제어", 전원상태 "ON", 네트워크 상태 "online", 계정로그인 상태 "없음", 음성화자 "남자", 음성입력경로 "마이크로폰", 트리거 "트리거 엔진 분석 인텐트 선택 YES", 또는 어플리케이션 상태 "LiveTV", 선택 엔진(10b), 선택실행 횟수 56회, 룰 지정 "YES"가 제1이력데이터로 포함되어 있다. 엔진 선택 룰은 동일한 인텐트와 전자장치의 상태에 대해 동일한 엔진이 선택되어 처리한 횟수가 소정 횟수, 예를 들면 50회 이상 반복될 때에 생성할 수 있다. 여기서, 엔진 선택 룰을 지정하는 횟수는 50회로 한정되지 않는다.

일 실시예에 따르면, 전자장치(1)는 사용자음성의 처리결과의 업데이트를 통한 연관도 조정에 의해 증가한 연관도가 소정 값을 초과하는 경우에 엔진 선택 룰을 생성할 수도 있다.

또한, 제3참조데이터(600)는 인텐트 "전원제어", 전원상태 "OFF", 네트워크 상태 "ofline", 계정로그인 상태 "없음", 음성화자 "여자", 음성입력경로 "마이크로폰", 트리거 "트리거 엔진 분석 인텐트 선택 YES", 또는 어플리케이션 상태 "기타", 선택 엔진(10a), 선택실행 횟수 28회, 룰 지정 "NO"가 제2이력데이터로 기록되어 있다. 제2이력데이터는 22회가 추가되면 그 때 엔진 선택 룰로 지정될 수 있다.

도 6에 나타낸 제3참조데이터(600)는 설명을 위한 예로서 이에 한정되지 않는다.

엔진 선택부(163)는 분석한 인텐트와 상태가 도 6의 제3참조데이터(600)에서 룰로 지정된 제1이력데이터와 동일하면 다른 절차를 생략하고 엔진(10b)를 바로 선택할 수 있다.

엔진 선택부(163)는 분석한 인텐트와 상태에 대한 룰 지정이 없으면 최적의 엔진 선택을 위한 다음 절차를 진행한다. 엔진 선택부(163)는 참조데이터 DB의 제1참조데이터(400) 및/또는 제2참조데이터(500)를 이용하여 온디바이스 엔진(10a~10c) 또는 서버 엔진(20A~20D) 중 하나를 선택한다.

도 3에 도시된 엔진-상태 연관도 산출부(164)는 참조데이터 DB의 제2참조데이터(500)를 이용하여 온디바이스 엔진(10a~10c) 또는 서버 엔진(20A~20D) 중 하나의 각 엔진의 연관도를 산출한다.

엔진-상태 연관도 산출부(164)는 사용자음성이 온디바이스 엔진들(10a~10c)에 관한 것으로 식별되면 온디바이스 엔진들(10a~10c) 각각에 대해 제1상태 그룹, 예를 들면, 온디바이스 상태 그룹을 이용하여 연관도를 산출할 수 있다.

만일, 엔진-상태 연관도 산출부(164)는 사용자음성이 서버 엔진들(20A~20D)에 관한 것으로 식별되면 서버 엔진들(20A~20D) 각각에 대해 제2상태 그룹, 예를 들면, 서버 상태 그룹을 이용하여 연관도를 산출할 수 있다.

실시예들에서, 엔진-상태 연관도 산출부(164)는 제1상태 그룹과 제2상태 그룹을 선별적으로 적용하지 않고 모든 상태 정보를 적용하여 연관도를 산출할 수 있다.

도 3에 도시된 엔진 후보 그룹 판단부(165)는 앞에서 산출된 각 엔진의 연관도 중 가장 연관도가 높은 엔진, 높은 순으로 소정의 수, 또는 연관도가 소정의 문턱값 이상인 엔진 또는 엔진들을 선택할 수 있다.

도 3에 도시된 음성인식부(166)는 엔진 후보 그룹 판단부(165)에서 선택된 또는 엔진선택 룰에 의해 선택된 엔진 또는 엔진들에 사용자음성을 전달하여 음성인식을 수행하게 한다.

도 3에 도시된 기능실행부(167)는 선택된 엔진 또는 엔진들의 인식 결과를 실행, 예를 들면 전자장치(1)의 기능 실행하거나, 결과를 출력하거나, 결과를 저장하거나, 결과를 외부 장치로 전달할 수 있다.

도 3에 도시된 기능실행부(167)는 인식 처리 결과에 대한 이력을 이력DB에 저장할 수 있다.

도 3에 도시된 연관도 조정부(168)는 선택 엔진의 인식결과를 기초로 한 처리 결과를 반영하여 참조데이터DB의 제2참조데이터(500)의 연관도에 가중치를 조정할 수 있다. 연관도 조정 량은 사전 설정될 수 있다. 이때, 연관도 조정은 사용자의 만족도를 피드백 받아 조정하거나 소정 횟수 반복 실행한 경우에 조정하도록 설정할 수 있다.

도 3에 도시된 연관도 조정부(168)는 선택된 엔진이 사용자음성의 인식을 수행하지 못해 거절한 경우에 참조데이터 DB의 제2참조데이터(500)의 연관도를 감산하도록 조정할 수 있다. 이때, 거절 처리한 엔진이 다시 선택되는 것을 방지하기 위해 연관도 감산 량은 가산 량보다 더 큰 단위로 조정할 수 있다.

도 3에 도시된 룰 생성부(169)는 이력DB에 저장된 이력데이터를 기초로 도 6에 나타낸 바와 같이 소정 횟수, 예를 들면 50회 반복된 동일 결과를 나타내는 인텐트-상태-엔진 조합을 엔진 선택 룰로 생성할 수 있다.

이하, 본 개시의 실시예에 따른 프로세서(16)가 복수의 엔진들 중 어느 하나를 선택하여 사용자음성을 처리하도록 하는 예들을 설명한다.

도 7은 본 개시의 제1실시예에 따른 전자장치(1)의 제어방법을 나타내는 순서도이다.

도 7에 도시된 바와 같이, 하기 동작은 전자장치(1)의 프로세서(16)에 의해 수행된다. 또한, 본 전자장치(1)는 온디바이스 엔진(10a~10c) 및 서버 엔진(20A~20D)을 구비한다.

S1 단계에서, 전자장치(1)는 사용자음성 입력을 수신한다.

S2 단계에서, 전자장치(1)는 수신된 사용자음성의 인텐트를 분석한다. 사용자음성의 인텐트 분석은 전자장치(1) 내에 또는 외부에 마련된 디폴트 엔진을 이용하여 수행할 수 있다. 디폴트 엔진은 사용자음성의 텍스트를 획득하고, 획득한 텍스트로부터 해당 텍스트를 구성하는 하나 이상의 키워드를 획득하고, 인텐트 DB로부터 하나 이상의 키워드에 매칭되는 인텐트를 검색함으로써 사용자음성의 인텐트를 얻을 수 있다. 인텐트 DB는 각종 인텐트와 적어도 하나의 키워드를 매칭시킨 테이블일 수 있다.

S3 단계에서, 전자장치(1)는 전자장치(1)와 관련된 항목의 상태 정보를 분석한다. 전자장치(1)와 연관된 항목은 도 5에 나타낸 바와 같이 전원상태, 네트워크 상태, 계정로그인 상태, 음성화자, 음성입력경로, 트리거 유무, 또는 어플리케이션 상태 중 적어도 하나를 포함할 수 있다.

S4 단계에서, 전자장치(1)는 도 6의 제3참조데이터(600)를 참조하여 분석된 인텐트와 상태 정보에 관련된 엔진 선택 룰이 있는지를 확인한다.

S5 단계에서, 전자장치(1)는 엔진 선택 룰이 있는 것으로 확인되면 최적의 엔진 선택을 위한 단계들을 생략하고 룰에 지정된 엔진에 사용자음성을 전달한다.

S6 단계에서, 전자장치(1)는 엔진 선택 룰이 없는 것으로 확인되면 온디바이스 엔진들이나 서버 엔진들 중 하나를 선택한다. 실시예들에서, 온디바이스 엔진 또는 서버 엔진은 엔진들의 부분집합으로 간주될 수 있다. 실시예들에서, 전자장치(1)는 엔진들의 다른 특성을 사용하여 엔진들의 다른 필요 부분집합을 선택할 수 있다. 온디바이스 엔진들이나 서버 엔진들 중 하나를 선택하는 방법은 도 4의 제1참조데이터(400)나 도 5의 제2참조데이터(500)를 이용하여 선택할 수 있다.

S7 단계에서, 전자장치(1)는 도 5의 제2참조데이터(500)를 이용하여, 선택된 부분집합, 예를 들면, 온디바이스 엔진들이나 서버 엔진들 중 하나에 속한 엔진 또는 엔진들의 상태 정보 연관도의 합을 산출한다.

S8 단계에서, 전자장치(1)는 온디바이스 엔진이나 서버 엔진 중 하나에 속한 엔진 또는 엔진들의 상태 정보 연관도의 합이 높은 하나 또는 복수의 엔진을 선택한다.

S9 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)에 사용자음성을 전달한다.

S10 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)이 인식한 결과를 수신한다.

S11 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)이 인식한 결과를 실행한다. 전자장치(1)는 하나의 엔진에서 보낸 인식 결과라면 바로 실행하고, 다수의 엔진들이 보낸 인식 결과들이라면 가장 빨리 보낸 엔진의 결과를 선택하여 실행할 수 있다. 전자장치(1)는 다수의 엔진들이 보낸 인식 결과가 거의 동시에 도착하거나 서로 다른 인식 결과를 보낸 경우에, 다수의 결과를 표시하여 사용자로 하여금 선택하도록 하거나 사전 설정된 룰, 예를 들면 이력정보 또는 다른 사용자의 선택 정보를 이용하여 결과를 선택하여 실행할 수 있다.

S12 단계에서, 전자장치(1)는 사용자음성을 수신하고 엔진을 선택하고 인식 결과를 실행한 이력정보를 저장부(14)에 저장한다.

S13 단계에서, 전자장치(1)는 인식하여 실행한 또는 인식을 거절한 엔진에 대한 상태 정보 연관도에 가중치를 가감 조정할 수 있다. 전자장치(1)는 소정 횟수의 누적된 이력정보를 기초로 인텐트-상태정보-엔진으로 설정된 엔진선택 룰을 생성할 수 있다.

이로써, 전자장치(1)는 사용자음성의 인텐트 및/또는 전자장치(1)의 상태에 적합한 온디바이스 엔진 또는 서버 엔진 중 하나를 선택하고, 온디바이스 엔진 또는 서버 엔진 중 선택된 하나에 속한 엔진들 각각에 대해 전자장치의 상태 간의 연관도 합을 산출하고 연관도 합이 높은 엔진을 선택하여 인식을 수행하게 할 수 있다. 특히, 전자장치(1)는 상태정보를 이용한 반복된 엔진 선택 이력데이터를 축적함으로써 복잡한 선택 과정을 생략하고 사용자음성의 인텐트와 전자장치의 상태 정보를 알면 바로 엔진을 선택할 수 있는 룰을 생성함으로써 사용자음성에 대해 빠르고 정확하게 인식하도록 할 수 있다.

상술한 바와 같이, 전자장치(1)는 예를 들면 전원 오프 및 네트워크 오프라인 상태에서 전원 제어 명령의 사용자음성에 대해 서버 측 엔진을 선택하여 인식을 수행하는 것과 같이, 상황에 맞지 않는 엔진이 선택되어 인식을 수행하는 문제를 해결할 수 있다.

실시예들에서, 전자장치(1)는 동일하거나 유사한 연관도 값을 가진 복수의 엔진들에 대해 빠르게 인식하는 엔진, 사용자가 선택한 엔진, 이전 이력정보에서 선택되었던 엔진, 다른 사용자가 선택하였던 엔진 등을 참조하여 최적의 엔진을 선택할 수 있다.

실시예들에서, 전자장치(1)는 사용자음성의 인텐트 및/또는 전자장치(1)의 상태 정보를 이용한 엔진의 선택, 성공적인 처리 결과, 실패한 처리 결과, 인식 거절된 결과 등의 경험을 반영하여 도 5의 연관도를 가감 조정할 수 있다.

실시예들에서, 전자장치(1)의 프로세서(16)는 상기와 같이 사용자음성의 인텐트를 획득하고, 복수의 엔진들 및 전자장치(1)의 상태 사이의 연관도에 관해 기 정의된 정보에 기초하여, 상태와 연관도가 높은 엔진을 식별하고, 식별된 엔진에 기초하여 사용자음성에 관한 음성 인식을 수행하도록 하는 동작을 수행하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다.

일 예로, 전자장치의 프로세서는 학습부 및 인식부의 기능을 함께 수행할 수 있다. 학습부는 학습된 신경망 네트워크를 생성하는 기능을 수행하고, 인식부는 학습된 신경망 네트워크를 이용하여 데이터를 인식(또는, 추론, 예측, 추정, 판단)하는 기능을 수행할 수 있다. 학습부는 신경망 네트워크를 생성하거나 갱신할 수 있다. 학습부는 신경망 네트워크를 생성하기 위해서 학습 데이터를 획득할 수 있다. 일 예로, 학습부는 학습 데이터를 전자장치의 저장부 또는 외부로부터 획득할 수 있다. 학습 데이터는, 신경망 네트워크의 학습을 위해 이용되는 데이터일 수 있으며, 상기한 동작을 수행한 데이터를 학습데이터로 이용하여 신경망 네트워크를 학습시킬 수 있다.

학습부는 학습 데이터를 이용하여 신경망 네트워크를 학습시키기 전에, 획득된 학습 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 학습 데이터들 중에서 학습에 이용될 데이터를 선별할 수 있다. 일 예로, 학습부는 학습 데이터를 기 설정된 포맷으로 가공하거나, 필터링하거나, 또는 노이즈를 추가/제거하여 학습에 적절한 데이터의 형태로 가공할 수 있다. 학습부는 전처리된 학습 데이터를 이용하여 상기한 동작을 수행하도록 설정된 신경망 네트워크를 생성할 수 있다.

학습된 신경망 네트워크는, 복수의 신경망 네트워크(또는, 레이어)들로 구성될 수 있다. 복수의 신경망 네트워크의 노드들은 가중치를 가지며, 복수의 신경망 네트워크들은 일 신경망 네트워크의 출력 값이 다른 신경망 네트워크의 입력 값으로 이용되도록 서로 연결될 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)과 같은 모델을 포함할 수 있다.

실시예들에서, 인식부는 상기한 동작을 수행하기 위해, 타겟 데이터를 획득할 수 있다. 타겟 데이터는 전자장치의 저장부 또는 외부로부터 획득된 것일 수 있다. 타겟 데이터는 신경망 네트워크의 인식 대상이 되는 데이터일 수 있다. 인식부는 타겟 데이터를 학습된 신경망 네트워크에 적용하기 전에, 획득된 타겟 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 타겟 데이터들 중에서 인식에 이용될 데이터를 선별할 수 있다. 일 예로, 인식부는 타겟 데이터를 기 설정된 포맷으로 가공하거나, 필터링 하거나, 또는 노이즈를 추가/제거하여 인식에 적절한 데이터의 형태로 가공할 수 있다. 인식부는 전처리된 타겟 데이터를 신경망 네트워크에 적용함으로써, 신경망 네트워크로부터 출력되는 출력값을 획득할 수 있다. 인식부는 출력값과 함께, 확률값 또는 신뢰도값을 획득할 수 있다.

이상 실시예에서는 전자장치(1)가 사용자음성으로부터 인텐트와 전자장치(1)의 상태를 분석하고, 엔진 단위로 전자장치(1)의 상태와 관련된 연관도 총합을 비교하여 총합이 가장 높은 엔진을 최종적으로 선택하는 예시에 관해 설명하였다. 그러나, 전자장치(1)가 연관도 총합에 기초하여 어느 하나의 엔진을 선택하는 방법은 단지 연관도 총합을 비교하는 것만으로 한정된 것은 아니며, 다양한 방법이 적용될 수 있다.

예를 들면, 앞선 실시예에서는 엔진 별로 분석된 전자장치(1)의 상태의 관련 정도를 연관도를 부여하여 단순히 각 연관도를 합산하였다. 그러나, 설계 방식에 따라서는 보다 중요하다고 보이는 상태 정보에 가중치를 추가적으로 부여하는 방법도 가능하다.

도 8은 전자장치(1)가 제1참조데이터(400)와 제2참조데이터(500)를 이용하여 엔진을 선택하는 제1예를 나타내는 도면이다.

도 8에 도시한 바와 같이, "내일 날씨 어때?"라는 사용자음성이 수신되면, 사용자음성에 대한 인텐트와 전자장치(1)의 상태를 분석한다.

디폴트 엔진은 "날씨"와 "어때"라는 단어를 기초로 "날씨검색" 이라는 인텐트를 획득할 수 있다.

또한, 전자장치(1)는 사용자음성을 수신한 시점에 자신의 상태, 예를 들면 전원-ON, 네트워크-online, 계정 로그인-없음, 음성화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV를 확인할 수 있다.

전자장치(1)는 도 4의 제1참조데이터(400)에서 "날씨검색" 인텐트가 속하는 제2인텐트 그룹에 해당하므로, 엔진들의 부분집합, 예를 들면, 서버 엔진(20A~20D)를 선택할 수 있다.

전자장치(1)는 도 5의 제2상태 그룹에 해당하는 상태 정보 "화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"에 대한 서버 엔진(20A~20D) 각각의 연관도 총합을 산출할 수 있다.

서버 엔진(20A~20D) 각각의 연관도 총합은 2.0, 2.5, 1.7, 1.6이다. 따라서, 전자장치(1)는 연관도 총합이 2.5인 엔진(20B)를 선택한다.

이상과 같이, 전자장치(1)는 사용자음성이 수신되면, 인텐트와 전자장치(1)의 상태를 분석하고, 인텐트를 기초로 온디바이스 엔진이나 서버 엔진을 선택하고, 선택된 엔진들에 대해 상태 정보와 연관도 총합을 산출하여 가장 큰 연관도 총합을 가진 엔진을 최종적으로 선택하여 사용자음성을 인식하도록 할 수 있다.

도 9는 전자장치(1)가 제1참조데이터(400)와 제2참조데이터(500)를 이용하여 엔진을 선택하는 제2예를 나타내는 예시도이다.

도 9에 도시한 바와 같이, "프로야구 중계방송 보여줘"라는 사용자음성이 수신되면, 사용자음성에 대한 인텐트와 전자장치(1)의 상태를 분석한다.

디폴트 엔진은 "중계방송"와 "보여줘"라는 단어를 기초로 "채널제어" 이라는 인텐트를 획득할 수 있다.

또한, 전자장치(1)는 사용자음성을 수신한 시점에 자신의 상태, 예를 들면 전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV를 확인할 수 있다.

전자장치(1)는 도 5의 제2참조데이터(500)에서 항목 "전원상태", "네트워크 상태", "계정 로그인 상태"에 대한 온디바이스 엔진(10a~10c)과 서버 엔진(20A~20D) 각각의 연관도 전체를 승산한다. 온디바이스 엔진(10a~10c)의 연관도 승산 값은 0.7(1*1*1*1*1*0.7*1*1*1)이고, 서버 엔진(20A~20D)의 연관도 승산 값은 0.001(1*1*1*1*1*1*1*1*0.1*0.1*0.1*0.1)이다. 여기서, 연관도 산출은 항목 "전원상태", "네트워크 상태", "계정 로그인 상태"와 더불어, 항목 "음성의 화자", "음성경로", "트리거", "앱실행상태"의 연관도를 적용할 수 있다. 여기서, 디바이스 엔진과 서버 엔진 중 하나의 선택은 연관도 승산 대신에 연관도 합산을 기준으로 결정할 수도 있다.

전자장치(1)는 산출 연관도 승산 값이 더 큰 온디바이스 엔진(10a~10c)를 선택한다.

전자장치(1)는 도 4의 제1참조데이터(400)를 이용하여 온디바이스 엔진(10a~10c) 중 인텐트 "채널제어"와 관련된 엔진(10a), 엔진(10b), 엔진(10c)를 선택한다. 만일, 온디바이스 엔진(10a~10c) 중 엔진(10a)만 인텐트 "채널제어"에 관련되어 있다면, 엔진 10a만 선택될 수 있다.

전자장치(1)는 도 5의 제2참조데이터(500)에 해당하는 상태 정보 "전원-ON, 네트워크-online, 계정 로그인-없음"에 대한 선택된 엔진(10a), 엔진(10b), 엔진(10c)의 연관도 총합을 산출할 수 있다.

엔진(10a), 엔진(10b), 엔진(10c) 각각의 연관도 총합은 3.0, 2.7, 3.0이다. 따라서, 전자장치(1)는 연관도 총합이 3.0인 엔진(10a)와 엔진(10c)를 선택한다.

전자장치(1)는 복수의 엔진이 동일한 연관도를 갖는 경우에, 복수의 엔진들 모두에 사용자음성을 전달하여 음성 인식을 수행하도록 하거나, 사용자로 하여금 선택하게 하거나, 이력정보나 다른 사용자의 선택 정보를 이용하여 하나의 엔진만 선택하도록 할 수 있다.

이상과 같이, 전자장치(1)는 사용자음성이 수신되면, 인텐트와 전자장치(1)의 상태를 분석하고, 제2참조데이터(500)를 기초로 온디바이스 엔진이나 서버 엔진을 선택하고, 사용자음성의 인텐트에 속하는 엔진을 선택하고, 선택된 엔진들 각각에 대해 연관도 총합을 산출하여 가장 큰 연관도 총합을 가진 엔진을 최종적으로 선택하여 사용자음성을 인식하도록 할 수 있다.

도 10은 전자장치(1)가 제1참조데이터(400)와 제2참조데이터(500)를 이용하여 엔진을 선택하는 제3예를 나타내는 예시도이다.

도 10에 도시한 바와 같이, "내일 날씨 어때?"라는 사용자음성이 수신되면, 사용자음성에 대한 인텐트와 전자장치(1)의 상태를 분석한다.

또한, 전자장치(1)는 사용자음성을 수신한 시점에 자신의 상태, 예를 들면 "전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거 엔진 분석 인텐트 선택 YES, 실행앱-Web"를 확인할 수 있다.

전자장치(1)는 도 4의 제1참조데이터(400)에서 "날씨검색" 인텐트가 속하는 엔진(20A), 엔진(20B)를 선택할 수 있다.

전자장치(1)는 도 5의 "전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거 엔진 분석 인텐트 선택 YES, 실행앱-Web"에 대한 엔진(20A), 엔진(20B) 각각의 연관도 총합을 산출할 수 있다.

엔진(20A), 엔진(20B) 각각의 연관도 총합은 5.4, 4.7이다. 따라서, 전자장치(1)는 연관도 총합이 5.4인 엔진(20A)를 선택한다.

이상과 같이, 전자장치(1)는 사용자음성이 수신되면, 인텐트와 전자장치(1)의 상태를 분석하고, 인텐트와 관련된 엔진을 선택하고, 선택된 엔진들에 대해 상태 정보와 연관도 총합을 산출하여 가장 큰 연관도 총합을 가진 엔진을 최종적으로 선택하여 사용자음성을 인식하도록 할 수 있다.

도 11은 전자장치(1)가 제3참조데이터(600)를 이용하여 엔진을 선택하는 일예를 나타내는 예시도이다.

도 11에 도시한 바와 같이, "프로야구 중계방송 보여줘"라는 사용자음성이 수신되면, 사용자음성에 대한 인텐트와 전자장치(1)의 상태를 분석한다.

또한, 전자장치(1)는 사용자음성을 수신한 시점에 자신의 상태, 예를 들면 "전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"를 확인할 수 있다.

전자장치(1)는 도 6의 제3참조데이터(600)에서 채널제어 인텐트와 "전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"에 대해 룰로 지정된 엔진(10b)을 확인한다.

전자장치(1)는 룰로 지정된 엔진(10b)을 선택하여 사용자음성을 전달하여 인식을 수행하게 한다.

이상과 같이, 전자장치(1)는 사용자음성이 수신되면, 인텐트와 전자장치(1)의 상태를 분석하고, 제3참조데이터(600)에 룰로 지정된 엔진이 있으면 해당 엔진을 바로 선택하여 사용자음성을 인식하게 할 수 있다.

도 12는 전자장치(1)가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제1예를 나타내는 예시도이다.

도 12에 도시한 바와 같이, 전자장치(1)는 도 5의 제2참조데이터(500)에서 서버 엔진들(20A~20D) 중 전자장치(1)의 상태 "음성의 화자", "음성경로", "트리거", 앱실행상태"와 관련된 연과도 총합이 높은 순서로 엔진(20B), 엔진(20A), 엔진(20C)을 선택한다.

전자장치(1)는 사용자음성을 엔진(20B), 엔진(20A), 엔진(20C)에 전달하여 인식을 수행하게 한다. 이후, 엔진(20B)는 3초 후, 엔진(20A)는 5초 후, 엔진(20C)는 10초 후에 인식결과를 전달하였다.

전자장치(1)는 가장 빨리 전달한 엔진(20B)의 인식결과를 실행한다.

이상과 같이, 전자장치(1)는 연관도 합이 동일하거나 높은 순서로 복수의 엔진들을 선택하고 사용자음성을 동시에 전달한 후에 가장 빠르게 전달한 엔진의 인식결과만을 선택하여 실행할 수 있다.

도 13은 전자장치(1)가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제2예를 나타내는 예시도이다.

도 13에 도시한 바와 같이, 전자장치(1)는 도 5의 제2참조데이터(500)에서 온디바이스 엔진들(10a~10c) 중 전자장치(1)의 상태 "전원상태", "네트워크상태", "계정 로그인상태"와 관련된 연과도 총합이 높은 순서로 엔진(10a), 엔진(10c)을 선택한다.

전자장치(1)는 사용자음성을 엔진(10a), 엔진(10c)에 전달하여 인식을 수행하게 한다.

전자장치(1)는 엔진(10a)와 엔진(10c)로부터 각각 인식결과 "채널 A"와 "채널 B"를 받아, 사용자 선택 UI를 디스플레이부(12)에 제공한다. 만일, 엔진(10a)와 엔진(10c)의 인식결과가 동일한 경우에는 도 12에서와 같이 먼저 도달한 엔진의 인식결과를 실행할 수 있다.

전자장치(1)는 사용자가 사용자 선택 UI에서 엔진(10c)을 선택하면 채널 B로 채널을 설정한다.

이상과 같이, 전자장치(1)는 연관도 합이 동일하거나 높은 순서로 복수의 엔진들을 선택하고 사용자음성을 동시에 전달한 후에 받은 인식결과가 다른 경우에 사용자의 선택을 통해 엔진의 인식결과를 실행할 수 있다.

도 14는 전자장치(1)가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제3예를 나타내는 예시도이다.

도 14에 도시한 바와 같이, 전자장치(1)는 도 5의 제2참조데이터(500)에서 온디바이스 엔진들(10a~10c) 중 전자장치(1)의 상태 "전원상태", "네트워크상태", "계정 로그인상태"와 관련된 연과도 총합이 높은 순서로 엔진(10a), 엔진(10c)을 선택한다.

전자장치(1)는 인텐트 "채널제어" 및 상태 정보 "전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"에 대한 인식 이력을 분석한다.

전자장치(1)는 도 14의 이력데이터에서 전술한 사용자음성의 인텐트와 전자장치(1)의 상태 정보에 대해 인식 처리하였던 엔진(10c)을 선택한 후, 사용자음성을 전달하여 인식을 수행하게 한다. 여기서, 이력데이터는 사용자음성의 인텐트와 전자장치(1)의 상태에 맞는 엔진을 선택하여 성공적인 인식 처리한 이력, 실패한 인식 처리 이력, 인식 거절한 이력 등을 모두 매칭시킨 테이블이다. 이와 같이 이력데이터는 동일 또는 유사 연관도를 가진 복수 엔진들 중 하나를 선택하기 위한 데이터로 또는 전술한 엔진 선택 룰 생성을 위한 데이터로 이용될 수 있다.

전자장치(1)는 엔진(10c)이 인식한 결과를 실행한다.

이상과 같이, 전자장치(1)는 연관도 합이 동일하거나 높은 순서로 복수의 엔진들을 선택하고, 인텐트와 상태정보에 대한 이전 이력을 분석하여 기 적용된 엔진의 인식결과를 실행할 수 있다.

도 15는 전자장치(1)가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제4예를 나타내는 예시도이다.

도 15에 도시한 바와 같이, 전자장치(1)는 도 5의 제2참조데이터(500)에서 온디바이스 엔진들(10a~10c) 중 전자장치(1)의 상태 "전원상태", "네트워크상태", "계정 로그인상태"와 관련된 연과도 총합이 높은 순서로 엔진(10a), 엔진(10c)을 선택한다.

전자장치(1)는 이력데이터에서 인텐트 "채널제어" 및 상태 정보에 대한 이전 인식 이력이 없으면 다른 사용자의 사용 이력을 확인한다.

전자장치(1)는 도 15에 나타낸 바와 같이 동일한 인텐트와 상태 정보에 대한 사용자 B와 사용자 C의 인식 이력을 출력하여 사용자로 하여금 선택하도록 한다. 사용자는 사용자 B의 인식결과 "채널 B"에 대한 엔진(10c)을 선택할 수 있다.

전자장치(1)는 사용자가 선택한 엔진(10c)에 사용자음성을 전달한다.

전자장치(1)는 엔진(10c)이 인식한 결과를 실행한다.

이상과 같이, 전자장치(1)는 연관도 합이 동일하거나 높은 순서로 복수의 엔진들을 선택하고, 인텐트와 상태정보에 대한 이전 이력과 더불어 다른 사용자의 인식 이력을 참조하여 적합한 엔진을 선택할 수 있다.

도 16은 전자장치(1)가 연관도가 동일하거나 유사한 복수의 엔진들 중 하나를 선택하는 제5예를 나타내는 예시도이다.

도 16에 도시한 바와 같이, 전자장치(1)는 제2참조데이터(500)에서 온디바이스 엔진들(10a~10c) 중 전자장치(1)의 상태 "전원상태", "네트워크상태", "계정 로그인상태"와 관련된 연과도 총합이 높은 순서로 엔진(10a), 엔진(10c)을 선택한다. 이때, 제2참조데이터(500)는 사용자가 기 설정한 온디바이스 엔진들(10a~10c) 각각에 대해 선택 우선순위를 포함할 수 있다.

전자장치(1)는 엔진(10a)와 엔진(10c)로부터 동일한 인식결과 "채널 A" 를 받는 경우, 제2참조데이터(500)의 사용자설정 우선순위를 참조하여 순위가 높은 엔진(10c)의 인식결과를 선택할 수 있다.

전자장치(1)는 사용자 설정 우선순위의 엔진(10c)을 선택하면 채널 A로 채널을 설정한다.

상술한 실시예에서, 전자장치(1)는 연과도 총합이 같은 2개의 엔진(10a), 엔진(10c)을 선택하는 대신에, 사용자 설정 우선순위가 가장 높은 하나의 엔진(10c)을 선택할 수도 있다.

이상과 같이, 전자장치(1)는 연관도 합이 동일하고 인식결과가 동일한 경우에 사용자가 기 설정한 우선순위에 따라 엔진을 선택하고, 그의 인식결과를 실행할 수 있다.

도 17은 전자장치(1)가 사용자음성의 처리 결과를 반영하여 업데이트한 결과를 나타내는 예시도이다.

도 17에 도시한 바와 같이, 전자장치(1)는 인텐트와 상태정보를 기초로 한 엔진(20B)의 인식결과를 이력데이터로 저장한다. 인식결과는 상태 정보 "전원-ON, 네트워크-online, 계정 로그인-없음, 음성화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV", 인식 엔진(20B), 사용자 A, 인텐트 "날씨검색", 인식결과 "흐림"이다.

전자장치(1)는 선택된 엔진(20B)의 인식을 기초로 처리한 결과를 반영하여 도 5의 제2참조데이터(500)의 엔진(20B)에 관련된 상태정보의 연관도를 0.1씩 가산한다. 이때, 연관도 조정량은 0.1로 한정되지 않는다. 연관도 조정량은 너무 크면 부적절한 엔진이 선택될 수 있고 너무 작으면 조정의 효과가 미미할 수있으므로 적절히 설정할 필요가 있다. 연관도 조정은 사용자의 만족도를 피드백 받아 조정하거나 소정 횟수 반복 처리한 경우에만 조정하도록 설정할 수 있다.

이상과 같이, 전자장치(1)는 사용자음성에 대한 인식 및 실행 처리 결과를 반영하여 상태에 관련된 엔진의 연관도를 조정함으로써 적합한 엔진 선택을 위한 처리시간과 선택의 정확도를 향상시킬 수 있다.

도 18은 전자장치(1)가 사용자음성의 인식을 거절한 결과를 반영하여 업데이트한 결과를 나타내는 예시도이다.

전자장치(1)는 인텐트 "날씨검색"과 상태 정보 "음성화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"에 대한 도 5의 제2참조데이터(500)를 기초로 선택된 엔진(20A), 엔진(20B), 엔진(20C)에 사용자음성을 전달한다.

도 18에 도시한 바와 같이, 전자장치(1)는 엔진(20A)와 엔진(20C)으로부터 각각 3초와 10초 후에 인식결과를 받고, 엔진(20B)로부터 거절되었다.

전자장치(1)는 엔진(20A)의 인식 결과를 실행 처리한다.

전자장치(1)는 선택된 엔진(20A)의 인식을 기초로 처리한 결과를 반영하여 도 5의 제2참조데이터(500)의 엔진(20A)에 관련된 상태정보의 연관도를 0.1씩 가산한다. 전자장치(1)는 선택된 엔진(20B)의 거절 결과를 반영하여 도 5의 제2참조데이터(500)의 엔진(20B)에 관련된 상태정보의 연관도를 0.5씩 감산한다. 거절된 엔진(20B)은 연관도가 크게 감소되어 동일한 인텐트와 상태정보에 대해 다시 선택되지 않을 것이다.

이상과 같이, 전자장치(1)는 사용자음성에 대한 인식 거절된 엔진의 연관도를 감소시킴으로써 부적절한 엔진이 선택되는 것을 방지할 수 있다.

도 19는 본 개시의 제2실시예에 따른 전자장치(1)의 제어방법을 나타내는 순서도이다. 하기 동작은 전자장치(1)의 프로세서(16)에 의해 수행된다. 도 19에 나타낸 제2실시예는 도 7의 제1실시예와 다르게 온디바이스 엔진과 서버 엔진을 사전 식별하지 않고, 전자장치(1)의 상태 정보들을 이용하여 최적의 엔진을 선택한다.

S21 단계에서, 전자장치(1)는 사용자음성을 수신한다.

S22 단계에서, 전자장치(1)는 전자장치(1)와 관련된 항목의 상태 정보를 분석한다. 전자장치(1)와 연관된 항목은 도 5에 나타낸 바와 같이 전원상태, 네트워크 상태, 계정로그인 상태, 음성화자, 음성입력경로, 트리거 유무, 또는 어플리케이션 상태 중 적어도 하나를 포함할 수 있다.

S23 단계에서, 전자장치(1)는 도 5의 제2참조데이터(500)를 이용하여 엔진들의 상태 정보 연관도의 합을 산출한다.

S24 단계에서, 전자장치(1)는 각 엔진들의 상태 정보 연관도의 합이 높은 하나 또는 복수의 엔진(들)을 선택한다.

S25 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)에 사용자음성을 전달한다.

S26 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)이 인식한 결과를 수신한다.

S27 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)이 인식한 결과를 실행한다. 전자장치(1)는 하나의 엔진에서 보낸 인식 결과라면 바로 실행하고, 다수의 엔진들이 보낸 인식 결과들이라면 가장 빨리 보낸 엔진의 결과를 선택하여 실행할 수 있다.

도 20은 본 개시의 제2실시예에 따른 전자장치(1)가 사용자음성에 대한 인식 엔진을 선택하는 일예를 나타내는 예시도이다.

도 20에 도시한 바와 같이, "프로야구 중계방송 보여줘"라는 사용자음성이 수신되면, 사용자음성에 대한 전자장치(1)의 상태를 분석한다.

전자장치(1)는 사용자음성을 수신한 시점의 상태 정보, 예를 들면 "전원-ON, 네트워크-online, 계정 로그인-없음, 화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"를 얻을 수 있다.

전자장치(1)는 도 5의 제2참조데이터(500)를 참조하여 각 엔진(10a~10c) 및 엔진(20A~20D)에 대한 연관도 총합을 산출한다. 각 엔진(10a~10c) 및 엔진(20A~20D)의 연관도 총합은 각각 5.6, 5.3, 5.6, 4.1, 4.6, 3.8, 3.7이다.

전자장치(1)는 연관도 총합이 5.6인 엔진(10a)와 엔진(10c)를 선택한다.

이상과 같이, 전자장치(1)는 사용자음성이 수신되면, 전자장치(1)의 상태를 분석하고, 이를 기초로 엔진들 각각에 대해 상태 관련 연관도 총합을 산출하여 가장 큰 연관도 총합을 가진 엔진을 최종적으로 선택하여 사용자음성을 인식하도록 할 수 있다.

도 21은 본 개시의 제3실시예에 따른 전자장치(1)의 제어방법을 나타내는 순서도이다. 하기 동작은 전자장치(1)의 프로세서(16)에 의해 수행된다. 도 21에 나타낸 제3실시예는 도 19의 제2실시예와 다르게 전자장치(1)의 상태 정보들 이외에 사용자음성의 인텐트를 이용하여 최적의 엔진을 선택한다.

S31 단계에서, 전자장치(1)는 사용자음성을 수신한다.

S32 단계에서, 전자장치(1)는 수신된 사용자음성의 인텐트를 분석한다. 사용자음성의 인텐트 분석은 전자장치(1) 내에 또는 외부에 마련된 디폴트 엔진을 이용하여 수행하게 한다.

S33 단계에서, 전자장치(1)는 전자장치(1)와 관련된 항목의 상태 정보를 분석한다. 전자장치(1)와 연관된 항목은 도 5에 나타낸 바와 같이 전원상태, 네트워크 상태, 계정로그인 상태, 음성화자, 음성입력경로, 트리거 유무, 또는 어플리케이션 상태 중 적어도 하나를 포함할 수 있다.

S34 단계에서, 전자장치(1)는 도 4의 제1참조데이터(400)를 이용하여 인텐트에 해당하는 엔진들을 선택한 후, 선택된 엔진들에 대해 도 5의 제2참조데이터를 이용하여 상태 정보 연관도의 합을 산출한다.

S35 단계에서, 전자장치(1)는 각 엔진들의 상태 정보 연관도의 합이 높은 하나 또는 복수의 엔진(들)을 선택한다.

S36 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)에 사용자음성을 전달한다.

S37 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)이 인식한 결과를 수신한다.

S38 단계에서, 전자장치(1)는 선택한 하나 또는 복수의 엔진(들)이 인식한 결과를 실행한다.

도 22는 본 개시의 제3실시예에 따른 전자장치(1)가 사용자음성에 대한 인식 엔진을 선택하는 과정을 나타내는 예시도이다.

도 22에 도시한 바와 같이, "내일 날씨 어때?"라는 사용자음성이 수신되면, 사용자음성에 대한 인텐트와 전자장치(1)의 상태를 분석한다.

전자장치(1)는 "날씨 검색" 인텐트 및 사용자음성을 수신한 시점의 상태정보, 예를 들면 "전원-ON, 네트워크-online, 계정 로그인-없음, 음성화자-남자, 음성경로-마이크로폰, 트리거-트리거가 아닌 엔진 분석 인텐트 선택 YES, 실행앱-LiveTV"를 얻을 수 있다.

전자장치(1)는 도 4의 제1참조데이터(400)를 참조하여 인텐트 "날씨 검색"에 해당하는 엔진(20A), 엔진(20B)를 선택한다.

전자장치(1)는 도 5의 제2참조데이터(500)를 이용하여 엔진(20A), 엔진(20B) 각각에 대한 연관도 총합을 산출한다.

전자장치(1)는 연관도 총합이 4.6인 엔진(20B)를 선택한다.

이상과 같이, 전자장치(1)는 사용자음성이 수신되면, 사용자음성의 인텐트와 전자장치(1)의 상태를 분석하고, 인텐트에 해당하는 엔진들을 선택하여 각각에 대해 상태 관련 연관도 총합을 산출하여 가장 큰 연관도 총합을 가진 엔진을 최종적으로 선택하여 사용자음성을 인식하도록 할 수 있다.

도 23은 본 개시의 제4실시예에 따른 전자장치(1)의 제어방법을 나타내는 순서도이다. 하기 동작은 전자장치(1)의 프로세서(16)에 의해 수행된다. 도 23에 나타낸 제4실시예는 이전 실시예들과 다르게 복수의 엔진들 간의 연관도 차이를 기준으로 최적의 엔진을 선택한다.

S41 단계에서, 전자장치(1)는 사용자음성을 수신한다.

S42 단계에서, 전자장치(1)는 수신된 사용자음성의 인텐트를 분석한다. 사용자음성의 인텐트 분석은 전자장치(1) 내에 또는 외부에 마련된 디폴트 엔진을 이용하여 수행하게 한다.

S43 단계에서, 전자장치(1)는 전자장치(1)와 관련된 항목의 상태 정보를 분석한다. 전자장치(1)와 연관된 항목은 도 5에 나타낸 바와 같이 전원상태, 네트워크 상태, 계정로그인 상태, 음성화자, 음성입력경로, 트리거 유무, 또는 어플리케이션 상태 중 적어도 하나를 포함할 수 있다.

S44 단계에서, 전자장치(1)는 도 4의 제1참조데이터(400)를 이용하여 인텐트에 해당하는 엔진들을 선택한 후, 선택된 엔진들에 대해 도 5의 제2참조데이터(500)를 이용하여 상태 정보 연관도의 총합을 산출한다.

S45 단계에서, 전자장치(1)는 각 엔진들의 상태 정보 연관도의 총합이 높은 복수의 엔진들을 선택한다.

S46 단계에서, 전자장치(1)는 선택된 복수의 엔진들에 대해 가장 큰 연관도 총합과 나머지 연관도 총합의 차이를 산출하고, 그 차이가 문턱값보다 크거나 같은지를 확인한다.

S47 단계에서, 연관도 총합의 차가 문턱값보다 크거나 같으면 가장 높은 연관도 총합을 가진 엔진에 사용자음성을 전달한다.

S48 단계에서, 전자장치(1)는 선택한 엔진이 인식한 결과를 수신한다.

S49 단계에서, 전자장치(1)는 선택한 엔진이 인식한 결과를 실행한다.

S50 단계에서, S46 단계의 연관도 총합의 차가 문턱값보다 작으면 문턱값 범위 내의 엔진들 모두에 사용자음성을 전달한다.

S51 단계에서, 전자장치(1)는 선택한 복수의 엔진들이 인식한 결과를 수신하고, 가장 빠른 결과를 제공한 엔진을 선택한 후, 인식한 결과를 실행한다.

이상과 같이, 전자장치(1)는 복수의 엔진들 중 차별적으로 큰 연관도 총합을 가진 하나의 엔진만 있으면 단독으로 선택하고, 연관도 총합이 유사한 복수의 엔진들이 있으면 모두 선택한 후에 결과에 따라 하나만 실행할 수 있다.

도 24는 본 개시의 제5실시예에 따른 전자장치(1)의 프로세서(16)의 구성을 나타내는 블록도이다.

전자장치(1)의 상태 정보들 중 하나는 사용자음성에 대한 "음성화자"가 어린이, 남자, 여자, 노인인지를 포함한다. 그러나, 사용자음성의 화자가 누군지를 분석하는 데에는 다소 복잡한 처리과정이 사용될 수 있다. 따라서, 전자장치(1)는 별도의 사용자 음성 특징 추출부(171) 및 화자인식부(172)를 이용한 별도의 처리 과정을 통해 화자인식을 수행하는 것이 바람직할 수 있다.

인텐트 분석부(161), 상태분석부(162), 엔진 선택부(163), 엔진-상태 연관도 산출부(164), 엔진 후보 그룹 판단부(165), 음성인식부(166), 및 기능실행부(167)는 도 3을 참조하여 설명한 바 있으므로 설명을 생략한다.

사용자 음성 특징 추출부(171)는 사용자음성을 텍스트로 변환하고, 텍스트의 단어 별로 음성의 특징을 추출할 수 있다. 음성의 특징은 음색, 음의 톤 등을 포함할 수 있다.

화자인식부(172)는 음성특징DB의 기준 음성특징과 사용자음성의 음성특징을 비교하여 화자가 어린이, 남자, 여자, 노인인지를 식별한다. 음성특징DB는 어린이, 남자, 여자, 노인에 대한 차별적인 음색, 음의 톤을 저장한 기준 음성특징 데이터를 포함한다.

이와 같이 사용자음성의 음성화자 분석은 최적의 엔진 선택 과정과 분리하여 별도로 처리할 수 있다.

도 25는 본 개시의 제6실시예에 따른 전자장치(1)의 프로세서(16)의 구성을 나타내는 블록도이다.

본 개시의 제6실시예에 따른 전자장치(1)는 사용자음성의 화자가 누군지를 분석을 전자장치(1) 자체에서 하지 않고, 서버(2)의 사용자 음성 특징 추출부(271)와 화자인식부(272)에서 화자인식을 수행하도록 한다.

이와 같이 복잡하고 시간이 걸리는 화자 인식을 서버(2)를 이용하여 수행함으로써 전자장치(1)의 부하가 줄어들고, 상대적으로 빠른 화자 인식 처리가 가능하다.

도 26은 본 개시의 제7실시예에 따른 전자장치(1)의 프로세서(16)의 구성을 나타내는 블록도이다.

제 5 및 6실시예의 전자장치(1)는 상태 정보로 사용자음성에 대한 "음성화자"가 어린이, 남자, 여자, 노인인지를 분석하였다. 그러나, 제한된 사용 환경, 예를 들면 사용자가 특정된 가정 등에서는 화자를 어린이, 남자, 여자, 노인으로 식별하는 것보다 구체적으로 사용자가 누구인지를 분석하는 것이 엔진 별 연관도를 더욱 차별화할 수 있다.

본 개시의 제7실시예에 따른 전자장치(1)는 사용자 음성 특징 추출부(171) 및 사용자인식부(173)를 이용하여 구체적으로 사용자가 누구인지를 식별한다.

다만, 사용자음성의 화자가 구체적으로 누구인지를 특정하는 것은 더 복잡하고 시간이 많이 소요될 수 있기 때문에, 전자장치(1)의 상태 정보를 이용하여 최적의 엔진을 선택하는 과정에 활용할 수 없고, 연관도 총합이 동일 또는 유사한 복수의 엔진들 중 하나를 선별하기 위한 정보로 활용되거나, 저장되는 이력정보에 기록한 후 나중에 활용되도록 할 수 있다.

이하, 전자장치(1)가 사용자음성을 인식하기 위한 엔진을 선택하기 위한 참조데이터를 획득하는 예들을 관해 설명한다.

도 27은 전자장치(1)가 참조데이터를 획득하는 예시를 나타내는 구성 블록도이다.

도 27에 도시된 바와 같이, 전자장치(1)는 서버(2)와 통신 가능하도록 네트워크에 접속된다. 서버(2)는 다수의 클라이언트(5)와 통신을 수행한다. 전자장치(1) 또한 이러한 다수의 클라이언트(5) 중 하나이며, 다만 상호 구별을 위해 용어를 상이하게 지정한 것에 불과하다.

전자장치(1)는 초기부터 사용 이력을 누적시켜 참조데이터를 생성할 수도 있다. 다만, 이러한 경우에는 참조데이터의 신뢰도를 보장할 수 있도록 어느 정도 이상의 데이터량이 확보되기까지, 사용 이력이 누적될 시간이 필요하다.

다른 방법으로서, 전자장치(1)는 제조 단계에서 전자장치(1)의 저장부(14) 내에 초기값을 가진 참조데이터가 저장된 상태로 제품으로 출시되는 경우도 가능하다.

또 다른 방법으로서, 전자장치(1)는 서버(2)로부터 참조데이터를 제공받고, 제공받은 참조데이터의 초기값에 사용 이력을 추가 반영하여 업데이트하여 구축하는 것도 가능하다. 서버(2)는 저장된 참조데이터를 전자장치(1)에만 일방향으로 제공하는 경우도 가능하다. 실시예들에서, 서버(2)는 전자장치(1)로부터 참조데이터의 업데이트에 관한 정보를 피드백 받아서 기 저장된 참조데이터를 업데이트하는 것도 가능하다.

서버(2)는 전자장치(1)와 동일하게 통신 가능하게 연결된 다수의 클라이언트(5)로부터 각 클라이언트(5)가 저장한 참조데이터에 관한 정보를 수집한다. 각 클라이언트(5)는 개별적으로 참조데이터를 저장하고, 자체적인 사용 이력에 기초하여 개별적으로 가진 참조데이터를 업데이트할 수 있다.

각 클라이언트(5)는 주기적으로, 또는 서버(2)로부터의 요청에 응답하여, 참조데이터의 현재 정보를 서버(2)에 제공한다.

서버(2)는 각 클라이언트(5)로부터 획득한 참조데이터의 정보에 기초하여, 참조데이터를 새로 생성하거나 또는 업데이트한다. 참조데이터의 생성 또는 업데이트 방법은 다양한 설계 방식이 적용될 수 있다.

서버(2)는 전자장치(1)의 요청에 응답하여, 또는 전자장치(1)가 서버(2)에 연결된 것으로 감지되는 것에 응답하여, 이와 같이 구축한 참조데이터를 전자장치(1)에 제공할 수 있다. 서버(2)는 앞서 클라이언트(5)의 경우와 동일하게 전자장치(1)로부터 참조데이터의 업데이트된 정보를 획득하여 반영할 수 있다.

이상 설명한 바와 같은 장치의 동작은, 해당 장치에 탑재된 인공지능에 의해 수행될 수 있다. 인공지능은 기계 학습 알고리즘을 활용하여 다양한 제반 시스템에 적용될 수 있다. 인공지능 시스템은 인간 수준 내지는 인간 수준에 버금가는 지능을 구현하는 컴퓨터 시스템으로서, 기계, 장치 또는 시스템이 자율적으로 학습하고 판단하며, 사용 경험의 누적에 기반하여 인식률 및 판단 정확도가 향상되는 시스템이다. 인공지능 기술은 입력되는 데이터들의 특징을 스스로 분류하고 학습하는 알고리즘을 이용한 기계학습 기술 및 알고리즘을 활용하여, 인간의 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.

요소 기술들은, 예를 들면 인간의 언어와 문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론 및 예측 기술, 인간의 경험 정보를 지식 데이터로 처리하는 지식 표현 기술, 차량의 자율 주행이나 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 어느 하나를 포함한다.

여기서, 언어적인 이해는 인간의 언어 또는 문자를 인식하고 응용 처리하는 기술로서, 자연어의 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식 및 합성 등을 포함한다.

추론 예측은 정보를 판단하여 논리적으로 예측하는 기술로서, 지식 및 확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다.

지식 표현은 인간의 경험 정보를 지식 데이터로 자동화 처리하는 기술로서, 데이터의 생성 및 분류와 같은 지식 구축, 데이터의 활용과 같은 지식 관리 등을 포함한다.

본 개시의 예시적 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 매체는 삭제 가능 또는 재기록 가능 여부와 상관없이, USB 메모리장치와 같은 비휘발성 저장 장치, 또는 예를 들어 RAM, ROM, 플래시메모리, 메모리 칩, 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 이동 단말 내에 포함될 수 있는 메모리는 본 개시의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 본 저장 매체에 기록되는 프로그램 명령은 본 개시를을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어의 기술 분야에서 숙련된 기술자에게 공지되어 사용 가능한 것일 수도 있다. 또는, 본 컴퓨터 프로그램 명령은 컴퓨터 프로그램 프로덕트에 의해 구현될 수도 있다.

Claims

전자장치에 있어서,

사용자음성 입력을 수신하고,

상기 전자장치와 연관된 적어도 하나의 항목에 대응하는 상기 전자장치의 상태를 식별하고,

복수의 음성인식엔진과 복수의 상태 간의 복수의 연관도에 기초하여, 상기 복수의 음성인식엔진 중에서 상기 식별된 상태에 대응하는 하나의 음성인식엔진을 선택하고,

상기 선택된 음성인식엔진에 기초하여 상기 사용자음성 입력에 대응하는 동작을 수행하도록 제어하는 프로세서를 포함하는 전자장치.
제1항에 있어서,

상기 복수의 음성인식엔진은 상기 전자장치 내에 포함된 온디바이스 음성인식엔진과 서버에 마련된 서버 음성인식엔진을 포함하며,

상기 프로세서는,

상기 온디바이스 음성인식엔진 또는 상기 서버 음성인식엔진을 선택하도록 제어하는 전자장치.
제1항에 있어서,

상기 프로세서는,

복수의 인텐트 중에서 상기 수신되는 사용자음성 입력에 대응하는 인텐트를 식별하고,

상기 복수의 음성인식엔진과 상기 복수의 인텐트 간의 관계에 기초하여, 상기 음성인식엔진을 선택하도록 제어하는 전자장치.
제3항에 있어서,

상기 복수의 음성인식엔진 중 하나는 상기 사용자음성 입력의 인텐트를 분석하는 디폴트 음성인식엔진을 포함하는 전자장치.
제3항에 있어서,

상기 복수의 인텐트 중 적어도 하나의 인텐트를 상기 복수의 음성인식엔진에 할당한 제1참조데이터가 저장된 저장부를 더 포함하는 전자장치.
제5항에 있어서,

상기 저장부는 상기 복수의 음성인식엔진과 상기 복수의 상태 사이의 연관도와, 상기 복수의 음성인식엔진과 상기 복수의 인텐트 사이의 연관도 사이의 연관도들 중 적어도 하나를 포함하는 제2참조데이터를 저장하는 전자장치.
제5항에 있어서,

상기 프로세서는,

상기 사용자음성 입력의 인텐트와 연관된 각 음성인식엔진에 대한 연관도를 산출하도록 제어하는 전자장치.
제6항에 있어서,

상기 프로세서는,

상기 사용자음성 입력의 인식결과에 기초하여, 상기 복수의 음성인식엔진과 상기 복수의 상태 사이의 연관도와, 상기 복수의 음성인식엔진과 상기 복수의 인텐트 사이의 연관도 사이의 연관도들 중 적어도 하나가 조정되도록 제어하는 전자장치.
제6항에 있어서,

상기 프로세서는,

상기 사용자음성 입력의 인식결과에 대응하는 이력정보에 관한 데이터를 저장하도록 상기 저장부를 제어하고,

상기 이력정보를 기초로 동일한 연관도를 가진 복수의 음성인식엔진 중에서 상기 음성인식엔진을 선택하도록 제어하는 전자장치.
제6항에 있어서,

상기 프로세서는,

상기 사용자음성입력의 인식결과에 대응하는 이력정보에 관한 데이터를 저장하도록 상기 저장부를 제어하고,

상기 이력정보를 기초로 음성인식엔진을 결정하는 룰을 생성하는 전자장치.
전자장치의 제어방법에 있어서,

사용자음성 입력을 수신하는 단계;

상기 전자장치와 연관된 적어도 하나의 항목에 대응하는 상기 전자장치의 상태를 식별하는 단계;

복수의 음성인식엔진과 복수의 상태 간의 복수의 연관도에 기초하여, 상기 복수의 음성인식엔진 중에서 상기 식별된 상태에 대응하는 하나의 음성인식엔진을 선택하는 단계; 및

상기 선택된 음성인식엔진에 기초하여 상기 사용자음성 입력에 대응하는 동작을 수행하도록 제어하는 단계를 포함하는 전자장치의 제어방법.
제11항에 있어서,

상기 복수의 음성인식엔진은 상기 전자장치 내에 포함된 온디바이스 음성인식엔진과 서버에 마련된 서버 음성인식엔진을 포함하며,

상기 온디바이스 음성인식엔진 또는 상기 서버 음성인식엔진을 선택하는 단계를 더 포함하는 전자장치의 제어방법.
제11항에 있어서,

복수의 인텐트 중에서 상기 수신되는 사용자음성 입력에 대응하는 인텐트를 식별하는 단계; 및

상기 복수의 음성인식엔진과 상기 복수의 인텐트 간의 관계에 기초하여, 상기 음성인식엔진을 선택하는 단계를 더 포함하는 전자장치의 제어방법.
제13항에 있어서,

상기 복수의 음성인식엔진 중 하나는 상기 사용자음성 입력의 인텐트를 분석하는 디폴트 음성인식엔진을 포함하는 전자장치의 제어방법.
제13항에 있어서,

상기 복수의 인텐트 중 적어도 하나의 인텐트를 상기 복수의 음성인식엔진에 할당한 제1참조데이터를 저장부에 저장하는 단계를 더 포함하는 전자장치의 제어방법.