KR20200056712A - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20200056712A
KR20200056712A KR1020180140719A KR20180140719A KR20200056712A KR 20200056712 A KR20200056712 A KR 20200056712A KR 1020180140719 A KR1020180140719 A KR 1020180140719A KR 20180140719 A KR20180140719 A KR 20180140719A KR 20200056712 A KR20200056712 A KR 20200056712A
Authority
KR
South Korea
Prior art keywords
voice
user
text
electronic device
information
Prior art date
Application number
KR1020180140719A
Other languages
English (en)
Inventor
복찬식
박지훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180140719A priority Critical patent/KR20200056712A/ko
Priority to EP19200298.8A priority patent/EP3654332B1/en
Priority to EP23171573.1A priority patent/EP4227939A1/en
Priority to US16/664,253 priority patent/US11205415B2/en
Publication of KR20200056712A publication Critical patent/KR20200056712A/ko
Priority to US17/528,764 priority patent/US11615780B2/en
Priority to US18/113,284 priority patent/US11961506B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 메모리 및 제1 음성 인식 정보에 기초하여 수신된 사용자 음성에 대응되는 제1 텍스트를 획득하고, 획득된 제1 텍스트에 기초하여 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 사용자 음성에서 개체명을 포함하는 구간을 식별하고, 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하며, 제1 텍스트 및 제2 텍스트에 기초하여 사용자 음성에 대응되는 제어 정보를 획득하는 프로세서를 포함한다.

Description

전자 장치 및 그 제어 방법{ELECTRONIC APPARATUS AND CONTROLLING METHOD THEREOF}
본 개시는 전자 장치 및 그 제어방법에 관한 것으로, 더욱 상세하게는 다중 언어를 포함하는 사용자 음성을 인식하는 전자 장치 및 그 제어방법에 대한 것이다.
TV등의 전자기기에서 음성인식 기능의 발전과 성능향상으로 음성인식 기능이 있는 디바이스에서 한가지 언어가 아닌 다른 언어로의 음성인식을 수행할 수 있다.
예를 들어, TV에서 영어 및 한국어 음성 인식 기능을 지원한다고 가정하고, 사용자가 영어를 기본 설정으로 하였다고 가정한다. 여기서, 사용자가 한국어가 포함된 음성을 발화하는 경우, 음성 인식 기능이 영어로 설정되어 있으므로 TV는 한국어에 대한 사용자의 음성을 명확히 인식하지 못하는 문제점이 있었다.
음성 인식 기능을 영어로 설정하는 경우와 한국어로 설정하는 경우에 결과가 다르게 나올 수 있다. 사용자가 설정된 언어가 아닌 다른 언어로 발화하는 경우, 음성 인식 결과가 식별되지 않는 문제점이 있었다.
또한, 음성 인식 결과의 출력 개수가 상이할 수 있다. 예를 들어, 영어로 설정되어 있는 음성 인식 기능에서는 결과가 3개 획득되었지만, 한국어로 설정되어 있는 음성 인식 기능에서는 결과가 10개 획득되는 경우가 있을 수 있다. 여기서, 사용자가 음성 인식 기능을 한국어로 설정하였는지 또는 영어로 설정하였는지 여부에 따라 사용자는 상이한 결과를 얻는 문제점이 있었다.
따라서, 사용자는 적합한 음성 인식 모델을 적용하기 위해 직접 설정을 변경해야 하거나 다시 설정된 언어로 재발화해야 하므로, 편의성이 떨어지는 문제점이 있었다.
본 개시는 상술한 문제를 개선하기 위해 고안된 것으로, 본 개시의 목적은 다중 언어가 포함된 사용자 음성을 언어별로 구분하여 서로 다른 음성 인식 모델을 적용하여 음성 인식 동작을 수행하는 전자 장치 및 그의 제어방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 실시 예에 따른 전자 장치에 있어서, 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 메모리 및 제1 음성 인식 정보에 기초하여 수신된 사용자 음성에 대응되는 제1 텍스트를 획득하고, 상기 획득된 제1 텍스트에 기초하여 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 개체명을 포함하는 구간을 식별하고, 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하며, 상기 제1 텍스트 및 상기 제2 텍스트에 기초하여 상기 사용자 음성에 대응되는 제어 정보를 획득하는 프로세서를 포함한다.
여기서, 상기 프로세서는 상기 사용자 음성에 상기 제1 음성 인식 정보에 기초하여 인식되지 않는 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간을 식별할 수 있다.
여기서, 상기 프로세서는 상기 획득된 제1 텍스트에 기 설정된 단어가 포함되어 있는 경우, 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다.
여기서, 상기 개체명은 컨텐츠와 관련된 것이며, 상기 기 설정된 단어는 컨텐츠 검색을 수행하는 제어 정보와 관련된 것일 수 있다.
한편, 상기 제1 음성 인식 정보는, 상기 전자 장치에 현재 설정된 언어 모드에 대응되는 정보이고, 상기 프로세서는 상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간이 식별되면, 상기 현재 설정된 언어 모드와 상이한 언어 모드에 대응되는 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득할 수 있다.
또한, 상기 프로세서는 상기 사용자 음성에서 상기 기 설정된 단어가 포함된 구간을 식별하고, 상기 사용자 음성에서 상기 식별된 구간을 제외한 나머지 구간을 상기 개체명을 포함하는 구간으로 식별할 수 있다.
한편, 상기 프로세서는 상기 제2 텍스트에 대응되는 카테고리 정보 및 상기 제1 텍스트에 기초하여 상기 카테고리 정보에 대응되는 제1 쿼리를 생성할 수 있다.
여기서, 상기 프로세서는 상기 생성된 제1 쿼리에 상기 제2 텍스트를 추가하거나, 상기 카테고리 정보를 상기 제2 텍스트로 대체하여 제2 쿼리를 생성할 수 있다.
또한, 상기 프로세서는 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에서 복수의 제2 텍스트가 획득되면, 상기 복수의 제2 텍스트 각각에 대응되는 카테고리 정보를 획득하고, 상기 획득된 카테고리 정보에 기초하여 상기 제1 쿼리를 생성할 수 있다.
또한, 상기 프로세서는 상기 제2 음성 인식 정보와 관련된 데이터 베이스에 기초하여 제2 텍스트에 대응되는 카테고리 정보를 획득할 수 있다.
한편, 본 개시의 일 실시 예에 따른 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 전자 장치의 제어 방법에 있어서, 제1 음성 인식 정보에 기초하여, 수신된 상기 사용자 음성에 대응되는 제1 텍스트를 획득하는 단계, 상기 획득된 제1 텍스트에 기초하여 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 개체명을 포함하는 구간을 식별하고, 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하는 단계 및 상기 제1 텍스트 및 상기 제2 텍스트에 기초하여 상기 사용자 음성에 대응되는 제어 정보를 획득하는 단계를 포함한다.
여기서, 상기 제2 텍스트를 획득하는 단계는 상기 사용자 음성에 상기 제1 음성 인식 정보에 기초하여 인식되지 않는 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간을 식별할 수 있다.
여기서, 상기 제2 텍스트를 획득하는 단계는 상기 획득된 제1 텍스트에 기 설정된 단어가 포함되어 있는 경우, 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다.
여기서, 상기 개체명은 컨텐츠와 관련된 것이며, 상기 기 설정된 단어는 컨텐츠 검색을 수행하는 제어 정보와 관련된 것일 수 있다.
또한, 상기 제1 음성 인식 정보는, 상기 전자 장치에 현재 설정된 언어 모드에 대응되는 정보이고, 상기 제2 텍스트를 획득하는 단계는 상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간이 식별되면, 상기 현재 설정된 언어 모드와 상이한 언어 모드에 대응되는 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득할 수 있다.
또한, 상기 제2 텍스트를 획득하는 단계는 상기 사용자 음성에서 상기 기 설정된 단어가 포함된 구간을 식별하고, 상기 사용자 음성에서 상기 식별된 구간을 제외한 나머지 구간을 상기 개체명을 포함하는 구간으로 식별할 수 있다.
한편, 상기 제어 방법은 상기 제2 텍스트에 대응되는 카테고리 정보 및 상기 제1 텍스트에 기초하여 상기 카테고리 정보에 대응되는 제1 쿼리를 생성하는 단계를 더 포함할 수 있다.
여기서, 상기 제어 방법은 상기 생성된 제1 쿼리에 상기 제2 텍스트를 추가하거나, 상기 카테고리 정보를 상기 제2 텍스트로 대체하여 제2 쿼리를 생성하는 단계를 더 포함할 수 있다.
한편, 상기 제1 쿼리를 생성하는 단계는 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에서 복수의 제2 텍스트가 획득되면, 상기 복수의 제2 텍스트 각각에 대응되는 카테고리 정보를 획득하고, 상기 획득된 카테고리 정보에 기초하여 상기 제1 쿼리를 생성할 수 있다.
또한, 상기 제1 쿼리를 생성하는 단계는 상기 제2 음성 인식 정보와 관련된 데이터 베이스에 기초하여 제2 텍스트에 대응되는 카테고리 정보를 획득할 수 있다.
한편, 본 개시의 일 실시 예에 따른 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은, 제1 음성 인식 정보에 기초하여, 수신된 사용자 음성에 대응되는 제1 텍스트를 획득하는 단계, 상기 획득된 제1 텍스트에 기초하여 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 개체명을 포함하는 구간을 식별하고, 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하는 단계 및 상기 제1 텍스트 및 상기 제2 텍스트에 기초하여 상기 사용자 음성에 대응되는 제어 정보를 획득하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 도시한 블록도이다.
도 2는 도 1의 전자 장치의 구체적인 구성을 설명하기 위한 블록도이다.
도 3은 도 1의 전자 장치의 또 다른 실시 예에 따른 구체적인 구성을 설명하기 위한 블록도이다.
도 4는 다중 언어를 포함한 사용자 음성에 대하여 음성 인식 동작을 수행하는 실시 예를 설명하기 위한 도면이다.
도 5는 사용자 음성에 개체명이 포함되어 있는지 여부를 식별하는 동작을 설명하기 위한 도면이다.
도 6은 또 다른 실시 예에 따른 개체명 식별 동작을 설명하기 위한 도면이다.
도 7은 미인식된 구간에 대하여 다른 언어의 모델을 이용하는 실시 예를 설명하기 위한 도면이다.
도 8은 도 7에서 획득된 텍스트 정보를 이용하여 의도 분석 및 제어 정보를 생성하는 동작을 설명하기 위한 도면이다.
도 9는 카테고리 정보를 이용하여 쿼리를 생성하는 동작을 설명하기 위한 도면이다.
도 10은 특정 언어에 대응되는 정보를 추출하여 의도 분석 및 제어 정보를 생성하는 실시 예를 설명하기 위한 도면이다.
도 11은 사용자 음성에서 미인식된 구간이 2개인 경우를 설명하기 위한 도면이다.
도 12는 사용자 음성이 3개의 구간으로 이루어진 다양한 실시 예를 설명하기 위한 도면이다.
도 13은 3가지 언어로 이루어진 사용자 음성에 대하여 음성 인식 동작을 수행하는 실시 예를 설명하기 위한 도면이다.
도 14는 본 개시의 일 실시 예에 따른 음성 인식 과정을 설명하기 위한 흐름도이다.
도 15는 본 개시의 또 다른 실시 예에 따른 음성 인식 과정을 설명하기 위한 흐름도이다.
도 16은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 도시한 블록도이다.
도 1을 참조하면, 본 개시의 일 실시 예의 전자 장치(100)는 메모리(110) 및 프로세서(120)로 구성될 수 있다.
전자 장치(100)는 TV, 데스크탑 PC, 노트북, 스마트폰, 태블릿 PC, 서버 등일 수 있다. 또는, 전자 장치(100)는 클라우딩 컴퓨팅 환경이 구축된 시스템 자체 즉, 클라우드 서버로 구현될 수도 있다. 구체적으로, 전자 장치(100)는 딥 러닝 기반의 인식 시스템을 포함하는 장치일 수 있다. 한편, 상술한 예는 전자 장치를 설명하기 위한 예시에 불과하며 반드시 상술한 장치에 한정되는 것은 아니다.
메모리(110)는 프로세서(120)에 포함된 롬(ROM)(예를 들어, EEPROM(electrically erasable programmable read-only memory)), 램(RAM) 등의 내부 메모리로 구현되거나, 프로세서(120)와 별도의 메모리로 구현될 수도 있다.
여기서, 메모리(110)는 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보를 저장하고 있을 수 있다. 여기서, 제1언어(또는 제2 언어)와 관련된 제1 음성 인식 정보(또는 제2 음성 인식 정보)를 제1 언어(또는 제2 언어)에 기초하여 음성 인식을 수행하는데 필요한 다양한 정보를 포함하며, 예를 들어, 음성 전처리 정보, 패턴 인식 정보 또는 언어 처리 정보 중 적어도 하나를 포함할 수 있다. 예를 들어, 제1 언어 인식 모델 및 제2 언어 인식 모델을 저장하고 있을 수 있다. 여기서, 제1 언어 및 제2 언어는 상이한 언어이며, 프랑스어, 독일어, 중국어, 일본어, 스페인어, 러시아어 등을 포함하는 다양한 언어 중 하나가 될 수 있다.
또한, 메모리(110)는 사용자 음성에 개체명이 포함되어 있는 것으로 식별 가능하도록 하는 단어들을 기 저장하고 있을 수 있다. 이와 관련해서는 프로세서(120)의 동작에서 후술한다.
한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나로 구현되고, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
프로세서(120)는 전자 장치의 전반적인 제어 동작을 수행할 수 있다. 구체적으로, 프로세서는 전자 장치의 전반적인 동작을 제어하는 기능을 한다.
프로세서(120)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
프로세서(120)는 사용자 음성이 수신되면, 제1 음성 인식 정보에 기초하여 사용자 음성에 대응되는 제1 텍스트를 획득한다. 이어서, 프로세서(120)는 획득된 제1 텍스트에 기초하여 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 사용자 음성에서 개체명을 포함하는 구간을 식별하고, 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하며, 제1 텍스트 및 제2 텍스트에 기초하여 사용자 음성에 대응되는 제어 정보를 획득할 수 있다.
프로세서(120)는 사용자 음성에 대한 데이터를 수신할 수 있다. 여기서, 사용자 음성 데이터는 전자 장치(100)에 포함된 마이크(미도시)를 통해 직접 사용자 음성을 수신하거나, 외부 장치(미도시)를 통해 수신할 수 있다. 외부 장치(미도시)를 통해 수신하는 경우 외부 장치에는 마이크가 포함되어 있어 음성 데이터만을 전자 장치(100)에 전송할 수 있다. 실제 구현 시 외부 장치는 마이크를 포함하는 원격 제어 장치에 해당할 수 있다.
일 실시 예에 따라 프로세서(120)는 수신된 사용자 음성에 대해 전자 장치(100)에 현재 설정되어 있는 제1 언어에 의한 음성 인식 동작을 수행할 수 있다. 예를 들어, 전자 장치(100)에는 음성 인식을 위한 언어 모드가 설정되어 있을 수 있으며, 이는 사용자 선택, 전자 장치(100)의 위치 등의 다양한 정보에 기초하여 자동 또는 수동으로 변경될 수 있다.
예를 들어, 사용자는 "find(EN) 유한 도전(KR)"를 발화하였다고 가정하고, 현재 설정된 음성 인식 언어는 영어임을 가정한다. 프로세서(120)는 설정된 음성 인식 언어인 영어로 음성 인식을 수행할 수 있다. 구체적으로, 프로세서(120)는 사용자 음성에 대응되는 영어 텍스트를 획득할 수 있다. 여기서, 획득된 텍스트를 제1 텍스트로 명명할 수 있다. 상술한 예시에서 프로세서(120)는 find(EN)에 대응되는 영어 텍스트 정보(제1 텍스트)를 획득할 수 있다.
한편, 언어는 영어, 한국어 등을 기준으로 설명하였지만, 이에 한정되는 것은 아니며 프랑스어, 독일어, 중국어, 일본어, 스페인어, 러시아어 등 다양한 국가의 언어가 본 발명에 적용될 수 있다. 또한, 본 발명을 설명함에 있어 2가지 언어가 적용되는 것으로 설명하였지만, 실제 구현시 3개 이상의 언어가 적용될 수 있다. 3개의 언어가 적용되는 실시 예에 대해서는 도13에서 후술한다.
그리고, 프로세서(120)는 제1 텍스트 정보에 기초하여 사용자 음성에 개체명이 포함되어 있는지 여부를 식별할 수 있다. 본 발명의 일 실시 예에 따르면, "개체명"은 특정한 동작의 대상을 의미할 수 있다. 예를 들어, 개체명은 검색 동작, 실행 동작 등과 관련된 대상, 예를 들어 컨텐츠일 수 있다. 다만, 이에 한정되는 것은 아니며, 본 발명이 적용될 수 있는 다양한 동작의 대상을 의미할 수 있다. 한편, 프로세서(120)는 사용자 음성에 개체명이 포함되어 있는지 여부를 식별하는 것이며, 반드시 제1 텍스트 정보에 개체명이 포함되어 있어야 하는 것은 아닐 수 있다.
예를 들어, 상술한 "find(EN) 유한 도전(KR)" 예시에서, 제1 언어는 영어이므로, 제1 텍스트 정보는 find(EN)부분이 될 수 있다. 개체명은 컨텐츠와 관련된 것일 수 있고, 제1 텍스트 정보에는 개체명이 포함되어 있지 않다. 하지만, 프로세서(120)는 find(EN)만을 이용하여 사용자 음성에 개체명이 포함되어 있을 것으로 식별 또는 예상할 수 있다. 일반적으로 find(EN)라고 사용자가 발화하는 경우, 그 이후에는 일반적으로 개체명을 함께 인식하는 것을 예상할 수 있다.
이러한 점을 반영하여 프로세서(120)는 획득된 제1 텍스트에 기 설정된 단어가 포함되어 있는 경우, 사용자 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다.
기 설정된 단어는 특정 동작과 관련된 단어일 수 있다. 여기서, 특정 동작은 특정 동작은 개체명을 수반하는 동작 예를 들어, "검색", "실행", "재생" 등의 동작일 수 있다. 예를 들어, 기 설정된 단어는 find, search, view, select 또는 play중 어느 하나에 해당할 수 있다. 상술한 단어는 예시적인 것에 불과하며 사용자의 설정에 따라 추가 및 삭제를 통해 업데이트할 수 있다.
여기서, 프로세서(120)는 사용자 음성에 제1 음성 인식 정보에 기초하여 인식되지 않는 개체명이 포함되어 있는 것으로 식별되면, 사용자 음성에서 인식되지 않는 개체명을 포함하는 구간을 식별할 수 있다.
한편, 제1 음성 인식 정보는, 전자 장치에 현재 설정된 언어 모드에 대응되는 정보이고, 프로세서(120)는 사용자 음성에서 인식되지 않는 개체명을 포함하는 구간이 식별되면, 현재 설정된 언어 모드와 상이한 언어 모드에 대응되는 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득할 수 있다. 여기서, 제1 언어 모드 및 제2 언어 모드는 사용자의 선택 또는 전자 장치(100)가 판매되는 지역에 따라 달라질 수 있다. 예를 들어, 미국에서 판매되는 전자 장치(100)는 제1 언어 모드는 영어로 제2 언어 모드는 한국어로 설정될 수 있다. 반면, 한국에서 판매되는 전자 장치(100)는 제1 언어모드가 한국어로 제2 언어 모드가 영어로 설정될 수 있다.
전자 장치(100)는 복수의 언어 모드를 포함할 수 있으며, 각 언어 모드는 사용자의 설정에 따라 기 저장될 수 있다. 그리고, 프로세서(120)는 사용자 음성에서 인식되지 않은 개체명을 포함하는 구간이 식별되면, 기 설정된 순서에 따라 제2 언어모드, 제3 언어모드, 제4 언어 모드에 대응되는 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 텍스트를 획득할 수 있다. 다른 실시 예에 따라, 전자 장치(100)는 복수의 언어 모드를 저장하고 있으며, 프로세서(120)는 사용자 음성에서 인식되지 않은 개체명을 포함하는 구간이 식별되면, 프로세서(120)는 인식되지 않은 개체명이 특정 언어에 포함되어 있는지 여부를 식별할 수 있다. 만약, 특정 언어에 대한 언어 모드가 전자 장치(100)에 저장되어 있다면, 프로세서(120)는 식별된 특정 언어 모드에 대응되는 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 텍스트를 획득할 수 있다.
여기서, 프로세서(120)는 사용자 음성에서 기 설정된 단어가 포함된 구간을 식별하고, 사용자 음성에서 식별된 구간을 제외한 나머지 구간을 개체명을 포함하는 구간으로 식별할 수 있다.
예를 들어, 상술한 "find(EN) 유한 도전(KR)" 예시에서 제1 음성 인식 정보(제1 언어)가 영어임을 가정한다. 영어로 find(EN)부분이 인식되었지만, 유한 도전(KR)부분은 인식되지 않을 수 있다. 이 경우, 사용자 음성은 find(EN)부분을 제1구간으로 유한 도전(KR)부분을 제2구간으로 구분될 수 있다. 프로세서(120)는 영어 음성 인식 모델에 의해 개체명이 포함되어 있는 것으로 식별하였으나, 제1 텍스트에 개체명이 포함되어 있지 않는 경우, 미인식된 부분(구간)에 개체명이 포함되어 있을 것으로 추측(예상)할 수 있다. 여기서, 프로세서(120)는 제1 음성 인식 정보(제1 언어)에 의해 인식된 find(EN) 부분을 제외한 이외의 유한 도전(KR)부분을 개체명이 포함되어 있는 구간으로 식별할 수 있다.
한편, 프로세서(120)는 미인식된 구간을 식별하고 이를 인식하기 위해 제2 음성 인식 정보(제2 언어)를 이용할 수 있다. 프로세서(120)는 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득할 수 있다. 여기서, 메모리(110)에 제1 및 제2 음성 인식 정보 외의 다른 언어에 대응되는 음성 인식 정보가 저장된 경우, 제2 음성 인식 정보는, 음성 인식 정보 간 우선 순위, 사용자 설정 정보, 전자 장치(100)의 위치 정보 등에 기초하여 식별될 수 있다.
한편, 프로세서(120)는 제2 텍스트에 대응되는 카테고리 정보 및 제1 텍스트에 기초하여 카테고리 정보에 대응되는 제1 쿼리를 생성할 수 있다. 이와 같이 카테고리 정보에 기초하여 쿼리를 생성하는 이유는, 각 카테고리 마다 쿼리의 포맷의 상이할 수 있기 때문에 카테고리 정보를 이용하여 대응되는 포맷의 쿼리를 생성하기 위함이다. 이 경우, 프로세서(120)는 제2 음성 인식 정보와 관련된 데이터 베이스에 기초하여 제2 텍스트에 대응되는 카테고리 정보를 획득할 수 있다.
예를 들어, 카테고리 정보는 해당 객체들을 구분하는 기준이 될 수 있으며, title(제목), subject(주제), actor(배우), running time(재생시간), level(등급) 중 적어도 하나를 의미할 수 있다.
예를 들어, 상술한 실시 예와 마찬가지로 "find(EN) 유한 도전(KR)"를 사용자가 발화하고 제1언어는 영어, 제2 언어는 한국어로 가정한다. 프로세서(120)는 제1 텍스트 정보(find(EN)) 및 제2 텍스트 정보(유한 도전(KR))를 획득할 수 있으며, 제2 텍스트 정보(유한 도전(KR))에 대응되는 카테고리 정보(title(제목))를 이용하여 제1 쿼리를 생성할 수 있다.
여기서, 프로세서(120)는 생성된 제1 쿼리에 제2 텍스트를 추가하거나, 카테고리 정보를 제2 텍스트로 대체하여 제2 쿼리를 생성할 수 있다. 구체적인 흐름도는 도 16의 S1525, S1530 단계에서 후술한다.
한편, 또 다른 예에 따라 프로세서(120)는 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에서 복수의 제2 텍스트가 획득되면, 복수의 제2 텍스트 각각에 대응되는 카테고리 정보를 획득하고, 획득된 카테고리 정보에 기초하여 제1 쿼리를 생성할 수 있다.
예를 들어, 사용자가 "find(EN) 유한 도전(KR) 가요제(KR)"를 발화하였다고 가정한다. 프로세서(120)는 유한 도전(KR) 및 가요제(KR)에 대응되는 한국어 텍스트를 획득할 수 있다. 즉, 프로세서(120)는 2개의 제2 텍스트를 획득할 수 있다. 그리고, 각각의 카테고리 정보를 획득할 수 있다. 유한 도전(KR)에 대응되는 카테고리 정보는 title(제목)에 해당할 수 있다. 그리고, 가요제(KR)에 대응되는 카테고리 정보는 subject(주제)에 해당할 수 있다. 프로세서(120)는 title(제목) 및 subject(주제)에 기초하여 제1 쿼리를 생성할 수 있다.
한편, 상술한 실시 예에 따른 전자 장치(100)는 복수의 언어를 포함한 사용자 음성을 인식하는 동작을 수행합니다. 음성 인식 동작은 사용자 음성을 텍스트로 변환시키는 동작 및 변환된 텍스트 정보에 기초하여 사용자의 발화 의도를 분석하는 동작을 포함할 수 있습니다.
사용자가 복수의 언어로 발화하는 경우, 일반적으로 음성 인식 언어로 설정된 부분만이 인식됩니다. 따라서, 본원처럼 제1 음성 인식 정보(제1 언어) 및 제2 음성 인식 정보(제2 언어)를 모두 이용하는 경우, 다중 언어를 포함하는 사용자의 발화에 대한 음성 인식 동작을 정확히 수행할 수 있어, 인식률을 향상시킬 수 있습니다.
또한, 본원은 개체명을 포함하는 국간을 별도로 식별하여 미인식된 부분만을 별도로 구분합니다. 그리고, 미인식된 구간만을 새로운 언어로 인식하는 동작을 수행하게 됩니다. 따라서, 모든 사용자 음성을 새로 분석하는 것이 아니며, 미인식된 부분만을 별도로 새로운 언어로 인식하는 동작을 수행합니다. 상술한 동작으로 본원은 데이터 처리 속도 향상 및 처리량의 감소 효과를 가질 수 있습니다.
또한, 복수의 언어로 이루어진 텍스트 정보들을 혼합하여 의도 분석을 수행하는 경우, 인식률이 떨어질 수 있습니다. 하지만, 본원은 특정 실시 예에 따라 카테고리 정보를 이용하여 복수의 언어가 아닌 하나의 언어로 이루어진 정보들을 이용하여 쿼리를 생성할 수 있습니다. 이 경우, 하나의 언어로 이루어진 정보들로 쿼리 생성 및 의도 분석 동작을 수행할 수 있어, 인식률을 향상시킬 수 있습니다.
도 2는 도 1의 전자 장치의 구체적인 구성을 설명하기 위한 블록도이다.
도 2는 도 1의 전자 장치(100)의 구체적인 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 본 개시의 일 실시 예의 전자 장치(100)는 메모리(110), 프로세서(120), 통신 인터페이스(130), 사용자 인터페이스(140), 입출력 인터페이스(150)로 구성될 수 있다.
메모리(110) 및 프로세서(120)의 동작 중에서 앞서 설명한 것과 동일한 동작에 대해서는 중복 설명은 생략한다.
프로세서(120)는 메모리(110)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 동작을 전반적으로 제어한다.
구체적으로, 프로세서(120)는 RAM(121), ROM(122), 메인 CPU(123), 제1 내지 n 인터페이스(124-1 ~ 134-n), 버스(125)를 포함한다.
RAM(121), ROM(122), 메인 CPU(123), 제1 내지 n 인터페이스(124-1 ~ 134-n) 등은 버스(125)를 통해 서로 연결될 수 있다.
ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(123)는 ROM(122)에 저장된 명령어에 따라 메모리(110)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(123)는 메모리(110)에 저장된 각종 어플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
메인 CPU(123)는 메모리(110)에 액세스하여, 메모리(110)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메모리(110)에 저장된 각종 프로그램, 컨텐츠 데이터 등을 이용하여 다양한 동작을 수행한다.
제1 내지 n 인터페이스(124-1 내지 134-n)는 상술한 각종 구성 요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
한편, 프로세서(120)는 그래픽 처리 기능(비디오 처리 기능)을 수행할 수 있다. 예를 들어, 프로세서(120)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성할 수 있다. 여기서, 연산부(미도시)는 수신된 제어 명령에 기초하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산할 수 있다. 그리고, 렌더링부(미도시)는 연산부(미도시)에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성할 수 있다. 또한, 프로세서(120)는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
한편, 프로세서(120)는 오디오 데이터에 대한 처리를 수행할 수 있다. 구체적으로, 프로세서(120)는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.
통신 인터페이스(130)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신 인터페이스(130)는 와이파이 모듈(131), 블루투스 모듈(132), 적외선 통신 모듈(133), 및 무선 통신 모듈(134) 등을 포함한다. 프로세서(120)는 통신 인터페이스(130)를 이용하여 각종 외부 장치와 통신을 수행할 수 있다. 여기서, 외부 장치는 TV와 같인 디스플레이 장치, set-top box와 같은 영상 처리 장치, 외부 서버, 리모컨과 같은 제어 장치, 블루투스 스피커와 같은 음향 출력 장치, 조명 장치, 스마트 청소기, 스마트 냉장고와 같은 가전 기기, IOT 홈 매니저 등과 같은 서버 등을 포함할 수 있다.
와이파이 모듈(131), 블루투스 모듈(132)은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행한다. 와이파이 모듈(131)이나 블루투스 모듈(132)을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.
적외선 통신 모듈(133)은 시 광선과 밀리미터파 사이에 있는 적외선을 이용하여 근거리에 무선으로 데이터를 전송하는 적외선 통신(IrDA, infrared Data Association)기술에 따라 통신을 수행한다.
무선 통신 모듈(134)은 상술한 와이파이 모듈(131) 및 블루투스 모듈(132) 이외에 지그비(zigbee), 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 4G(4th Generation), 5G(5th Generation)등과 같은 다양한 통신 규격에 따라 통신을 수행하는 모듈을 의미한다.
그 밖에 통신 인터페이스(130)는LAN(Local Area Network) 모듈, 이더넷 모듈, 또는 페어 케이블, 동축 케이블 또는 광섬유 케이블 등을 이용하여 통신을 수행하는 유선 통신 모듈 중 적어도 하나를 포함할 수 있다.
일 예에 따라 통신 인터페이스(130)는 리모컨과 같은 외부 장치 및 외부 서버와 통신하기 위해 동일한 통신 모듈(예를 들어, Wi-Fi 모듈)을 이용할 수 있다.
다른 예에 따라 통신 인터페이스(130)는 리모컨과 같은 외부 장치 및 외부 서버와 통신하기 위해 상이한 통신 모듈(예를 들어, Wi-Fi 모듈)을 이용할 수 있다. 예를 들어, 통신 인터페이스(130)는 외부 서버와 통신하기 위해 이더넷 모듈 또는 WiFi 모듈 중 적어도 하나를 이용할 수 있고, 리모컨과 같은 외부 장치와 통신하기 위해 BT 모듈을 이용할 수도 있다. 다만 이는 일 실시 예에 불과하며 통신 인터페이스(130)는 복수의 외부 장치 또는 외부 서버와 통신하는 경우 다양한 통신 모듈 중 적어도 하나의 통신 모듈을 이용할 수 있다.
한편, 통신 인터페이스(130)는 구현 예에 따라 튜너 및 복조부를 추가적으로 포함할 수 있다.
튜너(미도시)는 안테나를 통해 수신되는 RF(Radio Frequency) 방송 신호 중 사용자에 의해 선택된 채널 또는 기 저장된 모든 채널을 튜닝하여 RF 방송 신호를 수신할 수 있다.
복조부(미도시)는 튜너에서 변환된 디지털 IF 신호(DIF)를 수신하여 복조하고, 채널 복호화 등을 수행할 수도 있다.
사용자 인터페이스(140)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다. 여기서, 버튼은 전자 장치(100)의 본체 외관의 전면부나 측면부, 배면부 등의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등과 같은 다양한 유형의 버튼이 될 수 있다.
입출력 인터페이스(150)는 HDMI(High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array)포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface) 중 어느 하나의 인터페이스일 수 있다.
HDMI는 오디오 및 비디오 신호를 입출력하는 AV 기기용 고성능 데이터의 전송이 가능한 인터페이스이다. DP는 1920x1080의 풀HD급은 물론, 2560x1600이나 3840x2160과 같은 초고해상도의 화면, 그리고 3D 입체영상을 구현할 수 있고, 디지털 음성 또한 전달 가능한 인터페이스이다. 썬더볼트는 고속 데티어 전송 및 연결을 위한 입출력 인터페이스이며, PC, 디스플레이, 저장장치 등을 모두 하나의 포트로 병렬 연결할 수 있다.
입출력 인터페이스(150)는 오디오 및 비디오 신호 중 적어도 하나를 입출력 할 수 있다.
구현 예에 따라, 입출력 인터페이스(150)는 오디오 신호만을 입출력하는 포트와 비디오 신호만을 입출력하는 포트를 별개의 포트로 포함하거나, 오디오 신호 및 비디오 신호를 모두 입출력하는 하나의 포트로 구현될 수 있다.
전자 장치(100)는 디스플레이를 포함하지 않는 장치로 구현되어, 별도의 디스플레이 장치로 영상 신호를 전송할 수 있다.
전자 장치(100)는 외부 장치로부터 수신된 음성 신호의 음성 인식을 위해, 외부 서버로 해당 음성 신호를 전송할 수 있다.
이 경우, 외부 장치 및 외부 서버와의 통신을 위한 통신 모듈은 하나로 구현될 수 있다. 예를 들어, 외부 장치 및 외부 서버와의 통신을 위한 통신 모듈은 Wi-Fi모듈로 동일할 수 있다.
외부 장치 및 외부 서버와의 통신을 위한 통신 모듈은 별개로 구현될 수 있다. 예를 들어, 외부 장치와는 Bluetooth 모듈을 이용하여 통신하고, 외부 서버와는 이더넷 모뎀 또는 Wi-Fi모듈을 이용하여 통신할 수 있다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 음성 인식 서버로 수신된 디지털 음성 신호를 전송할 수 있다. 이 경우, 음성 인식 서버는 STT(Speech To Text)를 이용하여 디지털 음성 신호를 텍스트 정보로 변환할 수 있다. 이 경우, 음성 인식 서버는 텍스트 정보에 대응되는 검색을 수행하기 위하여 다른 서버 또는 전자 장치로 텍스트 정보를 전송할 수 있으며, 경우에 따라서는 직접 검색을 수행하는 것도 가능하다.
한편, 본 개시의 다른 실시 예에 따른 전자 장치(100)는 디지털 음성 신호에 직접 STT(Speech To Text) 기능을 적용하여 텍스트 정보로 변환하고 변환된 텍스트 정보를 외부 서버에 전송할 수도 있다.
도 3은 본 개시의 또 다른 실시 예에 따른 전자 장치의 구체적인 구성을 설명하기 위한 블록도이다.
도 3을 참고하면, 도 2의 구성에서 디스플레이(160) 및 스피커(170)를 더 포함할 수 있다.
디스플레이(160)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(160) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(160)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 등으로 구현될 수 있다.
또한, 본 발명의 일 실시 예에 따른, 디스플레이(160)는 영상을 출력하는 디스플레이 패널뿐만 아니라, 디스플레이 패널을 하우징하는 베젤을 포함할 수 있다. 특히, 본 발명의 일 실시 예에 따른, 베젤은 사용자 인터렉션을 감지하기 위한 터치 센서(미도시)를 포함할 수 있다.
스피커(170)는 입출력 인터페이스(150)에서 처리된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력하는 구성요소일 수 있다.
한편, 전자 장치(100)는 추가적으로, 마이크(미도시)를 포함할 수 있다. 마이크는 사용자 음성이나 기타 소리를 입력 받아 오디오 데이터로 변환하기 위한 구성이다. 이 경우, 마이크는 수신된 아날로그 사용자 음성 신호를 디지털 음성 신호로 변환하여 전자 장치(100)로 전송할 수 있다.
마이크(미도시)는 활성화 상태에서 사용자의 음성을 수신할 수 있다. 예를 들어, 마이크는 전자 장치(100)의 상측이나 전면 방향, 측면 방향 등에 일체화된 일체형으로 형성될 수 있다. 마이크는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
한편, 다른 실시 예에 따라, 전자 장치(100)는 마이크를 구비하는 외부 장치(미도시)로부터 사용자 음성을 수신할 수 있다. 예를 들어, 외부 장치는 마이크를 포함하는 원격 제어 장치(리모컨)로 구현될 수 있으나 이에 한정되는 것은 아니다.
여기서, 원격 제어 장치(리모컨)가 사용자의 아날로그 음성 신호를 마이크를 통해 수신하면, 원격 제어 장치(리모컨)는 아날로그 음성 신호를 디지털 음성 신호로 변환할 수 있다. 그리고 원격 제어 장치(리모컨)는 적외선, 와이파이 또는 블루투스 통신 방식 중 적어도 하나를 이용하여 변환된 디지털 음성 신호를 전자 장치(100)로 전송할 수 있다. 전자 장치(100)는 디지털 음성 신호가 외부 장치로부터 수신되면, 수신된 디지털 음성 신호에 기초하여 음성 인식을 수행하고, 음성 인식 결과에 기초하여 제어 동작을 수행할 수 있다. 다만 다른 실시 예에 따르면, 원격 제어 장치(리모컨)가 디지털 음성 신호에 대한 음성 인식 동작을 수행하고, 음성 인식 결과에 대응되는 정보를 전자 장치(100)에 전송하는 형태로 구현될 수 있다. 여기서, 음성 인식 결과에 대응되는 정보는, 음성 인식 결과 그 자체 또는 음성 인식 결과에 대응되는 제어 명령 중 적어도 하나일 수 있다.
한편, 또 다른 실시 예에 따라, 외부 장치는 마이크를 포함하는 스마트폰으로 구현될 수 있다. 이 경우, 스마트폰은 기 설치된 원격 제어 기능을 수행하는 원격 제어 어플리케이션을 이용하여 전자 장치(100)를 원격으로 제어할 수 있다.
스마트폰은 사용자의 아날로그 음성 신호가 마이크를 통해 수신되면, 아날로그 음성 신호를 디지털 음성 신호로 변환할 수 있다. 이 경우, 스마트폰은 음성 인식 어플리케이션을 이용하여 디지털 음성 신호에 대한 음성 인식을 수행할 수 있다. 여기서, 음성 인식 어플리케이션은 상술한 원격 제어 어플리케이션과 동일하거나, 상이한 어플리케이션일 수 있다. 스마트폰은 디지털 음성 신호에 대한 음성 인식 인식이 수행되면, 음성 인식 결과에 기초하여 원격 제어 어플리케이션을 이용하여 전자 장치(100)를 원격으로 제어할 수 있다. 다만, 다른 실시 예에 따르면, 스마트폰은 적외선, 와이파이 또는 블루투스 통신 방식 중 적어도 하나를 이용하여 변환된 디지털 음성 신호를 전자 장치(100)로 전송할 수 있다. 이 경우, 전자 장치(100)는 디지털 음성 신호가 외부 장치로부터 수신되면, 수신된 디지털 음성 신호에 기초하여 음성 인식을 수행하고, 음성 인식 결과에 기초하여 제어 동작을 수행할 수 있다.
도 4는 다중 언어를 포함한 사용자 음성에 대하여 음성 인식 동작을 수행하는 실시 예를 설명하기 위한 도면이다.
설명의 편의를 위해 (EN)으로 표시하는 부분은 사용자가 영어로 발화한 부분임을 의미하며, (KR)로 표시하는 부분은 사용자가 한국어로 발화한 부분임을 의미하는 것으로 가정한다.
도 4를 참고하면, 사용자가 "find(EN) 유한 도전(KR)"을 발화하였다고 가정한다. find(EN)부분은 사용자가 영어로 발화한 것을 의미하며, 유한 도전(KR)은 해당 부분을 한국어로 발화한 것을 의미한다. 사용자가 처음으로 발화한 구간인 find(EN)는 제1구간이 되며, 유한 도전(KR)은 제2 구간으로 명명할 수 있다. 제1구간 및 제2 구간을 구분하는 기준은 시간이 될 수 있다.
전자 장치(100)는 음성 인식 언어가 영어로 설정되었음을 가정한다. 따라서, find(EN)에 대하여 영어 음성 인식 동작이 수행 가능하고, 영어 음성 인식 결과가 획득될 수 있다. 하지만, 음성 인식 언어가 영어로 설정되어 있기 때문에 사용자가 발화한 유한 도전(KR)은 한국어로 이루어졌기 때문에 영어 음성 인식 동작이 수행 불가능할 수 있다. 그리고, 유한 도전(KR)에 대하여 영어 음성 인식 결과가 획득되지 않을 수 있다.
현재 전자 장치(100)에서 설정되어 있는 언어가 영어로 되어 있기 때문에 전자 장치(100)는 유한 도전(KR)부분을 명확히 인식하지 못할 수 있다. 전자 장치(100)에는 한가지 언어가 기본적으로 설정되어 있어, 사용자가 다중 언어를 포함한 내용을 발화하는 경우 음성 인식 동작의 인식률이 좋지 않을 수 있다.
도 4에서는 사용자가 "find(EN) 유한 도전(KR)"을 발화하는 경우를 가정하고 음성 인식 언어가 영어임을 가정하였다. 여기서, 전자 장치(100)는 유한 도전(KR)부분을 인식하지 못하더라도 사용자의 음성이 개체명을 포함하는 것으로 식별할 수 있다.
도 5는 사용자 음성에 개체명이 포함되어 있는지 여부를 식별하는 동작을 설명하기 위한 도면이다.
도 5에서는 설명의 편의를 위해 유한 도전(KR) 대신에 A (KR)를 발화하는 것으로 가정한다. A(KR)는 사용자가 A라는 단어를 한국어로 발화하였음을 의미한다.
도 5를 참고하면, 사용자가 "find(EN) A(KR)"를 발화하였다고 가정한다. 여기서, 전자 장치(100)는 음성 인식 동작을 수행하여 사용자의 발화 음성에 개체명이 포함되어 있는지 여부를 판단할 수 있다.
개체명이란, 의도 분석을 수행할 수 있는 객체의 이름을 의미할 수 있다. 예를 들어, 개체명은 드라마의 이름, 채널 이름, 영화 이름 등 컨텐츠의 이름을 의미할 수 있다.
도 5를 참고하면, A를 인식하지 못하더라도 전자 장치(100)는 사용자의 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다. 그 이유는 사용자의 음성에 find(EN) 부분이 포함되어 있기 때문이다. 전자 장치(100)는 사용자의 음성에 find(EN)가 포함되면 그 이후에 나오는 음성은 개체명이 될 것임을 예상할 수 있다. 예를 들어, find(EN)라는 의미가 어떤 컨텐츠 또는 정보를 찾으라는 사용자의 명령이 되므로, 인식되지 않은 나머지 부분인 A(KR)가 찾으라는 명령의 대상이 될 것임을 예상할 수 있다.
따라서, 사용자의 발화 중 일 부분이 인식되지 않더라도 사용자의 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다.
도 5를 참고하면, 사용자 음성에 따라 제1 구간 및 제2 구간을 구분하고 사용자 음성에 개체명이 포함될 가능성이 있는지 여부를 판단하는 실시 예를 설명할 수 있다.
사용자 음성에 find, search, view, select 또는 play중 적어도 하나가 포함되고 전자 장치(100)가 이를 인식하였다고 가정한다. 이 경우, 사용자 음성 중 미인식된 부분이 있더라도 전자 장치(100)는 사용자의 음성이 개체명을 포함하고 있는 것으로 식별할 수 있다.
개체명을 포함하고 있다는 것은 특정 컨텐츠에 대한 내용을 포함하고 있는 것을 의미할 수 있다. 그리고, 개체명을 포함하고 있다는 것은 데이터 베이스를 이용하여 특정 결과를 출력해야 것을 의미할 수 있다.
한편, 사용자 음성에 turn, off, on, volume, up, down 중 적어도 하나가 포함되고, 전자 장치(100)가 이를 인식하였다고 가정한다. 이 경우, 사용자 음성에는 개체명이 포함되어 있지 않다고 식별할 수 있다. 왜냐하면, turn, off, on, volume, up, down 등의 단어들은 장치 자체의 기능(전원 온, 전원 오프, 채널 변경, 음량 변경) 등과 함께 사용되는 단어이기 때문이다. 이 경우, 본원의 기술이 필요하지 않을 수 있다. turn, off, on, volume, up, down 등의 단어들은 컨텐츠와 함께 사용되지 않을 수 있으며, 본원의 동작이 필요하지 않을 수 있다.
도 5를 설명함에 있어, 상술한 단어들은 설명의 편의를 위한 예시에 불과하며 사용자의 설정에 의해 변경될 수 있다.
도 6은 또 다른 실시 예에 따른 개체명 식별 동작을 설명하기 위한 도면이다.
도 5에서는 사용자 음성을 제1 구간 및 제2 구간으로 구분하였다. 그리고, 제1 구간에서 먼저 영어로 된 사용자 음성을 인식하고 제2 구간에서는 한국어로 된 사용자의 음성을 미인식하는 경우를 설명하였다.
하지만, 반드시 제1 구간의 음성을 인식해야 하는 것은 아니다. 사용자가 제1 구간에서 한국어를 발화하고 제2 구간에서 영어를 발화하는 것으로 가정한다. 이 경우, 전자 장치(100)는 사용자 음성에 개체명이 포함되어 있는 것으로 식별 할 수 있다.
도 6을 참고하면, "A(KR) view(EN)", "A(KR) select(EN)", "A(KR) play(EN)"를 사용자가 발화하는 경우에도, 전자 장치(100)는 사용자 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다.
도 7은 미인식된 구간에 대하여 다른 언어의 모델을 이용하는 실시 예를 설명하기 위한 도면이다.
전자 장치(100)의 음성 인식 언어가 영어로 설정되어 있으며, 사용자가 "find(EN) 유한 도전(KR)"를 발화한 것으로 가정한다. 전자 장치(100)는 "find(EN) 유한 도전(KR)"에 대하여 영어 인식 모델을 이용하여 음성 인식 동작을 수행할 수 있다. 여기서, 영어 인식 모델은 find(EN) 부분을 명확히 인식할 수 있고, 유한 도전(KR)부분은 인식하지 못할 수 있다.
전자 장치(100)는 영어 인식 모델이 인식하지 못한 유한 도전(KR)에 대응되는 구간을 식별하고 해당 구간을 한국어 인식 모델에 전송할 수 있다. 예를 들어, 유한 도전(KR)이 영어 인식 모델로 인식되지 않았기 때문에 전자 장치(100)는 유한 도전(KR)부분을 한국어 인식 모델에 전송하여 인식 동작을 수행할 수 있다. 그리고, 전자 장치(100)는 영어 인식 모델이 명확히 인식한 부분인 find(EN)부분은 한국어 인식 모델에 전송하지 않을 수 있다. 전자 장치(100)는 인식되지 않은 부분을 선택적으로 전송하여 데이터의 처리 시간을 단축 시키고, 프로세서의 처리량을 줄일 수 있다.
전자 장치(100)는 영어 인식 모델에서 인식한 find(EN)부분에 대한 영어 텍스트 정보를 획득할 수 있으며, 한국어 인식 모델에서 인식한 유한 도전(KR)부분에 대한 한국어 텍스트 정보를 획득할 수 있다.
도 8은 도 7에서 획득된 텍스트 정보를 이용하여 의도 분석 및 제어 정보를 생성하는 동작을 설명하기 위한 도면이다.
도 7에 따른 결과로, 전자 장치(100)는 find(EN) 및 유한 도전(KR)에 대응되는 텍스트 정보를 획득하였다. 여기서, 전자 장치(100)는 find(EN)부분을 영어 텍스트로 획득될 수 있고, 유한 도전(KR)부분을 한국어 텍스트로 획득할 수 있다.
전자 장치(100)는 find(EN)부분에 대응되는 영어 텍스트 정보 및 유한 도전(KR)부분에 대응되는 한국어 텍스트 정보를 이용하여 의도 분석 동작을 수행할 수 있다. 그리고, 전자 장치(100)는 의도 분석 동작을 수행한 결과를 기초로 제어 정보를 생성할 수 있다.
여기서, 의도 분석이란 사용자 음성에 포함되는 텍스트 정보에 기초하여, 텍스트 정보가 포함하는 사용자의 의도를 분석하는 것을 의미할 수 있다. 예를 들어, "find(EN) 유한 도전(KR)"에 대응되는 텍스트 정보를 이용하여 의도 분석을 수행하는 경우, 전자 장치(100)는 사용자의 음성이 유한 도전(KR)이라는 컨텐츠를 검색하라는 의도를 포함할 수 있다.
그리고, 전자 장치(100)는 유한 도전(KR)이라는 개체명을 가진 컨텐츠를 찾도록 전자 장치(100)를 제어하는 제어 정보를 생성할 수 있다. 여기서, 제어 정보는 전자 장치(100)의 특정 동작을 수행하는 제어 명령일 수 있다.
한편, 도 8을 설명함에 있어, 제어 정보는 전자 장치(100)를 제어하기 위한 정보로 설명하였다. 하지만 또 다른 실시 예에 따르면, 전자 장치(100)에서는 제어 정보만을 생성하고 실제로, 사용자 음성에 대응되는 동작을 수행하는 것은 외부 기기일 수 있다. 예를 들어, 전자 장치(100)는 제어 정보만을 수행하고 컨텐츠를 찾는 동작을 수행하는 것은 외부 기기일 수 있다.
한편, 의도 분석을 수행함에 있어 사용자 음성에 서로 다른 언어가 포함되어 있는 경우, 인식률이 좋지 않을 수 있다. 따라서, 서로 다른 언어를 이용하여 의도 분석을 수행하지 않고 인식률을 높일 수 있는 방법이 필요할 수 있다.
도 9는 카테고리 정보를 이용하여 쿼리를 생성하는 동작을 설명하기 위한 도면이다.
도 7에서 획득된 결과와 같이, 사용자 음성에서 find(EN) 및 유한 도전(KR)에 대응되는 텍스트 정보를 획득하는 것으로 가정한다.
전자 장치(100)는 유한 도전(KR)에 대응되는 한국어 텍스트 정보를 획득하여 한국어와 관련된 데이터 베이스와 비교할 수 있다. 여기서, 한국어와 관련된 데이터 베이스란 복수개의 개체명과 관련된 정보를 포함하는 저장 공간을 의미할 수 있다. 특히, 데이터 베이스는 전자 장치(100)에 포함되는 형태로 구현 가능하며, 외부 서버로 구현될 수도 있다.
전자 장치(100)는 유한 도전(KR)의 한국어 텍스트 정보 및 한국어 데이터 베이스를 이용하여 유한 도전(KR)에 대응되는 카테고리 정보를 획득할 수 있다. 여기서, 카테고리 정보는 개체명에 대응되는 식별 항목일 수 있다. 예를 들어, 카테고리 정보는 해당 객체들을 구분하는 기준이 될 수 있으며, title(제목), subject(주제), actor(배우), running time(재생시간), level(등급) 중 적어도 하나를 의미할 수 있다.
전자 장치(100)는 유한 도전(KR)의 한국어 텍스트 정보를 이용하여 한국어 텍스트 정보에 대응되는 카테고리 정보를 획득할 수 있다. 예를 들어, 데이터 베이스에는 유한 도전(KR)이 컨텐츠의 제목(title)에 해당하는 것으로 저장되어 있다고 가정한다. 전자 장치(100)는 유한 도전(KR)을 인식하는 경우, 전자 장치(100)는 한국어 데이터 베이스를 이용하여 유한 도전(KR)의 카테고리가 제목(title)임을 식별할 수 있다.
그리고, 전자 장치(100)는 find(EN)의 영어 텍스트 정보 및 유한 도전(KR) find(EN)의 카테고리 정보인 제목(title)을 이용하여 쿼리를 생성할 수 있다. 쿼리는 데이터를 분류 및 검색하기 위한 코드에 해당할 수 있다.
그리고, find(EN)의 영어 텍스트 정보 및 카테고리 정보인 제목(title)을 이용하여 생성된 쿼리를 이용하여 의도 분석 동작을 수행할 수 있다. 여기서, 전자 장치(100)는 의도 분석을 수행함에 있어 유한 도전(KR)의 한국어 텍스트 정보를 이용하지 않을 수 있다. 이 경우, 의도 분석 동작을 수행함에 있어, 서로 다른 언어가 동시에 포함되지 않을 수 있다. 그리고, 전자 장치(100)는 사용자가 제목(title)을 검색할 것이라는 의도로 발화하였음을 예측할 수 있다. 전자 장치(100)는 의도 분석 결과로서 사용자가 제목(title)을 검색하길 의도한 것으로 식별할 수 있다.
여기서, 전자 장치(100)는 쿼리 생성 및 의도 분석 동작에서 특정 컨텐츠를 의미하는 유한 도전(KR)부분의 한국어 텍스트 정보를 직접적으로 이용하지 않았기 때문에 유한 도전(KR)에 대한 제어 정보를 생성할 수 없다.
따라서, 전자 장치(100)는 카테고리 정보인 제목(title) 대신에 유한 도전(KR) 부분을 고려하여 제어 정보를 생성할 수 있다.
도 9에 따른 실시 예는 의도 분석 동작에 직접적으로 유한 도전(KR)의 한국어 텍스트 정보를 이용하지 않는 경우를 설명하였다. 의도 분석 과정을 수행함에 있어 서로 다른 언어가 포함되어 있는 경우, 의도 분석의 정확도가 떨어질 수 있다. 따라서, 도 9에서는 유한 도전(KR)에 대응되는 한국어 텍스트 정보 대신에 카테고리 정보를 이용하여 의도 분석을 수행하는 동작을 설명하였다. 그리고, 제어 정보 생성 동작에서 유한 도전(KR)의 한국어 텍스트 정보를 이용할 수 있다.
도 9에서 설명한 실시 예에 따른 전자 장치(100)는 하나의 언어로 이루어진 정보를 이용하여 의도 분석을 수행하기 때문에 정확도 및 인식률이 높아질 수 있다.
도 10은 특정 언어에 대응되는 정보를 추출하여 의도 분석 및 제어 정보를 생성하는 실시 예를 설명하기 위한 도면이다.
의도 분석 과정에서 두 가지 언어가 모두 이용되는 경우 정확도 및 인식률이 떨어질 가능성이 있다. 따라서, 전자 장치(100)는 find(EN)의 영어 텍스트 정보 및 유한 도전(KR)의 영어 텍스트 정보를 이용하여 의도 분석을 수행할 수 있다.
유한 도전(KR)의 영어 텍스트 정보를 획득하기 위하여, 전자 장치(100)는 유한 도전(KR)의 한국어 텍스트 정보를 한국어와 관련된 데이터 베이스와 비교할 수 있다. 예를 들어, 전자 장치(100)는 데이터 베이스에 포함된 유한 도전(KR)의 한국어 텍스트를 검색하고, 한국어 텍스트에 대응되는 영어 텍스트가 존재하는지 식별할 수 있다. 전자 장치(100)는 유한 도전(KR)의 한국어 텍스트에 대응되는 영어 텍스트가 데이터 베이스에 존재하는 경우, 전자 장치(100)는 유한 도전(KR) 의 영어 텍스트 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 획득된 유한 도전(KR)의 영어 텍스트 및 find(EN)의 영어 텍스트를 이용하여 의도 분석을 수행할 수 있다. 그리고, 전자 장치(100)는 의도 분석 결과에 기초하여 제어 정보를 생성할 수 있다.
전자 장치(100)는 동일한 언어로 이루어진 텍스트 정보를 이용하기 때문에 의도 분석의 정확도 및 인식률을 높일 수 있다.
도 11은 사용자 음성에서 미인식된 구간이 2개인 경우를 설명하기 위한 도면이다.
도 11에서는 사용자의 음성이 제1구간, 제2구간 및 제3구간으로 이루어지는 것을 가정한다. 예를 들어, 사용자가 "find(EN) 유한 도전(KR) 가요제(KR)"라고 발화 한다고 가정한다.
사용자의 음성에는 3개의 단어가 포함될 수 있으며, 전자 장치(100)는 영어 인식 모델에서 find(EN)만을 인식할 수 있다. 그리고, 유한 도전(KR) 및 가요제(KR) 부분에 대해서는 인식하지 못할 수 있다. 하지만, 전자 장치(100)는 find(EN)의 영어 텍스트 정보에 기초하여 사용자의 음성이 개체명을 포함하는 것으로 식별 할 수 있다. 그리고, 전자 장치(100)는 인식되지 못한 유한 도전(KR) 및 가요제(KR) 구간(부분)을 한국어 인식 모델에 전송할 수 있다. 한국어 인식 모델을 이용하면, 전자 장치(100)는 유한 도전(KR) 및 가요제(KR)에 대한 한국어 텍스트 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 find(EN)의 영어 텍스트 정보, 유한 도전(KR)의 한국어 텍스트 정보 및 가요제(KR)의 한국어 텍스트 정보를 모두 이용하여 의도 분석 동작을 수행할 수 있다. 그리고, 전자 장치(100)는 의도 분석 동작의 결과에 기초하여 제어 정보를 생성할 수 있다. 결국, 제어 정보는 find(EN)의 영어 텍스트 정보, 유한 도전(KR)의 한국어 텍스트 정보 및 가요제(KR)의 한국어 텍스트 정보가 반영된 제어 명령에 해당할 수 있다.
한편, 도 11을 설명함에 있어 의도 분석 동작에 영어 텍스트 정보와 한국어 텍스트 정보를 동시에 이용하는 것으로 설명하였다. 하지만, 도 11을 실제 구현 시 도 9 및 도 10에 따른 특징을 적용할 수 있다.
도 12는 사용자 음성이 3개의 구간으로 이루어진 다양한 실시 예를 설명하기 위한 도면이다. 사용자가 발화한 구간을 시간 순서대로 제1구간, 제2구간, 제3구간으로 명명하기로 가정한다.
실시 예1은 "Find (EN) 유한도전 (KR) 가요제 (KR)"를 사용자가 발화한 것으로 가정한다. 여기서, 미인식 구간은 한국어를 발화한 제2구간 및 제3구간일 수 있다. 그리고, find(EN)의 영어 텍스트 정보에 기초하여 전자 장치(100)는 사용자 음성에 개체명이 포함된 것으로 식별할 수 있다. 그리고, 전자 장치(100)는 가요제 (KR)의 한국어 텍스트 정보를 하위 제목 또는 서브 title로 인식하여 의도 분석을 수행할 수 있다.
실시 예2는 "Find (EN) 유한도전 (KR) music festival (EN)" 를 사용자가 발화한 것으로 가정한다. 여기서, 미인식 구간은 한국어를 발화한 제2 구간일 수 있다. 그리고, find(EN)의 영어 텍스트 정보에 기초하여 전자 장치(100)는 사용자 음성에 개체명이 포함된 것으로 식별할 수 있다. 그리고, 전자 장치(100)는 music festival (EN)의 영어 텍스트 정보를 하위 제목 또는 서브 title로 인식하여 의도 분석을 수행할 수 있다.
실시 예3은 "Find (EN) finite challenge (EN) music festival (EN)" 를 사용자가 발화한 것으로 가정한다. 전자 장치(100)는 사용자 음성에서 미인식된 구간이 없으므로 영어 인식 모델만을 이용하여 음성 인식 동작을 수행할 수 있다. 전자 장치(100)는 한국어 인식 모델을 이용하지 않고 바로 영어 텍스트 정보를 이용하여 의도 분석을 수행할 수 있다. 그리고, 전자 장치(100)는 music festival (EN)의 영어 텍스트 정보를 하위 제목 또는 서브 title로 인식하여 의도 분석을 수행할 수 있다.
실시 예4는 "Play (EN) 유한도전 (KR) 5minite later (EN)" 를 사용자가 발화한 것으로 가정한다. 여기서, 미인식 구간은 한국어를 발화한 제2 구간일 수 있다. 그리고, find(EN)의 영어 텍스트 정보에 기초하여 전자 장치(100)는 사용자 음성에 개체명이 포함된 것으로 식별할 수 있다. 그리고, 전자 장치(100)는 5minite later (EN)의 영어 텍스트 정보를 시간 제어 정보로 인식하여 의도 분석을 수행할 수 있다.
실시 예5는 "Turn (EN) Off (EN) TV (EN)" 를 사용자가 발화한 것으로 가정한다. 전자 장치(100)는 사용자 음성에서 미인식된 구간이 없으므로 영어 인식 모델만을 이용하여 음성 인식 동작을 수행할 수 있다. 그리고, 전자 장치(100)는 사용자의 음성에 개체명이 포함되지 않는 것으로 식별할 수 있다. 전자 장치(100)는 한국어 인식 모델을 이용하지 않고 바로 영어 텍스트 정보를 이용하여 의도 분석을 수행할 수 있다.
도 12를 참고하면, 전자 장치(100)는 3개의 단어로 이루어진 사용자 음성을 분석할 수 있으며, 2개 이상의 개체명을 포함하는 사용자의 음성을 분석할 수 있다. 이 경우, 전자 장치(100)는 1개의 개체명과 그 하위 항목에 해당하는 개체명으로 인식하여 의도 분석을 수행할 수 있다. 사용자가 발화한 단어가 많아지는 경우, 의도 분석의 정확도가 높아질 수 있다. 하지만, 사용자의 발화가 너무 길어지는 경우 반대로 의도 분석의 정확도가 떨어질 수 있으므로, 정확한 의도 분석을 위해 적절한 길이의 사용자 발화가 필요할 수 있다.
도 13은 3가지 언어로 이루어진 사용자 음성에 대하여 음성 인식 동작을 수행하는 실시 예를 설명하기 위한 도면이다.
도 13에서는 사용자가 "find(EN) 유한 도전(KR) Festival de musique(FR)"을 발화하였다고 가정한다.
전자 장치(100)는 기본 설정으로 되어 있는 영어 인식 모델에서 find(EN)의 영어 텍스트 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 find(EN)의 영어 텍스트 정보에 기초하여 사용자 음성이 개체명으로 포함하는 것으로 식별할 수 있다. 전자 장치(100)는 개체명으로 포함하는 것으로 식별하는 경우에 한해 다른 언어로 된 인식 모델이 필요하다고 식별할 수 있다. 그리고, 전자 장치(100)는 미인식된 유한 도전(KR) 및 Festival de musique(FR)을 한국어 인식 모델로 전송할 수 있다. 그리고, 전자 장치(100)는 한국어 인식 모델에서 유한 도전(KR)의 한국어 텍스트 정보를 획득할 수 있다. 전자 장치(100)는 한국어 인식 모델에서도 미인식된 구간이 있는지 식별할 수 있으며, 미인식된 구간에 대하여 프랑스어 인식 모델로 전송할 수 있다. 그리고, 전자 장치(100)는 Festival de musique(FR)의 프랑스어 텍스트 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 find(EN)의 영어 텍스트 정보, 유한 도전(KR)의 한국어 텍스트 정보 및 Festival de musique(FR)의 프랑스어 텍스트 정보를 모두 이용하여 의도 분석 동작을 수행할 수 있다. 그리고, 전자 장치(100)는 의도 분석 동작의 결과에 기초하여 제어 정보를 생성할 수 있다. 결국, 제어 정보는 find(EN)의 영어 텍스트 정보, 유한 도전(KR)의 한국어 텍스트 정보 및 Festival de musique(FR)의 프랑스어 텍스트 정보가 반영된 제어 명령에 해당할 수 있다.
여기서, 영어 인식 모델, 한국어 인식 모델, 프랑스어 인식 모델을 이용하는 순서가 전자 장치(100)를 구현함에 있어 반드시 적용되는 것은 아니다. 해당 순서는 사용자의 설정에 의해 변경될 수 있다.
한편, 도 13을 설명함에 있어 의도 분석 동작에 영어 텍스트 정보, 한국어 텍스트 정보 및 프랑스어 텍스트 정보를 동시에 이용하는 것으로 설명하였다. 하지만, 도 13을 실제 구현 시 도 9 및 도 10에 따른 특징을 적용할 수 있다.
도 14는 본 개시의 일 실시 예에 따른 음성 인식 과정을 설명하기 위한 흐름도이다.
도 14를 참고하면, 전자 장치(100)는 사용자의 음성을 수신할 수 있다 (S1405). 그리고, 전자 장치(100)는 수신된 사용자 음성에 대하여 제1 음성 인식 정보(제1 언어)를 이용한 음성 인식 동작을 수행할 수 있다 (S1410). 그리고, 전자 장치(100)는 제1 음성 인식 정보(제1 언어)를 이용한 음성 인식 동작의 결과로서 획득되는 텍스트 정보가 있는지 여부를 식별할 수 있다 (S1415). 여기서, 전자 장치(100)는 제1 음성 인식 정보(제1 언어)를 이용한 음성 인식 결과가 전혀 획득되지 않는 경우, 사용자에게 재발화를 유도할 수 있다 (S1420). 예를 들어, 사용자 발화한 음성에 제1언어가 포함되지 않는 경우 전자 장치(100)는 제1 음성 인식 정보(제1 언어)에 기초하여 텍스트 정보를 획득할 수 없다. 이 경우, 전자 장치(100)는 사용자의 음성 및 사용자의 의도를 전혀 확인할 수 없으므로, 재발화를 요구하는 UI를 표시하거나, 재발화를 유도하는 음성을 출력할 수 있다.
전자 장치(100)는 제1 음성 인식 정보(제1 언어)를 이용한 음성 인식 결과에 의하여 제1 텍스트를 획득할 수 있다(S1425). 여기서, 제1 텍스트는 제1언어에 해당할 수 있다. 그리고, 전자 장치(100)는 제1 텍스트에 기초하여 사용자 음성에 개채명이 포함되어 있는 것으로 식별되는지 여부를 식별할 수 있다(S1430). 여기서, 개체명은 컨텐츠와 관련된 객체의 이름을 의미할 수 있다.
전자 장치(100)가 사용자 음성에 개체명이 포함되어 있는 것으로 식별되지 않으면, 전자 장치(100)는 제1 텍스트만을 이용하여 의도 분석 동작을 수행할 수 있다 (S1431).
한편, 전자 장치(100)는 S1430 단계에서, 사용자 음성에 개체명이 포함되어 있는 것으로 식별하면, 전자 장치(100)는 사용자 음성에 미인식된 개체명이 있는지 여부를 식별할 수 있다 (S1435).
S1435 단계에서, 사용자 음성에 미인식된 부분이 없는 것으로 식별되면, 전자 장치(100)는 제1 텍스트를 이용하여 의도 분석을 수행할 수 있다(S1431). 사용자 음성에 미인식된 부분이 없는 경우, 전자 장치(100)는 제1 음성 인식 정보(제1 언어)만으로 사용자 음성을 모두 분석한 것으로 볼 수 있다. 따라서, 제1 음성 인식 정보(제1 언어) 이외에 제2 음성 인식 정보(제2 언어)와 관계 없이 바로 제1 텍스트만으로 의도 분석 동작을 수행할 수 있다.
S1435 단계에서, 사용자 음성에 미인식된 부분이 있는 것으로 식별하면, 전자 장치(100)는 미인식된 부분 중 개체명이 포함된 구간을 식별할 수 있다 (S1440). 예를 들어, 전자 장치(100)는 사용자 음성 중 미인식된 부분을 개체명이 포함된 구간으로 식별할 수 있다. 사용자가 "find(EN) 유한 도전(KR)"이라고 발화하는 것으로 가정하고 전자 장치(100)는 영어가 음성 인식 언어로 설정되어 있다고 가정한다. find(EN)부분은 제1구간에 해당하며 영어로 되어 있기 때문에 제1 음성 인식 정보(제1 언어)에 의해 제1 텍스트 정보로 획득될 수 있다. 하지만, 유한 도전(KR)은 제2 구간에 해당하며 한국어로 되어 있기 때문에 영어 인식 모델에 의해 미인식 될 수 있다. 전자 장치(100)는 유한 도전(KR)부분에 대해 미인식 부분으로 식별 가능하다. 또한, 전자 장치(100)는 유한 도전(KR)을 개체명 포함 구간으로 식별할 수 있다.
S1440 단계에 이어, 전자 장치(100)는 개체명이 포함되어 있다고 추측되는 구간(예를 들어, 유한 도전(KR) 구간)에 대하여 제2 음성 인식 정보(제2 언어)를 이용하여 음성 인식 동작을 수행할 수 있다.
그리고, 미인식된 부분에 해당하는 사용자 음성이 제2 음성 인식 정보(제2 언어)에 의해 인식되는 경우, 전자 장치(100)는 제2 텍스트를 획득할 수 있다 (S1450). 예를 들어, 제2 음성 인식 정보(제2 언어)가 한국어라면, 전자 장치(100)는 유한 도전(KR)에 대한 제2 텍스트 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 제1 텍스트 정보 및 제2 텍스트 정보를 이용하여 의도 분석 동작을 수행할 수 있다 (S1455). 그리고, 전자 장치(100)는 S1455 단계에 의해 획득되는 의도 분석 동작 결과에 기초하여, 제어 정보를 생성할 수 있다 (S1460). 전자 장치(100)는 생성된 제어 정보를 이용하여 제어 동작을 수행할 수 있다. 예를 들어, "find(EN) 유한 도전(KR)"에 대한 발화 동작에 대하여 의도 분석 동작 및 제어 정보를 생성할 수 있고, 전자 장치(100)는 유한 도전이라는 컨텐츠를 검색하는 동작을 수행할 수 있다.
도 15는 본 개시의 또 다른 실시 예에 따른 음성 인식 과정을 설명하기 위한 흐름도이다. 구체적으로, 도 14의 S1445 단계 및 S1450 단계 이후의 동작을 또 다른 실시 예에 따라 구현하는 음성 인식 과정을 설명하기 위한 도면이다.
전자 장치(100)는, 사용자 음성에서 개체명이 포함된 것으로 식별된 구간을 제2 음성 인식 정보(제2 언어)을 이용하여 음성 인식 동작을 수행할 수 있다 (S1505). 그리고, 개체명이 포함된 구간에 대응되는 사용자의 음성이 제2 음성 인식 정보(제2 언어)와 일치하는 경우, 전자 장치(100)는 제2 텍스트를 획득할 수 있다 (S1510).
여기서, 전자 장치(100)는 획득된 제2 텍스트 정보를 외부 서버(200)에 전송할 수 있다. 그리고, 외부 서버(200)는 제2 음성 인식 정보(제2 언어)와 관련된 데이터 베이스 및 수신된 제2 텍스트를 비교할 수 있다. 구체적으로, 외부 서버(200)에서는 제2 음성 인식 정보(제2 언어)에 관련된 데이터 베이스를 검색하고, 수신된 제2 텍스트 정보에 대응되는 카테고리 정보를 데이터 베이스에서 획득할 수 있다 (S1515). 그리고, 외부 서버(200)는 획득된 카테고리 정보를 전자 장치(100)에 전송할 수 있다.
전자 장치(100)는 외부 서버(200)로부터 수신된 제2 텍스트 정보에 대응되는 카테고리 정보를 수신할 수 있다. 그리고, 제2 텍스트 정보에 대응되는 카테고리 정보 및 제1 텍스트 정보를 이용하여 제1 쿼리를 생성할 수 있다 (S1520).
전자 장치(100)는 제1 쿼리에 제2 텍스트 정보를 추가하여 제2 쿼리를 생성할 수 있다(S1525). 카테고리 정보만을 이용하여 생성한 제1쿼리에 제2 텍스트 정보를 추가하여 새로운 제2 쿼리를 생성할 수 있다.
한편, 전자 장치(100)는 제1 쿼리에서 카테고리 정보를 제2 텍스트 정보로 대체하여 제2 쿼리를 생성할 수 있다. 전자 장치(100)는 제1 쿼리에서 카테고리 정보를 삭제하고, 제2 텍스트 정보를 추가하여 제2 쿼리를 생성할 수 있다.
한편, S1525 단계 또는 S1530 단계는 선택적으로 이루어질 수 있다. 즉, 사용자의 설정에 따라 적어도 어느 하나의 방법을 이용하여 제2 쿼리를 생성할 수 있다.
또한, 전자 장치(100)는 제1쿼리 또는 제2 쿼리 중 적어도 하나의 쿼리를 이용하여 의도 분석 동작을 수행할 수 있다 (S1535). 또 다른 실시 예에 따라, S1535 단계는 전자 장치(100)가 아닌 외부 서버(200)에서 수행될 수 있다.
한편, S1535 단계에 의해 수행된 의도 분석 결과에 기초하여, 전자 장치(100)는 제어 정보를 생성할 수 있다 (S1540). 전자 장치(100)는 생성된 제어 정보에 기초하여 사용자 음성에 대응되는 동작을 수행할 수 있다. 또 다른 예에 따라 전자 장치(100)는 사용자 음성에 대응되는 동작을 수행하도록 제어 명령을 생성할 수 있다.
한편, 도 15에서는 본원과 외부 서버의 동작을 구분하여 기술하였지만, 전자 장치(100)에서만 모든 동작이 수행될 수 있다.
도 16은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
도 16을 참고하면, 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 전자 장치의 제어 방법은 제1 음성 인식 정보에 기초하여 수신된 사용자 음성에 대응되는 제1 텍스트를 획득할 수 있다 (S1605).
또한, 제어 방법은 획득된 제1 텍스트에 기초하여 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 사용자 음성에서 개체명을 포함하는 구간을 식별하고, 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득할 수 있다 (S1610).
또한, 제어 방법은 제1 텍스트 및 제2 텍스트에 기초하여 사용자 음성에 대응되는 제어 정보를 획득할 수 있다 (S1615).
여기서, 제2 텍스트를 획득하는 단계(S1610)는 사용자 음성에 제1 음성 인식 정보에 기초하여 인식되지 않는 개체명이 포함되어 있는 것으로 식별되면, 사용자 음성에서 인식되지 않는 개체명을 포함하는 구간을 식별할 수 있다.
여기서, 제2 텍스트를 획득하는 단계(S1610)는 획득된 제1 텍스트에 기 설정된 단어가 포함되어 있는 경우, 사용자 음성에 개체명이 포함되어 있는 것으로 식별할 수 있다.
여기서, 개체명은 컨텐츠와 관련된 것이며, 기 설정된 단어는 컨텐츠 검색을 수행하는 제어 정보와 관련된 것일 수 있다.
여기서, 제1 음성 인식 정보는, 전자 장치에 현재 설정된 언어 모드에 대응되는 정보이고, 제2 텍스트를 획득하는 단계(S1610)는 사용자 음성에서 인식되지 않는 개체명을 포함하는 구간이 식별되면, 현재 설정된 언어 모드와 상이한 언어 모드에 대응되는 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득할 수 있다.
또한, 제2 텍스트를 획득하는 단계(S1610)는 사용자 음성에서 기 설정된 단어가 포함된 구간을 식별하고, 사용자 음성에서 식별된 구간을 제외한 나머지 구간을 개체명을 포함하는 구간으로 식별할 수 있다.
한편, 제어 방법은 제2 텍스트에 대응되는 카테고리 정보 및 제1 텍스트에 기초하여 카테고리 정보에 대응되는 제1 쿼리를 생성할 수 있다.
여기서, 제어 방법은 생성된 제1 쿼리에 제2 텍스트를 추가하거나, 카테고리 정보를 제2 텍스트로 대체하여 제2 쿼리를 생성할 수 있다.
한편, 제1 쿼리를 생성하는 단계는 제2 음성 인식 정보에 기초하여 식별된 구간의 사용자 음성에서 복수의 제2 텍스트가 획득되면, 복수의 제2 텍스트 각각에 대응되는 카테고리 정보를 획득하고, 획득된 카테고리 정보에 기초하여 제1 쿼리를 생성할 수 있다.
또한, 제1 쿼리를 생성하는 단계는 제2 음성 인식 정보와 관련된 데이터 베이스에 기초하여 제2 텍스트에 대응되는 카테고리 정보를 획득할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100) 에 설치 가능한 어플리케이션 형태로 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100) 에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치(100)에 구비된 임베디드 서버, 또는 전자 장치(100)의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 상술한 실시 예에 따른 전자 장치(100) 제어 방법은 프로그램으로 구현되어 전자 장치(100)에 제공될 수 있다. 특히, 전자 장치(100) 제어 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
또한, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100) 에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100) 에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
메모리: 110 프로세서: 120

Claims (20)

  1. 전자 장치에 있어서,
    제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 메모리; 및
    제1 음성 인식 정보에 기초하여, 수신된 사용자 음성에 대응되는 제1 텍스트를 획득하고,
    상기 획득된 제1 텍스트에 기초하여 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 개체명을 포함하는 구간을 식별하고, 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하며,
    상기 제1 텍스트 및 상기 제2 텍스트에 기초하여 상기 사용자 음성에 대응되는 제어 정보를 획득하는 프로세서;를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 음성에 상기 제1 음성 인식 정보에 기초하여 인식되지 않는 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간을 식별하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 획득된 제1 텍스트에 기 설정된 단어가 포함되어 있는 경우, 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별하는, 전자 장치.
  4. 제3항에 있어서,
    상기 개체명은, 컨텐츠와 관련된 것이며,
    상기 기 설정된 단어는, 컨텐츠 검색을 수행하는 제어 정보와 관련된 것인, 전자 장치.
  5. 제2항에 있어서,
    상기 제1 음성 인식 정보는, 상기 전자 장치에 현재 설정된 언어 모드에 대응되는 정보이고,
    상기 프로세서는,
    상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간이 식별되면, 상기 현재 설정된 언어 모드와 상이한 언어 모드에 대응되는 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하는, 전자 장치.
  6. 제3항에 있어서,
    상기 프로세서는,
    상기 사용자 음성에서 상기 기 설정된 단어가 포함된 구간을 식별하고, 상기 사용자 음성에서 상기 식별된 구간을 제외한 나머지 구간을 상기 개체명을 포함하는 구간으로 식별하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 텍스트에 대응되는 카테고리 정보 및 상기 제1 텍스트에 기초하여 상기 카테고리 정보에 대응되는 제1 쿼리를 생성하는, 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 생성된 제1 쿼리에 상기 제2 텍스트를 추가하거나, 상기 카테고리 정보를 상기 제2 텍스트로 대체하여 제2 쿼리를 생성하는, 전자 장치.
  9. 제 7항에 있어서,
    상기 프로세서는,
    상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에서 복수의 제2 텍스트가 획득되면, 상기 복수의 제2 텍스트 각각에 대응되는 카테고리 정보를 획득하고, 상기 획득된 카테고리 정보에 기초하여 상기 제1 쿼리를 생성하는, 전자 장치.
  10. 제7항에 있어서,
    상기 프로세서는,
    상기 제2 음성 인식 정보와 관련된 데이터 베이스에 기초하여 제2 텍스트에 대응되는 카테고리 정보를 획득하는, 전자 장치.
  11. 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 전자 장치의 제어 방법에 있어서,
    제1 음성 인식 정보에 기초하여, 수신된 사용자 음성에 대응되는 제1 텍스트를 획득하는 단계;
    상기 획득된 제1 텍스트에 기초하여 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 개체명을 포함하는 구간을 식별하고, 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하는 단계; 및
    상기 제1 텍스트 및 상기 제2 텍스트에 기초하여 상기 사용자 음성에 대응되는 제어 정보를 획득하는 단계;를 포함하는, 제어 방법.
  12. 제11항에 있어서,
    상기 제2 텍스트를 획득하는 단계는,
    상기 사용자 음성에 상기 제1 음성 인식 정보에 기초하여 인식되지 않는 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간을 식별하는, 제어 방법.
  13. 제12항에 있어서,
    상기 제2 텍스트를 획득하는 단계는,
    상기 획득된 제1 텍스트에 기 설정된 단어가 포함되어 있는 경우, 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별하는, 제어 방법.
  14. 제13항에 있어서,
    상기 개체명은, 컨텐츠와 관련된 것이며,
    상기 기 설정된 단어는, 컨텐츠 검색을 수행하는 제어 정보와 관련된 것인, 제어 방법.
  15. 제12항에 있어서,
    상기 제1 음성 인식 정보는, 상기 전자 장치에 현재 설정된 언어 모드에 대응되는 정보이고,
    상기 제2 텍스트를 획득하는 단계는,
    상기 사용자 음성에서 상기 인식되지 않는 개체명을 포함하는 구간이 식별되면, 상기 현재 설정된 언어 모드와 상이한 언어 모드에 대응되는 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하는, 제어 방법.
  16. 제13항에 있어서,
    상기 제2 텍스트를 획득하는 단계는,
    상기 사용자 음성에서 상기 기 설정된 단어가 포함된 구간을 식별하고, 상기 사용자 음성에서 상기 식별된 구간을 제외한 나머지 구간을 상기 개체명을 포함하는 구간으로 식별하는, 제어 방법.
  17. 제11항에 있어서,
    상기 제어 방법은,
    상기 제2 텍스트에 대응되는 카테고리 정보 및 상기 제1 텍스트에 기초하여 상기 카테고리 정보에 대응되는 제1 쿼리를 생성하는 단계;를 더 포함하는, 제어 방법.
  18. 제17항에 있어서,
    상기 제어 방법은,
    상기 생성된 제1 쿼리에 상기 제2 텍스트를 추가하거나, 상기 카테고리 정보를 상기 제2 텍스트로 대체하여 제2 쿼리를 생성하는 단계;를 더 포함하는, 제어 방법.
  19. 제 17항에 있어서,
    상기 제1 쿼리를 생성하는 단계는,
    상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에서 복수의 제2 텍스트가 획득되면, 상기 복수의 제2 텍스트 각각에 대응되는 카테고리 정보를 획득하고, 상기 획득된 카테고리 정보에 기초하여 상기 제1 쿼리를 생성하는, 제어 방법.
  20. 제1 언어와 관련된 제1 음성 인식 정보 및 제2 언어와 관련된 제2 음성 인식 정보가 저장된 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은,
    제1 음성 인식 정보에 기초하여, 수신된 사용자 음성에 대응되는 제1 텍스트를 획득하는 단계;
    상기 획득된 제1 텍스트에 기초하여 상기 사용자 음성에 개체명이 포함되어 있는 것으로 식별되면, 상기 사용자 음성에서 상기 개체명을 포함하는 구간을 식별하고, 상기 제2 음성 인식 정보에 기초하여 상기 식별된 구간의 사용자 음성에 대응되는 제2 텍스트를 획득하는 단계; 및
    상기 제1 텍스트 및 상기 제2 텍스트에 기초하여 상기 사용자 음성에 대응되는 제어 정보를 획득하는 단계;를 포함하는, 컴퓨터 판독가능 기록매체.

KR1020180140719A 2018-11-15 2018-11-15 전자 장치 및 그 제어 방법 KR20200056712A (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020180140719A KR20200056712A (ko) 2018-11-15 2018-11-15 전자 장치 및 그 제어 방법
EP19200298.8A EP3654332B1 (en) 2018-11-15 2019-09-27 Electronic apparatus and controlling method thereof
EP23171573.1A EP4227939A1 (en) 2018-11-15 2019-09-27 Electronic apparatus and controlling method thereof
US16/664,253 US11205415B2 (en) 2018-11-15 2019-10-25 Electronic apparatus and controlling method thereof
US17/528,764 US11615780B2 (en) 2018-11-15 2021-11-17 Electronic apparatus and controlling method thereof
US18/113,284 US11961506B2 (en) 2018-11-15 2023-02-23 Electronic apparatus and controlling method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180140719A KR20200056712A (ko) 2018-11-15 2018-11-15 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20200056712A true KR20200056712A (ko) 2020-05-25

Family

ID=68084709

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180140719A KR20200056712A (ko) 2018-11-15 2018-11-15 전자 장치 및 그 제어 방법

Country Status (3)

Country Link
US (3) US11205415B2 (ko)
EP (2) EP4227939A1 (ko)
KR (1) KR20200056712A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200056712A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112951624A (zh) * 2021-04-07 2021-06-11 张磊 一种语音控制的紧急断电***

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000040572A (ko) 1998-12-18 2000-07-05 김영환 상관관계를 이용한 후처리 음성인식 방법
JP3476007B2 (ja) 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
KR100391720B1 (ko) 2000-11-22 2003-07-12 에스케이 텔레콤주식회사 음성 인식용 문자 변환 장치 및 그 방법
JP2003241790A (ja) 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
US20050043067A1 (en) 2003-08-21 2005-02-24 Odell Thomas W. Voice recognition in a vehicle radio system
EP1693829B1 (en) 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
KR100735820B1 (ko) 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR101300839B1 (ko) 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
JP5068225B2 (ja) 2008-06-30 2012-11-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声ファイルの検索システム、方法及びプログラム
US9817889B2 (en) 2009-12-04 2017-11-14 Sony Corporation Speech-based pronunciation symbol searching device, method and program using correction distance
US8606581B1 (en) * 2010-12-14 2013-12-10 Nuance Communications, Inc. Multi-pass speech recognition
US9257115B2 (en) 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
KR20140022320A (ko) 2012-08-14 2014-02-24 엘지전자 주식회사 영상표시장치와 서버의 동작 방법
KR101364774B1 (ko) 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
JP5396530B2 (ja) 2012-12-11 2014-01-22 株式会社Nttドコモ 音声認識装置および音声認識方法
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10176167B2 (en) * 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US10186262B2 (en) 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
WO2016048350A1 (en) 2014-09-26 2016-03-31 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
KR102298457B1 (ko) 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10418026B2 (en) * 2016-07-15 2019-09-17 Comcast Cable Communications, Llc Dynamic language and command recognition
JP6819988B2 (ja) 2016-07-28 2021-01-27 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
KR102126999B1 (ko) 2016-08-11 2020-07-07 주식회사 케이티 데이터 서비스 제어 방법 및 그 장치
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device
US10911596B1 (en) * 2017-08-31 2021-02-02 Amazon Technologies, Inc. Voice user interface for wired communications system
KR20200056712A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11120790B2 (en) * 2019-09-24 2021-09-14 Amazon Technologies, Inc. Multi-assistant natural language input processing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법
US11972756B2 (en) 2022-06-29 2024-04-30 Actionpower Corp. Method for recognizing the voice of audio containing foreign languages

Also Published As

Publication number Publication date
EP3654332A1 (en) 2020-05-20
EP4227939A1 (en) 2023-08-16
US20220076660A1 (en) 2022-03-10
US11205415B2 (en) 2021-12-21
EP3654332B1 (en) 2023-06-07
US20230197060A1 (en) 2023-06-22
US11961506B2 (en) 2024-04-16
US20200160835A1 (en) 2020-05-21
US11615780B2 (en) 2023-03-28

Similar Documents

Publication Publication Date Title
KR102092164B1 (ko) 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
US11961506B2 (en) Electronic apparatus and controlling method thereof
KR102453833B1 (ko) 전자 장치 및 그 제어 방법
KR102261552B1 (ko) 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US20190115025A1 (en) Electronic apparatus and method for voice recognition
US20120260176A1 (en) Gesture-activated input using audio recognition
KR20200063777A (ko) 디스플레이 장치 및 그 제어 방법
US20160173958A1 (en) Broadcasting receiving apparatus and control method thereof
US11726806B2 (en) Display apparatus and controlling method thereof
US20200293168A1 (en) Electronic apparatus and method for controlling thereof
US11399216B2 (en) Electronic apparatus and controlling method thereof
US20200152172A1 (en) Electronic device for recognizing abbreviated content name and control method thereof
US11758204B2 (en) Electronic device and control method therefor
US11599204B2 (en) Electronic device that provides a letter input user interface (UI) and control method thereof
KR20230130589A (ko) 디스플레이 장치 및 이의 제어방법
US20200137444A1 (en) Electronic apparatus, control method thereof and electronic system
US11455990B2 (en) Electronic device and control method therefor
US20210044875A1 (en) Electronic device and control method therefor
KR102326067B1 (ko) 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
KR102661340B1 (ko) 전자 장치 및 이의 제어 방법
KR102669100B1 (ko) 전자 장치 및 그 제어 방법
KR20230058034A (ko) 디스플레이 장치 및 이의 제어방법
US20200280767A1 (en) Electronic device, speech recognition method, and recording medium
KR20200054354A (ko) 전자 장치 및 그 제어 방법