KR20140098525A - 음성 인식 장치 및 응답 정보 제공 방법 - Google Patents

음성 인식 장치 및 응답 정보 제공 방법 Download PDF

Info

Publication number
KR20140098525A
KR20140098525A KR1020130011292A KR20130011292A KR20140098525A KR 20140098525 A KR20140098525 A KR 20140098525A KR 1020130011292 A KR1020130011292 A KR 1020130011292A KR 20130011292 A KR20130011292 A KR 20130011292A KR 20140098525 A KR20140098525 A KR 20140098525A
Authority
KR
South Korea
Prior art keywords
domain
candidate
speech
detected
final
Prior art date
Application number
KR1020130011292A
Other languages
English (en)
Other versions
KR102072826B1 (ko
Inventor
박은상
김경덕
김명재
리우유
류성한
이근배
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130011292A priority Critical patent/KR102072826B1/ko
Priority to EP14151593.2A priority patent/EP2763135A1/en
Priority to CN201410041514.1A priority patent/CN103974109B/zh
Priority to US14/169,177 priority patent/US9865252B2/en
Publication of KR20140098525A publication Critical patent/KR20140098525A/ko
Application granted granted Critical
Publication of KR102072826B1 publication Critical patent/KR102072826B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

음성 인식 장치 및 응답 정보 제공 방법이 개시된다. 본 발명에 따른 음성 인식 장치는 사용자의 발화 음성 신호로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소를 추출하는 추출부, 기설정된 계층적 도메인 모델에 기초하여 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출하고, 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 도메인 결정부, 외부 장치와 통신을 수행하는 통신부 및 제1 및 제2 발화 요소에 대한 정보 및 결정된 최종 도메인에 대한 정보를 전송하도록 통신부를 제어하는 제어부를 포함한다. 이에 따라, 음성 인식 장치는 사용자 의도에 적합한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.

Description

음성 인식 장치 및 응답 정보 제공 방법{Speech recognition apparatus and method for providing response information}
본 발명은 음성 인식 장치 및 응답 정보 제공 방법에 관한 것으로서, 보다 상세하게는 사용자의 발화 음성에 대응하는 응답 정보를 제공하기 위한 음성 인식 장치 및 응답 정보 제공 방법에 관한 것이다.
종래의 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치는 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 사용자가 의도한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.
그러나, 이 같은 종래의 음성 인식 장치에서 제공해야 할 도메인(관련 분야)와 서비스가 다양해지고 복잡해짐에 따라, 음성 인식 장치는 사용자가 의도하지 않은 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하는 문제가 있다.
예를 들어, 사용자로부터 "액션 영화가 뭐 있지?"라는 발화 음성이 수신될 경우, 이 같은 발화 음성과 관련하여 TV 프로그램과 VOD 관련 도메인이 결정될 수 있으나, 종래의 음성 인식 장치는 이 같은 다양한 도메인을 고려하지 않고, 임의로 복수의 도메인 중 하나의 도메인만을 검출한다. 예를 들어,"액션 영화가 뭐 있지?"라는 발화 음성에는 TV 프로그램에서 제공하는 액션 영화에 대한 사용자 의도를 포함할 수 있다. 그러나, 음성 인식 장치는 이 같은 사용자의 의도와 무관하게 사용자의 발화 음성으로부터 VOD 관련 도메인을 임의로 결정하고, 결정된 VOD 관련 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다. 이와 같이, 종래의 음성 인식 장치는 사용자 의도와 다른 응답 정보를 제공하는 일이 종종 발생하기 때문에 사용자는 자신이 의도한 응답 정보를 제공받기 위해서 보다 디테일한 발화 음성을 제공해야 하는 불편함을 감수해야 한다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치에서 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 사용자의 발화 음성 신호로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소를 추출하는 추출부, 기설정된 계층적 도메인 모델에 기초하여 상기 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출하고, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 도메인 결정부, 외부 장치와 통신을 수행하는 통신부 및 상기 제1 및 제2 발화 요소에 대한 정보 및 상기 결정된 최종 도메인에 대한 정보를 전송하도록 상기 통신부를 제어하는 제어부를 포함한다.
그리고, 상기 계층적 도메인 모델은, 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수가 매칭된 최하위 개념의 후보 도메인과 상기 후보 도메인의 상위 개념으로 설정된 가상의 확장 도메인이 계층적으로 이루어질 수 있다.
또한, 상기 도메인 결정부는, 다중 분류기를 이용하여 상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 확장 도메인이 검출되면, 상기 검출된 확장 도메인과 관련된 하위의 후보 도메인을 검출하고, 상기 확장 도메인이 검출되지 않으면, 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인을 검출할 수 있다.
그리고, 상기 도메인 결정부는, 적어도 하나 이상의 이진 분류기를 이용하여 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인 및 확장 도메인 중 적어도 하나의 도메인을 검출할 수 있다.
또한, 상기 도메인 결정부는, 상기 추출된 제1 및 제2 발화 요소와 상기 검출된 후보 도메인 중 적어도 하나로부터 사용자 의도를 파악하여 문맥 초기화 발생 여부를 판단하고, 상기 판단 결과, 문맥 초기화가 발생되지 않은 것으로 판단되면, 상기 이전 도메인에 기초하여 상기 검출된 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정할 수 있다.
그리고, 상기 도메인 결정부는, 상기 검출된 후보 도메인 중 하나의 후보 도메인과 상기 이전 도메인이 서로 대응되면, 상기 이전 도메인을 최종 도메인으로 결정할 수 있다.
또한, 상기 도메인 결정부는, 상기 검출된 후보 도메인과 상기 이전 도메인이 서로 상이하거나 상기 문맥 초기화가 발생한 것으로 판단되면, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인 중 상기 실행 명령을 나타내는 제1 발화 요소와 관련된 후보 도메인을 최종 도메인으로 결정할 수 있다.
그리고, 상기 도메인 결정부는, 상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 모든 후보 도메인을 최종 도메인으로 결정할 수 있다.
또한, 상기 도메인 결정부는, 상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 사용자로부터 선택된 후보 도메인을 최종 도메인으로 결정하거나 또는 상기 검출된 후보 도메인 중 하나의 후보 도메인을 임의로 선택하여 최종 도메인으로 결정할 수 있다.
그리고, 상기 도메인 결정부는, 상기 이전 도메인이 복수개이며, 상기 복수개의 이전 도메인 중 하나와 상기 후보 도메인 중 하나가 서로 대응되고, 상기 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 후보 도메인 중 상기 이전 도메인과 대응되는 후보 도메인을 최종 도메인으로 결정할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 대화형 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 있어서, 상기 방법은 사용자의 발화 음성 신호로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소를 추출하는 단계, 기설정된 계층적 도메인 모델에 기초하여 상기 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출하는 단계, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 단계 및 상기 제1 및 제2 발화 요소에 대한 정보와 상기 결정된 최종 도메인에 대한 정보를 외부 장치로 전송하는 단계를 포함한다.
그리고, 상기 계층적 도메인 모델은, 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수가 매칭된 최하위 개념의 후보 도메인과, 상기 후보 도메인의 상위 개념으로 설정된 가상의 확장 도메인이 계층적으로 이루어질 수 있다.
또한, 상기 확장 도메인을 검출하는 단계는, 다중 분류기를 이용하여 상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 확장 도메인이 검출되면, 상기 검출된 확장 도메인과 관련된 하위의 후보 도메인을 검출하고, 상기 확장 도메인이 검출되지 않으면, 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인을 검출할 수 있다.
그리고, 상기 확장 도메인을 검출하는 단계는, 적어도 하나 이상의 이진 분류기를 이용하여 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인 및 확장 도메인 중 적어도 하나의 도메인을 검출할 수 있다.
또한, 상기 최종 도메인으로 결정하는 단계는, 상기 추출된 제1 및 제2 발화 요소와 상기 검출된 후보 도메인 중 적어도 하나로부터 사용자 의도를 파악하여, 문맥 초기화 발행 여부를 판단하고, 상기 판단 결과, 문맥 초기화가 발생되지 않은 것으로 판단되면, 상기 이전 도메인에 기초하여 상기 검출된 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정할 수 있다.
그리고, 상기 최종 도메인으로 결정하는 단계는, 상기 검출된 후보 도메인 중 하나의 후보 도메인과 상기 이전 도메인이 서로 대응되면, 상기 이전 도메인을 최종 도메인으로 결정할 수 있다.
또한, 상기 최종 도메인으로 결정하는 단계는, 상기 검출된 후보 도메인과 상기 이전 도메인이 서로 상이하거나 상기 문맥 초기화가 발생한 것으로 판단되면, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인 중 상기 실행 명령을 나타내는 제1 발화 요소와 관련된 후보 도메인을 최종 도메인으로 결정할 수 있다.
그리고, 상기 최종 도메인으로 결정하는 단계는, 상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 모든 후보 도메인을 최종 도메인으로 결정할 수 있다.
또한, 상기 최종 도메인으로 결정하는 단계는, 상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 사용자로부터 선택된 후보 도메인을 최종 도메인으로 결정하나 또는 상기 검출된 후보 도메인 중 하나의 후보 도메인을 임의로 선택하여 최종 도메인으로 결정할 수 있다.
그리고, 상기 최종 도메인을 결정하는 단계는, 상기 이전 도메인이 복수개이며, 상기 복수개의 이전 도메인 중 하나와 상기 후보 도메인 중 하나가 서로 대응되고, 상기 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 후보 도메인 중 상기 이전 도메인과 대응되는 후보 도메인을 최종 도메인으로 결정할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 음성 인식 장치는 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도,
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도,
도 3은 본 발명의 일 실시예에 따른 후보 도메인을 검출하기 위한 계층적 도메인 모델의 예시도,
도 4는 본 발명의 일 실시예에 따른 계층적 도메인 모델에 포함되는 도메인에 설정된 주행 및 주행별 매개변수를 나타내는 예시도,
도 5는 본 발명의 일 실시예에 따른 계층적 도메인 모델에 포함된 전체 도메인에 설정된 주행 및 주행별 매개변수를 나타내는 예시도,
도 6은 본 발명의 일 실시예에 따른 도메인 결정부에서 계층적 도메인 모델에 속하는 계층별 도메인을 분류하는 제1 예시도,
도 7은 본 발명의 또다른 실시예에 따른 도메인 결정부에서 계층적 도메인 모델에 속하는 계층별 도메인을 분류하는 제2 예시도,
도 8은 본 발명의 일 실시예에 따른 대화형 시스템의 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도,
도 9는 본 발명의 일 실시예에 따른 음성 인식 장치에서 검출된 후보 도메인 중 하나를 최종 도메인으로 결정하는 방법의 흐름도이다.
이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도이다.
도 1에 도시된 바와 같이, 대화형 시스템은 음성 인식 장치(100) 및 디스플레이 장치(200)를 포함한다. 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성 신호(이하 발화 음성이라 함)을 수신하고, 수신된 사용자의 발화 음성이 어느 도메인에 속하는지를 판단한다. 이후, 음성 인식 장치(100)는 판단된 도메인의 대화 패턴에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 음성 인식 장치(100)와 디스플레이 장치(200)는 하나의 장치로 구현되어 사용자의 발화 음성을 수집하고, 수집된 사용자의 발화 음성에 속하는 도메인을 판단하여, 판단된 도메인의 대화 패턴을 기초로 사용자의 발화 음성에 대한 응답 정보를 생성할 수 있다.
한편, 디스플레이 장치(200)는 스마트 TV일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(200)는 수집된 사용자의 발화 음성을 음성 인식 장치(100)로 전송한다. 이에 따라, 음성 인식 장치(100)는 전술한 바와 같이, 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성에 속하는 도메인을 판단하여 판단된 도메인의 대화 패턴을 기초로 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신한 응답 정보를 스피커로 출력하거나 또는 화면상에 디스플레이할 수 있다.
한편, 전술한 음성 인식 장치(100)는 예를 들어, "액션 영화 보여줘!"라는 발화 음성이 수집되면, 수신된 발화 음성을 분석하여 발화 음성에 대한 적어도 하나의 후보 도메인을 검출한다. 구체적으로, 음성 인식 장치(100)는 "액션 영화 보여줘!"라는 발화 음성으로부터 "보여줘"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출한다. 이후, 음성 인식 장치(100)는 추출된 제1 및 제2 발화 요소에 기초하여 "search_program(genre)"라는 사용자 의도를 판단하고, 기설정된 계층적 도메인 모델에 기초하여 "search_program(genre)"를 포함하는 확장 도메인이 있는지 여부를 판단한다. 여기서, 확장 도메인은 최종 도메인으로 결정하기 위한 후보 도메인의 상위 개념으로 설정된 가상의 도메인이다.
판단 결과, "search_program(genre)"를 포함하는 확장 도메인이 비디오 컨텐츠인 것으로 판단되면, 음성 인식 장치(100)는 "search_program(genre)"에 대한 확장 도메인이 속하는 하위의 후보 도메인을 검출한다. 비디오 컨텐츠에 대한 확장 도메인에 속하는 하위의 후보 도메인이 TV 프로그램과 VOD이면, 음성 인식 장치(100)는 TV 프로그램과 VOD에 대한 후보 도메인을 검출할 수 있다.
이 같은 후보 도메인이 검출되면, 음성 인식 장치(100)는 이전 대화 내용에 따라 기결정된 이전 도메인 및 검출된 후보 도메인에 기초하여 적어도 하나의 후보 도메인을 최종 도메인으로 결정할 수 있다.
예를 들어, 이전 도메인이 VOD이면, 음성 인식 장치(100)는 검출된 TV 프로그램 및 VOD에 대한 후보 도메인 중 VOD에 대한 후보 도메인을 최종 도메인으로 결정할 수 있다. 이 같은 최종 도메인이 결정되면, 음성 인식 장치(100)는 기추출된 제1 및 제2 발화 요소에 대한 정보와 기결정된 최종 도메인에 대한 정보를 외부 장치(미도시)로 전송한다. 따라서, 외부 장치(미도시)는 기결정된 VOD에 대한 최종 도메인 내에서 사용자의 발화 음성과 관련된 응답 정보를 생성하여 음성 인식 장치(100)로 전송한다. 이에 따라, 음성 인식 장치(100)는 외부 장치(미도시)로부터 수신한 응답 정보를 디스플레이 장치(200)로 전송할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 음성 인식 장치(100)는 VOD에 대한 후보 도메인이 최종 도메인으로 결정되면, 그 결정된 최종 도메인 내에서 기추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다. 따라서, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신한 응답 정보를 스피커를 통해 출력하거나 화면상에 디스플레이할 수 있다.
지금까지, 본 발명에 따른 대화형 시스템에 대해서 개략적으로 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)에 대해서 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 2에 도시된 바와 같이, 음성 인식 장치(100)는 통신부(110), 음성 인식부(120), 추출부(130), 도메인 결정부(140), 제어부(150) 및 저장부(160)를 포함한다.
통신부(110)는 디스플레이 장치(200)와 데이터 통신을 수행하여 디스플레이 장치(200)로부터 수집된 사용자의 발화 음성을 수신한다. 또한, 통신부(110)는 외부 장치(미도시)와 통신을 수행하여 사용자의 발화 음성에 대한 응답 정보를 생성하기 위해 결정된 최종 도메인에 대한 정보 및 사용자의 발화 음성으로부터 추출된 발화 요소에 대한 정보를 전송할 수 있다. 이 같은 통신부(110)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
또한, 통신부(110)는 인터넷 망을 통해 웹 서버(미도시)와 통신을 수행하여, 각종 검색 키워드를 웹 서버(미도시)로 전송하여 그에 따른 웹 검색 결과를 수신할 수 있다. 여기서, 검색 키워드란, 날씨 관련 키워드(예를 들어, 지역명, 온도, 비가 내릴 확률 등), 컨텐츠 관련 키워드(예를 들어, 영화 제목, 영화 개봉일, 음악 제목, 가수 등) 등과 같이 웹 검색이 가능한 다양한 키워드를 포함할 수 있다. 이 같은 다양한 키워드는 저장부(160)에 기저장될 수 있다.
음성 인식부(120)는 통신부(110)를 통해 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식부(120)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 음성 인식부(120)를 통해 사용자의 발화 음성이 텍스트로 변환되면, 추출부(130)는 텍스트로 변환된 사용자의 발화 음성으로부터 발화 요소를 추출한다. 구체적으로, 추출부(130)는 저장부(160)에 기저장된 말뭉치 테이블에 기초하여 사용자의 발화 음성으로부터 변환된 텍스트로부터 발화 요소를 추출할 수 있다. 여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 키워드로써, 이 같은 발화 요소는 실행 명령(user action)을 나타내는 제1 발화 요소와 주요 특징(feature)을 나타내는 제2 발화 요소로 분류될 수 있다. 예를 들어, "액션 영화 보여줘!"라는 사용자의 발화 음성의 경우, 추출부(130)는 "보여줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.
이 같은 제1 및 제2 발화 요소가 추출되면, 도메인 결정부(140)는 저장부(160)에 기설정되어 저장된 계층적 도메인 모델에 기초하여 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출한다. 이후, 도메인 결정부(140)는 검출된 확장 도메인과 관련된 적어도 하나 이상의 후보 도메인을 최종 도메인으로 결정한다. 여기서, 저장부(160)에 기설정되어 저장된 계층적 도메인 모델은 발화 음성별로 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수가 매칭된 최하위 개념의 후보 도메인과, 각 후보 도메인의 상위 개념으로 설정된 가상의 확장 도메인이 계층적으로 이루어진 도메인 모델이다.
따라서, 도메인 결정부(140)는 이 같은 계층적 도메인 모델에 기초하여 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출할 수 있으며, 이 같은 확장 도메인이 검출되면, 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인을 최종 도메인으로 결정할 수 있다.
한편, 제어부(150)는 음성 인식 장치(100)의 각 구성에 대한 동작을 전반적으로 제어한다. 특히, 제어부(150)는 기추출된 제1 및 제2 발화 요소에 대한 정보 및 도메인 결정부(140)를 통해 결정된 최종 도메인에 대한 정보를 hdlqn장치(미도시)로 전송하도록 통신부(110)를 제어할 수 있다. 따라서, 외부 장치(미도시)는 기결정된 최종 도메인 내에서 사용자의 발화 음성과 관련된 응답 정보를 생성하여 음성 인식 장치(100)로 전송할 수 있으며, 제어부(150)는 통신부(110)를 통해 외부 장치(미도시)로부터 수신된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 제어부(150)는 도메인 결정부(140)를 결정된 최종 도메인 내에서 기추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.
한편, 저장부(160)에 기설정되어 저장된 계층적 도메인 모델은 도 3과 같이 계층적인 구조로 이루어질 수 있다.
도 3은 본 발명의 일 실시예에 따른 후보 도메인을 검출하기 위한 계층적 도메인 모델의 예시도이다.
도 3에 도시된 바와 같이, 후보 도메인을 검출하기 위한 계층적 도메인 모델은 각 도메인에서 처리 가능한 사용자 의도 및 도메인 간의 관계에 대해서 정형화된 계층 구조이다. 이 같은 계층적 도메인 모델은 최상위 계층, 중간 계층 및 최하위 계층과 같이, 트리 모양의 계층 구조로 이루어질 수 있다. 최상위 계층은 사용자의 발화 음성에 대한 응답 정보를 생성하는 영역인 후보 도메인과 관련하여 최상위의 개념으로 설정된 가상의 확장 도메인에 대한 주제 노드이며, 중간 계층은 최상위 개념의 하위 개념으로 설정된 가상의 확장 도메인에 대한 주제 노드이다. 그리고, 최하위 계층은 중간 개념의 하위 개념으로 설정된 후보 도메인에 대한 주제 노드이다.
예를 들어, 도 3에 도시된 바와 같이, 최하위 계층에 TV Program(10), VOD(20) 및 TV Device(30)라는 각각의 후보 도메인이 설정될 수 있다. 이 경우, 중간 계층에는 TV Program(10)과 TV Device(30) 각각의 후보 도메인의 중간 개념인 TV Channel(40)이라는 확장 도메인과 TV Program(10)과 VOD(20) 각각의 후보 도메인의 중간 개념인 Video Content(50)라는 확장 도메인이 설정될 수 있다. 또한, 최상위 계층에는 TV Channel(40)과 Video Content(50)라는 각각이 확장 도메인의 최상위 개념으로 Root(60)라는 확장 도메인이 설정될 수 있다.
즉, 계층적 도메인 모델의 최하위 계층에는 사용자의 발화 음성 각각에 대한 응답 정보를 생성하기 위한 영역을 결정하기 위한 후보 도메인이 설정되며, 중간 계층에는 최하위 개념으로 설정된 후보 도메인 중 적어도 두 개 이상의 후보 도메인을 포함하는 중간 개념의 확장 도메인이 설정될 수 있다. 그리고, 최상위 계층에는 최하위 개념으로 설정된 모든 후보 도메인을 포함하는 최상위 개념의 확장 도메인이 설정될 수 있다. 이 같은 각 계층별 설정된 각각의 도메인은 도 4와 같이 각 도메인을 결정하기 위한 주행 및 각 주행별 매개변수가 매칭되어 설정될 수 있다.
도 4는 본 발명의 일 실시예에 따른 계층적 도메인 모델에 포함되는 도메인에 설정된 주행 및 주행별 매개변수를 나타내는 예시도이며, 도 5는 본 발명의 일 실시예에 따른 계층적 도메인 모델에 포함된 전체 도메인에 설정된 주행 및 주행별 매개변수를 나타내는 예시도이다.
도 4에 도시된 바와 같이, 예를 들어, TV 프로그램(10)에 대한 도메인은 도 3에서 설명한 바와 같이, 최하위 계층 구조에 설정되는 후보 도메인이 될 수 있다. 이 같은 TV 프로그램(10)에 대한 후보 도메인은 대상을 나타내는 제2 발화 요소에 대응되는 매개변수(11)를 포함할 수 있다. 따라서, TV 프로그램(10)에 대한 후보 도메인은 실행 명령에 대한 제1 발화 요소에 대응되는 주행과 매개변수(11)가 서로 매칭된 실행 명령 스크립트(12)를 포함할 수 있다. 도시된 바와 같이, TV 프로그램(10)에 대한 후보 도메인을 "play_program(channel_name, channel_no, genre, time, title)", "search_program(channel_name, channel_no, genre, time, title)"와 같은 실행 명령 스크립트(12)를 포함할 수 있다. 따라서, 계층적 도메인 모델에 포함된 계층별 각각의 도메인은 도 5에 도시된 바와 같이, 상이한 주행 및 주행별 매개변수가 서로 조합되어 생성된 실행 명령 스크립트를 포함할 수 있다.
따라서, 도메인 결정부(140)는 이 같은 기설정된 계층적 도메인 모델에 기초하여 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 실행 명령 스크립트를 포함하는 적어도 하나 이상의 후보 도메인을 검출할 수 있다. 도 5를 참고하여 예를 들면, 추출부(130)는 "○○○(방송 프로그램명) 보여줘!"라는 발화 음성에 대한 텍스트로부터 "보여줘!"라는 제1 발화 요소와 "○○○(방송 프로그램명)"이라는 제2 발화 요소를 추출할 수 있다.
이 경우, 도메인 결정부(140)는 기설정된 계층적 도메인 모델에 기초하여 "보여줘!"라는 제1 발화 요소에 대응되는 주행 및 "○○○(방송 프로그램명)"이라는 제2 발화 요소에 대응되는 매개변수의 조합으로 생성된 실행 명령 스크립트가 확장 도메인에 있는지 여부를 판단한다. 전술한 예에서, "보여줘!"라는 제1 발화 요소에 대응되는 주행은 "play_program"이 될 수 있으며, "○○○(방송 프로그램명)"이라는 제2 발화 요소에 대응되는 매개변수는 "title"이 될 수 있다. 따라서, "○○○(방송 프로그램명) 보여줘!"에 대응되는 실행 명령 스크립트는 "play_program(title)"이 될 수 있다. 따라서, 도메인 결정부(140)는 이 같은 실행 명령 스크립트가 확장 도메인에 포함되어 있는지 여부를 판단한다. 판단 결과, "play_program(title)"에 대한 실행 명령 스크립트가 Video content(50)라는 중간 계층의 확장 도메인에 포함된 것으로 판단되면, 도메인 결정부(140)는 Video Content(50)라는 도메인을 확장 도메인으로 검출할 수 있다.
한편, 도메인 결정부(140)는 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인이 검출되지 않을 경우, 제1 및 제2 발화 요소와 관련된 후보 도메인을 검출할 수 있다.
예를 들어, 추출부(13)는 "지금 하는 액션 영화 찾아줘!"라는 발화 음성에 대한 텍스트로부터 "찾아줘!"라는 제1 발화 요소와 "지금"과 "액션 영화"라는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 도메인 결정부(140)는 기설정된 계층적 도메인 모델에 기초하여 "찾아줘"라는 제1 발화 요소에 대응되는 주행 및 "지금", "액션 영화"라는 각각의 제2 발화 요소에 대응도는 매개변수의 조합으로 생성된 실행 명령 스크립트가 확장 도메인에 있는지 여부를 판단한다. 전술한 예에서, "찾아줘!"라는 제1 발화 요소에 대응되는 주행은 "search_program"이 될 수 있으며, "지금", "액션 영화"라는 각각의 제2 발화 요소에 대응되는 매개변수는 "time" 및 "genre"가 될 수 있다. 따라서, "지금 하는 액션 영화 찾아줘!"에 대응되는 실행 명령 스크립트는 "search_program(time, genre)"가 될 수 있다.
따라서, 도메인 결정부(140)는 이 같은 실행 명령 스크립트가 확장 도메인에 포함되어 있는지 여부를 판단한다. 판단 결과, "search_program(time, genre)"에 대한 실행 명령 스크립트가 확장 도메인에 포함되어 있지 않은 것으로 판단되면, 도메인 결정부(140)는 최하위 계층에 속하는 복수의 후보 도메인에 포함된 실행 명령 스크립트를 참조하여 "search_program(time, genre)"를 포함하는 후보 도메인을 검출할 수 있다. "search_program(time, genre)"를 포함하는 후보 도메인이 TV Program(10)이면, 도메인 결정부(140)는 TV Program(10)이라는 도메인을 후보 도메인으로 검출할 수 있다.
이 같이, 후보 도메인이 검출되면, 도메인 결정부(140)는 이전 도메인에 기초하여 검출된 후보 도메인을 최종 도메인으로 결정할지 여부를 판단할 수 있다. 한편, 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응되는 주행 및 매개변수에 기초하여 확장 도메인을 검출할 경우, 도 6 및 도 7과 같이 계층적 도메인 모델에 속하는 계층별 도메인을 분류하여 확장 도메인을 검출할 수 있다.
도 6은 본 발명의 일 실시예에 따른 도메인 결정부에서 계층적 도메인 모델에 속하는 계층별 도메인을 분류하는 제1 예시도이다.
도 6에 도시된 바와 같이, 도메인 결정부(140)는 다중 분류기(141) 및 확장 도메인 해석부(142)를 포함할 수 있다. 다중 분류기(141)는 계층적 도메인 모델에 속하는 계층별로 사용자의 발화 음성을 인식하여 변환된 텍스트로부터 추출된 제1 및 제2 발화 요소와 관련된 적어도 하나 이상의 후보 도메인을 검출한다. 그리고, 확장 도메인 해석부(142)는 다중 분류기(141)로부터 검출된 후보 도메인의 상위 개념에 속하는 도메인을 확장 도메인으로 결정한다.
전술한 예와 같이, "액션 영화 찾아줘!"라는 사용자의 발화 음성으로부터 "찾아줘!"라는 제1 발화 요소와 "액션 영화"라는 제2 발화 요소가 추출되면, 다중 분류기(141)는 "찾아줘!"라는 제1 발화 요소에 대응하는 주행과 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트인 "search_program(genre)"를 포함하는 TV Program(10)과 VOD(20)라는 최하위 계층에 속하는 후보 도메인을 검출할 수 있다. 이 같이, TV Program(10)과 VOD(20)라는 후보 도메인이 검출되면, 확장 도메인 해석부(142)는 TV Program(10)과 VOD(20)라는 각각의 후보 도메인과 공통의 상위 개념을 가지는 혹장 도메인이 있는지 여부를 판단한다. 판단 결과, TV Program(10)과 VOD(20)라는 각각의 후보 도메인이 "Video Content(50)"라는 도메인과 공통의 상위 개념으로 계층이 이루어진 것으로 판단되면, 확장 도메인 해석부(142)는 "Video Content(50)"라는 도메인을 확장 도메인으로 결정할 수 있다.
도 7은 본 발명의 또다른 실시예에 따른 도메인 결정부에서 계층적 도메인 모델에 속하는 계층별 도메인을 분류하는 제2 예시도이다.
도 7에 도시된 바와 같이, 도메인 결정부(140)는 이진 분류기(143) 및 도메인 조합부(144)를 포함할 수 있다. 이진 분류기(143)는 계층적 도메인 모델에 속하는 최하위 계층과 대응하는 개수만큼 구성될 수 있다. 즉, 계층적 도메인 모델에 속하는 최하위 계층의 후보 도메인이 n개이면, 도메인 결정부(140)는 이진 분류기(143-1~143-n)를 포함할 수 있다. 따라서, 계층적 도메인 모델에 속하는 최하위 계층의 후보 도메인과 대응하는 이진 분류기(143-1~143-n)는 사용자의 발화 음성으로부터 추출된 제1 발화 요소 및 제2 발화 요소와 관련된 후보 도메인 및 해당 후보 도메인과 관련된 상위 계층의 도메인을 검출할 수 있다. 따라서, 도메인 조합부(144)는 각 이진 분류기(143-1~143-n)를 통해 검출된 도메인을 조합하여 후보 도메인을 결정할 수 있다.
예를 들어, "액션 영화 찾아줘!"라는 사용자의 발화 음성으로부터 "찾아줘!"라는 제1 발화 요소와 "액션 영화"라는 제2 발화 요소가 추출되면, TV Program(10), VOD(20) 및 TV Device(30)와 대응하는 이진 분류기(143-1~143-3) 중 "찾아줘!"라는 제1 발화 요소에 대응하는 주행 및 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 TV Program(10), VOD(20)라는 후보 도메인과 대응하는 이진 분류기(143-2)만이 계층별 도메인을 검출할 수 있다.
즉, 이진 분류기(143-1)는 "찾아줘!"라는 제1 발화 요소에 대응하는 주행 및 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 최하위 계층의 TV Program(10)에 대한 후보 도메인과 해당 후보 도메인과 상위 개념으로 계층이 이루어진 중간 계층의 TV Channel(40), Video Channel(50)에 대한 확장 도메인과 최상위 계층의 Root(60)에 대한 확장 도메인을 검출할 수 있다. 도메인을 검출할 수 있다. 그리고, 이진 분류기(143-2)는 "찾아줘!"라는 제1 발화 요소에 대응하는 주행 및 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 최하위 계층의 VOD(20)에 대한 후보 도메인과, 해당 후보 도메인과 상위 개념으로 계층이 이루어진 중간 계층의 Video Channel(50)에 대한확장 도메인 및 최상위 계층의 Root(60)에 대한 확장 도메인을 검출할 수 있다. 이 같이, 이진 분류기(143-1,2)를 통해 계층별 도메인이 검출되면, 도메인 조합부(144)는 검출된 도메인 중 중복되는 도메인을 확장 도메인으로 결정할 수 있다.
이와 같이, 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인이 검출되면, 도메인 결정부(140)는 이전에 결정된 도메인(이하 이전 도메인이라 함)에 기초하여 기검출된 확장 도메인과 관련된 하위 개념의 모든 후보 도메인을 검출하고, 그 검출된 모든 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정할 수 있다.
이와 함께, 도메인 결정부(140)는 추출부(130)로부터 추출된 사용자의 발화 음성에 대한 제1 및 제2 발화 요소와 기검출된 후보 도메인 중 적어도 하나로부터 사용자 의도를 파악할 수 있다. 예를 들어, "지금 하는 액션 영화 뭐 있니?"라는 사용자의 발화 음성으로부터 "지금"과 "액션 영화"라는 제2 발화 요소가 검출되면, 도메인 결정부(140)는 "지금"과 "액션 영화"라는 제2 발화 요소에 대응되는 매개변수로부터 사용자 의도를 파악할 수 있다.
이와 같이, 사용자 의도가 파악되면, 도메인 결정부(140)는 파악된 사용자 의도로부터 문맥 초기화 발생 여부를 판단한다. 판단 결과, 문맥 초기화가 발생되지 않은 것으로 판단되면, 도메인 결정부(140)는 이전 도메인에 기초하여 기검출된 복수의 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정할 수 있다.
구체적으로, 도메인 결정부(140)는 기검출된 복수의 후보 도메인 중 하나의 후보 도메인과 저장부(160)에 기저장된 이전 도메인이 서로 대응되면, 이전 도메인을 최종 도메인을 결정할 수 있다. 여기서, 이전 도메인은 사용자의 발화 음성이 수신되기 직전에 사용자의 이전 발화 음성으로부터 결정된 도메인이다. 이 같은 이전 도메인은 예를 들어, TV 프로그램이고, 현재 검출된 후보 도메인이 TV 프로그램 및 VOD가 될 수 있다. 이 경우, 도메인 결정부(140)는 현재 사용자의 발화 음성이 이전 발화 음성과 관련된 카테고리 내에서 진행되고 있음을 판단한다. 따라서, 도메인 결정부(140)는 후보 도메인을 최종 도메인으로 결정하지 않고, 이전 도메인인 TV 프로그램을 최종 도메인으로 유지할 수 있다.
그러나, 본 발명은 이에 한정되지 않으면, 도메인 결정부(140)는 기검출된 복수의 후보 도메인 중 이전 도메인과 대응하는 후보 도메인만을 최종 도메인으로 결정할 수 있다.
한편, 도메인 결정부(140)는 기검출된 복수의 후보 도메인과 이전 도메인이 서로 상이하거나 문맥 초기화가 발생한 것으로 판단되면, 기검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인 중 실행 명령을 나타내는 제1 발화 요소와 관련된 후보 도메인을 최종 도메인으로 결정한다. 구체적으로, 도메인 결정부(140)는 검출된 복수의 후보 도메인 중 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하는 후보 도메인을 최종 도메인을 결정한다. 이때, 검출된 복수의 후보 도메인에 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보가 모두 포함되어 있으면, 도메인 결정부(140)는 기검출된 모든 후보 도메인을 최종 도메인으로 결정할 수 있다.
예를 들어, 기검출된 확장 도메인이 Video Content에 대한 확장 도메인이면, Video Content에 대한 확장 도메인에 대한 후보 도메인은 TV 프로그램 및 VOD에 대한 도메인이 될 수 있다. 한편, 이전의 발화 음성에 기초하여 결정된 이전 도메인이 TV 프로그램 및 VOD에 대한 될 수 있다. 즉, 현재 검출된 후보 도메인과 이전 도메인이 모두 대응될 경우, 도메인 결정부(140)는 이전 도메인인 TV 프로그램 및 VOD에 대한 도메인을 최종 도메인으로 결정할 수 있다. 한편, 후보 도메인이 TV 프로그램 및 VOD에 대한 도메인이고, 이전 도메인이 VOD에 대한 도메인이면, 도메인 결정부(140)는 이전 도메인인 VOD 도메인을 최종 도메인으로 결정할 수 있다.
한편, 후보 도메인이 TV 프로그램 및 VOD에 대한 도메인이고, 이전 도메인이 TV 장치에 대한 도메인이 될 수 있다. 즉, 검출된 후보 도메인과 이전 도메인이 서로 상이할 경우, 도메인 결정부(140)는 도메인 전환이 발생된 것으로 판단한다. 따라서, 도메인 결정부(140)는 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소 중 실행 명령을 나타내는 제1 발화 요소에 대응되는 주행 정보를 포함하는 후보 도메인을 최종 도메인으로 결정할 수 있다.
예를 들어, 검출된 후보 도메인이 TV 프로그램 및 VOD 관련 도메인이고, 사용자의 발화 음성으로부터 추출된 제1 발화 요소에 대응되는 주행 정보가 컨텐츠를 검색하는 search_program인 경우, 도메인 결정부(140)는 검출된 후보 도메인이 주행 정보를 포함하는지 여부를 판단한다. 판단 결과, TV 프로그램 및 VOD에 대한 후보 도메인에 "search_program"이라는 주행 정보를 포함할 경우, 도메인 결정부(140)는 기검출된 모든 후보 도메인 즉, TV 프로그램 및 VOD 관련 도메인을 최종 도메인으로 결정할 수 있다.
뿐만 아니라, 도메인 결정부(140)는 기검출된 복수의 후보 도메인이 사용자의 발화 음성으로부터 추출된 제1 발화 요소에 대응되는 주행 정보를 포함하고 있으면, 검출된 복수의 후보 도메인 중 사용자로부터 선택된 후보 도메인을 최종 도메인으로 결정하거나 또는 복수의 후보 도메인 중 하나의 후보 도메인을 임의로 선택하여 최종 도메인으로 결정할 수 있다.
예를 들어, 기검출된 후보 도메인이 TV 프로그램과 VOD 관련 도메인이며, 사용자의 발화 음성으로부터 추출된 제1 발화 요소에 대응되는 주행 정보가 특정 컨텐츠를 "play_program"일 수 있다. 이 경우, TV 프로그램과 VOD 관련 도메인 모두 최종 도메인으로 선택되면, 사용자의 발화 음성과 관련하여 상이한 응답 정보가 생성될 수 있다. 즉, TV 프로그램에 대한 후보 도메인 내에서 사용자의 발화 음성과 관련되어 생성된 응답 정보와 VOD에 대한 후보 도메인 내에서 사용자의 발화 음성과 관련되어 생성된 응답 정보는 상이할 수 있다. 따라서, 도메인 결정부(140)는 TV 프로그램 및 VOD 중 사용자로부터 선택된 하나를 최종 도메인으로 결정할 수 있다.
한편, 이전 도메인이 복수 개이며, 복수 개의 이전 도메인 중 하나의 이전 도메인과 기검출된 복수의 후보 도메인 중 하나의 후보 도메인이 서로 대응될 수 있다. 이 경우, 도메인 결정부(140)는 이전 도메인과 대응하는 후보 도메인이 제1 발화 요소에 대응하는 주행 정보를 포함하는지 여부를 판단한다. 판단 결과, 이전 도메인과 대응하는 후보 도메인이 제1 발화 요소에 대응하는 주행 정보를 포함하는 것으로 판단되면, 도메인 결정부(140)는 이전 도메인과 대응하는 후보 도메인을 최종 도메인으로 결정할 수 있다.
이와 같은 조건에 따라 기검출된 복수의 후보 도메인 중 적어도 하나의 후보 도메인이 최종 도메인으로 결정되면, 제어부(150)는 통신부(110)를 통해 외부 장치(미도시)로 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대한 정보 및 기결정된 최종 도메인에 대한 정보를 전송할 수 있다. 따라서, 외부 장치(미도시)는 기결정된 최종 도메인 내에서 사용자의 발화 음성과 관련된 응답 정보를 생성하여 음성 인식 장치(100)로 전송한다. 이에 따라, 제어부(150)는 통신부(110)를 통해 외부 장치(미도시)로부터 수신된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 제어부(150)는 도메인 결정부(140)를 통해 최종 도메인으로 결정되면, 그 결정된 최종 도메인 내에서 기추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하고, 통신부(110)를 통해 디스플레이 장치(200)로 전송할 수 있다.
여기서, 응답 정보는 사용자의 발화 음성에 대응되는 응답 메시지 정보를 포함한다. 따라서, 제어부(150)는 디스플레이 장치(200)에서 출력되는 텍스트 형태의 응답 메시지 정보를 포함하는 응답 정보를 외부 장치(미도시)로부터 수신하거나 내부적으로 생성할 수 있다. 이 같은 응답 정보가 외부 장치(미도시)로부터 수신되거나 내부적으로 생성되면, 제어부(150)는 통신부(110)를 통해 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신된 응답 정보에 포함된 응답 메시지 정보를 텍스트 형태로 화면상에 출력하거나 스피커를 통해 오디오로 출력할 수 있다.
지금까지, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템의 음성 인식 장치(100)에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 대해서 상세히 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 대화형 시스템의 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.
도 8에 도시된 바와 같이, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수집된 사용자의 발화 음성 신호(이하 발화 음성이라 함)를 수신한다. 디스플레이 장치(200)부터 사용자의 발화 음성이 수신되면, 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다(S810). 실시예에 따라, 음성 인식 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 사용자의 발화 음성이 텍스트로 변환되면, 음성 인식 장치(100)는 텍스트로 변환된 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소를 추출한다(S820). 예를 들어, "액션 영화 찾아줘!"라는 사용자의 발화 음성의 경우, 음성 인식 장치(100)는 "찾아줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.
이후, 음성 인식 장치(100)는 기설정되어 저장된 계층적 도메인 모델에 기초하여 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출한다(S830). 여기서, 계층적 도메인 모델은 발화 음성 별 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수가 매칭된 최하위 개념의 후보 도메인과, 각 후보 도메인의 상위 개념으로 설정된 가상의 확장 도메인이 계층적으로 이루어진 도메인 모델이다.
이 같은 계층적 도메인 모델은 최상위 계층, 중간 계층 및 최하위 계층과 같이, 트리 모양의 계층 구조로 이루어질 수 있다. 최상위 계층은 사용자의 발화 음성에 대한 응답 정보를 생성하는 영역인 후보 도메인과 관련하여 최상위의 개념으로 설정된 가상의 확장 도메인에 대한 주제 노드이며, 중간 계층은 최상위 개념의 하위 개념으로 설정된 주제 노드이다. 그리고, 최하위 계층은 중간 개념의 하위 개념으로 설정된 후보 도메인에 대한 주제 노드이다. 즉, 계층적 도메인 모델의 최하위 계층에 속하는 후보 도메인은 기본 키워드에 대한 최하위 개념의 후보 도메인이 설정되며, 중간 계층에 속하는 가상의 확장 도메인은 최하위 개념으로 설정된 복수의 후보 도메인 중 적어도 두 개 이상의 후보 도메인을 포함하는 중간 개념의 도메인이 설정될 수 있다. 그리고, 최상위 계층에 속하는 가상의 확장 도메인은 최하위 개념으로 설정된 모든 후보 도메인을 포함하는 최상위 개념의 도메인이 설정될 수 있다.
이 같은 각 계층별 설정된 각각의 도메인은 도 4에서 설명한 바와 같이, 각 도메인을 결정하기 위한 주행 및 주행별 매개변수가 매칭되어 설정될 수 있다. 즉, 계층별 설정된 도메인 각각은 실행 명령을 나타내는 제1 발화 요소에 대응되는 주행 및 대상을 나타내는 제2 발화 요소에 대응되는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함할 수 있다. 도 4와 같이, 최하위 계층에 속하는 TV 프로그램(10)에 대한 후보 도메인은 "paly_program(channel_name, channel_no, genre, time, title)", "search_program(channel_name, channel_no, genre, title)"와 같은 실행 명령 스크립트(12)를 포함할 수 있다. 따라서, 계층적 도메인 모델에 포함된 계층별 각각의 도메인은 도 5에 도시된 바와 같이, 상이한 주행 및 주행별 매개변수가 서로 조합되어 생성된 실행 명령 스크립트를 포함할 수 있다.
따라서, 음성 인식 장치(100)는 기설정된 계층적 도메인 모델에 기초하여 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 적어도 하나의 후보 도메인을 검출하고, 그 검출된 후보 도메인으로부터 해당 후보 도메인의 상위 개념에 속하는 확장 도메인을 검출할 수 있다.
일 실시에에 따라, 음성 인식 장치(100)는 다중 분류기를 이용하여 계층적 도메인 모델에 속하는 계층별로 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소와 관련된 적어도 하나 이상의 후보 도메인을 검출한다. 이 같은 적어도 하나 이상의 후보 도메인이 검출되면, 음성 인식 장치(100)는 검출된 후보 도메인의 상위 개념에 속하는 도메인을 확장 도메인으로 결정한다. 예를 들어, 액션 영화 찾아줘!"라는 사용자의 발화 음성으로부터 "찾아줘!"라는 제1 발화 요소에 대응하는 주행과 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트인 "search_program(genre)"를 포함하는 TV Program(10)과 VOD(20)라는 후보 도메인을 검출할 수 있다. 이 같이, TV Program(10)과 VOD(20)f라는 후보 도메인이 각각 검출되면, 음성 인식 장치(100)는 검출된 각각이 후보 도메인과 공통의 상위 개념을 가지는 확장 도메인이 있는지 여부를 판단한다. 판단 결과, TV Program(10)과 VOD(20)라는 각각의 후보 도메인이 "Video Content(50)"라는 도메인과 공통의 상위 개념으로 계층이 이루어진 것으로 판단되면, 음성 인식 장치(100)는 "Video Content(50)"라는 도메인을 확장 도메인으로 결정할 수 있다.
또다른 일 실시예에 따라, 음성 인식 장치(100)는 적어도 하나 이상의 이진 분류기를 이용하여 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인 및 확장 도메인 중 적어도 하나의 도메인을 검출할 수 있다. 여기서, 이진 분류기는 계층적 도메인 모델에 속하는 최하위 계층과 대응하는 개수만큼 구성될 수 있다. 즉, 계층적 도메인 모델에 속하는 최하위 계층의 후보 도메인이 n개이면, 음성 인식 장치(100)는 n개의 이진 분류기를 이용하여 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소와 관련된 후보 도메인과 해당 후보 도메인과 관련된 상위 계층의 확장 도메인을 검출할 수 있다. 이후, 음성 인식 장치(100)는 각 이진 분류기를 통해 검출된 도메인을 조합하여 후보 도메인을 결정할 수 있다. 예를 들어, "액션 영화 찾아줘!"라는 사용자의 발화 음성으로부터 "찾아줘!"라는 제1 발화 요소와 "액션 영화"라는 제2 발화 요소가 추출되면, TV Program, VOD 및 TV Device와 대응하는 각각의 이진 분류기 중 "찾아줘!"라는 제1 발화 요소에 대응하는 주행 및 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 TV Program, VOD라는 후보 도메인과 대응하는 이진 분류기만이 계층별 도메인을 검출할 수 있다.
즉, 음성 인식 장치(100)는 TV Program이라는 후보 도메인에 대응하는 이진 분류기를 통해 "찾아줘!"라는 제1 발화 요소에 대응하는 주행 및 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 최하위 계층의 TV Program에 대한 후보 도메인과 해당 후보 도메인과 상위 개념으로 계층이 이루어진 중간 계층의 TV Channel, Video Channel에 대한 확장 도메인과 최상위 계층의 Root에 대한 확장 도메인을 검출할 수 있다. 그리고, 음성 ㅇ인식 장치(100)는 VOD라는 후보 도메인에 대응하는 이진 분류기를 통해 "찾아줘!"라는 제1 발화 요소에 대응하는 주행 및 "액션 영화"라는 제2 발화 요소에 대응하는 매개변수의 조합으로 생성된 실행 명령 스크립트를 포함하는 최하위 계층의 VOD에 대한 후보 도메인과, 해당 후보 도메인과 상위 개념으로 계층이 이루어진 중간 계층의 Video Channel에 대한 확장 도메인과 최상위 계층의 Root에 대한 확장 도메인을 검출할 수 있다. 이 같이, TV Program 및 VOD라는 후보 도메인 각각에 대응하는 이진 분류기를 통해 계층별 도메인이 검출되면, 음성 인식 장치(100)는 검출된 도메인 중 중복되는 도메인을 확장 도메인으로 결정할 수 있다.
이와 같이, 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인이 검출되면, 음성 인식 장치(100)는 이전에 결정된 도메인(이하 이전 도메인이라 함)에 기초하여 기검출된 후보 도메인과 관련된 하위 개념의 모든 후보 도메인을 검출하고, 그 검출된 모든 후보 도메인 중 적어도 하나를 최종 도메인으로 결정할 수 있다(S840,S850). 이후, 음성 인식 장치(100)는 결정된 최종 도메인에 대한 정보 및 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대한 정보를 외부 장치(미도시)로 전송한다(S850). 이에 따라, 외부 장치(미도시)는 기결정된 최종 도메인 내에서 사용자의 발화 음성과 관련된 응답 정보를 생성하여 음성 인식 장치(100)로 전송할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 음성 인식 장치(100)는 기결정된 최종 도메인 내에서 기추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성할 수 있다. 여기서, 응답 정보는 사용자의 발화 음성에 대응되는 응답 메시지 정보를 포함한다. 따라서, 이 같은 응답 정보가 외부 장치(미도시)로부터 수신되거나 혹은 내부적으로 생성되면, 음성 인식 장치(100)는 해당 응답 정보를 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신된 응답 정보에 포함된 응답 메시지 정보를 텍스트 형태로 화면상에 출력하거나 스피커를 통해 오디오로 출력할 수 있다.
이하에서는, 전술한 음성 인식 장치(100)에서 복수의 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 방법에 대해서 상세히 설명하도록 한다.
도 9는 본 발명의 일 실시예에 따른 음성 인식 장치에서 검출된 후보 도메인 중 하나를 최종 도메인으로 결정하는 방법의 흐름도이다.
도 9에 도시된 바와 같이, 음성 인식 장치(100)는 단계 S820에서 추출된 제1 및 제2 발화 요소와 기검출된 후보 도메인 중 적어도 하나의 후보 도메인으로부터 사용자 의도를 파악한다. 전술한 예와 같이, "지금 하는 액션 영화 뭐 있니?"라는 사용자의 발화 음성으로부터 "지금"과 "액션 영화"라는 제2 발화 요소가 검출되면, 음성 인식 장치(100)는 검출된 "지금"과 "액션 영화"라는 매개변수로부터 사용자 의도를 파악할 수 있다.
이 같은 사용자 의도가 파악되면, 음성 인식 장치(100)는 파악된 사용자 의도로부터 문맥 초기화 발생 여부를 판단한다(S910). 판단 결과, 문맥 초기화가 발생되지 않은 것으로 판단되면, 음성 인식 장치(100)는 이전 도메인에 기초하여 기검출된 복수의 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정한다. 구체적으로, 음성 인식 장치(100)는 기검출된 복수의 후보 도메인 중 하나의 후보 도메인이 기저장된 이전 도메인과 서로 대응되면, 이전 도메인을 최종 도메인으로 유지한다(S920,S930). 여기서, 이전 도메인은 사용자의 발화 음성이 수신되기 직전에 사용자의 이전 발화 음성으로부터 결정된 도메인이다. 이 같은 이전 도메인이 예를 들어, TV 프로그램이고, 현재 검출된 후보 도메인이 TV 프로그램 및 VOD이면, 음성 인식 장치(100)는 현재 사용자의 발화 음성이 이전 발화 음성과 관련된 카테고리 내에서 진행되고 있음을 판단한다. 따라서, 음성 인식 장치(100)는 기검출된 복수의 후보 도메인을 최종 도메인으로 결정하지 않고, 이전 도메인인 TV 프로그램을 최종 도메인으로 유지할 수 있다.
한편, 음성 인식 장치(100)는 기검출된 복수의 후보 도메인과 이전 도메인이 모두 대응되지 않거나, 혹은 기검출된 후보 도메인이 이전 도메인에 대한 변경 즉, 문맥 초기화와 관련된 것으로 판단되면, 실행 명령을 나타내는 제1 발화 요소와 대응되는 주행 정보를 획득한다.(S940). 이후, 음성 인식 장치(100)는 기검출된 복수의 후보 도메인 내에 제1 발화 요소에 대응되는 주행 정보를 포함하는지 여부를 판단한다(S950). 판단 결과, 복수의 후보 도메인 중 적어도 하나의 후보 도메인에 제1 발화 요소에 대응되는 주행 정보를 포함하는 것으로 판단되면, 음성 인식 장치(100)는 제1 발화 요소에 대응되는 주행 정보를 포함하는 후보 도메인을 최종 도메인으로 결정한다(S960).
한편, 이전 도메인이 복수 개이며, 복수 개의 이전 도메인 중 하나의 이전 도메인과 기검출된 복수의 후보 도메인 중 하나의 후보 도메인이 서로 대응될 수 있다. 이 경우, 음성 인식 장치(100)는 이전 도메인과 대응하는 후보 도메인이 제1 발화 요소에 대응하는 주행 정보를 포함하는지 여부를 판단한다. 판단 결과, 이전 도메인과 대응하는 후보 도메인이 제1 발화 요소에 대응하는 주행 정보를 포함하는 것으로 판단되면, 음성 인식 장치(100)는 이전 도메인과 대응하는 후보 도메인을 최종 도메인으로 결정할 수 있다.
예를 들어, 검출된 후보 도메인이 TV 프로그램 및 VOD에 대한 도메인이고, 사용자의 발화 음성으로부터 추출된 제1 발화 요소에 대응되는 주행 정보가 컨텐츠를 검색하는 "search_program"인 경우, 음성 인식 장치(100)는 검출된 후보 도메인이 "search_program"이라는 주행 정보를 포함하는지 여부를 판단한다. 판단 결과, TV 프로그램 및 VOD에 대한 후보 도메인에 "search_program"이라는 주행 정보를 포함할 경우, 음성 인식 장치(100)는 TV 프로그램 및 VOD에 대한 후보 도메인을 최종 도메인으로 결정할 수 있다.
한편, 판단 결과, 기검출된 복수의 후보 도메인이 주행 정보에 의해 모두 이용이 불가능한 것으로 판단되면, 음성 인식 장치(100)는 검출된 복수의 후보 도메인 중 사용자로부터 선택된 후보 도메인을 최종 도메인으로 결정하거나 또는 복수의 후보 도메인 중 하나의 후보 도메인을 임의로 선택하여 최종 도메인으로 결정할 수 있다.
예를 들어, 기검출된 후보 도메인이 TV 프로그램과 VOD 관련 도메인이며, 사용자의 발화 음성으로부터 추출된 제1 발화 요소에 대응되는 주행 정보가 특정 컨텐츠를 재생하는 "play_program"일 수 있다. 이 경우, TV 프로그램과 VOD에 대한 후보 도메인이 최종 도메인으로 선택되면, 사용자의 발화 음성과 관련하여 상이한 응답 정보가 생성될 수 있다. 따라서, 음성 인식 장치(100)는 TV 프로그램과 VOD에 대한 후보 도메인 중 사용자로부터 선택된 하나의 후보 도메인을 최종 도메인을 결정할 수 있다.
이와 같이, 기검출된 복수의 후보 도메인 중 적어도 하나의 후보 도메인이 최종 도메인으로 결정되면, 음성 인식 장치(100)는 결정된 최종 도메인 내에서 사용자의 발화 음성에 대한 응답 정보를 생성하여 출력할 수 있다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신된 응답 정보를 화면상에 디스플레이하거나 또는 스피커를 통해 출력함으로써, 사용자는 자신의 발화 음성에 대한 응답 메시지를 확인할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하는 방법은 프로그램 코드로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 각 서버 또는 기기들에 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 음성 인식 장치 110 : 통신부
120 : 음성 인식부 130 : 추출부
140 : 도메인 결정부 141 : 다중 분류기
142 : 확장 도메인 해석부 143 : 이진 분류기
144 : 도메인 조합부 150 : 제어부
160 : 저장부 200 : 디스플레이 장치

Claims (20)

  1. 사용자의 발화 음성 신호로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소를 추출하는 추출부;
    기설정된 계층적 도메인 모델에 기초하여 상기 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출하고, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 도메인 결정부;
    외부 장치와 통신을 수행하는 통신부; 및
    상기 제1 및 제2 발화 요소에 대한 정보 및 상기 결정된 최종 도메인에 대한 정보를 전송하도록 상기 통신부를 제어하는 제어부;
    를 포함하는 대화형 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 계층적 도메인 모델은,
    제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수가 매칭된 최하위 개념의 후보 도메인과 상기 후보 도메인의 상위 개념으로 설정된 가상의 확장 도메인이 계층적으로 이루어진 것을 특징으로 하는 대화형 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 도메인 결정부는,
    다중 분류기를 이용하여 상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 확장 도메인이 검출되면, 상기 검출된 확장 도메인과 관련된 하위의 후보 도메인을 검출하고,
    상기 확장 도메인이 검출되지 않으면, 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인을 검출하는 것을 특징으로 하는 대화형 음성 인식 장치.
  4. 제 2 항에 있어서,
    상기 도메인 결정부는,
    적어도 하나 이상의 이진 분류기를 이용하여 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인 및 확장 도메인 중 적어도 하나의 도메인을 검출하는 것을 특징으로 하는 대화형 음성 인식 장치.
  5. 제 3 항에 있어서,
    상기 도메인 결정부는,
    상기 추출된 제1 및 제2 발화 요소와 상기 검출된 후보 도메인 중 적어도 하나로부터 사용자 의도를 파악하여 문맥 초기화 발생 여부를 판단하고, 상기 판단 결과, 문맥 초기화가 발생되지 않은 것으로 판단되면, 상기 이전 도메인에 기초하여 상기 검출된 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 대화형 음성 인식 장치.
  6. 제 5 항에 있어서,
    상기 도메인 결정부는,
    상기 검출된 후보 도메인 중 하나의 후보 도메인과 상기 이전 도메인이 서로 대응되면, 상기 이전 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 대화형 음성 인식 장치.
  7. 제 6 항에 있어서,
    상기 도메인 결정부는,
    상기 검출된 후보 도메인과 상기 이전 도메인이 서로 상이하거나 상기 문맥 초기화가 발생한 것으로 판단되면, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인 중 상기 실행 명령을 나타내는 제1 발화 요소와 관련된 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 대화형 음성 인식 장치.
  8. 제 7 항에 있어서,
    상기 도메인 결정부는,
    상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 모든 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 대화형 음성 인식 장치.
  9. 제 8 항에 있어서,
    상기 도메인 결정부는,
    상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 사용자로부터 선택된 후보 도메인을 최종 도메인으로 결정하거나 또는 상기 검출된 후보 도메인 중 하나의 후보 도메인을 임의로 선택하여 최종 도메인으로 결정하는 것을 특징으로 하는 대화형 음성 인식 장치.
  10. 제 7 항에 있어서,
    상기 도메인 결정부는,
    상기 이전 도메인이 복수개이며, 상기 복수개의 이전 도메인 중 하나와 상기 후보 도메인 중 하나가 서로 대응되고, 상기 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 후보 도메인 중 상기 이전 도메인과 대응되는 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 대화형 음성 인식 장치.
  11. 대화형 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 있어서,
    사용자의 발화 음성 신호로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소를 추출하는 단계;
    기설정된 계층적 도메인 모델에 기초하여 상기 추출된 제1 및 제2 발화 요소와 관련된 확장 도메인을 검출하는 단계;
    상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 단계; 및
    상기 제1 및 제2 발화 요소에 대한 정보와 상기 결정된 최종 도메인에 대한 정보를 외부 장치로 전송하는 단계;
    를 포함하는 응답 정보 제공 방법.
  12. 제 11 항에 있어서,
    상기 계층적 도메인 모델은,
    제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수가 매칭된 최하위 개념의 후보 도메인과, 상기 후보 도메인의 상위 개념으로 설정된 가상의 확장 도메인이 계층적으로 이루어진 것을 특징으로 하는 응답 정보 제공 방법.
  13. 제 12 항에 있어서,
    상기 확장 도메인을 검출하는 단계는,
    다중 분류기를 이용하여 상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 확장 도메인이 검출되면, 상기 검출된 확장 도메인과 관련된 하위의 후보 도메인을 검출하고,
    상기 확장 도메인이 검출되지 않으면, 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인을 검출하는 것을 특징으로 하는 응답 정보 제공 방법.
  14. 제 12 항에 있어서,
    상기 확장 도메인을 검출하는 단계는,
    적어도 하나 이상의 이진 분류기를 이용하여 상기 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수가 매칭된 후보 도메인 및 확장 도메인 중 적어도 하나의 도메인을 검출하는 것을 특징으로 하는 응답 정보 제공 방법.
  15. 제 13 항에 있어서,
    상기 최종 도메인으로 결정하는 단계는,
    상기 추출된 제1 및 제2 발화 요소와 상기 검출된 후보 도메인 중 적어도 하나로부터 사용자 의도를 파악하여, 문맥 초기화 발행 여부를 판단하고, 상기 판단 결과, 문맥 초기화가 발생되지 않은 것으로 판단되면, 상기 이전 도메인에 기초하여 상기 검출된 후보 도메인 중 적어도 하나의 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 응답 정보 제공 방법.
  16. 제 15 항에 있어서,
    상기 최종 도메인으로 결정하는 단계는,
    상기 검출된 후보 도메인 중 하나의 후보 도메인과 상기 이전 도메인이 서로 대응되면, 상기 이전 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 응답 정보 제공 방법.
  17. 제 16 항에 있어서,
    상기 최종 도메인으로 결정하는 단계는,
    상기 검출된 후보 도메인과 상기 이전 도메인이 서로 상이하거나 상기 문맥 초기화가 발생한 것으로 판단되면, 상기 검출된 확장 도메인과 관련된 적어도 하나의 후보 도메인 중 상기 실행 명령을 나타내는 제1 발화 요소와 관련된 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 응답 정보 제공 방법.
  18. 제 17 항에 있어서,
    상기 최종 도메인으로 결정하는 단계는,
    상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 모든 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 응답 정보 제공 방법.
  19. 제 18 항에 있어서,
    상기 최종 도메인으로 결정하는 단계는,
    상기 검출된 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 사용자로부터 선택된 후보 도메인을 최종 도메인으로 결정하나 또는 상기 검출된 후보 도메인 중 하나의 후보 도메인을 임의로 선택하여 최종 도메인으로 결정하는 것을 특징으로 하는 응답 정보 제공 방법.
  20. 제 17 항에 있어서,
    상기 최종 도메인을 결정하는 단계는,
    상기 이전 도메인이 복수개이며, 상기 복수개의 이전 도메인 중 하나와 상기 후보 도메인 중 하나가 서로 대응되고, 상기 후보 도메인이 상기 실행 명령을 나타내는 제1 발화 요소에 대응하는 주행 정보를 포함하고 있으면, 상기 검출된 후보 도메인 중 상기 이전 도메인과 대응되는 후보 도메인을 최종 도메인으로 결정하는 것을 특징으로 하는 응답 정보 제공 방법.
KR1020130011292A 2013-01-31 2013-01-31 음성 인식 장치 및 응답 정보 제공 방법 KR102072826B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020130011292A KR102072826B1 (ko) 2013-01-31 2013-01-31 음성 인식 장치 및 응답 정보 제공 방법
EP14151593.2A EP2763135A1 (en) 2013-01-31 2014-01-17 Voice recognition apparatus and method for providing response information
CN201410041514.1A CN103974109B (zh) 2013-01-31 2014-01-28 语音识别设备和用于提供响应信息的方法
US14/169,177 US9865252B2 (en) 2013-01-31 2014-01-31 Voice recognition apparatus and method for providing response information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130011292A KR102072826B1 (ko) 2013-01-31 2013-01-31 음성 인식 장치 및 응답 정보 제공 방법

Publications (2)

Publication Number Publication Date
KR20140098525A true KR20140098525A (ko) 2014-08-08
KR102072826B1 KR102072826B1 (ko) 2020-02-03

Family

ID=49943273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130011292A KR102072826B1 (ko) 2013-01-31 2013-01-31 음성 인식 장치 및 응답 정보 제공 방법

Country Status (4)

Country Link
US (1) US9865252B2 (ko)
EP (1) EP2763135A1 (ko)
KR (1) KR102072826B1 (ko)
CN (1) CN103974109B (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180068850A (ko) * 2016-12-14 2018-06-22 삼성전자주식회사 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20180096483A (ko) * 2017-02-21 2018-08-29 삼성전자주식회사 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
WO2018155810A1 (ko) * 2017-02-21 2018-08-30 삼성전자 주식회사 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
WO2019190073A1 (en) * 2018-03-29 2019-10-03 Samsung Electronics Co., Ltd. Electronic device and control method thereof
KR20190120353A (ko) * 2017-06-29 2019-10-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법, 디바이스, 장치, 및 저장 매체
US10521723B2 (en) 2016-12-14 2019-12-31 Samsung Electronics Co., Ltd. Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
WO2020138662A1 (ko) * 2018-12-28 2020-07-02 삼성전자주식회사 전자 장치 및 그의 제어 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953648B2 (en) * 2015-05-11 2018-04-24 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
EP3488354B1 (en) 2017-10-12 2022-04-20 Google LLC Determining state of automated assistant dialog
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US11200885B1 (en) * 2018-12-13 2021-12-14 Amazon Technologies, Inc. Goal-oriented dialog system
CN109769213B (zh) * 2019-01-25 2022-01-14 努比亚技术有限公司 用户行为轨迹记录的方法、移动终端及计算机存储介质
US11508372B1 (en) * 2020-06-18 2022-11-22 Amazon Technologies, Inc. Natural language input routing
EP4181120A4 (en) * 2020-11-25 2024-01-10 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE FOR GENERATING A RESPONSE TO A USER INPUTION AND OPERATING METHOD THEREFOR

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020173960A1 (en) * 2001-01-12 2002-11-21 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
KR20070102267A (ko) * 2006-04-14 2007-10-18 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
AU2001271891A1 (en) * 2000-07-07 2002-01-21 Criticalpoint Software Corporation Methods and system for generating and searching ontology databases
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
JP2005148151A (ja) * 2003-11-11 2005-06-09 Mitsubishi Electric Corp 音声操作装置
EP1615124A1 (en) * 2004-07-07 2006-01-11 Alcatel Alsthom Compagnie Generale D'electricite A method for handling a multi-modal dialog
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101599062B (zh) * 2008-06-06 2011-06-15 佛山市顺德区顺达电脑厂有限公司 检索方法及***
US8566097B2 (en) * 2009-06-02 2013-10-22 Honda Motor Co., Ltd. Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
US8527269B1 (en) * 2009-12-15 2013-09-03 Project Rover, Inc. Conversational lexicon analyzer
CN102255780A (zh) * 2010-05-20 2011-11-23 株式会社曙飞电子 家庭网络***及其控制方法
CN102075797A (zh) * 2010-12-29 2011-05-25 深圳市同洲电子股份有限公司 一种语音浏览频道或节目的方法及数字电视接收终端
CN102572569B (zh) * 2012-02-24 2015-05-06 北京原力创新科技有限公司 机顶盒、互联网电视及智能控制信号的处理方法
CN102611860B (zh) * 2012-03-01 2014-10-01 深圳创维-Rgb电子有限公司 利用语音选台的方法及装置
US8892419B2 (en) * 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
US8346563B1 (en) * 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
CN102833610B (zh) * 2012-09-24 2015-05-13 北京多看科技有限公司 一种节目选择的方法、装置及数字电视终端
CN102881288A (zh) * 2012-10-12 2013-01-16 长春指南针科技有限公司 一种具有照相、录像功能的电子设备
KR101709187B1 (ko) * 2012-11-14 2017-02-23 한국전자통신연구원 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
US20140350933A1 (en) * 2013-05-24 2014-11-27 Samsung Electronics Co., Ltd. Voice recognition apparatus and control method thereof
US10176167B2 (en) * 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020173960A1 (en) * 2001-01-12 2002-11-21 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
KR20070102267A (ko) * 2006-04-14 2007-10-18 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Christel Kemke, ‘Action representation for natural language interfaces to agent systems’, 2006 International Conference on Hybrid Information Technology(ICHIT’06), 2006.* *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180068850A (ko) * 2016-12-14 2018-06-22 삼성전자주식회사 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10521723B2 (en) 2016-12-14 2019-12-31 Samsung Electronics Co., Ltd. Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
KR20180096483A (ko) * 2017-02-21 2018-08-29 삼성전자주식회사 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
WO2018155810A1 (ko) * 2017-02-21 2018-08-30 삼성전자 주식회사 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
KR20190120353A (ko) * 2017-06-29 2019-10-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법, 디바이스, 장치, 및 저장 매체
WO2019190073A1 (en) * 2018-03-29 2019-10-03 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US11145303B2 (en) 2018-03-29 2021-10-12 Samsung Electronics Co., Ltd. Electronic device for speech recognition and control method thereof
WO2020138662A1 (ko) * 2018-12-28 2020-07-02 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Also Published As

Publication number Publication date
CN103974109A (zh) 2014-08-06
KR102072826B1 (ko) 2020-02-03
US20140214425A1 (en) 2014-07-31
CN103974109B (zh) 2019-04-05
EP2763135A1 (en) 2014-08-06
US9865252B2 (en) 2018-01-09

Similar Documents

Publication Publication Date Title
KR20140098525A (ko) 음성 인식 장치 및 응답 정보 제공 방법
US20240096345A1 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
US10922990B2 (en) Display apparatus and method for question and answer
US20140350933A1 (en) Voice recognition apparatus and control method thereof
CN108063969B (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
KR102215579B1 (ko) 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US9412368B2 (en) Display apparatus, interactive system, and response information providing method
KR102211595B1 (ko) 음성 인식 장치 및 그 제어 방법
US9230559B2 (en) Server and method of controlling the same
KR102030114B1 (ko) 서버 및 그의 제어 방법
JP2018513431A (ja) クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること
JP2014132465A (ja) ディスプレイ装置及びその制御方法
JP2014132756A (ja) ディスプレイ装置及びその制御方法
JP2019133165A (ja) 対話型サーバ、ディスプレイ装置及びその制御方法
JP2014132464A (ja) 対話型インターフェース装置及びその制御方法
KR102210933B1 (ko) 음성 신호에 따라 컨텐츠 정보를 검색하여 제공하는 디스플레이 장치, 서버 장치 및 이들을 포함하는 음성 입력 시스템과, 그 방법들
CN103546763A (zh) 用于提供内容信息的方法和广播接收设备
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
US9620109B2 (en) Apparatus and method for generating a guide sentence
KR20140138011A (ko) 음성 인식 장치 및 그 제어 방법
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR20160022326A (ko) 디스플레이 장치 및 그의 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant