KR102246900B1 - 전자 장치 및 이의 음성 인식 방법 - Google Patents

전자 장치 및 이의 음성 인식 방법 Download PDF

Info

Publication number
KR102246900B1
KR102246900B1 KR1020140096743A KR20140096743A KR102246900B1 KR 102246900 B1 KR102246900 B1 KR 102246900B1 KR 1020140096743 A KR1020140096743 A KR 1020140096743A KR 20140096743 A KR20140096743 A KR 20140096743A KR 102246900 B1 KR102246900 B1 KR 102246900B1
Authority
KR
South Korea
Prior art keywords
user
electronic device
voice
input
voiceprint
Prior art date
Application number
KR1020140096743A
Other languages
English (en)
Other versions
KR20160014465A (ko
Inventor
정치상
황병진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140096743A priority Critical patent/KR102246900B1/ko
Priority to US14/670,724 priority patent/US9484029B2/en
Publication of KR20160014465A publication Critical patent/KR20160014465A/ko
Application granted granted Critical
Publication of KR102246900B1 publication Critical patent/KR102246900B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

전자 장치 및 이의 음성 인식 방법이 개시된다. 본 발명의 전자 장치의 음성 인식 방법에 따르면, 사용자 음성을 입력받는 단계, 입력된 사용자 음성을 분석하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 추출하는 단계 및 추출된 음소 특성에 따라 상기 입력된 사용자 음성이 등록된 트리거 워드에 해당하는 경우, 전자 장치의 음성 인식 모드로 전환하고 추출된 성문 특성을 사용자 음성을 발화한 사용자의 성문 특성으로 등록하는 단계를 포함한다.

Description

전자 장치 및 이의 음성 인식 방법 { ELECTRONIC DEVICE FOR SPEECH RECOGNITION AND METHOD THEREOF }
본 발명은 전자 장치 및 이의 음성 인식 방법에 관한 것으로, 더욱 상세하게는 음성 인식 모드를 시작하기 위한 트리거 워드 등록 및 전자 장치를 사용자는 화자 등록을 동시에 수행할 수 있는 전자 장치 및 이의 음성 인식 방법에 관한 것이다.
최근 음성 인식 기능을 탑재한 전자 장치가 급증하였다. 사용자는 전자 장치를 음성 인식 모드로 전환하여, 음성 인식 모드를 실행할 수 있다. 따라서, 최근의 전자 장치는 장치 자체에 또는 전자 장치를 제어하기 위한 리모컨과 같은 별도의 제어 장치에 음성 인식 모드로 전환하기 위한 사용자 인터페이스를 구비하는 경우가 많다.
최근에는, 사용자는 기설정된 단어를 발화함으로써, 용이하게 전자 장치의 음성 인식 모드를 실행할 수도 있다. 음성 인식 모드를 실행하기 위한 기설정된 단어를 트리거 워드(Trigger Word)라 지칭한다. 트리거 워드는 전자 장치에 설정되어 있을 수 있으나, 사용자의 설정에 의해 사용자가 사용하기 용이한 단어를 직접 설정할 수도 있다.
또한, 음성 인식 기능은 단순히 전자 장치를 음성으로 제어하는 기능뿐만 아니라, 음성을 발화한 사용자를 인식하여, 각 사용자가 설정한 메뉴, 각 사용자가 즐겨 찾는 프로그램 등을 제공할 수도 있다. 구체적으로, 전자 장치는 음성의 주파수 분포의 시계열적 분해의 결과로 얻어지는 그래프인 성문(Voice Print)을 이용하여, 음성을 발화한 사용자를 인식할 수 있다.
종래에는, 상술한 바와 같은 사용자가 직접 발화하여 등록하는 트리거 워드를 인식하는 방법과 음성을 발화한 사용자를 인식하기 위한 화자 인식 방법이 별개의 모듈에서 수행되었다.
이에 따라, 사용자는 트리거 워드 등록과 화자 등록을 위해서는 별도의 과정을 거쳐야 하는 불편함이 존재하였다. 또한, 전자 장치는 트리거 워드 등록을 위한 모듈과 화자 인식을 위한 모듈을 개별적으로 구비하여, 전자 장치의 불필요한 구성이 증가하였다.
따라서, 사용자가 트리거 워드 등록 및 화자 등록을 용이하게 할 수 있도록 하는 기술에 대한 필요성이 대두하였다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은 사용자가 트리거 워드 등록 및 화자 등록을 동시에 수행할 수 있는 전자 장치 및 이의 음성 인식 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치의 음성 인식 방법은 사용자 음성을 입력받는 단계, 상기 입력된 사용자 음성을 분석하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 추출하는 단계 및 상기 추출된 음소 특성에 따라 상기 입력된 사용자 음성이 기 등록된 트리거 워드에 해당하는 경우, 상기 전자 장치의 음성 인식 모드로 전환하고 상기 추출된 성문 특성을 상기 사용자 음성을 발화한 사용자의 성문 특성으로 등록하는 단계를 포함할 수 있다.
그리고 상기 트리거 워드를 텍스트로 입력받기 위한 UI를 디스플레이하는 단계 및 상기 UI를 통해 텍스트가 입력되면, 상기 입력된 텍스트를 상기 트리거 워드로 등록하는 단계를 더 포함할 수 있다.
한편, 상기 트리거 워드를 발화하는 사용자 음성을 입력받는 단계, 상기 입력된 사용자 음성을 분석하여, 텍스트 데이터로 변환하는 단계 및 상기 변환된 텍스트 데이터를 트리거 워드로 등록하는 단계를 더 포함할 수 있다.
그리고, 상기 추출하는 단계는, 상기 전자 장치에 구비된 마이크를 통해 입력된 소리가 사용자 음성에 해당하는지 여부를 판단하는 단계 및 상기 사용자 음성에 해당하는 것으로 판단된 구간을 구분하여, 상기 판단된 구간에 대해 상기 사용자 음성의 특성을 검출하는 단계를 더 포함할 수 있다.
한편, 상기 사용자 음성의 특성을 검출하는 단계는, 상기 사용자 음성의 특성으로부터 상기 음소 특성 및 상기 성문 특성을 병렬적으로 추출하는 것을 특징으로 할 수 있다.
그리고 상기 추출된 성문 특성이 상기 전자 장치에 등록된 사용자의 성문 특성의 임계 범위 내에 해당하지 않는 경우, 새로운 사용자의 성문 특성으로 등록하는 단계를 더 포함할 수 있다.
한편, 상기 추출된 성문 특성이 상기 전자 장치에 등록된 사용자의 성문 특성에 임계 범위 내에 해당하는 경우, 상기 전자 장치의 실행 모드를 상기 등록된 사용자에 대응되는 음성 인식 모드로 전환하는 단계를 더 포함할 수 있다.
본 발명의 일 실시 예에 따른, 전자 장치는 사용자 음성을 입력받는 음성 입력부 및 상기 음성 입력부를 통해 입력된 사용자 음성을 분석하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 추출하고, 상기 추출된 음소 특성에 따라 상기 입력된 사용자 음성이 기 등록된 트리거 워드에 해당하는 경우, 상기 전자 장치의 음성 인식 모드로 전환하고 상기 추출된 성문 특성을 상기 사용자 음성을 발화한 사용자의 성문 특성으로 등록하는 제어부를 포함할 수 있다.
그리고 디스플레이부를 더 포함하고, 상기 제어부는, 텍스트를 입력받기 위한 UI를 디스플레이하도록 상기 디스플레이부를 제어하고, 상기 UI를 통해 텍스트가 입력되면, 상기 입력된 텍스트를 상기 트리거 워드로 등록하는 것을 특징으로 할 수 있다.
한편, 상기 제어부는, 상기 트리거 워드를 등록하기 위한 UI가 디스플레이되는 동안 상기 음성 입력부를 통해 사용자 음성이 입력되면, 상기 입력된 사용자 음성을 분석하여, 텍스트 데이터로 변환하고, 상기 변환된 텍스트 데이터를 트리거 워드로 등록하는 것을 특징으로 할 수 있다.
그리고 상기 제어부는, 상기 전자 장치에 구비된 마이크를 통해 입력된 소리가 사용자 음성에 해당하는지 여부를 판단하여, 상기 사용자 음성에 해당하는 부분을 검출하고, 상기 판단된 음성 구간에 대해 상기 사용자 음성의 특성을 검출하는 것을 특징으로 할 수 있다.
한편, 상기 제어부는, 상기 검출된 상기 사용자 음성의 특성으로부터 상기 음소 특성 및 상기 성문 특성을 병렬적으로 추출하는 것을 특징으로 할 수 있다.
그리고 저장부를 더 포함하고, 상기 제어부는, 상기 추출된 성문 특성이 상기 저장부에 기 저장된 사용자의 성문 특성의 임계 범위 내에 해당하지 않는 경우, 새로운 사용자의 성문 특성으로 등록하는 것을 특징으로 할 수 있다.
한편, 상기 제어부는, 상기 추출된 성문 특성이 상기 전자 장치에 등록된 사용자의 성문 특성에 임계 범위 내에 해당하는 경우, 상기 전자 장치의 실행 모드를 상기 등록된 사용자에 대응되는 음성 인식 모드로 전환하는 것을 특징으로 할 수 있다.
본 발명의 다양한 실시예에 따르면, 전자 장치에 포함된 통합된 모듈을 통해, 사용자는 트리거 워드 등록 및 화자 등록을 동시에 수행할 수 있게 된다.
도 1은 본 발명의 일 실시 예에 따른, 전자 장치 및 트리거 워드를 발화하는 사용자를 도시한 도면,
도 2는 본 발명의 일 실시예에 따른, 전자 장치의 구성을 간략히 도시한 블럭도,
도 3은 본 발명의 일 실시예에 따른, 전자 장치의 구성을 구체적으로 도시한 블럭도,
도 4는 본 발명의 일 실시예에 따른, 저장부의 구성을 도시한 블럭도,
도 5a 및 도 5b는 트리거 워드를 텍스트로 입력하는 방법을 도시한 도면,
도 6a 내지 도 6c는 트리거 워드를 사용자 음성으로 입력하는 방법을 도시한 도면,
도 7a 및 도 7b는 기 등록된 사용자에 따른 음성 인식 모드가 실행되는 방법을 도시한 도면,
도 8은 본 발명의 일 실시 예에 따른, 전자 장치의 음성 인식 방법을 도시한 흐름도,
도 9는 본 발명의 일 실시 예에 따른, 전자 장치의 트리거 워드 등록 방법을 도시한 흐름도, 그리고
도 10은 본 발명의 일 실시 예에 따른, 전자 장치의 등록된 사용자에 따른 음성 인식 모드로 전환하는 방법을 도시한 흐름도이다.
이하에서는 첨부된 도면을 참조하여, 본 발명의 다양한 실시 예를 좀더 상세하게 설명한다. 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술 되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른, 사용자(10)가 전자 장치(100)의 음성 인식 기능을 사용하기 위해 트리거 음성을 발화하는 모습을 도시한 도면이다. 도 1에서는 전자 장치(100)의 예시로 TV가 도시되었으나 이는 일 실시예에 불과할 뿐, 전자 장치(100)는 음성 인식 기능이 포함된 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 PC, PDA 등과 같은 다양한 전자 장치로 구현될 수 있다.
전자 장치(100)는 마이크(미도시)를 포함할 수 있다. 따라서, 전자 장치(100)는 일정 거리 내에서 발화된 사용자(10)의 음성을 수신할 수 있다. 그리고 사용자(10)로부터 수신한 음성을 분석하여 트리거 워드인지 여부를 판단할 수 있다. 즉, 트리거 워드는 "Hi TV"와 같이 기 설정된 세네음절 길이의 짧은 단어일 수 있다. 수신한 음성이 기 설정된 트리거 워드인 것으로 판단되면, 전자 장치(100)는 음성 인식 모드로 전자 장치(100)의 제어 모드를 변경할 수 있다.
한편, 트리거 워드는 전자 장치(100)의 종류 등에 따라 기설정될 수 있으나, 사용자가 직접 등록할 수도 있다. 즉, 전자 장치(100)는 다양한 트리거 워드를 저장하고 있을 수 있다. 또는, 사용자는 전자 장치(100)의 트리거 워드 설정에서, 사용자가 이용하고자 하는 단어를 트리거 워드로 설정할 수도 있다. 구체적으로 사용자는 전자 장치(100) 또는 전자 장치(100)를 제어하기 위한 외부 제어 장치를 이용하여 텍스트 데이터를 입력함으로써 트리거 워드를 설정하거나, 전자 장치(100)에 대해 이용하고자 하는 단어를 발화함으로써 트리거 워드를 설정할 수도 있다. 트리거 워드의 구체적인 등록 방법은 후술한다.
또한, 전자 장치(100)는 사용자가 트리거 워드로 등록하기 위해 또는 음성 인식 모드를 실행하기 위해 발화한 트리거 워드를 이용하여 화자 등록을 수행할 수 있다. 즉, 전자 장치(100)는 수신한 음성을 분석하여 성문 특성을 검출할 수 있다. 검출된 성문 특성을 이용하여, 전자 장치(100)는 트리거 워드를 발화한 사용자를 새로운 화자로 등록할 수 있다. 또는, 검출된 성문 특성이 기 등록된 화자의 성문 특성인 경우, 전자 장치(100)는 등록된 화자에 따른 음성 인식 모드로 전환할 수 있다. 화자 등록 및 화자 인식에 대한 구체적인 방법은 후술한다.
도 2는 본 발명의 일 실시예에 따른, 전자 장치(100)의 구성을 간략히 도시한 블럭도이다. 도 2에 도시된 바와 같이, 전자 장치(100)는 음성 입력부(110) 및 제어부(120)를 포함한다.
음성 입력부(110)는 사용자 음성을 입력받기 위한 구성요소이다. 음성 입력부(110)는 마이크(미도시)를 포함할 수 있고, 마이크를 통해 사용자 음성을 입력받을 수 있다. 마이크는 전자 장치(100)에 포함될 수 있다. 또한, 마이크는 전자 장치(100)를 제어하기 위한 리모컨과 같은 외부 장치에 포함될 수 있다. 이때, 리모컨은 마이크를 통해 사용자 음성을 수신하여, 음성 입력부(110)로 전달할 수 있다.
한편, 제어부(120)는 전자 장치(100)의 전반적인 동작을 제어하기 위한 구성요소이다. 특히, 제어부(120)는 음성 입력부(110)를 통해 입력된 사용자 음성을 분석하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 추출할 수 있다. 즉, 추출된 음소 특성에 따라 입력된 사용자 음성이 기등록된 트리거 워드에 해당하는 경우, 제어부(120)는 전자 장치(100)를 음성 인식 모드로 전환하고 추출된 성문 특성을 사용자 음성을 발화한 사용자의 성문 특성으로 등록할 수 있다.
구체적으로, 제어부(120)는 마이크를 통해 입력된 소리가 사용자 음성에 해당하는지 여부를 판단하여, 사용자 음성에 해당하는 부분을 검출하고, 판단된 음성 구간에 대해 사용자 음성의 특성을 검출할 수 있다. 특히, 제어부(120)는 검출된 사용자 음성의 특성으로부터 음소 특성 및 성문 특성을 병렬적으로 또는 동시에 추출할 수 있다.
음소 특성은 음성 인식 기능을 수행하기 위해 사용자 음성을 분석한 결과에 대한 데이터이다. 그리고 성문 특성은 사용자 음성을 발화한 사용자를 구분하기 위해 추출한 성문에 대한 특성이다. 즉, 성문은 사용자 음성의 주파수 분포의 시계열적 분해의 결과로써, 음성이 거쳐 나오는 사람의 입, 성대, 목구멍 등의 구조가 개인마다 다르므로 성문도 사용자에 따라 상이하다.
따라서, 제어부(120)는 추출된 음소 특성에 따라 입력된 사용자 음성을 트리거 워드로 등록하거나, 입력된 사용자 음성이 기등록된 트리거 워드에 해당하는지 여부를 판단할 수 있다. 그리고 제어부(120)는 추출된 성문 특성을 이용하여 전자 장치(100)에 화자를 등록하거나, 추출된 성문 특성이 기등록된 화자의 성문 특성인지 여부를 판단할 수 있다.
구체적으로, 제어부(120)는 추출된 성문 특성이 기 저장된 사용자의 성문 특성의 임계 범위 내에 해당하지 않는 경우, 새로운 사용자의 성문 특성으로 등록할 수 있다. 또는, 제어부(120)는 추출된 성문 특성이 기 등록된 사용자의 성문 특성의 임계 범위에 해당하는 경우, 전자 장치(100)의 실행 모드를 기 등록된 사용자에 대응되는 음성 인식 모드로 전환할 수 있다.
한편, 전자 장치(100)는 도 3에 도시된 바와 같은 구성요소를 더 포함할 수 있다. 구체적으로, 전자 장치(100)는 음성 입력부(110), 제어부(120), 디스플레이부(150), 영상 수신부(130), 영상 처리부(140), 오디오 처리부(160), 오디오 출력부(170), 통신부(180), 저장부(190) 및 사용자 입력부(200)를 포함할 수 있다. 도 3은 전자 장치(200)가 음성 인식 기능, 화자 등록 기능, 화자 인식 기능, 통신 기능, 동영상 재생 기능, 디스플레이 기능 등과 같이 다양한 기능을 구비한 장치인 경우를 예로 들어 각종 구성 요소들을 종합적으로 도시한 것이다. 따라서, 실시 예에 따라서는, 도 3에 도시된 구성 요소 중 일부는 생략 또는 변경될 수도 있고, 다른 구성요소가 더 추가될 수도 있다. 이미 설명한 내용과 중복되는 설명에 대해서는 생략한다.
영상 수신부(130)는 다양한 소스를 통해 영상 데이터를 수신한다. 예를 들어, 영상 수신부(130)는 외부의 방송국으로부터 방송 데이터를 수신할 수 있으며, 외부 서버로부터 실시간으로 영상 데이터를 수신할 수 있으며, 내부의 저장부(170)에 저장된 영상 데이터를 수신할 수 있다.
영상 처리부(140)는 영상 수신부(130)에서 수신한 영상 데이터에 대한 처리를 수행하는 구성요소이다. 영상 처리부(140)에서는 영상 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
디스플레이부(150)는 각종 영상 및 UI를 디스플레이하기 위한 구성요소이다. 즉, 디스플레이부(150)는 영상 수신부(130)로부터 수신한 영상 데이터를 영상 처리부(140)에서 처리한 비디오 프레임 및 그래픽 처리부(123)에서 생성된 다양한 화면 중 적어도 하나를 디스플레이할 수 있다.
디스플레이부(150)는 제어부(120)의 제어에 의해, 트리거 워드를 등록하기 위한 UI를 디스플레이할 수 있다. 특히, 디스플레이부(150)는 트리거 워드를 텍스트로 입력받기 위한 UI 또는 음성으로 입력받기 위한 UI를 디스플레이할 수 있다.
오디오 처리부(160)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다. 오디오 처리부(160)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 오디오 처리부(160)에서 처리된 오디오 데이터는 오디오 출력부(170)로 출력될 수 있다.
오디오 출력부(170)는 오디오 처리부(160)에서 처리된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 이때, 오디오 출력부(170)는 스피커로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 오디오 단자로 구현될 수 있다.
통신부(180)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기 및 외부 서버와 통신을 수행하는 구성이다. 통신부(180)는 USB 모듈, 와이파이 모듈, 블루투스 모듈, NFC 모듈 등과 같은 다양한 통신 모듈로 포함할 수 있다. 이때, 와이파이 모듈, 블루투스 모듈, NFC 모듈은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 이 중 NFC 모듈은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 모듈을 의미한다. 와이파이 모듈이나 블루투스 모듈을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.
한편, 입력된 사용자 음성을 외부 서버에서 분석하여 음소 특성 및 성문 특성을 추출하는 경우, 통신부(180)는 입력된 사용자 음성을 외부 서버로 전송할 수 있다. 또는, 입력된 사용자 음성이 변환된 음성 데이터가 통신부(180)를 통해 외부 서버로 전송될 수 있다.
음소 특성 및 성문 특성에 대한 데이터 베이스가 외부 서버 또는 외부 저장 장치에 저장된 경우, 통신부(180)는 추출된 음소 특성 및 성문 특성을 외부 서버 또는 저장 장치로 전송할 수 있다. 또는, 제어부(120)는 추출된 음소 특성 및 성문 특성을 기 저장된 데이터와 비교하기 위해, 통신부(180)를 통해 외부 서버 또는 저장 장치로부터 기 저장된 데이터를 수신할 수도 있다.
저장부(190)는 트리거 워드로 등록된 단어 및 제어부(120)의 제어에 의해 사용자 음성이 분석된 다양한 결과를 저장할 수 있다. 구체적으로, 저장부(190)는 사용자 음성을 분석하여 얻은 음소 특성에 따른 트리거 워드를 저장할 수 있다. 그리고 저장부(190)는 분석된 성문 특성을 사용자 음성을 발화한 사용자의 성문 특성으로 저장할 수 있다.
또한, 저장부(190)는 전자 장치(100)를 구동하기 위한 다양한 소프트웨어 모듈 및 데이터 등을 저장할 수 있다. 구체적으로, 도 4에 도시된 바와 같이, 저장부(190)는 음성 판별 모듈(191), 음성 구간 검출 모듈(192), 음성 특징 검출 모듈(193), 트리거 등록 모듈(194) 및 성문 특성 저장 모듈(195)과 같은 소프트웨어 모듈을 저장할 수 있다.
음성 판별 모듈(191)은 음성 입력부(110)를 통해 입력된 소리가 사용자 음성인지 여부를 판별하기 위한 구성요소이다. 그리고 음성 구간 검출 모듈(192)은 음성 입력부(110)를 통해 입력된 소리 중 사용자 음성으로 판별된 구간을 검출하기 위한 구성요소이다.
즉, 음성 입력부(110)를 통해 소리가 입력되면, 음성 판별 모듈(191) 및 음성 구간 검출 모듈(192)을 통해 사용자 음성인지 여부가 판단되고, 사용자 음성으로 판단된 구간이 검출될 수 있다.
한편, 음성 특징 검출 모듈(193)은 음소 특성 및 성문 특성을 검출하기 위한 구성요소이다. 즉, 전자 장치(100)는 별도의 음소 특성을 추출하기 위한 모듈 및 성문을 추출하기 위한 모듈을 구비하지 않아도, 음성 특징 검출 모듈(193)을 통해 음소 특성 및 성문 특성을 검출할 수 있게 된다.
트리거 등록 모듈(194)은 음성 특징 검출 모듈(193)을 통해 추출된 음소 특성에 따른 단어를 트리거 워드로 등록하기 위한 모듈이다. 즉, 음소 특성을 추출한 결과, 입력된 음성이 "하이 티비"인 경우, 트리거 등록 모듈(194)은 "하이 티비"를 트리거 음성으로 등록할 수 있다.
성문 특성 저장 모듈(195)은 음성 특징 검출 모듈(193)을 통해 추출된 성문 특성을 저장하기 위한 모듈이다. 즉, 성문 특성 저장 모듈(195)은 사용자 음성을 발화한 화자에 따른 성문 특성을 저장할 수 있다.
한편, 제어부(120)는 성문 특성 저장 모듈(195)에 저장된 적어도 하나의 화자에 따른 성문 특성을 이용하여, 사용자 음성이 음성 입력부(110)를 통해 입력된 경우, 입력된 사용자 음성을 발화한 화자를 검출할 수도 있다.
상술한 바와 같은 복수의 소프트웨어 모듈이 전자 장치(100)에 포함된 저장부(190)에 저장될 수 있으나, 이는 일 실시 예에 불과할 뿐, 상술한 각종 모듈은 외부 서버 또는 외부의 저장 장치에 저장될 수도 있다.
다시 도 3으로 돌아가 설명하면, 사용자 입력부(200)는 전자 장치(100)의 전반적인 동작을 제어하기 위한 사용자 명령을 수신한다. 이때, 사용자 입력부(200)는 상하 좌우의 4방향 키 및 확인 키를 포함하는 리모컨으로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 터치 스크린, 마우스, 포인팅 디바이스, 스마트폰, 휴대폰 등과 같은 다양한 입력 장치에 의해 구현될 수 있다.
사용자 입력부(200)는 텍스트 데이터를 입력받을 수도 있다. 즉, 사용자 입력부(200)는 터치패드, 터치 자판, 키 자판 등을 포함하여, 트리거 워드로 등록하기 위한 텍스트 데이터를 입력받을 수 있다.
또한, 사용자 입력부(200)가 리모컨으로 구현되는 경우, 리모컨은 음성을 수신하기 위한 입력 버튼을 포함할 수 있다. 사용자는 리모컨의 입력 버튼을 누른 뒤, 사용자 음성을 발화할 수 있다. 또한, 입력 버튼을 누른 뒤 첫 번째로 수신되는 사용자 음성이 트리거 음성이 될 수 있다.
한편, 제어부(120)는 텍스트 입력 또는 음성 입력을 통해 트리거 워드를 등록받을 수 있다. 구체적으로, 텍스트 입력을 통해 트리거 워드를 등록하는 경우, 제어부(120)는 디스플레이부(150)를 통해 트리거 워드를 텍스트로 입력받기 위한 UI를 디스플레이하고, 디스플레이된 UI를 통해 텍스트가 입력되면, 입력된 텍스트를 트리거 워드로 등록할 수 있다. 특히, 제어부(120)는 사용자 입력부(200)를 통해 텍스트 데이터를 입력받을 수 있다.
또한, 음성 입력으로 트리거 워드를 등록하는 경우, 제어부(120)는 음성 입력부(110)를 통해 입력된 사용자 음성을 트리거 워드로 등록할 수도 있다. 구체적으로, 디스플레이부(150)를 통해 트리거 워드를 음성으로 입력받기 위한 UI를 디스플레이하고, UI가 디스플레이되는 동안, 음성 입력부(110)를 통해 사용자 음성이 입력되면, 제어부(120)는 입력된 사용자 음성을 분석하여 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 트리거 워드로 등록할 수 있다.
한편, 제어부(120)는 RAM(121), ROM(122), 그래픽 처리부(123), 메인 CPU(124), 제1 내지 n 인터페이스(125-1 ~ 125-n), 버스(126)를 포함한다. 이때, RAM(121), ROM(122), 그래픽 처리부(123), 메인 CPU(124), 제1 내지 n 인터페이스(125-1 ~ 125-n) 등은 버스(126)를 통해 서로 연결될 수 있다.
ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, 메인 CPU(124)는 ROM(122)에 저장된 명령어에 따라 저장부(190)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(124)는 저장부(190)에 저장된 각종 어플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
그래픽 처리부(123)는 연산부(미도시) 및 렌더링 부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 사용자 입력부(200)로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(150)의 디스플레이 영역 내에 표시된다. 특히, 그래픽 처리부(143)는 음성 입력 또는 텍스트 입력으로 트리거 워드를 등록하기 위한 각종 UI를 생성할 수 있다.
메인 CPU(124)는 저장부(190)에 액세스하여, 저장부(190)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 메인 CPU(124)는 저장부(190)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
또한, 제1 내지 n 인터페이스(125-1 내지 125-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
상술한 바와 같은 전자 장치(100)에 의해, 사용자는 음성 입력 또는 텍스트 입력에 의해 트리거 워드를 등록할 수 있고, 트리거 워드 등록 및 화자 등록을 일시에 수행할 수 있게 된다.
한편, 트리거 워드는 사용자 음성 또는 텍스트 입력을 통해 등록될 수 있다. 사용자 음성으로 트리거 워드가 등록되는 경우, 전자 장치(100)는 트리거 워드 등록 및 화자 인식을 동시에 수행할 수 있다.
먼저, 도 5a 및 도 5b에 도시된 바와 같이, 텍스트 입력을 통해 트리거 워드가 등록되는 경우의 실시 예에 대해 설명한다.
도 5a는 본 발명의 일 실시 예에 따른, 전자 장치(100)가 트리거 워드를 텍스트로 등록하기 위한 UI(500)를 디스플레이하는 모습을 도시한 도면이다. 구체적으로, 사용자 선택에 따라 트리거 워드를 텍스트로 등록하는 경우, 전자 장치(100)는 트리거 워드를 텍스트로 등록하기 위한 UI(500)를 디스플레이하고, UI(500)를 통해 트리거 워드를 입력받을 수 있다.
특히, 전자 장치(100)는 사용자 입력부(200)를 통해 트리거 워드로 사용하기 위한 텍스트 데이터를 입력받을 수 있다. 예를 들면, 사용자 입력부(200)가 터치 패드를 구비하는 리모컨 또는 휴대폰으로 구현된 경우, 사용자는 손가락 또는 사용자 입력부(200)를 제어하기 위해 구비된 별도의 펜을 이용하여 터치 패드에 텍스트를 직접 작성할 수 있다. 또는, 사용자 입력부(200)가 터치로 입력되는 키보드 또는 키보드 형태의 버튼을 구비한 경우, 사용자는 터치 또는 버튼 형태의 키보드를 통해 텍스트를 타이핑할 수 있다.
도 5b는 상술한 방법 중 임의의 방법에 의해, 트리거 워드로 "하이 티비"가 입력되는 과정 중의 UI(510)를 디스플레이한 도면이다.
본 발명의 일 실시 예에 따라, 트리거 워드 "하이 티비"가 텍스트 데이터로 등록되고, "하이 티비"를 발화한 사용자 음성이 음성 입력부(110)를 통해 입력되면, 전자 장치(100)는 사용자 음성을 분석하여 음소 특성 및 화자 특성을 분석할 수 있다.
구체적으로, 전자 장치(100)는 음성 판별 모듈(191)을 통해 입력된 소리가 사용자 음성으로 판단되면, 음성 구간 검출 모듈(192)을 통해 사용자 음성으로 판단된 구간을 검출할 수 있다. 음성 특징 검출 모듈(193)을 통해 음소 특성 및 성문 특성을 추출하고, 추출된 음소 특성에 따라 입력된 사용자 음성이 "하이 티비"인 것으로 판단되면, 전자 장치(100)는 텍스트 데이터로 등록된 트리거 워드 "하이 티비"를 발화하는 음소 특성에 대한 데이터를 저장할 수 있다.
즉, 저장된 트리거 워드에 대한 음소 특성과 동일하거나 임계 범위 내에 해당하는 음소 특성이 있는 단어가 입력되면, 전자 장치(100)는 트리거 워드가 입력된 것으로 판단할 수 있. 따라서, 추후 트리거 워드인 "하이 티비"가 입력되면, 저장된 트리거 워드에 대한 데이터 베이스를 이용하여, 전자 장치(100)는 빠른 속도로 반응할 수 있게 된다. 그리고 트리거 워드 "하이 티비"가 입력된 것으로 판단되었으므로, 전자 장치(100)는 음성 인식 모드로 전환된다. 따라서, 음성 인식 모드 전환 후, 입력되는 사용자 음성에 의해 전자 장치(100)는 제어될 수 있다.
또한, 추출된 성문 특성을 사용자 음성을 발화한 사용자의 성문 특성으로 등록할 수 있다. 즉, 전자 장치(100)는 음성 특징 검출 모듈(193)에서 검출한 성문 특성을 성문 특성 저장 모듈(195)에 입력된 사용자 음성을 발화한 사용자의 성문 특성으로 등록하여 화자를 등록할 수 있다.
예를 들면, 성문 특성 저장 모듈(195)은 검출된 성문 특성을 사용자에 따른 고유 식별 ID와 매칭하여 저장할 수 있다. 또한, 사용자에 의해 사용자 음성을 발화한 사용자의 이름 또는 닉네임을 입력받는 경우, 성문 특성 저장 모듈(195)은 검출된 성문 특성을 입력된 사용자의 이름 또는 닉네임과 매칭하여 저장할 수도 있다. 사용자의 이름 또는 닉네임을 트리거 워드의 등록 방법과 같이 텍스트 또는 음성으로 입력받아 등록될 수 있다.
그리고 전자 장치(100)는 추출된 성문 특성이 성문 특성 저장 모듈(195)에 기저장된 성문 특성과 매칭되는 것으로 판단되면, 실행 모드를 등록된 사용자에 대응되는 음성 인식 모드로 전환할 수 있다. 등록된 사용자에 대응되는 음성 인식 모드로 전환하는 구체적인 방법에 대해서는 후술한다.
한편, 도 6a 내지 도 6c는 본 발명의 일 실시 예에 따라, 사용자 음성을 발화하여 트리거 워드를 등록하는 방법을 도시한 도면이다. 이때, 전자 장치(100)는 트리거 워드를 등록하면서, 화자 등록을 동시에 수행할 수 있다.
도 6a는 사용자 음성으로 트리거 워드를 등록하기 위한 UI(520)를 도시한 도면이다. 구체적으로, 사용자 선택에 따라 트리거 워드를 사용자 음성으로 등록하는 경우, 전자 장치(100)는 트리거 워드를 사용자 음성으로 등록하기 위한 UI(520)를 디스플레이하고, 트리거 워드를 입력받을 수 있다. 즉, 사용자는 "트리거 단어를 발화하세요."와 같은 문구가 디스플레이되고, 임계 시간 내에 트리거 워드로 사용할 문구를 발화하여, 트리거 워드를 등록할 수 있다.
전자 장치(100)는 상술한 바와 같이, 음성 특징 검출 모듈(193)을 통해, 음소 특성 및 성문 특성을 검출할 수 있다. 그리고 전자 장치(100)는 검출된 음소 특성에 따라, 트리거 워드로 입력된 사용자 음성을 텍스트 데이터로 변환하여, 트리거 워드를 확인하기 위한 UI(530)에 디스플레이할 수 있다.
도 6b에 도시된 바와 같이, 트리거 워드를 확인하기 위한 UI(530)는 입력된 사용자 음성을 분석한 결과인 "하이 티비(540)"를 디스플레이할 수 있다. 또한, 트리거 워드를 확인하기 위한 UI(530)는 확인(550), 재입력(560), 텍스트 입력(570) 및 취소(580)와 같은 선택 메뉴를 디스플레이할 수 있다.
즉, 사용자는 전자 장치(100)가 디스플레이한 음성 인식 결과가 발화한 음성과 일치하는 경우, 확인(550) 메뉴를 선택하여, 트리거 워드 등록을 완료할 수 있다.
또는, 전자 장치(100)가 디스플레이한 음성 인식 결과가 발화한 음성과 일치하지 않는 경우, 사용자는 재입력(560) 메뉴를 선택하여, 트리거 워드 등록을 다시 시도할 수 있다. 즉, 재입력(560) 메뉴가 선택된 경우, 전자 장치(100)는 도 6a에 도시된 바와 같은 사용자 음성으로 트리거 워드를 등록하기 위한 UI(520)를 다시 디스플레이할 수 있다.
한편, 전자 장치(100)가 디스플레이한 음성 인식 결과가 발화한 음성과 일치하지 않는 경우 또는 전자 장치(100))의 음성 인식이 용이하지 않은 경우, 사용자는 텍스트 입력(570) 메뉴를 이용하여 텍스트로 트리거 워드를 등록할 수 있다. 이 경우, 전자 장치(100)는 도 5a에 도시된 바와 같은 트리거 워드를 텍스트로 등록하기 위한 UI(500)를 디스플레이할 수 있다. 사용자는 트리거 워드 등록을 취소하고자 하는 경우, 취소(580)메뉴를 선택할 수도 있다.
또한, 전자 장치(100)는 입력된 사용자 음성을 인식할 수 없는 경우, 도 6c에 도시된 바와 같이, "트리거 단어로 사용하실 단어를 다시 한번 말씀해 주세요(590)"와 같은 문구를 디스플레이할 수 있다. 이 경우에도, 전자 장치(100)는 텍스트 입력(600) 및 취소(610)와 같은 메뉴를 디스플레이할 수 있다. 사용자는 텍스트 입력(600) 메뉴를 이용하여 텍스트로 트리거 워드를 등록할 수 있다. 그리고 사용자는 트리거 워드 등록을 취소하고자 하는 경우, 취소(610)메뉴를 선택할 수도 있다.
상술한 바와 같은 방법에 의해, 전자 장치(100)는 사용자 음성으로 트리거 워드를 등록할 수 있다. 즉, 전자 장치(100)는 음성 특징 검출 모듈(193)에서 검출한 음소 특성을 이용하여 사용자 음성을 텍스트 데이터로 변환하여 트리거 워드를 등록할 수 있다. 동시에, 전자 장치(100)는 음성 특징 검출 모듈(193)에서 검출한 성문 특성을 이용하여 화자 등록을 수행할 수 있다.
즉, 음성 특징 검출 모듈(193)은 입력된 사용자 음성의 주파수 분포에 의해 생성된 그래프인 성문을 검출할 수 있다. 성문은 개인에 따라 상이한 형태를 가진다. 따라서, 전자 장치(100)는 화자를 구분하기 위해, 음성 특징 검출 모듈(193)에서 검출한 성문 특성을 이용할 수 있다.
즉, 전자 장치(100)는 음성 특징 검출 모듈(193)에서 검출한 성문 특성을 성문 특성 저장 모듈(195)에 사용자 음성을 발화한 사용자의 성문 특성으로 등록하여 화자를 등록할 수 있다.
예를 들면, 성문 특성 저장 모듈(195)은 검출된 성문 특성을 사용자에 따른 고유 식별 ID와 매칭하여 저장할 수 있다. 또한, 사용자에 의해 사용자 음성을 발화한 사용자의 이름 또는 닉네임을 입력받는 경우, 성문 특성 저장 모듈(195)은 검출된 성문 특성을 입력된 사용자의 이름 또는 닉네임과 매칭하여 저장할 수도 있다. 사용자의 이름 또는 닉네임을 트리거 워드의 등록 방법과 같이 텍스트 데이터 또는 음성으로 등록될 수 있다.
또한, 전자 장치(100)는 추출된 성문 특성이 성문 특성 저장 모듈(195)에 기저장된 성문 특성과 매칭되는 것으로 판단되면, 실행 모드를 등록된 사용자에 대응되는 음성 인식 모드로 전환할 수 있다. 등록된 사용자에 대응되는 음성 인식 모드로 전환하는 구체적인 방법에 대해서는 도 7a 및 도 7b를 참조하여 설명한다.
전자 장치(100)는 트리거 워드에 의해 음성 인식 모드로 전환하고, 성문 특성에 따라 화자 등록을 수행한 경우, 화자로 등록된 사용자에 대응되는 음성 인식 모드를 실행할 수 있다.
예를 들면, 전자 장치(100)는 컨텐츠를 사용자의 이용 빈도에 따라 저장하거나 사용자가 즐겨찾기 목록에 추가한 컨텐츠를 저장할 수 있고, 사용자가 기설정된 기간 이내에 이용한 컨텐츠 목록을 저장할 수도 있다. 또한, 전자 장치(100)는 오디오 또는 비디오 설정을 사용자에 따라 저장할 수 있다. 따라서, 화자로 등록된 사용자에 대응되는 음성 인식 모드가 실행되는 경우, 전자 장치(100)는 사용자에 따라 저장된 데이터를 디스플레이할 수 있다. 또는, 전자 장치(100)는 사용자로부터 추가적인 사용자 음성이 입력되는 경우, 저장된 데이터를 이용하여 입력된 음성에 따른 정보를 제공할 수 있다.
도 7a는 본 발명의 일 실시 예에 따라, 추출된 성문 특성이 성문 특성 저장 모듈(195)에 기저장된 성문 특성과 매칭되는 경우, 전자 장치(100)가 디스플레이하는 화면을 도시한 도면이다. 즉, 전자 장치(100)는 "A님 반갑습니다! (700)"와 같은 문구를 디스플레이하여, 화자 인식 결과를 디스플레이할 수 있다.
그리고 전자 장치(100)는 디스플레이부(150)의 임의의 영역에 사용자의 즐겨찾기 목록(710) 및 최근 재생 목록(720) 등을 디스플레이할 수 있다. 또한, 디스플레이된 사용자의 즐겨찾기 목록(710) 및 최근 재생 목록(720)은 별도의 사용자 명령이 입력되지 않아도 기 설정된 시간이 초과하면 화면에서 사라질 수 있다.
또한, 도 7b에 도시된 바와 같이, 추출된 성문 특성이 성문 특성 저장 모듈(195)에 기저장된 성문 특성과 매칭되어 트리거 워드를 발화한 사용자가 판단되고, 트리거 워드를 발화한 사용자가 "내가 자주 보는 프로그램 찾아줘(730)"와 같은 문장을 이어서 발화한 경우, 전자 장치(100)는 음성 인식 결과를 디스플레이할 수 있다.
음성 인식 결과가 디스플레이되고, 사용자로부터 전자 장치(100)가 인식한 결과가 발화한 음성과 일치한다는 명령이 입력되면, 전자 장치(100)는 인식된 사용자에 따라 저장된 즐겨 찾기 프로그램 목록을 제공할 수 있다.
한편, 도 8은 본 발명의 일 실시 예에 따른, 전자 장치의 음성 인식 방법을 도시한 흐름도이다. 먼저, 사용자 음성이 입력되면(S810), 전자 장치(100)는 입력된 사용자 음성을 분석하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 추출한다(S820). 구체적으로 전자 장치(100)는 통합된 모듈을 이용하여 음소 특성 및 성문 특성을 동시에 추출할 수 있다.
전자 장치(100)는 추출된 음소 특성에 따라 입력된 사용자 음성이 등록된 트리거 워드에 해당하는지 여부를 판단한다(S830). 즉, 전자 장치(100)는 음소 특성에 따라 입력된 사용자 음성을 텍스트 데이터로 변환하고 기 등록된 트리거 워드와 일치하는지 여부를 판단할 수 있다.
또한, 입력된 사용자 음성이 기 등록된 트리거 워드에 해당하는 경우(S830-Y), 전자 장치(100)는 음성 인식 모드로 전환하고, 추출된 성문 특성을 사용자 음성을 발화한 사용자의 성문 특성으로 등록한다(S840). 즉, 전자 장치(100)는 추출된 성문 특성을 이용하여 사용자 음성을 발화한 사용자에 대해 화자 등록을 수행할 수 있다.
한편, 트리거 워드에 의해 음성 인식 모드로 전환하고, 성문 특성에 따라 화자 등록을 수행한 경우, 전자 장치(100)는 화자로 등록된 사용자에 대응되는 음성 인식 모드를 실행할 수 있다.
예를 들면, 전자 장치(100)는 컨텐츠를 사용자의 이용 빈도에 따라 저장하거나 사용자가 즐겨찾기 목록에 추가한 컨텐츠를 저장할 수 있고, 사용자가 기설정된 기간 이내에 이용한 컨텐츠 목록을 저장할 수도 있다. 또한, 전자 장치(100)는 오디오 또는 비디오 설정을 사용자에 따라 저장할 수 있다.
따라서, 화자 등록 후, 사용자 음성이 입력되고, 사용자 음성을 분석한 결과에 따른 성문 특성이 기등록된 화자의 성문 특성과 일치하는 것으로 판단되면, 전자 장치(100)는 전자 장치(100)는 화자로 등록된 사용자에 대응되는 음성 인식 모드를 실행하여, 사용자에 따라 기 저장된 데이터를 제공할 수 있다.
그리고 입력된 사용자 음성이 등록된 트리거에 해당하여, 전자 장치(100)의 모드가 음성 인식 모드로 전환되었으나, 추출된 성문 특성이 기 저장된 성문 특성과 일치하지 않는 경우, 전자 장치(100)는 새로운 화자 등록을 수행할 수 있다.
한편, 도 9는 본 발명의 일 실시 예에 따른, 전자 장치(100)의 트리거 워드 등록 방법을 도시한 흐름도이다. 즉, 전자 장치(100)는 텍스트 입력 또는 음성 입력에 의해 트리거 워드를 등록할 수 있으므로, 도 9는 텍스트 또는 음성 입력에 따라 트리거 워드를 등록하는 방법을 구체적으로 도시한 흐름도이다.
먼저, 전자 장치(100)는 음성으로 트리거 워드 및 화자를 등록하는지 여부를 판단한다(S900). 즉, 사용자 선택에 따라, 음성으로 트리거 워드를 입력받지 않는 경우, 전자 장치(100)는 트리거 워드로 등록하기 위한 텍스트를 입력받고(S910), 음성으로 트리거 워드를 입력받는 경우, 전자 장치(100)는 트리거 워드로 등록하기 위한 사용자 음성을 입력받는다(S920).
전자 장치(100)는 사용자 음성을 입력받고(S920), 입력된 음성을 분석하여 음소 특성 및 성문 특성을 추출한다(S930). 구체적으로 전자 장치(100)는 통합된 모듈을 이용하여 음소 특성 및 성문 특성을 동시에 추출할 수 있다.
그리고 전자 장치(100)는 추출된 성문 특성을 사용자 음성을 발화한 성문 특성으로 등록한다(S940). 즉, 성문 특성은 개인에 따라 상이하므로 사용자를 구분하기 위해, 전자 장치(100)는 추출된 성문 특성을 사용자 음성을 발화한 사용자 고유의 성문 특성으로 등록하여, 화자 등록을 수행할 수 있다.
또한, 전자 장치(100)는 추출된 음소 특성을 텍스트 데이터로 변환하고(S950), 텍스트 데이터를 트리거 워드로 등록한다(S960). 한편, 트리거 워드 등록을 위해, 전자 장치(100)가 텍스트를 입력받은 경우(S910), 입력된 텍스트 데이터를 트리거 워드로 바로 등록할 수 있다(S960).
한편, 도 10은 상술한 방법에 의해 텍스트 입력으로 트리거 워드가 등록되고, 사용자에 의해 트리거 워드가 발화된 경우, 음성 인식 모드로 전환하기 위한 방법을 도시한 흐름도이다.
먼저, 텍스트 입력으로 트리거 워드가 등록되고(S1000), 사용자 음성이 입력되면(S1010), 전자 장치(100)는 입력된 사용자 음성을 분석하여 음소 특성 및 성문 특성을 추출한다(S1020). 특히, 전자 장치(100)는 통합된 모듈을 이용하여 음소 특성 및 성문 특성을 동시에 추출할 수 있다.
추출된 음소 특성에 따라 입력된 사용자 음성이 등록된 트리거 워드에 해당하는 경우(S1030), 전자 장치(100)는 추출된 성문 특성이 기 저장된 사용자의 성문 특성에 해당하는지 판단한다(S1040).
추출된 성문 특성이 기 저장된 사용자의 성문 특성에 해당하는 경우(S1040-Y), 전자 장치(100)는 실행 모드를 등록된 사용자에 의해 설정된 음성 인식 모드로 전환한다(S1050).
그리고 추출된 성문 특성이 기 저장된 사용자의 성문 특성에 해당하지 않는 경우(S1040-N), 전자 장치(100)는 추출된 성문 특성을 새로운 사용자의 성문 특성으로 등록한다(S1060). 그리고 전자 장치(100)는 실행 모드를 새로 등록된 사용자에 의한 음성 인식 모드로 전환한다(S1070).
상술한 바와 같은 방법에 의해, 사용자는 텍스트로 트리거 워드를 등록한 경우에도, 트리거 워드가 발화된 때에 음소 특성 및 성문 특성을 동시에 검출하여 등록된 트리거 워드에 대한 음소 특성을 저장하고, 사용자에 따라 상이한 성문 특성을 이용하여 화자 등록을 수행할 수 있게 된다.
상술한 다양한 실시 예들에 따른 전자 장치의 음성 인식 방법은 소프트웨어로 코딩되어 비일시적 판독 가능 매체(non-transitory readable medium)에 저장될 수 있다. 이러한 비일시적 판독 가능 매체는 다양한 장치에 탑재되어 사용될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안 될 것이다.
100: 전자 장치 110: 음성 입력부
120: 제어부 130: 디스플레이부
140: 영상 수신부 150: 영상 처리부
160: 오디오 처리부 170: 오디오 출력부
180: 통신부 190: 저장부
200: 사용자 입력부

Claims (14)

  1. 전자 장치의 음성 인식 방법에 있어서,
    사용자 음성 입력을 수신하는 단계;
    상기 수신된 사용자 음성 입력에 기초하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 획득하는 단계; 및
    상기 획득한 음소 특성에 따라 상기 수신된 사용자 음성 입력이 기 등록된 트리거 워드에 대응되는 경우, 상기 전자 장치가 음성 인식 기능에 대응되는 동작을 수행하도록 제어하고, 상기 획득한 성문 특성에 기초하여 상기 수신된 사용자 음성 입력을 발화한 사용자를 등록하는 단계;를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 트리거 워드를 텍스트로 입력받기 위한 UI를 디스플레이하는 단계; 및
    상기 UI를 통해 텍스트가 입력되면, 상기 입력된 텍스트를 상기 트리거 워드로 등록하는 단계; 를 더 포함하는 음성 인식 방법.
  3. 제1항에 있어서,
    상기 트리거 워드를 발화하는 사용자 음성 입력을 수신하는 단계;
    상기 수신된 사용자 음성 입력에 기초하여, 텍스트 데이터를 획득하는 단계; 및
    상기 획득한 텍스트 데이터를 트리거 워드로 등록하는 단계; 를 더 포함하는 음성 인식 방법.
  4. 제1항에 있어서,
    상기 획득하는 단계는,
    상기 전자 장치에 구비된 마이크를 통해 수신된 소리가 사용자 음성 입력에 대응되는지 여부를 판단하는 단계; 및
    상기 수신된 사용자 음성 입력에 대응되는 것으로 판단된 구간을 구분하여, 상기 판단된 구간에 대해 상기 수신된 사용자 음성 입력의 특성을 획득하는 단계; 를 포함하는 음성 인식 방법.
  5. 제4항에 있어서,
    상기 수신된 사용자 음성 입력의 특성을 획득하는 단계는,
    상기 획득한 사용자 음성 입력의 특성으로부터 상기 음소 특성 및 상기 성문 특성을 병렬적으로 획득하는 것을 특징으로 하는 음성 인식 방법.
  6. 제1항에 있어서,
    상기 획득한 성문 특성이 상기 전자 장치에 등록된 사용자의 성문 특성의 임계 범위 내에 해당하지 않는 경우, 새로운 사용자의 성문 특성으로 등록하는 단계; 를 더 포함하는 음성 인식 방법.
  7. 제1항에 있어서,
    상기 획득한 성문 특성이 상기 전자 장치에 등록된 사용자의 성문 특성에 임계 범위 내에 해당하는 경우, 상기 등록된 사용자에 대한 음성 인식 기능에 대응되는 동작을 수행하는 단계; 를 더 포함하는 음성 인식 방법.
  8. 전자 장치에 있어서,
    음성 입력부; 및
    상기 음성 입력부를 통해 수신된 사용자 음성 입력에 기초하여, 음성 인식을 위한 음소 특성 및 화자 등록을 위한 성문 특성을 획득하고, 상기 획득한 음소 특성에 따라 상기 수신된 사용자 음성 입력이 기 등록된 트리거 워드에 대응되는 경우, 상기 전자 장치가 음성 인식 기능에 대응되는 동작을 수행하도록 제어하고, 상기 획득한 성문 특성에 기초하여 상기 수신된 사용자 음성 입력을 발화한 사용자를 등록하는 제어부; 를 포함하는 전자 장치.
  9. 제8항에 있어서,
    디스플레이부; 를 더 포함하고,
    상기 제어부는,
    텍스트를 입력받기 위한 UI를 디스플레이하도록 상기 디스플레이부를 제어하고, 상기 UI를 통해 텍스트가 입력되면, 상기 입력된 텍스트를 상기 트리거 워드로 등록하는 것을 특징으로 하는 전자 장치.
  10. 제8항에 있어서,
    상기 제어부는,
    상기 트리거 워드를 등록하기 위한 UI가 디스플레이되는 동안 상기 음성 입력부를 통해 사용자 음성 입력이 수신되면, 상기 수신된 사용자 음성 입력에 기초하여, 텍스트 데이터를 획득하고, 상기 획득한 텍스트 데이터를 트리거 워드로 등록하는 것을 특징으로 하는 전자 장치.
  11. 제8항에 있어서,
    상기 제어부는,
    상기 전자 장치에 구비된 마이크를 통해 수신된 소리가 사용자 음성 입력에 대응되는지 여부를 판단하여, 상기 수신된 사용자 음성 입력에 대응되는 부분을 획득하고, 상기 획득한 음성 구간에 대해 상기 수신된 사용자 음성 입력의 특성을 획득하는 것을 특징으로 하는 전자 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    상기 획득한 사용자 음성 입력의 특성으로부터 상기 음소 특성 및 상기 성문 특성을 병렬적으로 획득하는 것을 특징으로 하는 전자 장치.
  13. 제8항에 있어서,
    저장부; 를 더 포함하고,
    상기 제어부는,
    상기 획득한 성문 특성이 상기 저장부에 기 저장된 사용자의 성문 특성의 임계 범위 내에 해당하지 않는 경우, 새로운 사용자의 성문 특성으로 등록하는 것을 특징으로 하는 전자 장치.
  14. 제8항에 있어서,
    상기 제어부는,
    상기 획득한 성문 특성이 상기 전자 장치에 등록된 사용자의 성문 특성에 임계 범위 내에 해당하는 경우, 상기 등록된 사용자에 대한 음성 인식 기능에 대응되는 동작을 수행하는 것을 특징으로 하는 전자 장치.
KR1020140096743A 2014-07-29 2014-07-29 전자 장치 및 이의 음성 인식 방법 KR102246900B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140096743A KR102246900B1 (ko) 2014-07-29 2014-07-29 전자 장치 및 이의 음성 인식 방법
US14/670,724 US9484029B2 (en) 2014-07-29 2015-03-27 Electronic apparatus and method of speech recognition thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140096743A KR102246900B1 (ko) 2014-07-29 2014-07-29 전자 장치 및 이의 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20160014465A KR20160014465A (ko) 2016-02-11
KR102246900B1 true KR102246900B1 (ko) 2021-04-30

Family

ID=55180673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140096743A KR102246900B1 (ko) 2014-07-29 2014-07-29 전자 장치 및 이의 음성 인식 방법

Country Status (2)

Country Link
US (1) US9484029B2 (ko)
KR (1) KR102246900B1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US10382929B2 (en) * 2016-04-17 2019-08-13 Sonular Ltd. Communication management and communicating between a mobile communication device and another device
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
KR102505719B1 (ko) * 2016-08-12 2023-03-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
US10304463B2 (en) * 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
KR102471493B1 (ko) 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
KR102193629B1 (ko) * 2018-01-23 2020-12-21 구글 엘엘씨 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
US10726829B2 (en) * 2018-02-28 2020-07-28 Cirrus Logic, Inc. Performing speaker change detection and speaker recognition on a trigger phrase
JP6457682B1 (ja) 2018-04-16 2019-01-23 パスロジ株式会社 認証システム、認証方法、ならびに、プログラム
KR102595184B1 (ko) 2018-05-25 2023-10-30 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
US10777195B2 (en) * 2018-05-31 2020-09-15 International Business Machines Corporation Wake command nullification for digital assistance and voice recognition technologies
KR102303699B1 (ko) * 2018-06-29 2021-09-17 한화시스템 주식회사 항공기용 음성 인식 기반 처리 방법
KR102283196B1 (ko) * 2018-06-29 2021-07-29 한화시스템 주식회사 항공기용 음성 인식 기반 처리 방법
RU2763392C1 (ru) * 2018-06-29 2021-12-28 Хуавэй Текнолоджиз Ко., Лтд. Способ голосового управления, носимое устройство и терминал
CN108874469B (zh) * 2018-07-16 2021-10-01 广东小天才科技有限公司 一种家教设备的应用管控方法及家教设备
US11348588B2 (en) * 2018-08-20 2022-05-31 Samsung Electronics Co., Ltd. Electronic device and operation method for performing speech recognition
CN110970020A (zh) * 2018-09-29 2020-04-07 成都启英泰伦科技有限公司 一种利用声纹提取有效语音信号的方法
CN109473101B (zh) * 2018-12-20 2021-08-20 瑞芯微电子股份有限公司 一种差异化随机问答的语音芯片结构和方法
JP7310346B2 (ja) * 2019-06-18 2023-07-19 セイコーエプソン株式会社 印刷システム、印刷方法、情報処理装置、及び、情報処理プログラム
CN110689895B (zh) * 2019-09-06 2021-04-02 北京捷通华声科技股份有限公司 语音校验方法、装置、电子设备及可读存储介质
CN111048100B (zh) * 2019-11-21 2023-09-08 深圳市东进银通电子有限公司 一种大数据并行化声纹辨认***和方法
CN112992133A (zh) * 2019-12-02 2021-06-18 杭州智芯科微电子科技有限公司 声音信号控制方法、***、可读存储介质和设备
CN111341325A (zh) * 2020-02-13 2020-06-26 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质、电子装置
CN112309406A (zh) * 2020-09-21 2021-02-02 北京沃东天骏信息技术有限公司 声纹注册方法、装置和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358095A (ja) 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
US20090048839A1 (en) 2007-08-17 2009-02-19 Kabushiki Kaisha Toshiba Speech recognition apparatus and method thereof
US20110022386A1 (en) * 2009-07-22 2011-01-27 Cisco Technology, Inc. Speech recognition tuning tool
US20120123786A1 (en) 2009-12-17 2012-05-17 David Valin Method for identifying and protecting information
US20120249328A1 (en) 2009-10-10 2012-10-04 Dianyuan Xiong Cross Monitoring Method and System Based on Voiceprint Recognition and Location Tracking
US20130173268A1 (en) * 2011-12-29 2013-07-04 Robert Bosch Gmbh Speaker verification in a health monitoring system
JP2014092777A (ja) 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
JP2001289661A (ja) * 2000-04-07 2001-10-19 Alpine Electronics Inc ナビゲーション装置
EP1189206B1 (en) 2000-09-19 2006-05-31 Thomson Licensing Voice control of electronic devices
KR20050023941A (ko) 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
US8286071B1 (en) * 2006-06-29 2012-10-09 Escription, Inc. Insertion of standard text in transcriptions
KR100779242B1 (ko) 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
KR100911830B1 (ko) 2007-09-03 2009-08-13 한국전자통신연구원 화자 기록 장치 및 방법
KR101529918B1 (ko) 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358095A (ja) 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
US20090048839A1 (en) 2007-08-17 2009-02-19 Kabushiki Kaisha Toshiba Speech recognition apparatus and method thereof
US20110022386A1 (en) * 2009-07-22 2011-01-27 Cisco Technology, Inc. Speech recognition tuning tool
US20120249328A1 (en) 2009-10-10 2012-10-04 Dianyuan Xiong Cross Monitoring Method and System Based on Voiceprint Recognition and Location Tracking
US20120123786A1 (en) 2009-12-17 2012-05-17 David Valin Method for identifying and protecting information
US20130173268A1 (en) * 2011-12-29 2013-07-04 Robert Bosch Gmbh Speaker verification in a health monitoring system
JP2014092777A (ja) 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動

Also Published As

Publication number Publication date
US20160035349A1 (en) 2016-02-04
KR20160014465A (ko) 2016-02-11
US9484029B2 (en) 2016-11-01

Similar Documents

Publication Publication Date Title
KR102246900B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
US11984119B2 (en) Electronic device and voice recognition method thereof
KR102245747B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
EP3039531B1 (en) Display apparatus and controlling method thereof
KR102357321B1 (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
US20150279369A1 (en) Display apparatus and user interaction method thereof
KR102158315B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR20150089145A (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102494051B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102456588B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102599069B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR20230007994A (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant