KR102371697B1 - 음성 기능 운용 방법 및 이를 지원하는 전자 장치 - Google Patents

음성 기능 운용 방법 및 이를 지원하는 전자 장치 Download PDF

Info

Publication number
KR102371697B1
KR102371697B1 KR1020150020786A KR20150020786A KR102371697B1 KR 102371697 B1 KR102371697 B1 KR 102371697B1 KR 1020150020786 A KR1020150020786 A KR 1020150020786A KR 20150020786 A KR20150020786 A KR 20150020786A KR 102371697 B1 KR102371697 B1 KR 102371697B1
Authority
KR
South Korea
Prior art keywords
information
voice
function
utterance
speaker
Prior art date
Application number
KR1020150020786A
Other languages
English (en)
Other versions
KR20160098771A (ko
Inventor
차클라달 서브호지트
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150020786A priority Critical patent/KR102371697B1/ko
Priority to US15/017,957 priority patent/US20160232893A1/en
Priority to EP16155228.6A priority patent/EP3057093B1/en
Priority to PCT/KR2016/001383 priority patent/WO2016129930A1/en
Priority to CN201680008892.7A priority patent/CN107210040B/zh
Publication of KR20160098771A publication Critical patent/KR20160098771A/ko
Priority to US15/998,997 priority patent/US10733978B2/en
Application granted granted Critical
Publication of KR102371697B1 publication Critical patent/KR102371697B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Calculators And Similar Devices (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 개시는 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 메모리, 상기 복수 발화 정보의 적어도 일부에 기반하여 음성 인식 정보를 생성하는 제어 모듈을 포함하고, 상기 제어 모듈은 상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하고, 상기 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 상기 음성 인식 정보를 생성하도록 제어하는 전자 장치를 개시한다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.

Description

음성 기능 운용 방법 및 이를 지원하는 전자 장치{Operating Method for Voice function and electronic device supporting the same}
본 발명의 다양한 실시 예들은 음성 기능 운용과 관련된다.
전자 장치는 마이크 등을 포함하고, 사용자 음성을 수집 및 인식할 수 있는 기능을 제공하고 있다. 예컨대, 최근 전자 장치는 사용자 음성을 인식하고, 인식된 음성에 대응하는 정보를 출력하는 기능을 제공하고 있다.
한편, 종래 음성 기능은 수집된 음성의 내용만을 파악하고, 그에 대응하는 서비스를 제공하고 있다. 이에 따라, 종래 전자 장치의 음성 기능 제공 방식은 음성을 입력하는 사람의 구별 없이 특정 기능을 제공할 수 있는 상태에 있다.
본 발명의 다양한 실시 예들은, 전자 장치의 음성 기능을 지정된 사용자(화자별)에 종속적으로 운용될 수 있도록 지원하는 음성 기능 운용 방법 및 이를 지원하는 전자 장치를 제공할 수 있다.
또한, 본 발명의 다양한 실시 예들은, 입력된 오디오 신호의 종류에 따라 선택적인 음성 기능을 제공할 수 있는 음성 기능 운용 방법 및 이를 지원하는 전자 장치를 제공할 수 있다.
본 발명의 다양한 실시 예에 따른 전자 장치는, 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 메모리, 상기 복수 발화 정보의 적어도 일부에 기반하여 음성 인식 정보를 생성하는 제어 모듈을 포함하고, 상기 제어 모듈은 상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하고, 상기 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 상기 음성 인식 정보를 생성하도록 제어할 수 있다.
또한, 본 발명의 음성 기능 운용 방법은 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 동작, 상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하는 동작, 선택된 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 음성 인식 정보를 생성하는 동작을 포함할 수 있다.
본 발명의 다양한 실시 예에 따르면, 다양한 실시 예는 화자별로 운용할 수 있는 음성 기능의 종류 또는 음성 인식에 의해 실행할 수 있는 어플리케이션의 종류 등을 화자 종속적으로 처리할 수 있다.
이에 따라, 다양한 실시 예는 전자 장치의 음성 기능과 관련한 보안성을 확보할 수 있다.
도 1은 다양한 실시 예에 따른 음성 개인화 기능 제공 환경을 설명하기 위한 도면이다.
도 2는 다양한 실시 예에 따른 음성 기능 지원 전자 장치의 한 예를 나타낸 도면이다.
도 3은 다양한 실시 예에 따른 제어 모듈의 한 예를 나타낸 도면이다.
도 4는 다양한 실시 예에 따른 화자 종속 설정과 관련한 후보군 처리 방식과 관련한 도면이다.
도 5는 다양한 실시 예에 따른 음성 개인화 정보 갱신과 관련한 도면이다.
도 6은 다양한 실시 예에 따른 음성 기능 운용 중 음성 개인화 방법을 설명하는 도면이다.
도 7은 다양한 실시 예에 따른 음성 개인화 정보 갱신 방법을 설명하는 도면이다.
도 8은 다양한 실시 예에 따른 음성 개인화 기능 실행과 관련한 화면 인터페이스의 한 예이다.
도 9는 다양한 실시 예에 따른 음성 개인화 정보 설정과 관련한 화면 인터페이스의 한 예이다.
도 10은 다양한 실시 예에 따른 전자 장치의 한 예를 나타낸 도면이다.
도 11은 다양한 실시 예에 따른 전자 장치의 다른 한 예를 나타낸 도면이다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
다양한 실시 예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 일반적으로 사용되는 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미를 가지는 것으로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 발명의 실시 예들을 배제하도록 해석될 수 없다.
이하, 첨부 도면을 참조하여, 다양한 실시 예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
도 1은 다양한 실시 예에 따른 음성 개인화 기능 제공 환경을 설명하기 위한 도면이다.
도 1을 참조하면, 음성 개인화 기능 제공 환경은 화자 종속 설정과 관련하여 복수의 화자들(10a, 10b, 10c)이 입력하는 오디오 신호를 수신할 수 있는 전자 장치의 제1 상태 음성 기능 모듈(10s)을 제공할 수 있다. 제1 상태 음성 기능 모듈(10s)은 음성 개인화 기능이 적용되기 이전 음성 기능 제공과 관련한 소프트웨어 모듈 또는 하드웨어 모듈 중 적어도 하나를 포함할 수 있다. 다수의 화자들(10a, 10b, 10c) 중 적어도 하나의 화자는 제1 상태 음성 기능 모듈(10s)을 이용하여 음성(또는 발화 정보) 입력을 수행할 수 있다.
다양한 실시 예에 따르면, 제1 상태 음성 기능 모듈(10s)은 다수의 화자들(10a, 10b, 10c)이 입력한 음성(또는 발화 정보)에 따른 음성 명령 기능(예: 수집된 음성의 음성 인식 후, 인식 결과에 따른 음성 명령을 분석하고, 분석된 결과에 대응하여 전자 장치가 제공 가능한 기능을 실행하거나 정보를 출력하는 기능)을 실행할 수 있다. 이와 관련하여, 다수의 화자들(10a, 10b, 10c)은 제1 상태 음성 기능 모듈(10s)에 포함된 적어도 하나의 마이크를 이용하여 음성(또는 발화, 또는 발화 정보) 입력을 수행할 수 있다.
제1 상태 음성 기능 모듈(10s)은 음성 개인화 기능(예: 화자별로 구분되어 지정된 전자 장치 이용이 제한하는 기능)이 미적용된 상태여서, 화자 식별을 수행하지 않고, 다수의 화자들(10a, 10b, 10c)에 대한 후보 데이터들(또는 화자 발화 정보, 또는 화자별 발화 정보)을 수집할 수 있다. 후보 데이터 수집 동작은 지정된 조건에 대응하여 자동으로 수행될 수 있다. 예컨대, 후보 데이터 수집 동작은 음성 기능 수행 중에 자동으로 수행될 수 있다. 또는 후보 데이터 수집 동작은 마이크 활성화 동작 중에 자동으로 수행될 수 있다. 다양한 실시 예에 따르면 후보 데이터 수집 동작은 음성 인식이 성공한 데이터에 대해서만 수행될 수도 있다.
한 실시 예에 따르면, 상기 제1 상태 음성 기능 모듈(10s)은 제1 화자(10a)와 관련한 제1 후보 데이터들(11a)을 수집할 수 있다. 또한, 제1 상태 음성 기능 모듈(10s)은 제2 화자(10b)와 관련한 제2 후보 데이터(11b), 제3 화자(10c)와 관련한 제3 후보 데이터(11c)를 수집할 수 있다. 제1 상태 음성 기능 모듈(10s)은 후보 데이터들이 지정된 개수 이상 수집되거나 또는 지정된 시간 동안 후보 데이터들 수집이 완료되면, 음성 기능 개인화 처리(또는 음성 인식 기능 개인화 처리)를 수행할 수 있다. 예컨대, 제1 상태 음성 기능 모듈(10s)은 다수의 후보 데이터들을 분석하여, 제1 화자(10a)와 관련한 제1 후보 데이터들(11a)로 구성된 화자 인식 모델(또는 음성 인식 정보, 또는 음성 인식 모델 정보)을 음성 개인화 정보로 등록할 수 있다. 이에 따라, 제1 상태 음성 기능 모듈(10s)은 제2 상태 음성 기능 모듈(10p)로 동작(또는 변경)될 수 있다. 상기 제1 상태 음성 기능 모듈(10s)은 수집된 후보 데이터들을 로컬(예: 자신의 메모리)에 저장할 수 있다. 또는 제1 상태 음성 기능 모듈(10s)은 지정된 서버 장치에 수집된 후보 데이터들을 제공할 수 있다. 서버 장치에 수집된 후보 데이터들이 전송되는 경우, 후보 데이터들에 대한 인식 모델 훈련은 서버 장치에서 수행될 수도 있다.
제2 상태 음성 기능 모듈(10p)은 음성 기능 실행 중에 화자들의 발화 정보가 수집되면, 이를 분석하고, 등록된 음성 개인화 정보와 비교할 수 있다. 제2 상태 음성 기능 모듈(10p)은 비교 결과, 음성 개인화 정보로 등록된 화자 인식 모델에 대응되는 것으로 판단된 경우 입력된 발화 정보의 분석 결과에 대응하는 기능 수행을 처리할 수 있다. 제2 상태 음성 기능 모듈(10p)은 비교 결과, 입력된 발화 정보가 음성 개인화 정보로 등록된 화자 인식 모델과 다른 제2 화자(10b) 또는 제3 화자(10c)의 발화 정보인 경우 발화 정보에 해당하는 기능 수행을 하지 않거나 지정된 정책에 대응하여 제한된 기능 수행을 할 수 있다. 이 때, 제2 상태 음성 기능 모듈(10p)은 기능 수행 불가 메시지 또는 기능 제한 수행 메시지를 출력할 수 있다. 상술한 바와 같이 다양한 실시 예에 따른 음성 개인화 기능 제공 환경은 음성 개인화 정보 등록을 기반으로 전자 장치의 기능 수행을 화자 종속적으로 처리(예: 지정된 화자의 음성(또는 발화 정보)만을 유효한 정보로 처리하거나, 다른 화자 음성(또는 발화 정보)을 제한적으로 처리)할 수 있다.
도 2는 다양한 실시 예에 따른 음성 기능 지원 전자 장치의 한 예를 나타낸 도면이다.
도 2를 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(130), 마이크 모듈(140), 디스플레이(150), 제어 모듈(160)(또는 프로세서)을 포함할 수 있다.
상술한 전자 장치(100)는 마이크 모듈(140)을 이용하여 후보 데이터를 수집하고, 제어 모듈(160)을 운용하여 후보 데이터 처리, 음성 개인화 정보(예: 지정된 화자 인식 모델) 등록, 음성 개인화 정보 적용 등을 수행할 수 있다. 상술한 처리를 기반으로 상기 전자 장치(100)는 화자 종속적 기능 지원을 위한 음성 개인화 기능 처리를 할 수 있다.
상기 통신 인터페이스(110)는 전자 장치(100)의 통신 기능과 관련한 처리를 수행할 수 있다. 예컨대, 통신 인터페이스(110)는 전자 장치(100)의 통화 기능, 영상 통화 기능 등과 관련하여 서버 장치 등과 통신 채널을 형성할 수 있다. 이와 관련하여, 통신 인터페이스(110)는 2G, 3G, 4G, LTE, 5G 등 다양한 통신 방식을 지원할 수 있는 적어도 하나의 통신 모듈 또는 통신 칩을 포함할 수 있다. 또한, 통신 인터페이스(110)는 단일 주파수 대역 또는 다중 주파수 대역을 커버할 수 있는 적어도 하나의 안테나를 포함할 수 있다. 다양한 실시 예에 따르면, 통신 인터페이스(110)는 전자 장치(100)의 데이터 전송 기능 또는 통화 기능 등의 처리와 관련하여 다른 전자 장치와 근거리 통신 채널을 형성할 수 있다.
한 실시 예에 따르면, 통신 인터페이스(110)는 음성 기능과 연동되어 운용될 수 있다. 예컨대, 음성 기능 중 통화 기능 또는 음성 인식 기반의 메시지 송수신 기능 처리 등과 관련하여, 통신 인터페이스(110)는 통신 채널을 형성할 수 있다. 또한 통신 인터페이스(110)는 음성 명령 기능 처리와 관련하여, 음성(또는 발화 정보) 분석 및 그에 따른 정보를 제공하는 서버 장치와의 통신 채널을 형성할 수 있다.
다양한 실시 예에 따르면, 통신 인터페이스(110)는 음성 개인화 기능 적용과 관련하여 제한적으로 운용될 수 있다. 예컨대, 통신 인터페이스(110)는 음성 개인화 정보로 등록된 지정된 화자 인식 모델에 대응하는 발화 정보 입력에 따라서 활성화될 수 있다. 또는 통신 인터페이스(110)는 지정된 화자의 발화 정보 입력에 대응하여 지정된 서버 장치(예: 금융 정보, 주식 정보, 특정 정보를 운용하는 웹 서버 장치)와 통신 채널을 형성할 수 있다.
상기 메모리(130)는 전자 장치(100) 운용과 관련한 다양한 정보를 저장할 수 있다. 예컨대, 메모리(130)는 전자 장치(100) 운용에 필요한 운영체제, 사용자 기능 지원과 관련한 적어도 하나의 프로그램 등을 저장할 수 있다. 한 실시 예에 따르면, 메모리(130)는 음성 개인화 기능 지원과 관련하여, 음성 개인화 프로그램을 저장할 수 있다. 또한, 메모리(130)는 음성 개인화 프로그램 운용과 관련한 음성 데이터 정보(131), 음성 개인화 정보(133)를 저장할 수 있다.
상기 음성 데이터 정보(131)는 적어도 하나의 화자가 입력한 음성 신호(발화 정보) 또는 마이크 모듈(140)이 활성화되는 시점에 수집된 오디오 신호를 포함할 수 있다. 한 실시 예에 따르면, 노이즈 또는 사람의 음성 영역대 이외의 영역대가 제거된 발화 정보들이 음성 데이터 정보(131)의 후보 데이터들로서 저장될 수 있다. 한 실시 예에 따르면, 음성 데이터 정보(131)는 발화 구간이 지정된 시간 이상의 길이를 가지는 발화 정보들을 복수의 후보 데이터들로 포함할 수 있다. 또한, 음성 데이터 정보(131)는 지정된 개수의 발화 정보들을 후보 데이터들로 포함하거나, 또는 지정된 시간 동안 수집된 발화 정보들을 후보 데이터들로 포함할 수 있다. 상기 음성 데이터 정보(131) 수집 기능은 음성 기능 실행과 관련하여 마이크 모듈(140)이 활성화되는 경우 자동으로 실행될 수 있다. 그리고 음성 데이터 정보(131) 수집이 완료되면 자동으로 종료될 수 있다. 다양한 실시 예에 따르면, 음성 데이터 정보(131) 수집 기능은 지정된 음성 인식이 성공한 경우 자동으로 실행되고, 수집 완료 직후 또는 지정된 시간 경과 시 자동으로 종료될 수 있다.
상기 음성 개인화 정보(133)는 음성 데이터 정보(131)에 지정된 알고리즘을 적용하여 선출된 후보 데이터들과 관련한 정보일 수 있다. 예컨대, 음성 개인화 정보(133)는 음성 데이터 정보(131)에 포함된 다수의 후보 데이터들 중 지정된 화자와 관련한 후보 데이터들(예: 음성 데이터 정보(131) 중에서 상대적으로 많은 개체수를 가지는 후보 데이터들)로 생성된 화자 인식 모델일 수 있다. 또는 음성 개인화 정보(133)는 지정된 화자와 관련한 후보 데이터들을 모델링한 후보 모델들일 수 있다. 또는 음성 개인화 정보(133)는 지정된 화자의 후보 데이터들 중 어느 하나이거나, 후보 데이터들 각각에서 검출된 오디오 특징점들을 취합한 정보이거나, 오디오 특징점들로 구성된 화자 인식 모델일 수 있다.
한 실시 예에 따르면, 음성 개인화 정보(133)는 발화 기준 정보(예: ‘hi galaxy'와 같이 문자 또는 숫자 등의 읽을 수 있는 지정된 정보)를 지정된 화자가 발화한 발화 정보(예: ‘hi galaxy'와 같은 발화 기준 정보를 지정된 화자가 발화한 신호 또는 정보)를 구성하는 적어도 하나의 음소 모델(예: 발화 정보를 h, ai, g, ae, l, ax, k, s, iy와 같이 음소 단위로 구분한 신호 또는 정보)을 포함할 수 있다. 또한, 화자의 목 상태나 주변 상황 등에 따라 화자가 동일한 발화 기준 정보를 발화하더라도 동일 기준 음소(예: 발화 기준 정보를 음소 단위로 구분한 정보로서, hi, ga, lax, sy 등)에 대해 다양한 형태의 다른 음소 모델들(예: 동일한 음소모델 예컨대, ‘ha’와 관련하여 음의 높낮이나 톤, 음색 등이 다른 음소 단위 신호들 또는 정보들)이 획득될 수 있다. 예컨대, 기준 음소 ‘hi’에 대응하는 음소 모델로서 “h-a” 또는 ‘h-ai’가 수집될 수 있는데, 이러한 “h-a”또는 ‘h-ai’는 상황별로 음색이나 톤, 높낮이가 다양한 다른 형태의 음소 모델로 수집될 수 있다. 상술한 바와 같이, 음성 개인화 정보(133)는 지정된 발화 기준 정보(예: 적어도 하나의 지정된 단어, 구, 절, 문장 등)를 발화한 발화 정보에 포함된 적어도 하나의 음소 모델들을 포함하며, 하나의 기준 음소에 대하여 하나 또는 복수개의 상황별 음소 모델들이 연계되거나 또는 하나의 기준 음소를 지시하도록 포함될 수 있다.
상기 마이크 모듈(140)은 적어도 하나의 마이크를 포함할 수 있다. 하나의 마이크가 배치되는 경우, 마이크 모듈(140)은 제어 모듈(160)의 제어에 따라 마이크를 활성화하고, 활성화된 마이크를 통해 수집된 오디오 신호를 제어 모듈(160)에 전달할 수 있다. 또는 마이크 모듈(140)은 제어 모듈(160) 제어에 따라 전자 장치(100)에 전원이 공급되는 동안 또는 제어 모듈(160)이 동작하고 있는 동안 온 상태를 유지하여 오디오 신호를 수집할 수도 있다. 다양한 실시 예에 따르면, 마이크 모듈(140)은 복수개가 배치될 수 있다. 상기 마이크 모듈(140)은 예컨대, 음성 데이터 정보(131)에 대응하는 후보 데이터들의 수집 시 자동으로 활성화될 수 있다. 예컨대, 전자 장치(100)는 온 상태이면 후보 데이터들 수집을 위하여 마이크 모듈(140)을 지정된 시간 동안 또는 지정된 후보 데이터들의 개수가 충족될 때까지 자동으로 마이크 모듈(140)을 활성화하여 후보 데이터에 대응하는 발화 정보를 수집할 수 있다. 또는 전자 장치(100)는 마이크 모듈(140)이 활성화되면(예: 음성 기능 실행에 따라 활성화) 후보 데이터 수집이 필요한지 여부를 확인하여 자동으로 발화 정보 수집을 수행할 수 있다.
상기 디스플레이(150)는 전자 장치(100) 운용과 관련한 다양한 화면을 출력할 수 있다. 예컨대, 디스플레이(150)는 락 스크린 화면, 메뉴 화면, 홈 화면, 적어도 하나의 아이콘이 배치된 화면, 배경 이미지가 출력된 화면, 특정 기능 실행 화면 등을 출력할 수 있다. 한 실시 예에 따르면, 디스플레이(150)는 음성 기능 실행과 관련한 화면을 출력할 수 있다. 예컨대, 디스플레이(150)는 음성 명령 기능 실행과 관련한 화면, 음성 녹음 기능 실행과 관련한 화면, 음성 통화 기능 실행과 관련한 화면, 음성 인식 기능 실행과 관련한 화면 등을 해당 어플리케이션 실행에 대응하여 출력할 수 있다.
또한, 디스플레이(150)는 음성 개인화 기능 운용과 관련한 적어도 하나의 정보(예: 텍스트, 이미지 등)를 출력할 수 있다. 예컨대, 디스플레이(150)는 음성 개인화 기능 설정과 관련한 아이콘이나, 메뉴, 인디케이터, 안내 텍스트 중 적어도 하나를 출력할 수 있다. 또한, 디스플레이(150)는 음성 개인화 기능 적용 중임을 안내하는 텍스트, 인디케이터 등을 출력할 수 있다. 또한, 디스플레이(150)는 음성 개인화 기능 설정 화면을 사용자 입력 제어에 대응하여 출력할 수도 있다. 추가적으로 또는 대체적으로, 전자 장치(100)는 스피커 또는 진동 모듈, 램프 등의 다양한 정보 출력 수단을 더 포함할 수 있다. 상기 정보 출력 수단은 음성 개인화 기능 운용과 관련한 다양한 정보를 오디오, 지정된 적어도 하나의 진동 패턴, 지정된 적어도 하나의 점멸 패턴을 이용하여 출력할 수 있다.
상기 제어 모듈(160)은 전자 장치(100) 운용과 관련한 신호의 흐름 제어, 신호 처리 제어, 정보 처리 등을 수행할 수 있다. 예컨대, 상기 제어 모듈(160)은 음성 개인화 기능 설정 처리(예: 음성 개인화 정보(133) 등록을 위한 음성 데이터 정보(131) 수집 설정 처리)를 제어할 수 있다. 제어 모듈(160)은 음성 데이터 정보(131) 수집 완료 시 음성 개인화 정보(133) 추출 및 등록을 처리할 수 있다. 제어 모듈(160)은 등록된 음성 개인화 정보(133)를 기반으로 음성 개인화 기능 적용을 처리할 수 있다. 상술한 제어를 기반으로, 제어 모듈(160)은 지정된 화자가 입력한 발화 정보에 대응하여 지정된 음성 기능이 적용되도록 처리하고, 지정되지 않은 화자가 입력한 발화 정보에 대응하여 음성 기능 실행을 제한하거나, 제한된 기능 실행을 지원할 수 있다.
도 3은 다양한 실시 예에 따른 제어 모듈의 한 예를 나타낸 도면이다.
도 3을 참조하면, 제어 모듈(160)은 마이크 제어 모듈(161), 음성 데이터 수집 모듈(163), 정보 처리 모듈(165), 정보 갱신 모듈(167)을 포함할 수 있다.
상기 마이크 제어 모듈(161)은 마이크 모듈(140)의 활성화 및 오디오 신호의 수집을 제어할 수 있다. 예컨대, 마이크 제어 모듈(161)은 전자 장치(100)가 온 상태이면 설정에 따라 마이크 모듈(140)을 온 상태(예: always on 상태)로 유지할 수 있다. 마이크 제어 모듈(161)은 마이크 모듈(140)에 복수개의 마이크가 포함되어 있는 경우, 복수개의 마이크들을 운용 제어할 수 있다.
한 실시 예에 따르면, 마이크 제어 모듈(161)은 마이크 모듈(140)로부터 오디오 신호가 수집되면, 수집된 오디오 신호를 음성 데이터 수집 모듈(163)에 전달할 수 있다. 이 동작에서, 상기 마이크 제어 모듈(161)은 수집된 오디오 신호가 사람이 발화한 음성 주파수 대역의 신호(또는 발화 정보)인 경우 음성 데이터 수집 모듈(163)에 전달하고, 음성 주파수 대역 이외의 신호인 경우에는 노이즈 처리(또는 무시)할 수 있다. 또는 마이크 제어 모듈(161)은 수집된 신호의 주파수 대역에 관계없이 음성 데이터 수집 모듈(163)에 전달할 수도 있다. 다양한 실시 예에 따르면 마이크 제어 모듈(161)은 음성 인식이 성공한 데이터에 대해서만 음성 데이터 수집 모듈(163)에 전달할 수도 있다.
상기 마이크 제어 모듈(161)은 음성 개인화 기능 설정과 관련한 후보 데이터들의 수집 동작을 마이크 모듈(140) 활성화 시 자동으로 수행하도록 제어할 수 있다. 예컨대, 마이크 제어 모듈(161)은 음성 통화 기능, 음성 명령 기능, 음성 인식 기능, 녹음 기능 등의 실행을 위하여 마이크 모듈(140)이 활성화되면, 음성 개인화 정보(133) 등록 여부를 확인할 수 있다. 마이크 제어 모듈(161)은 음성 개인화 정보(133)가 미등록 상태이면, 자동으로 음성 데이터 정보(131)로 이용될 발화 정보들을 수집하여 음성 데이터 수집 모듈(163)에 제공할 수 있다. 마이크 제어 모듈(161)은 음성 개인화 정보(133)가 등록된 상태이면, 자동으로 음성 데이터 정보(131)로 이용할 발화 정보 수집을 중지하도록 제어할 수 있다.
상기 음성 데이터 수집 모듈(163)은 마이크 제어 모듈(161)이 주파수 대역에 관계없이 오디오 신호를 제공하는 경우, 해당 오디오 신호가 사람의 발화에 의한 신호인지 분석할 수 있다. 그리고 음성 데이터 수집 모듈(163)은 음성 주파수 대역에 해당하는 발화 정보들을 예비 후보군 정보로 수집할 수 있다. 마이크 제어 모듈(161)은 발화 정보들을 전송하도록 설계된 경우, 음성 데이터 수집 모듈(163)의 발화 정보 분류 동작은 생략될 수 있다.
상기 음성 데이터 수집 모듈(163)은 예비 후보군 정보에서 지정된 조건을 만족하는 예비 후보 데이터들을 음성 데이터 정보(131)의 후보 데이터들로 분류할 수 있다. 예컨대, 음성 데이터 수집 모듈(163)은 예비 후보 데이터의 길이(예: 발화 시간)가 지정된 길이 이상인 데이터들만을 음성 데이터 정보(131)의 후보 데이터들로 분류할 수 있다. 또한, 음성 데이터 수집 모듈(163)은 지정된 발화 기준 정보와 관련한 예비 후보 데이터들만을 후보 데이터들로 분류할 수 있다.
다양한 실시 예에 따르면, 음성 데이터 수집 모듈(163)은 음성 데이터 정보(131) 수집과 관련한 시간 또는 후보 데이터들의 개수를 지정할 수 있다. 예를 들어, 음성 데이터 수집 모듈(163)은 전자 장치(100)가 지정된 개인 정보(예: 서비스 사업자가 제공하는 개인 전화 번호)가 할당된 이후 또는 지정된 기지국 최초 접속 이후 등 특정 이벤트 발생된 이후 음성 데이터 정보(131)를 지정된 시간 동안 수집하도록 제어할 수 있다. 또는 음성 데이터 수집 모듈(163)은 지정된 시간 동안 오프 상태를 가진 이후 온 상태가 되는 경우 지정된 시간 동안 음성 데이터 정보(131)를 수집하도록 제어할 수도 있다. 또한, 음성 데이터 수집 모듈(163)은 음성 개인화 기능 설정 시작 이후 지정된 후보 데이터들의 수가 수집될 때까지 음성 데이터 정보(131)를 수집할 수 있다. 후보 데이터들의 수는 음성 개인화 기능 정책 설정에 따라 변경되거나 사용자 설정에 따라 변경될 수 있다. 상기 음성 데이터 수집 모듈(163)은 지정된 개수의 후보 데이터들 또는 지정된 시간 동안 수집된 후보 데이터들을 포함하는 음성 데이터 정보(131)를 정보 처리 모듈(165)에 제공할 수 있다.
상기 정보 처리 모듈(165)은 음성 데이터 정보(131)로부터 음성 개인화 정보(133)를 선출할 수 있다. 예컨대, 정보 처리 모듈(165)은 음성 데이터 정보(131)에 임의의 후보 데이터를 선택하고, 선택된 후보 데이터와 다른 후보 데이터와의 음성 특징(예: 음색 등 화자별 고유 특성을 가지는 음성 특징) 비교를 수행할 수 있다. 정보 처리 모듈(165)은 특징 비교를 통해 후보 데이터들을 분류(예: 클러스터링)할 수 있다. 이 때, 벡터 양자화(Vector Quantization) 방법과 같은 비지도학습(unsupervised learning) 방법이 이용될 수 있다. 정보 처리 모듈(165)은 분류된 후보 데이터들 중 상대적으로 많은 데이터 수를 가진 후보 데이터를 선출할 수 있다. 상기 임의의 후보 데이터는 예컨대, 최초 수집된 후보 데이터 또는 마지막 수집된 후보 데이터, 또는 지정된 일정 시간대에서 수집된 후보 데이터 등이 선택될 수 있다.
상기 정보 처리 모듈(165)은 선출된 후보 데이터(또는 후보 데이터들)를 음성 개인화 정보(133)로 등록할 수 있다. 이 동작에서 정보 처리 모듈(165)은 음성 개인화 정보(133) 등록 여부를 안내하고, 사용자 승인을 요청할 수도 있다. 예컨대, 정보 처리 모듈(165)은 지정된 후보 데이터들을 음성 개인화 정보(133)로 등록할지를 묻는 팝업창 등을 제공하고, 사용자 확인에 따라 음성 개인화 정보(133) 등록을 처리할 수 있다. 후보 데이터들의 구분을 위하여 정보 처리 모듈(165)은 후보 데이터들이 수집된 시간 정보 또는 후보 데이터들의 음성 인식 정보 등을 함께 출력하도록 제어할 수도 있다.
정보 처리 모듈(165)은 음성 명령 기능 실행 등 지정된 음성 기능 실행 시, 수집된 발화 정보와 등록된 음성 개인화 정보(133)에 기반하여 화자 식별을 수행할 수 있다. 정보 처리 모듈(165)은 화자 식별에 따라 실행할 기능을 차별화할 수 있다. 예컨대, 정보 처리 모듈(165)은 음성 개인화 정보(133)에 등록된 화자의 발화 정보가 수집된 경우, 발화 정보 인식에 따라 수행할 기능을 실행할 수 있다. 또는 정보 처리 모듈(165)은 음성 개인화 정보(133)에 등록되지 않은 화자의 발화 정보가 수집된 경우, 발화 정보에 대응하는 기능 실행 또는 정보 출력을 수행할 수 없음을 안내할 수 있다.
상기 정보 처리 모듈(165)은 음성 데이터 정보(131)에 포함된 데이터들을 기반으로 모델링을 수행하는 과정에서 다양한 조건에서의 트레이닝(multi-condition training)을 수행할 수 있다. 이와 관련하여, 정보 처리 모듈(165)은 음성 데이터 정보(131)에 포함된 데이터들에 대하여 다양한 효과 처리를 수행할 수 있다. 예컨대, 정보 처리 모듈(165)은 음성 데이터 정보(131)에 포함된 데이터에 지정된 음장 효과를 제공하고 그에 따른 후보 데이터를 생성하거나, 지정된 노이즈를 결합한 후보 데이터를 생성할 수 있다. 정보 처리 모듈(165)은 다중 조건 트레이닝된 후보 데이터(예: 지정된 음장 효과가 가미된 데이터 또는 노이즈 가미된 데이터)들을 다른 음성 데이터 정보(131)에 포함된 데이터들과 함께 적용하여 음성 개인화 정보(133)로 등록할 화자 모델을 추출할 수 있다. 다양한 실시 예에 따르면, 정보 처리 모듈(165)은 음성 데이터 정보(131)에 포함된 후보 데이터들의 클러스터링 이후 상대적으로 많은 수의 후보 데이터들을 가진 클러스터에 포함된 후보 데이터들과 관련하여, 다중 조건 트레이닝 모델들을 생성할 수 있다. 그리고, 정보 처리 모듈(165)은 지정된 화자의 클러스터에 포함된 후보 데이터들을 기반으로 생성된 다중 조건 트레이닝 모델들을 화자 인식 모델 산출에 이용하도록 제어할 수 있다.
상기 정보 처리 모듈(165)은 음성 데이터 정보(131)에 포함된 후보 데이터들에 대한 화자 모델링 과정에서, UBM(Universal Background Model)을 이용할 수 있다. UBM 정보는 다양한 사람들의 발화 정보의 특징(feature)들을 기반하여 생성된 통계 모델 있다. UBM 정보는 음성 데이터 정보(131)에서 지정된 화자의 화자 인식 모델을 산출하는 과정에서 비화자 데이터에 기반한여 생성될 수 있다. 비화자 데이터는 상기 기술된 클러스터링 방식에 기반하여 화자 데이터와 구분 되어질 수 있다.
상기 정보 갱신 모듈(167)은 음성 개인화 정보(133)의 변경 또는 적응 또는 보강을 처리할 수 있다. 이와 관련하여, 정보 갱신 모듈(167)은 마이크 제어 모듈(161)에 요청하여 마이크 모듈(140)이 수집한 오디오 신호를 수신하고, 음성 개인화 정보(133)를 적응할 정보를 추출할 수 있다. 예를 들어, 정보 갱신 모듈(167)은 수집된 오디오 신호가 사용자의 발화 정보(음성 기능과 관련한 wakeup 오디오 신호 또는 음성 명령(command) 오디오 신호 중 적어도 하나를 포함)를 포함하는지 확인하고, 발화 정보가 포함된 경우, 지정된 음성 개인화 정보(133)에 포함된 음소 모델들에 대응하는 음소들이 수집된 발화 정보에 포함되어 있는지 확인할 수 있다. 이 동작에서, 정보 갱신 모듈(167)은 수집된 발화 정보의 음성 인식을 수행하여 음성 개인화 정보(133)에 포함된 음소 모델들에 대응하는 새 음소 샘플들을 수집하고, 이를 기반으로 음소 모델의 훈련을 수행할 수 있다. 그리고 정보 갱신 모듈(167)은 음소 모델 훈련에 따른 음성 개인화 정보(133)의 음소 모델들의 보강(또는 적응 등)을 할 수 있다.
상기 정보 갱신 모듈(167)은 수집된 발화 정보를 이용하여 적응된 음성 개인화 정보(133)의 적응률(또는 적응 정도, 또는 보강율)을 확인할 수 있다. 예컨대, 정보 갱신 모듈(167)은 새로 수집된 발화 정보에 의해 음성 개인화 정보(133)의 정보 갱신 빈도가 지정된 값 이상인지 확인할 수 있다. 이미 획득된 발화 정보인 경우 별도의 갱신이 발생하지 않을 수 있다. 정보 갱신 모듈(167)은 갱신 빈도가 크면(일정 개수의 수집된 발화 정보 중 갱신을 위해 이용된 발화 정보들의 수가 지정된 값 이상) 적응율이 높은 것으로 판단하고, 갱신 빈도가 낮으면 적응율이 낮은 것으로 판단하고 음성 개인화 정보(133) 적응을 중지하도록 제어할 수 있다.
상기 정보 갱신 모듈(167)은 음성 개인화 정보(133) 적응과 관련하여 마이크 모듈(140)이 활성화되는 시점에 자동으로 발화 정보를 수집할 수 있다. 정보 갱신 모듈(167)은 음성 개인화 정보(133) 적응 기능이 종료된 경우(예: 적응율이 지정된 조건 이하인 경우) 음성 개인화 정보(133) 적응과 관련한 발화 정보 수집을 자동으로 종료할 수 있다. 정보 갱신 모듈(167)은 적응 관련 발화 정보 수집 시작과 자동 종료에 관련하여 지정된 정보를 디스플레이(150) 등을 통하여 출력하도록 제어할 수 있다.
도 4는 다양한 실시 예에 따른 화자 종속 설정과 관련한 후보군 처리 방식과 관련한 도면이다.
도 4를 참조하면, 전자 장치(100)는 지정된 시간 동안 또는 지정된 개수의 음성 데이터 정보(131)를 수집할 수 있다. 수집된 음성 데이터 정보(131)은 예컨대, 3명의 화자들이 각각 발화한 후보 데이터들에 대응하는 발화 정보들(401a, 401b, 401c)을 포함할 수 있다. 발화 정보들(401a, 401b, 401c)의 수집이 완료되면, 전자 장치(100)는 발화 정보들(401a, 401b, 401c)의 분류를 수행할 수 있다.
이와 관련하여, 전자 장치(100)는 수집된 발화 정보들(401a, 401b, 401c) 중 어느 하나의 임의 발화 정보(401)를 지정된 조건에 대응하여 선택할 수 있다. 전자 장치(100)는 임의 발화 정보(401)가 선택되면, 임의 발화 정보(401)를 지정된 방식에 따라 제1 임시 모델(460a)로 변환할 수 있다. 제1 임시 모델(460a)이 생성되면, 전자 장치(100)는 제1 임시 모델(460a)과발화 정보들(401a, 401b, 401c)과의 비교를 수행하고 각각의 발화 정보들(401a, 401b, 401c)에 대한 스코어를 할당할 수 있다. 예컨대, 전자 장치(100)는 제1 임시 모델(460a)과 유사한 발화 정보에 낮은 스코어를 할당하고, 제1 임시 모델(460a)과 유사성이 없는 화자 발화 정보에 높은 스코어를 할당할 수 있다. 전자 장치(100)는 발화 정보들(401a, 401b, 401c)을 스코어 순으로 정렬할 수 있다.
그리고, 전자 장치(100)는 발화 정보들(401a, 401b, 401c)을 도면의 중앙에 배치된 형태와 같이 스코어 순으로 클러스터링할 수 있다. 도시된 도면을 보면, 제1 발화자가 발화한 제1 발화 정보(401a)들 중에 3개의 데이터와 제2 발화자가 발화한 제2 발화 정보(401b)들 중 하나의 데이터가 하나의 그룹으로 클러스터링될 수 있다. 또한 제1 발화자가 발화한 하나의 제1 발화 정보(401a), 제2 발화 정보(401b) 및 제3 발화 정보(401c)가 각각 별도의 그룹으로 클러스터링될 수 있다.
전자 장치(100)는 스코어가 낮은 발화 정보들로 클러스터링된 정보들(403)을 이용하여 제2 임시 모델(460b)을 검출할 수 있다. 그리고, 전자 장치(100)는 클러스터링된 정보들(403)을 기반으로 생성된 제2 임시 모델(460b)과 발화 정보들(401a, 401b, 401c)과의 비교를 수행할 수 있다. 이에 따라, 도시된 바와 같이, 제1 발화 정보(401a)가 가장 낮은 스코어들(또는 지정된 문턱 값 이상의 스코어)을 획득하게 되고, 제2 발화 정보(401b) 및 제3 발화 정보(401c)는 상대적으로 높은 스코어(또는 지정된 문턱 값 이하의 스코어)를 획득하게 된다. 이를 기반으로, 전자 장치(100)는 도시된 바와 같이 클러스터링을 재수행함으로써, 제1 발화 정보(401a)들로 구성된 클러스터, 제2 발화 정보(401b)들로 구성된 클러스터, 제3 발화 정보(401c)로 구성된 클러스터를 획득할 수 있다. 상술한 결과를 토대로 전자 장치(100)는 제1 발화 정보(401a)들로 구성된 클러스터를 음성 개인화 정보(133)로 등록할 수 있다.
도 5는 다양한 실시 예에 따른 음성 개인화 정보 갱신과 관련한 도면이다.
도 5를 참조하면, 지정된 화자의 음성 개인화 정보(133)가 도시된 바와 같이 발화 기준 정보“Hi Galaxy” 에 대응하는 오디오 정보일 수 있다. 이 경우, 앞서 설명한 바와 같이, 음성 개인화 정보(133)는 도시된 바와 같이 “h-ai-g-ae-l-ax-k-s-iy” 각각에 대한 음소 모델들을 포함할 수 있다. 한 실시 예에 따르면, 음소 모델로서, 음성 개인화 정보(133)는 예컨대 “ha” 등록 음소 모델(501)을 포함할 수 있다. 또한, 음성 개인화 정보(133)는 화자가 “Hi galaxy”를 발화할 때에 해당하는 등록 음소 모델(501)과 관련한 등록 주파수 모델(510)을 포함할 수 있다.
전자 장치(100)는 마이크 모듈(140)을 지정된 조건에 활성화할 수 있다. 마이크 모듈(140)은 도시된 바와 같이 지정된 화자가 발화 기준 정보 예컨대, ”How`s the weather?”를 발화한 오디오 정보를 수집할 수 있다. 이 경우, 전자 장치(100)는 발화 기준 정보에 대한 음소 모델들 “h-aw-s-th-ax-w-eh-th-er”을 추출할 수 있다. 전자 장치(100)는 수집된 음소 모델들 중 동일한 “ha” 새 음소 모델(503)을 수집할 수 있다. 그리고 전자 장치(100)는 새 음소 모델(503)에 대응하는 새 주파수 모델(530)을 수집할 수 있다.
상기 전자 장치(100)는 동일한 음소 모델인 “ha”에 대응하여 새로 수집된 새 음소 모델(503)과 새 주파수 모델(530)을 등록 음소 모델(501) 및 등록 주파수 모델(510)에 연계하여 저장하거나 또는 통합하여 하나의 음소 모델군으로 저장할 수 있다. 상술한 바와 같이 전자 장치(100)는 지정된 화자가 발화하는 발화 정보에서 음소 모델과 주파수 모델을 추출하여, 등록된 음성 개인화 정보(133)의 모델군을 확장시킬 수 있다. 이를 기반으로, 전자 장치(100)는 음성 개인화 정보(133)로 등록된 지정된 발화 기준 정보를 지정된 화자가 다양한 상황에서 발화하더라도 올바르게 인식할 수 있다.
상술한 바와 같이, 다양한 실시 예에 따르면, 한 실시 예에 따른 전자 장치는 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 메모리, 상기 복수 발화 정보의 적어도 일부에 기반하여 음성 인식 정보를 생성하는 제어 모듈을 포함하고, 상기 제어 모듈은 상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하고, 상기 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 상기 음성 인식 정보를 생성하도록 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 음성 인식 정보를 상기 음성인식에 적용하기 위한 메시지를 출력하도록 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 지정된 시간 동안 또는 지정된 발화 정보들의 개수가 충족될 때까지 상기 발화 정보들을 수집하도록 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 복수 발화 정보의 다중 조건 트레이닝 모델들을 생성하여 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 이용할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 화자 발화 정보들의 다중 조건 트레이닝 모델들을 생성하여 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 이용할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 음성 개인화 정보에 대응하는 지정된 화자가 입력한 다른 발화 정보를 수집하여 상기 음성 개인화 정보의 모델을 적응하도록 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 음성 개인화 정보에 포함된 등록 음소 모델에 대응하는 음소 샘플을 상기 지정된 화자가 입력한 발화 정보에서 추출하여 상기 등록 음소 모델을 적응하는데 이용하도록 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 새로 입력된 새 발화 정보가 상기 음성 개인화 정보에 대응하는 지정된 화자의 발화가 아닌 경우 상기 새 발화 정보에 따른 기능 실행 처리 불가 메시지를 출력하도록 제어하거나, 상기 새 발화 정보가 요청하는 기능의 종류에 따라 선택적으로 기능 실행을 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 기능이 지정된 보안 기능인 경우 기능을 수행하지 않도록 제어하고, 상기 기능이 지정되지 않은 비보안 기능인 경우 기능을 수행하도록 제어할 수 있다.
다양한 실시 예에 따르면, 상기 제어 모듈은 상기 음성 개인화 정보를 기반으로 지정된 화자의 발화 정보 입력에 따라 음성 기능을 기반으로 실행할 적어도 하나의 기능 항목을 설정하는 설정 화면을 출력하도록 제어할 수 있다.
상술한 바와 같이, 다양한 실시 예에 따르면, 한 실시 예에 따른 전자 장치는 발화 정보들을 후보 데이터들로서 포함하는 음성 데이터 정보를 저장하는 메모리, 상기 후보 데이터들로부터 하나의 화자 관련 정보를 선출하도록 제어하는 제어 모듈을 포함하고, 상기 제어 모듈은 상기 후보 데이터들을 상호 유사성을 기준으로 클러스터링하고, 동일 유사성을 가진 후보 데이터들이 상대적으로 많은 후보 데이터들을 기반으로, 지정된 발화 정보 입력 여부에 따라 기능 실행을 제한하는데 이용할 지정된 음성 개인화 정보를 등록하도록 제어할 수 있다.
도 6은 다양한 실시 예에 따른 음성 기능 운용 중 음성 개인화 방법을 설명하는 도면이다.
도 6을 참조하면, 음성 개인화 방법에 있어서, 동작 601에서 전자 장치(100)의 제어 모듈(160)은 이벤트가 발생하면, 발생된 이벤트가 음성 개인화 기능 설정과 관련한 이벤트 인지 확인할 수 있다. 예컨대, 제어 모듈(160)은 발생된 이벤트가 음성 개인화를 위하여 지정된 기능을 실행시키는 이벤트인지 또는 음성 개인화 기능 자동 실행과 관련하여 발생하는 지정된 이벤트인지, 또는 음성 인식 기능 등 지정된 기능을 실행시키는 이벤트인지 등을 확인할 수 있다.
음성 개인화 기능 설정과 관련한 이벤트가 아니면, 동작 603에서 제어 모듈(160)은 발생된 이벤트 종류에 따른 기능 실행을 제어할 수 있다. 예컨대, 제어 모듈(160)은 이벤트 종류를 확인하고, 이벤트 종류에 따라 음성 파일 재생, 지정된 파일 전송, 통화 기능 실행, 웹 접속 기능 실행 등을 처리할 수 있다.
음성 개인화 기능 설정과 관련한 이벤트 발생이면, 동작 605에서, 제어 모듈(160)은 음성 데이터 정보(131)로서 후보 데이터들을 수집할 수 있다. 이와 관련하여, 제어 모듈(160)은 마이크 모듈(140)을 지정된 시점 또는 전자 장치(100)가 온 상태이면 항상 활성화할 수 있다. 제어 모듈(160)은 활성화된 마이크 모듈(140)을 이용하여 지정된 주기 또는 실시간, 또는 지정된 크기 이상의 오디오 신호 발생 시 지정된 개수의 후보 데이터들을 수집할 수 있다. 한 실시 예에 따르면, 제어 모듈(160)은 후보 데이터들이 지정된 개수가 될 때까지 후보군 수집 동작을 수행할 수 있다. 한 실시 예에 따르면, 제어 모듈(160)은 전자 장치(100)를 구매한 후, 지정된 시간 동안(예: 1시간, 1일, 1주일, 1달 등) 자동으로 마이크 모듈(140)을 활성화하여 후보 데이터들을 수집할 수 있다. 또는 제어 모듈(160)은 음성 기능(예: 통화 기능, 음성 인식 기능, 녹음 기능, 음성 명령 기능 등) 운용 시 지정된 시간 동안 또는 지정된 후보 데이터들을 수집할 때까지 후보 데이터들을 수집할 수 있다.
동작 607에서, 제어 모듈(160)은 음성 데이터 정보(131) 처리 및 음성 개인화 정보(133) 추출을 수행할 수 있다. 예컨대, 제어 모듈(160)은 수집된 음성 데이터 정보(131)들의 임시 모델링과 비교 및 클러스터링을 수행하여 동일한 화자가 발화한 후보 데이터들을 포함하는 클러스터들을 추출할 수 있다. 제어 모듈(160)은 추출된 클러스터들의 데이터들의 개수들을 비교하여 가장 많은 데이터들을 포함하는 클러스터의 후보 데이터들을 음성 개인화 정보(133)로서 추출하여, 등록할 수 있다.
동작 609에서, 제어 모듈(160)은 음성 개인화 정보 적용을 처리할 수 있다. 제어 모듈(160)은 음성 개인화 정보(133)가 등록되면, 이후 입력되는 화자 발화 정보를 음성 개인화 정보(133)의 데이터들과 비교하여 유사성을 확인할 수 있다. 그리고 제어 모듈(160)은 유사성이 지정된 조건을 만족하는 경우(예: 유사도가 지정된 값 이상인 경우) 지정된 화자의 발화 정보로 인식할 수 있다. 제어 모듈(160)은 지정된 화자의 발화 정보로 판단되면, 해당 발화 정보에 대한 음성 기능 처리를 제어할 수 있다. 예컨대, 제어 모듈(160)은 발화 정보에 대한 음성 인식을 수행하고, 인식 결과에 따른 지정된 기능 실행을 제어할 수 있다. 또는 제어 모듈(160)은 음성 인식 결과에 대한 전자 장치(100) 내부 정보 검색 및 결과 출력, 음성 인식 결과와 관련한 외부 서버 장치를 이용한 정보 검색 및 결과 출력 중 적어도 하나를 지원할 수 있다.
또는 제어 모듈(160)은 지정된 화자의 발화 정보가 아니면, 지정된 화자가 아님을 안내하는 안내 텍스트를 출력하거나, 또는 사용자 설정 또는 설정된 정책에 따라 지정된 기능 수행을 지원할 수 있다. 예컨대, 제어 모듈(160)은 외부 서버 장치를 이용한 발화 정보의 음성 인식 결과와 관련한 정보 검색 및 출력을 수행할 수 있다. 또는 지정된 화자가 아닌 경우, 제어 모듈(160)은 사용자 설정 또는 정책에 따라 발화 정보에 의해 실행할 기능의 종류 또는 정보의 종류를 확인하고, 제한적으로 또는 선택적으로 기능 실행 또는 정보 출력을 수행할 수 있다.
도 7은 다양한 실시 예에 따른 음성 개인화 정보 갱신 방법을 설명하는 도면이다.
도 7을 참조하면, 음성 개인화 정보 갱신 방법에 있어서, 동작 701에서, 제어 모듈(160)은 음성 개인화 기능 실행 중이거나 또는 발생된 이벤트가 음성 개인화 기능 실행과 관련한 이벤트인지 확인할 수 있다. 음성 개인화 기능이 비실행 중이거나 또는 관련 이벤트 발생이 없으면, 동작 703에서, 제어 모듈(160)은 지정된 기능 실행 또는 지정된 상태 제어를 지원할 수 있다. 예컨대, 제어 모듈(160)은 발생되는 이벤트 종류에 대응하여 카메라 기능을 지원하거나 음악 재생 기능을 지원할 수 있다. 또는 제어 모듈(160)은 슬립 모드 상태를 유지할 수 있다.
음성 개인화 기능 실행과 관련한 설정(예: 자동으로 always on 상태를 지원하는 설정)이 있거나, 이벤트(음성 개인화 기능 실행과 관련하여 마이크 모듈(140)을 활성화하도록 요청하는 이벤트) 발생이 있으면, 동작 705에서, 제어 모듈(160)은 적응(또는 보강) 정보 수집을 수행할 수 있다. 예컨대, 제어 모듈(160)은마이크 모듈(140)을 활성화여 지정된 길이 이상의 발화 정보 또는 지정된 발화 기준 정보에 해당하는 발화 정보 등을 수집할 수 있다.
동작 707에서, 제어 모듈(160)은 음성 개인화 정보 적응을 수행할 수 있다. 한 실시 예에 따르면, 제어 모듈(160)은 지정된 화자가 발화한 다양한 정보들로부터 음소 모델들을 수집하고, 음성 개인화 정보(133)로 등록된 음소 모델들과 동일한 기준 음소를 가지는 음소 모델들과 연계하여 저장하거나 통합할 수 있다. 또는 제어 모듈(160)은 지정된 발화 기준 정보에 대응하는 발화 정보만을 수집하고, 수집된 발화 정보에서 동일한 기준 음소들에 대응하는 음소 모델들을 하나로 모델군으로 통합하여 관리할 수 있다.
동작 709에서, 제어 모듈(160)은 적응율(또는 적응 정도, 또는 보강율)이 지정 조건을 만족하는지 여부를 확인할 수 있다. 예컨대, 제어 모듈(160)은 수집된 발화 정보에서의 음소 모델들과 관리되고 있는 음소 모델들과의 유사도 및 그에 따라 정보 갱신 비율을 확인하고, 갱신 비율 또는 갱신 빈도 수에 따라 적응율을 지정할 수 있다. 적응율이 지정 조건을 만족하지 못하는 경우, 제어 모듈(160)은 동작 701 이전으로 분기하여 이하 기능을 재수행하도록 처리할 수 있다. 적응율이 지정 조건을 만족하는 경우, 제어 모듈(160)은 음성 개인화 정보 적응 기능을 종료하도록 처리할 수 있다.
도 8은 다양한 실시 예에 따른 음성 개인화 기능 실행과 관련한 화면 인터페이스의 한 예이다.
도 8을 참조하면, 전자 장치(100)의 제어 모듈(160)은 화면 801에서와 같이 음성 기능(예: 음성 명령 기능) 활성화에 대응하는 화면을 디스플레이(150)에 출력하도록 제어할 수 있다. 이 동작에서, 제어 모듈(160)은 개인화 기능 적용 이전 상태인 경우 개인화 기능 설정 중임을 안내하는 안내 메시지(811)를 출력할 수 있다. 안내 메시지(811)는 음성 개인화 기능 설정과 관련하여 후보군 정보를 수집하고 있음을 안내하는 텍스트 또는 이미지 중 적어도 하나를 포함할 수 있다. 상기 안내 메시지(811)은 설정에 따라 또는 사용자 입력에 따라 출력이 생략될 수도 있다. 또는 도시된 바와 같이 제어 모듈(160)은 지정된 영역 (예: 인디케이터 영역)에 개인화 기능 설정 중임을 안내하는 제1 인디케이터(810)를 출력하도록 제어할 수도 있다.
개인화 기능 설정 중인 상태에서 특정 오디오 신호가 입력되면, 제어 모듈(160)은 주파수 대역을 확인하여 수집된 오디오 신호가 음성에 해당하는 발화 정보인지 확인할 수 있다. 발화 정보인 경우, 제어 모듈(160)은 음성 데이터 정보(131)로서 수집할 수 있다. 또는 제어 모듈(160)은 발화 정보라 하더라도 지정된 조건(예: 일정 길이 이상의 발화 정보 또는 지정된 발화 기준 정보에 대응하는 발화 정보)을 만족하는지 확인할 수 있다. 제어 모듈(160)은 지정된 조건을 만족하는 발화 정보들을 음성 데이터 정보(131)로서 수집할 수 있다. 다양한 실시 예에 따르면, 제어 모듈(160)은 수집된 오디오 신호를 음성 데이터 정보(131)로서 수집하거나 또는 일정 길이 이상 신호 있는 상태가 유지되는 오디오 신호를 음성 데이터 정보(131)로서 수집할 수도 있다. 그리고 제어 모듈(160)은 음성 데이터 정보(131)가 지정된 양 또는 지정된 시간 동안 수집되면, 수집된 음성 데이터 정보(131)의 평가 과정에서 발화 정보의 구분, 발화 기준 정보에 대응하는지에 대한 여부 등을 평가할 수도 있다.
음성 개인화 기능 실행을 위한 음성 데이터 정보(131) 수집 및 처리가 완료되어 음성 개인화 정보(133)가 등록되면, 제어 모듈(160)은 화면 803에서와 같이, 개인화 기능 적용 중임을 안내하는 안내 메시지(831)를 출력하도록 제어할 수 있다. 상기 안내 메시지(831)는 음성 개인화 기능 적용 중인 상태임을 나타내는 텍스트 또는 이미지 중 적어도 하나를 포함할 수 있다. 상기 안내 메시지(831)는 설정에 따라 또는 사용자 입력 제어에 따라 출력이 생략될 수도 있다. 또는 제어 모듈(160)은 음성 개인화 기능 적용 중임을 안내하는 제2 인디케이터(830)를 지정된 영역(예: 인디케이터 영역)에 출력하도록 제어할 수도 있다.
제어 모듈(160)은 지정된 개수나 지정된 시간, 또는 지정된 양 만큼의 충분한 음성샘플이 수집된 후, 음성 모델링을 위한 훈련을 수행할 수 있다. 제어 모듈(160)은 훈련된 결과가 지정된 양(예: 지정된 신뢰도 또는 지정된 개체수 이상)을 가짐으로써, 충분한 화자인식 성능을 보인다고 판단되면 사용자에게 개인화 음성인식 기능 사용을 유도하는 추천 또는 선택 메시지를 제공할 수 있다. 이 동작에서 제어 모듈(160)은 모델 갱신에 대한 사용자 허락을 요청(예: 팝업 메시지 출력에 따른 확인 등)할 수 있다.
개인화 기능 적용 중인 상태에서 오디오 신호가 입력되면, 제어 모듈(160)은 입력된 오디오 신호에 대한 분석을 수행할 수 있다. 오디오 신호 분석에 따라, 제어 모듈(160)은 분석에 따른 기능 실행을 지원하거나 또는 제한적인 기능 실행을 지원할 수 있다. 예컨대, 제어 모듈(160)은 제1 음성 명령어(820)가 수집되면, 이를 분석하여 비보안 관련 기능 실행 요청으로 분류할 수 있다. 한 실시 예에 따르면, 제어 모듈(160)은 분석된 제1 음성 명령어(820)에 지정되지 않은 단어(예: 날씨, 뉴스, 버스 정보 등)가 포함되어 있는 경우 비보안 관련 기능 실행 요청으로 분류할 수 있다. 또는 제어 모듈(160)은 제1 음성 명령어(820)에 지정된 단어(예: 비용, 카드, 메일, 메시지, 통화 목록 등)가 포함되어 있지 않는 경우 비보안 관련 기능 실행 요청으로 분류할 수 있다. 또는 제어 모듈(160)은 제1 음성 명령어(820)에 의해 실행할 어플리케이션의 종류가 보안 관련 기능인지 또는 비보안 관련 기능인지 판단할 수 있다. 이와 관련하여, 전자 장치(100)는 어플리케이션 종류별 보안 관련 기능 또는 비보안 관련 기능에 대한 분류 정보를 포함할 수 있다.
비보안 관련 기능 또는 사용자가 화자 종속 기능으로 지정하지 않은 기능에 관한 제1 음성 명령어(820)가 수집되면, 제어 모듈(160)은제1 음성 명령어(820)에 대한 정보 수집 및 출력을 수행할 수 있다. 예컨대, 제어 모듈(160)은 화면 805에서와 같이 제1 음성 명령어(820)에 대응하는 제1 음성 인식 정보(851)를 출력하고, 제1 음성 인식 정보(851)에 대응하는 기능 실행 또는 검색 실행에 따른 제1 실행 정보(853)를 출력할 수 있다.
음성 개인화 기능 적용 중인 상태에서, 제2 음성 명령어(840)가 수집되면, 제어 모듈(160)은 제2 음성 명령어(840)에 대한 화자 분석(예: 음성 개인화 정보(133)와의 비교)을 수행하고, 분석된 화자 정보가 등록된 화자인 경우에만 제2 음성 명령어(840)에 대한 처리를 수행할 수 있다. 이때, 제어 모듈(160)은 분석에 따른 화자가 등록되지 않은 화자로 판단되면, 제2 음성 명령어(840) 처리 불가와 관련한 메시지 출력을 수행할 수 있다.
다양한 실시 예에 따르면, 제어 모듈(160)은 수집된 제2 음성 명령어(840)를 판단하고, 제2 음성 명령어(840)가 보안 관련 기능 또는 화자 종속 기능으로 지정된 기능과 관련한 것인지 판단할 수 있다. 제어 모듈(160)은 제2 음성 명령어(840)가 비보안 관련 기능 또는 화자 종속 미지정 기능과 관련한 경우에는 별도의 음성 개인화 정보(133) 확인 절차 없이 제2 음성 명령어(840)에 따른 기능 수행을 처리할 수 있다. 또는 제어 모듈(160)은 제2 음성 명령어(840)가 보안 관련 기능 또는 화자 종속 지정 기능과 관련한 경우 제2 음성 명령어(840)의 화자를 음성 개인화 정보(133)로 확인할 수 있다. 그리고, 제어 모듈(160)은 지정된 화자로 판단되면, 제2 음성 명령어(840)에 대응하는 기능을 실행할 수 있다. 지정된 화자가 입력한 발화 정보가 아니면, 제2 음성 명령어(840)에 대응하여, 제어 모듈(160)은 807 화면에서와 같이 기능 실행 불가 또는 본인 확인 등의 제한 메시지(873)를 출력할 수 있다. 이때, 제어 모듈(160)은 선택적으로 제2 음성 명령어(840)에 대한 제2 음성 인식 정보(871)를 출력할 수도 있다.
도 9는 다양한 실시 예에 따른 음성 개인화 정보 설정과 관련한 화면 인터페이스의 한 예이다.
도 9를 참조하면, 전자 장치(100)의 제어 모듈(160)은 음성 기능 설정과 관련한 이벤트가 발생하면, 화면 901에서와 같이 설정 화면을 디스플레이(150)에 출력하도록 제어할 수 있다. 설정 화면은 예컨대, 외부 서버 이용 항목, 개인화 기능 운용 항목, 음성 출력 항목 등 음성 기능 설정과 관련한 항목들을 포함할 수 있다. 개인화 기능 운용 항목의 경우 개인화 기능 설정 또는 적용과 관련하여 도시된 바와 같이 가상 리셋 버튼(911)이 할당될 수 있다.
가상 리셋 버튼(911)이 선택되면, 제어 모듈(160)은 개인화 기능 설정과 관련하여 또는 개인화 기능 적용과 관련하여 획득한 음성 데이터 정보(131) 또는 음성 개인화 정보(133)를 리셋할 수 있도록 지원할 수 있다. 이와 관련하여, 제어 모듈(160)은 화면 903에서와 같이 초기화와 관련한 팝업창(931)을 디스플레이(150)에 출력하도록 제어할 수 있다. 팝업창(931)은 예컨대 초기화를 안내하는 메시지와 사용자 인증을 위한 인증 정보 입력 영역 등을 포함할 수 있다.
화면 901에서, 개인화 기능 운용과 관련하여 메뉴 항목(913)이 선택되면, 제어 모듈(160)은 개인화 기능 운용과 관련한 메뉴 화면을 화면 905에서와 같이 출력할 수 있다. 메뉴 화면은 예컨대, 음성 개인화 기능을 적용할 적어도 하나의 어플리케이션을 선택할 수 있는 항목들을 포함할 수 있다. 예컨대, 메뉴 화면은 전체 기능 항목(951), 비밀번호 설정된 기능 항목(953), 사용자 지정 항목(955)을 포함할 수 있다.
상기 전체 기능 항목(951)은 전자 장치(100)에 설치된 어플리케이션들이 지원하는 기능 모두를 지정된 화자만이 음성 기능으로 이용할 수 있도록 제한하는 항목일 수 있다. 상기 전체 기능 항목(951) 설정이 해제된 경우, 전자 장치(100)는 화자 지정 없이 다양한 사용자들의 발화 정보에 따른 음성 기능을 운용할 수 있다.
상기 비밀번호 설정된 기능 항목(953)은 보안 기능과 관련한 기능 항목들을 지정된 화자의 발화 정보 및 음성 기능 기반으로 이용할 수 있도록 제한하는 항목일 수 있다. 한 실시 예에 따르면, 비밀번호 설정된 기능 항목(953) 선택 시, 전자 장치(100)는 제공되는 어플리케이션들 중 사용자 지정에 따라 운용 시 비밀번호 인증이 필요한 기능들 또는 어플리케이션 운용 스케줄에 비밀번호 인증을 필요로 하는 기능들의 항목들을 제공할 수 있다. 어플리케이션에 설정된 비밀번호 설정 해제 시 비밀번호 설정된 기능 항목(953)에서 특정 기능이 제외될 수 있다.
상기 사용자 지정 항목(955)은 지정된 화자의 발화 정보 및 음성 기능 기반으로 이용할 어플리케이션 항목을 사용자가 지정할 수 있도록 지원하는 항목일 수 있다. 사용자 지정 항목(955)이 선택되면, 전자 장치(100)는 전자 장치(100)가 지원하는 어플리케이션들의 목록을 출력할 수 있다. 여기서, 전자 장치(100)는 비밀번호 설정된 기능 항목(953)은 사용자 지정 항목(955)과 관련한 목록에서 자동으로 제거하여 표시할 수 있다.
상술한 바와 같이, 다양한 실시 예에 따르면, 한 실시 예에 따른 음성 기능 운용 방법은 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 동작, 상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하는 동작, 선택된 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 음성 인식 정보를 생성하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 수집하는 동작은 지정된 시간 동안 상기 발화 정보를 수집하는 동작, 지정된 후보 데이터들의 개수가 충족될 때까지 상기 발화 정보들을 수집하는 동작 중 적어도 하나를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 음성 인식 정보를 상기 음성인식에 적용하기 위한 메시지를 출력하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 복수 발화 정보들의 다중 조건 트레이닝 모델들을 생성하는 동작, 상기 다중 조건 트레이닝 모델들을 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 적용하는 동작을 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 생성하는 동작은 상기 화자 발화 정보들의 다중 조건 트레이닝 모델들을 생성하는 동작, 상기 다중 조건 트레이닝 모델들을 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 적용하는 동작을 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 음성 개인화 정보에 대응하는 지정된 화자가 입력한 다른 발화 정보를 수집하는 동작, 상기 지정된 화자의 다른 발화 정보를 이용하여 음성 개인화 정보의 모델을 적응하는 동작을 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 적응하는 동작은 상기 음성 개인화 정보에 포함된 등록 음소 모델에 대응하는 음소 샘플을 상기 지정된 화자가 입력한 발화 정보에서 추출하여 상기 등록 음소 모델을 적응하는데 이용하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 새로 입력된 새 발화 정보가 상기 음성 개인화 정보에 대응하는 지정된 화자의 발화가 아닌 경우 상기 새 발화 정보에 따른 기능 실행 처리 불가 메시지를 출력하는 동작, 상기 새 발화 정보가 요청하는 기능의 종류에 따라 선택적으로 기능을 실행하는 동작을 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 기능을 실행하는 동작은 상기 기능이 지정된 보안 기능인 경우 기능을 수행하지 않도록 제어하는 동작, 상기 기능이 지정되지 않은 비보안 기능인 경우 기능을 수행하도록 제어하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 음성 개인화 정보를 기반으로 지정된 화자의 발화 정보 입력에 따라 음성 기능을 기반으로 실행할 적어도 하나의 기능 항목을 설정하는 설정 화면을 출력하는 동작을 더 포함할 수 있다.
상술한 바와 같이, 다양한 실시 예에 따르면, 한 실시 예에 따른 음성 기능 운용 방법은 발화 정보들을 후보 데이터들로서 수집하는 동작, 상기 후보 데이터들을 상호 유사성을 기준으로 클러스터링하는 동작, 동일 유사성을 가진 후보 데이터들이 상대적으로 많은 후보 데이터들을 기반으로, 지정된 발화 정보 입력 여부에 따라 기능 실행을 제한하는데 이용할 지정된 음성 개인화 정보를 등록하는 동작을 포함할 수 있다.
도 10은 다양한 실시 예에 따른 전자 장치의 한 예를 나타낸 도면이다.
도 10을 참조하면, 전자 장치(100)는 제어 모듈(1060) 및 마이크 모듈(1040)을 포함할 수 있다.
상기 마이크 모듈(1040)은 예컨대, 제1 마이크 내지 제N 마이크들(40_1, 40_2,,,, 40_N)을 포함할 수 있다. 제1 마이크 내지 제N 마이크들(40_1, 40_2,,,, 40_N)은 예컨대, 제어 모듈(1060)에 연결될 수 있다. 제1 마이크 내지 제N 마이크들(40_1, 40_2,,,, 40_N)은 예컨대 전자 장치(100)의 일측에 배치되데 상호간에 일정 간격 이격된 형태로 배치될 수 있다.
상기 제어 모듈(1060)은 마이크 모듈(1040)에 포함된 적어도 하나의 마이크들의 제어를 수행할 수 있다. 예컨대, 제어 모듈(1060)은 음성 개인화 기능 설정 시 제1 마이크(40_1)를 활성화하고, 제1 마이크(40_1)가 수집한 오디오 신호에 대한 분석을 수행할 수 있다. 그리고, 제어 모듈(1060)은 제1 마이크(40_1)를 이용하여 수집한 오디오 신호들을 음성 데이터 정보(131)로서 이용할 수 있다. 또는 제어 모듈(1060)은 제1 마이크 내지 제N 마이크들(40_1, 40_2,,,, 40_N)을 이용하여 음성 데이터 정보(131)에 해당하는 발화 정보들을 수집할 수도 있다. 또는 제어 모듈(1060)은 음성 데이터 정보(131) 수집에는 제1 마이크(40_1)만을 이용하여 음성 개인화 정보(133) 적응(또는 보강)을 위해서 제1 마이크 내지 제N 마이크들(40_1, 40_2,,,, 40_N)을 이용할 수도 있다.
always on 기능 수행에 따라 마이크 모듈(1040)을 온 상태로 유지해야 하는 경우, 전자 장치(100)는 제1 마이크(40_1)를 활성화하여 지정된 발화 기준 정보(예: hi galaxy)에 대응하는 발화 정보 수집이 있는지 확인할 수 있다. 전자 장치(100)는 발화 기준 정보에 대응하는 발화 정보 수집 이후 다른 마이크들을 활성화한 상태에서 수집되는 추가 발화 정보를 음성 개인화 정보(133) 적응에 이용할 수 있다. 이 동작에서 전자 장치(100)는 복수의 마이크들(40_1, 40_2,,,, 40_N)이 수집한 발화 정보에 따른 음성 기능 실행을 지원할 수도 있다.
상기 제어 모듈(1060)은 음성 개인화 기능 미 적용 상태에서는 제1 마이크(40_1)만을 이용하여 음성 기능을 지원할 수 있다. 그리고 제어 모듈(1060)은 음성 개인화 기능 적용 상태에서는 제1 마이크(40_1)를 이용하여 발화 기준 정보에 대응하는 발화 정보 검출을 수행하고, 복수의 마이크들(40_1, 40_2,,,, 40_N)을 이용하여 추가 발화 정보 수집을 수행할 수 있다.
또는 제어 모듈(1060)은 음성 개인화 기능 미 적용 상태에서는 제1 마이크(40_1)만을 이용하여 발화 정보 수집 및 발화 기준 정보 대응 여부를 분석할 수 있다. 음성 개인화 기능 적용 상태에서는 복수의 마이크(예: 제1 마이크(40_1)와 제2 마이크(40_2))를 이용하여 발화 기준 정보에 대응하는 발화 정보 수집 검출을 수행할 수 있다. 그리고 음성 개인화 기능 적용 상태에서 제어 모듈(1060)은 발화 기준 정보에 대응하는 발화 정보가 수집되면, 제1 내지 제N 마이크들(40_1, 40_2,,,, 40_N)을 활성화하여 추가 발화 정보 수집을 제어할 수 있다.
상술한 바와 같이, 전자 장치(100)는 복수의 마이크들(40_1, 40_2,,,, 40_N)의 운용을 효율적인 전력 사용과 관련하여 제어하거나, 보다 명확한 발화 정보 수집을 위해 제어할 수 있다.
도 11은 다양한 실시 예에 따른 전자 장치의 다른 한 예를 나타낸 도면이다.
도 11을 참조하면, 전자 장치(100)는 제어 모듈(1160) 및 마이크 모듈(1040)을 포함할 수 있다.
상기 마이크 모듈(1040)은 도 10에서 설명한 바와 유사하게, 제1 마이크 내지 제N 마이크들(40_1, 40_2,,,, 40_N)을 포함할 수 있다. 복수의 마이크들(40_1, 40_2,,,, 40_N)은 제어 모듈(1160)에 연결될 수 있다. 예컨대, 복수의 마이크들(40_1, 40_2,,,, 40_N) 중 제1 마이크(40_1)는 저전력 처리 모듈(1163)에 연결될 수 잇다. 복수의 마이크들(40_1, 40_2,,,, 40_N) 중 제N 마이크(40_N)는 메인 제어 모듈(1161)에 연결될 수 있다. 한편, 마이크 모듈(1040)에 포함된 제2 마이크 내지 제N 마이크들(40_2,,,,, 40_N)은 저전력 처리 모듈(1163) 및 메인 제어 모듈(1161)에 동시 연결될 수 있다. 또한, 제1 마이크(40_1)는 저전력 처리 모듈(1163)뿐만 아니라 메인 제어 모듈(1161)에도 연결될 수 있다. 이에 따라, 제1 마이크(40_1)는 수집한 오디오 신호를 제1 마이크(40_1)에 전달하고, 메인 제어 모듈(1161)이 깨움 상태이면, 수집한 오디오 신호를 메인 제어 모듈(1161)에 전달하거나 저전력 처리 모듈(1163) 및 메인 제어 모듈(1161)에 동시 전달할 수 있다.
상기 제어 모듈(1160)은 메인 제어 모듈(1161) 및 저전력 처리 모듈(1163)을 포함할 수 있다.
상기 저전력 처리 모듈(1163)은 메인 제어 모듈(1161)에 비하여 상대적으로 저전력으로 구동되는 프로세서일 수 있다. 예컨대, 저전력 처리 모듈(1163)은 오디오 신호 처리 전용 칩이거나, 센서 허브, 발화 정보 처리를 위해 전용으로 구성된 칩 등이 될 수 있다. 이러한 저전력 처리 모듈(1163)은 메인 제어 모듈(1161)이 슬립 상태에서 독립적으로 구동되어 마이크 모듈(1040)에 포함된 제1 마이크(40_1)의 구동 제어, 제1 마이크(40_1)가 수집한 오디오 신호의 분석을 처리할 수 있다. 예컨대, 저전력 처리 모듈(1163)은 제1 마이크(40_1)가 수집한 오디오 신호가, 음성에 해당하는 발화 정보인지, 또는 지정된 발화 기준 정보에 대응하는 발화 정보인지, 또는 지정된 화자가 발화한 발화 정보인지 등을 분석할 수 있다. 저전력 처리 모듈(1163)은 발화 정보가 지정된 조건을 만족하는 경우, 메인 제어 모듈(1161)을 깨울 수 있다. 이 동작에서 저전력 처리 모듈(1163)은 비활성화 상태인 제2 마이크 내지 제N 마이크들(40_2,,,,, 40_N)을 활성화하도록 제어할 수도 있다.
음성 기능 운용에서 상기 메인 제어 모듈(1161)은 효율적인 전력 운용과 관련하여, 슬립 상태를 유지하다가, 저전력 처리 모듈(1163)에 의해 깨움 상태를 가질 수 있다. 이 경우, 메인 제어 모듈(1161)은 제2 마이크 내지 제N 마이크들(40_2,,,,, 40_N)을 활성화하고, 추가 발화 정보 수집 및 분석 처리를 수행할 수 있다. 상기 메인 제어 모듈(1161)은 앞서 설명한 제어 모듈(160)이 수행하는 수집된 발화 정보들에 대한 음성 데이터 정보(131) 수집, 음성 개인화 정보(133) 등록, 음성 개인화 기능 적용에 따라 제한적인 음성 기능 수행 등을 제어할 수 있다.
본 문서에서 사용된 용어 "모듈"은, 예를 들면, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. "모듈"은, 예를 들면, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, "모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.
다양한 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다.
다양한 실시 예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
그리고 본 문서에 개시된 실시 예는 개시된 기술 내용의 설명 및 이해를 위해 제시된 것이며 본 발명의 범위를 한정하는 것은 아니다. 따라서, 본 문서의 범위는 본 발명의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시 예를 포함하는 것으로 해석되어야 한다.

Claims (20)

  1. 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 메모리;
    상기 복수 발화 정보의 적어도 일부에 기반하여 음성 인식 정보를 생성하는 제어 모듈;을 포함하고,
    상기 제어 모듈은
    상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하고, 상기 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 상기 음성 인식 정보를 생성하도록 제어하고,
    상기 음성 개인화 정보가 다른 화자에 의해 새롭게 입력되면, 상기 음성 개인화 정보에 의해 요구되는 기능과 관련하여 제한된 일부 기능 실행 및 상기 제한된 일부 기능 실행을 안내하는 메시지를 출력하도록 제어하는 전자 장치.
  2. 청구항 1에 있어서,
    상기 제어 모듈은
    상기 음성 인식 정보를 상기 음성인식에 적용하기 위한 메시지를 출력하도록 제어하는 전자 장치.
  3. 청구항 1에 있어서,
    상기 제어 모듈은
    지정된 시간 동안 또는 지정된 발화 정보들의 개수가 충족될 때까지 상기 발화 정보들을 수집하도록 제어하는 전자 장치.
  4. 청구항 1에 있어서,
    상기 제어 모듈은
    상기 복수 발화 정보의 다중 조건 트레이닝 모델들을 생성하여 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 이용하는 전자 장치.
  5. 청구항 1에 있어서,
    상기 제어 모듈은
    상기 화자 발화 정보들의 다중 조건 트레이닝 모델들을 생성하여 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 이용하는 전자 장치.
  6. 청구항 1에 있어서,
    상기 제어 모듈은
    상기 음성 개인화 정보에 대응하는 지정된 화자가 입력한 다른 발화 정보를 수집하여 상기 음성 개인화 정보의 모델을 적응하도록 제어하는 전자 장치.
  7. 청구항 6에 있어서,
    상기 제어 모듈은
    상기 음성 개인화 정보에 포함된 등록 음소 모델에 대응하는 음소 샘플을 상기 지정된 화자가 입력한 발화 정보에서 추출하여 상기 등록 음소 모델을 적응하는데 이용하도록 제어하는 전자 장치.
  8. 삭제
  9. 삭제
  10. 청구항 1에 있어서,
    상기 제어 모듈은
    상기 음성 개인화 정보를 기반으로 지정된 화자의 발화 정보 입력에 따라 음성 기능을 기반으로 실행할 적어도 하나의 기능 항목을 설정하는 설정 화면을 출력하도록 제어하는 전자 장치.
  11. 음성인식에 사용된 복수 발화 정보의 적어도 일부를 저장하는 동작;
    상기 복수 발화 정보의 적어도 일부에서 상호 유사성을 기준으로 화자 발화 정보를 선택하는 동작;
    선택된 화자 발화 정보에 기반하여 음성 개인화 정보로 등록할 음성 인식 정보를 생성하는 동작;을 포함하고,
    상기 음성 개인화 정보가 다른 화자에 의해 새롭게 입력되면, 상기 음성 개인화 정보에 의해 요구되는 기능과 관련하여 제한된 일부 기능 실행 및 상기 제한된 일부 기능 실행을 안내하는 메시지를 출력하는 동작;을 더 포함하는 음성 기능 운용 방법.
  12. ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 11에 있어서,
    지정된 시간 동안 상기 발화 정보를 수집하는 동작;
    지정된 후보 데이터들의 개수가 충족될 때까지 상기 발화 정보들을 수집하는 동작; 중 적어도 하나의 동작을 더 포함하는 음성 기능 운용 방법.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 11에 있어서,
    상기 음성 인식 정보를 상기 음성인식에 적용하기 위한 메시지를 출력하는 동작을 포함하는 음성 기능 운용 방법.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 11에 있어서,
    상기 복수 발화 정보들의 다중 조건 트레이닝 모델들을 생성하는 동작;
    상기 다중 조건 트레이닝 모델들을 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 적용하는 동작;을 더 포함하는 음성 기능 운용 방법.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 11에 있어서,
    상기 생성하는 동작은
    상기 화자 발화 정보들의 다중 조건 트레이닝 모델들을 생성하는 동작;
    상기 다중 조건 트레이닝 모델들을 상기 음성 개인화 정보로 등록할 음성 인식 정보 산출에 적용하는 동작;을 더 포함하는 음성 기능 운용 방법.
  16. ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 11에 있어서,
    상기 음성 개인화 정보에 대응하는 지정된 화자가 입력한 다른 발화 정보를 수집하는 동작;
    상기 지정된 화자의 다른 발화 정보를 이용하여 음성 개인화 정보의 모델을 적응하는 동작;을 더 포함하는 음성 기능 운용 방법.
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 16에 있어서,
    상기 적응하는 동작은
    상기 음성 개인화 정보에 포함된 등록 음소 모델에 대응하는 음소 샘플을 상기 지정된 화자가 입력한 발화 정보에서 추출하여 상기 등록 음소 모델을 적응하는데 이용하는 동작;을 포함하는 음성 기능 운용 방법.
  18. 삭제
  19. 삭제
  20. 청구항 11에 있어서,
    상기 음성 개인화 정보를 기반으로 지정된 화자의 발화 정보 입력에 따라 음성 기능을 기반으로 실행할 적어도 하나의 기능 항목을 설정하는 설정 화면을 출력하는 동작;을 더 포함하는 음성 기능 운용 방법.
KR1020150020786A 2015-02-11 2015-02-11 음성 기능 운용 방법 및 이를 지원하는 전자 장치 KR102371697B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020150020786A KR102371697B1 (ko) 2015-02-11 2015-02-11 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US15/017,957 US20160232893A1 (en) 2015-02-11 2016-02-08 Operating method for voice function and electronic device supporting the same
EP16155228.6A EP3057093B1 (en) 2015-02-11 2016-02-11 Operating method for voice function and electronic device supporting the same
PCT/KR2016/001383 WO2016129930A1 (en) 2015-02-11 2016-02-11 Operating method for voice function and electronic device supporting the same
CN201680008892.7A CN107210040B (zh) 2015-02-11 2016-02-11 语音功能的操作方法和支持该方法的电子设备
US15/998,997 US10733978B2 (en) 2015-02-11 2018-08-20 Operating method for voice function and electronic device supporting the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150020786A KR102371697B1 (ko) 2015-02-11 2015-02-11 음성 기능 운용 방법 및 이를 지원하는 전자 장치

Publications (2)

Publication Number Publication Date
KR20160098771A KR20160098771A (ko) 2016-08-19
KR102371697B1 true KR102371697B1 (ko) 2022-03-08

Family

ID=55349744

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150020786A KR102371697B1 (ko) 2015-02-11 2015-02-11 음성 기능 운용 방법 및 이를 지원하는 전자 장치

Country Status (5)

Country Link
US (2) US20160232893A1 (ko)
EP (1) EP3057093B1 (ko)
KR (1) KR102371697B1 (ko)
CN (1) CN107210040B (ko)
WO (1) WO2016129930A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US10931999B1 (en) * 2016-06-27 2021-02-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10271093B1 (en) * 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
KR102406718B1 (ko) * 2017-07-19 2022-06-10 삼성전자주식회사 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템
KR101995443B1 (ko) * 2017-07-26 2019-07-02 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
US11456005B2 (en) 2017-11-22 2022-09-27 Google Llc Audio-visual speech separation
CN108022584A (zh) * 2017-11-29 2018-05-11 芜湖星途机器人科技有限公司 办公室语音识别优化方法
KR102483834B1 (ko) 2018-01-17 2023-01-03 삼성전자주식회사 음성 명령을 이용한 사용자 인증 방법 및 전자 장치
KR102629424B1 (ko) * 2018-01-25 2024-01-25 삼성전자주식회사 보안 기능을 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
US10984795B2 (en) * 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
WO2019216461A1 (ko) * 2018-05-10 2019-11-14 주식회사 시스트란인터내셔널 인공지능 서비스 방법 및 이를 위한 장치
KR102595184B1 (ko) 2018-05-25 2023-10-30 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체
CN112313742A (zh) * 2018-08-23 2021-02-02 谷歌有限责任公司 根据多助理环境的特性来调节助理响应性
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
KR102655628B1 (ko) * 2018-11-22 2024-04-09 삼성전자주식회사 발화의 음성 데이터를 처리하는 방법 및 장치
KR102346026B1 (ko) 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11770872B2 (en) * 2019-07-19 2023-09-26 Jvckenwood Corporation Radio apparatus, radio communication system, and radio communication method
CN110706706A (zh) * 2019-11-01 2020-01-17 北京声智科技有限公司 一种语音识别方法、装置、服务器及存储介质
KR102392318B1 (ko) * 2022-01-17 2022-05-02 주식회사 하이 혼합 테스트에 기초하여 치매를 식별하는 기법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US20120245941A1 (en) * 2011-03-21 2012-09-27 Cheyer Adam J Device Access Using Voice Authentication

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
JP3014177B2 (ja) * 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
JPH07113838B2 (ja) * 1991-12-20 1995-12-06 松下電器産業株式会社 音声認識方法
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
JP2991288B2 (ja) * 1997-01-30 1999-12-20 日本電気株式会社 話者認識装置
US6014624A (en) * 1997-04-18 2000-01-11 Nynex Science And Technology, Inc. Method and apparatus for transitioning from one voice recognition system to another
EP1058926A1 (en) * 1998-03-03 2000-12-13 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
US6697779B1 (en) * 2000-09-29 2004-02-24 Apple Computer, Inc. Combined dual spectral and temporal alignment method for user authentication by voice
JP3818063B2 (ja) * 2001-01-25 2006-09-06 松下電器産業株式会社 個人認証装置
US20020143540A1 (en) 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
FI20010792A (fi) * 2001-04-17 2002-10-18 Nokia Corp Käyttäjäriippumattoman puheentunnistuksen järjestäminen
DE60213595T2 (de) * 2001-05-10 2007-08-09 Koninklijke Philips Electronics N.V. Hintergrundlernen von sprecherstimmen
JP2002366187A (ja) 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7353173B2 (en) 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
CN1170239C (zh) * 2002-09-06 2004-10-06 浙江大学 掌上声纹验证方法
JP4253518B2 (ja) * 2003-03-05 2009-04-15 シャープ株式会社 音声入力装置およびそれを用いた話者識別装置、音声入力方法およびそれを用いた話者識別方法、音声入力プログラム、話者識別プログラム、並びに、プログラム記録媒体
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US8255223B2 (en) 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
CN1932974A (zh) * 2005-09-13 2007-03-21 东芝泰格有限公司 说话者识别设备、说话者识别程序、和说话者识别方法
US20070156682A1 (en) * 2005-12-28 2007-07-05 Microsoft Corporation Personalized user specific files for object recognition
US7886266B2 (en) * 2006-04-06 2011-02-08 Microsoft Corporation Robust personalization through biased regularization
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
US7966171B2 (en) * 2007-10-31 2011-06-21 At&T Intellectual Property Ii, L.P. System and method for increasing accuracy of searches based on communities of interest
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US9418662B2 (en) 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8639516B2 (en) * 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
JP6024180B2 (ja) * 2012-04-27 2016-11-09 富士通株式会社 音声認識装置、音声認識方法、及びプログラム
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
US9117451B2 (en) * 2013-02-20 2015-08-25 Google Inc. Methods and systems for sharing of adapted voice profiles
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
KR102185564B1 (ko) * 2014-07-09 2020-12-02 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US20120245941A1 (en) * 2011-03-21 2012-09-27 Cheyer Adam J Device Access Using Voice Authentication

Also Published As

Publication number Publication date
US10733978B2 (en) 2020-08-04
EP3057093B1 (en) 2020-08-19
WO2016129930A1 (en) 2016-08-18
EP3057093A2 (en) 2016-08-17
CN107210040A (zh) 2017-09-26
US20190005944A1 (en) 2019-01-03
US20160232893A1 (en) 2016-08-11
CN107210040B (zh) 2021-01-12
KR20160098771A (ko) 2016-08-19
EP3057093A3 (en) 2016-12-07

Similar Documents

Publication Publication Date Title
KR102371697B1 (ko) 음성 기능 운용 방법 및 이를 지원하는 전자 장치
CN112216281B (zh) 用于登记用户命令的显示装置和方法
US9424837B2 (en) Voice authentication and speech recognition system and method
US11189277B2 (en) Dynamic gazetteers for personalized entity recognition
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
KR20200012928A (ko) 사용자 정의 가능한 웨이크업 음성 명령
CN111341325A (zh) 声纹识别方法、装置、存储介质、电子装置
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
WO2006109515A1 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US11200903B2 (en) Systems and methods for speaker verification using summarized extracted features
US11626104B2 (en) User speech profile management
CN109272991A (zh) 语音交互的方法、装置、设备和计算机可读存储介质
US11455998B1 (en) Sensitive data control
KR102655791B1 (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
EP4295517A2 (en) Hybrid multilingual text-dependent and text-independent speaker verification
CN117321678A (zh) 用于说话者标识的注意力评分功能
CN115691478A (zh) 语音唤醒方法、装置、人机交互设备和存储介质
Biagetti et al. Distributed speech and speaker identification system for personalized domotic control
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
CN112513845A (zh) 与语音使能设备的暂时账户关联
KR102444834B1 (ko) 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
US20230206922A1 (en) Dialogue system and dialogue processing method
KR20230146898A (ko) 대화 처리 방법 및 대화 시스템
CN117636872A (zh) 音频处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant