KR102308022B1 - 호출음 인식장치 및 호출음 인식방법 - Google Patents

호출음 인식장치 및 호출음 인식방법 Download PDF

Info

Publication number
KR102308022B1
KR102308022B1 KR1020190157076A KR20190157076A KR102308022B1 KR 102308022 B1 KR102308022 B1 KR 102308022B1 KR 1020190157076 A KR1020190157076 A KR 1020190157076A KR 20190157076 A KR20190157076 A KR 20190157076A KR 102308022 B1 KR102308022 B1 KR 102308022B1
Authority
KR
South Korea
Prior art keywords
ringing tone
ringing
detection unit
voice
characteristic
Prior art date
Application number
KR1020190157076A
Other languages
English (en)
Other versions
KR20200010149A (ko
Inventor
최민석
한익상
정강래
Original Assignee
네이버 주식회사
라인 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180005064A external-priority patent/KR102052634B1/ko
Application filed by 네이버 주식회사, 라인 가부시키가이샤 filed Critical 네이버 주식회사
Priority to KR1020190157076A priority Critical patent/KR102308022B1/ko
Publication of KR20200010149A publication Critical patent/KR20200010149A/ko
Application granted granted Critical
Publication of KR102308022B1 publication Critical patent/KR102308022B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)

Abstract

본 출원은 호출음 인식장치 및 호출음 인식방법에 관한 것으로서, 본 발명의 일 실시예에 의한 호출음 인식장치는, 사용자의 음성을 수신하여 음성신호로 변환하고, 제1 감지특성에 따라 상기 음성신호에 기 설정된 호출음의 포함여부를 판별하는 제1 호출음감지부; 상기 제1 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제2 감지특성에 따라 상기 음성신호 내에 상기 호출음의 포함여부를 재검사하는 제2 호출음감지부; 및 상기 제2 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 기 설정된 웨이크-업(wake-up) 신호를 생성하는 제어부를 포함할 수 있다.

Description

호출음 인식장치 및 호출음 인식방법 {Apparatus for recognizing call sign and method for the same}
본 출원은 호출음 인식장치 및 호출음 인식방법에 관한 것으로서, 사용자의 음성을 인식하여 단말장치 등을 활성화할 수 있는 호출음 인식장치 및 호출음 인식방법에 관한 것이다.
사람들간의 의사 전달 방법으로는, 글, 몸짓 및 음성 등과 같은 다양한 방법들이 있다. 특히, 음성은 사람의 의사 전달 중 가장 편리한 방법 중 하나이다. 이에 비하여 사람과 기계 장치간의 의사 소통방법으로는 키보드 및 마우스를 통한 입력과 입력에 대한 스피커 및 디스플레이 장치를 통한 출력에 의한 방법으로 매우 제한적이다.
사람과 장치간의 의사 전달의 향상을 위해 음성을 통한 사람과 장치간의 의사 전달 방법이 시도되고 있다. 이러한 음성을 통한 사람과 장치간의 의사 전달을 위해 선행되는 기술이 음성인식 기술이다. 사람과 장치간의 음성을 통한 의사 전달을 위해서는 사람이 발화한 음성을 장치가 인식할 수 있어야 한다. 이를 위해 다양한 음성인식 기술들이 연구되고 있으며, 휴대폰과 같은 이동통신단말기, 기계, 컴퓨터의 제어 및 내비케이션 장치 등과 같이 다양한 분야에 적용되고 있다.
통상적으로, 히든 마코브 모델(Hidden Markov Model: HMM) 및 다이나믹 타임 와핑(Dynamic Time Warping: DTW) 및 인공 신경망 등과 같은 음성인식 방법이 주로 사용되고 있다.
본 출원은, 사용자의 음성을 인식하여 단말장치 등을 활성화할 수 있는 호출음 인식장치 및 호출음 인식방법을 제공하고자 한다.
본 출원은, 감지특성이 상이한 복수의 호출음 감지부를 이용하여 사용자가 호출음을 발화하는지 판별할 수 있는 호출음 인식장치 및 호출음 인식방법을 제공하고자 한다.
본 출원은, 한번의 시도로 인한 키워드 인식시에는 다른 인식기로 추가 오인식검증을 하고, 사용자가 두번의 연속 시도를 한 경우에는 추가 검증 과정을 생략함으로써, 오수락율의 증가없이도 오거부율을 감소시킬 수 있는 호출음 인식장치 및 호출음 인식방법을 제공할 수 있다.
본 발명의 일 실시예에 의한 호출음 인식장치는, 사용자의 음성을 수신하여 음성신호로 변환하는 음성수신부; 제1 감지특성에 따라, 상기 음성신호 내에 기 설정된 호출음의 포함여부를 판별하는 제1 호출음감지부; 상기 제1 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제2 감지특성에 따라 상기 음성신호 내에 상기 호출음의 포함여부를 재검사하는 제2 호출음감지부; 및 상기 제2 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 기 설정된 웨이크-업(wake-up) 신호를 생성하는 제어부를 포함할 수 있다.
본 발명의 일 실시예에 의한 호출음 인식장치는, 사용자의 음성을 수신하여 음성신호로 변환하는 음성수신부; 제1 감지특성에 따라, 상기 음성신호 내에 기 설정된 호출음의 포함여부를 판별하는 제1 호출음감지부; 제2 감지특성에 따라, 상기 음성신호 내에 상기 호출음의 포함여부를 판별하는 제2 호출음감지부; 및 상기 제1 호출음감지부의 감지결과, 제2 호출음감지부의 감지결과 및 설정된 보류시간에 기초하여 기 설정된 웨이크-업(wake-up) 신호를 생성하는 제어부를 포함할 수 있다. 여기서, 상기 보류시간은 상기 제1호출음 감지부에서 상기 호출음이 포함된 것으로 판별하고 상기 제2 호출음 감지부에서 상기 호출음이 포함되지 않은 것으로 판별한 경우, 설정될 수 있다.
본 발명의 일 실시예에 의한 호출음 인식방법은, 음성수신부가 사용자의 음성을 수신하여 음성신호로 변환하는 단계; 제1 감지특성을 가지는 제1 호출음감지부를 이용하여, 상기 음성신호에 기 설정된 호출음의 포함여부를 판별하는 단계; 상기 제1 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제2 감지특성을 가지는 제2 호출음감지부를 이용하여, 상기 음성신호 내에 상기 호출음의 포함여부를 재검사하는 단계; 및 상기 제2 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제어부가 기 설정된 웨이크-업(wake-up) 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 의한 호출음 인식방법은, 음성수신부가 사용자의 음성을 수신하여 음성신호로 변환하는 단계; 제1 감지특성을 가지는 제1 호출음감지부를 이용하여, 상기 음성신호에 기 설정된 호출음의 포함여부를 판별하는 단계; 제2 감지특성을 가지는 제2 호출음감지부를 이용하여, 상기 음성신호 내에 상기 호출음의 포함여부를 판별하는 단계; 및 상기 제1 호출음감지부의 감지결과, 제2 호출음감지부의 감지결과 및 설정된 보류시간에 기초하여, 제어부가 기 설정된 웨이크-업(wake-up) 신호를 생성하는 단계를 포함할 수 있다. 여기서, 상기 보류시간은 상기 제1 호출음감지부가 상기 음성신호에 상기 호출음이 포함된 것으로 판별하고 상기 제2 호출음감지부가 상기 음성신호에 상기 호출음이 포함되지 않은 것으로 판별한 경우, 설정될 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 의한 호출음 인식장치 및 호출음 인식방법에 의하면, 감지특성이 상이한 복수의 호출음 감지부를 이용하여 사용자의 음성에 포함된 호출음을 감지하므로, 사용자가 발화한 호출음, 특히 연속 호출음에 대한 인식율을 높일 수 있다.
본 발명의 일 실시예에 의한 호출음 인식장치 및 호출음 인식방법에 의하면, 사용자가 연속된 호출음을 발화하는 경우, 호출음의 감지여부에 대한 추가적인 검증없이 단말장치 등을 활성화할 수 있다. 즉, 주변 소음이나 잡음이 심한 경우 등 사용자가 발화한 호출음을 인식하기 어려운 환경에서도, 사용자의 연속적인 호출시도에 대한 인식율을 향상시킬 수 있다.
본 발명의 일 실시예에 의한 호출음 인식장치 및 호출음 인식방법에 의하면 오수락율이 낮은 인식기의 성능을 유지하면서도, 오거부율을 낮출 수 있는 효과가 있다.
다만, 본 발명의 실시 예들에 따른 호출음 인식장치 및 호출음 인식방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도1은 본 발명의 일 실시예에 의한 호출음 인식장치를 나타내는 개략도이다.
도2는 본 발명의 일 실시예에 의한 호출음감지부에서의 오수락율 및 오거부율의 관계를 나타내는 개략도이다.
도3은 본 발명의 일 실시예에 의한 호출음 인식방법을 나타내는 순서도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도1은 본 발명의 일 실시예에 의한 호출음 인식시스템을 나타내는 개략도이다.
도1을 참조하면, 본 발명의 일 실시예에 의한 호출음 인식시스템은 단말장치(1) 및 호출음 인식장치(100)를 포함할 수 있다.
이하, 도1을 참조하여 본 발명의 일 실시예에 의한 호출음 인식시스템을 설명한다.
단말장치(1)는 스피커, 디스플레이장치, 컴퓨터, 서버 등 다양한 종류의 장치일 수 있으며, 사용자(A)의 명령에 대응하는 동작을 수행하는 것일 수 있다. 여기서, 단말장치(1)는 절전모드 또는 슬립모드(sleep mode)로 대기 중에 있을 수 있으며, 호출음 인식장치(100)가 전송하는 웨이크-업(wake-up) 신호에 따라 절전모드 또는 슬립모드에서 동작모드(active mode)로 전환할 수 있다.
호출음 인식장치(100)는 사용자(A)가 발화하는 음성을 인식할 수 있으며, 인식한 음성 내에 기 설정된 호출음이 포함되는지 여부를 판별할 수 있다. 호출음 인식장치(100)는 사용자가 발화한 음성 내에 호출음이 포함된 것으로 판별된 경우에는, 단말장치(1)로 웨이크-업 신호를 전송할 수 있다. 즉, 인식한 사용자의 음성명령에 대응하여, 단말장치(1)가 동작모드로 전환하도록 제어할 수 있다. 여기서, 호출음은 슬립모드인 단말장치(1)를 동작모드로 변환하기 위해 미리 설정된 키워드일 수 있다.
실시예에 따라서는, 호출음 인식장치(100)가 호출음 이외에, 사용자가 입력하는 다양한 명령어 등을 인식하는 것도 가능하다. 즉, 호출음 인식장치(100)는 사용자가 음성으로 입력하는 명령어를 인식한 후, 각각의 명령어에 대응하는 제어신호를 생성하여 단말장치(1)로 전송할 수 있다. 예를들어, 호출음 인식장치(100)는 사용자가 음성으로 발화하는 TV의 채널 변경이나 볼률 조절 등에 대한 명령어를 인식할 수 있으며, 인식한 명령어에 대응하는 제어신호를 생성하여 TV로 전송할 수 있다. 이 경우, TV는 수신한 제어신호에 따라 채널변경이나 볼률 조절 등을 수행할 수 있다.
도1에서는 단말장치(1)와 호출음 인식장치(100)가 별도로 구현되는 것으로 표현되어 있으나, 실시예에 따라서는 호출음 인식장치(100)가 단말장치(1) 내에 포함되는 것도 가능하다.
한편, 도1을 참조하면, 호출음 인식장치(100)는 음성수신부(110), 제1 호출음감지부(110), 제2 호출음감지부(120) 및 제어부(140)를 포함할 수 있다.
음성수신부(110)는 사용자(A)의 음성을 수신하여 음성신호로 변환할 수 있다. 음성수신부(110)는 마이크로폰(microphone) 등일 수 있으며, 사용자가 발화한 음성을 전기적 신호인 음성신호로 변환할 수 있다. 사용자의 음성은 특정한 주파수 및 진폭을 가지는 아날로그 형태의 신호에 해당하며, 음성수신부(110)는 입력되는 음성을 아날로그-디지털 변환기(미도시) 등을 통하여 디지털 신호인 음성신호로 변환할 수 있다. 여기서, 음성수신부(110)는 변환한 음성신호를 제1 호출감지부(120)로 제공할 수 있다. 도1에서는 음성수신부(110)가 음성신호를 제1 호출감지부(120)로만 제공하는 것으로 도시되어 있으나, 경우에 따라 음성수신부(110)가 제2 호출음감지부(130)에도 음성신호를 전달할 수 있다.
제1 호출음감지부(120)는 제1 감지특성에 따라 음성신호에 기 설정된 호출음이 포함되는지 여부를 판별할 수 있다. 또한, 제1 호출음감지부(120)가 호출음이 포함된 것으로 판별하면, 제2 호출음감지부(130)는 제2 감지특성에 따라 음성신호 내에 호출음의 포함여부를 재검사할 수 있다. 즉, 서로 다른 감지특성을 가지는 제1 호출음감지부(120) 및 제2 호출음감지부(130)를 이용하여 호출음의 포함여부를 판별함으로써, 호출음의 인식성능을 향상시킬 수 있다
구체적으로, 제1 호출음감지부(120)은 오수락율(FAR: False Acceptance Rate)이 높고 오거부율(FRR: False Rejection Rate)이 낮은 제1 감지특성을 가질 수 있으며, 제2 호출음감지부(130)는 오거부율이 높고 오수락율이 낮은 제2 감지특성을 가질 수 있다. 여기서, 오수락율은 음성신호에 실제 호출음이 포함되지 않았으나 포함된 것으로 잘못 판단하는 비율이고, 오거부율은 음성신호에 실제 호출음이 포함되어 있으나 포함되지 않은 것으로 잘못 판단하는 비율에 해당한다. 오수락율이 높은 경우에는 단말장치(1)가 사용자의 의도와 상관없이 반응하기 때문에 사용자의 불편을 유발할 수 있으며, 오거부율이 높은 경우에는 사용자가 단말장치(1)를 호출해도 응답하지 않기 때문에 불편을 유발할 수 있다.
여기서, 오수락율과 오거부율은 도2에 도시한 바와 같이, 서로 상충관계(trade-off)에 있기 때문에, 두가지 성능을 모두 만족하기는 어렵다. 따라서, 여기서는 서로 다른 감지특성을 가지는 두개의 호출음감지부를 이용하여, 음성신호 내에 호출음의 포함여부를 판별하도록 할 수 있다. 이 때 바람직하게는, 제1 호출음감지부(120)의 오수락률이 제2 호출음감지부(130)보다 상대적으로 높거나 제1 호출음감지부(120)의 오거부율이 제2 호출음감지부(130)보다 상대적으로 낮게 할 수 있다.
제1 호출음감지부(120)는 오수락율이 높은 제1 감지특성을 가지므로, 실제 호출음이 포함되지 않은 경우에도 호출음을 포함하는 것으로 판별할 확률이 높다. 다만, 오거부율은 낮기 때문에 제1 호출음감지부(120)를 이용하여, 호출음이 포함될 가능성이 있는 음성신호를 1차적으로 판별할 수 있다. 이후, 오거부율이 높은 제2 감지특성을 가지는 제2 호출음감지부(130)를 이용하여, 제1 호출음감지부(120)에서 호출음이 포함된 것으로 판단한 음성신호를 재검사할 수 있다. 즉, 제1 호출음감지부(120)에서 호출음이 포함되는 것으로 판단한 경우에도, 제2 호출음감지부(130)로 재검사하여 호출음이 없는 것으로 판별하면 최종적으로 호출음이 포함되지 않은 것으로 판별할 수 있다. 이를 통해, 오수락율이 높은 제1 호출음감지부(120)의 단점을 보완할 수 있다.
실시예에 따라서는, 도2에 도시한 바와 같이, 제1 호출음감지부(120)는 오수락율이 FA1, 오거부율이 FR1일 수 있으며, 제2 호출음감지부(130)는 오수락율이 FA2, 오거부율이 FR2일 수 있다. 여기서, 각각의 호출음감지부들의 오수락율과 오거부율은 도2의 그래프에 따라 설정될 수 있으며, 이때 각각의 제1 감지특성 및 제2 감지특성을 유지하기 위해서는, 적어도 오수락율 FA1은 FA2보다 높고, 오거부율 FR2는 FR1보다 높게 선택할 수 있다. 도2는 하나의 커브만을 예시하고 있지만, 구현방법에 따라서는 각각의 호출음감지부가 서로 다른 오차 커브를 가지고 그 중 한 점을 선택할 수 있을 것이다.
한편, 제1 호출음감지부(120)와 제2 호출음감지부(130)의 오수락율 및 오거부율은 각각의 제1 호출음감지부(120) 및 제2 호출음감지부(130)에 적용된 알고리즘 등에 따라 결정될 수 있다.
이하에서는 상이한 감지 특성의 호출음감지부를 만드는 몇가지 실시예들에 대하여 설명한다.
일 실시예에 따르면, 호출음감지부의 인식 임계값(threshold)를 변경하여 오수락율 및 오거부율을 조절할 수 있다. 호출음감지부의 구현방법에 따라, 0(false) 또는 1(true)이 아닌 호출음이 포함되었는지 여부에 대한 확률값이 인식 결과로 결정될 수 있다. 이때, 이 확률값을 기초로 인식 여부를 결정하는 인식 임계값을 변경하여 오수락율과 오거부율의 비율을 조절하는 것이 가능하다.
구체적인 구현 방법의 일 예로, 제1 호출음감지부(120)와 제2 호출음감지부(130)는 음성신호로부터 호출음에 대응하는 음성파형의 포함여부를 확인하여 호출음이 포함되는지 여부를 판별할 수 있으며, 음성신호 내에 호출음에 대응하는 음성파형의 포함여부는 확률값으로 계산할 수 있다. 여기서, 확률값이 기 설정된 임계확률값 이상이면 호출음이 포함된 것으로 판별할 수 있으며, 임계확률값의 설정에 따라 각각의 제1 호출음감지부(120)와 제2 호출음감지부(130)의 감지특성이 선택될 수 있다 예를들어, 임계확률값을 낮추는 경우에는 오수락율이 높아지므로 제1 감지특성에 가깝게 되고, 임계확률값을 높이는 경우에는 오거부율이 높아지므로 제2 감지특성에 가깝게 될 수 있다.
또다른 방법으로, 호출음감지부의 언어 모델을 변경함으로써 서로 다른 감지특성을 가지는 호출음감지부를 만들 수 있다. 일 예로, 각각의 제1 호출음감지부(120) 및 제2 호출음감지부(130)에 설정되는 발음변이 인정범위에 따라서 각각의 감지특성이 결정될 수 있다. 예를들어, "클로바"가 호출음인 경우, "클로바"와 유사한 발음인 "클러바", "그로바", 크로바" 등이 김지되는 경우에는 호출음이 입력되는 것으로 판별할 수 있다. 이러한 발음변이 인정범위를 넓힐수록 오수락율이 높아지게 되지만, 발음변이 인정범위를 좁힐수록 오거부율이 높아지게 된다. 따라서, 발음변이의 인정범위를 설정하는 발음 모델 또는 발음 그래프 등을 조절하여 감지특성을 설정할 수 있다.
또다른 방법으로 유사어 필터를 적용하는 방법을 이용할 수 있다. 감지하고자 하는 호출음과 유사한 발음이지만 다른 단어들을 미리 학습하여 유사어에 의한 오수락율을 감소시키는 것이다. 즉, 음성신호 내에 유사어가 포함되는 경우에는 호출음의 입력이 아닌 것으로 판별할 수 있다. 예를들어, "클로바"가 호출음인 경우, "들어봐", "틀어봐" 등의 유사어는 발음이 일부 유사하지만 실제로는 다른 의미를 가지는 것으로 사용자가 호출음의 입력을 의도하지 않은 것으로 판별할 수 있다. 따라서, 유사어들을 확장하여 설정하는 경우에는 오수락율은 낮출수 있으나 오거부율이 높아질 수 있으며, 유사어를 좁히거나 유사어 필터를 설정하지 않는 경우에는 오거부율은 낮출수 있으나 오수락율이 높아질 수 있다.
또한, 호출음의 앞 또는 뒤에 포함되는 묵음을 감지하는 알고리즘을 적용하는 것도 가능하다. 일반적으로, 사용자가 호출음을 발화하는 경우에는 묵음을 포함되게 되므로, 입력된 음성신호로부터 묵음이 포함되는지 여부를 확인하여 묵음이 포함되는 경우에 한하여 호출음으로 인정할 수 있다. 이 경우, 오수락율은 크게 줄일 수 있으나, 사용자(A)가 발화하는 환경에 잡음 등이 많이 섞여있는 경우에는 묵음의 포함여부를 판별하기 어려우므로, 오거부율이 증가하는 등의 문제가 발생할 수 있다.
한편, 실시예에 따라서는, 제1 호출음감지부(120) 및 제2 호출음감지부(130)에 대하여 머신러닝 등을 적용할 수 있다. 예를들어, 호출음을 포함하는 음성신호와 포함하지 않는 음성신호를 다양한 환경에서 반복하여 출력한 후, 제1 호출음감지부(120) 및 제2 호출음감지부(130)가 지속적으로 판별하도록 할 수 있다. 이때, 판별결과를 피드백하여 각각의 제1 호출음감지부(120) 및 제2 호출음감지부(130)를 학습시킬 수 있다. 이 경우, 호출음감지부(120) 또는 제2 호출음감지부(130)에 대하여, 잡음이 심한 환경에서의 학습결과를 추가하면 잡음환경에서의 오거부율을 낮추는 것이 가능하다.
따라서, 제1 호출음감지부(120) 및 제2 호출음감지부(130)에 상술한 알고리즘 등을 적용하여, 제1 호출음감지부(120) 및 제2 호출음감지부(130)가 각각 제1 감지특성과 제2 감지특성을 가지도록 구현할 수 있다. 이상에서 기술한 실시예들은 독립적으로 사용하거나, 하나 이상의 방법이 결합되어 사용될 수 있을 것이다.
제어부(140)는 제2 호출음감지부(130)가 호출음이 포함된 것으로 판별하면, 기 설정된 웨이크-업(wake-up) 신호를 생성할 수 있다. 제어부(140)는 생성한 웨이크-업 신호를 단말장치(1)로 전송할 수 있으며, 사용자의 호출음 발화에 대응하여 단말장치(1)가 동작모드로 동작하도록 할 수 있다. 즉, 제어부(140)는 제1 호출음감지부(120) 및 제2 호출음감지부(130)에서 모두 호출음이 포함되는 것으로 판별한 경우에 한하여 웨이크-업 신호를 생성할 수 있다. 이를 통하여, 사용자의 발화에 지나치게 자주 반응하여 단말장치(1)가 동작하는 등의 문제점을 방지할 수 있다.
다만, 제2 호출음감지부(130)가 음성신호내에 호출음이 포함되지 않은 것으로 판별하면, 제어부(140)는 일정한 시간간격의 보류시간을 설정할 수 있다. 즉, 제2 호출음감지부(130)는 오거부율이 높기 때문에, 보류시간을 설정하여 보류시간 내에 사용자가 추가로 호출음을 포함하는 음성을 발화하는지 여부를 확인할 수 있다. 만약, 보류시간 내에 음성수신부(110)가 사용자의 음성을 재수신하고, 제1 호출음감지부(120)가 재수신한 음성에 대응하는 음성신호로부터 호출음이 포함된 것으로 판별하면, 제어부(140)는 웨이크-업 신호를 생성할 수 있다. 이는 사용자가 단말장치(1)의 동작을 위하여 호출음을 반복하여 입력하는 경우에 해당하므로, 오거부율이 높은 제2 호출음감지부(130)에 의한 재검사는 생략하고, 제1 호출음감지부(120)에서의 판별만으로 웨이크-업 신호를 생성하도록 할 수 있다. 이를 통하여, 호출음의 인식이 어려운 환경 등에서도, 사용자의 연속시도에 따른 인식율을 향상시키는 것이 가능하다. 여기서 보류시간은 5초로 설정될 수 있으나 이에 한정되는 것은 아니며, 실시예에 따라 다양하게 설정가능하다.
제어부(140)는 제1 호출음감지부(120)가 상시 동작하도록 하여, 입력되는 음성신호에 대하여 즉각적으로 반응하도록 할 수 있다. 즉, 사용자가 발화하는 호출음을 언제든지 감지할 수 있도록, 제1 호출음감지부(120)는 상시적으로 동작하도록 할 수 있다. 반면에, 제2 호출음감지부(130)는 제1 호출음감지부(120)에서의 판별결과를 재검사하는 기능을 수행하는 것으로, 오거부율이 낮은 제1 호출음감지부(120)에서도 호출음이 포함되지 않은 것으로 판별된 음성신호에 대하여는, 재검사를 수행하지 않도록 제어될 수 있다. 또한, 제2 호출음감지부(130)는 보류시간 동안에도 동작하지 않도록 제어될 수 있다.
본 발명의 또다른 실시예에 따르면, 제1 호출음감지부(120) 및 제2 호출음감지부(130)가 상시적으로 동작하도록 할 수 있다. 제1 호출음감지부(120)의 동작 후 제2 호출음감지부(130)가 동작할 경우 연산에 추가시간이 필요하므로, 각각의 호출음감지부가 입력되는 음성신호에 대하여 동작을 수행하고, 그 결과를 기초로 최종적으로 호출음 포함 여부를 결정할 수 있다.
최종 결과는 제1 호출음감지부(120) 및 제2 호출음감지부(130)의 감지 특성 및 성능을 고려하여 최종 결과를 결정하도록 설정될 수 있다. 일 예로, 제1 호출음감지부(120) 및 제2 호출음감지부(130)의 감지여부 및 앞서 설명한 보류 시간 이내인지 여부에 따라 최종 결과가 다음 표1과 같이 결정될 수 있다.
제1 호출음
감지부
제2 호출음
감지부
보류시간 이내인지 여부 최종 결과
감지 감지 무관 호출음 포함
감지 감지못함 Yes 호출음 포함
NO 호출음 포함안함
감지못함 감지 무관 호출음 포함
감지못함 감지못함 무관 호출음 포함안함
도3은 본 발명의 일 실시예에 의한 호출음 인식방법을 나타내는 순서도이다.
도3을 참조하면, 먼저 음성처리부가 사용자의 음성을 수신하여 음성신호로 변환할 수 있다(S10). 이후, 제1 감지특성을 가지는 제1 호출음감지부를 이용하여 음성신호에 기 설정된 호출음의 포함여부를 판별할 수 있다(S20). 여기서, 제1 호출음감지부는 오수락율이 높고 오거부율이 낮은 제1 감지특성을 가질 수 있다.
제1 호출음감지부에서 호출음이 포함된 것으로 판별된 경우에는(S30), 제2 감지특성을 가지는 제2 호출음감지부가 음성신호 내에 호출음이 포함되는지 여부를 재검사할 수 있다(S50). 여기서, 제2 호출음감지부는 오거부율이 높고 오수락율이 낮은 제2 감지특성을 가지는 것일 수 있다.
제2 호출음감지부가 음성신호 내에 호출음이 포함된 것으로 판별한 경우에는(S60), 제어부가 기 설정된 웨이크-업(wake-up) 신호를 생성할 수 있다(S70). 제어부가 생성한 웨이크-업 신호는 단말장치 등으로 전송될 수 있으며, 웨이크-업 신호에 의하여 슬립모드(sleep mode) 또는 절전모드의 단말장치를 동작모드(active mode)로 전환시킬 수 있다.
한편, 제2 호출음감지부가 음성신호 내에 호출음이 포함되지 않은 것으로 판별한 경우에는(S60), 제어부가 기 설정된 보류시간을 설정할 수 있다(S80). 즉, 보류시간 내에 사용자가 반복하여 호출음을 출력하는지 여부를 확인할 수 있다. 이를 위하여, 보류시간을 설정한 이후에(S80) 사용자가 발화하는 음성을 재수신하여 음성신호를 생성할 수 있으며(S10), 제1 호출음감지부는 재수신한 음성신호 내에 호출음이 포함되는지 여부를 다시 판별할 수 있다(S20). 여기서, 제1 호출음감지부가 호출음이 포함된 것으로 판별하면(S30), 음성신호가 보류시간 내에 수신된 것인지 여부를 확인할 수 있다(S40). 보류시간 내에 수신한 음성신호인 경우에는, 제어부가 웨이크업 신호를 생성할 수 있다(S70). 즉, 보류시간 내에 사용자가 다시 발화한 음성 내에 제1 호출음감지부가 호출음이 포함된 것으로 판단한 경우에는, 제2 호출음감지부에 의한 추가적인 재검사를 수행하지 않고, 웨이크 업 신호를 생성하도록 할 수 있다. 이를 통하여, 사용자의 연속시도에 따른 인식율을 향상시킬 수 있다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.
1: 단말장치 100: 호출음 인식장치
110: 음성수신부 120: 제1 호출음감지부
130: 제2 호출음감지부 140: 제어부

Claims (9)

  1. 사용자의 음성을 수신하여 음성신호로 변환하는 음성수신부;
    제1 감지특성에 따라, 상기 음성신호 내에 기 설정된 호출음의 포함여부를 판별하는 제1 호출음감지부;
    상기 제1 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제2 감지특성에 따라 상기 음성신호 내에 상기 호출음의 포함여부를 재검사하는 제2 호출음감지부; 및
    상기 제2 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 기 설정된 웨이크-업(wake-up) 신호를 생성하는 제어부를 포함하는 것으로,
    상기 제1 감지특성과 제2 감지특성은 상이한 것을 특징으로 하는 호출음 인식장치.
  2. 제1항에 있어서,
    상기 제1 감지특성과 제2 감지특성은 서로 반대되는 특성을 가지는 것을 특징으로 하는 호출음 인식장치.
  3. 제2항에 있어서,
    상기 제1 감지특성과 제2 감지특성은, 각각의 오수락율(FAR: False Acceptance Rate) 및 오거부율(FRR: False Rejection Rate)에 의해 구별되는 것을 특징으로 하는 호출음 인식장치.
  4. 제1항에 있어서, 상기 제1 호출음감지부 및 제2 호출음감지부는
    상기 음성신호 내에 상기 호출음에 대응하는 음성파형의 상기 음성신호 내 포함여부를 확률값으로 계산하고, 상기 확률값이 임계확률값 이상이면 상기 호출음이 포함된 것으로 판별하는 것을 특징으로 하는 호출음 인식장치.
  5. 제4항에 있어서, 상기 제1 호출음 감지부 및 제2 호출음감지부는
    각각의 임계확률값의 크기를 상이하게 적용하여, 상기 제1 감지특성 및 제2 감지특성을 설정하는 것을 특징으로 하는 호출음 인식장치.
  6. 사용자의 음성을 수신하여 음성신호로 변환하는 음성수신부;
    제1 감지특성에 따라, 상기 음성신호 내에 기 설정된 호출음의 포함여부를 판별하는 제1 호출음감지부;
    상기 제1 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제2 감지특성에 따라 상기 음성신호 내에 상기 호출음의 포함여부를 재검사하는 제2 호출음감지부; 및
    상기 제2 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 기 설정된 웨이크-업(wake-up) 신호를 생성하는 제어부를 포함하는 것으로,
    상기 제1 호출음 감지부 및 제2 호출음감지부는
    상기 호출음에 대한 발음변이 인정범위를 결정하는 발음 모델, 상기 호출음과 유사한 발음이지만 다른 의미를 가지는 유사어를 제외시키는 유사어 필터, 및 호출음의 앞 또는 뒤에 포함되는 묵음을 감지하는 묵음감지 알고리즘 중 적어도 어느 하나를 적용하여, 상기 제1 감지특성 및 제2 감지특성을 설정하는 것을 특징으로 하는 호출음 인식장치.
  7. 음성수신부가 사용자의 음성을 수신하여 음성신호로 변환하는 단계;
    제1 감지특성을 가지는 제1 호출음감지부를 이용하여, 상기 음성신호에 기 설정된 호출음의 포함여부를 판별하는 단계;
    상기 제1 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제2 감지특성을 가지는 제2 호출음감지부를 이용하여, 상기 음성신호 내에 상기 호출음의 포함여부를 재검사하는 단계; 및
    상기 제2 호출음감지부가 상기 호출음이 포함된 것으로 판별하면, 제어부가 기 설정된 웨이크-업(wake-up) 신호를 생성하는 단계를 포함하는 것으로,
    상기 제1 감지특성과 제2 감지특성은 상이한 것을 특징으로 하는 호출음 인식방법.
  8. 삭제
  9. 삭제
KR1020190157076A 2018-01-15 2019-11-29 호출음 인식장치 및 호출음 인식방법 KR102308022B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190157076A KR102308022B1 (ko) 2018-01-15 2019-11-29 호출음 인식장치 및 호출음 인식방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180005064A KR102052634B1 (ko) 2018-01-15 2018-01-15 호출음 인식장치 및 호출음 인식방법
KR1020190157076A KR102308022B1 (ko) 2018-01-15 2019-11-29 호출음 인식장치 및 호출음 인식방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020180005064A Division KR102052634B1 (ko) 2018-01-15 2018-01-15 호출음 인식장치 및 호출음 인식방법

Publications (2)

Publication Number Publication Date
KR20200010149A KR20200010149A (ko) 2020-01-30
KR102308022B1 true KR102308022B1 (ko) 2021-10-05

Family

ID=69322115

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190157076A KR102308022B1 (ko) 2018-01-15 2019-11-29 호출음 인식장치 및 호출음 인식방법

Country Status (1)

Country Link
KR (1) KR102308022B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102378895B1 (ko) * 2021-09-29 2022-03-28 주식회사 인피닉 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150106085A1 (en) 2013-10-11 2015-04-16 Apple Inc. Speech recognition wake-up of a handheld portable electronic device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150106085A1 (en) 2013-10-11 2015-04-16 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US20160189716A1 (en) * 2013-10-11 2016-06-30 Apple Inc. Speech recognition wake-up of a handheld portable electronic device

Also Published As

Publication number Publication date
KR20200010149A (ko) 2020-01-30

Similar Documents

Publication Publication Date Title
US11694695B2 (en) Speaker identification
US20240038236A1 (en) Activation trigger processing
US10623811B1 (en) Methods and systems for detecting audio output of associated device
US20180061396A1 (en) Methods and systems for keyword detection using keyword repetitions
US10504511B2 (en) Customizable wake-up voice commands
US10366699B1 (en) Multi-path calculations for device energy levels
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
WO2021159688A1 (zh) 声纹识别方法、装置、存储介质、电子装置
US10147444B2 (en) Electronic apparatus and voice trigger method therefor
US9553979B2 (en) Bluetooth headset and voice interaction control thereof
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
US9571617B2 (en) Controlling mute function on telephone
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
US20180174574A1 (en) Methods and systems for reducing false alarms in keyword detection
US20240062759A1 (en) Modifying spoken commands
US20200279558A1 (en) Attention processing for natural voice wake up
CN116601598A (zh) 基于检测序列的热门短语触发
KR102308022B1 (ko) 호출음 인식장치 및 호출음 인식방법
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
KR102052634B1 (ko) 호출음 인식장치 및 호출음 인식방법
US11205433B2 (en) Method and apparatus for activating speech recognition
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
US11776538B1 (en) Signal processing
US11195545B2 (en) Method and apparatus for detecting an end of an utterance
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant