KR20090123396A - 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 - Google Patents

실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 Download PDF

Info

Publication number
KR20090123396A
KR20090123396A KR1020080049455A KR20080049455A KR20090123396A KR 20090123396 A KR20090123396 A KR 20090123396A KR 1020080049455 A KR1020080049455 A KR 1020080049455A KR 20080049455 A KR20080049455 A KR 20080049455A KR 20090123396 A KR20090123396 A KR 20090123396A
Authority
KR
South Korea
Prior art keywords
recognition
voice
speech recognition
continuous speech
real
Prior art date
Application number
KR1020080049455A
Other languages
English (en)
Other versions
KR101056511B1 (ko
Inventor
정희석
진세훈
노태영
Original Assignee
(주)파워보이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)파워보이스 filed Critical (주)파워보이스
Priority to KR1020080049455A priority Critical patent/KR101056511B1/ko
Priority to PCT/KR2009/002118 priority patent/WO2009145508A2/ko
Priority to US12/863,437 priority patent/US8275616B2/en
Publication of KR20090123396A publication Critical patent/KR20090123396A/ko
Application granted granted Critical
Publication of KR101056511B1 publication Critical patent/KR101056511B1/ko
Priority to US13/591,479 priority patent/US8930196B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Sub-Exchange Stations And Push- Button Telephones (AREA)

Abstract

본 발명은 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 연이어 들어오는 발화자의 음성을 인식하는 잡음환경에 매우 강인한 연속음성인식 시스템에 관한 것이다.
본 발명에 따른 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템은, 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 상기 호출명령어를 인식하는 순간 상기 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써 발화자의 음성을 인식하는 것을 특징으로 하여 이루어진다.
호출명령어, 토큰, 연속 음성 인식, 호출명령어 검색 루틴, 신뢰도 검사 루틴

Description

실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템{System for Robust Voice Activity Detection and Continuous speech recognition in noisy environment using real-time calling key-word recognition}
본 발명은 연속음성인식 시스템에 관한 것으로서, 보다 상세하게는 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 연이어 들어오는 발화자의 음성을 인식하는 잡음환경에 매우 강인한 연속음성인식 시스템에 관한 것이다.
인간이 자신의 생각을 다른 사람에게 표현할 수 있는 수단은 여러가지의 형태가 있지만 그 중에서도 음성은 인간이 사용하는 가장 기본적인 의사소통을 위한 수단이다.
인간에 의한 음성 처리는 크게 음성 생성(Speech Production)과, 음성 인지(Speech Perception)의 두 가지 측면으로 나누어 볼 수 있다. 해당 음성 생성은 발화자(Speaker)가 의도한 바를 전달하기 위한 일련의 과정이고, 해당 음성 인지는 상대 발화자에 의해서 발성된 음성으로부터 발화 내용을 인식하는 과정을 말한다. 이러한 음성의 두 가지 측면과 관련된 연구들이 각기 개별적으로 이루어져 왔으며, 언어학, 음성학, 음운학, 생리학, 해부학 등의 다양한 학문적인 배경 하에 진행되어 왔다.
음성 처리의 음성 인지의 측면에서 음성 인식을 수행하기 위한 접근 방법은, 크게 가청 음성학(Acoustic-Phonetic) 방법과, 통계적인 패턴 인식(Statistical Pattern Recognition) 방법과, 인공 지능(Artificial Intelligence) 방법과, 신경망(Neural Network) 방법의 4가지로 분류할 수 있다.
상술한 바와 같은 다양한 접근 방법을 통한 음성 인식 시스템은, 발성 형태에 따라 고립 단어를 인식하는 고립 단어 음성 인식(Isolated Word Speech Recognition)과, 단어를 연속하여 발성한 음성을 인식하는 연속 음성 인식(Continuous Speech Recognition)으로 분류할 수 있다.
이러한 음성 인식 시스템 중 고립 단어 인식은 VAD(Voice Activity Detection) → 특징추출 → 패턴비교 → 인식의 순으로 인식하는 방식이며, 적은 계산량 또는 소규모 음성인식에 적합한 방식이나, 신뢰도 검사만으로 미등록어 거절을 수행하여 잡음환경에 따라 신뢰도 검사 오류 발생이 자주 발생되고, 음성인식을 위한 녹음 버튼 등의 특별한 이벤트가 필요하게 되어 상용화하기엔 부적합한 기 술이다.
도 1은 종래의 연속 음성 인식 네트워크의 구성을 간략히 도시한 것이다. 도 1에 도시된 연속 음성 인식 네트워크는 인식된 단어열을 언어모델을 통한 후처리 과정을 수행하여 인식하는 방식이다. 이 방식은 1만 단어이상 대용량 음성인식 시스템 등에서 주로 사용되어진다.
연속 음석 인식은 특징추출 → 패턴비교(음향모델비교) → 언어모델비교 → 후처리과정 → 인식의 순으로 인식하는 방식이며, 고사양의 서버급 PC등에서 대규모 음성인식 시스템에 적합하며, 저장매체와 연산처리 능력이 날로 발전함에 따라 실시간 대규모 음성인식 시스템의 구현이 가능하게 되고 있다. 하지만, 그와 더불어 날로 경량화 되어 가는 단말기에 탑재되기 위해서는 여전히 부족한 저장용량과 복잡한 floating 연산이 문제가 되며, 많은 계산량과 대규모 데이터 저장용량 필요하다는 단점을 안고 있다.
도 2는 동일한 명령어를 시동을 켜지않은 차량내에서 발성한 음성파형이며, 도 3은 동일한 명령어를 창문을 열고 주행시 발성한 음성파형이다. 도 2 및 도 3를 비교하면 실제 차량 환경에서는 차량 엔진 진동음, 멀티미디어 기기의 출력음 및 자동차 창문 개방시 발생하는 바람의 영향으로 인하여 기존의 에너지나 ZCR(Zero Crossing Rate)을 이용한 VAD(Voice Activity Detection)은 그 성능이 현저히 떨어지게 된다. 따라서, 기존의 차량내 음성인식 장치에서는 차량의 운전자가 핫키(Hot-Key)를 누름으로써 음성인식 이벤트를 발생하고 음성인식을 수행하였다. 이러한 기능은 차량의 전장제어나 기본 탑재되는 네비게이션의 메뉴 제어 등 비교적 우수한 성능을 가지는 소규모 음성인식 시스템임에도 불구하고 사용자로 하여금 불편함을 야기하여 상용화되는데 큰 걸림돌이 되고 있다.
상술한 종래의 문제점을 해결하기 위한 본 발명의 목적은, 음성 인식 네트워크의 변경과 신뢰도 검사를 통한 음성 호출 명령어를 이용한 잡음환경에서의 음성 구간 검출 시스템을 제안하고자 한다.
또한, 기존의 핵심어 검출 방식의 연속 음성 인식 기법이 방대한 계산량과 적용분야에 따라 변결되어야 하는 언어모델이나 후처리 과정을 이용해 실시간 처리가 불가능한 단점을 해결하여 특별한 이벤트를 필요로 하는 고립단어 인식 시스템의 단점을 해결하여 음성인식 상시 대기 상태를 가능한 호출 명령어를 이용한 잡음환경에서의 음성 구간 검출 시스템을 제안하고자 한다.
또한, 방대한 계산량뿐만 아니라 언어모델이나 후처리 과정이 변경되어야 하는 기존 핵심어 검출 방식의 연속 음성 인식 기법의 단점을 해결하는 동시에, 반드시 음성인식을 위한 특별한 이벤트를 필요로 하는 고립단어 인식 시스템의 단점을 해결하여 음성인식 상시 대기 상태가 가능한 호출명령어를 이용한 잡음환경에서의 음성 구간 검출 시스템을 제안하고자 한다.
상술한 과제를 해결하기 위한 본 발명에 따른 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템은, 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 상기 호출명령어를 인식하는 순간 상기 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써 발화자의 음성을 인식하는 것을 특징으로 하여 이루어진다.
여기서, 상기 호출명령어 인식은, 호출명령어 인식 네트워크를 통해 수행되며, 상기 인식 네트워크는 LTR(Left-to-Right) 모델로 구성되어지고, 상기 인식 네트워크에 입력되는 음성 프레임은 소정의 토큰으로 구성되어 상기 인식 네트워크와 실시간 확률 비교가 이루어지는 것을 특징으로 한다.
여기서, 상기 소정의 토큰은 상기 음성 프레임과 잡음을 포함한 묵음구간을 더 포함하여 구성되는 것을 특징으로 한다.
여기서, 상기 인식 네트워크는, 상기 인식 네트워크를 통과해 실시간 계산되는 상기 소정의 토큰의 누적확률이 기설정된 상위 백분율 이내이면 상기 호출명령어를 발화한 것으로 추정하여 상기 음성 프레임을 신뢰도 측정단계로 전달하는 것을 특징으로 한다.
여기서, 상기 음성 프레임의 빔폭은 20 내지 30개의 토큰으로 제한하여 구성되는 것을 특징으로 한다.
여기서, 상기 상위 백분율은 10%인 것이 바람직하다.
여기서, 상기 신뢰도는 다음 수학식에 의하여 결정되는,
Figure 112008038015931-PAT00001
여기서, LLR(Log likelihood ratio),
Figure 112008038015931-PAT00002
음소모델,
Figure 112008038015931-PAT00003
반음소모델(Anti-phoneme model)인 것을 특징으로 하여 이루어진다.
또한, 호출명령어를 실시간으로 검색하는 호출명령어 검색 루틴과 상기 호출명령어 검색 루틴에서 검색된 호출명령어의 신뢰도를 검사하는 신뢰도 검사 루틴을 포함하는 호출명령어 인식 네트워크와; 상기 호출명령어 인식 네트워크에서 상기 호출명령어가 인식되는 순간 상기 호출명령어에 연이어 들어오는 발화자의 음성을 인식하는 연속 음성 인식 네트워크;을 포함하여 이루어진다.
여기서, 상기 호출명령어 인식 네트워크는 적응형 필터(Adaptive Filter), 특징추출부(Feature Extration) 및 탐색부(Keyword Searching)를 포함하여 이루어지는 것이 바람직하다.
여기서, 상기 연속 음성 인식 네트워크는 토큰 패싱부(Token passing), 키워드 탐지부(Keyword spotting), 신뢰도 검사부(Confidence Detection) 및 룰 체크부(Rule check)를 포함하여 이루어지는 것이 바람직하다.
상술한 본 발명의 구성에 따르면, 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '네비야' 등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 발화자의 호출명령어가 인식된 순간 버퍼링되어 있는 음성구간을 포함하여 연이어 들어오는 발화자의 음성구간을 연속음성인식엔진에 인가하므로써 잡음환경에 매우 강인한 연속 음성인식을 가능하게 하는 잡음환경에서의 음성 구간 검 출 시스템을 제공할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템(이하 '호출명령어/연속 음성 인식 시스템' 이라 함)의 기법, 구조 및 동작 특성을 살펴보기로 한다.
본 발명에 따른 호출명령어/연속 음성 인식 시스템은 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '네비야' 등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 발화자의 호출명령어가 인식된 순간 버퍼링되어 있는 음성구간을 포함하여 연이어 들어오는 발화자의 음성구간을 연속음성인식엔진에 인가하므로써 잡음환경에 매우 강인한 연속 음성인식을 수행하게 된다.
도 4는 본 발명에 따른 호출명령어 검색 루틴이 포함된 잡음환경하에서의 연속 음성 인식 시스템의 블록도이다.
도 4에 도시된 바와 같이 본 발명의 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템은 연속 인식 네트워크(430)를 진행하기 전에 크게 호출명령어를 검색하는 호출명령어 검색 루틴과 검색된 호출명령어의 신뢰도를 검사하는 신뢰도 검사 루틴(421, 422, 423)을 포함하는 호출명령어 인식 네트워크를 수행한다.
호출명령어 인식 네트워크(420)는 적응형 필터(Adaptive Filter, 421), 특징추출부(Feature Extration, 422) 및 탐색부(Keyword Searching, 423)를 포함하며, 연속 음성 인식 네트워크(430)는 토큰 패싱부(Token passing, 431), 키워드 탐지부(Keyword spotting, 432), 신뢰도 검사부(Confidence Detection, 433) 및 룰 체크부(Rule check, 444)를 포함한다.
호출명령어 인식 네트워크(420)에서는 잡음을 포함한 묵음구간과 발화자의 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행한다. 호출명령어 검색 루틴을 통해 발화자의 호출명령어로 인식되면 다음 단계인 신뢰도 검사 루틴에서 신뢰도를 검사하여 검색된 호출명령어가 발화자가 의도하는 진의 호출명령어인지 거짓 호출명령어인지를 판단하여 호출명령어 다음에 연이어 발화되는 명령어의 연속 음성 인식을 수행하도록 한다.
호출명령어 인식 네트워크(420)의 구성과 그 역할은 다음과 같다.
적응형 필터(Adaptive Filter, 421)는 입력된 잡음이 포함된 음성(호출명령어를 포함하여 발화되는 모든 음성)에 대하여 주변 잡음의 스펙트럼(Spectrum) 특성을 자동으로 추적하여 주변 잡음을 제거하는 FIR(Finite Impulse Response) 필터이다.
특징추출부(Feature Extration, 422)는 적응형 필터(421)를 통과한 입력 음성에 대하여 프레임별로 음성의 스펙트럼 특성을 청각 모델링하여 강인한 파라미터로 변환하는 부분이다.
탐색부(Keyword Searching, 423)는 음향모델 DB, 발음사전 DB 및 언어모델 DB를 사용하여 호출명령어 인지 아닌지를 판단하여 연속 음성 인식 루틴을 수행할 지 수행하지 않을 지를 판단한다. 탐색부(423)에는 잡음을 포함한 묵음구간과 발화자의 호출명령어를 포함한 음성 프레임을 최소한의 토큰으로 구성하여 호출명령어를 검색하는 토큰 패싱부와 인식된 호출명령어가 진짜인지 아닌지의 신뢰도를 검사하는 신뢰도 검사부를 포함한다.
호출명령어 인식 네트워크(420)에 의해 발화자의 음성이 호출명령어로 인식되면 다음 단계인 연속 음성 인식 네트워크(430)로 이행되며, 연속 음성 인식 네트워크(430)의 구성 및 그 역할은 다음과 같다.
먼저, 토큰 패싱부(Token passing, 431)는 구성된 연속 음성 인식 네트워크에서 입력된 음성을 검색하는 부분이다.
키워드 탐지부(Keyword spotting, 432)는, 핵심어와 필러모델을 이용하여 빔 서치된 토큰에서 핵심어를 검출하는 부분이다.
신뢰도 검사부(Confidence Detection, 433)는, 인식된 핵심어가 진짜인지 아닌지 신뢰도를 검사하여 판단하는 부분이다.
룰 체크부(Rule check, 444)는, 인식된 결과가 인식 대상 문장인지 아닌지 판단하는 후처리 부분이다.
도 4와 같이, 호출명령어 인식 네트워크(420)는 호출명령어에 대한 검색 루틴 및 신뢰도 검사 루틴을 포함함으로써 입력되는 모든 연속 음성에 대하여 인식 네트워크를 진행해야만 하는 기존 연속 음성인식에 비하여 계산량이 급격히 감소하 게 된다.
따라서, 포터블 기기나 임베디드 시스템과 같이 계산처리능력과 저장용량이 적은 응용분야에서도 연속 음성인식의 장점을 적용할 수 있게 된다.
호출명령어 인식 네트워크(420)는 입력음성에 대한 특징 파라미터 추출 부분과 변형된 호출 명령어 인식 네트워크 및 신뢰도 검사 부분이 포함된다(호출명령어 검색 루틴 및 신뢰도 검사 루틴).
도 5는 본 발명의 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템의 구성을 간략하게 도시한 것이다.
도 5에 도시된 바와 같이, 호출명령어/연속 음성 인식 시스템은 호출명령어 인식 및 신뢰도를 측정하는 호출명령어 인식 네트워크와 실제 명령어인 음성을 인식하는 연속 음성 인식 네트워크로 구성된다. 호출명령어/연속 음성 인식 시스템은 호출명령어('나래야', '네비야' 등)에 대한 인식 네트워크를 구성하고 입력 되어지는 음성에 대해 호출 명령어 1개에 대한 인식 네트워크에 대해 진행하고 신뢰도를 측정함으로써 실제 연속 음성 인식 네트워크를 시작할 지 안할 지를 결정해준다.
이러한 본 발명에 따른 방식은 기존의 인식 네트워크를 사용하는 연속 음성인식 시스템에서 필요한 메모리와 연산 처리 능력을 현격히 감소시켜 주는 효과를 가진다.
문제해결을 위해, 핵심어 검출 방식의 연속 음성인식 시스템을 수행함에 있어서 소량의 연산만으로 보다 높은 미등록어 거절율 및 음성 인식율 향상을 위하여 본 발명에서는 다음과 같은 기법을 제안한다.
도 6은 본 발명에 따른 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템에서의 호출명령어 인식 네트워크를 설명하기 위해 도시한 구성도이다.
도 6에 도시된 바와 같이, 호출 명령어에 대한 인식 네트워크는 Left-to-Right 모델로 구성되어지며 묵음모델에서 묵음모델로의 천이만 가능하며, 매 입력 음성 프레임은 단지 1 단어의 인식 네트워크와 실시간 확률 비교가 이루어지게 된다. 여기서, 빔폭은 20 내지 30개의 토큰만으로 제한하여 계산량을 최소화 시킬 수 있다.
단지 1 단어에 대한 인식 네트워크이므로 극소량(20개 내지 30개)의 토큰만이 필요하며, 연속적으로 입력되는 프레임에 대해 실시간 계산이 이루어지면서, 호출명령어 인식 네트워크에서 묵음 모델로 천이하는 순간의 토큰 누적 확률이 20 내지 30개의 토큰 중에 상위 10%에 해당하면 실제 호출명령어를 발성하였다고 가정하고 프레임 정보를 신뢰도 검사 루틴(신뢰도 검사 루틴, 430)으로 전달한다.
즉, 호출명령어 인식 네트워크의 시계열적 작동순서를 살펴보면, 먼저 호출 명령어 인식 네트워크를 구성한다(Step 1). 녹음된 음성 입력 프레임의 실시간 인식 네트워크를 디코딩 후 토큰에 저장한다(Step 2). 이때 저장되는 각각의 비트값은 다음식의 로그 가능성 비율값에 따라 소팅(Sorting) 된다.
Figure 112008038015931-PAT00004
여기서, LLRκ는 Log Likelihood Ratio(로그 확률 비율), λκ는 k번째 모델 파라미터, p(0|λκ)는 입력 음성 프레임의 λκ 모델에 대한 확률을 나타낸다.
Step 2에 따라 누적확률이 정렬된 후 N(20 내지 30)개로 토큰 빔 프루닝(Token Beam pruning)을 행한다(Step 3). 이어서, 호출 명령어 인식 네트워크의 마지막 상태로서 Step 3 상태에서 묵음구간으로 천이하는 순간의 토큰 누적확률값이 상위 10%(2 내지 3)에 해당하면 호출명령어로 가정하고 신뢰도 검사 루틴으로 이동, 그렇지 않으면 Step 2로 이동한다(Step 4).
일반적으로 음성인식 네트워크 구성시 필요한 토큰의 수는 단어수 * 단어수 정도가 필요하며, 즉, 1,000단어 정도의 연속 음성 인식을 위해 필요한 안정적인 토큰의 수는 1,000,000개 정도가 필요합니다. 하지만, 본 발명의 호출명령어 인식 네트워크에서는 단지 20 내지 30개의 토큰에 대한 누적확률 및 모델 천이 상태가 저장된다. 이 20개 내지 30개 중에서 최상위 확률값을 저장하는 토큰만이 필요하며, 도 5에서 a33에서 silence(묵음구간)로 천이하는 순간의 누적확률이 최상위 확률값을 저장하는 토큰이면 호출명령어가 발화된 것으로 간주하고 신뢰도 검사를 실시한다. 이때, 최상위 확률값의 범위는 상위 10%의 범위로 정할 수 있다.
이러한 호출 명령어 인식 네트워크의 계산량은 실시간 MFCC(Mel Frequency Cepstrum Cofficient) 파라미터 추출 및 20 내지 30개의 토큰 디코딩에 필요한 계산으로 한정되어 연속 음성 인식 네트워크에 따른 계산량에 비해 극소량에 불과하 여, 기존의 에너지와 ZCR을 이용한 VAD 검출 기법의 계산량보다도 오히려 감소하게 된다. 하지만, 잡음환경하에서의 VAD 검출율은 현격히 향상될 수 있다.
호출명령어 인식 네트워크에 의해 호출명령어가 발화된 것으로 결정되면, 호출명령어에 대한 신뢰도 검사를 행한다.
마이크로부터 입력되는 모든 음성은 1번의 호출명령어 인식 네트워크에 따라 음성 인식이 수행되어 지며, 20 내지 30개의 토큰 중 누적확률 값이 우수한 토큰은 신뢰도 검사 루틴(신뢰도 검사 루틴, 도4에서는 430)으로 전달되어 진다. 이때, 토큰에는 이미 입력된 음성이 호출명령서 인식 네트워크에서 천이된 정보(자동 분할(auto segmentation) 정보)가 보유된다.
이와 같이 인식된 자동 분할된 분할 정보에 따라 호출명령어인 '나래야' 또는 '네비야' 라고 가정된 입력 음성(호출명령어)은 호출명령어 인식 네트워크의 음소모델에 대한 확률
Figure 112008038015931-PAT00005
과 가정된 음소가 아닌 반음소 모델(anti-phone model)에 대한 확률
Figure 112008038015931-PAT00006
과의 비율을 계산하여 신뢰도(Confidence rate)를 계산하게 된다. 그 수학식은 다음과 같다.
Figure 112008038015931-PAT00007
여기서, LLR는 Log likelihood ratio,
Figure 112008038015931-PAT00008
는 음소모델,
Figure 112008038015931-PAT00009
는 반음소모델을 의미한다.
위 수학식 2에 따라 LLR값이 결정되어 'LLR > 임계값'이면 연속 음성 인식 네트워크를 수행하고, 그렇지 않으면 초기상태를 유지한다. 여기서, 연속 음성 인식은 호출명령어에 연이어 발화되는 실제명령어를 의미한다.
도 7은 본 발명에 따른 호출명령어 인식 네트워크에서 묵음으로 천이하는 순간의 확률값이 그 프레임의 토큰들 중 최상위에 해당할 때 신뢰도 검사를 수행한 결과를 나타낸 것이다.
도 7에 도시된 바와 같이, 호출명령어 인식 네트워크에서 묵음으로 천이하는 순간의 확률값이 그 프레임의 토큰들 중 최상위에 해당할 때(호출명령어를 '네비야'라고 가정할 때) 신뢰도 검사를 수행한 결과이다. 즉, 신뢰도 검사루틴으로 전달된 음성 입력 프레임들은 저장된 토큰을 따라 백트랙킹(backtracking)하면 도 7과 같이 “ㄴ”, “ㅔ”, “ㅂ”, “ㅣ”, “야” 부분으로 자동 분할되며, 각 부분은 자신모델과의 확률값
Figure 112008038015931-PAT00010
와 반음소모델과의 확률값
Figure 112008038015931-PAT00011
의 차에 의해 0보다 크면 호출명령어 “네비야”를 인식하고 호출명령어에 연이어 발화되는 음성을 연속 음성 인식 엔진으로 전달하여 연속 음성 인식을 수행하고, 0보다 작으면 호출명령어가 발화되지 않은 것으로 판단하여 초기상태로 복귀한다.
기존의 연속 음성인식 네트워크를 통한 음성인식 방식이 끝점 추출 없이 묵음 모델(silence model)을 통해 음성의 휴지(pause) 구간을 찾는 반면, 제안한 본 발명에 따른 호출명령어 인식 방식에서는 호출명령어 이후에 일정 구간에 대해서만 인식 네트워크를 진행함으로써 대량의 메모리나 고성능의 연산 처리 능력이 요구되 어 지지 않는 장점을 가지게 된다.
이상 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명하였지만, 상술한 본 발명의 기술적 구성은 본 발명이 속하는 기술 분야의 당업자가 본 발명의 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 음성 인식 시스템에 관한 것으로서, 홈네트워크시스템이나 지능형로봇, 차량용 내비게이션 및 Car-PC용 음성 인식 시스템 분야에 널리 산업적으로 이용될 수 있는 발명이다.
도 1은 종래의 연속 음성 인식 네트워크의 구성을 간략히 도시한 것이다.
도 2는 동일한 명령어를 시동을 켜지않은 차량내에서 발성한 음성파형이다.
도 3은 동일한 명령어를 창문을 열고 주행시 발성한 음성파형이다.
도 4는 본 발명에 따른 호출명령어 검색 루틴이 포함된 잡음환경하에서의 연속 음성 인식 시스템의 블록도이다.
도 5는 본 발명의 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템의 구성을 간략하게 도시한 것이다.
도 6은 본 발명에 따른 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템에서의 호출명령어 인식 네트워크를 설명하기 위해 도시한 구성도이다.
도 7은 본 발명에 따른 호출명령어 인식 네트워크에서 묵음으로 천이하는 순간의 확률값이 그 프레임의 토큰들 중 최상위에 해당할 때 신뢰도 검사를 수행한 결과를 나타낸 것이다.

Claims (10)

  1. 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 상기 호출명령어를 인식하는 순간 상기 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써 발화자의 음성을 인식하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  2. 제1항에 있어서,
    상기 호출명령어 인식은,
    호출명령어 인식 네트워크를 통해 수행되며, 상기 인식 네트워크는 LTR(Left-to-Right) 모델로 구성되어지고,
    상기 인식 네트워크에 입력되는 음성 프레임은 소정의 토큰으로 구성되어 상기 인식 네트워크와 실시간 확률 비교가 이루어지는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  3. 제2항에 있어서,
    상기 소정의 토큰은 상기 음성 프레임과 잡음을 포함한 묵음구간을 더 포함하여 구성되는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  4. 제3항에 있어서,
    상기 호출명령어 인식 네트워크는,
    상기 호출명령어 인식 네트워크를 통과해 실시간 계산되는 상기 소정의 토큰의 누적확률이 기설정된 상위 백분율 이내이면 상기 호출명령어를 발화한 것으로 추정하여 상기 음성 프레임을 신뢰도 측정단계로 전달하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  5. 제4항에 있어서,
    상기 음성 프레임의 빔폭은 20 내지 30개의 토큰으로 제한하여 구성하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  6. 제4항에 있어서,
    상기 상위 백분율은 10%인, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  7. 제1항에 있어서,
    상기 신뢰도는 다음 수학식에 의하여 결정되는,
    Figure 112008038015931-PAT00012
    여기서, 여기서, LLR(Log likelihood ratio),
    Figure 112008038015931-PAT00013
    음소모델,
    Figure 112008038015931-PAT00014
    반음소모 델(Anti-phoneme model)인, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  8. 호출명령어를 실시간으로 검색하는 호출명령어 검색 루틴과 상기 호출명령어 검색 루틴에서 검색된 호출명령어의 신뢰도를 검사하는 신뢰도 검사 루틴을 포함하는 호출명령어 인식 네트워크와;
    상기 호출명령어 인식 네트워크에서 상기 호출명령어가 인식되는 순간 상기 호출명령어에 연이어 들어오는 발화자의 음성을 인식하는 연속 음성 인식 네트워크;를 포함하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  9. 제8항에 있어서,
    상기 호출명령어 인식 네트워크는 적응형 필터(Adaptive Filter), 특징추출부(Feature Extration) 및 탐색부(Keyword Searching)를 포함하여 이루어지는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
  10. 제9항에 있어서,
    상기 연속 음성 인식 네트워크는 토큰 패싱부(Token passing), 키워드 탐지부(Keyword spotting), 신뢰도 검사부(Confidence Detection) 및 룰 체크부(Rule check)를 포함하여 이루어지는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
KR1020080049455A 2008-05-28 2008-05-28 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 KR101056511B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020080049455A KR101056511B1 (ko) 2008-05-28 2008-05-28 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
PCT/KR2009/002118 WO2009145508A2 (ko) 2008-05-28 2009-04-22 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템
US12/863,437 US8275616B2 (en) 2008-05-28 2009-04-22 System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
US13/591,479 US8930196B2 (en) 2008-05-28 2012-08-22 System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080049455A KR101056511B1 (ko) 2008-05-28 2008-05-28 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템

Publications (2)

Publication Number Publication Date
KR20090123396A true KR20090123396A (ko) 2009-12-02
KR101056511B1 KR101056511B1 (ko) 2011-08-11

Family

ID=41377742

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080049455A KR101056511B1 (ko) 2008-05-28 2008-05-28 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템

Country Status (3)

Country Link
US (2) US8275616B2 (ko)
KR (1) KR101056511B1 (ko)
WO (1) WO2009145508A2 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
US9619200B2 (en) 2012-05-29 2017-04-11 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
KR20170087390A (ko) * 2016-01-20 2017-07-28 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 음성 웨이크업 방법 및 장치
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
KR20190065200A (ko) 2019-05-21 2019-06-11 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20190065201A (ko) 2019-05-21 2019-06-11 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20200047853A (ko) * 2018-10-25 2020-05-08 현대오토에버 주식회사 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템
US10733978B2 (en) 2015-02-11 2020-08-04 Samsung Electronics Co., Ltd. Operating method for voice function and electronic device supporting the same
WO2021101017A1 (ko) * 2019-11-18 2021-05-27 삼성전자 주식회사 비정상 잡음을 판단하는 전자 장치 및 방법

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US9536523B2 (en) 2011-06-22 2017-01-03 Vocalzoom Systems Ltd. Method and system for identification of speech segments
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
US9110889B2 (en) * 2013-04-23 2015-08-18 Facebook, Inc. Methods and systems for generation of flexible sentences in a social networking system
US9606987B2 (en) 2013-05-06 2017-03-28 Facebook, Inc. Methods and systems for generation of a translatable sentence syntax in a social networking system
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
RU2606566C2 (ru) * 2014-12-29 2017-01-10 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
KR102323393B1 (ko) 2015-01-12 2021-11-09 삼성전자주식회사 디바이스 및 상기 디바이스의 제어 방법
CN105869640B (zh) * 2015-01-21 2019-12-31 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
KR101988222B1 (ko) 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
EP3430617B1 (en) 2016-11-07 2019-10-23 Google LLC Recorded media hotword trigger suppression
KR20180062127A (ko) 2016-11-30 2018-06-08 영남대학교 산학협력단 음성인식을 통한 다자간 무선 통신 장치 및 그 방법
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10522137B2 (en) 2017-04-20 2019-12-31 Google Llc Multi-user authentication on a device
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
CN110738990B (zh) * 2018-07-19 2022-03-25 南京地平线机器人技术有限公司 识别语音的方法和装置
IT201900015506A1 (it) 2019-09-03 2021-03-03 St Microelectronics Srl Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti
CN113707135B (zh) * 2021-10-27 2021-12-31 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
US11782877B1 (en) 2022-05-17 2023-10-10 Bank Of America Corporation Search technique for noisy logs and resulting user interfaces displaying log entries in ranked order of importance

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
EP1092514A4 (en) * 1999-01-07 2007-05-23 Sony Corp MACHINE, ITS CONTROL METHOD AND RECORDING MEDIUM
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
US7016315B2 (en) * 2001-03-26 2006-03-21 Motorola, Inc. Token passing arrangement for a conference call bridge arrangement
US6985859B2 (en) * 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US7203652B1 (en) * 2002-02-21 2007-04-10 Nuance Communications Method and system for improving robustness in a speech system
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
US7756709B2 (en) * 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
JP4904691B2 (ja) * 2004-12-28 2012-03-28 カシオ計算機株式会社 カメラ装置、及び撮影方法
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US20070088552A1 (en) * 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
US7966183B1 (en) * 2006-05-04 2011-06-21 Texas Instruments Incorporated Multiplying confidence scores for utterance verification in a mobile telephone
KR101450188B1 (ko) * 2006-08-09 2014-10-14 삼성전자주식회사 휴대용 단말기의 음성 제어 장치 및 방법
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
KR101393023B1 (ko) * 2007-03-29 2014-05-12 엘지전자 주식회사 이동통신단말기 및 그 음성인식 사용자 인터페이스 방법
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619200B2 (en) 2012-05-29 2017-04-11 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
US11393472B2 (en) 2012-05-29 2022-07-19 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
US10657967B2 (en) 2012-05-29 2020-05-19 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
US10733978B2 (en) 2015-02-11 2020-08-04 Samsung Electronics Co., Ltd. Operating method for voice function and electronic device supporting the same
US10482879B2 (en) 2016-01-20 2019-11-19 Baidu Online Network Technology (Beijing) Co., Ltd. Wake-on-voice method and device
KR20170087390A (ko) * 2016-01-20 2017-07-28 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 음성 웨이크업 방법 및 장치
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
KR20200047853A (ko) * 2018-10-25 2020-05-08 현대오토에버 주식회사 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템
KR20190065201A (ko) 2019-05-21 2019-06-11 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20190065200A (ko) 2019-05-21 2019-06-11 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11183190B2 (en) 2019-05-21 2021-11-23 Lg Electronics Inc. Method and apparatus for recognizing a voice
US11508356B2 (en) 2019-05-21 2022-11-22 Lg Electronics Inc. Method and apparatus for recognizing a voice
WO2021101017A1 (ko) * 2019-11-18 2021-05-27 삼성전자 주식회사 비정상 잡음을 판단하는 전자 장치 및 방법
US11942105B2 (en) 2019-11-18 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and method for determining abnormal noise

Also Published As

Publication number Publication date
US20110054892A1 (en) 2011-03-03
US8930196B2 (en) 2015-01-06
WO2009145508A3 (ko) 2010-01-21
KR101056511B1 (ko) 2011-08-11
US8275616B2 (en) 2012-09-25
WO2009145508A2 (ko) 2009-12-03
US20120316879A1 (en) 2012-12-13

Similar Documents

Publication Publication Date Title
KR101056511B1 (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US11996097B2 (en) Multilingual wakeword detection
US10923111B1 (en) Speech detection and speech recognition
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
Li et al. Robust endpoint detection and energy normalization for real-time speech and speaker recognition
Juang et al. Automatic speech recognition–a brief history of the technology development
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
Huang et al. Microsoft Windows highly intelligent speech recognizer: Whisper
US6845357B2 (en) Pattern recognition using an observable operator model
CN103065629A (zh) 一种仿人机器人的语音识别***
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
Hasnat et al. Isolated and continuous bangla speech recognition: implementation, performance and application perspective
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
Nakagawa A survey on automatic speech recognition
CN112542170A (zh) 对话***、对话处理方法和电子装置
Boite et al. A new approach towards keyword spotting.
Loh et al. Speech recognition interactive system for vehicle
Khaing et al. Myanmar continuous speech recognition system based on DTW and HMM
Dubagunta et al. Using Speech Production Knowledge for Raw Waveform Modelling Based Styrian Dialect Identification.
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
CN114155882A (zh) 一种基于语音识别的“路怒”情绪判断方法和装置
Trivedi A survey on English digit speech recognition using HMM
Santoso et al. Categorizing error causes related to utterance characteristics in speech recognition
Chen et al. End-to-end speaker-dependent voice activity detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160805

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170918

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190731

Year of fee payment: 9