KR100639930B1 - Voice 2 stage end-point detection apparatus for automatic voice recognition system and method therefor - Google Patents
Voice 2 stage end-point detection apparatus for automatic voice recognition system and method therefor Download PDFInfo
- Publication number
- KR100639930B1 KR100639930B1 KR1020040097113A KR20040097113A KR100639930B1 KR 100639930 B1 KR100639930 B1 KR 100639930B1 KR 1020040097113 A KR1020040097113 A KR 1020040097113A KR 20040097113 A KR20040097113 A KR 20040097113A KR 100639930 B1 KR100639930 B1 KR 100639930B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- noise
- input signal
- frame
- end point
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013179 statistical model Methods 0.000 claims abstract description 27
- 230000003068 static effect Effects 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 42
- 238000005315 distribution function Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 11
- 230000003139 buffering effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 230000007704 transition Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명의 목적은 로그 에너지를 이용한 음성의 끝점검출 방법과 통계적 모델을 이용한 음성의 끝점검출 방법의 장점만을 실현시켜 동적인 잡음환경 혹은 정적인 잡음환경 하에서도 보다 정확한 음성의 시작점 혹은 끝점을 검출하도록 하는 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법을 제공하는 데 있다. 상기와 같은 목적을 달성하기 위한 본 발명의 자동음성인식시스템의 음성 2단 끝점검출 장치는, 입력신호로부터 부가잡음 성분을 제거하여 입력신호의 음질을 향상시키는 입력 신호 음질 향상부와, 상기 입력 신호 음질 향상 수단에서 출력되는 부가잡음이 제거된 입력신호의 로그 에너지를 이용하여 음성의 시작점 혹은 끝점을 검출하는 로그 에너지 기반 음성 검출부와, 상기 로그 에너지 기반 음성 검출 수단에서 출력되는 상기 음성의 시작점 혹은 음성의 끝점 정보를 이용하고, 통계적 모델을 이용한 음성의 끝점검출 방법을 통해 음성의 시작 혹은 끝점을 검출하는 통계적 모델 기반 음성 검출부로 구성된다.An object of the present invention is to realize only the advantages of the method of detecting the end point of speech using log energy and the method of detecting the end point of speech using statistical model, so that the accurate starting or end point of speech can be detected even under dynamic or static noise environment. The present invention provides an apparatus and method for detecting a two-stage end point of an automatic speech recognition system. In order to achieve the above object, an audio two-stage endpoint detection apparatus of an automatic speech recognition system of the present invention includes an input signal sound quality improving unit for removing additional noise components from an input signal to improve sound quality of the input signal, and the input signal. A log energy-based speech detector for detecting a start point or an end point of speech using log energy of an input signal from which additional noise output from the sound quality improving means is removed, and a start point or voice of the speech output from the log energy-based speech detection means It consists of a statistical model-based speech detector that detects the beginning or the end point of speech by using the endpoint information of and through the speech endpoint detection method using a statistical model.
음성의 끝점검출, 음성 추출, 비음성 제거, 로그 에너지, 통계적 모델Speech endpoint detection, speech extraction, nonvoice rejection, log energy, statistical model
Description
도 1은 본 발명의 일 실시예에 따른 자동음성인식시스템의 음성 2단 끝점검출장치의 구성을 나타낸 구성 블록도,1 is a block diagram showing the configuration of a two-stage end point detection apparatus of an automatic voice recognition system according to an embodiment of the present invention;
도 2는 도 1에서의 입력신호 음질 향상부의 상세 기능블록도,2 is a detailed functional block diagram of an input signal sound quality improving unit of FIG. 1;
도 3은 도 1에서의 로그 에너지 기반 음성 검출부의 상세 기능 블록도,3 is a detailed functional block diagram of a log energy-based speech detector of FIG. 1;
도 4는 도 3에서의 음성 시작점/끝점 검출부의 상태도,4 is a state diagram of a voice start / end point detector of FIG. 3;
도 5 는 도 1에서의 통계적 모델 기반 음성 검출부의 상세 기능 블록도,FIG. 5 is a detailed functional block diagram of a statistical model-based speech detector in FIG. 1;
도 6은 본 발명의 일 실시예에 따른 자동음성인식시스템의 음성 2단 끝점검출방법을 나타낸 동작 플로우챠트,6 is an operation flowchart illustrating a method for detecting a two-stage end point of an automatic voice recognition system according to an embodiment of the present invention;
도 7은 도 6에서의 입력신호 음질 향상 단계의 상세 동작 플로우챠트,7 is a detailed operation flowchart of the input signal sound quality improving step of FIG.
도 8은 도 6에서의 로그 에너지 기반 음성 검출 단계의 상세 동작 플로우챠트,FIG. 8 is a detailed operation flowchart of the log energy based speech detection step of FIG. 6;
도 9는 도 6에서의 통계적 모델 기반 음성 검출 단계의 상세 동작 플로우챠트.9 is a detailed operational flowchart of a statistical model based speech detection step in FIG. 6;
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100 : 입력신호 음질 향상부100: sound quality enhancement unit
200 : 로그 에너지 기반 음성 검출부200: log energy-based speech detector
300 : 통계적 모델 기반 음성 검출부300: statistical model based speech detector
본 발명은 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법에 관한 것으로, 특히 동적인 잡음환경 혹은 정적인 잡음환경 하에서도 보다 정확한 음성의 시작점 혹은 끝점을 검출하도록 하는 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for detecting a two-stage end point of an automatic speech recognition system. In particular, a speech of an automatic speech recognition system for detecting a more accurate start or end point of a speech even in a dynamic noise environment or a static noise environment The present invention relates to a two-stage endpoint detection device and a method thereof.
일반적으로, 자동 음성 인식 기술이란 인간의 음성에 포함되어 있는 언어정보를 추출하는 방법으로, 마이크, 헤드셋, 유무전화기, 및 휴대폰 등을 통하여 입력된 음성의 특징을 분석하여 이를 인식하고 그에 상응하는 동작을 수행하는 기술을 말한다. 이와 같은 자동 음성 인식 기술은 실생활과 밀접한 관련이 있는 분야 즉, 홈오토메이션, 음성인식 장난감, 음성인식 어학 학습기, 음성인식 웹브라우저, 음성인식 게임, 음성인식 휴대통신단말기, 음성인식가전제품, 증권거래시스템, 자 동안내시스템, 음성인식 다이얼링시스템 등 여러 분야에 걸쳐서 폭 넓게 활용되고 있다. In general, automatic speech recognition technology is a method of extracting language information contained in a human voice, and analyzes the characteristics of the voice input through a microphone, a headset, a telephone, a mobile phone, and the like and recognizes the corresponding operation. Say the skill to do it. Such automatic speech recognition technology is closely related to real life such as home automation, speech recognition toys, speech recognition language learners, speech recognition web browsers, speech recognition games, speech recognition mobile communication terminals, speech recognition appliances, securities trading It is widely used in various fields such as system, e-mail system and voice recognition dialing system.
또한, 일반적으로 자동 음성 인식 방법은 마이크, 헤드셋 등의 음성신호입력장치를 통하여 음성신호을 입력 받는 음성신호입력 과정, 입력 받은 음성신호로부터 주변잡음을 제외한 순수 음성신호부분만을 추출하는 음성의 끝점검출과정, 순수음성신호로부터 음성의 주파수특성을 분석하는 음성특징추출과정 및 인식 알고리즘을 이용하여 음성을 인식하는 음성인식과정, 음성인식결과로부터 인식된 결과가 인식 혹은 오인식 된 것인지를 판별해내거나 인식된 결과를 수정하는 후처리 과정을 거친다.Also, in general, the automatic voice recognition method includes a voice signal input process for receiving a voice signal through a voice signal input device such as a microphone or a headset, and an endpoint detection process for extracting only a pure voice signal portion except for ambient noise from the input voice signal. Speech recognition process that analyzes frequency characteristics of speech from pure speech signal and speech recognition process using speech recognition algorithm and recognition algorithm, and whether the recognized result is recognized or misrecognized from speech recognition result After the post-treatment process to correct.
상기 음성의 끝점검출 과정이란 입력신호로부터 순수음성신호만을 추출해내는 자동음성인식 전과정 중 전처리에 해당하는 과정으로, 전체 자동음성인식 시스템의 성능을 크게 좌우하는 역할을 한다. 음성의 끝점검출 성능을 크게 좌우하는 원인으로 부가잡음을 예를 들 수 있다. 부가잡음은 크게 정적인 잡음(stationary noise)과 동적인 잡음(dynamic noise)이 있다. 정적인 잡음이란 시간에 따라 그 주파수 특성이 거의 변하지 않는 부가잡음을 말하고 동적인 잡음이란 시간에 따라 그 주파수 특성이 동적으로 변화하는 부가잡음을 말한다. The end point detection process of the speech corresponds to preprocessing of the entire automatic speech recognition process of extracting only the pure speech signal from the input signal, and greatly affects the performance of the entire automatic speech recognition system. An additional noise may be cited as a cause that greatly influences the endpoint detection performance of speech. Additive noise is largely stationary noise and dynamic noise. Static noise refers to added noise whose frequency characteristic is hardly changed with time, and dynamic noise refers to additional noise whose frequency characteristic changes dynamically with time.
일반적으로 정적인 잡음환경 하에서 보다 동적인 잡음환경에서 음성의 끝점검출이 까다로운 것으로 알려져 있다. 일반적으로 주변잡음에 비해 입력음성의 신호가 상대적으로 크다고 가정한다면 입력신호의 로그에너지를 이용한 음성의 끝점검출 방법으로도 동적인 혹은 정적인 잡음환경 하에서도 대략적인 음성의 끝점검출 이 가능하지만 정확한 음성의 시작점과 끝점을 검출하기는 어렵다. 통계적 모델을 이용한 음성의 끝점검출 방법은 정적인 잡음 환경에서 비교적 정확한 음성의 시작점 및 끝점 검출이 가능하지만 동적인 잡음 환경에서는 그 정확도가 저하되는 단점을 가지고 있다.In general, it is known that voice end point detection is more difficult in a static noise environment. In general, assuming that the input voice signal is relatively large compared to the surrounding noise, the end point detection method using the log energy of the input signal can be used to detect the end point of the voice even under dynamic or static noise. It is difficult to detect the starting point and the ending point of. The end point detection method of speech using a statistical model is relatively accurate in detecting the starting point and end point of a voice in a static noise environment, but has a disadvantage in that its accuracy is degraded in a dynamic noise environment.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루지는 것으로서, 본 발명의 목적은 로그 에너지를 이용한 음성의 끝점검출 방법과 통계적 모델을 이용한 음성의 끝점검출 방법의 장점만을 실현시켜 동적인 잡음환경 혹은 정적인 잡음환경 하에서도 보다 정확한 음성의 시작점 혹은 끝점을 검출할 수 있으므로써, 자동음성인식시스템의 성능 향상시킬 수 있도록 하는 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법을 제공하는 데 있다.
Accordingly, the present invention has been made to solve the above-mentioned conventional problems, and an object of the present invention is to realize only the advantages of the method of detecting the endpoint of speech using log energy and the method of detecting the endpoint of speech using a statistical model. The present invention provides an apparatus and method for detecting two-stage endpoints of an automatic speech recognition system, which can improve the performance of an automatic speech recognition system by detecting a precise start or end point of a speech even in a noisy environment or a static noise environment. There is.
상기와 같은 목적을 달성하기 위한 본 발명의 자동음성인식시스템의 음성 2단 끝점검출 장치는, 입력신호로부터 부가잡음 성분을 제거하여 입력신호의 음질을 향상시키는 입력 신호 음질 향상 수단과, 상기 입력 신호 음질 향상 수단에서 출력되는 부가잡음이 제거된 입력신호의 로그 에너지를 이용하여 음성의 시작점 혹은 끝점을 검출하는 로그 에너지 기반 음성 검출 수단과, 상기 로그 에너지 기반 음성 검출 수단에서 출력되는 상기 음성의 시작점 혹은 음성의 끝점 정보를 이용하고, 통계적 모델을 이용한 음성의 끝점검출 방법을 통해 음성의 시작 혹은 끝점을 검출하는 통계적 모델 기반 음성 검출 수단을 포함하여 구성되는 것을 특징으로 한다.In order to achieve the above object, the two-stage end point detection apparatus of the automatic speech recognition system of the present invention includes: an input signal sound quality improving means for removing an additional noise component from an input signal to improve sound quality of the input signal, and the input signal. Log energy-based speech detection means for detecting the starting point or end point of speech using the log energy of the input signal from which the additional noise output from the sound quality enhancement means is removed, and the starting point of the speech output from the log energy-based speech detection means, or It is characterized in that it comprises a statistical model-based speech detection means for detecting the beginning or the end point of the voice by using the end point information of the voice, and the end point detection method of the voice using the statistical model.
상기와 같은 목적을 달성하기 위한 본 발명의 자동음성인식시스템의 음성 2단 끝점검출 방법은, 입력신호가 입력되면, 그 입력신호로부터 부가잡음 성분을 제거하여 입력신호의 음질을 향상시키는 제1 단계와, 상기 부가잡음이 제거된 입력신호의 로그 에너지를 이용하여 음성의 시작점 혹은 끝점을 검출하는 제2 단계와, 상기 검출된 음성의 시작점 혹은 음성의 끝점 정보를 이용하고, 통계적 모델을 이용한 음성의 끝점검출 방법을 통한 음성의 시작 혹은 끝점을 검출하는 제3 단계를 포함하여 이루어 지는 것을 특징으로 한다.In order to achieve the above object, a two-stage end point detection method of an automatic speech recognition system of the present invention includes, when an input signal is input, removes an additional noise component from the input signal to improve sound quality of the input signal. And a second step of detecting a start point or an end point of the voice using the log energy of the input signal from which the additional noise is removed, and using a statistical model using the start point or end point information of the detected voice. And a third step of detecting the beginning or the end point of the voice through the endpoint detection method.
이하, 본 발명의 일 실시예에 의한 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, an apparatus for detecting a two-stage end point of an automatic voice recognition system and a method thereof according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 자동음성인식시스템의 음성 2단 끝점검출 장치의 기능 블록도를 도시한 것이다. Figure 1 shows a functional block diagram of a two-stage endpoint detection apparatus of the automatic speech recognition system according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 자동음성인식시스템의 음성 2단 끝점검출 장치는 입력신호로부터 부가잡음 성분을 제거하여 입력신호의 음질을 향상시키는 입력 신호 음질 향상부(100)와, 상기 부가잡음이 제거된 입력신호의 로그 에너지를 이용하여 음성의 시작점 혹은 끝점을 검출하는 로그 에너지 기반 음성 검출부(200)와, 상기 음성의 시작점 혹은 음성의 끝점 정보를 이용하 고, 통계적 모델을 이용한 음성의 끝점검출 방법을 통한 음성의 시작 혹은 끝점을 검출하는 통계적 모델 기반 음성 검출부(300)로 구성된다.As shown in FIG. 1, an apparatus for detecting a two-stage end point of an automatic speech recognition system according to an embodiment of the present invention includes an input signal sound quality improving unit for improving sound quality of an input signal by removing additional noise components from the input signal. 100), a log energy-based
도 2는 도 1에서의 입력신호 음질 향상부의 상세 기능 블록도를 도시한 것이다.FIG. 2 is a detailed functional block diagram of an input signal sound quality improving unit of FIG. 1.
도 2에 도시된 바와 같이, 상기 입력신호 음질 향상부(100)는 입력신호를 버퍼링하고, 그 버퍼링된 입력신호들로부터 음질을 향상시키고자 하는 비교적 짧은 구간(10msec 혹은 20msec)의 음성신호를 프레이밍하는 입력신호 버퍼링 및 프레이밍부(101)와, 상기 프레이밍된 신호의 주파수 스펙트럼을 분석하여 그 주파수 스펙트럼을 추정하는 입력신호 스펙트럼 추정부(102)와, 상기 프레이밍된 신호가 음성신호인지를 판단하는 음성 검출부(103)와, 상기 음성 검출부(103)의 음성 검출 결과를 이용하여 잡음 스펙트럼을 추정하는 잡음 스펙트럼 추정부(104)와, 상기 입력신호 스펙트럼 추정부(102)에서 추정된 입력신호의 스펙트럼과 상기 잡음 스펙트럼 추정부(104)에서 추정된 잡음 스펙트럼을 이용하여 입력신호의 신호 대 잡음비(SNR : Signal-to-Noise Ratio)를 추정하고 이를 기반 잡음 제거 계수를 추정하는 잡음제거 필터 계수 추정부(105)와, 상기 입력신호 버퍼링 및 프레이밍부(101)에서 프레이밍된 신호에 잡음 제거 필터 계수를 적용하여 음질이 향상된 음성신호를 출력하는 신호 재생부(106)로 구성되어 있다. As illustrated in FIG. 2, the input signal sound
도 3은 도 1에서의 로그 에너지 기반 음성 검출부의 상세 기능 블록도를 도 시한 것이다.FIG. 3 illustrates a detailed functional block diagram of a log energy-based voice detector in FIG. 1.
도 3에 도시된 바와 같이, 상기 로그 에너지 기반 음성 검출부(200)는 상기 입력신호 품질 향상부(100)를 통하여 음질이 향상된 입력신호의 프레임으로부터 로그 에너지를 추정하는 로그 에너지 추정부(201)와, 로그 에너지 추정부(201)를 통하여 추정된 입력 프레임의 로그 에너지와 음성 검출부(203)의 음성 검출 결과를 기반으로 잡음의 로그 에너지 평균를 추정하는 잡음 로그 에너지 평균 추정부(202)와, 상기 잡음 로그 에너지 평균 추정부(202)에서 추정된 잡음의 로그 에너지 평균과 상기 로그 에너지 추정부(201)에서 추정된 로그 에너지를 비교하여 입력 프레임이 음성인지 아니면 배경 잡음인지를 판단하는 음성 검출부(203)와, 상기 음성 검출부(203)의 음성 검출 결과를 기반으로 음성의 시작점과 끝점을 검출하는 음성 시작점/끝점 검출부(204)로 구성된다.As shown in FIG. 3, the log energy-based
도 5는 도 1에서의 통계적 모델 기반 음성 검출부의 상세 기능 블록도를 도시한 것이다.FIG. 5 is a detailed functional block diagram of the statistical model-based speech detector of FIG. 1.
도 5에 도시된 바와 같이, 상기 통계적 모델 기반 음성 검출부(300)는 상기 로그 에너지 기반 음성 검출부(200)에서 검출된 입력신호의 확률 분포 함수를 추정하는 입력 신호 확률 분포 함수 추정부(301)와, 상기 입력신호 확률 분포 함수 추정부(301)를 통한 신호의 잡음의 확률 분포 함수를 추정하는 잡음 확률 분포 함수를 추정하는 잡음 확률 분포 함수 추정부(302)와, 상기 입력 신호 확률 분포 함수 추정부(301)에서 추정된 입력신호의 확률 분포 함수와 상기 잡음 확률 분포 함수 추정부(302)에서 추정된 잡음의 확률 분포 함수를 기반으로 음성이 존재하지 않을 확률 혹은 음성이 존재할 확률을 입력 프레임으로 계산하고, 이 확률값과 임계치를 비교하여 음성 검출 여부를 판단하는 확률 계산 및 음성 검출부(303)와, 상기 음성 검출부(303)의 음성 검출 결과를 기반으로 음성의 시작점과 끝점을 검출하는 음성 시작점/끝점 검출부(304)로 구성된다.As shown in FIG. 5, the statistical model-based
그러면, 상기와 같은 구성을 가지는 본 발명의 일 실시예에 따른 자동음성인식시스템의 음성 2단 끝점검출 장치의 동작을 도 4, 도 6 내지 도 9를 참조하여 상세히 설명하기로 한다.Then, the operation of the two-stage end point detection device of the automatic speech recognition system according to an embodiment of the present invention having the above configuration will be described in detail with reference to FIGS. 4, 6 to 9.
먼저, 입력신호가 입력되면(S100), 입력신호 음질 향상부(100)는 그 입력신호로부터 부가잡음 성분을 제거하여 입력신호의 음질을 향상시킨다(S200). First, when an input signal is input (S100), the input signal sound
상기 입력신호 음질 향상 단계(S200)를 도 7를 참조하여 상세히 설명하면 다음과 같다.The input signal sound quality improvement step S200 will be described in detail with reference to FIG. 7 as follows.
입력신호 버퍼링 및 프레이밍부(101)는 디지털 입력신호를 실시간(real-time)으로 처리하기 위하여 입력신호를 버퍼링하고, 버퍼링된 입력 신호들로부터 음질을 향상시키고자 하는 비교적 짧은 구간(10msec 혹은 20msec)의 음성신호를 프레이밍하는 역할을 수행한다(S201). The input signal buffering and
입력신호의 스펙트럼 추정부(102)는 입력신호의 주파수 스펙트럼을 분석하여 입력신호의 스펙트럼을 추정하는 역할을 수행한다(S202). 이렇게 추정된 입력신 호의 주파수 스펙트럼은 잡음 스펙트럼을 추정 시 혹은 잡음제거 필터 계수를 추정 시에 이용된다.The
음성 검출부(103)는 잡음 스펙트럼을 추정하기 위해 음성의 검출 여부를 판단하는 역할을 수행하게 된다(S203). 즉, 상기 입력신호 버퍼링 및 프레이밍부(101)에서 프레이밍된 신호가 음성신호인지를 판단하게 된다.The
잡음 스펙트럼 추정부(104)는 음성 검출부(103)의 음성검출 결과를 이용하여 잡음 스펙트럼을 추정하는 역할을 수행한다(S204). 즉, 상기 음성 검출부(103)에서 음성이 검출되지 않는 프레임에 대해서는 잡음 스펙트럼을 업데이트하고, 음성이 검출된 프레임에 대해서는 잡음 스펙트럼을 업데이트 하지 않는다.The
잡음제거 필터 계수 추정부(105)는 입력신호 스펙트럼 추정부(102)에서 추정된 입력신호의 스펙트럼과 잡음 스펙트럼 추정부(104)에서 추정된 잡음 스펙트럼을 이용하여 입력신호의 신호대잡음비(SNR, Signal-to-Noise Ratio)를 추정하고, 이를 기반으로 잡음제거 필터 계수를 추정하는 역할을 수행한다(S205). 이렇게 추정된 잡음제거 필터 계수들은 신호 재생부(106)에서 이용된다.The noise canceling
상기 신호 재생부(106)에서는 입력신호에 잡음제거 필터 계수를 적용하여 음질이 향상된 음성신호를 얻는다(S206).The
이어서, 로그 에너지 기반 음성 검출부(200)는 상기 입력신호 음질 향상부(100)에서 부가잡음이 제거된 입력신호의 로그 에너지를 이용하여 음성의 시작점 혹은 끝점을 검출하게 된다(S300).Subsequently, the log energy-based
이 로그 에너지 기반 음성 검출 단계(S300)를 도 8를 참조하여 상세히 설명하기로 한다.This log energy-based voice detection step S300 will be described in detail with reference to FIG. 8.
일반적으로, 로그 에너지를 이용한 음성의 끝점검출 알고리즘은 신호 대 잡음비가 작은 경우 그 성능이 저하되는 단점이 있다. 즉, 부가잡음의 에너지 레벨이 높은 경우, 순수 음성신호와 혼동될 가능성이 높아진다. 따라서 부가 잡음을 제거하는 입력신호 음질향상부(100)는 로그 에너지를 이용한 음성의 끝점검출 알고리즘의 성능을 향상시키는데 많은 기여를 하게 된다.In general, the endpoint detection algorithm of voice using log energy has a disadvantage in that its performance is degraded when the signal-to-noise ratio is small. In other words, when the energy level of the additional noise is high, there is a high possibility of confusion with the pure audio signal. Therefore, the input signal sound
로그 에너지 추정부(201)에서는 상기 입력신호 음질 향상부(100)를 통하여 음질이 향상된 입력신호의 프레임으로부터 로그 에너지를 추정하는 역할을 수행한다(S301).The
잡음 로그 에너지 평균 추정부(202)에서는 로그 에너지 추정부(201)를 통하여 추정된 입력 프레임의 로그 에너지와 음성 검출부(203)의 음성검출 결과를 기반으로 잡음의 로그 에너지를 추정하게 된다(S302).The noise log energy average estimator 202 estimates the log energy of the noise based on the log energy of the input frame estimated by the
음성 검출부(203)에서는 추정된 잡음의 로그에너지 평균과 입력 로그 에너지를 비교하여 입력 프레임이 음성인지 아니면 배경 잡음인지를 판단하게 된다(S303). 즉, 입력 로그 에너지가 잡음의 로그 에너지 평균 보다 어느 정도이상 크면 음성으로 판단하고, 그렇지 않은 경우 배경잡음으로 판단하게 된다. 이러한 음성검출방법에는 입력 음성신호가 배경잡음에 비해 그 에너지가 크다는 기본 가정이 포함되어 있는 것이다.The
음성 시작점/끝점 검출부(204)에서는 음성검출 결과를 기반으로 음성의 시 작점과 끝점을 검출하게 된다. 일반적으로 음성검출 결과 음성프레임으로 판별된 프레임이 연속적으로 일정 수 이상 나타날 경우, 연속된 음성 프레임들 중 첫 프레임을 음성의 시작점으로 판별하고(S304), 음성의 시작점이 검출된 후 배경잡음 프레임으로 판별된 입력 프레임이 일정 수 이상 연속하여 나타날 경우 연속된 배경잡음 프레임들 중 첫 프레임을 음성의 끝점으로 판별하게 된다(S305). The voice start point /
도 4는 음성의 시작점 혹은 끝점 검출부의 상태도를 나타낸 것이다. 4 is a state diagram of a start point or an end point detector of a voice.
최초 상태는 묵음상태에서 시작한다. 그런 다음, 음성 검출 결과가 배경잡음 즉, 묵음인 경우에는 1번 상태로 천이가 되는데 이는 묵음상태에 계속 머무르는 것을 의미한다. 묵음상태에서 음성검출결과가 음성인 경우 전반부 상태로 천이된다(2). 전반부 상태에서는 일정 수의 연속된 음성프레임이 계속 검출된 경우 음성상태로 천이하게 되고(5), 묵음이 검출되는 경우 묵음상태로 천이하게 된다(3). 일정 수 이하의 음성프레임이 연속적으로 검출되는 경우에는 전반부상태에 머무르게 된다(4). 일단 음성상태로 천이가 되면 일정 수의 음성 프레임들이 이미 검출된 것을 의미한다. 따라서 음성의 시작점은 전반부상태에서 음성상태로 천이된 시점의 일정 수 이전의 음성프레임이 된다. 음성상태에서 음성프레임이 검출된 경우에는 계속 음성상태에 머무르게 되고(6) 묵음 프레임이 검출되는 경우에는 후반부 상태로 천이하게 된다(7). 후반부 상태에서는 음성프레임이 검출되면 다시 음성상태로 천이하게 되고(8) 그렇지 않은 경우 후반부상태에 계속 머무르게 된다(9). 이때 일정 수의 묵음 프레임이 연속적으로 검출되는 경우 묵음상태로 천이하게 된다(10). 이때 일정 수 이전의 음성 프레임에서 음성의 끝점이 검출된 것으로 판단하게 된다.The initial state starts with silence. Then, when the voice detection result is background noise, that is, mute, the state transitions to state 1, which means that the voice is kept in the mute state. In the silent state, when the voice detection result is negative, the state transitions to the first half state (2). In the first half state, when a certain number of consecutive voice frames are continuously detected, the state transitions to the speech state (5), and when the silence is detected, the state transitions to the silent state (3). If a certain number of voice frames are continuously detected (4). Once the transition to the voice state means that a certain number of voice frames have already been detected. Therefore, the starting point of the voice is the voice frame before a certain number of times when the voice transition from the first half state to the voice state. If a voice frame is detected in the voice state, the voice state is kept in the voice state (6). If a silent frame is detected, the state transitions to the latter half state (7). In the latter half state, if a voice frame is detected, the state transitions back to the negative state (8). Otherwise, the second half state remains in the second half state (9). At this time, if a certain number of silent frames are continuously detected, the transition to the silent state (10). At this time, it is determined that the end point of the voice is detected in the voice frame before the predetermined number.
이어서, 통계적 모델 기반 음성 검출부(300)는 상기 로그 에너지 기반 음성 검출부(200)로부터 출력되는 상기 음성의 시작점 혹은 음성의 끝점 정보를 이용하고, 통계적 모델을 이용한 음성의 끝점검출 방법을 통한 음성의 시작 혹은 끝점을 검출하게 된다(S400).Subsequently, the statistical model-based
이 통계적 모델 기반 음성 검출 단계(S400)를 도 9를 참조하여 상세히 설명하기로 한다.This statistical model-based speech detection step S400 will be described in detail with reference to FIG. 9.
통계적 모델을 이용한 음성의 끝점검출 방법은 인간의 음성신호를 가우시안, 라플라시안 혹은 감마 분포를 따른다고 가정하고, 배경 잡음의 경우 가우시안 분포를 따른다는 가정 하에서 음성이 존재할 확률 혹은 음성인 존재하지 않을 확률을 계산하여 음성의 끝점검출에 이용하는 방법을 말한다. 이러한 방법은 로그 에너지를 이용한 음성의 끝점검출 방법에 비하여 보다 정확한 음성의 시작점 혹은 끝점의 검출이 가능한 장점이 있으나 동적인 잡음 환경 하에서는 잡음의 주파수 특성 변화에 민감하게 반응하게 되어 그 성능이 저하되는 단점을 가지고 있다. 본 발명에서는 로그 에너지 기반 음성 검출부(200)의 다음 단의 통계적 모델 기반 음성 검출부(300)를 이용하여 잡음의 주파수 특성 변화 정도를 줄여 통계적 모델을 이용한 음성의 끝점검출 방법의 장점을 최대한 부각시킬 수 있도록 끝점검출 시스템을 디자인 하였다. The endpoint detection method using the statistical model assumes that the human voice signal follows the Gaussian, Laplacian, or Gamma distribution. Refers to the method used for calculating the end point of speech. This method has the advantage of more accurate detection of the starting point or end point of voice compared to the method of detecting the end point of voice using log energy. However, under the dynamic noise environment, it is sensitive to changes in the frequency characteristics of the voice and degrades its performance. Have In the present invention, by using the statistical model-based
상기 로그 에너지 기반 음성 검출부(200)에서는 음성의 시작점이 검출되면 음성 시작 전 배경잡음이 충분히 포함되어 있게 충분한 마진을 주고 버퍼링하고 있 던 입력신호를 통계적 모델 기반 음성 검출부(300)의 입력신호 확률 분포 함수 추정부(301)로 전송하게 된다. In the log energy-based
입력신호 확률 분포 함수 추정부(301)는 이러한 입력 프레임으로부터 입력신호의 확률 분포 함수를 추정하게 된다(S401).The input signal probability
잡음 확률 분포 함수 추정부(302)는 상기 입력신호 확률 분포 함수 추정부(301)에서 추정된 입력신호의 확률 분포 함수와 음성 검출부(303)에서의 음성 검출 결과를 기반으로 잡음의 확률 분포 함수를 추정하게 된다(S402). 이때 음성신호의 확률분포 추정을 위해서 가우시안, 라플라시안 혹은 감마 함수들이 주로 이용되며 잡음신호의 확률분포 추정을 위해서는 주로 가우시안 분포를 이용한다. The noise probability
상기 확률 계산 및 음성 검출부(303)는 이렇게 추정된 입력신호의 확률분포함수와 잡음신호의 확률분포함수를 기반으로 음성이 존재하지 않을 확률 혹은 음성이 존재할 확률을 입력프레임으로부터 계산하고(S403), 이 확률값과 임계치를 비교함으로써 음성검출 여부를 판단하게 된다(S404). 즉, 음성이 존재하지 않을 확률이 특정 임계치 보다 높은 경우, 해당 입력프레임을 비음성 프레임으로 판단하고, 그렇지 않은 경우 음성프레임으로 판단한다. The probability calculation and
음성 시작점/끝점 검출부(304)는 음성검출 결과를 기반으로 음성의 시작점과 끝점을 검출하게 된다. 일반적으로 음성검출 결과 음성프레임으로 판별된 프레임이 연속적으로 일정 수 이상 나타날 경우, 연속된 음성 프레임들 중 첫 프레임을 음성의 시작점으로 판별하고(S405), 음성의 시작점이 검출된 후 배경잡음 프레임으로 판별된 입력 프레임이 일정 수 이상 연속하여 나타날 경우 연속된 배경잡음 프 레임들 중 첫 프레임을 음성의 끝점으로 판별하게 된다(S406). The voice start point /
이와같이, 통계적 모델을 기반하는 음성의 시작점과 끝점의 검출 방법은 로그 에너지를 이용한 음성의 시작점과 끝점의 검출 방법과 거의 유사하나, 로그 에너지 기반 음성 검출부(200)에서 음성의 끝점이 검출된 경우 통계적 모델 기반 음성 검출부(300)에서 음성의 끝점이 검출되지 않았더라도 음성의 끝점이 검출된 것으로 판단케 하는 제어 기능이 추가되어 있다.As such, the method of detecting the starting point and the end point of the speech based on the statistical model is almost similar to the method of detecting the starting point and the ending point of the speech using log energy, but statistically when the end point of the speech is detected by the log energy based
이상에서 몇가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한 되는 것이 아니고 본 발명의 기술 사상을 벗어 나지 않는 범위 내에서 다양하게 변형 실시될 수 있다.Although the present invention has been described in more detail with reference to some embodiments, the present invention is not necessarily limited to these embodiments, and various modifications can be made without departing from the spirit of the present invention.
상술한 바와 같이, 본 발명에 의한 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법에 의하면, 정적인 잡음 환경 뿐만 아니라 동적인 잡음 환경에서도 보다 정확한 음성의 시작점 혹은 끝점검출을 가능케 함으로써 자동음성인식 시스템의 성능을 향상시킬 뿐만 아니라 부정확한 음성의 끝점검출로 발생할 수 있는 자동음성인식 시스템의 부하를 막아 자동음성인식 시스템의 효율을 향상시킨다.
As described above, according to the two-stage end point detection apparatus and method of the automatic voice recognition system according to the present invention, it is possible to detect the start point or the end point of the voice more accurately not only in the static noise environment but also in the dynamic noise environment. It not only improves the performance of the recognition system, but also improves the efficiency of the automatic speech recognition system by preventing the load of the automatic speech recognition system that may be caused by inaccurate endpoint detection.
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040097113A KR100639930B1 (en) | 2004-11-24 | 2004-11-24 | Voice 2 stage end-point detection apparatus for automatic voice recognition system and method therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040097113A KR100639930B1 (en) | 2004-11-24 | 2004-11-24 | Voice 2 stage end-point detection apparatus for automatic voice recognition system and method therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060057919A KR20060057919A (en) | 2006-05-29 |
KR100639930B1 true KR100639930B1 (en) | 2006-11-01 |
Family
ID=37153173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040097113A KR100639930B1 (en) | 2004-11-24 | 2004-11-24 | Voice 2 stage end-point detection apparatus for automatic voice recognition system and method therefor |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100639930B1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100718846B1 (en) * | 2006-11-29 | 2007-05-16 | 인하대학교 산학협력단 | A method for adaptively determining a statistical model for a voice activity detection |
KR101697651B1 (en) * | 2012-12-13 | 2017-01-18 | 한국전자통신연구원 | A method for detecting an audio signal and apparatus for the same |
CN114420075A (en) * | 2022-01-24 | 2022-04-29 | 腾讯科技(深圳)有限公司 | Audio processing method and device, equipment and computer readable storage medium |
-
2004
- 2004-11-24 KR KR1020040097113A patent/KR100639930B1/en active IP Right Grant
Non-Patent Citations (4)
Title |
---|
1019930010851 |
1020040056977 |
1020040079773 |
1020040083717 |
Also Published As
Publication number | Publication date |
---|---|
KR20060057919A (en) | 2006-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6782363B2 (en) | Method and apparatus for performing real-time endpoint detection in automatic speech recognition | |
Moattar et al. | A simple but efficient real-time voice activity detection algorithm | |
US9524735B2 (en) | Threshold adaptation in two-channel noise estimation and voice activity detection | |
CN103578470B (en) | A kind of processing method and system of telephonograph data | |
AU711749B2 (en) | A noisy speech parameter enhancement method and apparatus | |
US6023674A (en) | Non-parametric voice activity detection | |
US8606573B2 (en) | Voice recognition improved accuracy in mobile environments | |
US8775168B2 (en) | Yule walker based low-complexity voice activity detector in noise suppression systems | |
JP3273599B2 (en) | Speech coding rate selector and speech coding device | |
US20090248411A1 (en) | Front-End Noise Reduction for Speech Recognition Engine | |
EP0807305A1 (en) | Spectral subtraction noise suppression method | |
JPH07306695A (en) | Method of reducing noise in sound signal, and method of detecting noise section | |
CN112004177B (en) | Howling detection method, microphone volume adjustment method and storage medium | |
JP2000132177A (en) | Device and method for processing voice | |
JP5810912B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
EP1008140A1 (en) | Waveform-based periodicity detector | |
KR100631608B1 (en) | Voice discrimination method | |
JP2000132181A (en) | Device and method for processing voice | |
Ramirez et al. | Voice activity detection with noise reduction and long-term spectral divergence estimation | |
KR20080059881A (en) | Apparatus for preprocessing of speech signal and method for extracting end-point of speech signal thereof | |
KR100639930B1 (en) | Voice 2 stage end-point detection apparatus for automatic voice recognition system and method therefor | |
CN100492495C (en) | Apparatus and method for detecting noise | |
KR100574883B1 (en) | Method for Speech Detection Using Removing Noise | |
KR100284772B1 (en) | Voice activity detecting device and method therof | |
US9978394B1 (en) | Noise suppressor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121011 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130923 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140926 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150925 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170927 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20181001 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20190830 Year of fee payment: 14 |