KR20100009936A - 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법 - Google Patents

음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법 Download PDF

Info

Publication number
KR20100009936A
KR20100009936A KR1020080070775A KR20080070775A KR20100009936A KR 20100009936 A KR20100009936 A KR 20100009936A KR 1020080070775 A KR1020080070775 A KR 1020080070775A KR 20080070775 A KR20080070775 A KR 20080070775A KR 20100009936 A KR20100009936 A KR 20100009936A
Authority
KR
South Korea
Prior art keywords
noise
value
equation
correlation
energy
Prior art date
Application number
KR1020080070775A
Other languages
English (en)
Inventor
김현수
고한석
배정훈
이택진
Original Assignee
삼성전자주식회사
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 고려대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020080070775A priority Critical patent/KR20100009936A/ko
Priority to US12/460,473 priority patent/US8577677B2/en
Publication of KR20100009936A publication Critical patent/KR20100009936A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 장치는 잡음 섞인 음성 신호는 마이크 어레이를 통해 입력되며 hanning 윈도우를 씌워 프레임으로 구분하는 범위설정부; 범위설정부를 통해 프레임별로 구분된 신호를 주파수축으로 변환하는 주파수 변환부; 상기 주파수 변환부를 통해 변환된 프레임별 FFT 값을 임시 저장하는 임시 저장부; 현재 입력시점의 프레임과 기 설정된 시간만큼 떨어진 이후의 프레임간의 상관관계 정도를 측정하는 상관관계 측정부; 상기 상관관계 측정부를 통해 측정된 상관관계 값이 기 설정된 임계값을 초과하는지의 여부를 판단하는 상관관계 판단부; 및 상기 상관관계 판단부를 통해 상관관계 값이 기 설정된 임계값을 초과하면 돌발잡음을 검출하는 돌발잡음 검출부를 포함하는 것으로, 돌발잡음에 보다 효과적인 잡음추정을 할 수 있는 이점이 있다.

Description

음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법{Noise environment estimation/exclusion apparatus and method in sound detecting system}
본 발명은 음성통신/인식에 필요한 음성 강화(speech enhancement)를 위한 어쿠스틱 잡음제거에 있어서 필수적인 잡음추정이다. 여기서 어쿠스틱 잡음이란 입력장치(마이크)에 음성과 같이 입력되는 주변 환경잡음을 뜻한다.
종래 마이크 어레이를 이용한 방향성 잡음 제거 시스템은 도 1에 도시된 바와 같이 적어도 하나 이상의 마이크 어레이(10), 마이크 어레이(10)에 각각 연결된 단구간 분석부(20), 에코 제거부(30), 방향성 잡음 제거와, 정면소리 유/무를 기반으로 필터 weight update on/off하는 적응 빔포밍(adaptive Beamforming) 처리부(40), 마이크간의 신호의 상관관계를 이용하여 정면소리를 정면소리 검출부(50), 잔여잡음 제거와 정면소리 유/무를 기반으로 잔여 잡음을 제어하는 포스트 필터링(Post-filtering)부(60) 및 Overlap and add 처리부(70)를 포함한다.
이러한 종래 마이크 어레이를 이용한 방향성 잡음 제거 시스템에서 잡음을 추정하는 방법은 잡음의 에너지가 음성의 에너지보다 작다는 가정을 기반으로 하고, 음성과 비음성의 구분 대신 음성이 존재할 확률을 이용하여 잡음을 추정하는 방식이다.
즉, 잡음 섞인 음성신호가 마이크 어레이(10)를 통해 입력된다. 이 신호는 windowing과정과 퓨리에 변환(Fourier transform)을 거쳐 주파수축으로 바뀌게 된다.
주파수축으로 변환된 신호를 가지고 노이즈 스피치(noisy speech)의 로컬 에너지(local energy)를 [수학식 1]을 통해 구한다.
[수학식 1]
Figure 112008052290437-PAT00001
,
여기서, |Y()|2는 입력된 노이즈 스피치의 파워 스펙트럼(power spectrum), k는 주파수 인덱스, l은 frame 인덱스를 의미하며, b=window function, window length=2w+1이다.
[수학식 2]
Figure 112008052290437-PAT00002
여기서, k는 주파수 인덱스, l은 frame 인덱스를 의미하며, b=window function, window length=2w+1이다.
이어서, 로컬 에너지의 최소값을 [수학식 3]을 통해 구한다.
[수학식 3]
Figure 112008052290437-PAT00003
앞에서 구한 두 값을 가지고 노이즈 스피치의 로컬 에너지와 최소값 사이의 비를 [수학식 4]를 통해 구한다.
[수학식 4]
Figure 112008052290437-PAT00004
한편, 임계 값 '
Figure 112008052290437-PAT00005
'을 정하여 "
Figure 112008052290437-PAT00006
"이면 음성이 존재한다고 판단하고 그렇지 않은 경우 음성이 없다고 판단하며, 이는 [수학식 5]와 같이 나타낼 수 있다.
[수학식 5]
Figure 112008052290437-PAT00007
위에서 구한 음성 존재 유무를 판단하는 파라메타를 이용하여 [수학식 6]을 참조하여 음성이 존재할 확률 값을 구한다.
[수학식 6]
Figure 112008052290437-PAT00008
이어서, 상기 음성이 존재할 확률 값을 이용하여 [수학식 7]과 같이 노이즈 파워를 추정한다.
[수학식 7]
Figure 112008052290437-PAT00009
여기서, '
Figure 112008052290437-PAT00010
'는 추정된 잡음이다.
상기 [수학식 7]에서 알 수 있듯이 음성이 존재하는 경우 그전의 추정된 잡음 값을 사용하고 존재하지 않는 경우 그 전의 추정된 잡음 값과 들어온 신호의 값을 weight를 줘서 더해줌으로써 업데이트된 잡음의 파워를 구한다.
즉, 들어오는 신호의 음성존재유무를 판단하여 음성이 없는 곳(즉, 잡음구간)에서 잡음을 추정하는 방법이 MCRA이다.
두 번째 잡음 제거 방법은 Spectral subtraction based on minimum statistic으로 spectral subtraction은 노이즈 파워 추정(noise power estimation)이 가장 중요하다.
먼저, 입력 신호를 받아서 주파수 변환을 한 후 magnitude와 phase로 각각 분리한다.
분리된 값 중 phase 값은 그대로 유지하고 magnitude 값만 이용한다.
노이즈만 있는 구간에서의 magnitude값을 추정하여 그 값을 입력 신호의 magnitude값에 빼준다.
이 값과 phase 값을 이용하여 신호를 복원시키면 잡음이 제거된 신호를 얻을 수 있다.
노이즈만 있는 구간을 추정하는 것은 잡음 섞인 신호의 단시간 보조대역 파워 추정(short time subband power estimate)를 이용한다.
단시간 보조대역 파워 추정 값을 구해보면 도 2에 도시된 바와 같이 피크(peaks)와 밸리(valleys)가 생기게 된다.
여기서, Peaks 값은 음향 활동(speech activity) 구간으로 볼 수 있기 때문에 valleys가 있는 구간을 추정함으로써 노이즈 파워를 구할 수 있다.
이렇게 구한 노이즈 부분을 이용하여 앞에서 얘기한 spectral subtraction 방법을 이용하여 잡음을 제거하는 방식이 spectral subtraction based on minimum statistic이다.
그러나 종래 잡음 제거 방식은 돌발 잡음의 변화를 감지하여 적절히 잡음 추정에 반영하지 못하는 문제점이 있다. 즉, 실내 환경에서 발생하는 발자국 소리, 키보드 타이핑 소리 등 지속시간이 짧으나 에너지의 크기가 음성의 그것만큼 큰 잡음에 대해서는 효과가 적었다.
따라서 이러한 부정확한 잡음추정으로 인하여 잔여 잡음이 남는 문제점이 있으며, 잔여잡음은 음성통신에서 사용자에게 듣기 불편함을 주거나 음성인식기의 오작동을 일으켜 음성인식 제품의 성능을 하락시키는 문제점이 있었다.
이러한 이유는 음성/비음성의 구분의 경우 에너지의 크기 혹은 신호 대 잡음 비(signal to noise ratio, SNR)를 기준으로 이 값들이 큰 경우 음성구간으로 인식하고 이 값들이 작을 경우 비 음성구간으로 간주하기 때문에 만약 음성과 비슷한 크기의 에너지를 가지는 주변잡음이 입력될 경우 잡음 추정 및 갱신을 하지 않기 때문이다.
따라서 본 발명은 상기와 같은 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 돌발잡음 환경에서 돌발잡음을 효과적으로 제거할 수 있는 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법을 제공하는 데 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 장치의 일 측면에 따르면, 음성신호를 수신하는 마이크 어레이부; 수신된 신호에 설정된 범위가 겹쳐지도록 윈도우를 씌우는 범위설정부; 상기 윈도우된 신호를 주파수축으로 변환하기 위한 푸리에 변환을 적용하는 주파수 변환부; 상기 주파수 변환부를 통해 변환된 푸리에 변환값과 이전 값의 상관값을 비교하고 상기 윈도우되어 푸리에 변환된 값의 전력(energy)를 계산하는 상관관계 측정부; 및 상관 비교값과 전력값을 이용해 잡음을 검출하는 돌발잡음 검출부를 포함한다.
상기 마이크 어레이부를 통해 입력된 아날로그 음성신호를 디지털 음성 신호로 변환하는 A/D변환부를 더 포함한다.
그리고 상기 주파수 변환부 뒷단에 주파수 변환부를 통해 변환된 푸리에 변환값을 저장하는 버퍼를 더 포함한다.
여기서, 상기 범위설정부는, 32ms 길이를 갖는 hanning 윈도우이다.
한편, 상기 상관관계 측정부는, 상관 비교 값이 기 설정된 임계값을 초과하 는지의 여부를 판단하는 상관관계 판단부와 상기 상관관계 판단부를 통해 상관관계 값이 기 설정된 임계값을 초과하면 잡음으로 인식하는 잡음 검출부를 더 포함한다.
또한 상기 상관관계 판단부는 크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
Figure 112008052290437-PAT00011
)로 정의하고, 크로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
Figure 112008052290437-PAT00012
)로 정의하며, 해당 프레임의 에너지(
Figure 112008052290437-PAT00013
)와 추정된 잡음과의 비(
Figure 112008052290437-PAT00014
)에 임계값을 주어서
Figure 112008052290437-PAT00015
이 주어진 해당 임계값보다 작고
Figure 112008052290437-PAT00016
이 주어진 임계값보다 클 경우 돌발잡음이 존재한다고 판단한다.
상기 돌발잡음 검출부는 기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구한다.
[수학식 8]
Figure 112008052290437-PAT00017
여기서,
Figure 112008052290437-PAT00018
는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 9]
Figure 112008052290437-PAT00019
여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 10]
Figure 112008052290437-PAT00020
여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
상기 돌발잡음 검출부는, 돌발잡음이 검출되지 않으면 고정(stationary) 잡음으로 추정한다.
본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 방법의 일 측면에 따르면, 음성신호를 수신하는 단계; 수신된 신호에 설정된 범위가 겹쳐지도록 윈도우를 씌우는 단계; 윈도우된 신호를 주파수축으로 변환하기 위한 푸리에 변환을 적용하는 단계; 변환된 푸리에 변환값과 이전 값의 상관값을 비교하고 윈도우되어 푸리에 변환된 값의 전력(energy)를 계산하는 단계; 및 상관 비교값과 전력값을 이용해 잡음을 검출하는 단계를 포함한다.
입력된 아날로그 음성신호를 디지탈 음성 신호로 변환하는 단계를 더 포함한다.
그리고, 푸리에 변환을 적용하는 단계 이후 변환된 푸리에 변환값을 저장하는 단계를 더 포함한다.
여기서, 상기 윈도우를 씌우는 단계는, 32ms 길이를 갖는 hanning 윈도우이다.
상기 윈도우되어 푸리에 변환된 값의 전력(energy)를 계산하는 단계는, 상관 비교 값이 기 설정된 임계값을 초과하는지의 여부를 판단하는 단계와 상기 판단 단계에서 상관관계 값이 기 설정된 임계값을 초과하면 잡음으로 인식하는 단계를 더 포함한다.
상기 상관관계 판단 단계는, 크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
Figure 112008052290437-PAT00021
)로 정의하는 단계; 크로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
Figure 112008052290437-PAT00022
)로 정의하는 단계; 및 해당 프레임의 에너지(
Figure 112008052290437-PAT00023
)와 추정된 잡음과의 비(
Figure 112008052290437-PAT00024
)에 임계값을 주어서 '
Figure 112008052290437-PAT00025
'이 주어진 해당 임계값보다 작고 '
Figure 112008052290437-PAT00026
'이 주어진 임계값보다 클 경우 돌발잡음이 존재한다고 판단하는 단계를 포함한다.
상기 돌발잡음 검출 단계는, 기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구한다.
[수학식 8]
Figure 112008052290437-PAT00027
여기서,
Figure 112008052290437-PAT00028
는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 9]
Figure 112008052290437-PAT00029
여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 10]
Figure 112008052290437-PAT00030
여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
반면에, 돌발잡음이 검출되지 않으면 돌발잡음 검출 단계는 고정(stationary) 잡음으로 추정한다.
상술한 바와 같이 본 발명에 의한 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법에 의하면, 돌발 잡음 환경에서도 효과적으로 잡음을 추정하고 제거할 수 있는 뛰어난 효과가 있다.
이하, 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방 법에 대한 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 상세하게 살펴보기로 한다. 이 때, 아래에서 설명하는 시스템 구성은 본 발명의 설명을 위해서 인용한 시스템으로써 아래 시스템으로 본 발명을 한정하지 않음을 이 분야의 통상의 지식을 가진 자라면 이해해야할 것이다.
도 3은 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 장치의 구성을 나타낸 도면으로서, 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 장치는 범위설정부(100), 주파수 변환부(200), 임시 저장부(300), 상관관계 측정부(400), 상관관계 판단부(500) 및 돌발잡음 검출부(600)를 포함한다.
범위설정부(100)는 잡음 섞인 음성 신호는 마이크 어레이(10)를 통해 입력되며 hanning 윈도우를 씌워 프레임으로 구분한다.
주파수 변환부(200)는 범위설정부(100)를 통해 프레임별로 구분된 신호를 주파수축으로 변환한다.
임시 저장부(300)는 상기 주파수 변환부(200)를 통해 변환된 프레임별 FFT 값을 임시 저장한다.
또한 상관관계 측정부(400)는 현재 입력시점의 프레임과 기 설정된 시간만큼 떨어진 이후의 프레임간의 상관관계 정도를 측정한다.
그리고 상관관계 판단부(500)는 상관관계 측정부(400)를 통해 측정된 상관관계 값이 기 설정된 임계값을 초과하는지의 여부를 판단한다. 여기서, 상기 상관관계 판단부(500)는, 크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
Figure 112008052290437-PAT00031
)로 정의하고, 크 로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
Figure 112008052290437-PAT00032
)로 정의하며, 해당 프레임의 에너지(
Figure 112008052290437-PAT00033
)와 추정된 잡음과의 비(
Figure 112008052290437-PAT00034
)에 임계값을 주어서
Figure 112008052290437-PAT00035
이 주어진 해당 임계값보다 작고
Figure 112008052290437-PAT00036
이 주어진 임계값보다 클 경우 돌발잡음이 존재한다고 판단한다.
또한 돌발잡음 검출부(600)는 상관관계 판단부(500)를 통해 상관관계 값이 기 설정된 임계값을 초과하면 돌발잡음을 검출한다. 이때, 상기 돌발잡음 검출부(600)는, 기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구한다.
[수학식 8]
Figure 112008052290437-PAT00037
여기서,
Figure 112008052290437-PAT00038
는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 9]
Figure 112008052290437-PAT00039
여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 10]
Figure 112008052290437-PAT00040
여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
만약, 돌발잡음이 검출되지 않으면 돌발잡음 검출부(600)는 고정(stationary) 잡음으로 추정한다.
상기한 각 구성들에 대한 일반적인 기능 및 각각의 상세한 동작에 대하여는 그 설명을 생략하고, 본 발명에 상응하는 동작 위주로 그 동작들을 설명하기로 한다.
먼저, 범위설정부(100)는 잡음 섞인 음성 신호가 마이크 어레이(10)를 통해 입력되며 32ms 길이의 hanning 윈도우를 씌워 프레임으로 구분한다. 이때 이동구간은 16ms이다.
이어서, 주파수 변환부(200)는 범위설정부(100)를 통해 프레임별로 구분된 신호를 주파수축으로 변환한다.
주파수 변환부(200)를 통해 변환된 프레임별 FFT 값은 임시 저장부(300)에 임시 저장된다.
이후, 상관관계 측정부(400)는 현재 입력시점의 프레임(l)과 기 설정된 시간(N)만큼 떨어진 이후의 프레임(l+N)간의 상관관계 정도를 측정한다. 여기서, N은 최소 100ms 이상의 구간에 해당하는 프레임의 개수이다.
이어서, 상관관계 판단부(500)는 상관관계 측정부(400)를 통해 측정된 상관 관계 값이 기 설정된 임계값을 초과하는지의 여부를 판단한다.
이러한 상기 상관관계 판단부(500)는, 크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
Figure 112008052290437-PAT00041
)로 정의하고, 크로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
Figure 112008052290437-PAT00042
)로 정의하며, 해당 프레임의 에너지(
Figure 112008052290437-PAT00043
)와 추정된 잡음과의 비(
Figure 112008052290437-PAT00044
)에 임계값을 주어서
Figure 112008052290437-PAT00045
이 주어진 해당 임계값보다 작고
Figure 112008052290437-PAT00046
이 주어진 임계값보다 클 경우 돌발잡음이 존재한다고 판단한다.
만약, 상관관계 판단부(500)를 통해 상관관계 값이 기 설정된 임계값을 초과하면 돌발잡음 검출부(600)는 돌발잡음을 검출한다.
이러한 돌발잡음 검출부(600)는, 기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구한다.
[수학식 8]
Figure 112008052290437-PAT00047
여기서,
Figure 112008052290437-PAT00048
는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 9]
Figure 112008052290437-PAT00049
여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 10]
Figure 112008052290437-PAT00050
여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
반면에 돌발잡음이 검출되지 않으면 돌발잡음 검출부(600)는, 고정(stationary) 잡음으로 추정한다.
그러면, 상기와 같은 구성을 가지는 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 방법에 대해 도 4를 참조하여 설명하기로 한다.
잡음 섞인 음성 신호는 마이크 어레이를 통해 입력되며 hanning 윈도우를 씌워 프레임으로 구분한다(S1).
이어서, 프레임별로 구분된 신호를 주파수축으로 변환한다(S2).
이후, 변환된 프레임별 FFT 값을 임시 저장한다(S3).
이렇게 저장된 프레임별 FFT 값을 통해 현재 입력시점의 프레임과 기 설정된 시간만큼 떨어진 이후의 프레임간의 상관관계 정도를 측정한다(S4).
이후, 측정된 상관관계 값이 기 설정된 임계값을 초과하는지의 여부를 판단한다(S5).
이하, 하기에서는 상관관계 판단 단계(S5)의 세부 단계에 대하여 도 5를 참조하여 설명한다.
먼저, 크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
Figure 112008052290437-PAT00051
)로 정의한다(S51).
이어서, 크로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
Figure 112008052290437-PAT00052
)로 정의한다(S52).
이후, 해당 프레임의 에너지(
Figure 112008052290437-PAT00053
)가 기 설정된 임계값 보다 큰지의 여부를 판단한다(S53).
상기 프레임의 에너지(
Figure 112008052290437-PAT00054
)가 기 설정된 임계값 보다 작으면, 추정된 잡음과의 비(
Figure 112008052290437-PAT00055
)가 기 설정된 임계값 보다 큰지의 여부를 판단한다(S54).
한편, 상관관계 판단 단계(S5)를 통해 상관관계 값이 기 설정된 임계값을 초과하면 돌발잡음을 검출하여 제거한다(S6). 이러한, 상기 돌발잡음 검출 단계(S6)는 기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구한다.
[수학식 8]
Figure 112008052290437-PAT00056
여기서,
Figure 112008052290437-PAT00057
는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 9]
Figure 112008052290437-PAT00058
여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
[수학식 10]
Figure 112008052290437-PAT00059
여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
상기 프레임의 에너지(
Figure 112008052290437-PAT00060
)가 기 설정된 임계값 보다 크거나, 추정된 잡음과의 비가 기 설정된 임계값 보다 작아 돌발잡음이 검출되지 않으면, 고정(stationary) 잡음으로 추정한다(S7).
이상에서 본 발명은 기재된 구체적인 실시 예에 대해서만 상세히 설명하였지만 본 발명의 기술 사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.
도 1은 종래 마이크 어레이를 이용한 방향성 잡음 제거 시스템의 구성을 나타낸 기능블록도.
도 2는 종래 마이크 어레이를 이용한 방향성 잡음 제거 시스템에서 단시간 보조대역 파워 추정(short time subband power estimate) 값을 나타낸 도면.
도 3은 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 장치의 구성을 나타낸 기능블록도.
도 4는 본 발명에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 방법을 나타낸 순서도.
도 5는 도 4에 따른 음원 검출 시스템에서 돌발잡음 추정/제거 방법에서 상관관계 판단 단계(S5)의 세부 단계를 나타낸 순서도이다.
<도면의 주요 부분에 대한 부호의 설명>
10 : 적어도 하나 이상의 마이크 어레이 20 : 단구간 분석부
30 : 에코 제거부 40 : adaptive beamforming 처리부
50 : 정면소리 검출부 60 : Post-filtering부
70 : Overlap and add 처리부
100 : 범위설정부 200 : 주파수 변환부
300 : 임시 저장부 400 : 상관관계 측정부
500 : 상관관계 판단부 600 : 돌발잡음 검출부

Claims (16)

  1. 입력된 음성신호로부터 잡음을 제거하는 음원 검출 시스템에서의 돌발잡음 추정/제거 장치에 있어서,
    음성신호를 수신하는 마이크 어레이부;
    수신된 신호에 설정된 범위가 겹쳐지도록 윈도우를 씌우는 범위설정부;
    상기 윈도우된 신호를 주파수축으로 변환하기 위한 푸리에 변환을 적용하는 주파수 변환부;
    상기 주파수 변환부를 통해 변환된 푸리에 변환값과 이전 값의 상관값을 비교하고 상기 윈도우되어 푸리에 변환된 값의 전력(energy)를 계산하는 상관관계 측정부; 및
    상관 비교값과 전력값을 이용해 잡음을 검출하는 돌발잡음 검출부를 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  2. 제 1항에 있어서,
    상기 마이크 어레이부를 통해 입력된 아날로그 음성신호를 디지털 음성 신호로 변환하는 A/D변환부를 더 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  3. 제 2항에 있어서,
    상기 주파수 변환부 뒷단에 주파수 변환부를 통해 변환된 푸리에 변환값을 저장하는 버퍼를 더 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  4. 제 3항에 있어서,
    상기 범위설정부는,
    32ms 길이를 갖는 hanning 윈도우임을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  5. 제 4항에 있어서,
    상기 상관관계 측정부는,
    상관 비교 값이 기 설정된 임계값을 초과하는지의 여부를 판단하는 상관관계 판단부와 상기 상관관계 판단부를 통해 상관관계 값이 기 설정된 임계값을 초과하면 잡음으로 인식하는 잡음 검출부를 더 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  6. 제 5항에 있어서,
    상기 상관관계 판단부는,
    크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
    Figure 112008052290437-PAT00061
    )로 정의하고,
    크로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
    Figure 112008052290437-PAT00062
    )로 정의하며,
    해당 프레임의 에너지(
    Figure 112008052290437-PAT00063
    )와 추정된 잡음과의 비(
    Figure 112008052290437-PAT00064
    )에 임계값을 주어서
    Figure 112008052290437-PAT00065
    이 주어진 해당 임계값보다 작고
    Figure 112008052290437-PAT00066
    이 주어진 임계값보다 클 경우 돌발잡음이 존재한다고 판단하는 것을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  7. 제 6항에 있어서,
    상기 돌발잡음 검출부는,
    기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구하는 것을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
    [수학식 8]
    Figure 112008052290437-PAT00067
    여기서,
    Figure 112008052290437-PAT00068
    는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
    [수학식 9]
    Figure 112008052290437-PAT00069
    여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
    [수학식 10]
    Figure 112008052290437-PAT00070
    여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
  8. 제 1항에 있어서,
    상기 돌발잡음 검출부는,
    돌발잡음이 검출되지 않으면 고정(stationary) 잡음으로 추정하는 것을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 장치.
  9. 입력된 음성신호로부터 잡음을 제거하는 음원 검출 시스템에서의 돌발잡음 추정/제거 방법에 있어서,
    음성신호를 수신하는 단계;
    수신된 신호에 설정된 범위가 겹쳐지도록 윈도우를 씌우는 단계;
    윈도우된 신호를 주파수축으로 변환하기 위한 푸리에 변환을 적용하는 단계;
    변환된 푸리에 변환값과 이전 값의 상관값을 비교하고 윈도우되어 푸리에 변환된 값의 전력(energy)를 계산하는 단계; 및
    상관 비교값과 전력값을 이용해 잡음을 검출하는 단계를 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
  10. 제 9항에 있어서,
    입력된 아날로그 음성신호를 디지탈 음성 신호로 변환하는 단계를 더 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
  11. 제 9항에 있어서,
    푸리에 변환을 적용하는 단계 이후 변환된 푸리에 변환값을 저장하는 단계를 더 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
  12. 제 9항에 있어서,
    상기 윈도우를 씌우는 단계는,
    32ms 길이를 갖는 hanning 윈도우임을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
  13. 제 9항에 있어서,
    상기 윈도우되어 푸리에 변환된 값의 전력(energy)를 계산하는 단계는,
    상관 비교 값이 기 설정된 임계값을 초과하는지의 여부를 판단하는 단계와 상기 판단 단계에서 상관관계 값이 기 설정된 임계값을 초과하면 잡음으로 인식하는 단계를 더 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
  14. 제 13항에 있어서,
    상기 상관관계 판단 단계는,
    크로스 파워 스팩트럼을 이용하여 스팩트럼의 magnitude 값을 제곱한 후 주파수 전 영역에서 합하여 해당 프레임의 에너지(
    Figure 112008052290437-PAT00071
    )로 정의하는 단계;
    크로스 파워 스팩트럼을 통해 에너지를 검출한 프레임과, 임의의 주파수에서 로컬 에너지와 최소 통계치를 기반의 추정된 잡음과의 비(
    Figure 112008052290437-PAT00072
    )로 정의하는 단계;
    이후, 해당 프레임의 에너지(
    Figure 112008052290437-PAT00073
    )가 기 설정된 임계값 보다 큰지의 여부를 판단하는 단계; 및
    상기 프레임의 에너지가 기 설정된 임계값 보다 큰지의 여부를 판단하는 단계에서 상기 프레임의 에너지(
    Figure 112008052290437-PAT00074
    )가 기 설정된 임계값 보다 작으면, 추정된 잡음과의 비(
    Figure 112008052290437-PAT00075
    )가 기 설정된 임계값 보다 큰지의 여부를 판단하는 단계를 포함하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
  15. 제 14항에 있어서,
    상기 돌발잡음 검출 단계는,
    기존의 MCRA 잡음 추정기법에 돌발잡음을 검출하는 파라메타를 적용시켜 이하 [수학식 8], [수학식 9], [수학식 10]을 통해 돌발잡음을 구하는 것을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
    [수학식 8]
    Figure 112008052290437-PAT00076
    여기서,
    Figure 112008052290437-PAT00077
    는 추정된 잡음, K는 주파수 인덱스, L은 프레임 인덱스 이다.
    [수학식 9]
    Figure 112008052290437-PAT00078
    여기서, p(k,l)는 음성존재 확률, K는 주파수 인덱스, L은 프레임 인덱스 이다.
    [수학식 10]
    Figure 112008052290437-PAT00079
    여기서, αds=0.95, αdt=0.05로서 각각 stationary 잡음, 돌발 잡음 구간에서의 update 계수이다.
  16. 제 9항에 있어서,
    상기 돌발잡음 검출 단계는,
    돌발잡음이 검출되지 않으면 고정(stationary) 잡음으로 추정하는 것을 특징으로 하는 음원 검출 시스템에서 돌발잡음 추정/제거 방법.
KR1020080070775A 2008-07-21 2008-07-21 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법 KR20100009936A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080070775A KR20100009936A (ko) 2008-07-21 2008-07-21 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법
US12/460,473 US8577677B2 (en) 2008-07-21 2009-07-20 Sound source separation method and system using beamforming technique

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080070775A KR20100009936A (ko) 2008-07-21 2008-07-21 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20100009936A true KR20100009936A (ko) 2010-01-29

Family

ID=41818182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080070775A KR20100009936A (ko) 2008-07-21 2008-07-21 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20100009936A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014077444A1 (ko) * 2012-11-19 2014-05-22 Guen Dogyun 대면거래에서의 온라인 결제 방법
KR101996381B1 (ko) * 2018-04-17 2019-07-03 주식회사 이엠텍 돌발성 잡음을 제거하는 음성 증폭 장치
KR102080099B1 (ko) * 2018-11-01 2020-02-24 주식회사 이엠텍 음향 처리 장치
KR20200064397A (ko) * 2018-11-29 2020-06-08 주식회사 비에스엘 음향 전달 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014077444A1 (ko) * 2012-11-19 2014-05-22 Guen Dogyun 대면거래에서의 온라인 결제 방법
KR101996381B1 (ko) * 2018-04-17 2019-07-03 주식회사 이엠텍 돌발성 잡음을 제거하는 음성 증폭 장치
KR102080099B1 (ko) * 2018-11-01 2020-02-24 주식회사 이엠텍 음향 처리 장치
KR20200064397A (ko) * 2018-11-29 2020-06-08 주식회사 비에스엘 음향 전달 장치

Similar Documents

Publication Publication Date Title
KR101639933B1 (ko) 휴대 전화에 적용되는 음성 향상 방법 및 장치
US8521530B1 (en) System and method for enhancing a monaural audio signal
JP5862349B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US8068619B2 (en) Method and apparatus for noise suppression in a small array microphone system
US8194882B2 (en) System and method for providing single microphone noise suppression fallback
US8644496B2 (en) Echo suppressor, echo suppressing method, and computer readable storage medium
EP2201563B1 (en) Multiple microphone voice activity detector
US7162420B2 (en) System and method for noise reduction having first and second adaptive filters
US20070230712A1 (en) Telephony Device with Improved Noise Suppression
US10580428B2 (en) Audio noise estimation and filtering
JP3963850B2 (ja) 音声区間検出装置
JP5542952B2 (ja) マイクロホンアレイノイズ低減制御方法及び装置
US7912231B2 (en) Systems and methods for reducing audio noise
KR101340520B1 (ko) 잡음을 제거하는 장치 및 방법
US9460731B2 (en) Noise estimation apparatus, noise estimation method, and noise estimation program
KR20090127709A (ko) 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
KR20090017435A (ko) 빔 형성 및 후-필터링 조합에 의한 노이즈 감소 방법
US20140307886A1 (en) Method And A System For Noise Suppressing An Audio Signal
CN111292758B (zh) 语音活动检测方法及装置、可读存储介质
EP3428918B1 (en) Pop noise control
JP6179081B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
KR20100009936A (ko) 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법
KR20100010356A (ko) 빔포밍 기술을 이용한 음원 분리 방법 및 시스템
JP5958218B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN111968663B (zh) 一种回声残留判断方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application