KR101444099B1 - 음성 구간 검출 방법 및 장치 - Google Patents

음성 구간 검출 방법 및 장치 Download PDF

Info

Publication number
KR101444099B1
KR101444099B1 KR1020070115501A KR20070115501A KR101444099B1 KR 101444099 B1 KR101444099 B1 KR 101444099B1 KR 1020070115501 A KR1020070115501 A KR 1020070115501A KR 20070115501 A KR20070115501 A KR 20070115501A KR 101444099 B1 KR101444099 B1 KR 101444099B1
Authority
KR
South Korea
Prior art keywords
voice
noise
audio signal
signal
audio
Prior art date
Application number
KR1020070115501A
Other languages
English (en)
Other versions
KR20090049298A (ko
Inventor
조재연
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070115501A priority Critical patent/KR101444099B1/ko
Priority to US12/126,110 priority patent/US8046215B2/en
Priority to PCT/KR2008/003231 priority patent/WO2009064054A1/en
Publication of KR20090049298A publication Critical patent/KR20090049298A/ko
Application granted granted Critical
Publication of KR101444099B1 publication Critical patent/KR101444099B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Abstract

영교차율(zero-crossing rate)을 이용한 음성 구간 검출 방법 및 장치가 개시되어 있다. 오디오 신호에 포함된 잡음 성분을 제거하는 과정, 잡음 성분이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정, 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터 추출하는 과정, 추출된 소정의 음성 검출 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함한다.

Description

음성 구간 검출 방법 및 장치{Method and apparatus for detecting voice activity}
본 발명은 오디오 처리 시스템에 관한 것이며, 특히 영교차율(zero-crossing rate)을 이용한 음성 구간 검출 방법 및 장치에 관한 것이다.
통상적으로 음성 코딩에서 VAD(Voice Activity Detection)나 음성 인식의 EPD(End Point Detection)은 신호내 음성 구간을 추출하는 방법이다.
종래 음성 구간 검출 방법은 프레임의 에너지와 프레임의 영교차율을 이용하여 음성 구간이나 음성의 시작점과 끝점을 검출한다. 예를 들면, 각 프레임의 영 교차율이 낮고 높음에 따라 유음 구간과 무음 구간을 판단한다.
이때 영 교차율을 이용한 음성 구간 판별 방법은 음성이 존재하지 않는 구간에 잡음이 존재할 수 있으므로 유음 구간과 무음 구간에서의 영교차율이 항상 일치하지 않는다.
즉, 영교차율을 사용하여 음성 구간을 검출할 경우 음성뿐만 아니라 그 음성과 비슷한 수준의 영교차율을 갖는 비 음성 잡음도 검출할 수 있다. 따라서 종래의 영 교차율을 이용한 음성 구간 판별 방법은 영 교차율이 무음 구간에서도 작게 나 타날 수 있으므로 오류가 발생 할 수 있다.
본 발명이 해결하고자하는 과제는 영 교차율을 기반으로 주위 환경에 영향을 덜 받는 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치를 제공하는 데 있다.
본 발명이 해결하고자하는 과제는 상기 음성 구간 검출 장치를 적용한 오디오 처리 장치를 제공하는 데 있다.
상기의 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 방법에 있어서,
오디오 신호에 포함된 스테이셔너리 잡음 성분을 제거하는 과정;
상기 잡음 성분이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정;
상기 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출하는 과정;
상기 추출된 소정의 음성 검출 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함하는 것을 특징으로 한다.
상기의 다른 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 장치에 있어서,
오디오 신호에 포함되어 있는 스테셔너리 잡음 성분을 제거하는 잡음 제거부;
정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 발생하는 랜덤 신호 발생부;
상기 잡음 제거부에서 잡음 성분이 제거된 오디오 신호에 랜덤 신호 발생부에서 발생하는 랜덤 신호를 부가하는 가산부;
상기 가산부에서 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출하는 음성 판별 파라미터 추출부;
상기 음성 판별 파라미터 추출부에서 추출된 음성 검출 파라미터를 이용하여 음성 및 무음성 구간을 검출하는 음성 유무 판별부를 포함하는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 의하면, 인위적인 랜덤 잡음을 오디오 신호에 부가하여 영 교차율을 구함으로써 유무음 구간에 대한 분별력을 증가시킬 수 있다.
또한 랜덤 잡음에 의한 영 교차율을 VAD(Voice Activity Detection) 또는 EPD(End Point Detection)에 이용할 수 있다.
또한 영 교차율을 구하기 전에 오디오 신호에 잡음 제거 알고리듬을 적용함으로써 잡음에 강인한 VAD 또는 EPD 시스템을 구축할 수 있다.
이하 첨부된 도면을 참조로 하여 본 발명의 바람직한 실시예를 설명하기로 한다.
도 1a 및 도 1b는 본 발명에 따른 음성 구간 검출 기능을 구비한 오디오 처리 시스템의 블록도이다.
도 1a는 아날로그 오디오 신호가 입력될 때의 오디오 처리 시스템이다.
도 1a의 오디오 처리 시스템은 A/D 변환부(110), 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)를 구비한다.
A/D(Aanalog Digital) 변환부(110)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환한다.
음성 구간 검출부(120)는 A/D 변환부(110)에서 출력되는 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하고, 랜덤 신호가 부가된 오디오 신호로부터 프레임의 영교차율 또는 프레임의 파워 같은 정해진 음성 검출 파라미터를 추출하고, 추출된 음성 검출 파라미터 값과 임계치를 비교하여 음성 및 무음성 구간을 결정한다.
오디오 신호 처리부(130)는 음성 구간 검출부(120)에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행한다.
D/A(Digital Analog) 변환부(140)는 오디오 신호 처리부(130)에서 처리된 오디오 신호를 아날로그 오디오 신호로 변환한다.
도 1b는 디지털 오디오 신호가 입력될 때 오디오 처리 시스템의 블록도 이다.
도 1b의 오디오 처리 시스템은 오디오 디코더(110-1), 음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)를 구비한다.
오디오 디코더(110-1)는 압축된 형태의 디지털 오디오 데이터를 소정의 디코딩 알고리듬에 따라 복원한다.
음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)는 각각 도 1a의 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)의 기능과 동일하다.
도 2는 도 1a 및 도 1b의 음성 구간 검출부(120, 120-1)의 상세도 이다.
도 2의 음성 구간 검출부는 잡음 제거부(210), 랜덤 신호 발생부(220), 가산부(230), 음성 판별 파라미터 추출부(240), 음성유무 판별부(250)로 구성된다.
잡음 제거부(210)는 영 교차율을 명확하게 추출하기 위해 오디오 신호에 포함되어 있는 스테셔너리 잡음(stationary noise) 성분을 제거한다. 예컨대, 잡음 제거부(210)는 Wiener filter나 스펙트럴 차감 필터(spectral subtraction filter)등을 이용하여 스테셔너리 잡음(stationary noise) 성분을 제거한다.
랜덤 신호 발생부(220)는 사람 귀에 거슬리지 않을 정도로 정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 발생한다. 바람직하게는 랜덤 신호는 정규 분포를 갖는 백색 가우시안 노이즈이며, 또한 기준치보다 큰 영 교차율을 갖는다.
가산부(230)는 잡음 제거부(210)에서 잡음 성분이 제거된 오디오 신호에 랜덤 신호 발생부(220)에서 발생하는 랜덤 신호를 부가한다.
따라서 오디오 신호에 잡음을 제거하면 무음 구간의 영 교차율이 거의 "0"에 가까울 수가 있으므로 오디오 신호에 랜덤 잡음을 추가함으로써 영 교차율에 의한 음성 구간의 분별력을 증가시킬 수 있다.
음성 판별 파라미터 추출부(240)는 가산부(230)에서 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출한다.
바람직하게 소정의 음성 검출 파라미터는 영교차율(Zero Cross Rate), LSF(Liner Spectrum Frequency)등을 이용한다. 영 교차율은 프레임내에서 샘플의 부호 변환 횟수를 나타내며, LSF는 신호의 주파수특성을 나타낸다.
음성 유무 판별부(250)는 음성 판별 파라미터 추출부(240)에서 추출된 ZCR, 프레임의 크기, LSF와 같은 음성 검출 파라미터를 이용하여 음성 및 무음성 구간을 검출한다.
예를 들면, 영교차율이 임계치 보다 적으면 음성 구간으로 판별하고, 영 교차율이 이 임계치보다 크면 무음성 구간으로 판별한다.
도 3은 도 2의 잡음 제거부(210)의 일실시예이다.
잡음 예측부(310)는 입력되는 오디오 신호로부터 잡음 특성을 예측한다. 잡음 예측의 일 실시예를 들면, 입력 프레임의 파워를 정해진 임계치와 비교한다. 이때 입력 프레임의 파워가 정해진 임계치보다 적으면 그 입력 프레임을 잡음으로 추정한다. 그리고, 그 입력 프레임의 특성값(예를 들면, 스펙트럼)을 잡음 특성으로 예측한다.
잡음 제거 필터부(320)는 잡음 예측부(310)로부터 예측된 잡음 특성값을 오디오 신호와 차감하여 오디오 신호의 잡음을 성분을 제거한다.
도 4는 본 발명에 따른 음성 구간 검출 방법을 보이는 흐름도이다.
먼저, 오디오 신호가 프레임 단위로 입력된다.
이때 통상적으로 입력되는 오디오 신호들 마다 잡음의 정도가 다르다.
따라서 잡음 정도에 상관없이 일정한 음성 구간 판별을 수행하기 위해 오디 오 신호에 존재하는 스테이셔너리 잡음 성분을 제거한다(410 과정).
예를 들면, Wiener filter나 스펙트럴 차감 필터(spectral subtraction filter)등을 이용하여 오디오 신호에 포함되어 있는 스테이셔너리 잡음 성분을 제거한다
이어서, 잡음 성분이 제거된 오디오 신호에 사람 귀에 거슬리지 않을 정도로 정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 부가한다(420 과정). 또한 랜덤 잡음 신호는 음성/무음구간의 분별력을 높이기 위해 정해진 기준치보다 큰 영 교차율을 갖는다.
이어서, 랜덤 신호가 부가된 오디오 신호로부터 프레임의 영 교차율 또는 프레임의 파워 같은 음성 검출 파라미터를 추출한다(430 과정). 예를 들면, 프레임의 영 교차율은 프레임내에서 샘플의 부호 변환 횟수/샘플수로 계산된다. 그리고 프레임의 파워(power)는 프레임내에서 샘플들의 제곱 크기의 합/샘플수로 계산된다.
이어서, 추출된 음성 검출 파라미터 값과 실험적으로 미리 정해진 임계치(Th)를 비교한다(450 과정).
이때 음성 검출 파라미터 값이 임계치보다 적으면 현재 프레임을 음성 구간으로 판정하고(460 과정), 음성 검출 파라미터 값이 임계치보다 크면 현재 프레임을 비음성 구간으로 판정한다(470 과정).
예를 들면, 프레임의 영 교차율이 미리 정해진 임계치 보다 적으면 현재 프레임을 음성 구간으로 판정하고, 프레임의 영 교차율이 미리 정해진 임계치 보다 크면 현재 프레임을 비음성 구간으로 판정한다.
또한 프레임의 파워가 미리 정해진 임계치 보다 크면 현재 프레임을 음성 구간으로 판정하고, 프레임의 파워가 미리 정해진 임계치 보다 적으면 현재 프레임을 비음성 구간으로 판정한다.
따라서 음성 검출 파라미터 값과 임계치의 비교에 따라 음성 및 비음성 구간을 결정함으로써 한 프레임의 음성 구간 검출을 완료한다.
도 5a 및 도 5b는 본 발명에 따른 음성 구간 검출을 위한 오디오 신호와 영 교차율을 보이는 그래프이다.
도 5a는 통상적인 오디오 신호의 플롯(plot)(a)과 그 오디오 신호의 영 교차율(b)을 도시한 것이다. 오디오 신호의 플롯(plot) 그래프(a)에서 x좌표는 시간이고, y좌표는 크기이다. 영 교차율 그래프(b)에서 x좌표는 프레임 순서이고, y좌표는 영 교차율이다.
도 5a를 참조하면, 통상적으로 유음 구간에서는 강한 저주파 신호 성분으로 인해 영 교차율이 적게 나타난다. 영 교차율은 무음 구간(510, 520)에서는 미지의 신호 성분, 예를 들면 배경 잡음으로 인해 일반적으로 크게 나타나지만 완전한 무음이 발생하거나 마이크에 직류 성분이 포함되는 이상 현상 발생시 작게 나타나는 경우도 있다. 따라서 통상적인 오디오 신호의 플롯(plot)에서는 무음 구간을 판별하기가 어렵다.
도 5b는 적은 에너지의 랜덤 잡신호가 부가된 오디오 신호의 플롯(plot)(a)과 그 오디오 신호의 영 교차율(b)을 도시한 것이다. 오디오 신호의 플롯(plot) 그래프(a)에서 x좌표는 시간이고, y좌표는 크기이다. 영 교차율 그래프(b)에서 x좌표 는 프레임 순서이고, y좌표는 영 교차율이다.
도 5b를 참조하면, 오디오 신호에 적은 에너지의 랜덤 신호가 부가될 경우 무음 구간(530, 540)에서는 높은 영 교차율이 나타나게 된다. 따라서 임계치보다 높은 영 교차율이 나타나는 구간을 무음 구간으로 판별하고, 임계치보다 적은 영 교차율이 나타나는 구간을 유음 구간으로 판별한다.
결국, VAD 또는 EPD 기술에서 랜덤 신호에 의한 영 교차율을 이용함으로써 유음 구간의 판별이 용이하게 된다.
또한 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1a 및 도 1b는 본 발명에 따른 음성 구간 검출 기능을 구비한 오디오 처리 시스템의 블록도이다.
도 2는 도 1a 및 도 1b의 음성 구간 검출부의 상세도 이다.
도 3은 도 2의 잡음 제거부의 일실시예이다.
도 4는 본 발명에 따른 음성 구간 검출 방법을 보이는 흐름도이다.
도 5a 및 도 5b는 본 발명에 따른 음성 구간 검출을 위한 오디오 신호와 영 교차율을 보이는 그래프이다.

Claims (11)

  1. 음성 구간 검출 방법에 있어서,
    오디오 신호에 포함된 잡음 성분을 제거하여 잡음이 제거된 오디오 신호를 생성하는 과정;
    상기 잡음이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정;
    상기 랜덤 신호가 부가된 오디오 신호로부터 적어도 하나의 소정의 음성 판별 파라미터를 추출하는 과정;
    상기 추출된 적어도 하나의 소정의 음성 판별 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함하는 음성 구간 검출 방법.
  2. 제1항에 있어서, 상기 잡음 성분 제거 과정은 오디오 신호로 부터 잡음 특성을 예측하는 과정;
    상기 예측된 잡음 특성을 오디오 신호와 차감하여 오디오 신호의 잡음 성분을 제거하는 과정을 구비하는 것을 특징으로 하는 음성 구간 검출 방법.
  3. 제1항에 있어서, 상기 잡음 성분은 스테이셔너리 성분임을 특징으로 하는 음성 구간 검출 방법.
  4. 제1항에 있어서, 상기 랜덤 신호는 기준치 이상인 영 교차율을 갖는 랜덤 잡 음 신호임을 특징으로 하는 음성 구간 검출 방법.
  5. 제1항에 있어서, 상기 랜덤 신호는 정규 분포를 갖는 가우시안 노이즈 임을 특징으로 하는 음성 구간 검출 방법.
  6. 제1항에 있어서, 상기 소정의 음성 판별 파라미터는 프레임의 영 교차율임을 특징으로 하는 음성 구간 검출 방법.
  7. 제1항에 있어서, 상기 소정의 음성 판별 파라미터는 프레임의 파워임을 특징으로 하는 음성 구간 검출 방법.
  8. 음성 구간 검출 장치에 있어서,
    오디오 신호에 포함되어 있는 스테이셔너리 잡음 성분을 제거하여 잡음이 제거된 오디오 신호를 생성하는 잡음 제거부;
    정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 발생하는 랜덤 신호 발생부;
    상기 잡음 제거부에서 잡음이 제거된 오디오 신호에 랜덤 신호 발생부에서 발생하는 랜덤 신호를 부가하는 가산부;
    상기 가산부에서 랜덤 신호가 부가된 오디오 신호로부터 적어도 하나의 소정의 음성 판별 파라미터를 추출하는 음성 판별 파라미터 추출부;
    상기 음성 판별 파라미터 추출부에서 추출된 적어도 하나의 소정의 음성 판별 파라미터를 이용하여 음성 및 무음성 구간을 검출하는 음성 유무 판별부를 포함하는 음성 구간 검출 장치.
  9. 제8항에 있어서, 상기 잡음 제거부는
    오디오 프레임의 파워를 정해진 임계치와 비교하여 오디오 신호의 잡음 성분을 예측하는 잡음 예측부;
    상기 잡음 예측부로부터 예측된 잡음 성분을 오디오 신호와 차감하여 오디오 신호의 잡음을 성분을 제거하는 필터부를 구비하는 것을 특징으로 하는 음성 구간 검출 장치.
  10. 오디오 처리 장치에 있어서,
    잡음 성분이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하여 소정의 음성 판별 파라미터를 추출하고, 추출된 소정의 음성 판별 파라미터 값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 음성 구간 검출부;
    상기 음성 구간 검출부에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행하는 오디오 신호 처리부를 오디오 처리 장치.
  11. 음성 구간 검출 방법을 구현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 음성 구간 검출 방법에 있어서,
    오디오에 포함되는 잡음 성분을 제거하여 잡음이 제거된 오디오 신호를 생성하는 과정;
    상기 잡음이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정;
    상기 랜덤 신호가 부가된 오디오 신호로부터 적어도 하나의 소정의 음성 판별 파라미터를 추출하는 과정;
    상기 추출된 적어도 하나의 소정의 음성 판별 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함하는 것을 특징으로 하는 기록 매체.
KR1020070115501A 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치 KR101444099B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070115501A KR101444099B1 (ko) 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치
US12/126,110 US8046215B2 (en) 2007-11-13 2008-05-23 Method and apparatus to detect voice activity by adding a random signal
PCT/KR2008/003231 WO2009064054A1 (en) 2007-11-13 2008-06-11 Method and apparatus to detect voice activity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070115501A KR101444099B1 (ko) 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090049298A KR20090049298A (ko) 2009-05-18
KR101444099B1 true KR101444099B1 (ko) 2014-09-26

Family

ID=40624587

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070115501A KR101444099B1 (ko) 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치

Country Status (3)

Country Link
US (1) US8046215B2 (ko)
KR (1) KR101444099B1 (ko)
WO (1) WO2009064054A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7807971B2 (en) 2008-11-19 2010-10-05 The Boeing Company Measurement of moisture in composite materials with near-IR and mid-IR spectroscopy
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
ES2860986T3 (es) * 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
US8700406B2 (en) * 2011-05-23 2014-04-15 Qualcomm Incorporated Preserving audio data collection privacy in mobile devices
CN107978325B (zh) * 2012-03-23 2022-01-11 杜比实验室特许公司 语音通信方法和设备、操作抖动缓冲器的方法和设备
WO2015061712A1 (en) 2013-10-24 2015-04-30 Tourmaline Labs, Inc. Systems and methods for collecting and transmitting telematics data from a mobile device
US9467569B2 (en) 2015-03-05 2016-10-11 Raytheon Company Methods and apparatus for reducing audio conference noise using voice quality measures
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
CN108831508A (zh) * 2018-06-13 2018-11-16 百度在线网络技术(北京)有限公司 语音活动检测方法、装置和设备
US11170760B2 (en) * 2019-06-21 2021-11-09 Robert Bosch Gmbh Detecting speech activity in real-time in audio signal
CN111951834A (zh) * 2020-08-18 2020-11-17 珠海声原智能科技有限公司 基于过零率计算的超低算力检测语音存在的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100345402B1 (ko) * 1999-11-12 2002-07-26 한국전자통신연구원 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
KR20020095502A (ko) * 2001-06-14 2002-12-27 엘지전자 주식회사 소음환경에서의 끝점 검출 방법
KR20040047428A (ko) * 2002-11-30 2004-06-05 삼성전자주식회사 음성구간 검출 장치 및 방법

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07113840B2 (ja) * 1989-06-29 1995-12-06 三菱電機株式会社 音声検出器
JP2609752B2 (ja) * 1990-10-09 1997-05-14 三菱電機株式会社 音声/音声帯域内データ識別装置
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6560332B1 (en) * 1999-05-18 2003-05-06 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for improving echo suppression in bi-directional communications systems
DE19935808A1 (de) * 1999-07-29 2001-02-08 Ericsson Telefon Ab L M Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
US6349278B1 (en) 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
KR200173377Y1 (ko) 1999-09-28 2000-03-15 박정환 스위치 커버용 스티커 벽지
KR100312335B1 (ko) 2000-01-14 2001-11-03 대표이사 서승모 음성부호화기 중 쾌적 잡음 발생기의 새로운 sid프레임 결정방법
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US20020054685A1 (en) * 2000-11-09 2002-05-09 Carlos Avendano System for suppressing acoustic echoes and interferences in multi-channel audio systems
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
KR100479073B1 (ko) * 2002-06-19 2005-03-25 엘지전자 주식회사 백 라이트 유닛 검사 장치
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
ES2294506T3 (es) * 2004-05-14 2008-04-01 Loquendo S.P.A. Reduccion de ruido para el reconocimiento automatico del habla.
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
US7447279B2 (en) * 2005-01-31 2008-11-04 Freescale Semiconductor, Inc. Method and system for indicating zero-crossings of a signal in the presence of noise
CA2603246C (en) * 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
KR101334366B1 (ko) * 2006-12-28 2013-11-29 삼성전자주식회사 오디오 배속 재생 방법 및 장치
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100345402B1 (ko) * 1999-11-12 2002-07-26 한국전자통신연구원 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
KR20020095502A (ko) * 2001-06-14 2002-12-27 엘지전자 주식회사 소음환경에서의 끝점 검출 방법
KR20040047428A (ko) * 2002-11-30 2004-06-05 삼성전자주식회사 음성구간 검출 장치 및 방법

Also Published As

Publication number Publication date
US8046215B2 (en) 2011-10-25
KR20090049298A (ko) 2009-05-18
US20090125304A1 (en) 2009-05-14
WO2009064054A1 (en) 2009-05-22

Similar Documents

Publication Publication Date Title
KR101444099B1 (ko) 음성 구간 검출 방법 및 장치
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
KR950013551B1 (ko) 잡음신호예측장치
US6023674A (en) Non-parametric voice activity detection
EP1008140B1 (en) Waveform-based periodicity detector
US20140067388A1 (en) Robust voice activity detection in adverse environments
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
JP2005227782A (ja) 有声音および無声音の検出装置、並びにその方法
JP2001236085A (ja) 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
Chandra et al. Usable speech detection using the modified spectral autocorrelation peak to valley ratio using the LPC residual
KR100714721B1 (ko) 음성 구간 검출 방법 및 장치
JP4102745B2 (ja) 音声区間検出装置および方法
JP2000163099A (ja) 雑音除去装置、音声認識装置および記憶媒体
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
KR101357381B1 (ko) 강인한 음성 검출을 위한 신호 처리 장치 및 방법
US11790931B2 (en) Voice activity detection using zero crossing detection
KR20070007697A (ko) 음성 처리 장치 및 방법
TW202226226A (zh) 具低複雜度語音活動檢測演算之設備及方法
KR101195599B1 (ko) 잡음 처리 방법 및 장치
JP2019184867A (ja) 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
Borowski Voice activity detection for speaker verification systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170830

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180830

Year of fee payment: 5