KR20140031790A - 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치 - Google Patents

잡음 환경에서 강인한 음성 구간 검출 방법 및 장치 Download PDF

Info

Publication number
KR20140031790A
KR20140031790A KR1020130093165A KR20130093165A KR20140031790A KR 20140031790 A KR20140031790 A KR 20140031790A KR 1020130093165 A KR1020130093165 A KR 1020130093165A KR 20130093165 A KR20130093165 A KR 20130093165A KR 20140031790 A KR20140031790 A KR 20140031790A
Authority
KR
South Korea
Prior art keywords
signal
module
silent
voice
feature information
Prior art date
Application number
KR1020130093165A
Other languages
English (en)
Inventor
사바리마라이 마니칸단 엠.
탸기 사우라비
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20140031790A publication Critical patent/KR20140031790A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 잡음환경에서 강인한 음성구간 검출 방법 및 시스템에 개시된다. 본 발명은 신호 수신 모듈, 신호 차단 모듈, 시간적 특징으로 소정 임계치와 비교하여 무음 블록들을 구별하는 무음/비무음 분류 모듈, 음성 부분을 향상시키고 배경잡음 효과를 감소시키는 총 변동 필터링 모듈, 필터링된 신호를 작은 프레임들로 분할하는 프레임 분할 모듈, 바닥 잡음을 추정하는 레지듀얼 처리 모듈, 총 변동 필터링된 신호의 자기상관 특징을 기반으로 하는 유성음/무성음 신호 프레임 분류 모듈, 이진-플래그 통합 및 제거 모듈, 음성 끝점 검출 및 정정 모듈, 및 음성 끝점 저장/송신 모듈을 포함한다. 결정 트리는 특징 추출 방법의 시간 및 메모리 복잡도를 기반으로 배치된다. 바람직한 시스템은 다른 잡음 환경에서 오디오 신호의 유성음 영역의 끝점을 정확하게 결정할 수 있다.

Description

잡음 환경에서 강인한 음성 구간 검출 방법 및 장치{ROBUST VOICE ACTIVITY DETECTION IN ADVERSE ENVIRONMENTS}
본 발명은 스피치 및 오디오 처리 분야에 관한 것으로, 특히 잡음, 배경음, 및 채널과 같은 잡음 환경 조건하에 있는 음성 처리 장치에서 음성 구간 검출에 관한 것이다.
최근 통신기술의 성장과 강력한 전자장치의 동시 발전으로 다양한 멀티미디어 관련 기술 발전이 가능해졌다. 많은 음성 가능 장치, 시스템 및 통신 기술의 사용은 장치의 배터리 수명 (또는 전력 소비), 정확성, 전송, 및 저장 비용과 관련된 문제로 인해 제한된다. 오디오 처리 및 통신 시스템에서, 정확성, 계산의 복잡도, 메모리 소비 및 다른 요소들 면에서 전체 성능은 다양한 종류의 잡음이 존재하는 잡음 환경하에서 입력 오디오 신호에 존재하는 무성음/잡음 신호로부터 유성음 스피치 신호를 구별하기 위한 능력에 크게 좌우된다.
기존 시스템 및 방법은 음성/스피치 구간 검출, 유성음 및 무성음 검출, 시간 및 스펙트럼 특징 기반 시스템, 소스-필터 기반 시스템, 시간-주파수 영역 기반 시스템, 청각-시각 기반 시스템, 통계 기반 시스템, 및 엔트로피 기반 시스템, 단시간 스펙트럼 분석 시스템, 및 입력 신호로부터 추출된 특징 정보를 사용하여 유성(voice) 신호 부분과 무성(non-voice) 신호 부분을 구별하는 스피치 끝점/경계 검출 개발을 시도할 수 있다. 그러나 유성 신호는 보통 넓은 범위의 배경음 및 잡음에 의해 오염되기 때문에 유성 신호 부분을 검출 및 추출하기는 어렵다.
음성/스피치 검출을 위한 기존 시스템과 방법은 다음과 같은 많은 부족한 점이 있다. 첫 번째로, 매우 비정상 상태(non-stationary)이고 저 신호대잡음비(SNR) 환경하에서 약해질 수 있다. 두 번째로, 시스템 및 방법은 박수, 웃음, 군중, 환호, 휘파람 소리, 폭발하는 소리, 여러 명이 떠드는 소리(babble), 기차, 자동차 등을 포함한 다양한 형태의 배경음 소스하에서 덜 강인할 수 있다. 세 번째로, 시스템 및 방법은 주기적인 구조의 잡음 성분을 갖는 신호 프레임을 특징지을 때, 보다 약한 변별력을 갖는다. 마지막으로, 자기상관 래그(lag) 지수로부터 주기성을 계산하기 위해 피크 진폭 임계치를 고정하는 것은 다른 잡음 및 잡음 레벨하에서는 매우 어렵다.
상술한 이유로 인해, 배경잡음 레벨이 증가하고 신호가 시변(time-varying) 잡음 레벨에 의해 오염될 때 향상된 검출을 제공하지 못할 수 있다. 따라서 스피치 및 비스피치 신호의 특징을 나타내는 적절하고 잡음에 강한 특징을 사용하는 것은 모든 검출 문제에서 중요하다. 여기서, 적은 계산 비용으로 향상된 검출 성능을 이루는 시스템이 필요하다.
본 명세서에서 실시예들의 주요 목적은 잡음 환경 조건에서 강인한 음성 구간 검출을 이루는 방법 및 시스템을 제공할 수 있다.
본 발명은 음성 구간의 종점을 결정하는 방법을 제공할 수 있다.
본 발명은 잡음 감소를 수행하고 변하는 잡음 레벨에서 다른 종류의 실제 잡음에 대해 음성 구간 검출의 강인성을 개선하는 방법을 제공할 수 있다.
본 발명은 잡음 환경 조건에서 음성구간검출 (VAD)를 위한 방법을 제공할 수 있다. 상기 방법은 소스로부터 입력 신호를 수신하는 단계를 포함할 수 있다. 상기 방법은 또한 시간적 특징 정보를 비교하여 입력신호를 무음 및 비무음 신호 블록으로 분류하는 단계를 포함할 수 있다. 상기 방법은 또한 시간적 특징 정보를 미리 정해진 임계치들과 비교하여 무음 및 비무음 신호 블록을 음성 끝점 저장(voice endpoint storing, VES) 모듈 또는 총 변동(total variation, TV) 필터링 모듈로 송신할 수 있다. 상기 방법은 또한 유성음 신호 또는 무성음 신호의 끝점 정보를 결정하는 단계를 포함할 수 있다. 상기 방법은 또한 비스피치 부분에서 스피치 특징을 향상시키고, 잡음 레벨을 억압하는 총 변동(TV) 필터링을 채용하는 단계를 포함할 수 있다. 또한 상기 방법은 TV 필터링된 신호 영역에서 바닥 잡음(noise floor)을 결정하는 단계를 포함할 수 있다. 또한, 상기 방법은 TV 필터링된 신호 시퀀스의 자기상관에서 특징 정보를 결정하는 단계를 포함할 수 있다. 또한, 상기 방법은 이진-플래그 통합 및 삭제 (binary-flag merging and deletion, BSMD) 모듈이 결정된 특징 정보에 대한 소정의 듀레이션(duration) 임계치를 기반으로 BSMD를 결정하는 단계를 포함할 수 있다. 또한, 상기 방법은 결정된 BSMD 후 단기간의 시간적 특징 정보를 기반으로 음성 끝점 정정을 결정하고, 음성 끝점 정보와 함께 상기 입력 신호를 출력하는 단계를 포함할 수 있다.
본 발명은 잡음 환경 조건에서 VAD를 위한 시스템을 제공할 수 있다. 상기 시스템은 적어도 하나의 소스로부터 입력 신호를 수신할 수 있다. 상기 시스템은 시간적 특징 정보를 비교하여 상기 입력 신호를 무음 및 비무음 신호 블록 중 적어도 하나로 분류할 수 있다. 상기 시스템은 또한 상기 시간적 특징 정보를 복수의 소정 임계치들과 비교하여 상기 무음 및 비무음 신호 블록 중 적어도 하나를 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나로 송신할 수 있다. 상기 시스템은 유성음 신호 및 무성음 신호 중 적어도 하나의 끝점 정보를 결정할 수 있다. 상기 시스템은 또한 비스피치 부분에서 스피치 특징을 향상시키고 잡음 레벨을 억압하는 총 변동 필터링을 채용할 수 있다. 상기 시스템은 또한 상기 총 변동 필터링된 신호 영역에서 바닥 잡음을 결정할 수 있다. 또한 상기 시스템은 상기 총 변동 필터링된 신호 시퀀스의 자기상관에서 특징 정보를 결정할 수 있다. 또한 상기 시스템은 상기 결정된 특징 정보에 대한 상기 소정 듀레이션 임계치를 기반으로 BSMD를 결정할 수 있다. 상기 시스템은 또한 상기 결정된 BSDM 후 단기의 상기 시간적인 특징 정보를 기반으로 음성 끝점 정정을 판단하고, 상기 음성 끝점 정보와 함께 상기 입력 신호를 출력할 수 있다.
본 발명은 잡음 환경 조건에서 음성구간검출을 위한 장치를 제공할 수 있다. 상기 장치는 적어도 하나의 프로세서를 더 포함하는 집적회로, 및 상기 회로 내에 컴퓨터 프로그램 코드를 갖는 적어도 하나의 메모리를 포함할 수 있다. 상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용해 상기 장치가 적어도 하나의 소스로부터 입력 신호를 수신하게 할 수 있다. 상기 프로세서는 상기 장치가 시간적 특징 정보를 비교하여 상기 입력 신호를 무음 및 비무음 신호 블록 중 적어도 하나로 분류하게 할 수 있다. 상기 프로세서는 상기 장치가 상기 시간적 특징 정보를 복수의 소정 임계치들과 비교하여 상기 무음 및 비무음 신호 블록 중 적어도 하나를 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나로 송신하게 할 수 있다. 상기 프로세서는 상기 장치가 상기 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나가 유성음 신호 및 무성음 신호 중 적어도 하나의 끝점 정보를 결정하게 할 수 있다. 상기 프로세서는 상기 장치가 비스피치 부분에서 스피치 특징을 향상시키고 잡음 레벨을 억압하는 상기 총 변동 필터링 모듈에 의한 총 변동 필터링을 채용하게 할 수 있다. 또한 상기 프로세서는 상기 장치가 상기 총 변동 필터링된 신호 영역에서 바닥 잡음을 결정하게 할 수 있다. 또한 상기 프로세서는 상기 장치가 상기 총 변동 필터링된 신호 시퀀스의 자기상관에서 특징 정보를 결정하게 할 수 있다. 또한 상기 프로세서는 상기 장치가 상기 결정된 특징 정보에 대한 상기 소정 듀레이션 임계치를 기반으로 BSMD 모듈에 의해 BSMD를 판단하게 할 수 있다. 또한 상기 프로세서는 상기 장치가 상기 결정된 BSDM 후 단기의 상기 시간적인 특징 정보를 기반으로 음성 끝점 정정을 판단하게 하고, 상기 음성 끝점 정보와 함께 상기 입력 신호를 출력하게 할 수 있다.
본 개시에서 실시예들에 대한 상술한, 그리고 다른 양상들은 다음의 설명과 첨부 도면을 결합하여 고려될 때 더 잘 이해될 것이다. 그러나 다음의 설명은 바람직한 실시예들과 다수의 특정 세부사항들을 나타내지만 설명의 형태로 주어진 것이고 제한하려는 것은 아니다. 많은 변경과 변형이 본 발명의 사상을 벗어나지 않고 실시예의 범위 내에서 이뤄질 수 있으며, 본 명세서의 실시예들은 모든 그러한 변형들을 포함할 수 있다.
상술한 다양한 실시예에 따르면, 잡음 환경 조건에서 강인한 음성 구간 검출을 달성함으로써 잡음을 감소시키고 변하는 잡음 레벨에서 다른 종류의 실제 잡음에 대해 음성 구간 검출의 강인성을 개선할 수 있다.
본 발명은 첨부된 도면을 참조하여 설명되며, 동일한 참조부호는 여러 도면에서 대응하는 부분들을 나타낸다. 본 실시예들은 첨부된 도면을 참조하는 다음의 설명으로부터 더 잘 이해될 것이다.
도 1은 본 발명의 다양한 실시예에 따른, 음성 구간 검출 장치를 구비한 스피치 및 오디오 처리 애플리케이션의 배열에 대한 개략적인 블록도이다.
도 2는 본 발명의 다양한 실시예에 따른, 음성 구간 검출 장치의 블록도이다.
도 3은 본 발명의 다양한 실시예에 따른, 음성 구간 검출 과정을 도시한 흐름도이다.
도 4는 본 발명의 다양한 실시예에 따른, 무음 신호 블록 및 비무음 블록을 결정하는 방법을 도시한 흐름도이다.
도 5는 본 발명의 다양한 실시예에 따른 실제 잡음 환경하에서 총 변동 (TV) 필터링의 유효성을 나타내는 그래프를 도시한 것이다.
도 6은 본 발명의 다양한 실시예에 따른, 변하는 잡음 레벨을 갖는 다화자 잡음(babble noise)에 오염된 스피치 신호에 대한 TV 필터링의 유효성을 나타내는 그래프를 도시한 것이다.
도 7은 본 발명의 다양한 실시예에 따른, 공항 잡음에 오염된 스피치 신호에 대한 TV 필터링의 유효성을 나타내는 그래프를 도시한 것이다.
도 8은 본 발명의 다양한 실시예에 따른, 가산성 백색 가우시안 잡음 (additive white Gaussian noise)의 시변 레벨에 의해 오염된 스피치 신호에대한 TV 필터링의 잡음 저감 능력을 나타내는 그래프를 도시한 것이다.
도 9는 본 발명의 다양한 실시예에 따른 무음/비무음 프레임 분류(silent/non-silent frame classification, SNFC) 모듈을 결정하는 과정을 설명하는 흐름도이다.
도 10은 본 발명의 다양한 실시예에 따른, SNFC 모듈의 실험결과를 나타내는 그래프를 도시한 것이다.
도 11은 본 발명의 다양한 실시예에 따른, SNFC 모듈의 실험결과를 나타내는 그래프를 도시한 것이다.
도 12는 본 발명의 다양한 실시예에 따른 유성음/무성음 신호 프레임 분류(voice/non-voice signal frame classification, VNFC)를 설명하는 흐름도이다.
도 13은 본 발명의 다양한 실시예에 따른 TV 필터링된 신호의 자기상관으로부터 추출된 특징 패턴을 나타내는 그래프를 도시한 것이다.
도 14는 본 발명의 다양한 실시예에 따른, 이진-플래그 통합 및 삭제(binary-flag merging, and deletion, BSMD) 과정을 설명하는 흐름도이다.
도 15는 본 발명의 다양한 실시예에 따른, 기차 잡음에 의해 오염된 스피치 출력을 나타내는 그래프를 도시한 것이다.
도 16은 본 발명의 다양한 실시예에 따른, 깨끗한(clean) 스피치 신호에 대한 출력을 나타내는 그래프를 도시한 것이다.
도 17은 본 발명의 다양한 실시예에 따른, 음성 끝점 결정 및 정정 (voice endpoint determination and correction, VEDC)의 과정을 설명하는 흐름도이다.
도 18은 본 발명의 다양한 실시예에 따른, VNFC 모듈, BSMD 모듈 및 VEDC 모듈의 출력을 나타내는 그래프를 도시한 것이다.
도 19는 본 발명의 다양한 실시예에 따른, VNFC 모듈, BSMD 모듈 및 VEDC 모듈의 출력을 나타내는 그래프를 도시한 것이다.
도 20은 본 발명의 다양한 실시예에 따른, VNFC 모듈, BSMD 모듈 및 VEDC 모듈의 출력을 나타내는 그래프를 도시한 것이다.
도 21은 본 발명의 다양한 실시예에 따른, 애플리케이션을 구현하는 컴퓨팅 환경을 도시한 것이다.
본 명세서의 실시예들과 다양한 특징 및 유리한 세부사항들은 첨부도니 도면에 도시된 비제한적인 실시예들을 참조하여 더 자세하게 설명되고 다음의 설명에서 상세하게 설명된다. 본 실시예들을 불필요하게 모호하게 하지 않도록 잘 알려진 구성요소들과 처리 기술에 대한 설명은 생략된다. 여기서 사용된 예들은 단지 본 실시예들이 실시될 수 있는 방식에 대한 이해를 돕고 당업자가 본 실시예들을 실시할 수 있게 하려고 의도되었다. 따라서 그 예들은 본 실시예의 범위를 제한하는 것으로 해석되어서는 안된다.
본 실시예들은 오디오 및 스피치 처리 애플리케이션에서 광범위하게 사용될 수 있는 음성 구간 검출 방법 및 장치를 달성할 수 있다. 제안된 방법은 정확하게 음성 신호 구간을 검출하고 다양한 종류의 배경음과 잡음 레벨이 변하는 잡음을 갖는 오디오 신호에서 음성 신호 구간의 끝점을 결정할 수 있다.
도면, 특히, 유사한 참조부호가 전체 도면에서 일관되어 대응되는 특징으로 나타내진 도 1 내지 도 21을 참조하는 바람직한 실시예들이 도시되어 있다.
도 1은 본 발명의 다양한 실시예에 따른, 음성 구간 검출 장치를 구비한 스피치 및 오디오 처리 애플리케이션들의 배열에 대한 개략적인 블록도이다. 도 1에 도시된 바와 같이, 입력 신호 수신 (input signal receiving, ISR) 모듈(101)은 데이터 획득 인터페이스를 제공하여 다른 소스들로부터 입력 신호를 수신할 수 있다. 일실시예에서, 소스들은 휴대용 장치들, 마이크로폰, 저장장치, 통신 채널 등일 수 있다. ISR 모듈(101)은 샘플링 주파수 (초당 샘플 수), 샘플 해상도 (샘플당 비트 수) 및 코딩 표준과 같은 수신된 데이터(또는 신호) 포맷을 나타낸다. 또한, ISR 모듈(101)은 수신된 데이터를 파형으로 변환하는 방법을 포함하고, 수신된 신호를 소정의 샘플링 속도로 다시 샘플링하거나 필요시 샘플링 속도 변환을 변경하는 방법을 제공할 수 있다. ISR 모듈(101)은 다양한 오디오 신호 처리 시스템에 사용되는 표준 코딩 및 샘플링 속도를 처리할 수 있다. 하나 이상의 마이크로폰의 출력들은 소정의 아날로그-디지털 변환기(ADCs) 규격에 대한 아날로그 신호의 디지털 형태를 제공하는 ADCs와 결합된다. ISR 모듈(101)은 또한 볼록 최적화(convex optimization) 기술로 희소 코딩(sparse coding)을 사용하여 압축 감지 시스템으로부터 수신한 측정값들로부터 신호를 만드는 과정을 지원할 수 있다. 음성 구간 검출(voice activity detection, VAD) 모듈(102)은 자동 스피치 인식, 스피치 향상 (잡음 모델링), 스피치 압축, 피치/포만트 결정, 유성음/무성음 스피치 인식, 스피치 장애 및 질병 분석, 고선명(HD) 음성 전화, 성도(vocal tract) 정보, 인간 감정 인식, 오디오 색인 검색, 억압, 자동 화자 인식 및 스피치 구동 애니메이션 등 일부 애플리케이션들에 사용될 수 있지만, 그에 한정되지 않는다.
일실시예에서 VAD 모듈(120)은 집적회로, 시스템 온 칩(SoC), 통신 장치 (휴대폰, 개인정보단말(PDA), 태블릿) 등일 수 있다.
도 2는 본 발명의 다양한 실시예에 따른, VAD 모듈(102)의 블록도이다.
VAD 모듈(102)은 오디오 신호에서 음성 신호 부분의 끝점을 검출하는데 사용된다. VAD(102)는 입력 신호 수신(ISR) 모듈(101), 신호블록분할(signal block division, SBD) 모듈(201), 무음/비무음 블록 분류(silent/non-silent block classification, SNBC) 모듈(202), 총 변동 필터링(total variation filtering, TVF) 모듈(203), 총변동 레지듀얼(residual) 처리(TVRP) 모듈(204), 총 변동 필터링된 신호 프레임 분할(signal frame division, SFD) 모듈(205), 음성 끝점 저장/송신(voice endpoint storing/sending, VES) 모듈(206), 유성음/무성음 신호 프레임 분류(voice/non-voice signal frame classification, VNFC) 분류모듈(207), 무음/비무음 프레임 분류(silent/non-silent frame classification, SNFC) 모듈(208), 음성 끝점 결정 및 정정(voice endpoint determination and correction, VEDC) 모듈(209) 및 이진-플래그 저장, 통합 및 삭제(binary-flag storing, merging and deletion, BSMD) 모듈(210)을 포함할 수 있다.
일실시예에서, SBD 모듈(201)은 메모리 버퍼, 복수의 프로그램, 및 메모리 할당 이력을 포함할 수 있다. 또한 SBD 모듈(201)은 처리 장치의 버퍼 메모리 크기를 기초로 소정 길이를 설정하고, 데이터 획득 모듈로부터 수신된 입력 이산시간(discrete time) 신호를 동일한 크기의 Nx1 샘플 블록들로 분할할 수 있다. 적절한 블록 길이의 선택은 스케줄된 태스크에 할당된 메모리 크기 및 프로세서 전력 소비, 프로세서 속도, 메모리, 또는 오디오 통신 및 처리 장치의 입출력(I/O)과 같은 다른 내부 자원들뿐만 아니라 관심 애플리케이션(applications of interest) 형태에 종속된다.
또한, SBD 모듈(201)은 오디오 데이터가 충분히 획득될 특정 시간 구간동안 대기한 다음 메모리 버퍼가 채워지면 추가 처리를 위해 수집된 데이터를 배포할 수 있다. SBD 모듈(201)은 VAD 처리 완료 사이클까지 짧은 시간구간 동안 데이터를 보유할 수 있다. SBD 모듈(201)의 내부 메모리는 주기적으로 리프레시(refresh)된다. 그런 다음 계속해서 동작 가변 정보에 기초해 다음 블록을 처리할 수 있다. SBD 모듈(201)은 블록, 메모리 크기, 및 동작 가변 상태 정보의 시작 및 끝점 위치를 포함한 이력 정보를 유지할 수 있다.
도 3은 본 발명의 다양한 실시예에 따른, 음성 구간 검출 과정을 설명하는 흐름도(300)를 도시한 것이다.
도면(300)에 도시된 바와 같이, 301단계에서 입력 신호는 먼저 통신 채널, 저장장치 및 데이터베이스로부터 수신된다. 일실시예에서, 입력 신호는 휴대용 장치, 마이크로폰, 저장 장치 및 통신 채널 등으로부터 수신될 수 있다. 302단계에서 신호 블록은 그 신호 블록으로부터 추출된 특징 파라미터들을 사용하여 무음 또는 비무음 블록으로 분류된다. 303단계에서 배경잡음을 제거하고 음성 구성성분의 높은 기울기를 유지하여 음성 향상에 사용될 수 있는, 원하는 규정 파라미터를 사용해 비무음 신호 블록이 총 변동(TV) 필터링된다. 일실시예에서 TV 필터링은 두 피치 피크 부분들 사이의 음소 레벨 변화 및 현저하게 천천히 변하는 신호파 구성성분에 의해 생성되는 피치 배가(doubling) 및 피치 반감(halving) 오차들을 방지할 수 있다.
또한 304단계에서, 필터링된 신호는 신호 프레임들로 분할되고, 305단계에서 신호 프레임들은 실세계 애플리케이션에서 일어나는 광범위한 배경잡음 하에서의 TV 레지듀얼과 신호 프레임으로부터 추출된 특징 파라미터를 사용하여 무음 또는 비무음 프레임으로 분류된다. 306단계에서, 유성음/무성음 신호 분류과정에서 생성된 이진 값들(1: 유성음, 0: 무성음)이 저장된다. 307단계에서, 각 신호 블록에 대해 얻어진 이진 시퀀스 정보를 처리함으로써 듀레이션 정보를 사용하여 신호 프레임의 통합 및 삭제가 이뤄진다. 308단계에서, 이진 시퀀스 정보 및 에너지 포락선(envelope) 정보를 사용하여 음성신호의 끝점이 결정된다. 또한 309단계에서, 이전 단계들에서 결정된 끝점으로부터 추출된 신호 샘플 부분으로부터 만들어진 특징 파라미터를 사용하여 끝점 정정이 이뤄진다. 310단계에서 음성 끝점 정보 또는 음성 끝점 정보를 갖는 입력 신호가 스피치 관련 기술 및 시스템에 적용된다.
방법(300)의 다양한 동작들은 제시된 순서대로 수행될 수 있고, 다른 순서로 수행될 수 있으며, 동시에 수행될 수 있다. 또한, 일부 실시예에서 도 3에 도시된 일부 동작들은 생략될 수 있다.
도 4는 본 발명의 다양한 실시예에 따른, 무음 신호 블록 및 비무음 블록을 결정하는 방법을 설명하는 흐름도(400)이다.
401단계에서, SBD모듈(201)에서 출력된 신호 블록이 수신된다. 402단계에서 신호블록에 대해 시간적 특징이 계산된다. 403단계에서, 특징 정보는 소정 임계치와 비교된다. 404단계에서 특징정보가 소정의 임계치보다 큰지의 여부가 검사된다. 특징정보가 소정의 임계치보다 크다면, 신호 블록은 무음으로 간주되고, 무음 신호 블록은 TV 필터링 모듈(203)로 송신된다. 특징 정보가 소정의 임계치보다 작으면, 신호 블록은 무음으로 간주되고, 무음 블록은 음성 끝점 저장/송신 모듈(206)으로 송신된다.
일실시예에서, SNBC 모듈(202)은 메모리 버퍼로부터 입력 신호 블록을 수신하는 수단, 수신된 신호 블록으로부터 시간적 특징 파라미터들을 결정하는 수단, 추출된 시간적 특징 파라미터들을 소정의 임계치와 비교하여 무음 블록들을 결정하는 수단, 무음 신호 블록의 끝점을 결정하는 수단, 및 동작 가변 정보를 생성하여 신호 블록을 음성 끝점 저장/송신 모듈(206) 또는 TV 필터링 모듈(203)로 송신하는 수단을 포함할 수 있다.
또한 SNBC 모듈(202)은 소정의 임계치를 갖는 계층적 결정 트리(hierarchical decision-tree, HDT) 방식을 사용하여 구성된다. SNBC 모듈(202)은 SBD 모듈(201)로부터 수신된 입력 신호 블록으로부터 하나 이상의 시간적 특징 (에너지, 영교차율, 및 에너지 포락선)을 추출할 수 있다. 시간적 특징은 입력 신호 블록을 분류하는데 사용될 수 있는 오디오 신호의 다양한 특성을 나타낼 수 있다. HDT는 입력 신호 블록으로부터 추출된 특징정보 및 소정의 임계치를 사용하여 무음 신호 블록을 검출할 수 있다. HDT는 신호 블록에 대한 특징 정보가 소정의 임계치 이상일 때만 신호블록을 출력으로서 TV 필터링 모듈(203)로 송신할 수 있다. 이 방법은 TV 필터링된 신호를 연속적인 신호 프레임들로 분할하기 위한 신호 프레임 분할을 제공할 수 있다.
SFD 모듈(205)은 TV 필터링 모듈(203)로부터 필터링된 신호 블록을 수신한 다음, 수신된 필터링된 신호를 소정 프레임 길이를 갖는 L개의 샘플을 갖는 동일한 크기의 중첩된 짧은 신호 프레임들로 분할할 수 있다. 프레임 길이와 프레임 시프트는 시스템 요구조건에 따라 조정된다. SFD 모듈(205)은 이어지는 모듈들로부터 수신된 동작 가변 정보에 따라 신호 프레임을 SNFC 모듈(208)로 전송할 수 있다. HDT의 다른 면에서, 특정 정보가 미리 정해진 임계치보다 작을 때, 결정 단계는 신호 블록을 무음 블록으로 간주할 수 있다. 그러한 시나리오에서 SNBC 모듈(202)은 직접 동작 가변 정보를 다른 신호 처리 유닛으로는 송신하지 않고 VES 모듈(206)로 송신할 수 있다. 바람직한 SNBC 모듈(202)의 주요 목적은 계산 비용과 전력 소비를 저감하는 것이다. SNBC 모듈(202)에서 두 개의 연속하는 음성 신호 부분 사이에서 긴 무음 구간이 자주 일어난다. 방법(400)의 다양한 동작들은 제시된 순서대로, 다른 순서로 또는 동시에 수행될 수 있다. 또한 일부 실시예에서 도 4에 도시된 일부 동작들은 생략될 수 있다.
도 5는 본 발명의 다양한 실시예에 따른, 실제 잡음 환경하에서 TV 필터링 유효성을 나타내는 그래프를 도시한 것이다.
그래프는 입력 스피치 신호가 기차 잡음에 오염된 것을 도시한 것이다. (a)는 기차 잡음으로 오염된 스피치 신호를 도시한 제1도이다. (b)는 TV 필터링을 사용하여 필터링된 신호인, 바람직한 TV 필터의 출력을 도시한 제2도이다. (c)는 입력신호와 TV 필터링된 신호 사이에 얻어진 레지듀얼 신호를 도시한 제3도이다. (d)는 입력 신호에 대해 얻어진 정규화된 에너지 포락선을 도시한 제4도이다. (e)는 TV 필터링된 신호에 대해 얻어진 정규화된 에너지 포락선을 도시한 제5도이다.
TV 필터링 기술은 잡음 제거 애플리케이션을 구비한 디지털 이미지 처리에서 종종 사용되는 과정이다. TV 필터링 기술은 과도한 및 가능하게는 원치 않는(spurious) 상세 신호들이 높은 총 변동을 갖는, 즉, 신호의 절대 기울기(gradient)의 적분값이 높다는 원리에 기초한 것이다.
도 6은 본 발명의 다양한 실시예에 따른, 변하는 잡음 레벨을 갖는 다화자 잡음(babble noise)에 의해 오염된 스피치 신호에 대한 TV 필터링 유효성을 나타낸 그래프를 도시한 것이다.
(a)는 다화자 잡음에 오염된 스피치 신호를 나타낸 제1도이다. (b)는 TV 필터링을 사용하여 필터링된 신호를 나타내는 제2도이다. (c)는 잡음이 있는 스피치 신호의 에너지 포락선을 나타내는 제3도이다. 제3도에 도시된 에너지 포락선은 기존의 VAD 시스템에 기반한 에너지 임계치의 한계를 도시한 것이다. (d)는 TV 필터링된 신호의 에너지 포락선을 나타내는 제4도이다. 도 6의 실험 결과는 바람직한 TV 필터링 과정이 스피치 영역들의 끝점들에 대한 보다 정확한 검출과 결정을 위해 우수한 특징을 제공할 수 있음을 보여준다.
도 7은 본 발명의 다양한 실시예에 따른, 공항 잡음에 의해 오염된 스피치 신호에 대한 TV 필터링의 유효성을 나타낸 그래프를 도시한 것이다. 변하는 잡음 레벨하에서, TV 필터링 기술은 배경잡음 레벨이 변할 때에도 무성음 신호 부분의 에너지 레벨(또는 바닥 잡음 또는 크기)를 유지함으로써 전체 오검출 (false detection) 및 미검출(missed detection) 수를 줄일 수 있는 유성음 신호 구간을 보다 정확하게 검출하는 효과적이고 강인한 시스템을 제공할 수 있다. 이 실험결과로부터, TV 필터링된 신호를 갖는 시스템은 원래의 신호와 TV 필터링된 신호들 사이에 얻어진 TV 레지듀얼로부터 측정된 바닥 잡음 (또는 레벨) 추정치를 사용하여 더 나은 검출률을 생성할 수 있음이 관찰될 수 있다. VAD 시스템은 TV 필터링된 신호와 TV 레지듀얼 신호로부터 특징 파라미터들을 처리 및 추출할 수 있다. TV 필터링된 신호로부터의 특징 추출은 특징의 강인성을 증가시킬 수 있어서 다른 잡음 조건 하에서도 전체 검출 정확도를 개선할 수 있다.
도 8은 본 발명의 다양한 실시예에 따른, 가산성 백색 가우시안 잡음(AWGN)의 시변 레벨에 의해 오염된 스피치 신호에 대한 TV 필터링의 잡음 저감 능력을 나타낸 그래프를 도시한 것이다. (a)는 AWGN으로 오염된 스피치 신호를 나타내는 제1도이다. (b)는 TV 필터링을 사용하여 필터링된 신호를 나타내는 제2도이다. (c)는 잡음이 있는 스피치 신호의 에너지 포락선을 나타내는 제3도이다. (d)는 TV 필터링된 신호의 에너지 포락선을 나타내는 제4도이다. 입력 신호 및 TV 필터링된 신호에 대해 얻어진 정규화된 에너지 포락선 신호가 (c) 및 (d)에 도시되어 있다. TV 필터링 방법은 잡음 성분에 대한 더 나은 감소를 제공함을 알 수 있다. 최적의 에너지 임계치 파라미터를 사용하여 TV 필터링된 신호는 시변 잡음 효과가 상당히 감소되기 때문에 상당히 더 좋은 검출률을 제공할 수 있다.
다른 잡음 형태에 대한 실험 결과는 TV 필터링 기술이 종래의 특징에 대한 강인성을 개선하는 솔루션을 제공할 수 있다는 것을 보인다. 바람직한 TV 필터링 기술 능력은 잡음이 있는 신호와 TV 필터링된 신호로부터 추출된 에너지 포락선들로부터 관찰될 수 있다.
또한, TV 필터링된 기술은, 기존 필터링 기술에 비해 입력 신호의 진폭 레벨이 변하고, 저주파 유성음 스피치 부분 및 무성음 부분에서 다른 배경잡음 소스들이 혼합된 상태에서도 잡음 저감 능력을 개선할 수 있다. 이 상태는 종래기술에 기초해 출시된 대부분의 음성 구간 검출 시스템들에서 종종 검출률을 감소시킨다. TV 평활화(smoothing) 필터를 사용하는 주요 장점은 잡음 성분 억압에 사용된 종래 필터링 기술과 다른 방식으로 관심 스피치 특성을 유지할 수 있다는 것이다.
도 9는 본 발명의 다양한 실시예들에 따른, SNFC 결정 과정을 설명하는 흐름도(900)이다.
도면(900)에 도시된 바와 같이, SNFC 모듈(208)은 SFD 모듈(205)로부터 TV 필터링된 신호를 수신하고(901단계), 신호 프레임에 대한 시간적 특징을 계산할 수 있다(902단계). 그런 다음, SNFC 모듈(208)은 특징들을 소정 임계치들과 비교할 수 있다(903단계). 명령에 기반하여, 계층적인 결정 트리는, 특징 정보가 소정 임계치를 갖는 논리 구문을 완전히 만족할 때만, 신호 프레임을 출력으로서 VNFC 모듈(207)로 송신할 수 있다. 특징 정보가 소정 임계치를 갖는 논리 구문을 만족시키지 못했을 때, 결정 트리는 신호 프레임을 무음 프레임으로 간주할 수 있다(904동작). 이 시나리오에서 SNFC 모듈(208)은 논리적 표현이나 if-then 구문을 사용하는 치환문(assignment statements)을 제공하는 이진 플래그 정보를 생성할 수 있다(905단계).
SNFC 모듈(207)은 TV 필터링된 신호 프레임을 수신하는 수단, 각 신호 프레임에서 시간적 특징 정보를 추출하는 수단, 추출된 특징 정보는 소정 임계치와 비교하여 무음 신호 프레임을 결정하는 수단, 이진-플래그 정보(1: 비무음 신호 프레임 및 0: 무음 신호 프레임)를 결정하는 수단, 동작 가변 정보를 생성하여 신호 블록을 유성음/무성음 분류 모듈 또는 이진 저장, 통합 및 삭제 모듈로 송신하는 수단을 포함할 수 있다. SNFC 모듈(208)의 주요 목적은 음성 신호 부분들 사이에 무음 부분이 자주 발생하는 곳에서 계산 비용과 전력소비를 저감하는 것이다. 또한, TV 필터 특징 정보를 구비한 SNFC 모듈(208)은 무음 신호 프레임과 비무음 신호 프레임을 더 잘 구별할 수 있다.
이진-플래그 정보는 이진 값 0 (거짓 구문) 및 1(참 구문)을 포함할 수 있다. 또한, HDT의 결정 트리는 추가 신호 처리를 위해 신호 프레임을 VNFC 모듈(207)로 송신하지 않고, 0 값의 이진-플래그 정보를 출력으로서 BFSMD 모듈로 송신할 수 있다. 입력 신호 프레임으로부터 추출된 특징 정보가 소정 임계치 이상일 때만 입력 신호 프레임은 VNFC 모듈(207)에서 추가 처리된다. 방법(900)의 다양한 동작들은 제시된 순서대로, 다른 순서로, 혹은 동시에 수행될 수 있다. 또한, 일부 실시예에서, 도 9에 제시된 일부 동작들은 생략될 수 있다.
도 10은 본 발명의 다양한 실시예에 따른, SNFC 모듈의 실험결과를 나타내는 그래프를 도시한 것이다.
실험결과들은 TV 필터링 방법이 실질적으로 스피치 영역을 누락하지 않고 무음 영역에서 신호 프레임들을 제거하여 추가 처리 시스템의 계산 부하를 감소시키는, 향상된 에너지 특징을 제공할 수 있다. 그래프에서 도시된 바와 같이, 무음 영역에서 신호 프레임들은 (c)에서 0의 크기를 갖는 것으로 표시되어 있다.
도 11은 본 발명의 다양한 실시예에 따른, SNFC 모듈의 실험결과들을 나타내는 그래프를 도시한 것이다.
박수 소리에 오염된 입력 스피치 신호에 대해 TV 필터링된 신호가 (b)에 도시되어 있다. SNFC 모듈의 출력은 (c)에 도시되어 있다. TV 필터링 방법은 포락선의 모양과 음성이 있는 스피치 영역의 검출에 사용되는 필수 특징들을 왜곡시키지 않고 박수 소리 효과를 상당히 감소시킬 수 있음을 알 수 있다. 그 결과는 SNFC 모듈이 매우 낮은 에너지 값을 갖는 신호 프레임들을 폐기함으로써 계산 부하를 감소시킬 수 있음을 보인다.
도 10 및 11에서, 각각의 (a)는 기차 잡음과 박수 소리에 각각 오염된 잡음이 있는 스피치 신호를 나타내고, 여기서, x축은 샘플 수를 나타내고, y축은 이산 샘플의 진폭을 나타낸다. 도 10 및 11에서, 각각의 (b)는 TV 필터를 사용하여 필터링된 신호를 나타낸다. 도 10 및 11에서, 각각의 (c)는 모든 신호 프레임들의 결합 결과에 의해 얻어진 임계치 처리된(thresholded) 에너지 포락선을 나타낸다. 실험결과는 TV 필터링 방법이 실질적으로 스피치 영역을 누락하지 않고 무음 영역에서 신호 프레임들을 제거하여 추가 처리 시스템의 계산 부하를 감소시키는 향상된 에너지 특징을 제공할 수 있다. 그래프에서 도시된 바와 같이, 무음 영역에서 신호 프레임들은 도 10 및 11에서, 각각의 (c)에서 0의 크기를 갖는 것으로 표시되어 있다.
도 12는 본 발명의 다양한 실시예에 따른, 유성음/무성음 신호 프레임 분류(VNFC)를 설명하는 흐름도(1200)이다.
도면(1200)에 도시된 바와 같이, VNFC 모듈(207)은 SNFC 모듈(208)로부터 비무음 신호를 수신할 수 있다(1201단계). VNFC 모듈(207)은 비무음 신호 프레임의 정규화된 편측 (one-sided) 자기상관 시퀀스를 계산할 수 있다(1202단계). 또한 VNFC 모듈(207)은 제1영교차점의 래그 지수(lag index), 영교차율, 최소점의 래그 지수, 및 자기상관 시퀀스의 미리 정의된 래그 범위에 대한 최소점의 진폭과 같은 특징 파라미터들을 계산할 수 있다(1203단계). 다음으로, VNFC 모듈(207)은 특징들을 소정 임계치들과 비교할 수 있다(1204단계). VNFC 모듈(207)은 자기상관 시퀀스의 미리 정의된 래그 범위에 대해 특징 파라미터들을 계산할 수 있다(1205단계). 또한 VNFC 모듈(207)은 BMDS 모듈로 송신되는 이진 플래그 정보를 생성할 수 있다(1206단계). VNFC 모듈(207)은 특징들을 소정 임계치들과 비교할 수 있다(1207동작). 또한 VNFC 모듈(207)은 먼저 이진 플래그 1 정보를 생성한 다음(1208단계), BMDS 모듈로 송신된 이진 플래그 0 정보를 생성할 수 있다(1209단계).
VFNC 모듈(207)은 신호 프레임 분류 모듈로부터 무음 신호 프레임을 수신하는 수단, 비무음 신호 프레임의 정규화된 편측 자기상관을 계산하는 수단, 자기상관 특징 정보를 추출하는 수단, 추출된 TV 레지듀얼 및 자기상관 특징들을 기초로 특징들을 소정 임계치들과 비교하여 유성음 신호 프레임 및 무성음 신호 프레임을 결정하는 수단, 동작 가변 정보를 생성하여 음성신호 프레임을 이진-플래그 저장, 통합 및 삭제 모듈로 송신하고 음성 구간 검출 과정을 제어하는 수단을 포함할 수 있다. VNFC 모듈(207)은 입력 비무음 신호 프레임을 유성음 신호 프레임과 무성음 신호 프레임으로 분류할 수 있다. 분류 결과를 기반으로, 더욱 상세하게, VNFC 모듈은 이진-플래그 정보(무성음 신호 프레임에 대해 이진-플래그 0 및 유성음 프레임에 대해서는 이진 플래그 1)를 생성하여 음성 신호 구간 부분의 끝점을 결정할 수 있다.
VNFC 모듈(207)은 자기상관 계산, 특징 추출, 및 결정과 같은 3개의 주요 방법을 포함할 수 있다. 분류 방법은 소정 임계치를 갖는 다단 계층적 결정 트리(HDT) 방식을 사용하여 구현된다. 다단 HDT의 흐름 구성은 비무음 신호 프레임의 자기상관 시퀀스로부터 특징 파라미터들을 추출하는데 포함된 계산 복잡도 및 메모리 공간에 따라 재설계될 수 있다.
일실시예에서, VNFC 모듈(207)은 먼저 소정 수의 신호 샘플들을 갖는 비무음 신호 프레임을 수신할 수 있다. 그런 다음, VFC 모듈은 d[n]으로 나타내진 비무음 신호 프레임의 정규화된 편측 자기상관을 계산할 수 있다. N 샘플의 길이를 갖는 신호 프레임의 자기상관 d[n]은 다음 식과 같이 계산된다.
Figure pat00001
여기서, r은 자기상관 시퀀스, k는 자기상관 시퀀스의 래그를 나타낸다.
자기상관 시퀀스로부터의 특징 정보는 신호 프레임을 특징짓는데 사용된다. 자기상관의 주기성 특징은 처리될 신호의 시간적 및 공간적 특징을 제공할 수 있다. 자기상관 함수는 비정상적인 신호에 대해 0으로 떨어진다. 유성음 스피치는 주기적으로 상관되고 잡음 소스로부터의 다른 배경음은 상관되지 않는다(또는 비상관된다). 유성음 신호 프레임이 주기적으로(또는 준 주기적으로 (quasi-periodic)) 상관되면, 자기상관 함수는 유성음 피치 구간 위치에서 최대 피크치를 갖는다. 일반적으로, 자기상관 함수는 유성음에 대해 2 내지 20ms의 기대 피치 구간에 대응하여 래그 값 범위 내에서 최대 피크치를 보인다. 종래의 음성 구간 검출에서는 유성음 스피치가 배경 잡음 프레임보다 더 큰 최대 자기상관 피크치를 가질 수 있다고 간주된다. 일실시예에서, 최대 자기상관 피크치는 약화될 수 있고, 최대 피크치의 자기상관 래그는 음소 변이 및 박수, 웃음, 자동차, 기차, 군중 환호, 여러 명이 떠드는 소리, 열잡음 등을 포함한 다른 배경 잡음 소스들로 인해 소정 임계치 범위에서 벗어날 수 있다. TV 필터링된 신호의 자기상관으로부터 추출된 특징 파라미터들은 VAD 과정의 강인성을 증가시키는 능력을 가질 수 있다.
또한 VNFC 모듈(207)은 자기상관함수의 제1영교차점의 자기상관 래그 지수 (또는 시간 래그), 자기상관 함수의 최소점 래그 지수, 자기상관 함수의 최소점 진폭, 자기상관 함수의 국부 최대점들의 래그 지수들, 국부 최소점들의 진폭들, 및 에너지 감쇠비를 포함하는 특징 정보를 추출할 수 있다. 특징 정보 추출은 바람직한 HDT 방식에서 경험적(heuristic) 결정 규칙에 따른 순차적인 방식으로 수행된다.
제1영교차점의 래그 지수 (또는 시간 래그)는 매우 비정상적인 (또는 일시적인) 잡음을 갖는 프레임들을 특징짓는데 사용된다. 다양한 실험결과로부터자기상관 시퀀스의 제1영교차점의 래그 지수 값은 일부 잡음 종류에 대해 4 래그 값보다 작다.
제안된 방법은 제1영교차점의 래그 지수를 사용하여 잡음 프레임을 검출할 수 있다. 주어진 소정 개수의 계수를 갖는 자기상관 시퀀스에 대해, 제1영교차율은 다음 식과 같이 표현된다.
Figure pat00002
여기서, first_zcp(.)는 제1영교차점 (fzcp1)의 래그 지수를 제공하는 함수이고, m은 자기상관 래그 지수 변수를 나타내고, UL1은 상위 래그 지수값을 나타낸다.
제안된 방법은 소정 수의 자기상관값으로 만들어진 새로운 자기상관 시퀀스 내에서 제1영교차점의 래그 지수 결정을 수행할 수 있다. 따라서 제안된 방법은 일부 자기상관 시퀀스 값들만을 조사함으로써 특징 추출 계산 비용을 줄일 수 있다. 또한, 특정 형태의 잡음이 꾸준히 일어나면 전력 소비, 계산 부호 및 메모리 소비도 대폭 줄일 수 있다.
자기상관 시퀀스의 주어진 소정 범위에 대해, 최소 피크의 래그 지수 및 진폭은 다음 식과 같이 계산된다.
Figure pat00003
여기서, min_amp_lag(.)는 최소 진폭(rmin _ amp)과 그것의 래그 지수(rmin _ lag)를 계산하는 함수, m은 자기상관 래그 변수, LL2는 하위 래그 지수값이며, UL2는 상위 래그 지수값을 나타낸다.
일실시예에서, 최저 피크의 래그 지수 및 진폭 특징들은 소정 래그 구간내 자기상관 시퀀스로부터 추출된다. 이 특징들은 주기적인 구조 성분들을 갖는 일부 잡음 신호 타입을 식별하는데 사용된다.
제안된 방법은 소정 범위 래그 구간 내 자기상관 시퀀스의 최대 피크에서 래그 지수 및 진폭 추출을 포함할 수 있다. 이 특징들은 유성음 스피치 프레임을 나타내는데 사용된다. 소정 래그 및 최대 피크 임계치들은 유성음과 다른 배경음들을 구별하는데 사용된다. 주어진 소정 범위의 자기상관 계수에 대해, 최소 피크의 래그 지수 및 진폭은 다음 식과 같이 계산된다.
Figure pat00004
여기서, max_amp_lag(.)는 최대 진폭(rmax _ amp)과 그것의 래그 지수(rmax _ lag)를 계산하는 함수를 나타낸다.
제안된 방법은 서로 다른 잡음 레벨을 갖는 상당히 비정상적인 잡음 프레임을 제거함으로써 VAD 시스템의 계산 비용 감소에 피크 진폭과 래그 지수 정보를 사용할 수 있다. 잡음 프레임 검출 수를 줄이기 위해 제안된 방법은 에너지 감쇠비를 사용할 수 있다.
일부 실시예들에서, 특징 추출 방법은 자기상관 시퀀스를 동일하지 않은 블록들로 분할하여 에너지 감쇠비 (τ)를 계산할 수 있다.
Figure pat00005
여기서, τi는 Li 및 Ui의 범위를 갖는 자기상관 래그 지수에 대해 계산된 i번째 에너지 감쇠비, N은 전체 자기상관 계수들의 개수, 및 k는 자기상관 래그 변수이다.
또한, 에너지 감쇠비는 0과 1 사이이며, 유성음과 배경음과 잡음을 구별하는 표현 특징이다. 대부분의 소리 프레임에서, 상술한 방식으로 계산된 자기상관 영역에서의 에너지 감쇠비는 다양한 배경음과 잡음에 대해 높은 강인성을 보인다. 또한 에너지 감쇠비는 효율적인 계산 방식으로 계산된다.
일실시예에서, 결정 트리를 만드는 방법은 각 특징에 대한 계산 비용을 고려해야 할 수 있다.
도 13은 본 발명의 다양한 실시예에 따라, TV 필터링된 신호의 자기상관으로부터 추출된 특징 패턴들을 나타내는 그래프를 도시한 것이다.
도 (a)는 기차 잡음에 오염된 신호를 나타내는 제1도이다. (b)는 TV 필터를 사용하여 필터링된 신호를 나타내는 제2도이다. (c)는 각 신호 프레임의 에너지값을 도시한 제3도이다. (d)는 신호 프레임의 자기상관함수(autocorrelation function, ACF)의 에너지 감쇠비를 나타내는 제4도이다. (e)는 신호 프레임의 ACF의 최대 피크치를 나타내는 제5도이다. 도 13F는 ACF 프레임의 최대 피크의 래그값을 나타내는 제6도이다. 특징 패턴들의 그래픽 도면은 TV 자기상관 특징 정보를 사용하여 유성음 신호 프레임을 무성음 신호 프레임과 구별함에 있어서 유효성을 설명하기 위한 것이다.
또한 도 13으로부터 VNFC 모듈(207)은 특징 파라미터들을 추출할 수 있는, 구성가능한 특징 추출 방법을 포함할 수 있다. 추출된 특징 파라미터들은 제안된 방법에 따라 기술된 내부 결정 구문 또는 논리적 표현들에 대한 입력으로 사용된다. 특징 추출 방법의 구성은 다른 방식으로 변경될 수 있다.
제안된 방법에서, 각 특징 추출 방법은 소정 수의 자기상관 계수 값들과 함께 자기상관 시퀀스를 수신할 수 있다. 특징 추출 방법은 동작 가변 정보에 따른 입력 데이터를 처리할 수 있다. 마지막으로, 제안된 방법의 VNFC 모듈(207)은 이진 플래그 정보(무성음 신호 프레임에 대해서는 이진 플래그 0, 유성음 신호 프레임에 대해서는 이진 플래그 1)를 생성하고, 플래그 정보를 BSDM모듈로 송신할 수 있다. 특징 패턴에 대한 도면은 TV 자기상관 특징 정보를 사용하여 유성음 신호 프레임과 무성음 신호 프레임 구별의 유효성에 대한 완전한 이해와 설명을 위해 보인 것이다.
도 14는 본 발명의 다양한 실시예에 따른, 이진-플래그 통합 및 삭제 (BSMD) 과정을 설명하는 흐름도(1400)이다.
통합 과정은 또한 삽입 (또는 포함 또는 추가)으로 지칭된다. 도 14를 참조하면, BSMD 모듈(210)은 각 비무음 신호 블록에 대해 생성된 이진-플래그 시퀀스를 처리할 수 있다. 이진-플래그 시퀀스는 검출된 유성음 및 무성음 신호 프레임에 대해 각각 이진 플래그 1 및 이진 플래그 0 값을 포함할 수 있다. 1401단계에서, 이진 플래그 시퀀스 정보가 수신되고, 1402단계에서 입력 이진 시퀀스에서 양의 전이(0에서 1로) 및 음의 전이 (1에서 0으로) 위치들이 검출된다. 또한 1403단계에서, 이 위치들의 차가 계산되고 소정 듀레이션 임계치와 비교된다. 1404단계에서, 0인 이진 블록은 다른 1의 이진 블록으로 대체된다. 이 과정은 TV 필터링된 신호의 에너지 포락선으로부터 얻어진 이진 블록 마스크에 위치한 1의 긴 열 사이에서 현재 이진 블록이 발생할 때 일어난다. 1404단계는 또 1의 이진 블록이 다른 0의 이진 블록으로 대체될 때, 즉, 현재 이진 블록이 0의 긴 열 사이에서 발생하고 TV 필터링된 신호의 에너지 포락선으로부터 얻어진 이진 블록 마스크에 위치할 때 일어날 수 있다.
VAD에서 중첩하는 프레임 개념을 기초로, 신호 프레임에 대한 전체 미검출 및 오검출 수는 유성음 스피치 영역의 가능한 듀레이션 정보를 사용하여 감소될 수 있다. 또한 일부 실시예에서, 제안된 방법은 최소 유성음 스피치 듀레이션과 두 연속 유성음 신호 부분 사이의 간격을 채용할 수 있다. 일실시예에서, VAD 시스템은 오검출 및 미검출 수를 감소시킬 수 있는 특징 평활화 과정을 결정할 수 있다. 일실시예에서, VAD 시스템은 실시예들이 애플리케이션들에 종속되도록 구성하는 옵션을 가질 수 있다. VAD 트리거 모드는 사용자에 의한 수동 또는 자동 선택일 수 있다. 전력 절약 모드에서 VAD 애플리케이션은 디스에이블될 (disabled) 수 있다.
제안된 방법에 따르면, 유성음 스피치 부분의 이전 끝점으로부터 소정 간격 내에 있는 신호 프레임에 대한 이진-플래그 0가 확인될 때, 통합 방법은 이진-플래그 0를 이진-플래그 1로 대체할 수 있다. 다른 면에서, 총 듀레이션이 소정 듀레이션 임계치보다 작은 상태에서 검출된 유성음 신호 프레임의 좌우측의 긴 0 내에서 신호 프레임이 유성음 프레임으로 검출될 때 이진-플래그 1은 이진-플래그 0으로 대체된다.
일부 실시예들에서 이진-플래그 통합/삭제는 1과 0 열의 전체 수를 카운트하고, 카운트 값들을 소정 임계치들과 계속해서 비교하는 명령 세트들을 사용하여 수행된다. 여러 실험들로부터, 제안된 통합 및 삭제 방법들은 매우 더 나은 끝점 검출 결과를 제공할 수 있음을 알 수 있었다. 바람직한 통합 방법의 주요 목적은 유성음 및 무성음 분류 과정 동안 단일의 발화된 단어의 단일 샘플 세트를 제거함으로써 생긴 불연속 효과를 피하는 것이다.
바람직한 제거 방법의 목적은 오검출된 일부 소리 형태의 짧은 버스트를 제거하는 것이다. 또한 음성 끝점 결정 및 정정 (voice endpoint determination and correction, VEDC)은 유성음 신호 부분의 끝점(또는 경계 또는 온셋/오프셋)을 정확하게 결정하고 소정 신호 샘플들의 각 서브 프레임으로부터 추출된 특징 정보를 사용하여 정정하도록 설계된다. 흐름도/플로우차트 (1400)의 다양한 동작들은 제시된 순서대로, 다른 순서로 또는 동시에 수행될 수 있다. 또한, 일부 실시예에서 도 14에 제시된 일부 동작들은 생략될 수 있다.
도 15는 본 발명의 다양한 실시예에 따라, 기차 잡음에 의해 오염된 스피치 출력을 나타내는 그래프를 도시한 것이다.
(a)는 기차 잡음에 오염된 신호를 도시한 제1도이다. (b)는 바람직한 TV 필터링 모듈(203)의 성능을 보인다. (c)는 각 신호 프레임의 에너지값을 도시한 제3도이다. (d)는 신호 프레임의 ACF의 에너지 감쇠비를 도시한 제4도이다. (e)는 신호 프레임의 ACF의 최대 피크치를 도시한 제5도이다. 특징 정보를 소정 임계치와 비교하여 얻어진 출력이 도 15에 도시되어 있다. (f)는 이진 플래그 시퀀스 정보를 도시한 제6도이다. (f)는 에너지 감쇠비와 최대 피크치를 소정 임계치들과 비교하여 얻어진 유성음/무성음 분류 결과이다.
도 16은 발명의 다양한 실시예에 따라 깨끗한 스피치 신호에 대한 출력을 나타내는 그래프를 도시한 것이다.
(a)는 깨끗한 신호를 도시한 제1도이다. (b)는 TV 필터를 사용하여 필터링된 신호를 도시한 제2도이다. (b)는 바람직한 TV 필터링 모듈의 성능을 보인다. (c)는 각 신호 프레임의 에너지값을 도시한 제3도이다. (c)는 시간적 특징 정보를 갖는 SFC 모듈의 출력이다. (d)는 신호 프레임의 ACF의 감쇠 에너지 비 값을 나타낸 제4도이다. (e)는 신호 프레임의 ACF의 최대 피크치를 도시한 제5도이다. 특징 정보를 소정 임계치와 비교하여 얻어진 출력이 (d) 및 (e)에 도시되어 있다. (f)는 이진 플래그 시퀀스 정보를 도시한 제6도이다. (f)는 감쇠 에너지비와 최대 피크치를 소정 임계치와 비교하여 얻어진 유성음/무성음 분류 결과이다.
도 17은 본 발명의 다양한 실시예에 따른, 음성 끝점 결정 및 정정 (VEDC) 과정을 설명하는 흐름도(1700)이다.
VEDC 모듈(209)는 유성음 신호 부분의 끝점 (또는 경계 또는 온셋/오프셋)을 더 정확하게 결정하고, 소정 신호 샘플들의 각 서브 프레임으로부터 추출된 특징 정보를 사용하여 정정하도록 설계된다. 도 17에 도시된 바와 같이, 먼저, VEDC 모듈(209)은 입력 신호 블록에서 유성음 신호 부분의 끝점(온셋 및 오프셋)을 수신하고(1701단계), 유성음 신호 부분의 온셋(또는 오프셋) 위치로부터 샘플을 추출하여 작은 프레임들로 분할할 수 있다(1702단계). 또한 VEDC 모듈(209)은 프레임 에너지를 계산하여 소정 듀레이션 임계치와 비교할 수 있다(1703단계). VEDC 모듈(209)은 중요하지 않은 프레임을 제거하여 새로운 끝점(온셋 및 오프셋)을 찾고 입력 신호 블록으로부터 결정된 끝점 정보를 출력할 수 있다(1705단계).
VEDC 모듈(209)은 끝점 결정, 신호 프레이밍(framing), 특징 추출, 및 끝점 정정을 포함할 수 있다. 모든 검출된 유성음 신호 부분의 끝점은 이진-플래그 시퀀스 정보 및 프레임 길이와 프레임 시프트의 소정 값들을 처리하여 계산된다. 또한 VEDC 모듈(209)은 샘플 색인 번호 또는 밀리초로 측정된 샘플 시간으로 끝점 포인트들을 제공할 수 있다.
일실시예에서 끝점은 간단한 특징 추출 및 임계치 처리 규칙을 사용하여 정정된다. 정정하는 동안, 신호 프레임의 처리는 소정 신호 샘플 수로 수행된다. 신호 프레임은 각 유성음 스피치 부분의 온셋 및 오프셋에서 추출된다. 끝점을 정정하는 동안, 신호 프레임은 먼저 중첩하지 않는 작은 프레임들로 분할된다. 다음으로 각 서브 프레임에 대한 에너지 계산이 이뤄지고, 마지막으로 소정 임계치와 비교된다. 여러 실제 환경에서 주로 높은 신호대잡음비를 갖는 녹음된/수신된 오디오 신호가 발생할 때, 제안된 방법은 유성음 신호 부분의 끝점에 대한 정확한 결정을 제공할 수 있다. 방법(1700)의 여러 동작들은 제시된 순서로, 다른 순서로 또는 동시에 수행될 수 있다. 또한 일부 실시예들에서 도 17에 제시된 일부 동작들은 생략될 수 있다.
도 18은 본 발명의 다양한 실시예에 따른 유성음/무성음 분류 모듈, 이진-플래그 통합/삭제 (BSMD) 모듈 및 음성 끝점 결정 및 정정 모듈의 출력을 나타내는 그래프를 도시한 것이다.
(a)는 기차 잡음으로 오염된 신호를 도시한 제1도이다. (b)는 TV 필터를 사용해 필터링된 신호를 도시한 제2도이다. (c)는 이진 플래그 시퀀스 정보를 도시한 제3도이다. (d)는 통합, 삭제 및 정정 후 이진 시퀀스를 도시한 제4도이다. (e)는 바람직한 VAD 시스템을 사용하여 검출된 끝점을 도시한 제5도이다. (e)는 음성 끝점 결정 및 정정 모듈의 출력을 보인다.
도 19는 본 발명의 다양한 실시예에 따른 유성음/무성음 분류 모듈, 이진-플래그 통합/삭제 (BSMD) 모듈 및 음성 끝점 결정 및 정정 모듈의 출력을 나타내는 그래프를 도시한 것이다.
(a)는 깨끗한 신호를 도시한 제1도이다. (b)는 TV 필터를 사용하여 필터링된 신호를 도시한 제2도이다. (c)는 유성음/무성음 분류 모델의 출력을 보인다. (d)는 통합, 삭제 및 정정 후 이진 시퀀스들을 도시한 제4도이다. (d)는 이진-플래그 통합/삭제 모듈의 출력을 보인다. (e)는 VAD 시스템을 사용해 검출된 끝점을 도시한 제5도이다. (e)는 끝점 결정 및 정정 모듈의 출력을 보인다. 유성음 부분의 끝점은 원으로 표시되었다.
도 20은 본 발명의 다양한 실시예에 따른 유성음/무성음 분류 모듈, 이진-플래그 통합/삭제 (BSMD) 모듈 및 음성 끝점 결정 및 정정 모듈의 출력을 나타내는 그래프를 도시한 것이다. (a)는 깨끗한 신호를 도시한 제1도이다. (b)는 TV 필터를 사용하여 필터링된 신호를 도시한 제2도이다. (c)는 이진 플래그 시퀀스 정보를 도시한 제3도이다. (d)는 이진-플래그 통합/제거 모듈의 출력을 보인다. (d)는 통합, 제거 및 정정 후 이진 시퀀스들을 도시한 제4도이다. (e)는 VAD 시스템을 사용하여 검출된 끝점을 도시한 제5도이다. (e)는 음성 끝점 결정 및 정정 모듈의 결과를 보인다. 유성음 신호 부분의 끝점은 원으로 표시되었다.
도 18 내지 도 20은 기차 잡음, 깨끗한 스피치 및 공항 잡음에 의해 오염된 스피치 신호에 대해 본 발명의 실시예에 따른 유성음/무성음 분류 모델, 이진-플래그 통합/제거 모듈 및 음성 끝점 결정 및 정정 모듈의 출력을 도시한 그래픽도이다. 각각의 (e)는 음성 끝점 결정 및 정정 모듈의 출력을 보인다. 유성음 신호 부분의 끝점은 원으로 표시되었다. 또한 일부 시뮬레이션에서 바람직한 음성구간 검출장치의 전체 성능은 변하는 잡음 레벨에서 공항, 떠드는 소리, 자동차, 기차, 전시회, 역, 박수, 웃음, AC 잡음, 컴퓨터 하드웨어, 부채 및 백색잡음과 같은 서로 다른 형태의 잡음에 의해 오염된 다른 스피치 신호들을 사용해 평가된다. 실험적인 연구는 오디오 신호에서 유성음 부분의 끝점을 결정하는 제안된 방법의 기술 및 구성이 기존 기술의 단점을 극복함을 보인다. 각각의 (c)는 유성음/무성음 분류 모델의 출력이다. 각각의 (ㅇ)는 이진-플래그 통합/제거 모듈의 출력이다. 각각의 (e)는 음성 끝점 결정 및 정정 모듈의 출력을 보인다. 유성음 신호 부분의 끝점은 원으로 표시되었다.
도 21은 본 발명의 다양한 실시예에 따른, 애플리케이션을 구현하는 컴퓨팅 환경을 도시한 것이다.
도시된 바와 같이, 컴퓨팅 환경은 제어부와 산술 로직부(ALU)를 구비한 적어도 하나의 프로세싱부, 메모리, 스토리지부, 복수의 네트워킹 장치들, 복수의 입출력(I/O)부를 포함할 수 있다. 프로세싱부는 알고리즘의 명령어들을 처리할 수 있다. 프로세싱부는 그 처리를 수행하기 위해 제어부로부터 명령들(commands)을 수신할 수 있다. 또한 명령어들의 실행에 포함된 논리 및 산술 연산들은 ALU의 도움으로 계산된다.
전체 컴퓨팅 환경은 다수의 동종 및/또는 이종 코어들, 서로 다른 종류의 다수의 CPU들, 특정 미디어 또는 다른 가속기들로 구성될 수 있다. 프로세싱부는 알고리즘의 명령어들을 처리할 수 있다. 프로세싱부는 그 처리를 수행하기 위해 제어부로부터 명령들을 수신할 수 있다. 또한 명령어들의 실행에 포함된 논리 및 산술 연산들은 ALU의 도움으로 계산된다. 또한 복수의 프로세싱부는 단일 칩상에 또는 다수의 칩들 위에 위치할 수 있다.
구현에 필요한 명령어들과 코드들로 구성된 알고리즘이 메모리 또는 스토리지 또는 그 둘 다에 저장된다. 실행시, 명령어들은 해당 메모리 및/또는 스토리지로부터 인출(fetch)되어 프로세싱부에 의해 실행될 수 있다.
하드웨어로 구현하는 경우, 다양한 네트워킹 장치들 또는 외부 I/O 장치들이 컴퓨팅 환경에 접속해 네트워킹부와 I/O 장치부를 통해 구현을 지원할 수 있다.
본 명세서에서 개시된 실시예들은 적어도 하나의 하드웨어 장치에서 실행되고 구성요소들을 제어하기 위해 네트워크 관리 기능을 수행하는 적어도 하나의 소프트웨어 프로그램을 통해 구현될 수 있다. 도 1 및 도 2에서 보인 구성 요소들은 하드웨어 장치, 및 하드웨어 장치 및 소프트웨어 장치의 결합 중 적어도 하나일 수 있는 블록들을 포함할 수 있다.
특정 실시예들에 대한 상술한 설명은 본 실시예들의 일반적인 특징을 완전히 밝혔으므로, 타인들은 현재의 지식을 적용하여 포괄적인 개념에서 벗어나지 않고 다양한 애플리케이션을 위해 특정 실시예들을 용이하게 변경 및/또는 개작할 수 있다. 그러므로 그러한 개작과 변경은 개시된 실시예의 균등물의 의미와 범위 내에서 이해되어야 하고 의도된다. 본 명세서에서 채용된 어법 또는 단어는 설명의 목적을 위한 것이고 제한하려는 것이 아님이 이해되어야 할 수 있다. 그러므로 본 실시예는 바람직할 실시예 측면에서 설명된 것이며, 당업자는 본 실시예들이 여기서 설명된 실시예들의 사상과 범위 내에서 변경이 실시될 수 있음을 인식할 것이다.
101: 입력신호 수신 모듈 102: 음성 구간 검출 모듈

Claims (25)

  1. 잡음 환경 조건에서 음성구간검출(VAD)을 위한 방법에 있어서,
    적어도 하나의 소스로부터 입력 신호를 수신하는 동작;
    시간적 특징 정보를 비교하여 상기 입력 신호를 무음 및 비무음 신호 블록 중 적어도 하나로 분류하는 동작;
    상기 시간적 특징 정보를 복수의 소정 임계치들과 비교하여 상기 무음 및 비무음 신호 블록 중 적어도 하나를 음성 끝점 저장(VES) 모듈 및 총 변동(total variation) 필터링 모듈 중 적어도 하나로 송신하는 동작;
    유성음 신호 및 무성음 신호 중 적어도 하나의 끝점 정보를 결정하는 단계;
    비스피치 부분에서 스피치 특징을 향상시키고 잡음 레벨을 억압하는 총 변동 필터링을 채용하는 동작;
    상기 총 변동 필터링된 신호 영역에서 바닥 잡음을 결정하는 동작;
    상기 총 변동 필터링된 신호 시퀀스의 자기상관에서 특징 정보를 결정하는 동작;
    이진-플래그 통합 및 제거 (BSMD) 모듈이 상기 결정된 특징 정보에 대한 상기 소정 듀레이션 임계치를 기반으로 BSMD를 결정하는 동작;
    상기 결정된 BSDM 후 단기의 상기 시간적인 특징 정보를 기반으로 음성 끝점 정정을 판단하는 동작; 및
    상기 음성 끝점 정보와 함께 상기 입력 신호를 출력하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 시간적 특징 정보는 에너지, 영교차율, 및 오디오 신호의 다양한 특징을 나타내는 에너지 포락선 중 적어도 하나를 포함하는 방법.
  3. 제1항에 있어서,
    자기상관 시퀀스의 제1영교차율의 래그를 사용하여 임시 잡음 및 백색 가우시안 잡음 프레임 중 적어도 하나를 검출하는 동작을 더 포함하는 방법.
  4. 제1항에 있어서,
    상기 방법은 특징 정보를 결정하고, 상기 특징 정보는 상기 유성음과 무성음 신호를 구별하도록 상기 신호의 자기상관으로부터 에너지 감쇠비, 진폭, 최소 피크 진폭의 래그, 최대 피크의 래그, 및 영교차율 중 적어도 하나를 포함하는 방법.
  5. 제4항에 있어서,
    상기 방법은 상기 자기상관 시퀀스로부터 에너지 감쇠비를 결정하여 상기 유성음 신호와 다른 배경음 중 적어도 하나에 대한 정확한 특징을 제공하는 방법.
  6. 제1항에 있어서,
    상기 송신하는 동작은 신호 블록 분할 모듈로부터 신호 블록을 수신하고 상기 신호 블록에 대한 시간적 특징을 계산하는 동작을 더 포함하는 방법.
  7. 제1항에 있어서,
    총 변동 레지듀얼 및 상기 입력신호에서 상기 유성음 신호와 상기 무성음 신호의 구별을 제공하는 상기 총 변동 필터링된 신호의 포락선 중 적어도 하나로부터 바닥 잡음을 추정하는 동작을 더 포함하는 방법.
  8. 제1항에 있어서,
    상기 수신된 입력 신호에 대해 음성 처리 애플리케이션들에 종속하는 샘플링 속도 변환을 수행하는 동작을 더 포함하는 방법.
  9. 제1항에 있어서,
    상기 방법은,
    신호 프레임 분할 모듈로부터 총 변동 필터링된 신호를 수신하는 동작;
    상기 신호 프레임에 대해 상기 시간적 특징 정보를 계산하는 동작;
    상기 특징 정보를 소정 임계치들과 비교하는 단계;
    상기 비무음 신호 프레임을 유성음/무성음 프레임 분류(VNFC) 모듈로 송신하는 동작;
    이진 플래그 0 정보를 생성하는 동작; 및
    상기 이진 플래그 0 정보를 상기 BMDS 모듈로 송신하는 동작을 포함하는 방법.
  10. 제1항에 있어서,
    상기 송신하는 단계는 계층적 결정 트리(HDT)에 의해 상기 입력 신호로부터 특징 정보를 추출하는 단계를 더 포함하는 방법.
  11. 제10항에 있어서,
    상기 HDT는 상기 시간적 특징들을 소정 임계치들과 비교하여 상기 무음 및 비무음 신호 중 적어도 하나를 상기 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나로 송신하는 것을 포함하는 방법.
  12. 잡음 환경 조건에서 VAD를 위한 시스템에 있어서,
    상기 시스템은
    적어도 하나의 소스로부터 입력 신호를 수신하는 동작;
    시간적 특징 정보를 비교하여 상기 입력 신호를 무음 및 비무음 신호 블록 중 적어도 하나로 분류하는 동작;
    상기 시간적 특징 정보를 복수의 소정 임계치들과 비교하여 상기 무음 및 비무음 신호 블록 중 적어도 하나를 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나로 송신하는 동작;
    유성음 신호 및 무성음 신호 중 적어도 하나의 끝점 정보를 결정하는 단계;
    비스피치 부분에서 스피치 특징을 향상시키고 잡음 레벨을 억압하는 총 변동 필터링을 채용하는 동작;
    상기 총 변동 필터링된 신호 영역에서 바닥 잡음을 결정하는 동작;
    상기 총 변동 필터링된 신호 시퀀스의 자기상관에서 특징 정보를 결정하는 동작;
    상기 결정된 특징 정보에 대한 상기 소정 듀레이션 임계치를 기반으로 BSMD를 결정하는 동작;
    상기 결정된 BSDM 후 단기의 상기 시간적인 특징 정보를 기반으로 음성 끝점 정정을 판단하는 동작; 및
    상기 음성 끝점 정보와 함께 상기 입력 신호를 출력하는 단계를 포함하여 수행하도록 구성되는 시스템.
  13. 제12항에 있어서,
    VNFC 모듈을 더 포함하고, 상기 VNFC 모듈은,
    무음/비무음 프레임 분류 (SNFC) 모델로부터 상기 비무음 신호 프레임을 수신하는 동작;
    상기 비무음 신호 프레임의 정규화된 편측 자기상관 시퀀스를 계산하는 동작;
    상기 자기상관 시퀀스의 미리 정의된 래그 범위에 대한 특징 파라미터들을 계산하는 동작;
    상기 특징들을 상기 소정 임계치들과 비교하는 동작;
    상기 BSMD 모듈로 송신되는 이진 플래그 0 정보를 생성하는 동작;
    상기 비교를 기반으로 상기 자기상관 시퀀스의 미리 정의된 래그 범위에 대한 특징 파라미터들을 계산하는 동작;
    상기 특징들을 상기 소정 임계치들과 비교하는 동작;
    이진-플래그 1 및 이진-플래그 0 중 적어도 하나를 생성하는 동작; 및
    상기 생성된 이진 플래그 시퀀스 정보를 상기 BSMD 모듈로 송신하는 동작을 포함하여 수행하도록 구성되는 시스템.
  14. 제12항에 있어서,
    상기 파라미터들은 제1영교차점의 래그 지수, 영교차율, 최소점의 래그 지수, 최소점의 진폭, 최대점의 래그 지수, 최대점의 진폭, 및 에너지 감쇠비 중 적어도 하나를 포함하는 시스템.
  15. 제12항에 있어서,
    상기 BSMD는,
    상기 이진 플래그 시퀀스 정보를 수신하는 동작;
    상기 수신된 이진 플래그 시퀀스에서 양 및 음의 전이 위치들을 찾는 단계;
    상기 위치들의 차를 계산하는 동작; 및
    상기 차와 상기 소정 임계치들을 비교하는 동작을 포함하는 시스템.
  16. 제12항에 있어서,
    상기 BSMD는 상기 비교단계 후, 0의 이진 블록을 1의 다른 이진 블록으로 대체하는 단계, 및 1의 이진 블록을 0의 다른 이진 블록으로 대체하는 단계 중 적어도 하나를 수행하는 시스템.
  17. 잡음 환경 조건에서 음성구간검출을 위한 장치에 있어서,
    적어도 하나의 프로세서를 더 포함하는 집적회로;
    상기 회로 내에 컴퓨터 프로그램 코드를 갖는 적어도 하나의 메모리;
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하도록 구성하되, 상기 장치는,
    적어도 하나의 소스로부터 입력 신호를 수신하고, 시간적 특징 정보를 비교하여 상기 입력 신호를 무음 및 비무음 신호 블록 중 적어도 하나로 분류하고, 상기 시간적 특징 정보를 복수의 소정 임계치들과 비교하여 상기 무음 및 비무음 신호 블록 중 적어도 하나를 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나로 송신하고, 상기 VES 모듈 및 총 변동 필터링 모듈 중 적어도 하나가 유성음 신호 및 무성음 신호 중 적어도 하나의 끝점 정보를 결정하고, 비스피치 부분에서 스피치 특징을 향상시키고 잡음 레벨을 억압하는 상기 총 변동 필터링 모듈에 의한 총 변동 필터링을 채용하고, 상기 총 변동 필터링된 신호 영역에서 바닥 잡음을 결정하고, 상기 총 변동 필터링된 신호 시퀀스의 자기상관에서 특징 정보를 결정하고, BSMD 모듈이 상기 결정된 특징 정보에 대한 상기 소정 듀레이션 임계치를 기반으로 BSMD를 판단하고, 상기 결정된 BSDM 후 단기의 상기 시간적인 특징 정보를 기반으로 음성 끝점 정정을 판단하며, 상기 음성 끝점 정보와 함께 상기 입력 신호를 출력하게 하는 것을 특징으로 하는 장치.
  18. 제17항에 있어서,
    상기 장치는 SBD 모듈에 의한 상기 입력 신호로부터 상기 시간적 특징들을 추출하는 장치.
  19. 제17항에 있어서,
    상기 장치는 SNBC 모듈에서 HDT를 사용하여 상기 입력 신호로부터 추출된 특징 정보를 사용하여 무음 신호 또는 비무음 신호를 검출하는 장치.
  20. 제17항에 있어서,
    상기 장치는 상기 시간적 특징을 소정 임계치와 비교하여 무음 및 비무음 신호 중 적어도 하나를 VES 모듈 및 필터링 모듈 중 적어도 하나로 송신하는 장치.
  21. 제17항에 있어서,
    상기 장치는 상기 VEDC 모듈이 상기 끝점 정보를 정정한 후 상기 입력 신호를 상기 음성 끝점 정보와 함께 출력하는 장치.
  22. 제17항에 있어서,
    상기 장치는 데이터 획득 모듈, 오디오 통신, 스토리지 장치 및 압축 감지 장치 중 적어도 하나로부터 오디오 데이터를 수신하는 장치.
  23. 제17항에 있어서,
    상기 장치는 상기 총 변동 필터링을 사용하여 상기 무성음 신호에서 음성 특징을 향상시키고 잡음 레벨을 억압하는 장치.
  24. 제17항에 있어서,
    상기 장치는 피치 배가와 피치 반감 오차를 방지하는 장치.
  25. 제17항에 있어서,
    상기 장치는 사용자에 의해 선택된 수동 및 자동 모드 중 적어도 하나로 상기 VAD를 트리거하는 장치.
KR1020130093165A 2012-09-05 2013-08-06 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치 KR20140031790A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN2761DE2012 2012-09-05
IN2761/DEL/2012 2012-09-05

Publications (1)

Publication Number Publication Date
KR20140031790A true KR20140031790A (ko) 2014-03-13

Family

ID=50188666

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130093165A KR20140031790A (ko) 2012-09-05 2013-08-06 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치

Country Status (2)

Country Link
US (1) US20140067388A1 (ko)
KR (1) KR20140031790A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220246170A1 (en) * 2019-11-13 2022-08-04 Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. Method and apparatus for detecting valid voice signal and non-transitory computer readable storage medium

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
JP6160519B2 (ja) * 2014-03-07 2017-07-12 株式会社Jvcケンウッド 雑音低減装置
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
KR20150123579A (ko) * 2014-04-25 2015-11-04 삼성전자주식회사 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
US10431242B1 (en) * 2017-11-02 2019-10-01 Gopro, Inc. Systems and methods for identifying speech based on spectral features
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109461440A (zh) * 2018-12-27 2019-03-12 广州云趣信息科技有限公司 一种获取多轮语音通话最大可能意图的方法和智能设备
TWI719385B (zh) * 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
CN110931048B (zh) * 2019-12-12 2024-04-02 广州酷狗计算机科技有限公司 语音端点检测方法、装置、计算机设备及存储介质
CN112927680B (zh) * 2021-02-10 2022-06-17 中国工商银行股份有限公司 一种基于电话信道的声纹有效语音的识别方法及装置
CN115346545B (zh) * 2022-08-12 2023-03-21 杭州宇络网络技术有限公司 一种基于测量域噪声相减的压缩感知语音增强方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
ATE388542T1 (de) * 1999-12-13 2008-03-15 Broadcom Corp Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US9820658B2 (en) * 2006-06-30 2017-11-21 Bao Q. Tran Systems and methods for providing interoperability among healthcare devices
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US20100152600A1 (en) * 2008-04-03 2010-06-17 Kai Sensors, Inc. Non-contact physiologic motion sensors and methods for use
FR2937491B1 (fr) * 2008-10-17 2010-11-19 Wavecom Procedes de transmission et de gestion de trames de voix, produit programme d'ordinateur, moyen de stockage et dispositifs correspondants.
JP5910379B2 (ja) * 2012-07-12 2016-04-27 ソニー株式会社 情報処理装置、情報処理方法、表示制御装置および表示制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220246170A1 (en) * 2019-11-13 2022-08-04 Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. Method and apparatus for detecting valid voice signal and non-transitory computer readable storage medium

Also Published As

Publication number Publication date
US20140067388A1 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
KR20140031790A (ko) 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
CN110909613A (zh) 视频人物识别方法、装置、存储介质与电子设备
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
EP3739582B1 (en) Voice detection
KR100713366B1 (ko) 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
US8326610B2 (en) Producing phonitos based on feature vectors
CN108986822A (zh) 语音识别方法、装置、电子设备及非暂态计算机存储介质
CN104216677A (zh) 用于设备唤醒的低功率语音门
JP2007041593A (ja) 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
WO2011015237A1 (en) Method and apparatus for audio signal classification
CN110047470A (zh) 一种语音端点检测方法
CN112331188A (zh) 一种语音数据处理方法、***及终端设备
CN111276124B (zh) 一种关键词识别方法、装置、设备及可读存储介质
JP4201204B2 (ja) オーディオ情報分類装置
WO2023124984A1 (zh) 生成语音增强模型的方法和设备以及语音增强方法和设备
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
JP4392805B2 (ja) オーディオ情報分類装置
WO2009055718A1 (en) Producing phonitos based on feature vectors
US11790931B2 (en) Voice activity detection using zero crossing detection
US20220130405A1 (en) Low Complexity Voice Activity Detection Algorithm
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
CN117727298B (zh) 基于深度学习的手提电脑语音识别方法及***
US11955138B2 (en) Detecting voice regions in a non-stationary noisy environment

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid