KR101575128B1 - 음성 구간 검출 장치, 음성 처리 장치 및 방법 - Google Patents

음성 구간 검출 장치, 음성 처리 장치 및 방법 Download PDF

Info

Publication number
KR101575128B1
KR101575128B1 KR1020140084635A KR20140084635A KR101575128B1 KR 101575128 B1 KR101575128 B1 KR 101575128B1 KR 1020140084635 A KR1020140084635 A KR 1020140084635A KR 20140084635 A KR20140084635 A KR 20140084635A KR 101575128 B1 KR101575128 B1 KR 101575128B1
Authority
KR
South Korea
Prior art keywords
frame
speech
voice
power spectrum
speech signal
Prior art date
Application number
KR1020140084635A
Other languages
English (en)
Inventor
김명남
이윤정
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020140084635A priority Critical patent/KR101575128B1/ko
Application granted granted Critical
Publication of KR101575128B1 publication Critical patent/KR101575128B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 음성 구간 검출 장치, 음성 처리 장치 및 방법에 관한 것이다. 본 발명의 일 실시예에 따른 음성 처리 장치는, 음성 신호를 다수의 프레임으로 분할하는 세그먼테이션부; 각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역(Bark band)에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 특징값 추출부; 및 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 프레임 분류부를 포함할 수 있다.

Description

음성 구간 검출 장치, 음성 처리 장치 및 방법{VOICE ACTIVITY DETECTING DEVICE, APPARATUS AND METHOD FOR PROCESSING VOICE}
본 발명은 음성 구간 검출 장치, 음성 처리 장치 및 방법에 관한 것이다.
무선 통신 시스템이나 디지털 보청기와 같은 음성 처리 시스템을 구현하는데 있어서, 음성 신호 중 음성이 존재하는 음성 구간과 그렇지 않은 비음성 구간을 검출하여 구분하는 기술이 중요하게 사용될 수 있다.
일 예로, 통신 시스템에서 신호 전송 시 음성 구간 검출을 통해 음성 신호가 감지될 때만 음성 신호를 전송하여 대역폭 사용이나 네트워크 트래픽을 감소시킬 수 있다. 다른 예로, 음성 인식, 화자 인식, 음원 인식 등의 분야에서는 음성으로 인식된 신호 구간에서만 알고리즘을 적용하여 알고리즘의 복잡도나 처리속도를 향상시킬 수 있다. 또한, 디지털 보청기의 경우, 음성 구간을 제외한 나머지 부분의 신호를 감쇄시킨 다음, 전체 음성 신호를 증폭함으로써 음성 신호의 질을 향상시킬 수 있다.
이와 같이, 음성 구간의 검출은 다양한 음향 신호 처리 응용분야에서 중요한 역할을 담당하고 있으나, 음성 구간과 비음성 구간의 분류는 간단하지 않으며, 배경 잡음이 증가함에 따라 음성 구간 검출 성능이 저하되는 문제가 있다.
최근에는 음성 구간 검출을 위한 알고리즘으로 기계 학습(machine learning) 알고리즘을 활용하는 기술이 연구되고 있다. 그러나, 기계 학습 알고리즘을 이용하여 음성 구간을 검출하더라도, 배경 잡음에 따라 음성 구간과 비음성 구간의 구별이 모호해 지거나, 일부 음성 구간에서는 비음성 구간과 구별이 잘 이루어지지 못하는 문제점이 발생한다.
본 발명의 실시예는 잡음의 변화에 강인한 음성 구간 검출 장치, 음성 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 실시예는 음성 구간 검출의 정확도를 향상시킬 수 있는 음성 구간 검출 장치, 음성 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 음성 처리 장치는, 음성 신호를 다수의 프레임으로 분할하는 세그먼테이션부; 각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역(Bark band)에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 특징값 추출부; 및 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 프레임 분류부를 포함할 수 있다.
상기 세그먼테이션부는 상기 음성 신호를 기 설정된 시간 간격마다 분할하여 상기 다수의 프레임을 획득할 수 있다.
상기 특징값 추출부는: 시간 영역에서 프레임 내 상기 음성 신호의 최대값과 최소값 간의 차를 계산하여 해당 프레임의 상기 최대 변화량을 추출할 수 있다.
상기 특징값 추출부는: 시간 영역에서 프레임 내 상기 음성 신호의 최대값을 기초로 파워 스펙트럼을 계산하고, 상기 파워 스펙트럼을 기초로 평균 파워 스펙트럼을 계산하여 해당 프레임의 상기 최대값에 대한 평균 파워 스펙트럼을 추출할 수 있다.
상기 특징값 추출부는: 프레임을 시간 영역에서 주파수 영역으로 변환하고, 상기 주파수 영역을 바크 스케일에 따라 스케일링하여 다수의 바크 대역에 대한 에너지를 획득하고, 각각의 바크 대역에 대하여 에너지의 평균을 계산하고, 상기 각각의 바크 대역에 대한 에너지의 평균을 기초로 전체 바크 대역에 대한 에너지의 평균을 계산하고, 상기 각각의 바크 대역에 대한 에너지의 평균 및 상기 전체 바크 대역에 대한 에너지의 평균을 기초로 표준편차를 계산하여 해당 프레임의 상기 에너지에 대한 표준편차를 추출할 수 있다.
상기 특징값 추출부는: 해당 프레임을 포함하는 상기 프레임 그룹에 대한 파워 스펙트럼 포락선을 산출하고, 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼을 계산하고, 상기 프레임 그룹에 대한 파워 스펙트럼 포락선과 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 편차를 계산하여 해당 프레임의 상기 거리를 추출할 수 있다.
상기 프레임 분류부는 상기 특징값을 기초로 생성된 특징 벡터를 이용하여 SVM(Support Vector Machine) 알고리즘을 통해 상기 프레임을 분류할 수 있다.
상기 음성 처리 장치는 상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하는 구간 결정부를 더 포함하며, 상기 구간 결정부는: 상기 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정하고, 상기 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정할 수 있다.
상기 제 2 임계 시간은 상기 제 1 임계 시간보다 길 수 있다.
상기 구간 결정부는: 상기 음성 신호를 상기 제 1 임계 시간만큼 지연시켜 상기 음성 구간 또는 상기 비음성 구간에 해당하는 플래그(flag)와 함께 출력할 수 있다.
본 발명의 일 실시예에 따른 음성 처리 방법은 음성 처리 장치가 음성 신호를 처리하는 방법으로서, 상기 음성 신호를 다수의 프레임으로 분할하는 단계; 각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 단계; 및 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 단계;를 포함할 수 있다.
상기 분할하는 단계는: 상기 음성 신호를 기 설정된 시간 간격마다 분할하여 상기 다수의 프레임을 획득하는 단계를 포함할 수 있다.
상기 추출하는 단계는: 시간 영역에서 프레임 내 상기 음성 신호의 최대값과 최소값 간의 차를 계산하여 해당 프레임의 상기 최대 변화량을 추출하는 단계를 포함할 수 있다.
상기 추출하는 단계는: 시간 영역에서 프레임 내 상기 음성 신호의 최대값을 기초로 파워 스펙트럼을 계산하는 단계; 및 상기 파워 스펙트럼을 기초로 평균 파워 스펙트럼을 계산하여 해당 프레임의 상기 최대값에 대한 평균 파워 스펙트럼을 추출하는 단계;를 포함할 수 있다.
상기 추출하는 단계는: 프레임을 시간 영역에서 주파수 영역으로 변환하는 단계; 상기 주파수 영역을 바크 스케일에 따라 스케일링하여 다수의 바크 대역에 대한 에너지를 획득하는 단계; 각각의 바크 대역에 대하여 에너지의 평균을 계산하는 단계; 상기 각각의 바크 대역에 대한 에너지의 평균을 기초로 전체 바크 대역에 대한 에너지의 평균을 계산하는 단계; 및 상기 각각의 바크 대역에 대한 에너지의 평균 및 상기 전체 바크 대역에 대한 에너지의 평균을 기초로 표준편차를 계산하여 해당 프레임의 상기 에너지에 대한 표준편차를 추출하는 단계;를 포함할 수 있다.
상기 추출하는 단계는: 해당 프레임을 포함하는 상기 프레임 그룹에 대한 파워 스펙트럼 포락선을 산출하는 단계; 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼을 계산하는 단계; 및 상기 프레임 그룹에 대한 파워 스펙트럼 포락선과 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 편차를 계산하여 해당 프레임의 상기 거리를 추출하는 단계;를 포함할 수 있다.
상기 분류하는 단계는: 상기 특징값을 기초로 생성된 특징 벡터를 이용하여 SVM 알고리즘을 통해 상기 프레임을 분류하는 단계를 포함할 수 있다.
상기 음성 처리 방법은 상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하는 단계를 더 포함하며, 상기 결정하는 단계는: 상기 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정하는 단계; 및 상기 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정하는 단계;를 포함할 수 있다.
상기 제 2 임계 시간은 상기 제 1 임계 시간보다 길 수 있다.
상기 결정하는 단계는: 상기 음성 신호를 상기 제 1 임계 시간만큼 지연시켜 상기 음성 구간 또는 상기 비음성 구간에 해당하는 플래그와 함께 출력하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 음성 구간 검출 장치는, 음성 신호를 다수의 프레임으로 분할하는 세그먼테이션부; 각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리;를 상기 특징값으로 추출하는 특징값 추출부; 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 프레임 분류부; 및 상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하되, 상기 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정하고, 상기 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정하는 구간 결정부를 포함할 수 있다.
본 발명의 실시예에 따른 음성 처리 방법은 컴퓨터로 실행될 수 있는 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
본 발명의 실시예에 따르면, 잡음의 종류에 관계없이 정확하게 음성 구간을 검출할 수 있다.
본 발명의 실시예에 따르면, 음성 구간과 비음성 구간을 정확하게 구별하여 음성 구간 검출의 정확도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 처리 장치의 예시적인 블록도이다.
도 2는 본 발명의 일 실시예에 따라 음성 신호를 분할하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따라 음성 신호의 최대 변화량을 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따라 바크 대역에서 음성 신호의 에너지에 대한 표준편차를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따라 프레임 그룹에 대한 파워 스펙트럼 포락선과 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 6은 본 발명의 일 실시예에 따라 음성 신호의 음성 구간 및 비음성 구간을 결정하는 과정을 설명하기 위한 예시적인 도면이다.
도 7은 본 발명의 일 실시예에 따른 음성 처리 방법의 예시적인 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 구간 결정 과정을 설명하기 위한 예시적인 흐름도이다.
본 발명은 음성 신호로부터 음성 구간과 비음성 구간을 검출하여 구분하기 위해 기계 학습 알고리즘, 예컨대 SVM 알고리즘을 사용한다. 특히, 본 발명의 실시예는 SVM 알고리즘을 통해 음성과 비음성을 분류하기 위해 사용되는 특징값으로 시간 영역에서 음성 신호의 최대 변화량, 음성 신호의 최대값에 대한 평균 파워 스펙트럼, 바크 대역에서 음성 신호의 에너지에 대한 표준편차, 및 해당 프레임을 포함하는 프레임 그룹에 대한 파워 스펙트럼 포락선과 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리를 제시한다.
본 발명의 실시예는 상기 신규한 특징값들 중 하나 또는 그 이상을 사용하여 기계 학습 알고리즘을 통해 음성과 비음성을 분류할 수 있다. 나아가, 본 발명의 실시예는 음성과 비음성의 분류 정확도를 높이고 출력되는 음성 신호를 보다 자연스럽게 들릴 수 있도록 하기 위해 임계 시간을 이용한 구간 결정 과정을 제안한다.
이와 같은 본 발명의 실시예에 따르면, 잡음의 종류에 관계없이 정확하게 음성 구간을 검출하고, 음성 구간과 비음성 구간을 정확하게 구별하여 검출의 정확도를 향상시킬 수 있다.
이하, 본 명세서에 첨부된 도면을 참조하여 본 발명의 실시예들을 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 처리 장치(10)의 예시적인 블록도이다.
도 1에 도시된 바와 같이, 상기 음성 처리 장치(10)는 세그먼테이션부(110), 특징값 추출부(120) 및 프레임 분류부(130)를 포함할 수 있다.
상기 세그먼테이션부(110)는 음성 신호를 다수의 프레임으로 분할할 수 있다. 상기 특징값 추출부(120)는 각각의 프레임에 대하여 특징값을 추출할 수 있다. 상기 프레임 분류부(130)는 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류할 수 있다.
도 2는 본 발명의 일 실시예에 따라 음성 신호를 분할하는 과정을 설명하기 위한 예시적인 도면이다.
도 2를 참조하면, 상기 세그먼테이션부(110)는 음성 신호를 기 설정된 시간 간격 L마다 분할하여 다수의 프레임을 획득할 수 있다. 예를 들어, 상기 세그먼테이션부(110)는 상기 음성 신호를 10 ms 단위로 분할할 수 있으나, 프레임 길이는 이에 제한되지 않는다.
그 뒤, 상기 특징값 추출부(120)는 각각의 프레임에 대하여 특징값을 추출할 수 있다.
본 발명의 일 실시예에 따르면, 상기 특징값 추출부(120)는 상기 특징값으로 음성 신호의 최대 변화량, 음성 신호의 최대값에 대한 평균 파워 스펙트럼, 바크 대역에서 음성 신호의 에너지에 대한 표준편차, 그리고 해당 프레임을 포함한 프레임 그룹에 대한 파워 스펙트럼 포락선과 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리 중 적어도 하나를 추출할 수 있다.
이하에서는 전술한 특징값들 각각에 대하여 설명하고, 상기 특징값을 추출하는 과정을 상세하게 설명하기로 한다.
도 3은 본 발명의 일 실시예에 따라 음성 신호의 최대 변화량을 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 도 2에 도시된 음성 신호의 프레임들 중 10 번째 프레임을 도시한 것으로, 시간 영역에서 Amax의 최대값과 Amin의 최소값을 갖는다. 상기 특징값 추출부(120)는 시간 영역에서 프레임 내 상기 음성 신호의 최대값 Amax과 최소값 Amin 간의 차(즉, Amax - Amin)를 계산함으로써, 해당 프레임의 음성 신호 최대 변화량을 추출할 수 있다.
구체적으로, 입력 신호가 x(i)일 때, l 번째 프레임에서 음성 신호의 최대 변화량 MSV(l)은 아래의 수학식 1을 통해 계산할 수 있다.
Figure 112014063773241-pat00001
여기서, G(i)는 입력 신호의 변화량으로서 다음의 수학식 2와 같다.
Figure 112014063773241-pat00002
단, (l - 1)L ≤ i ≤ lL이며, L은 프레임의 길이이다.
이러한 과정을 통해 얻어진 각 프레임에서의 최대 변화량은 입력 신호의 크기 변화에 민감하게 반응하므로, 신호 변화가 작은 음성 구간과 신호 변화가 큰 음성 구간을 잘 구분하여 표현할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 상기 특징값 추출부(120)는 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼을 추출값으로 추출할 수 있다.
이 실시예에 따르면, 상기 특징값 추출부(120)는 시간 영역에서 프레임 내 상기 음성 신호의 최대값을 기초로 파워 스펙트럼을 계산할 수 있다. 그러고 나서, 상기 특징값 추출부(120)는 상기 파워 스펙트럼을 기초로 평균 파워 스펙트럼을 계산하여 해당 프레임의 상기 최대값에 대한 평균 파워 스펙트럼을 추출할 수 있다.
구체적으로, 상기 특징값 추출부(120)는 아래의 수학식 3을 통해 l 번째 프레임 내 음성 신호의 최대값을 구할 수 있다.
Figure 112014063773241-pat00003
단, (l - 1)L ≤ n ≤ lL이며, L은 프레임의 길이이다.
그러고 나서, 상기 특징값 추출부(120)는 상기 음성 신호의 최대값을 기초로 아래의 수학식 4와 같이 l 번째 프레임의 k 번째 주파수 빈에 대한 파워 스펙트럼 MK(k, l)을 계산할 수 있다.
Figure 112014063773241-pat00004
그 뒤, 상기 특징값 추출부(120)는 상기 파워 스펙트럼을 기초로 아래의 수학식 5와 같이 l 번째 프레임의 평균 파워 스펙트럼 APSM(l)을 계산할 수 있다.
Figure 112014063773241-pat00005
여기서, N은 FFT 개수이고,
Figure 112014063773241-pat00006
는 프레임 내 최대값을 이용한 주기도(periodogram)로서, 아래의 수학식 6과 같이 구할 수 있다.
Figure 112014063773241-pat00007
이와 같이 추출한 음성 신호의 최대값에 대한 평균 파워 스펙트럼은 음성 구간과 비음성 구간을 명확하게 구별하여 표현할 수 있다.
또한, 본 발명의 또 다른 실시예에 따르면, 상기 특징값 추출부(120)는 바크 대역(Bark band)에서 음성 신호의 에너지에 대한 표준편차를 특징값으로 추출할 수 있다.
도 4는 본 발명의 일 실시예에 따라 바크 대역에서 음성 신호의 에너지에 대한 표준편차를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 4를 참조하면, 상기 특징값 추출부(120)는 프레임을 시간 영역에서 주파수 영역으로 변환하고, 상기 주파수 영역을 바크 스케일(Bark scale)에 따라 스케일링하여 다수의 바크 대역에 대한 에너지를 획득할 수 있다.
그러고 나서, 상기 특징값 추출부(120)는 각각의 바크 대역에 대하여 에너지의 평균을 계산하고, 상기 각각의 바크 대역에 대한 에너지의 평균을 기초로 전체 바크 대역에 대한 에너지의 평균을 계산할 수 있다.
그러고 나서, 상기 특징값 추출부(120)는 상기 각각의 바크 대역에 대한 에너지의 평균 및 상기 전체 바크 대역에 대한 에너지의 평균을 기초로 표준편차를 계산하여 해당 프레임의 상기 에너지에 대한 표준편차를 추출할 수 있다.
바크 대역은 선형적인 스케일을 갖는 주파수 영역과 달리, 저주파수 영역에서 고주파수 영역으로 갈수록 대역의 폭이 넓어지는 비선형적인 특성을 갖는다. 상기 특징값 추출부(120)는 아래의 수학식 7을 통해 주파수 대역을 바크 대역으로 변환할 수 있다.
Figure 112014063773241-pat00008
또한, 각 바크 대역의 대역폭은 아래의 수학식 8을 통해 계산될 수 있다.
Figure 112014063773241-pat00009
위 수학식 7 및 8을 통해 얻어지는 각각의 바크 대역 z, 해당 대역의 차단 주파수 fl 및 fu, 중심 주파수 fc 및 대역폭 △fG은 아래의 표와 같다.
Figure 112014063773241-pat00010
그러고 나서, 상기 특징값 추출부(120)는 각 바크 대역 z에 대하여 아래의 수학식 9를 통해 에너지 평균 EM(k, l)을 구할 수 있다.
Figure 112014063773241-pat00011
여기서, bi k는 k 번째 바크 대역의 스케일 인덱스이다.
그리고, 상기 특징값 추출부(120)는 각 바크 대역 z에 대한 에너지 평균 EM(k, l)을 기초로 아래의 수학식 10을 통해 l 번째 프레임의 전체 바크 대역에 대한 에너지 평균 μ(l)을 구할 수 있다.
Figure 112014063773241-pat00012
그러고 나서, 상기 특징값 추출부(120)는 각 바크 대역 z에 대한 에너지 평균 EM(k, l)과 전체 바크 대역에 대한 에너지 평균 μ(l)을 기초로 아래의 수학식 11을 통해 에너지에 대한 표준편차 ESDB(l)를 계산할 수 있다.
Figure 112014063773241-pat00013
이와 같이 추출한 음성 신호의 바크 대역에서의 에너지에 대한 표준편차는 음성 구간과 비음성 구간을 명확하게 구별하여 표현할 수 있다.
또한, 본 발명의 또 다른 실시예에 따르면, 상기 특징값 추출부(120)는 해당 프레임을 포함한 프레임 그룹에 대한 파워 스펙트럼 포락선과, 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리를 특징값으로 추출할 수 있다.
도 5는 본 발명의 일 실시예에 따라 프레임 그룹에 대한 파워 스펙트럼 포락선과 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 5를 참조하면, 상기 특징값 추출부(120)는 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대하여 파워 스펙트럼 포락선 MFSE(k, l)을 산출할 수 있다. 상기 파워 스펙트럼 포락선 MFSE(k, l)은 해당 프레임을 포함하여 기 설정된 N 개의 프레임들에 대하여 아래와 같은 수학식 12를 통해 산출될 수 있다.
Figure 112014063773241-pat00014
여기서, X(k, l)은 l 번째 프레임의 k 번째 주파수 대역의 스펙트럼이다.
그러고 나서, 상기 특징값 추출부(120)는 상기 프레임 그룹 이전에 위치한 N 개의 프레임들로 구성된 이전 프레임 그룹에 대하여 아래와 같은 수학식 12을 통해 평균 파워 스펙트럼 MSpre(k, l)을 산출할 수 있다.
Figure 112014063773241-pat00015
여기서, k = 0, 1, ..., NFFT/2 - 1이며, NFFT는 FFT의 개수이다.
그러고 나서, 상기 특징값 추출부(120)는 상기 프레임 그룹에 대한 파워 스펙트럼 포락선 MFSE(k, l)과 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼 MSpre(k, l) 간의 편차를 아래의 수학식 14와 같이 계산하여 해당 프레임의 상기 거리 MFSD(l)를 추출할 수 있다.
Figure 112014063773241-pat00016
이 실시예에서, 상기 프레임 그룹 및 상기 이전 프레임 그룹을 구성하는 프레임의 개수 N는 2 또는 그 이상이며, 실험적으로 N은 5로 설정될 수 있다.
이 경우, 도 2에 도시된 음성 신호의 프레임들 중 10 번째 프레임에 대하여 상기 거리 MFSD(l)를 추출하는 경우, 상기 프레임 그룹은 6 내지 10 번째 프레임들로 구성되고, 상기 이전 프레임 그룹은 1 내지 5 번째 프레임들로 구성된다.
다시 말해, l 번째 프레임에 대한 프레임 그룹은 l - (N - 1), ..., l 번째 프레임들로 구성되고, 이전 프레임 그룹은 l - (2N - 1), ..., l - N 번째 프레임들로 구성된다.
이와 같이 추출되는 상기 거리 MFSD(l)는 이미 지나간 프레임의 신호만을 이용하므로 신호 처리 시 지연이 발생하지 않아 실시간 처리가 가능하게 되며, 거리 계산 시 배경 잡음을 이용하지 않으므로 잡음 신호의 초기화 및 업데이트가 요구되지 않는 장점이 있다.
전술한 바와 같이, 상기 특징값 추출부(120)는 음성 신호의 l 번째 프레임에 대하여 음성 신호의 최대 변화량 MSV(l), 음성 신호의 최대값에 대한 평균 파워 스펙트럼 APSM(l), 바크 대역에서 음성 신호의 에너지에 대한 표준편차 ESDB(l), 및 해당 프레임을 포함한 프레임 그룹의 파워 스펙트럼 포락선과 이전 프레임 그룹의 평균 파워 스펙트럼 간의 거리 MFSD(l) 중 하나 또는 그 이상을 특징값으로 추출할 수 있다.
상기 프레임 분류부(130)는 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류할 수 있다.
본 발명의 일 실시예에 따르면, 상기 프레임 분류부(130)는 상기 특징값을 기초로 생성된 특징 벡터를 이용하여 SVM 알고리즘을 통해 프레임을 분류할 수 있으나, 프레임 분류를 위해 사용되는 알고리즘은 이에 제한되지 않는다.
다시 도 1을 참조하면, 상기 음성 처리 장치(10)는 구간 결정부(140)를 더 포함할 수 있다.
상기 구간 결정부(140)는 분류된 프레임을 기초로 음성 신호의 음성 구간 및 비음성 구간을 결정할 수 있다.
나아가, 본 발명의 실시예에 따르면, 상기 구간 결정부(140)는 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정할 수 있다. 그리고, 상기 구간 결정부(140)는 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정할 수 있다.
도 6은 본 발명의 일 실시예에 따라 음성 신호의 음성 구간 및 비음성 구간을 결정하는 과정을 설명하기 위한 예시적인 도면이다.
도 6을 참조하면, 상기 구간 결정부(140)는 종류에 따라 프레임에 부여된 레이블(label)을 기초로 음성 구간 및 비음성 구간을 결정하여 해당 프레임에 플래그(flag)를 부여할 수 있다. 여기서, 0에 해당하는 레이블 및 플래그는 비음성을 나타내며, 1에 해당하는 레이블 및 플래그는 음성을 나타낸다.
본 발명의 일 실시예에 따르면, 상기 구간 결정부(140)는 입력된 음성 신호를 상기 제 1 임계 시간 τ1만큼 지연시켜 음성 구간 또는 비음성 구간에 해당하는 플래그(즉, 1 또는 0)와 함께 출력할 수 있다.
도 6에 도시된 바와 같이, 비음성 구간 내에 음성 프레임이 포함되어 있지만, 그 프레임의 길이 T1가 제 1 임계 시간 τ1보다 짧은 경우, 상기 구간 결정부(140)는 비록 해당 프레임이 레이블 1(즉, 음성)로 레이블링되어 있으나, 비음성 구간으로 결정함으로써 해당 프레임에 플래그 0(즉, 비음성)을 부여한다.
만약, 입력된 음성 프레임의 길이 T2가 상기 제 1 임계 시간 τ1보다 길거나 같은 경우, 상기 구간 결정부(140)는 해당 프레임을 음성 구간으로 결정하여 플래그 1(즉, 음성)을 부여한다.
이를 위해, 상기 구간 결정부(140)는 입력되는 음성 신호를 제 1 임계 시간 τ1만큼 저장하여 음성 프레임이 상기 제 1 임계 시간 τ1만큼 지속되는지 판별한 뒤, 그에 따라 플래그를 부여하여 음성 신호를 출력한다. 그 결과, 상기 입력된 음성 신호는 상기 제 1 임계 시간 τ1만큼 지연되어 플래그와 함께 출력된다.
반면, 도 6에 도시된 바와 같이, 음성 구간 내에 비음성 프레임이 포함되어 있지만, 그 프레임의 길이 T3가 제 2 임계 시간 τ2보다 짧은 경우, 상기 구간 결정부(140)는 비록 해당 프레임이 레이블 0(즉, 비음성)으로 레이블링되어 있으나, 음성 구간으로 결정함으로써 해당 프레임에 플래그 1(즉, 음성)을 부여한다.
만약, 입력된 비음성 프레임의 길이 T4가 상기 제 2 임계 시간 τ2보다 길거나 같은 경우, 상기 구간 결정부(140)는 해당 프레임을 비음성 구간으로 결정하여 플래그 0(즉, 비음성)을 부여한다.
일 실시예에 따르면, 상기 제 2 임계 시간은 상기 제 1 임계 시간보다 길게 설정될 수 있다(즉, τ1 < τ2).
이와 같은 구간 결정 과정에 따르면, 프레임 분류 시 발생하는 분류 오류를 보완하여 음성 구간 검출의 정확도를 높이고, 출력되는 음성 신호를 보다 자연스럽게 구현할 수 있다.
도 7은 본 발명의 일 실시예에 따른 음성 처리 방법(20)의 예시적인 흐름도이다.
상기 음성 처리 방법(20)은 전술한 본 발명의 실시예에 따른 음성 처리 장치(10)에 의해 수행될 수 있다.
도 7에 도시된 바와 같이, 상기 음성 처리 방법(20)은, 음성 신호를 다수의 프레임으로 분할하는 단계(S210), 각각의 프레임에 대하여 특징값을 추출하는 단계(S220), 및 상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 단계(S230)를 포함할 수 있다.
상기 각각의 프레임에 대하여 특징값을 추출하는 단계(S220)는, 시간 영역에서 음성 신호의 최대 변화량 MSV(l), 음성 신호의 최대값에 대한 평균 파워 스펙트럼 APSM(l), 바크 대역에서 음성 신호의 에너지에 대한 표준편차 ESDB(l), 및 해당 프레임을 포함한 프레임 그룹의 파워 스펙트럼 포락선과 이전 프레임 그룹의 평균 파워 스펙트럼 간의 거리 MFSD(l) 중 적어도 하나를 상기 특징값으로 추출하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 분할하는 단계(S210)는, 음성 신호를 기 설정된 시간 간격마다 분할하여 다수의 프레임을 획득하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 추출하는 단계(S220)는, 시간 영역에서 프레임 내 음성 신호의 최대값과 최소값 간의 차를 계산하여 해당 프레임의 상기 최대 변화량 MSV(l)을 추출하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 상기 추출하는 단계(S220)는, 시간 영역에서 프레임 내 음성 신호의 최대값을 기초로 파워 스펙트럼 MK(k, l)을 계산하는 단계, 및 상기 파워 스펙트럼 MK(k, l)을 기초로 평균 파워 스펙트럼 APSM(l)을 계산하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 상기 추출하는 단계(S220)는, 프레임을 시간 영역에서 주파수 영역으로 변환하는 단계, 상기 주파수 영역을 바크 스케일에 따라 스케일링하여 다수의 바크 대역에 대한 에너지를 획득하는 단계, 각각의 바크 대역에 대하여 에너지의 평균 EM(k, l)을 계산하는 단계, 상기 각각의 바크 대역에 대한 에너지의 평균 EM(k, l)을 기초로 전체 바크 대역에 대한 에너지의 평균 μ(l)을 계산하는 단계, 및 상기 각각의 바크 대역에 대한 에너지의 평균 EM(k, l) 및 상기 전체 바크 대역에 대한 에너지의 평균 μ(l)을 기초로 표준편차 ESDB(l)를 계산하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 상기 추출하는 단계(S220)는, 해당 프레임을 포함하는 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선 MFSE(k, l)을 산출하는 단계, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 MSpre(k, l)을 계산하는 단계, 및 상기 프레임 그룹에 대한 파워 스펙트럼 포락선 MFSE(k, l)과 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼 MSpre(k, l) 간의 편차 MFSD(l)를 계산하여 해당 프레임의 상기 거리를 추출하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 분류하는 단계(S230)는, 상기 특징값을 기초로 생성된 특징 벡터를 이용하여 SVM 알고리즘을 통해 상기 프레임을 분류하는 단계를 포함할 수 있다.
나아가, 본 발명의 실시예에 따르면, 상기 음성 처리 방법(20)은 상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하는 단계(S240)를 더 포함할 수 있다.
도 8은 본 발명의 일 실시예에 따른 구간 결정 과정(S240)을 설명하기 위한 예시적인 흐름도이다.
상기 결정하는 단계(S240)는, 비음성 구간 내에 기 설정된 제 1 임계 시간 τ1보다 짧은 음성 프레임이 포함된 경우(S243에서 예), 해당 음성 프레임을 비음성 구간으로 결정하는 단계(S244), 및 상기 음성 구간 내에 기 설정된 제 2 임계 시간 τ2보다 짧은 비음성 프레임이 포함된 경우(S247에서 예), 해당 비음성 프레임을 음성 구간으로 결정하는 단계(S249)를 포함할 수 있다.
여기서, 상기 제 2 임계 시간 τ2은 상기 제 1 임계 시간 τ1보다 길게 설정될 수 있다.
또한, 상기 결정하는 단계(S240)는 상기 음성 신호를 상기 제 1 임계 시간 τ1만큼 지연시켜 상기 음성 구간 또는 상기 비음성 구간에 해당하는 플래그(1 또는 0)와 함께 출력하는 단계를 포함할 수 있다.
전술한 본 발명의 실시예에 따른 음성 처리 장치(10) 및 방법(20)은 음성 신호로부터 음성 구간 및 비음성 구간을 검출하기 위한 음성 구간 검출 장치 및 방법에 사용될 수 있다.
또한, 전술한 본 발명의 실시예에 따른 음성 처리 방법(20)은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.
이상에서 실시예를 통해 본 발명을 설명하였으나, 위 실시예는 단지 본 발명의 사상을 설명하기 위한 것으로 이에 한정되지 않는다. 통상의 기술자는 전술한 실시예에 다양한 변형이 가해질 수 있음을 이해할 것이다. 본 발명의 범위는 첨부된 특허청구범위의 해석을 통해서만 정해진다.
10: 음성 처리 장치
20: 음성 처리 방법
110: 세그먼테이션부
120: 특징값 추출부
130: 프레임 분류부
140: 구간 결정부
τ1: 제 1 임계 시간
τ2: 제 2 임계 시간

Claims (22)

  1. 음성 신호를 다수의 프레임으로 분할하는 세그먼테이션부;
    각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대값과 최소값을 기초로 계산된 최대 변화량; 상기 음성 신호의 최대값을 기초로 계산된 파워 스펙트럼에 대한 평균 파워 스펙트럼; 프레임을 시간 영역에서 주파수 영역으로 변환하고 상기 주파수 영역을 바크 스케일(Bark Scale)에 따라 스케일링하여 획득된 다수의 바크 대역(Bark band)에 대한 에너지를 기초로 계산된, 해당 프레임의 바크 대역에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 특징값 추출부; 및
    상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 프레임 분류부를 포함하는 음성 처리 장치.
  2. 제 1 항에 있어서,
    상기 세그먼테이션부는 상기 음성 신호를 기 설정된 시간 간격마다 분할하여 상기 다수의 프레임을 획득하는 음성 처리 장치.
  3. 제 1 항에 있어서,
    상기 특징값 추출부는:
    시간 영역에서 프레임 내 상기 음성 신호의 최대값과 최소값 간의 차를 계산하여 해당 프레임의 상기 최대 변화량을 추출하는 음성 처리 장치.
  4. 제 1 항에 있어서,
    상기 특징값 추출부는:
    시간 영역에서 프레임 내 상기 음성 신호의 최대값을 기초로 파워 스펙트럼을 계산하고,
    상기 파워 스펙트럼을 기초로 평균 파워 스펙트럼을 계산하여 해당 프레임의 상기 최대값에 대한 평균 파워 스펙트럼을 추출하는 음성 처리 장치.
  5. 제 1 항에 있어서,
    상기 특징값 추출부는:
    프레임을 시간 영역에서 주파수 영역으로 변환하고,
    상기 주파수 영역을 바크 스케일에 따라 스케일링하여 다수의 바크 대역에 대한 에너지를 획득하고,
    각각의 바크 대역에 대하여 에너지의 평균을 계산하고,
    상기 각각의 바크 대역에 대한 에너지의 평균을 기초로 전체 바크 대역에 대한 에너지의 평균을 계산하고,
    상기 각각의 바크 대역에 대한 에너지의 평균 및 상기 전체 바크 대역에 대한 에너지의 평균을 기초로 표준편차를 계산하여 해당 프레임의 상기 에너지에 대한 표준편차를 추출하는 음성 처리 장치.
  6. 제 1 항에 있어서,
    상기 특징값 추출부는:
    해당 프레임을 포함하는 상기 프레임 그룹에 대한 파워 스펙트럼 포락선을 산출하고,
    상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼을 계산하고,
    상기 프레임 그룹에 대한 파워 스펙트럼 포락선과 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 편차를 계산하여 해당 프레임의 상기 거리를 추출하는 음성 처리 장치.
  7. 제 1 항에 있어서,
    상기 프레임 분류부는 상기 특징값을 기초로 생성된 특징 벡터를 이용하여 SVM(Support Vector Machine) 알고리즘을 통해 상기 프레임을 분류하는 음성 처리 장치.
  8. 음성 신호를 다수의 프레임으로 분할하는 세그먼테이션부;
    각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역에서 상기 음성 신호의 에너지에 대한 표준 편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 특징값 추출부;
    상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 프레임 분류부; 및
    상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하는 구간 결정부를 포함하며,
    상기 구간 결정부는:
    상기 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정하고,
    상기 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정하는 음성 처리 장치.
  9. 제 8 항에 있어서,
    상기 제 2 임계 시간은 상기 제 1 임계 시간보다 긴 음성 처리 장치.
  10. 제 8 항에 있어서,
    상기 구간 결정부는:
    상기 음성 신호를 상기 제 1 임계 시간만큼 지연시켜 상기 음성 구간 또는 상기 비음성 구간에 해당하는 플래그(flag)와 함께 출력하는 음성 처리 장치.
  11. 음성 처리 장치가 음성 신호를 처리하는 방법에 있어서,
    상기 음성 신호를 다수의 프레임으로 분할하는 단계;
    각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대값과 최소값을 기초로 계산된 최대 변화량; 상기 음성 신호의 최대값을 기초로 계산된 파워 스펙트럼에 대한 평균 파워 스펙트럼; 프레임을 시간 영역에서 주파수 영역으로 변환하고 상기 주파수 영역을 바크 스케일에 따라 스케일링하여 획득된 다수의 바크 대역에 대한 에너지를 기초로 계산된, 해당 프레임의 바크 대역에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 단계; 및
    상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 단계;
    를 포함하는 음성 처리 방법.
  12. 제 11 항에 있어서,
    상기 분할하는 단계는:
    상기 음성 신호를 기 설정된 시간 간격마다 분할하여 상기 다수의 프레임을 획득하는 단계를 포함하는 음성 처리 방법.
  13. 제 11 항에 있어서,
    상기 추출하는 단계는:
    시간 영역에서 프레임 내 상기 음성 신호의 최대값과 최소값 간의 차를 계산하여 해당 프레임의 상기 최대 변화량을 추출하는 단계를 포함하는 음성 처리 방법.
  14. 제 11 항에 있어서,
    상기 추출하는 단계는:
    시간 영역에서 프레임 내 상기 음성 신호의 최대값을 기초로 파워 스펙트럼을 계산하는 단계; 및
    상기 파워 스펙트럼을 기초로 평균 파워 스펙트럼을 계산하여 해당 프레임의 상기 최대값에 대한 평균 파워 스펙트럼을 추출하는 단계;
    를 포함하는 음성 처리 방법.
  15. 제 11 항에 있어서,
    상기 추출하는 단계는:
    프레임을 시간 영역에서 주파수 영역으로 변환하는 단계;
    상기 주파수 영역을 바크 스케일에 따라 스케일링하여 다수의 바크 대역에 대한 에너지를 획득하는 단계;
    각각의 바크 대역에 대하여 에너지의 평균을 계산하는 단계;
    상기 각각의 바크 대역에 대한 에너지의 평균을 기초로 전체 바크 대역에 대한 에너지의 평균을 계산하는 단계; 및
    상기 각각의 바크 대역에 대한 에너지의 평균 및 상기 전체 바크 대역에 대한 에너지의 평균을 기초로 표준편차를 계산하여 해당 프레임의 상기 에너지에 대한 표준편차를 추출하는 단계;
    를 포함하는 음성 처리 방법.
  16. 제 11 항에 있어서,
    상기 추출하는 단계는:
    해당 프레임을 포함하는 상기 프레임 그룹에 대한 파워 스펙트럼 포락선을 산출하는 단계;
    상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼을 계산하는 단계; 및
    상기 프레임 그룹에 대한 파워 스펙트럼 포락선과 상기 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 편차를 계산하여 해당 프레임의 상기 거리를 추출하는 단계;
    를 포함하는 음성 처리 방법.
  17. 제 11 항에 있어서,
    상기 분류하는 단계는:
    상기 특징값을 기초로 생성된 특징 벡터를 이용하여 SVM 알고리즘을 통해 상기 프레임을 분류하는 단계를 포함하는 음성 처리 방법.
  18. 음성 처리 장치가 음성 신호를 처리하는 방법에 있어서,
    상기 음성 신호를 다수의 프레임으로 분할하는 단계;
    각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리; 중 적어도 하나를 상기 특징값으로 추출하는 단계;
    상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 단계; 및
    상기 음성 처리 방법은 상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하는 단계를 포함하며, 상기 결정하는 단계는:
    상기 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정하는 단계; 및
    상기 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정하는 단계;
    를 포함하는 음성 처리 방법.
  19. 제 18 항에 있어서,
    상기 제 2 임계 시간은 상기 제 1 임계 시간보다 긴 음성 처리 방법.
  20. 제 18 항에 있어서,
    상기 결정하는 단계는:
    상기 음성 신호를 상기 제 1 임계 시간만큼 지연시켜 상기 음성 구간 또는 상기 비음성 구간에 해당하는 플래그와 함께 출력하는 단계를 포함하는 음성 처리 방법.
  21. 음성 신호를 다수의 프레임으로 분할하는 세그먼테이션부;
    각각의 프레임에 대하여 특징값을 추출하되, 시간 영역에서 상기 음성 신호의 최대 변화량; 상기 음성 신호의 최대값에 대한 평균 파워 스펙트럼; 바크 대역에서 상기 음성 신호의 에너지에 대한 표준편차; 및 해당 프레임을 포함하여 기 설정된 개수의 프레임들로 구성된 프레임 그룹에 대한 파워 스펙트럼 포락선과, 상기 프레임 그룹 이전의 기 설정된 개수의 프레임들로 구성된 이전 프레임 그룹에 대한 평균 파워 스펙트럼 간의 거리;를 상기 특징값으로 추출하는 특징값 추출부;
    상기 특징값을 기초로 기계 학습 알고리즘을 통해 상기 프레임을 음성 또는 비음성 프레임으로 분류하는 프레임 분류부; 및
    상기 분류된 프레임을 기초로 상기 음성 신호의 음성 구간 및 비음성 구간을 결정하되, 상기 비음성 구간 내에 기 설정된 제 1 임계 시간보다 짧은 음성 프레임이 포함된 경우, 해당 음성 프레임을 비음성 구간으로 결정하고, 상기 음성 구간 내에 기 설정된 제 2 임계 시간보다 짧은 비음성 프레임이 포함된 경우, 해당 비음성 프레임을 음성 구간으로 결정하는 구간 결정부를 포함하는 음성 구간 검출 장치.
  22. 컴퓨터로 읽을 수 있는 기록매체에 있어서,
    제 11 항 내지 제 20 항 중 어느 한 항에 따른 음성 처리 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 기록매체.
KR1020140084635A 2014-07-07 2014-07-07 음성 구간 검출 장치, 음성 처리 장치 및 방법 KR101575128B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140084635A KR101575128B1 (ko) 2014-07-07 2014-07-07 음성 구간 검출 장치, 음성 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140084635A KR101575128B1 (ko) 2014-07-07 2014-07-07 음성 구간 검출 장치, 음성 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101575128B1 true KR101575128B1 (ko) 2015-12-09

Family

ID=54873928

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140084635A KR101575128B1 (ko) 2014-07-07 2014-07-07 음성 구간 검출 장치, 음성 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101575128B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341351A (zh) * 2020-02-25 2020-06-26 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质
KR102363324B1 (ko) * 2020-11-25 2022-02-16 주식회사 자이냅스 멜-스펙트로그램의 무음 부분을 결정하는 방법 및 음성 합성 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kyoung-ho Woo et al., ‘Robust voice activity detection algorithm for estimating noise spectrum’, Electronics Letters, Vol.36, No.2, pp.180~181, 20th January 2000*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341351A (zh) * 2020-02-25 2020-06-26 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质
KR102363324B1 (ko) * 2020-11-25 2022-02-16 주식회사 자이냅스 멜-스펙트로그램의 무음 부분을 결정하는 방법 및 음성 합성 시스템
KR20220072807A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 무음 부분을 자연스럽게 처리하는 음성 합성 시스템
KR102449209B1 (ko) * 2020-11-25 2022-09-30 주식회사 자이냅스 무음 부분을 자연스럽게 처리하는 음성 합성 시스템

Similar Documents

Publication Publication Date Title
US20240038250A1 (en) Method and system for triggering events
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
US10224048B2 (en) Audio coding device and audio coding method
US20120103166A1 (en) Signal Processing Device, Signal Processing Method, and Program
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
EP3166239A1 (en) Method and system for scoring human sound voice quality
KR20190069198A (ko) 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법
US10665248B2 (en) Device and method for classifying an acoustic environment
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
JP2017511901A (ja) 音声信号を検出するための方法および装置
KR101575128B1 (ko) 음성 구간 검출 장치, 음성 처리 장치 및 방법
CN109903775B (zh) 一种音频爆音检测方法和装置
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
US10276191B2 (en) Speech section detection device, voice processing system, speech section detection method, and computer program product
US9336796B2 (en) Method and apparatus for detecting speech/non-speech section
US8108164B2 (en) Determination of a common fundamental frequency of harmonic signals
CN104021791A (zh) 数字音频波形突变的检测方法
JPWO2010092915A1 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
KR101621780B1 (ko) 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
CN113316075B (zh) 一种啸叫检测方法、装置及电子设备
KR101547261B1 (ko) 화자 식별 방법
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
KR101569343B1 (ko) 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
EP3956890B1 (en) A dialog detector
von Zeddelmann A feature-based approach to noise robust speech detection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181126

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191202

Year of fee payment: 5