KR20170064438A - 음성 노이즈를 제거하는 방법 및 장치 - Google Patents

음성 노이즈를 제거하는 방법 및 장치 Download PDF

Info

Publication number
KR20170064438A
KR20170064438A KR1020150170253A KR20150170253A KR20170064438A KR 20170064438 A KR20170064438 A KR 20170064438A KR 1020150170253 A KR1020150170253 A KR 1020150170253A KR 20150170253 A KR20150170253 A KR 20150170253A KR 20170064438 A KR20170064438 A KR 20170064438A
Authority
KR
South Korea
Prior art keywords
noise
noise value
data
value
average
Prior art date
Application number
KR1020150170253A
Other languages
English (en)
Inventor
이강규
정요원
금명철
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020150170253A priority Critical patent/KR20170064438A/ko
Publication of KR20170064438A publication Critical patent/KR20170064438A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명은 음성 노이즈를 제거하는 방법 및 장치에 관한 발명이며, 보다 상세하게는 본 발명은 일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출하는 단계, 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정하는 단계 및 실행데이터에서 보정노이즈값을 제거하는 단계를 포함하는 것을 특징으로 하며, 음성데이터를 포함하는 실행데이터의 음성 노이즈를 제거하는 효과가 있다.

Description

음성 노이즈를 제거하는 방법 및 장치{METHOD AND APPARATUS FOR REMOVING NOISE SOUND}
본 발명은 음성데이터에서 노이즈를 제거하는 방법 및 장치에 관한 것으로서, 보다 상세하게는 복수의 음성데이터의 평균 노이즈값을 기초로 일정 주기마다 실시간 노이즈값을 반영한 보정된 노이즈값을 이용하여 노이즈를 제거하는 방법 및 장치에 관한 것이다.
노이즈가 없거나 비교적 조용한 실험실 환경에서 우수한 성능을 나타내는 음성 인식 시스템이 주위에 노이즈가 존재하는 환경에서는 급격한 성능 저하가 일어나는 경우가 있기 때문에, 환경 변화에 영향을 적게 받도록 노이즈를 제거하고 음성 인식을 하는 방법 관한 연구가 활발하다.
노이즈를 제거를 위해 특징 벡터 및 가중 켑스트럼 (Cepstral) 거리 측정 방법, RASTA 처리, 스펙트럼 차감법, 켑스트럼 평균 차감법 (CMS: Cepstral Mean Subtraction), 신호 편의 제거 방법 등의 여러 가지 알고리즘이 연구되었다.
특히, CMS 방법은 순수한 음성의 켑스트럼에 대해 장구간 평균이 0 이라 가정하며, 노이즈를 필요한 특징값을 제외한 값의 켑스트럼을 평균함으로써 추정할 수 있다. 그러므로 전체구간에 대하여 캡스트럼의 평균을 구하고, 이를 차감하여 노이즈를 제거한다.
이러한 CMS 방법은 음성의 전체 구간에 대하여 평균 켑스트럼을 계산해야 하므로, 실시간 처리가 불가능하다.
이를 해결하기 위하여 종래기술로서 LCMS (Local CMS) 와 SCMS (Sequential CMS) 방법이 이용되는데, LCMS 방법은 채널 켑스트럼의 추정치를 현재 프레임과 그 이전에 입력된 일정한 개수의 프레임들에 대한 켑스트럼 평균으로 구한다.
SCMS 방법은 첫 프레임부터 현재 프레임까지 입력된 신호의 켑스트럼에 대한 평균을 구하여 차감하는 방법이다. 그러나 LCMS는 일정구간의 평균에 의해서만 차감이 수행되며, SCMS는 처음구간에서 안정적이지 못한 평균값이 얻어진다는 단점이 있다.
또한, 영화와 같이 장면 (Scene) 이 변하는 경우 노이즈의 성격이 바뀌는 문제가 있어서 기존의 켑스트럼값을 데이터로 하여 얻어진 켑스트럼 평균이 더 이상 유의미한 값이라 할 수 없게 된다. 따라서, 장면이 변하는 경우 SCMS 방법과 유사하게 장면이 변한 부분의 첫 프레임부터 현재 프레임까지 입력된 신호의 켑스트럼에 대한 평균을 구하여, 그 값을 차감하여 노이즈를 제거한다.
이러한 장면이 전환되는 영화와 같은 환경에서 프레임마다 SCMS 방법을 적용하는 경우, 장면이 전환되는 구간의 첫 부분마다 안정적이지 못한 평균값이 얻어진다는 문제가 있다.
이러한 문제점을 해결하기 위해 기존의 데이터를 이용하여 평균값을 보정하는 방법에 대한 필요성이 제기 되었다.
[선행특허문헌]
한국공개특허 제10-2006-0095237호 "음성 인식 시스템에서 잡음 제거방법" (2006.08.31)
본 발명이 해결하고자 하는 과제는 음성데이터에서 복수의 데이터를 기초로 산출된 평균노이즈를 이용하여 노이즈를 제거하는 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 영화와 같이 장면이 전화되는 음성데이터에서 보다 효율적인 노이즈를 제거하는 방법 및 장치를 제공하는 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 노이즈를 제거하는 방법은 일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출하는 단계, 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정하는 단계 및 실행데이터에서 보정노이즈값을 제거하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 특징에 따르면, 실행데이터의 연속성을 검출하는 단계 및 연속성이 깨진 경우 보정노이즈값을 평균노이즈값으로 리셋하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 연속성이 깨지는 경우는, 실행데이터의 소리의 시간적 연속성이 깨지는 경우, 실행데이터의 영상의 공간의 연속성이 깨지는 경우 및 실행데이터의 소리 크기가 미리 정해진 임계치 이상으로 변하는 경우 중 적어도 하나인 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 평균노이즈값을 결정하는 단계에서, 데이터는 실행데이터와 동일 카테고리에 해당하는 데이터인 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 카테고리는 영화의 장르에 따라서 구분되는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 주기는 10ms 내지 100ms인 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 비율은 1% 내 5%인 것을 특징으로 한다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 노이즈를 제거하는 장치는, 다른 디바이스와 데이터를 송수신하도록 구성된 통신부, 데이터를 저장하기 위한 저장부, 프로세서의 연산을 위해 일시적인 데이터를 저장하는 메모리 및 통신부, 저장부 및 메모리와 연결되도록 구성된 프로세서를 포함하고, 프로세서는, 일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출하고, 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정하고, 실행데이터에서 보정노이즈값을 제거하는 것을 특징으로 한다.
본 발명은 음성데이터에서 복수의 데이터를 기초로 산출된 평균노이즈를 이용하여 노이즈를 제거하는 방법 및 장치를 제공한다.
본 발명의 다른 효과는 영화와 같이 장면이 전화되는 음성데이터에서 보다 효율적인 노이즈를 제거하는 방법 및 장치를 제공한다.
도 1 은 본 발명의 일 실시예에 따른 노이즈 제거 장치의 블록도이다.
도 2 는 본 발명의 일 실시예에 따른 노이즈 제거 방법을 나타낸 동작 흐름도이다.
도 3 은 본 발명의 다른 실시예에 따른 노이즈 제거 방법을 나타낸 동작 흐름도이다.
도 4 는 음성데이터 왜곡과정에 대한 모델이다.
도 5 는 평균노이즈를 연산하는 과정에 대한 모델이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 도시된 것이며, 본 발명이 도시된 구성의 크기 및 두께에 반드시 한정되는 것은 아니다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
본 발명에서 '음성데이터' 란, 소리형태로 출력이 가능한 디지털 데이터를 의미한다. 음성데이터의 형식은 제한되지 않으며 음성데이터는 독립적일 수 있으며, 영상파일과 같은 다른 형식의 데이터와 함께 저장될 수 있다.
본 발명에서 '실행데이터' 란, 음성데이터를 포함하는 실행을 할 수 있는 데이터를 의미한다. 영상데이터, 음성데이터, 문자데이터 등을 포함할 수 있으며, 데이터의 형식은 제한되지 않는다.
본 발명에서 '평균노이즈' 란, 음성데이터를 포함하는 데이터에서 노이즈의 값을 전체구간에서 평균함으로써 구할 수 있다. 그러므로 데이터의 전체구간에 대한 평균값을 의미한다.
본 발명에서 '실시간노이즈' 란 일정 주기의 첫 번째 프레임부터 일정 주기의 마지막 프레임까지 입력된 신호의 노이즈에 대한 평균을 구하여 산출할 수 있다. 실시간노이즈은 일정 주기의 첫 번째 프레임부터 일정 주기의 마지막 프레임까지 입력된 신호의 노이즈에 대한 평균을 구하여 산출할 수 있다. 실시간노이즈값을 산출하기 위해서는 다양한 방법이 사용될 수 있으며 구체적으로는 후술할 방법을 통하여 실시간노이즈값을 구할 수 있으며, 다만 이러한 방법에 제한이 되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1 은 본 발명의 일 실시예에 따른 노이즈 제거 장치의 블록도이다.
도 1 을 참조하면, 노이즈 제거 장치 (100) 는 프로세서 (110), 통신부 (120), 저장부 (130) 및 메모리 (140) 를 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 구현에 따라 상기 하나의 구성이 복수의 구성으로 구현될 수도 있고 복수의 구성이 복수의 기능을 가지는 하나의 구성으로 구현 될 수 있다.
본 발명의 일 실시에에 따른 노이즈 제거 장치 (100) 는 음성데이터를 포함하는 실행데이터에서 노이즈를 제거하는 장치로서, 음성인식장치에서 주변 노이즈와 채널 특성에 의해 발생하는 채널 노이즈로 인한 성능저하를 극복하기 위한 전 처리를 하는 장치이다. 또한 다양한 목적으로 음성데이터의 노이즈를 제거하는데 이용될 수 있다.
노이즈 제거 장치 (100) 는 다양한 형태로 구현이 가능하다. 예를 들어, 본 명세서에서 기술되는 노이즈 제거 장치 (100) 는 고정식 단말뿐만 아니라 이동식 단말 형태로도 구현될 수 있다. 이동식 단말의 일례로 랩탑 컴퓨터, PDA, 태블릿 PC 등이 있을 수 있다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
프로세서 (110) 는 노이즈 제거 장치 (100) 에서 다양한 연산을 수행한다. 노이즈 제거 장치 (100) 는 프로세서 (110) 를 통해 일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출하고 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정하고 실행데이터에서 보정노이즈값을 제거하여 노이즈를 제거한다. 상술한 동작에 대해서는 도 2 를 참조하여 상세하게 후술한다.
통신부 (120) 는 노이즈 제거 장치 (100) 와 외부 장치 간의 통신을 통해 노이즈 제거를 위한 음성데이터가 포함된 데이터를 송수신하는 구성요소이다. 통신부 (120) 는 노이즈 제거 장치 (100) 와 외부 장치 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부 (120) 는, 근거리 통신 모듈, 이동 통신 모듈, 무선 인터넷 모듈, 유선 인터넷 모듈 등을 포함할 수 있다. 통신부 (120) 를 통해 수신된 데이터는 저장부 (130) 에 저장될 수 있다.
저장부 (130) 는 노이즈 제거 장치 (100) 와 관련된 다양한 정보로서 예컨대 실행데이터, 실시간노이즈값, 보정노이즈값 등을 저장할 수 있으며, 프로세서 (110) 가 노이즈 제거 장치 (100) 를 제어하는데 필요한 어플리케이션을 저장할 수 있다.
메모리 (140) 는 노이즈 제거 장치 (100) 에서 처리하고자 하는 데이터를 일시적으로 저장한다. 노이즈 제거 장치 (100) 는 메모리 (140) 에 실행데이터, 실시간노이즈값, 보정노이즈값 등을 일시적으로 저장한 후 프로세서 (110) 를 통해 처리할 수 있다.
도 2 는 본 발명의 일 실시예에 따른 노이즈 제거 방법을 나타낸 동작 흐름도이다. 설명의 편의를 위해 도 1, 도 4 및 도 5 를 함께 참조하여 설명한다.
본 발명의 일 실시예에 따른 노이즈 제거 방법은 일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출함으로써 개시된다(S210).
도 4를 참고하면, 노이즈가 섞이지 않은 원음성 x[m] (410) 이 채널노이즈 h[m] (420) 를 갖는 채널을 거쳐서 부가 노이즈 n[m] (430) 가 유입되면 노이즈가 포함된 왜곡된 음성 y[m] (440) 으로 표현되는 실행데이터가 된다.
본 발명의 일 실시예에 의한 노이즈를 제거하는 방법은 첫 프레임부터 현재 프레임까지 입력된 신호의 노이즈에 대한 평균을 구하여 실행데이터에서 차감하는 방법으로, 차감하는 값의 기초되는 값을 실행데이터와 유사한 음성을 포함하는 미디어의 음성 노이즈값의 평균으로 하는 것에 특징이 있다. 실행데이터에서 차감하는 방법을 통해 실행데이터에 포함된 왜곡된 음성을 제거할 수 있다. 음성을 포함하는 미디어의 음성 노이즈값의 평균인 평균노이즈값은 S220 단게에서 후술한다.
일정 주기의 첫 번째 프레임부터 일정주기의 n 번째 프레임까지 실시간노이즈값을 br 이라 하고, b(n)을 n 번째 프레임의 순간적인 노이즈라고 하면, 실시간노이즈값은 아래와 같은 식 1 로 정의될 수 있다.
[식 1]
Figure pat00001
실시간노이즈값은 식 1 과 같이 일정 주기의 첫 번째 프레임의 순간적인 노이즈값부터 N번째인 마지막 프레임까지의 순간적인 노이즈값의 평균일 수 있다.
노이즈 제거 장치 (100) 의 프로세서 (100) 는 일정 주기마다 실시간노이즈값을 산출하여 저장부 (130) 또는 메모리 (140) 에 실시간노이즈값을 저장한다. 일정주기는 사용자에 의해 이미 설정된 시간일 수 있으며, 일정주기는 고정된 시간일 수 있다. 하지만 음성의 특성을 고려하여 시간에 따라 주기가 변하는 구성을 포함할 수도 있다.
다음으로, 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 상기 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정한다(S220).
평균노이즈값은 실행데이터와 동일하거나 실질적으로 동일한 카테고리에 해당하는 음성데이터를 포함하는 복수의 데이터의 노이즈값의 평균이다.
본 발명의 몇몇 실시예에 의하면, 데이터 각각은 실행데이터와 동일 카테고리에 해당하는 데이터 일 수 있으며, 예를 들어, 동일한 카테고리란 실행데이터가 영화가 저장된 미디어데이터라면 동일한 장르의 영화에 해당하는 카테고리를 의미할 수 있다.
데이터 각각이 N 개의 프레임으로 구성되었다면 데이터 각각의 노이즈값을 bx 이라 하고, b(n)을 n번째 프레임의 순간적인 노이즈라고 하면, 데이터 각각의 노이즈값은 아래와 같은 식 2 로 정의될 수 있다.
[식 2]
Figure pat00002
데이터 각각의 노이즈는 노이즈 제거 장치 (100) 에 의해 산출될 수도 있으나, 다른 디바이스에서 식 2 를 이용하여 이미 산출된 값일 수도 있다.
데이터 각각의 노이즈를 bx(n) 이라하고 N 개의 데이터 노이즈의 평균인 평균노이즈값을 bm이라 하면 평균노이즈값은 식 3 으로 정의될 수 있다.
[식 3]
Figure pat00003
도 5 를 참조하면 데이터 각각의 노이즈 (511, 512, 513) 의 평균이 평균노이즈값 (520) 이다.
평균노이즈값 (520) 은 노이즈 제거 장치 (100) 에 의해 산출될 수도 있으나, 식 3 를 이용하여 이미 산출된 미리 제공된 값일 수도 있다.
다음으로, 평균노이즈값 (520) 에 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정한다.
식 4 와 같이, 평균노이즈값 (520) bm 에 실시간노이즈값 br 을 미리 결정된 비율인 a 만큼 누적하여 보정노이즈값 bZ을 결정한다. 단, 비율 a 는 0 내지 1 의 값을 갖는다.
[식 4]
Figure pat00004
이러한 보정노이즈값을 결정하는 단계는 매 프레임마다 실행될 수도 있으며 또는 미리 결정된 주기마다 실행 될 수도 있다.
상기 비율 a의 크기를 조절하여 평균노이즈값 (520) 에 실시간노이즈값이 반영되는 속도를 조절할 수 있으며, 상기 비율은 바람직하게는 1% 내지 5% 일 수 있다.
다음으로, 실행데이터에서 보정노이즈값을 제거한다(S230).
식 5 와 같이 실행데이터 y에서 보정노이즈값 bz를 제거하여 노이즈가 제거된 데이터 z를 획득할 수 있다.
[식 5]
z = y - bz
식 5 와 같이, 노이즈 제거 장치 (100) 가 노이즈가 포함된 왜곡된 음성데이터가 포함된 실행데이터에서 보정노이즈값을 제거함으로써 음성인식을 보다 정확하게 할 수 있다는 본 발명의 유리한 효과가 획득된다.
도 3 는 본 발명의 다른 실시예에 따른 노이즈 제거 방법을 나타낸 동작 흐름도이다.
본 발명의 다른 실시예에 따른 노이즈 제거 방법은 실행데이터의 연속성을 검출하여, 연속성이 깨진 경우 보정노이즈값을 평균노이즈값으로 리셋하는 단계 (S340) 를 더 포함한다.
다만, 실행데이터의 연속성을 검출하여, 연속성이 깨진 경우 보정노이즈값을 평균노이즈값으로 리셋하는 단계 (S340) 는 S230 단계 이후에 실행되는 것은 아니다. 즉, 실행데이터의 연속성을 검출하여 연속성이 깨지면 실행되는 것이며 상술한 단계의 순서에 제한되는 것은 아니다.
구체적으로 실행데이터의 연속성은 소리의 시간적 연속성이 깨지는 경우, 영상의 공간의 연속성이 깨지는 경우 및 실행데이터의 소리 크기가 미리 정해진 임계치 이상으로 변하는 경우 중 적어도 하나인 것과 같이 노이즈의 성격이 변하는 것이다. 노이즈의 성격이 변한경우 기존의 노이즈에 의한 보정노이즈값의 신뢰성이 문제가 될 수 있다.
소리의 시간적 연속성이 깨지는 경우는, 일정 시간 이상 소리가 차단된 이후에 다시 소리가 재생되는 경우를 의미한다. 영상의 공간의 연속성이 깨지는 경우는, 장면이 전환되는 경우를 의미하며, 예를 들어, 영화의 경우 전쟁장면이 끝나고 대화장면으로 화면이 전환되는 것과 같은 장면이 전환되는 것을 의미한다. 소리 크기가 미리 정해진 임계치 이상으로 변하는 경우는, 실행데이터의 음성의 크기의 변화가 임계치 이상인 경우를 의미한다.
실행데이터의 연속성이 깨지면, 보정노이즈값을 평균노이즈값으로 리셋한다. 실행데이터의 연속성이 깨지는 경우 보정노이즈값을 0 이 아닌 평균노이즈값으로 리셋함으로써, 실행데이터의 연속성이 깨지는 경우 노이즈의 성격의 변화에 따른 초기 노이즈가 크게 발생하는 문제점을 해결할 수 있다는 본 발명의 유리한 효과가 획득된다.
실험 결과를 보면, 아래의 표 1 내지 표 3 은 21 개의 영화로부터 2 명의 대화 장면을 추출하여 각각의 표에 해당하는 방법에 의하여 노이즈를 제거하고 음성인식을 하여 화자분류의 성공률을 기록한 데이터이다. 단, 테스트 Set의 m은 남성을 f는 여성을 의미한다.
표 1 은 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 0 으로 리셋하는 경우의 화자분류의 성공률을 도시하며, 표 1 에서 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 0 으로 리셋하는 경우의 성공률은 75.50% 이다.
표 2 는 실행데이터의 연속성이 깨진 경우에도 보정노이즈값을 리셋하지 않고 연속적으로 보정노이즈값을 누적하는 경우의 화자분류의 성공률을 도시하며, 표 2 의 실행데이터의 연속성이 깨진 경우에도 보정노이즈값을 리셋하지 않고 연속적으로 보정노이즈값을 누적하는 경우 성공률은 83.30% 이다.
표 3 은 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 평균노이즈값으로 리셋하는 경우의 화자분류의 성공률을 도시하며, 표 3 의 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 평균노이즈값으로 리셋하는 경우 성공률은 87.08% 이다.
표 1 내지 표 3 의 실험결과를 보면 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 0 으로 리셋하는 경우의 화자분류의 성공률이 가장 낮고, 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 평균노이즈값으로 리셋하는 경우의 화자분류의 성공률이 가장 높게 나타난다.
따라서, 본 발명의 일 실시예에 따른 보정노이즈값을 리셋하지 않고 연속적으로 보정노이즈값을 누적하는 노이즈 제거 방법이, 실행데이터의 연속성이 깨진 경우 보정노이즈값을 0 으로 리셋하는 노이즈 제거 방법에 비해 더 우수하다는 것을 확인할 수 있다.
또한, 본 발명의 다른 실시예에 따른 실행데이터의 연속성이 깨진 경우에 보정노이즈값을 평균노이즈값으로 리셋하는 노이즈 제거 방법은, 실행데이터의 연속성이 깨진 경우에도 일정한 값을 갖는 평균노이즈값에 해당하는 노이즈를 제거하는 효과로 인하여 보다 우수한 노이즈 감소 효과가 있는 것을 확인할 수 있다.
[표 1]
Figure pat00005
[표 2]
Figure pat00006
[표 3]
Figure pat00007
본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 노이즈 제거 장치 110 : 프로세서
120 : 통신부 130 : 저장부
140 : 메모리

Claims (8)

  1. 일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출하는 단계;
    상기 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 상기 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정하는 단계; 및
    상기 실행데이터에서 상기 보정노이즈값을 제거하는 단계를 포함하는 것을 특징으로 하는, 노이즈를 제거하는 방법.
  2. 제 1 항에 있어서,
    상기 실행데이터의 연속성을 검출하는 단계;
    상기 연속성이 깨진 경우 상기 보정노이즈값을 상기 평균노이즈값으로 리셋하는 단계를 더 포함하는 것을 특징으로 하는, 노이즈를 제거하는 방법.
  3. 제 2 항에 있어서,
    상기 연속성이 깨지는 경우는,
    실행데이터의 소리의 시간적 연속성이 깨지는 경우, 실행데이터의 영상의 공간의 연속성이 깨지는 경우 및 실행데이터의 소리 크기가 미리 정해진 임계치 이상으로 변하는 경우 중 적어도 하나인 것을 특징으로 하는, 노이즈를 제거하는 방법.
  4. 제 1 항에 있어서,
    상기 평균노이즈값을 결정하는 단계에서,
    상기 데이터는 상기 실행데이터와 동일 카테고리에 해당하는 데이터인 것을 특징으로 하는, 노이즈를 제거하는 방법.
  5. 제 4 항에 있어서,
    상기 카테고리는 영화의 장르에 따라서 구분되는 것을 특징으로 하는, 노이즈를 제거하는 방법.
  6. 제 1 항에 있어서,
    상기 주기는 10ms 내지 100ms인 것을 특징으로 하는, 노이즈를 제거하는 방법.
  7. 제 1 항에 있어서,
    상기 비율은 1% 내 5%인 것을 특징으로 하는, 노이즈를 제거하는 방법.
  8. 다른 디바이스와 데이터를 송수신하도록 구성된 통신부;
    데이터를 저장하기 위한 저장부;
    프로세서의 연산을 위해 일시적인 데이터를 저장하는 메모리 및
    상기 통신부, 상기 저장부 및 상기 메모리와 연결되도록 구성된 상기 프로세서를 포함하고,
    상기 프로세서는,
    일정 주기마다 실행데이터 노이즈값의 평균인 실시간노이즈값을 산출하고,
    상기 일정 주기마다 복수의 음성데이터의 노이즈의 평균값인 평균노이즈값에 상기 실시간노이즈값을 미리 결정된 비율만큼 가감하여 보정노이즈값을 결정하고
    상기 실행데이터에서 상기 보정노이즈값을 제거하는 것을 특징으로 하는, 노이즈를 제거하는 장치.
KR1020150170253A 2015-12-01 2015-12-01 음성 노이즈를 제거하는 방법 및 장치 KR20170064438A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150170253A KR20170064438A (ko) 2015-12-01 2015-12-01 음성 노이즈를 제거하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150170253A KR20170064438A (ko) 2015-12-01 2015-12-01 음성 노이즈를 제거하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20170064438A true KR20170064438A (ko) 2017-06-09

Family

ID=59220072

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150170253A KR20170064438A (ko) 2015-12-01 2015-12-01 음성 노이즈를 제거하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20170064438A (ko)

Similar Documents

Publication Publication Date Title
US9847097B2 (en) Audio signal processing device, audio signal processing method, and recording medium storing a program
CN104822001B (zh) 回声消除数据同步控制方法和装置
US9426409B2 (en) Time-lapse video capture with optimal image stabilization
EP3125527A1 (en) Image processing device, photography device, image processing method, and image processing program
US10679641B2 (en) Noise suppression device and noise suppressing method
US9824696B2 (en) Noise reduction apparatus, noise reduction method, and program
US10283114B2 (en) Sound conditioning
US9271075B2 (en) Signal processing apparatus and signal processing method
US20170180263A1 (en) Method and apparatus for handling network jitter
US9324376B2 (en) Time-lapse video capture with temporal points of interest
US20150271439A1 (en) Signal processing device, imaging device, and program
US9319513B2 (en) Automatic un-muting of a telephone call
JP6610725B2 (ja) 音処理装置および音処理プログラム
US9680999B2 (en) Apparatus and method for removing acoustic echo in teleconference system
KR20170064438A (ko) 음성 노이즈를 제거하는 방법 및 장치
US10425614B2 (en) Moving image reproduction apparatus having function of correcting camera shake during moving image reproduction, method of controlling the same, and storage medium
US9426570B2 (en) Audio processing device and method
US10360922B2 (en) Noise reduction device and method for reducing noise
CN106708463B (zh) 调节拍摄的视频文件的音量的方法及设备
JP4395105B2 (ja) 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体
US20240040317A1 (en) Determining Spatial Audio Parameters
WO2017106281A1 (en) Nuisance notification
JP2011097335A (ja) 信号処理装置及び撮像装置
KR20170028798A (ko) 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
JP5246134B2 (ja) 信号処理装置及び撮像装置