KR20100086457A

KR20100086457A - 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법

Info

Publication number: KR20100086457A
Application number: KR1020100066798A
Authority: KR
Inventors: 조정권
Original assignee: 조정권
Priority date: 2010-07-12
Filing date: 2010-07-12
Publication date: 2010-07-30
Also published as: KR101249549B1

Abstract

본 발명은 노래방과 같이 노래와 반주기의 소음이 심한 환경에서 음성 인식 기술을 이용하여 노래 제목을 검색하는 반주기나 목차본, 그리고 리모컨과 같은 원격 제어 장치 및 그에 관련된 구현 방법에 관한 것이다.
본 발명에 의한 음성 인식 노래 반주기 및 이에 관련된 원격 제어 장치는 사용자의 음성을 입력받는 마이크로폰(이하 마이크)과 프리 앰프부; 프리앰프를 통과한 사용자의 음성을 분석하여 주파수 영역으로 변환한 후 특징 파라메타를 추출하는 음성 분석부; 미리 저장된 노래들에 대한 특징 파라메타들과 비교하는 음성 인식부; 인식된 특정 노래의 키워드를 사용하여 기존 보관되어 있는 노래들의 데이터 저장부에서 일치되는 노래를 검색하여 사용자에 의해 선택된 노래를 선택할 수 있는 노래 데이터 저장부; 음성 인식 및 검색 프로그램을 실행하는 마이크로프로세서 및 주 메모리부; 마이크로프로세서에서 실행된 프로그램에 의해 검색된 메뉴 및 검색된 노래들의 정보들을 표시하는 화면 표시부; 외부 버튼 조작에 의해 프로그램을 부수적으로 제어하기 위한 키패드; 반주기와 원격 제어 장치와의 음성 및 검색 정보 송수신을 위한 원격 송신부를 포함한다.
본 발명에 의하면, 주파수 영역에서의 스펙트럼 차감법 및 이득 조절 방법으로 마이크로부터 입력된 사용자의 음성에서 환경 및 반주기 소음을 효과적으로 제거하고 음성 인식률을 향상시킨 뒤 음성 인식된 키워드를 사용하여 반주기 또는 원격제어장치에 저장된 노래를 검색하여 반주기를 실행할 수 있다.
본 발명은 노래방과 같이 노래와 반주기의 소음이 심한 환경에서 음성 인식 기술을 이용하여 노래 제목을 검색하는 반주기나 목차본, 그리고 리모컨과 같은 원격 제어 장치 및 그에 관련된 구현 방법에 관한 것이다.

Description

노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법{Song searching method and device using voice recognition technology in karaoke environment}

본 발명은 소음이 심한 환경에서 목적 신호만을 추출하는 신호처리 알고리즘을 사용한 뒤, 음성 인식 기술을 이용하여 노래방에서 사용자가 원하는 노래를 음성으로 검색할 수 있게 하여 어두운 조명하에서 노래책을 찾거나, 리모컨 또는 목차본의 키보드를 사용하는 불편함을 없앨 수 있는 음성 인식 기능을 구비한 노래 반주기와 원격 제어 장치에 관한 것이다.

노래방의 제목 안내책에 수록된 노래들은 신곡이 추가됨에 따라 순서대로 게재되지 못하여 찾기가 불편해지고, 환경적으로 대체로 조명이 어둡기 때문에 노래 제목을 검색하는데 많은 시간과 노력이 필요하다.

종래의 기술에 의하면, 원격제어용 목차본 또는 리모컨을 사용하여 앞소절에 해당하는 노래를 화면에 순차적으로 표시하여 검색이 용이하도록 하였다. 그러나 이 방법 역시 글자를 일일이 타이핑해야 하는 불편함이 남는다. 원하는 노래 제목을 마이크에 발성함으로써 제목을 실시간으로 찾아주기 위해서는 2~10만여곡의 노래 제목에 대한 음성 인식률이 높아야 하며, 동행한 사람이 노래를 부르는 경우 반주기 소리와 더불어 큰 소음이 발생하는 경우에도 상용화할 수 있는 정도의 인식률이 보장되어야 한다.

본 발명은 상기와 같은 문제점을 해결하기 위해 고안된 것으로서, 마이크에 입력된 사용자의 음성에서 잡음을 제거하고 음성 인식 기술로 곡명에 대한 키워드를 검출한 뒤, 반주기에 저장된 노래를 실행할 수 있게 하는 신호 처리 알고리즘을 개발하고, 이를 실시간으로 처리할 수 있는 하드웨어 시스템을 구현하는 방법을 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명에 따른 디지털 신호 처리 기법을 이용하여 환경 및 반주기, 사람의 노래 소음을 효과적으로 제거하고, 음성 인식률을 향상시킨 뒤 원하는 노래의 키워드를 검색하고, 반주기 또는 목차본에 기저장된 노래를 선택하여 실행한다. 잡음을 제거하기 위해 마이크 입력 신호를 주파수 영역으로 변환한 뒤 신호의 통계적 특성과 파워비를 측정하여 잡음으로 판단되면 이득 조절기가 작동되고 목적 신호 구간에서는 기추정된 잡음의 스펙트럼을 차감하는 방법을 사용한다. 음성 인식률을 향상시키기 위해 입력신호의 주파수축 및 시간축의 변화량을 측정하여 목적 신호의 시작점과 끝점을 정확히 추출하고, 버퍼링된 유효 음성 데이터를 음성 인식 프로그램에 전달한다. 반주기 또는 목차본의 데이터베이스에 저장된 노래들의 기저장된 특징 파라메타와 비교하여 음성 인식된 키워드가 원격 송수신부를 통하여 반주기에 전달되어 반주를 시작하게 된다.

본 발명에 따르면, 소음이 심한 노래방 환경에서 사용자가 마이크를 이용하여 노래방 반주기 또는 목차본에 저장된 노래들을 음성으로 검색, 실행할 수 있게 되어 어두운 조명하에서 노래책을 찾거나 리모컨의 키보드를 치지 않아도 원하는 곡명을 검색하는 효과를 거둘 수 있다.

도 1은 단채널 잡음 제거 알고리즘의 블록도를 도시하는 도면이다.
도 2는 잡음 제거후 음성 인식기술을 이용하여 곡목을 검색하는 시스템의 순서도를 도시하는 도면이다.
도 3은 음성 인식을 이용한 반주기와 원격 제어장치 간의 관계를 도시하는 도면이다.
도 4는 도2에 설명된 예시적 프로그램 모듈들을 실시간 처리하기 위한 하드웨어 보드의 블록도를 도시한 도면이다.

이하 본 발명의 이론 및, 구성과 작용을 상세히 설명한다.

음성 인식률을 높이기 위한 신호 처리 방법

음성 인식 프로그램의 인식률은 입력 신호의 잡음 포함 여부에 크게 좌우되기 때문에 노래방과 같은 소음이 큰 환경에서 음성 인식 기법을 이용하기 위해서는 효과적인 잡음 제거 기술이 필수적이다.

일반적인 단채널 잡음 제거 시스템은 주파수 도메인에서 이루어지며, 각각의 주파수 성분의 감쇄 혹은 이득 정도를 결정해서 음성의 크기를 추정한다. 이는 음성과 잡음이 섞여 입력되는 신호는 단구간 내에서 잡음이 음성에 비해 상대적으로 변화량이 적은 특성을 이용하여 주변 잡음을 제거하는 방법이다.

제안된 1 mic 잡음 제거 시스템의 블록도를 도 1에 나타내었다. 도 1의 1 mic 음질 향상 시스템은 음성에 잡음이 더해진 입력 신호 y(t) 의 주파수 성분 Y(k,l) 의 크기 정보로부터 잡음 D(k,l) 의 파워 스펙트럼을 추정하고, 이를 이용하여 이득 G(k,l) 를 추정한 후, 입력의 크기 신호 스펙트럼에 곱한 후(noise spectral subtraction) 역 FFT (Inverse Fast Fourier Transform)를 이용해 음성을 합성한다.

만일 잡음 구간이라고 추정되면 이득 조절기(Gain controller)에서 입력 신호에 대한 크기를 줄이는 역할을 하게 되며, 이득 조절기를 사용하지 않는 조건이라면 잡음의 주파수 성분을 차감한 후의 잔여 성분을 출력시키게 된다.

마이크 입력신호의 통계적 특성중 주파수축의 변화량과 시간축의 변화량을 계산하여 잡음 구간과 목적 신호 구간의 변화량 추이를 조사하여 잡음 구간과 목적 신호 구간을 구분한다.

주파수 영역에서 각 주파수 성분의 파워를

,

의 평균을

, 해당 프레임의 전체 파워를

라 하면 주파수 영역에서의 정규화된 변화량, 즉 주파수 편평도는 수학식 1로 표현된다.

[수학식 1]

여기서

는 실험적으로 얻어진 임계치이다.

시간 영역에서 한 프레임의 파워를

,

의 평균을

, 해당 프레임의 전체 파워를

라 하면 시간 영역에서의 정규화된 변화량은 수학식 2 로 표현된다.

[수학식 2]

여기서

는 실험적으로 얻어진 임계치이다.

상기 수학식 1 과 2에서 계산된 변화량이 실험적으로 얻어진 임계치보다 큰 경우에는 목적 신호로 간주할 수 있다.

목적 신호를 추정할 수 있는 또 다른 파라메타로서 입력 신호의 파워를 오랜 시간동안 IIR(Infinite Impulse Response) 평균을 2번 사용하고 현재 프레임 파워와 비교하는 방법이 있다.

현재 프레임의 IIR 평균 파워는 수학식 3과 같이 계산된다.

[수학식 3]

여기서

는 0과 1사이의 IIR 스무딩 계수이며,

는 현재 프레임의 IIR 평균 파워,

은 이전 프레임의 파워이다.

가

보다 일정 배수 이하의 프레임에 해당하는 파워에 대해서 IIR(Infinite Impulse Response) 평균을 다시 계산하면 수학식 4와 같다.

[수학식 4]

여기서

는 0과 1사이의 IIR 스무딩 계수이며,

는 현재 프레임의 long-term IIR 평균 파워,

은 이전 프레임의 파워이다.

수학식 4에서 계산된

는 변화량이 급격하게 큰, 즉 큰 입력 신호에 대해서는 평균 계산에 참여하지 않게 되어 대체로 잡음 성분들의 프레임 파워를 보여 주게 된다.

따라서 마이크 입력 신호의 현재 프레임의 파워가

의 일정 배수보다 큰 경우에는 목적 신호로 간주할 수 있다.

[수학식 5]

여기서

는 현재 프레임의 파워, c 는 실험적으로 목적 신호로 간주할 수 있는 배수로 임의의 상수이다.

상기 수학식 1에서 5까지 사용하여 추정된 잡음 구간의 프레임 파워

과 입력 신호의 프레임 파워인

와의 IIR 평균된 신호대잡음비를 수학식 6과 같이 계산한다.

[수학식 6]

여기서

은 이전 프레임의 파워이며

는 0과 1사이의 IIR 스무딩 계수,

는 절대치 연산자이다.

잡음 제거 알고리즘 중에 보편적으로 많이 사용하는 위너(Wiener) 필터를 이용하고 수학식 6을 적용하면 수학식 7과 같이 표현된다.

[수학식 7]

도 1에서 입력 신호의 주파수 성분에 곱해지는 이득은 아래의 수학식 8로 표현된다.

[수학식 8]

여기서

은 잡음 성분의 감쇄 계수(Attenuation Level)이며 클수록 잡음 성분을 많이 감쇄시킨다.

입력 신호에 대하여

를 곱하여 주파수 대역에서의 잡음 성분을 줄였으나, 목적 신호내의 잡음 성분을 좀 더 많이 제거하기 위해 수학식 8의

를 곱하여 얻은 목적 신호를 입력 신호

에서 뺀 추정된 잡음 신호

를 수학식 9와 같이 계산한다.

[수학식 9]

정규화된 복소수 LMS(Least Mean Square)알고리즘을 이용한 적응 필터의 계수

를 갱신하는 방법으로 steepest descent 기반의 알고리즘을 적용하며 수학식 10과 같이 표현된다.

[수학식 10]

여기서

은 n-1 번째 입력신호,

은 n-1 번째까지 추정된 잡음 신호,

은 n-1번째 출력 신호,

는 수렴속도를 결정하는 상수,

은 노름(norm) 연산자이다.

또한 잡음으로 추정되는 구간에서는 이득 조절기가 작동되어 입력 신호의 레벨을 줄인 후 출력시킴으로써 음성 인식기가 작동되지 않도록 억제하여 사용자의 음성이 아닌 소음에 의해 곡목이 검색되는 오류를 방지할 수 있다.

노래방 반주기와 목차본 , 리모컨 간의 데이터 정보 교환

도 2에 도시된 바와 같이 마이크 입력 신호(200)는 저역 통과 필터를 포함한 프리앰프(210)을 거쳐서 음성 대역의 신호만 통과시킨 뒤, 코덱에 전달되어 아날로그 신호가 디지털 신호로 변환되고(220) 마이크로프로세서(250)와 주메모리(270)에서 잡음 제거 알고리즘 및 음성 인식 프로그램이 실행되어 기저장된 노래 제목 데이터베이스의 파라메타들과 비교하여 키워드를 검색하고(280) 키보드나 키패드를 이용하여 보조적으로 필요한 정보들을 입력하여(240) 원하는 정보가 화면에 표시되고(230) 리모컨이나 목차본의 검색 정보나 키워드가 원격 송수신단을 거쳐(260) 반주기에 전달되어 노래 반주가 실행된다.(290) 잡음 제거 알고리즘을 구현한 소프트웨어와 음성 인식 프로그램이 목차본이나 반주기에 독자적으로 탑재되어 검색된 키워드에 의한 노래를 반주할 수도 있고, 리모컨의 마이크에 입력된 음성 신호를 반주기에 원격 전송하여 반주기에 탑재된 잡음 제거 및 음성 인식 소프트웨어를 구동하여 곡명을 검색한 후 노래를 반주할 수도 있다.

도 3에 도시된 바와 같이 마이크에 입력된 음성이(300) 코덱을 거쳐 디지털 신호로 변환 된 후 마이크로프로세서와 주메모리에서 잡음 존재 여부를 판단하고(310) 잡음이 있으면 잡음 제거 알고리즘에 의하여 잡음이 제거되면서 이득 조절기가 작동되어(320) 목적 신호의 특징 및 파라메타를 추출하고(330), 미리 계산된 노래 제목의 파라메타를 저장한 데이터베이스와(350) 입력된 신호로부터 추출된 파라메타와 비교하여(340) 두 파라메타사이의 거리가 가까운 후보곡들을 화면에 표시하고(360) 후보곡 들 중 사용자가 원하는 곡이 있으면 음성이나 보조 버튼을 이용하여 곡목을 선택하여(370) 노래 반주기가 작동하게 된다.(380)

실시간 처리를 위한 하드웨어 개발

도 4는 도 2에서 도시한 순서도를 구현한 프로그램을 실시간으로 동작시키기 위한 독립적인 하드웨어 시스템에 대한 블록도이다.

Arm 920T 프로세서 또는 범용 프로세서와 Philips CODEC UDA1341TS 또는 AD(아날로그-디지털) 컨버터를 기반으로 하는 실시간 처리 보드를 도 4에서 제시된 블록도를 기반으로 개발하였다.

2 개의 마이크로부터 들어오는 입력 신호는 컷오프 주파수 17KHz의 1차 저역 통과 회로를 포함한 프리앰프(400)에서 증폭되어 UDA1341TS 스테레오 코덱(410)에서 44.1KHz 의 샘플링 주파수에 의해 디지털 값으로 변환된다. 도 2의 순서도에서 제시한 알고리즘을 C 와 Arm 920T의 어셈블리 언어로 구현한 프로그램이 최적화 된 후 Arm 920T(430)에서 동작함으로써 입력 신호에 포함된 잡음을 실시간으로 제거하고 특징 파라메타를 추출하여 음성 인식 프로그램에 의하여 원하는 곡목을 검색한다. 자주 검색된 곡들은 EEPROM(480)에 자동 저장하여 많이 불리는 노래에 대한 검색 시간을 단축하여 사용자 편의성 위주의 하드웨어를 설계하였다. 사용자의 환경에 따라 기능을 세밀히 변경할 수 있도록 외부에 버튼(420)과 PC 또는 다른 장비에 연결하여 데이터를 주고 받을 수 있는 연결 장치(440)를 제공하였고, 프로그램을 탑재하고 변경하기 쉽게 플래쉬 메모리(450)를 사용하였다. 소프트웨어의 저작권 보호를 위하여 복제 방지용 보안칩(460)을 장착하였으며, 사용자가 장비의 사용 상태 및 제어를 쉽게 하기 위하여 전면 패널부(470)에 프로그램의 동작 상태 및 버튼 사용 여부를 표시하는 LED 를 장착하였다.

노래방과 같은 소음이 큰 환경에서 마이크 입력 신호에 포함된 잡음을 제거하고 음성 인식 기술을 이용하여 곡명을 검색한 뒤 반주기에서 노래를 반주하는 알고리즘과 실시간 처리를 위한 하드웨어에 대한 상기 기술은 예시 및 설명을 위해 제시되었다. 수학식이나 도면의 정확한 형태로 본 발명을 총망라하거나 한정하려는 것은 아니다. 상기 내용을 응용하여 많은 변경들과 변형들이 가능할 수 있고, 일부 수학식이나 실시 예들을 임의로 조합하여 사용할 수도 있다. 본 발명의 범위는 이러한 상세한 설명이나 도면, 또는 수학식에 의해서가 아니라 여기에 첨부된 청구항들에 의해 한정되어야 한다.

200 : 마이크 신호 입력 모듈
210 : 잡음 존재 여부 확인 모듈
220 : 잡음 제거 및 이득 조절기 사용 모듈
230 : 목적 신호 특징 및 파라메타 추출 모듈
240 : 기존 저장된 파라메타와의 비교 모듈
250 : 곡목에 대하여 미리 계산된 파라메타 데이터베이스 저장 모듈
260 : 검색된 후보 곡목들을 화면에 표시하는 모듈
270 : 원하는 곡목을 음성이나 버튼으로 선택하는 모듈
280 : 반주기 자체 또는 원격 제어 장치에서 받은 키워드로 노래를 반주하는 모듈

Claims

노래방과 같이 시끄러운 환경에서 반주기, 목차본, 리모컨등의 장비가 음성 인식 기술을 이용하여 노래 제목을 검색하기 위한 방법으로서, 노래 제목, 가사, 음성 인식을 위한 파라메타, 동작 프로그램, 하드웨어 장비의 구동 드라이버를 저장하고 있는 데이타 저장부; 마이크로폰과 저주파 통과 필터를 포함한 프리 앰프부; 프로그램이 동작하기 위한 마이크로프로세서와 메인 메모리부, 전원을 켰을 때 전자 부품과 장비를 구동하기 위한 펌웨어 프로그램을 내장한 플래시 메모리부; 프로그램과 장비의 동작 상태를 표시하는 디스플레이부; 그리고, 주파수 변조 및 블루투스, 적외선 방식의 회로로 구선된 데이터 원격 송수신부를 포함한 하드웨어 상에서 잡음을 제거한 후 음성 인식 프로그램을 동작시켜 몇 개의 후보곡을 음성 인식의 결과로서 사용자에게 제공하는 방법 및 이를 특징으로 하는 노래방용 음성 인식 반주기 및 목차본, 리모컨 장치.
소음이 큰 노래방 환경에서 음성 인식률을 높이기 위해, 반주기의 반주 소리와 노래 부르는 사람의 목소리를 음성 인식용 마이크로폰 입력 신호에서 제거하기 위한 잡음 추정 방법으로서,
마이크로폰 입력 신호를 주파수 영역으로 변환한 뒤 수학식 1

에 의해 주파수 성분의 변화량과, 수학식 2

에 의해 시간 영역의 변화량과, 수학식 3

에 의해 현재 프레임의 IIR 평균 파워와,
수학식 4
에 의해 현재 프레임의 long term IIR 평균 파워와, 수학식 5
> c
에 의해 현재 프레임의 파워와 실험적으로 얻은 임계치와 비교함으로써 현재 프레임의 입력 신호가 잡음인지 목적 신호인지를 추정하는 방법 및 이를 특징으로 하는 음성 인식 전처리 방법.
청구항 2에서 추정된 잡음 성분을 목적 신호에서 차감하기 위하여 수학식 6

에 의해 입력 신호와 잡음 신호의 비(ratio)를 계산하고, 수학식 7
의 위너 필터를 기반으로 수학식 8
의 이득을 입력 신호에 곱한 후 수학식 9
에서 잡음 성분만을 추정한 뒤, 수학식 10

의 계수를 사용하는 적응 필터에 입력 신호를 통과시킴으로써 목적 신호 구간내의 잡음 성분을 최소화하는 잡음 제거 방법 및 이를 특징으로 하는 음성 인식 전처리 방법.
청구한 2에 있어서, 잡음에 섞인 목적 신호의 시작점과 끝점을 지정하여 음성 인식에 필요한 유효한 데이터를 획득하기 위한 수학식 1,2 에 의한 입력 신호의 변화량(variance) 측정 방법에 과거값을 포함한 버퍼링 기법을 추가하여 초성의 자음과 같이 소실되기 쉬운 유효 데이터까지 포함하여 음성 인식 엔진으로 전송하는 음성 인식 전처리 방법.
상기 제 2, 3, 4 항에 의해 획득한 유효 데이터에 대하여 주파수 성분의 평균 파워와 포만트 주파수의 분포를 측정하여 남자 혹은 여자의 목소리인지를 구분한 후 데이터 베이스상의 남녀 음소 데이터와 비교하고, 말하는 속도가 현저히 다른 경우나 긴 노래 제목(예 : 그녀를 만나는 곳 백미터전)에 대해서도 입력 신호의 시간 축 및 주파수 축 변화량에 대한 IIR(Infinite Impulse Response) 평균을 계산하는 방법으로 유효한 데이터로 인지하여 음성 인식률을 향상시키는 방법 및 이를 특징으로 하는 음성 인식 노래 반주 장치.
리모컨에 장착된 마이크가 FM 변조 및 블루투스, IR 방식등의 원격 전송부를 통해, 또는 반주기에 연결된 마이크에 의해 사용자의 음성이 반주기에 전달되어 반주기에 탑재된 소프트웨어에서 음성 인식된 단어와 유사한 곡명 5~20 여개를 화면 표시부에 표시하고 사용자가 그중 한곡을 선택하여 그에 해당하는 곡명의 키워드를 반주기에 전송하여 반주기가 노래의 반주곡을 재생하는 방법.
목차본에 장착된 마이크에 의해 사용자의 음성이 목차본에 탑재된 전처리 및 음성 인식 프로그램에 전달되어 기저장된 데이터베이스의 파라메타와 비교하여 음성 인식된 단어와 유사한 곡명 5~20 여개를 화면 표시부에 표시하고 사용자가 그중 한곡을 선택하여 그에 해당하는 곡명의 키워드를 주파수 변조 및 블루투스, 적외선 방식등의 원격 전송부를 통해 반주기에 전송하여 반주기가 노래의 반주곡을 재생하는 방법.