KR20100086457A - 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법 - Google Patents

노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법 Download PDF

Info

Publication number
KR20100086457A
KR20100086457A KR1020100066798A KR20100066798A KR20100086457A KR 20100086457 A KR20100086457 A KR 20100086457A KR 1020100066798 A KR1020100066798 A KR 1020100066798A KR 20100066798 A KR20100066798 A KR 20100066798A KR 20100086457 A KR20100086457 A KR 20100086457A
Authority
KR
South Korea
Prior art keywords
speech recognition
noise
song
input signal
equation
Prior art date
Application number
KR1020100066798A
Other languages
English (en)
Other versions
KR101249549B1 (ko
Inventor
조정권
Original Assignee
조정권
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조정권 filed Critical 조정권
Priority to KR1020100066798A priority Critical patent/KR101249549B1/ko
Publication of KR20100086457A publication Critical patent/KR20100086457A/ko
Application granted granted Critical
Publication of KR101249549B1 publication Critical patent/KR101249549B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/211User input interfaces for electrophonic musical instruments for microphones, i.e. control of musical parameters either directly from microphone signals or by physically associated peripherals, e.g. karaoke control switches or rhythm sensing accelerometer within the microphone casing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

본 발명은 노래방과 같이 노래와 반주기의 소음이 심한 환경에서 음성 인식 기술을 이용하여 노래 제목을 검색하는 반주기나 목차본, 그리고 리모컨과 같은 원격 제어 장치 및 그에 관련된 구현 방법에 관한 것이다.
본 발명에 의한 음성 인식 노래 반주기 및 이에 관련된 원격 제어 장치는 사용자의 음성을 입력받는 마이크로폰(이하 마이크)과 프리 앰프부; 프리앰프를 통과한 사용자의 음성을 분석하여 주파수 영역으로 변환한 후 특징 파라메타를 추출하는 음성 분석부; 미리 저장된 노래들에 대한 특징 파라메타들과 비교하는 음성 인식부; 인식된 특정 노래의 키워드를 사용하여 기존 보관되어 있는 노래들의 데이터 저장부에서 일치되는 노래를 검색하여 사용자에 의해 선택된 노래를 선택할 수 있는 노래 데이터 저장부; 음성 인식 및 검색 프로그램을 실행하는 마이크로프로세서 및 주 메모리부; 마이크로프로세서에서 실행된 프로그램에 의해 검색된 메뉴 및 검색된 노래들의 정보들을 표시하는 화면 표시부; 외부 버튼 조작에 의해 프로그램을 부수적으로 제어하기 위한 키패드; 반주기와 원격 제어 장치와의 음성 및 검색 정보 송수신을 위한 원격 송신부를 포함한다.
본 발명에 의하면, 주파수 영역에서의 스펙트럼 차감법 및 이득 조절 방법으로 마이크로부터 입력된 사용자의 음성에서 환경 및 반주기 소음을 효과적으로 제거하고 음성 인식률을 향상시킨 뒤 음성 인식된 키워드를 사용하여 반주기 또는 원격제어장치에 저장된 노래를 검색하여 반주기를 실행할 수 있다.
본 발명은 노래방과 같이 노래와 반주기의 소음이 심한 환경에서 음성 인식 기술을 이용하여 노래 제목을 검색하는 반주기나 목차본, 그리고 리모컨과 같은 원격 제어 장치 및 그에 관련된 구현 방법에 관한 것이다.

Description

노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법{Song searching method and device using voice recognition technology in karaoke environment}
본 발명은 소음이 심한 환경에서 목적 신호만을 추출하는 신호처리 알고리즘을 사용한 뒤, 음성 인식 기술을 이용하여 노래방에서 사용자가 원하는 노래를 음성으로 검색할 수 있게 하여 어두운 조명하에서 노래책을 찾거나, 리모컨 또는 목차본의 키보드를 사용하는 불편함을 없앨 수 있는 음성 인식 기능을 구비한 노래 반주기와 원격 제어 장치에 관한 것이다.
노래방의 제목 안내책에 수록된 노래들은 신곡이 추가됨에 따라 순서대로 게재되지 못하여 찾기가 불편해지고, 환경적으로 대체로 조명이 어둡기 때문에 노래 제목을 검색하는데 많은 시간과 노력이 필요하다.
종래의 기술에 의하면, 원격제어용 목차본 또는 리모컨을 사용하여 앞소절에 해당하는 노래를 화면에 순차적으로 표시하여 검색이 용이하도록 하였다. 그러나 이 방법 역시 글자를 일일이 타이핑해야 하는 불편함이 남는다. 원하는 노래 제목을 마이크에 발성함으로써 제목을 실시간으로 찾아주기 위해서는 2~10만여곡의 노래 제목에 대한 음성 인식률이 높아야 하며, 동행한 사람이 노래를 부르는 경우 반주기 소리와 더불어 큰 소음이 발생하는 경우에도 상용화할 수 있는 정도의 인식률이 보장되어야 한다.
본 발명은 상기와 같은 문제점을 해결하기 위해 고안된 것으로서, 마이크에 입력된 사용자의 음성에서 잡음을 제거하고 음성 인식 기술로 곡명에 대한 키워드를 검출한 뒤, 반주기에 저장된 노래를 실행할 수 있게 하는 신호 처리 알고리즘을 개발하고, 이를 실시간으로 처리할 수 있는 하드웨어 시스템을 구현하는 방법을 제공하는데 그 목적이 있다.
상기의 목적을 달성하기 위한 본 발명에 따른 디지털 신호 처리 기법을 이용하여 환경 및 반주기, 사람의 노래 소음을 효과적으로 제거하고, 음성 인식률을 향상시킨 뒤 원하는 노래의 키워드를 검색하고, 반주기 또는 목차본에 기저장된 노래를 선택하여 실행한다. 잡음을 제거하기 위해 마이크 입력 신호를 주파수 영역으로 변환한 뒤 신호의 통계적 특성과 파워비를 측정하여 잡음으로 판단되면 이득 조절기가 작동되고 목적 신호 구간에서는 기추정된 잡음의 스펙트럼을 차감하는 방법을 사용한다. 음성 인식률을 향상시키기 위해 입력신호의 주파수축 및 시간축의 변화량을 측정하여 목적 신호의 시작점과 끝점을 정확히 추출하고, 버퍼링된 유효 음성 데이터를 음성 인식 프로그램에 전달한다. 반주기 또는 목차본의 데이터베이스에 저장된 노래들의 기저장된 특징 파라메타와 비교하여 음성 인식된 키워드가 원격 송수신부를 통하여 반주기에 전달되어 반주를 시작하게 된다.
본 발명에 따르면, 소음이 심한 노래방 환경에서 사용자가 마이크를 이용하여 노래방 반주기 또는 목차본에 저장된 노래들을 음성으로 검색, 실행할 수 있게 되어 어두운 조명하에서 노래책을 찾거나 리모컨의 키보드를 치지 않아도 원하는 곡명을 검색하는 효과를 거둘 수 있다.
도 1은 단채널 잡음 제거 알고리즘의 블록도를 도시하는 도면이다.
도 2는 잡음 제거후 음성 인식기술을 이용하여 곡목을 검색하는 시스템의 순서도를 도시하는 도면이다.
도 3은 음성 인식을 이용한 반주기와 원격 제어장치 간의 관계를 도시하는 도면이다.
도 4는 도2에 설명된 예시적 프로그램 모듈들을 실시간 처리하기 위한 하드웨어 보드의 블록도를 도시한 도면이다.
이하 본 발명의 이론 및, 구성과 작용을 상세히 설명한다.
음성 인식률을 높이기 위한 신호 처리 방법
음성 인식 프로그램의 인식률은 입력 신호의 잡음 포함 여부에 크게 좌우되기 때문에 노래방과 같은 소음이 큰 환경에서 음성 인식 기법을 이용하기 위해서는 효과적인 잡음 제거 기술이 필수적이다.
일반적인 단채널 잡음 제거 시스템은 주파수 도메인에서 이루어지며, 각각의 주파수 성분의 감쇄 혹은 이득 정도를 결정해서 음성의 크기를 추정한다. 이는 음성과 잡음이 섞여 입력되는 신호는 단구간 내에서 잡음이 음성에 비해 상대적으로 변화량이 적은 특성을 이용하여 주변 잡음을 제거하는 방법이다.
제안된 1 mic 잡음 제거 시스템의 블록도를 도 1에 나타내었다. 도 1의 1 mic 음질 향상 시스템은 음성에 잡음이 더해진 입력 신호 y(t) 의 주파수 성분 Y(k,l) 의 크기 정보로부터 잡음 D(k,l) 의 파워 스펙트럼을 추정하고, 이를 이용하여 이득 G(k,l) 를 추정한 후, 입력의 크기 신호 스펙트럼에 곱한 후(noise spectral subtraction) 역 FFT (Inverse Fast Fourier Transform)를 이용해 음성을 합성한다.
만일 잡음 구간이라고 추정되면 이득 조절기(Gain controller)에서 입력 신호에 대한 크기를 줄이는 역할을 하게 되며, 이득 조절기를 사용하지 않는 조건이라면 잡음의 주파수 성분을 차감한 후의 잔여 성분을 출력시키게 된다.
마이크 입력신호의 통계적 특성중 주파수축의 변화량과 시간축의 변화량을 계산하여 잡음 구간과 목적 신호 구간의 변화량 추이를 조사하여 잡음 구간과 목적 신호 구간을 구분한다.
주파수 영역에서 각 주파수 성분의 파워를
Figure pat00001
,
Figure pat00002
의 평균을
Figure pat00003
, 해당 프레임의 전체 파워를
Figure pat00004
라 하면 주파수 영역에서의 정규화된 변화량, 즉 주파수 편평도는 수학식 1로 표현된다.
[수학식 1]
Figure pat00005

여기서
Figure pat00006
는 실험적으로 얻어진 임계치이다.
시간 영역에서 한 프레임의 파워를
Figure pat00007
,
Figure pat00008
의 평균을
Figure pat00009
, 해당 프레임의 전체 파워를
Figure pat00010
라 하면 시간 영역에서의 정규화된 변화량은 수학식 2 로 표현된다.
[수학식 2]
Figure pat00011

여기서
Figure pat00012
는 실험적으로 얻어진 임계치이다.
상기 수학식 1 과 2에서 계산된 변화량이 실험적으로 얻어진 임계치보다 큰 경우에는 목적 신호로 간주할 수 있다.
목적 신호를 추정할 수 있는 또 다른 파라메타로서 입력 신호의 파워를 오랜 시간동안 IIR(Infinite Impulse Response) 평균을 2번 사용하고 현재 프레임 파워와 비교하는 방법이 있다.
현재 프레임의 IIR 평균 파워는 수학식 3과 같이 계산된다.
[수학식 3]
Figure pat00013

여기서
Figure pat00014
는 0과 1사이의 IIR 스무딩 계수이며,
Figure pat00015
는 현재 프레임의 IIR 평균 파워,
Figure pat00016
은 이전 프레임의 파워이다.
Figure pat00017
Figure pat00018
보다 일정 배수 이하의 프레임에 해당하는 파워에 대해서 IIR(Infinite Impulse Response) 평균을 다시 계산하면 수학식 4와 같다.
[수학식 4]
Figure pat00019

여기서
Figure pat00020
는 0과 1사이의 IIR 스무딩 계수이며,
Figure pat00021
는 현재 프레임의 long-term IIR 평균 파워,
Figure pat00022
은 이전 프레임의 파워이다.
수학식 4에서 계산된
Figure pat00023
는 변화량이 급격하게 큰, 즉 큰 입력 신호에 대해서는 평균 계산에 참여하지 않게 되어 대체로 잡음 성분들의 프레임 파워를 보여 주게 된다.
따라서 마이크 입력 신호의 현재 프레임의 파워가
Figure pat00024
의 일정 배수보다 큰 경우에는 목적 신호로 간주할 수 있다.
[수학식 5]
Figure pat00025

여기서
Figure pat00026
는 현재 프레임의 파워, c 는 실험적으로 목적 신호로 간주할 수 있는 배수로 임의의 상수이다.
상기 수학식 1에서 5까지 사용하여 추정된 잡음 구간의 프레임 파워
Figure pat00027
과 입력 신호의 프레임 파워인
Figure pat00028
와의 IIR 평균된 신호대잡음비를 수학식 6과 같이 계산한다.
[수학식 6]
Figure pat00029

여기서
Figure pat00030
은 이전 프레임의 파워이며
Figure pat00031
는 0과 1사이의 IIR 스무딩 계수,
Figure pat00032
는 절대치 연산자이다.
잡음 제거 알고리즘 중에 보편적으로 많이 사용하는 위너(Wiener) 필터를 이용하고 수학식 6을 적용하면 수학식 7과 같이 표현된다.
[수학식 7]
Figure pat00033

도 1에서 입력 신호의 주파수 성분에 곱해지는 이득은 아래의 수학식 8로 표현된다.
[수학식 8]
Figure pat00034

여기서
Figure pat00035
은 잡음 성분의 감쇄 계수(Attenuation Level)이며 클수록 잡음 성분을 많이 감쇄시킨다.
입력 신호에 대하여
Figure pat00036
를 곱하여 주파수 대역에서의 잡음 성분을 줄였으나, 목적 신호내의 잡음 성분을 좀 더 많이 제거하기 위해 수학식 8의
Figure pat00037
를 곱하여 얻은 목적 신호를 입력 신호
Figure pat00038
에서 뺀 추정된 잡음 신호
Figure pat00039
를 수학식 9와 같이 계산한다.
[수학식 9]
Figure pat00040

정규화된 복소수 LMS(Least Mean Square)알고리즘을 이용한 적응 필터의 계수
Figure pat00041
를 갱신하는 방법으로 steepest descent 기반의 알고리즘을 적용하며 수학식 10과 같이 표현된다.
[수학식 10]
Figure pat00042

여기서
Figure pat00043
은 n-1 번째 입력신호,
Figure pat00044
은 n-1 번째까지 추정된 잡음 신호,
Figure pat00045
은 n-1번째 출력 신호,
Figure pat00046
는 수렴속도를 결정하는 상수,
Figure pat00047
은 노름(norm) 연산자이다.
또한 잡음으로 추정되는 구간에서는 이득 조절기가 작동되어 입력 신호의 레벨을 줄인 후 출력시킴으로써 음성 인식기가 작동되지 않도록 억제하여 사용자의 음성이 아닌 소음에 의해 곡목이 검색되는 오류를 방지할 수 있다.
노래방 반주기와 목차본 , 리모컨 간의 데이터 정보 교환
도 2에 도시된 바와 같이 마이크 입력 신호(200)는 저역 통과 필터를 포함한 프리앰프(210)을 거쳐서 음성 대역의 신호만 통과시킨 뒤, 코덱에 전달되어 아날로그 신호가 디지털 신호로 변환되고(220) 마이크로프로세서(250)와 주메모리(270)에서 잡음 제거 알고리즘 및 음성 인식 프로그램이 실행되어 기저장된 노래 제목 데이터베이스의 파라메타들과 비교하여 키워드를 검색하고(280) 키보드나 키패드를 이용하여 보조적으로 필요한 정보들을 입력하여(240) 원하는 정보가 화면에 표시되고(230) 리모컨이나 목차본의 검색 정보나 키워드가 원격 송수신단을 거쳐(260) 반주기에 전달되어 노래 반주가 실행된다.(290) 잡음 제거 알고리즘을 구현한 소프트웨어와 음성 인식 프로그램이 목차본이나 반주기에 독자적으로 탑재되어 검색된 키워드에 의한 노래를 반주할 수도 있고, 리모컨의 마이크에 입력된 음성 신호를 반주기에 원격 전송하여 반주기에 탑재된 잡음 제거 및 음성 인식 소프트웨어를 구동하여 곡명을 검색한 후 노래를 반주할 수도 있다.
도 3에 도시된 바와 같이 마이크에 입력된 음성이(300) 코덱을 거쳐 디지털 신호로 변환 된 후 마이크로프로세서와 주메모리에서 잡음 존재 여부를 판단하고(310) 잡음이 있으면 잡음 제거 알고리즘에 의하여 잡음이 제거되면서 이득 조절기가 작동되어(320) 목적 신호의 특징 및 파라메타를 추출하고(330), 미리 계산된 노래 제목의 파라메타를 저장한 데이터베이스와(350) 입력된 신호로부터 추출된 파라메타와 비교하여(340) 두 파라메타사이의 거리가 가까운 후보곡들을 화면에 표시하고(360) 후보곡 들 중 사용자가 원하는 곡이 있으면 음성이나 보조 버튼을 이용하여 곡목을 선택하여(370) 노래 반주기가 작동하게 된다.(380)
실시간 처리를 위한 하드웨어 개발
도 4는 도 2에서 도시한 순서도를 구현한 프로그램을 실시간으로 동작시키기 위한 독립적인 하드웨어 시스템에 대한 블록도이다.
Arm 920T 프로세서 또는 범용 프로세서와 Philips CODEC UDA1341TS 또는 AD(아날로그-디지털) 컨버터를 기반으로 하는 실시간 처리 보드를 도 4에서 제시된 블록도를 기반으로 개발하였다.
2 개의 마이크로부터 들어오는 입력 신호는 컷오프 주파수 17KHz의 1차 저역 통과 회로를 포함한 프리앰프(400)에서 증폭되어 UDA1341TS 스테레오 코덱(410)에서 44.1KHz 의 샘플링 주파수에 의해 디지털 값으로 변환된다. 도 2의 순서도에서 제시한 알고리즘을 C 와 Arm 920T의 어셈블리 언어로 구현한 프로그램이 최적화 된 후 Arm 920T(430)에서 동작함으로써 입력 신호에 포함된 잡음을 실시간으로 제거하고 특징 파라메타를 추출하여 음성 인식 프로그램에 의하여 원하는 곡목을 검색한다. 자주 검색된 곡들은 EEPROM(480)에 자동 저장하여 많이 불리는 노래에 대한 검색 시간을 단축하여 사용자 편의성 위주의 하드웨어를 설계하였다. 사용자의 환경에 따라 기능을 세밀히 변경할 수 있도록 외부에 버튼(420)과 PC 또는 다른 장비에 연결하여 데이터를 주고 받을 수 있는 연결 장치(440)를 제공하였고, 프로그램을 탑재하고 변경하기 쉽게 플래쉬 메모리(450)를 사용하였다. 소프트웨어의 저작권 보호를 위하여 복제 방지용 보안칩(460)을 장착하였으며, 사용자가 장비의 사용 상태 및 제어를 쉽게 하기 위하여 전면 패널부(470)에 프로그램의 동작 상태 및 버튼 사용 여부를 표시하는 LED 를 장착하였다.
노래방과 같은 소음이 큰 환경에서 마이크 입력 신호에 포함된 잡음을 제거하고 음성 인식 기술을 이용하여 곡명을 검색한 뒤 반주기에서 노래를 반주하는 알고리즘과 실시간 처리를 위한 하드웨어에 대한 상기 기술은 예시 및 설명을 위해 제시되었다. 수학식이나 도면의 정확한 형태로 본 발명을 총망라하거나 한정하려는 것은 아니다. 상기 내용을 응용하여 많은 변경들과 변형들이 가능할 수 있고, 일부 수학식이나 실시 예들을 임의로 조합하여 사용할 수도 있다. 본 발명의 범위는 이러한 상세한 설명이나 도면, 또는 수학식에 의해서가 아니라 여기에 첨부된 청구항들에 의해 한정되어야 한다.
200 : 마이크 신호 입력 모듈
210 : 잡음 존재 여부 확인 모듈
220 : 잡음 제거 및 이득 조절기 사용 모듈
230 : 목적 신호 특징 및 파라메타 추출 모듈
240 : 기존 저장된 파라메타와의 비교 모듈
250 : 곡목에 대하여 미리 계산된 파라메타 데이터베이스 저장 모듈
260 : 검색된 후보 곡목들을 화면에 표시하는 모듈
270 : 원하는 곡목을 음성이나 버튼으로 선택하는 모듈
280 : 반주기 자체 또는 원격 제어 장치에서 받은 키워드로 노래를 반주하는 모듈

Claims (7)

  1. 노래방과 같이 시끄러운 환경에서 반주기, 목차본, 리모컨등의 장비가 음성 인식 기술을 이용하여 노래 제목을 검색하기 위한 방법으로서, 노래 제목, 가사, 음성 인식을 위한 파라메타, 동작 프로그램, 하드웨어 장비의 구동 드라이버를 저장하고 있는 데이타 저장부; 마이크로폰과 저주파 통과 필터를 포함한 프리 앰프부; 프로그램이 동작하기 위한 마이크로프로세서와 메인 메모리부, 전원을 켰을 때 전자 부품과 장비를 구동하기 위한 펌웨어 프로그램을 내장한 플래시 메모리부; 프로그램과 장비의 동작 상태를 표시하는 디스플레이부; 그리고, 주파수 변조 및 블루투스, 적외선 방식의 회로로 구선된 데이터 원격 송수신부를 포함한 하드웨어 상에서 잡음을 제거한 후 음성 인식 프로그램을 동작시켜 몇 개의 후보곡을 음성 인식의 결과로서 사용자에게 제공하는 방법 및 이를 특징으로 하는 노래방용 음성 인식 반주기 및 목차본, 리모컨 장치.
  2. 소음이 큰 노래방 환경에서 음성 인식률을 높이기 위해, 반주기의 반주 소리와 노래 부르는 사람의 목소리를 음성 인식용 마이크로폰 입력 신호에서 제거하기 위한 잡음 추정 방법으로서,
    마이크로폰 입력 신호를 주파수 영역으로 변환한 뒤 수학식 1
    Figure pat00048
    에 의해 주파수 성분의 변화량과, 수학식 2
    Figure pat00049
    에 의해 시간 영역의 변화량과, 수학식 3
    Figure pat00050
    에 의해 현재 프레임의 IIR 평균 파워와,
    수학식 4
    Figure pat00051
    에 의해 현재 프레임의 long term IIR 평균 파워와, 수학식 5
    Figure pat00052
    > c
    Figure pat00053
    에 의해 현재 프레임의 파워와 실험적으로 얻은 임계치와 비교함으로써 현재 프레임의 입력 신호가 잡음인지 목적 신호인지를 추정하는 방법 및 이를 특징으로 하는 음성 인식 전처리 방법.
  3. 청구항 2에서 추정된 잡음 성분을 목적 신호에서 차감하기 위하여 수학식 6
    Figure pat00054
    에 의해 입력 신호와 잡음 신호의 비(ratio)를 계산하고, 수학식 7
    Figure pat00055
    의 위너 필터를 기반으로 수학식 8
    Figure pat00056
    의 이득을 입력 신호에 곱한 후 수학식 9
    Figure pat00057
    에서 잡음 성분만을 추정한 뒤, 수학식 10
    Figure pat00058
    의 계수를 사용하는 적응 필터에 입력 신호를 통과시킴으로써 목적 신호 구간내의 잡음 성분을 최소화하는 잡음 제거 방법 및 이를 특징으로 하는 음성 인식 전처리 방법.
  4. 청구한 2에 있어서, 잡음에 섞인 목적 신호의 시작점과 끝점을 지정하여 음성 인식에 필요한 유효한 데이터를 획득하기 위한 수학식 1,2 에 의한 입력 신호의 변화량(variance) 측정 방법에 과거값을 포함한 버퍼링 기법을 추가하여 초성의 자음과 같이 소실되기 쉬운 유효 데이터까지 포함하여 음성 인식 엔진으로 전송하는 음성 인식 전처리 방법.
  5. 상기 제 2, 3, 4 항에 의해 획득한 유효 데이터에 대하여 주파수 성분의 평균 파워와 포만트 주파수의 분포를 측정하여 남자 혹은 여자의 목소리인지를 구분한 후 데이터 베이스상의 남녀 음소 데이터와 비교하고, 말하는 속도가 현저히 다른 경우나 긴 노래 제목(예 : 그녀를 만나는 곳 백미터전)에 대해서도 입력 신호의 시간 축 및 주파수 축 변화량에 대한 IIR(Infinite Impulse Response) 평균을 계산하는 방법으로 유효한 데이터로 인지하여 음성 인식률을 향상시키는 방법 및 이를 특징으로 하는 음성 인식 노래 반주 장치.
  6. 리모컨에 장착된 마이크가 FM 변조 및 블루투스, IR 방식등의 원격 전송부를 통해, 또는 반주기에 연결된 마이크에 의해 사용자의 음성이 반주기에 전달되어 반주기에 탑재된 소프트웨어에서 음성 인식된 단어와 유사한 곡명 5~20 여개를 화면 표시부에 표시하고 사용자가 그중 한곡을 선택하여 그에 해당하는 곡명의 키워드를 반주기에 전송하여 반주기가 노래의 반주곡을 재생하는 방법.
  7. 목차본에 장착된 마이크에 의해 사용자의 음성이 목차본에 탑재된 전처리 및 음성 인식 프로그램에 전달되어 기저장된 데이터베이스의 파라메타와 비교하여 음성 인식된 단어와 유사한 곡명 5~20 여개를 화면 표시부에 표시하고 사용자가 그중 한곡을 선택하여 그에 해당하는 곡명의 키워드를 주파수 변조 및 블루투스, 적외선 방식등의 원격 전송부를 통해 반주기에 전송하여 반주기가 노래의 반주곡을 재생하는 방법.
KR1020100066798A 2010-07-12 2010-07-12 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 KR101249549B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100066798A KR101249549B1 (ko) 2010-07-12 2010-07-12 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100066798A KR101249549B1 (ko) 2010-07-12 2010-07-12 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치

Publications (2)

Publication Number Publication Date
KR20100086457A true KR20100086457A (ko) 2010-07-30
KR101249549B1 KR101249549B1 (ko) 2013-04-01

Family

ID=42645019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100066798A KR101249549B1 (ko) 2010-07-12 2010-07-12 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치

Country Status (1)

Country Link
KR (1) KR101249549B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101249228B1 (ko) * 2011-09-21 2013-04-01 티제이미디어 주식회사 노래 반주기와 노래 반주기 시스템의 노래검색 작동방법 및 노래 반주기 시스템
KR101402287B1 (ko) * 2012-10-29 2014-06-02 (주)제이유디지탈 잡음 제거 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100376659B1 (ko) * 2000-09-18 2003-03-19 표주찬 음성인식에 의한 검색 기능을 구비한 가요반주기용원격제어장치 및 그 원격제어방법
KR20030075316A (ko) * 2002-03-18 2003-09-26 주식회사 아이티매직 노래방 기계용 음성 인식 방법 및 그 시스템
KR20040074538A (ko) * 2003-02-19 2004-08-25 이성태 노래선곡 시스템 및 노래선곡 서비스 방법
KR100930061B1 (ko) * 2008-01-22 2009-12-08 성균관대학교산학협력단 신호 검출 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101249228B1 (ko) * 2011-09-21 2013-04-01 티제이미디어 주식회사 노래 반주기와 노래 반주기 시스템의 노래검색 작동방법 및 노래 반주기 시스템
KR101402287B1 (ko) * 2012-10-29 2014-06-02 (주)제이유디지탈 잡음 제거 장치

Also Published As

Publication number Publication date
KR101249549B1 (ko) 2013-04-01

Similar Documents

Publication Publication Date Title
CN109087669B (zh) 音频相似度检测方法、装置、存储介质及计算机设备
JP6519877B2 (ja) 音声信号を発生するための方法及び装置
TWI590228B (zh) 語音控制系統、電子裝置及語音控制方法
US20190172480A1 (en) Voice activity detection systems and methods
CN106128451B (zh) 用于语音识别的方法及装置
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
US20020049587A1 (en) Speech recognition method, storage medium storing speech recognition program, and speech recognition apparatus
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
KR20050086378A (ko) 이동 장치의 다감각 음성 개선을 위한 방법 및 장치
CN107533848B (zh) 用于话音恢复的***和方法
EP1998320A1 (en) System and method for evaluating performance of microphone for long-distance speech recognition in robot
JP2009271359A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
A Al-Karawi et al. Automatic speaker recognition system in adverse conditions—implication of noise and reverberation on system performance
CN111048061B (zh) 回声消除滤波器的步长获取方法、装置及设备
CN110349598A (zh) 一种低信噪比环境下的端点检测方法
KR101312451B1 (ko) 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP2001005486A (ja) 音声処理装置及び方法
WO2006114101A1 (en) Detection of speech present in a noisy signal and speech enhancement making use thereof
KR20100086457A (ko) 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법
US20150162014A1 (en) Systems and methods for enhancing an audio signal
TW200926141A (en) Speech recognition system and method with cepstral noise subtraction
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
US9875755B2 (en) Voice enhancement device and voice enhancement method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160923

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee