KR20210086086A

KR20210086086A - 음악 신호 이퀄라이저 및 이퀄라이징 방법

Info

Publication number: KR20210086086A
Application number: KR1020190179784A
Authority: KR
Inventors: 허훈; 김기범; 손상모; 김선민; 조재연; 최석재
Original assignee: 삼성전자주식회사
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: WO2021137551A1; US11515853B2; US20210203298A1

Abstract

이퀄라이저가 개시된다. 본 이퀄라이저는 복수의 음악 속성별로 설정된 EQ값 및 범용 EQ값이 저장된 메모리 및 입력 음악 신호의 속성을 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하고 복수의 확률값들 사이의 중도 지수를 산출하며, 복수의 확률값 및 중도 지수에 기초하여 적용 EQ값을 생성하고, 적용 EQ값을 입력 음악 신호에 적용하여 이퀄라이징하는 프로세서를 포함한다.

Description

음악 신호 이퀄라이저 및 이퀄라이징 방법{EQUALIZER FOR EQUALIZATION OF MUSIC SIGNALS AND METHODS FOR THE SAME}

본 개시는 음악 신호 이퀄라이저 및 이퀄라이징 방법에 관한 것으로, 보다 구체적으로는 음악 신호를 자동으로 이퀄라이징하는 이퀄라이저 및 이퀄라이징 방법에 관한 것이다.

대부분의 음악 재생 기기들은 이퀄라이저(equalizer, EQ)와 같은 음향 효과를 제공한다. 이퀄라이저는 오디오 신호의 주파수 대역별로 다른 이득값(gain)을 적용하는 오디오 신호처리 기법으로, 일반적으로 음악 장르에 따라 다른 EQ 설정값을 갖도록 정의된다. EQ 음향 효과를 적용함으로써 사용자는 부족한 스피커 재생 성능을 보완하거나 개인의 음색적 선호도를 반영할 수 있다.

다만, EQ 효과를 사용자가 직접 선택하게 하는 종래의 방식의 경우, 듣고 있는 음악이 바뀔 때마다 매번 EQ 효과를 다시 설정하는 것은 사용자의 입장에서 무척 번거롭고, 음색에 대한 명확한 기준을 가지고 있지 않을 가능성이 높은 통상의 사용자들에게 EQ 효과 선택에 대한 판단을 요구한다는 문제점이 있었다.

본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 음악 신호의 특징을 파악하여 이에 맞는 EQ 효과를 자동으로 생성하고 음악 신호에 적용시킴으로써 음질을 향상시키고 음악 재생 시스템의 사용성을 개선하는 이퀄라이저 및 이퀄라이징 방법을 제공함에 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 이퀄라이저는, 복수의 음악 속성별로 설정된 EQ값 및 범용 EQ값이 저장된 메모리 및 프로세서를 포함하며, 상기 프로세서는, 입력 음악 신호의 속성을 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하고 상기 복수의 확률값들 사이의 중도 지수를 산출하며, 상기 복수의 확률값 및 상기 중도 지수에 기초하여 적용 EQ값을 생성하고, 상기 적용 EQ값을 상기 입력 음악 신호에 적용하여 이퀄라이징을 한다.

한편, 상기 프로세서는 상기 입력 음악 신호가 입력되면 상기 입력 음악 신호의 데이터 크기를 줄이는 전처리 동작을 수행할 수 있다.

이 경우, 상기 프로세서는 상기 데이터 크기가 줄어든 상기 입력 음악 신호를 2차원 시간-주파수 신호로 변환하여, 상기 합성곱 신경망의 입력으로 제공할 수 있다.

이 경우, 상기 프로세서는,

와 같은 수학식을 이용하여 상기 중도 지수를 산출할 수 있다. 상기 수학식에서 M은 중도 지수, p_i는 각 속성별 확률값, n은 전체 속성의 개수이다.

이 경우, 상기 프로세서는

및

와 같은 수학식을 이용하여 상기 적용 EQ값을 생성할 수 있다. 상기 수학식에서 G_eq는 적용 EQ값, M은 중도 지수, G_moderate는 범용 EQ값, G_attribute 는 복수의 음악 속성을 반영한 gain값, G_i는 각 속성별로 설정된 EQ값, p_i는 각 속성별 확률값이다.

한편, 상기 음악 속성은 음색과 관련된 라우드(Loud) 속성 및 소프트(Soft) 속성과, 리듬의 복잡도와 관련된 다이나믹(Dynamic) 속성 및 슬로우(Slow) 속성 중 적어도 하나의 속성을 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 이퀄라이징 방법은 입력 음악 신호의 속성을 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하는 단계, 각 확률값들 사이의 중도 지수를 산출하는 단계, 상기 확률값 및 상기 중도 지수에 기초하여 적용 EQ값을 생성하는 단계 및 상기 적용 EQ값을 상기 입력 음악 신호에 적용하여 이퀄라이징하는 단계를 포함한다.

이 경우, 상기 이퀄라이징 방법은 상기 음악 신호가 입력되면 상기 음악 신호의 데이터 크기를 줄이는 단계를 더 포함할 수 있다.

이 경우, 상기 입력 음악 신호의 데이터 크기를 줄이는 단계는 상기 데이터 크기가 줄어든 상기 입력 음악 신호를 2차원 시간-주파수 신호로 변환하는 단계를 더 포함할 수 있다.

한편, 상기 각 확률값들 사이의 중도 지수를 산출하는 단계는,

한편, 상기 속성 값 및 상기 중도 지수에 기초하여 상기 적용 EQ값을 생성하는 단계는

및

와 같은 수학식을 이용하여 상기 적용 EQ값을 생성할 수 있다. 상기 수학식에서 G_eq는 적용 EQ값, M은 중도 지수, G_moderate는 범용 EQ값, G_attribute는 복수의 음악 속성을 반영한 gain값, G_i는 각 속성별로 설정된 EQ값, p_i는 각 속성별 확률값이다.

한편, 상기 이퀄라이징 방법에 있어서 상기 음악 속성은 음색과 관련된 라우드(Loud) 속성 및 소프트(Soft) 속성과, 리듬의 복잡도와 관련된 다이나믹(Dynamic) 속성 및 슬로우(Slow) 속성 중 적어도 하나의 속성을 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 이퀄라이징을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능 기록 매체에 있어서 상기 이퀄라이징은, 입력 음악 신호가 입력되면 상기 입력 음악 신호의 데이터 크기를 줄이는 단계, 상기 데이터 크기가 줄어든 상기 입력 음악 신호를 2차원 시간-주파수 신호로 변환하여, 합성곱 신경망의 입력으로 제공하는 단계, 상기 입력 음악 신호의 속성을 상기 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하는 단계, 각 확률값들 사이의 중도 지수를 산출하는 단계, 상기 확률값 및 상기 중도 지수의 크기에 기초하여 적용 EQ값을 생성하는 단계 및 상기 적용 EQ값을 상기 입력 음악 신호에 적용하여 이퀄라이징하는 단계를 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 이퀄라이저를 설명하기 위한 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 프로세서를 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 음악 신호의 속성별 EQ 이득 설정값을 나타내는 도면이다.
도 4는 본 개시의 일 실시 예에 따른 범용 음악 EQ 이득 설정값을 나타내는 도면이다.
도 5는 본 개시의 일 실시 예에 따른 입력 음악 신호의 적용 EQ 생성을 설명하기 위한 도면이다.
도 6은 도 5의 (A) 구간에 생성된 적용 EQ값을 설명하기 위한 도면이다.
도 7은 도 5의 (B) 구간에 생성된 적용 EQ값을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 이퀄라이징 방법을 설명하기 위한 순서도이다.
도 9는 본 개시의 일 실시 예에 따른 이퀄라이저가 다른 구성과 상호작용하는 동작을 설명하기 위한 블록도이다.

이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게, 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.

본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

그리고, 본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니다.

이하에서는 첨부된 도면을 참조하여 본 개시에 대하여 더욱 상세히 설명하도록 한다.

도 1은 본 개시의 일 실시 예에 따른 이퀄라이저를 설명하기 위한 블록도이다.

본 개시의 일 실시 예에 따른 이퀄라이저(100)는 스피커, 마이크, TV, 휴대폰, 노트북, 테블릿 PC, 데스크탑 등과 같은 다양한 기기에 적용될 수 있다.

도 1을 참조하면, 이퀄라이저(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다.

메모리(110)는 이퀄라이저(100)의 구성요소의 전반적인 동작을 제어하기 위한 운영체제(Operating System: OS) 및 이퀄라이저(100)의 구성요소와 관련된 명령 또는 데이터를 저장할 수 있다.

특히, 메모리(110)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 이퀄라이저(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.

또한, 메모리(110)에는 디스플레이(140)의 표시 영역에 제공될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다. 디스플레이(140)에 표시 영역에 제공될 각종 화면과 관련된 구체적인 설명은 도 9에서 후술하기로 한다.

특히, 메모리(110)는 복수의 음악 속성별로 기설정된 EQ값 및 범용 EQ값에 대한 정보를 저장할 수 있다. 복수의 음악 속성별로 기설정된 EQ값의 정보와 관련된 구체적인 설명은 도 3에서, 범용 EQ값의 정보와 관련된 구체적인 설명은 도 4에서 후술하기로 한다. 음악 속성이란 음악의 분류 기준으로 사용되는 것으로, 예를 들어 음악 신호에서 주로 나타나는 신호적 패턴에 따라 음악 속성을 분류할 수 있다.

EQ값이란, 이퀄라이저(100)의 이퀄라이징에 의해 생성된 gain의 값을 의미한다. EQ값은 EQ 이득 설정값, EQ 설정값, EQ 곡선 등을 의미할 수 있다.

프로세서(120)는 이퀄라이저(100)의 전반적인 동작을 제어할 수 있다. 이를 위해, 프로세서(120)는 중앙처리장치(central processing unit(CPU)), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다.

프로세서(120)는 운영 체제 또는 응용 프로그램을 구동하여 프로세서(120)에 연결된 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 또한, 프로세서(120)는 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.

프로세서(120)는 음악 신호를 입력 받고, 입력된 음악 신호의 속성을 합성곱 신경망(122-1)에 기초하여 분석할 수 있다. 합성곱 신경망(122-1)과 관련된 구체적인 설명은 도 2에서 후술하기로 한다.

프로세서(120)는 입력된 음악 신호의 복수의 음악 속성별로 확률값을 산출하고, 각 확률값들 사이의 중도 지수(M)를 산출할 수 있다. 각 속성별 확률값이란, 입력된 음악 신호 전체에 대해 각 속성이 어느 정도의 비중으로 나타나는지를 수치적으로 나타낸 값이다. 각 음악 속성별 확률값은 0과 1 사이의 실수이면서 합이 1이 되도록 정의될 수 있다.

중도 지수(moderate index, M)는 하나의 뚜렷한 음악 속성이 나타나는지, 또는 복수의 음악 속성이 비슷하게 나타나는지를 판단할 수 있는 지표이다. 중도 지수 계산(122-2)과 관련된 구체적인 설명은 도 2에서 후술하기로 한다.

프로세서(120)는 입력된 음악 신호의 복수의 음악 속성별 확률값 및 중도 지수에 기초하여 적용 EQ값을 생성하고, 적용 EQ값을 입력된 음악 신호에 적용하여 이퀄라이징 할 수 있다. EQ값 결정(123-1) 및 EQ 적용(123-2)과 관련된 구체적인 설명은 도 2에서 후술하기로 한다.

도 2는 본 개시의 일 실시 예에 따른 프로세서를 설명하기 위한 블록도이다.

도 2를 참조하면, 본 개시의 일 실시예에 따른 프로세서(120)는 전처리 모듈(121), 분석 모듈(122), EQ 처리 모듈(123)을 포함할 수 있다.

전처리 모듈(121)은 오디오 신호가 입력되면 입력된 신호의 데이터 크기를 줄일 수 있다. 오디오 신호에는 예를 들어 음악 신호가 포함될 수 있다.

전처리 모듈(Preprocessing module)(121)은 음악 신호를 입력 받아 음악 신호의 샘플레이트(sample rate)를 낮출 수 있다(121-1). 예를 들어, 일반적인 음악 신호의 샘플레이트는 44.1 kHz 또는 48 kHz이나, 전처리 모듈(121)은 음악의 특성을 분석하기에 충분한 정보를 담고 있는 낮은 샘플레이트로 다운샘플링(downsampling)할 수 있다. 음악의 특성을 분석하기에 충분한 정보를 담는 샘플 레이트는 12 kHz 내지 16 kHz 일 수 있다.

또한, 전처리 모듈(121)은 입력 받은 오디오 신호를 1채널(mono channel) 신호로 변환(downmix channel)할 수 있다(121-2). 예를 들면, 입력 오디오 신호가 스테레오 채널인 경우, 좌측 채널 또는 우측 채널의 합을 사용하거나 둘 중 하나의 채널 신호만을 사용할 수 있다.

이와 같이, 전처리 모듈(121)은 데이터 크기를 적정 수준으로 줄임으로써 후술할 분석 모듈(122)의 효율적인 연산을 가능하게 할 수 있다.

또한, 전처리 모듈(121)에서는 입력된 1차원 오디오 신호를 합성곱 신경망의 입력에 적합한 2차원 시간-주파수 표현 형태로 변환할 수 있다(121-3). 1차원 오디오 신호는, 오디오 신호가 시간-진폭 데이터 형태인 것을 의미한다.

예를 들어, FFT(fast Fourier transform)를 통한 파워 스펙트럼을 계산하는 과정을 이용하여 입력 오디오 신호를 2차원 시간-주파수 표현 형태로 변환(121-3)할 수 있다.

또한, 스펙트럼의 주파수 차원을 멜-스케일 필터뱅크(Mel-scale filterbank)에 통과시켜 저차원으로 축소하는 과정을 이용하여 입력 오디오 신호의 2차원 시간-주파수 표현 형태로 변환(121-3)할 수 있다.

이퀄라이저에 입력된 음악 신호의 데이터 크기를 줄이는 과정은 음악 신호를 합성곱 신경망에 입력하기에 적합한 시간-주파수 표현 형태로 변환하는 것을 포함할 수 있다.

분석 모듈(122)은 입력 오디오 신호의 음악 속성 분석하여 음악 속성별로 확률값을 계산하고, 해당 음악 속성이 얼마나 뚜렷하게 드러나는지의 정도를 판단할 수 있다.

이 경우, 분석 모듈(122)은 입력 오디오 신호의 음악 속성을 즉각적으로 계산할 수 있다. 오디오 신호의 입력 방법은 오디오 파일 데이터를 입력 받거나, 외부 서버를 통해 수신 받거나, 또는 마이크(150)를 통해 입력 받을 수 있다.

음악 속성의 분류 기준은 다양하게 정의될 수 있으나, 최대한 각양각색의 음악들이 모두 표현될 수 있도록 근본적인 수준에서 정의될 수 있다. 음악 장르는 기존의 음악 재생기 혹은 편집기들이 이미 정의해 놓은 EQ 설정값들과 직관적으로 연관된다는 장점이 있지만, Pop이나 Rock과 같은 대중적인 장르들의 경우 너무 다양한 세부 장르가 존재하여 하나의 대표 EQ값으로 특징지을 수 없다는 단점이 있을 수 있다. 또한 장르 기준 자체가 갖는 모호성 때문에 같은 곡에 대해서도 사람들마다 다른 장르로 인식하는 경우가 존재한다.

따라서, 음악 장르를 분류 기준으로 사용하는 대신에, 본 개시의 일 실시예에서는 음악에서 주로 나타나는 신호적 패턴에 따라 라우드(Loud), 소프트(Soft), 다이나믹(Dynamic) 및 슬로우(Slow) 네 가지의 저차원 음악 속성과 그에 맞는 EQ 설정값을 개시할 수 있다.

이상에서는 음악 장르를 네 가지 속성으로 구분하였지만, 구현시에는 2~3개의 속성만을 이용할 수도 있고, 5가지 이상의 속성을 이용할 수도 있다.

도 3을 참고하여 상술한 네 가지 음악 속성에 대해 설명한다. 도 3은 본 개시의 일 실시 예에 따른 음악 신호의 속성별 EQ 이득 설정값을 나타내는 도면이다.

라우드(Loud) 속성 및 소프트(Soft) 속성은 음색과 관련될 수 있다. 예를 들어, 라우드(Loud) 속성 및 소프트(Soft) 속성은 음색의 거친 정도와 관련될 수 있다. 음색이란 동일한 음의 크기 및 높이에서도 구별될 수 있는 소리의 특성이다. 사용자는 음의 파형에 따라 거친 음색과 부드러운 음색 등을 구별할 수 있다.

라우드(Loud) 속성(310)은 음색이 시끄러운 것에 대한 속성이다. 라우드 속성(310)은 시끄러움, 많은 악기, 전자음, 기계음, 메탈 등의 용어와 관련이 있으며, 주로 전(全)대역 스펙트럼에 높고 균일한 에너지 분포가 나타날 수 있다. 라우드 속성(310)에는 전대역 성분이 많은 음원들이 주로 분류되는 것을 감안하여 저음 대비 고음역의 시끄러운 음색을 강화하는 EQ값이 생성될 수 있다.

소프트(Soft) 속성(320)은 음색이 부드럽고 자연스러운 것에 대한 속성이다. 소프트 속성(320)은 자연음, 단일 악기, 부드러운 연주, 포크 등의 용어와 관련이 있으며, 주로 뚜렷한 배음 구조(harmonic structure)와 적당한 에너지가 나타날 수 있다. 따라서 소프트 속성(320)에 대해서는 중저역을 고역상승분 대비 30%가량 강조시켜 음색의 부드러움을 강조하는 EQ값이 생성될 수 있다.

다이나믹(Dynamic) 속성 및 슬로우(Slow) 속성은 리듬의 복잡도와 관련될 수 있다. 예를 들어, 다이나믹(Dynamic) 속성 및 슬로우(Slow) 속성은 리듬의 동적인 정도 및 빠르기와 관련될 수 있다. 리듬이란 음의 장단이나 강약이 반복되는 규칙적인 흐름이다.

다이나믹(Dynamic) 속성(330)은 리듬이 동적이고 빠른 것에 대한 속성이다. 다이나믹 속성(330)은 EDM, Hip-hop, 탄력(bouncing), 폭발(spiking) 등의 용어와 관련이 있으며, 주로 짧고 강한 음향 이벤트가 순간적으로 자주 발생할 수 있다. 다이나믹 속성(330)에는 경쾌하고 강한 비트의 음악이 주로 분류되며, 음원들에 대해 극저음을 제외하고 저음과 중고역대를 강조하는 EQ값이 생성될 수 있다.

슬로우(Slow) 속성(340)은 리듬이 정적이고 느린 것에 대한 속성이다. 슬로우 속성(340)은 분위기(atmospheric), 앰비언스(ambience) 등의 용어와 관련이 있으며, 주로 시간적으로 정적인 모양이 나타나고 새로운 음향 이벤트가 드물게 발생할 수 있다. 따라서 슬로우 속성(340)에 대해서는 중저역대를 강조하고 고음역을 억제하여 느린 리듬과 상대적인 저음부분의 음색을 강조하는 EQ값이 생성될 수 있다.

위 네 가지 음악 속성에 대한 확률값은 0과 1 사이의 실수이면서 합이 1이 되도록 정의될 수 있다.

입력된 음악의 속성을 분석하여 입력된 음악에 적용할 적용 EQ값을 생성하기 위해서는 상술한 음악의 속성에 대한 분류 기준 및 높은 분류 정확도가 요구되는데, 이는 심화 학습(deep learning) 기반의 합성곱 신경망(Convolutional Neural Network, CNN)(122-1)을 이용하여 달성할 수 있다.

합성곱 신경망은 딥러닝의 일종으로, 합성곱(convolution) 연산을 통해 이미지, 음성과 같은 객체 인식 분야에 사용될 수 있다.

기계학습을 통해 훈련된 합성곱 신경망은 멀티미디어 콘텐츠 분류나 음성 인식 등의 다양한 분야에 사용될 수 있다. 신경망의 연산은 입력 벡터 X에 단순한 선형 연산 Y=W*X+b 을 취한 후 비선형 함수를 통과시키는 계산 유닛(unit)들을 여러 층위에 걸쳐 반복하는 구조로 이루어질 수 있다.

예를 들어, 신경망의 학습이란 신경망이 학습 데이터의 정답에 최대한 가까운 값을 출력하도록 가중치(weight) 벡터 W와 b를 최적화하는 과정일 수 있다. 이 경우, 충분한 데이터와 정답 레이블을 사용할 수 있는 경우 지도 학습(supervised learning)을, 그렇지 않은 경우 전이 학습(transfer learning)이나 자기 지도 학습(self-supervised learning) 등의 기법들이 사용될 수 있다.

상술한 네 가지 음악 속성에 대한 확률값은 합성곱 신경망의 출력값일 수 있다.

분석 모듈(122)은 합성곱 신경망(122-1)을 통해 입력된 음악 신호의 음악 속성을 즉각적으로 분석하고, 속성 분석 결과에 따라 동적으로 변화하는 최적의 적용 EQ값을 생성할 수 있다. 또한, 합성곱 신경망(122-1)을 통해 프로세서의 음악 속성 분석과 EQ값을 적용하는 사이의 시간 지연을 최소화할 수 있어, 클라우드 등의 서버를 통하지 않고 단말에서 동작할 수 있다.

분석 모듈(122-2)은 음악 속성을 분석하여 중도 지수를 계산(122-2)할 수 있다. 중도 지수(moderate index, M)는 하나의 뚜렷한 음악 속성이 나타나는지, 또는 복수의 음악 속성이 비슷하게 나타나는지를 판단할 수 있는 지표이다.

복수의 속성들이 비슷한 정도로 나타나면 EQ 처리 모듈(123)에서 생성된 적용 EQ값이 강조하고자 하는 대역이 모호해지고 아무런 특색이 없는 소리가 출력되는데, 이를 방지하기 위하여 중도 지수(M)가 높은 경우 일반적으로 선호되는 범용 음악 EQ값을 적용할 수 있다. 범용 음악 EQ값에 대한 구체적인 설명은 도 4에서 후술하기로 한다.

중도 지수(M)는 지니 계수(Gini coefficient, G)로부터 유도된다. 수학식 1 내지 3에서, 관측 데이터

에 대하여, 지니 계수 G의 일반적 정의는 다음과 같이 계산할 수 있다.

[수학식 1]

여기서, n은 전체 음악 속성의 개수,

는 관측 데이터의 평균값이다. 모든 관측 데이터

가 양의 실수이고

이므로, 지니 계수 G는 다음과 같이 간략화할 수 있다.

[수학식 2]

지니 계수와는 반대로, 중도 지수(M)는 높을수록 데이터들이 균일하게 분포된 상태를 의미한다. 0과 1 사이에서 정의되도록 스케일을 조정한 중도 지수 M 은 다음과 같이 정의된다.

[수학식 3]

EQ 처리 모듈(123)은 분석 모듈(122)에서 상술한 바와 같이 입력된 음악 신호를 분석한 복수의 음악 속성에 대한 확률값 및 중도 지수(M)에 기초하여 입력된 음악 신호에 맞는 적용 EQ값을 생성(123-1)하고, 적용 EQ값을 입력 음악 신호에 적용(123-2)하여 이퀄라이징할 수 있다.

복수의 음악 속성에 대하여 각 속성의 확률값 및 중도 지수(M)가 주어졌을 때, EQ 처리 모듈(123)에서 생성되는 순간적인 적용 EQ값(G_eq)은 다음과 같이 계산될 수 있다.

[수학식 4]

[수학식 5]

상기 수학식 4, 5에서 G_eq는 적용 EQ값, M은 중도 지수, G_moderate는 범용 EQ값, G_attribute는 복수의 음악 속성을 반영한 gain값, G_i는 각 속성별로 설정된 EQ값, p_i는 각 속성별 확률값이다. 다만, 너무 급격한 소리의 변화를 방지하기 위하여 모든 확률값들은 지수 이동 평균(exponential moving average)을 취한 값들을 사용할 수 있다.

수학식 4를 참고하면, 중도 지수(M)의 크기가 0에 가까울수록, 즉, 복수의 음악 속성들 중 지배적으로 나타나는 적어도 하나의 음악 속성이 존재한다면, EQ 처리 모듈(123)에 의해 생성된 EQ값은 복수의 음악 속성을 반영한 gain값인 G_attribute에 가까운 값을 가질 수 있다.

반면, 중도 지수(M)의 크기가 1에 가까울수록, 즉, 복수의 음악 속성들의 확률값이 균일한 정도로 나타난다면, EQ 처리 모듈(123)에 의해 생성된 EQ값은 범용 EQ값인 G_moderate에 가까운 값을 가질 수 있다.

예시적으로, [표 1]을 참고하면, 몇가지 복수의 확률값 조합에 대하여 산출되는 중도 지수(M)의 값을 알 수 있다.

p₁	p₂	p₃	p₄	중도 지수(M)
1.00	0.00	0.00	0.00	0.00
0.90	0.10	0.00	0.00	0.07
0.85	0.05	0.05	0.05	0.20
0.70	0.10	0.10	0.10	0.40
0.60	0.20	0.10	0.10	0.47
0.40	0.40	0.10	0.10	0.60
0.40	0.30	0.20	0.10	0.67
0.30	0.30	0.20	0.20	0.87
0.30	0.25	0.25	0.20	0.90
0.25	0.25	0.25	0.25	1.00

도 3은 본 개시의 일 실시 예에 따른 음악 신호의 속성별 EQ 이득 설정값을 나타내는 도면이다.

도 3을 참고하면, 복수의 음악 속성(라우드, 소프트, 다이나믹, 슬로우)에 대하여, 입력된 음악 신호의 주파수에 따라 적용될 수 있는 Gain이 도시되어 있다.

도 2에서 상술한 바와 같이, 라우드(Loud) 속성(310)은 저음 대비 고음역의 시끄러운 음색을 강화하는 EQ값이 생성될 수 있다. 소프트 속성(320)에 대해서는 중저역을 고역상승분 대비 30%가량 강조시켜 음색의 부드러움을 강조하는 EQ값이 생성될 수 있다. 다이나믹(Dynamic) 속성(330)에 대해서는 극저음을 제외하고 저음과 중고역대를 강조하는 EQ값이 생성될 수 있다. 슬로우 속성(340)에 대해서는 중저역대를 강조하고 고음역을 억제하여 느린 리듬과 상대적인 저음부분의 음색을 강조하는 EQ값이 생성될 수 있다.

도 4는 본 개시의 일 실시 예에 따른 범용 음악 EQ 이득 설정값을 나타내는 도면이다.

도 4에는 중도 지수(M)가 높은 경우 사용할 수 있는 범용 음악 EQ(410, 420)의 실시 예가 도시되어 있다. 전술한 바와 같이, 복수의 음악 속성에 대한 중도 지수(M)가 높은 경우 사용자에게 일반적으로 선호되는 범용 음악 EQ를 적용할 수 있다. 사용자에게 일반적으로 선호되는 음악 EQ 설정은 저음 및 고음역을 강조하는 형태일 수 있다.

이하에서는 도 3 내지 도 7을 참고하여, EQ 처리 모듈(123)의 음악 신호의 EQ 생성에 대해 상세히 설명한다.

도 5 내지 도 7은 본 개시의 일 실시 예에 따른 음악 신호의 적용 EQ 생성을 설명하기 위한 도면이다.

도 5는 속성이 극적으로 변화하는 음악에 대해 생성된 적용 EQ값 곡선이 변화할 수 있는 과정을 보여준다.

도 6은 (A)구간에서의 생성된 적용 EQ값(550)을 확대하여 도시한 도면이다. (A)구간(처음부터 13초까지)에서는 다이나믹 속성(530)이 강하게 나타나므로 생성된 적용 EQ값(550)은 다이나믹 속성(530)이 지배적으로 반영될 수 있다. 도 3을 참조하면, 이 경우 생성된 적용 EQ값(550)운 도 3의 다이나믹 속성(330)에 대한 EQ값과 유사하게 나타날 수 있다.

한편, 도 7은 (B)구간에서의 생성된 적용 EQ값(550)을 확대하여 도시한 도면이다. (B)구간(13초에서 22초까지)은 복수의 음악 속성들(510, 520, 530, 540)이 유사한 정도로 나타나므로, 중도 지수(M)가 높아져, 생성된 적용 EQ값(550)은 일반적으로 선호되는 음악 EQ에 가깝게 생성될 수 있다. 도 4를 참조하면, 이 경우 생성된 적용 EQ값(550)은 도 4의 범용 EQ값(410)과 유사하게 나타날 수 있다.

도 8은 본 개시의 일 실시 예에 따른 이퀄라이징 방법을 설명하기 위한 순서도이다.

입력 음악 신호의 속성을 합성곱 신경망(122-1)에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출할 수 있다(S810).

그리고, 각 확률값들 사이의 중도 지수를 산출할 수 있다(S820).

확률값 및 중도 지수에 기초하여 적용 EQ값을 생성할 수 있다(S830).

그리고, 적용 EQ값을 입력 음악 신호에 적용하여 이퀄라이징할 수 있다(S840).

도 9는 본 개시의 일 실시 예에 따른 이퀄라이저(100)가 다른 구성과 상호작용하는 동작을 설명하기 위한 블록도이다.

도 9를 참조하면, 이퀄라이저(100)는 메모리(110), 프로세서(120), 스피커(130), 디스플레이(140), 마이크(150) 및 통신부(160)를 포함할 수 있다.

메모리(110) 및 프로세서(120)는 도 1과 관련하여 앞서 설명하였는 바, 중복 설명은 생략한다.

스피커(130)는 이퀄라이징이 적용된 음악 신호를 출력할 수 있다.

디스플레이(140)는 LCD(Liquid Crystal Display Panel), LED(light emitting diode), OLED(Organic Light Emitting Diodes), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 또한, 디스플레이(140) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 또한, 디스플레이(140)는 그래픽 처리 장치(Graphics Processing Unit, GPU)를 포함할 수 있다.

디스플레이(140)를 통해 이퀄라이징을 시각적 형태로 표시할 수 있다. 예를 들어, 디스플레이(140)는 프로세서(120)에서 수행되는 이퀄라이징에 대한 데이터를 그래픽 이퀄라이저(Graphic Equalizer) 형식으로 표시할 수 있다.

마이크(150)는 다양한 음악 신호를 수신할 수 있다. 여기에서, 음악 신호는 마이크 주변에서 발생하는 아날로그 신호가 될 수 있다. 마이크(150)를 통해 수신된 음악 신호는 프로세서(120)에 입력되어 이퀄라이징 될 수 있다.

통신부(160)는 다양한 유형의 통신 방식에 따라 외부 전자 장치와 통신을 수행하여, 다양한 신호를 송수신할 수 있다. 이러한 통신부(160)는 안테나 등을 포함하는 통신 회로를 포함할 수 있다.

통신부(160)를 통해 수신된 음악 신호는 프로세서(120)에 입력되어 이퀄라이징 될 수 있다. 통신부(160)은 외부 서버로부터 음악 파일을 수신할 수 있다. 이 경우 음악 신호뿐만 아니라 음악 컨텐츠에 대한 음악 장르, 아티스트 정보 등과 같은 메타데이터에 관련된 정보를 수신할 수 있다.

스피커(130), 디스플레이(140), 마이크(150) 및 통신부(160)를 포함하는 것으로 도시하였지만, 구현시에는 일부 구성만을 포함할 수도 있으며, 상술한 구성 이외의 구성이 더 추가될 수도 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 이퀄라이저
110: 메모리
120: 프로세서

Claims

이퀄라이저에 있어서,
복수의 음악 속성별로 설정된 EQ값 및 범용 EQ값이 저장된 메모리; 및
프로세서;를 포함하며,
상기 프로세서는,
입력 음악 신호의 속성을 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하고 상기 복수의 확률값들 사이의 중도 지수를 산출하며, 상기 복수의 확률값 및 상기 중도 지수에 기초하여 적용 EQ값을 생성하고, 상기 적용 EQ값을 상기 입력 음악 신호에 적용하여 이퀄라이징하는, 이퀄라이저.
제1항에 있어서,
상기 프로세서는,
상기 입력 음악 신호가 입력되면 상기 입력 음악 신호의 데이터 크기를 줄이는 전처리 동작을 수행하는 이퀄라이저.
제2항에 있어서,
상기 프로세서는,
상기 데이터 크기가 줄어든 상기 입력 음악 신호를 2차원 시간-주파수 신호로 변환하여, 상기 합성곱 신경망의 입력으로 제공하는, 이퀄라이저.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 프로세서는,

와 같은 수학식을 이용하여 상기 중도 지수를 산출하며, 상기 수학식에서 M은 중도 지수, p_i는 각 속성별 확률값, n은 전체 속성의 개수인, 이퀄라이저.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 프로세서는,

및
와 같은 수학식을 이용하여 상기 적용 EQ값을 생성하며, 상기 수학식에서 G_eq는 적용 EQ값, M은 중도 지수, G_moderate는 범용 EQ값, G_attribute 는 복수의 음악 속성을 반영한 gain값, G_i는 각 속성별로 설정된 EQ값, p_i는 각 속성별 확률값인, 이퀄라이저.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 음악 속성은,
음색과 관련된 라우드(Loud) 속성 및 소프트(Soft) 속성과,
리듬의 복잡도와 관련된 다이나믹(Dynamic) 속성 및 슬로우(Slow) 속성 중 적어도 하나의 속성을 포함하는, 이퀄라이저.
이퀄라이저의 이퀄라이징 방법에 있어서,
입력 음악 신호의 속성을 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하는 단계;
각 확률값들 사이의 중도 지수를 산출하는 단계;
상기 확률값 및 상기 중도 지수에 기초하여 적용 EQ값을 생성하는 단계; 및
상기 적용 EQ값을 상기 입력 음악 신호에 적용하여 이퀄라이징하는 단계;를 포함하는 이퀄라이징 방법.
제7항에 있어서,
상기 입력 음악 신호가 입력되면 상기 입력 음악 신호의 데이터 크기를 줄이는 단계;를 더 포함하는 이퀄라이징 방법.
제8항에 있어서,
상기 데이터 크기가 줄어든 상기 입력 음악 신호를 2차원 시간-주파수 신호로 변환하는 단계;를 더 포함하는, 이퀄라이징 방법.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 각 확률값들 사이의 중도 지수를 산출하는 단계는,

와 같은 수학식을 이용하여 상기 중도 지수를 산출하며, 상기 수학식에서 M은 중도 지수, p_i는 각 속성별 확률값, n은 전체 속성의 개수인 이퀄라이징 방법.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 확률값 및 상기 중도 지수에 기초하여 상기 적용 EQ값을 생성하는 단계는,

및
와 같은 수학식을 이용하여 상기 적용 EQ값을 생성하며, 상기 수학식에서 G_eq는 적용 EQ값, M은 중도 지수, G_moderate는 범용 EQ값, G_attribute는 복수의 음악 속성을 반영한 gain값, G_i는 각 속성별로 설정된 EQ값, p_i는 각 속성별 확률값인, 이퀄라이징 방법.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 음악 속성은,
음색과 관련된 라우드(Loud) 속성 및 소프트(Soft) 속성과,
리듬의 복잡도와 관련된 다이나믹(Dynamic) 속성 및 슬로우(Slow) 속성 중 적어도 하나의 속성을 포함하는, 이퀄라이징 방법.
이퀄라이징을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능 기록 매체에 있어서,
상기 이퀄라이징은,
입력 음악 신호가 입력되면 상기 입력 음악 신호의 데이터 크기를 줄이는 단계;
상기 데이터 크기가 줄어든 상기 입력 음악 신호를 2차원 시간-주파수 신호로 변환하여, 합성곱 신경망의 입력으로 제공하는 단계;
상기 입력 음악 신호의 속성을 상기 합성곱 신경망에 기초하여 분석하여 복수의 음악 속성별로 확률값을 산출하는 단계;
각 확률값들 사이의 중도 지수를 산출하는 단계;
상기 확률값 및 상기 중도 지수의 크기에 기초하여 적용 EQ값을 생성하는 단계; 및
상기 적용 EQ값을 상기 입력 음악 신호에 적용하여 이퀄라이징하는 단계;를 포함하는 기록 매체.