KR20100000265A - Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same - Google Patents

Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same Download PDF

Info

Publication number
KR20100000265A
KR20100000265A KR1020080059696A KR20080059696A KR20100000265A KR 20100000265 A KR20100000265 A KR 20100000265A KR 1020080059696 A KR1020080059696 A KR 1020080059696A KR 20080059696 A KR20080059696 A KR 20080059696A KR 20100000265 A KR20100000265 A KR 20100000265A
Authority
KR
South Korea
Prior art keywords
feature
probability distribution
distribution function
feature values
selecting
Prior art date
Application number
KR1020080059696A
Other languages
Korean (ko)
Other versions
KR100974871B1 (en
Inventor
박영철
최택성
이석필
Original Assignee
연세대학교 산학협력단
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단, 전자부품연구원 filed Critical 연세대학교 산학협력단
Priority to KR1020080059696A priority Critical patent/KR100974871B1/en
Publication of KR20100000265A publication Critical patent/KR20100000265A/en
Application granted granted Critical
Publication of KR100974871B1 publication Critical patent/KR100974871B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A feature vector selecting method and an apparatus thereof, and a music genre classifying method and an apparatus using the same are provided to successively select feature values, thereby improving classifying accuracy in multi ranges. CONSTITUTION: A probability distribution function is generated about each feature value extracted from training data classified into several groups(120). The probability distribution function is based on the Gaussian mixture model. Feature values minimizing a classification error is selected using the generated probability distribution function(150). The selected feature values are determined by elements configuring feature vectors.

Description

특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악 장르 분류 방법 및 장치{Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same}Feature vector selection method and apparatus, and apparatus for classifying music genre using the same {feature vector selection method and apparatus, and audio genre classification method and apparatus using the same}

본 발명은 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악 장르 분류 방법 및 장치에 관한 것으로서, 특히 가우시안 혼합 모델을 기반으로 다중 범주의 각종 컨텐츠, 특히 음악 컨텐츠를 장르에 따라 효율적으로 분류하기 위한 특징 벡터 선택 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for selecting a feature vector, and a method and apparatus for classifying music genres using the same, and in particular, a feature vector for efficiently classifying various categories of contents, in particular, music contents based on a Gaussian mixture model. A method and apparatus for selection are provided.

정보 통신 기술의 발달로 음악 정보의 양이 기하급수적으로 늘어나게 되고, 음악 콘텐츠에 대한 정보 이용자의 다양한 요구가 발생함에 따라 음악 데이터를 자동적이고 체계적으로 관리하기 위한 시스템이 필요하게 되었다. 내용 기반의 범주 분류 시스템은 기존의 수작업으로 이루어진 텍스트 기반의 분류 시스템과 달리 정보의 내용을 수학적으로 분석하여 구조화된 기준에 따른 대표적인 특성을 추출하고, 각 범주 마다 마련된 기준에 따라 자동적으로 범주를 분류하는 시스템이다. With the development of information and communication technology, the amount of music information increases exponentially, and as a variety of demands of information users for music contents arise, a system for automatically and systematically managing music data is required. Content-based categorization system, unlike the existing manual text-based categorization system, mathematically analyzes the content of information to extract representative characteristics according to structured criteria, and automatically categorizes categories according to the criteria prepared for each category. It is a system.

음악의 장르에 따른 대표적인 특성 즉 특징 벡터를 선택하기 위한 종래의 알고리즘으로는 각 장르에 해당하는 데이터의 평균을 이용하여 장르별 유클리드 거 리(Euclidean distance)를 측정하는 알고리즘이 있다. 모두 M개의 장르가 있고, 임의의 장르 i, j에 따른 특징값의 평균을 mi, mj라고 할 때 유클리드 거리는 다음 수학식1로 표현될 수 있다.A conventional algorithm for selecting a representative characteristic, that is, a feature vector according to the genre of music, includes an algorithm for measuring Euclidean distance by genre using an average of data corresponding to each genre. There are all M genres, and when the average of feature values according to any genres i and j is m i and m j , the Euclidean distance can be expressed by the following equation (1).

[수학식1][Equation 1]

Figure 112008045291610-PAT00001
Figure 112008045291610-PAT00001

또 다른 방법은 관성비 최적화(inertia ratio maximization) 방법이다. 상기 방법은 분류 내의 편차는 작고, 각 분류 간의 편차는 큰 통계적 특성을 가진 특징 벡터를 선택하는 방법이다. 관성비는 분류간의 편차와 분류내의 편차의 비율(IR)을 의미하며, 하기 수학식2와 같이 정의된다.Another method is inertia ratio maximization. The method is a method of selecting a feature vector having a small statistical deviation and a large statistical difference between the classifications. The inertia ratio means the ratio (IR) of the deviation between the classifications and the classifications, and is defined as in Equation 2 below.

[수학식2][Equation 2]

Figure 112008045291610-PAT00002
Figure 112008045291610-PAT00002

여기에서 M은 분류(장르)의 개수이고, ni는 i번째 분류의 데이터 개수이며, N은 전체 데이터 개수이고, m i는 i번째 분류의 특징 벡터의 평균이며, m은 전체 분류의 특징 벡터의 평균이고, x ni는 ni번째 데이터를 나타낸다.Where M is the number of classifications (genres), n i is the number of data in the i-th classification, N is the total number of data, m i is the mean of the feature vectors of the i-th classification, and m is the feature vector of the entire classification. X ni represents n i th data.

상술한 특징벡터 선택 알고리즘을 사용한 오디오 장르 분류를 위한 종래의 트레이닝 시스템은 주로 특징값 추출부(미도시), 특징 벡터를 선택하는 특징 벡터 선택부(미도시) 및 트레이닝부(미도시)를 포함한다. 특징값 추출부는 디지털 신호 처리를 이용하여 오디오의 피치(pitch), 음색(timber), 박자(Rhythm) 등의 특징값들을 추출한다. 추출된 특징값들에는 일반적으로 오디오 신호의 특징을 잘 표현할 수 있는 시간과 주파수 영역의 많은 특징값들이 포함되지만, 음악 분류 성능을 향상시키기 위해서는 특징값들을 선별하는 과정이 필요하다. 종래의 특징 벡터 선택부(102)는 분류 시스템의 성능을 높이기 위해서는 먼저 여러 가지 특징들 중 장르의 특성을 잘 나타내는 특징 벡터를 기존의 알고리즘인 유클리드 거리 또는 관성비 최적화(inertia ratio maximization) 방법을 이용하여 선택한다. 트레이닝부는 훈련 데이터를 선택된 특징 벡터를 이용하여 트레이닝 시키고, 트레이닝을 통하여 훈련데이터의 모델을 생성한다.The conventional training system for classifying audio genres using the feature vector selection algorithm described above mainly includes a feature value extractor (not shown), a feature vector selector (not shown) for selecting a feature vector, and a training unit (not shown). do. The feature value extractor extracts feature values such as pitch, timbre, and rhythm of the audio using digital signal processing. The extracted feature values generally include many feature values in the time and frequency domains that can well represent the characteristics of the audio signal. However, in order to improve music classification performance, a process of selecting feature values is required. In order to improve the performance of the classification system, the conventional feature vector selector 102 first uses a feature vector representing a genre characteristic among various features, which is a conventional algorithm, such as Euclidean distance or inertia ratio maximization. To select. The training unit trains the training data using the selected feature vector, and generates a model of the training data through the training.

유클리드 거리를 이용한 방식은 매우 간단하고 다중 차수의 특징 벡터에 대해서도 쉽게 거리를 구할 수 있지만 특징 벡터의 대표값을 평균으로만 나타내기 때문에 분류 간의 분포가 다른 경우 실제 시스템에 적용할 경우 음악 분류의 정확도와 인식률이 떨어지는 문제가 있다.The Euclidean distance method is very simple, and the distance can be easily obtained even for multiple order feature vectors. However, since the representative values of the feature vectors are represented only as averages, the accuracy of music classification when applied to the actual system when the distribution between classifications is different is different. There is a problem that the recognition rate falls.

유클리드 거리를 이용한 방식의 단점을 어느 정도 보완한 방법인 관성비 최적화(Inertia ratio maximization) 방법은 분류 내의 편차를 기준에 포함시키기 때문에 분류 간의 분포에 따른 영향이 줄어드는 장점이 있다. 그러나 분류 간의 편차를 구할 때 유클리드 거리 방법과 마찬가지로 분류의 대표값으로서 평균만을 계산하기 때문에 정보의 손실이 일어날 수 있고, 또한 훈련 데이터가 정규 분포와 가깝지 않을 경우 실제 분포의 거리와는 차이가 날 수 있다.The Inertia ratio maximization method, which partially compensates for the shortcomings of the Euclidean distance method, has an advantage of reducing the influence of the distribution between the classifications because the deviations in the classifications are included in the criteria. However, like the Euclidean distance method, when calculating the deviation between classifications, the information can be lost because only the mean is calculated as the representative value of the classification. Also, if the training data is not close to the normal distribution, it can be different from the actual distribution distance. have.

실제로 오디오 신호에서 추출된 특징 벡터들은 정규 분포로 가정하기에는 부 적절한 것들이 많았다. 그러나, 정규 분포로 가정하기 어려운 특징 벡터의 범주간의 거리도 잘 나타낼 수 있는 확률 분포 모델링 기법을 이용한 특징 벡터 선택 알고리즘은 아직 개시된 바 없다.In fact, many feature vectors extracted from an audio signal were inappropriate to assume a normal distribution. However, a feature vector selection algorithm using a probability distribution modeling technique that can well represent the distance between categories of feature vectors that are difficult to assume a normal distribution has not been disclosed.

상술한 종래의 특징 벡터 선택 알고리즘의 한계를 고려하여, 본 발명은 다중 범주의 특성을 갖고, 정규 분포 특성을 갖지 않는 데이터 특히 음악 데이터의 분류 정확성을 향상시킬 수 있는 특징 벡터 선택 방법 및 장치를 제공하는 것을 목적으로 한다. 또한, 본 발명은 이를 이용한 음악 장르 분류 방법 및 장치를 제공하는 것을 목적으로 한다.In view of the limitations of the conventional feature vector selection algorithm described above, the present invention provides a feature vector selection method and apparatus capable of improving the classification accuracy of data, especially music data, having a multi-category characteristic and not having a normal distribution characteristic. It aims to do it. In addition, an object of the present invention is to provide a method and apparatus for classifying music genres using the same.

상기 본 발명의 목적 달성을 위한 본 발명에 따른 특징 벡터 선택 방법은 a) 복수 개의 그룹으로 분류된 훈련 데이터들로부터 추출된 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 단계; 및 b) 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 그룹 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터를 구성하는 성분들로 결정하는 단계를 포함한다.The feature vector selection method according to the present invention for achieving the object of the present invention comprises the steps of: a) generating a probability distribution function based on a Gaussian mixture model for each feature value extracted from training data classified into a plurality of groups; ; And b) selecting a predetermined number of feature values that minimize group classification error among the feature values using the generated probability distribution function, and determining the selected feature values as components constituting a feature vector. Include.

상기 또 다른 본 발명의 목적 달성을 위한 본 발명에 따른 특징 벡터 선택 장치는 복수 개의 그룹으로 분류된 훈련 데이터들로 부터 추출된 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 확률 분포 함수 생성부; 및 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 그룹 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터를 구성하는 성분들로 결정하는 선택부를 포함한다.The feature vector selection apparatus according to the present invention for achieving another object of the present invention generates a probability distribution function based on a Gaussian mixture model for each feature value extracted from training data classified into a plurality of groups. Probability distribution function generator; And a selector configured to select a predetermined number of feature values to minimize group classification error among the feature values using the generated probability distribution function, and determine the selected feature values as components of a feature vector. .

상기 또 다른 본 발명의 목적 달성을 위한 본 발명에 따른 음악 장르 분류 방법은 a) 복수 개의 장르들로 분류된 훈련 음악 데이터들로 부터 추출된 특징값들을 입력 받고, 상기 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 단계; b) 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 장르 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터 구성 성분으로 결정하는 단계; c) 상기 b)단계에서 결정된 특징 벡터 구성 성분에 따라 분류하고자 하는 입력 음악 데이터로부터 입력 특징 벡터를 추출하는 단계; 및 d) 상기 c)단계에서 추출된 입력 특징 벡터를 이용하여 입력 음악 데이터의 장르를 분류하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of classifying music genres according to the present invention: a) receiving feature values extracted from training music data classified into a plurality of genres, and Gaussian mixing for each feature value; Generating a probability distribution function based on the model; b) selecting a predetermined number of feature values to minimize genre classification error among the feature values using the generated probability distribution function, and determining the selected feature values as feature vector components; c) extracting an input feature vector from input music data to be classified according to the feature vector component determined in step b); And d) classifying the genre of the input music data using the input feature vector extracted in step c).

상기 또 다른 본 발명의 목적 달성을 위한 본 발명의 음악 장르 분류 장치는 복수 개의 장르들로 분류된 훈련 음악 데이터들로 부터 추출된 특징값들을 입력 받고, 상기 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 확률 분포 함수 생성부; 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 장르 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터 구성 성분으로 결정하는 특징 벡터 선택부; 상기 결정된 특징 벡터 구성 성분에 따라 분류하고자 하는 입력 음악 데이터로부터 입력 특징 벡터를 추출하는 입력 특징 벡터 추출부; 및 상기 추출된 입력 특징 벡터를 이용하여 입력 음악 데이터의 장르를 분류하는 장르 결정부를 포함한다.The music genre classification apparatus of the present invention for achieving another object of the present invention receives feature values extracted from training music data classified into a plurality of genres, and based on a Gaussian mixture model for each feature value A probability distribution function generator for generating a probability distribution function; A feature vector selector which selects a predetermined number of feature values to minimize genre classification error among the feature values using the generated probability distribution function, and determines the selected feature values as feature vector components; An input feature vector extracting unit configured to extract an input feature vector from input music data to be classified according to the determined feature vector component; And a genre determiner for classifying genres of input music data by using the extracted input feature vector.

또한, 본 발명은 상술한 특징 벡터 선택 방법과 음악 장르 분류 방법을 컴퓨터 상에서 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체를 제공한다.The present invention also provides a computer-readable recording medium having recorded thereon a program for performing the above-described feature vector selection method and music genre classification method on a computer.

본 발명에 따르면, 가우시안 혼합 모델을 기반으로 특징값 또는 특징 벡터의 확률 분포를 모델링함으로써 정규 분포 특성을 갖지 않는 음악 데이터 등에 대한 확률 분포 추정의 정확성을 향상시킬 수 있다. 또한, 본 발명에 따르면, 분류 오류를 최소화하는 특징값들을 순차적으로 선별하되, 이전에 선별된 특징값이 취약한 범주 들 간의 분리 성능을 고려하여 다음의 특징값을 선별하여 특징 벡터를 선택함으로써, 상대적으로 분리가 잘 되지 않는 범주 간의 분류 오류의 문제를 완화시킬 수 있고, 다중 범주의 분류에서 분류의 정확성이 향상된 효과가 있다.According to the present invention, it is possible to improve the accuracy of the probability distribution estimation for music data having no normal distribution characteristic by modeling the probability distribution of the feature value or the feature vector based on the Gaussian mixture model. In addition, according to the present invention, by selecting the feature value to minimize the classification error in sequence, in consideration of the separation performance between the weakly selected feature value previously selected by selecting the feature vector, This can alleviate the problem of classification errors between categories that are not well separated, and improve the accuracy of classification in classification of multiple categories.

이하에서는 도면과 실시예를 참고하여 본 발명의 특징 벡터 선택 방법 및 장치, 그리고 음악 장르 분류 방법 및 장치에 대하여 구체적으로 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.Hereinafter, a method and apparatus for selecting a feature vector and a method and apparatus for classifying music genres will be described in detail with reference to the accompanying drawings and embodiments. In the following description and the accompanying drawings, the substantially identical components are represented by the same reference numerals, and thus redundant description will be omitted. In addition, in the following description of the present invention, if it is determined that a detailed description of related known functions or configurations may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.

도 1은 본 발명의 일 실시예에 따른 특징 벡터 선택 장치(1)를 나타내는 블록도이다. 도 1에 도시된 특징 벡터 선택 장치(1)는 특징값 추출부(10), 확률 분포 함수 생성부(20) 및 선택부(30)를 포함한다.1 is a block diagram showing a feature vector selecting apparatus 1 according to an embodiment of the present invention. The feature vector selecting apparatus 1 shown in FIG. 1 includes a feature value extractor 10, a probability distribution function generator 20, and a selector 30.

특징값 추출부(10)는 복수 개의 그룹으로 분류된 훈련 데이터들을 입력 받 고, 상기 입력된 훈련 데이터들로부터 소정의 특징값들을 추출한다. 예를 들어 훈련 데이터가 음악 콘텐츠인 경우, 특징값들은 피치와 관련된 특징값, 음색과 관련된 특징값, 리듬과 관련된 특징값들을 포함한다.The feature value extractor 10 receives training data classified into a plurality of groups and extracts predetermined feature values from the input training data. For example, if the training data is music content, the feature values include feature values related to pitch, feature values related to timbre, and feature values related to rhythm.

우선, 음색과 관련된 특징값은 음색을 표현하는 특징값으로서, 음악-음성 구분 알고리듬과 음성 인식 등의 분야에서 기본적으로 사용되는 특징값이다. 음색을 나타내기 위해서 일반적으로 주파수 영역에서 신호를 해석하게 되는데 주로 단구간 푸리에 분석 (STFT) 등을 이용하여 특징값을 계산할 수 있다. 이와 관련된 특징값은 MFCC, 스펙트럴 롤오프(Spectral rolloff), 스펙트럴 플럭스(Spectral flux), 자동 상관 계수(Autocorrelation coefficient) 등이 있다.First, the feature values related to the tones are the feature values representing the tones, which are basically used in the fields of music-voice classification algorithm and speech recognition. In order to represent the tone, the signal is generally interpreted in the frequency domain. The feature value can be calculated mainly using short-term Fourier analysis (STFT). Related feature values include MFCC, spectral rolloff, spectral flux, and autocorrelation coefficient.

우선, MFCC는 켑스트럼(cepstrum) 영역으로 변환 된 오디오 신호를 청각 특성이 반영된 멜-주파수(mel-frequency) 필터뱅크를 이용하여 하위 대역으로 나눈 후 DCT를 이용하여 구한 계수로써 음성 신호처리 분야에서 많이 사용된다. MFCC는 음악의 음색을 표현하는 데에도 유용하다.First, MFCC divides the audio signal converted into the cepstrum region into lower bands by using a mel-frequency filter bank that reflects auditory characteristics, and then calculates the audio signal using coefficients obtained by using DCT. Used a lot in MFCC is also useful for expressing the timbre of music.

스펙트럴 롤오프(Spectral rolloff)는 주파수 영역에서 저대역 신호부터 85%의 에너지가 분포하는 주파수의 값을 계산한 것으로서, 스텍트럴 센트로이드(Spectral centroid)와 함께 주파수 영역의 분포를 파악할 수 있는 특징벡터이다. 스펙트럴 롤오프는 다음과 같은 수학식3으로 계산할 수 있다.Spectral rolloff is a calculation of the frequency distribution of 85% of the energy from the low band signal in the frequency domain, and can identify the distribution of the frequency domain together with the spectral centroid. Vector. The spectral rolloff can be calculated by the following equation (3).

[수학식3][Equation 3]

Figure 112008045291610-PAT00003
Figure 112008045291610-PAT00003

여기서 Rt는 스펙트럴 롤오프값이고, Mt[n]는 주파수 영역에서 t번째 주파수 스펙트럼이며, M은 가장 높은 주파수 영역을 각각 나타낸다.Where R t is a spectral rolloff value, M t [n] is the t-th frequency spectrum in the frequency domain, and M represents the highest frequency domain, respectively.

스펙트럴 플럭스(Spectral flux)는 각 주파수 단위마다 시간 축으로의 변화 정도를 표현한 것으로 지역적인 주파수의 변화를 측정하는 파라미터이다. 스펙트럴 플럭스는 다음과 같은 수학식4로 계산할 수 있다.Spectral flux represents the degree of change in the time axis for each frequency unit and is a parameter that measures the change in local frequency. The spectral flux can be calculated by the following equation (4).

[수학식4][Equation 4]

Figure 112008045291610-PAT00004
Figure 112008045291610-PAT00004

여기에서, Ft는 스펙트럴 플럭스값이고, N은 주파수 단위의 개수이며, Nt[N]은 t시점에서의 n번째 주파수 스펙트럼을 나타낸다.Here, F t is a spectral flux value, N is the number of frequency units, and N t [N] represents the nth frequency spectrum at time t.

자동 상관 계수(Autocorrelation coefficient)는 신호의 스펙트럼 분포를 시간 영역에서 표현하는 것으로, 예를 들어 1번째 계수부터 12번째 계수까지 사용할 수 있다. The autocorrelation coefficient represents a spectral distribution of a signal in the time domain and may be used, for example, from the first coefficient to the twelfth coefficient.

RMS 에너지는 한 프레임 안에서의 오디오 신호의 세기를 표현하는 특징값이다. 맥시마(Maxima)는 한 프레임 안에서 에너지의 최대 값을 표현하는 특징값이다.시간 영역 영점 교차(Time domain zero crossing : TDZC)는 시간 영역에서 오디오 신호가 1초에 0을 지나는 빈도를 계산한 것으로 음악에 잡음 (Noise) 성분이 얼마나 포함되어 있는 지를 측정하는 특징값이다. 템퍼럴 모멘트(Temporal moment)는 시간 영역 신호의 통계적 특성을 나타내는 것으로, 프레임 안의 평균, 분산, 비대칭도(skewness), 첨도(kurtosis) 등을 특징값으로 포함한다. AR 계수(coefficient) 는 스펙트럼 분포의 모양을 표현하는 계수로서 자동 회귀분석을 통해 첫 2개의 계수를 사용하여 나타낼 수 있다.RMS energy is a feature that represents the strength of an audio signal within a frame. Maxima is a feature that represents the maximum value of energy within a frame.Time domain zero crossing (TDZC) is a calculation of how often an audio signal crosses zero per second in the time domain. This is a feature that measures how much noise is contained in the. Temporal moment represents a statistical characteristic of a time domain signal, and includes a mean, variance, skewness, kurtosis, etc. in a frame as characteristic values. The AR coefficient is a coefficient representing the shape of the spectral distribution and can be represented using the first two coefficients through automatic regression.

스펙트럴 평탄도(Spectral flatness measure : SFM)는 오디오 신호에서 잡음의 정도를 표현하는 계수로 스펙트럼 값의 기하 평균과 산술 평균의 비로 계산될 수 있다. 스펙트럴 크레스트 팩터(Spectral crest factor : SCF)는 오디오 신호의 잡음의 정도를 표현하는 다른 방법으로 특정 주파수 범위 안에서의 최대 값과 스펙트럼 값의 산술 평균의 비로 계산될 수 있다. 스펙트럴 구배(Spectral slope)는 주파수 스펙트럼의 기울기를 표현하는 계수로써 주파수 크기의 선형 회기 분석을 통해 계산될 수 있다. 스펙트럴 감소도(Spectral decrease)는 주파수 상에서 추세선이 감소하는 정도를 나타내는 계수이다.Spectral flatness measure (SFM) is a coefficient representing the degree of noise in an audio signal and can be calculated as the ratio of the geometric mean to the arithmetic mean of the spectral values. Spectral crest factor (SCF) is another way of expressing the amount of noise in an audio signal and can be calculated as the ratio of the arithmetic mean of the maximum and spectral values within a specific frequency range. Spectral slope is a coefficient representing the slope of the frequency spectrum and can be calculated through linear regression analysis of frequency magnitude. Spectral decrease is a measure of the extent to which the trend line decreases over frequency.

Nrel(relative specific loudness)은 청각 특성을 고려하여 서브밴드의 신호의 크기를 나타내는 특징 벡터로서, ERB(Equivalent rectangular bandwidth)의 각 주파수 영역의 값을 E(z)라 할 때 다음 수학식4로 표현된다.Nrel (relative specific loudness) is a feature vector representing the magnitude of a signal of a subband in consideration of auditory characteristics. When the value of each frequency region of ERB (Equivalent rectangular bandwidth) is represented by E (z), do.

[수학식4][Equation 4]

Nrel = E(Z)0.23 Nrel = E (Z) 0.23

하모닉 비율(Harmonic ratio)은 주파수 스펙트럼에서 하모닉 성분을 나타내는 파라미터로 프레임 안에서 자동 상관(autocorrelation)의 최대값으로 정의된다.Harmonic ratio is a parameter that represents the harmonic component in the frequency spectrum and is defined as the maximum value of autocorrelation in the frame.

음악 콘텐츠 분류에 있어서 중요한 요소는 리듬으로서, 리듬을 표현하는 특징값은 음악 콘텐츠 분류에 효과적이다. 음악의 범주 중 특히 음악 장르는 리듬에 따라 분류되는 경향이 강한 것을 관찰할 수 있다. 따라서 안정적인 리듬 추출 알고리듬은 음악의 범주를 구분하는 알고리듬에서 매우 중요한 위치를 차지한다. 리듬 특징값을 추출하는 방법에 특별한 제한은 없지만 예를 들어, G. Tzanetakis와 P. Cook의 “오디오 신호의 음악 장르 구분(Musical Genre Classification of audio signals)"에 따라 리듬 특징값을 추출할 수 있다. 3초의 윈도우에서 20~200 BPM(Beat per minute)의 리듬을 추출하여 곡 전체에 대한 히스토그램을 만든 후 다음과 같은 특징값을 계수로 사용할 수 있다.An important element in music content classification is rhythm, and the feature value representing the rhythm is effective for music content classification. Among the categories of music, it can be observed that the music genre tends to be classified according to the rhythm. Therefore, stable rhythm extraction algorithm occupies a very important place in the algorithm that classifies music. There is no particular limitation on how to extract the rhythm feature, but for example, you can extract the rhythm feature according to G. Tzanetakis and P. Cook's "Musical Genre Classification of audio signals." After extracting the rhythm of 20 ~ 200 beat per minute (BPM) in the window of 3 seconds, the histogram of the whole song can be created and the following characteristic values can be used as coefficients.

- A0, A1: 히스토그램에서 첫 번째와 두 번째 최대치의 상대적 크기로써 히스토그램의 전체 합으로 나눈 값이다.A0, A1: The relative magnitude of the first and second maximums in the histogram divided by the total sum of the histograms.

- RA: 첫 번째 최대치와 두 번째 최대치의 비이다.RA: The ratio of the first maximum to the second maximum.

- P1, P2: 첫 번째와 두 번째 최대치의 BPM 값이다.P1, P2: BPM values of the first and second maximums.

- SUM: 리듬의 세기를 나타내는 계수로 전체 리듬 히스토그램의 합이다.SUM: A coefficient representing the strength of a rhythm, the sum of the total rhythm histogram.

피치를 표현하는 피치 표현 특징값(Pitch features)은 리듬 표현 특징값과 같이 히스토그램으로부터 추출된 특징값을 이용하여 구성된다. 음조 역시 음악을 이루는 중요한 구성 요소로서, 오디오 신호에서는 일반적으로 여러 개의 피치가 존재하기 때문에 이에 맞는 알고리즘을 적용해야 한다. 피치를 검출하는 방법에는 특별한 제한이 있는 것은 아니지만, 예를 들어 T. Tolenen과 M. Karjalainen의 “효과적인 다중 피치 분석 모델(A computationally efficient multipitch analysis model)”에 개시된 방법을 이용하여 피치를 추출하고, 추출된 피치를 이용하여 곡 전체에 대하여 히스토그램을 용이하게 구성할 수 있다. 히스토그램은 모든 옥타브 의 악보 값을 표현한 히스토그램인 펼쳐진 히스토그램과 피치의 값을 한 옥타브로 투영시킨 접힌 히스토그램의 두 가지가 있으며, 다음 특징값들을 계수로 사용할 수 있다.Pitch features representing pitches are constructed using feature values extracted from histograms, such as rhythm representation features. Tone is also an important component of music, and since there are generally multiple pitches in an audio signal, an appropriate algorithm must be applied. There is no particular limitation on the method of detecting the pitch, but the pitch can be extracted using, for example, the method described in “A computationally efficient multipitch analysis model” of T. Tolenen and M. Karjalainen, Using the extracted pitch, the histogram can be easily configured for the whole song. There are two types of histograms: the unfolded histogram, which is the histogram representing the score values of all octaves, and the folded histogram, which projects the pitch values into one octave. The following characteristic values can be used as coefficients.

- FA0: 접힌 히스토그램에서 최대치의 크기로써 전체적으로 하모닉스의 변화가 어느 정도인지를 표현한다.-FA0: The magnitude of the maximum value in the folded histogram, which represents the overall change in harmonics.

- UP0: 펼쳐진 히스토그램의 최대치의 피치 값으로 음표가 주로 존재하는 옥타브 밴드를 표현한다.UP0: The pitch value of the maximum value of the unrolled histogram, representing the octave band in which the note exists.

- FP0: 접힌 히스토그램의 최대치의 피치 값으로 주가 되는 피치를 표현한다.FP0: Pitch value of the maximum value of the folded histogram.

- IPO1: 접힌 히스토그램에서 첫 번째와 두 번째 최대치의 피치 값의 간격으로 주가 되는 피치들의 구조 관계를 표현한다.IPO1: Represents the structural relationship of the major pitches in the interval between the first and second maximum pitch values in the folded histogram.

- SUM: 피치의 세기를 나타내는 계수로 전체 피치 히스토그램의 합이다.SUM: A coefficient representing the intensity of a pitch, the sum of the total pitch histogram.

확률 분포 함수 생성부(20)는 특징값 추출부(10)에서 추출된 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성한다. 본 실시예에서는 각 그룹별 확률 분포를 정규 분포로 가정하는 대신 가우시안 혼합 모델(Gaussian mixture model)을 이용한다. 가우시안 혼합 모델은 여러 개의 가우시안 분포를 이용하여 임의의 확률 분포를 모델링하는 기법으로서 예측 최적화(Expectation-maximization) 알고리즘으로 최적화될 수 있다. 가우시안 혼합 모델은 비정규분포를 가지는 특징값들의 확률 분포를 모델링하기에 적합하며, 하기 수학식5로 표현될 수 있다.The probability distribution function generator 20 generates a probability distribution function based on a Gaussian mixture model for each feature value extracted by the feature value extractor 10. In this embodiment, instead of assuming that the probability distribution of each group is a normal distribution, a Gaussian mixture model is used. The Gaussian mixture model is a technique for modeling an arbitrary probability distribution using several Gaussian distributions and can be optimized with an prediction-maximization algorithm. The Gaussian mixture model is suitable for modeling a probability distribution of feature values having a nonnormal distribution, and may be expressed by Equation 5 below.

[수학식5][Equation 5]

Figure 112008045291610-PAT00005
Figure 112008045291610-PAT00005

여기에서,

Figure 112008045291610-PAT00006
은 그룹 λ을 조건으로 하는 입력 벡터
Figure 112008045291610-PAT00007
의 확률 분포 함수이고, M은 가우시안 혼합 모델의 가우시안 갯수이며,
Figure 112008045291610-PAT00008
는 i 번째 가우시안 혼합 가중치이고,
Figure 112008045291610-PAT00009
는 입력벡터
Figure 112008045291610-PAT00010
의 i 번째 가우시안 확률 분포이다.From here,
Figure 112008045291610-PAT00006
Is an input vector subject to the group λ
Figure 112008045291610-PAT00007
Is the probability distribution function of, M is the Gaussian number of Gaussian mixture models,
Figure 112008045291610-PAT00008
Is the i th Gaussian blend weight,
Figure 112008045291610-PAT00009
Input vector
Figure 112008045291610-PAT00010
Is the i th Gaussian probability distribution.

음악 콘텐츠를 장르에 따라 분류할 경우, 수학식4는 서로 다른 두 개의 장르간 분리 성능을 측정하기 위한 비용 함수(cost function)가 된다. 본 실시예에서는 장르 간의 분리 성능을 측정하기 위하여, 각 장르마다 특징값 또는 특징 벡터의 분포를 가우시안 혼합 모델을 사용하여 모델링한다. 모델링을 통해 추정된 두개의 분포에서 서로 겹치는 부분은 잘못 분류할 수 있는 영역, 즉 오류 영역(error area)이다. 확률 분포 함수를 정규화시킬 경우, 오류 영역이 0에 가까울수록 분류 성능은 높은 것이고, 1에 가까울수록 분류 성능은 낮은 것이다. 본 실시예에서는 두 분포가 겹치는 부분인 오류 영역을 이용하여 새로운 개념의 GMM 분리 지수를 정의한다.When music contents are classified according to genres, Equation 4 becomes a cost function for measuring separation performance between two different genres. In this embodiment, in order to measure the separation performance between genres, the distribution of feature values or feature vectors for each genre is modeled using a Gaussian mixture model. The overlapping parts of the two distributions estimated through modeling are areas that can be misclassified, that is, error areas. In normalizing the probability distribution function, the closer the error region is to 0, the higher the classification performance. The closer to 1, the lower the classification performance. In this embodiment, a new concept of GMM separation index is defined using an error region that is an overlap of two distributions.

[수학식6][Equation 6]

GMM 분리 지수(separation score) = 1 - 오류 영역(error area)GMM separation score = 1-error area

따라서, 어떤 특징값(또는 특징벡터)에 의해 두 그룹을 분리할 경우 GMM 분리 지수가 1에 가까울수록 그 특징값은 두 그룹 간의 분리 성능이 우수한 것이고, 0에 가까울 수록 분리 성능이 낮은 것이다.Therefore, when two groups are separated by a certain feature (or feature vector), the closer the GMM separation index is to 1, the better the separation between the two groups, and the closer to 0, the lower the separation performance.

도 2는 특징값 MFCC에 대하여 서로 다른 모델을 통해 구해진 확률 분포 곡선을 나타내는 참고도이다. 도 2의 (a)는 특징값 MFCC의 히스토그램을 나타내고, 도 2의 (b)는 특징값 MFCC를 정규 분포로 모델링한 확률 분포를 나타내며, 도 2의 (c)는 본 실시예의 가우시안 혼합 모델을 기반으로 하는 확률 분포를 나타낸 것이다. 2 is a reference diagram illustrating a probability distribution curve obtained through different models for the feature value MFCC. FIG. 2A shows a histogram of the feature value MFCC, FIG. 2B shows a probability distribution modeling the feature value MFCC as a normal distribution, and FIG. 2C shows the Gaussian mixture model of the present embodiment. Based on probability distribution.

도 3은 서로 다른 분류 C1, C2에 따른 확률 분포 함수와 오류 영역을 나타내는 참고도이다. 도 3는 임의의 특징값에 따른 확률 분포 함수로서, 분류 C1에 속한 훈련 데이터들의 분포와 분류 C2에 속한 훈련 데이터들의 분포가 교차하는 빗금친 영역은 분류를 잘못할 가능성이 있는 오류 영역을 나타낸다. 도 3에서 오류 영역의 넓이가 0.25인 경우, GMM 분리 지수는 0.75가 된다.3 is a reference diagram illustrating a probability distribution function and an error region according to different classifications C 1 and C 2 . 3 is a probability distribution function according to an arbitrary feature value, and the hatched area where the distribution of the training data belonging to the classification C 1 and the distribution of the training data belonging to the classification C 2 intersects an error region that may be misclassified. Indicates. In FIG. 3, when the area of the error region is 0.25, the GMM separation index is 0.75.

선택부(30)는 확률 분포 함수 생성부(20)에서 생성된 확률 분포 함수를 이용하여, 모든 특징값들 중에서 그룹 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터를 구성하는 성분들로 결정한다. 선택부(30)는 제1 특징값 선택부(32), 분류 오류 계산부(34) 및 제2 특징값 선택부(36)을 포함한다.The selector 30 selects a predetermined number of feature values to minimize group classification error among all feature values by using the probability distribution function generated by the probability distribution function generator 20, and selects the selected feature values. Determined by the components that make up the vector. The selector 30 includes a first feature value selector 32, a classification error calculator 34, and a second feature value selector 36.

제1 특징값 선택부(32)는 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 그룹 쌍들 간의 분류 오류를 최소화하는 제1 특징값을 선택한다. 분류 오류 계산부(34)는 선택된 제1 특징값에 따라 그룹핑을 할 경우, 상기 그룹 쌍들 중에서 분류 오류를 계산한다. 제2 특징값 선택부(36)는 분류 오류 계산부(34) 에 따른 분류 오류가 최대인 그룹 쌍을 선택하는 그룹 쌍 선택하고, 상기 제1 특징값을 제외한 상기 특징값들 중에서 상기 선택된 그룹 쌍의 분류 오류를 최소로 하는 제2 특징값을 선택한다.The first feature value selector 32 selects a first feature value that minimizes a classification error between pairs of groups among the feature values by using the generated probability distribution function. The classification error calculator 34 calculates a classification error among the group pairs when grouping according to the selected first feature value. The second feature value selector 36 selects a group pair for selecting a group pair having the largest classification error according to the classification error calculator 34, and selects the selected group pair from the feature values except the first feature value. Select a second feature value that minimizes the classification error of.

여기에서 분류 오류는 상술한 GMM 분리 지수를 이용하여 판단할 수 있는데, 모든 특징값들 중에서 상술한 수학식6에 따른 GMM 분리 지수가 가장 큰 것이 분류 오류를 최소화하는 것이다. 예를 들어, 음악 콘텐츠를 3개의 장르로 구분할 경우, 제1 특징값 선택부(32)는 모든 특징값 각각 대하여 분리 지수 GMM12(그룹 1,2간의 분리 지수), GMM13, GMM23 의 대표값, 예를 들어 평균값을 계산하고, GMM의 평균이 가장 큰 특징값을 1차원 특징 벡터를 이루는 첫 번째 특징값(f1)으로 선택할 수 있다.In this case, the classification error may be determined using the above-described GMM separation index. Among all feature values, the largest GMM separation index according to Equation 6 described above is to minimize the classification error. For example, when the music content is divided into three genres, the first feature value selector 32 is a representative of the separation indexes GMM 12 (separation index between groups 1 and 2), GMM 13 and GMM 23 for each feature value. A value, for example, an average value, may be calculated, and the feature value with the largest mean of the GMM may be selected as the first feature value f 1 constituting the one-dimensional feature vector.

제2 특징값 선택부(36)는 상기 예에서 f1으로 선택된 특징값에 의할 경우 GMM13의 값이 가장 작을 경우 제2 특징값 선택부(36)는 그룹1,3으로 이루어진 그룹 쌍을 선택한다. 다음, 제2 특징값 선택부는 f1으로 선택된 특징값을 제외한 나머지 특징값 들을 이용하여 다양한 2차원 특징 벡터에 따른 GMM13을 값을 계산하고, GMM13을 최대가 되게하는 2차원 특징 벡터의 두 번째 구성 요소인 특징값을 제2 특징값(f2)으로 선택한다.The second feature value selector 36 selects a group pair consisting of groups 1 and 3 when the value of GMM 13 is the smallest when the feature value selected by f 1 is the smallest. Choose. Next, the second feature value selector calculates a value of GMM 13 according to various two-dimensional feature vectors by using the feature values other than the feature value selected by f 1, and sets two values of the two-dimensional feature vector to maximize GMM 13 . The feature value which is the second component is selected as the second feature value f 2 .

예를 들어, 음악 콘텐츠를 분류하기 위한 특징값들의 종류가 총 100개이고, 이 중에서 20개의 특징값들을 본 알고리즘을 통해 선별하는 경우, 제2 특징값 선택 부(36)는 제2 특징값을 선택하는 알고리즘과 동일한 방식으로 제3 내지 제20 특징값을 선택한다.For example, when there are 100 kinds of feature values for classifying music contents, and 20 feature values are selected from the algorithm, the second feature value selection unit 36 selects the second feature value. The third to twentieth feature values are selected in the same manner as the algorithm.

도 4는 분류하고자하는 음악 장르의 개수가 3개인 경우, 특징 벡터에 따른 분류별 특징값의 평균을 나타내는 참고도이다. 도 4에서 특징 벡터1, 2는 각각 2차원의 특징 벡터로서 특징 벡터1을 선택할 경우 C1, C2와 C3 간의 유클리드 거리는 8.23이고, 특징 벡터2를 선택할 경우 유클리드 거리는 18.50라고 할 경우, 특징 벡터2의 유클리드 거리가 크기 때문에 기존의 알고리즘에 의할 경우 특징벡터2를 선택하게 된다. 그러나, 실제로는 특징 벡터1의 분리 성능이 더 높을 수 있다. 왜냐하면, 특징 벡터2의 경우 C1과 C2의 모호성이 크기 때문이다. 4 is a reference diagram illustrating an average of feature values for each classification according to a feature vector when the number of music genres to be classified is three. In FIG. 4, the feature vectors 1 and 2 are two-dimensional feature vectors, respectively, and when the feature vector 1 is selected, the Euclidean distance between C 1 , C 2 and C 3 is 8.23, and when the feature vector 2 is selected, the Euclidean distance is 18.50. Since the Euclidean distance of Vector 2 is large, the feature vector 2 is selected by the conventional algorithm. In practice, however, the separation performance of feature vector 1 may be higher. This is because the ambiguity between C 1 and C 2 is large in the feature vector 2.

본 실시예는 특징값 또는 특징벡터의 선택에 있어서, SFS(Sequential forward selection)을 이용한 알고리즘을 개시한다. 기존의 알고리즘은 다중 범주의 모든 거리를 동등한 평균울 이용하여 분리 성능을 측정하는 반면, 본 실시예의 알고리즘에서는 이전에 선택된 특징값에 의해 분리할 경우, 분리 성능이 떨어지는 범주를 기준으로 다음 특징값을 선택한다는 점에서 종래의 것과 구별된다. 즉, 도 4에서 특징 벡터2를 선택할 경우, 본 실시예에 따르면 3차원의 특징벡터를 위해 추가로 선택되는 특징값은 특징 벡터2에 의해 훈련 데이터를 분류할 경우 가장 취약한 특성을 갖는 C1과 C2 간의 분리 성능만을 기준으로 결정된다. This embodiment discloses an algorithm using sequential forward selection (SFS) in selecting a feature value or a feature vector. Existing algorithms measure the separation performance using equal averages of all distances in multiple categories, whereas in the algorithm of the present embodiment, when the separation is performed by a previously selected feature value, the next feature value is determined based on a category having poor separation performance. It is distinguished from the conventional one in selecting. That is, in the case of selecting the feature vector 2 in Figure 4, according to this embodiment, the feature value additionally selected for the three-dimensional feature vector is characterized by C 1 having the most vulnerable characteristics when classifying the training data by the feature vector 2 and It is determined based solely on the separation performance between C 2 .

도 5는 본 발명의 일 실시예에 따른 특징 벡터 선택 방법을 나타내는 흐름도이다. 도 5에 도시된 흐름도는 특징 벡터 선택 장치(1)에서 시계열적으로 수행되는 하기의 단계들을 포함한다. 특징 벡터 선택 장치(1)와 관련한 상술한 설명과 중복되는 설명은 이하 생략한다.5 is a flowchart illustrating a feature vector selection method according to an embodiment of the present invention. The flowchart shown in FIG. 5 includes the following steps performed in time series in the feature vector selection device 1. The description overlapping with the above description with respect to the feature vector selection device 1 will be omitted below.

110단계에서 특징값 추출부(10)는 복수 개의 그룹으로 분류된 훈련 데이터들로 부터 특징값을 추출한다.In step 110, the feature value extractor 10 extracts a feature value from training data classified into a plurality of groups.

120단계에서 확률 분포 함수 생성부(20)는 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성한다.In operation 120, the probability distribution function generator 20 generates a probability distribution function based on a Gaussian mixture model.

130단계에서 제1 특징값 선택부(32)는 GMM 분리 지수를 이용하여, 모든 특징값들 중에서 분리 성능이 가장 우수한 특징값을 제1 특징값으로 선택한다. 특히, 본 실시예에서는 GMM 분리 지수를 이용하여 제1 특징값을 선택한다. 120단계를 통해 모델링 된 확률 분포 함수를 기반으로 각각의 특징값에 대하여 그룹 쌍간의 겹치는 부분의 면적 즉 오류 영역의 넓이와 GMM 분리 지수를 계산할 경우, 하기 수학식7에 따라 GMM 분리 지수가 가장 큰 특징값을 제1 특징값으로 선택한다.In operation 130, the first feature value selector 32 selects the feature value having the highest separation performance as the first feature value from all the feature values using the GMM separation index. In particular, in this embodiment, the first feature value is selected using the GMM separation index. Based on the probability distribution function modeled in step 120, when calculating the area of the overlapping part between the pair of groups, that is, the area of the error area and the GMM separation index, the largest GMM separation index is calculated according to Equation 7 below. The feature value is selected as the first feature value.

[수학식7][Equation 7]

Figure 112008045291610-PAT00011
Figure 112008045291610-PAT00011

여기서, f1는 특징벡터 선택 알고리즘에 의해 첫 번째로 선택된 특징값이고, D는 모든 특징값들로 이루어진 특징 셋이며, M은 분류하고자 하는 그룹(범주)의 개수이다. Sd(i, j)는 특징값 d에 따라 그룹i와 j간의 GMM 분리 지수를 나타낸다.Here, f 1 is a feature value first selected by the feature vector selection algorithm, D is a feature set composed of all feature values, and M is the number of groups (categories) to be classified. S d (i, j) represents the GMM separation index between groups i and j according to the feature value d.

140단계에서 분류 오류 계산부(34)는 제1 특징값에 따라 그룹핑을 할 경우, 분류 오류를 계산하고, 제2 특징값 선택부(36)는 분류 오류가 최대인 그룹 쌍을 선 택한다. In step 140, the classification error calculator 34 calculates a classification error when grouping according to the first feature value, and the second feature value selector 36 selects a group pair having the maximum classification error.

예를 들어, S(i, j)를 선택된 제1 특징값에 따른 그룹 i와 j간의 GMM 분리 지수라고 할 때, 분류 오류 계산부(34)는 모든 그룹 (1≤i≤M, i<j≤M)간의 S(i, j)을 구한다. 만약, 이미 선택된 특징값이 2개 이상일 때에는 이전의 S(i, j)에 새로 선택된 특징값에 따른 GMM 분리 지수를 합산하여 이미 선택된 특징 벡터에 따른 그룹간 거리가 모두 반영되도록 한다. 분류 오류 계산부(34)는 현재 까지 선택된 특징값에 의할 경우 가장 성능이 좋지 않은 그룹 쌍 간의 분류 성능을 보완하기 위하여 하기 수학식8에 따라 S(i, j)값을 최소로 하는 그룹 쌍 C1, C2를 결정한다.For example, when S (i, j) is a GMM separation index between the group i and j according to the selected first feature value, the classification error calculation unit 34 calculates all groups (1 ≦ i ≦ M, i <j). S (i, j) between ≤ M is obtained. If there are two or more selected feature values, the GMM separation index according to the newly selected feature value is added to the previous S (i, j) to reflect all the distances between groups according to the already selected feature vector. The classification error calculation unit 34 is a group pair that minimizes the S (i, j) value according to Equation 8 below to compensate for the classification performance between the group pairs having the worst performance based on the feature value selected so far. Determine C 1 , C 2 .

[수학식8][Equation 8]

Figure 112008045291610-PAT00012
Figure 112008045291610-PAT00012

여기에서, {C1, C2}는 기준이 되는 그룹을 나타내고,

Figure 112008045291610-PAT00013
이며, 그리고 SF(i, j)는 k-1번째 까지 선택된 모든 특징 벡터를 사용한 범주 i와 j간의 GMM 분리 지수이다.Here, {C 1 , C 2 } represents a group to be a reference,
Figure 112008045291610-PAT00013
And S F (i, j) is the GMM separation index between categories i and j using all the feature vectors selected up to the k-1 th.

150단계에서 제2 특징값 선택부(36)는 140단계에서 선택된 그룹쌍의 분류 오류를 최소화하는 즉 GMM 분리 지수가 가장 큰 특징값을 제2 특징값으로 선택한다.In step 150, the second feature value selector 36 minimizes the classification error of the group pair selected in step 140, that is, selects the feature value having the largest GMM separation index as the second feature value.

예를 들어, 제2 특징값 선택부(36)는 다음 수학식8에 따라 아직 선택되지 않은 특징값들 중에서 Sd(C1, C2)를 최대로 하는 즉 분류 오류를 최소로 하는 특징값을 선택한다. 선택된 특징값은 궁극적으로 얻고자 하는 특징 벡터의 두 번째 구성 성분으로서, 선별된 특징 값 셋에 추가된다.For example, the second feature value selector 36 maximizes S d (C 1 , C 2 ) among feature values not yet selected according to Equation 8, that is, minimizes classification errors. Select. The selected feature value is ultimately added as a second component of the feature vector to be obtained, to the selected feature value set.

[수학식9][Equation 9]

Figure 112008045291610-PAT00014
Figure 112008045291610-PAT00014

도 5에 도시되지는 않았지만, 제3 특징값은 상술한 140단계와 150단계를 반복함으로써 선택된다. 분류 오류를 고려하여 특징값을 추가로 선택하는 140단계와 150단계는 특징값 셋에 속한 선택된 특징값들의 수가 소정의 수를 가질 때 까지, 또는 특징 벡터가 원하는 차원을 가질 때 까지 반복 수행된다.Although not shown in FIG. 5, the third feature value is selected by repeating steps 140 and 150 described above. Steps 140 and 150 for further selecting feature values in consideration of classification errors are repeatedly performed until the number of selected feature values belonging to the feature value set has a predetermined number or until the feature vector has a desired dimension.

분류 하고자 하는 그룹의 개수가 2개인 경우와 달리 분류하고자 하는 그룹의 개수가 3개 이상인 다중 분류를 구별하는 특징 벡터를 선택할 경우, 기존의 유클리드 거리 또는 관성 비율(inertia ratio)를 이용한 데이터 분류 방법은 분리 성능에 일정한 한계가 있다. 왜냐하면, 기존의 방법들은 여러 범주 간의 거리를 동등하게 평균을 구하여 분리 성능을 측정하게 되는데, 이 때 상대적으로 분리가 잘 되는 범주간의 거리가 특징벡터에 따른 값의 변화가 더 심하기 때문에 분리가 잘 되는 범주의 거리에 영향을 많이 받게 된다. 그러나 본 실시예와 같이 분리가 잘 되지 않는 범주들을 분리가 더 잘 되게 하는 특징 벡터를 순차적으로 1개씩 선택하여 특징 벡터를 구성하기 때문에, 분리 성능을 향상 시킬 수 있다.Unlike when the number of groups to be classified is two, when selecting a feature vector that distinguishes multiple classifications with three or more groups to be classified, the existing data classification method using Euclidean distance or inertia ratio There is a certain limit to the separation performance. This is because the conventional methods measure the separation performance by equally averaging the distances between the various categories. The distance of the category is greatly affected. However, as in this embodiment, since the feature vectors are configured by sequentially selecting one feature vector for better separation, the separation performance can be improved.

도 6은 본 발명의 일 실시예에 따른 음악 장르 분류 장치를 나타내는 블록도이다. 도 6에 도시된 음악 장르 분류 장치(200)는 훈련 음악 데이터 저장부(210), 특징값 추출부(220), 확률 분포 함수 생성부(230), 특징 벡터 선택부(240), 트레이 닝부(250), 음악 데이터 입력부(260), 입력 특징 벡터 추출부(270) 및 장르 결정부(280)를 포함한다. 특징 벡터 선택 장치(1)와 관련한 상술한 설명과 중복되는 설명은 이하 생략한다.6 is a block diagram illustrating an apparatus for classifying music genres according to an exemplary embodiment of the present invention. The music genre classification apparatus 200 illustrated in FIG. 6 includes a training music data storage 210, a feature value extractor 220, a probability distribution function generator 230, a feature vector selector 240, and a training unit ( 250, a music data input unit 260, an input feature vector extractor 270, and a genre determiner 280. The description overlapping with the above description with respect to the feature vector selection device 1 will be omitted below.

훈련 음악 데이터 저장부(210)는 장르가 미리 분류된 훈련 음악 데이터를 저장한다. 특징값 추출부(220)는 훈련 음악 데이터 저장부(210)에 저장된 훈련 음악 데이터 각각으로부터 특징값을 추출한다. 확률 분포 함수 생성부(230)는 특징값 추출부(220)에서 추출된 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성한다. The training music data storage 210 stores training music data in which genres are pre-classified. The feature value extractor 220 extracts a feature value from each piece of training music data stored in the training music data storage 210. The probability distribution function generator 230 generates a probability distribution function based on a Gaussian mixture model for each feature value extracted by the feature value extractor 220.

특징 벡터 선택부(240)는 생성된 확률 분포 함수를 이용하여, 추출된 특징값들 중에서 장르 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 선택된 특징값들을 특징 벡터의 구성 성분으로 결정한다. 여기에서, 장르 분류 오류는 GMM 분리 지수를 이용하여 판단할 수 있다. 특징값의 선택은 순차적으로 특징값을 하나씩 선택함으로써 특징 벡터의 차원을 늘려가는 방법 즉 SFS(Sequential forward selection)에 따라 선택할 수 있다. 예를 들어, 특징값 추출부가 서로 다른 100종류의 특징값들(MFCC, RMS, SFM 등)을 추출하고 그 중에서 분리 성능이 우수한 20종의 특징값들을 선별하고, 이를 구성 성분으로 하는 20차원의 특징 벡터를 선택하는 경우, 특징 벡터 선택부(240)는 특징 벡터의 차원을 1에서 20까지 늘릴 수 있도록 특징값을 하나씩 선택한다.The feature vector selector 240 selects a predetermined number of feature values to minimize genre classification error among the extracted feature values using the generated probability distribution function, and determines the selected feature values as components of the feature vector. . Here, the genre classification error may be determined using the GMM separation index. The selection of the feature values can be selected according to a method of increasing the dimension of the feature vector by sequentially selecting the feature values one by one, that is, sequential forward selection (SFS). For example, the feature value extractor extracts 100 different feature values (MFCC, RMS, SFM, etc.), selects 20 feature values having excellent separation performance, and selects 20 feature values as a component. When selecting a feature vector, the feature vector selector 240 selects feature values one by one to increase the dimension of the feature vector from 1 to 20.

트레이닝부(250)는 훈련 음악 데이터로부터 선택된 특징값들을 구성 성분으로 하는 특징 벡터들을 추출하고, 추출된 특징 벡터들을 이용하여 음악 장르 분류 를 위한 모델을 생성한다. 트레이닝부(250)는 음악 데이터가 입력되기 이전에, 음악 장르 분류를 위하 분류 모델을 미리 생성한다. 예를 들어, 트레이닝부(250)는 음악 장르별로 선택된 특징값들의 평균으로 이루어진 장르별 평균 특징 벡터를 미리 계산하여 저장할 수 있다.The training unit 250 extracts feature vectors including the selected feature values from the training music data, and generates a model for music genre classification using the extracted feature vectors. Before the music data is input, the training unit 250 generates a classification model for music genre classification in advance. For example, the training unit 250 may calculate and store, in advance, an average feature vector for each genre including an average of feature values selected for each music genre.

음악 데이터 입력부(260)는 분류하고자 하는 음악 데이터를 입력 받는다. 입력 특징 벡터 추출부(270)는 특징 벡터 선택부(240)에 의해 선택된 특징값들로 구성 성분으로 하는 특징 벡터를 입력된 음악 데이터로부터 추출한다.The music data input unit 260 receives music data to be classified. The input feature vector extractor 270 extracts, from the input music data, a feature vector comprising the feature values selected by the feature vector selector 240.

장르 결정부(280)는 추출된 입력 특징 벡터와 미리 저장된 장르별 특징 벡터를 비교하여 장르를 결정한다. 장르 결정부는 장르별 특징벡터의 평균값 또는 GMM 분리 지수를 이용하여, 입력 음악 데이터와 이미 저장된 훈련 데이터들간의 유사도를 소정의 기준에 따라 계산하고, 입력 음악의 장르를 가장 유사도가 높은 장르로 결정한다.The genre determiner 280 determines the genre by comparing the extracted input feature vector with a pre-stored feature vector for each genre. The genre determination unit calculates the similarity between the input music data and the already stored training data according to a predetermined criterion using the average value of the genre feature vectors or the GMM separation index, and determines the genre of the input music as the genre with the highest similarity.

본 발명의 음악 장르 분류 방법은 음악 장르 분류 장치(200)에서 시계열적으로 수행되는 것으로서, 특히 가우시안 혼합 모델과 GMM 분리 지수를 이용하여 특징 벡터의 구성 요소인 특징값을 선택하는 것에 주된 특징이 있다. 음악 장르 분류 방법은 훈련 음악 데이터로부터 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 계산하는 단계; 그룹과 그룹의 분리 성능을 나타내는 GMM 분리 지수를 이용하여 특징 벡터를 이루는 특징값들을 순차적으로 선택하여 특징 벡터를 이루는 구성 성분을 결정하는 단계 분류하고자 하는 음악 데이터로부터 상기 결정된 구성 성분을 갖는 입력 특징 벡터를 추출하는 단계; 및 추출된 입력 특징 벡터와 기 추출된 장 르별 특징 벡터간의 유사도를 이용하여 입력 음악 데이터의 장르를 결정하는 단계를 포함한다.The music genre classification method of the present invention is performed in a time series in the music genre classification apparatus 200. In particular, the music genre classification method 200 has a main feature of selecting a feature value that is a component of a feature vector using a Gaussian mixture model and a GMM separation index. . The music genre classification method includes calculating a probability distribution function based on a Gaussian mixture model from training music data; Steps of sequentially selecting the feature values constituting the feature vector using the GMM separation index indicating the separation performance of the group and the group to determine the components constituting the feature vector Extracting; And determining the genre of the input music data using the similarity between the extracted input feature vector and the previously extracted feature vector for each genre.

한편 본 발명의 특징 벡터 선택 방법과 음악 장르 분류 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.Meanwhile, the feature vector selection method and the music genre classification method of the present invention can be implemented in computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like, which may be implemented in the form of a carrier wave (for example, transmission over the Internet). Include. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. In addition, functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers in the art to which the present invention belongs.

이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will understand that the present invention can be embodied in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown not in the above description but in the claims, and all differences within the scope should be construed as being included in the present invention.

본 발명은 가우시안 혼합 모델을 기반으로 특징값 또는 특징 벡터의 확률 분포를 모델링하고 순차적 선별 방식에 의하여 특징 벡터를 선택하기 때문에, 정규 분포 특성을 갖지 않으며 다중 범주의 분류가 필요한, 음악 콘텐츠의 분류 시스템에 활용되기에 적합하다. 본 발명은 기존의 음악 장르 인식이 사용되는 라디오 방송이나, 음악 재생 기능이 지원되는 휴대용 통신 기기 등 다양한 전자 제품의 음악 장르 인식 시스템으로 사용될 수 있다.The present invention models a probability distribution of feature values or feature vectors based on a Gaussian mixture model and selects feature vectors by a sequential screening method, which does not have a normal distribution feature and requires classification of multiple categories. Suitable for use in The present invention can be used as a music genre recognition system of various electronic products such as a radio broadcast using a conventional music genre recognition or a portable communication device supporting a music reproduction function.

도 1은 본 발명의 일 실시예에 따른 특징 벡터 선택 장치를 나타내는 블록도이다.1 is a block diagram illustrating an apparatus for selecting a feature vector according to an embodiment of the present invention.

도 2는 특징값 MFCC에 대하여 서로 다른 모델링을 통해 구해진 확률 분포 곡선을 나타내는 참고도이다.2 is a reference diagram illustrating a probability distribution curve obtained through different modeling of the feature value MFCC.

도 3은 서로 다른 분류 C1, C2에 따른 확률 분포 함수와 그 경우의 오류 영역을 나타내는 참고도이다.3 is a reference diagram illustrating a probability distribution function according to different classifications C1 and C2 and an error region in that case.

도 4는 분류하고자 하는 음악 장르의 개수가 3개인 경우, 특징 벡터 각각에 따른 분류별 특징값의 평균을 나타내는 참고도이다.FIG. 4 is a reference diagram illustrating an average of feature values for each classification according to each feature vector when the number of music genres to be classified is three.

도 5는 본 발명의 일실시예에 따른 특징 벡터 선택 방법을 나타내는 흐름도이다.5 is a flowchart illustrating a feature vector selection method according to an embodiment of the present invention.

도 6은 본 발명의 일 실시예에 따른 음악 장르 분류 장치를 나타내는 블록도이다.6 is a block diagram illustrating an apparatus for classifying music genres according to an exemplary embodiment of the present invention.

Claims (13)

a) 복수 개의 그룹으로 분류된 훈련 데이터들로부터 추출된 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 단계; 및a) generating a probability distribution function based on a Gaussian mixture model for each feature value extracted from training data classified into a plurality of groups; And b) 상기 생성된 확률 분포 함수를 이용하여 상기 특징값들 중에서 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터를 구성하는 성분들로 결정하는 단계를 포함하는 것을 특징으로 하는 특징 벡터 선택 방법.b) selecting a predetermined number of feature values that minimize a classification error among the feature values using the generated probability distribution function, and determining the selected feature values as components constituting a feature vector. Characteristic vector selection method characterized by. 제 1 항에 있어서, 상기 b)단계에서 상기 특징값들을 선택하는 것은The method of claim 1, wherein the selecting of the feature values in step b) b1) 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 그룹 쌍 간의 분류 오류를 최소화하는 제1 특징값을 선택하는 단계;b1) selecting a first feature value from the feature values to minimize a classification error between pairs of groups using the generated probability distribution function; b2) 상기 선택된 제1 특징값에 따라 그룹핑을 할 경우, 분류 오류가 최대인 그룹 쌍을 선택하는 단계; 및b2) when grouping according to the selected first feature value, selecting a group pair having a maximum classification error; And b3) 상기 제1 특징값을 제외한 상기 특징값들 중에서, 상기 선택된 그룹 쌍의 분류 오류를 최소로 하는 제2 특징값을 선택하는 단계를 포함하는 것을 특징으로 하는 특징 벡터 선택 방법.b3) selecting a second feature value that minimizes a classification error of the selected group pair among the feature values except the first feature value. 제 1 항에 있어서,The method of claim 1, 상기 a)단계에서 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수는 하 기 수학식으로 표현되는 것을 특징으로 하는 특징 벡터 선택 방법.The probability distribution function based on the Gaussian mixture model in step a) is represented by the following equation. [수학식][Equation]
Figure 112008045291610-PAT00015
Figure 112008045291610-PAT00015
여기에서,
Figure 112008045291610-PAT00016
은 그룹 λ을 조건으로 하는 입력 벡터
Figure 112008045291610-PAT00017
의 확률 분포 함수이고, M은 가우시안 혼합 모델의 가우시안 갯수이며,
Figure 112008045291610-PAT00018
는 i 번째 가우시안 혼합 가중치이고,
Figure 112008045291610-PAT00019
는 입력벡터
Figure 112008045291610-PAT00020
의 i 번째 가우시안 확률 분포이다.
From here,
Figure 112008045291610-PAT00016
Is an input vector subject to the group λ
Figure 112008045291610-PAT00017
Is the probability distribution function of, M is the Gaussian number of Gaussian mixture models,
Figure 112008045291610-PAT00018
Is the i th Gaussian blend weight,
Figure 112008045291610-PAT00019
Input vector
Figure 112008045291610-PAT00020
Is the i th Gaussian probability distribution.
제 1 항에 있어서,The method of claim 1, 상기 b)단계에서 특징값들을 선택하는 것은 하기 수학식에 따른 GMM 분리 지수를 이용하여 선택하는 것을 특징으로 하는 특징 벡터 선택 방법.Selecting the feature values in step b) is characterized in that the selection using the GMM separation index according to the equation. [수학식][Equation] GMM 분리 지수 = 1 - 오류 영역의 넓이GMM Separation Index = 1-Area of Error Area 여기에서, 오류 영역의 넓이는 임의의 그룹 쌍을 이루는 그룹1과 그룹2 간의 교차 영역의 넓이이다.Here, the width of the error area is the width of the intersection area between Group 1 and Group 2 forming an arbitrary group pair. 제 2 항에 있어서, 상기 b)단계에서 상기 특징값들을 선택하는 것은3. The method of claim 2, wherein the selecting of the feature values in step b) b4) 상기 선택된 제2 특징값을 더 고려하여 그룹핑을 할 경우, 상기 그룹 쌍 간의 분류 오류가 최대인 그룹 쌍을 선택하는 단계; 및b4) if the grouping is further considered in consideration of the selected second feature value, selecting a group pair having a maximum classification error between the group pairs; And b5) 상기 제1 및 제2 특징값을 제외한 상기 특징값들 중에서, 상기 선택된 그룹 쌍 간의 분류 오류를 최소로 하는 제3 특징값을 선택하는 단계를 더 포함하는 것을 특징으로 하는 특징 벡터 선택 방법.b5) selecting a third feature value among the feature values other than the first and second feature values to minimize a classification error between the selected group pairs. 제 1 항에 있어서,The method of claim 1, 상기 훈련 데이터는 음악 콘텐츠이고,The training data is music content, 상기 a)단계에서 상기 특징값들은 피치(pitch)와 관련된 특징값, 음색과 관련된 특징값 및 리듬과 관련된 특징값들을 포함하는 것을 특징으로 하는 특징 벡터 선택 방법.And in the step a), the feature values include a feature value associated with a pitch, a feature value associated with a tone, and a feature value associated with a rhythm. 제 1 항 내지 제 6 항 중에서 선택된 어느 한 항의 특징 백터 선택 방법을 컴퓨터 상에서 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for performing on a computer the method of selecting a feature vector of any one of claims 1 to 6. 복수 개의 그룹으로 분류된 훈련 데이터들로 부터 추출된 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 확률 분포 함수 생성부; 및A probability distribution function generator for generating a probability distribution function based on a Gaussian mixture model for each feature value extracted from training data classified into a plurality of groups; And 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터를 구성하는 성분들로 결정하는 선택부를 포함하는 것을 특징으로 하는 특징 벡터 선택 장치.And a selector configured to select a predetermined number of feature values to minimize a classification error among the feature values by using the generated probability distribution function, and determine the selected feature values as components of a feature vector. Features vector selection device. 제 8 항에 있어서, 상기 선택부는The method of claim 8, wherein the selection unit 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 그룹 쌍들 간의 분류 오류를 최소화하는 제1 특징값을 선택하는 제1 특징값 선택부;A first feature value selection unit for selecting a first feature value to minimize a classification error between pairs of groups among the feature values by using the generated probability distribution function; 상기 선별된 제1 특징값에 따라 그룹핑을 할 경우, 상기 그룹 쌍들 중에서 분류 오류를 계산하는 분류 오류 계산부; 및A classification error calculator configured to calculate a classification error among the group pairs when grouping according to the selected first feature value; And 상기 분류 오류 계산부에 따른 분류 오류가 최대인 그룹 쌍을 선택하는 그룹 쌍 선택하고, 상기 제1 특징값을 제외한 상기 특징값들 중에서 상기 선택된 그룹 쌍의 분류 오류를 최소로 하는 제2 특징값을 선택하는 제2 특징값 선택부를 포함하는 것을 특징으로 하는 특징 벡터 선택 장치.Selecting a group pair for selecting a group pair having a maximum classification error according to the classification error calculation unit, and selecting a second feature value for minimizing a classification error of the selected group pair among the feature values except the first feature value And a second feature value selector for selecting. 제 9 항에 있어서,The method of claim 9, 복수 개의 그룹으로 분류된 훈련 데이터들로부터 특징값을 추출하는 특징값 추출부를 더 포함하며, 상기 확률 분포 함수 생성부는 상기 특징값 추출부에서 추출된 특징값을 이용하여 확률 분포 함수를 생성하는 것을 특징으로 하는 특징 벡터 선택 장치.The apparatus may further include a feature value extractor configured to extract feature values from training data classified into a plurality of groups, wherein the probability distribution function generator generates a probability distribution function using the feature values extracted by the feature value extractor. Features vector selection device. 제 8 항에 있어서,The method of claim 8, 상기 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수는 하기 수학식으 로 표현되는 것을 특징으로 하는 특징 벡터 선택 장치.A probability distribution function based on the Gaussian mixture model is represented by the following equation. [수학식][Equation]
Figure 112008045291610-PAT00021
Figure 112008045291610-PAT00021
여기에서,
Figure 112008045291610-PAT00022
은 그룹 λ을 조건으로 하는 입력 벡터
Figure 112008045291610-PAT00023
의 확률 분포 함수이고, M은 가우시안 혼합 모델의 가우시안 갯수이며,
Figure 112008045291610-PAT00024
는 i 번째 가우시안 혼합 가중치이고,
Figure 112008045291610-PAT00025
는 입력벡터
Figure 112008045291610-PAT00026
의 i 번째 가우시안 확률 분포이다.
From here,
Figure 112008045291610-PAT00022
Is an input vector subject to the group λ
Figure 112008045291610-PAT00023
Is the probability distribution function of, M is the Gaussian number of Gaussian mixture models,
Figure 112008045291610-PAT00024
Is the i th Gaussian blend weight,
Figure 112008045291610-PAT00025
Input vector
Figure 112008045291610-PAT00026
Is the i th Gaussian probability distribution.
a) 복수 개의 장르들로 분류된 훈련 음악 데이터들로 부터 추출된 특징값들을 입력 받고, 상기 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 단계;a) receiving feature values extracted from training music data classified into a plurality of genres, and generating a probability distribution function based on a Gaussian mixture model for each feature value; b) 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 장르 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터 구성 성분으로 결정하는 단계;b) selecting a predetermined number of feature values to minimize genre classification error among the feature values using the generated probability distribution function, and determining the selected feature values as feature vector components; c) 상기 b)단계에서 결정된 특징 벡터 구성 성분에 따라 분류하고자 하는 입력 음악 데이터로부터 입력 특징 벡터를 추출하는 단계; 및c) extracting an input feature vector from input music data to be classified according to the feature vector component determined in step b); And d) 상기 c)단계에서 추출된 입력 특징 벡터를 이용하여 입력 음악 데이터의 장르를 분류하는 단계를 포함하는 것을 특징으로 하는 음악 장르 분류 방법.d) classifying genres of input music data using the input feature vectors extracted in step c). 복수 개의 장르들로 분류된 훈련 음악 데이터들로부터 추출된 특징값들을 입력 받고, 상기 특징값 각각에 대하여 가우시안 혼합 모델을 기반으로 하는 확률 분포 함수를 생성하는 확률 분포 함수 생성부;A probability distribution function generator for receiving feature values extracted from training music data classified into a plurality of genres, and generating a probability distribution function based on a Gaussian mixture model for each feature value; 상기 생성된 확률 분포 함수를 이용하여, 상기 특징값들 중에서 장르 분류 오류를 최소화하는 소정 개수의 특징값들을 선택하고, 상기 선택된 특징값들을 특징 벡터 구성 성분으로 결정하는 특징 벡터 선택부;A feature vector selector which selects a predetermined number of feature values to minimize genre classification error among the feature values using the generated probability distribution function, and determines the selected feature values as feature vector components; 상기 결정된 특징 벡터 구성 성분에 따라 분류하고자 하는 입력 음악 데이터로부터 입력 특징 벡터를 추출하는 입력 특징 벡터 추출부; 및An input feature vector extracting unit configured to extract an input feature vector from input music data to be classified according to the determined feature vector component; And 상기 추출된 입력 특징 벡터를 이용하여 입력 음악 데이터의 장르를 분류하는 장르 결정부를 포함하는 것을 특징으로 하는 음악 장르 분류 장치.And a genre determination unit for classifying genres of input music data by using the extracted input feature vector.
KR1020080059696A 2008-06-24 2008-06-24 Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same KR100974871B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080059696A KR100974871B1 (en) 2008-06-24 2008-06-24 Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080059696A KR100974871B1 (en) 2008-06-24 2008-06-24 Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same

Publications (2)

Publication Number Publication Date
KR20100000265A true KR20100000265A (en) 2010-01-06
KR100974871B1 KR100974871B1 (en) 2010-08-11

Family

ID=41810682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080059696A KR100974871B1 (en) 2008-06-24 2008-06-24 Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same

Country Status (1)

Country Link
KR (1) KR100974871B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645307B2 (en) 2010-08-12 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method for generating probabilistic graphical model based on time-space structure
KR20140107537A (en) * 2011-12-19 2014-09-04 스펜션 엘엘씨 Arithmetic logic unit architecture
CN107580722A (en) * 2015-05-27 2018-01-12 英特尔公司 Gauss hybrid models accelerator with the direct memory access (DMA) engine corresponding to each data flow
GB2564857A (en) * 2017-07-24 2019-01-30 Samantha Leahy Joanne A beauty product container
CN109635823A (en) * 2018-12-07 2019-04-16 湖南中联重科智能技术有限公司 The method and apparatus and engineering machinery of elevator disorder cable for identification

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095315A1 (en) * 2003-04-24 2004-11-04 Koninklijke Philips Electronics N.V. Parameterized temporal feature analysis
JP2004348239A (en) * 2003-05-20 2004-12-09 Fujitsu Ltd Text classification program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645307B2 (en) 2010-08-12 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method for generating probabilistic graphical model based on time-space structure
KR20140107537A (en) * 2011-12-19 2014-09-04 스펜션 엘엘씨 Arithmetic logic unit architecture
CN107580722A (en) * 2015-05-27 2018-01-12 英特尔公司 Gauss hybrid models accelerator with the direct memory access (DMA) engine corresponding to each data flow
GB2564857A (en) * 2017-07-24 2019-01-30 Samantha Leahy Joanne A beauty product container
GB2570531A (en) * 2017-07-24 2019-07-31 Samantha Leahy Joanne A beauty product container
CN109635823A (en) * 2018-12-07 2019-04-16 湖南中联重科智能技术有限公司 The method and apparatus and engineering machinery of elevator disorder cable for identification

Also Published As

Publication number Publication date
KR100974871B1 (en) 2010-08-11

Similar Documents

Publication Publication Date Title
US7115808B2 (en) Automatic music mood detection
US7396990B2 (en) Automatic music mood detection
Burred et al. Hierarchical automatic audio signal classification
KR101117933B1 (en) Systems and methods for generating audio thumbnails
Lippens et al. A comparison of human and automatic musical genre classification
US9313593B2 (en) Ranking representative segments in media data
JP5565374B2 (en) Device for changing the segmentation of audio works
US8193436B2 (en) Segmenting a humming signal into musical notes
JP4268386B2 (en) How to classify songs that contain multiple sounds
CN106571150A (en) Method and system for positioning human acoustic zone of music
WO2015114216A2 (en) Audio signal analysis
KR100974871B1 (en) Feature vector selection method and apparatus, and audio genre classification method and apparatus using the same
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
Seyerlehner et al. Frame level audio similarity-a codebook approach
Elowsson et al. Modeling the perception of tempo
Ahrendt et al. Decision time horizon for music genre classification using short time features
Finley et al. Musical key estimation with unsupervised pattern recognition
West Novel techniques for audio music classification and search
Varewyck et al. Musical meter classification with beat synchronous acoustic features, DFT-based metrical features and support vector machines
Tjahyanto et al. Fft-based features selection for javanese music note and instrument identification using support vector machines
JP3934556B2 (en) Method and apparatus for extracting signal identifier, method and apparatus for creating database from signal identifier, and method and apparatus for referring to search time domain signal
KR20140134988A (en) Music genre classification apparatus and method thereof
Shete et al. Analysis and comparison of timbral audio descriptors with traditional audio descriptors used in automatic Tabla Bol identification of North Indian Classical Music
Sunouchi et al. Diversity-Robust Acoustic Feature Signatures Based on Multiscale Fractal Dimension for Similarity Search of Environmental Sounds
Ghosal et al. Instrumental/song classification of music signal using ransac

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130621

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140708

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150626

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160801

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee