KR20150074644A - Music category for that low order feature extraction apparatus and method - Google Patents

Music category for that low order feature extraction apparatus and method Download PDF

Info

Publication number
KR20150074644A
KR20150074644A KR1020130162621A KR20130162621A KR20150074644A KR 20150074644 A KR20150074644 A KR 20150074644A KR 1020130162621 A KR1020130162621 A KR 1020130162621A KR 20130162621 A KR20130162621 A KR 20130162621A KR 20150074644 A KR20150074644 A KR 20150074644A
Authority
KR
South Korea
Prior art keywords
sound source
feature
unit
vector
extracting
Prior art date
Application number
KR1020130162621A
Other languages
Korean (ko)
Inventor
이종설
임태범
장세진
신사임
장달원
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020130162621A priority Critical patent/KR20150074644A/en
Publication of KR20150074644A publication Critical patent/KR20150074644A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a device and a method for extracting a low order audio feature to classify music. The device comprises: an input unit for changing an inputted sound source into a particular format, and adjusting the same into a short frame unit; a feature extracting unit for obtaining a feature vector from the sound source by a mathematical calculation in a frame having a short length through the input unit; a modeling unit for obtaining a distance learning-based matrix through the feature extracting unit and generating a model of the feature vector by using a classifier from a low order feature vector by a feature extracting part; a vector simplifying unit for extracting a low order feature vector according to the matrix through distance learning from the vector extracted by the extracting unit and the modeling unit; and a sound source classifying unit for classifying genres of music by using a classifier from the feature vector having a length reduced in the vector simplifying unit. A feature vector having a short distance is used, so that time to classify a particular sound source in a sound source classifying system is reduced. A low order feature vector having a short length is used, so that a size of a database is decreased. Accordingly, sound sources can be easily managed by genres. At the same time, a storing size of a database is reduced.

Description

음악분류를 위한 저차의 오디오 특징 추출 장치 및 방법{Music category for that low order feature extraction apparatus and method}[0001] The present invention relates to an apparatus and method for extracting low-order audio features for music classification,

본 발명은 음악 분류를 위한 저차의 오디오 특징 추출방법에 관한 것으로, 더욱 상세하게는 음악 분류 시스템 상에서 함수를 이용하여 길이가 긴 특징을 짤은 길이로 줄여 시스템 전체적인 검색 소요시간을 줄이고, 데이터베이스의 크기를 줄여 관리가 용이한 음악 분류를 위한 저차의 오디오 특징 추출방법에 관한 것이다.More particularly, the present invention relates to a method and apparatus for extracting low-order audio features for music classification, and more particularly, To a method for extracting audio features of lower order for music classification that is easy to manage.

일반적으로 디지털 음악의 사용이 늘어나면서 대용량의 음악 데이터베이스에 저장된 정보들을 효율적으로 관리하고, 검색하는 기술에 대한 수요가 생겨왔다.Generally, as the use of digital music increases, there is a demand for technology to efficiently manage and search information stored in a large-capacity music database.

음악정보 검색과 관련된 다양한 연구가 있어 왔으며, 그중 하나로 음악 장르 분류 분야가 있다. 음악 장르 분류는 입력한 음악에 대하여 분석하고, 미리 정해진 여러개의 장르 중 하나의 장르를 입력에 대한 값을 출력해주는 기술이다. There have been various studies related to music information retrieval, and one of them is music genre classification field. The music genre classification is a technique for analyzing the inputted music and outputting a value for input of a genre of a predetermined plurality of genres.

음악의 장르는 음악 정보의 관리에 꼭 필요한 정보로 자동적인 분류가 가능하다면 판매처, 방송국 등 대용량의 음악 데이터베이스를 보유하는 업체 뿐만 아니라 개이니에게도 많은 도움이 될 것이다. 음악장르 분류 분야는 2000년대 이후로 많이 연구되었으며 특징들을 추출하는 과정과 분류기를 이용해서 결과를 얻는 과정으로 구성된다. The genre of music is essential information for the management of music information. If it is possible to classify automatically, it will be very helpful for not only the company having a large-capacity music database such as a distributor, broadcasting station, but also a dog. The field of music genre classification has been studied extensively since the 2000s and consists of extracting features and obtaining results using a classifier.

현재 MFCC(Mel-frequency cepstrum coefficients)를 비롯한 여러가지 특징들을 추출하고, 이를 합쳐서 하나의 특징 데이터 셋을 만들어서 사용하고 있다, Currently, it extracts various features including Mel-frequency cepstrum coefficients (MFCC) and combines them to create one feature data set.

여러가지 분류기 중 SVM(Support vector machine)이 일반 적으로 좋은 성능을 보이고 있다.SVM (Support vector machine) among various classifiers generally shows good performance.

기존의 시스템들은 성능을 높이기 위해서 여러 특징들을 일렬로 붙여서 아주 긴 길이의 특징 벡터를 사용하였다. 이런 특징벡터의 사용은 시스템의 성능을 높이긴 하였지만, 긴 길이의 벡터는 시스템의 속도를 저하를 야기한다.Conventional systems use very long length feature vectors in order to improve performance. Although the use of these feature vectors has increased the performance of the system, long length vectors cause the system to slow down.

특히 분류기는 K근접이웃(K-nn: K-nearest neighbor)같은 것을 사용하게 된다면 데이터베이스 내 모든 벡터와 비교를 하는 분류기 특징상 분류시간은 벡터의 길이에 비례하게 된다.In particular, if a classifier uses something like a K-nearest neighbor (K-nn), then the classification time on the classifier feature that compares all vectors in the database is proportional to the length of the vector.

벡터의 길이를 줄이는 방법으로는 주성분분석(PCA:principal component analysis), FLD(Fisher's linear discrimination) 등의 방법이 있을 수 있다. Principal component analysis (PCA) and Fisher's linear discrimination (FLD) may be used to reduce the length of the vector.

그러나, 이런 방법들은 다양한 결과를 가지는 분류 과정을 위해서는 적합하지 않을 수 있고, 따라서 길이를 줄이는 과정에서 성능저하를 야기하게 된다.However, these methods may not be suitable for a classification process having various results, and therefore, performance degradation occurs in the process of reducing the length.

한국특허등록 제 0974871호(2010.08.03 등록)Korean Patent Registration No. 0974871 (Registered on August 3, 2010)

상기한 문제점을 해결하기 위한 것으로 본 발명은 음악 분류 시스템 상에서 함수를 이용하여 길이가 긴 특징을 짤은 길이로 줄여 시스템 전체적인 검색 소요 시간을 줄이고, 데이터베이스의 크기를 줄여 관리가 용이한 음악 분류를 위한 오디오 특징들을 거리함수 학습에 기반을 통해 음악을 분류하는 음악 분류를 위한 저차의 오디오 특징 추출방법을 제공하는데 목적이 있다.In order to solve the above-mentioned problems, the present invention provides a music classification system for reducing the length of a long characteristic by using a function on a music classification system to reduce the overall search time of the system, The present invention provides a method of extracting audio features for music classification that classifies music through audio functions based on distance function learning.

상기한 목적을 달성하기 위한 본 발명은 입력되는 음원으로부터 이정한 포매으로 변경하고, 이를 짧은 프레임 단위로 조정하는 입력부와; 상기 입력부를 통해 짧은 길이의 프레임에서 수학적 계산에 의해 음원에서 특징 벡터를 구하는 특징 추출부과; 상기 특징 추출부를 통해 거리 학습 기반의 행렬을 구하여 특징 추출 파트에 의한 저차의 특징 벡터를 분류기를 이용하여 특징 벡터의 모델을 만드는 모델링부와; 상기 추출부와 상기 모델링부에 의해 추출한 벡터를 거리학습을 통하여 행렬에 따른 저차의 특징 벡터를 추출하는 벡터 간소화부와; 상기 벡터 간소화부에서 길이가 줄어든 특징 벡터를 분류기를 이용하여 음원의 장르를 분류하는 음원분류부를 포함하여 구성되는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치를 제공한다.According to an aspect of the present invention, there is provided an apparatus comprising: an input unit for changing a sound source from an input sound source to an equivalent sound source and adjusting the sound source in a short frame unit; A feature extraction unit that obtains a feature vector from a sound source by mathematical calculation in a short-length frame through the input unit; A modeling unit for obtaining a matrix of distance learning based on the feature extraction unit and generating a model of a feature vector by using a classifier, A vector simplification unit for extracting a low-order feature vector according to a matrix through a distance learning of the vector extracted by the extracting unit and the modeling unit; And a sound source classifying unit for classifying the genre of the sound source using the classifier, the feature vector having a reduced length in the vector simplifying unit.

본 발명은 상기 입력부는 장르별 음원의 기준이 되는 데이터를 추출하기 위한 입력되는 음원이 압축상태이면, 압축을 해제하고, 압축을 해제한 음원에서 일정한 포맷으로 변경하는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치를 제공한다.In the present invention, if the input sound source for extracting data serving as a reference of a genre-based sound source is a compressed state, the input unit changes the format of the sound source from the decompressed sound source to a predetermined format. And an audio feature extracting device.

본 발명은 상기 특징 추출부는 일정 포맷으로 변경한 음원에서 수십 ms의 단위로 짧은 길이의 프레임(Frame)으로 나누는 프래이밍 하는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치를 제공한다.The present invention provides a low-order audio feature extraction apparatus for music classification, characterized in that the feature extraction unit is configured to perform frame division by a short-length frame in units of several tens ms in a sound source changed to a predetermined format.

본 발명은 상기 모델링부는 각각의 프레임에 대해서 여러 가지 수학적 계산을 적용하여 벡터의 특징으로 구하는데, 이때 주파스 도메인으로 변환하는 푸리에 변화 즉, 음원 등의 파형을 기존 주파수와 그 정배수의 각 주파수로 분해하여 특징을 추출하는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치를 제공한다. In the present invention, the modeling unit calculates a feature of a vector by applying various mathematical calculations to each frame. At this time, the Fourier transform for transforming into the dominant domain, that is, the waveform of the sound source, And extracting the features of the audio feature extracted by the feature extraction unit.

본 발명은 음악분류를 위한 저차의 오디오 특징 추출 방법은; 상기 제1항의 음악 분류를 위한 저차의 오디오 특징 추출 장치를 이용하여 전체적으로 장르별 모델을 생성하기 위한 특징 벡터를 추출하는 학습단계 모델과; 생성된 학습단계 모델을 통해 입력된 테스트 음악의 장르를 분류하는 테스트 음원 분류하는 테스트 음원분류 과정을 포함하여 이루어지는 것을 특징으로 하는 음악분류를 위한 저차의 오디오 특징 추출 방법을 제공한다. The present invention provides a low-order audio feature extraction method for music classification; A learning step model for extracting a feature vector for generating a genre-specific model as a whole using the low-order audio feature extraction apparatus for music classification according to the first aspect; And a test sound source classifying step of classifying a test sound source classifying the genre of the test music inputted through the generated learning level model.

본 발명은 상기 학습단계 모델은 압축된 음원이 입력되면 이를 풀어주는 과정과; 상기 압축을 푼 음원을 일정한 포맷으로 프리-프로세싱하는 과정과; 상기 프리-프로세싱에 의해 일정 포맷으로 변경한 음원을 수십 ms 단위의 길이의 프레임으로 프레이밍 하는 과정과; 상기 프레이밍 한 음원에대하여 수학적 계산을 적용하여 특징 벡터를 추출하는 과정과; 음원의 분류를 쉽게하도록 상기 특징 벡터의 길이를 간소화하는 과정과; 간소화된 특징 벡터를 통해 음원을 장르별로 분류하는 과정을 포함하여 이루어지는 것을 특징으로 하는 음악분류를 위한 저차의 오디오 특징 추출 방법을 제공한다. In the present invention, the learning phase model may include a process of releasing a compressed sound source when it is input; Pre-processing the decompressed sound source in a predetermined format; Framing the sound source changed into the predetermined format by the pre-processing into a frame of a length of several tens ms; Extracting a feature vector by applying a mathematical calculation to the framed sound source; Simplifying the length of the feature vector to facilitate classifying the sound source; And classifying the sound sources according to the genre through the simplified feature vectors. The present invention also provides a method for extracting audio features of lower order for music classification.

본 발명은 상기 학습단계 모델은 하기의 수학식으로 정의되는 음악분류를 위한 저차의 오디오 특징 추출 방법:The present invention is a method for extracting lower-order audio features for music classification, wherein the learning phase model is defined by the following equation:

Figure pat00001
Figure pat00001

A는 N×N 크기의 PSD(Positive semi-definite)행렬이고, 행렬 A는 거리 함수의 파라미터이다.A is an N × N PSD (positive semi-definite) matrix, and matrix A is a parameter of a distance function.

본 발명은상기 테스트 음원분류는 특징 벡터를 추출하는 학습단계 모델에 의해 구해진 특징 벡터에 데이터에 기초를 두어 입력부를 통해 입력되는 음원을 프리-프로세싱하는 과정, 특징 추출하는 과정, 특징 간소화하는 과정을 거쳐 장르별로 음원을 분류하는 것을 특징으로 하는 음악분류를 위한 저차의 오디오 특징 추출 방법을 제공한다.In the present invention, the test sound source classification includes a process of pre-processing a sound source input through an input unit based on data on a feature vector obtained by a learning step model for extracting a feature vector, a process of extracting features, and a process of simplifying features And then classifying the sound source according to the genre.

본 발명은 짧은 길이의 특징 벡터를 사용하므로써 음원을 분류하는 시스템에서 특정 음원에 대하여 분류하는 시간이 줄어드는 효과가 있다.The present invention uses a short-length feature vector to reduce the time required to classify a sound source in a sound source classification system.

또한, 짤은 길이의 저차의 특징 벡터를 사용함으로써 데이터베이스의 크기가 줄어들어 음원을 장르별로 관리가 쉬워짐과 동시에 데이터베이스의 저장 크기가 줄어드는 효과가 있다. In addition, since the size of the database is reduced by using the lower-order feature vector of the knife, the sound source can be easily managed according to the genre, and at the same time, the storage size of the database is reduced.

또한,거리 함수 방법과 k-NN 분류기를 이용하여 저차의 특징 벡터에서 음원의 장르를 분류하므로 기존의 유클리안 거리 함수를 사용하는 k-NN 분류기보다 분류 성능이 향상되는 효과가 있다. In addition, classification of sound sources in lower-order feature vectors using the distance function method and k-NN classifier is more effective than the k-NN classifier using an existing Uclean distance function.

도 1은 본 발명에 의한 음악 분류를 위한 저차의 오디오 특징 추출 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명에 의한 음악 분류를 위한 저차의 오디오 특징 추출방법의 단계를 나타낸 순서도이다.
FIG. 1 is a block diagram showing a configuration of a low-order audio feature extraction apparatus for music classification according to the present invention.
FIG. 2 is a flowchart illustrating a method of extracting a lower-order audio feature for music classification according to the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail.

그러나 이는 본 발명을 특정한 실시 형태에 대한 한정하려고 하는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Like reference numerals are used for similar elements in describing each drawing. The terms first, second, etc. may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

예를 들어, "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. For example, the term "and / or" includes any combination of a plurality of related listed items or any of a plurality of related listed items.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be construed as ideal or overly formal in meaning unless explicitly defined in the present application Should not.

이하, 본 발명에 의한 음악 분류를 위한 저차의 오디오 특징 추출방법을 첨부된 도면을 통해 상세하게 설명하면 다음과 같다.Hereinafter, a method for extracting lower-order audio features for music classification according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 의한 음악 분류를 위한 저차의 오디오 특징 추출 장치의 구성을 나타낸 블록도이다.FIG. 1 is a block diagram showing a configuration of a low-order audio feature extraction apparatus for music classification according to the present invention.

도 1에 도시된 바와 같이 본 발명은 입력부(10)와, 특징 추출부(20)와, 모델링부(30)와, 벡터 간소화부(40)와, 음원분류부(50)로 구성된다. 1, the present invention comprises an input unit 10, a feature extraction unit 20, a modeling unit 30, a vector simplification unit 40, and a sound source classification unit 50.

상기 입력부(10)는 장르별 음원의 기준이 되는 데이터를 추출하기 위한 입력되는 음원이 압축 상태이면, 압축을 해제하고, 압축을 해제한 음원에서 일정한 포맷으로 변경한다.If the input sound source for extracting data serving as a reference of a genre-specific sound source is in a compressed state, the input unit 10 decompresses the sound source, and changes the format to a predetermined format from the decompressed sound source.

상기 특징 추출부(20)는 일정 포맷으로 변경한 음원에서 수십 ms의 단위로 짧은 길이의 프레임(Frame)으로 나누는 프래이밍(Framing) 한다.The feature extraction unit 20 performs framing by dividing a short-length frame into units of several tens of ms in a sound source changed to a predetermined format.

상기 모델링부(30)는 각각의 프레임(Frame)에 대해서 여러 가지 수학적 계산을 적용하여 벡터(Vector)의 특징으로 구하는데, 이때 주파스 도메인으로 변환하는 푸리에 변화 즉, 음원 등의 파형을 기존 주파수와 그 정배수의 각 주파수로 분해하여 특징을 추출한다. The modeling unit 30 calculates a feature of a vector by applying various mathematical calculations to each frame. At this time, a Fourier transform, that is, a waveform of a sound source or the like, And the frequency of each frequency is extracted to extract the feature.

[수학식 1][Equation 1]

Figure pat00002
Figure pat00002

상기 벡터 간소화부(40)는 특징 벡터의 길이를 간소화 하기의 수학식을 이용하여 거리 함수에 기반하여 수행한다. 상기 A는 N×N 크기의 PSD(Positive semi-definite)행렬이다. 행렬 A가 거리 함수의 유일한 파라미터이고, 이것이 어떤 값으로 결정되느냐에 따라서 거리함수를 결정한다.The vector simplification unit 40 performs the function based on the distance function using the equation for simplifying the length of the feature vector. A is an N × N sized positive semi-definite (PSD) matrix. The matrix A is the only parameter of the distance function, and determines the distance function according to which value it is determined.

거리 함수를 통하여 행렬 A를 구하고, 이로부터 특징 벡터에 곱해서 벡터의 길이를 줄이는 행렬 W를 구한다. 이 행렬 W를 특징 추출부(20) 파트에서 추출한 특징 벡터에 곱하고, 곱한 결과로 저차의 특징 벡터를 얻게 된다. A matrix A is obtained through the distance function, and a matrix W is obtained by multiplying the feature vector by the matrix A to reduce the length of the vector. This matrix W is multiplied by the feature vector extracted from the part of the feature extraction unit 20, and a result of the multiplication is used to obtain a lower-order feature vector.

상기 음원 분류(50)는 상기 벡터 간소화부(40)를 통해 얻어지는 저차의 특징 벡터의 학습된 거리 함수를 k-NN 분류기를 이용하여 장르별로 구분하고, 장르는 Classical, Country, Disco, Hiphop, Jazz, Rock, Blues, Reggae, Pop, Metal 등으로 구분될 수 있다.The sound source classifier 50 classifies the learned distance functions of the lower-order feature vectors obtained through the vector simplification unit 40 by the genre using a k-NN classifier and classifies the genres into Classical, Country, Disco, Hiphop, Jazz , Rock, Blues, Reggae, Pop, and Metal.

도 2는 본 발명에 의한 음악 분류를 위한 저차의 오디오 특징 추출방법의 단계를 나타낸 순서도이다.FIG. 2 is a flowchart illustrating a method of extracting a lower-order audio feature for music classification according to the present invention.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 음악 분류를 위한 저차의 오디어 특징 추출방법은 전체적으로 장르별 모델을 생성하기 위한 학습단계 모델과 생성된 학습단계 모델을 통해 입력된 테스트 음악의 장르를 분류하는 테스트 음원 분류하는 테스트 음원분류 과정을 포함하여 이루어진다.As shown in FIG. 2, the lower-order audio feature extraction method for music classification according to the embodiment of the present invention includes a learning step model for generating a genre model as a whole, And a test sound source classifying process of classifying the test sound source classifying the genre.

또한, 장르별로 음악을 분류하기 위해 음악의 장르를 인식하는 훈련이 선행되어야 하고, 선행된 훈련 데이터를 기준으로 음악의 장르별 모델을 정확히 생성해야 한다.Also, in order to classify music by genre, a training for recognizing the genre of music should be preceded, and a genre model of music should be accurately generated based on the precedent training data.

상기 장르별 모델을 생성하기 위한 학습단계 모델에 따른 음원에서 특징 벡터를 추출하기 위해서 먼저, 입력된 음원이 압축(MP3 음원) 상태인지를 파악하고, 압축상태의 음원으로 파악되면, 이를 압축을 푸는 과정을 행한 후, 압축을 푼 음원을 일정한 포맷으로 변경하는 프리-프로세싱을 하는 과정(S10)을 행한다. In order to extract a feature vector from a sound source according to a learning step model for generating the genre-specific model, it is first determined whether the input sound source is in a compressed (MP3 sound source) state, and if it is recognized as a sound source in a compressed state, (S10) of performing pre-processing for changing the decompressed sound source to a predetermined format.

상기 프리-프로세싱을 하는 과정(S10)을 통해 일정 포맷으로 변경한 음원을 짧은 길이의 프레임 단위 즉, ms 단위의 짧은 길이의 프레임(Frame)으로 나누는 프레이밍을 하는 과정(S20)을 행한다.In step S20, the sound source changed into the predetermined format through the pre-processing step S10 is divided into a short-length frame, that is, a short-length frame of ms.

상기 프레이밍을 하는 과정(S20)을 통해 수집 ms 단위의 짧은 길이로 이루어진 프레임에 대해서 수학적 계산을 적용하여 특징 벡터를 구하는 특징 벡터를 구하는 과정(S30)을 행하게 된다.A step S30 of obtaining a feature vector for obtaining a feature vector by applying a mathematical calculation to a frame having a short length in units of ms is performed through the framing process S20.

상기 수학적 계산에 의해 구해지는 특징 벡터의 주파수 도메인으로 변환하는 푸리에 변화 즉, 음원 등의 파형을 기존 주파수와 그 정배수의 각 주파수로 분해하여 특징 벡터의 간소화 과정(S40)을 행한다.A simplification process (S40) of the feature vector is performed by decomposing the waveform of the Fourier transform, that is, the waveform of the sound source, into the frequency domain of the feature vector obtained by the mathematical calculation, to the original frequency and the frequency of the square frequency.

상기 음원에서 특징 벡터를 추출하는 과정(S30)과, 추출한 특징 벡터를 간소화는 과정(S40)을 더욱 구체적으로 살펴보면, 음원에서 특징 벡터를 추출하기 위해 MCML(Maximally Collapsing Metric Learning)방법을 이용하는데, 이때 길이 N 의 어떤

Figure pat00003
Figure pat00004
가 있을 때, 거리 함수를 상기 수식과 같이정의 한다. More specifically, the feature vector extracting step S30 extracts a feature vector from the sound source, and the step S40 simplifies the extracted feature vector. To extract a feature vector from a sound source, a Maximally Collapsing Metric Learning (MCML) At this time,
Figure pat00003
Wow
Figure pat00004
The distance function is defined as in the above equation.

이때 행렬 A는 N×N 크기의 PSD(Positive Semi-Definnite)행렬이다. 행렬 A가 거리 함수의 유일한 파라미터이고, 이것이 어떤 값으로 결정되느냐에 따라서 거리 함수가 결정된다. In this case, the matrix A is a N × N PSD (Positive Semi-Definite) matrix. The matrix A is the only parameter of the distance function, and the distance function is determined by which value it is determined.

상기 행렬 A는 학습을 통해서 결정되는데, 하나의 클래스에 속한 모든 특징 백터들은 하나의 점에 모여 있고, 다른 클래스에 속한 특징 벡터끼리는 무한히 먼 위치에 있다는 이상적인 상환을 가정하고, 각각의 훈련 데이터마다 계산되는 조건부 확률을 이상적인 상황에 가깝게 되도록 학습한다.The matrix A is determined through learning. It is assumed that all the feature vectors belonging to one class are gathered at one point and the feature vectors belonging to the other class are located at infinitely far positions. And the conditional probability that is closer to the ideal situation.

어떤 벡터

Figure pat00005
에 대한 조건부 확률을 아래와 같이,
Figure pat00006
와 다른 벡터와의 거리를 기준으로 정해진다.Any vector
Figure pat00005
For conditional probabilities for the following,
Figure pat00006
And the distance from the other vector.

[수학식 2]&Quot; (2) "

Figure pat00007
Figure pat00007

상기 수학식 2에서 정의된 조건부 확률 분포가 이상적인 확률분포

Figure pat00008
와 같은 클래스에 속한 벡터들 사이의 거리는 모두 0이므로 조건부 확률값이 어떤 상수를 가지고
Figure pat00009
와 다른 클래스에 속한 벡터와의 거리가 무한대이므로 조건부 확률 값은 0이다. '-' 에 가깝게 만들기 위해서 두 확률분포 사이의 KL분기(divergence)를 계산하고, 행렬 A가 PSD(Positive Semi-Definnite)라는 조건을 지키면서 이를 최소화시킨다. If the conditional probability distribution defined in Equation (2) is an ideal probability distribution
Figure pat00008
Since the distance between vectors belonging to the same class is 0, the conditional probability value has some constant
Figure pat00009
And the vector belonging to the other class is infinite, the conditional probability value is zero. Calculate the KL divergence between the two probability distributions to make them close to '-' and minimize them while keeping the matrix A as positive semi- definite (PSD).

전체 데이터 셋에 대해 KL 분기(divergence)의 합을 구해서 최소화시키는 행렬 A를 구하는 것이 MCML(Maximally Collapsing Metric Learning)의 목표이다.The goal of MCML (Maximally Collapsing Metric Learning) is to obtain a matrix A that minimizes the sum of the KL divergences for the entire data set.

상기 특징 벡터는 MFCC, DFB, OSC에 대한 평균과 분산 그리고 세가지에 대한특징 기반 모듈레이션 스펙트럼을 구하였다. The feature vector obtained the mean and variance for MFCC, DFB, and OSC and the feature-based modulation spectrum for three.

또한, 리니얼(Linear) 커널을 사용하는 SVM(Support Vector Machine) 분류기와 유클리디안 거리를 사용하는 일반적인 k-NN 분류기를 대상으로 MCML(Maximally Collapsing Metric Learning)을 이용해 거리 함수를 결정할 때, 여러 번의 반복 과정을 거치게 된다. In addition, when determining the distance function using Maximally Collapsing Metric Learning (MCML) for SVM (Support Vector Machine) classifier using Linear kernel and general k-NN classifier using Euclidean distance, It is repeated.

이때 초기값을 아이덴티티(Identity)행렬로 정하고, 일정 횟수의 반복과정을 거치게 한다.At this time, the initial value is defined as an identity matrix, and it is repeated a predetermined number of times.

표 1에 분류 정확도가 정리되어 있고, 이와 같은 특징 벡터에 대해서 SVM(Support Vector Machine)을 사용했을 때보다 더 나은 성능을 보이고 있으며, MCML(Maximally Collapsing Metric Learning)을 사용여부에 따라서 같은 k-NN을 사용하였더라도 6% 정도 정화도가 상승하였다.Table 1 summarizes the classification accuracy, and it shows better performance than SVM (Support Vector Machine) for such feature vectors, and it is possible to use the same k-NN (Maximal Collapsing Metric Learning) , The degree of purification increased by about 6%.

이는 거리함수 학습을 음악 장르 분류에 K-NN 분류기를 사용하였을 때, 성능이 향상됨을 보여주는 것 뿐만 아니라, SVM(Support Vector Machine)의 성능을 능가한다.This demonstrates that the distance function learning improves performance when using the K-NN classifier for music genre classification, as well as the performance of the SVM (Support Vector Machine).

방법Way 분류정확도Classification accuracy k-NN (k=3)k-NN (k = 3) 75.175.1 k-NN (k=5)k-NN (k = 5) 76.076.0 SVMSVM 80.380.3 MCML+k-NN (k=3)MCML + k-NN (k = 3) 81.081.0 MCML+k-NN (k=5)MCML + k-NN (k = 5) 82.482.4

상기와 같이 음원에서 특징 벡터를 추출하고, 추출한 특징 벡터의 길이를 줄이는 과정을 행하게 되는데, 이때 특징 길이 줄이기 과정은 거리함수 학습기반하여 수행하고, 거리함수 학습을 통해서 행렬 A를 구하고, 이로부터 특징 벡터에 곱해서 벡터의 길이를 줄이는 행렬 'W'를 구한다.As described above, the feature vector is extracted from the sound source and the length of the extracted feature vector is reduced. At this time, the feature length reduction process is performed based on the distance function learning, the matrix A is obtained through the distance function learning, We obtain the matrix 'W' which reduces the length of the vector by multiplying the vector.

상기 행렬 W를 특징 추출 파트에서 추출한 특징 벡터에 곱하고, 곱한 결과로 저차(低次)의 특징 벡터를 얻게 된다.The matrix W is multiplied by the feature vector extracted from the feature extraction part, and a result of the multiplication is used to obtain a low-order feature vector.

상기와 같이 얻어진 저차(低次)의 특징 벡터를 통해 음원을 Classical, Country, Disco, Hiphop, Jazz, Rock, Blues, Reggae, Pop, Metal 등으로 구분하는 음원분류 과정(S50)을 행한다.A sound source classifying process S50 is performed in which the sound source is classified into Classical, Country, Disco, Hiphop, Jazz, Rock, Blues, Reggae, Pop, Metal and the like through the obtained lower-order characteristic vectors.

이상에서 설명한 바와 같이 거리 함수 방법과 k-NN 분류기를 이용하여 저차의 특징 벡터에서 음원의 장르를 분류하므로 기존의 유클리안 거리 함수를 사용하는 k-NN 분류기보다 분류 성능이 향상된다.As described above, the classification performance is improved as compared with the k-NN classifier using the conventional classical distance function, because classifying the genre of sound source in the lower-order feature vector using the distance function method and the k-NN classifier.

그리고 짧은 길이의 특징 벡터를 사용하므로써 음원을 분류하는 시스템에서 특정 음원에 대하여 분류하는 시간이 줄어들고, 짤은 길이의 저차의 특징 벡터를 사용함으로써 데이터베이스의 크기가 줄어들어 음원을 장르별로 관리가 쉬워짐과 동시에 데이터베이스의 저장 크기가 줄어든다. By using short-length feature vectors, the system for classifying sound sources reduces the time to classify specific sound sources, and by using lower-order feature vectors of the length, the size of the database is reduced and the sound sources are easier to manage by genre At the same time, the storage size of the database is reduced.

10: 입력부 20: 특징 추출부
30: 모델링부 40: 벡터 간소화부
50: 음원 분류부
10: input unit 20: feature extraction unit
30: modeling unit 40: vector simplification unit
50: Sound source classification section

Claims (8)

입력되는 음원으로부터 이정한 포매으로 변경하고, 이를 짧은 프레임 단위로 조정하는 입력부와;
상기 입력부를 통해 짧은 길이의 프레임에서 수학적 계산에 의해 음원에서 특징 벡터를 구하는 특징 추출부과;
상기 특징 추출부를 통해 거리 학습 기반의 행렬을 구하여 특징 추출 파트에 의한 저차의 특징 벡터를 분류기를 이용하여 특징 벡터의 모델을 만드는 모델링부와;
상기 추출부와 상기 모델링부에 의해 추출한 벡터를 거리학습을 통하여 행렬에 따른 저차의 특징 벡터를 추출하는 벡터 간소화부와;
상기 벡터 간소화부에서 길이가 줄어든 특징 벡터를 분류기를 이용하여 음원의 장르를 분류하는 음원분류부를 포함하여 구성되는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치.
An input unit for changing from an input sound source to a proper embedded form and adjusting it in a short frame unit;
A feature extraction unit that obtains a feature vector from a sound source by mathematical calculation in a short-length frame through the input unit;
A modeling unit for obtaining a matrix of distance learning based on the feature extraction unit and generating a model of a feature vector by using a classifier,
A vector simplification unit for extracting a low-order feature vector according to a matrix through a distance learning of the vector extracted by the extracting unit and the modeling unit;
And a sound source classifying unit for classifying the genre of the sound source using the classifier in the feature vector whose length is reduced in the vector simplifying unit.
제1항에 있어서,
상기 입력부는 장르별 음원의 기준이 되는 데이터를 추출하기 위한 입력되는 음원이 압축상태이면, 압축을 해제하고, 압축을 해제한 음원에서 일정한 포맷으로 변경하는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치.
The method according to claim 1,
Wherein the input unit decompresses the input sound source when the input sound source for extracting data serving as a reference of the genre source is compressed and changes the format to a predetermined format from the decompressed sound source. Extraction device.
제1항에 있어서,
상기 특징 추출부는 일정 포맷으로 변경한 음원에서 수십 ms의 단위로 짧은 길이의 프레임(Frame)으로 나누는 프래이밍 하는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치.
The method according to claim 1,
Wherein the feature extractor is configured to perform frame division by a short frame in units of several tens of ms in a sound source changed to a predetermined format.
제1항에 있어서,
상기 모델링부는 각각의 프레임에 대해서 여러 가지 수학적 계산을 적용하여 벡터의 특징으로 구하는데, 이때 주파스 도메인으로 변환하는 푸리에 변화 즉, 음원 등의 파형을 기존 주파수와 그 정배수의 각 주파수로 분해하여 특징을 추출하는 것을 특징으로 하는 음악 분류를 위한 저차의 오디오 특징 추출 장치.
The method according to claim 1,
The modeling unit calculates a feature of a vector by applying various mathematical calculations to each frame. At this time, the Fourier transform to convert to the dominant domain, that is, the waveform of the sound source, is decomposed into an original frequency and an angular frequency of the predetermined number Characterized in that the feature extraction unit extracts a feature of the low-order audio feature for music classification.
음악분류를 위한 저차의 오디오 특징 추출 방법은;
상기 제1항의 음악 분류를 위한 저차의 오디오 특징 추출 장치를 이용하여 전체적으로 장르별 모델을 생성하기 위한 특징 벡터를 추출하는 학습단계 모델과;
생성된 학습단계 모델을 통해 입력된 테스트 음악의 장르를 분류하는 테스트 음원 분류하는 테스트 음원분류 과정을 포함하여 이루어지는 것을 특징으로 하는 음악분류를 위한 저차의 오디오 특징 추출 방법.
A lower order audio feature extraction method for music classification;
A learning step model for extracting a feature vector for generating a genre-specific model as a whole using the low-order audio feature extraction apparatus for music classification according to the first aspect;
And a test sound source classifying step of classifying a test sound source classifying a genre of the test music inputted through the generated learning level model.
제5항에 있어서,
상기 학습단계 모델은
압축된 음원이 입력되면 이를 풀어주는 과정과;
상기 압축을 푼 음원을 일정한 포맷으로 프리-프로세싱하는 과정과;
상기 프리-프로세싱에 의해 일정 포맷으로 변경한 음원을 수십 ms 단위의 길이의 프레임으로 프레이밍 하는 과정과;
상기 프레이밍 한 음원에대하여 수학적 계산을 적용하여 특징 벡터를 추출하는 과정과;
음원의 분류를 쉽게하도록 상기 특징 벡터의 길이를 간소화하는 과정과;
간소화된 특징 벡터를 통해 음원을 장르별로 분류하는 과정을 포함하여 이루어지는 것을 특징으로 하는 음악분류를 위한 저차의 오디오 특징 추출 방법.
6. The method of claim 5,
The learning phase model
Releasing the compressed sound source when it is input;
Pre-processing the decompressed sound source in a predetermined format;
Framing the sound source changed into the predetermined format by the pre-processing into a frame of a length of several tens ms;
Extracting a feature vector by applying a mathematical calculation to the framed sound source;
Simplifying the length of the feature vector to facilitate classifying the sound source;
And classifying the sound source according to the genre through the simplified feature vector.
제5항에 있어서,
상기 학습단계 모델은 하기의 수학식으로 정의되는 음악분류를 위한 저차의 오디오 특징 추출 방법:
Figure pat00010

A는 N×N 크기의 PSD(Positive semi-definite)행렬이고, 행렬 A는 거리 함수의 파라미터이다.
6. The method of claim 5,
Wherein the learning step model is a lower order audio feature extraction method for music classification defined by the following equation:
Figure pat00010

A is an N × N PSD (positive semi-definite) matrix, and matrix A is a parameter of a distance function.
제5항에 있어서,
상기 테스트 음원분류는 특징 벡터를 추출하는 학습단계 모델에 의해 구해진 특징 벡터에 데이터에 기초를 두어 입력부를 통해 입력되는 음원을 프리-프로세싱하는 과정, 특징 추출하는 과정, 특징 간소화하는 과정을 거쳐 장르별로 음원을 분류하는 것을 특징으로 하는 음악분류를 위한 저차의 오디오 특징 추출 방법.
6. The method of claim 5,
The test sound source classification includes a step of pre-processing a sound source input through an input unit based on data on a feature vector obtained by a learning step model for extracting a feature vector, a process of extracting a feature, a process of simplifying a feature, A method for extracting low-order audio features for music classification, characterized by classifying the sound sources.
KR1020130162621A 2013-12-24 2013-12-24 Music category for that low order feature extraction apparatus and method KR20150074644A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130162621A KR20150074644A (en) 2013-12-24 2013-12-24 Music category for that low order feature extraction apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130162621A KR20150074644A (en) 2013-12-24 2013-12-24 Music category for that low order feature extraction apparatus and method

Publications (1)

Publication Number Publication Date
KR20150074644A true KR20150074644A (en) 2015-07-02

Family

ID=53787724

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130162621A KR20150074644A (en) 2013-12-24 2013-12-24 Music category for that low order feature extraction apparatus and method

Country Status (1)

Country Link
KR (1) KR20150074644A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021153843A1 (en) * 2020-01-31 2021-08-05 연세대학교 산학협력단 Method for determining stress of voice signal by using weights, and device therefor
CN116645978A (en) * 2023-06-20 2023-08-25 方心科技股份有限公司 Electric power fault sound class increment learning system and method based on super-computing parallel environment

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021153843A1 (en) * 2020-01-31 2021-08-05 연세대학교 산학협력단 Method for determining stress of voice signal by using weights, and device therefor
KR20210098083A (en) * 2020-01-31 2021-08-10 연세대학교 산학협력단 Method and Apparatus for Determining Stress in Speech Signal Using Weight
CN116645978A (en) * 2023-06-20 2023-08-25 方心科技股份有限公司 Electric power fault sound class increment learning system and method based on super-computing parallel environment
CN116645978B (en) * 2023-06-20 2024-02-02 方心科技股份有限公司 Electric power fault sound class increment learning system and method based on super-computing parallel environment

Similar Documents

Publication Publication Date Title
Phan et al. Improved audio scene classification based on label-tree embeddings and convolutional neural networks
Briggs et al. The 9th annual MLSP competition: New methods for acoustic classification of multiple simultaneous bird species in a noisy environment
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
JP5813221B2 (en) Content recognition apparatus and method using audio signal
US7930281B2 (en) Method, apparatus and computer program for information retrieval
Sun et al. Ensemble softmax regression model for speech emotion recognition
Roma et al. Recurrence quantification analysis features for environmental sound recognition
EP3355302B1 (en) Audio recognition method and system
US10510342B2 (en) Voice recognition server and control method thereof
Tsipas et al. Efficient audio-driven multimedia indexing through similarity-based speech/music discrimination
KR101637282B1 (en) Method and device for generating music playlist
WO2020024396A1 (en) Music style recognition method and apparatus, computer device, and storage medium
US9437208B2 (en) General sound decomposition models
CN111161758A (en) Song listening and song recognition method and system based on audio fingerprint and audio equipment
CN109919295B (en) Embedded audio event detection method based on lightweight convolutional neural network
Genussov et al. Musical genre classification of audio signals using geometric methods
JP2020527255A (en) Audio fingerprint extraction method and equipment
Jao et al. Music annotation and retrieval using unlabeled exemplars: correlation and sparse codes
CN111428078B (en) Audio fingerprint coding method, device, computer equipment and storage medium
Sturm On music genre classification via compressive sampling
CN113409827B (en) Voice endpoint detection method and system based on local convolution block attention network
KR20150074644A (en) Music category for that low order feature extraction apparatus and method
Jimenez et al. DCASE 2017 task 1: Acoustic scene classification using shift-invariant kernels and random features
CN111640438B (en) Audio data processing method and device, storage medium and electronic equipment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment