KR101957993B1 - Apparatus and method for categorizing sound data - Google Patents

Apparatus and method for categorizing sound data Download PDF

Info

Publication number
KR101957993B1
KR101957993B1 KR1020170104407A KR20170104407A KR101957993B1 KR 101957993 B1 KR101957993 B1 KR 101957993B1 KR 1020170104407 A KR1020170104407 A KR 1020170104407A KR 20170104407 A KR20170104407 A KR 20170104407A KR 101957993 B1 KR101957993 B1 KR 101957993B1
Authority
KR
South Korea
Prior art keywords
sound data
training
data
value
parameter
Prior art date
Application number
KR1020170104407A
Other languages
Korean (ko)
Other versions
KR20190019464A (en
Inventor
강상원
이현성
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020170104407A priority Critical patent/KR101957993B1/en
Publication of KR20190019464A publication Critical patent/KR20190019464A/en
Application granted granted Critical
Publication of KR101957993B1 publication Critical patent/KR101957993B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 소리 데이터 분류 방법은, 복수의 훈련용 음성 데이터 각각과 복수의 훈련용 비음성 데이터 각각에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하는 제 1 단계, 상기 훈련용 음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 상기 훈련용 비음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함하는 테스트 모델을 생성하는 제 2 단계, 대상 소리 데이터에 대한 상기 특징 파라미터의 값을 산출하는 제 3 단계 및 상기 테스트 모델 및 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 제 4 단계를 포함할 수 있다.A sound data classification method according to an embodiment of the present invention includes a first step of calculating a value of one or more kinds of characteristic parameters for each of a plurality of training sound data and a plurality of training non- A test model including a first distribution function obtained from a distribution of values of the feature parameters for each speech data and a second distribution function obtained from a distribution of values of the feature parameters for each training non- A third step of calculating a value of the characteristic parameter with respect to the target sound data, and a third step of calculating a value of the characteristic parameter calculated for the test model and the target sound data, And determining whether the data belongs to the non-voice data or the non-voice data.

Description

소리 데이터 분류 장치 및 방법 {APPARATUS AND METHOD FOR CATEGORIZING SOUND DATA}[0001] APPARATUS AND METHOD FOR CATEGORIZING SOUND DATA [0002]

본 발명은, 미지의 소리 데이터를 음성 데이터와 비음성 데이터 중 어느 하나로 분류하기 위한 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for classifying unknown sound data into either sound data or non-sound data.

사람이 청각적으로 인지할 수 있는 소리 데이터는, 해당 소리 데이터가 의미하는 바를 청자가 해석할 수 있는 음성 데이터와, 해석할 수 없는 비음성 데이터 중 어느 하나로 분류될 수 있다. 음성/비음성 분류 기술은 미지의 소리 데이터가 음성 데이터 및 비음성 데이터 중 어떤 것에 해당하는지를 알아내기 위한 기술로서, 음성 인식, 화자 정보 인식, 음성 품질 개선 등에 있어 중요한 역할을 차지한다. 예컨대, 음성 인식에 있어서 소리 데이터 중 해석이 불가능한 비음성 데이터를 처음부터 제외하고, 음성 데이터에 대해서만 인식을 수행한다면, 모든 소리 데이터에 대해 인식을 수행하는 것에 비해 수행 시간과 시스템 자원 소모 측면에서 효율적일 수 있다.The sound data that can be perceived audibly by the person can be classified into either the audio data in which the audience can understand what the sound data means and the non-audio data in which the audience can not interpret it. The speech / non-speech classification technique is a technology for finding out whether unknown speech data corresponds to speech data or non-speech data and plays an important role in speech recognition, speaker information recognition, speech quality improvement, and the like. For example, in the case of performing speech recognition in which only non-speech data that can not be interpreted in speech recognition is excluded from the beginning and recognition is performed only on the speech data, it is more efficient in terms of execution time and system resource consumption .

음성 데이터에 해당하는 소리 데이터를 비음성 데이터로 잘못 분류할 경우, 상기 소리 데이터가 포함하고 있는 정보가 상실될 수 있기 때문에, 음성/비음성 분류에 있어서 분류의 신뢰도를 높이는 것은 매우 중요하다. 특히, 소리 데이터는 전장(戰場) 등 잡음이 많은 환경에서도 획득될 수 있기 때문에, 잡음을 포함하는 소리 데이터에 대한 분류까지도 정확히 수행해낼 수 있는 음성/비음성 분류 기술의 개발이 요구된다.When the sound data corresponding to the sound data is erroneously classified as non-sound data, it is very important to increase the reliability of classification in the sound / non-sound classification, because the information contained in the sound data may be lost. In particular, since sound data can be obtained even in a noisy environment such as a battlefield, it is required to develop a speech / non-speech classification technique capable of accurately classifying sound data including noise.

특허문헌: 대한민국 등록특허 제 10-1068666호 (2011.09.28. 공고)Patent Document: Korean Patent No. 10-1068666 (issued on September 28, 2011)

본 발명이 해결하고자 하는 과제는, 훈련용 소리 데이터에 기초하여 구축된 테스트 모델을 이용하여, 미지의 소리 데이터에 대한 음성/비음성 분류를 정확하면서도 효율적으로 수행하기 위한 장치 및 방법을 제공하는 것이다.An object of the present invention is to provide an apparatus and method for accurately and efficiently performing speech / non-speech classification on unknown sound data by using a test model constructed based on training sound data .

다만, 본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지는 않았으나 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있는 목적을 포함할 수 있다.It is to be understood, however, that the scope of the present invention is not limited to the above-mentioned objects, and may be embodied from the following description, which may be understood by those skilled in the art to which the present invention belongs. have.

본 발명의 일 실시예에 따른 소리 데이터 분류 방법은, 복수의 훈련용 음성 데이터 각각과 복수의 훈련용 비음성 데이터 각각에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하는 제 1 단계, 상기 훈련용 음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 상기 훈련용 비음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함하는 테스트 모델을 생성하는 제 2 단계, 대상 소리 데이터에 대한 상기 특징 파라미터의 값을 산출하는 제 3 단계 및 상기 테스트 모델 및 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 제 4 단계를 포함할 수 있다.A sound data classification method according to an embodiment of the present invention includes a first step of calculating a value of one or more kinds of characteristic parameters for each of a plurality of training sound data and a plurality of training non- A test model including a first distribution function obtained from a distribution of values of the feature parameters for each speech data and a second distribution function obtained from a distribution of values of the feature parameters for each training non- A third step of calculating a value of the characteristic parameter with respect to the target sound data, and a third step of calculating a value of the characteristic parameter calculated for the test model and the target sound data, And determining whether the data belongs to the non-voice data or the non-voice data.

또한, 상기 특징 파라미터의 값은, 복수의 프레임 각각의 특징을 나타내는 단위 파라미터의 값에 대한 통계 정보 혹은 상기 단위 파라미터의 시간에 따른 변화량에 대한 통계 정보를 이용하여 산출될 수 있다.The value of the feature parameter may be calculated using statistical information on the value of the unit parameter indicating the feature of each of the plurality of frames or statistical information on the amount of change with time of the unit parameter.

또한, 상기 단위 파라미터는, 스펙트럼 평탄도(spectral flatness), 스펙트럼 다이내믹스(spectral dynamics), 스펙트럼 도심(spectral centroid), 여기 신호 에너지(excitation signal energy), 음성 신호 에너지(speech signal energy) 및 피치 주기(pitch period) 중 적어도 하나를 포함하며, 상기 통계 정보는, 평균, 표준편차, 왜도 및 첨도 중 적어도 하나를 포함할 수 있다.In addition, the unit parameters may include at least one of a spectral flatness, a spectral dynamics, a spectral centroid, an excitation signal energy, a speech signal energy, and a pitch period, and the statistical information may include at least one of an average, a standard deviation, a degree of distortion, and a kurtosis.

또한, 상기 제 1 단계는, 상기 훈련용 음성 데이터 각각과 상기 훈련용 비음성 데이터 각각에 대한, 두 종류 이상의 후보 파라미터의 값을 산출하는 단계, 상기 후보 파라미터 중 한 종류의 후보 파라미터의 값을 이용하여 상기 훈련용 음성 데이터와 상기 훈련용 비음성 데이터를 분류하는 과정을, 상기 후보 파라미터 각각에 대해 수행하는 단계 및 상기 분류의 결과에 기초하여, 상기 후보 파라미터 중 적어도 한 종류의 후보 파라미터를 상기 특징 파라미터로서 선택하는 단계를 포함할 수 있다.The first step may include calculating a value of two or more types of candidate parameters for each of the training speech data and the training non-speech data, using a value of one kind of candidate parameters among the candidate parameters Performing training for each of the candidate parameters and classifying at least one candidate parameter of the candidate parameters into the feature data for the feature As a parameter.

또한, 상기 수행하는 단계는, 상기 후보 파라미터 각각의 분류도를 구하는 단계를 포함하되, 상기 후보 파라미터 중 상기 분류도를 구하고자 하는 특정한 후보 파라미터의 값을 모두 포함하는 수치 범위를 M(M은 2 이상의 자연수)개의 구간으로 분할하고, 상기 구간 중 j(j는 1 이상 M 이하의 자연수)번째 구간에 속하는 후보 파라미터의 값 중 상기 훈련용 음성 데이터에 대해 산출된 값의 개수를 h(sp)(j)라 하고, 상기 훈련용 비음성 데이터에 대해 산출된 값의 개수를 h( nsp )(j)라 할 때, 상기 특정한 후보 파라미터의 분류도는The performing step may include a step of obtaining a degree of classification of each of the candidate parameters, wherein a numerical range including all values of a specific candidate parameter for which the degree of classification is to be obtained is defined as M (M is 2 The number of values calculated for the training speech data among the values of the candidate parameters belonging to the interval j (j is a natural number equal to or greater than 1 and equal to or less than M) in the interval is h (sp) j), and the number of values calculated for the non-speech data for training is h ( nsp ) (j), the classification degree of the specific candidate parameter is

Figure 112017079548689-pat00001
Figure 112017079548689-pat00001

의 값과 같으며, 상기 선택하는 단계는, 상기 후보 파라미터 각각의 분류도에 기초하여, 상기 후보 파라미터 중 상기 특징 파라미터를 선택하는 단계를 포함할 수 있다., And the selecting step may include selecting the feature parameter among the candidate parameters based on the degree of classification of each of the candidate parameters.

또한, 상기 특징 파라미터의 종류의 수를 N(N은 자연수)이라 할 때, 상기 분포 함수는 가우시안 혼합 모델(Gaussian mixture model)을 이용하여 N차원 좌표공간 상에 정의된 연속적인 확률 밀도 함수(probability density function)이며, 상기 제 4 단계는, 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터 각각의 값에 기초하여 정해지는 상기 N차원 좌표공간 상에서의 위치에서의 상기 제 1 분포 함수의 값과 상기 제 2 분포 함수의 값을 산출하는 단계 및 상기 제 1 분포 함수의 값과 상기 제 2 분포 함수의 값의 비교 결과에 기초하여, 상기 대상 소리 데이터가 상기 음성 데이터와 상기 비음성 데이터 중 어느 쪽에 속하는지 판단하는 단계를 포함할 수 있다.When the number of kinds of the feature parameters is N (N is a natural number), the distribution function is a continuous probability density function defined on the N-dimensional coordinate space using a Gaussian mixture model dimensional coordinate space determined based on the value of each of the characteristic parameters calculated for the target sound data and the value of the first distribution function at the position in the N- 2 distribution function and a value of the first distribution function and a value of the second distribution function to determine whether the target sound data belongs to the speech data or the non-speech data And a step of judging.

또한, 상기 방법은, 훈련용 소리 데이터 각각의 PESQ(Perceptual Evaluation of Speech Quality) 값을 획득하는 단계 및 상기 훈련용 소리 데이터 중, 상기 PESQ 값이 소정의 임계 PESQ 값 이상인 데이터는 상기 훈련용 음성 데이터로, 상기 PESQ 값이 상기 임계 PESQ 값 미만인 데이터는 상기 훈련용 비음성 데이터로 분류하는 단계를 더 포함할 수 있다.The method may further comprise the steps of: obtaining a Perceptual Evaluation of Speech Quality (PESQ) value of each training sound data; and, of the training sound data, data whose PESQ value is equal to or greater than a predetermined threshold PESQ value, , And classifying the data for which the PESQ value is less than the threshold PESQ value into non-speech data for training.

본 발명의 일 실시예에 따른 소리 데이터 분류 장치는, 복수의 훈련용 음성 데이터 각각과 복수의 훈련용 비음성 데이터 각각에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하며, 대상 소리 데이터에 대한 상기 특징 파라미터의 값을 산출하는 파라미터 연산부, 상기 훈련용 음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 상기 훈련용 비음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함하는 테스트 모델을 생성하는 모델 생성부 및 상기 테스트 모델 및 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 분류부를 포함할 수 있다.The sound data classifying apparatus according to an embodiment of the present invention calculates values of one or more kinds of characteristic parameters for each of a plurality of training sound data and a plurality of training non-sound data, A first calculation function for calculating a value of a characteristic parameter for each of training non-speech data, a parameter calculation unit for calculating a value of a characteristic parameter, a first distribution function obtained from a distribution of values of the characteristic parameters for each training speech data, And a second distribution function obtained from the target sound data, based on the test model and the value of the characteristic parameter calculated for the target sound data, And a classification unit for determining which of the data belongs.

본 발명의 일 실시예에 따른 소리 데이터 분류 방법은, 대상 소리 데이터에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하는 단계 및 상기 대상 소리 데이터의 분류를 위한 테스트 모델 및 상기 대상 소리 데이터에 대한 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 단계를 포함할 수 있으며, 상기 테스트 모델은, 복수의 훈련용 음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 복수의 훈련용 비음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함할 수 있다.According to another aspect of the present invention, there is provided a sound data classification method comprising the steps of: calculating a value of at least one kind of characteristic parameter with respect to target sound data; calculating a test model for classifying the target sound data; And determining whether the target sound data belongs to the speech data or the non-speech data based on the value of the characteristic parameter, wherein the test model includes a characteristic parameter for each of the plurality of training speech data, And a second distribution function obtained from a distribution of values of the feature parameter for each of the plurality of training non-speech data.

본 발명의 일 실시예에 의하면, 훈련용 소리 데이터에 의해 기 구축된 테스트 모델을 이용한 간단한 연산에 기초하여, 미지의 소리 데이터에 대한 음성/비음성 분류를 효율적으로 수행할 수 있다. 또한, 본 발명의 일 실시예에 의하면, 훈련용 소리 데이터로부터 산출된 다양한 후보 파라미터 중 신뢰도가 높은 특징 파라미터를 이용하여 테스트 모델이 구축되므로, 음성/비음성 분류의 정확도가 더욱 높아질 수 있다.According to an embodiment of the present invention, speech / non-speech classification of unknown sound data can be efficiently performed based on a simple operation using a test model constructed by training sound data. In addition, according to the embodiment of the present invention, since the test model is constructed using the highly reliable feature parameters among the various candidate parameters calculated from the training sound data, the accuracy of the speech / non-speech classification can be further increased.

도 1은 본 발명의 일 실시예에 따른 소리 데이터 분류 장치의 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법의 각 단계를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 임계 PESQ 값의 설정에 대해 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 후보 파라미터의 히스토그램을 이용한 분류도의 산출에 대해 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 다양한 후보 파라미터들의 정규화된 분류도를 구한 결과를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 특징 파라미터의 이산적 분포로부터 연속적인 분포 함수를 구하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 특징 파라미터 종류의 수와 소리 데이터 분류의 정확도 간의 관계를 나타내는 도면이다.
1 is a block diagram of a sound data classifying apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating each step of a sound data classification method according to an embodiment of the present invention.
3 is a diagram for explaining the setting of a threshold PESQ value in the sound data classification method according to an embodiment of the present invention.
FIG. 4 is a diagram for explaining calculation of a classification diagram using a histogram of candidate parameters in a sound data classification method according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a result of obtaining a normalized classification degree of various candidate parameters in a sound data classification method according to an embodiment of the present invention. Referring to FIG.
6 is a diagram for explaining a process of obtaining a continuous distribution function from a discrete distribution of feature parameters in a sound data classification method according to an embodiment of the present invention.
7 is a diagram illustrating a relationship between the number of characteristic parameter types and the accuracy of sound data classification in the sound data classification method according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. To fully disclose the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The following terms are defined in consideration of the functions in the embodiments of the present invention, which may vary depending on the intention of the user, the intention or the custom of the operator. Therefore, the definition should be based on the contents throughout this specification.

도 1은 본 발명의 일 실시예에 따른 소리 데이터 분류 장치의 구성을 도시한 도면이다. 도 1의 소리 데이터 분류 장치(100)는 입력부(110), PESQ 연산부(120), 파라미터 연산부(130), 모델 생성부(140), 분류부(150), 출력부(160) 및 저장부(170)를 포함할 수 있다. 단, 도 1의 소리 데이터 분류 장치(100)는 본 발명의 일 실시예에 불과하므로, 도 1에 의해 본 발명의 사상이 제한 해석되는 것은 아니다.1 is a block diagram of a sound data classifying apparatus according to an embodiment of the present invention. 1 includes an input unit 110, a PESQ operation unit 120, a parameter operation unit 130, a model generation unit 140, a classification unit 150, an output unit 160, and a storage unit (not shown) 170). However, the sound data classifying apparatus 100 of FIG. 1 is only an embodiment of the present invention, and therefore, the spirit of the present invention is not limited to FIG.

입력부(110)는 소리 데이터 분류 장치(100)의 외부로부터 테스트 모델의 구축을 위한 훈련용 소리 데이터, 미지의 소리 데이터로서 분류의 대상이 되는 대상 소리 데이터 등을 입력받을 수 있다. 이와 같은 기능의 수행을 위해, 입력부(110)는 키보드(keyboard), 마우스(mouse) 등의 입력 장치, 데이터의 수신을 위한 데이터 버스, 혹은 유/무선 통신 모듈 등을 통해 구현될 수 있다.The input unit 110 can receive training sound data for building a test model from the outside of the sound data classifying apparatus 100, target sound data to be classified as unknown sound data, and the like. In order to perform such a function, the input unit 110 may be implemented by an input device such as a keyboard and a mouse, a data bus for receiving data, or a wired / wireless communication module.

PESQ 연산부(120)는 훈련용 소리 데이터 각각의 PESQ(perceptual evaluation of speech quality) 값을 획득할 수 있다. PESQ란 임의의 소리 데이터에 대한 의미 인식이 가능한 정도를 수치화하여 나타낸 척도이다. PESQ의 값은 -0.5부터 4.5까지의 실수 값 중에서 결정될 수 있으며, -0.5에 가까울수록 의미 인식이 어렵고, 4.5에 가까울수록 의미 인식이 쉬움을 나타낸다.The PESQ calculating unit 120 may obtain a perceptual evaluation of speech quality (PESQ) value of each training sound data. PESQ is a numerical measure indicating the degree of semantic recognition of arbitrary sound data. The value of PESQ can be determined from a real value ranging from -0.5 to 4.5. The closer to -0.5, the more difficult the recognition of the meaning. The closer to 4.5, the easier recognition of the meaning.

PESQ 연산부(120)는 훈련용 소리 데이터 각각의 PESQ 값에 기초하여, 상기 훈련용 소리 데이터를 훈련용 음성 데이터와 훈련용 비음성 데이터로 분류할 수 있다. 구체적으로, PESQ 연산부(120)는 PESQ 값이 소정의 임계 PESQ 값 이상인 훈련용 소리 데이터는 훈련용 음성 데이터로, PESQ 값이 임계 PESQ 값 미만인 훈련용 소리 데이터는 훈련용 비음성 데이터로 각각 분류할 수 있다. PESQ 연산부(120)는 마이크로프로세서(microprocessor)를 포함하는 연산 장치에 의해 구현될 수 있으며, 이는 후술할 파라미터 연산부(130), 모델 생성부(140), 분류부(150)에 있어서도 같다.The PESQ calculating section 120 can classify the training sound data into training sound data and training non-sound data based on the PESQ value of each training sound data. Specifically, the PESQ calculating unit 120 classifies the training sound data having the PESQ value equal to or greater than the predetermined threshold PESQ value as the training sound data, and the training sound data having the PESQ value less than the threshold PESQ value as the training non-speech data . The PESQ calculating unit 120 may be implemented by a computing device including a microprocessor and is the same in the parameter computing unit 130, the model generating unit 140, and the classifying unit 150, which will be described later.

파라미터 연산부(130)는 상기 PESQ 연산부(120)에 의해 분류된 각각의 훈련용 음성 데이터와, 각각의 훈련용 비음성 데이터에 대한 두 종류 이상의 후보 파라미터의 값을 산출할 수 있다. 후보 파라미터는 소리 데이터의 특징을 나타내는 물리량으로서, 이와 같은 후보 파라미터의 구체적 예시에 대해서는 후술한다. 파라미터 연산부(130)는 상기 후보 파라미터 중 한 종류 이상을 특징 파라미터로서 선택할 수 있다. 이와 같은 선택은 각 종류의 후보 파라미터의 분류도에 기초하여 이루어질 수 있는데, 분류도에 대해서는 뒤에서 자세히 설명하도록 한다. 훈련용 음성 데이터 및 훈련용 비음성 데이터에 대한 특징 파라미터의 값은, 모델 생성부(140)가 테스트 모델을 생성하는 데 이용될 수 있다.The parameter calculation unit 130 can calculate the values of two or more kinds of candidate parameters for training audio data classified by the PESQ calculating unit 120 and non-speech data for training. The candidate parameters are physical quantities representing the characteristics of the sound data. Specific examples of such candidate parameters will be described later. The parameter operation unit 130 can select one or more of the candidate parameters as the feature parameter. Such a selection can be made based on the classification map of each kind of candidate parameters, and the classification map will be described later in detail. The values of the feature parameters for training speech data and training non-speech data can be used by the model generating unit 140 to generate a test model.

또한, 파라미터 연산부(130)는 아직 분류되지 않은, 즉 분류의 대상이 되는 미지의 대상 소리 데이터에 대해서도 특징 파라미터의 값을 산출할 수 있다. 대상 소리 데이터에 대한 특징 파라미터의 값은, 상기 테스트 모델에 입력될 수 있다. 그러면 테스트 모델은 상기 입력에 대응하여, 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지에 대한 결과를 출력할 수 있다.The parameter calculation unit 130 can also calculate the value of the characteristic parameter for the unknown target sound data that has not yet been classified, that is, the classification target. The value of the characteristic parameter for the target sound data can be input to the test model. Then, the test model can output the result of whether the target sound data belongs to the sound data or the non-sound data, corresponding to the input.

모델 생성부(140)는 분류의 대상이 되는 미지의 대상 소리 데이터의 분류를 위한 테스트 모델을 생성할 수 있다. 테스트 모델은, 훈련용 음성 데이터 각각에 대한 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 훈련용 비음성 데이터 각각에 대한 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함할 수 있다. 이와 같은 제 1 및 제 2 분포 함수는, N(N은 자연수)차원 좌표 공간에 정의된 연속함수의 형태를 가질 수 있는데, N의 값은 특징 파라미터의 종류의 수와 동일하게 정해질 수 있다.The model generation unit 140 can generate a test model for classifying unknown target sound data to be classified. The test model includes a first distribution function obtained from the distribution of the values of the feature parameters for each training speech data and a second distribution function obtained from the distribution of the values of the feature parameters for each training non- . The first and second distribution functions may have a form of a continuous function defined in N (N is a natural number) dimensional coordinate space, and the value of N may be set to be equal to the number of kinds of characteristic parameters.

분류부(150)는 테스트 모델 및 대상 소리 데이터로부터 산출된 특징 파라미터의 값을 이용하여, 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지를 판단할 수 있다. 보다 구체적으로, 분류부(150)는 소리 데이터로부터 산출된 특징 파라미터의 값에 의해 정해지는 상기 N차원 좌표 공간 상에서의 위치에서의 제 1 분포 함수의 값과 제 2 분포 함수의 값을 비교함으로써 대상 소리 데이터에 대한 분류를 수행할 수 있다.The classifying unit 150 can determine whether the target sound data belongs to the speech data or the non-speech data by using the values of the characteristic parameters calculated from the test model and the target sound data. More specifically, the classifying unit 150 compares the value of the first distribution function at the position in the N-dimensional coordinate space determined by the value of the characteristic parameter calculated from the sound data with the value of the second distribution function, It is possible to perform classification on the sound data.

출력부(160)는 분류부(150)에 의한 대상 소리 데이터의 분류 결과를 소리 데이터 분류 장치(100) 외부로 출력할 수 있다. 또한, 출력부(160)는 모델 생성부(140)에 의해 생성된 테스트 모델에 대한 정보를 출력할 수도 있으며, 이와 같이 출력된 테스트 모델을 전송받은 외부의 다른 장치는 상기 테스트 모델을 이용하여 미지의 소리 데이터에 대한 분류를 수행하는 것이 가능하다. 출력부(160)는 디스플레이(display)와 같은 시각적 출력 장치 혹은 스피커(speaker)와 같은 청각적 출력 장치를 포함할 수 있으며, 경우에 따라서는 소리 데이터 분류 장치(100) 외부로 데이터를 전송하기 위한 데이터 버스 혹은 유/무선 통신 모듈 등을 포함할 수 있다.The output unit 160 may output the classification result of the target sound data by the classifying unit 150 to the outside of the sound data classifying apparatus 100. The output unit 160 may output information on the test model generated by the model generating unit 140. The other external device that receives the test model output in this way may output the unknown It is possible to perform classification on the sound data of the sound data. The output unit 160 may include a visual output device such as a display or an auditory output device such as a speaker and may be used to transmit data to the outside of the sound data classifying apparatus 100 Data bus, wired / wireless communication module, and the like.

저장부(170)는 소리 데이터 분류 장치(100)가 필요로 하는 정보를 저장할 수 있다. 예컨대, 저장부(170)는 파라미터 연산부(130)에 의해 산출된 각 종류의 후보 파라미터 혹은 특징 파라미터의 값을 저장할 수 있으며, 모델 생성부(140)에 의해 생성된 테스트 모델에 대한 데이터 역시 저장할 수 있다. 물론 저장부(170)가 저장하는 정보는 위와 같은 예시로 한정되는 것은 아니고, 소리 데이터 분류 장치(100)의 동작에 필요한 정보라면 어떤 것이든 될 수 있다. The storage unit 170 may store information required by the sound data classifying apparatus 100. For example, the storage unit 170 may store values of candidate parameters or feature parameters of each kind calculated by the parameter calculation unit 130, and may store data of the test model generated by the model generation unit 140 have. Of course, the information stored in the storage unit 170 is not limited to the above example, and any information necessary for the operation of the sound data classifying apparatus 100 may be used.

저장부(170)는 구체적으로 컴퓨터 판독 기록 매체로서 구현될 수 있으며, 이러한 컴퓨터 판독 기록 매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 플래시 메모리(flash memory)와 같은 프로그램 명령어들을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 들 수 있다.The storage unit 170 may be embodied as a computer readable recording medium. Examples of the computer readable recording medium include magnetic media such as a hard disk, a floppy disk and a magnetic tape, a CD-ROM, a DVD Magneto-optical media such as optical media, floptical disks, and hardware devices that are specially configured to store and execute program instructions such as flash memory. have.

도 2는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법의 각 단계를 도시한 도면이다. 도 2의 소리 데이터 분류 방법은 도 1을 참조하여 설명한 소리 데이터 분류 장치(100)에 의해 수행될 수 있다. 단, 도 2에 도시된 방법은 본 발명의 일 실시예에 불과하므로 도 2에 의해 본 발명의 사상이 한정 해석되는 것은 아니며, 도 2에 도시된 방법의 각 단계는 경우에 따라 도면에 도시된 바와 그 순서를 달리하여 수행될 수 있음은 물론이다.FIG. 2 is a diagram illustrating each step of a sound data classification method according to an embodiment of the present invention. The sound data classification method of FIG. 2 can be performed by the sound data classification apparatus 100 described with reference to FIG. However, since the method shown in FIG. 2 is only an embodiment of the present invention, the concept of the present invention is not limited to FIG. 2, and each step of the method shown in FIG. And may be performed in a different order of the bar and the order.

우선, PESQ 연산부(120)가 훈련용 소리 데이터 각각의 PESQ 값을 측정할 수 있다(S101). 임의의 소리 데이터의 PESQ 값을 측정하는 구체적인 방법 및 측정을 위한 장치의 구체적인 구조는 통상의 기술자에게 용이한 것이므로, 여기에서는 구체적으로 설명하지 않도록 한다.First, the PESQ calculating section 120 can measure the PESQ value of each training sound data (S101). The concrete method of measuring the PESQ value of arbitrary sound data and the specific structure of the apparatus for measurement are easy for a typical engineer, and thus will not be described in detail here.

다음으로, PESQ 연산부(120)는 훈련용 소리 데이터 각각을 훈련용 음성 데이터와 훈련용 비음성 데이터 중 어느 하나로 분류할 수 있다(S102). 보다 구체적으로, PESQ 연산부(120)는 소정의 임계 PESQ 값을 설정하고, 각 훈련용 소리 데이터 중, PESQ 값이 소정의 임계 PESQ 값 이상인 것은 훈련용 음성 데이터로, PESQ 값이 임계 PESQ 값 미만인 것은 훈련용 비음성 데이터로 각각 분류할 수 있다.Next, the PESQ operation unit 120 can classify each of the training sound data into training voice data and training non-voice data (S102). More specifically, the PESQ calculating unit 120 sets a predetermined threshold PESQ value, and among the training sound data, the PESQ value is equal to or greater than the predetermined threshold PESQ value, and the PESQ value is less than the threshold PESQ value And non-speech data for training.

도 3은 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 임계 PESQ 값의 설정에 대해 설명하기 위한 도면이다. 도 3에는 청취 실험을 통해 분류된 음성 데이터와 비음성 데이터의 PESQ 값의 분포가 도시되어 있는데, 도 3의 분포도를 보면 음성 데이터의 PESQ 값의 범위와 비음성 데이터의 PESQ 값의 범위가 완전히 분리되어 있지 않고, 일부 중첩되어 있음을 알 수 있다. 3 is a diagram for explaining the setting of a threshold PESQ value in the sound data classification method according to an embodiment of the present invention. FIG. 3 shows distribution of PESQ values of speech data and non-speech data classified through the listening experiment. In the distribution chart of FIG. 3, the range of the PESQ value of the speech data and the range of the PESQ value of the non- And that some of them are overlapped with each other.

이에 도 3의 분포도를 참고하여, PESQ 연산부(120)는 훈련용 음성 데이터와 훈련용 비음성 데이터의 구분을 위한 임계 PESQ 값을 적절히 선택할 수 있다. 예컨대, 청취 실험을 통해 분류된 비음성 데이터의 PESQ 값 중 상위 1%의 값(2.721) 혹은 상위 5%의 값(2.189)을 임계 PESQ 값으로 선택할 수 있다.Referring to the distribution diagram of FIG. 3, the PESQ operation unit 120 can appropriately select a threshold PESQ value for distinguishing between training speech data and training non-speech data. For example, the upper 1% value (2.721) or upper 5% value (2.189) of the PESQ values of the non-speech data classified through the listening experiment can be selected as the threshold PESQ value.

전술한 바와 같이, PESQ 연산부(120)는 임의의 소리 데이터의 PESQ 값을 측정하고, 상기 측정된 값을 소정의 임계 PESQ 값의 대소 관계를 비교하여, 상기 임의의 소리 데이터를 음성 데이터와 비음성 데이터 중 어느 하나로 분류할 수 있다. 하지만 소리 데이터의 PESQ 값을 측정하는 과정은 데이터의 인코딩(encoding) 및 디코딩(decoding)을 포함하는 복잡한 과정을 거쳐야 하기 때문에, 분류가 필요한 소리 데이터가 입력될 때마다 PESQ 값을 측정하여 분류를 수행하는 것은 비효율적이다. 이하에서 계속하여 설명할 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 따르면, 훈련용 소리 데이터에 대해서만 PESQ 값을 측정하고, 분류의 대상이 되는 대상 소리 데이터에 대해서는 훈련용 소리 데이터로부터 생성된 테스트 모델을 이용한 상대적으로 간단한 연산만을 수행하므로, 효율적인 분류가 이루어질 수 있다.As described above, the PESQ operation unit 120 measures the PESQ value of arbitrary sound data, compares the measured value with the magnitude of a predetermined threshold PESQ value, and converts the arbitrary sound data into voice data and non- Data. ≪ / RTI > However, since the process of measuring the PESQ value of the sound data must be complicated process including encoding and decoding of data, the PESQ value is measured and classified every time the sound data requiring classification is inputted Is inefficient. According to the sound data classification method to be described hereafter, the PESQ value is measured only for training sound data, and for the target sound data to be classified, Since only a relatively simple operation using the test model is performed, efficient classification can be performed.

PESQ 연산부(120)가 훈련용 소리 데이터 각각을 훈련용 음성 데이터와 훈련용 비음성 데이터로 분류하면, 파라미터 연산부(130)는 훈련용 소리 데이터 각각에 대한 후보 파라미터의 값을 산출할 수 있다(S103). 상기 후보 파라미터의 값을 산출하기 위한 전제로서, 파라미터 연산부(130)는 각 훈련용 소리 데이터에 대한 단위 파라미터의 값을 산출할 수 있다.If the PESQ calculating section 120 classifies each training sound data into training sound data and training non-sound data, the parameter computing section 130 can calculate the value of the candidate parameter for each training sound data (S103 ). As a premise for calculating the value of the candidate parameter, the parameter operation unit 130 can calculate the value of the unit parameter for each training sound data.

단위 파라미터 값 산출의 대상이 되는 하나의 특정 훈련용 소리 데이터가 있다고 가정하자. 파라미터 연산부(130)는 상기 특정 훈련용 소리 데이터를 시간대별로 나눔으로써 소정 개수의 프레임으로 분할할 수 있다. 예컨대, 상기 특정 훈련용 소리 데이터가 10초의 재생 시간을 갖고 있다면, 파라미터 연산부(130)는 상기 특정 훈련용 소리 데이터를 1초 단위로 쪼갬으로써 각기 1초의 길이를 갖는 10개의 프레임이 생성되도록 할 수 있다. 그리고 파라미터 연산부(130)는 상기 10개의 프레임 각각에 대한 단위 파라미터의 값을 산출할 수 있다. 즉, 하나의 프레임당 한 종류의 단위 파라미터의 값 하나가 산출되므로, 10개의 프레임을 갖는 하나의 특정 훈련용 데이터로부터 한 종류의 단위 파라미터의 값 10개가 산출된다.Assume that there is one specific training sound data to be subjected to the calculation of the unit parameter value. The parameter operation unit 130 may divide the sound data for specific training into a predetermined number of frames by dividing the sound data for each specific time period. For example, if the specific training sound data has a playback time of 10 seconds, the parameter operation unit 130 may split ten seconds of each one-second frame by splitting the specific training sound data in units of one second have. The parameter calculator 130 may calculate a unit parameter value for each of the 10 frames. That is, since one value of one type of unit parameter is calculated per one frame, ten values of one kind of unit parameter are calculated from one specific training data having ten frames.

예시적인 단위 파라미터로는, 스펙트럼 평탄도(spectral flatness), 스펙트럼 다이내믹스(spectral dynamics), 스펙트럼 도심(spectral centroid), 여기 신호 에너지(excitation signal energy), 음성 신호 에너지(speech signal energy) 및 피치 주기(pitch period) 등을 들 수 있다. 우선, 주파수별 에너지 분포와 관련된 단위 파라미터인 스펙트럼 평탄도(Φ1)는 다음의 수학식 1을 통해 산출될 수 있다.Exemplary unit parameters include, but are not limited to, spectral flatness, spectral dynamics, spectral centroid, excitation signal energy, speech signal energy, pitch period). First, the spectral flatness? 1 , which is a unit parameter related to the frequency-specific energy distribution, can be calculated by the following equation ( 1 ).

Figure 112017079548689-pat00002
Figure 112017079548689-pat00002

상기 수학식 1에서, n은 프레임을 식별하기 위한 번호이다. Pn(ω)는 AR(autoregressive) 모델의 주파수 응답을 의미하며, 아래의 수학식 2를 통해 각 프레임별로 구할 수 있다. ak는 해당 프레임의 신호에 대한 푸리에 계수(Fourier coefficient)이며, p는 선형 예측의 차수를 나타내는 상수로 자연수의 값을 갖는다.In Equation (1), n is a number for identifying a frame. P n (ω) denotes the frequency response of the AR (autoregressive) model, and can be obtained for each frame through Equation (2) below. a k is the Fourier coefficient for the signal of the frame, and p is a constant indicating the order of the linear prediction and has a natural number value.

Figure 112017079548689-pat00003
Figure 112017079548689-pat00003

스펙트럼 다이내믹스는 아래의 수학식 3에 따라 구할 수 있다.The spectral dynamics can be obtained by the following equation (3).

Figure 112017079548689-pat00004
Figure 112017079548689-pat00004

스펙트럼 도심은 신호에서 에너지가 가장 많이 존재하는 주파수 영역을 나타내는 단위 파라미터이며, 아래의 수학식 4에 의해 구할 수 있다.The spectral center is a unit parameter indicating the frequency region in which the energy is most present in the signal, and can be obtained by the following equation (4).

Figure 112017079548689-pat00005
Figure 112017079548689-pat00005

파라미터 연산부(130)는, 전술한 3개의 단위 파라미터에 더하여, 여기 신호 에너지, 음성 신호 에너지 및 피치 주기까지 총 6종류의 단위 파라미터의 값을, 특정 훈련용 소리 데이터의 각 프레임별로 구할 수 있다.In addition to the above-described three unit parameters, the parameter operation unit 130 can obtain values of six types of unit parameters ranging from excitation signal energy, speech signal energy and pitch period to each frame of sound data for specific training.

파라미터 연산부(130)는, 각 종류의 단위 파라미터의 값을 프레임별로 구한 특정 훈련용 소리 데이터에 대해, 복수 종류의 후보 파라미터의 값을 구할 수 있다. 후보 파라미터의 값은, 프레임별로 산출된 한 종류의 단위 파라미터의 값의 통계 정보를 이용하여 산출될 수 있으며, 이러한 통계 정보의 예로는 단위 파라미터 값의 평균(mean), 표준편차(standard deviation, 표준편차 대신 분산(variance)이 이용될 수도 있음), 왜도(skewness), 첨도(kurtosis) 등을 들 수 있다. 특정 훈련용 소리 데이터에 있어서, 상기 6종류의 단위 파라미터 중 i(i는 1 이상 6 이하의 자연수)번째 단위 파라미터의 평균(μΦi), 표준편차(σΦi), 왜도(sΦi) 및 첨도(kΦi)는 아래와 같은 수학식 5 내지 8에 의해 산출될 수 있다. 아래 수학식들에서

Figure 112017079548689-pat00006
는 특정 훈련용 소리 데이터의 프레임 수를 의미한다. The parameter operation unit 130 can obtain a plurality of types of candidate parameter values for specific training sound data obtained by frame-by-frame the value of each type of unit parameter. The value of the candidate parameter can be calculated using the statistical information of the value of one type of unit parameter calculated for each frame. Examples of such statistical information include mean, standard deviation, Variance may be used instead of deviation), skewness, kurtosis, and the like. The mean (μΦ i ), the standard deviation (σΦ i ), the degree of distortion (sΦ i ), and the degree of deviation (Φ i ) of the unit parameters of i among the six types of unit parameters The kurtosis k? I can be calculated by the following equations (5) to (8). In the following equations
Figure 112017079548689-pat00006
Means the number of frames of sound data for a specific training.

Figure 112017079548689-pat00007
Figure 112017079548689-pat00007

Figure 112017079548689-pat00008
Figure 112017079548689-pat00008

Figure 112017079548689-pat00009
Figure 112017079548689-pat00009

Figure 112017079548689-pat00010
Figure 112017079548689-pat00010

전술한 바에 따르면, 단위 파라미터의 종류는 6종류가 될 수 있고, 통계 정보의 종류는 4종류가 될 수 있으므로, 24종류의 후보 파라미터의 값이 하나의 특정 훈련용 소리 데이터에 대해 산출될 수 있다.According to the above description, since there are six types of unit parameters and four types of statistical information, values of 24 kinds of candidate parameters can be calculated for one specific training sound data .

한편, 상기 평균, 표준편차, 왜도, 첨도 등 통계 정보의 값은 단위 파라미터의 값 자체에 대해서도 산출될 수도 있지만, 단위 파라미터의 값의 시간에 따른 변화량에 대해서도 산출될 수 있다. 단위 파라미터의 시간에 따른 변화량은, 예를 들어 특정 훈련용 소리 데이터 내에서 시간적으로 인접한 두 프레임 간의 단위 파라미터의 값의 차이가 될 수 있다. 이와 같이, 스펙트럼 다이내믹스를 제외한 5종류의 단위 파라미터의 시간에 따른 변화량을, 특정 훈련용 소리 데이터 내에서 시간적으로 인접한 두 프레임으로 이루어진 모든 순서쌍에 대해 구한 후, 이들에 대한 평균, 표준편차, 왜도, 첨도를 구함으로써, 위에서 설명한 24종류의 후보 파라미터와는 또 다른 20종류(5종류의 단위 파라미터와, 4종류의 통계 정보의 조합)의 후보 파라미터의 값을 구할 수 있다. On the other hand, the values of the statistical information such as the average, standard deviation, distortion, and kurtosis can be calculated for the unit parameter value itself, but also for the amount of change with time of the unit parameter value. The amount of change of the unit parameter over time may be, for example, the difference in the value of the unit parameter between two frames temporally adjacent in the specific training sound data. Thus, the temporal variation of the five unit parameters excluding the spectral dynamics is obtained for all the ordered pairs consisting of two temporally adjacent frames in the specific training sound data, and then the mean, standard deviation, , And the kurtosis can be obtained to obtain the values of candidate parameters of 20 different types (combination of 5 types of unit parameters and 4 types of statistical information) different from the above 24 kinds of candidate parameters.

이로써, 파라미터 연산부(130)는 상기 6종류의 프레임별 단위 파라미터의 값으로부터, 총 44종류의 후보 파라미터의 값을 산출할 수 있다. 후보 파라미터의 종류의 수를 가능한 한 많이 확보하는 것은 이후 설명할 테스트 모델에 의한 분류의 정확도를 높이는 데 매우 중요하므로, 비교적 적은 종류의 단위 파라미터의 값으로부터 상당히 많은 종류의 후보 파라미터의 값을 도출할 수 있는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법은 매우 높은 정확도를 가질 수 있다.Thereby, the parameter calculation unit 130 can calculate the total of 44 types of candidate parameters from the values of the six types of frame-specific unit parameters. Securing the number of types of candidate parameters as much as possible is very important for increasing the accuracy of classification by the test model to be described later and therefore it is necessary to derive a large number of candidate parameter values from relatively small types of unit parameter values The sound data classification method according to an embodiment of the present invention can have a very high accuracy.

파라미터 연산부(130)는, 각각의 훈련용 소리 데이터, 즉 각각의 훈련용 음성 데이터와 훈련용 비음성 데이터로부터 상기 44종류의 후보 파라미터의 값을 산출할 수 있다. 이하에서는 훈련용 음성 데이터가 50개, 훈련용 비음성 데이터가 50개로, 총 100개의 훈련용 소리 데이터가 있다고 가정하자. 그러면 한 종류의 후보 파라미터당 총 100개의 값이 존재하게 되며, 상기 100개의 값 각각은 100개의 훈련용 소리 데이터에 일대일로 대응된다.The parameter operation unit 130 can calculate the values of the 44 kinds of candidate parameters from each training sound data, that is, each training sound data and training non-sound data. Hereinafter, it is assumed that there are 50 training voice data and 50 training non-voice data, for a total of 100 training voice data. Then, there are a total of 100 values per one candidate parameter, and each of the 100 values is corresponded one-to-one to 100 training sound data.

파라미터 연산부(130)는, 훈련용 음성 데이터와 훈련용 비음성 데이터를 얼마나 잘 분류할 수 있는가에 따라, 상기 44종류의 후보 파라미터 중에서 소정 종류의 특징 파라미터를 선택할 수 있다. 이러한 선택의 전제로서, 파라미터 연산부(130)는 각 후보 파라미터의 분류도를 구할 수 있다(S104). The parameter operation unit 130 can select a predetermined type of feature parameter from among the 44 kinds of candidate parameters according to how well training audio data and training non-audio data can be classified. As a premise of such selection, the parameter operation unit 130 can obtain the degree of classification of each candidate parameter (S104).

도 4는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 후보 파라미터의 히스토그램을 이용한 분류도의 산출에 대해 설명하기 위한 도면이다. 즉, 도 4는 한 종류의 특정한 후보 파라미터의 값으로서 산출된 100개의 값의 히스토그램(histogram)을, 훈련용 음성 데이터와 훈련용 비음성 데이터(도 4에서는 간단히 각각 "음성"과 "비음성"으로 표시)에 대해 각각 따로 그린 것이다.FIG. 4 is a diagram for explaining calculation of a classification diagram using a histogram of candidate parameters in a sound data classification method according to an embodiment of the present invention. That is, FIG. 4 shows histograms of 100 values calculated as the values of one kind of specific candidate parameters, as training voice data and training non-voice data (simply "voice" and "non-voice" As shown in Fig.

도 4의 히스토그램을 그리기 위해, 파라미터 연산부(130)는 우선 상기 특정한 후보 파라미터의 값을 모두 포함하는 수치 범위를 M(M은 2 이상의 자연수)개의 구간으로 분할할 수 있다. 도 4에 의하면, M의 값은 13이 된다. 그리고, 도 4의 맨 앞의 구간을 1번 구간, 맨 뒤의 구간을 13번 구간이라 하고, 중간의 구간들에도 순서에 따라 번호를 붙인다고 가정하자. In order to draw the histogram of FIG. 4, the parameter calculator 130 may divide the numerical range including all the values of the specific candidate parameter into M intervals (M is a natural number of 2 or more). According to Fig. 4, the value of M becomes 13. It is assumed that the first section of FIG. 4 is section 1, the last section is section 13, and the intermediate sections are also numbered in order.

도 4를 보면, 훈련용 음성 데이터에 대한 50개의 값은 1번 구간부터 9번 구간까지의 9개 구간에 걸쳐 분포되어 있고, 훈련용 비음성 데이터에 대한 50개의 값은 6번 구간부터 13번 구간까지의 8개 구간에 걸쳐 분포되어 있음을 알 수 있다. 이 때, 훈련용 음성 데이터에 대한 50개의 값 중 j번 구간에 속하는 값의 개수를 h(sp)(j)라 하고, 훈련용 비음성 데이터에 대한 50개의 값 중 상기 j번 구간에 속하는 값의 개수를 h( nsp )(j)라 할 수 있다. 이 때, 상기 특정한 후보 파라미터의 분류도(U)는 다음과 같은 수학식 9를 통해 구할 수 있으며, 도 4의 경우 분류도는 89가 된다.Referring to FIG. 4, 50 values for the training voice data are distributed over 9 intervals from the 1st section to 9th section, and 50 values for the training non-voice data are distributed from the 6th section to the 13th section And it is distributed over 8 sections up to the section. In this case, let h (sp) (j) be the number of values belonging to the jth interval out of the 50 values for training audio data, and the value belonging to the jth interval among the 50 values for training non- Can be denoted by h ( nsp ) (j). At this time, the classification map (U) of the specific candidate parameter can be obtained by the following equation (9), and the classification map of FIG. 4 is 89.

Figure 112017079548689-pat00011
Figure 112017079548689-pat00011

만일 훈련용 음성 데이터에 대한 50개의 값의 히스토그램과 훈련용 비음성 데이터에 대한 50개의 값의 히스토그램이 한 개의 구간도 공유하지 않은 채로 완전히 분리되어 있다면, 이는 상기 특정한 후보 파라미터의 값에 의해 훈련용 음성 데이터와 훈련용 비음성 데이터가 완벽히 구별될 수 있음을 의미하고, 이 때의 분류도는 100(즉, 훈련용 소리 데이터의 총 개수)이 된다. 반면, 상기 두 히스토그램이 서로 완벽히 같은 분포를 나타내고 있다면, 이는 상기 특정한 후보 파라미터의 값은 훈련용 음성 데이터와 훈련용 비음성 데이터를 구별하는 역할을 전혀 수행할 수 없음을 의미하며, 이 때의 분류도는 0이 된다. 이와 같은 분류도는 각 후보 파라미터가 훈련용 음성 데이터와 훈련용 비음성 데이터를 얼마나 잘 구별하는지를 나타내는 척도가 될 수 있다.If the histogram of 50 values for the training voice data and the histogram of 50 values for the training non-voice data are completely separated without sharing one section, this means that the value of the specific candidate parameter Means that the speech data and training non-speech data can be completely distinguished, and the classification degree at this time is 100 (that is, the total number of training sound data). On the other hand, if the two histograms are perfectly identical to each other, it means that the value of the specific candidate parameter can not perform the function of distinguishing training speech data from training non-speech data at all. The degree becomes zero. Such a classification scheme may be a measure of how well each candidate parameter distinguishes between training speech data and training non-speech data.

한편, 훈련용 소리 데이터의 총 개수에 따라 최대값이 변동될 수 있는 분류도 대신, 항상 0 이상 1 이하의 실수 값을 갖는 정규화된(normalized) 분류도를 이용하는 것도 가능하다. 상기 정규화된 분류도(Uftr)는 다음의 수학식 10에 의해 산출될 수 있으며, 후보 파라미터의 훈련용 소리 데이터 분류 능력이 우수할수록 1에 가까운 값을 갖게 된다. 여기서, hftr (sp)(j)는 상기 수학식 9의 h( sp )(j)의 값을 훈련용 음성 데이터의 총 수로 나눈 값이며, hftr (nsp)(j)는 상기 수학식 9의 h( nsp )(j)의 값을 훈련용 비음성 데이터의 총 수로 나눈 값이 된다. 도 4의 예시에 의하면, 정규화된 분류도의 값은 0.89이다.On the other hand, it is also possible to use a normalized classifier having a real value of 0 or more and 1 or less, instead of a classifier in which the maximum value may vary depending on the total number of training sound data. The normalized classification degree (U ftr ) can be calculated by the following Equation (10), and the better the training sound data classification ability of the candidate parameter is, the closer the value is to 1. Here, h ftr (sp) (j) is a value obtained by dividing the value of h ( sp ) (j) in Equation 9 by the total number of voice data for training, and h ftr (nsp) (j) ( N ) (j) divided by the total number of non-speech data for training. According to the example of FIG. 4, the value of the normalized classification is 0.89.

Figure 112017079548689-pat00012
Figure 112017079548689-pat00012

도 5는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 다양한 후보 파라미터들의 정규화된 분류도를 구한 결과를 나타내는 도면이다. 훈련용 소리 데이터의 수가 충분히 크다면, 도 4와 같은 히스토그램은 도 5에서 보는 바와 같은 연속적인 확률 밀도 함수(probability density function, PDF)의 형태로 표현될 수 있다. 다만, 도 5의 각 그래프에 의하면, x축의 후보 파라미터의 값은 0부터 1까지의 값을 갖도록 정규화되었으며, y축의 빈도 값 역시 각 그래프들이 확률 밀도 함수의 정의를 만족하도록 정규화되었음을 밝혀 둔다.FIG. 5 is a diagram illustrating a result of obtaining a normalized classification degree of various candidate parameters in a sound data classification method according to an embodiment of the present invention. Referring to FIG. If the number of training sound data is sufficiently large, the histogram shown in FIG. 4 can be expressed in the form of a continuous probability density function (PDF) as shown in FIG. 5, the value of the candidate parameter of the x-axis is normalized to have a value from 0 to 1, and the frequency value of the y-axis is also normalized so that each graph satisfies the definition of the probability density function.

도 5의 (A), (B), (C) 및 (D)는, 44종류의 후보 파라미터 중 스펙트럼 다이내믹스의 평균, 스펙트럼 도심의 변화량의 표준편차, 스펙트럼 다이내믹스의 표준편차, 스펙트럼 평탄도의 변화량의 표준편차의 4종류의 후보 파라미터에 대한 확률 밀도 함수를 각각 나타내고 있다. 한 종류의 후보 파라미터에 대한 확률 밀도 함수는 훈련용 음성 데이터와 훈련용 비음성 데이터(도 5에서는 간단히 각각 "음성"과 "비음성"으로 표시)에 대해 각기 따로 도출될 수 있음은 물론이다.5 (A), 5 (B), 5 (C) and 5 (D) show the average of spectral dynamics among 44 types of candidate parameters, the standard deviation of spectral densities, the standard deviations of spectral dynamics, And the standard deviation of the probability density function for the four candidate parameters. It is a matter of course that the probability density function for one kind of candidate parameter can be separately derived for training voice data and training non-voice data (simply referred to as " voice "

특정한 후보 파라미터의 훈련용 음성 데이터에 대한 확률 밀도 함수와, 훈련용 비음성 데이터에 대한 확률 밀도 함수가 서로 겹치는 영역의 크기가 작을수록, 상기 특정한 후보 파라미터의 정규화된 분류도는 큰 값을 갖게 된다. 실제로 도 5를 보면, (A)에서 (D)로 갈수록 상기 겹치는 영역(빗금친 부분)의 크기가 점차 증가하고 있음을 알 수 있는데, 정규화된 분류도(Uftr)의 값은 (A)에서 (D)로 갈수록 감소하고 있음을 볼 수 있다.The smaller the size of the region where the probability density function for training speech data of a specific candidate parameter and the probability density function for training non-speech data overlap each other, the larger the normalized classification degree of the specific candidate parameter . Actually, FIG. 5 shows that the size of the overlapping area (shaded area) gradually increases from (A) to (D), and the value of the normalized classification diagram (U ftr ) (D).

지금까지 설명한 분류도 혹은 정규화된 분류도를 이용하여, 파라미터 연산부(130)는 후보 파라미터 중 소정 종류의 후보 파라미터를 테스트 모델의 생성을 위한 특징 파라미터로서 선택할 수 있다(S105). 보다 구체적으로, 파라미터 연산부(130)는 각 종류의 후보 파라미터의 분류도를 구한 후, 이들 후보 파라미터 중에서 분류도가 큰 순서대로 특징 파라미터를 선택할 수 있다. 이와 같이 파라미터 연산부(130)에 의한 특징 파라미터의 선택이 완료되면, 모델 생성부(140)는 선택된 특징 파라미터의 값을 이용하여 테스트 모델을 생성할 수 있다(S106).Using the classification diagram or the normalized classification diagram described so far, the parameter operation unit 130 can select a candidate parameter of a predetermined type among the candidate parameters as a feature parameter for generation of a test model (S105). More specifically, the parameter calculator 130 obtains the degree of classification of each kind of candidate parameters, and then selects the feature parameters from the candidate parameters in descending order of degree of classification. When selection of the feature parameter by the parameter operation unit 130 is completed, the model generation unit 140 can generate the test model using the value of the selected feature parameter (S106).

도 6은 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 있어서, 특징 파라미터의 이산적 분포로부터 연속적인 분포 함수를 구하는 과정을 설명하기 위한 도면이다. 두 종류의 특징 파라미터가 파라미터 연산부(130)에 의해 후보 파라미터 중에서 선택되었다고 할 때, 하나의 훈련용 음성 데이터에 대한 상기 두 종류의 특징 파라미터의 값의 순서쌍은, 2차원 좌표공간에 정의된 한 점의 좌표에 대응될 수 있다. 예컨대, 어떤 하나의 훈련용 음성 데이터에 대해, 상기 두 종류의 특징 파라미터 중 하나(제 1 특징 파라미터)는 2라는 값을, 다른 하나(제 2 특징 파라미터)는 4라는 값을 갖는다고 가정하자. 그렇다면, 상기 하나의 훈련용 음성 데이터에 대한 특징 파라미터의 값은, 2차원 좌표공간의 (2, 4)라는 점에 대응될 수 있다. 도 6의 (A)는 복수의 훈련용 음성 데이터 각각에 대응되는 점의 위치를 2차원 좌표공간에 표시한 것으로서, 도 6의 (A)에 표현된 점의 총 개수는 훈련용 음성 데이터의 개수와 일치한다.6 is a diagram for explaining a process of obtaining a continuous distribution function from a discrete distribution of feature parameters in a sound data classification method according to an embodiment of the present invention. When two kinds of feature parameters are selected from the candidate parameters by the parameter operation unit 130, the ordered pair of the values of the two types of feature parameters for one training audio data is a point defined in the two-dimensional coordinate space As shown in FIG. For example, for one training speech data, it is assumed that one of the two types of characteristic parameters (first characteristic parameter) has a value of 2 and the other (second characteristic parameter) has a value of 4. If so, the value of the feature parameter for the training audio data may correspond to (2, 4) of the two-dimensional coordinate space. 6A shows the positions of the points corresponding to each of the plurality of training audio data in a two-dimensional coordinate space. The total number of points represented in Fig. 6A corresponds to the number of audio data for training .

모델 생성부(140)는, 도 6의 (A)와 같은 이산적 분포로부터, 도 6의 (B)와 같은 연속적인 확률 밀도 함수(210)를 생성할 수 있다. 즉, 상기 확률 밀도 함수(210)는 상기 이산적 분포를 근사적으로 나타내는 연속함수로서, 가우시안 혼합 모델(Gaussian mixture model, GMM)을 이용하여 생성될 수 있다. 도 6의 (B)에서, x축과 y축은 각각 제 1 특징 파라미터와 제 2 특징 파라미터의 값을 나타내며, z축은 확률 밀도 함수의 값을 나타낸다고 할 때, 2차원 좌표공간에 정의된 점(220)에서의 확률 밀도 함수(210)의 값은, 점(220)으로부터 출발하는 xy 평면의 법선(法線)이 확률 밀도 함수(210)와 만나는 점(221)의 z좌표의 값(222)이 된다. 이와 같이, 특징 파라미터의 값에 의해 좌표공간 내에 정의되는 각 점은, 각자의 고유한 확률 밀도 함수의 값을 가질 수 있다.The model generation unit 140 can generate a continuous probability density function 210 as shown in FIG. 6B from the discrete distribution as shown in FIG. 6 (A). That is, the probability density function 210 may be generated using a Gaussian mixture model (GMM) as a continuous function that approximately represents the discrete distribution. 6B, when the x-axis and the y-axis respectively represent the values of the first feature parameter and the second feature parameter, and the z-axis represents the value of the probability density function, a point 220 The value of the probability density function 210 at the point 220 is the value 222 of the z coordinate at the point 221 where the normal of the xy plane originating from the point 220 meets the probability density function 210 do. As described above, each point defined in the coordinate space by the value of the feature parameter can have a value of its own probability density function.

전술한 예를 일반화하여 설명하면, 특징 파라미터의 종류의 수를 N(N은 자연수)이라 할 때, 상기 확률 밀도 함수는 가우시안 혼합 모델을 이용하여 N차원 좌표공간 상에 정의된 연속적인 확률 밀도 함수가 될 수 있다. 널리 알려진 바와 같이, 가우시안 혼합 모델에 의한 확률 밀도 함수는 S(S는 2 이상의 자연수)개의 N차원 단위 정규분포 함수 각각에 저마다의 가중치를 곱한 결과를 모두 더함으로써 생성될 수 있다. 단위 정규분포 함수 중, 평균 μk, 표준편차 σk, 가중치 ωk인 k번째 함수를 N(x|μk, σk 2)로 표현할 때, S개의 단위 정규분포 함수를 더한 확률 밀도 함수 p(x|θ)는 다음의 수학식 11을 통해 구할 수 있다. 여기서 x는 N차원의 좌표공간에 정의된 점의 좌표를 나타내는 벡터이다.When the number of kinds of characteristic parameters is N (N is a natural number), the probability density function is a continuous probability density function defined on an N-dimensional coordinate space using a Gaussian mixture model . As is widely known, the probability density function by the Gaussian mixture model can be generated by adding all the results of multiplying each weighting value to each of the N-dimensional unit normal distribution functions of S (S is a natural number of 2 or more). When we denote the kth function with mean μ k , standard deviation σ k and weight ω k among the unit normal distribution functions as N (x | μ k , σ k 2 ), the probability density function p (x &thetas;) can be obtained by the following equation (11). Where x is a vector representing the coordinates of a point defined in the N-dimensional coordinate space.

Figure 112017079548689-pat00013
Figure 112017079548689-pat00013

전술한 바에 기초하여, 모델 생성부(140)는 훈련용 음성 데이터에 대한 특징 파라미터 값의 분포로부터 생성된 제 1 분포 함수(p(x|θS))와, 훈련용 비음성 데이터에 대한 특징 파라미터 값의 분포로부터 생성된 제 2 분포 함수(p(x|θN))를 생성할 수 있다. 모델 생성부(140)가 상기 제 1 및 제 2 분포 함수를 포함하는 테스트 모델을 생성하면, 이와 같은 테스트 모델은 저장부(170) 내에 저장될 수도 있고, 출력부(160)를 통해 소리 데이터 분류 장치(100) 외부로 전송될 수도 있다.Based on the above description, the model generation unit 140 generates the first distribution function p (x |? S ) generated from the distribution of the feature parameter values for training audio data and the first distribution function A second distribution function p (x | [theta] N ) generated from the distribution of the parameter values. When the model generating unit 140 generates a test model including the first and second distribution functions, such a test model may be stored in the storage unit 170, Or may be transmitted outside the device 100.

이하에서는 테스트 모델을 이용하여, 아직 음성 데이터와 비음성 데이터 중 어느 하나로 분류되지 않은 미지의 대상 소리 데이터를 분류하는 방법에 대해 설명하도록 한다. 입력부(110)를 통해 대상 소리 데이터가 입력되면, 파라미터 연산부(130)는 대상 소리 데이터에 대한 특징 파라미터 값을 산출할 수 있다(S107). 훈련용 소리 데이터에 대해서는 모든 후보 파라미터의 값이 산출된 것과는 달리, 대상 소리 데이터에 대해서는 상기 후보 파라미터로부터 테스트 모델 생성을 위해 선택된 N종류의 특징 파라미터 값만을 구할 수 있으므로, 연산의 양이 줄어들 수 있다.Hereinafter, a method of classifying unknown target sound data that has not yet been classified into either sound data or non-sound data will be described using a test model. When the target sound data is inputted through the input unit 110, the parameter computing unit 130 can calculate a characteristic parameter value for the target sound data (S107). For the training sound data, only the N kinds of feature parameter values selected for the test model generation can be obtained from the candidate parameters for the target sound data, as in the case where the values of all the candidate parameters are calculated, so that the amount of operation can be reduced .

파라미터 연산부(130)가 N종류의 특징 파라미터의 값을 대상 소리 데이터로부터 산출하면, 분류부(150)는 상기 대상 소리 데이터에 대한 특징 파라미터의 값으로부터 N차원의 특징 파라미터 벡터를 구할 수 있다. 이 때, 특징 파라미터 벡터의 원소는 총 N개이며, N종류의 각 특징 파라미터의 값은 특징 파라미터 벡터의 원소를 각각 구성하게 된다. 상기 특징 파라미터 벡터는 N차원 좌표공간 상에 정의된 특정한 점의 위치벡터가 될 수 있다. 이하에서는 상기 특정한 점을 "기준점"이라 칭하도록 하며, 분류부(150)는 특징 파라미터 벡터의 원소를 이용하여 기준점의 좌표를 설정할 수 있다(S108).When the parameter calculating unit 130 calculates the values of the N types of feature parameters from the target sound data, the classifying unit 150 can obtain the N-dimensional feature parameter vectors from the values of the feature parameters for the target sound data. At this time, the total number of elements of the feature parameter vector is N, and the value of each of the N feature parameters constitutes the elements of the feature parameter vector. The feature parameter vector may be a position vector of a specific point defined on the N-dimensional coordinate space. Hereinafter, the specific point will be referred to as a " reference point ", and the classifying unit 150 can set the coordinates of the reference point using the elements of the feature parameter vector (S108).

분류부(150)는 상기 기준점에서의 제 1 분포 함수의 값과 제 2 분포 함수의 값을 비교함으로써, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어떤 쪽에 속하는지를 판단할 수 있다(S109). 보다 구체적으로, 대상 소리 데이터는 기준점에서 제 1 분포 함수의 값이 제 2 분포 함수의 값보다 클 경우에는 음성 데이터로 분류될 수 있으며(S110), 반대의 경우에는 비음성 데이터로 분류될 수 있다(S111). 다만, 상기 분류 방법에는 수학적 방법론의 측면에서 다소의 변형이 가해질 수도 있다. 그 한 예로서, 로그-우도(log-likelihood)를 이용한 방법을 생각할 수 있다. N차원 좌표공간에서 기준점의 좌표를 나타내는 벡터를 xN이라 할 때, 분류부(150)는 다음 수학식 12와 같은 부등식이 참이면 상기 대상 소리 데이터를 음성 데이터로, 거짓이면 비음성 데이터로 각각 분류할 수 있다. 여기서 p(x|θSn)은 제 1 분포 함수의 S개의 단위 정규분포 함수 중 n번째 함수를, p(x|θNn)은 제 2 분포 함수의 S개의 단위 정규분포 함수 중 n번째 함수를 각각 가리킨다.The classifying unit 150 may determine whether the target sound data belongs to the speech data or the non-speech data by comparing the value of the first distribution function at the reference point with the value of the second distribution function (S109) . More specifically, the target sound data may be classified as speech data if the value of the first distribution function is larger than the value of the second distribution function at the reference point (S110), and in the opposite case, it may be classified as non-speech data (S111). However, some modifications may be made to the classification method in terms of mathematical methodology. As an example, a method using log-likelihood can be considered. If the vector representing the coordinates of the reference point in the N-dimensional coordinate space is x N , the classifying unit 150 classifies the target sound data as speech data if it is true, and non-speech data if it is false Can be classified. Where p (x | θn ) is the nth function of S unit normal distribution functions of the first distribution function and p (x | θnn ) is the nth function of S unit normal distribution functions of the second distribution function. Respectively.

Figure 112017079548689-pat00014
Figure 112017079548689-pat00014

전술한 분류 기준은 제 1 분포 함수가 훈련용 음성 데이터로부터 생성되었고, 제 2 분포 함수가 훈련용 비음성 데이터로부터 생성되었다는 사실을 그 근거로 한다. 즉, 기준점에서 제 1 분포 함수의 값이 제 2 분포 함수의 값보다 크다는 것은, N차원 좌표공간 중 기준점 근처의 영역에는 훈련용 음성 데이터의 특징 파라미터 값을 나타내는 점의 존재 확률이, 훈련용 비음성 데이터의 특징 파라미터 값을 나타내는 점의 존재 확률보다 높다는 것을 의미한다. 이와 같이 본 발명의 일 실시예에 의하면, 훈련용 소리 데이터에 대한 후보 파라미터의 값 중, 분류의 신뢰도가 높은 특징 파라미터의 값만을 선택하여 미리 구축해 둔 테스트 모델을 이용하여, 대상 소리 데이터에 대한 분류를 간편하면서도 정확하게 수행할 수 있다.The classification criteria described above are based on the fact that the first distribution function is generated from the training voice data and the second distribution function is generated from training non-voice data. That is, the fact that the value of the first distribution function at the reference point is larger than the value of the second distribution function means that the probability of existence of the point representing the feature parameter value of the training voice data in the region near the reference point in the N- Is higher than the probability of existence of a point representing the feature parameter value of the speech data. As described above, according to the embodiment of the present invention, among the values of the candidate parameters for the training sound data, only the values of the characteristic parameters with high reliability of classification are selected, Can be performed simply and accurately.

이하에서는 본 발명의 일 실시예에 따른 소리 데이터 분류 방법을 적용한 실험 결과에 대해 설명하도록 한다. 복수 개의 대상 소리 데이터를 분류함에 있어, 분류 정확도를 아래와 같은 수학식 13에 기초하여 산정하도록 한다.Hereinafter, experimental results using the sound data classification method according to an embodiment of the present invention will be described. In sorting the plurality of target sound data, the classification accuracy is calculated based on the following expression (13).

Figure 112017079548689-pat00015
Figure 112017079548689-pat00015

우선, 임계 PESQ 값의 설정과 분류 정확도 간의 관계에 대해 알아보았다. 본 실험을 위한 임계 PESQ 값은, 청취 실험을 통해 가려낸 복수의 비음성 데이터의 PESQ 값 중 상위 1%에 해당하는 값(2.721)과 상위 5%에 해당하는 값(2.189)으로 선택되었다. 특징 파라미터로는 10종류가 분류도 순으로 후보 파라미터 중에서 선택되었으며, 테스트 모델의 각 분포 함수를 위한 단위 정규분포 함수의 수는 7개로 설정되었다. 아래의 표 1은 분류의 대상이 되는 대상 소리 데이터의 유형을 잡음이 없는 데이터, 탱크 소음이 섞인 데이터, 전장 소음이 섞인 데이터로 나누어 실험한 결과를 나타낸 것이다.First, the relationship between the setting of critical PESQ values and classification accuracy was examined. The critical PESQ value for this experiment was selected as the value of the upper 1% (2.721) and the upper 5% (2.189) of the PESQ values of the plurality of non-speech data selected through the listening experiment. Ten characteristic parameters were selected from the candidate parameters in order of classification, and the number of unit normal distribution functions for each distribution function of the test model was set to seven. Table 1 below shows the results of experiments in which the type of target sound data to be classified is divided into noise-free data, tank noise-mixed data, and battle noise-mixed data.

데이터 유형Data type 임계 Criticality PESQPESQ = 2.721 (상위 1%) 일 때의 분류 정확도 (%) = 2.721 (upper 1%) classification accuracy (%) 임계 Criticality PESQPESQ = 2.189 (상위 5%) 일 때의 분류 정확도 (%) = 2.189 (upper 5%) classification accuracy (%) 잡음이 없는 데이터Noiseless data 87.2987.29 82.8582.85 탱크 소음이 섞인 데이터Tank noise mixed data 83.3683.36 81.0081.00 전장 소음이 섞인 데이터Battle noise mixed data 79.3179.31 77.9877.98

상기 표 1을 보면, 임계 PESQ의 값을 2.721로 설정한 경우가, 2.189로 설정한 경우에 비해 모든 데이터 유형에 있어서 분류 정확도가 우수함을 알 수 있다. 아래의 표 2는 임계 PESQ의 값을 2.721로 설정하여, 특징 파라미터 종류 수와 분류 정확도 간의 관계에 대해 실험한 결과를 나타낸 것이다. 아래의 표 2와 도 7을 보면, 특징 파라미터 종류의 수가 10개일 때의 분류 정확도가 가장 높음을 볼 수 있으며, 이러한 실험 결과는 보다 정확한 분류 결과를 얻기 위한 참고 자료가 될 수 있다.Table 1 shows that the classification accuracy is excellent for all data types when the value of the threshold PESQ is set to 2.721, which is set to 2.189. Table 2 below shows the results of experiments on the relationship between the number of characteristic parameter types and classification accuracy by setting the critical PESQ value to 2.721. Table 2 and Fig. 7 below show that the classification accuracy is highest when the number of characteristic parameter types is 10, and these experimental results can be used as references for obtaining more accurate classification results.

특징 파라미터 종류의 수Number of characteristic parameter types 분류 정확도 (Classification Accuracy ( %% )) 7개7 83.1983.19 8개8 84.2284.22 9개9 84.3384.33 10개10 things 87.2987.29 11개11 85.2785.27 12개12 86.1986.19

이상 설명한 본 발명의 일 실시예에 따른 소리 데이터 분류 방법에 의하면, 훈련용 소리 데이터로부터 산출된 다양한 후보 파라미터 중 신뢰도가 높은 특징 파라미터를 이용하여 기 구축된 테스트 모델을 통해, 미지의 소리 데이터에 대한 음성/비음성 분류를 효율적이면서도 정확하게 수행할 수 있다. According to the sound data classification method of the present invention described above, it is possible to classify the unknown sound data by using the pre-built test model using the highly reliable feature parameters among the various candidate parameters calculated from the training sound data, The voice / non-voice classification can be performed efficiently and accurately.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.Combinations of each step of the flowchart and each block of the block diagrams appended to the present invention may be performed by computer program instructions. These computer program instructions may be loaded into a processor of a general purpose computer, special purpose computer, or other programmable data processing apparatus so that the instructions, which may be executed by a processor of a computer or other programmable data processing apparatus, And means for performing the functions described in each step are created. These computer program instructions may also be stored in a computer usable or computer readable memory capable of directing a computer or other programmable data processing apparatus to implement the functionality in a particular manner so that the computer usable or computer readable memory It is also possible for the instructions stored in the block diagram to produce a manufacturing item containing instruction means for performing the functions described in each block or flowchart of the block diagram. Computer program instructions may also be stored on a computer or other programmable data processing equipment so that a series of operating steps may be performed on a computer or other programmable data processing equipment to create a computer- It is also possible that the instructions that perform the processing equipment provide the steps for executing the functions described in each block of the block diagram and at each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Also, each block or each step may represent a module, segment, or portion of code that includes one or more executable instructions for executing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions mentioned in the blocks or steps may occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially concurrently, or the blocks or steps may sometimes be performed in reverse order according to the corresponding function.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and various modifications and changes may be made by those skilled in the art without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents thereof should be construed as falling within the scope of the present invention.

100: 소리 데이터 분류 장치
110: 입력부
120: PESQ 연산부
130: 파라미터 연산부
140: 모델 생성부
150: 분류부
160: 출력부
170: 저장부
100: sound data classification device
110: input unit
120: PESQ operator
130: Parameter operation unit
140:
150:
160: Output section
170:

Claims (17)

복수의 훈련용 음성 데이터 각각과 복수의 훈련용 비음성 데이터 각각에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하는 제 1 단계;
상기 훈련용 음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 상기 훈련용 비음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함하는 테스트 모델을 생성하는 제 2 단계;
대상 소리 데이터에 대한 상기 특징 파라미터의 값을 산출하는 제 3 단계; 및
상기 테스트 모델 및 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 제 4 단계를 포함하고,
상기 제 1 단계는, 상기 훈련용 음성 데이터 각각과 상기 훈련용 비음성 데이터 각각에 대한 단위 파라미터와 관련된 통계 정보를 이용하여, 두 종류 이상의 후보 파라미터의 값을 산출하고, 상기 후보 파라미터 값 중에서 적어도 한 종류의 후보 파라미터를 상기 특징 파라미터로서 선택하는 단계를 포함하는
소리 데이터 분류 방법.
A first step of calculating a value of one or more kinds of feature parameters for each of a plurality of training audio data and a plurality of training non-audio data;
A first distribution function obtained from a distribution of values of the feature parameters for each training speech data and a second distribution function obtained from a distribution of values of the feature parameters for each training non- A second step of generating a test model;
A third step of calculating a value of the characteristic parameter for the target sound data; And
And a fourth step of determining whether the target sound data belongs to audio data or non-audio data based on the test model and the value of the characteristic parameter calculated for the target sound data,
The first step may include calculating values of two or more kinds of candidate parameters by using statistical information related to each of the training voice data and the training non-voice data, Selecting a candidate parameter of the type as the feature parameter
How to classify sound data.
제 1 항에 있어서,
상기 단위 파라미터와 관련된 통계 정보는, 복수의 프레임 각각의 특징을 나타내는 단위 파라미터의 값에 대한 통계 정보 혹은 상기 단위 파라미터의 시간에 따른 변화량에 대한 통계 정보를 포함하는
소리 데이터 분류 방법.
The method according to claim 1,
Wherein the statistical information related to the unit parameter includes statistical information on a value of a unit parameter indicating a characteristic of each of a plurality of frames or statistical information on a variation with time of the unit parameter
How to classify sound data.
제 2 항에 있어서,
상기 단위 파라미터는, 스펙트럼 평탄도(spectral flatness), 스펙트럼 다이내믹스(spectral dynamics), 스펙트럼 도심(spectral centroid), 여기 신호 에너지(excitation signal energy), 음성 신호 에너지(speech signal energy) 및 피치 주기(pitch period) 중 적어도 하나를 포함하며,
상기 통계 정보는, 평균, 표준편차, 왜도 및 첨도 중 적어도 하나를 포함하는
소리 데이터 분류 방법.
3. The method of claim 2,
The unit parameters may include at least one of a spectral flatness, a spectral dynamics, a spectral centroid, an excitation signal energy, a speech signal energy, and a pitch period ), ≪ / RTI >
Wherein the statistical information includes at least one of an average, a standard deviation, a degree of distortion and a kurtosis
How to classify sound data.
제 1 항에 있어서,
상기 제 1 단계는, 상기 후보 파라미터 중 한 종류의 후보 파라미터의 값을 이용하여 상기 훈련용 음성 데이터와 상기 훈련용 비음성 데이터를 분류하는 과정을, 상기 후보 파라미터 각각에 대해 수행하는 단계를 포함하고,
상기 특징 파라미터는 상기 분류의 결과에 기초하여 선택되는
소리 데이터 분류 방법.
The method according to claim 1,
Wherein the first step includes the step of classifying the training speech data and the training non-speech data using one of the candidate parameters of the candidate parameters for each of the candidate parameters ,
Wherein the feature parameter is selected based on a result of the classification
How to classify sound data.
제 4 항에 있어서,
상기 수행하는 단계는, 상기 후보 파라미터 각각의 분류도를 구하는 단계를 포함하되,
상기 후보 파라미터 중 상기 분류도를 구하고자 하는 특정한 후보 파라미터의 값을 모두 포함하는 수치 범위를 M(M은 2 이상의 자연수)개의 구간으로 분할하고, 상기 구간 중 j(j는 1 이상 M 이하의 자연수)번째 구간에 속하는 후보 파라미터의 값 중 상기 훈련용 음성 데이터에 대해 산출된 값의 개수를 h( sp )(j)라 하고, 상기 훈련용 비음성 데이터에 대해 산출된 값의 개수를 h( nsp )(j)라 할 때, 상기 특정한 후보 파라미터의 분류도는
Figure 112017079548689-pat00016

의 값과 같으며,
상기 선택하는 단계는, 상기 후보 파라미터 각각의 분류도에 기초하여, 상기 후보 파라미터 중 상기 특징 파라미터를 선택하는 단계를 포함하는
소리 데이터 분류 방법.
5. The method of claim 4,
Wherein the performing step includes the step of obtaining a degree of classification of each of the candidate parameters,
(M is a natural number equal to or greater than 2) intervals, wherein the j (j is a natural number equal to or greater than 1 and equal to or less than M) Th training data for training is defined as h ( sp ) (j), and the number of values calculated for training non-voice data is h ( nsp ) (j), the classification of the specific candidate parameter is
Figure 112017079548689-pat00016

Lt; / RTI >
Wherein the selecting includes selecting the feature parameter among the candidate parameters based on the degree of classification of each of the candidate parameters
How to classify sound data.
제 1 항에 있어서,
상기 특징 파라미터의 종류의 수를 N(N은 자연수)이라 할 때, 상기 분포 함수는 가우시안 혼합 모델(Gaussian mixture model)을 이용하여 N차원 좌표공간 상에 정의된 연속적인 확률 밀도 함수(probability density function)이며,
상기 제 4 단계는, 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터 각각의 값에 기초하여 정해지는 상기 N차원 좌표공간 상에서의 위치에서의 상기 제 1 분포 함수의 값과 상기 제 2 분포 함수의 값을 산출하는 단계; 및
상기 제 1 분포 함수의 값과 상기 제 2 분포 함수의 값의 비교 결과에 기초하여, 상기 대상 소리 데이터가 상기 음성 데이터와 상기 비음성 데이터 중 어느 쪽에 속하는지 판단하는 단계를 포함하는
소리 데이터 분류 방법.
The method according to claim 1,
When the number of kinds of the feature parameters is N (N is a natural number), the distribution function is a probability density function defined on the N-dimensional coordinate space using a Gaussian mixture model ),
The fourth step includes a step of calculating a value of the first distribution function at a position on the N-dimensional coordinate space, which is determined based on the value of each of the characteristic parameters calculated for the target sound data, ; And
Determining whether the target sound data belongs to the sound data or the non-sound data based on a result of comparison between the value of the first distribution function and the value of the second distribution function
How to classify sound data.
제 1 항에 있어서,
훈련용 소리 데이터 각각의 PESQ(Perceptual Evaluation of Speech Quality) 값을 획득하는 단계; 및
상기 훈련용 소리 데이터 중, 상기 PESQ 값이 소정의 임계 PESQ 값 이상인 데이터는 상기 훈련용 음성 데이터로, 상기 PESQ 값이 상기 임계 PESQ 값 미만인 데이터는 상기 훈련용 비음성 데이터로 분류하는 단계를 더 포함하는
소리 데이터 분류 방법.
The method according to claim 1,
Obtaining a Perceptual Evaluation of Speech Quality (PESQ) value of each training sound data; And
The step of classifying data of the training sound data having the PESQ value equal to or greater than a predetermined threshold PESQ value as the training sound data and the data having the PESQ value less than the threshold PESQ value as the training non- doing
How to classify sound data.
복수의 훈련용 음성 데이터 각각과 복수의 훈련용 비음성 데이터 각각에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하며, 대상 소리 데이터에 대한 상기 특징 파라미터의 값을 산출하는 파라미터 연산부;
상기 훈련용 음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 상기 훈련용 비음성 데이터 각각에 대한 상기 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함하는 테스트 모델을 생성하는 모델 생성부; 및
상기 테스트 모델 및 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 분류부를 포함하고,
상기 파라미터 연산부는, 상기 훈련용 음성 데이터 각각과 상기 훈련용 비음성 데이터 각각에 대한 단위 파라미터와 관련된 통계 정보를 이용하여, 두 종류 이상의 후보 파라미터의 값을 산출하고, 상기 후보 파라미터 값 중에서 적어도 한 종류의 후보 파라미터를 상기 특징 파라미터로서 선택하는
소리 데이터 분류 장치.
A parameter operation unit for calculating one or more characteristic parameter values for each of a plurality of training audio data and a plurality of training non-audio data, and calculating a value of the characteristic parameter for the target sound data;
A first distribution function obtained from a distribution of values of the feature parameters for each training speech data and a second distribution function obtained from a distribution of values of the feature parameters for each training non- A model generation unit for generating a test model; And
And a classifying unit that determines whether the target sound data belongs to audio data or non-audio data based on the test model and the value of the characteristic parameter calculated for the target sound data,
Wherein the parameter calculation unit calculates values of two or more kinds of candidate parameters by using statistical information related to each of the training sound data and the training non-sound data, and calculates at least one of the candidate parameter values As the feature parameter
Sound data classification device.
제 8 항에 있어서,
상기 단위 파라미터와 관련된 통계 정보는, 복수의 프레임 각각의 특징을 나타내는 단위 파라미터의 값에 대한 통계 정보 혹은 상기 단위 파라미터의 시간에 따른 변화량에 대한 통계 정보를 포함하는
소리 데이터 분류 장치.
9. The method of claim 8,
Wherein the statistical information related to the unit parameter includes statistical information on a value of a unit parameter indicating a characteristic of each of a plurality of frames or statistical information on a variation with time of the unit parameter
Sound data classification device.
제 9 항에 있어서,
상기 단위 파라미터는, 스펙트럼 평탄도(spectral flatness), 스펙트럼 다이내믹스(spectral dynamics), 스펙트럼 도심(spectral centroid), 여기 신호 에너지(excitation signal energy), 음성 신호 에너지(speech signal energy) 및 피치 주기(pitch period) 중 적어도 하나를 포함하며,
상기 통계 정보는, 평균, 표준편차, 왜도 및 첨도 중 적어도 하나를 포함하는
소리 데이터 분류 장치.
10. The method of claim 9,
The unit parameters may include at least one of a spectral flatness, a spectral dynamics, a spectral centroid, an excitation signal energy, a speech signal energy, and a pitch period ), ≪ / RTI >
Wherein the statistical information includes at least one of an average, a standard deviation, a degree of distortion and a kurtosis
Sound data classification device.
제 8 항에 있어서,
상기 파라미터 연산부는, 상기 후보 파라미터 중 한 종류의 후보 파라미터의 값을 이용하여 상기 훈련용 음성 데이터와 상기 훈련용 비음성 데이터를 분류하는 과정을, 상기 후보 파라미터 각각에 대해 수행하고,
상기 특징 파라미터는 상기 분류의 결과에 기초하여 선택되는
소리 데이터 분류 장치.
9. The method of claim 8,
Wherein the parameter calculation unit performs a process of classifying the training speech data and the training non-speech data using a value of one kind of candidate parameters among the candidate parameters, for each of the candidate parameters,
Wherein the feature parameter is selected based on a result of the classification
Sound data classification device.
제 11 항에 있어서,
상기 파라미터 연산부는, 상기 후보 파라미터 각각의 분류도를 구하고, 상기 후보 파라미터 각각의 분류도에 기초하여, 상기 후보 파라미터 중 상기 특징 파라미터를 선택하되,
상기 후보 파라미터 중 상기 분류도를 구하고자 하는 특정한 후보 파라미터의 값을 모두 포함하는 수치 범위를 M(M은 2 이상의 자연수)개의 구간으로 분할하고, 상기 구간 중 j(j는 1 이상 M 이하의 자연수)번째 구간에 속하는 후보 파라미터의 값 중 상기 훈련용 음성 데이터에 대해 산출된 값의 개수를 h( sp )(j)라 하고, 상기 훈련용 비음성 데이터에 대해 산출된 값의 개수를 h( nsp )(j)라 할 때, 상기 특정한 후보 파라미터의 분류도는
Figure 112017079548689-pat00017

의 값과 같은
소리 데이터 분류 장치.
12. The method of claim 11,
Wherein the parameter calculator obtains a degree of classification of each of the candidate parameters and selects the characteristic parameter among the candidate parameters based on the degree of each of the candidate parameters,
(M is a natural number equal to or greater than 2) intervals, wherein the j (j is a natural number equal to or greater than 1 and equal to or less than M) Th training data for training is defined as h ( sp ) (j), and the number of values calculated for training non-voice data is h ( nsp ) (j), the classification of the specific candidate parameter is
Figure 112017079548689-pat00017

Equal to
Sound data classification device.
제 8 항에 있어서,
상기 특징 파라미터의 종류의 수를 N(N은 자연수)이라 할 때, 상기 분포 함수는 가우시안 혼합 모델(Gaussian mixture model)을 이용하여 N차원 좌표공간 상에 정의된 연속적인 확률 밀도 함수(probability density function)이며,
상기 분류부는, 상기 대상 소리 데이터에 대해 산출된 상기 특징 파라미터 각각의 값에 기초하여 정해지는 상기 N차원 좌표공간 상에서의 위치에서의 상기 제 1 분포 함수의 값과 상기 제 2 분포 함수의 값을 산출하고, 상기 제 1 분포 함수의 값과 상기 제 2 분포 함수의 값의 비교 결과에 기초하여, 상기 대상 소리 데이터가 상기 음성 데이터와 상기 비음성 데이터 중 어느 쪽에 속하는지 판단하는
소리 데이터 분류 장치.
9. The method of claim 8,
When the number of kinds of the feature parameters is N (N is a natural number), the distribution function is a probability density function defined on the N-dimensional coordinate space using a Gaussian mixture model ),
The classifying section calculates the value of the first distribution function and the value of the second distribution function at a position on the N-dimensional coordinate space determined based on the value of each of the characteristic parameters calculated for the target sound data And determines whether the target sound data belongs to the speech data or the non-speech data based on a result of comparison between the value of the first distribution function and the value of the second distribution function
Sound data classification device.
제 8 항에 있어서,
훈련용 소리 데이터 각각의 PESQ(Perceptual Evaluation of Speech Quality) 값을 획득하고, 상기 훈련용 소리 데이터 중, 상기 PESQ 값이 소정의 임계 PESQ 값 이상인 데이터는 상기 훈련용 음성 데이터로, 상기 PESQ 값이 상기 임계 PESQ 값 미만인 데이터는 상기 훈련용 비음성 데이터로 분류하는 PESQ 연산부를 더 포함하는
소리 데이터 분류 장치.
9. The method of claim 8,
Data of the training sound data, the data having the PESQ value equal to or greater than a predetermined threshold PESQ value is used as the training sound data, and the PESQ value is used as the training sound data, And the data less than the threshold PESQ value is further classified into non-speech data for training
Sound data classification device.
대상 소리 데이터에 대한, 한 종류 이상의 특징 파라미터의 값을 산출하는 단계; 및
상기 대상 소리 데이터의 분류를 위한 테스트 모델 및 상기 대상 소리 데이터에 대한 상기 특징 파라미터의 값에 기초하여, 상기 대상 소리 데이터가 음성 데이터와 비음성 데이터 중 어느 쪽에 속하는지 판단하는 단계를 포함하며,
상기 테스트 모델은, 복수의 훈련용 음성 데이터 각각에 대한 특징 파라미터의 값의 분포로부터 획득되는 제 1 분포 함수와, 복수의 훈련용 비음성 데이터 각각에 대한 특징 파라미터의 값의 분포로부터 획득되는 제 2 분포 함수를 포함하고,
상기 제 1 분포 함수와 상기 제 2 분포 함수는, 상기 훈련용 음성 데이터 각각과 상기 훈련용 비음성 데이터 각각에 대한 단위 파라미터와 관련된 통계 정보를 이용하여 산출된 두 종류 이상의 후보 파라미터의 값 중에서 적어도 한 종류의 후보 파라미터를 포함하는 특징 파라미터 값의 분포로부터 획득되는
소리 데이터 분류 방법.
Calculating values of one or more characteristic parameters for the target sound data; And
Determining whether the target sound data belongs to speech data or non-speech data based on a test model for classifying the target sound data and a value of the characteristic parameter for the target sound data,
Wherein the test model includes a first distribution function obtained from a distribution of values of characteristic parameters for each of a plurality of training voice data and a second distribution function obtained from a distribution of values of characteristic parameters for each of a plurality of training non- Distribution function,
Wherein the first distribution function and the second distribution function include at least one of values of two or more candidate parameters calculated using statistical information relating to each of the training voice data and the training non- Obtained from the distribution of the feature parameter values including the candidate parameters
How to classify sound data.
제 1 항 내지 제 7 항 및 제 15 항 중 어느 한 항에 기재된 방법에 따른 각각의 단계를 수행하는, 컴퓨터 판독 가능 기록매체에 저장된 프로그램. 15. A program stored on a computer-readable medium for performing the respective steps according to the method of any one of claims 1 to 7. 제 1 항 내지 제 7 항 및 제 15 항 중 어느 한 항에 기재된 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.17. A computer-readable medium having stored thereon instructions for performing the respective steps according to the method of any one of claims 1 to 7.
KR1020170104407A 2017-08-17 2017-08-17 Apparatus and method for categorizing sound data KR101957993B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170104407A KR101957993B1 (en) 2017-08-17 2017-08-17 Apparatus and method for categorizing sound data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170104407A KR101957993B1 (en) 2017-08-17 2017-08-17 Apparatus and method for categorizing sound data

Publications (2)

Publication Number Publication Date
KR20190019464A KR20190019464A (en) 2019-02-27
KR101957993B1 true KR101957993B1 (en) 2019-03-14

Family

ID=65560783

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170104407A KR101957993B1 (en) 2017-08-17 2017-08-17 Apparatus and method for categorizing sound data

Country Status (1)

Country Link
KR (1) KR101957993B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114413A (en) * 2005-10-19 2007-05-10 Toshiba Corp Voice/non-voice discriminating apparatus, voice period detecting apparatus, voice/non-voice discrimination method, voice period detection method, voice/non-voice discrimination program and voice period detection program
KR100772199B1 (en) * 2006-09-29 2007-11-01 한국전자통신연구원 Speech noise removal apparatus and method to guarantee quality for voip service, and voip terminal using the same

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101068666B1 (en) 2010-09-20 2011-09-28 한국과학기술원 Method and apparatus for noise cancellation based on adaptive noise removal degree in noise environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114413A (en) * 2005-10-19 2007-05-10 Toshiba Corp Voice/non-voice discriminating apparatus, voice period detecting apparatus, voice/non-voice discrimination method, voice period detection method, voice/non-voice discrimination program and voice period detection program
KR100772199B1 (en) * 2006-09-29 2007-11-01 한국전자통신연구원 Speech noise removal apparatus and method to guarantee quality for voip service, and voip terminal using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Vladimir Malenovsky et al., ‘Two-stage speech/music classifier with decision smoothing and sharpening in the EVS cidec’, ICASSP2015, pp.5718~5722, 2015.*

Also Published As

Publication number Publication date
KR20190019464A (en) 2019-02-27

Similar Documents

Publication Publication Date Title
KR102513089B1 (en) A method and an apparatus for deep learning networks training using soft-labelling
US11670325B2 (en) Voice activity detection using a soft decision mechanism
CN105261357B (en) Sound end detecting method based on statistical model and device
CN108417201B (en) Single-channel multi-speaker identity recognition method and system
Eyben et al. Affect recognition in real-life acoustic conditions-a new perspective on feature selection
US20100161334A1 (en) Utterance verification method and apparatus for isolated word n-best recognition result
JP6798614B2 (en) Image recognition device, image recognition method and image recognition program
JP5061382B2 (en) Time-series data identification device and person meta information addition device for moving images
JP2015176175A (en) Information processing apparatus, information processing method and program
US20160365088A1 (en) Voice command response accuracy
US11527259B2 (en) Learning device, voice activity detector, and method for detecting voice activity
US20170294185A1 (en) Segmentation using prior distributions
US20070225972A1 (en) Speech signal classification system and method
CN105895089A (en) Speech recognition method and device
US20210264939A1 (en) Attribute identifying device, attribute identifying method, and program storage medium
CN114219306A (en) Method, apparatus, medium, and program product for creating a weld quality detection model
KR102314824B1 (en) Acoustic event detection method based on deep learning
WO2019095587A1 (en) Face recognition method, application server, and computer-readable storage medium
KR101140896B1 (en) Method and apparatus for speech segmentation
US10910000B2 (en) Method and device for audio recognition using a voting matrix
US9053751B2 (en) Sound and image segment sorting device and method
CN106611021B (en) Data processing method and equipment
US20160247081A1 (en) Worst-case execution time statistical tool
CN107610720B (en) Pronunciation deviation detection method and device, storage medium and equipment
WO2012105386A1 (en) Sound segment detection device, sound segment detection method, and sound segment detection program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right