KR102164306B1 - 디제이변환에 기초한 기본주파수 추출 방법 - Google Patents

디제이변환에 기초한 기본주파수 추출 방법 Download PDF

Info

Publication number
KR102164306B1
KR102164306B1 KR1020190179048A KR20190179048A KR102164306B1 KR 102164306 B1 KR102164306 B1 KR 102164306B1 KR 1020190179048 A KR1020190179048 A KR 1020190179048A KR 20190179048 A KR20190179048 A KR 20190179048A KR 102164306 B1 KR102164306 B1 KR 102164306B1
Authority
KR
South Korea
Prior art keywords
fundamental frequency
amplitude
frequency
pure tone
black
Prior art date
Application number
KR1020190179048A
Other languages
English (en)
Inventor
김동진
신주용
Original Assignee
브레인소프트주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 브레인소프트주식회사 filed Critical 브레인소프트주식회사
Priority to KR1020190179048A priority Critical patent/KR102164306B1/ko
Application granted granted Critical
Publication of KR102164306B1 publication Critical patent/KR102164306B1/ko
Priority to PCT/KR2020/015910 priority patent/WO2021137419A1/ko
Priority to US17/288,459 priority patent/US11574646B2/en
Priority to US18/089,814 priority patent/US20230215456A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

본 발명의 실시예에 따른 입력 소리의 기본주파수를 추출하는 방법은, 입력 소리에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링하여 추정 순음 진폭을 산출하는 디제이변환을 수행함으로써, 상기 복수의 용수철 각각의 고유주파수에 해당하는 주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계; 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계; 및 각 시점별 상기 고유주파수에 따른 상기 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계를 포함한다.

Description

디제이변환에 기초한 기본주파수 추출 방법{Fundamental Frequency Extraction Method Based on DJ Transform}
본 발명은 기본주파수 추출 방법에 관한 것으로, 특히 시간 해상도와 주파수 해상도를 동시에 높일 수 있는 디제이변환에 기초한 기본주파수 추출 방법에 관한 것이다.
사람의 음성은 여러 개의 주파수로 구성되어 있으며 음성을 구성하는 주파수들 중 가장 낮은 주파수를 기본주파수(f0)라고 한다. 기본주파수를 제외한 다른 주파수들은 기본주파수의 정수배 주파수들이다. 기본주파수와 기본주파수의 정수배 주파수들로 구성된 주파수 모음을 고조파(Harmonic wave)라고 한다.
도 9는 고조파를 설명하기 위한 도면이다.
음성이 고음인지 저음인지 여부는 기본주파수에 의해서 정해진다. 일반적으로 여성이 남성보다 기본주파수가 높고 소아가 여성보다 기본주파수가 높게 나타난다.
기본주파수는 말하는 사람을 판별하는데 사용될 수 있는 가장 유용한 정보 중 하나이다. 예를 들어, 콜센터에서 고객과 상담원이 대화할 때 고객이 말하는 시간 영역과 상담원이 말하는 시간 영역을 분리할 때나 보안 시스템에서 말하는 사람을 검증할 때에 유용하게 사용될 수 있다.
이와 관련하여, 기본주파수를 추출하기 위해 단시간 푸리에 변환이 사용되고 있다. 그러나, 단시간 푸리에 변환은 푸리에 불확정성 원리에 의해서 시간 정밀도와 주파수 정밀도를 동시에 높이는데 한계를 가지고 있다. 즉, 단시간 푸리에 변환에 의할 경우, 짧은 시간 동안의 소리를 주파수 성분으로 변환하면 해상도가 낮은 주파수 성분을 가지게 되고 정확한 주파수를 측정하기 위해서 긴 시간 동안의 소리를 사용하면 측정된 주파수의 발생 시점에 대한 시간 해상도는 낮아진다.
등록특허 제10-2053553호
본 발명의 실시예는 시간 정밀도와 주파수 정밀도를 동시에 높이는 것이 가능한 디제이변환을 이용하여 기본주파수를 추출하는 방법을 제공하고자 한다.
본 발명의 실시예에 따른 디제이변환에 기초한 기본주파수 추출 방법은, 각 단계가 컴퓨터에 의해 수행되는, 입력 소리의 기본주파수를 추출하는 방법으로, 입력 소리에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링하여 추정 순음 진폭을 산출하는 디제이변환을 수행함으로써, 상기 복수의 용수철 각각의 고유주파수에 해당하는 주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계; 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계; 및 각 시점별 상기 고유주파수에 따른 상기 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계를 포함한다.
상기 추정 순음 진폭은 순음 예측 진폭 또는 순음 여과 진폭일 수 있다.
상기 기본주파수 적합도는, 상기 추정 순음 진폭의 이동평균에 비례하거나 상기 추정 순음 진폭의 이동표준변차에 반비례할 수 있다.
상기 기본주파수를 추출하는 단계는, 각 시점별 상기 기본주파수 적합도 중 상위 N개(N은 2 이상의 정수)를 추출하고, 상기 N개에 해당하는 고유주파수에 해당하는 값을 "1"로 설정하고 나머지 값을 "0"으로 설정하는 흑백스펙트로그램 생성 단계; 상기 흑백스펙트로그램의 각 지점을 포함하는 동일한 크기의 영역에 대해 상기 흑백스펙트로그램의 평균을 산출하는 평균흑백스펙트로그램 생성 단계; 및 각 시점별 상기 고유주파수에 따른 상기 평균흑백스펙트로그램의 극댓값을 추출하는 단계를 포함할 수 있다.
상기 기본주파수를 추출하는 단계는, 각 시점별로, 상기 고유주파수에 따른 상기 평균흑백스펙트로그램의 인접하는 극댓값에 해당하는 고유주파수의 차이 및 상기 평균흑백스펙트로그램의 극댓값에 해당하는 고유주파수 중 가장 낮은 주파수에 기초하여 후보기본주파수를 추출하는 단계; 를 더 포함할 수 있다.
상기 기본주파수를 추출하는 단계는, 복수의 시점에 대한 상기 후보기본주파수 중에서, 인접하는 시점의 상기 후보기본주파수의 차의 이동분산이 가장 작은 시점의 후보기본주파수를, 상기 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계; 및 소정 시간 구간에 대해 설정된 흑백스펙트로그램기반 기본주파수의 시간 평균의 양의 정수(k)배를 포함하는 제1 영역을 설정하고, 상기 소정 시간 구간에 인접하는 시점의 평균흑백스펙트로그램의 상기 제1 영역에 속하는 주파수 중 상기 평균흑백스펙트로그램이 가장 큰 주파수를, 상기 제1 영역에 속하는 주파수 중 상기 평균흑백스펙트로그램이 가장 큰 주파수가 속하는 상기 제1 영역에 해당하는 양의 정수(k)로 나눈 값을, 상기 소정 시간 구간에 인접하는 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계를 더 포함할 수 있다.
상기 기본주파수를 추출하는 단계는, 어느 시점에서 흑백스펙트로그램기반 기본주파수의 양의 정수(l)배를 포함하는 제2 영역을 설정하고, 상기 제2 영역의 주파수 중 상기 기본주파수 적합도가 가장 큰 주파수를, 상기 기본주파수 적합도가 가장 큰 주파수가 속하는 상기 제2 영역에 해당하는 양의 정수(l)로 나눈 값을 상기 어느 시점의 최종 기본주파수로 설정하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따른 컴퓨터로 판독 가능한 기록 매체는 상기 디제이변환에 기초한 기본주파수 추출 방법의 각 단계가 기록될 수 있다.
본 발명의 실시예에 따른 기본주파수 추출 방법은, 각 단계가 컴퓨터에 의해 수행되는, 입력 소리의 기본주파수를 추출하는 방법으로, 상기 방법에 의해 입력 소리를 처리한 결과의 스펙트로그램에서, 가장 낮은 주파수의 스펙트로그램의 분산은, 다른 주파수의 스펙트로그램의 분산에 비해 작을 수 있다.
본 발명의 실시예에 따른 기본 주파수 추출 방법은, 각 단계가 컴퓨터에 의해 수행되는, 입력 소리의 기본주파수를 추출하는 방법으로, 상기 방법에 의해 입력 소리를 처리한 결과의 주파수 해상도가 5Hz 이하일 수 있다.
본 발명의 실시예에 의하면 측정 정밀도가 높은 기본주파수 추출 방법이 제공된다.
도 1은 본 발명의 실시예에 따른 기본주파수 추출 방법을 나타내는 순서도이다.
도 2는 도 1의 기본주파수 추출 단계의 일 예를 나타내는 순서도이다.
도 3~도 8은 본 발명의 실험예를 나타내는 도면이다.
도 9는 고조파를 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.
이하, 도면을 참조하여 본 발명의 실시예에 대하여 구체적으로 설명한다.
도 1은 본 발명의 실시예에 따른 기본주파수 추출 방법을 나타내는 순서도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 기본주파수 추출 방법은, 입력 소리에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링하여 추정 순음 진폭을 산출하는 디제이변환을 수행함으로써, 상기 복수의 용수철 각각의 고유주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계(S100); 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 안정상태 예상진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계(S200); 및 각 시점별 상기 고유주파수에 따른 상기 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계(S300)를 포함한다.
디제이변환 스펙트로그램의 생성과 관련하여, 먼저 디제이변환에 대해 설명한다. 하나의 주파수(각속도)를 갖는 소리가 입력된 경우의 디제이변환에 대해 먼저 설명하고, 이를 기초로 여러 주파수(각속도)를 갖는 소리가 입력된 경우의 디제이변환에 대해 설명한다.
디제이변환은 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링한 것으로, 용수철의 진동 운동을 통해 귀의 달팽이관에 있는 유모세포의 운동을 모사함으로써 실제 소리의 특성을 잘 나타내도록 하기 위함이다. 주파수는 진동수나 각속도로 쉽게 변환 가능하기 때문에, 본 명세서에서는 이들을 혼용하여 사용한다.
복수의 용수철은 상이한 고유주파수를 갖는 것으로 설정된다. 복수의 용수철의 고유주파수는 소리에 해당하는 주파수 범위, 예를 들어 가청 주파수 대역인 20Hz~20kHz에서 소정 주파수 간격, 예를 들어 1Hz, 2Hz 또는 10Hz 등의 간격을 가질 수 있다.
용수철 상수 ki 용수철 si 의 한쪽 끝에 고정되어 있는 질량 M인 물체의 평행 위치에 대한 변위 xi(t)의 외부 힘 F(t)에 대한 운동 방정식은 다음과 같다.
Figure 112019135994487-pat00001
(식1)
여기서 ωoi는 고유 공명 각속도로
Figure 112019135994487-pat00002
이고, 감쇠율을 ζ라 할 때 Γi는 단위 질량 당 감쇠상수로
Figure 112019135994487-pat00003
이다. 모델에서는 M=1, ζ=0.001을 사용하였는데, 성능 개선을 위해 향후 바뀔 수 있는 값들이다.
먼저, 각속도가 ωext 이고 일정한 진폭의 Fext 의 외부 소리
Figure 112019135994487-pat00004
가 입력된다고 가정하자. 이때, 초기 조건이 정지 상태인 용수철의 운동 방정식의 해 xi(t)는 다음과 같이 표현된다.
Figure 112019135994487-pat00005
(식2)
여기서
Figure 112019135994487-pat00006
인데, 모델에서 ζ는 예를 들어 0.001정도의 매우 작은 값을 사용하면
Figure 112019135994487-pat00007
이 된다. 그리고
Figure 112019135994487-pat00008
Figure 112019135994487-pat00009
은 다음과 같다.
Figure 112019135994487-pat00010
(식3)
Figure 112019135994487-pat00011
(식4)
외부 힘의 각속도 ωext 와 용수철의 고유주파수의 각속도 ω0i 가 일치할 때의
Figure 112019135994487-pat00012
Figure 112019135994487-pat00013
는 다음과 같이 된다.
Figure 112019135994487-pat00014
(식5)
Figure 112019135994487-pat00015
(식6)
외부 소리의 각속도 ωext 가 있을 때 디제이변환에 사용되는 용수철의 고유주파수의 각속도 ω0i
Figure 112019135994487-pat00016
인 조건을 만족하는 용수철을 공명 조건의 용수철이라 한다. 이때,
Figure 112019135994487-pat00017
이라고 할 수 있으므로, 용수철의 변위 xi(t)는 다음과 같이 표현된다.
Figure 112019135994487-pat00018
(식7)
식7에서
Figure 112019135994487-pat00019
일 때의 값
Figure 112019135994487-pat00020
은 식5의
Figure 112019135994487-pat00021
일 때의 값
Figure 112019135994487-pat00022
과 거의 같으므로, 식 전개에서 같은 값으로 사용한다.
τn
Figure 112019135994487-pat00023
라 정의하자. 식7을 t=τn 인 시점, 즉, 1주기에서 변위 xi(t)가 최대인 시점에서 관찰하면, xi(t=τn) 의 값은 다음과 같이 간단하게 표현된다.
Figure 112019135994487-pat00024
(식8)
식8에 의하면, 시간이 충분히 흐른 후(n→∞), 안정화된 상태의 변위 xi(t=τn) 는
Figure 112019135994487-pat00025
의 값에 수렴하게 된다.
외부 소리의 입력이 들어오기 시작한 후, 시간이 충분히 지나 수렴하기 전의 시점에서, 시간이 충분히 지난 후의 안정화된 상태의 변위 xi(t)의 수렴값
Figure 112019135994487-pat00026
을 구할 수 있다. 과정은 다음과 같다.
먼저, 식8을 다음과 같이 변형한다.
Figure 112019135994487-pat00027
(식9)
식9에서 n의 값을 n+1로 바꾸면 식은 다음과 같이 바뀐다.
Figure 112019135994487-pat00028
(식10)
식9를 식10으로 변끼리 각각 나누어 정리하면 다음과 같은 식을 구할 수 있다.
Figure 112019135994487-pat00029
(식11)
Figure 112019135994487-pat00030
일 때, 식 11은 xi(t=τn)과 xi(t=τn+1)의 값을 알면, 시간이 충분히 지난 후의 안정화된 상태의 변위 xi(t)의 수렴값, 즉 안정상태 예상 진폭
Figure 112019135994487-pat00031
을 추정할 수 있다는 것을 보여준다. 그리고 그 시점에 구한 추정값
Figure 112019135994487-pat00032
과 식5를 이용하여 그 시점의 외부 소리의 세기 Fext(t)의 크기를 다음과 같이 구할 수 있다.
Figure 112019135994487-pat00033
(식12)
본 명세서에서 안정화된 상태의 변위 xi(t)의 수렴값
Figure 112019135994487-pat00034
에 기초하여 산출된 외부 소리의 세기 Fext(t)를 순음 예측 진폭이라 한다.
안정상태 예상 진폭을 나타내는 식 11은 공명 조건의 용수철의 움직임을 기술하는 식7로부터 유도된 수식이다. 따라서, 공명 여부를 판단하기 전에 각각의 용수철에 대해서 상태 변이 xi(t)를 이용하여 식 12를 계산하면 공명 조건을 만족하지 않는 용수철의 고유주파수에 해당하는 순음 예측 진폭도 큰 값이 될 수 있다. 이에 따라 다음의 단계를 수행할 수 있다.
각 시점에 용수철의 변위가 안정화된 상태의 변위라고 가정하면, 이 시점의 용수철 진폭
Figure 112019135994487-pat00035
은 각 용수철의 고유 1주기 동안의 변위 xi(t)의 최댓값으로 정할 수 있다. 식12를 참고하여, 전이상태 순음 진폭
Figure 112019135994487-pat00036
을 계산한다.
상기와 같이 구한 전이상태 순음 진폭 Fi,t(t)와 순음 예측 진폭 Fext(t)을 곱한 값을 순음 여과 진폭
Figure 112019135994487-pat00037
라 하자. 순음 여과 진폭은, 외부 소리와 공명하는 용수철과 공명하지 않는 용수철을 비교했을 때 그 값의 차이가 크고, 외부 소리가 사라지면 빠르게 0으로 수렴한다는 특성을 가지고 있다.
본 명세서에서 추정 순음 진폭은 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 모델링한, 디제이변환 결과를 나타내는 것으로, 순음 예측 진폭, 순음 여과 진폭 및 안정상태 예상 진폭 중 어느 것이라도 될 수 있으며, 바람직하게는 순음 예측 진폭 또는 순음 여과 진폭일 수 있다.
다음으로, 주파수가 기본주파수 f0의 양의 정수배인 n개의 성분으로 이루어진 고조파 입력이 주어진다고 가정하자. 이때, 고조파의 각속도들의 집합 W는 다음과 같다.
Figure 112019135994487-pat00038
(식13)
집합 W의 원소를 작은 것부터 차례로 순서를 정한 후 다음과 같이 나타내자.
Figure 112019135994487-pat00039
(식14)
이러한 고조파는
Figure 112019135994487-pat00040
로 나타낼 수 있다.
고조파 F(t)가 입력으로 주어지면 용수철의 변위 xi(t)는 주파수 집합 W를 구성하는 각 각속도에 대한 용수철 변위 각각의 합으로 아래와 같이 표현할 수 있다.
Figure 112019135994487-pat00041
Figure 112019135994487-pat00042
(식15)
여기서
Figure 112019135994487-pat00043
Figure 112019135994487-pat00044
은 다음과 같다.
Figure 112019135994487-pat00045
(식16)
Figure 112019135994487-pat00046
(식17)
용수철의 고유진동수의 각속도의 크기 ω0i를 증가(또는 감소)하는 방향으로 xi(t)를 관찰하면 고조파에 포함되어있는 각속도의 집합 W의 원소 각각과 공명 조건이 되는 용수철들을 찾을 수 있다. 임의의 짧은 시간의 구간에서 관찰할 때, 식15, 식16, 식17에 의해 공명 조건의 용수철의 변위 xi(t)의 최댓값은, 용수철의 고유 각속도 기준으로 바로 인접해있는 공명 조건이 되지 않는 용수철의 변위 xi(t)의 최댓값보다 크다. 따라서, 용수철의 변위 xi(t)의 용수철의 각 고유진동수별 최댓값들을 식11, 식12를 이용하여 디제이 변환 결과의 스펙트로그램을 만들면, 특정 시점에서 극댓값이 관찰되는 지점의 각속도 값은 고조파의 각속도 집합 W의 원소와 일대일로 대응하게 된다.
즉, 용수철의 진동 운동을 모델링함으로써 식15~식17에 의해 표현되는 용수철의 변위 xi(t)를 알 수 있으며, 이러한 용수철의 변위 xi(t)에 식11 및 식12를 적용함으로써 여러 주파수를 갖는 소리가 입력된 경우의 추정 순음 진폭을 계산할 수 있다. 이에 따라, 시간축 및, 용수철의 공명주파수에 해당하는 주파수의 축의 공간에 추정 순음 진폭을 표시함으로써 추정 순음 진폭 기반의 디제이변환 스펙트로그램을 생성할 수 있다.
이와 관련하여, 스펙트로그램의 하나의 극댓값에 대응하는 변위 xi(t)는 고조파에 포함되어 있는 각속도의 소리 중 공명 조건인 것의 영향을 크게 받지만, 공명 조건이 아닌 각속도의 소리의 영향도 받는 것을 식15, 식16, 식17에서 알 수 있다. 고조파가 주어졌을 때 고유진동 각속도 ω0i가 ωext,m와 공명 조건, 즉(
Figure 112019135994487-pat00047
)인 용수철 si의 변위 xi(t)에
Figure 112019135994487-pat00048
으로 공명 조건이 아닌 각속도 ωext,n의 소리 입력으로 변위 xi(t)의 진폭이 바뀌는 비율은 다음 식에서 추정할 수 있다.
Figure 112019135994487-pat00049
(식18)
식16, 식17를 관찰하면 공명 조건 근처에서는
Figure 112019135994487-pat00050
이고 공명 조건에서 많이 벗어난 곳에서는
Figure 112019135994487-pat00051
이다. 식18은 그 값 중 큰 값들만 선택하여 비교한 결과이다. Fext,n 와 Fext,m 의 값이 크게 차이나지 않으면 ζ=0.001일 때
Figure 112019135994487-pat00052
항의 영향이
Figure 112019135994487-pat00053
보다 훨씬 우세하다는 것을 식18에서 알 수 있다. 공명 조건에 의해 생기는 극댓값의 위치가 바뀔 정도로 고조파의 공명 조건이 아닌 주파수의 영향이 크지는 않다. 따라서 고조파에 포함되어 있는 주파수 위치에서 디제이 변환 스펙트로그램에서 극댓값을 관찰할 수 있다.
이번에는 고조파를 구성하는 주파수와 각각 공명 조건이 되는 변위 xi(t)의 최댓값의 관계를 살펴본다. 디제이 변환에서 고유주파수 f0 와 공명 조건인 용수철의 변위 xi(t)의 최댓값은 1/f0 의 주기마다 계산된다. 변위 xi(t)의 최댓값에 고조파에 포함되어 있는 기본주파수가 아닌 fi의 영향이 반영되지만, 이 주파수들의 주기 1/fi 는 1/f0 의 약수가 되어, 1/f0 의 주기로 계산할 때 xi(t)의 최댓값에 주기적인 성질로 반영된다. 디제이 변환에서 기본주파수가 아닌 fi와 공명 조건인 용수철의 변위 xi(t)의 최댓값도 1/fi 의 주기마다 계산된다. f0 의 영향을 받는 부분의 주기는 1/f0 (1/f0 > 1/fi) 이므로 1/fi 의 주기로 계산하면, 변위 xi(t)의 최댓값은 주기적인 성질로 반영될 수 없다.
따라서 f0 와 관련되는 xi(t)의 최댓값은 주기성이 파괴되지 않아 그 값의 진동폭이 작고, fi 와 관련되는 xi(t)의 최댓값은 주기성이 파괴되어 그 값의 진동폭이 크게 나타난다. 식11, 식12를 거쳐 xi(t)의 최댓값을 이용하여 계산되는 추정 순ㄴ음 진폭 기반 스펙트로그램의 진폭값은 xi(t)의 최댓값의 특성이 그대로 반영된다. 따라서 스펙트로그램의 진폭값의 표준편차를 계산하면, f0 와 관련된 부분에서는 값이 작고, fi 와 관련된 부분에서는 값이 크다.
정리하면 고조파가 주어졌을 때 고조파의 기본주파수와 공명하는 용수철은 1) 자신의 기본주파수의 스펙트로그램의 진폭을 측정했을 때 시간에 따르는 진폭의 분산이 작고 2) 진폭의 최댓값이 크다는 것을 알 수 있다.
이러한 특성에 기초하여, 디제이변환 스펙트로그램의 각각의 고유주파수에 대한, 추정 순음 진폭의 이동평균 또는 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산한다(S200).
예를 들어, 기본주파수 적합도는 디제이변환 스펙트로그램 S(t, f)의 이동평균 M(t, f)에 비례하거나 이동표준편차 σ(t, f)에 반비례할 수 있다.
Figure 112019135994487-pat00054
(식19)
Figure 112019135994487-pat00055
(식20)
Figure 112019135994487-pat00056
(식21)
Figure 112019135994487-pat00057
(식22)
여기서 N은 정수이고 ε은 0보다 큰, 매우 작은 값이다. 예를 들어, 시점 t에 ε은
Figure 112019135994487-pat00058
로 할 수 있다.
스펙트로그램에서 진폭이 작은 값의 영향력을 감소시키기 위하여
Figure 112019135994487-pat00059
이면
Figure 112019135994487-pat00060
이 되도록 한다. 여기서 β는 작은 값으로 β=10-12 를 사용할 수 있다.
실시예에 따라서, (식19) 대신에
Figure 112019135994487-pat00061
또는
Figure 112019135994487-pat00062
를 사용할 수도 있다.
다음으로, 각 시점별 고유주파수에 따른 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출한다(S300).
실시예에 따라, 기본주파수는, 각 시점별 고유주파수에 따른 기본주파수 적합도의 극댓값에 해당하는 주파수 중 가장 낮은 주파수로 추출될 수 있다.
도 2는 도 1의 기본주파수 추출 단계(S300)의 일 예를 나타내는 순서도이다.
도 2를 참조하면 기본주파수 추출 단계(S300)는 노이즈의 영향을 배제하여 정확도를 향상시키기 위해, 흑백스펙트로그램 생성 단계(S310), 평균흑백스펙트로그램 생성 단계(S320), 평균흑백스펙트로그램의 극댓값 추출 단계(S330), 후보기본주파수 추출 단계(S340), 흑백스펙트로그램기반 기본주파수로 설정 단계(S350) 및 최종 기본주파수로 설정하는 단계(S360)를 포함할 수 있다.
기본주파수 추출 단계(S300)는 S310~S360의 단계를 전부 포함할 필요는 없으며, 실시예에 따라 일부만을 포함할 수 있다.
실시예에 따라, 기본주파수 추출 단계(S300)는 각 시점별 상기 기본주파수 적합도 중 상위 N개(N은 2 이상의 정수)를 추출하고, 상기 N개에 해당하는 고유주파수에 해당하는 값을 "1"로 설정하고 나머지 값을 "0"으로 설정하는 흑백스펙트로그램 생성 단계(S310); 상기 흑백스펙트로그램의 각 지점을 포함하는 동일한 크기의 영역에 대해 상기 흑백스펙트로그램의 평균을 산출하는 평균흑백스펙트로그램 생성 단계(S320); 및 각 시점별 상기 고유주파수에 따른 상기 평균흑백스펙트로그램의 극댓값을 추출하는 단계(S330)를 포함할 수 있다.
흑백스펙트로그램 생성 단계(S310)는, 디제이변환 스펙트로그램을 구성하는 시점
Figure 112019135994487-pat00063
의 기본주파수 적합도 R(t,f) 중에서 상위 N개를 추출한다. 상위 N개에 들어가는지 여부를 기준으로 값이 0과 1이 되는 흑백스펙트로그램을 구성한다. 만약 R(t,f) 가 시점 t에서 상위 N개에 들어가면 BW(t,f)=1 그렇지 않으면 BW(t,f)=0 이 되도록 한다.
평균흑백스펙트로그램 생성 단계(S320)는, 흑백스펙트로그램 BW(t,f) 을 구성하는 각 지점마다 자신을 기준으로 아래 식과 같이 사각형 영역에서 평균을 구한다. 이렇게 구성된 결과를 평균흑백스펙트로그램
Figure 112019135994487-pat00064
라고 하자.
Figure 112019135994487-pat00065
(식23)
평균흑백스펙트로그램의 극댓값을 추출하는 단계(S330)는, 평균흑백스펙트로그램에서 각 시점 t마다 고유주파수의 변화에 따른 극댓값들 중 주어진 임계값
Figure 112019135994487-pat00066
보다 큰 극댓값들을 추출한다. 여기서 임계값
Figure 112019135994487-pat00067
는 각 시점 t마다 구한
Figure 112019135994487-pat00068
의 극댓값의 최댓값인
Figure 112019135994487-pat00069
에 일정비율 γ (0≤γ≤1.0)을 곱한 값으로 정한다. 예를 들어 γ는 0.2로 설정될 수 있다.
즉 추출된 극댓값들은 아래 조건들을 동시에 만족한다.
Figure 112019135994487-pat00070
, (식24)
Figure 112019135994487-pat00071
, (식25)
Figure 112019135994487-pat00072
, (0≤γ≤1.0) (식26)
기본주파수 추출 단계(S300)는, 각 시점별로, 고유주파수에 따른 평균흑백스펙트로그램의 인접하는 극댓값에 해당하는 고유주파수의 차이 및 평균흑백스펙트로그램의 극댓값에 해당하는 고유주파수 중 가장 낮은 주파수에 기초하여 후보기본주파수를 추출하는 단계(S340)를 더 포함할 수 있다.
시점 t에서 평균흑백스펙트로그램으로부터 추출된 극댓값들을 주파수 오름차순으로 정렬한 결과에서 k번째 극댓값에 해당하는 주파수를
Figure 112019135994487-pat00073
이라 하자. 인접한 주파수들의 간격
Figure 112019135994487-pat00074
을 아래와 같이 계산한다.
Figure 112019135994487-pat00075
(식27)
Figure 112019135994487-pat00076
Figure 112019135994487-pat00077
보다 큰 값들을 고르고 그 중 제일 작은 값과
Figure 112019135994487-pat00078
를 비교해서 작은 값을 시점 t에서의 후보 기본 주파수
Figure 112019135994487-pat00079
로 결정한다. 여기서는 음성이나 악기의 음에 존재하는 고조파의 인접한 주파수들의 차이값들 중에서 최솟값이 기본주파수일 가능성이 크다는 사실을 이용하였다.
잡음이 없는 고조파를 구성하는 모든 주파수의 진폭이 동일하다면 각각의 k에 대해서
Figure 112019135994487-pat00080
가 된다.
기본주파수 추출 단계(S300)는, 흑백스펙트로그램기반 기본주파수 설정 단계(S350)를 포함할 수 있으며, 흑백스펙트로그램기반 기본주파수 설정 단계는, 복수의 시점에 대한 상기 후보기본주파수 중에서, 인접하는 시점의 상기 후보기본주파수의 차의 이동분산이 가장 작은 시점의 후보기본주파수를, 상기 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계; 및 소정 시간 구간에 대해 설정된 흑백스펙트로그램기반 기본주파수의 시간 평균의 양의 정수배를 포함하는 제1 영역을 설정하고, 상기 소정 시간 구간에 인접하는 시점의 평균흑백스펙트로그램 중 상기 제1 영역에 속하는 가장 큰 주파수를, 상기 제1 영역에 속하는 가장 큰 주파수가 속하는 상기 제1 영역에 해당하는 양의 정수로 나눈 값을, 상기 소정 시간 구간에 인접하는 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계를 포함할 수 있다.
각 시점 t에 대해서 후보기본주파수
Figure 112019135994487-pat00081
를 찾았다고 가정하자. 각 시점 t에 대해 흑백스펙트로그램기반 기본주파수 BF0(t)를 찾기 위해 첫번째로 특정 시점 t0 에서의 흑백스펙트로그램기반 기본주파수 BF0(t)를 계산한다. 두 번째로 시점 t0로부터 시간을 증가시키면서 흑백스펙트로그램기반 기본주파수를 계산한다. 세번째로 시점 t0 로부터 시간을 감소시키면서 흑백스펙트로그램기반 기본주파수를 계산한다.
먼저 흑백스펙트로그램기반 기본주파수를 계산하는 시점 t0 은 시간에 따른 흑백스펙트로그램기반 후보기본주파수의 시간에 따른 변화의 분산이 제일 작은 시점으로 정한다. 각 시점 t의 흑백스펙트로그램기반 후보 기본주파수의 변화의 분산 V(t)는 아래 식으로 계산한다.
Figure 112019135994487-pat00082
(식28)
Figure 112019135994487-pat00083
(식29)
Figure 112019135994487-pat00084
(식30)
V(t)가 가장 작을 때의 시점 t0
Figure 112019135994487-pat00085
이고 시점 t0의 기본주파수 BF0(t0)는 아래와 같이 후보 기본주파수와 동일한 값으로 확정한다.
Figure 112019135994487-pat00086
(식31)
두 번째 단계로 시점 t0로부터 시간을 증가시키면서 흑백스펙트로그램기반 기본주파수를 계산한다. 시점 t0부터 시점 tk까지 흑백 스펙트로그램 기반 기본주파수가 구해졌다고 가정하자. 직전까지 구해진 흑백 스펙트로그램 기반 기본주파수들의 n개 평균 주파수 근처와 이 평균 주파수의 양의 정수배 주파수의 근처의 고유주파수 집합을 H(tk+1)이라 하자.
Figure 112019135994487-pat00087
(식32)
여기서,
Figure 112019135994487-pat00088
(식33)
이며, 예를 들어 Δf=20Hz, imax=5 로 설정될 수 있다.
집합 H(tk+1)에 속하는 고유주파수 중 평균흑백스펙트로그램의 값이 제일 큰 주파수가 fmax 이고 fmax 는 주파수 영역
Figure 112019135994487-pat00089
에 속하다고 가정하자. 그러면 시점 tk+1 에서의 흑백스펙트로그램기반 기본주파수 BF0(tk+1)는 아래 식으로 구한다.
Figure 112019135994487-pat00090
(식34)
tk+1 이 주어진 스펙트로그램의 마지막 시간이 될 때까지 k를 1씩 증가시키면서 위의 두 번째 단계를 반복 수행한다.
세 번째 단계에서는 시점 t0 에서 시간을 감소시키면서 두 번째 단계와 유사한 과정을 진행하여 t=0 이 될 때까지 각 시점의 흑백 스펙트로그램 기반 기본주파수를 구한다.
다음으로, 기본주파수를 추출하는 단계(S300)는, 어느 시점에서 흑백스펙트로그램기반 기본주파수의 양의 정수배를 포함하는 제2 영역을 설정하고, 상기 제2 영역의 주파수 중 상기 기본주파수 적합도가 가장 큰 주파수를, 상기 기본주파수 적합도가 가장 큰 주파수가 속하는 상기 제2 영역에 해당하는 양의 정수로 나눈 값을 상기 어느 시점의 최종 기본주파수로 설정하는 단계(S360)를 더 포함할 수 있다.
각 시점 t의 흑백스펙트로그램기반 기본주파수 BF0(t) 와 전술한 기본주파수 적합도 R(t, f) 를 이용하여 최종 기본주파수 f0(t) 를 추출하고자 한다.
시점 t에서 흑백스펙트로그램기반 기본주파수 BF0(t) 와 BF0(t) 의 양의 정수배 주파수 근처의 주파수 집합을
Figure 112019135994487-pat00091
라 하자.
Figure 112019135994487-pat00092
(식35)
여기서 Δf=20Hz, imax=5 로 설정될 수 있다.
시점 t에서 집합
Figure 112019135994487-pat00093
에 속하는 주파수 중 기본주파수 적합도 R(t, f)가 제일 큰 주파수가 fmax 이고 fmax 는 주파수 영역
Figure 112019135994487-pat00094
에 속하다고 가정하자. 그러면 시점 t에서의 최종 기본주파수 f0(t) 는 아래 식으로 구한다.
Figure 112019135994487-pat00095
(식36)
도 3은 시간에 따라 변화하는 고조파의 소리가 입력된 경우 본 발명의 실험예를 나타내는 도면이다.
도 3의 (a)는 소리 입력을 나타내고, 도 3의 (b)는 도 3의 (a)의 소리 입력을 이용하여 생성된 디제이변환 스펙트로그램을 나타내고, 도 3의 (c)는 도 3의 (b)의 디제이변환 스펙트로그램에서 기본주파수 적합도를 산출한 후, 산출된 기본주파수 적합도를 이용하여 생성된 흑백스펙트로그램을 나타내고, 도 3의 (d)는 도 3의 (c)의 흑백스펙트로그램을 이용하여 평균흑백스펙트로그램을 생성한 후, 평균흑백스펙트로그램의 주파수 방향으로의 극댓값과 그 위치의 주파수값들을 이용하여 선정된 후보기본주파수를 나타내고, 도 3의 (e)는 도 3의 (d)의 후보기본주파수를 이용하여 생성된 흑백스펙트로그램기반 기본주파수를 나타내며, 도 3의 (f)는 도 3의 (e)의 흑백스펙트로그램기반 기본주파수 및 기본주파수 적합도를 이용하여 산출된 최종 기본주파수를 나타내며, 도 3의 (g)는 도 3의 (b)의 일부 확대도이다.
도 3의 (a)~(g)에 도시된 바와 같이, 최종 기본주파수는 소리 입력의 기본 주파수에 해당하는 값과 대략 일치하는 것을 알 수 있다.
도 4는 사람의 음성이 입력된 경우 본 발명의 실험예를 나타내는 도면이다.
도 4의 (a)는 소리 입력을 나타내고, 도 4의 (b)는 도 4의 (a)의 소리 입력을 이용하여 생성된 디제이변환 스펙트로그램을 나타내고, 도 4의 (c)는 도 4의 (b)의 디제이변환 스펙트로그램에서 기본주파수 적합도를 산출한 후, 산출된 기본주파수 적합도를 이용하여 생성된 흑백스펙트로그램을 나타내고, 도 4의 (d)는 도 4의 (c)의 흑백스펙트로그램을 이용하여 평균흑백스펙트로그램을 생성한 후, 평균흑백스펙트로그램의 주파수 방향으로의 극댓값과 그 위치의 주파수값들을 이용하여 선정된 후보기본주파수를 나타내고, 도 4의 (e)는 도 4의 (d)의 후보기본주파수를 이용하여 생성된 흑백스펙트로그램기반 기본주파수를 나타내며, 도 4의 (f)는 도 4의 (e)의 흑백스펙트로그램기반 기본주파수 및 기본주파수 적합도를 이용하여 산출된 최종 기본주파수를 나타내며, 도 4의 (g)는 도 4의 (b)의 일부 확대도이다.
도 4의 (a)~(g)에 도시된 바와 같이, 최종 기본주파수는 소리 입력의 기본 주파수에 해당하는 값과 대략 일치하는 것을 알 수 있다.
도 5는 일정한 고조파 소리가 입력된 경우 최종 기본주파수를 나타내는 도면이다. 도 5의 (a)는 기본주파수가 200Hz인 고조파가 입력되는 것을 나타내고, 도 5의 (b)는 본 발명의 실시예에 따른 기본주파수 추출 방법을 통해 얻은 최종 기본주파수를 나타낸다.
도 6은 일정한 고조파 소리가 입력된 경우 최종 기본주파수를 나타내는 도면이다. 도 6의 (a)는 기본주파수가 200Hz이지만 이를 포함하지 않는 고조파가 입력되는 것을 나타내고, 도 6의 (b)는 본 발명의 실시예에 따른 기본주파수 추출 방법을 통해 얻은 최종 기본주파수를 나타낸다.
도 7은 관악기의 음이 입력된 경우 디제이변환 스펙트로그램 및 최종 기본주파수를 나타낸 것이고, 도 8은 사람 음성이 입력된 경우 디제이변환 스펙트로그램 및 최종 기본주파수를 나타낸 것이다.
본 발명의 실시예에 따른 입력 소리의 기본주파수를 추출하는 방법은, 상기 방법에 의해 입력 소리를 처리한 결과의 주파수 측정 정밀도는 5Hz 이내일 수 있다.
본 발명의 실시예에 따른 입력 소리의 기본주파수를 추출하는 방법은, 상기 방법에 의해 입력 소리를 처리한 결과의 스펙트로그램에서, 가장 낮은 주파수의 스펙트로그램의 분산은, 다른 주파수의 스펙트로그램의 분산에 비해 작다.
상기 도 3, 도 4, 도 7 및 도 8에 도시된 바와 같이, 기본주파수에 해당하는 스펙트로그램의 분산은 다른 주파수의 스펙트로그램의 분산에 비해 작게 나타남을 알 수 있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. (a) 입력 소리에 대해, 상이한 고유주파수를 갖는 복수의 용수철의 진동 운동을 각각 모델링하여 상기 고유주파수에 따른 추정 순음 진폭을 산출함으로써, 상기 복수의 용수철 각각의 고유주파수에 해당하는 주파수 및 복수의 시점에 따른 상기 추정 순음 진폭을 나타내는 디제이변환 스펙트로그램을 생성하는 단계;
    (b) 상기 디제이변환 스펙트로그램의 상기 각각의 고유주파수에 대한, 상기 추정 순음 진폭의 이동평균 또는 상기 추정 순음 진폭의 이동표준변차에 기초하여 기본주파수 적합도를 계산하는 단계; 및
    (c) 상기 복수의 시점 각각에서 상기 고유주파수에 따른 상기 기본주파수 적합도의 극댓값에 기초하여 기본주파수를 추출하는 단계
    를 포함하고,
    상기 (a) 단계는,
    (a-1) 상기 복수의 용수철 각각의 고유 1주기 간격의 두 시점의 진폭에 기초하여, 안정 상태에서 상기 복수의 용수철 각각의 진폭의 수렴값인 안정 상태 예상 진폭을 추정하는 단계; 및
    (a-2) 상기 안정 상태 예상 진폭에 기초하여 추정된 입력 소리의 진폭인 순음 예측 진폭에 기초하여 상기 추정 순음 진폭을 산출하는 단계
    를 포함하고, 컴퓨터에 의해 수행되는 기본주파수 추출 방법.
  2. 제1항에 있어서,
    상기 추정 순음 진폭은 상기 순음 예측 진폭인 것을 특징으로 하는 기본주파수 추출 방법.
  3. 제1항에 있어서,
    상기 기본주파수 적합도는, 상기 추정 순음 진폭의 이동평균에 비례하거나 상기 추정 순음 진폭의 이동표준변차에 반비례하는 것을 특징으로 하는 기본주파수 추출 방법.
  4. 제1항에 있어서,
    상기 기본주파수를 추출하는 단계는,
    각 시점별 상기 기본주파수 적합도 중 상위 N개(N은 2 이상의 정수)를 추출하고, 상기 N개에 해당하는 고유주파수에 해당하는 값을 "1"로 설정하고 나머지 값을 "0"으로 설정하는 흑백스펙트로그램 생성 단계;
    상기 흑백스펙트로그램의 각 지점을 포함하는 동일한 크기의 영역에 대해 상기 흑백스펙트로그램의 평균을 산출하는 평균흑백스펙트로그램 생성 단계; 및
    각 시점별 상기 고유주파수에 따른 상기 평균흑백스펙트로그램의 극댓값을 추출하는 단계
    를 포함하는 것을 특징으로 하는 기본주파수 추출 방법.
  5. 제4항에 있어서,
    상기 기본주파수를 추출하는 단계는,
    각 시점별로, 상기 고유주파수에 따른 상기 평균흑백스펙트로그램의 인접하는 극댓값에 해당하는 고유주파수의 차이 및 상기 평균흑백스펙트로그램의 극댓값에 해당하는 고유주파수 중 가장 낮은 주파수에 기초하여 후보기본주파수를 추출하는 단계;
    를 더 포함하는 것을 특징으로 하는 기본주파수 추출 방법.
  6. 제5항에 있어서,
    상기 기본주파수를 추출하는 단계는,
    복수의 시점에 대한 상기 후보기본주파수 중에서, 인접하는 시점의 상기 후보기본주파수의 차의 이동분산이 가장 작은 시점의 후보기본주파수를, 상기 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계; 및
    소정 시간 구간에 대해 설정된 흑백스펙트로그램기반 기본주파수의 시간 평균의 양의 정수(k)배를 포함하는 제1 영역을 설정하고, 상기 소정 시간 구간에 인접하는 시점의 평균흑백스펙트로그램의 상기 제1 영역에 속하는 주파수 중 상기 평균흑백스펙트로그램이 가장 큰 주파수를, 상기 제1 영역에 속하는 주파수 중 상기 평균흑백스펙트로그램이 가장 큰 주파수가 속하는 상기 제1 영역에 해당하는 양의 정수(k)로 나눈 값을, 상기 소정 시간 구간에 인접하는 시점의 흑백스펙트로그램기반 기본주파수로 설정하는 단계
    를 더 포함하는 것을 특징으로 하는 기본주파수 추출 방법.
  7. 제6항에 있어서,
    상기 기본주파수를 추출하는 단계는,
    어느 시점에서 흑백스펙트로그램기반 기본주파수의 양의 정수(l)배를 포함하는 제2 영역을 설정하고, 상기 제2 영역의 주파수 중 상기 기본주파수 적합도가 가장 큰 주파수를, 상기 기본주파수 적합도가 가장 큰 주파수가 속하는 상기 제2 영역에 해당하는 양의 정수(l)로 나눈 값을 상기 어느 시점의 최종 기본주파수로 설정하는 단계
    를 더 포함하는 것을 특징으로 하는 기본주파수 추출 방법.
  8. 삭제
  9. 제1항에 있어서,
    상기 방법에 의해 입력 소리를 처리한 결과의 스펙트로그램에서, 가장 낮은 주파수의 스펙트로그램의 분산은, 다른 주파수의 스펙트로그램의 분산에 비해 작은 것을 특징으로 하는 기본주파수 추출 방법.
  10. 제1항에 있어서,
    상기 안정 상태 예상 진폭은 하기의 식에 의해 산출되는 것을 특징으로 하는 기본주파수 추출 방법.
    Figure 112020074999622-pat00121

    (단,
    Figure 112020074999622-pat00122
    는 용수철 Si의 안정 상태 예상 진폭을 나타내고,
    xi(t=τn)과 xi(t=τn+1)은 용수철 Si의 고유 1 주기 간격을 갖는 두 시점(τn, τn+1)의 진폭을 나타내고,
    Γi는 용수철 Si의 단위 질량당 감쇠 상수를 나타냄)
  11. 제1항에 있어서,
    상기 순음 예측 진폭은 하기의 식에 의해 산출되는 것을 특징으로 하는 기본주파수 추출 방법.
    Figure 112020074999622-pat00123

    (단, Fext(t)는 순음 예측 진폭이고,
    Figure 112020074999622-pat00124
    는 용수철 Si의 안정 상태 예상 진폭을 나타내고,
    M은 용수철 Si의 끝에 고정되어 있는 물체의 질량을 나타내고,
    Γi는 용수철 Si의 단위 질량당 감쇠 상수를 나타내고,
    ωext는 상기 입력 소리의 각속도를 나타냄)
  12. 제1항에 있어서,
    (a-2) 단계는,
    (a-2-1) 상기 순음 예측 진폭을 산출하는 단계;
    (a-2-2) 상기 복수의 용수철 각각의 고유 1주기 동안의 진폭에 기초하여, 상기 고유 1주기 동안의 진폭에 기초하여 추정된 입력 소리의 진폭인 전이상태 순음 진폭을 산출하는 단계; 및
    (a-2-3) 상기 순음 예측 진폭과 상기 전이상태 순음 진폭을 곱한 값에 기초하여 순음 여과 진폭을 산출하고, 산출된 순음 여과 진폭에 기초하여 상기 추정 순음 진폭을 산출하는 단계
    를 포함하는 것을 특징으로 하는 기본주파수 추출 방법.
  13. 제12항에 있어서,
    상기 전이상태 순음 진폭은 하기의 식에 의해 산출되는 것을 특징으로 하는 기본주파수 추출 방법.
    Figure 112020074999622-pat00125

    (단, Fi,t(t)는 용수철 Si의 전이상태 순음 진폭을 나타내고,
    Figure 112020074999622-pat00126
    는 용수철 Si의 시점 t의 고유 1주기 동안의 변위의 최댓값이고,
    M은 용수철 Si의 끝에 고정되어 있는 물체의 질량을 나타내고,
    Γi는 용수철 Si의 단위 질량당 감쇠 상수를 나타내고,
    ωext는 상기 입력 소리의 각속도를 나타냄)
KR1020190179048A 2019-12-31 2019-12-31 디제이변환에 기초한 기본주파수 추출 방법 KR102164306B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020190179048A KR102164306B1 (ko) 2019-12-31 2019-12-31 디제이변환에 기초한 기본주파수 추출 방법
PCT/KR2020/015910 WO2021137419A1 (ko) 2019-12-31 2020-11-12 디제이변환에 기초한 기본주파수 추출 방법
US17/288,459 US11574646B2 (en) 2019-12-31 2020-11-12 Fundamental frequency extraction method using DJ transform
US18/089,814 US20230215456A1 (en) 2019-12-31 2022-12-28 Sound processing method using dj transform

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190179048A KR102164306B1 (ko) 2019-12-31 2019-12-31 디제이변환에 기초한 기본주파수 추출 방법

Publications (1)

Publication Number Publication Date
KR102164306B1 true KR102164306B1 (ko) 2020-10-12

Family

ID=72886287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190179048A KR102164306B1 (ko) 2019-12-31 2019-12-31 디제이변환에 기초한 기본주파수 추출 방법

Country Status (3)

Country Link
US (1) US11574646B2 (ko)
KR (1) KR102164306B1 (ko)
WO (1) WO2021137419A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021137419A1 (ko) * 2019-12-31 2021-07-08 브레인소프트 주식회사 디제이변환에 기초한 기본주파수 추출 방법
WO2023008831A1 (ko) * 2021-07-27 2023-02-02 브레인소프트 주식회사 해석적 방법에 기반한 디제이 변환 주파수 추출 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102129A (ja) * 2008-10-23 2010-05-06 Ricoh Co Ltd 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
KR102053553B1 (ko) 2014-04-30 2019-12-06 퀄컴 인코포레이티드 음성 프로파일 관리 및 스피치 신호 생성

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
KR20010026290A (ko) 1999-09-04 2001-04-06 박종섭 음성 신호 피치 지점 자동 검출 방법
US8065140B2 (en) * 2007-08-30 2011-11-22 Texas Instruments Incorporated Method and system for determining predominant fundamental frequency
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
JP4585590B2 (ja) 2008-09-26 2010-11-24 株式会社東芝 基本周波数変化量抽出装置、方法及びプログラム
WO2011031918A1 (en) * 2009-09-11 2011-03-17 Med-El Elektromedizinische Geraete Gmbh Low pulse rate cochlear implant stimulation in conjunction with a separate representation of fundamental frequencies and voiced/unvoiced distinctions
JP6729299B2 (ja) 2016-10-28 2020-07-22 富士通株式会社 ピッチ抽出装置及びピッチ抽出方法
KR102164306B1 (ko) * 2019-12-31 2020-10-12 브레인소프트주식회사 디제이변환에 기초한 기본주파수 추출 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102129A (ja) * 2008-10-23 2010-05-06 Ricoh Co Ltd 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
KR102053553B1 (ko) 2014-04-30 2019-12-06 퀄컴 인코포레이티드 음성 프로파일 관리 및 스피치 신호 생성

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Thomas F. Quatieri, Discrete-time speech signal processing, Prentice Hall PTR, 2002.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021137419A1 (ko) * 2019-12-31 2021-07-08 브레인소프트 주식회사 디제이변환에 기초한 기본주파수 추출 방법
WO2023008831A1 (ko) * 2021-07-27 2023-02-02 브레인소프트 주식회사 해석적 방법에 기반한 디제이 변환 주파수 추출 방법

Also Published As

Publication number Publication date
US11574646B2 (en) 2023-02-07
WO2021137419A1 (ko) 2021-07-08
US20220084538A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
KR102164306B1 (ko) 디제이변환에 기초한 기본주파수 추출 방법
JP2009042716A (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
CN107910011A (zh) 一种语音降噪方法、装置、服务器及存储介质
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
US10586519B2 (en) Chord estimation method and chord estimation apparatus
Deb et al. A novel breathiness feature for analysis and classification of speech under stress
JP2010011620A (ja) 電力系統縮約モデル作成装置、電力系統縮約モデル作成方法および電力系統縮約モデル作成プログラム
US10757519B2 (en) Neural network-based parameter estimation of loudspeakers
KR102277952B1 (ko) 디제이 변환에 의한 주파수 추출 방법
KR20230044574A (ko) 디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법
JPWO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP3174777B2 (ja) 信号処理方法および装置
US9398387B2 (en) Sound processing device, sound processing method, and program
Issanchou et al. A modal approach to the numerical simulation of a string vibrating against an obstacle: Applications to sound synthesis
JP2003044077A (ja) 音声特徴量抽出方法と装置及びプログラム
CN111998934B (zh) 一种声源声功率测试方法
US20230215456A1 (en) Sound processing method using dj transform
JP7147954B2 (ja) 属性推定装置、属性推定方法、及びプログラム
Mohapatra et al. A comparative study of two-dimensional vocal tract acoustic modeling based on finite-difference time-domain methods
JP6527768B2 (ja) 情報処理方法及び装置
JP2019139209A (ja) コード推定方法およびコード推定装置
Schoder et al. A benchmark case for aeroacoustic simulations involving fluid-structure-acoustic interaction transferred from the process of human phonation
JP6025148B2 (ja) 騒音計および騒音測定用プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant