KR100388488B1 - 유성음 구간에서의 고속 피치 탐색 방법 - Google Patents

유성음 구간에서의 고속 피치 탐색 방법 Download PDF

Info

Publication number
KR100388488B1
KR100388488B1 KR10-2000-0083271A KR20000083271A KR100388488B1 KR 100388488 B1 KR100388488 B1 KR 100388488B1 KR 20000083271 A KR20000083271 A KR 20000083271A KR 100388488 B1 KR100388488 B1 KR 100388488B1
Authority
KR
South Korea
Prior art keywords
pitch
voiced sound
pitch search
frame
search
Prior art date
Application number
KR10-2000-0083271A
Other languages
English (en)
Other versions
KR20020054237A (ko
Inventor
성호상
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2000-0083271A priority Critical patent/KR100388488B1/ko
Publication of KR20020054237A publication Critical patent/KR20020054237A/ko
Application granted granted Critical
Publication of KR100388488B1 publication Critical patent/KR100388488B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
본 발명은, CELP 계열의 음성 부호화기에서 유성음으로 판단이 된 프레임이 연속되면 이전 프레임의 피치 주위에서만 탐색하여 피치의 변화량을 통해 계산량을 줄임으로써, 유성음 구간의 피치 탐색시간을 줄이기 위한 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 유성음 구간에서의 고속 피치 탐색장치에 적용되는 고속 피치 탐색 방법에 있어서, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 단계; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 단계; 및 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성 부호화의 기술 등에 이용됨.

Description

유성음 구간에서의 고속 피치 탐색 방법{A fast pitch analysis method for the voiced region}
본 발명은 유성음 구간에서의 고속 피치 탐색 방법에 관한 것으로, 보다 상세하게는 유성음 프레임의 지속 여부에 따라 피치의 변화량을 줄여 계산량을 줄이기 위한 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로, 음성신호의 처리는 음성신호를 샘플링 및 양자화를 통해 추출된 데이터를 부호화기에 입력하는 것으로, 이와 같은 음성신호를 대상으로 하는 음성코딩 기술은 기술들은 ITU-T의 표준안 중에서 G.711 ~ G.712의 PCM(Pulse Code Modulation) 방식과 G.720 ~ G.729 시리즈 같은 PCM 이외의 방법으로 압축하는 방식이 있다.
또한, 음성을 유성음, 무성음, 묵음 및 주변소음 분별하는 기술은 많은 방식이 있으나, 음성활성도 측정(VAD : Voice Activity Detection) 알고리즘이 대표적이다. 특히, 디지털 음성신호에 대한 음성/비음성 분별 기술은 계산량 문제로 인해서 이 기술이 사용되는 음성 부호화기와 밀접한 관계를 갖는다.
음성 부호화기에서의 성능판단 기준으로는 음질, 복잡도, 전송율, 지연 등이 있다. 여기서, 복잡도는 음성 부호화기의 실시간 구현시 가장 문제가 되는 부분이며, 상기 복잡도가 낮으면 같은 프로세서에 더 많은 부호화기를 구현할 수도 있으며 하나의 부호화기를 구현할 때에는 더 낮은 성능의 프로세서에 구현할 수 있다. 이는 좀더 저렴한 프로세서의 선택을 가능하게 하며 경제성을 높이는 계기가 된다. 일반적으로 CELP(Code Excited Linear Prediction) 방식의 음성 부호화기는 LPC(Linear Predictive Coding) 계수와 피치 및 여기 신호가 가장 중요한 정보이다. 여기서, 여기 신호를 위한 코드북 탐색이 보통 가장 많은 계산량을 가지며, 다음으로 많은 계산량을 가지는 부분이 피치 정보를 탐색 부분이다. 여기서, 피치 정보는 화자의 식별이나 발성 문장의 분석에서 중요한 단서가 되므로 음성 처리를 위해 음성신호를 분석에서 중요한 역할을 한다.
그러나, 피치 정보의 탐색은 피치 지연 20부터 143의 범위에 대해 상관도를 구하는 개루프 피치 탐색 과정과 구해진 피치 주변에서 실제 합성을 할 때 가장 좋은 결과를 가져오는 최적의 피치를 구하는 폐루프 피치 탐색 과정을 수행함에 따라 상기 개루프 피치 탐색에 따른 상관도를 구하는데 많은 계산량이 필요로 하여 그로 인한 실시간의 음성 부호화가 어려운 문제점이 있었다.
본 발명은, 상기와 같은 문제점을 해결하기 위해 제안된 것으로, CELP 계열의 음성 부호화기에서 유성음으로 판단이 된 프레임이 연속되면 이전 프레임의 피치 주위에서만 탐색하여 피치의 변화량을 통해 계산량을 줄임으로써, 유성음 구간의 피치 탐색시간을 줄이기 위한 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 방법으로 구현한 음성 부호화기의 일실시예 구성도.
도 2 는 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 방법에 대한 일실시예 흐름도.
도 3 은 본 발명에 따른 상기 도 2의 피치 탐색 모드 결정 과정에 대한 일실시예 상세 흐름도.
도 4 는 본 발명에 따른 프레임의 순서를 보여주는 구조도.
상기와 같은 목적을 달성하기 위한 본 발명은, 유성음 구간에서의 고속 피치 탐색장치에 적용되는 고속 피치 탐색 방법에 있어서, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 단계; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 단계; 및 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 유성음 구간에서의 고속 피치 탐색을 수행하기 위해, 프로세서를 구비한 음성부호화 시스템에, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 기능; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 기능; 및 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.본 발명은 VAD 알고리즘을 사용하는 CELP 방식의 음성 부호화기에 사용할 수 있는 유성음 구간에서의 고속 피치 탐색 방법에 관한 것으로서, 유성음에서 피치 변화가 적다는 음성의 특징을 이용하여 피치 탐색 범위를 제한해 고속으로 피치를 탐색한다.여기에서는 유성음 구간이 시작되는 부분을 사람이 발화를 시작하는 과정으로 보고 이런 경우에는 비슷한 피치가 계속되는 현상을 이용해서 탐색범위를 제한하여 상관도 계산량을 줄인다.
상술된 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1은 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 방법으로 구현한 음성 부호화기의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 유성음 구간에서의 고속 피치 탐색 장치는 전 처리부(101), 음성 활성도 측정 및 모드선택부(102), 선형예측(LP : Linear Prediction) 분석 양자화 보간부(103), 합성필터(104), 적응 가중 필터(105), 피치 분석부(106), 고정코드북 탐색부(107), 고정코드북(108), 고정 이득기(109), 적응 코드북(110), 적응이득기(111), 이득 양자화기(112) 및 파라미터 인코더(113)를 포함한다.
전 처리부(101)는 입력되는 음성신호를 고대역 필터링 및 그 신호크기를 줄이고, 이 신호 정보를 음성 활성도 측정 및 모드 선택부(102)로 제공한다.음성 활성도 측정 및 모드 선택부(102)는 전 처리부(101)로부터 입력된 음성 신호를 해당 알고리즘에 의해 음성 활성화를 측정하고 피치 탐색 모드를 선택하여 선형예측 분석 양자화 보간부(103)로 제공한다.
선형예측 분석 양자화 보간부(103)는 음성 활성도 측정 및 모드 선택부(102)로부터 제공되는 음선신호를 토대로 선형예측 분석, 양자화 그리고 보간을 수행하여 구해진 선혀예측계수(LPC)를 합성필터(104)에 제공하고, 적응 가중 필터(105)의 적응 가중필터를 이용하여 목표치(target)인 음성신호를 구한다. 이 목표치(target) 음성신호를 이용하여 피치 분석부(106)는 음성 활성도 측정 및 모드 선택부(102)에서 선택된 피치 탐색모드에 따라 피치 분석을 수행하여 최적의 피치 지연을 구하고, 고정 코드북 탐색부(107)에서는 고정 코드북의 탐색을 통해 고정 코드북 인덱스를 구한다.
이후, 각각의 최적 벡터들을 구하기 위해 고정코드북(108)에서 제공되는 고정 코드북의 벡터들은 고정 이득기(109)를 통해 이득값이 출력되고, 적응 코드북(110)에서 제공되는 적응 코드북의 벡터들은 적응 이득기(111)를 통해 이득값이 출력된다.
이때, 고정 이득기(109) 및 적응 이득기(111)의 각각의 이득값은 곱셈기를 의해 곱해져 합성 필터(104)를 거친 값을 구한 후, 이 값과 목표치(target) 음성 신호와의 차이를 최소화시키는 벡터를 구한다. 따라서, 최종적으로 전송되어지는 신호는 이득 양자화기(112)를 통해 양자화되고, 파라메터 인코더(113)는 입력된 이득 신호와 최적의 고정 코드북 벡터와 최적의 적응 코드북 벡터에 대한 지연 및 양자화된 선형 예측 계수를 파라메터화하여 전송한다.
이하, 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 동작을 도 2 내지 도 4를 토대로 자세히 설명하기로 한다.
도 2 는 본 발명에 따른 유성음 구간에서의 고속피치 탐색 방법에 대한 일실시예 흐름도이다.
도 2에 도시된 바와 같이, 유성음 구간에서의 고속피치 탐색을 위해, 먼저 음성 부호화기의 음성코덱을 초기화한다(201). 이후에, 한 프레임의 음성신호가 입력되면(202), 프레임 단위의 음성 활성도를 측정한다(203).
여기서, 한 프레임의 음성신호 입력은 음성 부호화기에 따라 상이한데, 예를 들면 G.729인 경우에는 80샘플이 되며, GSM-EFR은 160 샘플이며, G.723.1은 240 샘플이 된다. 상기 음성 활성도의 측정은 해당 프레임이 유성음인지 무성음인지 묵음 또는 주변소음인지 구분하는 것으로, 음성 활성도의 측정이 완료되면, 현재 입력되는 프레임의 활성도 정보와 이전 프레임의 피치 정보를 이용하여 피치 탐색 모드를 결정한다(204,205).
상기 피치 탐색모드 결정은 세 가지의 조건이 맞으면 저 복잡도 피치 탐색을 하며, 세가지 조건 중에 한가지라도 조건을 만족하지 않으면, 즉시 정상적인 피치 탐색을 한다. 따라서, 이 과정은 매 프레임마다 반복하며 음성 활성도 측정이 끝나고 피치 탐색을 하기 전에 실시함이 바람직하다.
한편, 피치 탐색 모드가 결정되면(205), 결정된 피치 탐색 모드를 이용하여 음성신호를 코딩하고(206), 이 코딩된 정보에 의해 현재 프레임의 음성 활성도 및 피치 데이터를 저장한다(207).
이후, 음성신호가 입력되는지를 판단하는데(208), 상기 과정(208)에서 판단한 결과, 현재의 음성신호가 끝이 아닐 경우, 즉 계속적으로 음성신호가 입력될 경우에는 상기 과정(202)으로 복귀하여 한 프레임의 음성신호를 입력하여 계속적으로 고속 피치 탐색을 수행한다.
도 3 은 본 발명에 따른 상기 도 2의 피치 탐색 모드 결정 과정에 대한 일실시예 상세 흐름도이다.
도 3에 도시된 바와 같이, 피치 탐색모드를 결정하기 위해, 먼저 음성 활성도를 측정하고(301), 측정된 음성신호가 유성음인지를 판단한다(302).
여기서, i 프레임 동안 연속적으로 유성음인지를 판단하는 이유는, 음성 활성도 측정 알고리즘의 오류나 순간적인 데이터의 성질로 한 프레임이 유성음으로 결정될 수 있는 것을 방지하기 위함이다. 상기 i는 프레임의 개수로서, 2이상이며 최대값은 성능에 영향을 미치므로 20ms에서 100ms 사이의 적절한 값을 선택하고, 프레임의 크기가 10ms인 G.729인 경우를 예를 들면 20ms인 경우 i는 2가 되며 100ms인 경우는 i가 10이 된다.
상기 판단 결과(302), 유성음이 아닐 경우에는 정상적인 피치 탐색을 수행한 후(306), 현재의 음성 활성도를 저장하고(307), 유성음일 경우에는 i 프레임 동안 유성음이 지속되는지를 판단한다(303).
상기 판단 결과(303), i 프레임 동안 유성음이 지속되지 않을 경우에는 정상적인 피치 탐색을 수행한 후(306), 상기 과정(307)으로 진행하여 현재 음성 활성도를 저장하며, i 프레임 동안 유성음이 지속될 경우에는 j 프레임 동안 피치 변화량이 임계치(k) 이하인지를 판단한다(304).
여기서, 상기 과정(304)은 순간적인 성대의 비정상적인 떨림이나 수치적인 계산상의 결과로 피치의 값이 바뀔 경우를 방지하기 위함으로, 피치의 변화가 많이 발생하면 정상적인 상태로 볼 수 없는 것이다.
따라서, 상기 과정(304)에서 판단한 결과, j 프레임 동안 피치 변화량이 임계치(k) 이하가 아닐 경우, 즉 피치의 변화가 많이 발생할 경우에는 모드를 정상적인 피치 탐색한 후(306), 현재의 음성 활성도를 저장하는 과정(307)으로 진행하고, j 프레임동안 피치 변화량이 임계치(k)이하일 경우에는 저 복잡도의 피치 탐색을 수행하는 과정(305)으로 진행한다.
여기서, 피치 변화량의 임계치(k)는 다음과 같은 범위를 갖는다.
| L-T | ≤ k
여기서, L은 도 4에 도시된 바와 같이, j개의 유성음으로 선택된 과거 프레임에서 구해진 피치의 평균 값이며, T는 바로 이전 프레임인 m-1 프레임에서 구해진 피치 값이다. 상기 L은 항상 연속적으로 유성음이 선택된 경우에 구해지며, 중간에 유성음이 아닌 프레임이 포함되면 그 이후의 j개의 프레임 이후부터 다시 계산하는데, 그 이유는 유성음 사이에 소음구간이나 무성음 구간이라면 피치의 값을 예측할 수 없으므로 판단기준으로 삼을 수가 없기 때문이다.
그리고, 상기 j는 1이상이며 10이하의 값으로, k는 2이상이며 10이하로 설정한다. 여기서, i값이나 j값이 커지거나 k값이 적어지면 계산량 감소 효과가 적어지지만 음질 감쇄를 거의 없앨 수 있으며, 이와 반대의 값으로 설정하면 계산량 감소 효과는 뛰어나지만 음질 성능이 떨어질 가능성이 있어 적절한 값으로 조정함이 바람직하다.
한편, 상기 과정(305)의 저 복잡도 피치 탐색 과정은 현재 프레임을 m이라고 할 때 바로 이전 프레임인 m-1 프레임의 피치의 주위에서 탐색을 수행하는 것으로, 여기서 이전 프레임의 피치가 T라고 할 때 현재 프레임의 피치 탐색 범위는 T±n으로 설정하며 다음과 같은 범위를 갖는다.
20≤ (T±n) ≤143, (n>k)
여기서, n값은 피치 탐색 범위를 의미하며 앞에서 언급한 k보다 커야 한다. 그렇지 않으면, n이 k보다 적은 값이 되는 경우에는 언제든지 세 번째 조건을 만족하게 되므로 판단의 의미가 없어진다. 그러므로, n의 범위는 k<n<30으로 설정한다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 진술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 있어 명백할 것이다.
상기와 같은 본 발명은, 유성음으로 판단이 된 프레임이 연속되면 이전 프레임의 피치 주위에서만 탐색하여 피치의 변화량을 줄여 계산량을 줄임으로써, 고속으로 피치를 탐색할 수 있으며, 이에 따라 음성 부호화기의 성능을 향상시킬 수 있고, 특히 피치 검색을 실시하는 CELP 계열의 모든 음성 부호화기에서 유성음 구간의 피치 탐색시간을 줄일 수 있는 효과가 있다.

Claims (6)

  1. 유성음 구간에서의 고속 피치 탐색장치에 적용되는 고속 피치 탐색 방법에 있어서,
    프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 단계;
    상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 단계; 및
    상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 단계
    를 포함하는 유성음 구간에서의 고속 피치 탐색 방법.
  2. 제 1 항에 있어서,
    상기 제 2 단계는,
    음성 활성도를 측정하여 적어도 두 개 이상의 프레임 동안 연속으로 유성음이 입력되는지를 판단하는 제 4 단계;
    상기 제 4 단계의 판단 결과, 연속으로 유성음이 입력될 경우 적어도 하나 이상의 프레임 동안에 피치 변화량을 측정하는 제 5 단계;
    상기 측정된 피치 변화량이 임계치 이상이면, 정상적인 피치 탐색을 하도록 결정하는 제 6 단계; 및
    상기 측정된 피치 변화량이 임계치 이하이면, 저 복잡도 피치 탐색을 하도록 결정하는 제 7 단계
    를 포함하는 유성음 구간에서의 고속 피치 탐색 방법.
  3. 제 2 항에 있어서,
    상기 임계치는,
    적어도 하나 이상의 유성음 프레임들에서 구해진 피치의 평균값과 바로 이전 프레임에서 구해진 피치값의 절대치보다 큰 변화량인 것을 특징으로 하는 유성음 구간에서의 고속 피치 탐색 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 2 단계의 피치 탐색 모드를 결정하는 과정은,
    음성 활성도 측정 수행 후 및 피치 탐색의 수행 전에 입력되는 매 프레임마다 반복 수행하는 것을 특징으로 하는 유성음 구간에서의 고속 피치 탐색 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 3 단계의 저 복잡도 피치 탐색 과정은,
    하기의 조건에 의한 탐색 범위를 갖는 것을 특징으로 하는 유성음 구간에서의 고속 피치 탐색 방법.
    20≤ (T±n) ≤143, (n>k)
    (여기서, T는 이전 프레임의 피치, k는 피치 변화량의 임계치, n은 피치 탐색 범위임)
  6. 유성음 구간에서의 고속 피치 탐색을 수행하기 위해, 프로세서를 구비한 음성부호화 시스템에,
    프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 기능;
    상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 기능; 및
    상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2000-0083271A 2000-12-27 2000-12-27 유성음 구간에서의 고속 피치 탐색 방법 KR100388488B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083271A KR100388488B1 (ko) 2000-12-27 2000-12-27 유성음 구간에서의 고속 피치 탐색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083271A KR100388488B1 (ko) 2000-12-27 2000-12-27 유성음 구간에서의 고속 피치 탐색 방법

Publications (2)

Publication Number Publication Date
KR20020054237A KR20020054237A (ko) 2002-07-06
KR100388488B1 true KR100388488B1 (ko) 2003-06-25

Family

ID=27686976

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0083271A KR100388488B1 (ko) 2000-12-27 2000-12-27 유성음 구간에서의 고속 피치 탐색 방법

Country Status (1)

Country Link
KR (1) KR100388488B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
CN113782050A (zh) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05136697A (ja) * 1991-11-14 1993-06-01 Kokusai Electric Co Ltd 音声符号化方式
JPH0728499A (ja) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa ディジタル音声コーダにおける音声信号ピッチ期間の推定および分類のための方法ならびに装置
JPH0895589A (ja) * 1994-09-21 1996-04-12 Ibm Japan Ltd 音声合成方法及びシステム
KR19980079119A (ko) * 1997-04-30 1998-11-25 윤종용 음성 합성 데이터 베이스, 이를 작성하는 방법, 그리고 이를 이용한 음성 합성 방법
KR19990068409A (ko) * 1999-05-17 1999-09-06 이봉훈 피치변경에의한음성파형부호화방법
KR19990068410A (ko) * 1999-05-17 1999-09-06 이봉훈 스펙트럼평균진폭차이함수를이용한개선된다중대역여기보코더의피치검색시간단축방법.

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05136697A (ja) * 1991-11-14 1993-06-01 Kokusai Electric Co Ltd 音声符号化方式
JPH0728499A (ja) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa ディジタル音声コーダにおける音声信号ピッチ期間の推定および分類のための方法ならびに装置
JPH0895589A (ja) * 1994-09-21 1996-04-12 Ibm Japan Ltd 音声合成方法及びシステム
KR19980079119A (ko) * 1997-04-30 1998-11-25 윤종용 음성 합성 데이터 베이스, 이를 작성하는 방법, 그리고 이를 이용한 음성 합성 방법
KR19990068409A (ko) * 1999-05-17 1999-09-06 이봉훈 피치변경에의한음성파형부호화방법
KR19990068410A (ko) * 1999-05-17 1999-09-06 이봉훈 스펙트럼평균진폭차이함수를이용한개선된다중대역여기보코더의피치검색시간단축방법.

Also Published As

Publication number Publication date
KR20020054237A (ko) 2002-07-06

Similar Documents

Publication Publication Date Title
KR101281661B1 (ko) 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
EP0532225B1 (en) Method and apparatus for speech coding and decoding
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US6687668B2 (en) Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
KR950000842B1 (ko) 피치 검출기
US20080162121A1 (en) Method, medium, and apparatus to classify for audio signal, and method, medium and apparatus to encode and/or decode for audio signal using the same
CA2061830C (en) Speech coding system
CA2162407C (en) A robust pitch estimation method and device for telephone speech
KR100463417B1 (ko) 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US6564182B1 (en) Look-ahead pitch determination
Kleijn et al. A 5.85 kbits CELP algorithm for cellular applications
KR100388488B1 (ko) 유성음 구간에서의 고속 피치 탐색 방법
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
Oh et al. Output Recursively Adaptive (ORA) Tree Coding of Speech with VAD/CNG
JP2892462B2 (ja) コード励振線形予測符号化器
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
KR960011132B1 (ko) 씨이엘피(celp) 보코더에서의 피치검색방법
JPH02266400A (ja) 有音/無音判定回路
JPH09134196A (ja) 音声符号化装置
KR0138878B1 (ko) 보코더용 피치검색 처리시간 단축법
Al-Naimi et al. Improved line spectral frequency estimation through anti-aliasing filtering
JPH02160300A (ja) 音声符号化方式
KR100318335B1 (ko) 잔차신호의 에너지 레벨 정규화를 통한 음성신호처리복호화기에서의 피치 포스트필터 성능 향상 방법
VALINETAJ et al. Reduced Complexity and High Quality 8 kb/s CS-ACELP Speech Codec

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110531

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee