KR100361883B1 - 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치 - Google Patents

오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치 Download PDF

Info

Publication number
KR100361883B1
KR100361883B1 KR10-1998-0041659A KR19980041659A KR100361883B1 KR 100361883 B1 KR100361883 B1 KR 100361883B1 KR 19980041659 A KR19980041659 A KR 19980041659A KR 100361883 B1 KR100361883 B1 KR 100361883B1
Authority
KR
South Korea
Prior art keywords
signal
mel
frequency
audio signal
linear prediction
Prior art date
Application number
KR10-1998-0041659A
Other languages
English (en)
Other versions
KR19990036857A (ko
Inventor
요시히사 나카토
다케시 노리마츠
미네오 츠시마
도모카즈 이시카와
미츠히코 세리카와
다로 가타야마
준이치 나카하시
퓻더ㅃ덨 야기
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR19990036857A publication Critical patent/KR19990036857A/ko
Application granted granted Critical
Publication of KR100361883B1 publication Critical patent/KR100361883B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Abstract

종래보다도 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법 및 장치, 음성 신호 압축 방법 및 장치를 제공하고, 혹은 종래보다 인식 성능이 높은 음성 인식 방법 및 장치를 제공하는 것을 목적으로 한다.
스펙트럼 포락 산출부(2)에서 구한 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용하여, 정규화부(3)에 있어서 입력 신호의 주파수 특성 신호 계열을 정규화하고, 정규화부(3)에서 파워 평탄화된 주파수 특성 신호 계열을 구하여, 다단 양자화 수단(5)의 복수단의 벡터 양자화기(51, 52, 53) 중 적어도 1개에서, 입력 신호의 스펙트럼 포락과 인간의 청각적인 성질인 청각 감도 특성에 근거하여 산출된 주파수상의 가중 계수를 양자화시의 가중으로 이용하여 벡터 양자화를 실행한다.

Description

오디오 신호 압축 방법, 오디오 신호 압축 장치, 음성 신호 압축 방법, 음성 신호 압축 장치, 음성 인식 방법 및 음성 인식 장치{AUDIO SIGNAL COMPRESSION METHOD, AUDIO SIGNAL COMPRESSION APPARATUS, SPEECH SIGNAL COMPRESSION METHOD, SPEECH SIGNAL COMPRESSION APPARATUS, SPEECH RECOGNITION METHOD, AND SPEECH RECOGNITION APPARATUS}
본 발명은 음악을 전기 신호로 변환한 오디오 신호나 사람의 음성을 전기 신호로 변환한 음성 신호에 대하여, 적은 용량의 전송로로의 정보 전송, 기록 미디어로의 효율적인 축적을 가능하게 하기 위해서, 특히 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 오디오 신호 혹은 음성 신호를 압축하는 경우에, 종래보다 효율적으로, 고음질을 유지한 상태로 압축할 수 있는 오디오 신호 압축 방법 및 오디오 신호 압축 장치, 혹은 음성 신호 압축 방법 및 음성 신호 압축 장치에 관한 것이다.
또한, 본 발명은 고성능 음성 인식 장치를 실현하기 위해서, 특히 인간의 청각적인 성질인 청각 감도 특성을 도입한 선형 예측 분석법에 의해 구한, 주파수마다 분해능을 변화시킨 특징량을 이용하여 인식을 하는 경우에, 종래보다 높은 인식율을 얻을 수 있는 음성 인식 방법 및 음성 인식 장치에 관한 것이다.
이러한 종류의 오디오 신호 압축 방법에 대해서는 종래 여러 가지 방법이 제안되어 있지만, 이하에서는 그 일례에 대하여 설명한다.
우선, 입력된 오디오 신호의 시계열(時系列)은, 예를 들면 MDCT(modified discrete cosine transform ; 변형 이산 코사인 변환), 혹은 FFT(고속 퓨리에 변환) 등에 의해 일정 주기의 길이(프레임)마다 주파수 특성 신호 계열로 변환되고, 또한 입력 오디오 신호를 프레임마다 선형 예측 분석(LPC 분석)함으로써 LPC계수(linear predictive coefficient ; 선형 예측 계수)나 LSP 계수(line spectrum pair coefficient), 혹은 PARCOR 계수(partial auto-correlation coefficient) 등을 추출함과 동시에, 이들 계수로부터 LPC 스펙트럼 포락을 구한다. 다음에 산출된 주파수 특성 신호 계열을, 앞서 구한 LPC 스펙트럼 포락으로 제산하여 정규화함으로써 주파수 특성을 평탄화하고, 또한 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행한다.
이후 설명에서는, 이 파워 정규화가 실행된 시점의 출력 계수를 잔차 신호라고도 칭하기로 한다. 또한, 이 평탄화된 잔차 신호를, 스펙트럼 포락을 가중으로 하여 벡터 양자화한다.
이러한 오디오 신호 압축 방법의 예로서는, TwinVQ(이와가미, 모리타니, 미키:「주파수 가중 인터리브 벡터 양자화(twinVQ)에 의한 오디오 부호화」음향 학회 강연 논문집, 1-P-1,pp339-340, (1994))가 있다.
다음에, 음성 신호 압축 방법의 종래예에 대하여 이하에 설명한다.
우선, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient), 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분과, 주파수 특성이 평탄화된 잔차 신호로 분리된다. 그리고 LPC 스펙트럼 포락 성분은 스칼라 양자화되고, 또한 평탄화된 잔차 신호는 미리 준비한 음원 코드북에 의해 양자화함으로써 디지탈 신호로 각각 변환된다.
이러한 음성 신호 압축 방법의 예로서는, CELP (M.R.Schroeder andB.S.Atal:"Code-excited linear prediction(CELP) high quality speech at very low rates", Proc.ICASSP-85(March 1985)가 있다.
또한, 음성 인식 방법의 종래예에 대하여 이하에 설명한다.
일반적으로 음성 인식 장치에서는, 미리 기준으로 되는 음성 데이터를 이용하여, 음운 혹은 단어마다의 표준 모델을 작성해두고, 입력 음성으로부터 스펙트럼 포락에 대응하는 특징량을 구해 그 시계열과 표준 모델 사이의 유사도를 계산하여, 이 유사도가 가장 큰 표준 모델에 대응하는 음운 혹은 단어를 찾아냄으로써 음성을 인식한다. 이 경우의 표준 모델로서는, 예를 들면 히든 마르코프 모델(hidden Markov model;HMM)이나, 대표적인 특징량의 시계열 그 자체를 표준 모델로서 이용하고 있다(나카가와 세이이치 저,「확률 모델에 의한 음성 인식」, 전자 정보 통신 학회편, p18∼20).
종래, 입력 음성으로부터 구한 특징량의 시계열로서는, 입력된 음성의 시계열을, 예를 들면 선형 예측 분석(LPC 분석)에 의해 일정 주기의 길이(프레임)마다의 선형 예측 계수(LPC 계수)로 변환하고, 이 선형 예측 계수를 켑스트럼(cepstrum) 변환하여 얻어지는 LPC 켑스트럼 계수(시카노 기요히로, 나카무라 테츠, 이세 후미로 저,「음성·음정보의 디지탈 신호 처리」, 쇼코도, p10∼16)나, 혹은 입력 음성을 DFT나 밴드 패스 필터 뱅크 등에 의해 일정 주기의 길이(프레임)마다의 파워 스펙트럼으로 변환하고, 이 파워 스펙트럼을 켑스트럼 변환하여 얻어지는 켑스트럼 계수 등을 이용하여 인식하고 있다.
오디오 신호 압축 방법의 종래예에서는, MDCT 혹은 FFT 등에 의해 산출된 주파수 특성 신호 계열을 LPC 스펙트럼 포락으로 제산하여 정규화된 잔차 신호를 구하고 있다.
한편, 음성 신호 압축 방법의 종래예에서는, 입력 음성 신호를, 선형 예측 분석에 의해 산출된 LPC 스펙트럼 포락과 잔차 신호로 분리하고 있어, 오디오 신호 압축 방법의 종래예와 음성 신호 압축 방법의 종래예는 모두, 입력 신호로부터 통상의 선형 예측 분석에 의해 스펙트럼 포락 성분을 제거하는, 즉 입력 신호를 스펙트럼 포락에 의해 정규화(평탄화)하여 잔차 신호를 구하고 있다는 점에서는 마찬가지이다. 그래서, 이 선형 예측 분석의 성능을 향상시키거나, 혹은 선형 예측 분석에 의해 얻어진 스펙트럼 포락의 추정 정밀도를 높일 수 있으면, 종래보다 효율적으로, 고음질을 유지한 상태로 정보를 압축할 수 있다.
그런데, 통상의 선형 예측 분석에서는, 어느 주파수 대역에 대해서도 동일한 정밀도의 주파수 분해능으로 포락을 추정하게 되기 때문에, 청감상 중요한, 낮은 주파수 대역의 주파수 분해능을 높이고자 할 경우, 즉 낮은 주파수 대역의 스펙트럼 포락을 정확하게 구하고자 할 경우 분석 차수를 높일 필요가 있고, 결국 정보량이 증가한다고 하는 문제가 있었다.
또한, 분석 차수를 높이면, 청감상 그다지 중요하지 않은, 높은 주파수 대역의 분해능을 필요 이상으로 높이게 되기 때문에, 높은 주파수 대역에 있어서 피크를 갖는 스펙트럼 포락을 산출하는 경우가 발생하게 되어, 결국 음질을 열화시킨다고 하는 문제도 있다.
또한, 오디오 신호 압축 방법의 종래예와 같이, 벡터 양자화를 실행할 때에는, 양자화시의 가중을 스펙트럼 포락에만 근거하여 실행하고 있기 때문에, 통상의 선형 예측 분석으로는 인간의 청각적인 성질을 이용하여 효율적으로 양자화하는 것이 불가능하다고 하는 문제가 있었다.
한편, 음성 인식 방법의 종래예에서는, 예를 들면 통상의 선형 예측 분석에 의해 구해졌던 LPC 켑스트럼 계수로는, 인간의 청각적인 성질인 청각 감도 특성을 도입한 선형 예측 분석법을 실행하고 있지 않기 때문에, 충분한 인식 성능을 발휘하지 않을 가능성이 있다.
일반적으로 인간의 청각은, 저역 주파수 성분을 중요시하고, 고역 주파수 성분은 저역만큼 중요시하지 않는 경향이 있다는 것이 알려져 있다.
그래서, 이 LPC 켑스트럼(cepstrum) 계수를 멜(mel) 변환함으로써 얻어지는 LPC 멜 계수(시카노 기요히로, 나카무라 테츠, 이세 후미로 저,「음성·음정보의 디지탈 신호 처리」, 쇼쿄도, p39∼40)를 이용하여 인식하는 방법도 있지만, 애초에 LPC 켑스트럼 계수 자체에는 선형 예측 분석시에 인간의 청각의 특징이 충분히 고려되어 있지 않다. 그 때문에, 멜 변환된 LPC 멜 켑스트럼 계수에도 청각상 중요한 저역 정보는 충분히 반영되어 있지 않다.
멜 척도는, 인간의 소리의 높이의 지각 특성으로부터 얻어진 척도로서, 소리의 높이는 주파수에 크게 의존하는 양이지만, 주파수 뿐만 아니라 소리의 강함에도 영향을 받는 것으로 잘 알려져 있으며, 그래서 1000Hz, 40dB SPL의 순음을 기준음을 1000mel로 하여, 이보다 2배의 높이 혹은 1/2 높이에 지각되는 소리를 매그니튜드(magnitude) 측정법 등으로 측정하여, 각각 2000mel, 50Omel이라고 결정한 것인데, 상술한 바와 같이, LPC 켑스트럼 계수 자체는 선형 예측 분석시에 인간 청각의 특징이 충분히 고려되지 않은 이상, 멜화, 즉 멜 변환을 실행하더라도 본질적인 인식 성능의 향상은 기대할 수 없다.
또한 통상의 선형 예측 분석에서는, 어느 주파수 대역에 대해서도 동일한 주파수 분해능으로 스펙트럼 포락을 추정하게 되기 때문에, 청감상 중요한, 낮은 주파수 대역의 주파수 분해능을 높이고자 할 경우, 즉 낮은 주파수 대역의 스펙트럼 포락을 정확하게 구하고자 할 경우, 분석 차수를 높일 필요가 있어, 결국 특징량이 증가하여 인식에 소요되는 처리량이 증대된다고 하는 문제가 있다. 또한, 분석 차수를 높이면, 높은 주파수 대역의 분해능을 필요 이상으로 높이게 되기 때문에, 높은 주파수 대역에 불필요한 특징을 갖게 되어, 오히려 인식 성능을 열화시켜 버린다고 하는 문제도 있다.
또한, DFT나 밴드 패스 필터 뱅크(band pass filter bank) 등으로부터 구한 켑스트럼 계수나 멜 켑스트럼 계수를 특징량으로서 이용하여 음성 인식을 수행하는 방법도 있지만, DFT나 밴드 패스 필터 뱅크의 연산량이 선형 예측 분석에 비해 대단히 많다고 하는 문제점도 있다.
본 발명은 상기한 바와 같은 문제를 해소하기 위해 이루어진 것으로, 선형 예측 분석의 성능을 향상시키는, 즉 인간의 청각적인 성질인 청각 감도 특성을 도입한 선형 예측 분석법(이하, 멜 선형 예측 분석법(MLPC 분석법)이라고 칭함)을 실행하여, 그 결과 얻어진 멜화된 선형 예측 계수(이하, 멜 선형 예측 계수라고 칭함)를 음성 인식에 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를구하는 것과 마찬가지의 공지된 방법에 의해 멜 선형 예측 계수로부터 구할 수 있는 멜화된 PARCOR 계수(이하, 멜 PARCOR 계수라고 칭함)나, 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜 선형 예측 계수로부터 구할 수 있는 멜화된 LSP 계수(이하, 멜 LSP 계수라고 칭함)나, 또한 멜 선형 예측 계수를 켑스트럼 변환하여 얻어지는 멜 LPC 켑스트럼 계수를 음성 인식에 이용함으로써, 인식 성능의 향상을 한층 더 도모할 수 있게 된다고 하는 점에 착안하여 이루어진 것이다.
이러한 종류의 멜화된 계수를 이용함으로써 오디오 신호나 음성 신호의 압축 성능 향상이나 음성의 인식 성능 향상을 도모하는 것은 종래부터 상정되어 있는 바이지만, 현실적으로는 계산량이 방대하게 되어 실제 사용에 제공되는 경우는 없었다.
본건 발명자는, 이러한 현 상태를 감안하여 예의 연구를 거듭한 결과, 본래 이러한 종류의 계수를 계산하는데 무한 횟수의 연산을 수행해야 했고, 또한 이것을 유한 회수로 중지시킨 경우에는 연산 오차를 수반했던 것이, 소망하는 설정 회수의 연산을 수행하는 것만으로, 무한 회수의 연산을 수행한 것한 동등한 연산을 수행할 수 있고, 또한 이 연산에 오차가 수반되지 않는, 완전히 새로운 연산이 존재한다는 것을 발견하였다.
본 발명의 목적은, 이러한 새로운 연산을 이용함으로써, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중을 수행하여 오디오 신호나 음성 신호의 압축 성능 향상이나 음성의 인식 성능 향상을 도모할 수 있는, 오디오 신호 압축 방법, 오디오 신호 압축 장치, 음성 신호 압축 방법, 음성 신호 압축 장치, 음성 인식 방법 및 음성 인식 장치를 얻는 것이다.
즉, 본 발명의 목적은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 스펙트럼 포락을 구함으로써, 선형 예측 분석의 성능을 향상시키거나, 혹은 선형 예측 분석에 의해 얻어진 스펙트럼 포락의 추정 정밀도를 높여, 종래보다 효율적으로, 고음질을 유지한 상태로 압축할 수 있는 오디오 신호 압축 방법, 오디오 신호 압축 장치 혹은 음성 신호 압축 방법, 음성 신호 압축 장치를 제공하는 것이다.
또한, 본 발명의 목적은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거한 멜 선형 예측 분석에 의해 스펙트럼 포락에 대응하는 특징량을 구하고 있기 때문에, 적은 특징량으로도 효율적으로 스펙트럼 포락의 특징을 파악할 수 있으며, 또한 이 특징량을 음성 인식에 이용함으로써, 종래보다 적은 처리량으로 높은 인식 성능을 실현할 수 있는 음성 인식 방법 및 음성 인식 장치를 제공하는 것이다.
도 1은 본 발명의 실시예 1에 의한 오디오 신호 압축 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 실시예 1에 의한 오디오 신호 압축 장치에 관한 스펙트럼 포락 산출부의 상세한 구성의 일례를 나타내는 블럭도,
도 3은 본 발명의 실시예 1에 의한 오디오 신호 압축 장치에 관한 멜화 계수 산출부의 상세한 구성의 일례를 나타내는 블럭도,
도 4는 본 발명의 실시예 1에 의한 오디오 신호 압축 장치에 관한 멜화 계수 산출부의 상세한 계산 수순의 일례를 나타내는 블럭도,
도 5는 주파수축 신축 함수(올패스 필터)의 특성을 도시한 도면,
도 6은 본 발명의 실시예 1에 의한 오디오 신호 압축 장치에 관한 포락 산출부의 상세한 구성의 일례를 나타내는 블럭도,
도 7은 본 발명의 실시예 2에 의한 음성 인식 장치의 구성을 나타내는 블럭도,
도 8은 본 발명의 실시예 2에 의한 음성 인식 장치에 관한 멜 선형 예측 분석부의 상세한 구성의 일례를 나타내는 블럭도,
도 9는 본 발명의 실시예 3에 의한 오디오 신호 압축 장치의 구성을 나타내는 블럭도,
도 10은 본 발명의 실시예 4에 의한 휴대 전화기의 구성을 나타내는 블럭도,
도 11은 본 발명의 실시예 5에 의한 네트워크 기기의 구성을 나타내는 블럭도,
도 12는 본 발명의 실시예 6에 의한 네트워크 기기의 구성을 나타내는 블럭도.
도면의 주요 부분에 대한 부호의 설명
1 : 시간 주파수 변환부2 : 스펙트럼 포락 산출부
3 : 정규화부4 : 파워 정규화부
5 : 다단 양자화부6 : 청각 가중 계산부
7 : 멜 선형 예측 분석부8 : 켑스트럼 계수 산출부
9 : 음성 인식부51 : 제 1 단 양자화기
52 : 제 2 단 양자화기53 : 제 3 단 양자화기
상기한 과제를 해결하기 위해서, 본 발명(청구항 1)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하고, 상기 산출한 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 한 것이다.
본 발명(청구항 1)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석할 수 있게 하여, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 2)에 관한 오디오 신호 압축 방법은, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 한 것이다.
본 발명(청구항 2)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 바크 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석할 수 있게 하여, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 3)에 관한 오디오 신호 압축 방법은, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 한 것이다.
본 발명(청구항 3)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 4)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 올패스 필터를 이용해 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하며, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 한 것이다.
본 발명(청구항 4)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 5)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 LPC 분석(이하, 멜 선형 예측 분석이라고 칭함)을 이용해 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하고, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 한 것이다.
본 발명(청구항 5)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 통하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 6)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용해 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 한 것이다.
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 6)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 완료되게 되어, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또, 본 발명(청구항 7)에 관한 오디오 신호 압축 방법은, 청구항 6에 기재된오디오 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 7)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 실제로 실현 가능한 1차의 올패스 필터를 구비함으로써 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 완료되게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 8)에 관한 오디오 신호 압축 장치는, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호를 주파수 영역 신호로 변환하는 시간 주파수 변환 수단과, 상기 입력 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 스펙트럼 포락 산출 수단과, 상기 시간 주파수 변환 수단에 의해 얻어진 주파수 영역 신호를, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 스펙트럼 포락으로 정규화하여 잔차 신호를 얻는 정규화 수단과, 상기 잔차 신호를 파워에 의해 정규화하는 파워 정규화 수단과, 상기 입력 오디오 신호의 스펙트럼과 인간의 청각적인 성질인 청각 감도 특성에 근거하여, 주파수상의 가중 계수를 산출하는 청각 가중 계산 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 잔차 신호가 입력되는, 종렬로 접속된 복수단의 벡터 양자화부를 갖고, 또한 그 중 적어도 1개의 벡터 양자화부가 상기 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 다단 양자화 수단을 포함하도록 한 것이다.
본 발명(청구항 8)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하다게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 9)에 관한 오디오 신호 압축 장치는, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 오디오 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량에 의해 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 한 것이다.
본 발명(청구항 9)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 10 및 청구항 35)에 관한 오디오 신호 압축 장치는, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 오디오 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 10 및 청구항 35)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실현 가능하게 한다.
또, 본 발명(청구항 11 및 청구항 36)에 관한 오디오 신호 압축 장치는, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 11 및 청구항 36)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 통하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 12 및 청구항 37)에 관한 오디오 신호 압축 장치는, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 오디오 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 상기 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하는 것으로 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 12 및 청구항 37) 에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리가 가능해져, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또, 본 발명(청구항 13 및 청구항 38)에 관한 오디오 신호 압축 장치는, 각각 청구항 12 또는 청구항 37에 기재된 오디오 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 13 및 청구항 38)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 올패스 필터를 실현할 수 있는 1차의 올패스 필터를 이용하도록 하였기 때문에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 14)에 관한 오디오 신호 압축 장치는, 청구항 8에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단을 구성하는 복수단중의 복수의 벡터 양자화부는, 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 것이며, 상기 청각 가중 계산 수단은, 상기 복수의 벡터양자화부 각각이 이용하는 개별적인 가중 계수를 산출하는 것으로 한 것이다.
본 발명(청구항 14)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 다단 양자화 수단을 구성하는 복수단중의 복수의 벡터 양자화부는, 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하고, 또한 청각 가중 계산 수단은, 복수의 벡터 양자화부 각각이 이용하는 개별적인 가중 계수를 산출하는 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리가 가능해져, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 15)에 관한 오디오 신호 압축 장치는, 청구항 14에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단은, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 각 주파수 영역에서의 가중 계수로 하여, 상기 파워 정규화 수단에 의해 정규화된 잔차 신호의 양자화를 실행하는 제 1 단 양자화부와, 상기 스펙트럼 포락과 상기 제 1 단 양자화부의 양자화 오차 신호의 상관에 근거하여 산출된 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 1 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 2 단 양자화부와, 상기 청각 가중 계산 수단에서, 상기 시간 주파수 변환 수단에 의해 주파수 영역 신호로 변환된 입력 신호와 청각 특성에 의해 산출된 가중을, 상기 스펙트럼 포락, 상기 제 2 단 양자화부의 양자화 오차 신호, 상기 파워 정규화 수단에서 정규화된 상기 잔차 신호에 근거해 조정하여 구한 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 2 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 3 단 양자화부를 포함하도록 한 것이다.
본 발명(청구항 15)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 다단 양자화 수단을 제 1 단 내지 제 3 단 양자화부로 구성하여, 제 1 단 양자화부를 파워 정규화 수단에 의해 정규화된 잔차 신호의 양자화를 실행하는 것으로 하고, 제 2 단 양자화부를, 스펙트럼 포락과 제 1 단의 양자화부의 양자화 오차 신호의 상관에 근거하여 산출된 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 제 1 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 것으로 하며, 제 3 단 양자화부를, 스펙트럼 포락, 제 2 단 양자화부의 양자화 오차 신호, 파워 정규화 수단에 의해 정규화된 잔차 신호에 근거해 조정하여 구한 가중 계수를, 각 주파수 영역에서의 가중 계수로 하여 제 2 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 것으로 하였기 때문에, 청각 가중 계산 수단은, 복수의 벡터 양자화부의 각각이 이용하는 개별적인 가중 계수를 산출할 때에 이용하는 스펙트럼 포락을, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용함으로써, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 16)에 관한 음성 신호 압축 방법은, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 방법에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 16)에 관한 음성 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산에 의해 처리가 가능해져, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 17)에 관한 음성 신호 압축 방법은, 청구항 16에 기재된 음성 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하고 있다.
본 발명(청구항 17)에 관한 음성 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 실제로 실현 가능한 1차의 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 18)에 관한 음성 신호 압축 장치는, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 장치에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 한 것이다.
본 발명(청구항 18)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 19)에 관한 음성 신호 압축 장치는, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 음성 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 19)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 20)에 관한 음성 신호 압축 장치는, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 음성 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 20)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실현 가능하게 한다.
또, 본 발명(청구항 21)에 관한 음성 신호 압축 장치는, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 음성 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 21)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 올패스 필터를 실현할 수 있는 1차의 올패스 필터를 이용하도록 하였기 때문에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 22)에 관한 음성 신호 압축 장치는, 청구항 21에 기재된 음성 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 22)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 올패스 필터를 실현 가능한 1차의 올패스 필터를 이용하도록 하였기 때문에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 23)에 관한 음성 인식 방법은, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 선형 예측 분석법에 의해 스펙트럼 포락에 대응하는 특징량을 산출하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
본 발명(청구항 23)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실현 가능하게 한다.
또, 본 발명(청구항 24)에 관한 음성 인식 방법은, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 상기 특징량을 산출하도록 한 것이다.
본 발명(청구항 24)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 바크 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실현 가능하게 한다.
또, 본 발명(청구항 25)에 관한 음성 인식 방법은, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는, 상기 특징량을 산출하도록 한 것이다.
본 발명(청구항 25)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 26)에 관한 음성 인식 방법은, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락을 구하는 방법으로서, 올패스 필터를 이용하여 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 특징량을 구하며, 상기 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
본 발명(청구항 26)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 27)에 관한 음성 인식 방법은, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용한 선형 예측 분석법에 의해 특징량을 구하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
본 발명(청구항 27)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 통하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 28)에 관한 음성 인식 방법은, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하여, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체나, 혹은 상기 멜 선형 예측 계수로부터 구해진 켑스트럼 계수를 나타내는 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 28)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 예측모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이, 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 29)에 관한 음성 인식 방법은, 청구항 28에 기재된 음성 인식 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하는, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 29)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이, 미리 설정한 유한 회소의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 30)에 관한 음성 인식 장치는, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 선형 예측 계수를 산출하는 멜 선형 예측 분석 수단과, 상기 멜 선형 예측 분석 수단에 의해 얻어진 선형 예측 계수로부터 켑스트럼 계수를 산출하는 켑스트럼 계수 산출 수단과, 상기 켑스트럼 계수의 복수 프레임분과 복수의 표준 모델 사이의 거리를 산출하여, 어느 표준 모델과 유사한지 여부를 판정하는 음성 인식 수단을 포함하도록 한 것이다.
본 발명(청구항 30)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실현 가능하게 하는 것이다.
또한, 본 발명(청구항 31)에 관한 음성 인식 장치는, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력 음성을 올패스 필터를 이용하여 주파수축 신축시킴으로써 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행함으로써 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 한 것이다.
본 발명(청구항 31)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 32)에 관한 음성 인식 장치는, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 입력 음성으로부터 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 한 것이다.
본 발명(청구항 32)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 음성 인식을 실행할 수 있는 음성 인식 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 33)에 관한 음성 인식 장치는, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력된 음성으로부터 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 것이며, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 33)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이, 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 34)에 관한 음성 인식 장치는, 청구항 31에 기재된 음성 인식 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 34)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실제로 실현 가능하게 한다.
본 발명의 상기 및 그 밖의 목적, 특징, 국면 및 이익 등은 첨부 도면을 참조로 하여 설명하는 이하의 상세한 실시예로부터 더욱 명백해질 것이다.
발명의 실시예
(실시예 1)
도 1은 본 발명의 실시예 1에 의한 오디오 신호 압축 장치의 구성을 나타내는 블럭도이다. 동 도면에 있어서, (1)은, 예를 들면 MDCT, 혹은 FFT 등에 의해 입력된 디지탈 오디오 신호나 음성 신호의 시계열을, 일정 주기의 길이(프레임)마다 주파수 특성 신호 계열로 변환하는 시간 주파수 변환부이다. 또한, (2)는 예측 모델에 주파수 신축 기능을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 입력 오디오 신호로부터 프레임마다 구하는 스펙트럼 포락 산출부이다. (3)은 시간 주파수 변환부(1)에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락으로 제산하여 정규화함으로써, 주파수 특성을 평탄화하는 정규화부, (4)는 정규화부(3)에서 평탄화된주파수 특성 신호 계열에 대하여 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (5)는 정규화부(3), 파워 정규화부(4)에 의해 평탄화된 주파수 특성 신호 계열을 벡터 양자화하는 다단 양자화부이며, 이 다단 양자화부(5)는, 서로 종렬 접속된 제 1 단의 양자화기(51), 제 2 단의 양자화기(52), …, 제 N 단의 양자화기(53)를 포함한다. (6)은 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락을 입력으로 하여, 인간의 청각 감도 특성에 근거해 양자화부(5)에서의 양자화시에 이용하는 가중 계수를 구하는 청각 가중 계산부이다.
다음에 동작에 대하여 설명한다. 입력된 디지탈 오디오 신호(이하, 입력 신호라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다 시간 주파수 변환부(1)에서 MDCT, FFT 등에 의해 주파수 특성 신호 계열로 변환된다.
또한, 입력 신호는 프레임마다, 스펙트럼 포락 산출부(2)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락이 구해진다.
도 2는, 입력 신호로부터, 멜 선형 예측 분석을 이용하여 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 스펙트럼 포락 산출부(2)를 나타낸 도면이다. 동 도면에 있어서, 스펙트럼 포락 산출부(2)는 멜 선형 예측 분석을 이용하여 주파수마다 분석 정밀도를 변화시킨, 즉 멜화한 선형 예측 계수를 구하는 멜화 계수 산출부(21)와, 스펙트럼 평탄화를 위해 이용하는 직선 주파수의 스펙트럼 포락을 계산하는 포락 산출부(22)로 이루어진다. 이하, 이 멜화 계수 산출부(21)와 포락 산출부(22)의 각각에 대하여 설명한다.
우선 멜화 계수 산출부(21)에 있어서의 처리를 도 3에 개략적으로 도시한다. 도 3에 있어서, (211)은 입력 신호의 주파수축을 신축시키는 올패스 필터, (212)는 이 올패스 필터(211)의 출력 신호와 예측 계수의 선형 결합을 작성하여, 올패스 필터(211)의 입력 신호의 예측값을 출력하는 선형 결합부, (213)은 선형 결합부(212)로부터 출력되는 예측값과 올패스 필터(211)의 출력 신호에 대하여 최소 자승법을 적용해 멜화 선형 예측 계수를 출력하는 최소 자승법 연산부이다.
다음에, 이 도 3을 이용하여 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수의 추정 방법을 설명한다,
우선, 입력 신호 x[n]을, 1단의 올패스 필터(211)(수학식 2 참조)에 통과시킨 출력 신호 yi[n]과, 선형 결합부(212)에 의해 작성한, 예측 계수(수학식 3 참조)와의 선형 결합에 의한 x[n]의 예측값(수학식 4 참조)은 수학식 5로 표시된다.
단, []는 시간축상의 수열을 나타낸다.
여기서, 올패스 필터(수학식 2 참조)는 수학식 6으로 표시된다. 또한, 출력 신호 yi[n]는 후술하는 수학식 10 및 수학식 18로부터 구해진다.
단, z는 z 변환의 연산자를 나타낸다.
이 올패스 필터의 주파수 특성을 도 5에 도시한다. 도 5에 있어서, 횡축이 변환전의 주파수축이고, 종축이 변환후의 주파수축을 나타낸다. 도면에 있어서, α=-0.5부터 α=0.8까지 0.1 피치 간격으로 α의 값을 변화시켰을 때의 모양을 표시하고 있다. 도면으로부터 α의 값이 포지티브일 때에는, 저(低)주파수 대역이 신장되고, 고(高)주파수 대역이 줄어들었음을 알 수 있다. 또한, α의 값이 네가티브일 경우에는 그 반대로 된다.
본 발명에서는, 입력 신호로서 샘플링 주파수, 즉 대역폭이 서로 다른 오디오 신호나 음성 신호를 상정하고 있기 때문에, 샘플링 주파수에 따라서 α의 값을 각각의 신호에 맞게 결정함으로써, 스펙트럼 포락을 구할 때에 인간의 청각 특성에 알맞은 주파수 분해능을 얻기 때문에, 스펙트럼 포락을 구할 때에 사람의 청각 특성에 적합한 주파수 분해능을 얻을 수 있다. 예를 들어, 청각의 주파수 분해능에관한 경계 대역폭의 관측으로부터 도입된 척도로서 바크 척도가 일반적으로 알려져 있으며, 이 특성에 근거하여 α의 값을 결정하는 것도 가능하다.
이 바크 척도는 플레쳐(Fletcher)가 제창한 청각 필터의 개념으로부터 얻어진 척도이며, 플레쳐가 말하는 청각 필터란 중심 주파수가 연속적으로 변화하는 대역 필터로서, 신호음에 가장 가까운 중심 주파수를 갖는 대역 필터가 신호음의 주파수를 분석하며, 소리의 마스킹에 영향을 미치는 잡음 성분은 이 대역 필터내의 주파수 성분에 한정되는 필터이다. 플레쳐는 이 대역 필터의 밴드폭을 경계 대역이라고 명명하고 있다.
또한, 인간의 주관에 근거하여 피치 감각을 직접 수량화한 심리 척도로서 멜 척도가 일반적으로 알려져 있으며, 이 특성에 근거하여 α의 값을 결정하는 것도 가능하다.
예를 들어 멜 척도를, 청각 감도 특성에 대응한 주파수상의 가중으로서 채용하는 경우, 여기서 샘플링 주파수가 8kHz에서는 α=0.31로 하고, 10kHz에서는 α=0.35, 12kHz에서는 α=0.41, 16kHz에서는 α=0.45, 44.1kHz에서는 α=O.6∼O.7로 하였다. 또한, 바크 척도를, 청각 감도 특성에 대응한 주파수상의 가중으로서 채용하는 경우, α를 이들 값으로부터 적절히 변경하면 된다. 예를 들면, 바크 척도의 경우, 12kHz에서는, 여기서 α=0.51을 채용하고 있다.
다음에, 수학식 7로 표시되는 올패스 필터의 출력 신호 yi[n]과, 예측값(수학식 4 참조)과의 전체 자승 오차 ε을 최소화하도록 최소 자승법 연산부(213)에 있어서, 최소 자승법을 이용하여 계수(수학식 8 참조)를 구할 수 있다.
여기서, p는 예측 계수의 차수로서, p는 미리 예비 실험적으로 신호 압축의 계산량을 고려하여 그 값을 설정해두는 것이 좋은데, 입력 신호와 음성 신호의 경우, 예를 들면 8 내지 14 등으로, 또한 입력 신호가 오디오 신호의 경우, 예를 들면 10 내지 20 등으로 설정해 두는 것이 좋다.
단, 수학식 9 내지 수학식 10를 참조하는 것으로 한다.
그런데, 수학식 7의 전체 자승 오차 ε을 최소화하는, 멜화한 선형 예측 계수는 다음의 정규 방정식(수학식 11 참조)에 의해 주어진다.
단, 계수(수학식 12 참조)는 멜 주파수축상(멜 주파수 영역)에서의 자기 상관 함수(멜 자기 상관 함수)이며, 다음 수학식 13에 의해 주어진다.
여기서, 수학식 12은 퍼시벌의 정리에 의해, 직선 주파수축상에서의 스펙트럼(수학식 14 참조)과, 수학식 15에 의해 관계지어진다. 단, ()는 주파수 영역에서의 수열을 나타낸다.
또한, 수학식 15를 멜 주파수축상에서의 형태로 리라이트하면, 수학식 16와같이 된다.
단, 수학식 17을 참조하는 것으로 한다.
이 수학식 17은 수학식 6으로 표시되는 올패스 필터를 퓨리에 변환함으로써 얻어진다.
수학식 16는 멜 자기 상관 함수(수학식 12 참조), 멜 주파수축상에서의 파워 스펙트럼의 역퓨리에 변환과 동등하다는 것을 의미한다. 따라서, 수학식 11의 계수 행렬은 토플리쯔(Toeplitz)형의 자기 상관 행렬로 되며, 간단한 점화식(漸化式)에 의해 멜화한 선형 예측 계수를 구할 수 있게 된다.
이하, 멜화한 선형 예측 계수를 구하기 위한 실제의 계산 순서를 나타내며, 그 흐름을 도 4에 도시한다.
(단계 1)
단계 S1에 있어서 입력 신호 x[n]을 얻고, 단계 S2에 있어서 i단의 올패스필터에 통과킴으로써, 단계 S3에 있어서 얻은 출력 신호 yi[n]을 다음 수학식 18에 의해 구한다. 단 수학식 10을 참조한다.
(단계 2)
단계 S4에 있어서 입력 신호 x[n]과 각 단의 필터 출력 신호 yi[n]의 다음 수학식 19과 같은 승산합을 연산함으로써, 단계 S5에 있어서 멜 주파수축상의 자기 상관 함수를 얻는다. 이 때, 멜 자기 상관 함수(수학식 12 참조)는 수학식 16의 관계로부터 올패스 필터의 단수차(수학식 19 참조)에만 의존하고 있기 때문에, 다음의 수학식 20과 같이, N항의 승산합 연산에 의해 계산할 수 있어, 연산 절단(truncation)에 의한 근사값을 구할 필요가 없다. 또, 이 수학식 20은 수학식 10 및 수학식 18을 이용하여 수학식 13을 변형함으로써 얻어지는 것이다.
즉, 이 수학식 20으로부터 알 수 있는 바와 같이, 이 계산은 수학식 13에 표시된, 통상의 계산 방법이라면, 본래 무한 회수의 계산을 필요로 했던 것이 유한 회수의 계산만으로 종료되기 때문에, 방대한 계산을 필요로 하지 않는다. 또한, 무한 회수의 연산을 수행하는 대신에 유한 회수의 연산에서 연산을 절단하는 경우에 필요한 파형 절단 등의 근사(近似)를 전혀 필요로 하지 않아, 파형 절단에 따르는 오차는 전혀 발생하지 않는다. 또한, 그 계산량은 통상의 자기 상관 계수의 약 2배의 계산량으로 완료되므로, 파형으로부터 직접 구하는 것이 가능하다. 이 점은 수학식 13에 표시된, 종래의 계산법과는 결정적으로 상이한 중요한 점이다.
(단계 3)
단계 S6에 있어서, 멜 자기 상관 함수(수학식 12 참조)를 이용하여 수학식 11의 정규 방정식을, 이미 공지된 알고리즘, 예를 들면 더빈(Durbin)의 방법 등으로 풀어, 단계 S7에서 멜화된 선형 예측 계수(멜 선형 예측 계수)를 구한다.
다음에, 포락 산출부(22)의 개략을 도 6에 도시한다. 이 도 6에 있어서, (221)은 멜화 선형 예측 계수에 대하여 역 멜 변환을 실행하여 직선 주파수의 선형 예측 계수를 출력하는 역 멜 변환부, (222)는 직선 주파수의 선형 예측 계수를 퓨리에 변환하여 스펙트럼 포락을 출력하는 FFT부이다.
다음에, 이 도 6을 이용하여, 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수(수학식 8 참조)로부터 스펙트럼 평탄화를 위해 이용하는 직선 주파수의 스펙트럼 포락을 구하는 방법을 설명한다. 우선, 역 멜 변환부(221)에 있어서, 멜화한 선형 예측 계수(수학식 8 참조)로부터 다음 수학식 21로 표시되는 역 멜 변환에 의해, 직선 주파수의 선형 예측 계수(수학식 22 참조)를 구한다.
실제로 수학식 21을 풀기 위해서는, 이미 잘 알려진 오펜하임(Oppenheim)의 점화식을 계산함으로써 풀 수 있다.
여기서, 올패스 필터(수학식 23 참조)는 수학식 6에 있어서 α를 -α로 치환한 수학식 24의 올패스 필터를 이용하여야 한다.
이에 따라, 멜 주파수로부터 선형 주파수로 변환된 예측 계수를 구하는 것이 가능해진다. 또한, FFT부(222)에 있어서, 이 직선 주파수의 선형 예측 계수(수학식 22 참조)로부터 FFT를 이용하여, 스펙트럼 평탄화를 위해 이용하는 직선 주파수의 스펙트럼 포락 S(ejα)를 다음 수학식 25에 의해 구할 수 있다.
다음에, 정규화부(3)에서는, 상기에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락으로 제산하여 정규화함으로써 주파수 특성 신호 계열을 평탄화한다. 정규화부(3)에서 평탄화된 주파수 특성 신호 계열은, 파워 정규화부(4)에 있어서 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 더 실행된다.
그런데, 음성 신호 압축에서는, 이 정규화부(3)와 마찬가지의 스펙트럼 포락에 의한 정규화를 실행하고 있다. 즉, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient) 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분과 주파수 특성이 평탄화된 잔차 신호로 분리하고 있는데, 이것은 다시말해, 상기 실시예와 같이 스펙트럼 포락 성분에 의한 주파수상에서의 제산 처리와 등가의 처리이며, 또한 선형 예측 분석에 의해 구한 선형 예측 계수나 LSP 계수, 혹은 PARCOR 계수 등의 스펙트럼 포락 성분을 이용하여 시간축상에서의 역 필터링 처리를 하는 것과도 등가이다.
그래서, 본 발명와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수나,혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해, 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법으로, 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리함으로써 음성 신호를 압축하는 것이 가능하다.
한편, 청각 가중 계산부(6)에는, 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과, 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락이 입력되고, 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열의 스펙트럼에 대하여, 최소 가청 한계 특성이나 청각 마스킹 특성 등의 인간의 청각적인 성질인 청각 감도 특성에 근거하여 이 청각 감도 특성을 고려한 특성 신호를 산출하고, 또한 이 특성 신호와 스펙트럼 포락에 근거하여 양자화에 이용하는 가중 계수를 구한다.
파워 정규화부(4)로부터 출력된 잔차 신호는, 다단 양자화부(5)의 제 1 단의 양자화부(51)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용해 양자화되고, 제 1 단의 양자화부(51)에서의 양자화에 의한 양자화 오차 성분이, 다단 양자화부(5)의 제 2 단 양자화부(52)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용하여 양자화되며, 이하 마찬가지로 하여 복수단의 양자화부 각각에 있어서, 전단의 양자화부에서의 양자화에 의한 양자화 오차 성분이 양자화된다. 이들 각 양자화부는 양자화 결과적으로 코드를 출력한다. 그리고, 제 (N-1) 단의 양자화부에서의 양자화에 의한 양자화 오차 성분에 대하여, 제 N 단의 양자화부(53)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용해 양자화가 실행됨에 따라, 오디오 신호의 압축 부호화가 완료된다.
이와 같이, 본 실시예 1에 의한 오디오 신호 압축 방법 및 오디오 신호 압축 장치에 따르면, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 정규화부(3)에서, 인간의 청각적인 성질인 청각 감도 특성에 따라서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용해 정규화하는 구성으로 하였기 때문에, 정확하게 주파수 특성 신호 계열의 평탄화를 실행할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
또한, 다단 양자화부(5)에서 벡터 양자화할 때의 부담이 줄어들어, 효율적인 양자화를 실행할 수 있다. 벡터 양자화에서는, 소정의 한정된 정보(코드)로 주파수 특성 신호 계열을 표현하기 때문에, 주파수 특성 신호 계열의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다.
그래서, 본 발명에서는 주파수 특성 신호 계열의 형상을 단순화하기 위하여, 주파수 특성 신호 계열의 개략 형상을 표현하고 있는 스펙트럼 포락을 이용하여 정규화하고 있지만, 이 개략 형상으로서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확하게 주파수 특성 신호 계열의 형상을 단순화할 수 있어, 효율적인 양자화를 실행할 수 있다.
또한, 다단 양자화부(5)의 복수단의 벡터 양자화부(51∼53)에서, 청각 가중 계산부(6)에 있어서 입력 오디오 신호의 스펙트럼, 인간의 청각적인 성질인 청각 감도 특성, 및 인간의 청각적인 성질인 청각 감도 특성에 따라서, 주파수마다 분석정밀도를 변화시킨 스펙트럼 포락에 근거하여 산출된 주파수상의 가중 계수를 양자화시의 가중으로서 이용하여 벡터 양자화를 실행하는 구성으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적인 양자화를 실행할 수 있다.
또, 멜화 계수 산출부(21)는, 입력 신호로부터, 멜 선형 예측 분석을 이용하여 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수를 구하는 부분이지만, 이하와 같은 방법을 이용하여 구하여도 무방하다. 즉, 입력 신호에 대하여, 올패스 필터를 이용해 주파수축을 신축시킴으로써 주파수 신축 신호를 구하고, 이 주파수 신축 신호에 대하여 통상의 선형 예측 분석을 실행함으로써 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 방법이다. 이하, 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수를 추정하는 방법에 대하여 설명한다.
우선, 입력 신호 x[n]를 수학식 26에 의해 주파수축을 멜 주파수로 변환한 출력 신호(수학식 27 참조)를 구한다.
여기서, 올패스 필터(수학식 28 참조)는 수학식 6으로 표현된다.
다음에, 이 출력 신호(수학식 27 참조)에 대하여 통상의 선형 예측 분석을 실행함으로써 멜화된, 즉 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수(수학식 29 참조)를 구할 수 있다.
실제로 수학식 26을 풀기 위해서는, 이미 잘 알려진 오펜하임 점화식을 계산함으로써 풀 수 있다. 멜화 계수 산출부(21)에서는, 이러한 방법으로 구한 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수를 이용하여도 무방하다.
또한, 스펙트럼 포락 산출부(2)는 입력 신호로부터 직접 올패스 필터를 이용하여 주파수축을 신축시킴으로써 주파수 신축 신호를 구하는 것으로, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 방법 이외에, 입력 신호의 파워 스펙트럼을 주파수축상에서 재표본화, 즉 보간 처리를 실행함으로써 주파수축을 신축시킨, 즉 멜 변환한 파워 스펙트럼을 구해 두고, 이것을 역 DFT함으로써, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것도 가능하다.
또한, 스펙트럼 포락 산출부(2)는, 입력 신호로부터 구한 자기 상관 함수를 m단의 올패스 필터를 통과시켜 주파수축을 신축시킨 자기 상관 함수를 구하고, 이 자기 상관 함수로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는것도 가능하다.
또, 도 1의 오디오 신호 압축 장치에서는, 청각 가중 계산부(6)가 가중 계수의 산출에 스펙트럼 포락을 이용하는 구성으로 하고 있지만, 입력 오디오 신호의 스펙트럼과, 인간의 청각적인 성질인 청각 감도 특성만을 이용하여, 가중 계수를 산출하도록 하여도 무방하다.
또한, 도 1의 오디오 신호 압축 장치에서는, 다단 양자화부(5)의 복수단의 벡터 양자화부 모두가 청각 가중 계산부(6)에 있어서 구해진 청각 감도 특성에 근거한 가중 계수를 이용하여 양자화하도록 하고 있지만, 다단 양자화부(5)의 복수단의 벡터 양자화기 중 어느 1개가 청각 감도 특성에 근거한 가중 계수를 이용하여 양자화를 실행하는 것이면, 이러한 청각 감도 특성에 근거한 가중 계수를 이용하지 않는 경우에 비하여 효율적인 양자화를 실행할 수 있다.
또한, 도 1의 오디오 신호 압축 장치에서는, 압축해야 할 신호가 오디오 대역의 신호인 것으로 하여 설명하였지만, 이것을 음성 대역의 신호로 하여도 무방하며, 이 경우 도 1의 장치가 그대로 음성 신호 압축 장치로 된다.
또한, 도 1의 오디오 신호 압축 장치에서는, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하도록 하였지만, 올패스 필터의 α값을 적절히 변경함으로써, 도 1의 블럭 구성 그대로 바크 척도에 근거하여 신호를 압축하는 오디오 신호 압축 장치에 장치 변경을 가할 수 있다.
(실시예 2)
도 7은 본 발명의 실시예 2에 의한 음성 인식 장치의 구성을 나타내는 블럭도이다. 동 도면에 있어서, (7)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 음성으로부터 주파수마다 분해능을 변화시킨 멜 선형 예측 계수를 프레임마다 산출하는 멜 선형 예측 분석부이다. (8)은 멜 선형 예측 분석부(7)에서 산출된 멜 선형 예측 계수를 켑스트럼 계수로 변환하는 켑스트럼 계수 산출부이다. (9)는, 켑스트럼 계수 산출부(8)에서 산출된 켑스트럼 계수의 시계열과, 미리 준비한 단어나 음운 등의 복수의 표준 모델 사이의 유사도를 산출하여, 가장 유사도가 큰 단어나 음운을 인식하는 음성 인식부이다. 또, 이 음성 인식부(9)는 특정 화자 인식을 하는 것이어도 좋고, 불특정 화자 인식을 하는 것이어도 좋다.
다음에 상세한 동작에 대하여 설명한다. 우선, 입력된 디지탈 음성(이하, 「입력 신호」라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다 멜 선형 예측 분석부(7)에서 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 멜 선형 예측 계수가 산출된다. 이하, 멜 선형 예측 분석부(7)의 동작에 대하여 설명한다.
우선, 멜 선형 예측 분석부(7)의 개략을 도 7에 도시한다. 도 7을 이용하여 주파수마다 분해능을 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수의 산출 방법을 설명한다. 우선 본 실시예 2에서는, 예측 모델로서 단위 지연 z-1을 1차의 올패스 필터(수학식 30 참조)로 치환한 모델(수학식 31 참조)을 이용한다.
단, 상기 수학식 32는 멜 선형 예측 계수, α는 선형 예측 분석의 분해능을 주파수마다 변화시키기 위한 신축 계수이다. 올패스 필터의 주파수 특성은, 도 5에 이미 도시되어 있다. 예를 들어, 신축 계수로서는, 샘플링 주파수가 8kHz에서는 α=0.31, 10kHz에서는 α=0.35, 12kHz에서는 α=0.41, 16kHz에서는 α=0.45, 44.1kHz에서는 α=0.6∼0.7 등의 값을 이용하면 좋다.
여기서, 길이 N의 유한 길이 파형 x[n](n=0. …, N-1)에 대한 예측 오차를 수학식 33과 같이 무한 구간에 걸친 전체 자승 예측 오차에 의해 평가한다.
이 때, 수학식 34를 참조하는 것으로 하며, 또한 yi[n]을, 입력 신호 x[n]을i단의 올패스 필터에 통과시킨 출력 파형으로 하면, yi[n]의 예측값(수학식 35 참조)은 다음 수학식 36과 같은 선형 결합으로 표현된다.
이에 따라, 예측 오차를 최소로 하는 계수(수학식 32 참조)는 다음 수학식 37의 연립 방정식에 의해 주어진다.
단, φij는 무한 길이 파형 yi[n]과 yj[n]의 공통 분산이지만, 퍼시벌의 정리 및 올패스 필터(수학식 38 참조)를 퓨리에 변환한, 주파수축상에서의 표현을 이용함으로써, φij는 다음 수학식 39와 같이 유한 회수의 승산합 연산에 의해 주어진다.
또한, 수학식 40과 같이 해두면, r[m]은 자기 상관 함수로서의 성질을 갖는 것을 나타낼 수 있어, 수학식 41의 안정성도 보증된다.
또한, 수학식 39로부터 알 수 있는 바와 같이, 이 계산은 수학식 39의 중간변에 표시된 통상의 계산 방법이면 본래 무한 회수의 계산을 필요해야할 것이, 수학식 39의 우변에 표시된 유한 회수의 계산으로 종료되기 때문에, 방대한 계산을 필요로 하지 않는다. 또한, 무한 회수의 연산을 실행하는 대신에 유한 회수의 연산으로 연산을 절단하는 경우 필요한 파형의 절단 등의 근사를 전혀 필요로 하지 않으며, 파형 절단에 따르는 오차는 전혀 발생하지 않는다. 또한, 그 계산량은 통상의 자기 상관 계수의 수배의 계산량이면 되기 때문에, 파형으로부터 직접 구하는 것이 가능하다.
이 점은, 종래의 계산법과는 결정적으로 다른 중요한 점이다.
이하, 멜 선형 예측 계수를 구하기 위한 실제의 계산의 순서를 도 8에 도시한다. 이 부분은 실시예 1의 도 3과 마찬가지이며, 도 8에 있어서 (71)은 입력 신호의 주파수축을 신축시키는 올패스 필터, (72)는 이 올패스 필터(71)의 출력 신호와 예측 계수의 선형 결합을 작성하여, 올패스 필터(71)의 입력 신호 예측값을 출력하는 선형 결합부, (73)은 선형 결합부(72)로부터 출력되는 예측값과 입력 신호에 대하여 최소 자승법을 적용해 멜화 선형 예측 계수를 출력하는 최소 자승법 연산부이다.
다음에, 이 도 8을 이용하여 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수의 추정 방법을 설명한다.
(단계 1)
입력 신호 x[n]을 i단의 올패스 필터(71)에 통과시켜 얻은 출력 신호 yi[n]을 다음 수학식 42에 의해 구한다. 단, 여기서 수학식 10을 참조하기로 한다.
(단계 2)
선형 결합부(72)에 있어서, 입력 신호 x[n]과 각 단의 필터 출력 신호yi[n]의 다음 수학식 43과 같은 승산합에 의해, 멜 주파수축상의 자기 상관 함수를 구한다. 이 때 멜 자기 상관 함수(수학식 12 참조)는 수학식 16의 관계로부터 올패스 필터의 단수차(수학식 43 참조)에만 의존하고 있기 때문에, 다음 수학식 44와 같이 절단하여 근사시키는 일 없이, N항의 승산합 연산에 의해 계산할 수 있다.
(단계 3)
최소 자승법 연산부(73)에 있어서, 멜 자기 상관 함수(수학식 12 참조)를 이용하여 수학식 11의 정규 방정식을, 이미 공지된 알고리즘, 예를 들면 더빈 방법 등으로 풀어, 멜화한 선형 예측 계수(멜 선형 예측 계수)를 구한다.
이상과 같이 하여 구한 멜 선형 예측 계수(수학식 32 참조)로부터, 켑스트럼 연산 산출부(8)에서 켑스트럼 계수로 변환한다. 켑스트럼 계수로의 변환 방법은 이미 공지된 것으로, 예를 들면 문헌(시카노 기요히로, 나카무라 테츠, 이세 후미로 저,「음성·음정보의 디지탈 신호 처리」, 쇼코도, p10∼16)에 상세히 기재되어 있으며, 멜 선형 예측 계수를 통상의 선형 예측 계수와 동일하게 취급하여 변환하면 된다. 그 결과, 멜 주파수축상에서의 켑스트럼 계수를 구할 수 있다.
이렇게하여 산출된 켑스트럼 계수(이하, 멜 LPC 켑스트럼 계수라고 칭함)의 시계열은, 음성 인식부(9)에 있어서 미리 준비한 단어나 음운 등의 복수의 표준 모델 사이의 유사도를 산출하여, 가장 유사도가 큰 단어나 음운을 인식한다.
표준 모델로서는, 복수의 인식 대상 어휘마다의 특징량의 시계열을 확률적인 천이로서 표현하는 히든 마르코프 모델(HMM)이라고 불리는 방법이 있는데, 이미 폭넓게 공지되어 이용되고 있다(예를 들면, 나카가와 세이치:"확률 모델에 의한 음성 인식", 전자 정보 통신 학회편). HMM이란, 미리 개인차에 의한 음운이나 단어의 특징량의 시계열을 HMM 모델에 학습시켜 두고, 입력 음성이 모델에 확률값으로서 어느 정도 가까운지를 파악하여 인식하는 방법이다. 본 실시예에서는, 이 특징량의 시계열로서 전술한 멜 LPC 켑스트럼 계수의 시계열을 이용한다.
또한, 표준 모델로서는, 복수의 인식 대상 어휘마다의 특징량의 시계열 중 대표적인 특징량의 시계열을 모델로 하여도 무방하며, 또한 특징량의 시계열을 시간적 혹은 주파수적으로 정규화(신축)함으로써 얻어지는 특징량의 정규화 시계열을 이용하여도 무방하다. 예를 들면, 시간축상에서 임의의 길이로 정규화하는 방법으로서 DP 매칭(dynamic programming;동적 계획법)이 있으며, 미리 결정한 대응 규칙에 따라서, 시간적 특징량의 시계열을 정규화하는 것이 가능하다.
본 실시예에서는, 이와 같이 어떠한 경우의 표준 모델을 사용하더라도, 특징량의 시계열로서 전술한 멜 LPC 켑스트럼 계수의 시계열을 이용하면 되기 때문에, 아무런 문제는 없다.
그런데 본 실시예에서는, 입력 음성으로부터 구한 특징량의 시계열로서, 멜LPC 켑스트럼 계수를 이용하여 인식하였지만, 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜 선형 예측 계수로부터 구할 수 있는 멜 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지의 방법에 의해 멜 선형 예측 계수로부터 구할 수 있는 멜 LSP 계수를 음성 인식에 이용하는 것도 가능하다. 또한, 이들 멜 선형 예측 계수로부터 구해지는 멜 선형 예측 계수, 멜 PARCOR 계수, 멜 LSP 계수, 멜 LPC 켑스트럼 계수 등은, 음성 인식뿐만 아니라 음성 합성이나 음성 부호화 등의 폭넓은 분야에서, 종래의 선형 예측 분석으로부터 구해지는 선형 예측 계수, PARCOR 계수, LSP 계수, LPC 켑스트럼 계수 등으로 대체하여 사용할 수 있다.
또, 본 실시예에 있어서, 멜 선형 예측 분석부(7)는, 입력 신호로부터, 멜 선형 예측 분석을 이용하여 주파수마다 분해능을 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수를 구하는 것으로 하였지만, 실시예 1과 마찬가지 방법을 이용하여 구하여도 무방하다. 즉, 입력 신호를 올패스 필터를 이용하여 주파수축을 신축시킴으로써 주파수 신축 신호를 구하고, 이 주파수 신축 신호에 대하여 통상의 선형 예측 분석을 실행함으로써 주파수마다 분해능을 변화시킨 스펙트럼 포락을 구하는 방법이다.
이와 같이 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 멜 선형 예측 분석에 의해, 청각 감도 특성에 따라서 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 특징량을 구함으로써, 적은 특징량으로도 효율적으로 스펙트럼 포락의 특징을 파악할 수 있고, 또한 이 특징량을 음성 인식에 이용함으로써 종래보다도 적은 처리량으로 높은 인식 성능을 실현할 수 있다.
(실시예 3)
도 9는 본 발명의 실시예 3에 의한 오디오 신호 압축 장치의 구성을 나타내는 블럭도이다. 본 실시예에 의한 오디오 신호 압축 장치는, 주로 음성 등의 협(狹)대역 신호 압축에 있어서 이용되고 있는 음성 신호 압축 장치에 대하여 설명한 것이다. 동 도면에 있어서, (11)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 프레임마다 구하는 멜 파라미터 산출부이다. (12)는 멜 파라미터 산출부(1)에서 구한 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환부이다. (13)은 입력 오디오 신호를 파라미터 변환부(2)에서 구한 특징량에 의해 역 필터링하여 정규화함으로써 잔차 신호를 산출하는 포락 정규화부, (14)는 포락 정규화부(13)에서 산출한 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (15)는 파워 정규화부(14)에서 정규화된 정규화 잔차 신호를 잔차 코드북(16)에 의해 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부이다.
다음에 동작에 대하여 설명한다. 입력된 음성 등의 디지탈 오디오 신호(이하, 입력 신호 혹은 입력 음성이라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다, 멜 파라미터 산출부(11)에서, 예측 모델에 주파수 신축을 조합한 멜 선형예측 분석에 의해, 입력 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수가 구해진다. 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하는 부분은, 실시예 1의 멜화 계수 산출부(21)에서 설명한 방법과 동일하므로, 마찬가지의 순서로 스펙트럼 포락을 표현하는 특징량을 구할 수 있다.
다음에, 파라미터 변환부(12)에서는, 멜 파라미터 산출부(11)에서 산출된 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량으로 변환한다. 이 부분도, 실시예 1에서 설명했던 방법과 동일하므로, 포락 산출부(22)와 마찬가지의 방법으로 실현할 수 있다. 그런데 주로 음성 신호의 압축에 있어서, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써 LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient) 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분을 나타내는 특징량을 구하고, 이 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하고 있다. 그래서 본 실시예와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수를 정규화를 위한 특징량으로서 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리하면, 보다 정밀도 높은정규화나 분리가 가능해진다.
마찬가지로, 본 실시예의 포락 정규화부(13)에서는, 파라미터 변환부(12)에서 변환된 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량을 이용해 역 필터링하고, 스펙트럼 포락 성분을 정규화하여 잔차 신호를 산출하고 있다.
또한 파워 정규화부(14)에서는, 포락 정규화부(3)에 의해 구해진 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 실행된다.
그리고 벡터 양자화부(15)에서는, 파워 정규화부(14)로부터 출력된 잔차 신호가, 미리 구해 놓은 잔차 코드북(16)을 이용하여 벡터 양자화된다. 그 결과, 벡터 양자화부(15)는 양자화 결과로서 코드를 출력함으로써 입력 신호의 압축 부호화가 완료된다.
이와 같이, 본 실시예에 의한 오디오 신호 압축 방법 및 오디오 신호 압축 장치에 따르면, 멜 파라미터 산출부(1)에 있어서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 인간의 청각적인 성질인 청각 감도 특성에 따라서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하고, 파라미터 변환부(2)에서, 이 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하며, 또한 포락 정규화부(3)에서, 파라미터 변환부(2)에 의해 구한 특징량으로 역 필터링하여 정규화함으로써, 잔차 신호를 정규화하는 구성으로 하였기 때문에, 정확히 주파수 특성 신호 계열의 평탄화를 실행할 수 있어, 효율적인 양자화를 실행할 수 있다. 또한, 벡터 양자화에서는 소정의 한정된 정보(코드)로 잔차 신호를 표현하기 때문에, 잔차 신호의 형상이 단순하면 단순할수록 보다 적은 코드로 표현할 수 있다. 그래서 본 발명에서는, 잔차 신호의 형상을 단순화하기 위하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확히 잔차 신호의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
(실시예 4)
도 10은 본 발명의 실시예 4에 의한 휴대 전화기의 구성을 나타내는 블럭도이다.
본 실시예에 의한 휴대 전화기는, 실시예 3에 있어서의, 주로 음성 등의 협대역 신호 압축에 있어서 이용되고 있는 음성 신호 압축 장치를 이용하여 신호를 압축하도록 한 것에 대하여 설명한 것이다. 동 도면에 있어서, (11)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 프레임마다 구하는 멜 파라미터 산출부이다. (12)는, 멜 파라미터 산출부(1)에서 구한 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환부이다. (13)은 입력 오디오 신호를 파라미터 변환부(2)에서 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하는 포락 정규화부, (14)는 포락 정규화부(13)에서 산출한 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는파워 정규화부이다. (15)는 파워 정규화부(14)에서 정규화된 정규화 잔차 신호를 잔차 코드북(16)에 의해 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부이다. (10)은 이들 멜 파라미터 산출부(11), 파라미터 변환부(12), 포락 정규화부(13), 파워 정규화부(14), 벡터 양자화부(15) 및 잔차 코드북(16)으로 이루어지며, 마이크로폰 등으로부터 입력되는 입력 음성 신호를, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 정보 압축하는 음성 압축부이다. (31)은 이 음성 압축부(10)에 의해 정보 압축된 코드를, 휴대 전화기의 사양에 따른 주파수 및 변조 방식의 고주파 신호로 변조하여 송신하는 송신부, (32)는 이 송신부(31)로부터의 고주파 신호를 송신하는 안테나이다.
다음에 동작에 대하여 설명한다. 음성 압축부(10)의 동작은 실시예 3에 의한 음성 신호 압축 장치와 마찬가지이다. 즉, 입력된 음성 등의 디지탈 오디오 신호(이하, 입력 신호 혹은 입력 음성이라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다, 멜 파라미터 산출부(11)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수가 구해진다. 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하는 부분은, 실시예 1의 멜화 계수 산출부(21)에서 설명한 방법과 동일하므로, 마찬가지의 순서로 스펙트럼 포락을 표현하는 특징량을 구할 수 있다.
다음에, 파라미터 변환부(12)에서는, 멜 파라미터 산출부(11)에서 산출된 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등 스펙트럼포락을 표현하는 특징량으로 변환한다. 이 부분도, 실시예 1에서 설명한 방법과 동일하므로, 포락 산출부(22)와 마찬가지의 방법으로 실현할 수 있다. 그런데 주로 음성 신호의 압축에 있어서, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient) 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분을 나타내는 특징량을 구하고, 이 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하고 있다. 그래서 본 실시예와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수를 정규화를 위한 특징량으로서 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리하면, 보다 정밀도 높은 정규화나 분리가 가능해진다.
마찬가지로, 본 실시예의 포락 정규화부(13)에서는, 파라미터 변환부(12)에서 변환된 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량을 이용해 역 필터링하여, 스펙트럼 포락 성분의 정규화함으로써 잔차 신호를 산출하고 있다.
또한, 파워 정규화부(14)에서는 포락 정규화부(3)에 의해 구해진 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 실행된다.
그리고 벡터 양자화부(15)에서는 파워 정규화부(14)로부터 출력된 잔차 신호가, 미리 구해 놓은 잔차 코드북(16)을 이용하여 벡터 양자화된다. 그 결과, 벡터 양자화부(15)는, 양자화 결과로서 코드를 출력함으로써 음성 신호의 압축 부호화가 완료된다.
그리고, 이와 같이 음성 압축부(10)에 있어서 압축 부호화된 음성 신호의 코드는 송신부(31)로 입력되고, 이 송신부(31)에 있어서, 휴대 전화기가 채용하고 있는 사양에 따른 주파수 및 변조 방식의 고주파로 변환되어, 안테나(32)를 거쳐 기지국으로 송신된다.
이와 같이, 본 실시예에 의한 휴대 전화기에 따르면, 멜 파라미터 산출부(1)에 있어서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 인간의 청각적인 성질인 청각 감도 특성에 따라 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하고, 파라미터 변환부(2)에 있어서, 이 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하며, 또한 포락 정규화부(3)에 있어서, 파라미터 변환부(2)에 의해 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 정규화하는 구성으로 하였기 때문에, 정확히 주파수 특성 신호 계열을 평탄화할 수 있어, 효율적인 양자화를 실행할 수 있다. 또한, 벡터 양자화에서는, 소정 한정된 정보(코드)로 잔차 신호를 표현하기 때문에, 잔차 신호의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다. 그래서 본 발명에서는, 잔차 신호의 형상을 단순화하기 위하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확하게 잔차 신호의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하게 된다.
이 때문에, 동일한 대역을 사용하는 것이면, 종래의 것에 비해 보다 통화 품질을 향상시킬 수 있고, 종래와 동등한 통화 품질일 경우, 보다 채널수를 증가시키는 것이 가능해진다.
또, 본 실시예는 휴대 전화기 이외에도, 자동차 전화기 등의 이동 통신에 적용할 수 있다.
(실시예 5)
도 11은 본 발명의 실시예 5에 의한 네트워크 기기의 구성을 나타내는 블럭도이다.
본 실시예에 의한 네트워크 기기는, 실시예 3에 있어서의, 주로 음성 등의 협대역 신호 압축에 있어서 사용하고 있는 음성 신호 압축 장치를 이용하여 신호를 압축시켜서, 이것을 인터넷 등의 네트워크를 거쳐 다른 네트워크 기기로 송신하는, 인터넷 전화 등을 상정하고 있는 것이다. 동 도면에 있어서, (11)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 프레임마다 구하는 멜 파라미터 산출부이다. (12)는 멜 파라미터 산출부(1)에 의해 구한 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환부이다. (13)은 입력 오디오 신호를 파라미터 변환부(2)에서 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하는 포락 정규화부, (14)는 포락 정규화부(13)에서 산출한 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (15)는 파워 정규화부(14)에서 정규화된 정규화 잔차 신호를 잔차 코드북(16)에 의해 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부이다. (10)은 이들 멜 파라미터 산출부(11), 파라미터 변환부(12), 포락 정규화부(13), 파워 정규화부(14), 스펙트럼 양자화부(15) 및 잔차 코드북(16)으로 이루어지며, 마이크로폰 등으로부터 입력되는 입력 음성 신호를, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 정보 압축하는 음성 압축부이다. (40)은 이 음성 압축부(10)에 의해 정보 압축된 코드를, 네트워크에 의해 음성 데이터의 전송용 코드로 변환하여 TCP/IP 프로토콜 등의 네트워크 사양에 따른 프로토콜에 따라 전송하는 네트워크 인터페이스부이다.
다음에 동작에 대하여 설명한다. 음성 압축부(10)의 동작은 실시예 3에 의한 음성 신호 압축 장치와 마찬가지이다. 즉, 입력된 음성 등의 디지탈 오디오 신호(이하, 입력 신호라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다, 멜 파라미터 산출부(11)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수가 구해진다. 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하는 부분은, 실시예 1의 멜화 계수 산출부(21)에서 설명한 방법과 동일하므로, 마찬가지 순서로 스펙트럼 포락을 표현하는 특징량을 구할 수 있다.
다음에, 파라미터 변환부(12)에서는, 멜 파라미터 산출부(11)에 의해 산출된 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량으로 변환한다. 이 부분 역시, 실시예 1에서 설명한 방법과 동일하므로, 포락 산출부(22)와 마찬가지 방법으로 실현할 수 있다. 그런데 주로 음성 신호의 압축에서는, 입력된 음성 신호의 시계열은 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient), 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분을 나타내는 특징량을 구하고, 이 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하고 있다. 그래서, 본 실시예와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수를 정규화를 위한 특징량으로서 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리를 하면, 보다 정밀도 높은 정규화나 분리가 가능해진다.
마찬가지로, 본 실시예의 포락 정규화부(13)에서는, 파라미터 변환부(12)에서 변환된 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량을 이용해 역 필터링하여, 스펙트럼 포락 성분의 정규화함으로써 잔차 신호를 산출하고 있다.
또한 파워 정규화부(14)에서는, 포락 정규화부(3)에서 구해진 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 실행된다.
그리고 벡터 양자화부(15)에서는, 파워 정규화부(14)로부터 출력된 잔차 신호가, 미리 구해 놓은 잔차 코드북(16)을 이용하여 벡터 양자화된다. 그 결과, 벡터 양자화부(15)는 양자화 결과로서 코드를 출력함으로써 음성 신호의 압축 부호화가 완료된다.
그리고, 이와 같이 음성 압축부(10)에 있어서 압축 부호화된 음성 신호의 코드는, 네트워크 인터페이스부(40)에 입력된 후, 이 네트워크 인터페이스부(40)에 있어서 음성 압축부(10)에 의해 정보 압축된 코드를, 네트워크에 의해 음성 데이터의 전송용 코드로 변환하여 TCP/IP 프로토콜 등의 네트워크의 사양에 따른 프로토콜에 따라 네트워크를 향해 송출한다.
이에 따라 본 실시예에 의한 네트워크 기기에 따르면, 멜 파라미터 산출부(11)에 있어서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 인간의 청각적인 성질인 청각 감도 특성에 따라서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하고, 파라미터 변환부(12)에서, 이 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하며, 또한 포락 정규화부(13)에서, 파라미터 변환부(12)에 의해 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 정규화하는 구성으로 하였기 때문에, 정확히 주파수 특성 신호 계열을 평탄화할 수 있어, 효율적인 양자화를 실행할 수 있다. 또한, 벡터 양자화에서는, 소정의 한정된 정보(코드)로 잔차 신호를 표현하기 때문에, 잔차 신호의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다. 그래서 본 발명에서는, 잔차 신호의 형상을 단순화하기 위하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확히 잔차 신호의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
이 때문에, 네트워크의 데이터 전송 속도가 동일할 경우, 종래의 것에 비해 통화 품질을 보다 향상시킬 수 있으며, 종래와 동등한 통화 품질일 경우, 수용할 수 있는 단말의 수를 보다 증가시킬 수 있다.
또, 본 실시예는 퍼스널 컴퓨터나 인터넷 전화기, 인터넷 TV 등의 인터넷 기기를 상정하고 있지만, 퍼스널 컴퓨터 통신 등, 인터넷 이외의 프로토콜을 이용하는 단말에도 적용할 수 있다.
(실시예 6)
도 12는 본 발명의 실시예 6에 의한 네트워크 기기의 구성을 나타내는 블럭도이다.
본 실시예에 의한 네트워크 기기는, 실시예 1에 있어서의, 주로 오디오 대역의 신호 압축에 있어서 이용되고 있는 오디오 신호 압축 장치를 이용하여 신호를 압축시키고, 이것을 인터넷 등의 네트워크를 거쳐 다른 네트워크 기기로 송신하는, 인터넷 기기 등을 상정하고 있는 것이다. 동 도면에 있어서, (1)은, 예를 들면 MDCT, 혹은 FFT 등에 의해 입력된 디지탈 오디오 신호나 음성 신호의 시계열을, 일정 주기의 길이(프레임)마다 주파수 특성 신호 계열로 변환하는 시간 주파수 변환부이다. 또한, (2)는 예측 모델에 주파수 신축 기능을 조합한 멜 선형 예측 분석을 이용하여, 입력 오디오 신호로부터, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 프레임마다 구하는 스펙트럼 포락 산출부이다. (3)은 시간 주파수 변환부(1)에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락 산출부(2)에 의해 구한 스펙트럼 포락으로 제산하여 정규화함으로써 주파수 특성을 평탄화하는 정규화부, (4)는 정규화부(3)에서 평탄화된 주파수 특성 신호 계열에 대하여, 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (5)는 정규화부(3), 파워 정규화부(4)에서 평탄화된 주파수 특성 신호 계열을 벡터 양자화하는 다단 양자화부이며, 이 다단 양자화부(5)는 서로 종렬 접속된 제 1 단의 양자화기(51), 제 2 단 양자화기(52), …, 제 N 단의 양자화기(53)를 포함한다. (6)은 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과 스펙트럼 포락 산출부(2)에 의해 구한 스펙트럼 포락을 입력으로 하여, 인간의 청각 감도 특성에 근거해 양자화부(5)에서의 양자화시에 이용하는 가중 계수를 구하는 청각 가중 계산부이다. (20)은 이들 시간 주파수 변환부(1), 스펙트럼 포락 산출부(2), 정규화부(3), 파워 정규화부(4), 양자화부(5) 및 청각 가중 계산부(6)로 이루어지며, 외부로부터 입력되는 입력 오디오 음성 신호를, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 정보 압축하는 오디오 신호 압축부이다. (41)은 이 오디오 신호 압축부(20)에 의해 정보 압축된 코드를, 네트워크에 의해 오디오 데이터의 전송용 코드로 변환하여, TCP/IP 프로토콜 등의 네트워크사양에 따른 프로토콜에 따라 전송하는 네트워크 인터페이스부이다.
다음에 동작에 대하여 설명한다. 오디오 신호 압축부(20)의 동작은 실시예 1에 의한 오디오 신호 압축 장치와 마찬가지이다. 즉, 입력된 디지탈 오디오 신호(이하, 입력 신호라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다 시간 주파수 변환부(1)에서 MDCT, FFT 등에 의해 주파수 특성 신호 계열로 변환된다.
또한 입력 신호는, 프레임마다 스펙트럼 포락 산출부(2)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락이 구해진다.
다음에, 정규화부(3)에서는, 상기에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락으로 제산하여 정규화함으로써, 주파수 특성 신호 계열을 평탄화한다. 정규화부(3)에서 평탄화된 주파수 특성 신호 계열은, 파워 정규화부(4)에서 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 더 실행된다.
한편, 청각 가중 계산부(6)에는 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과, 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락이 입력되고, 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열의 스펙트럼에 대해 최소 가청 한계 특성이나 청각 마스킹 특성 등의 인간의 청각적인 성질인 청각 감도 특성에 근거하여, 이 청각 감도 특성을 고려한 특성 신호를 산출하고, 또한 이 특성 신호와 스펙트럼 포락에 근거하여 양자화에 이용하는 가중 계수를 구한다.
파워 정규화부(4)로부터 출력된 잔차 신호는, 다단 양자화부(5)의 제 1 단의 양자화부(51)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용하여 양자화되고, 제 1 단의 양자화부(51)에서의 양자화에 의한 양자화 오차 성분이 다단 양자화부(5)의 제 2 단 양자화부(52)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용하여 양자화되며, 이하 마찬가지로 하여 복수단의 양자화부 각각에 있어서, 전단의 양자화부에서의 양자화에 의한 양자화 오차 성분의 양자화가 실행된다. 이들 각 양자화부는 양자화 결과로서 코드를 출력한다. 그리고, 제 (N-1) 단의 양자화부에서의 양자화에 의한 양자화 오차 성분에 대하여, 제 N 단의 양자화부(53)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용해 양자화가 실행됨에 따라, 오디오 신호의 압축 부호화가 완료된다.
그리고, 이와 같이 오디오 신호 압축부(20)에 있어서 압축 부호화된 음성 신호의 코드는 네트워크 인터페이스부(41)에 입력되고, 이 네트워크 인터페이스부(40)에 있어서 오디오 신호 압축부(20)에 의해 정보 압축된 코드를, 네트워크에 의해 오디오 데이터의 전송용 코드로 변환하여, TCP/IP 프로토콜 등의 네트워크의 사양에 따른 프로토콜에 따라 네트워크로 송출한다.
이와 같이, 본 실시예 6에 의한 네트워크 기기에 따르면, 정규화부(3)에서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을, 인간의 청각적인 성질인 청각 감도 특성에 따라 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용해 정규화하는 구성으로 하였기 때문에, 주파수 특성 신호 계열을 정확하게 평탄화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
또한, 다단 양자화부(5)에서 벡터 양자화할 때의 부담이 줄어들어, 효율적인 양자화를 실행할 수 있다. 벡터 양자화에서는, 소정의 한정된 정보(코드)로 주파수 특성 신호 계열을 표현하기 때문에, 주파수 특성 신호 계열의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다.
그래서, 본 발명에서는, 주파수 특성 신호 계열의 형상을 단순화하기 위하여 주파수 특성 신호 계열의 개략 형상을 표현하고 있는 스펙트럼 포락을 이용해 정규화하고 있지만, 이 개략 형상으로서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확하게 주파수 특성 신호 계열의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
또한, 다단 양자화부(5)의 복수단의 벡터 양자화부(51∼53)에 있어서, 청각 가중 계산부에서 입력 오디오 신호의 스펙트럼, 인간의 청각적인 성질인 청각 감도 특성 및 인간의 청각적인 성질인 청각 감도 특성에 따라, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락에 근거해 산출된 주파수상의 가중 계수를 양자화시의 가중으로서 이용하여 벡터 양자화를 실행하는 구성으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적인 양자화를 실행하는 것이 가능하다.
이와 같이, 오디오 신호의 효율적인 양자화를 실행하고 있기 때문에, 네트워크의 데이터 전송 속도가 동일할 경우, 종래의 것에 비해 오디오보다 품질을 보다 향상시킬 수 있으며, 종래와 동등한 오디오 품질일 경우, 수용할 수 있는 단말의 수를 보다 증가시킬 수 있다.
또, 본 실시예는 퍼스널 컴퓨터나 인터넷 TV 등의 인터넷 기기를 상정하고 있지만, 퍼스널 컴퓨터 통신 등, 인터넷 이외의 프로토콜을 이용하는 단말에도 적용하는 것이 가능하다.
이상과 같이, 본 발명(청구항 1)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하고, 상기 산출한 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 2)에 관한 오디오 신호 압축 방법에 따르면, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 3)에 관한 오디오 신호 압축 방법에 따르면, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 4)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 올패스 필터를 이용해 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하며, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 5)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용해 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하고, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 6)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용해 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 7)에 관한 오디오 신호 압축 방법에 따르면, 청구항 6에 기재된 오디오 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 8)에 관한 오디오 신호 압축 장치에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호를 주파수 영역 신호로 변환하는 시간 주파수 변환 수단과, 상기 입력 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 스펙트럼 포락 산출 수단과, 상기 시간 주파수 변환 수단에 의해 얻어진 주파수 영역 신호를, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 스펙트럼 포락으로 정규화하여 잔차 신호를 얻는 정규화 수단과, 상기 잔차 신호를 파워에 의해 정규화하는 파워 정규화 수단과, 상기 입력 오디오 신호의 스펙트럼과 인간의 청각적인 성질인 청각 감도 특성에 근거하여, 주파수상의 가중 계수를 산출하는 청각 가중 계산 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 잔차 신호가 입력되는, 종렬로 접속된 복수단의 벡터 양자화부를 갖고, 또한 그 중 적어도 1개의 벡터 양자화부가 상기 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 다단 양자화 수단을 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 9)에 관한 오디오 신호 압축 장치에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 오디오 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량에 의해 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 10 및 청구항 35)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 오디오 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 11 및 청구항 36)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 12 및 청구항 37)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 오디오 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 13 및 청구항 38)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 12 및 청구항 37에 기재된 오디오 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 14)에 관한 오디오 신호 압축 장치에 따르면, 청구항8에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단을 구성하는 복수단중의 복수의 벡터 양자화부는, 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 것이며, 상기 청각 가중 계산 수단은, 상기 복수의 벡터 양자화부 각각이 이용하는 개별적인 가중 계수를 산출하는 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고하는 효과가 있다.
또한, 본 발명(청구항 15)에 관한 오디오 신호 압축 장치에 따르면, 청구항 14에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단은, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 각 주파수 영역에서의 가중 계수로 하여, 상기 파워 정규화 수단에 의해 정규화된 잔차 신호의 양자화를 실행하는 제 1 단 양자화부와, 상기 스펙트럼 포락과 상기 제 1 단 양자화부의 양자화 오차 신호의 상관에 근거하여 산출된 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 1 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 2 단 양자화부와, 상기 청각 가중 계산 수단에서, 상기 시간 주파수 변환 수단에 의해 주파수 영역 신호로 변환된 입력 신호와 청각 특성에 의해 산출된 가중을, 상기 스펙트럼 포락, 상기 제 2 단 양자화부의 양자화 오차 신호, 상기 파워 정규화 수단에서 정규화된 상기 잔차 신호에 근거해 조정하여 구한 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 2 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 3 단 양자화부를 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 16)에 관한 음성 신호 압축 방법에 따르면, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 방법에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 17)에 관한 음성 신호 압축 방법에 따르면, 청구항 16에 기재된 음성 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 18)에 관한 음성 신호 압축 장치에 따르면, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 장치에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 19)에 관한 음성 신호 압축 장치에 따르면, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 음성 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻어지는 효과가 있다.
또한, 본 발명(청구항 20)에 관한 음성 신호 압축 장치에 따르면, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 음성 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치으를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 21)에 관한 음성 신호 압축 장치에 따르면, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 음성 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻을 수 있는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 22)에 관한 음성 신호 압축 장치에 따르면, 청구항 21에 기재된 음성 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 23)에 관한 음성 인식 방법에 따르면, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 선형 예측 분석법에 의해 스펙트럼 포락에 대응하는 특징량을 산출하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 24)에 관한 음성 인식 방법에 따르면, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 상기 특징량을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 25)에 관한 음성 인식 방법에 따르면, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한주파수상의 가중으로서, 멜 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는, 상기 특징량을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 26)에 관한 음성 인식 방법에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락을 구하는 방법으로서, 올패스 필터를 이용하여 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 특징량을 구하며, 상기 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 27)에 관한 음성 인식 방법에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용한 선형 예측 분석법에 의해 특징량을 구하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 28)에 관한 음성 인식 방법에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하여, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체나, 혹은 상기 멜 선형 예측 계수로부터 구해진 켑스트럼 계수를 나타내는 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 29)에 관한 음성 인식 방법에 따르면, 청구항 28에 기재된 음성 인식 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하는, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 30)에 관한 음성 인식 장치에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 선형 예측 계수를 산출하는 멜 선형 예측 분석 수단과, 상기 멜 선형 예측 분석 수단에 의해 얻어진 선형 예측 계수로부터 켑스트럼 계수를 산출하는 켑스트럼 계수 산출 수단과, 상기 켑스트럼 계수의 복수 프레임분과 복수의 표준 모델 사이의 거리를 산출하여, 어느 표준 모델과 유사한지 여부를 판정하는 음성 인식 수단을 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 31)에 관한 음성 인식 장치에 따르면, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력 음성을 올패스 필터를 이용하여 주파수축 신축시킴으로써 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행함으로써 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 32)에 관한 음성 인식 장치에 따르면, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 입력 음성으로부터 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 33)에 관한 음성 인식 장치에 따르면, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력된 음성으로부터 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 것이며, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 34)에 관한 음성 인식 장치에 따르면, 청구항 31에 기재된 음성 인식 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시예에 한정되는 것이 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

Claims (27)

  1. 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서,
    상기 입력된 오디오 신호와 해당 입력된 오디오 신호에 대해서 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 오디오 신호를 이용해서, 멜 주파수 축 상의 자기 상관 함수를 구하고,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하며,
    상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하거나, 또는 해당 멜 선형 예측 계수로부터 스펙트럼 포락을 구하고,
    상기 스펙트럼 포락을 이용해서, 상기 입력된 오디오 신호를, 프레임마다 평활화하는 것을 특징으로 하는 오디오 신호 압축 방법.
  2. 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서,
    상기 입력된 오디오 신호로부터, 일정 시간 길이의 오디오 신호를 페치하여 해당 일정 시간 길이의 오디오 신호를, 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하고,
    상기 입력된 오디오 신호와, 상기 각 단마다의 필터 출력 신호와의, 유한 회수 행하는 승산합(수학식 1)에 의해 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 멜 주파수 축 상의 자기 상관 함수를 구하며,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하거나, 또는 해당 멜 선형 계수로부터 스펙트럼 포락을 구하고,
    상기 스펙트럼 포락을 이용해서, 상기 입력된 오디오 신호를, 프레임마다 평활화하는 것을 특징으로 하는 오디오 신호 압축 방법.
    (수학식 1)
    단, φ(i,j)는 자기 상관 함수,
    x[n]은 입력 신호,
    y(i-j)[n]은 각 단마다의 필터 출력 신호임.
  3. 제 2 항에 있어서,
    상기 올패스 필터는, 1차의 올패스 필터인 것을 특징으로 하는 오디오 신호 압축 방법.
  4. 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서,
    상기 입력된 오디오 신호를 주파수 영역 신호로 변환시켜 출력하는 시간 주파수 변환 수단과,
    상기 입력된 오디오 신호와 해당 입력된 오디오 신호에 대해서 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 오디오 신호를 이용해서, 멜 주파수 축 상의 자기 상관 함수를 구하고, 해당 멜 주파수 축 상의 자기 상관 함수로부터 얻어지는 멜 선형 예측 계수를 스펙트럼 포락으로 하거나, 또는 해당 멜 선형 예측 계수로부터 스펙트럼 포락을 구하는 스펙트럼 포락 산출 수단과,
    상기 주파수 영역 신호를 상기 스펙트럼 포락으로 정규화해서, 잔차 신호를 얻는 정규화 수단과,
    상기 잔차 신호를 파워의 최대값 또는 평균값에 근거하여 정규화하고, 정규화 잔차 신호를 구하는 파워 정규화 수단과,
    상기 정규 잔차 신호를 잔차 코드북에 의해 벡터 양자화하여, 잔차 부호로 변환하는 벡터 양자화 수단을 구비하는 것을 특징으로 하는 오디오 신호 압축 장치.
  5. 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 방법에 있어서,
    상기 입력된 음성 신호로부터 일정 시간 길이의 음성 신호를 페치하고,
    해당 일정 시간 길이의 음성 신호를 복수단의 올패스 필터에 통과시켜, 각 단마다의 필터 출력 신호를 구하며,
    상기 입력된 음성 신호와, 상기 각 단마다의 필터 출력 신호와의, 유한 회수 행하는 승산합(수학식 3)에 의해 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 멜 주파수 축 상의 자기 상관 함수를 구하며,
    해당 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    해당 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하거나, 또는 해당 멜 선형 예측 계수로부터 스펙트럼 포락을 구하고,
    해당 스펙트럼 포락을 이용해서, 상기 입력된 음성 신호를 평활화하는 것을 특징으로 하는 음성 신호 압축 방법.
    (수학식 3)
    단, φ(i,j)는 자기 상관 함수,
    x[n]은 입력 신호,
    y(i-j)[n]은 각 단마다의 필터 출력 신호임.
  6. 제 5 항에 있어서,
    상기 올패스 필터는 1차의 올패스 필터인 것을 특징으로 하는 음성 신호 압축 방법.
  7. 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 장치에 있어서,
    상기 입력된 음성 신호와, 해당 입력된 음성 신호에 대해서 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 음성 신호를 이용해서, 멜 주파수 축 상의 자기 상관 함수를 구하고, 해당 멜 주파수 축 상의 자기 상관 함수로부터 얻어지는 멜 선형 예측 계수를 스펙트럼 포락을 표현하는 특징량으로 변환하는 특징량 산출 수단과,
    상기 입력된 음성 신호를 상기 특징량으로 역 필터링해서 정규화하여 잔차 신호를 얻는 포락 정규화 수단과,
    상기 잔차 신호를 파워의 최대값 또는 평균값에 근거하여 정규화하여, 정규화 잔차 신호를 구하는 파워 정규화 수단과,
    상기 정규화 잔차 신호를 잔차 코드북에 의해 벡터 양자화하여, 잔차 부호로 변환하는 벡터 양자화 수단을 구비하는 것을 특징으로 하는 음성 신호 압축 장치.
  8. 제 7 항에 있어서,
    상기 특징량 산출 수단은,
    상기 입력된 음성 신호로부터 일정 시간 길이의 음성 신호를 페치하고,
    상기 일정 시간 길이의 음성 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하며,
    상기 입력된 음성 신호와, 상기 각 단마다의 필터 출력 신호와의, 유한 회수 행하는 승산합(수학식 4)에 의해 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 멜 주파수 축 상의 자기 상관 함수를 구하며,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    상기 멜 선형 예측 계수를 스펙트럼 포락으로 표현하는 특징량으로 변환시키는 것을 특징으로 하는 음성 신호 압축 장치.
    (수학식 4)
    단, φ(i,j)는 자기 상관 함수,
    x[n]은 입력 신호,
    y(i-j)[n]은 각 단마다의 필터 출력 신호임.
  9. 제 8 항에 있어서,
    상기 올패스 필터는 1차의 올패스 필터인 것을 특징으로 하는 음성 신호 압축 장치.
  10. 입력된 음성 신호로부터 음성을 인식하는 음성 인식 방법에 있어서,
    상기 입력된 음성 신호로부터 일정 시간 길이의 음성 신호를 페치하고,
    해당 일정 시간 길이의 음성 신호를 복수단의 올패스 필터에 통과시켜, 각 단마다의 필터 출력 신호를 구하며,
    상기 입력된 음성 신호와, 상기 각 단마다의 필터 출력 신호와의, 유한 회수 행하는 승산합(수학식 5)에 의해 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 멜 주파수 축 상의 자기 상관 함수를 구하며,
    해당 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    해당 멜 선형 예측 계수로부터 스펙트럼 포락을 표현하는 특징량을 구하는 것을 특징으로 하는 음성 인식 방법.
    (수학식 5)
    단, φ(i,j)는 자기 상관 함수,
    x[n]은 입력 신호,
    y(i-j)[n]은 각 단마다의 필터 출력 신호임.
  11. 제 10 항에 있어서,
    상기 올패스 필터는 1차의 올패스 필터인 것을 특징으로 하는 음성 인식 방법.
  12. 입력된 음성 신호로부터 음성을 인식하는 음성 인식 장치에 있어서,
    상기 입력된 음성 신호와 해당 입력된 음성 신호에 대해서 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 음성 신호를 이용해서, 멜 주파수 축 상의 자기 상관 함수를 구하고, 해당 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하는 멜 선형 예측 분석 수단과,
    상기 멜 선형 예측 계수로부터 켑스트럼 계수를 산출하는 켑스트럼 계수 산출 수단과,
    상기 켑스트럼 계수의 복수 프레임분과, 복수의 표준 모델 사이의 거리를 산출하여, 해당 거리가 가장 짧은 것을 상기 복수의 표준 모델 중에서 가장 유사도가 큰 것으로 인식하는 음성 인식 수단
    을 구비하는 것을 특징으로 하는 음성 인식 장치.
  13. 제 12 항에 있어서,
    상기 멜 선형 예측 분석 수단은,
    상기 입력된 음성 신호로부터 일정 시간 길이의 음성 신호를 페치하고,
    해당 일정 시간 길이의 음성 신호를 복수단의 올패스 필터에 통과시켜, 각 단마다의 필터 출력 신호를 구하며,
    상기 입력된 음성 신호와, 상기 각 단마다의 필터 출력 신호와의, 유한 회수 행하는 승산합(수학식 6)에 의해 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 멜 주파수 축 상의 자기 상관 함수를 구하며,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하는 것을 특징으로 하는 음성 인식 장치.
    (수학식 6)
    단, φ(i,j)는 자기 상관 함수,
    x[n]은 입력 신호,
    y(i-j)[n]은 각 단마다의 필터 출력 신호임.
  14. 제 13 항에 있어서,
    상기 올패스 필터는 1차의 올패스 필터인 것을 특징으로 하는 음성 인식 장치.
  15. 제 2 항 또는 제 3 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용하여 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 오디오 신호 압축 방법.
  16. 제 4 항에 있어서,
    상기 스펙트럼 포락에 대해서, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하고, 청각 가중 부여 계수로 출력하는 청각 가중 부여 계산 수단을 구비하되,
    상기 벡터 양자화 수단은 상기 청각 가중 부여 계수를 이용해서 상기 정규 잔차 신호의 양자화를 행하는 것을 특징으로 하는 오디오 신호 압축 장치.
  17. 제 16 항에 있어서,
    상기 벡터 양자화 수단이 복수 종열로 접속된 복수의 해당 벡터 양자화 수단으로 구성되는 다중 양자화 수단으로,
    상기 다중 양자화 수단은 해당 다중 양자화 수단을 구성하는 적어도 하나의 상기 벡터 양자화 수단이 상기 가중 부여 계수를 이용해서 상기 잔차 신호의 양자화를 행하는 것을 특징으로 하는 오디오 신호 압축 장치.
  18. 제 4 항 또는 제 16 항 또는 제 17 항 중의 어느 한 항에 있어서,
    상기 스펙트럼 포락 산출 수단은,
    입력된 오디오 신호로부터 일정 시간 길이의 오디오 신호를 페치하고,
    상기 일정 시간 길이의 오디오 신호를 복수단의 올패스 필터에 통과시켜, 각 단마다의 필터 출력 신호를 구하며,
    상기 입력된 오디오 신호와, 상기 각 단마다의 필터 출력 신호와의, 유한 회수 행하는 승산합(수학식 2)에 의해 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 멜 주파수 축 상의 자기 상관 함수를 구하며,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하거나, 또는 해당 멜 선형 예측 계수로부터 스펙트럼 포락을 구하는 것을 특징으로 하는 오디오 신호 압축 장치.
    (수학식 2)
    단, φ(i,j)는 자기 상관 함수,
    x[n]은 입력 신호,
    y(i-j)[n]은 각 단마다의 필터 출력 신호임.
  19. 제 18 항에 있어서,
    상기 올패스 필터는 1차의 올패스 필터인 것을 특징으로 하는 오디오 신호 압축 장치.
  20. 제 18 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용하여, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 오디오 신호 압축 장치.
  21. 제 19 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용하여, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 오디오 신호 압축 장치.
  22. 입력된 음성 신호에 대해서 부호화를 행하고, 또한 그 정보량을 압축하는 음성 신호 압축 방법에 있어서,
    상기 입력된 음성 신호와 해당 입력된 음성 신호에 대해서 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 음성 신호를 이용해서, 멜 주파수 축 상의 자기 상관 함수를 구하고,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하거나, 또는 해당 멜 선형 예측 계수로부터 스펙트럼 포락을 구하고,
    상기 스펙트럼 포락을 이용해서 상기 입력된 음성 신호를 평활화하는 것을 특징으로 하는 음성 신호 압축 방법.
  23. 제 5 항 또는 제 6 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용해서, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 음성 신호 압축 방법.
  24. 제 8 항 또는 제 9 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용해서, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 음성 신호 압축 장치.
  25. 입력된 음성 신호로부터 음성을 인식하는 음성 인식 방법에 있어서,
    상기 입력된 음성 신호와 해당 입력된 음성 신호에 대해서 인간의 청각 감도 특성에 대응하는 주파수 축의 신축을 행한 음성 신호를 이용해서, 멜 주파수 축 상의 자기 상관 함수를 구하고,
    상기 멜 주파수 축 상의 자기 상관 함수로부터 멜 선형 예측 계수를 구하고,
    상기 멜 선형 예측 계수로부터 스펙트럼 포락을 표현하는 특징량을 구하는 것을 특징으로 하는 음성 인식 방법.
  26. 제 10 항 또는 제 11 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용해서, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 음성 인식 방법.
  27. 제 13 항 또는 제 14 항에 있어서,
    상기 올패스 필터의 필터 계수에 바크 척도 또는 멜 척도를 이용해서, 인간의 청각 감도 특성에 대응하는 주파수 상의 가중 부여를 행하는 것을 특징으로 하는 음성 인식 장치.
KR10-1998-0041659A 1997-10-03 1998-10-02 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치 KR100361883B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP27094597 1997-10-03
JP97-270945 1997-10-03
JP6500598 1998-03-16
JP98-065005 1998-03-16

Publications (2)

Publication Number Publication Date
KR19990036857A KR19990036857A (ko) 1999-05-25
KR100361883B1 true KR100361883B1 (ko) 2003-01-24

Family

ID=26406147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1998-0041659A KR100361883B1 (ko) 1997-10-03 1998-10-02 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치

Country Status (5)

Country Link
US (2) US6311153B1 (ko)
EP (1) EP0907258B1 (ko)
KR (1) KR100361883B1 (ko)
CA (1) CA2249792C (ko)
DE (1) DE69836785T2 (ko)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100391935B1 (ko) * 1998-12-28 2003-07-16 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
KR100333049B1 (ko) * 2000-01-25 2002-04-22 박종섭 심리 음향 캡스트럴 평균 차감법을 이용한 이동통신시스템에서의 음질 평가방법
US6868380B2 (en) * 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
JP3576941B2 (ja) * 2000-08-25 2004-10-13 株式会社ケンウッド 周波数間引き装置、周波数間引き方法及び記録媒体
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
KR20020052203A (ko) * 2000-09-08 2002-07-02 요트.게.아. 롤페즈 오디오 신호 압축
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
CA2537977A1 (en) * 2003-09-05 2005-03-17 Stephen D. Grody Methods and apparatus for providing services using speech recognition
BRPI0415464B1 (pt) * 2003-10-23 2019-04-24 Panasonic Intellectual Property Management Co., Ltd. Aparelho e método de codificação de espectro.
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
CA2551281A1 (en) * 2003-12-26 2005-07-14 Matsushita Electric Industrial Co. Ltd. Voice/musical sound encoding device and voice/musical sound encoding method
WO2006079349A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
WO2007083933A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
ATE447227T1 (de) * 2006-05-30 2009-11-15 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
KR100921869B1 (ko) 2006-10-24 2009-10-13 주식회사 대우일렉트로닉스 음원의 오류 검출 장치
JP2010513997A (ja) * 2006-12-08 2010-04-30 パトリック ジェイ ホール オンラインコンピュータ支援翻訳
US8983830B2 (en) * 2007-03-30 2015-03-17 Panasonic Intellectual Property Corporation Of America Stereo signal encoding device including setting of threshold frequencies and stereo signal encoding method including setting of threshold frequencies
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP4623124B2 (ja) * 2008-04-07 2011-02-02 ソニー株式会社 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
EP2301021B1 (en) 2008-07-10 2017-06-21 VoiceAge Corporation Device and method for quantizing lpc filters in a super-frame
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101764926B1 (ko) * 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
US8532985B2 (en) * 2010-12-03 2013-09-10 Microsoft Coporation Warped spectral and fine estimate audio encoding
US10026407B1 (en) 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
DK3122072T3 (da) 2011-03-24 2020-11-09 Oticon As Audiobehandlingsanordning, system, anvendelse og fremgangsmåde
RU2505868C2 (ru) * 2011-12-07 2014-01-27 Ооо "Цифрасофт" Способ встраивания цифровой информации в аудиосигнал
CN104221079B (zh) 2012-02-21 2017-03-01 塔塔顾问服务有限公司 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
PL3193332T3 (pl) * 2012-07-12 2020-12-14 Nokia Technologies Oy Kwantyzacja wektorowa
US10019983B2 (en) * 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
EP2891147B1 (en) * 2012-08-30 2020-08-12 Interactive Intelligence, INC. Method and system for predicting speech recognition performance using accuracy scores
US9591052B2 (en) 2013-02-05 2017-03-07 Apple Inc. System and method for providing a content distribution network with data quality monitoring and management
EP2954518B1 (en) * 2013-02-05 2016-08-31 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for controlling audio frame loss concealment
CN108922549B (zh) * 2018-06-22 2022-04-08 浙江工业大学 一种基于ip对讲***中音频压缩的方法
CN111210836B (zh) * 2020-03-09 2023-04-25 成都启英泰伦科技有限公司 一种麦克风阵列波束形成动态调整方法
US20210349883A1 (en) * 2020-05-05 2021-11-11 At&T Intellectual Property I, L.P. Automated, user-driven curation and compilation of media segments
CN112444742B (zh) * 2020-11-09 2022-05-06 国网山东省电力公司信息通信公司 一种继电保护通道监视预警***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
JPH07111462A (ja) * 1993-10-08 1995-04-25 Takayama:Kk 音声圧縮方法および装置
KR950024447A (ko) * 1994-01-18 1995-08-21 배순훈 다수개의 채널 및 프레임에 적응적으로 비트 할당하여 부호화하는 디지탈 오디오 부호화장치
EP0673013A1 (en) * 1994-03-18 1995-09-20 Mitsubishi Denki Kabushiki Kaisha Signal encoding and decoding system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04264599A (ja) 1991-02-20 1992-09-21 Hitachi Ltd 音声分析合成装置
JPH0435527A (ja) 1990-05-31 1992-02-06 Fujitsu Ltd 多段符号化・復号化方式
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
JPH07160297A (ja) 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JP3087814B2 (ja) 1994-03-17 2000-09-11 日本電信電話株式会社 音響信号変換符号化装置および復号化装置
JPH08123494A (ja) 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JP3353266B2 (ja) 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
JPH07111462A (ja) * 1993-10-08 1995-04-25 Takayama:Kk 音声圧縮方法および装置
KR950024447A (ko) * 1994-01-18 1995-08-21 배순훈 다수개의 채널 및 프레임에 적응적으로 비트 할당하여 부호화하는 디지탈 오디오 부호화장치
EP0673013A1 (en) * 1994-03-18 1995-09-20 Mitsubishi Denki Kabushiki Kaisha Signal encoding and decoding system

Also Published As

Publication number Publication date
KR19990036857A (ko) 1999-05-25
DE69836785T2 (de) 2007-04-26
EP0907258B1 (en) 2007-01-03
DE69836785D1 (de) 2007-02-15
CA2249792A1 (en) 1999-04-03
EP0907258A3 (en) 2004-01-02
EP0907258A2 (en) 1999-04-07
US20010044727A1 (en) 2001-11-22
CA2249792C (en) 2009-04-07
US6311153B1 (en) 2001-10-30
US6477490B2 (en) 2002-11-05

Similar Documents

Publication Publication Date Title
KR100361883B1 (ko) 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
US6871106B1 (en) Audio signal coding apparatus, audio signal decoding apparatus, and audio signal coding and decoding apparatus
JP4005154B2 (ja) 音声復号化方法及び装置
JPH09127990A (ja) 音声符号化方法及び装置
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
KR20090117876A (ko) 부호화 장치 및 부호화 방법
JPH10124092A (ja) 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
CN100585700C (zh) 语音编码装置及其方法
Yoshimura et al. Speaker-dependent WaveNet-based delay-free ADPCM speech coding
JP3351746B2 (ja) オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
EP0729132B1 (en) Wide band signal encoder
Villavicencio et al. Extending efficient spectral envelope modeling to mel-frequency based representation
WO1996004647A1 (en) Sensitivity weighted vector quantization of line spectral pair frequencies
JPH09230898A (ja) 音響信号変換符号化方法及び復号化方法
JPH08123490A (ja) スペクトル包絡量子化装置
Koishida et al. Spectral representation of speech based on mel‐generalized cepstral coefficients and its properties
JP4618823B2 (ja) 信号符号化装置及び方法
JP2899024B2 (ja) ベクトル量子化方法
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
Tan et al. Speech feature extraction and reconstruction
Yuan The weighted sum of the line spectrum pair for noisy speech
Martins et al. Comparison of parametric representations for hidden Markov models and multilayer perceptron recognizers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111019

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee