KR101812123B1 - 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 - Google Patents

음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 Download PDF

Info

Publication number
KR101812123B1
KR101812123B1 KR1020177025971A KR20177025971A KR101812123B1 KR 101812123 B1 KR101812123 B1 KR 101812123B1 KR 1020177025971 A KR1020177025971 A KR 1020177025971A KR 20177025971 A KR20177025971 A KR 20177025971A KR 101812123 B1 KR101812123 B1 KR 101812123B1
Authority
KR
South Korea
Prior art keywords
speech
auxiliary information
unit
voice
signal
Prior art date
Application number
KR1020177025971A
Other languages
English (en)
Other versions
KR20170107590A (ko
Inventor
기미타카 쓰쓰미
게이 기쿠이리
아쓰시 야마구치
Original Assignee
가부시키가이샤 엔.티.티.도코모
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 엔.티.티.도코모 filed Critical 가부시키가이샤 엔.티.티.도코모
Publication of KR20170107590A publication Critical patent/KR20170107590A/ko
Application granted granted Critical
Publication of KR101812123B1 publication Critical patent/KR101812123B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

음성 부호화에서의 패킷 손실에 있어서, 알고리즘 지연을 증가시키지 않고 음성 품질을 회복하는 것을 목적으로 한다. 음성 신호를 부호화하는 음성 신호 송신 장치는, 음성 신호를 부호화하는 음성 부호화부와, 예측 신호로부터 보조 정보를 산출하여 부호화하는 보조 정보 부호화부를 구비한다. 한편, 음성 부호를 복호하여 음성 신호를 출력하는 음성 신호 수신 장치는, 음성 패킷의 수신 상태로부터 패킷 손실을 검출하는 음성 부호 버퍼와, 음성 패킷 정상 수신 시에 음성 부호를 복호하는 음성 파라미터 복호부와, 음성 패킷 정상 수신 시에 보조 정보 부호를 복호하는 보조 정보 복호부와, 보조 정보 부호를 복호하여 얻어지는 보조 정보를 축적하는 보조 정보 축적부와, 음성 패킷 손실 검출 시에 음성 파라미터를 출력하는 음성 파라미터 분실 처리부와, 음성 파라미터로부터 복호 음성을 합성하는 음성 합성부를 구비한다.

Description

음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램{AUDIO CODING DEVICE, AUDIO CODING METHOD, AUDIO CODING PROGRAM, AUDIO DECODING DEVICE, AUDIO DECODING METHOD, AND AUDIO DECODING PROGRAM}
본 발명은, 음성 패킷을, IP 망이나 이동체 통신망 경유하여 전송할 때의 에러 은폐에 관한 것이며, 더욱 상세하게는, 에러 은폐를 실현하는, 고정밀도 패킷 손실 은폐 신호 생성을 위한 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램에 관한 것이다.
음성·음향 신호(이하 「음성 신호」라고 총칭함)를 IP 망이나 이동체 통신에 있어서 전송할 때는, 어떤 일정 시간 길이마다 음성 신호를 부호화하여 음성 패킷을 생성하고, 통신망을 경유하여 전송한다. 수신측에서는, 통신망을 통해 음성 패킷을 수취하고, 수신측의 서버, MCU(Multipoint Control Unit), 단말기 등에 있어서 복호하여, 복호 음성 신호로 한다.
음성 신호는, 통상, 디지털 형식으로 수음(收音)된다. 즉, 1초간당 샘플링 주파수와 같은 수의 수열(數列)로서 계측·축적한다. 이 수열의 각각의 요소(要素)를 샘플이라고 한다. 음성 부호화에 있어서는, 정해진 샘플수의 음성 신호가, 내장한 버퍼에 소정량 축적할 때마다 버퍼 내의 음성 신호를 부호화한다. 상기 소정의 샘플수를 프레임 길이라고 하고, 프레임 길이와 같은 수의 샘플의 집합을 프레임 길이라고 한다. 예를 들면, 32 kHz의 샘플링 주파수에 있어서, 프레임 길이를 20 ms로 한 경우, 프레임 길이는 640 샘플이다. 그리고, 버퍼의 길이는 1프레임보다 길어도 된다.
통신망을 통해 음성 패킷을 전송할 때는, 통신망의 폭주 상태 등에 기인하여, 일부의 음성 패킷이 없어지거나, 또는 음성 패킷에 기입된 정보의 일부에 에러가 생긴다는 현상(이른바 패킷 손실)이 일어날 수 있다. 그와 같은 경우에는, 수신측에 있어서 음성 패킷을 정확하게 복호할 수 없으므로, 원하는 복호 음성 신호를 얻을 수 없다. 또한, 패킷 손실이 생긴 음성 패킷에 대응하는 복호 음성 신호는 잡음으로서 지각되므로, 수청(受聽)하는 사람에 대하여 부여하는 주관 품질을 현저하게 손상시킨다.
상기와 같은 문제를 해소하기 위해, 패킷 손실에 의해 없어진 부분의 음성 음향 신호를 보간하는 기술로서, 패킷 손실 은폐 기술이 사용된다. 패킷 손실 은폐 기술에는, 수신측만에서 패킷 손실 은폐를 행하는 「보조 정보를 이용하지 않는 패킷 손실 은폐 기술」과, 송신측에서 패킷 손실 은폐에 도움이 되는 파라미터를 구한 후, 수신측에 전송하고, 수신측에서는 수취한 파라미터를 이용하여 패킷 손실 은폐를 행하는 「보조 정보를 사용하는 패킷 손실 은폐 기술」이 있다.
이 중 「보조 정보를 이용하지 않는 패킷 손실 은폐 기술」에서는, 예를 들면, 비특허 문헌 1의 기술과 같이 과거에 정상(正常)으로 수신한 패킷에 포함되어 있었던 복호 음성 신호를 피치 단위로 카피한 후, 미리 결정한 감쇠(減衰) 계수를 승산함으로써, 패킷 손실된 부분에 대응하는 음성 신호를 생성한다. 「보조 정보를 이용하지 않는 패킷 손실 은폐 기술」은, 패킷 손실된 부분의 음성의 성질이 패킷 손실되기 직전의 음성과 유사한 것을 전제로 하고 있으므로, 패킷 손실된 부분이 손실되기 직전의 음성과 다른 성질을 가지는 경우나, 파워가 급격하게 변화되는 경우에, 충분한 은폐 효과를 발휘할 수 없다.
한편, 「보조 정보를 사용하는 패킷 손실 은폐 기술」에는, 특허 문헌 1과 같이, 송신측에서 패킷 손실 은폐에 필요한 파라미터를 부호화하여 전송하고, 수신측에서의 패킷 손실 은폐에 이용하는 기술이 있다. 특허 문헌 1에서는, 주요 부호화·용장(冗長) 부호화의 2개의 부호화 방식에 의해 음성을 부호화한다. 용장 부호화는, 주요 부호화보다 낮은 비트 레이트로, 주요 부호화가 부호화하는 프레임보다1개 전의 프레임을 부호화한다[도 1의 (a) 참조]. 예를 들면, 제N 번째의 패킷에는, 제N 프레임을 주요 부호화에 의해 부호화하여 얻은 음성 부호와 제N―1프레임을 용장 부호화에 의해 부호화하여 얻은 보조 정보 부호를 포함하여 전송한다.
수신측에서는, 시간적으로 연속하는 2개 이상의 패킷의 도착을 기다리고 나서, 시간적으로 빠른 쪽의 패킷을 복호하여, 복호 음성 신호를 얻는다. 예를 들면, 제N 프레임에 대응하는 신호를 얻는 경우, 제N+1패킷이 도착하는 것을 기다리고 나서 복호를 행한다. 제N 패킷, 제N+1패킷을 정상으로 수신한 경우, 제N 패킷에 포함되는 음성 부호를 복호함으로써 제N 프레임의 음성 신호를 얻는 도 1의 (b) 참조]. 한편, 패킷 손실된 경우(제N 패킷이 손실된 상황에서, 제N+1패킷을 얻었을 경우), 제N+1패킷에 포함되는 보조 정보 부호를 복호함으로써, 제N 프레임의 음성 신호를 얻을 수 있다[도 1의 (c) 참조].
특허 문헌 1의 방법에서는, 복호 대상이 되는 패킷이 도착해도, 또한 1패킷 이상 도착할 때까지, 복호를 기다리지 않으면 안되므로, 알고리즘 지연이 1패킷분 이상 증가한다. 따라서, 특허 문헌 1의 방법에서는, 패킷 손실 은폐에 의한 음질 향상은 기대할 수 있지만, 알고리즘 지연이 증가하고, 음성 통화 품질이 저하된다.
또한, 상기와 같은 패킷 손실 은폐 기술을 CELP[Code Excited Linear Prediction, 부호 여진(勵振) 선형 예측(prefetch)] 부호화에 대하여 적용할 때는, CELP의 동작의 특징에 기인하는 다른 문제도 생긴다. CELP는, 선형 예측에 기초한 음성 모델이며, 음성 신호를 고정밀도로 또한 높은 압축 비율로 부호화할 수 있으므로, 많은 국제 표준으로 사용되고 있다.
CELP에서는, 전극형 합성 필터에 의해 여진 신호 e(n)를 필터링함으로써 합성된다. 즉, 다음 식에 따라 음성 신호 s(n)를 합성한다.
Figure 112017089461336-pat00001
a(i)는 선형 예측 계수(LP 계수)이며, 차수(次數)로서 예를 들면, P=16 등의 값을 사용한다.
여진 신호는, 적응 코드북(code book)이라는 버퍼에 축적된다. 새로운 프레임의 음성을 합성하는 데 있어서는, 피치 래그(pitch lag)라는 위치 정보를 기초로, 적응 코드북으로부터 판독된 적응 코드북 벡터와, 여진 신호의 시간 변화를 나타낸 고정 코드북 벡터를 가산함으로써, 새롭게 여진 신호를 생성한다. 새롭게 생성된 여진 신호는, 적응 코드북에 축적되는 동시에, 전극형 합성 필터에 의해 필터링되어 복호 신호가 합성된다.
CELP에서는, 모든 프레임에 대하여 LP 계수가 산출된다. LP 계수를 산출하는 데 있어서는, 10ms 정도의 예측 신호가 필요하다. 즉, 부호화 대상 프레임에 더하여, 예측 신호도 버퍼에 축적된 상에서, LP 계수 산출 및 그 후의 처리를 실시한다(도 2 참조). 각 프레임은 4개 정도의 서브 프레임으로 분할되고, 서브 프레임 단위로, 상기 피치 래그 산출, 적응 코드북 벡터 산출, 고정 코드북 벡터 산출, 적응 코드북 갱신이라는 처리를 행한다. 상기 서브 프레임 단위의 처리에 있어서는, LP 계수도 보간 처리를 행함으로써, 서브 프레임마다 상이한 계수로 변화시킨다. 또한, LP 계수는 양자화·보간 처리의 형편상, LP 계수의 등가(等價) 표현인 ISP(I㎜ittance Spectral Pair) 파라미터, ISF(I㎜ittance Spectral Frequency) 파라미터로 변환한 후 부호화된다. LP 계수와 ISP 파라미터·ISF 파라미터의 상호 변환의 처리 수순에 대해서는, 비특허 문헌 2에 기재되어 있다.
CELP 부호화에서는, 부호화측과 복호측이 각각 적응 코드북을 가지고, 이들 적응 코드북이 항상 동기하는 것을 전제로 하여 부호화·복호를 행한다. 패킷을 정상으로 수신하고, 복호가 정상으로 행해지는 상황에서는, 부호화측의 적응 코드북과 복호측의 적응 코드북은 동기하고 있지만, 한 번 패킷 손실이 일어나면, 적응 코드북의 동기(同期)를 취할 수 없게 된다.
예를 들면, 피치 래그로서 사용하는 값이, 부호화측과 복호측에서 다르면, 적응 코드북 벡터는 시간적으로 어긋난 것으로 된다. 이 적응 코드북 벡터로 적응 코드북의 갱신을 행하므로, 다음의 프레임을 정상으로 수신했다고 해도, 부호화측에서 구해지는 적응 코드북 벡터와 복호측에서 구해지는 적응 코드북 벡터는 일치하지 않아, 적응 코드북의 동기가 회복되지 않는다. 이와 같은 적응 코드북의 불일치에 의해, 패킷 손실된 프레임 이후, 수 프레임에 걸쳐 음질 열화가 생긴다.
CELP 부호화에서의 패킷 손실 은폐에 있어서, 보다 고도의 기술로서 특허 문헌 2의 방법이 있다. 특허 문헌 2에서는, 패킷 손실에 의한 영향이 큰 특정한 프레임에 있어서, 피치 래그나 적응 코드북 게인 대신에, 천이(遷移) 모드 코드북의 인덱스를 전송한다. 특허 문헌 2에서는, 패킷 손실에 의한 영향이 큰 프레임으로서, 천이 프레임[무음의 음성 세그먼트로부터 유음(有音)의 음성 세그먼트로의 천이, 또는 2개의 모음 사이의 천이]에 착안하고 있다. 이 천이 프레임에 있어서, 천이 모드 코드북을 사용한 여진 신호 생성을 행함으로써, 과거의 적응 코드북에 비의존의 여진 신호를 생성하여, 과거의 패킷 손실에 의한 적응 코드북 불일치로부터 회복할 수 있다.
특허 문헌 2의 방법은, 예를 들면, 약간 긴 모음이 계속하는 프레임 등에서는, 천이 프레임 코드북을 이용하지 않으므로, 종래와 마찬가지로, 적응 코드북의 불일치로부터 회복할 수 없다. 또한, 천이 모드 코드북을 포함하는 패킷이 없어졌을 경우에는, 이제까지와 마찬가지로, 패킷 손실 이후의 프레임에도 손실의 영향이 남아 버린다. 이것은, 천이 모드 코드북을 포함하는 패킷의 다음의 패킷이 없어진 경우도 마찬가지이다.
천이 프레임 코드북과 같은 과거의 프레임에 의존하지 않는 코드북을, 모든 프레임에 적응할 수 있지만, 부호화의 효율이 현저하게 떨어지기 때문에, 저비트 레이트·고음질을 달성할 수 없다.
<선행기술문헌>
- 특허문헌 -
(특허문헌 1) 일본 특표 제2003―533916호 공보
(특허문헌 2) 일본 특표 제2010―507818호 공보
- 비특허문헌 -
(비특허문헌 1)ITU―T G.711 Appendix(I)
(비특허문헌 2)3 GPP TS26―191
(비특허문헌 3)3 GPP TS26―190
(비특허문헌 4)ITU―T G.718
특허 문헌 1의 방법을 이용하면, 복호 대상의 패킷이 도착한 후, 후속의 패킷 도착을 기다리고 나서 복호를 개시한다. 그러므로, 패킷 손실 은폐에 의한 음질 향상은 있지만, 알고리즘 지연이 증가하고, 통화 품질이 저하된다.
CELP 부호화에서의 패킷 손실 시에, 부호화부·복호부 사이에서의 적응 코드북의 불일치가 원인으로, 음성 품질의 열화가 생긴다. 특허 문헌 2와 같은 방법에 의해, 적응 코드북의 불일치로부터 회복하는 것도 가능하지만, 천이 프레임의 직전 이외의 프레임이 손실된 경우에 충분한 효과가 얻어지지 않는다.
본 발명은, 상기 문제의 해결을 위해 이루어진 것이며, 음성 부호화에서의 패킷 손실에 있어서, 알고리즘 지연을 증가시키지 않고 음성 품질을 회복하는 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해, 본 발명의 일측면에 관한 음성 부호화 장치는, 음성 신호를 부호화하는 음성 부호화 장치로서, 음성 신호를 부호화하는 음성 부호화부와, 예측 신호로부터 보조 정보를 산출하여 부호화하는 보조 정보 부호화부를 구비한다.
보조 정보는, 예측 신호에서의 피치 래그에 관한 것, 또는 보조 정보는, 예측 신호에서의 피치 게인(pitch gain)에 관한 것, 또는 예측 신호에서의 피치 래그 및 피치 게인에 관한 것이라도 된다. 또한, 보조 정보는, 보조 정보의 이용 여부에 관한 정보를 포함하는 것이라도 된다.
보조 정보 부호화부는, 예측 신호 부분에 대하여 보조 정보를 산출하여 부호화하고, 또한 은폐 신호를 생성하고, 입력 음성 신호와 보조 정보 부호화부가 출력하는 은폐 신호의 오차 신호를 부호화하는 오차 신호 부호화부와, 입력 음성 신호 그 자체를 부호화하는 주요 부호화부를 더 구비하는 것으로 해도 된다.
또한, 본 발명의 일측면에 관한 음성 복호 장치는, 음성 부호를 복호하여 음성 신호를 출력하는 음성 복호 장치로서, 음성 패킷의 수신 상태로부터 패킷 손실을 검출하는 음성 부호 버퍼와, 음성 패킷 정상 수신 시에 음성 부호를 복호하는 음성 파라미터 복호부와, 음성 패킷 정상 수신 시에 보조 정보 부호를 복호하는 보조 정보 복호부와, 보조 정보 부호를 복호하여 얻어지는 보조 정보를 축적하는 보조 정보 축적부와, 음성 패킷 손실 검출 시에 음성 파라미터를 출력하는 음성 파라미터 분실 처리부와, 음성 파라미터로부터 복호 음성을 합성하는 음성 합성부를 구비한다.
보조 정보는, 예측 신호에서의 피치 래그에 관한 것, 또는 예측 신호에서의 피치 게인에 관한 것, 또는 예측 신호에서의 피치 래그 및 피치 게인에 관한 것이라도 된다. 또한, 보조 정보는, 보조 정보의 이용 여부에 관한 정보를 포함하는 것이라도 된다.
보조 정보 복호부는, 보조 정보 부호를 복호하여 보조 정보를 출력하고, 또한 보조 정보를 이용하여 예측 부분에 관한 은폐 신호를 출력하고, 음성 신호와 은폐 신호와의 오차 신호에 관한 부호를 복호하는 오차 복호부와, 음성 신호에 관한 부호를 복호하는 주요 복호부와, 보조 정보 복호부가 출력한 은폐 신호를 축적하는 은폐 신호 축적부를 더 구비하는 것으로 해도 된다.
음성 패킷 정상 수신 시에는, 은폐 신호 축적부로부터 판독한 은폐 신호와, 오차 복호부가 출력한 복호 오차 신호를 가산함으로써 복호 신호의 일부를 생성하고, 보조 정보 복호부가 출력한 은폐 신호에 의해 은폐 신호 축적부를 갱신하는 것이라도 된다.
음성 패킷 손실 검출 시에는, 은폐 신호 축적부로부터 판독한 은폐 신호를, 복호 신호의 일부 또는 전부로 하는 것이라도 된다.
음성 패킷 손실 검출 시에는, 음성 파라미터 분실 처리부에 의해 예측한 음성 파라미터를 사용하여 복호 신호를 생성하고, 그 일부를 사용하여 은폐 신호 축적부를 갱신하는 것이라도 된다.
음성 파라미터 분실 처리부는, 음성 패킷 손실 검출 시에, 보조 정보 축적부로부터 판독한 보조 정보를, 음성 파라미터의 예측값의 일부로서 이용하는 것이라도 된다.
음성 합성부는, 음성 패킷 손실 검출 시에, 보조 정보 축적부로부터 판독한 보조 정보를 사용하여, 음성 파라미터의 하나인 적응 코드북 벡터를 수정하는 것이라도 된다.
또한, 본 발명의 일측면에 관한 음성 부호화 방법은, 음성 신호를 부호화하는 음성 부호화 장치에 의한 음성 부호화 방법으로서, 음성 신호를 부호화하는 음성 부호화 단계와, 예측 신호로부터 보조 정보를 산출하여 부호화하는 보조 정보 부호화 단계를 포함한다.
또한, 본 발명의 일측면에 관한 음성 복호 방법은, 음성 부호를 복호하여 음성 신호를 출력하는 음성 복호 장치에 의한 음성 복호 방법으로서, 음성 패킷의 수신 상태로부터 패킷 손실을 검출하는 음성 부호 버퍼 단계와, 음성 패킷 정상 수신 시에 음성 부호를 복호하는 음성 파라미터 복호 단계와, 음성 패킷 정상 수신 시에 보조 정보 부호를 복호하는 보조 정보 복호 단계와, 보조 정보 부호를 복호하여 얻어지는 보조 정보를 축적하는 보조 정보 축적 단계와, 음성 패킷 손실 검출 시에 음성 파라미터를 출력하는 음성 파라미터 분실 처리 단계와, 음성 파라미터로부터 복호 음성을 합성하는 음성 합성 단계를 포함한다.
또한, 본 발명의 일측면에 관한 음성 부호화 프로그램은, 컴퓨터를, 음성 신호를 부호화하는 음성 부호화부와, 예측 신호로부터 보조 정보를 산출하여 부호화하는 보조 정보 부호화부로서 기능하게 한다.
또한, 본 발명의 일측면에 관한 음성 복호 프로그램은, 컴퓨터를, 음성 패킷의 수신 상태로부터 패킷 손실을 검출하는 음성 부호 버퍼와, 음성 패킷 정상 수신 시에 음성 부호를 복호하는 음성 파라미터 복호부와, 음성 패킷 정상 수신 시에 보조 정보 부호를 복호하는 보조 정보 복호부와, 보조 정보 부호를 복호하여 얻어지는 보조 정보를 축적하는 보조 정보 축적부와, 음성 패킷 손실 검출 시에 음성 파라미터를 출력하는 음성 파라미터 분실 처리부와, 음성 파라미터로부터 복호 음성을 합성하는 음성 합성부로서 기능하게 한다.
음성 부호화에서의 패킷 손실에 있어서, 알고리즘 지연을 증가시키지 않고 음성 품질을 회복할 수 있다. 특히, CELP 부호화에 있어서, 패킷 손실 시에 일어나는 적응 코드북의 열화를 저감하고, 패킷 손실 시의 음성 품질을 개선할 수 있다.
도 1은 특허 문헌 1에 기재된 선행 발명에서의 패킷과 복호 신호의 시간적 관계를 나타낸 도면이다.
도 2는 CELP 부호화에서의 LP 분석 대상 신호와 예측 신호의 시간적 관계를 나타낸 도면이다.
도 3은 본 발명의 실시형태에 있어서의 패킷과 복호 신호의 시간적 관계를 나타낸 도면이다.
도 4는 본 발명의 실시예 1에서의 음성 신호 송신 장치의 기능 구성예를 나타낸 도면이다.
도 5는 본 발명의 실시예 1에서의 음성 신호 수신 장치의 기능 구성예를 나타낸 도면이다.
도 6은 본 발명의 실시예 1에서의 음성 신호 송신 장치의 처리 수순을 나타낸 도면이다.
도 7은 본 발명의 실시예 1에서의 음성 신호 수신 장치의 처리 수순을 나타낸 도면이다.
도 8은 본 발명의 실시예 1에서의 보조 정보 부호화부의 기능 구성예를 나타낸 도면이다.
도 9는 본 발명의 실시예 1에서의 보조 정보 부호화부의 처리 수순을 나타낸 도면이다.
도 10은 본 발명의 실시예 1에서의 LP 계수 산출부의 처리 수순을 나타낸 도면이다.
도 11은 본 발명의 실시예 1에서의 타겟 신호 산출부의 처리 수순을 나타낸 도면이다.
도 12는 본 발명의 실시예 1에서의 음성 파라미터 분실 처리부의 기능 구성예를 나타낸 도면이다.
도 13은 본 발명의 실시예 1에서의 음성 파라미터 예측의 처리 수순을 나타낸 도면이다.
도 14는 본 발명의 실시예 1의 변형예 1―1에서의 여진 벡터 합성부의 처리 수순을 나타낸 도면이다.
도 15는 본 발명의 실시예 1에서의 음성 합성부의 기능 구성도를 나타낸 도면이다.
도 16은 본 발명의 실시예 1에서의 음성 합성부의 처리 수순을 나타낸 도면이다.
도 17은 본 발명의 실시예 1의 변형예 1―2에서의 보조 정보 부호화부(보조 정보 출력 판정부를 설치한 경우)의 기능 구성예를 나타낸 도면이다.
도 18은 본 발명의 실시예 1의 변형예 1―2에서의 보조 정보 부호화부(보조 정보 출력 판정부를 설치한 경우)의 처리 수순을 나타낸 도면이다.
도 19는 본 발명의 실시예 1의 변형예 1―2에서의 음성 파라미터 예측의 처리 수순을 나타낸 도면이다.
도 20은 본 발명의 실시예 2에서의 음성 신호 송신 장치의 기능 구성예를 나타낸 도면이다.
도 21은 본 발명의 실시예 2에서의 주요 부호화부의 기능 구성예를 나타낸 도면이다.
도 22는 본 발명의 실시예 2에서의 음성 신호 송신 장치의 처리 수순을 나타낸 도면이다.
도 23은 본 발명의 실시예 2에서의 음성 신호 수신 장치의 기능 구성예를 나타낸 도면이다.
도 24는 본 발명의 실시예 2에서의 음성 신호 수신 장치의 처리 수순을 나타낸 도면이다.
도 25는 본 발명의 실시예 2에서의 음성 합성부의 기능 구성도를 나타낸 도면이다.
도 26은 본 발명의 실시예 2에서의 음성 파라미터 복호부의 기능 구성예를 나타낸 도면이다.
도 27은 본 발명의 실시예 3에서의 보조 정보 부호화부의 기능 구성예를 나타낸 도면이다.
도 28은 본 발명의 실시예 3에서의 보조 정보 부호화부의 처리 수순을 나타낸 도면이다.
도 29는 본 발명의 실시예 3에서의 피치 래그 선정부의 처리 수순을 나타낸 도면이다.
도 30은 본 발명의 실시예 3에서의 보조 정보 복호부의 처리 수순을 나타낸 도면이다.
도 31은 본 발명의 실시형태에 관한 음성 부호화 프로그램의 구성을 기억 매체와 함께 나타낸 도면이다.
도 32는 본 발명의 실시형태에 관한 음성 복호 프로그램의 구성을 기억 매체와 함께 나타낸 도면이다.
도 33은 본 발명의 실시예 4에서의 보조 정보 부호화부의 기능 구성예를 나타낸 도면이다.
도 34는 본 발명의 실시예 4에서의 보조 정보 부호화부의 처리 수순을 나타낸 도면이다.
도 35는 본 발명의 실시예 4에서의 피치 래그 예측부의 처리 수순을 나타낸 도면(그 1)이다.
도 36은 본 발명의 실시예 4에서의 피치 래그 예측부의 처리 수순을 나타낸 도면(그 2)이다.
도 37은 본 발명의 실시예 4에서의 피치 래그 예측부의 처리 수순을 나타낸 도면(그 3)이다.
도 38은 본 발명의 실시예 4에서의 적응 코드북 산출부의 처리 수순을 나타낸 도면이다.
도 39는 본 발명의 실시예 5에서의 보조 정보 부호화부의 기능 구성예를 나타낸 도면이다.
도 40은 본 발명의 실시예 5에서의 피치 래그 부호화부의 처리 수순을 나타낸 도면이다.
도 41은 본 발명의 실시예 5에서의 보조 정보 복호부의 처리 수순을 나타낸 도면이다.
도 42는 본 발명의 실시예 5에서의 피치 래그 예측부의 처리 수순을 나타낸 도면이다.
도 43은 본 발명의 실시예 5에서의 적응 코드북 산출부의 처리 수순을 나타낸 도면이다.
첨부 도면을 참조하면서 본 발명의 실시형태를 설명한다. 가능한 경우에는, 동일한 부분에는 동일한 부호를 부여하여, 중복되는 설명을 생략한다.
본 발명의 실시형태는, 부호화기 측에서 산출한 보조 정보를 부호화하여 전송하고, 복호측에서의 패킷 손실 은폐에 이용하는 「보조 정보를 사용하는 패킷 손실 은폐 기술」을 실현하는 부호화기, 및 복호기이다.
본 발명의 실시형태에서는, 패킷 손실 은폐에 사용하는 보조 정보는 1개 전의 패킷에 포함된다. 패킷에 포함되는 음성 부호와 보조 정보 부호의 시간적 관계를 도 3에 나타낸다. 도 3으로부터도 명백한 바와 같이, 본 발명의 실시형태에 있어서의 보조 정보는, CELP 부호화에서의 예측 신호에 대하여 구한 파라미터이다(피치 래그, 적응 코드북 게인 등).
보조 정보 부호를 1개 전의 패킷에 포함한 것에 의해, 복호 대상의 패킷보다 후속의 패킷을 기다리지 않고, 복호를 행할 수 있다. 패킷 손실을 검출했을 때도, 은폐 대상이 되는 프레임에 관한 보조 정보가, 직전의 패킷에 있어서 얻어지고 있으므로, 후속의 패킷을 기다리지 않고, 고정밀도의 패킷 손실 은폐를 실현할 수 있다.
또한, 보조 정보로서 예측 신호에서의. ELP 부호화의 파라미터를 전송함으로써, 패킷이 손실되어도 적응 코드북의 불일치를 경감시킬 수 있다.
본 발명의 실시형태는, 음성 신호 송신 장치(음성 부호화 장치), 음성 신호 수신 장치(음성 복호 장치)로 이루어진다. 음성 신호 송신 장치의 기능 구성예를 도 4에 나타내고, 처리 수순을 도 6에 나타낸다. 또한, 음성 신호 수신 장치의 기능 구성예를 도 5에 나타내고, 처리 수순을 도 7에 나타낸다.
음성 신호 송신 장치는, 도 4에 나타낸 바와 같이, 음성 부호화부(111), 보조 정보 부호화부(112)로 이루어진다. 음성 신호 수신 장치는, 도 5에 나타낸 바와 같이, 음성 부호 버퍼(121), 음성 파라미터 복호부(122), 음성 파라미터 분실 처리부(123), 음성 합성부(124), 보조 정보 복호부(125), 보조 정보 축적부(126)로 이루어진다.
음성 신호 송신 장치는, 도 6에 나타낸 처리 수순에 따라, 음성 신호를 프레임마다 부호화하여 전송한다.
음성 부호화부(111)는, 부호화 대상 프레임에 대하여 음성 파라미터를 산출하여, 음성 부호를 출력한다(도 6 단계 S131).
보조 정보 부호화부(112)는, 예측 신호에 대하여 음성 파라미터를 산출하여, 보조 정보 부호를 출력한다(도 6 단계 S132).
음성 신호가 종료되었는지의 여부를 판정하고, 음성 신호가 종료할 때까지 상기를 반복한다(도 6 단계 S133).
음성 신호 수신 장치는, 도 7에 나타낸 처리 수순에 따라, 도착하는 음성 패킷을 복호하여 음성 신호를 출력한다.
음성 부호 버퍼(121)는, 음성 패킷의 도착을 기다려, 음성 부호를 축적한다. 음성 패킷이 정상으로 도착한 경우에는, 처리를 음성 파라미터 복호부(122)로 전환한다. 한편, 음성 패킷이 정상으로 도착하지 않을 경우에는, 처리를 음성 파라미터 분실 처리부(123)로 전환한다(도 7 단계 S141).
<음성 패킷을 정상으로 수신한 경우>
음성 파라미터 복호부(122)는, 음성 부호를 복호하여 음성 파라미터를 출력한다(도 7 단계 S142).
보조 정보 복호부(125)는, 보조 정보 부호를 복호하여, 보조 정보를 출력한다. 출력한 보조 정보는, 보조 정보 축적부(126)에 보내진다(도 7 단계 S143).
음성 합성부(124)는, 음성 파라미터 복호부(122)가 출력한 음성 파라미터로부터 음성 신호를 합성하여 출력한다(도 7 단계 S144).
음성 파라미터 분실 처리부(123)는, 음성 파라미터 복호부(122)가 출력한 음성 파라미터를, 패킷 손실 시에 대비하여 축적한다(도 7 단계 S145).
음성 부호 버퍼(121)는, 음성 패킷의 송신이 종료되었는지의 여부를 판단하고, 음성 패킷의 송신이 종료한 경우에는 처리를 정지한다. 음성 패킷의 송신이 계속되는 동안은, 상기 단계 S141∼S146을 반복한다(도 7 단계 S147).
<음성 패킷이 손실된 경우>
음성 파라미터 분실 처리부(123)는, 보조 정보 축적부(126)로부터 보조 정보를 판독하고, 보조 정보에 포함되지 않은 파라미터에 대해서는 예측를 행함으로써, 음성 파라미터를 출력한다(도 7 단계 S146).
음성 합성부(124)는, 음성 파라미터 분실 처리부(123)가 출력한 음성 파라미터로부터 음성 신호를 합성하여 출력한다(도 7 단계 S144).
음성 파라미터 분실 처리부(123)는, 음성 파라미터 분실 처리부(123)가 출력한 음성 파라미터를, 패킷 손실 시에 대비하여 축적한다(도 7 단계 S145).
음성 부호 버퍼(121)는, 음성 패킷의 송신이 종료되었는지의 여부를 판단하고, 음성 패킷의 송신이 종료한 경우에는 처리를 정지한다. 음성 패킷의 송신이 계속되는 동안은, 상기 단계 S141∼S146을 반복한다(도 7 단계 S147).
[실시예 1]
본 실시예에서는, 보조 정보로서 피치 래그를 전송하고, 복호측에서는 패킷 손실 은폐 신호의 생성에 사용하는 예에 대하여 기재한다.
음성 신호 송신 장치의 기능 구성예를 도 4에, 음성 신호 수신 장치의 기능 구성예를 도 5에 각각 나타내고, 음성 신호 송신 장치의 처리 수순을 도 6에, 음성 신호 수신 장치의 처리 수순을 도 7에 각각 나타낸다.
<송신측>
음성 신호 송신 장치에 있어서, 입력 음성 신호는, 음성 부호화부(111)에 보내진다.
음성 부호화부(111)는, 부호화 대상 프레임을, CELP 부호화에 의해 부호화한다(도 6 단계 131). CELP 부호화의 상세한 것에 대해서는, 예를 들면, 비특허 문헌 3에 기재된 방법을 이용한다. CELP 부호화의 처리 수순의 상세한 것에 대해서는 생략한다. 그리고, CELP 부호화에서는 부호화측에서 로컬 디코드가 행해진다. 로컬 디코드란, 부호화측에서도 음성 부호를 복호하여, 음성 합성에 필요한 파라미터(ISP 파라미터 및 대응하는 ISF 파라미터, 피치 래그, 장기 예측 파라미터, 적응 코드북, 적응 코드북 게인, 고정 코드북 게인, 고정 코드북 벡터 등)를 얻는 것이다. 로컬 디코드에 의해 얻어진 파라미터 중, 적어도 ISP 파라미터 및 ISF 파라미터 중 어느 하나 또는 양쪽, 피치 래그, 적응 코드북이, 보조 정보 부호화부(112)에 보내진다. 음성 부호화부(111)로서, 비특허 문헌 4와 같은 음성 부호화를 사용하는 경우에는, 또한 부호화 대상 프레임의 성질을 나타내는 인덱스를 보내도 된다. 또한, 음성 부호화부(111)로서 CELP 부호화 이외의 부호화를 사용할 수도 있다. 이 경우, 입력 신호 또는 로컬 디코드에 의해 얻어진 복호 신호로부터, 적어도 ISP 파라미터 및 ISF 파라미터 중 어느 하나 또는 양쪽, 피치 래그, 적응 코드북을 별도 산출하고, 보조 정보 부호화부(112)에 전송한다.
보조 정보 부호화부(112)는, 음성 부호화부(111)에서 산출한 파라미터와 예측 신호를 사용하여 보조 정보 부호를 산출한다(도 6 단계 132). 보조 정보 부호화부(112)는, 도 8에 나타낸 바와 같이, LP 계수 산출부(151), 타겟 신호 산출부(152), 피치 래그 산출부(153), 적응 코드북 산출부(154), 여진 벡터 합성부(155), 적응 코드북 버퍼(156), 합성 필터(157), 피치 래그 부호화부(158)로 이루어진다. 보조 정보 부호화부의 처리 수순을 도 9에 나타낸다.
LP 계수 산출부(151)는, 음성 부호화부(111)에서 산출한 ISF 파라미터와, 과거 수 프레임에 있어서 산출한 ISF 파라미터를 사용하여 LP 계수를 산출한다(도 9 단계 161). LP 계수 산출부(151)의 처리 수순을 도 10에 나타낸다.
최초에, 음성 부호화부(111)로부터 얻은 ISF 파라미터를 사용하여 버퍼를 갱신한다(도 10 단계 171). 다음에, 예측 신호에서의 ISF 파라미터
Figure 112017089461336-pat00002
를 산출한다. ISF 파라미터
Figure 112017089461336-pat00003
는 다음 식에 의해 산출한다(도 10 단계 172).
Figure 112017089461336-pat00004
Figure 112017089461336-pat00005
여기서,
Figure 112017089461336-pat00006
는 버퍼에 저장된 j 프레임 전의 ISF 파라미터이다.
또한,
Figure 112017089461336-pat00007
는 사전에 학습 등으로 구한 송화 구간에서의 ISF 파라미터이다. β는 상수(常數)이며, 예를 들면, 0.75와 같은 값으로 할 수 있지만, 이에 한정되지 않는다. 또한, α도 상수이며, 0.9와 같은 값으로 할 수 있지만, 이에 한정되지 않는다.
Figure 112017089461336-pat00008
는, 예를 들면, 비특허 문헌 4에 기재된 ISF 컨실먼트(concealment)와 같이, 부호화 대상 프레임의 성질을 나타내는 인덱스에 의해 변화시켜도 된다.
다음에,
Figure 112017089461336-pat00009
Figure 112017089461336-pat00010
를 만족시키도록 i의 값을 정렬하여, 인접하는
Figure 112017089461336-pat00011
끼리가 접근하지 않도록 조정한다.
Figure 112017089461336-pat00012
의 값을 조정하는 수순에는, 예를 들면, 비특허 문헌 4(식 151)을 사용할 수 있다(도 10 단계 173).
다음에, ISF 파라미터
Figure 112017089461336-pat00013
을 ISP 파라미터로 변환한 후, 서브 프레임마다 보간한다. ISF 파라미터로부터 ISP 파라미터를 산출하는 방법으로서 비특허 문헌 4의 6.4.4절에 기재된 방법을, 보간의 방법으로서는, 비특허 문헌 4의 6.8.3절에 기재된 처리 수순을 이용할 수 있다(도 10 단계 174).
다음에, 서브 프레임마다의 ISP 파라미터를 LP 계수
Figure 112017089461336-pat00014
로 변환한다. 여기서, 예측 신호에 포함되는 서브 프레임의 수를 Mla로 하였다. ISP 파라미터로부터 LP 계수로의 변환에는, 비특허 문헌 4의 6.4.5절에 기재된 처리 수순을 이용할 수 있다(도 10 단계 175).
타겟 신호 산출부(152)는, LP 계수
Figure 112017089461336-pat00015
를 사용하여, 타겟 신호 x(n) 및 임펄스(impulse) 응답 h(n)를 산출한다(도 9 단계 162). 비특허 문헌 4의 6.8.4.1.3절에 기재된 바와 같이, 타겟 신호는 선형 예측 잔차(殘差; residual) 신호를 청각 웨이팅 필터(weighting filter)에 통함으로써 얻어진다(도 11).
먼저, LP 계수를 사용하여 예측 신호
Figure 112017089461336-pat00016
의 잔차 신호 r(n)을 다음 식에 따라 산출한다(도 11 단계 181).
Figure 112017089461336-pat00017
단, L'는 서브 프레임의 샘플수를 나타내고, L은 부호화 대상 프레임 spre(n)(0≤n<L)의 샘플수를 나타낸다. 이 때,
Figure 112017089461336-pat00018
이다.
다음에, 타겟 신호 x(n)(0≤n<L')를 다음 식에 따라 산출한다(도 11 단계 182).
Figure 112017089461336-pat00019
Figure 112017089461336-pat00020
Figure 112017089461336-pat00021
Figure 112017089461336-pat00022
여기서, 청각 웨이팅 필터 γ=0.68이다. 청각 웨이팅 필터의 값은, 음성 부호화의 설계 방침에 의해 다른 값으로 해도 된다.
다음에, 다음 식에 따라 임펄스 응답 h(n)(0≤n<L')를 산출한다(도 11 단계 183).
Figure 112017089461336-pat00023
Figure 112017089461336-pat00024
피치 래그 산출부(153)는, 다음 식을 최대화하는 k를 구함으로써, 서브 프레임마다 피치 래그를 산출한다(도 9 단계 163). 여기서, 연산량 삭감을 위해, 상기 타겟 신호 산출(도 11 단계 182) 및 임펄스 응답 산출(도 11 단계 183)을 생략하여, 잔차 신호 그 자체를 타겟 신호로서 사용해도 된다.
Tp=argmaxTk
Figure 112017089461336-pat00025
Figure 112017089461336-pat00026
Figure 112017089461336-pat00027
그리고, yk(n)은 선형 예측 잔차에 임펄스 응답을 컨벌루션(convolution)함으로써 얻어진다. 여기서, Int(i)는 보간 필터를 나타낸다. 보간 필터의 자세한 것은 비특허 문헌 4의 6.8.4.1.4.1절에 기재된 바와 같다. 당연히, 보간에 필터를 사용하지 않고, v'(n)=u(n+Nadapt―Tp+i)로 해도 된다.
상기, 산출 방법에 의해, 피치 래그는 정수값(整數値)에 의해 구해지지만, 상기 Tk를 보간함으로써, 피치 래그의 정밀도를 소수점 이하까지 올린 경우에 대해서도 구할 수 있다. 보간에 의해 소수점 이하의 피치 래그를 구하는 처리 수순의 상세한 것에 대해서는, 비특허 문헌 4의 6.8.4.1.4.1절에 기재된 처리 방법을 이용할 수 있다.
적응 코드북 산출부(154)는 피치 래그 Tp, 적응 코드북 버퍼(156)에 저장된 적응 코드북 u(n)로부터, 다음 식에 따라 적응 코드북 벡터 v'(n) 및 장기 예측 파라미터를 산출한다(도 9 단계 164).
Figure 112017089461336-pat00028
장기 파라미터 산출의 상세한 처리 수순으로서 비특허 문헌 3의 5.7절에 기재된 방법을 이용할 수 있다.
여진 벡터 합성부(155)는, 적응 코드북 벡터 v'(n)에 사전에 정한 적응 코드북 게인
Figure 112017089461336-pat00029
를 곱하여, 다음 식에 따라 여진 신호 벡터를 출력한다(도 9 단계 165).
Figure 112017089461336-pat00030
적응 코드북 게인
Figure 112017089461336-pat00031
의 값으로는, 예를 들면, 1.0 등을 사용하지만, 사전의 학습에 의해 구한 값을 사용해도 되고, 부호화 대상 프레임의 성질을 나타내는 인덱스에 의해 변화시켜도 된다.
다음에, 이하의 식에 따라, 여진 신호 벡터에 의해, 적응 코드북 버퍼(156)에 저장된 적응 코드북 u(n) 상태를 갱신한다(도 9 단계 166).
u(n)=u(n+L) (0≤n<N―L)
u(n+N―L)=e(n) (0≤n<L)
합성 필터(157)는, 여진 신호 벡터를 여진원(勵振源)으로 하는, 선형 예측 역필터링에 의해, 다음 식에 따라 복호 신호를 합성한다(도 9 단계 167).
Figure 112017089461336-pat00032
상기 도 9의 단계 162∼단계 167을 예측 신호 종료까지, 서브 프레임마다 반복한다(도 9 단계 168).
피치 래그 부호화부(158)는, 예측 신호에 있어서 산출한 피치 래그
Figure 112017089461336-pat00033
을 부호화한다(도 9의 단계 169). 여기서, 예측 신호에 포함되는 서브 프레임의 수를 Mla로 하였다.
부호화 방법으로서는, 예를 들면, 이하를 생각할 수 있지만, 부호화 방법에는 무엇을 사용해도 된다.
1. 피치 래그
Figure 112017089461336-pat00034
의 일부 또는 전부를 바이너리 부호화 또는 스카라(scara) 양자화 또는 벡터 양자화 또는 산술 부호화하여 전송하는 방법.
2. 직전 서브 프레임의 피치 래그와의 차분
Figure 112017089461336-pat00035
의 일부 또는 전부를 바이너리 부호화 또는 스카라 양자화 또는 벡터 양자화 또는 산술 부호화하여 전송하는 방법. 단,
Figure 112017089461336-pat00036
는 부호화 대상 프레임에서의 최후의 서브 프레임의 피치 래그이다.
3. 피치 래그
Figure 112017089461336-pat00037
의 일부 또는 전부와, 부호화 대상 프레임으로 산출한 피치 래그의 일부 또는 전부를 모아서 벡터 양자화 또는 산술 부호화하여 전송하는 방법.
4. 피치 래그
Figure 112017089461336-pat00038
의 일부 또는 전부를 단서(端緖)로, 사전에 정한 보간 방법 중 1개를 선택하고, 그 보간 방법의 인덱스를 전송하는 방법. 이 때, 과거에 음성의 합성에 사용한 복수의 서브 프레임의 피치 래그를, 병행하여 보간 방법의 선택에 사용해도 된다.
스카라 양자화 및 벡터 양자화에는, 경험적으로 정한 코드북이나, 학습에 의해 사전에 산출한 코드북을 사용할 수 있다. 또한, 상기 피치 래그에 오프셋의 값을 가산한 후 부호화하는 방법도 당연히, 본 발명의 실시형태의 사상에 포함된다.
<복호측>
도 5에 나타낸 바와 같이, 음성 신호 수신 장치는, 음성 부호 버퍼(121), 음성 파라미터 복호부(122), 음성 파라미터 분실 처리부(123), 음성 합성부(124), 보조 정보 복호부(125), 보조 정보 축적부(126)로 이루어진다. 음성 신호 수신 장치의 처리 수순은 도 7에 나타낸 것과 같다.
음성 부호 버퍼(121)는, 패킷을 정상으로 수신했는지의 여부를 판단하고, 패킷을 정상으로 수신한 것으로 판단한 경우에는, 음성 파라미터 복호부(122) 및 보조 정보 복호부(125)로 처리를 전환하고, 패킷을 정상으로 수신할 수 없었던 것으로 판단한 경우에는, 음성 파라미터 분실 처리부(123)로 처리를 전환한다(도 7 단계 141).
<정상으로 패킷을 수신한 경우>
음성 파라미터 복호부(122)는, 수신한 음성 부호를 복호하고, 부호화 대상 프레임에 관한 음성을 합성하는 데 필요한 음성 파라미터(ISP 파라미터 및 대응하는 ISF 파라미터, 피치 래그, 장기 예측 파라미터, 적응 코드북, 적응 코드북 게인, 고정 코드북 게인, 고정 코드북 벡터 등)를 산출한다(도 7 단계 142).
보조 정보 복호부(125)는, 보조 정보 부호를 복호하여 피치 래그
Figure 112017089461336-pat00039
를 산출하고, 보조 정보 축적부(126)에 저장한다. 보조 정보 복호부(125)에서는, 부호화측에서 사용한 부호화 방법에 대응하는 복호 방법을 이용하여, 보조 정보 부호를 복호한다(도 7 단계 143).
음성 합성부(124)는, 음성 파라미터 복호부(122)가 출력한 파라미터로부터 부호화 대상 프레임에 대응하는 음성 신호를 합성한다(도 7 단계 144). 음성 합성부(124)의 기능 구성예를 도 15에 나타내고, 처리 수순을 도 16에 나타낸다. 그리고, 신호의 흐름을 나타내기 위해 음성 파라미터 분실 처리부(123)를 기재하고 있지만, 음성 파라미터 분실 처리부(123)는 음성 합성부(124)의 기능 구성에는 포함되지 않는다.
LP 계수 산출부(1121)는, ISF 파라미터를 ISP 파라미터로 변환한 후, 보간 처리를 실시하여, 서브 프레임마다의 ISP 계수를 얻는다. 다음에, ISP 계수를 선형 예측 계수(LP 계수)로 변환하여, 서브 프레임마다의 LP 계수를 얻는다(도 16 단계 11301). ISP 계수의 보간 처리, 및 ISP―LP 계수에 대해서는, 예를 들면, 비특허 문헌 4의 6.4.5절에 기재된 방법을 이용할 수 있다. 이들 파라미터 변환 처리의 수순은 본 발명의 실시형태의 본질은 아니기 때문에, 상세한 것에 대해서는 생략한다.
적응 코드북 산출부(1123)는, 피치 래그 및 장기 예측 파라미터와 적응 코드북(1122)을 사용하여 적응 코드북 벡터를 산출한다(도 16 단계 11302). 피치 래그
Figure 112017089461336-pat00040
, 적응 코드북 u(n)로부터, 다음 식에 따라, 적응 코드북 벡터 v'(n)을 산출한다.
Figure 112017089461336-pat00041
적응 코드북 벡터는, 적응 코드북 u(n)을 FIR 필터 Int(i)에 의해 보간함으로써 산출한다. 여기서, 적응 코드북의 길이를 Nadapt로 하였다. 보간에 사용하는 필터 Int(i)는, (수식 27)의 보간 필터와 같다. 사전에 정한 길이 2 l+1의 FIR 필터이다. L'는 서브 프레임의 샘플수이다. 인코더 측과 마찬가지로, 보간에 필터를 사용하지 않아도 된다.
적응 코드북 산출부(1123)는, 장기 예측 파라미터의 값에 따라, 상기, 적응 코드북 벡터에 대하여 필터링을 행한다(도 16 단계 11303). 장기 예측 파라미터가 필터링을 지시하는 값을 취하는 경우에는, 이하의 식에 의해 적응 코드북 벡터에 필터링을 행한다.
v'(n)=0.18 v'(n―1)+0.64 v'(n)+0.18 v'(n+1)
한편, 장기 예측 파라미터가 필터링을 지시하지 않는 값을 취하는 경우에는, 필터링을 행하지 않고, v(n)=v'(n)로 한다.
여진 벡터 합성부(1124)는, 적응 코드북 벡터에 적응 코드북 게인 gp를 승산한다(도 16 단계 11304). 또한, 여진 벡터 합성부(1124)는, 고정 코드북 벡터 c(n)에 고정 코드북 게인 gc를 승산한다(도 16 단계 11305). 또한, 여진 벡터 합성부(1124)는, 적응 코드북 벡터와 고정 코드북 벡터를 가산하여, 여진 신호 벡터를 출력한다(도 16 단계 11306).
e(n)=gp·v'(n)+gc·c(n)
포스트 필터(1125)는, 여진 신호 벡터에 대하여, 예를 들면, 피치 강조, 노이즈 강조, 저역 강조라는 후처리를 가한다. 피치 강조, 노이즈 강조, 저역 강조라고 한 기술의 자세한 것은, 비특허 문헌 3의 6.1절에 기재된 바와 같다. 포스트 필터에서의 처리는, 본 발명의 실시형태의 본질과의 관계가 약하기 때문에, 상세를 생략한다(도 16 단계 11307).
적응 코드북(1122)은, 이하의 식에 따라, 여진 신호 벡터에 의해 상태를 갱신한다(도 16 단계 11308).
u(n)=u(n+L) (0≤n<N―L)
u(n+N―L)=e(n) (0≤n<L)
합성 필터(1126)는, 여진 신호 벡터를 여진원으로 하는, 선형 예측 역필터링에 의해, 다음 식에 따라, 복호 신호를 합성한다(도 16 단계 11309).
Figure 112017089461336-pat00042
청각 웨이팅 역필터(weighting inverse filter)(1127)는, 복호 신호에 대하여, 다음 식에 따라 청각 웨이팅 역필터를 적용한다(도 16 단계 11310).
Figure 112017089461336-pat00043
β의 값으로서는 전형적으로는 0.68 등을 사용하지만, 이 값에 한정되지 않는다.
음성 파라미터 분실 처리부(123)는, 음성 합성부(124)와 사용한 음성 파라미터(ISF 파라미터, 피치 래그, 적응 코드북 게인, 고정 코드북 게인)를 버퍼에 저장한다(도 7 단계 145).
<패킷 손실을 검출한 경우>
음성 파라미터 분실 처리부(123)는, 보조 정보 축적부(126)로부터 피치 래그
Figure 112017089461336-pat00044
를 판독하고, 음성 파라미터를 예측한다. 음성 파라미터 분실 처리부(123)의 기능 구성예를 도 12에 나타내고, 음성 파라미터 예측의 처리 수순을 도 13에 나타낸다.
ISF 예측부(191)는, 직전 프레임에 관한 ISF 파라미터와, 과거 수 프레임에 있어서 산출한 ISF 파라미터를 사용하여 ISF 파라미터를 산출한다(도 13 단계 1101). ISF 예측부(191)의 처리 수순을 도 10에 나타낸다.
최초에, 직전 프레임의 ISF 파라미터를 사용하여 버퍼를 갱신한다(도 10 단계 171). 다음에, 이하의 식에 따라 ISF 파라미터
Figure 112017089461336-pat00045
를 산출한다(도 10 단계 172).
Figure 112017089461336-pat00046
Figure 112017089461336-pat00047
여기서,
Figure 112017089461336-pat00048
는 버퍼에 저장된 j 프레임 전의 ISF 파라미터이다. 또한,
Figure 112017089461336-pat00049
, α, β는, 부호화측에서 사용한 값과 같다.
다음에,
Figure 112017089461336-pat00050
Figure 112017089461336-pat00051
를 만족시키도록 i의 값을 정렬하고, 인접하는
Figure 112017089461336-pat00052
Figure 112017089461336-pat00053
의 값을 조정 수순에는, 예를 들면, 비특허 문헌 4(식 151)을 사용할 수 있다(도 10 단계 173).
피치 래그 예측부(192)는, 보조 정보 축적부(126)로부터 보조 정보 부호를 복호하여 피치 래그
Figure 112017089461336-pat00054
를 얻는다. 또한, 과거에 복호에 사용한 피치 래그
Figure 112017089461336-pat00055
Figure 112017089461336-pat00056
를 출력한다. 여기서, 1프레임에 포함되는 서브 프레임의 수는 M, 보조 정보에 포함되는 피치 래그의 수는 Mla이다. 피치 래그
Figure 112017089461336-pat00057
의 예측에 있어서는, 예를 들면, 비특허 문헌 4의 7.11.1.3절에 기재된 처리 수순을 이용할 수 있다(도 13 단계 1102).
적응 코드북 게인 예측부(193)는, 사전에 정한 적응 코드북 게인
Figure 112017089461336-pat00058
과, 과거에 복호에 사용한 적응 코드북 게인
Figure 112017089461336-pat00059
를 사용하여, 적응 코드북 게인
Figure 112017089461336-pat00060
를 출력한다. 여기서, 1프레임에 포함되는 서브 프레임의 수는 M, 보조 정보에 포함되는 피치 래그의 수는 Mla이다. 적응 코드북 게인
Figure 112017089461336-pat00061
의 예측에 있어서는, 예를 들면, 비특허 문헌 4의 7.11.2.5.3절에 기재된 처리 수순을 이용할 수 있다(도 13 단계 1103).
고정 코드북 게인 예측부(194)는, 과거에 복호에 사용한 고정 코드북 게인
Figure 112017089461336-pat00062
를 사용하여, 고정 코드북 게인
Figure 112017089461336-pat00063
를 출력한다. 여기서, 1프레임에 포함되는 서브 프레임의 수는 M이다. 고정 코드북 게인
Figure 112017089461336-pat00064
의 예측에 있어서는, 예를 들면, 비특허 문헌 4의 7.11.2.6절에 기재된 처리 수순을 이용할 수 있다(도 13 단계 1104).
잡음 신호 생성부(195)는, 길이(L)의 백색 잡음을 출력한다(도 13 단계 1105). 여기서, 1프레임의 길이를 L로 하였다.
음성 합성부(124)는, 음성 파라미터 분실 처리부(123)가 출력한 음성 파라미터로부터 복호 신호를 합성한다(도 7 단계 144). 음성 합성부(124)의 동작은, <음성 패킷을 정상으로 수신한 경우>의 음성 합성부의 동작과 동일하므로, 상세를 생략한다(도 7 단계 144).
음성 파라미터 분실 처리부(123)는, 음성 합성부(124)에서 사용한 음성 파라미터(ISF 파라미터, 피치 래그, 적응 코드북 게인, 고정 코드북 게인)를 버퍼에 저장한다(도 7 단계 145).
상기 실시예에서는, 예측 신호에 포함되는 모든 서브 프레임에 관한 보조 정보를 부호화하여 전송하는 예를 기술하였으나, 특정한 서브 프레임에 관한 보조 정보만을 전송하는 구성으로 해도 된다.
[변형예 1―1]
실시예 1의 변형예로서, 피치 게인을 보조 정보에 추가하는 예를 나타낸다. 변형예 1―1과 실시예 1과의 차분은, 여진 벡터 합성부(155)의 동작뿐이므로, 그 외의 부분에 대하여 설명을 생략한다.
<부호화측>
여진 벡터 합성부(155)의 처리 수순을 도 14에 나타낸다.
적응 코드북 벡터 v'(n)와 타겟 신호 x(n)로부터, 적응 코드북 게인
Figure 112017089461336-pat00065
를 다음 식에 따라 산출한다(도 14 단계 1111).
Figure 112017089461336-pat00066
단, y(n)은 적응 코드북 벡터에 임펄스 응답을 컨벌류션하여 얻어지는 신호 y(n)=v(n)*h(n)이다.
산출한 적응 코드북 게인을 부호화하고, 보조 정보 부호에 포함시킨다(도 14 단계 1112). 부호화에는, 사전에 학습에 의해 구한 코드북을 사용한 스카라 양자화를 사용할 수 있지만, 부호화의 방법 그 자체로는 무엇을 사용해도 된다.
적응 코드북 게인의 부호화에 있어서 구한 부호를, 복호하여 얻어지는 적응 코드북 게인
Figure 112017089461336-pat00067
를 적응 코드북 벡터에 승산함으로써 다음 식에 따라, 여진 벡터를 산출한다(도 14 단계 1113).
Figure 112017089461336-pat00068
<복호측>
여진 벡터 합성부(155)는, 적응 코드북 벡터 v'(n)에 보조 정보 부호를 복호함으로써 얻어지는 적응 코드북 게인
Figure 112017089461336-pat00069
Figure 112017089461336-pat00070
[변형예 1―2]
실시예 1의 변형예로서, 보조 정보의 이용 판단을 위한 플래그(flag)를 보조 정보에 추가하는 예를 나타낸다.
<부호화측>
보조 정보 부호화부의 기능 구성예를 도 17에, 보조 정보 부호화부의 처리 수순을 도 18에 나타낸다. 실시예 1과의 차분은, 보조 정보 출력 판정부(1128)(도 18 단계 1131)뿐이므로, 그 외의 부분에 대하여 설명을 생략한다.
보조 정보 출력 판정부(1128)는, 다음 식에 따라 복호 신호와 예측 신호의 segmental SNR을 산출하고, segmental SNR이 임계값을 초과할 때만 플래그의 값을 온으로 세팅하여 보조 정보에 포함시킨다.
Figure 112017089461336-pat00071
한편, segmental SNR이 임계값을 넘지 않을 때는, 플래그의 값을 오프로 하여 보조 정보에 포함시킨다(도 18 단계 1131). 그리고, 플래그의 값이 온일 때만, 피치 래그나 피치 게인 등의 보조 정보를 플래그에 부가하여 전송하고, 플래그의 값이 오프일 때는 플래그의 값만 전송함으로써 보조 정보의 비트량을 삭감해도 된다.
<복호측>
보조 정보 복호부는, 보조 정보 부호에 포함되는 플래그를 복호한다. 음성 파라미터 분실 처리부는, 플래그의 값이 온의 경우에는, 실시예 1과 마찬가지의 처리 수순에 따라 복호 신호를 산출한다. 한편, 플래그의 값이 오프의 경우에는, 보조 정보를 이용하지 않는 패킷 손실 은폐 방법에 의해 복호 신호를 산출한다(도 19단계 1151).
[실시예 2]
본 실시예에서는, 예측 신호 부분의 복호 음성을 정상 수신 시에도 이용하는 예에 대하여 설명한다. 설명을 용이하게 하기 위해, 1프레임에 포함되는 서브 프레임의 수를 M 서브 프레임, 예측 신호의 길이를 M' 서브 프레임으로 한다.
<부호화측>
음성 신호 송신 장치는, 도 20에 나타낸 바와 같이, 주요 부호화부(211), 보조 정보 부호화부(212), 은폐 신호 축적부(213), 오차 신호 부호화부(214)로 이루어진다. 음성 신호 송신 장치의 처리 수순을 도 22에 나타낸다.
오차 신호 부호화부(214)는, 은폐 신호 축적부(213)에서 1서브 프레임분의 은폐 신호를 판독하고, 음성 신호로부터 감산하여, 오차 신호를 산출한다(도 22 단계 221).
오차 신호 부호화부(214)는 오차 신호를 부호화한다. 구체적인 처리 수순으로서 비특허 문헌 4의 6.8.4.1.5절에 기재된 AVQ 등을 이용한다. 오차 신호의 부호화에 있어서, 로컬 디코드를 행하고, 복호 오차 신호를 출력한다(도 22 단계 222).
복호 오차 신호를 은폐 신호에 가산함으로써, 1서브 프레임분의 복호 신호를 출력한다(도 22 단계 223).
상기, 단계 221∼223을 은폐 신호 종료까지 M' 서브 프레임분 반복한다.
주요 부호화부(211)의 기능 구성을 도 21에 나타낸다. 주요 부호화부(211)는, ISF 부호화부(2011), 타겟 신호 산출부(2012), 피치 래그 산출부(2013), 적응 코드북 산출부(2014), 고정 코드북 산출부(2015), 게인 산출부(2016), 여진 벡터 산출부(2017), 합성 필터(2018), 적응 코드북 버퍼(2019)로 이루어진다.
ISF 부호화부(2011)는, 부호화 대상 프레임 및 예측 신호에 대하여 레빈슨 더빈법(Levinson Durbin)을 적용하여 LP 계수를 얻는다. 다음에, LP 계수를 ISF 파라미터로 변환하여 부호화한다. 다음에, 부호를 복호하여 복호 ISF 파라미터를 얻는다. 마지막으로 복호 ISF 파라미터를 보간한 이식하여, 서브 프레임마다의 복호 LP 계수를 얻는다. 레빈슨 더빈법, LP 계수로부터의 ISF 파라미터 변환의 처리 수순은 실시예 1과 같다. 또한, ISF 파라미터의 부호화에는, 예를 들면, 비특허 문헌 4의 6.8.2절에 기재된 처리 수순을 이용한다. ISF 부호화부(2011)에 의해, ISF 파라미터를 부호화한 인덱스, 복호 ISF 파라미터, 및 복호 ISF 파라미터를 LP 계수로 변환하여 얻어지는 복호 LP 계수를 얻을 수 있다(도 22 단계 224).
타겟 신호 산출부(2012)의 상세한 처리 수순은 실시예 1의 도 9 단계 162)과 같다(도 22 단계 225).
피치 래그 산출부(2013)는, 적응 코드북 버퍼를 참조하여, 타겟 신호를 사용하여 피치 래그, 및 장기 예측 파라미터를 산출한다. 피치 래그, 및 장기 예측 파라미터 산출의 상세한 처리 수순은 실시예 1과 같다(도 22 단계 226).
적응 코드북 산출부(2014)는, 피치 래그 산출부(2013)에서 구한 피치 래그 및 장기 예측 파라미터를 사용하여 적응 코드북 벡터를 산출한다. 적응 코드북 산출부(2014)의 상세한 처리 수순은, 실시예 1과 같다(도 22 단계 227).
고정 코드북 산출부(2015)는, 타겟 신호 및 적응 코드북 벡터를 사용하여, 고정 코드북 벡터 및 고정 코드북 벡터를 부호화하여 얻어지는 인덱스를 산출한다. 상세한 수순은 오차 신호 부호화부(214)와 사용한 AVQ의 처리 수순과 마찬가지이다(도 22 단계 228).
게인 산출부(2016)는, 타겟 신호, 적응 코드북 벡터, 고정 코드북 벡터를 사용하여, 적응 코드북 게인, 고정 코드북 게인, 및 이들 2개의 게인을 부호화하여 얻어지는 인덱스를 산출한다. 상세한 처리 수순으로서 비특허 문헌 4의 6.8.4.1.6절에 기재된 처리 수순을 이용할 수 있다(도 22 단계 229).
여진 벡터 산출부(2017)는, 게인을 적용한 적응 코드북 벡터 및 고정 코드북 벡터를 가산하여 여진 벡터를 산출한다. 상세한 처리 수순은 실시예 1과 같다. 또한 여진 벡터 산출부(2017)는, 여진 벡터를 사용하여 적응 코드북 버퍼(2019) 상태를 갱신한다. 상세한 처리 수순은 실시예 1과 같다(도 22 단계 2210).
합성 필터(2018)는, 복호 LP 계수 및 여진 벡터를 사용하여 복호 신호를 합성한다(도 22 단계 2211).
상기, 단계 224∼2211을 부호화 대상 프레임 종료까지 M―M' 서브 프레임분 반복한다.
보조 정보 부호화부(212)는 예측 신호(M’)서브 프레임에 대하여, 보조 정보를 산출한다. 구체적인 처리 수순은 실시예 1과 같다(도 22 단계 2212).
실시예 1의 수순에 더하여, 실시예 2에서는, 보조 정보 부호화부(212)의 합성 필터(157)가 출력하는 복호 신호를 은폐 신호 축적부(213)에 축적한다(도 22 단계 2213).
<복호부>
도 23에 나타낸 바와 같이, 음성 신호 수신 장치는, 음성 부호 버퍼(231), 음성 파라미터 복호부(232), 음성 파라미터 분실 처리부(233), 음성 합성부(234), 보조 정보 복호부(235), 보조 정보 축적부(236), 오차 신호 복호부(237), 은폐 신호 축적부(238)로 이루어진다. 음성 신호 수신 장치의 처리 수순을 도 24에 나타낸다. 음성 합성부(234)의 기능 구성을 도 25에 나타낸다.
음성 부호 버퍼(231)는, 패킷을 정상으로 수신했는지의 여부를 판단하고, 패킷을 정상으로 수신한 것으로 판단한 경우에는, 음성 파라미터 복호부(232), 보조 정보 복호부(235), 오차 신호 복호부(237)에 처리를 전환하고, 패킷을 정상으로 수신할 수 없었던 것으로 판단한 경우에는, 음성 파라미터 분실 처리부(233)로 처리를 전환한다(도 24 단계 241).
<정상으로 패킷을 수신한 경우>
오차 신호 복호부(237)는 오차 신호 부합을 복호하여 복호 오차 신호를 얻는다. 구체적인 처리 수순으로서 비특허 문헌 4의 7.1.2.1.2절에 기재된 AVQ 등, 부호화측에서 이용한 방법에 대응한 복호 방법을 이용한다(도 24 단계 242).
예측 여진 벡터 합성부(2318)는, 은폐 신호 축적부(238)에서 1서브 프레임분의 은폐 신호를 판독하고, 복호 오차 신호에 가산함으로써, 1서브 프레임분의 복호 신호를 출력한다(도 24 단계 243).
상기, 단계 241∼243을 은폐 신호 종료까지 M' 서브 프레임분 반복한다.
음성 파라미터 복호부(232)는, ISF 복호부(2211), 피치 래그 복호부(2212), 게인 복호부(2213), 고정 코드북 복호부(2214)로 이루어진다. 음성 파라미터 복호부(232)의 기능 구성예를 도 26에 나타낸다.
ISF 복호부(2211)는, ISF 부호를 복호하고, LP 계수로 변환함으로써 복호 LP 계수를 얻는다. 예를 들면, 비특허 문헌 4의 7.1.1절에 기재된 처리 수순을 이용한다(도 24 단계 244).
피치 래그 복호부(2212)는, 피치 래그 부호를 복호하여 피치 래그 및 장기 예측 파라미터를 얻는다(도 24 단계 245).
게인 복호부(2213)는, 게인 부호를 복호하여 적응 코드북 게인, 고정 코드북 게인을 얻는다. 상세한 처리 수순은 비특허 문헌 4의 7.1.2.1.3절에 기재된 바와 같다(도 24 단계 246).
적응 코드북 산출부(2313)는, 피치 래그 및 장기 예측 파라미터를 사용하여 적응 코드북 벡터를 산출한다. 적응 코드북 산출부(2313)의 상세한 처리 수순은, 실시예 1에 기재된 바와 같다(도 24 단계 247).
고정 코드북 복호부(2214)는, 고정 코드북 부호를 복호하여, 고정 코드북 벡터를 산출한다. 상세한 수순은 비특허 문헌 4의 7.1.2.1.2절에 기재된 바와 같다(도 24 단계 248).
여진 벡터 합성부(2314)는, 게인을 적용한 적응 코드북 벡터 및 고정 코드북 벡터를 가산하여 여진 벡터를 산출한다. 또한 여진 벡터 산출부는, 여진 벡터를 사용하여 적응 코드북 버퍼를 갱신한다(도 24 단계 249). 상세한 처리 수순은 실시예 1과 같다.
합성 필터(2316)는, 복호 LP 계수 및 여진 벡터를 사용하여 복호 신호를 합성한다(도 24 단계 2410). 상세한 처리 수순은 실시예 1과 같다.
상기, 단계 244∼2410을 부호화 대상 프레임 종료까지 M―M' 서브 프레임분 반복한다.
보조 정보 복호부(235)의 기능 구성은 실시예 1과 같다. 보조 정보 복호부(235)는, 보조 정보 부호를 복호하여 피치 래그를 산출한다(도 24 단계 2411).
음성 파라미터 분실 처리부(233)의 기능 구성은 실시예 1과 같다.
ISF 예측부(191)는, 직전 프레임의 ISF 파라미터를 사용하여 ISF 파라미터를 예측하고, LP 계수로 변환한다. 처리 수순은 실시예 1의 도 10의 단계 172, 173, 174)과 같다(도 24 단계 2412).
적응 코드북 산출부(2313)는, 보조 정보 복호부(235)가 출력한 피치 래그와 적응 코드북(2312)을 사용하여 적응 코드북 벡터를 산출한다(도 24 단계 2413). 처리 수순은 도 16 단계 11301, 11302과 같다.
적응 코드북 게인 예측부(193)는, 적응 코드북 게인을 출력한다. 구체적인 처리 수순은 도 13 단계 1103과 같다(도 24 단계 2414).
고정 코드북 게인 예측부(194)는, 고정 코드북 게인을 출력한다. 구체적인 처리 수순은 도 13 단계 1104와 같다(도 24 단계 2415).
잡음 신호 생성부(195)는, 백색 잡음을 출력하고, 고정 코드북 벡터로 한다. 처리 수중은 도 13 단계 1105와 같다(도 24 단계 2416).
여진 벡터 합성부(2314)는, 적응 코드북 벡터 및 고정 코드북 벡터에 각각 게인을 적용한 후 가산하고, 여진 벡터를 산출한다. 또한 여진 벡터에 의해 적응 코드북 버퍼를 갱신한다(도 24 단계 2417).
합성 필터(2316)는, 상기 LP 계수와 여진 벡터를 사용하여 복호 신호를 산출한다. 산출한 복호 신호로 은폐 신호 축적부(238)를 갱신한다(도 24 단계 2418).
상기 단계를 M' 서브 프레임분 반복하고, 복호 신호를 음성 신호로서 출력한다.
<패킷을 손실한 경우>
은폐 신호 축적부로부터 1서브 프레임분의 은폐 신호를 판독하고, 복호 신호로 한다(도 24 단계 2419).
상기를 M' 서브 프레임분 반복한다.
ISF 예측부(191)는, ISF 파라미터를 예측한다(도 24 단계 2420). 처리 수순으로서, 도 13 단계 1101을 사용한다.
피치 래그 예측부(192)는, 과거에 복호에 사용한 피치 래그를 사용하여 예측 피치 래그를 출력한다(도 24 단계 2421). 예측에 사용하는 처리 수순은, 실시예 1의 도 13 단계 1102와 같다.
적응 코드북 게인 예측부(193), 고정 코드북 게인 예측부(194), 잡음 신호 생성부(195), 음성 합성부(234)의 동작은 실시예 1과 같다(도 24 단계 2422).
상기 단계를 M 서브 프레임분 반복하고, M―M' 서브 프레임분의 복호 신호는 음성 신호로서 출력하고, 나머지의 M' 서브 프레임분의 복호 신호로 은폐 신호 축적부(238)를 갱신한다.
[실시예 3]
적응 코드북 벡터의 산출에 해당되어, 성문(聲門; glottal pulse) 펄스 동기를 사용하는 경우에 대하여 설명한다.
<부호화측>
음성 신호 송신 장치의 기능 구성은 실시예 1과 같다. 기능 구성 및 처리 수순이 상이한 것은 보조 정보 부호화부뿐이므로, 여기서는 보조 정보 부호화부의 동작에 대하여만 설명한다.
보조 정보 부호화부는, LP 계수 산출부(311), 피치 래그 예측부(312), 피치 래그 선정부(313), 피치 래그 부호화부(314), 적응 코드북 버퍼(315)로 이루어진다. 보조 정보 부호화부의 기능 구성도를 도 27에, 처리 수순을 도 28에 나타낸다.
LP 계수 산출부(311)는, 실시예 1의 LP 계수 산출부와 같으므로, 설명을 생략한다(도 28 단계 321).
피치 래그 예측부(312)는, 음성 부호화부로부터 얻은 피치 래그를 사용하여 피치 래그 예측값
Figure 112017089461336-pat00072
를 산출한다(도 28 단계 322). 예측의 구체적인 처리는 실시예 1에서의 피치 래그 예측부(192)에서의, 피치 래그
Figure 112017089461336-pat00073
의 예측과 같다(도 13 단계 1102와 같다).
다음에, 피치 래그 선정부(313)는, 보조 정보로서 전송하는 피치 래그를 결정한다(도 28 단계 323). 피치 래그 선정부(313)의 것보다 상세한 처리 수순을 도 29에 나타낸다.
최초에, 피치 래그 예측값
Figure 112017089461336-pat00074
및 과거의 피치 래그의 값
Figure 112017089461336-pat00075
로부터, 다음 식에 따라 피치 래그 코드북을 생성한다(도 29 단계 331).
Figure 112017089461336-pat00076
Figure 112017089461336-pat00077
여기서, 1서브 프레임 전의 피치 래그의 값은
Figure 112017089461336-pat00078
이다. 또한 코드북의 인덱스 수를 I로 한다. 또 δj는 사전에 정한 단계 폭이며, ρ는 사전에 정한 상수이다.
다음에, 적응 코드북, 피치 래그 예측값
Figure 112017089461336-pat00079
를 사용하여, 다음 식에 따라 초기 여진 벡터 u0(n)를 생성한다(도 29 단계 332).
Figure 112017089461336-pat00080
초기 여진 벡터 산출의 처리 수순은, 비특허 문헌 4의 식(607) 및 식(608)과 같다.
다음에, 초기 여진 벡터에 대하여, 피치 래그 코드북 중의 모든 후보 피치 래그
Figure 112017089461336-pat00081
를 사용하여 성문 펄스 동기를 적용하고, 후보 적응 코드북 벡터 uj(n)(0≤j<I)를 생성한다(도 29 단계 333). 성문 펄스 동기는 비특허 문헌 4의 7.11.2.5절에서의 펄스 위치를 이용할 수 없는 경우와 동일한 처리 수순을 이용한다. 단, 비특허 문헌 4에서의 u(n)은 본 발명의 실시형태의 u0(n)에 대응하고, extrapolated pitch는 본 발명의 실시형태의
Figure 112017089461336-pat00082
에 대응하고, the last reliable pitch(Tc)는 본 발명의 실시형태의
Figure 112017089461336-pat00083
에 대응한다.
후보 적응 코드북 벡터 uj(n)(0≤j<I)에 대하여, 평가 척도를 계산한다(도 29 단계 334). 평가 척도로서 segmental SNR을 사용하는 경우에는, LP 계수를 사용한 역필터링에 의해 신호를 합성하고, 입력 신호와의 사이에서 다음 식에 따라 segmental SNR을 산출한다.
Figure 112017089461336-pat00084
Figure 112017089461336-pat00085
역필터링을 행하는 대신에, 다음 식에 따라, 잔차 신호를 사용하여 적응 코드북 벡터의 영역에서 segmental SNR을 산출해도 된다.
Figure 112017089461336-pat00086
Figure 112017089461336-pat00087
이 경우, LP 계수를 사용하여 예측 신호 s(n)(0≤n<L')의 잔차 신호 r(n)을 산출한다(도 11 단계 181).
단계 334에서 산출한 평가 척도 중 최대의 것에 대응하는 인덱스를 선택하고, 상기 인덱스에 대응하는 피치 래그를 구한다(도 29 단계 335).
Figure 112017089461336-pat00088
<복호측>
음성 신호 수신 장치의 기능 구성은 실시예 1과 같다. 실시예 1과의 차분은 음성 파라미터 분실 처리부(123), 보조 정보 복호부(125), 보조 정보 축적부(126)의 기능 구성과 처리 수순이므로, 이들에 대하여만 설명한다.
<정상으로 패킷을 수신한 경우>
보조 정보 복호부(125)는, 보조 정보 부호를 복호하여 피치 래그
Figure 112017089461336-pat00089
를 산출하고, 보조 정보 축적부(126)에 저장한다. 보조 정보 복호부(125)의 처리 수순을 도 30에 나타낸다.
피치 래그 산출에 있어서, 최초에 피치 래그 예측부(312)는, 음성 복호부로부터 얻은 피치 래그를 사용하여 피치 래그 예측값
Figure 112017089461336-pat00090
를 산출한다(도 30 단계 341). 예측의 구체적인 처리는 실시예 3에서의 도 28 단계 322와 같다.
다음에, 피치 래그 예측값
Figure 112017089461336-pat00091
및 과거의 피치 래그의 값
Figure 112017089461336-pat00092
으로부터, 다음 식에 따라 피치 래그 코드북을 생성한다(도 30 단계 342).
Figure 112017089461336-pat00093
Figure 112017089461336-pat00094
처리 수순은 도 29 단계 331과 같다. 여기서, 1서브 프레임 전의 피치 래그의 값은
Figure 112017089461336-pat00095
이다. 또한 코드북의 인덱스 수를 I로 한다. 또 δj는 사전에 정한 단계 폭이며, ρ는 사전에 정한 상수이다.
다음에, 피치 래그 코드북을 참조하고, 보조 정보로서 전송된 인덱스 idx에 대응하는 피치 래그
Figure 112017089461336-pat00096
를 구하고, 보조 정보 축적부(126)에 저장한다(도 30 단계 343).
<패킷 손실을 검출한 경우>
음성 합성부의 기능 구성도 실시예 1과 같지만(도 15와 마찬가지로), 실시예 1과 동작이 상이한 적응 코드북 산출부(1123)에 대하여만 이하에 설명한다.
음성 파라미터 분실 처리부(123)는, 보조 정보 축적부(126)로부터 피치 래그를 판독한 후 다음 식에 따라 피치 래그 예측값을 산출하고, 피치 래그 예측부(192)의 출력 대신에 사용한다.
Figure 112017089461336-pat00097
여기서,
Figure 112017089461336-pat00098
는 미리 정한 상수이다.
다음에, 적응 코드북, 피치 래그 예측값
Figure 112017089461336-pat00099
를 사용하여, 다음 식에 따라 초기 여진 벡터 u0(n)를 생성한다(도 29 단계 332).
Figure 112017089461336-pat00100
다음에, 초기 여진 벡터에 대하여, 피치 래그
Figure 112017089461336-pat00101
를 사용하여 성문 펄스 동기를 적용하고, 적응 코드북 벡터 u(n)를 생성한다. 성문 펄스 동기는 도 29 단계 333과 마찬가지의 처리 수순을 이용한다.
이어서, 전술한 일련의 음성 신호 송신 장치에 의한 처리를 컴퓨터로 하여금 실행하도록 하기 위한 음성 부호화 프로그램(70)을 설명한다. 도 31에 나타낸 바와 같이, 음성 부호화 프로그램(70)은, 컴퓨터에 삽입되어 액세스되거나, 또는 컴퓨터가 구비하는 기록 매체(60)에 형성된 프로그램 저장 영역(61) 내에 저장된다.
음성 부호화 프로그램(70)은, 음성 부호화 모듈(700)과, 보조 정보 부호화 모듈(701)을 구비하여 구성된다. 음성 부호화 모듈(700)과, 보조 정보 부호화 모듈(701)을 실행시킴으로써 실현되는 기능은, 전술한 음성 신호 송신 장치의 음성 부호화부(111)와, 보조 정보 부호화부(112)와의 기능과 각각 마찬가지이다.
그리고, 음성 부호화 프로그램(70)은, 그 일부 또는 전부가, 통신 회선 등의 전송 매체를 통하여 전송되어 다른 기기(機器)에 의해 수신되어 기록(인스톨을 포함함)되는 구성으로 해도 된다. 또한, 음성 부호화 프로그램(70)의 각 모듈은, 1개의 컴퓨터가 아니고, 복수의 컴퓨터 중 어느 하나에 인스톨되어도 된다. 그 경우, 상기 복수의 컴퓨터로 이루어지는 컴퓨터 시스템에 의해 전술한 일련의 음성 부호화 프로그램(70)의 처리가 행해진다.
이어서, 전술한 일련의 음성 신호 수신 장치에 의한 처리를 컴퓨터로 하여금 실행하도록 하기 위한 음성 복호 프로그램(90)을 설명한다. 도 32에 나타낸 바와 같이, 음성 복호 프로그램(90)은, 컴퓨터에 삽입되어 액세스되거나, 또는 컴퓨터가 구비하는 기록 매체(80)에 형성된 프로그램 저장 영역(81) 내에 저장된다.
음성 복호 프로그램(90)은, 음성 부호 버퍼 모듈(900)과, 음성 파라미터 복호 모듈(901)과, 보조 정보 복호 모듈(902)과, 보조 정보 축적 모듈(903)과, 음성 파라미터 분실 처리 모듈(904)과, 음성 합성 모듈(905)을 구비하여 구성된다. 음성 부호 버퍼 모듈(900)과, 음성 파라미터 복호 모듈(901)과, 보조 정보 복호 모듈(902)과, 보조 정보 축적 모듈(903)과, 음성 파라미터 분실 처리 모듈(904)과, 음성 합성 모듈(905)을 실행시킴으로써 실현되는 기능은, 전술한 음성 신호 수신 장치의 음성 부호 버퍼(231)와, 음성 파라미터 복호부(232)와, 보조 정보 복호부(235)와, 보조 정보 축적부(236)와, 음성 파라미터 분실 처리부(233)와, 음성 합성부(234)와의 기능과 각각 마찬가지이다.
그리고, 음성 복호 프로그램(90)은, 그 일부 또는 전부가, 통신 회선 등의 전송 매체를 통하여 전송되어 다른 기기에 의해 수신되어 기록(인스톨을 포함함)되는 구성으로 해도 된다. 또한, 음성 복호 프로그램(90)의 각 모듈은, 1개의 컴퓨터가 아니고, 복수의 컴퓨터 중 어느 하나에 인스톨되어도 된다. 그 경우, 상기 복수의 컴퓨터로 이루어지는 컴퓨터 시스템에 의해 전술한 일련의 음성 복호 프로그램(90)의 처리가 행해진다.
[실시예 4]
보조 정보를 복호측에서의 피치 래그 예측에 사용하는 예에 대하여 설명한다.
<부호화측>
음성 신호 송신 장치의 기능 구성은 실시예 1과 같다. 기능 구성 및 처리 수순이 상이한 것은 보조 정보 부호화부(112)뿐이므로, 여기서는 보조 정보 부호화부(112)의 동작에 대하여만 설명한다.
보조 정보 부호화부(112)의 기능 구성도를 도 33에, 처리 수순을 도 34에 나타낸다. 보조 정보 부호화부(112)는, LP 계수 산출부(511), 잔차 신호 산출부(512), 피치 래그 산출부(513), 적응 코드북 산출부(514), 적응 코드북 버퍼(515), 피치 래그 부호화부(516)로 이루어진다.
LP 계수 산출부(511)는, 실시예 1의 도 8의 LP 계수 산출부(151)와 마찬가지이므로, 설명을 생략한다.
잔차 신호 산출부(512)는, 실시예 1의 도 11의 단계 181과 마찬가지의 처리에 의해, 잔차 신호를 산출한다.
피치 래그 산출부(513)는, 다음 식을 최대화하는 k를 구함으로써, 서브 프레임마다 피치 래그를 산출한다(도 34의 단계 163). 여기서, u(n)은 적응 코드북, L'는 1서브 프레임에 포함되는 샘플수를 나타낸다.
Tp=argkmaxTk
Figure 112017089461336-pat00102
적응 코드북 산출부(514)는 피치 래그 Tp, 적응 코드북 u(n)로부터, 적응 코드북 벡터 v'(n)를 산출한다. 여기서 적응 코드북의 길이를 Nadapt로 하였다(도 34의 단계 164).
v'(n)=u(n+Nadapt―Tp)
적응 코드북 버퍼(515)는, 적응 코드북 벡터 v'(n)에 의해 상태를 갱신한다(도 34의 단계 166).
u(n)=u(n+L') (0≤n<N―L')
u(n+N―L')=v'(n) (0≤n<L)
피치 래그 부호화부(516)는, 실시예 1과 같으므로 생략한다(도 34의 단계 169).
<복호측>
음성 신호 수신 장치는, 실시예 1과 마찬가지로, 음성 부호 버퍼(121), 음성 파라미터 복호부(122), 음성 파라미터 분실 처리부(123), 음성 합성부(124), 보조 정보 복호부(125), 보조 정보 축적부(126)로 이루어진다. 음성 신호 수신 장치의 처리 수순은 도 7에 나타낸 것과 같다.
음성 부호 버퍼(121)의 동작은 실시예 1과 같다.
<정상으로 패킷을 수신한 경우>
음성 파라미터 복호부(122)의 동작은 실시예 1과 같다.
보조 정보 복호부(125)는, 보조 정보 부호를 복호하여 피치 래그
Figure 112017089461336-pat00103
를 산출하고, 보조 정보 축적부(126)에 저장한다. 보조 정보 복호부(125)에서는, 부호화측에서 사용한 부호화 방법에 대응하는 복호 방법을 이용하여, 보조 정보 부호를 복호한다.
음성 합성부(124)는, 실시예 1과 같다.
<패킷 손실을 검출한 경우>
음성 파라미터 분실 처리부(123)(도 12 참조)의 ISF 예측부(191)는, 실시예 1과 마찬가지로 하여 ISF 파라미터를 산출한다.
피치 래그 예측부(192)의 처리 수순을 도 35에 나타낸다. 피치 래그 예측부(192)는, 실시예 1과 마찬가지로 하여, 보조 정보 축적부(126)로부터 보조 정보 부호를 판독하여 피치 래그
Figure 112017089461336-pat00104
를 얻는다(도 35의 단계 4051). 또한, 과거에 복호에 사용한 피치 래그
Figure 112017089461336-pat00105
를 사용하여, 피치 래그
Figure 112017089461336-pat00106
를 출력한다(도 35의 단계 4052). 여기서, 1프레임에 포함되는 서브 프레임의 수는 M, 보조 정보에 포함되는 피치 래그의 수를 Mla로 한다. 피치 래그
Figure 112017089461336-pat00107
의 예측에 있어서는, 비특허 문헌 4와 같은 처리 수순을 이용할 수 있다(도 13의 단계 1102).
여기서, 피치 래그 예측부(192)는, 피치 래그
Figure 112017089461336-pat00108
의 예측에 해당되어, 과거에 복호에 사용한 피치 래그
Figure 112017089461336-pat00109
와 피치 래그
Figure 112017089461336-pat00110
를 사용하여 피치 래그
Figure 112017089461336-pat00111
를 예측 해도 된다. 또한,
Figure 112017089461336-pat00112
로 해도 된다. 이 경우의 피치 래그 예측부의 처리 수순은 도 36과 같이 된다.
또한, 피치 래그 예측부(192)는, 피치 래그의 예측값에 대하여 신뢰성이 낮을 경우에만
Figure 112017089461336-pat00113
로 해도 된다. 이 경우의 피치 래그 예측부(192)의 처리 수순을 도 37에 나타낸다. 예측값을 사용하였으나, 보조 정보에 의해 얻어진 피치 래그
Figure 112017089461336-pat00114
를 사용했는지에 관한 지시 정보를 적응 코드북 산출부(154)에 입력하도록 해도 된다.
적응 코드북 게인 예측부(193), 고정 코드북 게인 예측부(194)는 실시예 1과 같다.
잡음 신호 생성부(195)는, 실시예 1과 같다.
음성 합성부(124)는, 음성 파라미터 분실 처리부(123)가 출력한 파라미터로부터 부호화 대상 프레임에 대응하는 음성 신호를 합성한다.
음성 합성부(124)(도 15 참조)의 LP 계수 산출부(1121)는, 실시예 1과 마찬가지로 하여 LP 계수를 얻는다(도 16의 단계 11301).
적응 코드북 산출부(1123)는, 실시예 1과 마찬가지로 하여 적응 코드북 벡터를 산출한다. 적응 코드북 산출부(1123)는, 항상 적응 코드북 벡터에 필터링을 행하도록 해도 되고, 항상 필터링을 행하지 않도록 해도 된다. 즉 이하의 식을 이용하여 적응 코드북 벡터를 산출한다. 여기서, 필터 계수를 fi로 하였다.
v(n)=f―1 v'(n―1)+f0v'(n)+f1v'(n+1)
필터링을 지시하지 않는 값을 취하는 경우에는, v(n)=v'(n)로 한다(적응 코드북 산출 단계 A).
적응 코드북 산출부(1123)는, 다음의 수순으로 적응 코드북 벡터를 산출해도 된다(적응 코드북 산출 단계 B).
피치 래그 및 적응 코드북(1122)을 사용하여 초기 적응 코드북 벡터를 산출한다.
v(n)=f―1 v'(n―1)+f0v'(n)+f1v'(n+1)
설계 방침에 의해, v(n)=v'(n)로 해도 된다.
다음에, 초기 적응 코드북 벡터에 대하여, 성문 펄스 동기를 적용한다. 성문 펄스 동기는 비특허 문헌 4의 7.11.2.5절에서의 펄스 위치를 이용할 수 없는 경우와 동일한 처리 수순을 이용한다. 단, 비특허 문헌 4에서의 u(n)은 본 발명의 실시형태의 v(n)에 대응하고, extrapolated pitch는 본 발명의 실시형태의
Figure 112017089461336-pat00115
에 대응하고, the last reliable pitch(Tc)는 본 발명의 실시형태의
Figure 112017089461336-pat00116
에 대응한다.
또한, 적응 코드북 산출부(1123)는, 피치 래그 예측부(192)가, 상기 예측값의 지시 정보를 출력하고 있는 경우에, 상기 지시 정보가, 보조 정보로서 보내져 온 피치 래그를 예측값으로서 이용하지 않는 것을 나타내는 경우(도 38의 단계 4082: NO)에 상기 적응 코드북 산출 단계 A을 사용하고, 그 이외의 경우(도 38의 단계 4082: YES)에는 상기 적응 코드북 산출 단계 B를 사용하도록 해도 된다. 이 경우의 적응 코드북 산출부(1123)의 처리 수순을 도 38에 나타낸다.
여진 벡터 합성부(1124)는, 실시예 1과 마찬가지로 하여, 여진 신호 벡터를 출력한다(도 16의 단계 11306).
포스트 필터(1125)는, 실시예 1과 마찬가지로 하여, 합성 신호에 후처리를 가한다.
적응 코드북(1122)은, 실시예 1과 마찬가지로 하여, 여진 신호 벡터에 의해 상태를 갱신한다(도 16의 단계 11308).
합성 필터(1126)는, 실시예 1과 마찬가지로 하여, 복호 신호를 합성한다(도 16의 단계 11309).
청각 웨이팅 역필터(1127)는, 실시예 1과 마찬가지로 하여, 청각 웨이팅 역필터를 적용한다.
음성 파라미터 분실 처리부(123)는, 실시예 1과 마찬가지로 하여, 음성 합성부(124)에서 사용한 음성 파라미터(ISF 파라미터, 피치 래그, 적응 코드북 게인, 고정 코드북 게인)를 버퍼에 저장한다(도 7의 단계 145).
[실시예 5]
본 실시예에서는, 특정한 프레임 클래스에 있어서만 보조 정보로서 피치 래그를 전송하고, 그 이외에서는, 피치 래그를 전송하지 않는 구성에 대하여 설명한다.
<송신측>
음성 신호 송신 장치에 있어서, 입력 음성 신호는, 음성 부호화부(111)에 보내진다.
본 실시예에 있어서의 음성 부호화부(111)는, 부호화 대상 프레임의 성질을 나타내는 인덱스를 반드시 산출하고, 보조 정보 부호화부(112)에 전송한다. 그 이외의 동작에 대해서는, 실시예 1과 같다.
보조 정보 부호화부(112)에 있어서, 실시예 1∼4와의 차이는, 피치 래그 부호화부(158)뿐이므로, 피치 래그 부호화부(158)의 동작에 대하여, 이하에 설명한다. 실시예 5에서의 보조 정보 부호화부(112)의 구성도를 도 39에 나타낸다.
피치 래그 부호화부(158)의 처리 수순을 도 40에 나타낸다. 피치 래그 부호화부(158)는, 부호화 대상 프레임의 성질을 나타내는 인덱스를 판독하고(도 40의 단계 5021), 부호화 대상 프레임의 성질을 나타내는 인덱스가, 사전에 정한 값과 같은 경우에는, 보조 정보에 할당하는 비트수를 B비트로 한다(B>1). 한편, 부호화 대상 프레임의 성질을 나타내는 인덱스가 사전에 정한 값과 다른 경우에는, 보조 정보에 할당하는 비트수를 1비트로 한다(도 40의 단계 5022).
보조 정보에 할당하는 비트수가 1비트의 경우(도 40의 단계 5022: NO), 보조 정보 인덱스에 보조 정보를 전송하고 있지 않은 것을 나타내는 값을 세팅하고, 보조 정보 부호로 한다(도 40의 단계 5023).
한편, 보조 정보에 할당하는 비트수가 B비트의 경우(도 40의 단계 5022: YES), 보조 정보 인덱스에 보조 정보를 전송하는 것을 나타내는 값을 세팅하고(도 40의 단계 5024), 또한 피치 래그를 실시예 1의 방법에 의해 부호화하여 얻어지는 B―1 비트의 부호를 포함하여, 보조 정보 부호로 한다(도 40의 단계 5025).
<복호측>
음성 신호 수신 장치는, 실시예 1과 마찬가지로, 음성 부호 버퍼(121), 음성 파라미터 복호부(122), 음성 파라미터 분실 처리부(123), 음성 합성부(124), 보조 정보 복호부(125), 보조 정보 축적부(126)로 이루어진다. 음성 신호 수신 장치의 처리 수순은 도 7에 나타낸 것과 같다.
음성 부호 버퍼(121)의 동작은 실시예 1과 같다.
<정상으로 패킷을 수신한 경우>
음성 파라미터 복호부(122)의 동작은 실시예 1과 같다.
보조 정보 복호부(125)의 처리 수순을 도 41에 나타낸다. 보조 정보 복호부(125)는, 최초에 보조 정보 부호에 포함되는 보조 정보 인덱스를 복호한다(도 41의 단계 5031). 보조 정보 인덱스가 보조 정보를 전송하고 있지 않은 것을 나타내는 경우, 그 이상의 복호 동작을 행하지 않는다. 또한, 보조 정보 인덱스의 값을 보조 정보 축적부(126)에 저장한다(도 41의 단계 5032).
한편, 보조 정보 인덱스가, 보조 정보를 전송하는 것을 나타내는 경우, 또한 B―1 비트의 복호를 행하고, 피치 래그
Figure 112017089461336-pat00117
를 산출하고, 보조 정보 축적부(126)에 저장한다(도 41의 단계 5033). 또한, 보조 정보 인덱스의 값을 보조 정보 축적부(126)에 저장한다. 그리고, B―1 비트의 보조 정보의 복호는, 실시예 1의 보조 정보 복호부(125)와 마찬가지의 동작이다.
음성 합성부(124)는, 실시예 1과 같다.
<패킷 손실을 검출한 경우>
음성 파라미터 분실 처리부(123)(도 12 참조)의 ISF 예측부(191)는, 실시예 1과 마찬가지로 하여 ISF 파라미터를 산출한다.
피치 래그 예측부(192)의 처리 수순을 도 42에 나타낸다. 피치 래그 예측부(192)는, 보조 정보 축적부(126)로부터 보조 정보 인덱스를 판독하여(도 42의 단계 5041), 보조 정보를 전송하는 것을 나타내는 값인지의 여부를 조사한다(도 42의 단계 5042).
<보조 정보 인덱스가 보조 정보를 전송하는 것을 나타내는 값인 경우>
실시예 1과 마찬가지로 하여, 보조 정보 축적부(126)로부터 보조 정보 부호를 판독하여 피치 래그
Figure 112017089461336-pat00118
를 얻는다(도 42의 5043). 또한, 과거에 복호에 사용한 피치 래그
Figure 112017089461336-pat00119
및 보조 정보로서 얻어진
Figure 112017089461336-pat00120
를 사용하여, 피치 래그
Figure 112017089461336-pat00121
를 출력한다(도 42의 단계 5044). 여기서, 1프레임에 포함되는 서브 프레임의 수는 M, 보조 정보에 포함되는 피치 래그의 수를 Mla로 한다. 피치 래그
Figure 112017089461336-pat00122
의 예측에 있어서는, 비특허 문헌 4와 같은 처리 수순을 이용할 수 있다(도 13의 단계 1102). 또한,
Figure 112017089461336-pat00123
로 해도 된다.
또한, 피치 래그 예측부(192)는, 피치 래그의 예측값에 대하여 신뢰성이 낮은 경우에만
Figure 112017089461336-pat00124
으로 하고, 그 이외의 경우에는 예측값을
Figure 112017089461336-pat00125
으로 하도록 해도 된다(도 42의 단계 5046). 또한, 예측값을 사용하였으나, 보조 정보에 의해 얻어진 피치 래그
Figure 112017089461336-pat00126
를 사용했는지에 관한 피치 래그 지시 정보를 적응 코드북 산출부(1123)에 입력하도록 해도 된다.
<보조 정보 인덱스가 보조 정보를 전송하지 않는 것을 나타내는 값인 경우>
피치 래그 예측부(192)는, 피치 래그
Figure 112017089461336-pat00127
의 예측에 있어서, 과거에 복호에 사용한 피치 래그
Figure 112017089461336-pat00128
를 사용하여 피치 래그
Figure 112017089461336-pat00129
를 예측한다(도 42의 단계 5048).
또한, 피치 래그 예측부(192)는, 피치 래그의 예측값에 대하여 신뢰성이 낮은 경우에만
Figure 112017089461336-pat00130
로 하고(도 42의 단계 5049), 그 이외의 경우에는 예측값을
Figure 112017089461336-pat00131
으로 하도록 해도 된다. 또한, 예측값을 사용하였으나, 과거 복호에 사용한 피치 래그
Figure 112017089461336-pat00132
를 사용했는지에 관한 피치 래그 지시 정보를 적응 코드북 산출부(1123)에 입력한다(도 42의 단계 5050).
적응 코드북 게인 예측부(193), 고정 코드북 게인 예측부(194)는 실시예 1과 같다.
잡음 신호 생성부(195)는, 실시예 1과 같다.
음성 합성부(124)는, 음성 파라미터 분실 처리부(123)가 출력한 파라미터로부터 부호화 대상 프레임에 대응하는 음성 신호를 합성한다.
음성 합성부(124)(도 15 참조)의 LP 계수 산출부(1121)는, 실시예 1과 마찬가지로 하여 LP 계수를 얻는다(도 16의 단계 11301).
적응 코드북 산출부(1123)의 처리 수순을 도 43에 나타낸다. 적응 코드북 산출부(1123)는, 실시예 1과 마찬가지로 하여 적응 코드북 벡터를 산출한다. 먼저, 피치 래그 지시 정보를 참조해(도 43의 단계 5051), 예측값의 신뢰성이 낮은 경우(도 43의 단계 5052: YES)는, 이하의 식을 이용하여 적응 코드북 벡터를 산출한다(도 43의 단계 5055). 여기서, 필터 계수를 fi로 하였다.
v(n)=f―1 v'(n―1)+f0v'(n)+f1v'(n+1)
그리고, 설계 방침에 의해, v(n)=v'(n)로 해도 된다.
피치 래그 지시 정보를 참조하고, 예측값의 신뢰성이 높은 경우(도 43의 단계 5052: NO), 적응 코드북 산출부(1123)는, 다음의 수순으로 적응 코드북 벡터를 산출한다.
먼저, 피치 래그 및 적응 코드북(1122)을 사용하여 초기 적응 코드북 벡터를 산출한다(도 43의 단계 5053).
v(n)=f―1 v'(n―1)+f0v'(n)+f1v'(n+1)
설계 방침에 의해, v(n)=v'(n)로 해도 된다.
다음에, 초기 적응 코드북 벡터에 대하여, 성문 펄스 동기를 적용한다. 성문 펄스 동기는 비특허 문헌 4의 7.11.2.5절에서의 펄스 위치를 이용할 수 없는 경우와 동일한 처리 수순을 이용한다(도 43의 단계 5054). 단, 비특허 문헌 4에서의 u(n)은 본 발명의 실시형태의 v(n)에 대응하고, extrapolated pitch는 본 발명의 실시형태의
Figure 112017089461336-pat00133
에 대응하고, the last reliable pitch(Tc)는 본 발명의 실시형태의
Figure 112017089461336-pat00134
에 대응한다.
여진 벡터 합성부(1124)는, 실시예 1과 마찬가지로 하여, 여진 신호 벡터를 출력한다(도 16의 단계 11306).
포스트 필터(1125)는, 실시예 1과 마찬가지로 하여, 합성 신호에 후처리를 가한다.
적응 코드북(1122)은, 실시예 1과 마찬가지로 하여, 여진 신호 벡터에 의해 상태를 갱신한다(도 16의 단계 11308).
합성 필터(1126)는, 실시예 1과 마찬가지로 하여, 복호 신호를 합성한다(도 16의 단계 11309).
청각 웨이팅 역필터(1127)는, 실시예 1과 마찬가지로 하여, 청각 웨이팅 역필터를 적용한다.
음성 파라미터 분실 처리부(123)는, 실시예 1과 마찬가지로 하여, 음성 합성부(124)에서 사용한 음성 파라미터(ISF 파라미터, 피치 래그, 적응 코드북 게인, 고정 코드북 게인)를 버퍼에 저장한다(도 7의 단계 145).
60, 80…기억 매체, 61, 81…프로그램 저장 영역, 70…음성 부호화 프로그램, 90…음성 복호 프로그램, 111…음성 부호화부, 112…보조 정보 부호화부, 121, 231…음성 부호 버퍼, 122, 232…음성 파라미터 복호부, 123, 233…음성 파라미터 분실 처리부, 124, 234…음성 합성부, 125, 235…보조 정보 복호부, 126, 236…보조 정보 축적부, 151, 511, 1121…LP 계수 산출부, 152, 2012…타겟 신호 산출부, 153, 513, 2013…피치 래그 산출부, 154, 1123, 514, 2014, 2313…적응 코드북 산출부, 155, 1124, 2314…여진 벡터 합성부, 156, 315, 515, 2019…적응 코드북 버퍼, 157, 1126, 2018, 2316…합성 필터, 158, 516…피치 래그 부호화부, 191…ISF 예측부, 192…피치 래그 예측부, 193…적응 코드북 게인 예측부, 194…고정 코드북 게인 예측부, 195…잡음 신호 생성부, 211…주요 부호화부, 212…보조 정보 부호화부, 213, 238…은폐 신호 축적부, 214…오차 신호 부호화부, 237…오차 신호 복호부, 311…LP 계수 산출부, 312…피치 래그 예측부, 313…피치 래그 선정부, 314…피치 래그 부호화부, 512…잔차 신호 산출부, 700…음성 부호화 모듈, 701…보조 정보 부호화 모듈, 900…음성 파라미터 복호 모듈, 901…음성 파라미터 분실 처리 모듈, 902…음성 합성 모듈, 903…보조 정보 복호 모듈, 1128…보조 정보 출력 판정부, 1122, 2312…적응 코드북, 1125…포스트 필터, 1127…청각 웨이팅 역필터, 2011…ISF 부호화부, 2015…고정 코드북 산출부, 2016…게인 산출부, 2017…여진 벡터 산출부, 2211…ISF 복호부, 2212…피치 래그 복호부, 2213…게인 복호부, 2214…고정 코드북 복호부, 2318…예측 여진 벡터 합성부.

Claims (1)

  1. 음성 신호를 부호화하는 음성 부호화 장치로서,
    음성 신호를 부호화하는 음성 부호화부; 및
    CELP(Code Excited Linear Prediction: 부호 여진 선형 예측) 부호화에서의 패킷 손실 은폐에 이용되는 보조 정보로서, CELP 부호화에서의 예측 신호의 파라미터를 산출하는 보조 정보 부호화부
    를 포함하고,
    상기 음성 부호화부는,
    부호화 대상 프레임의 성질을 나타내는 인덱스를 산출하고, 상기 보조 정보 부호화부에 전송하며,
    상기 부호화 대상 프레임이 특정한 프레임 클래스이면, 상기 보조 정보로서 상기 부호화 대상 프레임의 피치 래그가, 상기 부호화 대상 프레임의 패킷의 직전에 송신될 패킷에 포함되어 있고,
    상기 부호화 대상 프레임이 특정한 프레임 클래스가 아니면, 상기 피치 래그가 상기 직전에 송신될 패킷에 포함되지 않으며,
    상기 특정한 프레임 클래스는 패킷 손실의 영향이 큰 프레임인,
    음성 부호화 장치.
KR1020177025971A 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 KR101812123B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2012-251646 2012-11-15
JP2012251646 2012-11-15
PCT/JP2013/080589 WO2014077254A1 (ja) 2012-11-15 2013-11-12 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167025606A Division KR101780667B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020177036234A Division KR102110853B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램

Publications (2)

Publication Number Publication Date
KR20170107590A KR20170107590A (ko) 2017-09-25
KR101812123B1 true KR101812123B1 (ko) 2017-12-26

Family

ID=50731166

Family Applications (10)

Application Number Title Priority Date Filing Date
KR1020187029586A KR102259112B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020177025971A KR101812123B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020197034894A KR102171293B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020217030770A KR102459376B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020207030410A KR102307492B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020207030913A KR102302012B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020177036234A KR102110853B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020207013109A KR102173422B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020167025606A KR101780667B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020157009567A KR101689766B1 (ko) 2012-11-15 2013-11-12 음성 복호 장치, 음성 복호 방법, 음성 부호화 장치, 및 음성 부호화 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020187029586A KR102259112B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램

Family Applications After (8)

Application Number Title Priority Date Filing Date
KR1020197034894A KR102171293B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020217030770A KR102459376B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020207030410A KR102307492B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020207030913A KR102302012B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020177036234A KR102110853B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020207013109A KR102173422B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020167025606A KR101780667B1 (ko) 2012-11-15 2013-11-12 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
KR1020157009567A KR101689766B1 (ko) 2012-11-15 2013-11-12 음성 복호 장치, 음성 복호 방법, 음성 부호화 장치, 및 음성 부호화 방법

Country Status (18)

Country Link
US (7) US9564143B2 (ko)
EP (2) EP2922053B1 (ko)
JP (8) JP6158214B2 (ko)
KR (10) KR102259112B1 (ko)
CN (2) CN104781876B (ko)
AU (6) AU2013345949B2 (ko)
BR (1) BR112015008505B1 (ko)
CA (4) CA2886140C (ko)
DK (1) DK2922053T3 (ko)
ES (1) ES2747353T3 (ko)
HK (1) HK1209229A1 (ko)
IN (1) IN2015DN02595A (ko)
MX (3) MX2018016263A (ko)
PL (1) PL2922053T3 (ko)
PT (1) PT2922053T (ko)
RU (8) RU2640743C1 (ko)
TW (2) TWI587284B (ko)
WO (1) WO2014077254A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2849974C (en) * 2011-09-26 2021-04-13 Sirius Xm Radio Inc. System and method for increasing transmission bandwidth efficiency ("ebt2")
CN104781876B (zh) 2012-11-15 2017-07-21 株式会社Ntt都科摩 音频编码装置、音频编码方法以及音频解码装置、音频解码方法
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
CN105897666A (zh) * 2015-10-08 2016-08-24 乐视致新电子科技(天津)有限公司 实时语音通话中的实时语音接收设备及降低延迟的方法
US10650837B2 (en) 2017-08-29 2020-05-12 Microsoft Technology Licensing, Llc Early transmission in packetized speech
US11710492B2 (en) * 2019-10-02 2023-07-25 Qualcomm Incorporated Speech encoding using a pre-encoded database

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327520A (en) 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JP3713288B2 (ja) * 1994-04-01 2005-11-09 株式会社東芝 音声復号装置
JPH08160993A (ja) * 1994-12-08 1996-06-21 Nec Corp 音声分析合成器
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
JP3346765B2 (ja) * 1997-12-24 2002-11-18 三菱電機株式会社 音声復号化方法及び音声復号化装置
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) * 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
KR100674423B1 (ko) * 2001-01-19 2007-01-29 엘지전자 주식회사 송/수신 시스템 및 데이터 처리 방법
JP3628268B2 (ja) * 2001-03-13 2005-03-09 日本電信電話株式会社 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
US7308406B2 (en) 2001-08-17 2007-12-11 Broadcom Corporation Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
JP3722366B2 (ja) * 2002-02-22 2005-11-30 日本電信電話株式会社 パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
CN1639984B (zh) * 2002-03-08 2011-05-11 日本电信电话株式会社 数字信号编码方法、解码方法、编码设备、解码设备
JP2004077688A (ja) * 2002-08-14 2004-03-11 Nec Corp 音声通信装置
US7584107B2 (en) * 2002-09-09 2009-09-01 Accenture Global Services Gmbh Defined contribution benefits tool
JP4287637B2 (ja) * 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
JP4365653B2 (ja) * 2003-09-17 2009-11-18 パナソニック株式会社 音声信号送信装置、音声信号伝送システム及び音声信号送信方法
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
CN1906663B (zh) * 2004-05-10 2010-06-02 日本电信电话株式会社 声学信号分组通信方法、传送方法、接收方法、及其设备和程序
EP1756805B1 (en) * 2004-06-02 2008-07-30 Koninklijke Philips Electronics N.V. Method and apparatus for embedding auxiliary information in a media signal
US20060088093A1 (en) * 2004-10-26 2006-04-27 Nokia Corporation Packet loss compensation
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
AU2006208529B2 (en) 2005-01-31 2010-10-28 Microsoft Technology Licensing, Llc Method for weighted overlap-add
US8214220B2 (en) * 2005-05-26 2012-07-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US7712008B2 (en) * 2006-01-26 2010-05-04 Agere Systems Inc. Systems and methods for error reduction associated with information transfer
CN101336450B (zh) * 2006-02-06 2012-03-14 艾利森电话股份有限公司 在无线通信***中用于语音编码的方法和装置
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
CN101000768B (zh) * 2006-06-21 2010-12-08 北京工业大学 嵌入式语音编解码的方法及编解码器
JPWO2008007698A1 (ja) * 2006-07-12 2009-12-10 パナソニック株式会社 消失フレーム補償方法、音声符号化装置、および音声復号装置
WO2008007700A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
US7752038B2 (en) 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
DK2102619T3 (en) 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
US20090265164A1 (en) * 2006-11-24 2009-10-22 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
KR100862662B1 (ko) * 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
CN101256771A (zh) * 2007-03-02 2008-09-03 北京工业大学 嵌入式编码、解码方法、编码器、解码器及***
WO2008150141A1 (en) * 2007-06-08 2008-12-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101207665B (zh) 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
KR100998396B1 (ko) 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和***
JP5612698B2 (ja) 2010-10-05 2014-10-22 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
EP3518234B1 (en) * 2010-11-22 2023-11-29 NTT DoCoMo, Inc. Audio encoding device and method
MX2013009305A (es) * 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN104781876B (zh) 2012-11-15 2017-07-21 株式会社Ntt都科摩 音频编码装置、音频编码方法以及音频解码装置、音频解码方法
KR102452593B1 (ko) 2015-04-15 2022-10-11 삼성전자주식회사 반도체 장치의 제조 방법

Also Published As

Publication number Publication date
BR112015008505A2 (pt) 2020-01-07
JP2019070866A (ja) 2019-05-09
AU2022202856B2 (en) 2023-06-08
KR20160111550A (ko) 2016-09-26
CN104781876B (zh) 2017-07-21
US11749292B2 (en) 2023-09-05
KR102307492B1 (ko) 2021-09-29
JP2020034951A (ja) 2020-03-05
AU2017208369A1 (en) 2017-08-17
MX2018016263A (es) 2021-12-16
EP2922053A4 (en) 2016-07-06
TW201635274A (zh) 2016-10-01
AU2013345949A1 (en) 2015-04-16
KR101780667B1 (ko) 2017-09-21
RU2015122777A (ru) 2017-01-10
IN2015DN02595A (ko) 2015-09-11
CA2886140C (en) 2021-03-23
RU2722510C1 (ru) 2020-06-01
JP2016197254A (ja) 2016-11-24
US20200126577A1 (en) 2020-04-23
TWI587284B (zh) 2017-06-11
KR20150056614A (ko) 2015-05-26
KR20210118988A (ko) 2021-10-01
CN107256709B (zh) 2021-02-26
CA3044983A1 (en) 2014-05-22
US11176955B2 (en) 2021-11-16
EP2922053A1 (en) 2015-09-23
RU2612581C2 (ru) 2017-03-09
KR20200124339A (ko) 2020-11-02
JP7209032B2 (ja) 2023-01-19
US10553231B2 (en) 2020-02-04
MX2015005885A (es) 2015-09-23
AU2019202186B2 (en) 2020-12-03
US20170148459A1 (en) 2017-05-25
RU2760485C1 (ru) 2021-11-25
JP2018112749A (ja) 2018-07-19
KR101689766B1 (ko) 2016-12-26
US20180122394A1 (en) 2018-05-03
TWI547940B (zh) 2016-09-01
CA3210225A1 (en) 2014-05-22
CA3127953C (en) 2023-09-26
RU2737465C1 (ru) 2020-11-30
EP2922053B1 (en) 2019-08-28
US9564143B2 (en) 2017-02-07
KR20180115357A (ko) 2018-10-22
JP6846500B2 (ja) 2021-03-24
CA2886140A1 (en) 2014-05-22
CA3044983C (en) 2022-07-12
WO2014077254A1 (ja) 2014-05-22
JP2021092814A (ja) 2021-06-17
AU2020294317A1 (en) 2021-02-25
US20200126576A1 (en) 2020-04-23
KR102110853B1 (ko) 2020-05-14
HK1209229A1 (en) 2016-03-24
KR102173422B1 (ko) 2020-11-03
PT2922053T (pt) 2019-10-15
JP6793675B2 (ja) 2020-12-02
JP2020038396A (ja) 2020-03-12
AU2013345949B2 (en) 2017-05-04
KR20170141827A (ko) 2017-12-26
PL2922053T3 (pl) 2019-11-29
RU2690775C1 (ru) 2019-06-05
US20150262588A1 (en) 2015-09-17
US11195538B2 (en) 2021-12-07
BR112015008505B1 (pt) 2021-10-26
US20200126578A1 (en) 2020-04-23
KR20170107590A (ko) 2017-09-25
AU2020294317B2 (en) 2022-03-31
KR20190133302A (ko) 2019-12-02
JP6659882B2 (ja) 2020-03-04
US11211077B2 (en) 2021-12-28
AU2023208191A1 (en) 2023-08-17
MX345692B (es) 2017-02-10
KR102459376B1 (ko) 2022-10-25
KR20200051858A (ko) 2020-05-13
JP6158214B2 (ja) 2017-07-05
CN107256709A (zh) 2017-10-17
US9881627B2 (en) 2018-01-30
JP6626026B2 (ja) 2019-12-25
DK2922053T3 (da) 2019-09-23
TW201432670A (zh) 2014-08-16
RU2713605C1 (ru) 2020-02-05
CN104781876A (zh) 2015-07-15
ES2747353T3 (es) 2020-03-10
MX362139B (es) 2019-01-07
AU2022202856A1 (en) 2022-05-19
RU2640743C1 (ru) 2018-01-11
CA3127953A1 (en) 2014-05-22
EP3579228A1 (en) 2019-12-11
AU2017208369B2 (en) 2019-01-03
KR20200123285A (ko) 2020-10-28
AU2019202186A1 (en) 2019-04-18
KR102302012B1 (ko) 2021-09-13
KR102171293B1 (ko) 2020-10-28
JP2017138607A (ja) 2017-08-10
JP6872597B2 (ja) 2021-05-19
US20220059108A1 (en) 2022-02-24
RU2665301C1 (ru) 2018-08-28
JPWO2014077254A1 (ja) 2017-01-05
KR102259112B1 (ko) 2021-05-31

Similar Documents

Publication Publication Date Title
JP7209032B2 (ja) 音声符号化装置および音声符号化方法
RU2776261C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant