JP2009501353A

JP2009501353A - オーディオ信号合成

Info

Publication number: JP2009501353A
Application number: JP2008521005A
Authority: JP
Inventors: ブリンケル，アルベルテュスセーデン; イェースライテル，ロベルト
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-07-14
Filing date: 2006-07-06
Publication date: 2009-01-15
Also published as: EP1905009A1; ATE443318T1; EP1905009B1; RU2008105555A; US20100131276A1; ES2332108T3; DE602006009271D1; WO2007007253A1; CN101223581A

Abstract

スピーチ信号等のオーディオ信号（ｒ）のピッチを変更する装置（２）である。該装置は、オーディオ信号（ｒ）の正弦波パラメータを決定する正弦波分析部（２１）と、正弦波成分の位相を予測するパラメータ生成部（２２）と、パラメータを合成して再構成信号（ｒ′）を生成する正弦波合成部（２３）とを有する。パラメータ生成部（２２）は、オーディオ信号の各時間セグメントにおいて、前の時間セグメントの位相を受け取り、現在の時間セグメントの位相を予測する。

Description

発明の詳細な説明

本発明は、オーディオ信号合成に関する。より具体的に、本発明は、合成された信号の位相を決定するオーディオ信号合成装置及び方法に関する。本発明はさらに、上記のオーディオ信号合成装置または方法を含む、オーディオ信号の周波数を修正する装置及び方法に関する。

周波数や位相等の信号パラメータを用いたオーディオ信号の合成は周知である。電子楽器やその他のコンシューマ製品（例えば携帯電話など）においては、音声信号を発生するために合成を行っている。あるいは、デコーダが、符号化されたオーディオ信号を復号するために合成を行う。符号化方法の一例としてパラメトリック符号化がある。この方法では、オーディオ信号を時間セグメントごとに正弦波成分とノイズ成分とその他の任意的成分とに分解する。これらの成分はそれぞれ適当なパラメータで表される。好適なデコーダにおいて、パラメータを使用して元のオーディオ信号を実質的に再構成する。

Ａ．Ｃ．ｄｅｎＢｒｉｎｋｅｒ、Ｅ．Ｇ．Ｐ．Ｓｃｈｕｉｊｅｒｓ及びＡ．Ｗ．Ｊ．Ｏｏｍｅｎによる論文「高音質オーディオのためのパラメトリック符号化」（Audio Engineering Society Convention Paper ５５５４, Munich (Germany), May ２００２）には、パラメトリック符号化における正弦波トラック（sinusoidal tracks）を使用することが開示されている。オーディオ信号を、過渡オブジェクトと正弦波オブジェクトとノイズオブジェクトを用いてモデル化する。正弦波オブジェクトのパラメータを時間フレームごとに推定する。フレームごとに推定された周波数をフレームを越えて（複数のフレームにわたって）リンクし、正弦波トラックを形成する。これらのトラックは、時間フレームのどの正弦波オブジェクトが次の時間フレームに続いているかを示す。

国際特許出願第ＷＯ０２／０５６２９８号（フィリップス）は、パラメトリック符号化における信号成分のリンクを開示している。リンク部が、連続した拡張信号セグメント（consecutive extended signal segments）の成分を示すリンク情報を作る。この成分をリンクして正弦波トラックを形成する。

これらの既知の方法により満足できる結果が得られるが、時間フレームの境界を越えて正弦波をリンクすると位相エラーが生じるという欠点がある。ある時間フレームの正弦波を次の時間フレームの間違った正弦波（wrong sinusoid）とリンクすると、一般的には位相のミスマッチ（phase mismatch）が生じる。この位相のミスマッチにより、合成したオーディオ信号に聞き取り得る歪みが生じる。

それゆえ、本発明の目的は、先行技術のこれらの問題を解消して、位相の不連続性を無くすか、少なくとも大幅に低減できる、オーディオ信号の合成装置及び方法を提供することである。

そのため、本発明はオーディオ信号を合成する信号合成装置を提供する。該装置は、
- 前記オーディオ信号の周波数を表す少なくとも１つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも１つのパラメータとを用いて、前記オーディオ信号を合成する正弦波合成部と、
- 前記（少なくとも１つの）周波数パラメータと前記合成オーディオ信号とを用いて前記（少なくとも１つの）位相パラメータを生成するパラメータ生成部とを有する。

すでに合成されたオーディオ信号を用いて位相を生成することにより、実質的に連続な位相を提供できる位相ループを使用する。より具体的には、正弦波合成部で使用する位相は、合成したオーディオ信号から求められ、オーディオ信号と正しく一致させることができる。結果として、位相予測が大幅に改善され、位相予測エラーの数を大幅に削減することができる。ループに関係する時間遅延も考慮することが好ましい。

本発明の装置において、連続するセグメントの信号成分をリンクする従来のリンク部（linking unit）を削除してもよく、かかるリンク部により生じる位相のミスマッチ（mismatches）を回避できる。

好ましい実施形態では、前記合成オーディオ信号は時間セグメントを有し、前記パラメータ生成部は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成するよう構成される。これらの実施形態では、合成されるセグメントの位相はその前に合成されたセグメントの位相から、好ましくは直前のセグメントの位相から求められる。このように、すでに合成されたオーディオ信号の位相とこれから合成するオーディオ信号の位相を近いものにする。

さらに好ましくは、前記パラメータ生成部は、前記オーディオ信号の周波数の位相を表す位相／周波数のペアのセットを決定するように構成された位相決定部を有する。この実施形態では、一組の位相とそれに関連する周波数を合成されたオーディオ信号から求める。

有利にも、前記パラメータ生成部は
- 前記周波数パラメータを前記位相／周波数のペアと比較して、前記周波数パラメータに最も近い位相／周波数のペアを選択し、
- 前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成するように構成された位相予測部を有すると有利である。

このように、パラメータ予測部は、合成において、周波数パラメータが表す周波数と最もよく一致する周波数を選択し、選択された周波数と関連する位相を使用する。この選択は複数回実行されてもよく、好ましくは、オーディオ信号の合成に複数の周波数を使用する場合には、各周波数につき１回実行される。

合成されたオーディオ信号は周波数パラメータが表す周波数を有する。しかし、この周波数（またはこれらの周波数）の修正が望ましいこともある。このように、有利な実施形態では、前記パラメータ生成部は制御パラメータに応じて前記周波数パラメータを修正する周波数修正部を有する。この（周波数）制御パラメータは例えば乗数であり、その値が１の場合には周波数は変更されず、１より小さい場合には周波数が下がり、１より大きい場合には周波数が上がる。他の実施形態では、制御パラメータは周波数オフセットを示す。

本発明は周波数パラメータと位相パラメータのみを用いて実施することができるが、好ましくは、追加的パラメータを使用して合成するオーディオ信号をさらに特徴付け（define）てもよい。このように、正弦波合成部は振幅パラメータを追加的に使用することもできる。これに加えて、またはこれに換えて、本発明の装置は、合成したオーディオ信号にゲインパラメータを乗算する乗算部をさらに有してもよい。

合成オーディオ信号が時間セグメント（時間フレーム）よりなる場合、本装置はさらに合成オーディオ信号の時間セグメントを連結（join）する重ね合わせ・加算部をさらに有すると有利である。かかる重ね合わせ・加算部は、それ自体既知であり、部分的に重なった信号の時間セグメントを加算して実質的に連続なオーディオデータストリームを生成するために使用できる。

セグメンテーション部と重ね合わせ・加算部を設け、セグメンテーション部２５を第１の重ね合わせパラメータで制御し、重ね合わせ・加算部を第２の重ね合わせパラメータで制御すると、重ね合わせパラメータを変化させて時間スケーリングをするように本装置を構成できる。

本発明の装置は、記憶媒体、デマルチプレクサ（demultiplexer）、その他の適切な情報源から、周波数パラメータ、位相パラメータ、及びその他のパラメータを受け取ることができる。これは具体的には、本発明の装置を、事前にパラメータエンコーダを用いてエンコードされたオーディオ信号をデコード（すなわち合成）するデコーダとして使用する場合である。しかし、さらに別の有利な実施形態では、本発明の装置はそれ自体でパラメータを生成することができる。それゆえ、かかる実施形態では、本装置は、入力オーディオ信号を受け取り、周波数パラメータと位相パラメータとを生成する正弦波分析部をさらに有する。

オーディオ信号をまずエンコード（すなわち、分析して信号パラメータで表現）し、次にデコード（すなわち、前記の信号パラメータを用いて合成）する装置の実施形態を用いて、パラメータを修正することにより信号特性（例えば、周波数）を修正することができる。

このように、本発明は、周波数修正装置も提供する。該装置は上記の信号合成装置を有する。その信号合成装置は、制御パラメータに応じて周波数パラメータを修正する周波数修正部と、入力オーディオ信号を受け取って周波数パラメータと位相パラメータとを生成する正弦波分析部を含む。

本発明の信号合成装置は、入力オーディオ信号を受け取り周波数パラメータと位相パラメータとを生成する正弦波分析部を設けた場合、
- 合成オーディオ信号を生成するさらなる正弦波合成部と、
- ゲインパラメータを生成するために、前記合成オーディオ信号と前記入力オーディオ信号とを比較する比較部とをさらに有しても有利である。

この実施形態では、ゲインパラメータを生成する。このゲインパラメータにより、エンコード（数値化）プロセスでゲインが変化しても、合成オーディオ信号のゲインを調節することができる。

本装置は、さらに、オーディオ信号を時間セグメントに分割するセグメンテーション部を有してもよい。しかし、実施形態によっては、すでに時間セグメントに分割されたオーディオ信号を受信するように構成され、セグメンテーション部は必要ないであろう。

本発明はスピーチ変換装置も提供する。該装置は、
- 入力スピーチ信号に応答して予測パラメータと残余信号を生成する線形予測分析部と、
- 前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成するピッチ適応部と、
- 前記ピッチ適応済み残余信号に応答して、出力スピーチ信号を合成する線形予測合成部とを有し、
ピッチ適応部はオーディオ信号の周波数を上記のように修正する装置を有する。線形予測合成部は、前記ピッチ適応済み残余信号と予測パラメータとの両方に応じて、出力スピーチ信号を合成するように構成され得る。

また、本発明は上記の装置を有するオーディオシステムも提供する。本発明のオーディオシステムは、スピーチシンセサイザ及び／またはミュージックシンセサイザをさらに有してもよい。本発明の装置は、例えばコンシューマ装置で使用できる。コンシューマ装置とは、例えば、携帯電話、ＭＰ３またはＡＡＣプレーヤ、電子楽器、オーディオ（ステレオや５．１等）とビデオ（テレビジョンセット等）を含むエンターテイメントシステム、及びその他の装置（コンピュータ装置等）である。特に、本発明は、オーディオ信号の位相をエンコードしなくてもビット及び／またはビットレートを節約できるアプリケーションで利用できる。

本発明は、オーディオ信号を合成する方法も提供する。該方法は、
- 前記オーディオ信号の周波数を表す少なくとも１つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも１つのパラメータとを用いて、前記オーディオ信号を合成する段階と、
- 前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成する段階とを有する。

好ましくは、前記合成オーディオ信号は時間セグメントを有し、前記生成段階は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成する段階を有する。

特に好ましくは、前記位相予測段階は、前記オーディオ信号の周波数の位相を表す位相／周波数のペアのセットを決定する段階を有する。

前記位相予測段階は、さらに、
- 前記周波数パラメータを前記位相／周波数のペアと比較して、前記周波数パラメータに最も近い位相／周波数のペアを選択する段階と、
- 前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成する段階とを有してもよい。

前記位相予測段階は、有利にも、さらに、制御パラメータに応じて前記周波数パラメータを修正する段階を有してもよい。

本発明は、周波数修正方法も提供する。該方法は、上記の正弦波合成方法を有し、制御パラメータに応じて周波数パラメータを修正する段階と、入力オーディオ信号を受け取る段階と、周波数パラメータと位相パラメータとを生成する段階とを含む。

本発明はスピーチ変換装置も提供する。該装置は、
- 入力スピーチ信号に応じて予測パラメータと残余信号を生成する段階と、
- 前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成する段階と、
- 前記ピッチ適応済み残余信号に応じて、出力スピーチ信号を合成する段階とを有し、ピッチ適応段階は上記の周波数修正方法を含む。

出力スピーチ信号を合成する段階は、ピッチ適応済み残余信号と予測パラメータとの両方を使用する。他の有利な方法の段階は以下の本発明の説明から明らかになるであろう。

また、本発明は上記の方法を実行するコンピュータプログラム製品も提供する。コンピュータプログラム製品は、ＣＤやＤＶＤ等のデータ担体に記憶された一組のコンピュータ実行可能な命令を含む。その一組のコンピュータ実行可能な命令は、プログラマブルコンピュータに上記の方法を実行させるが、インターネット等を介して遠隔地のサーバからダウンロードすることもできる。

添付した図面に示した実施形態例を参照して、本発明をさらに説明する。

図１に示したパラメトリックオーディオ信号修正システム１は、非限定的な単なる実施例である。このパラメトリックオーディオ信号修正システム１は、線形予測分析（ＬＰＡ）部１０と、ピッチ適応（ＰＡ）部２０と、線形予測合成（ＬＰＳ）部３０と、修正（Ｍｏｄ）部４０とを有する。パラメトリックオーディオ信号修正システム１の構成はそれ自体既知のものであるが、図１に示したシステム１において、ピッチ適応部２０が新規なものである。これについては図２乃至図４を参照して後で詳しく説明する。

図１のシステム１は、オーディオ信号Ｘを受け取り、修正オーディオ信号Ｙを出力する。オーディオ信号Ｘは、例えば、声（スピーチ）の信号や音楽の信号である。信号Ｘは、線形予測分析部１０に入力され、（時間的に変化する）予測パラメータｐと残余信号ｒとのシーケンスに変換される。このために、線形予測部１０は好適な線形予測分析フィルタ（suitable linear prediction analysis filter）を有している。線形予測分析部１０が生成した予測パラメータｐはフィルタパラメータであり、このフィルタパラメータにより、好適なフィルタ（図示した実施例では、線形予測合成部３０にある線形予測合成フィルタ）が、好適な起動信号（excitation signal）に応答して、信号Ｘを実質的に再生することができる。残余信号ｒ（または、ピッチ適応後の修正残余信号ｒ′）がここではその起動信号として機能する。上記のように、線形予測分析フィルタと線形予測合成フィルタとは当業者には周知であり、これ以上説明する必要はない。

ピッチ適応（ＰＡ）部２０は、残余信号ｒを修正して修正残余信号ｒ′を生成することにより、オーディオ信号Ｘのピッチ（主要振動数）を修正する。信号Ｘの他のパラメータをさらに別の修正部４０を用いて修正する。この修正部４０は予測パラメータｐを修正して修正予測パラメータｐ′を生成するように構成されている。本発明では、このさらに別の修正部４０は必須ではなく、なくてもよい。予測パラメータｐをもちろん線形予測合成部３０に入力し、信号Ｙを合成する。

オーディオ信号の周波数を修正する装置を図２に概略的に示した。装置２０は、図１のシステムにおいてピッチ適応部として有利に使用できるが、他のシステムで使用することもできる。言うまでもなく、装置２０は、線形予測分析及び線形予測合成を用いたシステムに使用できるだけではなく、線形予測分析と線形予測合成を使用していないオーディオ信号修正装置やシステムで独立なユニットとして使用することもできる。

図２に示した装置２０は、正弦波分析（ＳｉＡ）部２１と、パラメータ生成（ＰａＰ）部２２と、正弦波合成（ＳｉＳ）部２３とを有する。留意すべきこととして、正弦波分析部２１と正弦波合成部２３は、図１に示したシステム１の線形予測分析部１０や線形予測合成部３０とは異なる。

正弦波分析部２１は入力オーディオ信号ｒを受け取る。この信号は図１の残余信号ｒであるが、そのように限定はされない。例えば、図２の入力オーディオ信号ｒは図１の入力オーディオ信号Ｘであってもよく、ボイス（スピーチ）信号や音楽信号であってもよい。

正弦波分析部２１は、入力信号ｒを分析し、一組の信号パラメータ、すなわち周波数パラメータｆと振幅パラメータＡとを生成する。周波数パラメータｆは入力信号ｒの正弦波成分の周波数を表す。実施形態によっては、複数の周波数パラメータｆ１，ｆ２，ｆ３，．．．を生成してもよい。各周波数パラメータは単一の周波数を表している。振幅パラメータＡは必須ではなく、（例えば、正弦波合成部２３で固定振幅を使用する場合には）なくてもよい。例えば、典型的な実施形態では、振幅パラメータＡ（または複数の振幅パラメータＡ１，Ａ２，Ａ３，．．．）を使用する。正弦波分析部２１は、好ましい実施形態では、高速フーリエ変換（ＦＦＴ）を使って周波数パラメータと振幅パラメータを生成するように構成される。

パラメータ生成部２２は、正弦波分析部２１から周波数パラメータを受け取り、このパラメータを（周波数）制御パラメータＣを用いて調節する。パラメータ生成部２２は、例えば、周波数パラメータｆと制御パラメータＣとを乗算して修正周波数パラメータｆ′（ｆ′＝Ｃ×ｆ）を生成する乗算部を含む。この実施例では、Ｃが１であるとき、周波数パラメータは修正されず、Ｃが１より小さいとき、周波数パラメータの値は小さくなり、Ｃが１より大きいとき、周波数パラメータの値は小さくなる。

本発明によると、パラメータ生成部２２は合成された信号ｒ′も受け取り、この信号の位相を求め、位相パラメータφ′を生成する。パラメータ生成部２２は、正弦波合成部２３に修正周波数パラメータｆ′と位相パラメータφ′とを供給する。正弦波合成部２３は、（任意的な）振幅パラメータＡも受け取る。これらのパラメータを用いて、正弦波合成部２３は出力オーディオ信号ｒ′を合成する。

正弦波合成部２３は、好ましい実施形態では、逆高速フーリエ変換（ＩＦＦＴ）または同様な演算を実行するように構成されている。パラメータ生成部２２は後で図３を参照してより詳しく説明する。

本発明による周波数修正オーディオ信号エンコーダ／デコーダのペアを図３に概略的に示した。エンコーダ４とデコーダ５は別個の装置として示した。しかし、これらの装置を合わせて単一の装置（図２の装置２０）にしてもよい。

図３に示したオーディオ信号エンコーダ４は非限定的な単なる実施例であり、セグメンテーション（ＳＥＧ）部２５と、正弦波分析（ＳｉＡ）部２１と、（第２の）正弦波合成（ＳｉＳ′）部２３′と、最小自乗平均エラー（ＭＭＳＥ）部２６とを有する。留意すべきこととして、（追加的）正弦波合成（ＳｉＳ′）部２３′と最小自乗平均エラー（ＭＭＳＥ）部２６は必須ではなく、削除してもよい。さらに留意すべきことは、正弦波合成（ＳｉＳ′）部２３′は、デコーダ５の（第１の）正弦波合成（ＳｉＳ）部２３と区別するため、第２の正弦波合成部とした。

図３に示したオーディオ信号デコーダ５は、非限定的な単なる実施例であり、正弦波分析（ＳｉＳ）部２３と、パラメータ生成部２２と、ゲイン制御部２４と、重ね合わせ・加算（ＯＬＡ）及び時間スケーリング（ＴＳ）部２５′とを有する。パラメータ生成部２２は、図２のパラメータ生成（ＰａＰ）部２２に実質的に対応し、メモリ（Ｍ）部２９と、（第２の）正弦波分析（ＳｉＡ′）部２１′と、位相予測部２８と、（任意的）周波数スケーリング（ＦＳ）部２７とを有する。実施形態によっては、周波数スケーリング（ＦＳ）部２７は削除してもよい。さらに、正弦波分析（ＳｉＡ′）部２１′は、デコーダ４の（第１の）正弦波分析（ＳｉＡ）部２１と区別するため、第２の正弦波分析部とした。

エンコーダ４は（デジタル）オーディオ信号ｓを受け取る。この信号は、例えば、ボイス（スピーチ）信号や音楽信号やこれらの組合せである。このオーディオ信号ｓは、セグメンテーション部２５により、部分的に重なった時間セグメント（フレーム）に分割され、セグメント化オーディオ信号（segmented audio signal）ｒとなる。セグメンテーション部２５は、連続する時間セグメントの時間間隔を示す（入力）更新区間パラメータｕｐｄｉｎを受け取る。セグメント化オーディオ信号ｒは、図１、図２、図３の信号ｒであるが、そう限定はされない。

正弦波分析部２１は、好ましくは高速フーリエ変換（ＦＦＴ）を実行するように構成されており、少なくとも１つの周波数パラメータｆを生成し、図示した実施形態では、少なくとも１つの振幅パラメータＡと少なくとも１つの位相パラメータφも生成する。周波数パラメータｆと振幅パラメータＡはエンコーダ４により出力され、位相パラメータφはその内部で使用される。図示した実施形態では、位相パラメータφは、パラメータｆ及びパラメータＡとともに（追加的な）正弦波分析部２３′に入力され、信号ｒ′′の合成に使用される。理想的には、この合成信号ｒ′′は、ゲインの違いを除けば、入力オーディオ信号ｒと実質的に等しい。このゲインの違いを補正するため、元の（セグメント化された）入力オーディオ信号ｒと合成されたオーディオ信号ｒ′′を比較部に入力する。この比較部は、図示した実施形態では、最小自乗平均エラー（ＭＭＳＥ）部２６により構成されている。最小自乗平均エラー（ＭＭＳＥ）部２６は、入力オーディオ信号ｒと合成オーディオ信号ｒ′′の間の最小自乗平均誤差を決定し、それに対応するゲイン信号Ｇを生成し、振幅の違いを補正する。実施形態によっては、この振幅補正情報は振幅パラメータＡに含められてもよいし、無視されてもよい。これらの場合は、エンコーダ４にはユニット２３′とユニット２６が無くてもよく、デコーダ５にはゲイン制御部２４がなくてもよい。

図３から分かるように、エンコーダ４は入力オーディオ信号を受け取り、この信号を、それを表す一組のパラメータｆ、Ａと、さらに別のパラメータＧに変換する。これらのパラメータは適切な手段や方法によりデコーダ５に送信される。この手段や方法は、例えば、オーディオシステムのリード線、インターネット接続、無線接続（例えば、ブルートゥース（登録商標））、データ単体（例えば、ＣＤ、ＤＶＤ、メモリスティック）である。他の実施形態では、エンコーダ４とデコーダ５は単一の装置（図１、図２、図３の装置２０）を構成し、エンコーダ４とデコーダ５の間の接続はその単一装置の内部的な接続である。

このように、デコーダ５は信号パラメータｆ、Ａと、追加的パラメータＧ、Ｃを受け取る。振幅パラメータＡは正弦波合成部２３に直接入力される。正弦波合成部２３は、好ましくは、合成信号ｒ′＝ｒ′（ｎ）を生成するために、逆高速フーリエ変換（ＩＦＦＴ）を実行するように構成されている。その合成は次式を用いて行われる：

ここで、ｋは信号中の周波数成分の数である。

パラメータｆとＣはパラメータ生成部２２の周波数スケーリング部２７に入力される。一方、ゲイン補正パラメータＧはゲイン制御部２４（本実施形態では乗算部）に入力される。

周波数スケーリング（ＦＳ）部２７は、制御パラメータＣを使用して周波数パラメータｆを調節（すなわち、スケーリング）する。この調節は、例えば、制御パラメータＣと周波数パラメータｆを乗算して行う。この結果、調節済み（即ちスケーリングされた）周波数パラメータｆ′が得られる。このパラメータｆ′を正弦波合成部２３と位相予測部２８との両方に入力する。

正弦波合成部２３は、振幅パラメータＡと周波数パラメータｆと位相パラメータφ′とを用いて、出力オーディオ信号ｒ′を合成する（前述の通り、振幅パラメータＡは必須ではなく、実施形態によっては使用されなくてもよい）。この合成信号ｒ′はゲイン制御部２４に入力される。ゲイン制御部２４は、ゲインパラメータＧを用いて信号ｒ′の振幅を調節し、ゲイン調節済みの信号を重ね合わせ・加算及び時間スケーリング（ＯＬＡ／ＴＳ）部２５′に入力する。ＯＬＡ／ＴＳ部２５′は、出力信号の時間セグメントの重なりを示す（出力）更新区間パラメータｕｐｄｏｕｔも受け取る。パラメータｕｐｄｏｕｔを用いて、部分的に重なった時間セグメントの信号値を加算して出力信号ｓ′を生成する。

正弦波合成部２３が生成する合成信号ｒ′は、本発明では、メモリ（Ｍ）すなわち遅延部２９に入力される。この遅延部２９は合成信号ｒ′の最新の時間セグメントを一時的に記憶する。このセグメントは（第２の）正弦波分析（ＳｉＡ′）部２１′に入力される。この正弦波分析部２１′は、そのセグメントの周波数と、それに付随する位相の値を決定する。すなわち、正弦波分析部２１′は、例えばＦＦＴを用いて、時間セグメントの周波数スペクトルを決定し、次いで、ゼロでないすべての周波数値の位相を決定し、最後に、位相と周波数のペアのセット（a set of phase / frequency pairs）を出力する。各ペアは周波数とそれに付随する位相により構成されている。その結果、ユニット２１′は（好ましくはゼロでないものだけで）周波数値の「グリッド（grid）」を作り、各（ゼロでない）周波数値はそれに付随する位相値を有する。実施形態によっては、ゼロより大きい閾値を使って、小さい周波数値は除外する。小さい周波数値に付随する位相値は丸め誤差により比較的不正確であることが多いからである。

ユニット２１′が生成する位相・周波数のペアのセット（the set of phase / frequency pairs）は位相予測部２８に入力される。この位相予測部２８は、周波数パラメータｆ′を、そのセットの周波数（the frequencies of the set）と比較し、パラメータｆ′が表す周波数と最もよく一致する位相・周波数のペアを選択する。次に、次式を用いて、選択したペアの位相の、現在のセグメントと前のセグメントとの間の時間遅延を補正する：

ここで、φ′は補正済み位相パラメータであり、φは選択された位相・周波数ペアの位相であり、ｆ′は（任意的に修正された）周波数パラメータであり、Δｔは時間遅延である。その結果得られる補正済み位相パラメータφ′を正弦波合成部２３に入力して、信号ｒ′の次の時間セグメントを合成する。

このように明らかに、本発明のデコーダは、前述の先行技術では使用されるようなリンカー（linker）を使用しない。合成されるオーディオ信号の位相は、前に合成されたオーディオ信号の位相から求められ、特に、最後の（すなわち最新の）時間セグメントのオーディオ信号の位相から求められる。

言うまでもなく、時間セグメントを使用しない場合、位相予測部２８において他の時間遅延基準（例えば、処理時間に基づく基準）を使用できる。

装置５を周波数調整をしないデコーダとして使用する場合、周波数シフト部２７はなくてもよい。エンコーダ４とデコーダ５を合わせて、周波数シフト部２７を含む単一装置にすると、有利な周波数修正装置とすることができる。

図３に示したエンコーダ装置４とデコーダ装置５は、個別に、または組み合わせて、時間スケーリングに使用することができる。このために、上記の更新区間パラメータ（update interval parameters）ｕｐｄｉｎとｕｐｄｏｕｔを適切に修正する。

図４には、入力信号（例えば、図３の信号ｓ）を時間軸Ｉに示し、それに対応する出力信号（例えば、図３の信号ｓ′）を時間軸ＩＩに示した。図４では、信号をウィンドウＡとＢにより概略的に表した。ウィンドウＡとＢは便宜上、三角形として示したが、いかなる適切な形状でもよく、例えば、ガウス形状や余弦形状（Gaussian or cosine-shaped）であってもよい。各ウィンドウは長さがパラメータｓｅｇｌｅｎと同じ単一の時間セグメントをキャプチャ（capture）する。セグメント化部（図３のユニット２５）におけるセグメント化プロセスでは、ウィンドウＡの間隔がパラメータｕｐｄｉｎにより決まる。同様に、ＯＬＡ部（図３のユニット２５′）における重ね合わせ・加算プロセス（overlap-and-add process）では、ウィンドウＢの間隔がパラメータｕｐｄｏｕｔにより決まる。図４に示したように、ｕｐｄｏｕｔをｕｐｄｉｎより大きくすることにより、信号ｓは拡張される。

図５は逆の場合であり、パラメータｕｐｄｏｕｔはｕｐｄｉｎよりも小さく、信号が圧縮（すなわち、時間的に圧縮）されている。これから分かるように、パラメータｕｐｄｉｎとｕｐｄｏｕｔを適当に修正して、時間スケーリングを行うことができる。

本発明は、オーディオ信号を合成する時、合成する信号の位相をすでに合成したオーディオ信号から、すなわち、少し前に（好ましくは直前に）合成した信号から求めると有利であるとの洞察に基づく。これにより、位相の不連続性を実質的に無くすことができる。本発明は、合成したオーディオ信号から求めた位相を、合成する信号の周波数を用いて調節でき、この周波数の調節により周波数調節された信号を供給できるとのさらに別の洞察を利用するものである。

留意すべきことは、本明細書で使用した用語は、本発明の範囲を限定するものとして解釈してはならないことである。特に、「有する」という用語は、記載されていない何らかの要素を排除することを意味するものではない。単一の（回路）要素を複数の（回路）要素またはその等価物で置き換えることもできる。

当業者には当然のことながら、本発明は上記の実施形態に限定されるものではなく、添付した請求項に記載した本発明の範囲から逸脱することなく、多くの修正や追加をすることができる。

本発明によるパラメトリックオーディオ信号修正システムを示す概略図である。本発明によるオーディオ周波数修正装置の一実施形態を示す概略図である。本発明による周波数修正オーディオ信号エンコーダ／デコーダのペアを示す概略図である。図３のオーディオ信号エンコーダ／デコーダのペアが実行する時間スケーリングの第１の例を示す概略図である。図３のオーディオ信号エンコーダ／デコーダのペアが実行する時間スケーリングの第２の例を示す概略図である。

Claims

オーディオ信号を合成する信号合成装置であって、
前記オーディオ信号の周波数を表す少なくとも１つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも１つのパラメータとを用いて、前記オーディオ信号を合成する正弦波合成部と、
前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成するパラメータ生成部とを有する装置。
前記合成オーディオ信号は時間セグメントを有し、前記パラメータ生成部は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成するよう構成された、請求項１に記載の装置。
前記パラメータ生成部は、前記オーディオ信号の周波数の位相を表す位相／周波数のペアを決定するように構成された位相決定部を有する、請求項１に記載の装置。
前記パラメータ生成部は、
前記周波数パラメータを前記位相／周波数のペアと比較して、前記周波数パラメータに最も近い位相／周波数のペアを選択し、
前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成する位相予測部を有する、請求項３に記載の装置。
前記パラメータ生成部は制御パラメータに応答して前記周波数パラメータを修正する周波数修正部を有する、請求項１に記載の装置。
前記正弦波合成部はさらに振幅パラメータを使用する、請求項１に記載の装置。
前記合成オーディオ信号にゲインパラメータをかけるゲイン制御部をさらに有する、請求項１に記載の装置。
入力オーディオ信号を受け取り周波数パラメータと位相パラメータとを生成する正弦波分析部をさらに有する、請求項１に記載の装置。
合成オーディオ信号を生成するさらなる正弦波合成部と、
ゲインパラメータを生成するために、前記合成オーディオ信号と前記入力オーディオ信号とを比較する比較部とをさらに有する、請求項８に記載の装置。
前記オーディオ信号を時間セグメントに分割する分割部をさらに有する、請求項２に記載の装置。
前記合成オーディオ信号の時間セグメントを接合する重ね合わせ・加算部をさらに有する、請求項２に記載の装置。
前記セグメンテーション部は第１のオーバーラップパラメータにより制御され、前記重ね合わせ・加算部は第２のオーバーラップパラメータにより制御され、前記装置は前記オーバーラップパラメータを変化させて時間スケーリングするように構成された、請求項１０及び１１に記載の装置。
スピーチ変換装置であって、
入力スピーチ信号に応答して予測パラメータと残余信号を生成する線形予測分析部と、
前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成するピッチ適応部と、
前記ピッチ適応済み残余信号に応答して、出力スピーチ信号を合成する線形予測合成部とを有し、
前記ピッチ適応部は請求項５に記載の装置を有するスピーチ変換装置。
前記予測パラメータを修正する修正部をさらに有する、請求項１３に記載のスピーチ変換装置。
請求項１に記載の装置を有するオーディオシステム。
オーディオ信号デコーダであって、
前記オーディオ信号の周波数を表す少なくとも１つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも１つのパラメータとを用いて、前記オーディオ信号を合成する正弦波合成部と、
前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成するパラメータ生成部とを有するオーディオ信号デコーダ。
オーディオ信号を合成する方法であって、
前記オーディオ信号の周波数を表す少なくとも１つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも１つのパラメータとを用いて、前記オーディオ信号を合成する段階と、
前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成する段階とを有する方法。
前記合成オーディオ信号は時間セグメントを有し、前記パラメータ生成部は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成するよう構成された、請求項１７に記載の方法。
前記位相予測段階は、前記オーディオ信号の周波数の位相を表す位相／周波数のペアを決定する段階を有する、請求項１７に記載の方法。
前記位相予測段階は、さらに、
前記周波数パラメータを前記位相／周波数のペアと比較して、前記周波数パラメータに最も近い位相／周波数のペアを選択する段階と、
前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成する段階とを有する、請求項１７に記載の方法。
前記位相予測段階は、さらに、制御パラメータに応じて前記周波数パラメータを修正する段階を有する、請求項１７に記載の方法。
スピーチ変換方法であって、
入力スピーチ信号に応じて予測パラメータと残余信号を生成する段階と、
前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成する段階と、
前記ピッチ適応済み残余信号に応じて、出力スピーチ信号を合成する段階とを有し、
前記ピッチ適応段階は請求項２１に記載のオーディオ信号の周波数を変更する段階を有する方法。
時間スケーリング段階をさらに有する、請求項１７または２２に記載の方法。
コンピュータに、請求項１７または２２に記載の方法を実行させるコンピュータプログラム。