JP2009501353A - オーディオ信号合成 - Google Patents

オーディオ信号合成 Download PDF

Info

Publication number
JP2009501353A
JP2009501353A JP2008521005A JP2008521005A JP2009501353A JP 2009501353 A JP2009501353 A JP 2009501353A JP 2008521005 A JP2008521005 A JP 2008521005A JP 2008521005 A JP2008521005 A JP 2008521005A JP 2009501353 A JP2009501353 A JP 2009501353A
Authority
JP
Japan
Prior art keywords
parameter
audio signal
frequency
phase
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008521005A
Other languages
English (en)
Inventor
ブリンケル,アルベルテュス セー デン
イェー スライテル,ロベルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009501353A publication Critical patent/JP2009501353A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Working-Up Tar And Pitch (AREA)

Abstract

スピーチ信号等のオーディオ信号(r)のピッチを変更する装置(2)である。該装置は、オーディオ信号(r)の正弦波パラメータを決定する正弦波分析部(21)と、正弦波成分の位相を予測するパラメータ生成部(22)と、パラメータを合成して再構成信号(r′)を生成する正弦波合成部(23)とを有する。パラメータ生成部(22)は、オーディオ信号の各時間セグメントにおいて、前の時間セグメントの位相を受け取り、現在の時間セグメントの位相を予測する。

Description

発明の詳細な説明
本発明は、オーディオ信号合成に関する。より具体的に、本発明は、合成された信号の位相を決定するオーディオ信号合成装置及び方法に関する。本発明はさらに、上記のオーディオ信号合成装置または方法を含む、オーディオ信号の周波数を修正する装置及び方法に関する。
周波数や位相等の信号パラメータを用いたオーディオ信号の合成は周知である。電子楽器やその他のコンシューマ製品(例えば携帯電話など)においては、音声信号を発生するために合成を行っている。あるいは、デコーダが、符号化されたオーディオ信号を復号するために合成を行う。符号化方法の一例としてパラメトリック符号化がある。この方法では、オーディオ信号を時間セグメントごとに正弦波成分とノイズ成分とその他の任意的成分とに分解する。これらの成分はそれぞれ適当なパラメータで表される。好適なデコーダにおいて、パラメータを使用して元のオーディオ信号を実質的に再構成する。
A.C.den Brinker、E.G.P.Schuijers及びA.W.J.Oomenによる論文「高音質オーディオのためのパラメトリック符号化」(Audio Engineering Society Convention Paper 5554, Munich (Germany), May 2002)には、パラメトリック符号化における正弦波トラック(sinusoidal tracks)を使用することが開示されている。オーディオ信号を、過渡オブジェクトと正弦波オブジェクトとノイズオブジェクトを用いてモデル化する。正弦波オブジェクトのパラメータを時間フレームごとに推定する。フレームごとに推定された周波数をフレームを越えて(複数のフレームにわたって)リンクし、正弦波トラックを形成する。これらのトラックは、時間フレームのどの正弦波オブジェクトが次の時間フレームに続いているかを示す。
国際特許出願第WO02/056298号(フィリップス)は、パラメトリック符号化における信号成分のリンクを開示している。リンク部が、連続した拡張信号セグメント(consecutive extended signal segments)の成分を示すリンク情報を作る。この成分をリンクして正弦波トラックを形成する。
これらの既知の方法により満足できる結果が得られるが、時間フレームの境界を越えて正弦波をリンクすると位相エラーが生じるという欠点がある。ある時間フレームの正弦波を次の時間フレームの間違った正弦波(wrong sinusoid)とリンクすると、一般的には位相のミスマッチ(phase mismatch)が生じる。この位相のミスマッチにより、合成したオーディオ信号に聞き取り得る歪みが生じる。
それゆえ、本発明の目的は、先行技術のこれらの問題を解消して、位相の不連続性を無くすか、少なくとも大幅に低減できる、オーディオ信号の合成装置及び方法を提供することである。
そのため、本発明はオーディオ信号を合成する信号合成装置を提供する。該装置は、
- 前記オーディオ信号の周波数を表す少なくとも1つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも1つのパラメータとを用いて、前記オーディオ信号を合成する正弦波合成部と、
- 前記(少なくとも1つの)周波数パラメータと前記合成オーディオ信号とを用いて前記(少なくとも1つの)位相パラメータを生成するパラメータ生成部とを有する。
すでに合成されたオーディオ信号を用いて位相を生成することにより、実質的に連続な位相を提供できる位相ループを使用する。より具体的には、正弦波合成部で使用する位相は、合成したオーディオ信号から求められ、オーディオ信号と正しく一致させることができる。結果として、位相予測が大幅に改善され、位相予測エラーの数を大幅に削減することができる。ループに関係する時間遅延も考慮することが好ましい。
本発明の装置において、連続するセグメントの信号成分をリンクする従来のリンク部(linking unit)を削除してもよく、かかるリンク部により生じる位相のミスマッチ(mismatches)を回避できる。
好ましい実施形態では、前記合成オーディオ信号は時間セグメントを有し、前記パラメータ生成部は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成するよう構成される。これらの実施形態では、合成されるセグメントの位相はその前に合成されたセグメントの位相から、好ましくは直前のセグメントの位相から求められる。このように、すでに合成されたオーディオ信号の位相とこれから合成するオーディオ信号の位相を近いものにする。
さらに好ましくは、前記パラメータ生成部は、前記オーディオ信号の周波数の位相を表す位相/周波数のペアのセットを決定するように構成された位相決定部を有する。この実施形態では、一組の位相とそれに関連する周波数を合成されたオーディオ信号から求める。
有利にも、前記パラメータ生成部は
- 前記周波数パラメータを前記位相/周波数のペアと比較して、前記周波数パラメータに最も近い位相/周波数のペアを選択し、
- 前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成するように構成された位相予測部を有すると有利である。
このように、パラメータ予測部は、合成において、周波数パラメータが表す周波数と最もよく一致する周波数を選択し、選択された周波数と関連する位相を使用する。この選択は複数回実行されてもよく、好ましくは、オーディオ信号の合成に複数の周波数を使用する場合には、各周波数につき1回実行される。
合成されたオーディオ信号は周波数パラメータが表す周波数を有する。しかし、この周波数(またはこれらの周波数)の修正が望ましいこともある。このように、有利な実施形態では、前記パラメータ生成部は制御パラメータに応じて前記周波数パラメータを修正する周波数修正部を有する。この(周波数)制御パラメータは例えば乗数であり、その値が1の場合には周波数は変更されず、1より小さい場合には周波数が下がり、1より大きい場合には周波数が上がる。他の実施形態では、制御パラメータは周波数オフセットを示す。
本発明は周波数パラメータと位相パラメータのみを用いて実施することができるが、好ましくは、追加的パラメータを使用して合成するオーディオ信号をさらに特徴付け(define)てもよい。このように、正弦波合成部は振幅パラメータを追加的に使用することもできる。これに加えて、またはこれに換えて、本発明の装置は、合成したオーディオ信号にゲインパラメータを乗算する乗算部をさらに有してもよい。
合成オーディオ信号が時間セグメント(時間フレーム)よりなる場合、本装置はさらに合成オーディオ信号の時間セグメントを連結(join)する重ね合わせ・加算部をさらに有すると有利である。かかる重ね合わせ・加算部は、それ自体既知であり、部分的に重なった信号の時間セグメントを加算して実質的に連続なオーディオデータストリームを生成するために使用できる。
セグメンテーション部と重ね合わせ・加算部を設け、セグメンテーション部25を第1の重ね合わせパラメータで制御し、重ね合わせ・加算部を第2の重ね合わせパラメータで制御すると、重ね合わせパラメータを変化させて時間スケーリングをするように本装置を構成できる。
本発明の装置は、記憶媒体、デマルチプレクサ(demultiplexer)、その他の適切な情報源から、周波数パラメータ、位相パラメータ、及びその他のパラメータを受け取ることができる。これは具体的には、本発明の装置を、事前にパラメータエンコーダを用いてエンコードされたオーディオ信号をデコード(すなわち合成)するデコーダとして使用する場合である。しかし、さらに別の有利な実施形態では、本発明の装置はそれ自体でパラメータを生成することができる。それゆえ、かかる実施形態では、本装置は、入力オーディオ信号を受け取り、周波数パラメータと位相パラメータとを生成する正弦波分析部をさらに有する。
オーディオ信号をまずエンコード(すなわち、分析して信号パラメータで表現)し、次にデコード(すなわち、前記の信号パラメータを用いて合成)する装置の実施形態を用いて、パラメータを修正することにより信号特性(例えば、周波数)を修正することができる。
このように、本発明は、周波数修正装置も提供する。該装置は上記の信号合成装置を有する。その信号合成装置は、制御パラメータに応じて周波数パラメータを修正する周波数修正部と、入力オーディオ信号を受け取って周波数パラメータと位相パラメータとを生成する正弦波分析部を含む。
本発明の信号合成装置は、入力オーディオ信号を受け取り周波数パラメータと位相パラメータとを生成する正弦波分析部を設けた場合、
- 合成オーディオ信号を生成するさらなる正弦波合成部と、
- ゲインパラメータを生成するために、前記合成オーディオ信号と前記入力オーディオ信号とを比較する比較部とをさらに有しても有利である。
この実施形態では、ゲインパラメータを生成する。このゲインパラメータにより、エンコード(数値化)プロセスでゲインが変化しても、合成オーディオ信号のゲインを調節することができる。
本装置は、さらに、オーディオ信号を時間セグメントに分割するセグメンテーション部を有してもよい。しかし、実施形態によっては、すでに時間セグメントに分割されたオーディオ信号を受信するように構成され、セグメンテーション部は必要ないであろう。
本発明はスピーチ変換装置も提供する。該装置は、
- 入力スピーチ信号に応答して予測パラメータと残余信号を生成する線形予測分析部と、
- 前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成するピッチ適応部と、
- 前記ピッチ適応済み残余信号に応答して、出力スピーチ信号を合成する線形予測合成部とを有し、
ピッチ適応部はオーディオ信号の周波数を上記のように修正する装置を有する。線形予測合成部は、前記ピッチ適応済み残余信号と予測パラメータとの両方に応じて、出力スピーチ信号を合成するように構成され得る。
また、本発明は上記の装置を有するオーディオシステムも提供する。本発明のオーディオシステムは、スピーチシンセサイザ及び/またはミュージックシンセサイザをさらに有してもよい。本発明の装置は、例えばコンシューマ装置で使用できる。コンシューマ装置とは、例えば、携帯電話、MP3またはAACプレーヤ、電子楽器、オーディオ(ステレオや5.1等)とビデオ(テレビジョンセット等)を含むエンターテイメントシステム、及びその他の装置(コンピュータ装置等)である。特に、本発明は、オーディオ信号の位相をエンコードしなくてもビット及び/またはビットレートを節約できるアプリケーションで利用できる。
本発明は、オーディオ信号を合成する方法も提供する。該方法は、
- 前記オーディオ信号の周波数を表す少なくとも1つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも1つのパラメータとを用いて、前記オーディオ信号を合成する段階と、
- 前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成する段階とを有する。
好ましくは、前記合成オーディオ信号は時間セグメントを有し、前記生成段階は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成する段階を有する。
特に好ましくは、前記位相予測段階は、前記オーディオ信号の周波数の位相を表す位相/周波数のペアのセットを決定する段階を有する。
前記位相予測段階は、さらに、
- 前記周波数パラメータを前記位相/周波数のペアと比較して、前記周波数パラメータに最も近い位相/周波数のペアを選択する段階と、
- 前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成する段階とを有してもよい。
前記位相予測段階は、有利にも、さらに、制御パラメータに応じて前記周波数パラメータを修正する段階を有してもよい。
本発明は、周波数修正方法も提供する。該方法は、上記の正弦波合成方法を有し、制御パラメータに応じて周波数パラメータを修正する段階と、入力オーディオ信号を受け取る段階と、周波数パラメータと位相パラメータとを生成する段階とを含む。
本発明はスピーチ変換装置も提供する。該装置は、
- 入力スピーチ信号に応じて予測パラメータと残余信号を生成する段階と、
- 前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成する段階と、
- 前記ピッチ適応済み残余信号に応じて、出力スピーチ信号を合成する段階とを有し、ピッチ適応段階は上記の周波数修正方法を含む。
出力スピーチ信号を合成する段階は、ピッチ適応済み残余信号と予測パラメータとの両方を使用する。他の有利な方法の段階は以下の本発明の説明から明らかになるであろう。
また、本発明は上記の方法を実行するコンピュータプログラム製品も提供する。コンピュータプログラム製品は、CDやDVD等のデータ担体に記憶された一組のコンピュータ実行可能な命令を含む。その一組のコンピュータ実行可能な命令は、プログラマブルコンピュータに上記の方法を実行させるが、インターネット等を介して遠隔地のサーバからダウンロードすることもできる。
添付した図面に示した実施形態例を参照して、本発明をさらに説明する。
図1に示したパラメトリックオーディオ信号修正システム1は、非限定的な単なる実施例である。このパラメトリックオーディオ信号修正システム1は、線形予測分析(LPA)部10と、ピッチ適応(PA)部20と、線形予測合成(LPS)部30と、修正(Mod)部40とを有する。パラメトリックオーディオ信号修正システム1の構成はそれ自体既知のものであるが、図1に示したシステム1において、ピッチ適応部20が新規なものである。これについては図2乃至図4を参照して後で詳しく説明する。
図1のシステム1は、オーディオ信号Xを受け取り、修正オーディオ信号Yを出力する。オーディオ信号Xは、例えば、声(スピーチ)の信号や音楽の信号である。信号Xは、線形予測分析部10に入力され、(時間的に変化する)予測パラメータpと残余信号rとのシーケンスに変換される。このために、線形予測部10は好適な線形予測分析フィルタ(suitable linear prediction analysis filter)を有している。線形予測分析部10が生成した予測パラメータpはフィルタパラメータであり、このフィルタパラメータにより、好適なフィルタ(図示した実施例では、線形予測合成部30にある線形予測合成フィルタ)が、好適な起動信号(excitation signal)に応答して、信号Xを実質的に再生することができる。残余信号r(または、ピッチ適応後の修正残余信号r′)がここではその起動信号として機能する。上記のように、線形予測分析フィルタと線形予測合成フィルタとは当業者には周知であり、これ以上説明する必要はない。
ピッチ適応(PA)部20は、残余信号rを修正して修正残余信号r′を生成することにより、オーディオ信号Xのピッチ(主要振動数)を修正する。信号Xの他のパラメータをさらに別の修正部40を用いて修正する。この修正部40は予測パラメータpを修正して修正予測パラメータp′を生成するように構成されている。本発明では、このさらに別の修正部40は必須ではなく、なくてもよい。予測パラメータpをもちろん線形予測合成部30に入力し、信号Yを合成する。
オーディオ信号の周波数を修正する装置を図2に概略的に示した。装置20は、図1のシステムにおいてピッチ適応部として有利に使用できるが、他のシステムで使用することもできる。言うまでもなく、装置20は、線形予測分析及び線形予測合成を用いたシステムに使用できるだけではなく、線形予測分析と線形予測合成を使用していないオーディオ信号修正装置やシステムで独立なユニットとして使用することもできる。
図2に示した装置20は、正弦波分析(SiA)部21と、パラメータ生成(PaP)部22と、正弦波合成(SiS)部23とを有する。留意すべきこととして、正弦波分析部21と正弦波合成部23は、図1に示したシステム1の線形予測分析部10や線形予測合成部30とは異なる。
正弦波分析部21は入力オーディオ信号rを受け取る。この信号は図1の残余信号rであるが、そのように限定はされない。例えば、図2の入力オーディオ信号rは図1の入力オーディオ信号Xであってもよく、ボイス(スピーチ)信号や音楽信号であってもよい。
正弦波分析部21は、入力信号rを分析し、一組の信号パラメータ、すなわち周波数パラメータfと振幅パラメータAとを生成する。周波数パラメータfは入力信号rの正弦波成分の周波数を表す。実施形態によっては、複数の周波数パラメータf1,f2,f3,...を生成してもよい。各周波数パラメータは単一の周波数を表している。振幅パラメータAは必須ではなく、(例えば、正弦波合成部23で固定振幅を使用する場合には)なくてもよい。例えば、典型的な実施形態では、振幅パラメータA(または複数の振幅パラメータA1,A2,A3,...)を使用する。正弦波分析部21は、好ましい実施形態では、高速フーリエ変換(FFT)を使って周波数パラメータと振幅パラメータを生成するように構成される。
パラメータ生成部22は、正弦波分析部21から周波数パラメータを受け取り、このパラメータを(周波数)制御パラメータCを用いて調節する。パラメータ生成部22は、例えば、周波数パラメータfと制御パラメータCとを乗算して修正周波数パラメータf′(f′=C×f)を生成する乗算部を含む。この実施例では、Cが1であるとき、周波数パラメータは修正されず、Cが1より小さいとき、周波数パラメータの値は小さくなり、Cが1より大きいとき、周波数パラメータの値は小さくなる。
本発明によると、パラメータ生成部22は合成された信号r′も受け取り、この信号の位相を求め、位相パラメータφ′を生成する。パラメータ生成部22は、正弦波合成部23に修正周波数パラメータf′と位相パラメータφ′とを供給する。正弦波合成部23は、(任意的な)振幅パラメータAも受け取る。これらのパラメータを用いて、正弦波合成部23は出力オーディオ信号r′を合成する。
正弦波合成部23は、好ましい実施形態では、逆高速フーリエ変換(IFFT)または同様な演算を実行するように構成されている。パラメータ生成部22は後で図3を参照してより詳しく説明する。
本発明による周波数修正オーディオ信号エンコーダ/デコーダのペアを図3に概略的に示した。エンコーダ4とデコーダ5は別個の装置として示した。しかし、これらの装置を合わせて単一の装置(図2の装置20)にしてもよい。
図3に示したオーディオ信号エンコーダ4は非限定的な単なる実施例であり、セグメンテーション(SEG)部25と、正弦波分析(SiA)部21と、(第2の)正弦波合成(SiS′)部23′と、最小自乗平均エラー(MMSE)部26とを有する。留意すべきこととして、(追加的)正弦波合成(SiS′)部23′と最小自乗平均エラー(MMSE)部26は必須ではなく、削除してもよい。さらに留意すべきことは、正弦波合成(SiS′)部23′は、デコーダ5の(第1の)正弦波合成(SiS)部23と区別するため、第2の正弦波合成部とした。
図3に示したオーディオ信号デコーダ5は、非限定的な単なる実施例であり、正弦波分析(SiS)部23と、パラメータ生成部22と、ゲイン制御部24と、重ね合わせ・加算(OLA)及び時間スケーリング(TS)部25′とを有する。パラメータ生成部22は、図2のパラメータ生成(PaP)部22に実質的に対応し、メモリ(M)部29と、(第2の)正弦波分析(SiA′)部21′と、位相予測部28と、(任意的)周波数スケーリング(FS)部27とを有する。実施形態によっては、周波数スケーリング(FS)部27は削除してもよい。さらに、正弦波分析(SiA′)部21′は、デコーダ4の(第1の)正弦波分析(SiA)部21と区別するため、第2の正弦波分析部とした。
エンコーダ4は(デジタル)オーディオ信号sを受け取る。この信号は、例えば、ボイス(スピーチ)信号や音楽信号やこれらの組合せである。このオーディオ信号sは、セグメンテーション部25により、部分的に重なった時間セグメント(フレーム)に分割され、セグメント化オーディオ信号(segmented audio signal)rとなる。セグメンテーション部25は、連続する時間セグメントの時間間隔を示す(入力)更新区間パラメータupdinを受け取る。セグメント化オーディオ信号rは、図1、図2、図3の信号rであるが、そう限定はされない。
正弦波分析部21は、好ましくは高速フーリエ変換(FFT)を実行するように構成されており、少なくとも1つの周波数パラメータfを生成し、図示した実施形態では、少なくとも1つの振幅パラメータAと少なくとも1つの位相パラメータφも生成する。周波数パラメータfと振幅パラメータAはエンコーダ4により出力され、位相パラメータφはその内部で使用される。図示した実施形態では、位相パラメータφは、パラメータf及びパラメータAとともに(追加的な)正弦波分析部23′に入力され、信号r′′の合成に使用される。理想的には、この合成信号r′′は、ゲインの違いを除けば、入力オーディオ信号rと実質的に等しい。このゲインの違いを補正するため、元の(セグメント化された)入力オーディオ信号rと合成されたオーディオ信号r′′を比較部に入力する。この比較部は、図示した実施形態では、最小自乗平均エラー(MMSE)部26により構成されている。最小自乗平均エラー(MMSE)部26は、入力オーディオ信号rと合成オーディオ信号r′′の間の最小自乗平均誤差を決定し、それに対応するゲイン信号Gを生成し、振幅の違いを補正する。実施形態によっては、この振幅補正情報は振幅パラメータAに含められてもよいし、無視されてもよい。これらの場合は、エンコーダ4にはユニット23′とユニット26が無くてもよく、デコーダ5にはゲイン制御部24がなくてもよい。
図3から分かるように、エンコーダ4は入力オーディオ信号を受け取り、この信号を、それを表す一組のパラメータf、Aと、さらに別のパラメータGに変換する。これらのパラメータは適切な手段や方法によりデコーダ5に送信される。この手段や方法は、例えば、オーディオシステムのリード線、インターネット接続、無線接続(例えば、ブルートゥース(登録商標))、データ単体(例えば、CD、DVD、メモリスティック)である。他の実施形態では、エンコーダ4とデコーダ5は単一の装置(図1、図2、図3の装置20)を構成し、エンコーダ4とデコーダ5の間の接続はその単一装置の内部的な接続である。
このように、デコーダ5は信号パラメータf、Aと、追加的パラメータG、Cを受け取る。振幅パラメータAは正弦波合成部23に直接入力される。正弦波合成部23は、好ましくは、合成信号r′=r′(n)を生成するために、逆高速フーリエ変換(IFFT)を実行するように構成されている。その合成は次式を用いて行われる:
Figure 2009501353
ここで、kは信号中の周波数成分の数である。
パラメータfとCはパラメータ生成部22の周波数スケーリング部27に入力される。一方、ゲイン補正パラメータGはゲイン制御部24(本実施形態では乗算部)に入力される。
周波数スケーリング(FS)部27は、制御パラメータCを使用して周波数パラメータfを調節(すなわち、スケーリング)する。この調節は、例えば、制御パラメータCと周波数パラメータfを乗算して行う。この結果、調節済み(即ちスケーリングされた)周波数パラメータf′が得られる。このパラメータf′を正弦波合成部23と位相予測部28との両方に入力する。
正弦波合成部23は、振幅パラメータAと周波数パラメータfと位相パラメータφ′とを用いて、出力オーディオ信号r′を合成する(前述の通り、振幅パラメータAは必須ではなく、実施形態によっては使用されなくてもよい)。この合成信号r′はゲイン制御部24に入力される。ゲイン制御部24は、ゲインパラメータGを用いて信号r′の振幅を調節し、ゲイン調節済みの信号を重ね合わせ・加算及び時間スケーリング(OLA/TS)部25′に入力する。OLA/TS部25′は、出力信号の時間セグメントの重なりを示す(出力)更新区間パラメータupdoutも受け取る。パラメータupdoutを用いて、部分的に重なった時間セグメントの信号値を加算して出力信号s′を生成する。
正弦波合成部23が生成する合成信号r′は、本発明では、メモリ(M)すなわち遅延部29に入力される。この遅延部29は合成信号r′の最新の時間セグメントを一時的に記憶する。このセグメントは(第2の)正弦波分析(SiA′)部21′に入力される。この正弦波分析部21′は、そのセグメントの周波数と、それに付随する位相の値を決定する。すなわち、正弦波分析部21′は、例えばFFTを用いて、時間セグメントの周波数スペクトルを決定し、次いで、ゼロでないすべての周波数値の位相を決定し、最後に、位相と周波数のペアのセット(a set of phase / frequency pairs)を出力する。各ペアは周波数とそれに付随する位相により構成されている。その結果、ユニット21′は(好ましくはゼロでないものだけで)周波数値の「グリッド(grid)」を作り、各(ゼロでない)周波数値はそれに付随する位相値を有する。実施形態によっては、ゼロより大きい閾値を使って、小さい周波数値は除外する。小さい周波数値に付随する位相値は丸め誤差により比較的不正確であることが多いからである。
ユニット21′が生成する位相・周波数のペアのセット(the set of phase / frequency pairs)は位相予測部28に入力される。この位相予測部28は、周波数パラメータf′を、そのセットの周波数(the frequencies of the set)と比較し、パラメータf′が表す周波数と最もよく一致する位相・周波数のペアを選択する。次に、次式を用いて、選択したペアの位相の、現在のセグメントと前のセグメントとの間の時間遅延を補正する:
Figure 2009501353
ここで、φ′は補正済み位相パラメータであり、φは選択された位相・周波数ペアの位相であり、f′は(任意的に修正された)周波数パラメータであり、Δtは時間遅延である。その結果得られる補正済み位相パラメータφ′を正弦波合成部23に入力して、信号r′の次の時間セグメントを合成する。
このように明らかに、本発明のデコーダは、前述の先行技術では使用されるようなリンカー(linker)を使用しない。合成されるオーディオ信号の位相は、前に合成されたオーディオ信号の位相から求められ、特に、最後の(すなわち最新の)時間セグメントのオーディオ信号の位相から求められる。
言うまでもなく、時間セグメントを使用しない場合、位相予測部28において他の時間遅延基準(例えば、処理時間に基づく基準)を使用できる。
装置5を周波数調整をしないデコーダとして使用する場合、周波数シフト部27はなくてもよい。エンコーダ4とデコーダ5を合わせて、周波数シフト部27を含む単一装置にすると、有利な周波数修正装置とすることができる。
図3に示したエンコーダ装置4とデコーダ装置5は、個別に、または組み合わせて、時間スケーリングに使用することができる。このために、上記の更新区間パラメータ(update interval parameters)updinとupdoutを適切に修正する。
図4には、入力信号(例えば、図3の信号s)を時間軸Iに示し、それに対応する出力信号(例えば、図3の信号s′)を時間軸IIに示した。図4では、信号をウィンドウAとBにより概略的に表した。ウィンドウAとBは便宜上、三角形として示したが、いかなる適切な形状でもよく、例えば、ガウス形状や余弦形状(Gaussian or cosine-shaped)であってもよい。各ウィンドウは長さがパラメータseglenと同じ単一の時間セグメントをキャプチャ(capture)する。セグメント化部(図3のユニット25)におけるセグメント化プロセスでは、ウィンドウAの間隔がパラメータupdinにより決まる。同様に、OLA部(図3のユニット25′)における重ね合わせ・加算プロセス(overlap-and-add process)では、ウィンドウBの間隔がパラメータupdoutにより決まる。図4に示したように、updoutをupdinより大きくすることにより、信号sは拡張される。
図5は逆の場合であり、パラメータupdoutはupdinよりも小さく、信号が圧縮(すなわち、時間的に圧縮)されている。これから分かるように、パラメータupdinとupdoutを適当に修正して、時間スケーリングを行うことができる。
本発明は、オーディオ信号を合成する時、合成する信号の位相をすでに合成したオーディオ信号から、すなわち、少し前に(好ましくは直前に)合成した信号から求めると有利であるとの洞察に基づく。これにより、位相の不連続性を実質的に無くすことができる。本発明は、合成したオーディオ信号から求めた位相を、合成する信号の周波数を用いて調節でき、この周波数の調節により周波数調節された信号を供給できるとのさらに別の洞察を利用するものである。
留意すべきことは、本明細書で使用した用語は、本発明の範囲を限定するものとして解釈してはならないことである。特に、「有する」という用語は、記載されていない何らかの要素を排除することを意味するものではない。単一の(回路)要素を複数の(回路)要素またはその等価物で置き換えることもできる。
当業者には当然のことながら、本発明は上記の実施形態に限定されるものではなく、添付した請求項に記載した本発明の範囲から逸脱することなく、多くの修正や追加をすることができる。
本発明によるパラメトリックオーディオ信号修正システムを示す概略図である。 本発明によるオーディオ周波数修正装置の一実施形態を示す概略図である。 本発明による周波数修正オーディオ信号エンコーダ/デコーダのペアを示す概略図である。 図3のオーディオ信号エンコーダ/デコーダのペアが実行する時間スケーリングの第1の例を示す概略図である。 図3のオーディオ信号エンコーダ/デコーダのペアが実行する時間スケーリングの第2の例を示す概略図である。

Claims (24)

  1. オーディオ信号を合成する信号合成装置であって、
    前記オーディオ信号の周波数を表す少なくとも1つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも1つのパラメータとを用いて、前記オーディオ信号を合成する正弦波合成部と、
    前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成するパラメータ生成部とを有する装置。
  2. 前記合成オーディオ信号は時間セグメントを有し、前記パラメータ生成部は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成するよう構成された、請求項1に記載の装置。
  3. 前記パラメータ生成部は、前記オーディオ信号の周波数の位相を表す位相/周波数のペアを決定するように構成された位相決定部を有する、請求項1に記載の装置。
  4. 前記パラメータ生成部は、
    前記周波数パラメータを前記位相/周波数のペアと比較して、前記周波数パラメータに最も近い位相/周波数のペアを選択し、
    前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成する位相予測部を有する、請求項3に記載の装置。
  5. 前記パラメータ生成部は制御パラメータに応答して前記周波数パラメータを修正する周波数修正部を有する、請求項1に記載の装置。
  6. 前記正弦波合成部はさらに振幅パラメータを使用する、請求項1に記載の装置。
  7. 前記合成オーディオ信号にゲインパラメータをかけるゲイン制御部をさらに有する、請求項1に記載の装置。
  8. 入力オーディオ信号を受け取り周波数パラメータと位相パラメータとを生成する正弦波分析部をさらに有する、請求項1に記載の装置。
  9. 合成オーディオ信号を生成するさらなる正弦波合成部と、
    ゲインパラメータを生成するために、前記合成オーディオ信号と前記入力オーディオ信号とを比較する比較部とをさらに有する、請求項8に記載の装置。
  10. 前記オーディオ信号を時間セグメントに分割する分割部をさらに有する、請求項2に記載の装置。
  11. 前記合成オーディオ信号の時間セグメントを接合する重ね合わせ・加算部をさらに有する、請求項2に記載の装置。
  12. 前記セグメンテーション部は第1のオーバーラップパラメータにより制御され、前記重ね合わせ・加算部は第2のオーバーラップパラメータにより制御され、前記装置は前記オーバーラップパラメータを変化させて時間スケーリングするように構成された、請求項10及び11に記載の装置。
  13. スピーチ変換装置であって、
    入力スピーチ信号に応答して予測パラメータと残余信号を生成する線形予測分析部と、
    前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成するピッチ適応部と、
    前記ピッチ適応済み残余信号に応答して、出力スピーチ信号を合成する線形予測合成部とを有し、
    前記ピッチ適応部は請求項5に記載の装置を有するスピーチ変換装置。
  14. 前記予測パラメータを修正する修正部をさらに有する、請求項13に記載のスピーチ変換装置。
  15. 請求項1に記載の装置を有するオーディオシステム。
  16. オーディオ信号デコーダであって、
    前記オーディオ信号の周波数を表す少なくとも1つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも1つのパラメータとを用いて、前記オーディオ信号を合成する正弦波合成部と、
    前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成するパラメータ生成部とを有するオーディオ信号デコーダ。
  17. オーディオ信号を合成する方法であって、
    前記オーディオ信号の周波数を表す少なくとも1つの周波数パラメータと前記オーディオ信号の位相を表す少なくとも1つのパラメータとを用いて、前記オーディオ信号を合成する段階と、
    前記周波数パラメータと前記オーディオ信号とを用いて前記位相パラメータを生成する段階とを有する方法。
  18. 前記合成オーディオ信号は時間セグメントを有し、前記パラメータ生成部は前記オーディオ信号の前の時間セグメントを用いて前記現在の位相パラメータを生成するよう構成された、請求項17に記載の方法。
  19. 前記位相予測段階は、前記オーディオ信号の周波数の位相を表す位相/周波数のペアを決定する段階を有する、請求項17に記載の方法。
  20. 前記位相予測段階は、さらに、
    前記周波数パラメータを前記位相/周波数のペアと比較して、前記周波数パラメータに最も近い位相/周波数のペアを選択する段階と、
    前記周波数パラメータと前記選択された位相とを用いて前記位相パラメータを生成する段階とを有する、請求項17に記載の方法。
  21. 前記位相予測段階は、さらに、制御パラメータに応じて前記周波数パラメータを修正する段階を有する、請求項17に記載の方法。
  22. スピーチ変換方法であって、
    入力スピーチ信号に応じて予測パラメータと残余信号を生成する段階と、
    前記残余信号のピッチを適応させてピッチ適応済み残余信号を生成する段階と、
    前記ピッチ適応済み残余信号に応じて、出力スピーチ信号を合成する段階とを有し、
    前記ピッチ適応段階は請求項21に記載のオーディオ信号の周波数を変更する段階を有する方法。
  23. 時間スケーリング段階をさらに有する、請求項17または22に記載の方法。
  24. コンピュータに、請求項17または22に記載の方法を実行させるコンピュータプログラム。
JP2008521005A 2005-07-14 2006-07-06 オーディオ信号合成 Withdrawn JP2009501353A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05106437 2005-07-14
PCT/IB2006/052291 WO2007007253A1 (en) 2005-07-14 2006-07-06 Audio signal synthesis

Publications (1)

Publication Number Publication Date
JP2009501353A true JP2009501353A (ja) 2009-01-15

Family

ID=37433812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008521005A Withdrawn JP2009501353A (ja) 2005-07-14 2006-07-06 オーディオ信号合成

Country Status (9)

Country Link
US (1) US20100131276A1 (ja)
EP (1) EP1905009B1 (ja)
JP (1) JP2009501353A (ja)
CN (1) CN101223581A (ja)
AT (1) ATE443318T1 (ja)
DE (1) DE602006009271D1 (ja)
ES (1) ES2332108T3 (ja)
RU (1) RU2008105555A (ja)
WO (1) WO2007007253A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101333162B1 (ko) 2012-10-04 2013-11-27 부산대학교 산학협력단 Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073925A (ko) 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
ES2374008B1 (es) 2009-12-21 2012-12-28 Telefónica, S.A. Codificación, modificación y síntesis de segmentos de voz.
CN104766612A (zh) * 2015-04-13 2015-07-08 李素平 基于乐音音色匹配的正弦模型分离方法
US10326469B1 (en) * 2018-03-26 2019-06-18 Qualcomm Incorporated Segmented digital-to-analog converter (DAC)
EP3573059B1 (en) * 2018-05-25 2021-03-31 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JP3437445B2 (ja) * 1998-05-22 2003-08-18 松下電器産業株式会社 線形信号予測を用いた受信装置及び方法
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
WO2001082293A1 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
JP5485488B2 (ja) * 2000-06-20 2014-05-07 コーニンクレッカ フィリップス エヌ ヴェ 正弦波符号化
KR100348899B1 (ko) * 2000-09-19 2002-08-14 한국전자통신연구원 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
WO2002056298A1 (en) 2001-01-16 2002-07-18 Koninklijke Philips Electronics N.V. Linking of signal components in parametric encoding
ATE323935T1 (de) * 2001-04-09 2006-05-15 Koninkl Philips Electronics Nv Adpcm sprachkodiersystem mit phasenfaltungs und - entfaltungsfiltern
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
WO2005091275A1 (en) * 2004-03-17 2005-09-29 Koninklijke Philips Electronics N.V. Audio coding
CA2603246C (en) * 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
US8155972B2 (en) * 2005-10-05 2012-04-10 Texas Instruments Incorporated Seamless audio speed change based on time scale modification
US20070083377A1 (en) * 2005-10-12 2007-04-12 Steven Trautmann Time scale modification of audio using bark bands
FI20060133A0 (fi) * 2006-02-13 2006-02-13 Juha Ruokangas Menetelmä ja järjestelmä äänisignaalien modifioimiseksi

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101333162B1 (ko) 2012-10-04 2013-11-27 부산대학교 산학협력단 Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법
WO2014054918A1 (ko) * 2012-10-04 2014-04-10 부산대학교 산학협력단 Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법

Also Published As

Publication number Publication date
EP1905009A1 (en) 2008-04-02
ATE443318T1 (de) 2009-10-15
EP1905009B1 (en) 2009-09-16
RU2008105555A (ru) 2009-08-20
US20100131276A1 (en) 2010-05-27
ES2332108T3 (es) 2010-01-26
DE602006009271D1 (de) 2009-10-29
WO2007007253A1 (en) 2007-01-18
CN101223581A (zh) 2008-07-16

Similar Documents

Publication Publication Date Title
RU2491658C2 (ru) Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
US9270722B2 (en) Method for concatenating frames in communication system
JP5467098B2 (ja) オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
JP4586090B2 (ja) 信号処理方法、処理装置および音声復号器
WO2018084305A1 (ja) 音声合成方法
JP2009501353A (ja) オーディオ信号合成
JP2019070819A (ja) 適応型ノイズ推定を使用してエラー隠し信号を生成する装置及び方法
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2020122980A (ja) 個別の符号帳情報についての個別の置き換えlpc表現を用いたエラー隠し信号を生成する装置及び方法
JP6637082B2 (ja) 調波モデルと音源−声道特徴分解に基づく音声分析合成方法
JP2000010597A (ja) 音声変換装置及び音声変換方法
JP2002132300A (ja) 音声符号化方法、音声復号化方法及び電子装置
JP2000267686A (ja) 信号伝送方式及び復号化装置
JP2018077281A (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
JP3934793B2 (ja) 音声変換装置及び音声変換方法
JP2007519043A (ja) 音響信号の部分音を修復する方法
JP2018077282A (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090703

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20110329