JP2001517327A

JP2001517327A - スピーチ合成方法

Info

Publication number: JP2001517327A
Application number: JP54446298A
Authority: JP
Inventors: リュベルグ，ベルティル; ヴィレン，マッツ
Original assignee: テリアアクティエボラーグ
Priority date: 1997-03-25
Filing date: 1998-03-20
Publication date: 2001-10-02
Also published as: SE9701102D0; DK0970467T3; EE9900420A; NO994600D0; US6385580B1; NO317597B1; WO1998043236A2; DE69817550D1; WO1998043236A3; NO994600L; DE69817550T2; SE9701102L; EP0970467B1; SE519679C2; EP0970467A2

Abstract

(57)【要約】本発明は、スピーチ合成技術を介して、スピーチを割り当てられた人物の顔面運動を再現するスピーチ合成方法に関する。このスピーチは、データベースから取り出された多音字の集合からなっている。さらに、第１の人物の多音字に関連した顔面運動パターンを伴って、多音字を収容したデータバンクが確立される。第２の人物から得られた多音字はさらに、データベースに登録及び記憶される。データバンク及びデータベース中の対応する多音字における音声セグメントは、互いに比較され、それによってデータバンク中の顔面運動が、それらの偏差に従って変更される。変更された運動パターンは、データベース中にストアされるとともに、当該多音字に関連付けられる。登録された多音字は、その後、対応する運動パターンがデータベース中に運動パターンから取り出した顔面モデルを確立すると同時に、単語及び文章となるように集合させられる。

Description

【発明の詳細な説明】発明の名称：スピーチ合成方法技術分野本発明は、スピーチ（または口述話）の再生及び話者の口述に付随する顔面運動の分析に関するものである。本発明は、話者の顔面運動が、生成された音声と同時に再生されるべく用いられることを意図したものである。技術問題スピーチ合成においては、そのスピーチ、すなわち口述話を話者の顔面運動と同期させる必要がある。スウェーデン国特許願第９５０４３６−５号では、顔面の運動パターンを、半音節を基礎とする連結合成による多音字（ｐｌｙｐｈｏｎｅ）の集合、すなわち音声とともに記録する方法が開示されている。試話者の半音節単位の運動パターンの記録は、顔面の多角形モデルの範囲内を指示する。別の組立、すなわち別の顔面を、その多角形モデルの上に適用して、多音字合成から***及び顔面運動を得ることができる。上述のモデルによれば、男性、女性及び子供の音声を個別的に記録することが要求される。このような手順は、高価で、しかも付随的なものである。解決手段本発明は、スピーチ合成を介してある口述話を指定された人物の顔面運動を再現するためのスピーチ合成の方法に関するものである。ここにいうスピーチ、すなわち口述話とは、データベースから取り出された多音字の集合である。さらに、複数の多音字をそれらの多音字に付随する第１の人物の顔面運動パターンとともに収容したデータバンクが確立される。第２の人物から得られた多音字は、さらに、データベースに登録及び記録される。これらデータバンク及びデータベースにおいて、互いに対応する多音字の音声セグメントが比較され、データバンク中の顔面運動がその偏差に応じて変更される。変更された運動パターンは、データベースに記憶され、さらに、当該多音字に関連付けられる。登録された多音字は、その後、対応する運動パターンがデータベース中の運動パターンから選び出して顔面モデルを確立すると同時に、単語及び文章を編集するために用いられる。試話者のスピーチは、その試話者の運動パターンが登録されると同時に記録される。記録されたスピーチは、多音字、及び半音節に分類される無意味な単語群からなっている。記録された多音字は、多音字バンクにストアされる。各多音字はさらに、試話者の顔面運動を収録した運動バンク中にストアされる。第２の人物の場合、対応する方法において多音字ベース中に複数の多音字が登録される。しかしながら、第２の人物の顔面運動は登録されない。対応する多音字における音声セグメント間の比較は、その後、多音字ベースと多音字バンクとの間で実行される。登録された相違は、その後、運動バンク中における最新の運動パターンを変更するために用いられ、その場合、モデルは第２話者による多音字の発音に対応する運動パターンとともに獲得される。変更された運動パターンは、運動ベース中にストアされる。多音字ベースから多音字を集める場合、運動ベースは、その後で顔面モデルの生成に用いられ、その運動は、話し中の人物の話法に対応する。生成されたモデルは、最初の試話者の運動パターンから得られた運動パターンに基づく多音字モデルからなっている。第２の人物が話している光景を生じるために、そのモデルには話者の画像が加えられる。第２の人物に適応するため、多角形モデルは変更される。モデルに加えられた画像は、データベース中にストアされ、もしくは電話回線などを介して伝達されるスチール又は動画からなることができる。このようにして、三次元画像が生成される。第１話者の顔面に関して登録された運動は、三次元顔面モデルにおいて配列された多数の点からなる。この顔面モデルは、多数の点の集まりからなる多数の多角形から構成される。これらの点は、試話者の顔面において測定された点からなり、音声／多音字の記録中において登録される。試話者の顔面における多数点の登録は、なるべくなら、その試話者の顔面において選択された多数の点をマークすることによって達成される。それらの点は、その後で、例えばレーザー技術により登録され、それによって音声及び運動パターンのバンクが生成される。本発明の利用分野は、音声／スピーチの再生に伴って、話者の顔面を動的に表わす運動パターンを与えるべきであるようなすべてのケースに該当する。それは例えば、第１の言語を話しているある人物が、スピーチ合成手段により、第２の言語を話しているように表現されることにも関連する。このような条件は、電話通信システム又は設備が電話中の人物のスピーチを翻訳し、かつその話者を画像表現するような将来の電話技術とも関連するはずである。しかしながら、本発明の利用分野は、電話に限らず、ある人物による最初のスピーチが顔面運動の活写を伴って第２の言語に翻訳され、かつ再生されるすべての分野に関連する。発明の利点上述の発明は、顔面運動を伴うスピーチの動画を廉価に達成する手順を提供するものである。これは例えば、話者のスピーチを第１の言語から第２の言語に翻訳する場合に用いられる。その記録においては、顔面の基本運動を生成すべく動員される１名の試話者のみが必要である。その試話者からの運動パターンを借用すべき少なくとも一人の人物は、単にそこから多音字が抽出されるべき多数の音声シーケンスを発音し、これを記録することのみが要求される。多音字およびそれに付随する適当に選択された人間の顔面運動を登録することにより、異なった状況において異なった顔面の動画を利用できるようなバンクを形成することが可能である。登録された顔面は、例えば、種々の世代及び性別に応じて異なった人物像に分類されうる。図面の簡単な説明図１は、顔面運動がどのように登録されるかを示す図である。図２は、多角形モデルがどのように確立されるかを示す図である。好ましい実施例の説明以下、本発明について図面を参照して詳細に説明する。試話者の音声及びそれに伴う顔面の運動パターンを登録することは、例えば、無意味な単語群を走査中のテキストから抽出して用いることにより実行される。無意味な単語群を利用することにより、試話者は、単語群の発音と表情の両方を自然体で行うことができる。無意味な単語群は、基本的には、半音節に分割される１音節単語からなっている。これらの半音節は、互いに連結されて単語及び文章に編集される。２個の半音節の連結は、各半音節の母音の中間において形成される。１単語の生成は、次の手順で行われる。まず、単語の１音節となる半音節、並びに当該単語のアクセントが見出される。１単語、例えば“ｎｏｄ”（ｎｕ：ｄ）は、次の音節“ｎｏ”、“ｏｄ”に分割される。そして、言語辞書からその単語のアクセントに関する情報が引き出される。これらの音声は、その後、集合して単語及び文章となり、各１単語のアクセントが生成されるとともに文章全体のイントネーション（抑揚）が決定される。この手順による単語及び文章の確立は、前述したスウェーデン国特許願第９５０４３６７−５号において記述された通りである。多音字バンクを生成するため、試話者は、多数の単語、例えば無意味な単語列を話すようになっている。また、選択的に走査テキストを用いることもできる。前記単語が登録されると同時に、試話者の顔面運動もまた登録される。これらの顔面運動は、運動ベース中にストアされる。記録された単語は、多音字、半音節及びこれらに付随する対応する顔面運動に分割される。多音字と対応する顔面運動との間の関係は、このようにして発生する。顔面運動の登録は、試話者の顔面における種々の点をマークすることにより行われる。これらの点は、顔面中で大きい変化が生ずる部分であって、比較的広い範囲にわたって運動そのものの偏差が比較的小さい部分において設定される。大偏差が生じる範囲は、例えば、唇のまわりと唇そのものの運動である。これら多数点の各々は、試話者の三次元生成像における位置を与えられる。画像は、顔面の多角形モデルのみから構成される。そのモデルを単語及び文章となるように連結される多音字と調整することにより、生成されたものに対応する運動パターンが得られる。多音字はさらに、第２の人物からも登録されるが、その第２の人物の顔面運動の登録は行われない。この場合もまた、なるべくなら、無意味な単語列が用いられるが、走査テキストを用いることもできる。このようにして多音字ベースが第２の人物について生成される。この第２の人物に関する運動ベースを生成するため、第１の人物についての多音字バンクが用いられる。多音字バンク及び多音字ベース中の対応する多音字は、音声の発生に関して比較される。偏差が多音字について持続的に登録された後、運動バンク中の対応する運動が変更される。この変更された運動は、その後、運動ベース中にストアされる。運動ベース及び多音字ベースは、互いに接続される。第２の人物像が動画化されるべき場合には、多音字から複数の半音節が集められることにより、単語及び句（フレーズ）が生成される。同時に、三次元多角形モデルが、運動ベースから取り出された対応する運動パターンとともに確立される。生成された画像は、多角形中の終点が第１の試話者の顔面における各測定点を表わすようにしたスレッドモデルからなっている。第２の人物の表情を生成するため、行われたスピーチとその第２の人物の画像が、多音字モデルに適用される。多角形モデルは、その第２の人物の顔だちや口、その他のサイズなどを調整するために変更される。生成された再現像は、三次元であり、行われたスピーチと同時に表示されて、そのスピーチ及び顔面運動がよく対応するようになっている。しかしながら、この方法は、運動パターンが第２の人物の基本的な運動パターンに全く正しく対応するものではなく、第１の人物の運動パターンによって特徴付けられるものである。ある人物Ｂは、第２の言語に翻訳されるべき第１の言語を話しているか、又は第２の人物Ｂにテキストが分与されるようになっている。人物Ｂについて、多音字バンクは生成されているが、運動パターンは登録されていない。Ｂの場合、登録された多音字は、ある人物Ａの関連する運動パターンを有する多音字ベース中の対応する多音字と比較される。音声セグメントの正確な長さは、多音字バンクと多音字ベースの双方において見出される。偏差が登録されるとともに、モデルフェースが生成され、その場合に人物Ａからの運動パターンが用いられる。しかしながら、これらの運動は、多音字バンクと多音字ベースとの間の多音字の偏差に関連して変更される。多音字バンクにおけるものが、多音字ベースにおけるものより長い音声セグメントであれば、顔面モデルにおける対応した運動パターンは、延長される。多音字バンクにおけるものが、多音字ベースにおけるものより短い音声セグメントの場合、モデルフェース中の対応する運動パターンの対応する縮小が行われる。多音字バンクに関連する運動パターンを伴うベースは、このようにして生成される。人物Ｂ’の多音字バンクから得られた多数の多音字を集めて単語及び文章に結び付けると、ベースから運動パターンとともに取り出された運動を伴うモデルフェースは生成される。生成された運動パターンは、人物Ｂ ’の多音字の対応する部分を発音する方法に対応するが、人物Ａ’の基本運動パターンとは対応しない。人物Ｂ’の顔面情報は、その後、人物Ｂが彼又は彼女自身の音声で話す場合においてモデルに適用されるが、画像及び音声が互いに対応する人物Ａに属する運動パターンが割り当てられ、これによって臨場感が得られる。本発明は、上述の実施例に限るものではなく、添付の請求の範囲に従う限り、かつ本発明の概念の範囲内において変更することが可能である。

Claims

【特許請求の範囲】１．第１の人物から得られた第１の多音字及び関連する顔面運動がストアされ、第２の人物から得られた第２の多音字がストアされるようにしたスピーチ合成法であって、第１及び第２の多音字における音声セグメントの長さを比較し、その場合において、顔面運動を第１及び第２の多音字間の関係に従って変更し、その変更された顔面運動を伴うベースを生成し、さらに、その変更された顔面運動を伴うベースを運動パターンと音声が対応するようにした付随音声を伴う顔面モデルの生成に用いることを特徴とするスピーチ合成法。２．第１の人物の多音字を多音字バンク中にストアするとともに、第１の人物の顔面の運動パターンを運動バンク中にストアすることを特徴とする請求項１記載の方法。３．第２の人物の多音字を多音字ベース中にストアすることを特徴とする請求項１記載の方法。４．多音字バンク及び多音字ベース中の対応する多音字における音声セグメントの持続範囲が見出され、さらに、相違が見出されることを特徴とする請求項１〜３のいずれか１項に記載の方法。５．多音字に対する運動パターンが、運動バンクから取り出されるとともに、多音字の異なった部分における音声セグメントの範囲の相違に関して変更されることを特徴とする請求項１〜４のいずれか１項に記載の方法。６．変更された運動パターンが、運動ベース中にストアされることを特徴とする請求項５記載の方法。７．多音字ベースから得られた多音字が、単語及び文章のために集められ、さらに、対応する運動パターンが、運動バンクから取り出されて顔面モデルに適用され、顔面モデルが単語及び文章に対応する運動パターンに対して１つ存在するようにしたことを特徴とする請求項１〜６のいずれか１項に記載の方法。８．顔面モデルが、多角形モデルにおいて確立されるとともに、第２の人物の画像が、多角形モデルに適用され、その第２の人物の顔面運動が、生成された音声に対応することを特徴とする請求項１〜７のいずれか１項に記載の方法。９．第１の顔面における運動が、第１の顔面における多数の点のマークによって登録され、前記顔面運動の登録が、音声記録がなされると同時に行われることを特徴とする請求項１〜８のいずれか１項に記載の方法。１０．顔面運動が、第１の顔面における前記マークされた点に追随するようにレーザー技術によって登録されることを特徴とする請求項９記載の方法。１１．第２の顔面の画像が、スチール又は動画からなることを特徴とする請求項１〜１０のいずれか１項に記載の方法。１２．前記多角形モデルが、前記画像の適用後における三次元像からなり、これによって実際の顔面の三次元画像としての第２の画像が、前記画像に対応する人物の顔面における運動に対応するようにしたことを特徴とする請求項１〜１１のいずれか１項に記載の方法。１３．前記多角形中の点が、第１の顔面中において互いに関連動作する範囲を表し、一方において、それらの点の運動を調整して運動範囲に関連付けるとともに、他方において、第１の顔面とその現実の顔面との点の間の間隔が存在するようにしたことを特徴とする請求項１〜１２のいずれか１項に記載の方法。１４．第２の顔面の画像が、導入され、転送され、またはデータベースから取り出されるものであることを特徴とする請求項１〜１３のいずれか１項に記載の方法。