JP2001517327A - スピーチ合成方法 - Google Patents

スピーチ合成方法

Info

Publication number
JP2001517327A
JP2001517327A JP54446298A JP54446298A JP2001517327A JP 2001517327 A JP2001517327 A JP 2001517327A JP 54446298 A JP54446298 A JP 54446298A JP 54446298 A JP54446298 A JP 54446298A JP 2001517327 A JP2001517327 A JP 2001517327A
Authority
JP
Japan
Prior art keywords
polyphonic
face
character
facial
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP54446298A
Other languages
English (en)
Inventor
リュベルグ,ベルティル
ヴィレン,マッツ
Original Assignee
テリア アクティエ ボラーグ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テリア アクティエ ボラーグ filed Critical テリア アクティエ ボラーグ
Publication of JP2001517327A publication Critical patent/JP2001517327A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Stringed Musical Instruments (AREA)
  • Adornments (AREA)

Abstract

(57)【要約】 本発明は、スピーチ合成技術を介して、スピーチを割り当てられた人物の顔面運動を再現するスピーチ合成方法に関する。このスピーチは、データベースから取り出された多音字の集合からなっている。さらに、第1の人物の多音字に関連した顔面運動パターンを伴って、多音字を収容したデータバンクが確立される。第2の人物から得られた多音字はさらに、データベースに登録及び記憶される。データバンク及びデータベース中の対応する多音字における音声セグメントは、互いに比較され、それによってデータバンク中の顔面運動が、それらの偏差に従って変更される。変更された運動パターンは、データベース中にストアされるとともに、当該多音字に関連付けられる。登録された多音字は、その後、対応する運動パターンがデータベース中に運動パターンから取り出した顔面モデルを確立すると同時に、単語及び文章となるように集合させられる。

Description

【発明の詳細な説明】 発明の名称:スピーチ合成方法 技術分野 本発明は、スピーチ(または口述話)の再生及び話者の口述に付随する顔面運 動の分析に関するものである。本発明は、話者の顔面運動が、生成された音声と 同時に再生されるべく用いられることを意図したものである。 技術問題 スピーチ合成においては、そのスピーチ、すなわち口述話を話者の顔面運動と 同期させる必要がある。スウェーデン国特許願第950436−5号では、顔面 の運動パターンを、半音節を基礎とする連結合成による多音字(plyphon e)の集合、すなわち音声とともに記録する方法が開示されている。試話者の半 音節単位の運動パターンの記録は、顔面の多角形モデルの範囲内を指示する。別 の組立、すなわち別の顔面を、その多角形モデルの上に適用して、多音字合成か ら***及び顔面運動を得ることができる。 上述のモデルによれば、男性、女性及び子供の音声を個別的に記録することが 要求される。このような手順は、高価で、しかも付随的なものである。 解決手段 本発明は、スピーチ合成を介してある口述話を指定された人物の顔面運動を再 現するためのスピーチ合成の方法に関するものである。ここにいうスピーチ、す なわち口述話とは、データベースから取り出された多音字の集合である。さらに 、複数の多音字をそれらの多音字に付随する第1の人物の顔面運動パターンとと もに収容したデータバンクが確立される。第2の人物から得られた多音字は、さ らに、データベースに登録及び記録される。これらデータバンク及びデータベー スにおいて、互いに対応する多音字の音声セグメントが比較され、データバンク 中の顔面運動がその偏差に応じて変更される。変更された運動パターンは、デー タベースに記憶され、さらに、当該多音字に関連付けられる。登録された多音字 は、その後、対応する運動パターンがデータベース中の運動パターンから選び出 して顔面モデルを確立すると同時に、単語及び文章を編集するために用いられる 。 試話者のスピーチは、その試話者の運動パターンが登録されると同時に記録さ れる。記録されたスピーチは、多音字、及び半音節に分類される無意味な単語群 からなっている。記録された多音字は、多音字バンクにストアされる。各多音字 はさらに、試話者の顔面運動を収録した運動バンク中にストアされる。第2の人 物の場合、対応する方法において多音字ベース中に複数の多音字が登録される。 しかしながら、第2の人物の顔面運動は登録されない。対応する多音字における 音声セグメント間の比較は、その後、多音字ベースと多音字バンクとの間で実行 される。登録された相違は、その後、運動バンク中における最新の運動パターン を変更するために用いられ、その場合、モデルは第2話者による多音字の発音に 対応する運動パターンとともに獲得される。変更された運動パターンは、運動ベ ース中にストアされる。多音字ベースから多音字を集める場合、運動ベースは、 その後で顔面モデルの生成に用いられ、その運動は、話し中の人物の話法に対応 する。生成されたモデルは、最初の試話者の運動パターンから得られた運動パタ ーンに基づく多音字モデルからなっている。第2の人物が話している光景を生じ るために、そのモデルには話者の画像が加えられる。第2の人物に適応するため 、多角形モデルは変更される。モデルに加えられた画像は、データベース中にス トアされ、もしくは電話回線などを介して伝達されるスチール又は動画からなる ことができる。このようにして、三次元画像が生成される。 第1話者の顔面に関して登録された運動は、三次元顔面モデルにおいて配列さ れた多数の点からなる。この顔面モデルは、多数の点の集まりからなる多数の多 角形から構成される。これらの点は、試話者の顔面において測定された点からな り、音声/多音字の記録中において登録される。試話者の顔面における多数点の 登録は、なるべくなら、その試話者の顔面において選択された多数の点をマーク することによって達成される。それらの点は、その後で、例えばレーザー技術に より登録され、それによって音声及び運動パターンのバンクが生成される。 本発明の利用分野は、音声/スピーチの再生に伴って、話者の顔面を動的に表 わす運動パターンを与えるべきであるようなすべてのケースに該当する。それは 例えば、第1の言語を話しているある人物が、スピーチ合成手段により、第2の 言語を話しているように表現されることにも関連する。このような条件は、電話 通信システム又は設備が電話中の人物のスピーチを翻訳し、かつその話者を画像 表現するような将来の電話技術とも関連するはずである。しかしながら、本発明 の利用分野は、電話に限らず、ある人物による最初のスピーチが顔面運動の活写 を伴って第2の言語に翻訳され、かつ再生されるすべての分野に関連する。 発明の利点 上述の発明は、顔面運動を伴うスピーチの動画を廉価に達成する手順を提供す るものである。これは例えば、話者のスピーチを第1の言語から第2の言語に翻 訳する場合に用いられる。その記録においては、顔面の基本運動を生成すべく動 員される1名の試話者のみが必要である。その試話者からの運動パターンを借用 すべき少なくとも一人の人物は、単にそこから多音字が抽出されるべき多数の音 声シーケンスを発音し、これを記録することのみが要求される。多音字およびそ れに付随する適当に選択された人間の顔面運動を登録することにより、異なった 状況において異なった顔面の動画を利用できるようなバンクを形成することが可 能である。登録された顔面は、例えば、種々の世代及び性別に応じて異なった人 物像に分類されうる。 図面の簡単な説明 図1は、顔面運動がどのように登録されるかを示す図である。 図2は、多角形モデルがどのように確立されるかを示す図である。 好ましい実施例の説明 以下、本発明について図面を参照して詳細に説明する。 試話者の音声及びそれに伴う顔面の運動パターンを登録することは、例えば、 無意味な単語群を走査中のテキストから抽出して用いることにより実行される。 無意味な単語群を利用することにより、試話者は、単語群の発音と表情の両方を 自然体で行うことができる。無意味な単語群は、基本的には、半音節に分割され る1音節単語からなっている。これらの半音節は、互いに連結されて単語及び文 章に編集される。2個の半音節の連結は、各半音節の母音の中間において形成さ れる。1単語の生成は、次の手順で行われる。まず、単語の1音節となる半音節 、並びに当該単語のアクセントが見出される。1単語、例えば“nod”(nu :d)は、次の音節“no”、“od”に分割される。そして、言語辞書からそ の単語のアクセントに関する情報が引き出される。これらの音声は、その後、集 合して単語及び文章となり、各1単語のアクセントが生成されるとともに文章全 体のイントネーション(抑揚)が決定される。この手順による単語及び文章の確 立は、前述したスウェーデン国特許願第9504367−5号において記述され た通りである。多音字バンクを生成するため、試話者は、多数の単語、例えば無 意味な単語列を話すようになっている。また、選択的に走査テキストを用いるこ ともできる。前記単語が登録されると同時に、試話者の顔面運動もまた登録され る。これらの顔面運動は、運動ベース中にストアされる。記録された単語は、多 音字、半音節及びこれらに付随する対応する顔面運動に分割される。多音字と対 応する顔面運動との間の関係は、このようにして発生する。 顔面運動の登録は、試話者の顔面における種々の点をマークすることにより行 われる。これらの点は、顔面中で大きい変化が生ずる部分であって、比較的広い 範囲にわたって運動そのものの偏差が比較的小さい部分において設定される。大 偏差が生じる範囲は、例えば、唇のまわりと唇そのものの運動である。これら多 数点の各々は、試話者の三次元生成像における位置を与えられる。画像は、顔面 の多角形モデルのみから構成される。そのモデルを単語及び文章となるように連 結される多音字と調整することにより、生成されたものに対応する運動パターン が得られる。 多音字はさらに、第2の人物からも登録されるが、その第2の人物の顔面運動 の登録は行われない。この場合もまた、なるべくなら、無意味な単語列が用いら れるが、走査テキストを用いることもできる。このようにして多音字ベースが第 2の人物について生成される。この第2の人物に関する運動ベースを生成するた め、第1の人物についての多音字バンクが用いられる。多音字バンク及び多音字 ベース中の対応する多音字は、音声の発生に関して比較される。偏差が多音字に ついて持続的に登録された後、運動バンク中の対応する運動が変更される。この 変更された運動は、その後、運動ベース中にストアされる。運動ベース及び多音 字ベースは、互いに接続される。 第2の人物像が動画化されるべき場合には、多音字から複数の半音節が集めら れることにより、単語及び句(フレーズ)が生成される。同時に、三次元多角形 モデルが、運動ベースから取り出された対応する運動パターンとともに確立され る。生成された画像は、多角形中の終点が第1の試話者の顔面における各測定点 を表わすようにしたスレッドモデルからなっている。 第2の人物の表情を生成するため、行われたスピーチとその第2の人物の画像 が、多音字モデルに適用される。多角形モデルは、その第2の人物の顔だちや口 、その他のサイズなどを調整するために変更される。生成された再現像は、三次 元であり、行われたスピーチと同時に表示されて、そのスピーチ及び顔面運動が よく対応するようになっている。しかしながら、この方法は、運動パターンが第 2の人物の基本的な運動パターンに全く正しく対応するものではなく、第1の人 物の運動パターンによって特徴付けられるものである。 ある人物Bは、第2の言語に翻訳されるべき第1の言語を話しているか、又は 第2の人物Bにテキストが分与されるようになっている。人物Bについて、多音 字バンクは生成されているが、運動パターンは登録されていない。Bの場合、登 録された多音字は、ある人物Aの関連する運動パターンを有する多音字ベース中 の対応する多音字と比較される。音声セグメントの正確な長さは、多音字バンク と多音字ベースの双方において見出される。偏差が登録されるとともに、モデル フェースが生成され、その場合に人物Aからの運動パターンが用いられる。しか しながら、これらの運動は、多音字バンクと多音字ベースとの間の多音字の偏差 に関連して変更される。多音字バンクにおけるものが、多音字ベースにおけるも のより長い音声セグメントであれば、顔面モデルにおける対応した運動パターン は、延長される。多音字バンクにおけるものが、多音字ベースにおけるものより 短い音声セグメントの場合、モデルフェース中の対応する運動パターンの対応す る縮小が行われる。多音字バンクに関連する運動パターンを伴うベースは、この ようにして生成される。人物B’の多音字バンクから得られた多数の多音字を集 めて単語及び文章に結び付けると、ベースから運動パターンとともに取り出され た運動を伴うモデルフェースは生成される。生成された運動パターンは、人物B ’の多音字の対応する部分を発音する方法に対応するが、人物A’の基本運動パ ターンとは対応しない。人物B’の顔面情報は、その後、人物Bが彼又は彼女自 身の音声で話す場合においてモデルに適用されるが、画像及び音声が互いに対応 する人物Aに属する運動パターンが割り当てられ、これによって臨場感が得られ る。 本発明は、上述の実施例に限るものではなく、添付の請求の範囲に従う限り、 かつ本発明の概念の範囲内において変更することが可能である。

Claims (1)

  1. 【特許請求の範囲】 1.第1の人物から得られた第1の多音字及び関連する顔面運動がストアされ、 第2の人物から得られた第2の多音字がストアされるようにしたスピーチ合成 法であって、第1及び第2の多音字における音声セグメントの長さを比較し、 その場合において、顔面運動を第1及び第2の多音字間の関係に従って変更し 、その変更された顔面運動を伴うベースを生成し、さらに、その変更された顔 面運動を伴うベースを運動パターンと音声が対応するようにした付随音声を伴 う顔面モデルの生成に用いることを特徴とするスピーチ合成法。 2.第1の人物の多音字を多音字バンク中にストアするとともに、第1の人物の 顔面の運動パターンを運動バンク中にストアすることを特徴とする請求項1記 載の方法。 3.第2の人物の多音字を多音字ベース中にストアすることを特徴とする請求項 1記載の方法。 4.多音字バンク及び多音字ベース中の対応する多音字における音声セグメント の持続範囲が見出され、さらに、相違が見出されることを特徴とする請求項1 〜3のいずれか1項に記載の方法。 5.多音字に対する運動パターンが、運動バンクから取り出されるとともに、多 音字の異なった部分における音声セグメントの範囲の相違に関して変更される ことを特徴とする請求項1〜4のいずれか1項に記載の方法。 6.変更された運動パターンが、運動ベース中にストアされることを特徴とする 請求項5記載の方法。 7.多音字ベースから得られた多音字が、単語及び文章のために集められ、さら に、対応する運動パターンが、運動バンクから取り出されて顔面モデルに適用 され、顔面モデルが単語及び文章に対応する運動パターンに対して1つ存在す るようにしたことを特徴とする請求項1〜6のいずれか1項に記載の方法。 8.顔面モデルが、多角形モデルにおいて確立されるとともに、第2の人物の画 像が、多角形モデルに適用され、その第2の人物の顔面運動が、生成された音 声に対応することを特徴とする請求項1〜7のいずれか1項に記載の方法。 9.第1の顔面における運動が、第1の顔面における多数の点のマークによって 登録され、前記顔面運動の登録が、音声記録がなされると同時に行われること を特徴とする請求項1〜8のいずれか1項に記載の方法。 10.顔面運動が、第1の顔面における前記マークされた点に追随するようにレ ーザー技術によって登録されることを特徴とする請求項9記載の方法。 11.第2の顔面の画像が、スチール又は動画からなることを特徴とする請求項 1〜10のいずれか1項に記載の方法。 12.前記多角形モデルが、前記画像の適用後における三次元像からなり、これ によって実際の顔面の三次元画像としての第2の画像が、前記画像に対応する 人物の顔面における運動に対応するようにしたことを特徴とする請求項1〜1 1のいずれか1項に記載の方法。 13.前記多角形中の点が、第1の顔面中において互いに関連動作する範囲を表 し、一方において、それらの点の運動を調整して運動範囲に関連付けるととも に、他方において、第1の顔面とその現実の顔面との点の間の間隔が存在する ようにしたことを特徴とする請求項1〜12のいずれか1項に記載の方法。 14.第2の顔面の画像が、導入され、転送され、またはデータベースから取り 出されるものであることを特徴とする請求項1〜13のいずれか1項に記載の 方法。
JP54446298A 1997-03-25 1998-03-20 スピーチ合成方法 Pending JP2001517327A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9701102A SE519679C2 (sv) 1997-03-25 1997-03-25 Metod vid talsyntes
SE9701102-7 1997-03-25
PCT/SE1998/000507 WO1998043236A2 (en) 1997-03-25 1998-03-20 Method of speech synthesis

Publications (1)

Publication Number Publication Date
JP2001517327A true JP2001517327A (ja) 2001-10-02

Family

ID=20406309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54446298A Pending JP2001517327A (ja) 1997-03-25 1998-03-20 スピーチ合成方法

Country Status (9)

Country Link
US (1) US6385580B1 (ja)
EP (1) EP0970467B1 (ja)
JP (1) JP2001517327A (ja)
DE (1) DE69817550T2 (ja)
DK (1) DK0970467T3 (ja)
EE (1) EE9900420A (ja)
NO (1) NO317597B1 (ja)
SE (1) SE519679C2 (ja)
WO (1) WO1998043236A2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译***和方法
JP4495886B2 (ja) * 2001-08-09 2010-07-07 株式会社日立製作所 音声入力認識文例集の管理方法
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US10708545B2 (en) * 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
SE9301596L (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
AU3668095A (en) 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
SE9600959L (sv) 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis

Also Published As

Publication number Publication date
SE9701102D0 (sv) 1997-03-25
DK0970467T3 (da) 2003-12-15
EE9900420A (et) 2000-04-17
NO994600D0 (no) 1999-09-22
US6385580B1 (en) 2002-05-07
NO317597B1 (no) 2004-11-22
WO1998043236A2 (en) 1998-10-01
DE69817550D1 (de) 2003-10-02
WO1998043236A3 (en) 1998-12-23
NO994600L (no) 1999-11-23
DE69817550T2 (de) 2004-06-17
SE9701102L (sv) 1998-09-26
EP0970467B1 (en) 2003-08-27
SE519679C2 (sv) 2003-03-25
EP0970467A2 (en) 2000-01-12

Similar Documents

Publication Publication Date Title
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US6847931B2 (en) Expressive parsing in computerized conversion of text to speech
US6865533B2 (en) Text to speech
US5884267A (en) Automated speech alignment for image synthesis
US20160365087A1 (en) High end speech synthesis
JP2003529861A5 (ja)
Grønnum A Danish phonetically annotated spontaneous speech corpus (DanPASS)
Wang et al. Computer-assisted audiovisual language learning
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
JPH09171396A (ja) 音声発生システム
JP2001517326A (ja) 視覚的合成における韻律生成のための装置および方法
JP2001517327A (ja) スピーチ合成方法
Lin et al. A face robot for autonomous simplified musical notation reading and singing
Hsu Synthesizing personalized non-speech vocalization from discrete speech representations
JP3569278B1 (ja) 発音学習支援方法、学習者端末及び処理プログラム並びに該プログラムを記録した記録媒体
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
Zorić et al. Real-time language independent lip synchronization method using a genetic algorithm
JPH03273280A (ja) 発声練習用音声合成方式
Damper Speech technology—implications for biomedical engineering
JP2806364B2 (ja) 発声訓練装置
Fanelli et al. Acquisition of a 3d audio-visual corpus of affective speech
JP2006162760A (ja) 語学学習装置
Zain et al. A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application
JP2023029323A (ja) 音声情報処理装置、推測装置、及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040311