JP3413384B2

JP3413384B2 - 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体

Info

Publication number: JP3413384B2
Application number: JP2000062049A
Authority: JP
Inventors: 建武党; 清志本多
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2000-03-07
Filing date: 2000-03-07
Publication date: 2003-06-03
Anticipated expiration: 2020-03-07
Also published as: JP2001249675A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は人間の音声波形か
ら、発話者の調音器官の形状を推定するシステムおよび
方法に関し、特に生理学的３次元調音モデルを用い、音
声波形に基づいて調音器官の調音状態を視覚化し表示す
るためのシステムおよび方法に関する。

【０００２】

【従来の技術】外国語学習、特に外国語による会話の学
習は日本人にとって困難であると考えられている。その
原因としてさまざまなものが考えられるが、発話者は自
己の発話器官の調音状態とそれらの調整とを理解してい
ないのが大きな原因と考えられる。ことに外国語の発音
は、教師となる者の発音をまねるべく、自らの舌、下顎
などの調音器官をしかるべく制御しなければならない。
そうした学習作業は、日常的に外国語を聞き、話す機会
に恵まれる者であればともかく、そうした機会をほとん
ど持つことのない平均的日本人にとっては極めて困難で
ある。

【０００３】こうした困難は、結局、自らの調音器官を
どのように調整すれば正しい発音ができるかについて、
教師となるものがないためにフィードバックをかけるこ
とができないことに起因する。そのため、自己流で発音
練習をするが発音はいっこうに上達しないという事態に
なる。また仮に教師がいたとしても、教師の発音を聞
き、その音声と似た音が発声できるように調音器官を正
しく制御することは実はそれほど容易ではない。そもそ
も、発声しているときの自己の調音器官がどのような形
状となっているかさえ容易には分からないのである。そ
のため結局は、いつまでたっても外国語の上達は望めな
いということになりかねない。

【０００４】こうした問題は、外国語学習のときに限ら
ない。たとえば何らかの原因で調音器官の制御に障害を
持つ者、または聴覚に障害を持つために自己の発声して
いる音声と調音器官との間の関係を確実に把握できない
者が音声を用いて周囲とコミュニケーションをとるため
には、調音器官の制御の訓練をし、できるだけ通常の発
音が行えるようにすることが望ましい。しかしこの場合
にも、どのように自己の調音器官を制御したら望ましい
発音で発声ができるのかは容易には分からず、その結果
適切な発声を行なうことが困難である。

【０００５】こうした問題を解決するためには、音声
と、それに対応する調音状態とを教えて同じ調音状態を
実現するように学習者を訓練するだけでは足りず、実際
に学習者が発声しているときの学習者の調音状態と、模
範となるものとの差異を認識させることにより調音状態
にフィードバックをかけることが望ましい。そのために
は学習者の調音状態を音声から推定することが必要であ
る。

【０００６】現在のところ、音声波から調音状態を推定
する手法を大別すると、理想化された声道モデルを用い
て音声の音響的特徴量に等価な音響管を推定するもの
（Shroeder, M.R: "Determination of the geometry of
the human vocal tract by acoustic measurement,"
J. Acoust. Soc. Am., 4, p. 1002 (1967), Yehia, H.
and Itakura, F: "A method to combine acoustic and
morphological constraints in the speech production
inverse problem," Speech Comm. 18, 151-174 (199
6)）と、より強い拘束条件を持つ調音モデルを用いて調
音目標を推定するものとがある（白井、誉田:"音声波か
らの調音パラメータの推定、" 信学誌、61,409-416 (19
78)）。

【０００７】

【発明が解決しようとする課題】しかし、音声波から調
音状態を推定する手法では、音声波と調音状態との対応
関係が一意的ではないという問題がある。この逆問題を
解決するために従来から種々の拘束条件が考えられてい
るが、いずれも推定結果の精度は低く、信頼度も高くな
い。

【０００８】したがってこの発明の目的は、音声波か
ら、その音声を発する際の調音状態を推定し、従来より
もより理解容易な形式で提示することが可能な調音状態
の推定表示方法およびコンピュータを調音状態表示装置
として動作させるコンピュータプログラムを記憶したコ
ンピュータ読取可能な記録媒体を提供することである。

【０００９】

【課題を解決するための手段】この発明のある局面によ
れば、入力音声信号から、話者の調音器官の調音状態を
推定し表示するための調音状態の推定表示方法は、入力
音声信号から所定のパラメータを抽出するステップと、
抽出された所定のパラメータに基づいて初期の調音目標
を設定するステップと、調音目標と、所定のパラメータ
とに基づいて、入力音声信号に対応する話者の発話器官
の調音状態を推定するステップとを含む。推定するステ
ップは、調音目標に基づいて、生理学的３次元調音モデ
ルを用いて入力音声信号に対応する調音状態を推定する
ステップと、推定された調音状態に基づいて所定の音響
モデルによって合成音声信号を生成するステップと、合
成音声信号から、所定のパラメータを抽出するステップ
と、合成音声信号から抽出された所定のパラメータが入
力音声信号から抽出された所定のパラメータと所定の関
係に接近するように調音目標を更新するステップとを含
む。この調音状態の推定表示方法はさらに、合成音声信
号から抽出された所定のパラメータが入力音声信号から
抽出された所定のパラメータと所定の関係を充足するか
否かを判定するステップと、判定するステップの判定結
果にしたがって、更新された調音目標に基づいて推定す
るステップから再度処理を繰返す処理と、調音目標にし
たがって生理学的３次元調音モデルを駆動することによ
り得られる調音器官の調音状態を表示装置上に表示する
処理とを選択的に行なうステップとを含む。

【００１０】この方法によれば、音声波から調音状態を
推定することにより、発話時の調音器官の調音状態を視
覚的に表示させることができる。発話者などがその調音
状態を視覚的に確認し、正しい調音状態に適合させるこ
とが容易になる。

【００１１】この発明にかかる方法は好ましくはさら
に、入力音声信号のストリームに含まれるフレームの各
々に対して、入力音声信号から所定のパラメータを抽出
するステップから選択的に行なうステップまでをそれぞ
れ行なうことにより調音状態をアニメーション表示する
ステップを含む。

【００１２】入力音声信号のストリームに含まれるフレ
ームの各々に対して調音状態が表示されるため、発話時
の調音器官の調音状態がアニメーションとして表示さ
れ、より分かりやすくなるとともに、動的に調音状態を
変化させる必要のある発話などの学習が容易になる。

【００１３】好ましくは、表示するステップは調音器官
の形状を表示装置上に３次元的に表示するステップを含
む。

【００１４】３次元的な表示によって、調音状態を直感
的に認識できる。さらに好ましくは、３次元的に表示す
るステップは、調音器官の複数枚の２次元断面形状を配
列することにより調音器官の３次元形状を表示装置上に
表示するステップを含む。

【００１５】

【発明の実施の形態】上述したような調音状態の推定結
果の精度と信頼度とを高めるためには、人間の発話機構
に忠実に基づいた調音モデルを用いることが望ましい。
これに関連して、特定話者の３次元ＭＲＩ（magnetic r
esonance imaging）画像データに基づいて３次元生理学
的調音モデルを構築する方法が提案されている（党、本
多:"生理学的調音モデルを用いた母音系列の合成、" 音
講論、(1998, 9)、Dang, J andHonda, K., "Speech pro
duction of vowel sequences using a physiologicalar
ticulatory model," Proc. ICSLP98, Vol. 5, pp.1767-
1770 (1998)、党、本多:"生理学的調音モデルを用いる
音声合成法、" 音講論、243-244 (1999, 9)）。このモ
デルは、発話器官（調音器官）とその周辺の筋肉の生理
学的な特性に基づいて、主な発話器官の構造およびその
周辺の筋肉の構造に関連する生理学的拘束条件を備えて
おり、調音目標と筋肉の収縮力との間の関係を記述する
ことにより人間の発話機構をほぼ忠実に再現することが
できる。したがってこの生理学的調音モデルを応用する
ことにより、音声波からより自然な声道形状を得られる
可能性がある。

【００１６】以下に説明する本発明の実施の形態１にか
かるシステムは、この生理学的調音モデルを用い、リア
ルタイムに音声波から調音状態を推定してアニメーショ
ン表示することにより、発話者が容易に自己の調音状態
を理解することができるようにするためのものである。
このシステムは、外国語の学習、子供または障害者の発
音の学習などに補助装置として用いることができる。［ハードウェア構成］以下、本発明の実施の形態１にかかる方法を実現するた
めの調音状態表示装置について説明する。この調音状態
表示装置は、パーソナルコンピュータまたはワークステ
ーション等、コンピュータと、そのコンピュータ上で実
行されるソフトウェアとにより実現されるものであっ
て、人の発話した音声波形から、発話者の調音状態を推
定してアニメーション表示するとともに、推定された調
音状態に基づいて合成音声を発声するためのものであ
る。図１に、この調音状態表示装置の外観を示す。

【００１７】図１を参照してこの調音状態推定表示装置
２０は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memor
y）ドライブ５０およびＦＤ（Flexible Disk）ドライブ
５２を備えたコンピュータ本体４０と、コンピュータ本
体４０に接続された表示装置としてのディスプレイ４２
と、同じくコンピュータ本体４０に接続された入力装置
としてのキーボード４６およびマウス４８と、コンピュ
ータ本体４０に接続された、発話者の発した音声を取込
むためのマイク３０と、合成音声を出力するための、増
幅器を内蔵したスピーカ３２とを含む。

【００１８】図２に、この調音状態推定表示装置２０の
構成をブロック図形式で示す。図２に示されるようにこ
の調音状態推定表示装置２０を構成するコンピュータ本
体４０は、ＣＤ−ＲＯＭドライブ５０およびＦＤドライ
ブ５２に加えて、それぞれバス６６に接続されたＣＰＵ
（Central Processing Unit）５６と、ＲＯＭ（ReadOnl
y Memory)５８と、ＲＡＭ（Random Access Memory）６
０と、ハードディスク５４と、マイク３０からの音声を
取込むための音声取込装置６８と、ＣＰＵ５６から与え
られる音信号からスピーカ３２を駆動するための信号を
生成するための、音源を内蔵したサウンドボード７０を
含んでいる。ＣＤ−ＲＯＭドライブ５０にはＣＤ−ＲＯ
Ｍ６２が装着される。ＦＤドライブ５２にはＦＤ６４が
装着される。

【００１９】既に述べたようにこの調音状態表示装置の
主要部は、コンピュータハードウェアと、ＣＰＵ５６に
より実行されるソフトウェアとにより実現される。一般
的にこうしたソフトウェアはＣＤ−ＲＯＭ６２、ＦＤ６
４等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドラ
イブ５０またはＦＤドライブ５２等により記憶媒体から
読取られてハードディスク５４に一旦格納される。また
は、当該装置がネットワークに接続されている場合に
は、ネットワーク上のサーバから一旦ハードディスク５
４にコピーされる。そうしてさらにハードディスク５４
からＲＡＭ６０に読出されてＣＰＵ５６により実行され
る。なお、ネットワーク接続されている場合には、ハー
ドディスク５４に格納することなくＲＡＭ６０に直接ロ
ードして実行するようにしてもよい。

【００２０】図１および図２に示したコンピュータのハ
ードウェア自体およびその動作原理は一般的なものであ
る。したがって、本発明の最も本質的な部分はＦＤドラ
イブ５２、ＦＤ６４、ハードディスク５４等の記憶媒体
に記憶されたソフトウェアである。

【００２１】なお、最近の一般的傾向として、コンピュ
ータのオペレーティングシステムの一部として様々なプ
ログラムモジュールを用意しておき、アプリケーション
プログラムは主としてこれらモジュールを所定の配列で
必要な時に呼び出して処理を進めるという役割のみを担
うことがある。そうした場合、当該調音状態表示装置を
実現するためのソフトウェア自体にはそうした機能モジ
ュールは含まれず、当該コンピュータというハードウェ
ア上で、かつその上のオペレーティングシステムと協働
してはじめて、本実施の形態の調音状態表示装置が実現
することになる。しかし、一般的なプラットフォームを
使用する限り、そうしたモジュールを含ませたソフトウ
ェアを流通させる必要はなく、それらモジュールを含ま
ないソフトウェア自体およびそれらソフトウェアを記録
した記録媒体（およびそれらソフトウェアがネットワー
ク上を流通する場合のデータ信号）が実施の形態を構成
すると考えることができる。［機能的構成］図３を参照して、本実施の形態１にかか
る調音状態推定表示装置２０は、実音声に対してプリエ
ンファシスをかけて唇などからの放射の影響に対し放射
特性を補正するための放射特性補正部８０と、補正され
た音声のスペクトルを平坦化する処理を行なうための適
応フィルタ８２および自己相関計算部８４と、スペクト
ルの平坦化された入力音声信号から音響パラメータとし
てＬＰＣケプストラム係数を計算により求めるためのＬ
ＰＣ（linear predictive coding）ケプストラム計算部
９０と、予めいくつかの音声について得られたＬＰＣケ
プストラムを、後述する反復処理のための初期調音目標
として記憶しておくための初期調音目標記憶部１００
と、ＬＰＣケプストラム計算部９０によって得られた実
音声に対するＬＰＣケプストラム係数と、初期調音目標
記憶部１００に記憶されているいくつかの初期調音目標
のＬＰＣケプストラム係数とを比較し、実音声から得ら
れたＬＰＣケプストラム係数に最も近いものを初期調音
目標として選択するための初期目標設定部９６と、初期
目標設定部９６により設定された初期調音目標から出発
して調音モデルを駆動することにより調音状態を更新
し、更新した調音状態から得られる合成音声から計算さ
れたＬＰＣケプストラム係数とＬＰＣケプストラム計算
部９０が計算したＬＰＣケプストラム係数との差が小さ
くなるように反復処理をしながら調音目標を更新してい
き、最終的に得られた調音状態を、最初に与えられた実
音声を発声したときの発話者の調音状態として、得られ
た調音状態から調音器官の形状をアニメーションで表示
（１０８）するための調音モデル反復計算部９８とを含
む。

【００２２】調音モデル反復計算部９８は、初期目標設
定部９６により初期設定される調音目標を用いて調音器
官とその周囲の筋肉の収縮パターンを推定し、筋肉の収
縮力により調音モデルを駆動して新しい声道形状を生成
する調音モデル部１０２と、調音モデル部１０２により
生成された声道形状に基づいて合成音声を出力（１１
０）するための音響モデル部１０４と、音響モデル部１
０４が出力する合成音声を受け、適応フィルタ８２およ
び自己相関計算部８４が行なうのと同じ処理を行なって
スペクトルの平坦化を行なうための適応フィルタ８６お
よび自己相関計算部８８と、このようにスペクトルの平
坦化された合成音声からＬＰＣケプストラム計算部９０
と同様にして音響パラメータとしてＬＰＣケプストラム
係数を計算するためのＬＰＣケプストラム計算部９２
と、ＬＰＣケプストラム計算部９０が出力するＬＰＣケ
プストラム係数と、ＬＰＣケプストラム計算部９２が出
力するＬＰＣケプストラム係数とが接近するように、す
なわち両者の差異が小さくなるように調音モデル部１０
２のための調音目標を推定し更新するための調音目標更
新部９４とを含む。

【００２３】図４を参照して、音響モデル部１０４は、
調音モデル部１０２が出力する、調音器官部位の３枚の
断面形状１２４に基づいて声道断面積形状を推定するた
めの断面積関数の推定部１２６と、断面積関数の推定部
１２６の出力する声道断面積形状に基づいてパラメータ
を変化させて電気回路モデルを駆動することにより音源
を加えて合成音声を生成する電気回路モデル部１２８と
を含む。［ソフトウェアの制御構造］図５を参照して、図３および図４に示した調音状態推定
表示装置２０を実現するためのソフトウェアは、以下の
ような制御構造を有する。以下に述べる例では、入力さ
れた音声に対しては既に放射特性の補正、スペクトルの
平坦化処理は行なわれているものとする。なお放射特性
の補正、スペクトルの平坦化処理に加えて、ＬＰＣケプ
ストラム係数の計算、音声の合成、調音モデルに基づく
声道状態のアニメーション表示などは本実施の形態では
いずれもソフトウェアにより行なっているが、これらは
いずれも専用のＬＳＩ回路（Large Scale Integrated回
路）を用いて行なってもよい。なお、以下に述べる処理
は入力音声信号のストリームの各フレームに対して行な
われる。また、以下の処理では各フレームという表現を
用いているが、要するに、入力音声信号のうち、音声処
理の対象となる所定の単位に対して以下の処理を適用す
ればよい。

【００２４】まず、入力された実音声に対して初期ＬＰ
Ｃケプストラム係数の計算を行なう（１４０）。これは
ＬＰＣケプストラム計算部９０での処理に相当する。こ
うして計算されたＬＰＣケプストラム係数に最も近い音
響パラメータを持つ初期調音目標を初期調音目標記憶部
１００に記憶されている初期調音目標の候補のうちから
選択する（１４２）。本実施の形態では、初期調音目標
として予め日本語の５母音の標準調音目標を準備してお
き、これら母音のうち最初に入力された実音声に最も近
いものを初期調音目標に選択する。

【００２５】続いてこの調音目標を用い、調音器官の筋
肉の収縮パターンを推定し、得られた筋肉の収縮力にし
たがって調音モデルを駆動して（１４４）新しい声道形
状を生成する（１４６）。この声道形状を用い、音響モ
デルにより合成音声を出力（１１０）する。

【００２６】このようにして得られた合成音声に対し、
ステップ１４０の前に行なわれていたのと同じスペクト
ル平坦化処理を行ない、さらにステップ１４０と同じ、
ＬＰＣケプストラム係数の計算を行なう（１４８）。

【００２７】合成音声と入力音声との音響パラメータを
比較し、それらの差異が所定の範囲か否かを判定する
（１５０）。差異が所定の範囲内である場合には、反復
の結果調音目標がほぼ一定のものに近付いたということ
であり、処理をそれ以上行なうことはあまり意味がな
い。したがってここで処理を終わり、このとき得られて
いる調音モデルに基づいて調音状態を画像として表示す
る（１５４）。この画像としては、調音モデル部１０２
が出力する３枚の２次元断面形状１２４を用いることが
でき、これらを３次元的に配列することにより図６のよ
うな形で発話者の調音器官の推定形状を視覚的に、直感
的に分かりやすく表示することができる。

【００２８】ステップ１５０の判定の結果合成音声と入
力音声との差異が大きいと判定された場合には、ここで
得られた音響パラメータを、実音声から得られた音響パ
ラメータと接近させるように調音目標の更新を行ない
（１５２）、制御はステップ１４４に戻る。以下、ステ
ップ１４４以降の処理を繰返し行なうことにより、最終
的に調音目標は一定のもの、すなわち実際の話者の調音
によく一致する調音状態が得られるように調音モデルを
駆動する調音目標が得られてステップ１５２で肯定的な
判定が得られる。

【００２９】調音状態の表示が終われば、制御はステッ
プ１４０に戻り、次のフレームの音声に対して、上述し
た処理を再度行なう。この処理を入力音声信号のストリ
ームに対して繰返して行なうことにより、ディスプレイ
４２上には発話者の発声時の調音器官の形状がアニメー
ション的に表示される。この調音器官の形状をたとえば
他のウィンドウ上に表示される、模範的な調音器官の形
状のアニメーションと比較することにより、発話者は自
己の調音動作に対して非常に有効なフィードバックをか
けることが可能となる。

【００３０】上記した実施の形態のシステムでは調音モ
デルに基づく調音器官のアニメーション表示を、３枚の
矢状断面形状を配列することにより行なっているが、矢
状断面形状の枚数が３枚に限定されるわけではない。コ
ンピュータおよび周辺機器の性能、ならびに応用が必要
とする条件に応じて適切な数を選択することができる。
また、単に矢状断面形状を複数枚並べて表示することに
より立体的な表示を実現するのではなく、調音モデル部
１０２からの出力を、調音器官の表面（声道内面）を表
わす３次元形状データとして出力するようにし、それに
よって３次元形状を表現するようにしてもよい。また、
３次元形状は必ずしも必要ではない場合もあり、その場
合には矢状断面形状を１枚のみ、またはそれぞれ別々に
して複数枚、表示するようにしてもよい。

【００３１】また上記した実施の形態のシステムはスタ
ンドアローンであるが、ネットワークによってアニメー
ション表示を他の地点のコンピュータに伝送し、そこで
も表示することができる。これは一方向でも双方向でも
よい。たとえば双方向でアニメーション表示を行なう場
合には、語学教師が遠隔地にいる学習者を指導するとき
などに、教師は学習者の声道形状を確認してそれを矯正
するためにより適切な指示を行なうことが可能となる
し、学習者は教師の声道形状を見ることにより自己の調
音器官の制御をより適切に行なうことができるようにな
るであろう。

【００３２】また、そのようなネットワークによりコン
ピュータ間を接続する場合、一対一の接続のみに限定さ
れるわけではない。教師が一人に対し学習者が複数いる
場合、教師の音声から得られる声道形状のアニメーショ
ンをそれら学習者にブロードキャストすることにより、
そうした語学の学習システムがより効率的になることが
期待できる。

【００３３】また、今回開示された実施の形態のシステ
ムは声道形状をリアルタイムでアニメーション表示する
ものではあるが、音声の内容まで取り扱っているわけで
はない。しかし、声道形状から、そのときに発声されて
いる音声が精度よく推定できるような拘束条件を定め、
さらに時系列でそのような声道形状の変化を捉えていく
ことにより、この技術を音声認識にも適用できる可能性
がある。

【００３４】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。

【図面の簡単な説明】

【図１】本発明の実施の形態１にかかるシステムの外
観図である。

【図２】本発明の実施の形態１にかかるシステムのハ
ードウェア的構成を示すブロック図である。

【図３】本発明の実施の形態１にかかるシステムの機
能的ブロック図である。

【図４】本発明の実施の形態１にかかるシステムにお
ける音声合成処理部のブロック図である。

【図５】本発明の実施の形態１にかかるシステムで行
なわれる処理の概略を示すフローチャートである。

【図６】アニメーション表示される調音モデルの一例
を示す図である。

【符号の説明】

２０調音状態表示装置、３０マイク、３２スピー
カ、４０コンピュータ本体、４２ディスプレイ、８
２，８６適応フィルタ、８４，８８自己相関計算
部、９０，９２ＬＰＣケプストラム計算部、９４調
音目標更新部、９６初期目標設定部、９８調音モデ
ル反復計算部、１０２調音モデル部、１０４音響モ
デル部。

フロントページの続き (56)参考文献特開平６−348297（ＪＰ，Ａ) 特開平10−254497（ＪＰ，Ａ) 特開昭59−71096（ＪＰ，Ａ) 特開昭59−124385（ＪＰ，Ａ) 特開平11−259097（ＪＰ，Ａ) 特開昭62−184500（ＪＰ，Ａ) 特開昭62−184499（ＪＰ，Ａ) 特開平11−202897（ＪＰ，Ａ) 党建武、本多清志，生理学的調音モデルに基づく３次元声道形状の生成，日本音響学会講演論文集，日本音響学会, 1998年３月，1998年春季Ｉ，265−266 杉浦淳、松村雅史，磁気共鳴映像法による３次元声道形状の計測，電子情報通信学会技術研究報告，電子情報通信学会，1990年１月26日，ＳＰ89−109〜 118，65−72 佐々木優、他，音声教育のための３次元声道形状の対話型表現，日本音響学会講演論文集，日本音響学会，1998年３月，1998年春季Ｉ，341−342 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/00

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号から、話者の調音器官の調
音状態を推定し表示するための調音状態の推定表示方法
であって、入力音声信号から所定のパラメータを抽出するステップ
と、抽出された前記所定のパラメータに基づいて初期の調音
目標を設定するステップと、前記調音目標と、前記所定のパラメータとに基づいて、
前記入力音声信号に対応する話者の発話器官の調音状態
を推定するステップとを含み、前記推定するステップは、前記調音目標に基づいて、生理学的３次元調音モデルを
用いて前記入力音声信号に対応する調音状態を推定する
ステップと、前記推定された調音状態に基づいて所定の音響モデルに
よって合成音声信号を生成するステップと、前記合成音声信号から、前記所定のパラメータを抽出す
るステップと、前記合成音声信号から抽出された前記所定のパラメータ
が前記入力音声信号から抽出された前記所定のパラメー
タと所定の関係に接近するように前記調音目標を更新す
るステップとを含み、前記調音状態の推定表示方法はさらに、前記合成音声信号から抽出された前記所定のパラメータ
が前記入力音声信号から抽出された前記所定のパラメー
タと前記所定の関係を充足するか否かを判定するステッ
プと、前記判定するステップの判定結果にしたがって、更新さ
れた前記調音目標に基づいて前記推定するステップから
再度処理を繰返す処理と、前記調音目標にしたがって生
理学的３次元調音モデルを駆動することにより得られる
調音器官の調音状態を表示装置上に表示する処理とを選
択的に行なうステップとを含む、調音状態の推定表示方
法。
【請求項２】さらに、前記入力音声信号のストリーム
に含まれるフレームの各々に対して、前記入力音声信号
から所定のパラメータを抽出する前記ステップから前記
選択的に行なう前記ステップまでをそれぞれ行なうこと
により調音状態をアニメーション表示するステップを含
む、請求項１に記載の調音状態の推定表示方法。
【請求項３】前記表示するステップは前記調音器官の
形状を前記表示装置上に３次元的に表示するステップを
含む、請求項１または請求項２に記載の調音状態の推定
表示方法。
【請求項４】前記３次元的に表示する前記ステップ
は、前記調音器官の複数枚の２次元断面形状を配列する
ことにより前記調音器官の３次元形状を前記表示装置上
に表示するステップを含む、請求項３に記載の調音状態
の推定表示方法。
【請求項５】入力音声信号から、話者の調音器官の調
音状態を推定し表示するための調音状態の推定表示方法
をコンピュータに実行させるためのコンピュータプログ
ラムを記録したコンピュータ読取可能な記録媒体であっ
て、前記方法は、入力音声信号から所定のパラメータを抽出するステップ
と、抽出された前記所定のパラメータに基づいて初期の調音
目標を設定するステップと、前記調音目標と、前記所定のパラメータとに基づいて、
前記入力音声信号に対応する話者の発話器官の調音状態
を推定するステップとを含み、前記推定するステップは、前記調音目標に基づいて、生理学的３次元調音モデルを
用いて前記入力音声信号に対応する調音状態を推定する
ステップと、前記推定された調音状態に基づいて所定の音響モデルに
よって合成音声信号を生成するステップと、前記合成音声信号から、前記所定のパラメータを抽出す
るステップと、前記合成音声信号から抽出された前記所定のパラメータ
が前記入力音声信号から抽出された前記所定のパラメー
タと所定の関係に接近するように前記調音目標を更新す
るステップとを含み、前記方法はさらに、前記合成音声信号から抽出された前記所定のパラメータ
が前記入力音声信号から抽出された前記所定のパラメー
タと前記所定の関係を充足するか否かを判定するステッ
プと、前記判定するステップの判定結果にしたがって、更新さ
れた前記調音目標に基づいて前記推定するステップから
再度処理を繰返す処理と、前記調音目標にしたがって生
理学的３次元調音モデルを駆動することにより得られる
調音器官の調音状態を表示装置上に表示する処理とを選
択的に行なうステップとを含む、コンピュータ読取可能
な記録媒体。
【請求項６】前記方法はさらに、入力音声信号のスト
リームに含まれるフレームの各々に対して、前記入力音
声信号から所定のパラメータを抽出する前記ステップか
ら前記選択的に行なう前記ステップまでをそれぞれ行な
うことにより調音状態をアニメーション表示するステッ
プを含む、請求項５に記載のコンピュータ読取可能な記
録媒体。
【請求項７】前記表示するステップは前記調音器官の
形状を前記表示装置上に３次元的に表示するステップを
含む、請求項５または請求項６に記載のコンピュータ読
取可能な記録媒体。
【請求項８】前記３次元的に表示する前記ステップ
は、前記調音器官の複数枚の断面形状を配列することに
より前記調音器官の３次元形状を前記表示装置上に表示
するステップを含む、請求項７に記載の調音状態のコン
ピュータ読取可能な記録媒体。