JP3413384B2 - 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 - Google Patents

調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体

Info

Publication number
JP3413384B2
JP3413384B2 JP2000062049A JP2000062049A JP3413384B2 JP 3413384 B2 JP3413384 B2 JP 3413384B2 JP 2000062049 A JP2000062049 A JP 2000062049A JP 2000062049 A JP2000062049 A JP 2000062049A JP 3413384 B2 JP3413384 B2 JP 3413384B2
Authority
JP
Japan
Prior art keywords
articulatory
articulation
state
displaying
predetermined parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000062049A
Other languages
English (en)
Other versions
JP2001249675A (ja
Inventor
建武 党
清志 本多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2000062049A priority Critical patent/JP3413384B2/ja
Publication of JP2001249675A publication Critical patent/JP2001249675A/ja
Application granted granted Critical
Publication of JP3413384B2 publication Critical patent/JP3413384B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は人間の音声波形か
ら、発話者の調音器官の形状を推定するシステムおよび
方法に関し、特に生理学的3次元調音モデルを用い、音
声波形に基づいて調音器官の調音状態を視覚化し表示す
るためのシステムおよび方法に関する。
【0002】
【従来の技術】外国語学習、特に外国語による会話の学
習は日本人にとって困難であると考えられている。その
原因としてさまざまなものが考えられるが、発話者は自
己の発話器官の調音状態とそれらの調整とを理解してい
ないのが大きな原因と考えられる。ことに外国語の発音
は、教師となる者の発音をまねるべく、自らの舌、下顎
などの調音器官をしかるべく制御しなければならない。
そうした学習作業は、日常的に外国語を聞き、話す機会
に恵まれる者であればともかく、そうした機会をほとん
ど持つことのない平均的日本人にとっては極めて困難で
ある。
【0003】こうした困難は、結局、自らの調音器官を
どのように調整すれば正しい発音ができるかについて、
教師となるものがないためにフィードバックをかけるこ
とができないことに起因する。そのため、自己流で発音
練習をするが発音はいっこうに上達しないという事態に
なる。また仮に教師がいたとしても、教師の発音を聞
き、その音声と似た音が発声できるように調音器官を正
しく制御することは実はそれほど容易ではない。そもそ
も、発声しているときの自己の調音器官がどのような形
状となっているかさえ容易には分からないのである。そ
のため結局は、いつまでたっても外国語の上達は望めな
いということになりかねない。
【0004】こうした問題は、外国語学習のときに限ら
ない。たとえば何らかの原因で調音器官の制御に障害を
持つ者、または聴覚に障害を持つために自己の発声して
いる音声と調音器官との間の関係を確実に把握できない
者が音声を用いて周囲とコミュニケーションをとるため
には、調音器官の制御の訓練をし、できるだけ通常の発
音が行えるようにすることが望ましい。しかしこの場合
にも、どのように自己の調音器官を制御したら望ましい
発音で発声ができるのかは容易には分からず、その結果
適切な発声を行なうことが困難である。
【0005】こうした問題を解決するためには、音声
と、それに対応する調音状態とを教えて同じ調音状態を
実現するように学習者を訓練するだけでは足りず、実際
に学習者が発声しているときの学習者の調音状態と、模
範となるものとの差異を認識させることにより調音状態
にフィードバックをかけることが望ましい。そのために
は学習者の調音状態を音声から推定することが必要であ
る。
【0006】現在のところ、音声波から調音状態を推定
する手法を大別すると、理想化された声道モデルを用い
て音声の音響的特徴量に等価な音響管を推定するもの
(Shroeder, M.R: "Determination of the geometry of
the human vocal tract by acoustic measurement,"
J. Acoust. Soc. Am., 4, p. 1002 (1967), Yehia, H.
and Itakura, F: "A method to combine acoustic and
morphological constraints in the speech production
inverse problem," Speech Comm. 18, 151-174 (199
6))と、より強い拘束条件を持つ調音モデルを用いて調
音目標を推定するものとがある(白井、誉田:"音声波か
らの調音パラメータの推定、" 信学誌、61,409-416 (19
78))。
【0007】
【発明が解決しようとする課題】しかし、音声波から調
音状態を推定する手法では、音声波と調音状態との対応
関係が一意的ではないという問題がある。この逆問題を
解決するために従来から種々の拘束条件が考えられてい
るが、いずれも推定結果の精度は低く、信頼度も高くな
い。
【0008】したがってこの発明の目的は、音声波か
ら、その音声を発する際の調音状態を推定し、従来より
もより理解容易な形式で提示することが可能な調音状態
の推定表示方法およびコンピュータを調音状態表示装置
として動作させるコンピュータプログラムを記憶したコ
ンピュータ読取可能な記録媒体を提供することである。
【0009】
【課題を解決するための手段】この発明のある局面によ
れば、入力音声信号から、話者の調音器官の調音状態を
推定し表示するための調音状態の推定表示方法は、入力
音声信号から所定のパラメータを抽出するステップと、
抽出された所定のパラメータに基づいて初期の調音目標
を設定するステップと、調音目標と、所定のパラメータ
とに基づいて、入力音声信号に対応する話者の発話器官
の調音状態を推定するステップとを含む。推定するステ
ップは、調音目標に基づいて、生理学的3次元調音モデ
ルを用いて入力音声信号に対応する調音状態を推定する
ステップと、推定された調音状態に基づいて所定の音響
モデルによって合成音声信号を生成するステップと、合
成音声信号から、所定のパラメータを抽出するステップ
と、合成音声信号から抽出された所定のパラメータが入
力音声信号から抽出された所定のパラメータと所定の関
係に接近するように調音目標を更新するステップとを含
む。この調音状態の推定表示方法はさらに、合成音声信
号から抽出された所定のパラメータが入力音声信号から
抽出された所定のパラメータと所定の関係を充足するか
否かを判定するステップと、判定するステップの判定結
果にしたがって、更新された調音目標に基づいて推定す
るステップから再度処理を繰返す処理と、調音目標にし
たがって生理学的3次元調音モデルを駆動することによ
り得られる調音器官の調音状態を表示装置上に表示する
処理とを選択的に行なうステップとを含む。
【0010】この方法によれば、音声波から調音状態を
推定することにより、発話時の調音器官の調音状態を視
覚的に表示させることができる。発話者などがその調音
状態を視覚的に確認し、正しい調音状態に適合させるこ
とが容易になる。
【0011】この発明にかかる方法は好ましくはさら
に、入力音声信号のストリームに含まれるフレームの各
々に対して、入力音声信号から所定のパラメータを抽出
するステップから選択的に行なうステップまでをそれぞ
れ行なうことにより調音状態をアニメーション表示する
ステップを含む。
【0012】入力音声信号のストリームに含まれるフレ
ームの各々に対して調音状態が表示されるため、発話時
の調音器官の調音状態がアニメーションとして表示さ
れ、より分かりやすくなるとともに、動的に調音状態を
変化させる必要のある発話などの学習が容易になる。
【0013】好ましくは、表示するステップは調音器官
の形状を表示装置上に3次元的に表示するステップを含
む。
【0014】3次元的な表示によって、調音状態を直感
的に認識できる。さらに好ましくは、3次元的に表示す
るステップは、調音器官の複数枚の2次元断面形状を配
列することにより調音器官の3次元形状を表示装置上に
表示するステップを含む。
【0015】
【発明の実施の形態】上述したような調音状態の推定結
果の精度と信頼度とを高めるためには、人間の発話機構
に忠実に基づいた調音モデルを用いることが望ましい。
これに関連して、特定話者の3次元MRI(magnetic r
esonance imaging)画像データに基づいて3次元生理学
的調音モデルを構築する方法が提案されている(党、本
多:"生理学的調音モデルを用いた母音系列の合成、" 音
講論、(1998, 9)、Dang, J andHonda, K., "Speech pro
duction of vowel sequences using a physiologicalar
ticulatory model," Proc. ICSLP98, Vol. 5, pp.1767-
1770 (1998)、党、本多:"生理学的調音モデルを用いる
音声合成法、" 音講論、243-244 (1999, 9))。このモ
デルは、発話器官(調音器官)とその周辺の筋肉の生理
学的な特性に基づいて、主な発話器官の構造およびその
周辺の筋肉の構造に関連する生理学的拘束条件を備えて
おり、調音目標と筋肉の収縮力との間の関係を記述する
ことにより人間の発話機構をほぼ忠実に再現することが
できる。したがってこの生理学的調音モデルを応用する
ことにより、音声波からより自然な声道形状を得られる
可能性がある。
【0016】以下に説明する本発明の実施の形態1にか
かるシステムは、この生理学的調音モデルを用い、リア
ルタイムに音声波から調音状態を推定してアニメーショ
ン表示することにより、発話者が容易に自己の調音状態
を理解することができるようにするためのものである。
このシステムは、外国語の学習、子供または障害者の発
音の学習などに補助装置として用いることができる。 [ハードウェア構成] 以下、本発明の実施の形態1にかかる方法を実現するた
めの調音状態表示装置について説明する。この調音状態
表示装置は、パーソナルコンピュータまたはワークステ
ーション等、コンピュータと、そのコンピュータ上で実
行されるソフトウェアとにより実現されるものであっ
て、人の発話した音声波形から、発話者の調音状態を推
定してアニメーション表示するとともに、推定された調
音状態に基づいて合成音声を発声するためのものであ
る。図1に、この調音状態表示装置の外観を示す。
【0017】図1を参照してこの調音状態推定表示装置
20は、CD−ROM(Compact Disc Read-Only Memor
y)ドライブ50およびFD(Flexible Disk)ドライブ
52を備えたコンピュータ本体40と、コンピュータ本
体40に接続された表示装置としてのディスプレイ42
と、同じくコンピュータ本体40に接続された入力装置
としてのキーボード46およびマウス48と、コンピュ
ータ本体40に接続された、発話者の発した音声を取込
むためのマイク30と、合成音声を出力するための、増
幅器を内蔵したスピーカ32とを含む。
【0018】図2に、この調音状態推定表示装置20の
構成をブロック図形式で示す。図2に示されるようにこ
の調音状態推定表示装置20を構成するコンピュータ本
体40は、CD−ROMドライブ50およびFDドライ
ブ52に加えて、それぞれバス66に接続されたCPU
(Central Processing Unit)56と、ROM(ReadOnl
y Memory)58と、RAM(Random Access Memory)6
0と、ハードディスク54と、マイク30からの音声を
取込むための音声取込装置68と、CPU56から与え
られる音信号からスピーカ32を駆動するための信号を
生成するための、音源を内蔵したサウンドボード70を
含んでいる。CD−ROMドライブ50にはCD−RO
M62が装着される。FDドライブ52にはFD64が
装着される。
【0019】既に述べたようにこの調音状態表示装置の
主要部は、コンピュータハードウェアと、CPU56に
より実行されるソフトウェアとにより実現される。一般
的にこうしたソフトウェアはCD−ROM62、FD6
4等の記憶媒体に格納されて流通し、CD−ROMドラ
イブ50またはFDドライブ52等により記憶媒体から
読取られてハードディスク54に一旦格納される。また
は、当該装置がネットワークに接続されている場合に
は、ネットワーク上のサーバから一旦ハードディスク5
にコピーされる。そうしてさらにハードディスク54
からRAM60に読出されてCPU56により実行され
る。なお、ネットワーク接続されている場合には、ハー
ドディスク54に格納することなくRAM60に直接ロ
ードして実行するようにしてもよい。
【0020】図1および図2に示したコンピュータのハ
ードウェア自体およびその動作原理は一般的なものであ
る。したがって、本発明の最も本質的な部分はFDドラ
イブ52、FD64、ハードディスク54等の記憶媒体
に記憶されたソフトウェアである。
【0021】なお、最近の一般的傾向として、コンピュ
ータのオペレーティングシステムの一部として様々なプ
ログラムモジュールを用意しておき、アプリケーション
プログラムは主としてこれらモジュールを所定の配列で
必要な時に呼び出して処理を進めるという役割のみを担
うことがある。そうした場合、当該調音状態表示装置を
実現するためのソフトウェア自体にはそうした機能モジ
ュールは含まれず、当該コンピュータというハードウェ
ア上で、かつその上のオペレーティングシステムと協働
してはじめて、本実施の形態の調音状態表示装置が実現
することになる。しかし、一般的なプラットフォームを
使用する限り、そうしたモジュールを含ませたソフトウ
ェアを流通させる必要はなく、それらモジュールを含ま
ないソフトウェア自体およびそれらソフトウェアを記録
した記録媒体(およびそれらソフトウェアがネットワー
ク上を流通する場合のデータ信号)が実施の形態を構成
すると考えることができる。 [機能的構成]図3を参照して、本実施の形態1にかか
る調音状態推定表示装置20は、実音声に対してプリエ
ンファシスをかけて唇などからの放射の影響に対し放射
特性を補正するための放射特性補正部80と、補正され
た音声のスペクトルを平坦化する処理を行なうための適
応フィルタ82および自己相関計算部84と、スペクト
ルの平坦化された入力音声信号から音響パラメータとし
てLPCケプストラム係数を計算により求めるためのL
PC(linear predictive coding)ケプストラム計算部
90と、予めいくつかの音声について得られたLPCケ
プストラムを、後述する反復処理のための初期調音目標
として記憶しておくための初期調音目標記憶部100
と、LPCケプストラム計算部90によって得られた実
音声に対するLPCケプストラム係数と、初期調音目標
記憶部100に記憶されているいくつかの初期調音目標
のLPCケプストラム係数とを比較し、実音声から得ら
れたLPCケプストラム係数に最も近いものを初期調音
目標として選択するための初期目標設定部96と、初期
目標設定部96により設定された初期調音目標から出発
して調音モデルを駆動することにより調音状態を更新
し、更新した調音状態から得られる合成音声から計算さ
れたLPCケプストラム係数とLPCケプストラム計算
部90が計算したLPCケプストラム係数との差が小さ
くなるように反復処理をしながら調音目標を更新してい
き、最終的に得られた調音状態を、最初に与えられた実
音声を発声したときの発話者の調音状態として、得られ
た調音状態から調音器官の形状をアニメーションで表示
(108)するための調音モデル反復計算部98とを含
む。
【0022】調音モデル反復計算部98は、初期目標設
定部96により初期設定される調音目標を用いて調音器
官とその周囲の筋肉の収縮パターンを推定し、筋肉の収
縮力により調音モデルを駆動して新しい声道形状を生成
する調音モデル部102と、調音モデル部102により
生成された声道形状に基づいて合成音声を出力(11
0)するための音響モデル部104と、音響モデル部1
04が出力する合成音声を受け、適応フィルタ82およ
び自己相関計算部84が行なうのと同じ処理を行なって
スペクトルの平坦化を行なうための適応フィルタ86お
よび自己相関計算部88と、このようにスペクトルの平
坦化された合成音声からLPCケプストラム計算部90
と同様にして音響パラメータとしてLPCケプストラム
係数を計算するためのLPCケプストラム計算部92
と、LPCケプストラム計算部90が出力するLPCケ
プストラム係数と、LPCケプストラム計算部92が出
力するLPCケプストラム係数とが接近するように、す
なわち両者の差異が小さくなるように調音モデル部10
2のための調音目標を推定し更新するための調音目標更
新部94とを含む。
【0023】図4を参照して、音響モデル部104は、
調音モデル部102が出力する、調音器官部位の3枚の
断面形状124に基づいて声道断面積形状を推定するた
めの断面積関数の推定部126と、断面積関数の推定部
126の出力する声道断面積形状に基づいてパラメータ
を変化させて電気回路モデルを駆動することにより音源
を加えて合成音声を生成する電気回路モデル部128と
を含む。 [ソフトウェアの制御構造] 図5を参照して、図3および図4に示した調音状態推定
表示装置20を実現するためのソフトウェアは、以下の
ような制御構造を有する。以下に述べる例では、入力さ
れた音声に対しては既に放射特性の補正、スペクトルの
平坦化処理は行なわれているものとする。なお放射特性
の補正、スペクトルの平坦化処理に加えて、LPCケプ
ストラム係数の計算、音声の合成、調音モデルに基づく
声道状態のアニメーション表示などは本実施の形態では
いずれもソフトウェアにより行なっているが、これらは
いずれも専用のLSI回路(Large Scale Integrated回
路)を用いて行なってもよい。なお、以下に述べる処理
は入力音声信号のストリームの各フレームに対して行な
われる。また、以下の処理では各フレームという表現を
用いているが、要するに、入力音声信号のうち、音声処
理の対象となる所定の単位に対して以下の処理を適用す
ればよい。
【0024】まず、入力された実音声に対して初期LP
Cケプストラム係数の計算を行なう(140)。これは
LPCケプストラム計算部90での処理に相当する。こ
うして計算されたLPCケプストラム係数に最も近い音
響パラメータを持つ初期調音目標を初期調音目標記憶部
100に記憶されている初期調音目標の候補のうちから
選択する(142)。本実施の形態では、初期調音目標
として予め日本語の5母音の標準調音目標を準備してお
き、これら母音のうち最初に入力された実音声に最も近
いものを初期調音目標に選択する。
【0025】続いてこの調音目標を用い、調音器官の筋
肉の収縮パターンを推定し、得られた筋肉の収縮力にし
たがって調音モデルを駆動して(144)新しい声道形
状を生成する(146)。この声道形状を用い、音響モ
デルにより合成音声を出力(110)する。
【0026】このようにして得られた合成音声に対し、
ステップ140の前に行なわれていたのと同じスペクト
ル平坦化処理を行ない、さらにステップ140と同じ、
LPCケプストラム係数の計算を行なう(148)。
【0027】合成音声と入力音声との音響パラメータを
比較し、それらの差異が所定の範囲か否かを判定する
(150)。差異が所定の範囲内である場合には、反復
の結果調音目標がほぼ一定のものに近付いたということ
であり、処理をそれ以上行なうことはあまり意味がな
い。したがってここで処理を終わり、このとき得られて
いる調音モデルに基づいて調音状態を画像として表示す
る(154)。この画像としては、調音モデル部102
が出力する3枚の2次元断面形状124を用いることが
でき、これらを3次元的に配列することにより図6のよ
うな形で発話者の調音器官の推定形状を視覚的に、直感
的に分かりやすく表示することができる。
【0028】ステップ150の判定の結果合成音声と入
力音声との差異が大きいと判定された場合には、ここで
得られた音響パラメータを、実音声から得られた音響パ
ラメータと接近させるように調音目標の更新を行ない
(152)、制御はステップ144に戻る。以下、ステ
ップ144以降の処理を繰返し行なうことにより、最終
的に調音目標は一定のもの、すなわち実際の話者の調
よく一致する調音状態が得られるように調音モデルを
駆動する調音目標が得られてステップ152で肯定的な
判定が得られる。
【0029】調音状態の表示が終われば、制御はステッ
プ140に戻り、次のフレームの音声に対して、上述し
た処理を再度行なう。この処理を入力音声信号のストリ
ームに対して繰返して行なうことにより、ディスプレイ
42上には発話者の発声時の調音器官の形状がアニメー
ション的に表示される。この調音器官の形状をたとえば
他のウィンドウ上に表示される、模範的な調音器官の形
状のアニメーションと比較することにより、発話者は自
己の調音動作に対して非常に有効なフィードバックをか
けることが可能となる。
【0030】上記した実施の形態のシステムでは調音モ
デルに基づく調音器官のアニメーション表示を、3枚の
矢状断面形状を配列することにより行なっているが、矢
状断面形状の枚数が3枚に限定されるわけではない。コ
ンピュータおよび周辺機器の性能、ならびに応用が必要
とする条件に応じて適切な数を選択することができる。
また、単に矢状断面形状を複数枚並べて表示することに
より立体的な表示を実現するのではなく、調音モデル部
102からの出力を、調音器官の表面(声道内面)を表
わす3次元形状データとして出力するようにし、それに
よって3次元形状を表現するようにしてもよい。また、
3次元形状は必ずしも必要ではない場合もあり、その場
合には矢状断面形状を1枚のみ、またはそれぞれ別々に
して複数枚、表示するようにしてもよい。
【0031】また上記した実施の形態のシステムはスタ
ンドアローンであるが、ネットワークによってアニメー
ション表示を他の地点のコンピュータに伝送し、そこで
も表示することができる。これは一方向でも双方向でも
よい。たとえば双方向でアニメーション表示を行なう場
合には、語学教師が遠隔地にいる学習者を指導するとき
などに、教師は学習者の声道形状を確認してそれを矯正
するためにより適切な指示を行なうことが可能となる
し、学習者は教師の声道形状を見ることにより自己の調
器官の制御をより適切に行なうことができるようにな
るであろう。
【0032】また、そのようなネットワークによりコン
ピュータ間を接続する場合、一対一の接続のみに限定さ
れるわけではない。教師が一人に対し学習者が複数いる
場合、教師の音声から得られる声道形状のアニメーショ
ンをそれら学習者にブロードキャストすることにより、
そうした語学の学習システムがより効率的になることが
期待できる。
【0033】また、今回開示された実施の形態のシステ
ムは声道形状をリアルタイムでアニメーション表示する
ものではあるが、音声の内容まで取り扱っているわけで
はない。しかし、声道形状から、そのときに発声されて
いる音声が精度よく推定できるような拘束条件を定め、
さらに時系列でそのような声道形状の変化を捉えていく
ことにより、この技術を音声認識にも適用できる可能性
がある。
【0034】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
【図面の簡単な説明】
【図1】 本発明の実施の形態1にかかるシステムの外
観図である。
【図2】 本発明の実施の形態1にかかるシステムのハ
ードウェア的構成を示すブロック図である。
【図3】 本発明の実施の形態1にかかるシステムの機
能的ブロック図である。
【図4】 本発明の実施の形態1にかかるシステムにお
ける音声合成処理部のブロック図である。
【図5】 本発明の実施の形態1にかかるシステムで行
なわれる処理の概略を示すフローチャートである。
【図6】 アニメーション表示される調音モデルの一例
を示す図である。
【符号の説明】
20 調音状態表示装置、30 マイク、32 スピー
カ、40 コンピュータ本体、42 ディスプレイ、8
2,86 適応フィルタ、84,88 自己相関計算
部、90,92 LPCケプストラム計算部、94 調
音目標更新部、96 初期目標設定部、98 調音モデ
ル反復計算部、102 調音モデル部、104 音響モ
デル部。
フロントページの続き (56)参考文献 特開 平6−348297(JP,A) 特開 平10−254497(JP,A) 特開 昭59−71096(JP,A) 特開 昭59−124385(JP,A) 特開 平11−259097(JP,A) 特開 昭62−184500(JP,A) 特開 昭62−184499(JP,A) 特開 平11−202897(JP,A) 党建武、本多清志,生理学的調音モデ ルに基づく3次元声道形状の生成,日本 音響学会講演論文集,日本音響学会, 1998年 3月,1998年春季I,265−266 杉浦淳、松村雅史,磁気共鳴映像法に よる3次元声道形状の計測,電子情報通 信学会技術研究報告,電子情報通信学 会,1990年 1月26日,SP89−109〜 118,65−72 佐々木優、他,音声教育のための3次 元声道形状の対話型表現,日本音響学会 講演論文集,日本音響学会,1998年 3 月,1998年春季I,341−342 (58)調査した分野(Int.Cl.7,DB名) G10L 13/00

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声信号から、話者の調音器官の調
    音状態を推定し表示するための調音状態の推定表示方法
    であって、 入力音声信号から所定のパラメータを抽出するステップ
    と、 抽出された前記所定のパラメータに基づいて初期の調音
    目標を設定するステップと、 前記調音目標と、前記所定のパラメータとに基づいて、
    前記入力音声信号に対応する話者の発話器官の調音状態
    を推定するステップとを含み、 前記推定するステップは、 前記調音目標に基づいて、生理学的3次元調音モデルを
    用いて前記入力音声信号に対応する調音状態を推定する
    ステップと、 前記推定された調音状態に基づいて所定の音響モデルに
    よって合成音声信号を生成するステップと、 前記合成音声信号から、前記所定のパラメータを抽出す
    るステップと、 前記合成音声信号から抽出された前記所定のパラメータ
    が前記入力音声信号から抽出された前記所定のパラメー
    タと所定の関係に接近するように前記調音目標を更新す
    るステップとを含み、 前記調音状態の推定表示方法はさらに、 前記合成音声信号から抽出された前記所定のパラメータ
    が前記入力音声信号から抽出された前記所定のパラメー
    タと前記所定の関係を充足するか否かを判定するステッ
    プと、 前記判定するステップの判定結果にしたがって、更新さ
    れた前記調音目標に基づいて前記推定するステップから
    再度処理を繰返す処理と、前記調音目標にしたがって生
    理学的3次元調音モデルを駆動することにより得られる
    調音器官の調音状態を表示装置上に表示する処理とを選
    択的に行なうステップとを含む、調音状態の推定表示方
    法。
  2. 【請求項2】 さらに、前記入力音声信号のストリーム
    に含まれるフレームの各々に対して、前記入力音声信号
    から所定のパラメータを抽出する前記ステップから前記
    選択的に行なう前記ステップまでをそれぞれ行なうこと
    により調音状態をアニメーション表示するステップを含
    む、請求項1に記載の調音状態の推定表示方法。
  3. 【請求項3】 前記表示するステップは前記調音器官の
    形状を前記表示装置上に3次元的に表示するステップを
    含む、請求項1または請求項2に記載の調音状態の推定
    表示方法。
  4. 【請求項4】 前記3次元的に表示する前記ステップ
    は、前記調音器官の複数枚の2次元断面形状を配列する
    ことにより前記調音器官の3次元形状を前記表示装置上
    に表示するステップを含む、請求項3に記載の調音状態
    の推定表示方法。
  5. 【請求項5】 入力音声信号から、話者の調音器官の調
    音状態を推定し表示するための調音状態の推定表示方法
    をコンピュータに実行させるためのコンピュータプログ
    ラムを記録したコンピュータ読取可能な記録媒体であっ
    て、前記方法は、 入力音声信号から所定のパラメータを抽出するステップ
    と、 抽出された前記所定のパラメータに基づいて初期の調音
    目標を設定するステップと、 前記調音目標と、前記所定のパラメータとに基づいて、
    前記入力音声信号に対応する話者の発話器官の調音状態
    を推定するステップとを含み、 前記推定するステップは、 前記調音目標に基づいて、生理学的3次元調音モデルを
    用いて前記入力音声信号に対応する調音状態を推定する
    ステップと、 前記推定された調音状態に基づいて所定の音響モデルに
    よって合成音声信号を生成するステップと、 前記合成音声信号から、前記所定のパラメータを抽出す
    るステップと、 前記合成音声信号から抽出された前記所定のパラメータ
    が前記入力音声信号から抽出された前記所定のパラメー
    タと所定の関係に接近するように前記調音目標を更新す
    るステップとを含み、 前記方法はさらに、 前記合成音声信号から抽出された前記所定のパラメータ
    が前記入力音声信号から抽出された前記所定のパラメー
    タと前記所定の関係を充足するか否かを判定するステッ
    プと、 前記判定するステップの判定結果にしたがって、更新さ
    れた前記調音目標に基づいて前記推定するステップから
    再度処理を繰返す処理と、前記調音目標にしたがって生
    理学的3次元調音モデルを駆動することにより得られる
    調音器官の調音状態を表示装置上に表示する処理とを選
    択的に行なうステップとを含む、コンピュータ読取可能
    な記録媒体。
  6. 【請求項6】 前記方法はさらに、入力音声信号のスト
    リームに含まれるフレームの各々に対して、前記入力音
    声信号から所定のパラメータを抽出する前記ステップか
    ら前記選択的に行なう前記ステップまでをそれぞれ行な
    うことにより調音状態をアニメーション表示するステッ
    プを含む、請求項5に記載のコンピュータ読取可能な記
    録媒体。
  7. 【請求項7】 前記表示するステップは前記調音器官の
    形状を前記表示装置上に3次元的に表示するステップを
    含む、請求項5または請求項6に記載のコンピュータ読
    取可能な記録媒体。
  8. 【請求項8】 前記3次元的に表示する前記ステップ
    は、前記調音器官の複数枚の断面形状を配列することに
    より前記調音器官の3次元形状を前記表示装置上に表示
    するステップを含む、請求項7に記載の調音状態のコン
    ピュータ読取可能な記録媒体。
JP2000062049A 2000-03-07 2000-03-07 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 Expired - Fee Related JP3413384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000062049A JP3413384B2 (ja) 2000-03-07 2000-03-07 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000062049A JP3413384B2 (ja) 2000-03-07 2000-03-07 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2001249675A JP2001249675A (ja) 2001-09-14
JP3413384B2 true JP3413384B2 (ja) 2003-06-03

Family

ID=18582110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000062049A Expired - Fee Related JP3413384B2 (ja) 2000-03-07 2000-03-07 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3413384B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040004999A (ko) * 2002-07-08 2004-01-16 (주)엘케이아이티 사람의 발성기관을 모델링한 음성합성방법
WO2004049283A1 (en) * 2002-11-27 2004-06-10 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation
JP2005031158A (ja) * 2003-07-07 2005-02-03 Univ Waseda 弾性体形状をモデル化する方法及びその装置、並びにそのモデル化する方法を用いた音響シミュレーション方法及びその装置。
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム
WO2013031677A1 (ja) * 2011-08-26 2013-03-07 国立大学法人豊橋技術科学大学 発音動作可視化装置および発音学習装置
JP6059730B2 (ja) 2011-10-20 2017-01-11 ヴァングラ,アルバート 合わせガラス切断用の携帯ツール
RU2623129C2 (ru) * 2011-10-20 2017-06-22 Конинклейке Филипс Н.В. Система и способ получения характеристик верхних дыхательных путей с использованием характеристик речи

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
佐々木優、他,音声教育のための3次元声道形状の対話型表現,日本音響学会講演論文集,日本音響学会,1998年 3月,1998年春季I,341−342
党建武、本多清志,生理学的調音モデルに基づく3次元声道形状の生成,日本音響学会講演論文集,日本音響学会,1998年 3月,1998年春季I,265−266
杉浦淳、松村雅史,磁気共鳴映像法による3次元声道形状の計測,電子情報通信学会技術研究報告,電子情報通信学会,1990年 1月26日,SP89−109〜118,65−72

Also Published As

Publication number Publication date
JP2001249675A (ja) 2001-09-14

Similar Documents

Publication Publication Date Title
Yehia et al. Quantitative association of vocal-tract and facial behavior
US9837091B2 (en) Audio-visual dialogue system and method
Hill et al. Animating speech: an automated approach using speech synthesised by rules
US5826234A (en) Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements
Story Phrase-level speech simulation with an airway modulation model of speech production
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
JPH075807A (ja) 合成を基本とした会話訓練装置
JPS63157184A (ja) 発音訓練装置
KR20150076126A (ko) 동적 발음 지원 시각화 수단을 포함하는 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
Beskow Trainable articulatory control models for visual speech synthesis
Rasilo et al. Feedback and imitation by a caregiver guides a virtual infant to learn native phonemes and the skill of speech inversion
JP3413384B2 (ja) 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体
Lin et al. A face robot for autonomous simplified musical notation reading and singing
Kröger et al. Articulatory synthesis of speech and singing: State of the art and suggestions for future research
JP2002091472A (ja) 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
Teixeira et al. Simulation of human speech production applied to the study and synthesis of European Portuguese
JP4586675B2 (ja) 声道断面積関数の推定装置及びコンピュータプログラム
Story TubeTalker: An airway modulation model of human sound production
Csapó Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging
Theobald Audiovisual speech synthesis
Gonzalez et al. Direct Speech Generation for a Silent Speech Interface based on Permanent Magnet Articulography.
Tran et al. Multimodal HMM-based NAM-to-speech conversion
Krňoul et al. Realistic face animation for a Czech Talking Head
JPS616732A (ja) 発声訓練装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030304

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees