JP3701850B2

JP3701850B2 - 音声言語の韻律表示装置および記録媒体

Info

Publication number: JP3701850B2
Application number: JP2000283480A
Authority: JP
Inventors: 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2000-09-19
Filing date: 2000-09-19
Publication date: 2005-10-05
Anticipated expiration: 2020-09-19
Also published as: JP2002091472A

Description

【０００１】
【発明の属する技術分野】
本発明は音声言語の韻律表示装置および記録媒体に関し、特に詳細には、語学教育や音声言語の研究などにおいて、アクセント／イントネーションや個々の音の長さのバランスなどの所謂「韻律」を学習したり、分析したりする際の視覚的／聴覚的支援技術に用いられる音声言語の韻律表示装置および記録媒体に関する。
【０００２】
【従来の技術】
従来、語学教育における韻律の学習法は、教師の模範発声を聴取後、学習者がこれを真似て発声し、教師が講評するという聴覚中心の学習であった。教師が同席せず、テープなどに録音された模範音声（モデル音声）のみを聴取する場合においては、学習者は自らの発声の良し悪しを判断する手段がなかった。
【０００３】
そこで、近年コンピュータを使って、語学教育等における韻律の習得を支援する試み（特開平３−２５２７００号公報、電子情報通信学会技術研究報告ＳＰ９６−１８など）が行われるようになってきた。このようにコンピュータを使うことによって、聴覚的のみならず、視覚的にも学習者を支援することが可能になる。これらには、音声学や音響学の分野で研究用に開発された計算機によるデジタル音声信号処理技術が応用されている。
【０００４】
【発明が解決しようとする課題】
しかし、この種のデジタル音声信号処理技術においては、音声の録音条件が悪い場合、例えば環境騒音が大きい、マイクの使い方が不適切、発声の仕方が悪いなどの条件下では正しい処理が行えず、基本周波数の誤抽出などの誤動作が生じやすい。また、誤動作しない場合でも、研究用の詳細な分析結果をそのまま文字やグラフにしてコンピュータ画面に表示しても、そのユーザーである専門知識のない一般人にとっては、語学学習などの参考として分かりにくいなどの欠点があり、一般ユーザーにも分かりやすく提示する技術は現在まで実用化されていない。
【０００５】
本発明は上記の事情に鑑み、語学教育や音声言語の研究などにおいて、アクセント／イントネーションや個々の音の長さのバランスなどの所謂「韻律」を対象とした場合に、予めモデルとなる模範的な発声をコンピュータの記憶媒体に記憶しておき、これと同一内容をユーザーが発声した場合に、その韻律の特徴をユーザー音声とモデル音声とを比較して視覚的に表示したり、ユーザーの音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示することで、ユーザーへの語学教育や音声言語の研究を支援することのできる音声言語の韻律表示装置および記録媒体を提供することを目的としている。
【０００６】
【課題を解決するための手段】
上記の目的を達成するために本発明の装置は、音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示装置であって、前記入力音声の韻律を分析する分析手段と、前記分析手段による分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正する手段であって、前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正手段と、前記修正手段による修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示手段であって、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示手段とを備えた形態を実施した。
【０００７】
上記形態で、前記修正手段は、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、前記表示手段は、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および／または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する形態であって良い。
【０００８】
上記形態で、前記分析手段はさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、前記修正手段は、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する形態であって良い。
【０００９】
上記形態で、前記表示手段は、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とする形態であって良い。
【００１０】
上記の目的を達成するために本発明の記憶媒体は、音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示方法のプログラムを記憶した記憶媒体であって、前記プログラムはコンピュータに、前記入力音声の韻律を分析する分析ステップと、前記分析ステップにおける分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正するステップであって、前記分析ステップで前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正ステップと、前記修正ステップにおける修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示ステップであって、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示ステップとを実行させる形態を実施した。
【００１１】
上記形態で、前記修正ステップにおいて、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、前記表示ステップにおいて、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および／または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する形態であって良い。
【００１２】
上記形態で、前記分析ステップにおいてさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、前記修正ステップにおいて、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する形態の記録媒体を実施した形態であって良い。
【００１３】
上記形態で、前記表示ステップにおいて、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とする形態であって良い。
【００３２】
上記の形態によれば、入力音声を発声する学習者または研究者がフレーズ内でモデル音声には無い間を入れたり、逆に間を挿入すべきところを連続に発声した場合にもスペクトル的不整合を回避して正しい時間的対応付けを行うことができる。
【００３３】
上記の形態によれば、学習すべき韻律の特徴を単純化し、聴感的な音の高さの変化に対応して分かりやすく表示することができる。
【００３４】
上記の形態によれば、学習者または研究者による入力音声の分析結果を修正して基本周波数の時間軌跡を表示することができる。
【００３５】
上記の形態によれば、予めモデル音声の分析結果に対して、学習すべき韻律の特徴を分かりやすくするための修正を加えておくことにより、学習者または研究者の入力音声についてもそれに準拠した修正を加えた基本周波数の時間軌跡が表示できることになる。
【００３６】
上記の形態によれば、韻律の学習を聴覚的に支援することができ、例えばモデル音声が男性の声で、学習者または研究者が女性であっても、正しい女性の声の高さで模範音声の韻律を持った音声を再生することができる。
【００３７】
上記の形態によれば、学習者または研究者の入力音声の基本周波数の周波数変換を行うことができ、学習者または研究者の入力音声の基本周波数の変化量が部分的に極端に大きくなることを防止でき、基本周波数変換を高品質に行うことができる。
【００３８】
上記の形態によれば、モデル音声に対する学習者の入力音声の韻律の類似度を客観的に算出し、学習者に自らの発声のうまさを知らせることができる。
【００３９】
上記の形態によれば、語学教育や音声言語の研究などにおいて、アクセント／イントネーションや個々の音の長さのバランスなどの所謂「韻律」のモデルとなる模範的な発声と同じ内容を学習者または研究者が発声した場合に、その韻律の特徴を学習者または研究者の音声とモデル音声とを比較して視覚的に表示したり、学習者または研究者の音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、学習者への語学教育や研究者の音声言語の研究を支援することを可能とする。
【００４０】
【発明の実施の形態】
図１は本発明に係る音声言語の韻律表示装置の一実施例を示すブロック図である。
【００４１】
１００は上記各装置として動作するコンピュータ装置であり、ＣＰＵ、主記憶装置としてのＲＯＭ、補助記憶装置としてのＨＤＤ、ＦＤＤ、ＣＰＵの作業エリアおよび一時的なデータ記憶領域としてのＲＡＭ、外部との音声データのやり取りに用いられるＩ／Ｆ等のハードウエアを備えた周知の構成の汎用コンピュータ、例えば、市販のパーソナルコンピュータやワークステーションを使用することができる。これらハードウエアは図示を省略し、ＣＰＵによる処理の流れを機能的ブロック図として示した。また、１０１はハードディスクアレー等のモデル音声データベース部、１２０は表示装置である。
【００４２】
この図に示すコンピュータ装置１００は、上記補助記憶装置または外部記憶装置（図示せず）等の本発明に係る記録媒体から音声言語の韻律表示方法、再生方法、類似度判定方法、または音声言語処理方法のプログラムをロードし、Ａ／Ｄ変換部１０２、分析部１０３、時間的対応付け部１０４、修正部１０５、時間伸縮部１０６、平滑化／補間部１０７、表示データ生成部１０８、差分算出部１０９、加算部１１０、基本周波数変換部１１１、Ｄ／Ａ変換部１１２、および類似度判定部１１３としての機能を遂行することができる。
【００４３】
これら機能により、語学教育や音声言語の研究などにおいて、アクセント／イントネーションや個々の音の長さのバランスなどの所謂「韻律」を対象とした場合に、予めモデルとなる模範的な発声がディスク記憶装置等に用意されていることを前提として、これと同じ内容をユーザー（学習者または研究者）が発声した場合に、その韻律の特徴をユーザー音声とモデル音声とを比較して視覚的に表示したり、ユーザーの音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、ユーザーへの語学教育や音声言語の研究を支援する手段を提供するものである。
【００４４】
図１におけるモデル音声データベース部１０１は、例えば語学学習の場合、学習の基本となるフレーズを予めネイティブなアナウンサーなどが模範音声として発声したもの（以後、“モデル音声”と呼ぶ）を、その基本周波数およびパワーやルビの位置、及びその音声波形などとともにデータベース化してハードディスク等の記憶装置（図示せず）に記憶したものである。
【００４５】
データベース化の際には、“モデル音声”に対して、例えばフレーム周期５ｍｓで有声／無声／無音の判定と基本周波数の抽出（例えば、電子情報通信学会論文誌Ａ、Ｖｏｌ．Ｊ８０−ＡＮｏ．９，ｐｐ．１３４１−１３５０などの方法による）を行い、さらに手修正を加えた後、各有声音区間単位で基本周波数の平滑化（例えば、カットオフ周波数ｆｃ＝６ＨｚのＬＰＦ）を行って基本周波数の時間軌跡を求める。この際、例えば中国語では音節毎に第１声〜第４声および軽声のいずれかの音調がつくことを理解しやすくするため、実際には有声音が連続する場合でも、基本周波数の時間軌跡上で各音節の境界部分は非表示とし、切れ目を入れる修正を目視で加えてデータベース化することにより、学習者または研究者の理解を促進することができる。
【００４６】
上記コンピュータ装置１００の処理を概略的に説明すると、まず、ユーザーがＤ／Ａ変換部１１２およびスピーカ（図示せず）を介してモデル音声を聴取したり、表示装置１２０の画面に表示されたモデル音声の基本周波数の時間軌跡を参考にして、モデル音声を真似て、コンピュータ装置１００に接続されたマイクロホン（図示せず）に向かって発声（以後、“ユーザー音声”と呼ぶ）すると、Ａ／Ｄ変換部１０２を介して“ユーザー音声”が音声波形としてコンピュータ装置１００内に取り込まれる。取り込まれた音声波形は、その基本周波数の時間軌跡が自動的に表示装置１２０の画面に表示され、ユーザーは、自分が発声したものとモデル音声の基本周波数の時間軌跡との違いを視覚的に知ることができる。
【００４７】
同時に、基本周波数変換部１１１により、ユーザー音声の声質を保ちながらモデル音声の韻律を持った、韻律変換された変換音声を生成する。したがってユーザーは、スピーカからの再生音によりユーザー音声とモデル音声を聞き比べるだけでなく、同じユーザー音声の声質の韻律変換前と韻律変換後の音声を聴覚的に聞き比べることもできる。さらに、類似度判定部１１３により、モデル音声に対するユーザー音声の基本周波数時間軌跡に関する類似度が判定され、判定結果が表示データ生成部１０８に出力され、表示データに従って表示装置１２０の画面に表示される。上記モデル音声データベース１０１とコンピュータ装置１００を用いた本実施形態によれば、ユーザーに対し視覚的および聴覚的支援を実現して学習効果を高めることができる。
【００４８】
以下、ユーザー音声の基本周波数時間軌跡を表示する処理手順について説明する。
コンピュータ装置１００に取り込まれてＡ／Ｄ変換されたユーザー音声波形に対し、分析部１０３により、例えばフレーム周期５ｍｓで有声／無声／無音が判定され、基本周波数が抽出（例えば、電子情報通信学会論文誌Ａ，Ｊ８０−ＡＮｏ．９，ｐｐ．１３４１−１３５０などの方法による）される。
【００４９】
分析部１０３による上記処理の一方で、モデル音声データベース部１０１に予め記憶してある、モデル音声の音声波形、有声／無声／無音の情報、有声音区間内の非表示位置情報が時間的対応付け部１０４に取り込まれる。さらに時間的対応付け部１０４には、ユーザー音声波形と、分析部１０３により得られた有声／無声／無音の情報が取り込まれる。
【００５０】
次に、時間的対応付け部１０４はこれらの情報を基に、モデル音声とユーザー音声の間で、ＬＰＣケプストラムによるＤＰマッチングを用いて、両者の音声波形の時間的対応付けを行なう。ところで、ユーザーは、フレーズ内でモデル音声には無い間を入れたり、逆に間を挿入すべきところを連続して発声することがある。このような発声に対してはスペクトル的に不整合が生じるため、時間的対応付けが正しく行われないことが多い。そこで、両者の音声の無音と判定されている区間を省いて（削除して）からＤＰマッチングを行って、両者の音声間の有声／無声の照合結果および有声音区間内の非表示位置の照合結果を生成する。時間的対応付け部１０４はまた、モデル音声に対するユーザー音声の時間伸縮情報を生成する。
【００５１】
修正部１０５は、上記の照合結果と、分析部１０３によって一定の時間間隔でフレーム毎に得たユーザー音声の基本周波数とに従い以下の処理を行う。
【００５２】
修正部１０５によってまず、一定の時間間隔のフレーム毎に得られたユーザー音声の基本周波数について、一連の有声音区間の両端のいくつかのフレームで抽出された基本周波数が乱れ、時間変化に対して不規則に変化している場合、その値は後に行なう平滑化／補間部１０７による平滑化のデータに含めないことにする。乱れていない場合には、滑らかに変化する基本周波数の時間軌跡を表示するために、平滑化／補間部１０７による平滑化処理をう。
【００５３】
基本周波数の乱れの判定は、具体的には次式（１）に従って行なう。
【００５４】
【数１】

【００５５】
式（１）において、値Ａが１以上になった場合には、以下のように平滑化／補間部１０７による補間の対象区間を決定する。
【００５６】
例えば、図２に示すように有声音区間の終端（終了点）側において式（１）の値Ａが１以上になった場合、このフレームより後の部分のフレーム（Ａが１以上になったフレームを含む）のデータは平滑化のデータから除外し、除外したデータを、後に平滑化／補間部１０７によって補間の対象区間とする。図２は有声音区間の終端側について示したが、有声音区間の始端（開始点）側において式（１）の値Ａが１以上になった場合は、このフレームより前の部分のフレーム（Ａが１以上になったフレームを含む）のデータは平滑化のデータから除外し、除外したデータを、後に平滑化／補間部１０７によって補間の対象区間とする。
【００５７】
なお、式（１）中の定数Ｃ₁〜Ｃ₃として、Ｃ₁＝０．２，Ｃ₂＝３．０，Ｃ₃＝２００程度を用いると良い結果が得られる。
【００５８】
続いて修正部１０５により、時間的対応付け部１０４によるＤＰマッチングの結果、モデル音声の有声部にユーザー音声の無声部が対応した場合、そのユーザー音声の区間についても、後の平滑化／補間部１０７による基本周波数の平滑化のデータから除外し、平滑化／補間部１０７による補間の対象区間とする。一方、時間的対応付け部１０４によるＤＰマッチングの結果、モデル音声の無声部にユーザー音声の有声部が対応した場合、その区間は基本周波数時間軌跡を非表示とするように修正する。
【００５９】
さらに続いて修正部１０５により、時間的対応付け部１０４によるＤＰマッチングの結果、モデル音声の有声音区間でも基本周波数時間軌跡を非表示とした部分に対応するユーザー音声の区間について、同様に基本周波数時間軌跡を非表示とするように修正する。
【００６０】
次に、上記の通りに修正されたユーザー音声の基本周波数は、時間伸縮部１０６により、前述の通り時間的対応付け部１０４によって生成された時間伸縮情報に従ってモデル音声に合わせ時間伸縮される。時間伸縮された基本周波数データＰｏ（ｔ）に対しては、平滑化／補間部１０７によって、有声音区間で、非表示区間にも補間対象区間にもなっていない部分について平滑化（例えば、カットオフ周波数ｆｃ＝６ＨｚのＬＰＦ）処理を行う。さらに平滑化／補間部１０７によって、この平滑化データを用い、修正部１０５によって前述の通りに補間対象区間とされている部分をその周辺の平滑化済み基本周波数時間軌跡の値から最小自乗法により補間し、ユーザー音声の平滑化済み基本周波数時間軌跡Ｐｕ（ｔ）を生成する。
【００６１】
最後に表示データ生成部１０８によって、モデル音声の平滑化済み基本周波数時間軌跡の平均値とユーザー音声の平滑化済み基本周波数時間軌跡の平均値を合わせるように、基本周波数時間軌跡を周波数軸方向に適宜シフトさせて調整し、上記の通り整形された時間軌跡を表示装置１２０の画面に表示させる。図３は実際の表示の一例を示し、白い軌跡がモデル音声の平滑化済み基本周波数時間軌跡、黒い軌跡がユーザー音声の平滑化済み基本周波数時間軌跡であり、これら軌跡とともに、画面上部に対応する中国語の文字の表示とルビ（読み方）の表示がなされている。
【００６２】
次に、基本周波数変換部１１１等による基本周波数変換音声作成の処理手順について説明する。この処理は、ユーザー音声の平滑化済み基本周波数時間軌跡Ｐｕ（ｔ）が得られていれば、上記の表示処理と平行して実行される。
【００６３】
まず、差分算出部１０９によりモデル音声データベース部１０１からモデル音声の平滑化済み基本周波数時間軌跡Ｐｍ（ｔ）を取得し、平滑化／補間部１０７によるユーザー音声の平滑化済み基本周波数時間軌跡Ｐｕ（ｔ）との差分（Ｐｍ（ｔ）−Ｐｕ（ｔ））を求める。しかしこの差分には、両者の平均的な声の高さの差も含まれている。そこで、差分算出部１０９によりさらに、Ｐｍ（ｔ）、Ｐｕ（ｔ）それぞれのフレーズ全体にわたる平均値Ｐｍav、Ｐｕavを求め、この差分を上記差分から減算してキャンセルすることで、純粋な基本周波数の時間変化の差分Ｐｄ（ｔ）＝（Ｐｍ（ｔ）−Ｐｕ（ｔ））−（Ｐｍav−Ｐｕav）を算出する。
【００６４】
次に、加算部１１０により、差分算出部１０９によって算出された差分Ｐｄ（ｔ）と平滑化される前のユーザー音声の基本周波数Ｐｏ（ｔ）とを加算して、最終的な変換音声の基本周波数の時間変化Ｐｏ（ｔ）＋Ｐｄ（ｔ）を得る。これにより、ユーザー音声の有声音区間の基本周波数を、時間的対応付けの結果により対応関係にあるモデル音声の有声音区間の基本周波数に入れ替えた合成音声が作成されたことになる。
【００６５】
このようにして、変換音声の基本周波数の時間変化、つまり、変換音声の基本周波数を求めることにより、例えばモデル音声が男性の声でユーザー音声が女性の声であっても、ユーザーの女性の声の高さで模範音声の韻律を持った音声を再生できるだけでなく、ユーザー音声の基本周波数の変化量が部分的に極端に大きくなることを防止でき、基本周波数変換を高品質に行うことができる。
【００６６】
すなわち、基本周波数変換部１１１（例えば、電子情報通信学会論文誌Ａ、Ｖｏｌ．Ｊ７３−ＡＮｏ．３，ｐｐ．３８７−３９６などの方法による）により、Ａ／Ｄ変換したユーザー音声波形の基本周期の変換（モデル音声の有声音区間の基本周波数に入れ替えた基本周波数の時間軌跡の平均的な値をユーザー音声の基本周波数の時間軌跡の平均的な値に合わせるように時間軌跡全体を周波数軸でシフトさせる）や個々の音の継続時間長の変換を加算部１１０による基本周波数の時間変化Ｐｏ（ｔ）＋Ｐｄ（ｔ）に従って逐次行ない、韻律をモデル音声のものに入れ替えた変換音声を生成し、Ｄ／Ａ変換した音声をスピーカ（図示せず）から出力する。
【００６７】
次に、モデル音声に対するユーザー音声の基本周波数時間軌跡に関する類似度判定の手順について説明する。この類似度判定処理は、上記基本周波数変換音声作成処理と並列して行なうことかできる。
【００６８】
差分算出部１０９により差分Ｐｄ（ｔ）が求められると、類似度判定部１１３により、この差分Ｐｄ（ｔ）＝（Ｐｍ（ｔ）−Ｐｕ（ｔ））−（Ｐｍav−Ｐｕav）について、例えばその自乗を次式（２）のようにフレーズ区間全体にわたって積分して得られる値Ｂを基準として、韻律の類似度を判定する。但し、（２）式においてＴはフレーズの時間長であり、無声区間や無音区間、あるいは修正部１０５により非表示と判定された区間など、基本周波数の時間軌跡が表示されない部分はＰｄ（ｔ）＝０として計算する。
【００６９】
【数２】

【００７０】
（２）式に従い求められた類似度の判定結果Ｂは、数値またはグラフなどによって、表示装置１２０の画面に表示される（図示せず）。
【００７１】
【発明の効果】
以上説明したように本発明に係る音声言語の韻律表示装置および記録媒体によれば、語学教育や音声言語の研究などにおいて、アクセント／イントネーションや個々の音の長さのバランスなどの所謂「韻律」のモデルとなる模範的な発声と同じ内容をユーザーが発声した場合に、その韻律の特徴をユーザー音声（学習者または研究者の入力音声）とモデル音声とを比較して視覚的に表示したり、ユーザー音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、学習者への語学教育や研究者の音声言語の研究を支援することができる。
【図面の簡単な説明】
【図１】本発明に係る音声言語の韻律表示装置の一実施例を示すブロック図である。
【図２】本発明による有声音区間の終端側において式（１）の値Ａが１以上になった場合の例を示す説明図である。
【図３】本発明に係る一実施例による表示装置の実際の表示例を示す説明図である。
【符号の説明】
１０１モデル音声データベース部
１０２Ａ／Ｄ変換部
１０３分析部
１０４時間的対応付け部
１０５修正部
１０６時間伸縮部
１０７平滑化／補間部
１０８表示データ生成部
１０９差分算出部
１１０加算部
１１１基本周波数変換部
１１２Ｄ／Ａ変換部
１１３類似度判定部

Claims

音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示装置であって、
前記入力音声の韻律を分析する分析手段と、
前記分析手段による分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正する手段であって、前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正手段と、
前記修正手段による修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示手段であって、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示手段と
を備えたことを特徴とする韻律表示装置。
請求項１において、
前記修正手段は、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、
前記表示手段は、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および／または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する
ことを特徴とする韻律表示装置。
請求項１において、
前記分析手段はさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、
前記修正手段は、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する
ことを特徴とする韻律表示装置。
請求項１において、
前記表示手段は、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とすることを特徴とする韻律表示装置。
音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示方法のプログラムを記憶した記憶媒体であって、
前記プログラムはコンピュータに、
前記入力音声の韻律を分析する分析ステップと、
前記分析ステップにおける分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正するステップであって、前記分析ステップで前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正ステップと、
前記修正ステップにおける修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示ステップであって、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示ステップと
を実行させることを特徴とする記録媒体。
請求項５において、
前記修正ステップにおいて、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、
前記表示ステップにおいて、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および／または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間することを特徴とする記録媒体。
請求項５において、
前記分析ステップにおいてさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、
前記修正ステップにおいて、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出することを特徴とする記録媒体。
請求項５において、
前記表示ステップにおいて、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とすることを特徴とする記録媒体。