JP3701850B2 - 音声言語の韻律表示装置および記録媒体 - Google Patents
音声言語の韻律表示装置および記録媒体 Download PDFInfo
- Publication number
- JP3701850B2 JP3701850B2 JP2000283480A JP2000283480A JP3701850B2 JP 3701850 B2 JP3701850 B2 JP 3701850B2 JP 2000283480 A JP2000283480 A JP 2000283480A JP 2000283480 A JP2000283480 A JP 2000283480A JP 3701850 B2 JP3701850 B2 JP 3701850B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- fundamental frequency
- speech
- prosody
- voiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004458 analytical method Methods 0.000 claims description 41
- 238000012937 correction Methods 0.000 claims description 32
- 230000001788 irregular Effects 0.000 claims description 19
- 230000002123 temporal effect Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 description 14
- 238000009499 grossing Methods 0.000 description 13
- 238000011160 research Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000008602 contraction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000010979 ruby Substances 0.000 description 2
- 229910001750 ruby Inorganic materials 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Landscapes
- Digital Computer Display Output (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は音声言語の韻律表示装置および記録媒体に関し、特に詳細には、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」を学習したり、分析したりする際の視覚的/聴覚的支援技術に用いられる音声言語の韻律表示装置および記録媒体に関する。
【0002】
【従来の技術】
従来、語学教育における韻律の学習法は、教師の模範発声を聴取後、学習者がこれを真似て発声し、教師が講評するという聴覚中心の学習であった。教師が同席せず、テープなどに録音された模範音声(モデル音声)のみを聴取する場合においては、学習者は自らの発声の良し悪しを判断する手段がなかった。
【0003】
そこで、近年コンピュータを使って、語学教育等における韻律の習得を支援する試み(特開平3−252700号公報、電子情報通信学会技術研究報告SP96−18など)が行われるようになってきた。このようにコンピュータを使うことによって、聴覚的のみならず、視覚的にも学習者を支援することが可能になる。これらには、音声学や音響学の分野で研究用に開発された計算機によるデジタル音声信号処理技術が応用されている。
【0004】
【発明が解決しようとする課題】
しかし、この種のデジタル音声信号処理技術においては、音声の録音条件が悪い場合、例えば環境騒音が大きい、マイクの使い方が不適切、発声の仕方が悪いなどの条件下では正しい処理が行えず、基本周波数の誤抽出などの誤動作が生じやすい。また、誤動作しない場合でも、研究用の詳細な分析結果をそのまま文字やグラフにしてコンピュータ画面に表示しても、そのユーザーである専門知識のない一般人にとっては、語学学習などの参考として分かりにくいなどの欠点があり、一般ユーザーにも分かりやすく提示する技術は現在まで実用化されていない。
【0005】
本発明は上記の事情に鑑み、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」を対象とした場合に、予めモデルとなる模範的な発声をコンピュータの記憶媒体に記憶しておき、これと同一内容をユーザーが発声した場合に、その韻律の特徴をユーザー音声とモデル音声とを比較して視覚的に表示したり、ユーザーの音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示することで、ユーザーへの語学教育や音声言語の研究を支援することのできる音声言語の韻律表示装置および記録媒体を提供することを目的としている。
【0006】
【課題を解決するための手段】
上記の目的を達成するために本発明の装置は、音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示装置であって、前記入力音声の韻律を分析する分析手段と、前記分析手段による分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正する手段であって、前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正手段と、前記修正手段による修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示手段であって、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示手段とを備えた形態を実施した。
【0007】
上記形態で、前記修正手段は、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、前記表示手段は、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する形態であって良い。
【0008】
上記形態で、前記分析手段はさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、前記修正手段は、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する形態であって良い。
【0009】
上記形態で、前記表示手段は、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とする形態であって良い。
【0010】
上記の目的を達成するために本発明の記憶媒体は、音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示方法のプログラムを記憶した記憶媒体であって、前記プログラムはコンピュータに、前記入力音声の韻律を分析する分析ステップと、前記分析ステップにおける分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正するステップであって、前記分析ステップで前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正ステップと、前記修正ステップにおける修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示ステップであって、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示ステップとを実行させる形態を実施した。
【0011】
上記形態で、前記修正ステップにおいて、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、前記表示ステップにおいて、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する形態であって良い。
【0012】
上記形態で、前記分析ステップにおいてさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、前記修正ステップにおいて、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する形態の記録媒体を実施した形態であって良い。
【0013】
上記形態で、前記表示ステップにおいて、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とする形態であって良い。
【0032】
上記の形態によれば、入力音声を発声する学習者または研究者がフレーズ内でモデル音声には無い間を入れたり、逆に間を挿入すべきところを連続に発声した場合にもスペクトル的不整合を回避して正しい時間的対応付けを行うことができる。
【0033】
上記の形態によれば、学習すべき韻律の特徴を単純化し、聴感的な音の高さの変化に対応して分かりやすく表示することができる。
【0034】
上記の形態によれば、学習者または研究者による入力音声の分析結果を修正して基本周波数の時間軌跡を表示することができる。
【0035】
上記の形態によれば、予めモデル音声の分析結果に対して、学習すべき韻律の特徴を分かりやすくするための修正を加えておくことにより、学習者または研究者の入力音声についてもそれに準拠した修正を加えた基本周波数の時間軌跡が表示できることになる。
【0036】
上記の形態によれば、韻律の学習を聴覚的に支援することができ、例えばモデル音声が男性の声で、学習者または研究者が女性であっても、正しい女性の声の高さで模範音声の韻律を持った音声を再生することができる。
【0037】
上記の形態によれば、学習者または研究者の入力音声の基本周波数の周波数変換を行うことができ、学習者または研究者の入力音声の基本周波数の変化量が部分的に極端に大きくなることを防止でき、基本周波数変換を高品質に行うことができる。
【0038】
上記の形態によれば、モデル音声に対する学習者の入力音声の韻律の類似度を客観的に算出し、学習者に自らの発声のうまさを知らせることができる。
【0039】
上記の形態によれば、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」のモデルとなる模範的な発声と同じ内容を学習者または研究者が発声した場合に、その韻律の特徴を学習者または研究者の音声とモデル音声とを比較して視覚的に表示したり、学習者または研究者の音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、学習者への語学教育や研究者の音声言語の研究を支援することを可能とする。
【0040】
【発明の実施の形態】
図1は本発明に係る音声言語の韻律表示装置の一実施例を示すブロック図である。
【0041】
100は上記各装置として動作するコンピュータ装置であり、CPU、主記憶装置としてのROM、補助記憶装置としてのHDD、FDD、CPUの作業エリアおよび一時的なデータ記憶領域としてのRAM、外部との音声データのやり取りに用いられるI/F等のハードウエアを備えた周知の構成の汎用コンピュータ、例えば、市販のパーソナルコンピュータやワークステーションを使用することができる。これらハードウエアは図示を省略し、CPUによる処理の流れを機能的ブロック図として示した。また、101はハードディスクアレー等のモデル音声データベース部、120は表示装置である。
【0042】
この図に示すコンピュータ装置100は、上記補助記憶装置または外部記憶装置(図示せず)等の本発明に係る記録媒体から音声言語の韻律表示方法、再生方法、類似度判定方法、または音声言語処理方法のプログラムをロードし、A/D変換部102、分析部103、時間的対応付け部104、修正部105、時間伸縮部106、平滑化/補間部107、表示データ生成部108、差分算出部109、加算部110、基本周波数変換部111、D/A変換部112、および類似度判定部113としての機能を遂行することができる。
【0043】
これら機能により、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」を対象とした場合に、予めモデルとなる模範的な発声がディスク記憶装置等に用意されていることを前提として、これと同じ内容をユーザー(学習者または研究者)が発声した場合に、その韻律の特徴をユーザー音声とモデル音声とを比較して視覚的に表示したり、ユーザーの音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、ユーザーへの語学教育や音声言語の研究を支援する手段を提供するものである。
【0044】
図1におけるモデル音声データベース部101は、例えば語学学習の場合、学習の基本となるフレーズを予めネイティブなアナウンサーなどが模範音声として発声したもの(以後、“モデル音声”と呼ぶ)を、その基本周波数およびパワーやルビの位置、及びその音声波形などとともにデータベース化してハードディスク等の記憶装置(図示せず)に記憶したものである。
【0045】
データベース化の際には、“モデル音声”に対して、例えばフレーム周期5msで有声/無声/無音の判定と基本周波数の抽出(例えば、電子情報通信学会論文誌A、Vol.J80−ANo.9,pp.1341−1350などの方法による)を行い、さらに手修正を加えた後、各有声音区間単位で基本周波数の平滑化(例えば、カットオフ周波数fc=6HzのLPF)を行って基本周波数の時間軌跡を求める。この際、例えば中国語では音節毎に第1声〜第4声および軽声のいずれかの音調がつくことを理解しやすくするため、実際には有声音が連続する場合でも、基本周波数の時間軌跡上で各音節の境界部分は非表示とし、切れ目を入れる修正を目視で加えてデータベース化することにより、学習者または研究者の理解を促進することができる。
【0046】
上記コンピュータ装置100の処理を概略的に説明すると、まず、ユーザーがD/A変換部112およびスピーカ(図示せず)を介してモデル音声を聴取したり、表示装置120の画面に表示されたモデル音声の基本周波数の時間軌跡を参考にして、モデル音声を真似て、コンピュータ装置100に接続されたマイクロホン(図示せず)に向かって発声(以後、“ユーザー音声”と呼ぶ)すると、A/D変換部102を介して“ユーザー音声”が音声波形としてコンピュータ装置100内に取り込まれる。取り込まれた音声波形は、その基本周波数の時間軌跡が自動的に表示装置120の画面に表示され、ユーザーは、自分が発声したものとモデル音声の基本周波数の時間軌跡との違いを視覚的に知ることができる。
【0047】
同時に、基本周波数変換部111により、ユーザー音声の声質を保ちながらモデル音声の韻律を持った、韻律変換された変換音声を生成する。したがってユーザーは、スピーカからの再生音によりユーザー音声とモデル音声を聞き比べるだけでなく、同じユーザー音声の声質の韻律変換前と韻律変換後の音声を聴覚的に聞き比べることもできる。さらに、類似度判定部113により、モデル音声に対するユーザー音声の基本周波数時間軌跡に関する類似度が判定され、判定結果が表示データ生成部108に出力され、表示データに従って表示装置120の画面に表示される。上記モデル音声データベース101とコンピュータ装置100を用いた本実施形態によれば、ユーザーに対し視覚的および聴覚的支援を実現して学習効果を高めることができる。
【0048】
以下、ユーザー音声の基本周波数時間軌跡を表示する処理手順について説明する。
コンピュータ装置100に取り込まれてA/D変換されたユーザー音声波形に対し、分析部103により、例えばフレーム周期5msで有声/無声/無音が判定され、基本周波数が抽出(例えば、電子情報通信学会論文誌A,J80−ANo.9,pp.1341−1350などの方法による)される。
【0049】
分析部103による上記処理の一方で、モデル音声データベース部101に予め記憶してある、モデル音声の音声波形、有声/無声/無音の情報、有声音区間内の非表示位置情報が時間的対応付け部104に取り込まれる。さらに時間的対応付け部104には、ユーザー音声波形と、分析部103により得られた有声/無声/無音の情報が取り込まれる。
【0050】
次に、時間的対応付け部104はこれらの情報を基に、モデル音声とユーザー音声の間で、LPCケプストラムによるDPマッチングを用いて、両者の音声波形の時間的対応付けを行なう。ところで、ユーザーは、フレーズ内でモデル音声には無い間を入れたり、逆に間を挿入すべきところを連続して発声することがある。このような発声に対してはスペクトル的に不整合が生じるため、時間的対応付けが正しく行われないことが多い。そこで、両者の音声の無音と判定されている区間を省いて(削除して)からDPマッチングを行って、両者の音声間の有声/無声の照合結果および有声音区間内の非表示位置の照合結果を生成する。時間的対応付け部104はまた、モデル音声に対するユーザー音声の時間伸縮情報を生成する。
【0051】
修正部105は、上記の照合結果と、分析部103によって一定の時間間隔でフレーム毎に得たユーザー音声の基本周波数とに従い以下の処理を行う。
【0052】
修正部105によってまず、一定の時間間隔のフレーム毎に得られたユーザー音声の基本周波数について、一連の有声音区間の両端のいくつかのフレームで抽出された基本周波数が乱れ、時間変化に対して不規則に変化している場合、その値は後に行なう平滑化/補間部107による平滑化のデータに含めないことにする。乱れていない場合には、滑らかに変化する基本周波数の時間軌跡を表示するために、平滑化/補間部107による平滑化処理をう。
【0053】
基本周波数の乱れの判定は、具体的には次式(1)に従って行なう。
【0054】
【数1】
【0055】
式(1)において、値Aが1以上になった場合には、以下のように平滑化/補間部107による補間の対象区間を決定する。
【0056】
例えば、図2に示すように有声音区間の終端(終了点)側において式(1)の値Aが1以上になった場合、このフレームより後の部分のフレーム(Aが1以上になったフレームを含む)のデータは平滑化のデータから除外し、除外したデータを、後に平滑化/補間部107によって補間の対象区間とする。図2は有声音区間の終端側について示したが、有声音区間の始端(開始点)側において式(1)の値Aが1以上になった場合は、このフレームより前の部分のフレーム(Aが1以上になったフレームを含む)のデータは平滑化のデータから除外し、除外したデータを、後に平滑化/補間部107によって補間の対象区間とする。
【0057】
なお、式(1)中の定数C1〜C3として、C1=0.2,C2=3.0,C3=200程度を用いると良い結果が得られる。
【0058】
続いて修正部105により、時間的対応付け部104によるDPマッチングの結果、モデル音声の有声部にユーザー音声の無声部が対応した場合、そのユーザー音声の区間についても、後の平滑化/補間部107による基本周波数の平滑化のデータから除外し、平滑化/補間部107による補間の対象区間とする。一方、時間的対応付け部104によるDPマッチングの結果、モデル音声の無声部にユーザー音声の有声部が対応した場合、その区間は基本周波数時間軌跡を非表示とするように修正する。
【0059】
さらに続いて修正部105により、時間的対応付け部104によるDPマッチングの結果、モデル音声の有声音区間でも基本周波数時間軌跡を非表示とした部分に対応するユーザー音声の区間について、同様に基本周波数時間軌跡を非表示とするように修正する。
【0060】
次に、上記の通りに修正されたユーザー音声の基本周波数は、時間伸縮部106により、前述の通り時間的対応付け部104によって生成された時間伸縮情報に従ってモデル音声に合わせ時間伸縮される。時間伸縮された基本周波数データPo(t)に対しては、平滑化/補間部107によって、有声音区間で、非表示区間にも補間対象区間にもなっていない部分について平滑化(例えば、カットオフ周波数fc=6HzのLPF)処理を行う。さらに平滑化/補間部107によって、この平滑化データを用い、修正部105によって前述の通りに補間対象区間とされている部分をその周辺の平滑化済み基本周波数時間軌跡の値から最小自乗法により補間し、ユーザー音声の平滑化済み基本周波数時間軌跡Pu(t)を生成する。
【0061】
最後に表示データ生成部108によって、モデル音声の平滑化済み基本周波数時間軌跡の平均値とユーザー音声の平滑化済み基本周波数時間軌跡の平均値を合わせるように、基本周波数時間軌跡を周波数軸方向に適宜シフトさせて調整し、上記の通り整形された時間軌跡を表示装置120の画面に表示させる。図3は実際の表示の一例を示し、白い軌跡がモデル音声の平滑化済み基本周波数時間軌跡、黒い軌跡がユーザー音声の平滑化済み基本周波数時間軌跡であり、これら軌跡とともに、画面上部に対応する中国語の文字の表示とルビ(読み方)の表示がなされている。
【0062】
次に、基本周波数変換部111等による基本周波数変換音声作成の処理手順について説明する。この処理は、ユーザー音声の平滑化済み基本周波数時間軌跡Pu(t)が得られていれば、上記の表示処理と平行して実行される。
【0063】
まず、差分算出部109によりモデル音声データベース部101からモデル音声の平滑化済み基本周波数時間軌跡Pm(t)を取得し、平滑化/補間部107によるユーザー音声の平滑化済み基本周波数時間軌跡Pu(t)との差分(Pm(t)−Pu(t))を求める。しかしこの差分には、両者の平均的な声の高さの差も含まれている。そこで、差分算出部109によりさらに、Pm(t)、Pu(t)それぞれのフレーズ全体にわたる平均値Pmav、Puavを求め、この差分を上記差分から減算してキャンセルすることで、純粋な基本周波数の時間変化の差分Pd(t)=(Pm(t)−Pu(t))−(Pmav−Puav)を算出する。
【0064】
次に、加算部110により、差分算出部109によって算出された差分Pd(t)と平滑化される前のユーザー音声の基本周波数Po(t)とを加算して、最終的な変換音声の基本周波数の時間変化Po(t)+Pd(t)を得る。これにより、ユーザー音声の有声音区間の基本周波数を、時間的対応付けの結果により対応関係にあるモデル音声の有声音区間の基本周波数に入れ替えた合成音声が作成されたことになる。
【0065】
このようにして、変換音声の基本周波数の時間変化、つまり、変換音声の基本周波数を求めることにより、例えばモデル音声が男性の声でユーザー音声が女性の声であっても、ユーザーの女性の声の高さで模範音声の韻律を持った音声を再生できるだけでなく、ユーザー音声の基本周波数の変化量が部分的に極端に大きくなることを防止でき、基本周波数変換を高品質に行うことができる。
【0066】
すなわち、基本周波数変換部111(例えば、電子情報通信学会論文誌A、Vol.J73−ANo.3,pp.387−396などの方法による)により、A/D変換したユーザー音声波形の基本周期の変換(モデル音声の有声音区間の基本周波数に入れ替えた基本周波数の時間軌跡の平均的な値をユーザー音声の基本周波数の時間軌跡の平均的な値に合わせるように時間軌跡全体を周波数軸でシフトさせる)や個々の音の継続時間長の変換を加算部110による基本周波数の時間変化Po(t)+Pd(t)に従って逐次行ない、韻律をモデル音声のものに入れ替えた変換音声を生成し、D/A変換した音声をスピーカ(図示せず)から出力する。
【0067】
次に、モデル音声に対するユーザー音声の基本周波数時間軌跡に関する類似度判定の手順について説明する。この類似度判定処理は、上記基本周波数変換音声作成処理と並列して行なうことかできる。
【0068】
差分算出部109により差分Pd(t)が求められると、類似度判定部113により、この差分Pd(t)=(Pm(t)−Pu(t))−(Pmav−Puav)について、例えばその自乗を次式(2)のようにフレーズ区間全体にわたって積分して得られる値Bを基準として、韻律の類似度を判定する。但し、(2)式においてTはフレーズの時間長であり、無声区間や無音区間、あるいは修正部105により非表示と判定された区間など、基本周波数の時間軌跡が表示されない部分はPd(t)=0として計算する。
【0069】
【数2】
【0070】
(2)式に従い求められた類似度の判定結果Bは、数値またはグラフなどによって、表示装置120の画面に表示される(図示せず)。
【0071】
【発明の効果】
以上説明したように本発明に係る音声言語の韻律表示装置および記録媒体によれば、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」のモデルとなる模範的な発声と同じ内容をユーザーが発声した場合に、その韻律の特徴をユーザー音声(学習者または研究者の入力音声)とモデル音声とを比較して視覚的に表示したり、ユーザー音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、学習者への語学教育や研究者の音声言語の研究を支援することができる。
【図面の簡単な説明】
【図1】 本発明に係る音声言語の韻律表示装置の一実施例を示すブロック図である。
【図2】本発明による有声音区間の終端側において式(1)の値Aが1以上になった場合の例を示す説明図である。
【図3】本発明に係る一実施例による表示装置の実際の表示例を示す説明図である。
【符号の説明】
101 モデル音声データベース部
102 A/D変換部
103 分析部
104 時間的対応付け部
105 修正部
106 時間伸縮部
107 平滑化/補間部
108 表示データ生成部
109 差分算出部
110 加算部
111 基本周波数変換部
112 D/A変換部
113 類似度判定部
Claims (8)
- 音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示装置であって、
前記入力音声の韻律を分析する分析手段と、
前記分析手段による分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正する手段であって、前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正手段と、
前記修正手段による修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示手段であって、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示手段と
を備えたことを特徴とする韻律表示装置。 - 請求項1において、
前記修正手段は、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、
前記表示手段は、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する
ことを特徴とする韻律表示装置。 - 請求項1において、
前記分析手段はさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、
前記修正手段は、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する
ことを特徴とする韻律表示装置。 - 請求項1において、
前記表示手段は、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とすることを特徴とする韻律表示装置。 - 音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示方法のプログラムを記憶した記憶媒体であって、
前記プログラムはコンピュータに、
前記入力音声の韻律を分析する分析ステップと、
前記分析ステップにおける分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正するステップであって、前記分析ステップで前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正ステップと、
前記修正ステップにおける修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示ステップであって、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示ステップと
を実行させることを特徴とする記録媒体。 - 請求項5において、
前記修正ステップにおいて、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、
前記表示ステップにおいて、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間することを特徴とする記録媒体。 - 請求項5において、
前記分析ステップにおいてさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、
前記修正ステップにおいて、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出することを特徴とする記録媒体。 - 請求項5において、
前記表示ステップにおいて、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とすることを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000283480A JP3701850B2 (ja) | 2000-09-19 | 2000-09-19 | 音声言語の韻律表示装置および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000283480A JP3701850B2 (ja) | 2000-09-19 | 2000-09-19 | 音声言語の韻律表示装置および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002091472A JP2002091472A (ja) | 2002-03-27 |
JP3701850B2 true JP3701850B2 (ja) | 2005-10-05 |
Family
ID=18767837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000283480A Expired - Lifetime JP3701850B2 (ja) | 2000-09-19 | 2000-09-19 | 音声言語の韻律表示装置および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3701850B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101027450B1 (ko) | 2002-04-15 | 2011-04-06 | 에포스 디벨롭먼트 리미티드 | 위치 결정 데이터를 얻기 위한 방법 및 시스템 |
FR2843479B1 (fr) * | 2002-08-07 | 2004-10-22 | Smart Inf Sa | Procede de calibrage d'audio-intonation |
US7346506B2 (en) * | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
JP4565846B2 (ja) * | 2004-01-08 | 2010-10-20 | ローランド株式会社 | ピッチ変換装置 |
CN104298371B (zh) | 2005-03-23 | 2018-06-15 | 高通股份有限公司 | 数字笔和数字笔*** |
JP2007017733A (ja) * | 2005-07-08 | 2007-01-25 | Sharp Corp | 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体 |
JP2007140200A (ja) * | 2005-11-18 | 2007-06-07 | Yamaha Corp | 語学学習装置およびプログラム |
JP4797597B2 (ja) * | 2005-11-24 | 2011-10-19 | ヤマハ株式会社 | 語学学習装置 |
NZ597258A (en) | 2007-03-14 | 2013-08-30 | Qualcomm Inc | An acoustic positioning system |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
WO2013046629A1 (ja) * | 2011-09-30 | 2013-04-04 | 旭化成株式会社 | 基本周波数抽出装置および基本周波数抽出方法 |
JP2015125203A (ja) * | 2013-12-26 | 2015-07-06 | カシオ計算機株式会社 | 音声出力装置及び音声出力プログラム |
JP2017015823A (ja) * | 2015-06-29 | 2017-01-19 | ブラザー工業株式会社 | 発話練習装置、表示制御方法、及びプログラム |
JP6900723B2 (ja) * | 2017-03-23 | 2021-07-07 | カシオ計算機株式会社 | 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム |
-
2000
- 2000-09-19 JP JP2000283480A patent/JP3701850B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002091472A (ja) | 2002-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Felps et al. | Foreign accent conversion in computer assisted pronunciation training | |
US8185395B2 (en) | Information transmission device | |
Kain et al. | Improving the intelligibility of dysarthric speech | |
JP4882899B2 (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
US7219059B2 (en) | Automatic pronunciation scoring for language learning | |
JP3701850B2 (ja) | 音声言語の韻律表示装置および記録媒体 | |
US20140088968A1 (en) | System and method for speech recognition using timbre vectors | |
US20090306987A1 (en) | Singing synthesis parameter data estimation system | |
KR20150024180A (ko) | 발음 교정 장치 및 방법 | |
WO2007148493A1 (ja) | 感情認識装置 | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2003186379A (ja) | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム | |
JP2019008120A (ja) | 声質変換システム、声質変換方法、及び声質変換プログラム | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
EP4379716A1 (en) | System and method of modulating animation curves | |
KR20150024295A (ko) | 발음 교정 장치 | |
KR20080018658A (ko) | 사용자 선택구간에 대한 음성비교 시스템 | |
RU2510954C2 (ru) | Способ переозвучивания аудиоматериалов и устройство для его осуществления | |
JP2003162291A (ja) | 語学学習装置 | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2844817B2 (ja) | 発声練習用音声合成方式 | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
Drioli et al. | Speaker adaptive voice source modeling with applications to speech coding and processing | |
JP2006139162A (ja) | 語学学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040914 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20041027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041115 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050708 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3701850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090722 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100722 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110722 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120722 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120722 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130722 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140722 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |