JP2011033789A

JP2011033789A - 適応的な話速変換装置及びプログラム

Info

Publication number: JP2011033789A
Application number: JP2009179254A
Authority: JP
Inventors: Toru Tsugi; 徹都木; Nobumasa Seiyama; 信正清山; Atsushi Imai; 篤今井; Reiko Tako; 礼子田高
Original assignee: Nippon Hoso Kyokai NHK; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2009-07-31
Filing date: 2009-07-31
Publication date: 2011-02-17
Anticipated expiration: 2029-07-31
Also published as: JP5412204B2

Abstract

【課題】入力信号の適応的話速変換を行う話速変換装置及びプログラムを提供する。
【解決手段】本発明の話速変換装置１は、入力信号を単位時間毎に分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部２と、物理指標算出部２によって算出した物理指標に応じて入力信号の各セグメントに指定すべき話速を決定して話速変換を行う話速変換倍率決定部３とを備える。本発明の一態様の話速変換装置１は、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度Ｕｎ、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度Ｓｎ、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比Ｅｎのうちの１つ以上の「物理指標」を用いて入力信号の各セグメントに指定すべき話速変換倍率αｎを決定して話速変換を行う。
【選択図】図１

Description

本発明は、入力信号の話速を変換する話速変換技術に関し、特に、入力信号の話速を適応的に変換する話速変換装置及びプログラムに関する。

従来から、入力信号の話速を適応的に変換する技術が幾つか提案されている（例えば、特許文献１〜特許文献６参照）。

適応的な話速変換に共通している目的は、１倍速（実時間で再生）や２倍速（実時間の半分の時間で再生）といった任意の再生速度変換倍率α［倍速］が与えられた場合に、入力信号全体にわたって一様な再生速度変換倍率αで速度を変えるのではなく、連続した入力信号の速度を部分的に再生速度変換倍率αより大きい倍率や小さい倍率で変えるようにすることであり、これにより話速変換音声の生成を行う。従って、入力信号全体としては一様な倍率αで話速変換したのと同じ時間で再生するように帳尻を合わせることができ、連続した入力信号を聞く者からすれば、一様な倍率αで話速変換した場合よりも「ゆっくりと聞き取りやすく」なる。

特許文献１の技術は、概ね次の３つの構成要素を含む。（１）入力信号のうちの基本周波数の高いところは話速を緩め、基本周波数の低いところでは話速を速める。（２）入力信号のうちの一息で発声された区間を単位として、音声の開始点では話速を緩め、音声の終了点に向かって基本周波数の変化に応じて徐々に話速を速める。（３）入力信号のうちの一息で発声された隣接区間の間にある無音区間を聴感上違和感のない範囲で短縮する。

また、特許文献２の技術は、入力信号のうちの一定以上長い無音区間をポーズ区間として設定し、このポーズ区間に挟まれた音声（フレーズ）区間について、その開始点で話速を緩めるとともに一定時間にわたって所定の減少関数に基づき話速を速くしていき、この一定時間の経過後の話速を緩める際に、各音声（フレーズ）区間における最大基本周波数の大小関係を考慮して話速を緩める率を変えるものである。

また、特許文献３の技術は、話速制御において、ポーズ区間に挟まれた音声区間内の短い無音区間に対しても聴感上違和感のない範囲で短縮することを許容するとともに、ブロック分割して話速変換した音声の或るブロックが、入力信号全体に対して一様な再生速度変換倍率αで話速変換した場合に想定される時刻に対して合致しているか、又はほとんど遅れていない場合に、次のブロックの話速をできるだけ緩めるように設定するものである。特に、特許文献３の技術は、話速変換した音声の或るブロックが、入力信号全体に対して一様な再生速度変換倍率αで話速変換した場合に想定される時刻に対して遅れている程度が大きい程、その後の話速を緩める度合いをより抑えるように制御するとともに、話速変換音声の各ブロックが、一様な再生速度変換倍率αで話速変換した場合に想定される時刻に対してできるだけずれることがないように制御する。

特許文献４，５の技術は、入力信号を音声区間と無音区間に分けるとともに、音声区間の話速は緩め、無音区間は短縮することを基本とするものである。ここで、音声区間の話速を緩めたことにより単位時間当たりの入力信号長に対して出力信号長が延びるため、一時的にメモリに話速変換後の音声を蓄積する必要が生じる。そこで、特許文献４，５の技術は、メモリの上限量に対して利用可能な残量に応じて、音声区間ごとに話速を徐々に速めていったり無音区間の削除量を増やしたりして全体の音声時間長を調整する。

特許文献６の技術は、所定期間ごとに分割した入力信号の話速を、各所定期間の音声データの大きさ（パワー）やピッチ（音声の高さ）の数値のｎ乗と反比例する係数によって決定するものである。

特許第３２４９５６７号明細書特許第３２１９８９２号明細書特許第３２２００４３号明細書特許第３３５７７４２号明細書特許第３３７３９３３号明細書特許第３６１９９４６号明細書

特許文献１〜５の技術に共通していることは、入力信号を、音声の有る音声区間と音声の無い無音区間に分け、音声区間では何らかの情報に基づいてその継続時間を部分的に伸縮するとともに無音区間の長さを短縮して、総合的に全体の音声時間長を調整することである。しかしながら、これらの技術は、人の声だけの入力信号の場合には有効に機能するが、放送番組などの背景音と音声が混合している入力信号の場合には、背景音だけの区間が、“無音区間”と判定されるか、或いは“音声区間”と判定されるかは保証の限りではない。誤判定が生じた場合に“無音区間”における短縮効果が得られず、結果的に音声区間の伸張率を大きくすることができず、聞きやすい話速変換音声とはならない。

特許文献６の技術に関して、入力信号の大きさ（パワー）は入力信号の全ての区間で求めることができるが、入力信号の基本周波数は、人の声帯が振動している“有声音区間”でしか正しく求めることができない。従って、特許文献６の技術に関しても、背景音と音声が混合している入力信号の場合、背景音だけの区間においては、パワーは大きく、基本周波数は正しく求めることができない区間であるため、本来音声ではない背景音だけの区間では話速を速めたいにも関わらず、パワーが大きいことからむしろ話速を緩めるように制御しうる。

このように、従来の技術においては、背景音と音声が混合している入力信号の場合のような、音声の有る音声区間と音声の無い無音区間の判定が正確に行われない入力信号に対して、適応的な話速変換が期待通りに動作しないという欠点があった。

本発明の目的は、背景音と音声が混合している入力信号の場合でも、適応的な話速変換を安定動作させることが可能な話速変換装置及びプログラムを提供することにある。

上記課題を解決するために、本発明の話速変換装置は、入力信号の適応的話速変換を行う話速変換装置であって、入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部と、前記物理指標算出部によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換の倍率を決定して話速変換を行う話速変換倍率決定部と、を備えることを特徴とする。

また、本発明の話速変換装置において、前記物理指標算出部は、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度を、前記物理指標として算出する有声度算出部を備えることを特徴とする。

また、本発明の話速変換装置において、前記物理指標算出部は、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度を、前記物理指標として算出する凹凸度算出部を備えることを特徴とする。

また、本発明の話速変換装置において、前記物理指標算出部は、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を、前記物理指標として算出する分割帯域パワー比演算部を備えることを特徴とする。

また、本発明の話速変換装置において、前記話速変換倍率決定部は、入力信号全体に対して速度変換すべき再生速度変換倍率が与えられた場合に、前記決定した話速変換倍率を前記再生速度変換倍率に適合するように微調整する話速変換倍率微調整部を備えることを特徴とする。

また、本発明の話速変換装置において、前記話速変換倍率決定部は、前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの１つ以上の物理指標を用いて当該入力信号の各セグメントに指定すべき話速変換倍率を決定する話速変換倍率微調整部を備えることを特徴とする。

また、本発明の話速変換装置において、前記話速変換倍率微調整部は、入力信号の種別に応じて前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの１つ以上の物理指標に基づく話速変換倍率の配分割り当てを行うことを特徴とする。

また、本発明は、入力信号の適応的話速変換を行う話速変換装置として構成するコンピュータに、入力信号を単位時間毎に分割した各セグメントについて、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比のうちの１つ以上の物理指標を算出するステップと、該ステップによって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行うステップと、を実行させるためのプログラムとしても特徴付けられる。

本発明によれば、入力信号の物理指標に基づき適応的な話速変換を行うため、従来技術では背景音と音声が混合している入力信号では“音声区間”と“無音区間"の判定が正確に行われない場合においても適応的な話速変換を行うことができ、即ち、背景音と音声が混合している入力信号に対しても、安定して、ゆっくり感を与える効果を高め、自然な聞こえとなる適応的話速変換が可能となる。

本発明による一実施例の話速変換装置のブロック図である。本発明による一実施例の話速変換装置の動作を示すフローチャートである。本発明による一実施例の話速変換装置における有声度算出部の動作説明図であり、（ａ）は入力信号の音声波形に対する窓関数を示す図であり、（ｂ）は、自己相関関数による有声度の算出を示す図である。本発明による一実施例の話速変換装置における基本周波数・擬似基本周波数凹凸算出部の動作説明図である。

以下、本発明による一実施例の話速変換装置を説明する。本実施例の話速変換装置は、本発明に係る要素を全て包含する態様であるが、幾つかの変形例があることは後述の説明から明らかになる。

[装置構成]
図１に、本発明による一実施例の話速変換装置のブロック図を示す。本実施例の話速変換装置１は、入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部２と、物理指標算出部２によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率αｎを決定して話速変換を行う話速変換倍率決定部３とを備え、これにより、入力信号の適応的話速変換を行う。尚、ｎは、入力信号を冒頭から、例えば５ｍｓ毎に区切った場合の何番目の位置かを示す整数値である。以後、単位時間あたりのセグメント（区間）として、この区切り間隔を５ｍｓとして説明する。

物理指標算出部２は、有声度算出部１００と、基本周波数・擬似基本周波数凹凸算出部２００と、凹凸度算出部２１０と、周波数帯域・パワー演算部３００と、分割帯域パワー比演算部３１０とを備える。基本周波数・擬似基本周波数凹凸算出部２００は、基本周波数抽出部２０２と、擬似基本周波数算出部２０４と、基本周波数軌跡連結部２０６とを有する。周波数帯域・パワー演算部３００は、スペクトル算出部３０２と、帯域分割部３０４と、パワー演算部３０６とを有する。

話速変換倍率決定部３は、第１話速変換倍率指定部（話速変換倍率指定部ａ）１２０と、第２話速変換倍率指定部（話速変換倍率指定部ｂ）２２０と、第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０と、話速変換倍率微調整部４００とを備える。

本実施例の話速変換装置１は、包括的には、入力信号における単位時間あたりの自己相関で得られる相対的な最大値（相対最大値）を表す“有声度”Ｕｎ、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す“凹凸度”Ｓｎ、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す“分割帯域パワー比”Ｅｎのうちの１つ以上の「物理指標」を用いて入力信号の各セグメントに指定すべき話速変換倍率αｎを決定して話速変換を行い、話速変換した出力信号を生成して出力する。

以下、物理指標の“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎに基づく入力信号に対する各区間の話速変換倍率の決定について順に説明する。尚、以下に述べる「話速変換倍率」とは、入力信号の単位時間当たりの音声区間に対する時間的な伸縮率の逆数に相当する。

まず、有声度Ｕｎによる話速変換倍率決定について図１及び図３を参照して説明する。図３は、本発明による一実施例の話速変換装置１における有声度算出部１００の動作説明図であり、（ａ）は入力信号の波形に対する窓関数を示す図であり、（ｂ）は、自己相関関数による有声度の算出を示す図である。

（有声度による話速変換倍率の決定）
有声度算出部１００は、入力信号の波形から、所定の単位時間ごとに分割した各セグメントに対して、各セグメントの開始からの時間遅れ量τと、τ＝０における自己相関関数Ｒ（τ）の基準値Ｒ（０）と、τ＞０における自己相関関数Ｒ（τ）の最大値Ｒ（τ）ｍａｘと、Ｒ（τ）ｍａｘを与えるτの値に応じて予め定めた重みＷ（τ）とで規定される有声度Ｕｎ＝Ｗ（τ）・Ｒ（τ）ｍａｘ／Ｒ（０）を、「物理指標」として算出する。より具体的には、有声度算出部１００は、例えば放送の音声及び背景音が混在した入力信号を所定の単位時間ごとに分割した各セグメント（ｎ番目の区間）に対して、入力信号の波形から自己相関関数Ｒ（τ）を求め、次に、τ＞０における自己相関関数Ｒ（τ）の最大値Ｒ（τ）ｍａｘを検出し、更に、τ＝０における自己相関関数Ｒ（τ）の基準値Ｒ（０）を算出し、Ｒ（τ）ｍａｘを与えるτの値に応じて予め定めた重みＷ（τ）を用いて、有声度Ｕｎ＝Ｗ（τ）・Ｒ（τ）ｍａｘ／Ｒ（０）を求める。但し、τはｎ番目の区間の開始からの時間遅れ量である。

例えば、図３（ａ）に示すように、入力信号の波形ｘ（ｋ）に対して窓関数（ハミング窓ｈ（ｋ））による重み付けを施し、入力信号の重み付けした波形ｘ’（ｋ）を抽出する。次に、図３（ｂ）に示すように、区間τにおける入力信号の波形ｘ’（ｋ）に対する自己相関関数Ｒ（τ）を計算する。これにより、τ＝０における自己相関関数Ｒ（τ）の基準値Ｒ（０）と重みＷ（τ）を用いて、有声度Ｕｎ＝Ｗ（τ）・Ｒ（τ）ｍａｘ／Ｒ（０）を求めることができる。

従って、有声度Ｕｎは、入力信号における単位時間あたりの自己相関で得られる相対最大値を表すものであるため、別の算出方法として、入力信号における単位時間（本例では、５ｍｓ）における入力信号の波形のゼロ交差の回数をカウントし、このカウント値の逆数を有声度Ｕｎとすることもできる。

次に、第１話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、有声度Ｕｎの値に応じて、有声度Ｕｎの値が所定の閾値よりも大きい場合には話速を緩め、有声度Ｕｎの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの音声区間に対する伸縮率を規定する話速変換倍率αａ_ｎを決定する。

例えば、有声度Ｕｎの値として上記の自己相関関数Ｒ（τ）を用いて算出した場合に、有声度Ｕｎは、入力信号の多くに対して、−０．２〜１．２程度の範囲の値をとることが分かった。そこで、有声度Ｕｎの値が取りうると想定される変動幅の半値Ｕｂ（例えば、Ｕｂ＝０．７）を規定し、有声度Ｕｎの値がこの範囲の中央値に相当する基準値Ｕａ（例えば、Ｕａ＝０．５）より大きい場合は話速を緩め（αａ_ｎ＜１．０）、有声度Ｕｎの値が所定の閾値Ｕａ（例えば、Ｕａ＝０．５）以下であれば話速を速める（αａ_ｎ≧１．０）とすると、式（１）のように表すことができる。

ここで、Ｋは、話速を緩めたり速めたりする幅を決める規準値となる定数であり、例えば、予め定めた最も遅い話速変換倍率に相当する伸縮率を与える定数としてＫ＝１．４とすることができる。また、Ｒａは、有声度Ｕｎによって指定される話速変換倍率αａ_ｎに対する寄与率であり、物理指標の“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎに基づいて話速変換倍率の割り当てを決定する際の割り当ての度合いを表す。

上記のように、物理指標の“有声度”Ｕｎによって、入力信号の単位時間ごとに話速変換倍率αａ_ｎを決定することができる。

次に、凹凸度による話速変換倍率の決定について図１及び図４を参照して説明する。図４に、本発明による一実施例の話速変換装置における基本周波数・擬似基本周波数凹凸算出部２００の動作説明図を示す。

（凹凸度による話速変換倍率の決定）
基本周波数抽出部２０２は、入力信号に対して、単位時間（本例では、５ｍｓ）毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする領域を「安定区間」として決定するとともに、各安定区間の間の領域を「不安定区間」として決定し、各安定区間内の基本周波数を特定するとともに、各安定区間の基本周波数がさらにより滑らかな軌跡となるように、各安定区間の基本周波数からなる軌跡の平滑化を行う。この平滑化のために、カットオフ周波数３〜６Ｈｚ程度のローパスフィルタを用いて行うのが好適である。尚、単位時間あたり（本例では、５ｍｓ）毎に基本周波数を抽出する技法は任意の既知の技法を用いることができる（例えば、特許第３２１９８６８号明細書を参照）。

更に、基本周波数抽出部２０２は、安定区間及び／又は不安定区間の情報、及び安定区間の平滑化した軌跡の基本周波数の値を、擬似基本周波数算出部２０４及び基本周波数軌跡連結部２０６に出力する。

尚、基本周波数抽出部２０２は、抽出される基本周波数の値が安定せず不連続で変化が激しいことを意味する「不安定区間」の各基本周波数の値は全て棄却する。

擬似基本周波数算出部２０４は、基本周波数抽出部２０２から供給される安定区間の平滑化した軌跡の基本周波数の各値を用いて、スプライン関数などの補間関数で補間して、不安定区間における擬似的な基本周波数（擬似基本周波数）の値を決定し、基本周波数軌跡連結部２０６に出力する。尚、処理対象の入力信号の開始部分及び終了部分は音声区間ではないことが多いため擬似基本周波数を求める不安定区間となる。その場合、これらの区間をスプライン関数で補間する場合には、開始点又は終了点に規定値（例えば音声の基本周波数としては殆どあり得ない低い値である３０Ｈｚ）を設定し、一方の安定区間内の基本周波数の各値を用いてスプライン関数で補間する。

基本周波数軌跡連結部２０６は、基本周波数抽出部２０２から供給される安定区間の平滑化した軌跡の基本周波数の値と、擬似基本周波数算出部２０４から供給される不安定区間の擬似基本周波数の値とを連結して、処理対象の入力信号の全ての区間（本例では、５ｍｓごと）の基本周波数及び擬似基本周波数からなる連続な軌跡（以下、「基本周波数軌跡」と称する）を求め、基本周波数軌跡を構成する単位時間毎の基本周波数の各値を凹凸度算出部２１０に送出する。

凹凸度算出部２１０は、入力信号に対して、単位時間毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする領域の安定区間の基本周波数の値及び／又は各安定区間の間の領域の不安定区間の擬似基本周波数の値で規定される平滑化した基本周波数軌跡について、該基本周波数軌跡の変化傾向を表す凹凸度を、「物理指標」として算出する。より具体的には、凹凸度算出部２１０は、基本周波数軌跡を構成する単位時間（本例では、５ｍｓごと）毎の基本周波数の或る値Ｐｎに対して、それぞれ所定時間前の値（例えば、値Ｐｎの時刻−３０ｍｓにおける値）Ｐ１と、所定時間後の値（例えば、値Ｐｎの時刻＋３０ｍｓにおける値）Ｐ２をサンプリングして、前側差分値（Ｐｎ−Ｐ１）と後側差分値（Ｐｎ−Ｐ２）との平均値を処理対象の入力信号の全ての区間にわたって求め、全ての区間における、この平均値の各々をこれらの平均値のうちの最大値で除算して正規化し、この正規化した各平均値を基本周波数軌跡の変化傾向を表す“凹凸度”Ｓｎとして算出し、算出した凹凸度Ｓｎを第２話速変換倍率指定部（話速変換倍率指定部ｂ）２２０に送出する。

例えば、基本周波数軌跡が平坦、又は単調増加や単調減少の区間では、凹凸度Ｓｎは０に近い値となる。尚、全ての凹凸度Ｓｎのうち、その絶対値が最も大きな値を使って正規化するため、基本周波数軌跡の変化傾向を表す凹凸度Ｓｎの各値は、−１〜１となる。

第２話速変換倍率指定部（話速変換倍率指定部ｂ）２２０は、凹凸度算出部２１０から供給される単位時間（本例では、５ｍｓごと）の凹凸度Ｓｎの各値に応じて、凹凸度Ｓｎの値が正の場合には話速を緩め、凹凸度Ｓｎの値が負の場合には話速を速めるように、入力信号の単位時間当たりの音声区間に対する伸縮率を規定する話速変換倍率αｂ_ｎを決定する。即ち、この基本周波数軌跡において、山状に凸（極大）になっている部分では話速を緩め、谷状（極小）になっている部分では話速を速める。

例えば、話速変換倍率αｂ_ｎは、式（２）のように表すことができる。

ここで、Ｋは式（１）と同様であり、Ｒｂは凹凸度Ｓｎによって指定される話速変換倍率αｂ_ｎに対する寄与率であり、物理指標の“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎに基づいて話速変換倍率の割り当てを決定する際の割り当ての度合いを表す。

上記のように、物理指標の“凹凸度” Ｓｎによって、入力信号の単位時間ごとに話速変換倍率αｂ_ｎを決定することができる。

次に、周波数帯域分割・パワー演算部３００における分割帯域パワー比Ｅｎによる話速変換倍率決定について説明する。

（分割帯域パワー比による話速変換倍率決定）
スペクトル算出部３０２は、入力信号に対して単位時間（本例では、５ｍｓ）毎に、ＦＦＴ（Fast Fourier transform）などによって時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトルをｄＢ値で求めて帯域分割部３０４に送出する。

帯域分割部３０４は、スペクトル算出部３０２から供給される対数化パワースペクトルを予め定めた複数の周波数帯域に分割し、帯域分割した各周波数帯域の対数化パワースペクトルの値をパワー演算部３０６に送出する。例えば、５分割する場合には、Ｂ１：０〜３００Ｈｚ，Ｂ２：３００〜１５００Ｈｚ，Ｂ３：１５００〜３０００Ｈｚ，Ｂ４：３０００〜８０００Ｈｚ，Ｂ５：８０００Ｈｚ以上といった具合に分割することができる。尚、単に２分割としてもよいことに留意する。

パワー演算部３０６は、帯域分割部３０４から供給される帯域分割した各周波数帯域の対数化パワースペクトルの値について、任意に予め選定した低い側の帯域及び高い側の帯域における各帯域の正規化したパワー成分を求め、これらの正規化した低域側パワー成分と高域側パワー成分を分割帯域パワー比演算部３１０に送出する。正規化したパワー成分は、低域側及び高域側の各帯域に含まれるパワースペクトルの本数だけ各パワースペクトルの値を合計し、その後その本数で除することで求めることができる。例えば、前述のように５分割する場合に、低い側の帯域としてＢ２、高い側の帯域としてＢ４を予め選定したとする。この場合、低い側の帯域Ｂ２と高い側の帯域Ｂ４のそれぞれの正規化したパワー成分を分割帯域パワー比演算部３１０に出力する。

分割帯域パワー比演算部３１０は、入力信号に対して帯域分割した各周波数帯域の対数化パワースペクトルの値について、任意に予め選定される低帯域側パワー成分と高帯域側パワー成分との比率（分割帯域パワー比Ｅｎ）を、「物理指標」として算出する。より具体的には、分割帯域パワー比演算部３１０は、パワー演算部３０６から供給される正規化した低域側のパワー成分及び高域側のパワー成分の比率（分割帯域パワー比Ｅｎ）を算出して第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０に送出する。尚、パワー演算部３０６から供給される正規化した低域側のパワー成分及び高域側のパワー成分がすでに対数値（ｄＢ）で表わされている場合には、これらの対数値の差として、低域側の正規化パワーから高域側の正規化パワーを減じて分割帯域パワー比Ｅｎを求めることができる。

第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０は、分割帯域パワー比Ｅｎの値に応じて、分割帯域パワー比Ｅｎの値が所定の閾値よりも大きい場合には話速を緩め、分割帯域パワー比Ｅｎの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの音声区間に対する伸縮率を規定する話速変換倍率αｃ_ｎを決定する。

例えば、分割帯域パワー比Ｅｎは、入力信号の多くに対して、１０［ｄＢ］〜４０［ｄＢ］程度の範囲の値をとることが分かった。そこで、第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０は、入力信号が取りうると想定される変動幅の半値Ｅｂ（例えば、Ｅｂ＝１５）を規定し、この想定される範囲の中央値に相当する基準値Ｅａ（例えば、Ｅａ＝２５）を規定することにより、分割帯域パワー比ＥｎがＥａ＝２５［ｄＢ］より大きい場合は話速を緩め、分割帯域パワー比ＥｎがＥａ＝２５［ｄＢ］以下であれば話速を速めるように、式（３）のように規定される。

ここで、Ｋは式（１）と同様であり、Ｒｃは分割帯域パワー比Ｅｎによって指定される話速変換倍率αｃ_ｎに対する寄与率であり、上述した物理指標の“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎに基づいて話速変換倍率の割り当てを決定する際の割り当ての度合いを表す。

上記のように、物理指標の“分割帯域パワー比” Ｅｎによって、入力信号の単位時間ごとに話速変換倍率αｃ_ｎを決定することができる。

上述したように、本実施例の話速変換装置１は、“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎのうちの１つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定することにより話速変換を行う。

（高度化した適応的な話速変換）
本実施例の話速変換装置１は、適応的な話速変換を実現するために、“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎのうちの１つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定するための話速変換倍率微調整部４００を備える。

話速変換倍率微調整部４００は、第１話速変換倍率指定部（話速変換倍率指定部ａ）１２０によって決定した話速変換倍率αａ_ｎと、第２話速変換倍率指定部（話速変換倍率指定部ｂ）２２０によって決定した話速変換倍率αｂ_ｎと、第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０によって決定した話速変換倍率αｃ_ｎとをそれぞれ入力し、予め設定される入力信号の種別（例えば、番組のジャンル）に応じた配分率で配分割り当てを行った各話速変換倍率αａ_ｎ，αｂ_ｎ，αｃ_ｎの値を加算し、加算して得られる話速変換倍率αｎ（αｎ＝αａ_ｎ＋αｂ_ｎ＋αｃ_ｎ）によって入力信号における単位時間毎の話速変換を行う。

例えば、各話速変換倍率αａ_ｎ，αｂ_ｎ，αｃ_ｎの値における配分割り当てのために、式（１）〜式（３）の寄与率Ｒａ，Ｒｂ，Ｒｃの各値を変更する。例えば入力信号が放送番組の音声の場合、放送番組のジャンル（ニュース、ドキュメンタリー、ドラマ、バラエティ、落語、漫才等）に応じて、寄与率Ｒａ，Ｒｂ，Ｒｃの分配率を変えることにより配分割り当てを行うことができる。これにより、放送番組のジャンルに応じて、聞きやすさ及び自然さの観点で、より高品質な適応的話速変換が可能となる。例えば、入力信号がニュースの音声の場合には寄与率Ｒａ＝０．５，Ｒｂ＝０．３，Ｒｃ＝０．２、入力信号が落語や漫才の場合には寄与率Ｒａ＝０．２，Ｒｂ＝０．６，Ｒｃ＝０．２などに割り当てることができる。

また、“凹凸度”Ｓｎに基づいて、即ち“音声全体にわたって平滑化された基本周波数又は擬似基本周波数の軌跡の凹凸の状態”に基づいて話速を決定する場合、ハードディスクレコーダなどに一度記録した放送番組の音声を視聴する際に適用することができるが、リアルタイムの放送番組視聴のような場合に適用するのは好ましくない。そこで、リアルタイムの視聴のような場合、例えば話速変換装置１における入力から出力までの遅延が１００ｍｓ未満といった要求条件がある場合、“凹凸度”Ｓｎによって決定される話速αｂ_ｎの寄与率Ｒｂを、Ｒｂ＝０とすることができる。このように、本実施例の話速変換装置１は、入力信号の種別に応じた配分率で話速の配分割り当てを行うことにより、高度な適応的話速変換を行うことができるようになる。

また、話速変換倍率微調整部４００は、入力信号全体に対して速度変換すべき再生速度変換倍率α［倍速］が与えられた場合に、入力信号の先頭から単位時間（本例では、５ｍｓ）おきに数えてｎ番目に与える話速変換倍率αｎ（αｎ＝αａ_ｎ＋αｂ_ｎ＋αｃ_ｎ）を再生速度変換倍率α［倍速］に適合する信号長に微調整する機能を有する。

例えば、話速微調整部４００は、入力信号全体の長さをＬ［秒］とした時、信号波形全体に任意の再生速度変換倍率α［倍速］が与えられた場合に、話速変換後の信号全体の長さをＬ／α［秒］にするために、話速変換倍率αｎを連接した話速変換後の信号全体の長さＬ０［秒］を算出し、以下の式（４）に従って再生速度変換倍率α［倍速］に適合する信号長に微調整する。

αｎ＝（αａ_ｎ＋αｂ_ｎ＋αｃ_ｎ）×Ｌ０／（Ｌ／α）（４）

尚、再生速度変換倍率αとしては、０．５〜５．０などの任意の値を設定することができる。

即ち、話速変換倍率微調整部４００は、式（４）によって、単位時間毎の話速変換倍率αｎを求め直し、話速変換することで微調整し、変換後の信号波形の長さを所定の長さに合わせることができる。

更に、できるだけ頻繁にα［倍速］で一様に変換した音声と同じタイミングに合わせ込みたい場合は、入力信号全体の長さＬではなく、これをより短い単位で分割した信号の長さに対して微調整を行うようにαｎを修正することもできる。例えば、入力信号全体の長さＬ＝Ｌ_１＋Ｌ_２＋・・・＋Ｌ_ＭのようにＭ個に分割して、Ｌ_１，Ｌ_２，・・・，Ｌ_Ｍの区間ごとに入力信号波形を分割し、それぞれの分割区間において、ｍ番目の区間では、先ずその区間の５ｍｓごとの各部分の話速変換倍率αｎ＝αａ_ｎ＋αｂ_ｎ＋αｃ_ｎを用いてこのｍ番目の区間の話速変換を行って連接し、連接した変換後の信号波形の部分長Ｌ_ｍ０をまず算出する。これにより、式（４）において、入力信号全体の長さＬの代わりに、信号波形の部分長Ｌ_ｍを適用し、連接した変換後の信号波形長Ｌ０の代わりに連接した変換後の信号波形の部分長Ｌ_ｍ０を適用することで、各話速変換倍率αｎを再度求め直して微調整を行って話速変換を行う。

尚、話速変換倍率αｎが与えられた場合の、話速変換（波形の伸縮）の手法は、様々な手法がすでに提案されている。例えば、声の高さ（基本周波数）を保つ方法として、ＰＩＣＯＬＡ（Pointer Interval Controlled OverLap and Add）法、ＴＤＨＳ（Time Domain Harmonic Scaling）法、ＰＳＯＬＡ（Pitch Synchronous OverLap Add）法などがあり、これ以外にも、特許第２６１２８６８号明細書、特許第３０８３８３０号明細書、特許第２９５５２４７号明細書に開示される波形伸縮法があり、いずれの波形伸縮法を用いてもよい。

本実施例の話速変換装置１の高度化した適応的な話速変換の動作について、図２を参照して説明する。図２は、本発明による一実施例の話速変換装置の動作を示すフローチャートである。

ステップＳ１にて、話速変換装置１は、話速調整する信号を入力するとともに、話速調整に必要とされるパラメータ（入力信号の種別によって規定可能な寄与率Ｒａ，Ｒｂ，Ｒｃ、再生速度変換倍率α）を入力する。入力信号は、有声度算出部１００、基本周波数抽出部２０２、及びスペクトル算出部３０２に入力される。寄与率Ｒａ，Ｒｂ，Ｒｃは、それぞれ第１話速変換倍率指定部（話速変換倍率指定部ａ）１２０、第２話速変換倍率指定部（話速変換倍率指定部ｂ）２２０、及び、第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０に設定される。再生速度変換倍率αは、話速変換倍率微調整部４００に設定される。

まず、話速変換装置１は、有声度算出部１００により、入力信号の所定の単位時間ごとに分割したｎ番目の区間に対して上述のように有声度Ｕｎを求め（ステップＳ２）、第１話速変換倍率指定部（話速変換倍率指定部ａ）１２０により、有声度Ｕｎの値に応じて、有声度Ｕｎの値が所定の閾値よりも大きい場合には話速を緩め、有声度Ｕｎの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの信号波形に対する伸縮率を規定する話速変換倍率αａｎを決定する（ステップＳ３）。

更に、話速変換装置１は、基本周波数抽出部２０２により、入力信号に対して、単位時間毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする「安定区間」と、各安定区間の間の領域を「不安定区間」としてセグメント分割し、各安定区間内の基本周波数を特定するとともに、各安定区間の基本周波数からなる軌跡の平滑化を行って「安定区間」の基本周波数を決定し、更に「不安定区間」の各基本周波数の値は全て棄却する（ステップＳ４，Ｓ５）。

続いて、話速変換装置１は、擬似基本周波数算出部２０４により、基本周波数抽出部２０２から供給される安定区間の平滑化した軌跡の基本周波数の各値を用いて、スプライン関数などの補間関数で補間して、不安定区間における擬似基本周波数の値を決定し、不安定区間における元の基本周波数の値を擬似基本周波数の値に変換（置換）する（ステップＳ６）。

続いて、話速変換装置１は、基本周波数軌跡連結部２０６により、基本周波数抽出部２０２から供給される安定区間の平滑化した軌跡の基本周波数の値と、擬似基本周波数算出部２０４から供給される不安定区間の擬似基本周波数の値とを連結して、処理対象の入力信号の全ての区間の基本周波数及び擬似基本周波数からなる連続な軌跡となる基本周波数軌跡を求める（ステップＳ７）。

続いて、話速変換装置１は、凹凸度算出部２１０により、基本周波数軌跡を構成する単位時間毎の基本周波数の或る値Ｐｎに対して、それぞれ所定時間前の値Ｐ１と、所定時間後の値Ｐ２をサンプリングして、前側差分値（Ｐｎ−Ｐ１）と後側差分値（Ｐｎ−Ｐ２）との平均値を処理対象の入力信号の全ての区間にわたって求め、全ての区間における、この平均値の各々をこれらの平均値のうちの最大値で除算して正規化し、この正規化した各平均値を基本周波数軌跡の変化傾向を表す“凹凸度”Ｓｎとして算出する（ステップＳ８）。

続いて、話速変換装置１は、第２話速変換倍率指定部（話速変換倍率指定部ｂ）２２０により、凹凸度算出部２１０から供給される単位時間の凹凸度Ｓｎの各値に応じて、凹凸度Ｓｎの値が正の場合には話速を緩め、凹凸度Ｓｎの値が負の場合には話速を速めるように、入力信号の単位時間当たりの信号波形に対する伸縮率を規定する話速変換倍率αｂｎを決定する（ステップＳ９）。

更に、話速変換装置１は、スペクトル算出部３０２により、入力信号に対して単位時間毎に時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトルからなるスペクトル分布を算出する（ステップＳ１０）。

続いて、話速変換装置１は、帯域分割部３０４により、スペクトル算出部３０２から供給される対数化パワースペクトルを予め定めた規定数の周波数帯域に分割する（ステップＳ１１）。

続いて、話速変換装置１は、パワー演算部３０６により、帯域分割部３０４から供給される帯域分割した各周波数帯域の対数化パワースペクトルの値について、任意に予め選定した低帯域側及び高帯域側における各正規化したパワー成分を求める（ステップＳ１２）。

続いて、話速変換装置１は、分割帯域パワー比演算部３１０により、パワー演算部３０６から供給される正規化した低域側のパワー成分を、同じく正規化した高域側のパワー成分で除した比率である“分割帯域パワー比”Ｅｎを算出する（ステップＳ１３）。

続いて、話速変換装置１は、第３話速変換倍率指定部（話速変換倍率指定部ｃ）３２０により、分割帯域パワー比Ｅｎの値に応じて、分割帯域パワー比Ｅｎの値が所定の閾値よりも大きい場合には話速を緩め、分割帯域パワー比Ｅｎの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの信号波形に対する伸縮率を規定する話速変換倍率αｃｎを決定する（ステップＳ１４）。

最終的に、話速変換装置１は、話速変換倍率微調整部４００により、物理指標の“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎのうちの少なくとも１つ以上に基づく入力信号に対する各区間の話速変換倍率の決定に対して、再生速度変換倍率αに従って最終話速変換倍率のための配分割り当てを決定し、入力信号に対する話速変換を行う（ステップＳ１５）。

従って、本実施例の話速変換装置１によれば、入力信号波形に対して、その周期性の強さを示す“有声度” Ｕｎに応じて、話速変換倍率αｎを適応制御することができる。有声度Ｕｎの物理指標は、入力信号の全ての位置で求めることができる。また背景音が混入している場合にも有声度Ｕｎの物理指標を求めることができ、安定した話速変換を実現することができる。

通常、音声の母音部は有声度Ｕｎが高い。また、完全な無音部や、一般的に様々な音の周波数成分が混合した音楽や雑音などの背景音は有声度が低い。従って、本実施例の話速変換装置１によれば、有声度Ｕｎが高いところで話速を緩め、有声度Ｕｎが低いところでは話速を速めることができるので、背景音が混合している入力信号の場合においても、音声の聞き取りに重要な部分である母音部では話速が緩められ、完全な無音部や背景音だけの部分は話速が速められる。更に、全体として目的の時間長に合わせながら、適応的な話速変換が可能である。特に、実際の人の発声において、話速が遅い場合と速い場合を比較すると、主に母音部が伸縮することが分かっている（例えば、電子情報通信学会論文誌（Ａ），Ｖｏｌ．Ｊ６７−Ａ，Ｎｏ．７，１９８４年７月発行、ｐｐ．６２９−６３６）。従って、本実施例の話速変換装置１によれば、有声度Ｕｎに応じて話速変換するために、自然な聞こえの適応的話速変換が期待できる。

更に、本実施例の話速変換装置１によれば、入力された音声波形に対して、“音声全体にわたって平滑化された基本周波数又は擬似基本周波数の基本周波数軌跡の凹凸の状態”である“凹凸度”Ｓｎに応じて、話速変換倍率αｎを適応制御することができる。従って、本実施例の話速変換装置１によれば、基本的には山状に凸になっている基本周波数軌跡の区間では話速を緩め、谷状に凹になっている基本周波数軌跡の区間では話速を速めることができるので、安定的に全体として目的の時間長に合わせながら、適応的な話速変換が可能となる。

これは、特許文献１の技術のような「基本周波数の高いところは話速を緩め、低いところでは話速を速める」とする方式とは異なる。前述のように、音声の母音部など（有声音部分）では基本周波数を正確に求めることができるが、それ以外の背景音などの部分では安定して基本周波数を求めることができない。そこで、本実施例の話速変換装置１は、抽出される基本周波数の値が安定してほぼ連続的な変化をする安定区間では、話速変換倍率決定に用いる基本周波数として利用し、さらに、話速変換倍率決定に用いる基本周波数の軌跡がより滑らかになるように基本周波数の軌跡の平滑化を行う。

また、本実施例の話速変換装置１は、抽出される基本周波数の値が安定せず、不連続で変化が激しい不安定区間では、この不安定区間の基本周波数の値を全て棄却し、安定区間の基本周波数の値を用いてスプライン関数などで補間することによって擬似基本周波数を求める。これにより、本実施例の話速変換装置１によれば、入力信号全ての区間において基本周波数又は擬似基本周波数からなる連続的な基本周波数軌跡を得ることができる。本実施例の話速変換装置１によれば、この基本周波数軌跡において、山状に凸（極大）になっている部分では話速を緩め、谷状（極小）になっている部分では話速を速めるため、安定的に、全体として目的の時間長に合わせながら、適応的な話速変換が可能となる。

更に、本実施例の話速変換装置１は、特許文献１の技術のような「基本周波数の高いところは話速を緩め、低いところでは話速を速める」とするやり方よりも有利な点がある。例えば、男女のコンビによる漫才などの入力信号は、男女の音声区間がほとんどポーズのない状態で激しく入れ替わる混合音声区間からなる。このような入力信号に対して、特許文献１のような「基本周波数の高いところは話速を緩め、低いところでは話速を速める」やり方では、女性の声は高いためいつも女性の声の音声に対しては話速を緩め、一方男性の声は低いため男性の声の音声に対しては話速をいつも速くするという傾向が生じてしまう。これに対して、本実施例の話速変換装置１は、平滑化された基本周波数又は擬似基本周波数の基本周波数軌跡において、発声のアクセントなどに付随して、女性の声の部分でも、男性の声の部分でも、必ず凹凸が生じるため、男女の発声の違いに関わらず、基本周波数軌跡の凸の部分は話速を緩め、基本周波数軌跡の凹の部分は話速を速めることができ、男女両者に公平な配分で話速の適応的な制御が可能である。

更に、本実施例の話速変換装置１は、入力信号波形に対して、“周波数スペクトルを複数の帯域に分割した場合のある２つの帯域の低帯域側を高帯域側で除したパワー成分の比”である“分割帯域パワー比”Ｅｎに応じて、話速変換倍率を適応制御することができる。特許文献４及び特許文献５の技術のような「定常状態における周波数スペクトルの複数の帯域と入力信号の周波数スペクトルの対応する各帯域のパワーを比較することにより、入力信号が“音声区間”であるか、又は“無音区間”であるかを判別する」ものとは相違して、本実施例の話速変換装置１は、“周波数スペクトルを複数の帯域に分割した場合のある２つの帯域の低帯域側を高帯域側で除したパワー成分の比”である“分割帯域パワー比”Ｅｎを利用する。この“分割帯域パワー比”Ｅｎは、定常状態におけるスペクトルのパワーと比較するのではなく、入力信号のある瞬間の周波数スペクトルだけを対象としており、ある瞬間の周波数スペクトルを帯域分割し、帯域分割した各周波数スペクトルのうちのある２つの帯域の低帯域側を高帯域側で除したパワー比を求めるものである。

本実施例の話速変換装置１は、特許文献４及び特許文献５の技術のような「入力信号を音声区間と無音区間に分けるとともに、音声区間の話速は緩め、無音区間は短縮する」とするやり方よりも有利な点がある。

例えば特許文献４及び特許文献５の技術で、ある程度大きな音量の音楽などが背景音として混入している入力信号に対して“音声区間”であるか、又は“無音区間”であるかの判別を行った場合、先に述べたように、正しく“音声区間”と“無音区間”を判別することが困難であり、適応的な話速変換を行うことができない。一方、本実施例の話速変換装置１は、入力信号のある瞬間の周波数スペクトルだけを対象としており、ある瞬間の周波数スペクトルを帯域分割し、帯域分割した各周波数スペクトルのうちのある２つの帯域の低帯域側を高帯域側で除した“分割帯域パワー比”Ｅｎに基づき話速変換倍率を決定するものであるから、本質的に判定誤りというものは存在せず、安定して話速の制御を行うことができる。例えば、低帯域側のパワー成分に対して高帯域側のパワー成分が小さいときは話速を緩め、低帯域側のパワー成分に対して高帯域側のパワー成分が大きいときは話速を速めることができる。つまり、この“分割帯域パワー比”Ｅｎは、入力信号において、音声区間、音楽、雑音、無音などの種類によって異なる値を持つので、本実施例の話速変換装置１によれば、この“分割帯域パワー比”Ｅｎの値に基づいて話速制御を行うことにより、音声区間では話速を緩め、音楽、雑音、無音などの音声ではない区間では話速を速めることができるようになる。

更に、本実施例の話速変換装置１は、“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎのうちの１つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定することにより話速変換を行う、より高度な適応的な話速変換が可能である。例えば、“有声度”Ｕｎで指定される話速変換倍率には０．５、“凹凸度”Ｓｎで指定される話速変換倍率には０．３、“分割帯域パワー比”Ｅｎで指定される話速変換倍率には０．２の寄与率（配分割り当て）を与えて、“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎに基づく各話速成分を加算して最終話速変換倍率を決定することができる。例えば、話速変換を行う対象入力信号が放送の音である場合、特に、近年開発が盛んなメタ情報として番組のジャンル（ニュース、ドキュメンタリー、ドラマ、バラエティ、落語、漫才等）が付与されている放送の音の場合に、このジャンルに応じて寄与率（配分割り当て）を変更することができ、より聞きやすさや自然さの高い適応的話速変換が可能となる。

更に、本実施例の話速変換装置１は、入力信号全体又は所定の規則により分割した各部分に対して、所定の時間長が設定された場合、この時間長に合うように時間的な伸縮倍率を調整して所定の時間長に合わせこむ適応的話速変換を行うことができる。これは、１倍速（実時間で再生）や２倍速（実時間の半分の時間で再生）といった任意の再生速度変換倍率α[倍速]が与えられた場合に、入力信号について分割した各部分ごとに再生速度変換倍率α[倍速]よりも大きい倍率や小さい倍率で話速を変えることが要求される際に、全体としては一様な倍率αで話速変換したのと同じ再生時間となるように分割した各部分の話速変換倍率を微調整して、結果的に、一様な再生速度変換倍率αで話速変換した場合と同じ時間長で話速変換音声の生成を行うことができる。

更に、本発明の一態様として、本実施例の話速変換装置１をコンピュータとして構成させることができる。コンピュータに、前述した各構成要素を実現させるためのプログラムは、コンピュータの内部又は外部に備えられる記憶部に記憶される。そのような記憶部は、外付けハードディスクなどの外部記憶装置、或いはＲＯＭ又はＲＡＭなどの内部記憶装置で実現することができる。コンピュータに備えられる制御部は、中央演算処理装置（ＣＰＵ）などの制御で実現することができる。即ち、ＣＰＵが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、各構成要素の機能をコンピュータ上で実現させることができる。ここで、各構成要素の機能をハードウェアの全部又は一部で実現しても良い。

また、この処理内容を記述したプログラムを、例えばＤＶＤ又はＣＤ−ＲＯＭなどの可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばＩＰなどのネットワーク上にあるサーバの記憶部に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。

また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

以上、具体例を挙げて本発明の実施例を詳細に説明したが、本発明の特許請求の範囲から逸脱しない限りにおいて、あらゆる変形や変更が可能であることは当業者に明らかである。例えば、本実施例の話速変換装置１において、“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎからなる「物理指標」を算出して、入力信号の配分割り当てを行って話速変換を行う例について説明したが、“有声度”Ｕｎのみの「物理指標」を算出して入力信号の話速変換を行う話速変換装置、“凹凸度”Ｓｎのみの「物理指標」を算出して入力信号の話速変換を行う話速変換装置、“分割帯域パワー比”Ｅｎのみの「物理指標」を算出して入力信号の話速変換を行う話速変換装置など、“有声度”Ｕｎ、“凹凸度”Ｓｎ、及び、“分割帯域パワー比”Ｅｎのうちの少なくとも１つ以上を算出して、入力信号の話速変換を行う話速変換装置とすることもできる。従って、本発明は上記の実施例に限定されるものではない。

本発明によれば、テレビやラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダなどに一度記録して、ゆっくり又ははやく視聴したりする話速変換技術のあらゆる用途に適用することができる。例えば、視覚障害者からは音声情報を効率的に聴取したいという要望があり、本発明によれば、視覚障害者用の録音図書などを高速に再生して聞くことができる。さらに、本発明によれば、その教材の作成時に利用したり、学習時に学習者の上達度に合わせて音声の話速を変換して学習者に聞かせたりするための語学学習や発声訓練システムに適用することができ、話速変換を要する任意の用途に有用である。

１話速変換装置
２物理指標算出部
３話速変換倍率決定部
１００有声度算出部
２００基本周波数・擬似基本周波数凹凸算出部
２１０凹凸度算出部
３００周波数帯域・パワー演算部
３１０分割帯域パワー比演算部
２０２基本周波数抽出部
２０４擬似基本周波数算出部
２０６基本周波数軌跡連結部
３００周波数帯域・パワー演算部
３０２スペクトル算出部
３０４帯域分割部
３０６パワー演算部
１２０第１話速変換倍率指定部（話速変換倍率指定部ａ）
２２０第２話速変換倍率指定部（話速変換倍率指定部ｂ）
３２０第３話速変換倍率指定部（話速変換倍率指定部ｃ）
４００話速変換倍率微調整部

Claims

入力信号の適応的話速変換を行う話速変換装置であって、
入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部と、
前記物理指標算出部によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行う話速変換倍率決定部と、
を備えることを特徴とする話速変換装置。
前記物理指標算出部は、
入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度を、前記物理指標として算出する有声度算出部を備えることを特徴とする、請求項１に記載の話速変換装置。
前記物理指標算出部は、
入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度を、前記物理指標として算出する凹凸度算出部を備えることを特徴とする、請求項１又は２に記載の話速変換装置。
前記物理指標算出部は、
入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を、前記物理指標として算出する分割帯域パワー比演算部を備えることを特徴とする、請求項１〜３のいずれか一項に記載の話速変換装置。
前記話速変換倍率決定部は、
入力信号全体に対して速度変換すべき再生速度変換倍率が与えられた場合に、前記決定した話速変換倍率を前記再生速度変換倍率に適合するように微調整する話速変換倍率微調整部を備えることを特徴とする、請求項１〜４のいずれか一項に記載の話速変換装置。
前記話速変換倍率決定部は、
前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの１つ以上の物理指標を用いて当該入力信号の各セグメントに指定すべき話速変換倍率を決定する話速変換倍率微調整部を備えることを特徴とする、請求項１〜５のいずれか一項に記載の話速変換装置。
前記話速変換倍率微調整部は、入力信号の種別に応じて前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの１つ以上の物理指標に基づく話速変換倍率の配分割り当てを行うことを特徴とする、請求項６に記載の話速変換装置。
入力信号の適応的話速変換を行う話速変換装置として構成するコンピュータに、
入力信号を単位時間毎に分割した各セグメントについて、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比のうちの１つ以上の物理指標を算出するステップと、
該ステップによって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行うステップと、
を実行させるためのプログラム。