JP2011033789A - 適応的な話速変換装置及びプログラム - Google Patents

適応的な話速変換装置及びプログラム Download PDF

Info

Publication number
JP2011033789A
JP2011033789A JP2009179254A JP2009179254A JP2011033789A JP 2011033789 A JP2011033789 A JP 2011033789A JP 2009179254 A JP2009179254 A JP 2009179254A JP 2009179254 A JP2009179254 A JP 2009179254A JP 2011033789 A JP2011033789 A JP 2011033789A
Authority
JP
Japan
Prior art keywords
input signal
speech
speech speed
speed conversion
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009179254A
Other languages
English (en)
Other versions
JP5412204B2 (ja
Inventor
Toru Tsugi
徹 都木
Nobumasa Seiyama
信正 清山
Atsushi Imai
篤 今井
Reiko Tako
礼子 田高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2009179254A priority Critical patent/JP5412204B2/ja
Publication of JP2011033789A publication Critical patent/JP2011033789A/ja
Application granted granted Critical
Publication of JP5412204B2 publication Critical patent/JP5412204B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】入力信号の適応的話速変換を行う話速変換装置及びプログラムを提供する。
【解決手段】本発明の話速変換装置1は、入力信号を単位時間毎に分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部2と、物理指標算出部2によって算出した物理指標に応じて入力信号の各セグメントに指定すべき話速を決定して話速変換を行う話速変換倍率決定部3とを備える。本発明の一態様の話速変換装置1は、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度Un、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度Sn、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比Enのうちの1つ以上の「物理指標」を用いて入力信号の各セグメントに指定すべき話速変換倍率αnを決定して話速変換を行う。
【選択図】図1

Description

本発明は、入力信号の話速を変換する話速変換技術に関し、特に、入力信号の話速を適応的に変換する話速変換装置及びプログラムに関する。
従来から、入力信号の話速を適応的に変換する技術が幾つか提案されている(例えば、特許文献1〜特許文献6参照)。
適応的な話速変換に共通している目的は、1倍速(実時間で再生)や2倍速(実時間の半分の時間で再生)といった任意の再生速度変換倍率α[倍速]が与えられた場合に、入力信号全体にわたって一様な再生速度変換倍率αで速度を変えるのではなく、連続した入力信号の速度を部分的に再生速度変換倍率αより大きい倍率や小さい倍率で変えるようにすることであり、これにより話速変換音声の生成を行う。従って、入力信号全体としては一様な倍率αで話速変換したのと同じ時間で再生するように帳尻を合わせることができ、連続した入力信号を聞く者からすれば、一様な倍率αで話速変換した場合よりも「ゆっくりと聞き取りやすく」なる。
特許文献1の技術は、概ね次の3つの構成要素を含む。(1)入力信号のうちの基本周波数の高いところは話速を緩め、基本周波数の低いところでは話速を速める。(2)入力信号のうちの一息で発声された区間を単位として、音声の開始点では話速を緩め、音声の終了点に向かって基本周波数の変化に応じて徐々に話速を速める。(3)入力信号のうちの一息で発声された隣接区間の間にある無音区間を聴感上違和感のない範囲で短縮する。
また、特許文献2の技術は、入力信号のうちの一定以上長い無音区間をポーズ区間として設定し、このポーズ区間に挟まれた音声(フレーズ)区間について、その開始点で話速を緩めるとともに一定時間にわたって所定の減少関数に基づき話速を速くしていき、この一定時間の経過後の話速を緩める際に、各音声(フレーズ)区間における最大基本周波数の大小関係を考慮して話速を緩める率を変えるものである。
また、特許文献3の技術は、話速制御において、ポーズ区間に挟まれた音声区間内の短い無音区間に対しても聴感上違和感のない範囲で短縮することを許容するとともに、ブロック分割して話速変換した音声の或るブロックが、入力信号全体に対して一様な再生速度変換倍率αで話速変換した場合に想定される時刻に対して合致しているか、又はほとんど遅れていない場合に、次のブロックの話速をできるだけ緩めるように設定するものである。特に、特許文献3の技術は、話速変換した音声の或るブロックが、入力信号全体に対して一様な再生速度変換倍率αで話速変換した場合に想定される時刻に対して遅れている程度が大きい程、その後の話速を緩める度合いをより抑えるように制御するとともに、話速変換音声の各ブロックが、一様な再生速度変換倍率αで話速変換した場合に想定される時刻に対してできるだけずれることがないように制御する。
特許文献4,5の技術は、入力信号を音声区間と無音区間に分けるとともに、音声区間の話速は緩め、無音区間は短縮することを基本とするものである。ここで、音声区間の話速を緩めたことにより単位時間当たりの入力信号長に対して出力信号長が延びるため、一時的にメモリに話速変換後の音声を蓄積する必要が生じる。そこで、特許文献4,5の技術は、メモリの上限量に対して利用可能な残量に応じて、音声区間ごとに話速を徐々に速めていったり無音区間の削除量を増やしたりして全体の音声時間長を調整する。
特許文献6の技術は、所定期間ごとに分割した入力信号の話速を、各所定期間の音声データの大きさ(パワー)やピッチ(音声の高さ)の数値のn乗と反比例する係数によって決定するものである。
特許第3249567号明細書 特許第3219892号明細書 特許第3220043号明細書 特許第3357742号明細書 特許第3373933号明細書 特許第3619946号明細書
特許文献1〜5の技術に共通していることは、入力信号を、音声の有る音声区間と音声の無い無音区間に分け、音声区間では何らかの情報に基づいてその継続時間を部分的に伸縮するとともに無音区間の長さを短縮して、総合的に全体の音声時間長を調整することである。しかしながら、これらの技術は、人の声だけの入力信号の場合には有効に機能するが、放送番組などの背景音と音声が混合している入力信号の場合には、背景音だけの区間が、“無音区間”と判定されるか、或いは“音声区間”と判定されるかは保証の限りではない。誤判定が生じた場合に“無音区間”における短縮効果が得られず、結果的に音声区間の伸張率を大きくすることができず、聞きやすい話速変換音声とはならない。
特許文献6の技術に関して、入力信号の大きさ(パワー)は入力信号の全ての区間で求めることができるが、入力信号の基本周波数は、人の声帯が振動している“有声音区間”でしか正しく求めることができない。従って、特許文献6の技術に関しても、背景音と音声が混合している入力信号の場合、背景音だけの区間においては、パワーは大きく、基本周波数は正しく求めることができない区間であるため、本来音声ではない背景音だけの区間では話速を速めたいにも関わらず、パワーが大きいことからむしろ話速を緩めるように制御しうる。
このように、従来の技術においては、背景音と音声が混合している入力信号の場合のような、音声の有る音声区間と音声の無い無音区間の判定が正確に行われない入力信号に対して、適応的な話速変換が期待通りに動作しないという欠点があった。
本発明の目的は、背景音と音声が混合している入力信号の場合でも、適応的な話速変換を安定動作させることが可能な話速変換装置及びプログラムを提供することにある。
上記課題を解決するために、本発明の話速変換装置は、入力信号の適応的話速変換を行う話速変換装置であって、入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部と、前記物理指標算出部によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換の倍率を決定して話速変換を行う話速変換倍率決定部と、を備えることを特徴とする。
また、本発明の話速変換装置において、前記物理指標算出部は、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度を、前記物理指標として算出する有声度算出部を備えることを特徴とする。
また、本発明の話速変換装置において、前記物理指標算出部は、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度を、前記物理指標として算出する凹凸度算出部を備えることを特徴とする。
また、本発明の話速変換装置において、前記物理指標算出部は、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を、前記物理指標として算出する分割帯域パワー比演算部を備えることを特徴とする。
また、本発明の話速変換装置において、前記話速変換倍率決定部は、入力信号全体に対して速度変換すべき再生速度変換倍率が与えられた場合に、前記決定した話速変換倍率を前記再生速度変換倍率に適合するように微調整する話速変換倍率微調整部を備えることを特徴とする。
また、本発明の話速変換装置において、前記話速変換倍率決定部は、前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの1つ以上の物理指標を用いて当該入力信号の各セグメントに指定すべき話速変換倍率を決定する話速変換倍率微調整部を備えることを特徴とする。
また、本発明の話速変換装置において、前記話速変換倍率微調整部は、入力信号の種別に応じて前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの1つ以上の物理指標に基づく話速変換倍率の配分割り当てを行うことを特徴とする。
また、本発明は、入力信号の適応的話速変換を行う話速変換装置として構成するコンピュータに、入力信号を単位時間毎に分割した各セグメントについて、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比のうちの1つ以上の物理指標を算出するステップと、該ステップによって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行うステップと、を実行させるためのプログラムとしても特徴付けられる。
本発明によれば、入力信号の物理指標に基づき適応的な話速変換を行うため、従来技術では背景音と音声が混合している入力信号では“音声区間”と“無音区間"の判定が正確に行われない場合においても適応的な話速変換を行うことができ、即ち、背景音と音声が混合している入力信号に対しても、安定して、ゆっくり感を与える効果を高め、自然な聞こえとなる適応的話速変換が可能となる。
本発明による一実施例の話速変換装置のブロック図である。 本発明による一実施例の話速変換装置の動作を示すフローチャートである。 本発明による一実施例の話速変換装置における有声度算出部の動作説明図であり、(a)は入力信号の音声波形に対する窓関数を示す図であり、(b)は、自己相関関数による有声度の算出を示す図である。 本発明による一実施例の話速変換装置における基本周波数・擬似基本周波数凹凸算出部の動作説明図である。
以下、本発明による一実施例の話速変換装置を説明する。本実施例の話速変換装置は、本発明に係る要素を全て包含する態様であるが、幾つかの変形例があることは後述の説明から明らかになる。
[装置構成]
図1に、本発明による一実施例の話速変換装置のブロック図を示す。本実施例の話速変換装置1は、入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部2と、物理指標算出部2によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率αnを決定して話速変換を行う話速変換倍率決定部3とを備え、これにより、入力信号の適応的話速変換を行う。尚、nは、入力信号を冒頭から、例えば5ms毎に区切った場合の何番目の位置かを示す整数値である。以後、単位時間あたりのセグメント(区間)として、この区切り間隔を5msとして説明する。
物理指標算出部2は、有声度算出部100と、基本周波数・擬似基本周波数凹凸算出部200と、凹凸度算出部210と、周波数帯域・パワー演算部300と、分割帯域パワー比演算部310とを備える。基本周波数・擬似基本周波数凹凸算出部200は、基本周波数抽出部202と、擬似基本周波数算出部204と、基本周波数軌跡連結部206とを有する。周波数帯域・パワー演算部300は、スペクトル算出部302と、帯域分割部304と、パワー演算部306とを有する。
話速変換倍率決定部3は、第1話速変換倍率指定部(話速変換倍率指定部a)120と、第2話速変換倍率指定部(話速変換倍率指定部b)220と、第3話速変換倍率指定部(話速変換倍率指定部c)320と、話速変換倍率微調整部400とを備える。
本実施例の話速変換装置1は、包括的には、入力信号における単位時間あたりの自己相関で得られる相対的な最大値(相対最大値)を表す“有声度”Un、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す“凹凸度”Sn、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す“分割帯域パワー比”Enのうちの1つ以上の「物理指標」を用いて入力信号の各セグメントに指定すべき話速変換倍率αnを決定して話速変換を行い、話速変換した出力信号を生成して出力する。
以下、物理指標の“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enに基づく入力信号に対する各区間の話速変換倍率の決定について順に説明する。尚、以下に述べる「話速変換倍率」とは、入力信号の単位時間当たりの音声区間に対する時間的な伸縮率の逆数に相当する。
まず、有声度Unによる話速変換倍率決定について図1及び図3を参照して説明する。図3は、本発明による一実施例の話速変換装置1における有声度算出部100の動作説明図であり、(a)は入力信号の波形に対する窓関数を示す図であり、(b)は、自己相関関数による有声度の算出を示す図である。
(有声度による話速変換倍率の決定)
有声度算出部100は、入力信号の波形から、所定の単位時間ごとに分割した各セグメントに対して、各セグメントの開始からの時間遅れ量τと、τ=0における自己相関関数R(τ)の基準値R(0)と、τ>0における自己相関関数R(τ)の最大値R(τ)maxと、R(τ)maxを与えるτの値に応じて予め定めた重みW(τ)とで規定される有声度Un=W(τ)・R(τ)max/R(0)を、「物理指標」として算出する。より具体的には、有声度算出部100は、例えば放送の音声及び背景音が混在した入力信号を所定の単位時間ごとに分割した各セグメント(n番目の区間)に対して、入力信号の波形から自己相関関数R(τ)を求め、次に、τ>0における自己相関関数R(τ)の最大値R(τ)maxを検出し、更に、τ=0における自己相関関数R(τ)の基準値R(0)を算出し、R(τ)maxを与えるτの値に応じて予め定めた重みW(τ)を用いて、有声度Un=W(τ)・R(τ)max/R(0)を求める。但し、τはn番目の区間の開始からの時間遅れ量である。
例えば、図3(a)に示すように、入力信号の波形x(k)に対して窓関数(ハミング窓h(k))による重み付けを施し、入力信号の重み付けした波形x’(k)を抽出する。次に、図3(b)に示すように、区間τにおける入力信号の波形x’(k)に対する自己相関関数R(τ)を計算する。これにより、τ=0における自己相関関数R(τ)の基準値R(0)と重みW(τ)を用いて、有声度Un=W(τ)・R(τ)max/R(0)を求めることができる。
従って、有声度Unは、入力信号における単位時間あたりの自己相関で得られる相対最大値を表すものであるため、別の算出方法として、入力信号における単位時間(本例では、5ms)における入力信号の波形のゼロ交差の回数をカウントし、このカウント値の逆数を有声度Unとすることもできる。
次に、第1話速変換倍率指定部(話速変換倍率指定部a)120は、有声度Unの値に応じて、有声度Unの値が所定の閾値よりも大きい場合には話速を緩め、有声度Unの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの音声区間に対する伸縮率を規定する話速変換倍率αaを決定する。
例えば、有声度Unの値として上記の自己相関関数R(τ)を用いて算出した場合に、有声度Unは、入力信号の多くに対して、−0.2〜1.2程度の範囲の値をとることが分かった。そこで、有声度Unの値が取りうると想定される変動幅の半値Ub(例えば、Ub=0.7)を規定し、有声度Unの値がこの範囲の中央値に相当する基準値Ua(例えば、Ua=0.5)より大きい場合は話速を緩め(αa<1.0)、有声度Unの値が所定の閾値Ua(例えば、Ua=0.5)以下であれば話速を速める(αa≧1.0)とすると、式(1)のように表すことができる。
Figure 2011033789
ここで、Kは、話速を緩めたり速めたりする幅を決める規準値となる定数であり、例えば、予め定めた最も遅い話速変換倍率に相当する伸縮率を与える定数としてK=1.4とすることができる。また、Raは、有声度Unによって指定される話速変換倍率αaに対する寄与率であり、物理指標の“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enに基づいて話速変換倍率の割り当てを決定する際の割り当ての度合いを表す。
上記のように、物理指標の“有声度”Unによって、入力信号の単位時間ごとに話速変換倍率αaを決定することができる。
次に、凹凸度による話速変換倍率の決定について図1及び図4を参照して説明する。図4に、本発明による一実施例の話速変換装置における基本周波数・擬似基本周波数凹凸算出部200の動作説明図を示す。
(凹凸度による話速変換倍率の決定)
基本周波数抽出部202は、入力信号に対して、単位時間(本例では、5ms)毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする領域を「安定区間」として決定するとともに、各安定区間の間の領域を「不安定区間」として決定し、各安定区間内の基本周波数を特定するとともに、各安定区間の基本周波数がさらにより滑らかな軌跡となるように、各安定区間の基本周波数からなる軌跡の平滑化を行う。この平滑化のために、カットオフ周波数3〜6Hz程度のローパスフィルタを用いて行うのが好適である。尚、単位時間あたり(本例では、5ms)毎に基本周波数を抽出する技法は任意の既知の技法を用いることができる(例えば、特許第3219868号明細書を参照)。
更に、基本周波数抽出部202は、安定区間及び/又は不安定区間の情報、及び安定区間の平滑化した軌跡の基本周波数の値を、擬似基本周波数算出部204及び基本周波数軌跡連結部206に出力する。
尚、基本周波数抽出部202は、抽出される基本周波数の値が安定せず不連続で変化が激しいことを意味する「不安定区間」の各基本周波数の値は全て棄却する。
擬似基本周波数算出部204は、基本周波数抽出部202から供給される安定区間の平滑化した軌跡の基本周波数の各値を用いて、スプライン関数などの補間関数で補間して、不安定区間における擬似的な基本周波数(擬似基本周波数)の値を決定し、基本周波数軌跡連結部206に出力する。尚、処理対象の入力信号の開始部分及び終了部分は音声区間ではないことが多いため擬似基本周波数を求める不安定区間となる。その場合、これらの区間をスプライン関数で補間する場合には、開始点又は終了点に規定値(例えば音声の基本周波数としては殆どあり得ない低い値である30Hz)を設定し、一方の安定区間内の基本周波数の各値を用いてスプライン関数で補間する。
基本周波数軌跡連結部206は、基本周波数抽出部202から供給される安定区間の平滑化した軌跡の基本周波数の値と、擬似基本周波数算出部204から供給される不安定区間の擬似基本周波数の値とを連結して、処理対象の入力信号の全ての区間(本例では、5msごと)の基本周波数及び擬似基本周波数からなる連続な軌跡(以下、「基本周波数軌跡」と称する)を求め、基本周波数軌跡を構成する単位時間毎の基本周波数の各値を凹凸度算出部210に送出する。
凹凸度算出部210は、入力信号に対して、単位時間毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする領域の安定区間の基本周波数の値及び/又は各安定区間の間の領域の不安定区間の擬似基本周波数の値で規定される平滑化した基本周波数軌跡について、該基本周波数軌跡の変化傾向を表す凹凸度を、「物理指標」として算出する。より具体的には、凹凸度算出部210は、基本周波数軌跡を構成する単位時間(本例では、5msごと)毎の基本周波数の或る値Pnに対して、それぞれ所定時間前の値(例えば、値Pnの時刻−30msにおける値)P1と、所定時間後の値(例えば、値Pnの時刻+30msにおける値)P2をサンプリングして、前側差分値(Pn−P1)と後側差分値(Pn−P2)との平均値を処理対象の入力信号の全ての区間にわたって求め、全ての区間における、この平均値の各々をこれらの平均値のうちの最大値で除算して正規化し、この正規化した各平均値を基本周波数軌跡の変化傾向を表す“凹凸度”Snとして算出し、算出した凹凸度Snを第2話速変換倍率指定部(話速変換倍率指定部b)220に送出する。
例えば、基本周波数軌跡が平坦、又は単調増加や単調減少の区間では、凹凸度Snは0に近い値となる。尚、全ての凹凸度Snのうち、その絶対値が最も大きな値を使って正規化するため、基本周波数軌跡の変化傾向を表す凹凸度Snの各値は、−1〜1となる。
第2話速変換倍率指定部(話速変換倍率指定部b)220は、凹凸度算出部210から供給される単位時間(本例では、5msごと)の凹凸度Snの各値に応じて、凹凸度Snの値が正の場合には話速を緩め、凹凸度Snの値が負の場合には話速を速めるように、入力信号の単位時間当たりの音声区間に対する伸縮率を規定する話速変換倍率αbを決定する。即ち、この基本周波数軌跡において、山状に凸(極大)になっている部分では話速を緩め、谷状(極小)になっている部分では話速を速める。
例えば、話速変換倍率αbは、式(2)のように表すことができる。
Figure 2011033789
ここで、Kは式(1)と同様であり、Rbは凹凸度Snによって指定される話速変換倍率αbに対する寄与率であり、物理指標の“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enに基づいて話速変換倍率の割り当てを決定する際の割り当ての度合いを表す。
上記のように、物理指標の“凹凸度” Snによって、入力信号の単位時間ごとに話速変換倍率αbを決定することができる。
次に、周波数帯域分割・パワー演算部300における分割帯域パワー比Enによる話速変換倍率決定について説明する。
(分割帯域パワー比による話速変換倍率決定)
スペクトル算出部302は、入力信号に対して単位時間(本例では、5ms)毎に、FFT(Fast Fourier transform)などによって時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトルをdB値で求めて帯域分割部304に送出する。
帯域分割部304は、スペクトル算出部302から供給される対数化パワースペクトルを予め定めた複数の周波数帯域に分割し、帯域分割した各周波数帯域の対数化パワースペクトルの値をパワー演算部306に送出する。例えば、5分割する場合には、B1:0〜300Hz,B2:300〜1500Hz,B3:1500〜3000Hz,B4:3000〜8000Hz,B5:8000Hz以上といった具合に分割することができる。尚、単に2分割としてもよいことに留意する。
パワー演算部306は、帯域分割部304から供給される帯域分割した各周波数帯域の対数化パワースペクトルの値について、任意に予め選定した低い側の帯域及び高い側の帯域における各帯域の正規化したパワー成分を求め、これらの正規化した低域側パワー成分と高域側パワー成分を分割帯域パワー比演算部310に送出する。正規化したパワー成分は、低域側及び高域側の各帯域に含まれるパワースペクトルの本数だけ各パワースペクトルの値を合計し、その後その本数で除することで求めることができる。例えば、前述のように5分割する場合に、低い側の帯域としてB2、高い側の帯域としてB4を予め選定したとする。この場合、低い側の帯域B2と高い側の帯域B4のそれぞれの正規化したパワー成分を分割帯域パワー比演算部310に出力する。
分割帯域パワー比演算部310は、入力信号に対して帯域分割した各周波数帯域の対数化パワースペクトルの値について、任意に予め選定される低帯域側パワー成分と高帯域側パワー成分との比率(分割帯域パワー比En)を、「物理指標」として算出する。より具体的には、分割帯域パワー比演算部310は、パワー演算部306から供給される正規化した低域側のパワー成分及び高域側のパワー成分の比率(分割帯域パワー比En)を算出して第3話速変換倍率指定部(話速変換倍率指定部c)320に送出する。尚、パワー演算部306から供給される正規化した低域側のパワー成分及び高域側のパワー成分がすでに対数値(dB)で表わされている場合には、これらの対数値の差として、低域側の正規化パワーから高域側の正規化パワーを減じて分割帯域パワー比Enを求めることができる。
第3話速変換倍率指定部(話速変換倍率指定部c)320は、分割帯域パワー比Enの値に応じて、分割帯域パワー比Enの値が所定の閾値よりも大きい場合には話速を緩め、分割帯域パワー比Enの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの音声区間に対する伸縮率を規定する話速変換倍率αcを決定する。
例えば、分割帯域パワー比Enは、入力信号の多くに対して、10[dB]〜40[dB]程度の範囲の値をとることが分かった。そこで、第3話速変換倍率指定部(話速変換倍率指定部c)320は、入力信号が取りうると想定される変動幅の半値Eb(例えば、Eb=15)を規定し、この想定される範囲の中央値に相当する基準値Ea(例えば、Ea=25)を規定することにより、分割帯域パワー比EnがEa=25[dB]より大きい場合は話速を緩め、分割帯域パワー比EnがEa=25[dB]以下であれば話速を速めるように、式(3)のように規定される。
Figure 2011033789
ここで、Kは式(1)と同様であり、Rcは分割帯域パワー比Enによって指定される話速変換倍率αcに対する寄与率であり、上述した物理指標の“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enに基づいて話速変換倍率の割り当てを決定する際の割り当ての度合いを表す。
上記のように、物理指標の“分割帯域パワー比” Enによって、入力信号の単位時間ごとに話速変換倍率αcを決定することができる。
上述したように、本実施例の話速変換装置1は、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enのうちの1つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定することにより話速変換を行う。
(高度化した適応的な話速変換)
本実施例の話速変換装置1は、適応的な話速変換を実現するために、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enのうちの1つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定するための話速変換倍率微調整部400を備える。
話速変換倍率微調整部400は、第1話速変換倍率指定部(話速変換倍率指定部a)120によって決定した話速変換倍率αaと、第2話速変換倍率指定部(話速変換倍率指定部b)220によって決定した話速変換倍率αbと、第3話速変換倍率指定部(話速変換倍率指定部c)320によって決定した話速変換倍率αcとをそれぞれ入力し、予め設定される入力信号の種別(例えば、番組のジャンル)に応じた配分率で配分割り当てを行った各話速変換倍率αa,αb,αcの値を加算し、加算して得られる話速変換倍率αn(αn=αa+αb+αc)によって入力信号における単位時間毎の話速変換を行う。
例えば、各話速変換倍率αa,αb,αcの値における配分割り当てのために、式(1)〜式(3)の寄与率Ra,Rb,Rcの各値を変更する。例えば入力信号が放送番組の音声の場合、放送番組のジャンル(ニュース、ドキュメンタリー、ドラマ、バラエティ、落語、漫才等)に応じて、寄与率Ra,Rb,Rcの分配率を変えることにより配分割り当てを行うことができる。これにより、放送番組のジャンルに応じて、聞きやすさ及び自然さの観点で、より高品質な適応的話速変換が可能となる。例えば、入力信号がニュースの音声の場合には寄与率Ra=0.5,Rb=0.3,Rc=0.2、入力信号が落語や漫才の場合には寄与率Ra=0.2,Rb=0.6,Rc=0.2などに割り当てることができる。
また、“凹凸度”Snに基づいて、即ち“音声全体にわたって平滑化された基本周波数又は擬似基本周波数の軌跡の凹凸の状態”に基づいて話速を決定する場合、ハードディスクレコーダなどに一度記録した放送番組の音声を視聴する際に適用することができるが、リアルタイムの放送番組視聴のような場合に適用するのは好ましくない。そこで、リアルタイムの視聴のような場合、例えば話速変換装置1における入力から出力までの遅延が100ms未満といった要求条件がある場合、“凹凸度”Snによって決定される話速αbの寄与率Rbを、Rb=0とすることができる。このように、本実施例の話速変換装置1は、入力信号の種別に応じた配分率で話速の配分割り当てを行うことにより、高度な適応的話速変換を行うことができるようになる。
また、話速変換倍率微調整部400は、入力信号全体に対して速度変換すべき再生速度変換倍率α[倍速]が与えられた場合に、入力信号の先頭から単位時間(本例では、5ms)おきに数えてn番目に与える話速変換倍率αn(αn=αa+αb+αc)を再生速度変換倍率α[倍速]に適合する信号長に微調整する機能を有する。
例えば、話速微調整部400は、入力信号全体の長さをL[秒]とした時、信号波形全体に任意の再生速度変換倍率α[倍速]が与えられた場合に、話速変換後の信号全体の長さをL/α[秒]にするために、話速変換倍率αnを連接した話速変換後の信号全体の長さL0[秒]を算出し、以下の式(4)に従って再生速度変換倍率α[倍速]に適合する信号長に微調整する。
αn=(αa+αb+αc)×L0/(L/α) (4)
尚、再生速度変換倍率αとしては、0.5〜5.0などの任意の値を設定することができる。
即ち、話速変換倍率微調整部400は、式(4)によって、単位時間毎の話速変換倍率αnを求め直し、話速変換することで微調整し、変換後の信号波形の長さを所定の長さに合わせることができる。
更に、できるだけ頻繁にα[倍速]で一様に変換した音声と同じタイミングに合わせ込みたい場合は、入力信号全体の長さLではなく、これをより短い単位で分割した信号の長さに対して微調整を行うようにαnを修正することもできる。例えば、入力信号全体の長さL=L+L+・・・+LのようにM個に分割して、L,L,・・・,Lの区間ごとに入力信号波形を分割し、それぞれの分割区間において、m番目の区間では、先ずその区間の5msごとの各部分の話速変換倍率αn=αa+αb+αcを用いてこのm番目の区間の話速変換を行って連接し、連接した変換後の信号波形の部分長Lm0をまず算出する。これにより、式(4)において、入力信号全体の長さLの代わりに、信号波形の部分長Lを適用し、連接した変換後の信号波形長L0の代わりに連接した変換後の信号波形の部分長Lm0を適用することで、各話速変換倍率αnを再度求め直して微調整を行って話速変換を行う。
尚、話速変換倍率αnが与えられた場合の、話速変換(波形の伸縮)の手法は、様々な手法がすでに提案されている。例えば、声の高さ(基本周波数)を保つ方法として、PICOLA(Pointer Interval Controlled OverLap and Add)法、TDHS(Time Domain Harmonic Scaling)法、PSOLA(Pitch Synchronous OverLap Add)法などがあり、これ以外にも、特許第2612868号明細書、特許第3083830号明細書、特許第2955247号明細書に開示される波形伸縮法があり、いずれの波形伸縮法を用いてもよい。
本実施例の話速変換装置1の高度化した適応的な話速変換の動作について、図2を参照して説明する。図2は、本発明による一実施例の話速変換装置の動作を示すフローチャートである。
ステップS1にて、話速変換装置1は、話速調整する信号を入力するとともに、話速調整に必要とされるパラメータ(入力信号の種別によって規定可能な寄与率Ra,Rb,Rc、再生速度変換倍率α)を入力する。入力信号は、有声度算出部100、基本周波数抽出部202、及びスペクトル算出部302に入力される。寄与率Ra,Rb,Rcは、それぞれ第1話速変換倍率指定部(話速変換倍率指定部a)120、第2話速変換倍率指定部(話速変換倍率指定部b)220、及び、第3話速変換倍率指定部(話速変換倍率指定部c)320に設定される。再生速度変換倍率αは、話速変換倍率微調整部400に設定される。
まず、話速変換装置1は、有声度算出部100により、入力信号の所定の単位時間ごとに分割したn番目の区間に対して上述のように有声度Unを求め(ステップS2)、第1話速変換倍率指定部(話速変換倍率指定部a)120により、有声度Unの値に応じて、有声度Unの値が所定の閾値よりも大きい場合には話速を緩め、有声度Unの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの信号波形に対する伸縮率を規定する話速変換倍率αanを決定する(ステップS3)。
更に、話速変換装置1は、基本周波数抽出部202により、入力信号に対して、単位時間毎に抽出される基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする「安定区間」と、各安定区間の間の領域を「不安定区間」としてセグメント分割し、各安定区間内の基本周波数を特定するとともに、各安定区間の基本周波数からなる軌跡の平滑化を行って「安定区間」の基本周波数を決定し、更に「不安定区間」の各基本周波数の値は全て棄却する(ステップS4,S5)。
続いて、話速変換装置1は、擬似基本周波数算出部204により、基本周波数抽出部202から供給される安定区間の平滑化した軌跡の基本周波数の各値を用いて、スプライン関数などの補間関数で補間して、不安定区間における擬似基本周波数の値を決定し、不安定区間における元の基本周波数の値を擬似基本周波数の値に変換(置換)する(ステップS6)。
続いて、話速変換装置1は、基本周波数軌跡連結部206により、基本周波数抽出部202から供給される安定区間の平滑化した軌跡の基本周波数の値と、擬似基本周波数算出部204から供給される不安定区間の擬似基本周波数の値とを連結して、処理対象の入力信号の全ての区間の基本周波数及び擬似基本周波数からなる連続な軌跡となる基本周波数軌跡を求める(ステップS7)。
続いて、話速変換装置1は、凹凸度算出部210により、基本周波数軌跡を構成する単位時間毎の基本周波数の或る値Pnに対して、それぞれ所定時間前の値P1と、所定時間後の値P2をサンプリングして、前側差分値(Pn−P1)と後側差分値(Pn−P2)との平均値を処理対象の入力信号の全ての区間にわたって求め、全ての区間における、この平均値の各々をこれらの平均値のうちの最大値で除算して正規化し、この正規化した各平均値を基本周波数軌跡の変化傾向を表す“凹凸度”Snとして算出する(ステップS8)。
続いて、話速変換装置1は、第2話速変換倍率指定部(話速変換倍率指定部b)220により、凹凸度算出部210から供給される単位時間の凹凸度Snの各値に応じて、凹凸度Snの値が正の場合には話速を緩め、凹凸度Snの値が負の場合には話速を速めるように、入力信号の単位時間当たりの信号波形に対する伸縮率を規定する話速変換倍率αbnを決定する(ステップS9)。
更に、話速変換装置1は、スペクトル算出部302により、入力信号に対して単位時間毎に時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトルからなるスペクトル分布を算出する(ステップS10)。
続いて、話速変換装置1は、帯域分割部304により、スペクトル算出部302から供給される対数化パワースペクトルを予め定めた規定数の周波数帯域に分割する(ステップS11)。
続いて、話速変換装置1は、パワー演算部306により、帯域分割部304から供給される帯域分割した各周波数帯域の対数化パワースペクトルの値について、任意に予め選定した低帯域側及び高帯域側における各正規化したパワー成分を求める(ステップS12)。
続いて、話速変換装置1は、分割帯域パワー比演算部310により、パワー演算部306から供給される正規化した低域側のパワー成分を、同じく正規化した高域側のパワー成分で除した比率である“分割帯域パワー比”Enを算出する(ステップS13)。
続いて、話速変換装置1は、第3話速変換倍率指定部(話速変換倍率指定部c)320により、分割帯域パワー比Enの値に応じて、分割帯域パワー比Enの値が所定の閾値よりも大きい場合には話速を緩め、分割帯域パワー比Enの値が所定の閾値以下となる場合には話速を速めるように、入力信号の単位時間当たりの信号波形に対する伸縮率を規定する話速変換倍率αcnを決定する(ステップS14)。
最終的に、話速変換装置1は、話速変換倍率微調整部400により、物理指標の“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enのうちの少なくとも1つ以上に基づく入力信号に対する各区間の話速変換倍率の決定に対して、再生速度変換倍率αに従って最終話速変換倍率のための配分割り当てを決定し、入力信号に対する話速変換を行う(ステップS15)。
従って、本実施例の話速変換装置1によれば、入力信号波形に対して、その周期性の強さを示す“有声度” Unに応じて、話速変換倍率αnを適応制御することができる。有声度Unの物理指標は、入力信号の全ての位置で求めることができる。また背景音が混入している場合にも有声度Unの物理指標を求めることができ、安定した話速変換を実現することができる。
通常、音声の母音部は有声度Unが高い。また、完全な無音部や、一般的に様々な音の周波数成分が混合した音楽や雑音などの背景音は有声度が低い。従って、本実施例の話速変換装置1によれば、有声度Unが高いところで話速を緩め、有声度Unが低いところでは話速を速めることができるので、背景音が混合している入力信号の場合においても、音声の聞き取りに重要な部分である母音部では話速が緩められ、完全な無音部や背景音だけの部分は話速が速められる。更に、全体として目的の時間長に合わせながら、適応的な話速変換が可能である。特に、実際の人の発声において、話速が遅い場合と速い場合を比較すると、主に母音部が伸縮することが分かっている(例えば、電子情報通信学会論文誌(A),Vol.J67−A,No.7,1984年7月発行、pp.629−636)。従って、本実施例の話速変換装置1によれば、有声度Unに応じて話速変換するために、自然な聞こえの適応的話速変換が期待できる。
更に、本実施例の話速変換装置1によれば、入力された音声波形に対して、“音声全体にわたって平滑化された基本周波数又は擬似基本周波数の基本周波数軌跡の凹凸の状態”である“凹凸度”Snに応じて、話速変換倍率αnを適応制御することができる。従って、本実施例の話速変換装置1によれば、基本的には山状に凸になっている基本周波数軌跡の区間では話速を緩め、谷状に凹になっている基本周波数軌跡の区間では話速を速めることができるので、安定的に全体として目的の時間長に合わせながら、適応的な話速変換が可能となる。
これは、特許文献1の技術のような「基本周波数の高いところは話速を緩め、低いところでは話速を速める」とする方式とは異なる。前述のように、音声の母音部など(有声音部分)では基本周波数を正確に求めることができるが、それ以外の背景音などの部分では安定して基本周波数を求めることができない。そこで、本実施例の話速変換装置1は、抽出される基本周波数の値が安定してほぼ連続的な変化をする安定区間では、話速変換倍率決定に用いる基本周波数として利用し、さらに、話速変換倍率決定に用いる基本周波数の軌跡がより滑らかになるように基本周波数の軌跡の平滑化を行う。
また、本実施例の話速変換装置1は、抽出される基本周波数の値が安定せず、不連続で変化が激しい不安定区間では、この不安定区間の基本周波数の値を全て棄却し、安定区間の基本周波数の値を用いてスプライン関数などで補間することによって擬似基本周波数を求める。これにより、本実施例の話速変換装置1によれば、入力信号全ての区間において基本周波数又は擬似基本周波数からなる連続的な基本周波数軌跡を得ることができる。本実施例の話速変換装置1によれば、この基本周波数軌跡において、山状に凸(極大)になっている部分では話速を緩め、谷状(極小)になっている部分では話速を速めるため、安定的に、全体として目的の時間長に合わせながら、適応的な話速変換が可能となる。
更に、本実施例の話速変換装置1は、特許文献1の技術のような「基本周波数の高いところは話速を緩め、低いところでは話速を速める」とするやり方よりも有利な点がある。例えば、男女のコンビによる漫才などの入力信号は、男女の音声区間がほとんどポーズのない状態で激しく入れ替わる混合音声区間からなる。このような入力信号に対して、特許文献1のような「基本周波数の高いところは話速を緩め、低いところでは話速を速める」やり方では、女性の声は高いためいつも女性の声の音声に対しては話速を緩め、一方男性の声は低いため男性の声の音声に対しては話速をいつも速くするという傾向が生じてしまう。これに対して、本実施例の話速変換装置1は、平滑化された基本周波数又は擬似基本周波数の基本周波数軌跡において、発声のアクセントなどに付随して、女性の声の部分でも、男性の声の部分でも、必ず凹凸が生じるため、男女の発声の違いに関わらず、基本周波数軌跡の凸の部分は話速を緩め、基本周波数軌跡の凹の部分は話速を速めることができ、男女両者に公平な配分で話速の適応的な制御が可能である。
更に、本実施例の話速変換装置1は、入力信号波形に対して、“周波数スペクトルを複数の帯域に分割した場合のある2つの帯域の低帯域側を高帯域側で除したパワー成分の比”である“分割帯域パワー比”Enに応じて、話速変換倍率を適応制御することができる。特許文献4及び特許文献5の技術のような「定常状態における周波数スペクトルの複数の帯域と入力信号の周波数スペクトルの対応する各帯域のパワーを比較することにより、入力信号が“音声区間”であるか、又は“無音区間”であるかを判別する」ものとは相違して、本実施例の話速変換装置1は、“周波数スペクトルを複数の帯域に分割した場合のある2つの帯域の低帯域側を高帯域側で除したパワー成分の比”である“分割帯域パワー比”Enを利用する。この“分割帯域パワー比”Enは、定常状態におけるスペクトルのパワーと比較するのではなく、入力信号のある瞬間の周波数スペクトルだけを対象としており、ある瞬間の周波数スペクトルを帯域分割し、帯域分割した各周波数スペクトルのうちのある2つの帯域の低帯域側を高帯域側で除したパワー比を求めるものである。
本実施例の話速変換装置1は、特許文献4及び特許文献5の技術のような「入力信号を音声区間と無音区間に分けるとともに、音声区間の話速は緩め、無音区間は短縮する」とするやり方よりも有利な点がある。
例えば特許文献4及び特許文献5の技術で、ある程度大きな音量の音楽などが背景音として混入している入力信号に対して“音声区間”であるか、又は“無音区間”であるかの判別を行った場合、先に述べたように、正しく“音声区間”と“無音区間”を判別することが困難であり、適応的な話速変換を行うことができない。一方、本実施例の話速変換装置1は、入力信号のある瞬間の周波数スペクトルだけを対象としており、ある瞬間の周波数スペクトルを帯域分割し、帯域分割した各周波数スペクトルのうちのある2つの帯域の低帯域側を高帯域側で除した“分割帯域パワー比”Enに基づき話速変換倍率を決定するものであるから、本質的に判定誤りというものは存在せず、安定して話速の制御を行うことができる。例えば、低帯域側のパワー成分に対して高帯域側のパワー成分が小さいときは話速を緩め、低帯域側のパワー成分に対して高帯域側のパワー成分が大きいときは話速を速めることができる。つまり、この“分割帯域パワー比”Enは、入力信号において、音声区間、音楽、雑音、無音などの種類によって異なる値を持つので、本実施例の話速変換装置1によれば、この“分割帯域パワー比”Enの値に基づいて話速制御を行うことにより、音声区間では話速を緩め、音楽、雑音、無音などの音声ではない区間では話速を速めることができるようになる。
更に、本実施例の話速変換装置1は、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enのうちの1つ以上の「物理指標」を用いて入力信号に対する各区間の話速変換倍率を決定することにより話速変換を行う、より高度な適応的な話速変換が可能である。例えば、“有声度”Unで指定される話速変換倍率には0.5、“凹凸度”Snで指定される話速変換倍率には0.3、“分割帯域パワー比”Enで指定される話速変換倍率には0.2の寄与率(配分割り当て)を与えて、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enに基づく各話速成分を加算して最終話速変換倍率を決定することができる。例えば、話速変換を行う対象入力信号が放送の音である場合、特に、近年開発が盛んなメタ情報として番組のジャンル(ニュース、ドキュメンタリー、ドラマ、バラエティ、落語、漫才等)が付与されている放送の音の場合に、このジャンルに応じて寄与率(配分割り当て)を変更することができ、より聞きやすさや自然さの高い適応的話速変換が可能となる。
更に、本実施例の話速変換装置1は、入力信号全体又は所定の規則により分割した各部分に対して、所定の時間長が設定された場合、この時間長に合うように時間的な伸縮倍率を調整して所定の時間長に合わせこむ適応的話速変換を行うことができる。これは、1倍速(実時間で再生)や2倍速(実時間の半分の時間で再生)といった任意の再生速度変換倍率α[倍速]が与えられた場合に、入力信号について分割した各部分ごとに再生速度変換倍率α[倍速]よりも大きい倍率や小さい倍率で話速を変えることが要求される際に、全体としては一様な倍率αで話速変換したのと同じ再生時間となるように分割した各部分の話速変換倍率を微調整して、結果的に、一様な再生速度変換倍率αで話速変換した場合と同じ時間長で話速変換音声の生成を行うことができる。
更に、本発明の一態様として、本実施例の話速変換装置1をコンピュータとして構成させることができる。コンピュータに、前述した各構成要素を実現させるためのプログラムは、コンピュータの内部又は外部に備えられる記憶部に記憶される。そのような記憶部は、外付けハードディスクなどの外部記憶装置、或いはROM又はRAMなどの内部記憶装置で実現することができる。コンピュータに備えられる制御部は、中央演算処理装置(CPU)などの制御で実現することができる。即ち、CPUが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、各構成要素の機能をコンピュータ上で実現させることができる。ここで、各構成要素の機能をハードウェアの全部又は一部で実現しても良い。
また、この処理内容を記述したプログラムを、例えばDVD又はCD−ROMなどの可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばIPなどのネットワーク上にあるサーバの記憶部に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。
また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。
以上、具体例を挙げて本発明の実施例を詳細に説明したが、本発明の特許請求の範囲から逸脱しない限りにおいて、あらゆる変形や変更が可能であることは当業者に明らかである。例えば、本実施例の話速変換装置1において、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enからなる「物理指標」を算出して、入力信号の配分割り当てを行って話速変換を行う例について説明したが、“有声度”Unのみの「物理指標」を算出して入力信号の話速変換を行う話速変換装置、“凹凸度”Snのみの「物理指標」を算出して入力信号の話速変換を行う話速変換装置、“分割帯域パワー比”Enのみの「物理指標」を算出して入力信号の話速変換を行う話速変換装置など、“有声度”Un、“凹凸度”Sn、及び、“分割帯域パワー比”Enのうちの少なくとも1つ以上を算出して、入力信号の話速変換を行う話速変換装置とすることもできる。従って、本発明は上記の実施例に限定されるものではない。
本発明によれば、テレビやラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダなどに一度記録して、ゆっくり又ははやく視聴したりする話速変換技術のあらゆる用途に適用することができる。例えば、視覚障害者からは音声情報を効率的に聴取したいという要望があり、本発明によれば、視覚障害者用の録音図書などを高速に再生して聞くことができる。さらに、本発明によれば、その教材の作成時に利用したり、学習時に学習者の上達度に合わせて音声の話速を変換して学習者に聞かせたりするための語学学習や発声訓練システムに適用することができ、話速変換を要する任意の用途に有用である。
1 話速変換装置
2 物理指標算出部
3 話速変換倍率決定部
100 有声度算出部
200 基本周波数・擬似基本周波数凹凸算出部
210 凹凸度算出部
300 周波数帯域・パワー演算部
310 分割帯域パワー比演算部
202 基本周波数抽出部
204 擬似基本周波数算出部
206 基本周波数軌跡連結部
300 周波数帯域・パワー演算部
302 スペクトル算出部
304 帯域分割部
306 パワー演算部
120 第1話速変換倍率指定部(話速変換倍率指定部a)
220 第2話速変換倍率指定部(話速変換倍率指定部b)
320 第3話速変換倍率指定部(話速変換倍率指定部c)
400 話速変換倍率微調整部

Claims (8)

  1. 入力信号の適応的話速変換を行う話速変換装置であって、
    入力信号を単位時間毎に分割した各セグメントについて、当該入力信号の物理指標を算出する物理指標算出部と、
    前記物理指標算出部によって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行う話速変換倍率決定部と、
    を備えることを特徴とする話速変換装置。
  2. 前記物理指標算出部は、
    入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度を、前記物理指標として算出する有声度算出部を備えることを特徴とする、請求項1に記載の話速変換装置。
  3. 前記物理指標算出部は、
    入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度を、前記物理指標として算出する凹凸度算出部を備えることを特徴とする、請求項1又は2に記載の話速変換装置。
  4. 前記物理指標算出部は、
    入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を、前記物理指標として算出する分割帯域パワー比演算部を備えることを特徴とする、請求項1〜3のいずれか一項に記載の話速変換装置。
  5. 前記話速変換倍率決定部は、
    入力信号全体に対して速度変換すべき再生速度変換倍率が与えられた場合に、前記決定した話速変換倍率を前記再生速度変換倍率に適合するように微調整する話速変換倍率微調整部を備えることを特徴とする、請求項1〜4のいずれか一項に記載の話速変換装置。
  6. 前記話速変換倍率決定部は、
    前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの1つ以上の物理指標を用いて当該入力信号の各セグメントに指定すべき話速変換倍率を決定する話速変換倍率微調整部を備えることを特徴とする、請求項1〜5のいずれか一項に記載の話速変換装置。
  7. 前記話速変換倍率微調整部は、入力信号の種別に応じて前記有声度、前記凹凸度、及び前記分割帯域パワー比のうちの1つ以上の物理指標に基づく話速変換倍率の配分割り当てを行うことを特徴とする、請求項6に記載の話速変換装置。
  8. 入力信号の適応的話速変換を行う話速変換装置として構成するコンピュータに、
    入力信号を単位時間毎に分割した各セグメントについて、入力信号における単位時間あたりの自己相関で得られる相対最大値を表す有声度、入力信号における単位時間あたりの基本周波数及び擬似基本周波数の軌跡の変化傾向を表す凹凸度、及び、入力信号における単位時間あたりの帯域分割した低域側パワー成分と高域側パワー成分との比率を表す分割帯域パワー比のうちの1つ以上の物理指標を算出するステップと、
    該ステップによって算出した物理指標に応じて、入力信号の各セグメントに指定すべき話速変換倍率を決定して話速変換を行うステップと、
    を実行させるためのプログラム。
JP2009179254A 2009-07-31 2009-07-31 適応的な話速変換装置及びプログラム Active JP5412204B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009179254A JP5412204B2 (ja) 2009-07-31 2009-07-31 適応的な話速変換装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009179254A JP5412204B2 (ja) 2009-07-31 2009-07-31 適応的な話速変換装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011033789A true JP2011033789A (ja) 2011-02-17
JP5412204B2 JP5412204B2 (ja) 2014-02-12

Family

ID=43762934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009179254A Active JP5412204B2 (ja) 2009-07-31 2009-07-31 適応的な話速変換装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5412204B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012102056A1 (ja) * 2011-01-28 2012-08-02 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP2014157331A (ja) * 2013-02-18 2014-08-28 Nippon Hoso Kyokai <Nhk> 話速変換装置、方法及びプログラム
US9129594B2 (en) 2013-03-28 2015-09-08 Fujitsu Limited Signal processing apparatus and signal processing method

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257490A (ja) * 1992-03-10 1993-10-08 Nippon Hoso Kyokai <Nhk> 話速変換方法および装置
JPH07210192A (ja) * 1994-01-14 1995-08-11 Tomosato Yamagoshi 出力データ制御方法及び装置
JPH0845177A (ja) * 1993-10-19 1996-02-16 Sanyo Electric Co Ltd 話速変換装置
JPH1091189A (ja) * 1996-09-17 1998-04-10 Nec Corp 発声速度変換装置
JPH10301598A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 話速変換方法およびその装置
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
JP2002297200A (ja) * 2001-03-30 2002-10-11 Sanyo Electric Co Ltd 話速変換装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257490A (ja) * 1992-03-10 1993-10-08 Nippon Hoso Kyokai <Nhk> 話速変換方法および装置
JPH0845177A (ja) * 1993-10-19 1996-02-16 Sanyo Electric Co Ltd 話速変換装置
JPH07210192A (ja) * 1994-01-14 1995-08-11 Tomosato Yamagoshi 出力データ制御方法及び装置
JPH1091189A (ja) * 1996-09-17 1998-04-10 Nec Corp 発声速度変換装置
JPH10301598A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 話速変換方法およびその装置
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
JP2002297200A (ja) * 2001-03-30 2002-10-11 Sanyo Electric Co Ltd 話速変換装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012102056A1 (ja) * 2011-01-28 2012-08-02 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP2012159540A (ja) * 2011-01-28 2012-08-23 Nippon Hoso Kyokai <Nhk> 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US9129609B2 (en) 2011-01-28 2015-09-08 Nippon Hoso Kyokai Speech speed conversion factor determining device, speech speed conversion device, program, and storage medium
JP2014157331A (ja) * 2013-02-18 2014-08-28 Nippon Hoso Kyokai <Nhk> 話速変換装置、方法及びプログラム
US9129594B2 (en) 2013-03-28 2015-09-08 Fujitsu Limited Signal processing apparatus and signal processing method

Also Published As

Publication number Publication date
JP5412204B2 (ja) 2014-02-12

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
US8484035B2 (en) Modification of voice waveforms to change social signaling
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
EP3065130A1 (en) Voice synthesis
JP6349112B2 (ja) サウンドマスキング装置、方法及びプログラム
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP4965371B2 (ja) 音声再生装置
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2009075280A (ja) コンテンツ再生装置
CN112420062A (zh) 一种音频信号处理方法及设备
JP6224325B2 (ja) 話速変換装置、及びプログラム
US11380345B2 (en) Real-time voice timbre style transform
JP5723568B2 (ja) 話速変換装置及びプログラム
JP5863472B2 (ja) 話速変換装置およびそのプログラム
JP5679451B2 (ja) 音声処理装置およびそのプログラム
EP3327723A1 (en) Method for slowing down a speech in an input media content
Uchimura et al. Study on manipulation method of voice quality based on the vocal tract area function.
JP2009192739A (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120227

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Ref document number: 5412204

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250