JP3187241B2

JP3187241B2 - 話速変換装置

Info

Publication number: JP3187241B2
Application number: JP06725094A
Authority: JP
Inventors: 篤今井; 徹都木; 章中村; 信正清山; 栄一宮坂
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1994-04-05
Filing date: 1994-04-05
Publication date: 2001-07-11
Anticipated expiration: 2016-07-11
Also published as: JPH07281690A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話速変換装置に関し、
特に聴覚障害者や高齢者等の音声補聴装置や、一般的な
語学学習装置、ラジオ、テープレコーダー、電話などに
おいて、話速変換による補助的聴取を行う際の聞き取り
易さの向上、テレビジョン、ビデオテープレコーダー、
ビデオディスクプレーヤーなどの音声出力を話速変換し
た際に生ずる映像と音声のズレを効果的に吸収するリア
ルタイム式の話速変換装置に関する。

【０００２】

【従来の技術】話速を変換する際に、有声区間を一様倍
率で伸張する手法（中村章ほか平成４年日本音響学会春
季研究発表会「高品質リアルタイム話速変換システム」
２−６−１Ｐ．３２９−Ｐ．３３０（１９９２−３））
や、発声の開始点からの経過時間の関数として倍率を可
変にする話速変換法（池沢龍ほか平成４年日本音響学会
春季研究発表会「話速変換に伴う時間伸張を吸収するた
めの一手法」２−６−２Ｐ．３３１−Ｐ．３３２（１９
９２−３））が存在するが、これらはいずれも各々の有
声区間長とは無関係に、伸張倍率を経過時間の関数とし
て一意に定めたものであり、変換音声が全ての有声区間
で聴感上同程度の「ゆっくり感」を与えるとは言えず、
聴感上の効果に「ばらつき」が生ずることがある。従
来、これを解決して聴感上安定に且つ自然に変換する話
速変換技術はなかった。

【０００３】

【発明が解決しようとする課題】入力音声の話速を「ゆ
っくり」にすることを目的として、無音区間、無声区
間、有声区間を分離し、無音区間と無声区間の長さはそ
のままに、有声区間の伸張による話速変換を行う際、音
声中の複数の有声区間を一様な倍率で伸張した場合、各
々の有声区間の区間長によって、聴感上の「ゆっくり
感」の程度に差異が生ずることがわかっている（今井篤
ほか平成５年日本音響学会秋季研究発表会「話速変換に
伴う時間伸張のリアルタイム吸収法」１−９−１０Ｐ．
３６１−Ｐ．３６２（１９９３−１０））。

【０００４】音声中には、異なる母音の連鎖や長母音な
どのように３００ｍｓを越えるような比較的長い有声区
間や、逆に無声区間や無音区間に挟まれた母音などに多
い１００ｍｓを下回るような比較的短い有声区間が相次
いで現れることもあり、例えば、この両者が混在する音
声に対して、一定の同じ倍率で伸張した音声を聴取した
場合、長い有声区間は１有声区間単位での伸張時間の絶
対量が大きく、聴感上の「ゆっくり感」が大きいのに比
べ、短い有声区間は伸張時間の絶対量が小さく、場合に
よっては殆ど「ゆっくり感」が感じられないことがあ
る。

【０００５】例えば、区間長が３５０ｍｓと８０ｍｓの
ものを従来法により一律に１．５倍に伸張した場合、５
２５ｍｓと１２０ｍｓに変換されるが、前者の伸張時間
の絶対増加量が１７５ｍｓであるのに対して、後者は僅
か４０ｍｓの伸張で、これが聴感上の効果の差となって
現れてくる。従って、この様に長短さまざまな有声区間
分布が一連の入力音声中に複数箇所存在する場合は、話
速の定まらない不安定な音声に変換されてしまい、場合
によってはこれがかなり気になることがある。

【０００６】また、既に提案されている、話速変換に伴
う時間伸張を吸収する手法（池沢龍ほか平成４年日本音
響学会春季研究発表会「話速変換に伴う時間伸張を吸収
するための一手法」２−６−２Ｐ．３３１−Ｐ．３３２
（１９９２−３））では、一息で発声する区間（フレー
ズ）の開始点での有声区間の伸張倍率を高く設定し、徐
々に話速を速くしていくことで、変換音声の全体として
の「ゆっくり感」と、全体としての時間伸張の吸収を実
現しているが、このフレーズの開始点付近において短い
有声区間が相次いで出現するような音声の場合には、上
述の理由により比較的高い倍率を乗じても「ゆっくり
感」が得られず、結果的に後半の話速の速い部分だけが
目立ってしまうことになり、期待する効果が得られない
場合がある。

【０００７】上述した問題点を更に具体的事例で示す。

【０００８】（１）一息で発声される区間（フレーズ）
の予測長を２０００ｍｓに固定し、伸張倍率ｒを図１に
示す曲線に添ってｒｓ（ｒｓ＞１）からｒｅ（ｒｅ＜
１）へと単調に減少させる。

【０００９】（２）２０００ｍｓを越せたところではピ
ッチ周波数の変化に伴い倍率に適宜修正を加える。

【００１０】この手法をリアルタイム話速変換システム
に導入し、多数のニュース音声を変換した結果、いくつ
かのフレーズについて期待される効果、特に、フレーズ
の開始点付近において「ゆっくり」した感覚を生じさせ
る効果の得られないものがあった。図２に、特に効果的
であったフレーズ１例（同図の（ａ））と、特に効果が
感じられなかったフレーズ２例（同図の（ｂ），
（ｃ））について、フレーズ内の有声区間長の時間軸上
の分布を示す。

【００１１】この３例に代表される傾向として以下の点
が挙げられる。

【００１２】（１）文頭４５０ｍｓ〜５００ｍｓ以内に
１５０ｍｓを越える比較的長い有声区間が複数個存在す
る場合は、伸張倍率ｒがｒ＝１．４でも効果が大きい。

【００１３】（２）フレーズの開始部分に１５０ｍｓ以
下の比較的短い有声区間が存在する場合、ｒ＝２．０で
も効果が少ない。

【００１４】他のフレーズについても検証した結果、同
様の傾向が見られた。

【００１５】本発明は、上述した問題点に鑑みてなされ
たもので、その目的は有声区間の伸張による話速変換を
行う際に、入力音声の有声区間長の差異に起因する話速
変換効果の聴感上のばらつきを無くし、いかなる入力音
声に対しても自然で、且つ安定した話速変換効果が得ら
れる話速変換装置を提供することにある。

【００１６】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力音声の無音区間、無声区間、有声区
間を分離し、このうち有声区間を伸張することによって
発声の速さ（話速）を声の高さを保ったまま遅くする変
換を行う際に、各有声区間の時間長を逐次検出し、各々
の有声区間の時間長に一様な値の、あるいは経過時間と
ともに滑らかに変化する規準倍率を乗ずることにより、
その倍率に対応した聴感的な効果を得る話速変換装置で
あって、変換対象となる有声区間の時間長が所定の長さ
以下か否かを判定する判定手段と、該判定手段の判定結
果により、前記変換対象となる有声区間の時間長が前記
所定の長さを越える場合にはその有声区間の出現時刻で
の規準倍率を乗ずるが、前記変換対象となる有声区間の
時間長が、前記所定の長さ以下の有声区間については、
その有声区間の時間長に応じて前記規準倍率に比べてよ
り高い伸張倍率を乗ずる演算手段とを有することを特徴
とする。

【００１７】また、本発明は好ましくは、前記演算手段
は、前記所定の長さに当る１５０ｍｓ以下の短い有声区
間に対しては、その有声区間の出現時刻に関係なく、前
記規準倍率に比べてより高い伸張倍率を供する倍率関数
に沿ってその有声区間の時間長に対応した伸張倍率を乗
じ、また前記１５０ｍｓを越える有声区間の場合は、当
該有声区間の時間長に前記規準倍率を乗ずることを特徴
とすることができる。

【００１８】また、本発明は好ましくは、前記経過時間
とともに滑らかに変化する規準倍率として、一息で発生
する区間を単位にして、この区間の開始点ではゆっくり
とした話速を設定し、その終了点に向かって徐々に話速
を速めることを特徴とする倍率関数を適用する場合に、
前記演算手段は、上記区間の開始時刻から一定時間内、
好ましくは時間４５０ｍｓ程度以内に出現する前記所定
の長さに当たる区間長、好ましくは１５０ｍｓ程度に満
たない区間長を有する有声区間に対しては、その有声区
間の出現時刻に関係なく、前記規準倍率に比べてより高
い伸張倍率を供する倍率関数に沿ってその有声区間の時
間長に対応した伸張倍率を常時、また前記１５０ｍｓを
越える有声区間および経過時間が４５０ｍｓを越える場
合は、当該有声区間の時間長に前記規準倍率を乗ずるこ
とを特徴とすることができる。

【００１９】なお、上記の１５０ｍｓ，４５０ｍｓの値
は好ましい値の１つを具体的に例示したものであって、
本発明はこの値に限定されるものではない。

【００２０】また、本発明は好ましくは、前記所定の長
さとは規準倍率として実用的な値を設定したときに、変
換音声の「ゆっくり感」が聴感的に感じ取れなくなる有
声区間の最大時間長を指し、この最大時間長以下の有声
区間については、その時間長ｗを変数とする新たな倍率
関数ｇ（ｗ）を導入し、その倍率関数に従って伸張倍率
を与えることとし、この倍率関数によって与えられる倍
率は前記規準倍率に比べて高い値であって、特に、短い
有声区間ほど高倍率になるという性質のものであり、ま
た同倍率関数による倍率の最大増幅値、最小増幅値は固
定ではなく、前記規準倍率の規準倍率関数ｆ（ｔ）の値
によってそれぞれが比例的に変化させられるものである
ことを特徴とすることができる。

【００２１】

【作用】本発明では、話速変換の効果の程度に影響する
有声区間の長さに着目し、聴感上自然で、且つ安定な話
速変換効果が得られるように、ある一定の長さ以下の短
い有声区間に対しては、その区間長に対応して短いもの
ほどより高い伸張倍率を与えるような新たな関数を適用
する。これにより、多様な入力音声を所望の話速に自然
に、且つ安定した効果をもって話速変換することが可能
になる。特に、従来提案されている話速変換による時間
伸張を吸収する手法（池沢龍ほか平成４年日本音響学会
秋季研究発表会「話速変換における時間伸張吸収のリア
ルタイム化の検討」２−９−２Ｐ．３４９−Ｐ．３５０
（１９９３−１０））に適用した場合は、発声の開始点
付近の「ゆっくり感」が聴感上不安定であったという欠
点が解消され、安定したより効果的な変換音声を得るこ
とが可能となる。

【００２２】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。

【００２３】一息で発声されると予測される区間内で、
この区間の開始点に於いては原音声の話速より「ゆっく
り」とした話速を設定し、終了点に向かって一定の規則
に従って話速を速めていく「リアルタイム話速変換方
法」の手法（池沢龍ほか平成４年日本音響学会秋季研究
発表会「話速変換における時間伸張吸収のリアルタイム
化の検討」２−９−２Ｐ．３４９−Ｐ．３５０（１９９
３−１０））に本発明を適用した場合の実施例について
説明する。この「リアルタイム話速変換方法」は、実時
間で動作する話速変換装置において時間伸張を吸収する
手法であるが、これは各フレーズの開始点での「ゆっく
り感」が特に要求されるものである。これに本発明によ
る手法を適用することは特に効果的であるといえる。

【００２４】図３は本発明の一実施例の動作の概要を示
す。文頭から４５０ｍｓ以内に出現する１５０ｍｓ以下
の短い有声音に対しては、その有声音の出現時刻に関係
なく、図３に示すような倍率関数ｇ（ｗ）に沿って有声
音の長さに対応した伸張倍率を与える。１５０ｍｓを越
える有声音および経過時間が４５０ｍｓを越える場合
は、従来の伸張倍率曲線ｆ（ｔ）（図１）を適用する。

【００２５】図４〜図７は本発明の一実施例を更に詳細
に示す図である。

【００２６】図４は本発明の一実施例の全体回路構成を
示すブロック図である。

【００２７】図４に示すリアルタイム話速変換装置は、
音声入力回路１と、ＣＰＵ（中央処理ユニット）回路２
と、ＰＲＯＭ（プログラマブルＲＯＭ）回路３と、入力
バッファ回路４と、処理バッファ回路５と、ファイル回
路６と、音声出力回路７と、バス８とを備えている。そ
して、音声入力回路１によって話速変換対象となる音声
（原音声）を取り込み、リアルタイム処理で、原音声の
声の高さ（ピッチ周波数）の変化を検出すると共に、こ
の検出結果に基づいて、声の高さの高い部分では話速を
緩め、低い部分では話速を速めるという規則で話速を変
化させることにより、原音声の発話時間を保ったまま、
原音声を聴き易い良好な音声に変換する。

【００２８】音声入力回路１は、原音声を入力するため
の一般的な構成の回路、例えばマイクロフォン、音調回
路、Ａ／Ｄ（アナログ／デジタル）変換器、音声記憶再
生回路、音声記録媒体（例えば、ＩＣメモリ、ハードデ
ィスク、フロッピーディスクまたはＶＴＲ（ビデオテー
プレコーダ））、およびインターフェイス回路等を備え
ており、話速変換対象となる音声を取り込み、これをデ
ジタル形式の音声信号に変換するとともに、この変換し
たデジタル音声信号をＣＰＵ回路２からの指示に基づい
てフレーム単位で入力バッファ回路４に供給する。

【００２９】入力バッファ回路４は、必要な容量のＲＡ
Ｍ（ランダムアクセスメモリ）などによって構成され、
ＣＰＵ回路２の作業域として使用される部分であり、音
声入力回路１から出力される音声信号を取り込んでこれ
を記憶するとともに、ＣＰＵ回路２からの指示に基づい
て記憶している音声信号を処理バッファ回路５に転送す
る。

【００３０】処理バッファ回路５は、必要な容量のＲＡ
Ｍなどによって構成され、ＣＰＵ回路２の作業域として
使用される部分であり、入力バッファ回路４から出力さ
れる音声信号を取り込んでこれを記憶するとともに、Ｃ
ＰＵ回路２からの指示に基づいて記憶している音声信号
をファイル回路６などに転送する。

【００３１】ファイル回路６は、ＲＡＭのほかに、ＩＣ
メモリやフロッピーディスク等の音声記録媒体によって
構成され、本発明に係わる有声区間の伸張された音声信
号と、無音区間の短縮の処理を施された信号などを格納
するメモリであって、処理バッファ回路５から処理済の
音声信号が出力されたとき、これを取り込んで記憶し、
この後ＣＰＵ回路２からの指示に基づいて記憶している
音声信号を音声出力回路７に供給する。

【００３２】音声出力回路７は、ファイル回路６内の音
声信号を外部に出力するための一般的な構成の回路、例
えばインターフェイス回路、Ｄ／Ａ（デジタル／アナロ
グ）変換器、スピーカー、録音装置（あるいは放送機
器）等を備えており、ファイル回路６から音声信号が出
力されたとき、これを取り込んで音声に変換しながら、
外部に出力する。

【００３３】また、ＣＰＵ回路２は、ワンチップマイク
ロコンピュータ等によって構成される部分であり、ＰＲ
ＯＭ回路３に格納されている図５，図６に示すようなプ
ログラムに基づいて装置全体の制御や各種のデータ処理
を行う。

【００３４】また、ＰＲＯＭ回路３は、ＣＰＵ回路２の
動作を規定するプログラムや各種の処理で使用される定
数データなどの格納場所として使用される部分であり、
ＣＰＵ回路２からの読みだし指令に応じて記憶している
プログラムや定数データを読み出してＣＰＵ回路２に供
給する。

【００３５】次に、本発明の一実施例の動作について図
５，図６を参照して説明する。

【００３６】図５、及び図６は処理の流れを示すフロー
チャートであり、図６は図５のＳＴ９の有声区間処理ル
ーチンの詳細を示す。

【００３７】ここでは、説明のために音声信号中の息継
ぎ区間を「ポーズ」、一息で発生される区間を「フレー
ズ」、また「フレーズ」の時間長の平均的な値を「予測
フレーズ長」と呼び、次のように定義する。

【００３８】ポーズ：無音部分と判定された区間のう
ち、その区間長がＴｈ１（本実施例ではＴｈ１＝２００
ｍｓ）以上の無音区間。なお、Ｔｈはスレッショールド
値を意味する。

【００３９】フレーズ：ポーズと次のポーズに挟まれる
区間。この区間の開始点をＰｈ＿ｓｔとする。

【００４０】予測フレーズ長：フレーズの平均的な時間
長で、Ｔ（単位はｍｓ）とする。（本実施例ではＴ＝２
０００ｍｓとした）また、図６中のｆ（ｔ）とｇ（ｗ）
は有声区間の伸張倍率を定める関数であり、以下の特性
を有するものである。

【００４１】ｆ（ｔ）：話速変換に伴う時間伸張を吸収
するために用いる倍率関数であって、予測フレーズ長内
の有声区間の出現時刻ｔ（０≦ｔ≦Ｔ）に対して倍率を
定める単調減少関数である。

【００４２】ｔ＝０におけるあらかじめ定めた倍率をｒ
_s 、ｔ＝Ｔにおけるあらかじめ定めた倍率をｒ_e （ｒ_s
≧ｒ_e ）とすると、ｆ（ｔ）はｒ_s ≧ｆ（ｔ）≧ｒ_e ，０≦ｔ≦Ｔを満たす。

【００４３】ｇ（ｗ）：一定の区間長Ｗ₁ （本実施例で
はＷ₁ ＝１５０ｍｓ）に満たない有声区間を、その区間
長ｗに応じて、ｆ（ｔ）により定まる規準倍率より高い
倍率で伸張するための倍率関数であって、有声区間長ｗ
（０＜ｗ≦Ｗ₁ ）に対して倍率を定める単調減少関数で
ある。

【００４４】ここで、ｇ（ｗ）の適用条件を満たした有
声区間［ｔ_k ，ｔ_k ＋Ｗ₁ ］（但し、ｗ_k ＜Ｗ₁ ）に対
して、ｇ（ｗ）の定義により、常にｆ（ｔ_k ）≦ｇ（ｗ_k ）の関係が成り立つ。

【００４５】次に、図５の処理手順を説明する。なお、
ＳＴはステップを意味する。

【００４６】（ＳＴ０）まず、ｆ（ｔ）の最高倍率ｒ_s
と最低倍率ｒ_e を設定する。

【００４７】（ＳＴ０−１）次に、フレーム番号ｉを０
にセットする。

【００４８】（ＳＴ０−２）続いて、上記ｉをｉ＋１と
インクリメントする。

【００４９】（ＳＴ１）そして、音声入力回路１が取り
込んだ入力音声を、フレームと呼ばれる一定長の部分に
分割し、その結果を入力バッファ回路４に格納する処理
を行う。

【００５０】本実施例ではフレーム幅６．６６ｍｓのＨ
ａｍｍｉｎｇ（ハミング）窓を３．３ｍｓずつずらしな
がら切り出して格納する。

【００５１】（ＳＴ２）入力音声信号を各フレーム毎
に、自己相関法や、零クロス法などの方法で処理して有
声、無声、無音の判定を行う。人が発声する有声および
無声以外の入力音（例えば、低レベルの雑音や背景音
等）は原則として無音として識別処理する。

【００５２】（ＳＴ３）ｉ番目のフレームについての有
声、無声、無音の判定結果（今回の判定結果）と、ｉ−
１番目のフレームについて有声、無声、無音の判定結果
（前回の判定結果）とが同じであるか否かを判別する。
両者の判定結果が同じであれば（ＳＴ０−２）に戻り、
同じでないならば次の（ＳＴ４）に移る。但し、ｉ＝１
の場合は（ＳＴ０−２）に戻る。

【００５３】本実施例では、システム全体の処理の遅延
時間を最大限短縮するため、有声、無声、無音の各音声
区間については各々の区間長全体を一括して処理するの
ではなく、出来るだけ短い区間に分割（本実施例では、
有声区間を１５０ｍｓに分割）して処理した。

【００５４】（ＳＴ４）ｉ−１フレームまでの、同じ種
類（有声、無声或いは無音）の区間と判定されている音
声区間を入力バッファ回路４から処理バッファ回路５に
転送して格納する。

【００５５】（ＳＴ５）処理バッファ回路５に格納され
ている音声区間が、無音か無声か有声か否かを判定す
る。無音区間の場合は（ＳＴ６）へ進み、無声区間の場
合は（ＳＴ１１）へ移り、有声区間の場合は（ＳＴ９）
へ移る。

【００５６】（ＳＴ６）当該無音区間がポーズ区間か否
かを判断する。ポーズ区間の場合は（ＳＴ６−１）へ移
り、ポーズ区間でない場合は（ＳＴ８）へ飛ぶ。但し、
図４のリアルタイム話速変換装置の起動時はポーズ区間
であったと判断し、必ず（ＳＴ６−１）へ進む。

【００５７】（ＳＴ６−１）ポーズ区間以降に出現する
有声区間の番号を表す変数ｋに初期値としての１を代入
する。

【００５８】（ＳＴ７）ポーズの区間長を調べ、その区
間長によって適宜、予め設定されているアルゴリズム
（池沢龍ほか「話速変換に伴う時間伸張を吸収するため
の一方法」１９９２年音声研究会Ｐ．４９−Ｐ．５６）
によって聴感上違和感ない程度に短縮する。

【００５９】本実施例では、８６２ｍｓを越える区間長
を有する無音区間を一律にこの８６２ｍｓの値まで短縮
することとし（池沢龍ほか平成４年日本音響学会春季研
究発表会「話速変換に伴う時間伸張を吸収するための一
手法」２−６−２Ｐ．３３１−Ｐ．３３２（１９９２−
３））、無音区間８６２ｍｓを経過した時点で更に無音
区間が続く場合は、それ以降の無音データを廃棄して次
のフレーズの開始点を待つこととする。

【００６０】（ＳＴ８）処理バッファ回路５内にある処
理済の無音区間の信号をファイル回路６に転送させて格
納させた後、処理バッファ回路５をクリアする。次に
（ＳＴ１２）へ移る。

【００６１】（ＳＴ１２）音声信号の最後まで処理した
か否かを判定する。肯定判定の場合は本（ＳＴ９）の処
理をルーチン終了し、否定判定の場合は（ＳＴ０−２）
へ戻る。

【００６２】（ＳＴ９）（ＳＴ５）で有声区間と判定さ
れた区間に対して、後述の図６に示す有声区間処理を行
う。この区間の処理における時間軸の原点をＶ＿ｓｔと
定義する。また、フレーズ内の第ｋ有声区間の開始時刻
をｔ_k 、区間長をｗ_k と記す。

【００６３】（ＳＴ９−１）上述の変数ｋをｋ＋１とイ
ンクリントする。

【００６４】（ＳＴ１０）処理バッファ回路５内にある
話速変換済みの音声データをファイル回路６のメモリに
格納するとともに、処理バッファ回路５をクリアする。
その後、上述の（ＳＴ１２）へ移る。

【００６５】（ＳＴ１１）（ＳＴ５）において処理対象
となる区間が無声と判断されれば、この無声区間の音声
信号を処理バッファ回路５からファイル回路６に転送し
て格納した後、処理バッファ回路５をクリアする。その
後、上述の（ＳＴ１２）へ移る。

【００６６】次に、図６のＳＴ９有声区間処理ルーチン
の詳細を説明する。

【００６７】（ＳＴ１４）まず、有声区間のピッチ抽出
を行う。

【００６８】（ＳＴ１５）次に、変数ｋがｋ＝１か否か
を判定する。ｋ＝１の場合、即ちポーズ区間以降に出現
する最初の有声区間の場合は（ＳＴ１５−１）へ移り、
そうでない場合は（ＳＴ１５−２）へ移る。

【００６９】（ＳＴ１５−１）この有声区間の処理にお
ける時間軸の原点を示す変数Ｖ＿ｓｔに時刻ｔ₁ を代入
する。次に（ＳＴ１６）へ移る。

【００７０】（ＳＴ１５−２）変数ｋが３以下か否か、
即ちｋが２または３であるか否かを判定する。ｋが２ま
たは３の場合は（ＳＴ１６）へ移り、ｋが４以上の場合
は（ＳＴ１７）へ飛ぶ。

【００７１】（ＳＴ１６）第ｋ有声区間の最大ピッチ周
波数をＰ_k と定義する。ｋ＝１，２，３の場合にはＰ_k
の値を保存する。

【００７２】（ＳＴ１６−１）変数ｋがｋ＝３か否かを
判定する。ｋ＝３の場合は次の（ＳＴ１６−２）へ移
り、そうでない場合、即ちｋ＝１，２の場合は（ＳＴ１
７）へ飛ぶ。

【００７３】（ＳＴ１６−２）３つの有声区間Ｐ₁ ，Ｐ
₂ ，Ｐ₃ のうちの最大値をＰｉｔｃｈ＿ｍａｘとする。次に（ＳＴ１７）へ移る。

【００７４】（ＳＴ１７）ｔ_k が、区間［Ｖ＿ｓｔ，Ｖ
＿ｓｔ＋Ｔ］に含まれているか否かを判定する。含まれ
ていれば（ＳＴ１７−１）へ移り、そうでなければ（Ｓ
Ｔ１２）へ移る。（本実施例では前述のようにＴ＝２０
００ｍｓとした。）（ＳＴ１７−１）Ｖ＿ｓｔ＞ｔ₁ であるか否かを判定す
る。

【００７５】Ｖ＿ｓｔ＞ｔ₁ のときは、発声の終了点間
近で意味的重要度が低い場合が多いため、本実施例では
特にｇ（ｗ）を適用せず、（ＳＴ１７−１）から直接
（ＳＴ１９）に移ることとした。それ以外のときは次の
（ＳＴ１８）へ移る。

【００７６】（ＳＴ１８）フレーズの開始部において変
換により生じる聴感上の「ゆっくり感」を効果的にする
ために必要な時間長をＴ₁ とする。Ｔ₁ は実験結果から
（今井篤ほか平成５年日本音響学会秋季研究発表会
「話速変換に伴う時間伸張のリアルタイム吸収法」１−
９−１０Ｐ．３６１−Ｐ．３６２（１９９３−１０））
Ｔの１／４程度が望ましく、本実施例ではＴ₁ ＝４５０
ｍｓとした。

【００７７】本処理ブロックでは、第ｋ有声区間の終了
時刻ｔ_k ＋ｗ_k が区間［Ｖ＿ｓｔ，Ｖ＿ｓｔ＋Ｔ₁ ］含
まれているか否かを判定する。含まれていれば次の（Ｓ
Ｔ１８−１）へ移り、そうでなければ（ＳＴ１９）へ移
る。

【００７８】（ＳＴ１８−１）ｋ番目の有声区間長ｗ_k
と、予め設定されている区間長Ｗ₁ が、ｗ_k ≦Ｗ₁ であるか否かを判定する。肯定判定のときは（ＳＴ２
０）へ移り、否定判定のときは（ＳＴ１９）へ移る。

【００７９】有声区間の伸張による話速変換では、区間
長が短いもの程その変換効果が小さくなるが、Ｗ₁ は、
入力音声を１．３倍程度の一様な倍率で話速変換した際
に、聴感上の話速変換効果が余り感じられなくなる臨界
有声区間長を実験により導いた値で、本実施例ではＷ₁
＝１５０ｍｓとした。

【００８０】（ＳＴ１９）予め設定した倍率関数ｆ
（ｔ）を適用して有声区間を伸張する。このｆ（ｔ）は
単調減少関数であり、本実施例では以下の式（１）のよ
うな余弦関数を用いて、倍率をｒ_s からｒ_e まで変化さ
せた。

【００８１】（図７の曲線のグラフ参照）

【００８２】

【数１】 f(t)＝r_e＋0.5(r_s-r_e){cosπ(t-V_st)/T+1.0} （１）但し、V_st≦ｔ≦V_st＋Ｔ本実施例では、１．０≦ｒ_s ≦１．６，０．７≦ｒ_e ＜
１．０の範囲で任意に値を定めた。その後、図５のメイ
ンルーチンに戻る。

【００８３】（ＳＴ２０）Ｖ＿ｓｔからの経過時間にか
かわらず、当該有声区間の区間長ｗ_k に対して、ｇ（ｗ
_k ）で定まる倍率を適用して有声区間を伸張する。

【００８４】本実施例で用いた倍率関数ｇ（ｗ）は次式
（２）に示す一次関数とし、倍率をｇ（０）からｇ（ｗ
₁ ）まで変化させた。その後、図５のメインルーチンに
戻る。

【００８５】（図７の右角の直線のグラフ参照）

【００８６】

【数２】ｇ（ｗ）＝（−（ｒ_s ²−ｆ( Ｗ₁)）ｗ /Ｗ₁)＋ｒ_s ² （２）但し、V_st＝０でｇ（Ｗ₁ ）＝ｆ（Ｗ₁ ）とした。

【００８７】（ＳＴ２１）処理対象となっている有声区
間の最大ピッチ周波数Ｐ_k が、以下の式（３）の条件を
満たす場合は（ＳＴ２２）へ、満たさない場合は（ＳＴ
２３）へ移る。

【００８８】

【数３】Ｐ_k ＞Ｐｉｔｃｈ＿ｍａｘ×Ｔｈ２（３）本実施例では、Ｔｈ２＝０．７とした。

【００８９】（ＳＴ２２）変数Ｖ＿ｓｔに時刻ｔ_k を代
入する。

【００９０】（ＳＴ２２−１）変数ｒ_s に（ｒ_s −Ｔｈ
３）を代入する。

【００９１】これによって、ｆ（ｔ）は（ｒ_s −Ｔｈ
３）からｒ_e まで倍率を変化させる。本実施例では、Ｔ
ｈ３＝０．１に設定した。その後、上記の（ＳＴ１７）
へ戻る。

【００９２】（ＳＴ２３）有声区間を伸張倍率をｒ_e で
伸張する。つまり、話速を最も速い状態のままにする。
その後、（ＳＴ９）の有声区間処理ルーチンを終了し、
図５のメインルーチンに戻る。

【００９３】

【発明の効果】以上説明したように、本発明によれば、
入力音声の無音区間、無声区間、有声区間を分離し、有
声区間を伸張することによって発声する速さ（話速）を
ゆっくりに変換する方法において、全ての有声区間を一
定の倍率によって変換した際に、各有声区間長の違いに
より生ずる聴感上の話速変換効果のばらつきを解消する
ため、有声区間がある値よりも短いものについては所望
の倍率に対応した聴感上の話速変換効果が得られるよう
に、その区間長に応じて更に高い倍率で伸張するように
しているので、いかなる発声音声に対しても自然で且つ
安定した話速変換効果が得られる。即ち、本発明によれ
ば、受聴者の希望にあった話速に安定、且つ自然に変換
することが出来る。

【図面の簡単な説明】

【図１】従来法における倍率関数を示すグラフである。

【図２】従来法を適用した場合の１フレーズ内の有声区
間長の時間軸上の分布を示すタイミング図である。

【図３】本発明の一実施例の倍率関数を示すグラフであ
る。

【図４】本発明の一実施例のリアルタイム話速変換装置
の回路構成例を示すブロック図である。

【図５】図４に示すリアルタイム話速変換装置の動作例
を示すメインフローチャートである。

【図６】図５に示す有声区間処理ルーチンの詳細を示す
フローチャートである。

【図７】図４に示すリアルタイム話速変換装置にｆ
（ｔ），ｇ（ｗ）の関数を適用した場合の動作例を示す
タイミング図である。

【符号の説明】

１音声入力回路２ＣＰＵ回路３ＰＲＯＭ回路４入力バッファ回路５処理バッファ回路６ファイル回路７音声出力回路８バスｆ（ｔ）話速変換に伴う時間伸張を吸収するために用
いる倍率関数ｇ（ｗ）一定の区間長Ｗ₁ に満たない有声区間を、そ
の区間長ｗに応じて、ｆ（ｔ）により定まる規準倍率よ
り高い倍率で伸張するための倍率関数ｒ_s あらかじめ定めた最高倍率ｒ_e あらかじめ定めた最低倍率Ｔ予測フレーズ長（フレーズの平均的な時間長）Ｐｈ＿ｓｔフレーズ（ポーズと次のポーズに挟まれる
区間）の開始点Ｖ＿ｓｔ有声区間の処理における時間軸の原点Ｐ_k 第ｋ有声区間の最大ピッチ周波数ｐｉｔｃｈ＿ｍａｘ最初の３つの有声区間Ｐ₁ ，Ｐ
₂ ，Ｐ₃ のうち最大値Ｗ₁ 予め設定されている区間長ｗ_k ｋ番目の有声区間長ｉフレーム番号ｋ有声区間番号ｔ_k 第ｋ有声区間の開始時刻

───────────────────────────────────────────────────── フロントページの続き (72)発明者清山信正東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者宮坂栄一東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (56)参考文献特開平１−93795（ＪＰ，Ａ) 特開平５−257490（ＪＰ，Ａ) 特開平５−80796（ＪＰ，Ａ) 特開平４−367898（ＪＰ，Ａ) 特開昭63−234299（ＪＰ，Ａ) 特開平６−337696（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/04

Claims

(57)【特許請求の範囲】

【請求項１】入力音声の無音区間、無声区間、有声区
間を分離し、このうち有声区間を伸張することによって
発声の速さ（話速）を声の高さを保ったまま遅くする変
換を行う際に、各有声区間の時間長を逐次検出し、各々
の有声区間の時間長に一様な値の、あるいは経過時間と
ともに滑らかに変化する規準倍率を乗ずることにより、
その倍率に対応した聴感的な効果を得る話速変換装置で
あって、変換対象となる有声区間の時間長が所定の長さ以下か否
かを判定する判定手段と、該判定手段の判定結果により、前記変換対象となる有声
区間の時間長が所定の長さを越える場合には、その有声
区間の出現時刻での規準倍率を乗ずるが、前記変換対象
となる有声区間の時間長が、前記所定の長さ以下の有声
区間については、その有声区間の時間長に応じて前記規
準倍率に比べてより高い伸張倍率を乗ずる演算手段とを
有することを特徴とする話速変換装置。
【請求項２】前記演算手段は、前記所定の長さに当る
１５０ｍｓ以下の短い有声区間に対しては、その有声区
間の出現時刻に関係なく、前記規準倍率に比べてより高
い伸張倍率を供する倍率関数に沿ってその有声区間の時
間長に対応した伸張倍率を乗じ、また前記１５０ｍｓを
越える有声区間の場合は、当該有声区間の時間長に前記
規準倍率を乗ずることを特徴とする請求項１に記載の話
速変換装置。
【請求項３】前記経過時間とともに滑らかに変化する
規準倍率として、一息で発生する区間を単位にしてこの
区間の開始点ではゆっくりとした話速を設定し、その終
了に向かって徐々に話速を速めることを特徴とする倍率
関数を適用する場合に、前記演算手段は、この区間の開
始時刻から時間４５０ｍｓ以内に出現する前記所定の長
さに当たる１５０ｍｓ以下の短い有声区間に対しては、
その有声区間の出現時刻に関係なく、前記規準倍率に比
べてより高い伸張倍率を供する倍率関数に沿ってその有
声区間の時間長に対応した伸張倍率を乗じ、また前記１
５０ｍｓを越える有声区間および経過時間が４５０ｍｓ
を越える場合には、当該有声区間の時間長に前記規準倍
率を乗ずることを特徴とする請求項１に記載の話速変換
装置。
【請求項４】前記所定の長さとは規準倍率として実用
的な値を設定したときに、変換音声の「ゆっくり感」が
聴感的に感じ取れなくなる有声区間の最大時間長を指
し、この最大時間長以下の有声区間については、その時
間長ｗを変数とする新たな倍率関数ｇ（ｗ）を導入し、
その倍率関数に従って伸張倍率を与えることとし、この倍率関数によって与えられる倍率は前記規準倍率に
比べて高い値であって、特に、短い有声区間ほど高倍率
になるという性質のものであり、また同倍率関数による倍率の最大増幅値、最小増幅値は
固定ではなく、前記規準倍率の規準倍率関数ｆ（ｔ）の
値によってそれぞれが比例的に変化させられるものであ
ることを特徴とする請求項１に記載の話速変換装置。