JP3187241B2 - 話速変換装置 - Google Patents

話速変換装置

Info

Publication number
JP3187241B2
JP3187241B2 JP06725094A JP6725094A JP3187241B2 JP 3187241 B2 JP3187241 B2 JP 3187241B2 JP 06725094 A JP06725094 A JP 06725094A JP 6725094 A JP6725094 A JP 6725094A JP 3187241 B2 JP3187241 B2 JP 3187241B2
Authority
JP
Japan
Prior art keywords
magnification
voiced
section
time
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP06725094A
Other languages
English (en)
Other versions
JPH07281690A (ja
Inventor
篤 今井
徹 都木
章 中村
信正 清山
栄一 宮坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP06725094A priority Critical patent/JP3187241B2/ja
Publication of JPH07281690A publication Critical patent/JPH07281690A/ja
Application granted granted Critical
Publication of JP3187241B2 publication Critical patent/JP3187241B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、話速変換装置に関し、
特に聴覚障害者や高齢者等の音声補聴装置や、一般的な
語学学習装置、ラジオ、テープレコーダー、電話などに
おいて、話速変換による補助的聴取を行う際の聞き取り
易さの向上、テレビジョン、ビデオテープレコーダー、
ビデオディスクプレーヤーなどの音声出力を話速変換し
た際に生ずる映像と音声のズレを効果的に吸収するリア
ルタイム式の話速変換装置に関する。
【0002】
【従来の技術】話速を変換する際に、有声区間を一様倍
率で伸張する手法(中村章ほか平成4年日本音響学会春
季研究発表会「高品質リアルタイム話速変換システム」
2−6−1P.329−P.330(1992−3))
や、発声の開始点からの経過時間の関数として倍率を可
変にする話速変換法(池沢龍ほか平成4年日本音響学会
春季研究発表会「話速変換に伴う時間伸張を吸収するた
めの一手法」2−6−2P.331−P.332(19
92−3))が存在するが、これらはいずれも各々の有
声区間長とは無関係に、伸張倍率を経過時間の関数とし
て一意に定めたものであり、変換音声が全ての有声区間
で聴感上同程度の「ゆっくり感」を与えるとは言えず、
聴感上の効果に「ばらつき」が生ずることがある。従
来、これを解決して聴感上安定に且つ自然に変換する話
速変換技術はなかった。
【0003】
【発明が解決しようとする課題】入力音声の話速を「ゆ
っくり」にすることを目的として、無音区間、無声区
間、有声区間を分離し、無音区間と無声区間の長さはそ
のままに、有声区間の伸張による話速変換を行う際、音
声中の複数の有声区間を一様な倍率で伸張した場合、各
々の有声区間の区間長によって、聴感上の「ゆっくり
感」の程度に差異が生ずることがわかっている(今井篤
ほか平成5年日本音響学会秋季研究発表会「話速変換に
伴う時間伸張のリアルタイム吸収法」1−9−10P.
361−P.362(1993−10))。
【0004】音声中には、異なる母音の連鎖や長母音な
どのように300msを越えるような比較的長い有声区
間や、逆に無声区間や無音区間に挟まれた母音などに多
い100msを下回るような比較的短い有声区間が相次
いで現れることもあり、例えば、この両者が混在する音
声に対して、一定の同じ倍率で伸張した音声を聴取した
場合、長い有声区間は1有声区間単位での伸張時間の絶
対量が大きく、聴感上の「ゆっくり感」が大きいのに比
べ、短い有声区間は伸張時間の絶対量が小さく、場合に
よっては殆ど「ゆっくり感」が感じられないことがあ
る。
【0005】例えば、区間長が350msと80msの
ものを従来法により一律に1.5倍に伸張した場合、5
25msと120msに変換されるが、前者の伸張時間
の絶対増加量が175msであるのに対して、後者は僅
か40msの伸張で、これが聴感上の効果の差となって
現れてくる。従って、この様に長短さまざまな有声区間
分布が一連の入力音声中に複数箇所存在する場合は、話
速の定まらない不安定な音声に変換されてしまい、場合
によってはこれがかなり気になることがある。
【0006】また、既に提案されている、話速変換に伴
う時間伸張を吸収する手法(池沢龍ほか平成4年日本音
響学会春季研究発表会「話速変換に伴う時間伸張を吸収
するための一手法」2−6−2P.331−P.332
(1992−3))では、一息で発声する区間(フレー
ズ)の開始点での有声区間の伸張倍率を高く設定し、徐
々に話速を速くしていくことで、変換音声の全体として
の「ゆっくり感」と、全体としての時間伸張の吸収を実
現しているが、このフレーズの開始点付近において短い
有声区間が相次いで出現するような音声の場合には、上
述の理由により比較的高い倍率を乗じても「ゆっくり
感」が得られず、結果的に後半の話速の速い部分だけが
目立ってしまうことになり、期待する効果が得られない
場合がある。
【0007】上述した問題点を更に具体的事例で示す。
【0008】(1)一息で発声される区間(フレーズ)
の予測長を2000msに固定し、伸張倍率rを図1に
示す曲線に添ってrs(rs>1)からre(re<
1)へと単調に減少させる。
【0009】(2)2000msを越せたところではピ
ッチ周波数の変化に伴い倍率に適宜修正を加える。
【0010】この手法をリアルタイム話速変換システム
に導入し、多数のニュース音声を変換した結果、いくつ
かのフレーズについて期待される効果、特に、フレーズ
の開始点付近において「ゆっくり」した感覚を生じさせ
る効果の得られないものがあった。図2に、特に効果的
であったフレーズ1例(同図の(a))と、特に効果が
感じられなかったフレーズ2例(同図の(b),
(c))について、フレーズ内の有声区間長の時間軸上
の分布を示す。
【0011】この3例に代表される傾向として以下の点
が挙げられる。
【0012】(1)文頭450ms〜500ms以内に
150msを越える比較的長い有声区間が複数個存在す
る場合は、伸張倍率rがr=1.4でも効果が大きい。
【0013】(2)フレーズの開始部分に150ms以
下の比較的短い有声区間が存在する場合、r=2.0で
も効果が少ない。
【0014】他のフレーズについても検証した結果、同
様の傾向が見られた。
【0015】本発明は、上述した問題点に鑑みてなされ
たもので、その目的は有声区間の伸張による話速変換を
行う際に、入力音声の有声区間長の差異に起因する話速
変換効果の聴感上のばらつきを無くし、いかなる入力音
声に対しても自然で、且つ安定した話速変換効果が得ら
れる話速変換装置を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力音声の無音区間、無声区間、有声区
間を分離し、このうち有声区間を伸張することによって
発声の速さ(話速)を声の高さを保ったまま遅くする変
換を行う際に、各有声区間の時間長を逐次検出し、各々
の有声区間の時間長に一様な値の、あるいは経過時間と
ともに滑らかに変化する規準倍率を乗ずることにより、
その倍率に対応した聴感的な効果を得る話速変換装置
あって、変換対象となる有声区間の時間長が所定の長さ
以下か否かを判定する判定手段と、該判定手段の判定結
果により、前記変換対象となる有声区間の時間長が前記
所定の長さを越える場合にはその有声区間の出現時刻で
の規準倍率を乗ずるが、前記変換対象となる有声区間の
時間長が、前記所定の長さ以下の有声区間については、
その有声区間の時間長に応じて前記規準倍率に比べてよ
り高い伸張倍率を乗ずる演算手段とを有することを特徴
とする。
【0017】また、本発明は好ましくは、前記演算手段
、前記所定の長さに当る150ms以下の短い有声区
間に対しては、その有声区間の出現時刻に関係なく、前
記規準倍率に比べてより高い伸張倍率を供する倍率関数
に沿ってその有声区間の時間長に対応した伸張倍率を乗
じ、また前記150msを越える有声区間の場合は、当
該有声区間の時間長に前記規準倍率を乗ずることを特徴
とすることができる。
【0018】また、本発明は好ましくは、前記経過時間
とともに滑らかに変化する規準倍率として、一息で発生
する区間を単位にして、この区間の開始点ではゆっくり
とした話速を設定し、その終了点に向かって徐々に話速
を速めることを特徴とする倍率関数を適用する場合に、
前記演算手段は、上記区間の開始時刻から一定時間内、
好ましくは時間450ms程度以内に出現する前記所定
の長さに当たる区間長、好ましくは150ms程度に満
たない区間長を有する有声区間に対しては、その有声区
間の出現時刻に関係なく、前記規準倍率に比べてより高
い伸張倍率を供する倍率関数に沿ってその有声区間の時
間長に対応した伸張倍率を常時、また前記150msを
越える有声区間および経過時間が450msを越える場
合は、当該有声区間の時間長に前記規準倍率を乗ずるこ
とを特徴とすることができる。
【0019】なお、上記の150ms,450msの値
は好ましい値の1つを具体的に例示したものであって、
本発明はこの値に限定されるものではない。
【0020】また、本発明は好ましくは、前記所定の長
さとは規準倍率として実用的な値を設定したときに、変
換音声の「ゆっくり感」が聴感的に感じ取れなくなる有
声区間の最大時間長を指し、この最大時間長以下の有声
区間については、その時間長wを変数とする新たな倍率
関数g(w)を導入し、その倍率関数に従って伸張倍率
を与えることとし、この倍率関数によって与えられる倍
率は前記規準倍率に比べて高い値であって、特に、短い
有声区間ほど高倍率になるという性質のものであり、ま
た同倍率関数による倍率の最大増幅値、最小増幅値は固
定ではなく、前記規準倍率の規準倍率関数f(t)の値
によってそれぞれが比例的に変化させられるものである
ことを特徴とすることができる。
【0021】
【作用】本発明では、話速変換の効果の程度に影響する
有声区間の長さに着目し、聴感上自然で、且つ安定な話
速変換効果が得られるように、ある一定の長さ以下の短
い有声区間に対しては、その区間長に対応して短いもの
ほどより高い伸張倍率を与えるような新たな関数を適用
する。これにより、多様な入力音声を所望の話速に自然
に、且つ安定した効果をもって話速変換することが可能
になる。特に、従来提案されている話速変換による時間
伸張を吸収する手法(池沢龍ほか平成4年日本音響学会
秋季研究発表会「話速変換における時間伸張吸収のリア
ルタイム化の検討」2−9−2P.349−P.350
(1993−10))に適用した場合は、発声の開始点
付近の「ゆっくり感」が聴感上不安定であったという欠
点が解消され、安定したより効果的な変換音声を得るこ
とが可能となる。
【0022】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。
【0023】一息で発声されると予測される区間内で、
この区間の開始点に於いては原音声の話速より「ゆっく
り」とした話速を設定し、終了点に向かって一定の規則
に従って話速を速めていく「リアルタイム話速変換方
法」の手法(池沢龍ほか平成4年日本音響学会秋季研究
発表会「話速変換における時間伸張吸収のリアルタイム
化の検討」2−9−2P.349−P.350(199
3−10))に本発明を適用した場合の実施例について
説明する。この「リアルタイム話速変換方法」は、実時
間で動作する話速変換装置において時間伸張を吸収する
手法であるが、これは各フレーズの開始点での「ゆっく
り感」が特に要求されるものである。これに本発明によ
る手法を適用することは特に効果的であるといえる。
【0024】図3は本発明の一実施例の動作の概要を示
す。文頭から450ms以内に出現する150ms以下
の短い有声音に対しては、その有声音の出現時刻に関係
なく、図3に示すような倍率関数g(w)に沿って有声
音の長さに対応した伸張倍率を与える。150msを越
える有声音および経過時間が450msを越える場合
は、従来の伸張倍率曲線f(t)(図1)を適用する。
【0025】図4〜図7は本発明の一実施例を更に詳細
に示す図である。
【0026】図4は本発明の一実施例の全体回路構成を
示すブロック図である。
【0027】図4に示すリアルタイム話速変換装置は、
音声入力回路1と、CPU(中央処理ユニット)回路2
と、PROM(プログラマブルROM)回路3と、入力
バッファ回路4と、処理バッファ回路5と、ファイル回
路6と、音声出力回路7と、バス8とを備えている。そ
して、音声入力回路1によって話速変換対象となる音声
(原音声)を取り込み、リアルタイム処理で、原音声の
声の高さ(ピッチ周波数)の変化を検出すると共に、こ
の検出結果に基づいて、声の高さの高い部分では話速を
緩め、低い部分では話速を速めるという規則で話速を変
化させることにより、原音声の発話時間を保ったまま、
原音声を聴き易い良好な音声に変換する。
【0028】音声入力回路1は、原音声を入力するため
の一般的な構成の回路、例えばマイクロフォン、音調回
路、A/D(アナログ/デジタル)変換器、音声記憶再
生回路、音声記録媒体(例えば、ICメモリ、ハードデ
ィスク、フロッピーディスクまたはVTR(ビデオテー
プレコーダ))、およびインターフェイス回路等を備え
ており、話速変換対象となる音声を取り込み、これをデ
ジタル形式の音声信号に変換するとともに、この変換し
たデジタル音声信号をCPU回路2からの指示に基づい
てフレーム単位で入力バッファ回路4に供給する。
【0029】入力バッファ回路4は、必要な容量のRA
M(ランダムアクセスメモリ)などによって構成され、
CPU回路2の作業域として使用される部分であり、音
声入力回路1から出力される音声信号を取り込んでこれ
を記憶するとともに、CPU回路2からの指示に基づい
て記憶している音声信号を処理バッファ回路5に転送す
る。
【0030】処理バッファ回路5は、必要な容量のRA
Mなどによって構成され、CPU回路2の作業域として
使用される部分であり、入力バッファ回路4から出力さ
れる音声信号を取り込んでこれを記憶するとともに、C
PU回路2からの指示に基づいて記憶している音声信号
をファイル回路6などに転送する。
【0031】ファイル回路6は、RAMのほかに、IC
メモリやフロッピーディスク等の音声記録媒体によって
構成され、本発明に係わる有声区間の伸張された音声信
号と、無音区間の短縮の処理を施された信号などを格納
するメモリであって、処理バッファ回路5から処理済の
音声信号が出力されたとき、これを取り込んで記憶し、
この後CPU回路2からの指示に基づいて記憶している
音声信号を音声出力回路7に供給する。
【0032】音声出力回路7は、ファイル回路6内の音
声信号を外部に出力するための一般的な構成の回路、例
えばインターフェイス回路、D/A(デジタル/アナロ
グ)変換器、スピーカー、録音装置(あるいは放送機
器)等を備えており、ファイル回路6から音声信号が出
力されたとき、これを取り込んで音声に変換しながら、
外部に出力する。
【0033】また、CPU回路2は、ワンチップマイク
ロコンピュータ等によって構成される部分であり、PR
OM回路3に格納されている図5,図6に示すようなプ
ログラムに基づいて装置全体の制御や各種のデータ処理
を行う。
【0034】また、PROM回路3は、CPU回路2の
動作を規定するプログラムや各種の処理で使用される定
数データなどの格納場所として使用される部分であり、
CPU回路2からの読みだし指令に応じて記憶している
プログラムや定数データを読み出してCPU回路2に供
給する。
【0035】次に、本発明の一実施例の動作について図
5,図6を参照して説明する。
【0036】図5、及び図6は処理の流れを示すフロー
チャートであり、図6は図5のST9の有声区間処理ル
ーチンの詳細を示す。
【0037】ここでは、説明のために音声信号中の息継
ぎ区間を「ポーズ」、一息で発生される区間を「フレー
ズ」、また「フレーズ」の時間長の平均的な値を「予測
フレーズ長」と呼び、次のように定義する。
【0038】ポーズ:無音部分と判定された区間のう
ち、その区間長がTh1(本実施例ではTh1=200
ms)以上の無音区間。なお、Thはスレッショールド
値を意味する。
【0039】フレーズ:ポーズと次のポーズに挟まれる
区間。この区間の開始点をPh_stとする。
【0040】予測フレーズ長:フレーズの平均的な時間
長で、T(単位はms)とする。(本実施例ではT=2
000msとした)また、図6中のf(t)とg(w)
は有声区間の伸張倍率を定める関数であり、以下の特性
を有するものである。
【0041】f(t):話速変換に伴う時間伸張を吸収
するために用いる倍率関数であって、予測フレーズ長内
の有声区間の出現時刻t(0≦t≦T)に対して倍率を
定める単調減少関数である。
【0042】t=0におけるあらかじめ定めた倍率をr
s 、t=Tにおけるあらかじめ定めた倍率をre (rs
≧re )とすると、f(t)は rs ≧f(t)≧re ,0≦t≦T を満たす。
【0043】g(w):一定の区間長W1 (本実施例で
はW1 =150ms)に満たない有声区間を、その区間
長wに応じて、f(t)により定まる規準倍率より高い
倍率で伸張するための倍率関数であって、有声区間長w
(0<w≦W1 )に対して倍率を定める単調減少関数で
ある。
【0044】ここで、g(w)の適用条件を満たした有
声区間[tk ,tk +W1 ](但し、wk <W1 )に対
して、g(w)の定義により、常に f(tk )≦g(wk ) の関係が成り立つ。
【0045】次に、図5の処理手順を説明する。なお、
STはステップを意味する。
【0046】(ST0)まず、f(t)の最高倍率rs
と最低倍率re を設定する。
【0047】(ST0−1)次に、フレーム番号iを0
にセットする。
【0048】(ST0−2)続いて、上記iをi+1と
インクリメントする。
【0049】(ST1)そして、音声入力回路1が取り
込んだ入力音声を、フレームと呼ばれる一定長の部分に
分割し、その結果を入力バッファ回路4に格納する処理
を行う。
【0050】本実施例ではフレーム幅6.66msのH
amming(ハミング)窓を3.3msずつずらしな
がら切り出して格納する。
【0051】(ST2)入力音声信号を各フレーム毎
に、自己相関法や、零クロス法などの方法で処理して有
声、無声、無音の判定を行う。人が発声する有声および
無声以外の入力音(例えば、低レベルの雑音や背景音
等)は原則として無音として識別処理する。
【0052】(ST3)i番目のフレームについての有
声、無声、無音の判定結果(今回の判定結果)と、i−
1番目のフレームについて有声、無声、無音の判定結果
(前回の判定結果)とが同じであるか否かを判別する。
両者の判定結果が同じであれば(ST0−2)に戻り、
同じでないならば次の(ST4)に移る。但し、i=1
の場合は(ST0−2)に戻る。
【0053】本実施例では、システム全体の処理の遅延
時間を最大限短縮するため、有声、無声、無音の各音声
区間については各々の区間長全体を一括して処理するの
ではなく、出来るだけ短い区間に分割(本実施例では、
有声区間を150msに分割)して処理した。
【0054】(ST4)i−1フレームまでの、同じ種
類(有声、無声或いは無音)の区間と判定されている音
声区間を入力バッファ回路4から処理バッファ回路5に
転送して格納する。
【0055】(ST5)処理バッファ回路5に格納され
ている音声区間が、無音か無声か有声か否かを判定す
る。無音区間の場合は(ST6)へ進み、無声区間の場
合は(ST11)へ移り、有声区間の場合は(ST9)
へ移る。
【0056】(ST6)当該無音区間がポーズ区間か否
かを判断する。ポーズ区間の場合は(ST6−1)へ移
り、ポーズ区間でない場合は(ST8)へ飛ぶ。但し、
図4のリアルタイム話速変換装置の起動時はポーズ区間
であったと判断し、必ず(ST6−1)へ進む。
【0057】(ST6−1)ポーズ区間以降に出現する
有声区間の番号を表す変数kに初期値としての1を代入
する。
【0058】(ST7)ポーズの区間長を調べ、その区
間長によって適宜、予め設定されているアルゴリズム
(池沢龍ほか「話速変換に伴う時間伸張を吸収するため
の一方法」1992年音声研究会P.49−P.56)
によって聴感上違和感ない程度に短縮する。
【0059】本実施例では、862msを越える区間長
を有する無音区間を一律にこの862msの値まで短縮
することとし(池沢龍ほか平成4年日本音響学会春季研
究発表会「話速変換に伴う時間伸張を吸収するための一
手法」2−6−2P.331−P.332(1992−
3))、無音区間862msを経過した時点で更に無音
区間が続く場合は、それ以降の無音データを廃棄して次
のフレーズの開始点を待つこととする。
【0060】(ST8)処理バッファ回路5内にある処
理済の無音区間の信号をファイル回路6に転送させて格
納させた後、処理バッファ回路5をクリアする。次に
(ST12)へ移る。
【0061】(ST12)音声信号の最後まで処理した
か否かを判定する。肯定判定の場合は本(ST9)の処
理をルーチン終了し、否定判定の場合は(ST0−2)
へ戻る。
【0062】(ST9)(ST5)で有声区間と判定さ
れた区間に対して、後述の図6に示す有声区間処理を行
う。この区間の処理における時間軸の原点をV_stと
定義する。また、フレーズ内の第k有声区間の開始時刻
をtk 、区間長をwk と記す。
【0063】(ST9−1)上述の変数kをk+1とイ
ンクリントする。
【0064】(ST10)処理バッファ回路5内にある
話速変換済みの音声データをファイル回路6のメモリに
格納するとともに、処理バッファ回路5をクリアする。
その後、上述の(ST12)へ移る。
【0065】(ST11)(ST5)において処理対象
となる区間が無声と判断されれば、この無声区間の音声
信号を処理バッファ回路5からファイル回路6に転送し
て格納した後、処理バッファ回路5をクリアする。その
後、上述の(ST12)へ移る。
【0066】次に、図6のST9有声区間処理ルーチン
の詳細を説明する。
【0067】(ST14)まず、有声区間のピッチ抽出
を行う。
【0068】(ST15)次に、変数kがk=1か否か
を判定する。k=1の場合、即ちポーズ区間以降に出現
する最初の有声区間の場合は(ST15−1)へ移り、
そうでない場合は(ST15−2)へ移る。
【0069】(ST15−1)この有声区間の処理にお
ける時間軸の原点を示す変数V_stに時刻t1 を代入
する。次に(ST16)へ移る。
【0070】(ST15−2)変数kが3以下か否か、
即ちkが2または3であるか否かを判定する。kが2ま
たは3の場合は(ST16)へ移り、kが4以上の場合
は(ST17)へ飛ぶ。
【0071】(ST16)第k有声区間の最大ピッチ周
波数をPk と定義する。k=1,2,3の場合にはPk
の値を保存する。
【0072】(ST16−1)変数kがk=3か否かを
判定する。k=3の場合は次の(ST16−2)へ移
り、そうでない場合、即ちk=1,2の場合は(ST1
7)へ飛ぶ。
【0073】(ST16−2)3つの有声区間P1 ,P
2 ,P3 のうちの最大値を Pitch_max とする。次に(ST17)へ移る。
【0074】(ST17)tk が、区間[V_st,V
_st+T]に含まれているか否かを判定する。含まれ
ていれば(ST17−1)へ移り、そうでなければ(S
T12)へ移る。(本実施例では前述のようにT=20
00msとした。) (ST17−1)V_st>t1 であるか否かを判定す
る。
【0075】V_st>t1 のときは、発声の終了点間
近で意味的重要度が低い場合が多いため、本実施例では
特にg(w)を適用せず、(ST17−1)から直接
(ST19)に移ることとした。それ以外のときは次の
(ST18)へ移る。
【0076】(ST18)フレーズの開始部において変
換により生じる聴感上の「ゆっくり感」を効果的にする
ために必要な時間長をT1 とする。T1 は実験結果から
(今井篤ほか 平成5年日本音響学会秋季研究発表会
「話速変換に伴う時間伸張のリアルタイム吸収法」1−
9−10P.361−P.362(1993−10))
Tの1/4程度が望ましく、本実施例ではT1 =450
msとした。
【0077】本処理ブロックでは、第k有声区間の終了
時刻tk +wk が区間[V_st,V_st+T1 ]含
まれているか否かを判定する。含まれていれば次の(S
T18−1)へ移り、そうでなければ(ST19)へ移
る。
【0078】(ST18−1)k番目の有声区間長wk
と、予め設定されている区間長W1 が、 wk ≦W1 であるか否かを判定する。肯定判定のときは(ST2
0)へ移り、否定判定のときは(ST19)へ移る。
【0079】有声区間の伸張による話速変換では、区間
長が短いもの程その変換効果が小さくなるが、W1 は、
入力音声を1.3倍程度の一様な倍率で話速変換した際
に、聴感上の話速変換効果が余り感じられなくなる臨界
有声区間長を実験により導いた値で、本実施例ではW1
=150msとした。
【0080】(ST19)予め設定した倍率関数f
(t)を適用して有声区間を伸張する。このf(t)は
単調減少関数であり、本実施例では以下の式(1)のよ
うな余弦関数を用いて、倍率をrs からre まで変化さ
せた。
【0081】(図7の曲線のグラフ参照)
【0082】
【数1】 f(t)=re+0.5(rs-re){cosπ(t-V_st)/T+1.0} (1) 但し、V_st≦t≦V_st+T 本実施例では、1.0≦rs ≦1.6,0.7≦re
1.0の範囲で任意に値を定めた。その後、図5のメイ
ンルーチンに戻る。
【0083】(ST20)V_stからの経過時間にか
かわらず、当該有声区間の区間長wk に対して、g(w
k )で定まる倍率を適用して有声区間を伸張する。
【0084】本実施例で用いた倍率関数g(w)は次式
(2)に示す一次関数とし、倍率をg(0)からg(w
1 )まで変化させた。その後、図5のメインルーチンに
戻る。
【0085】(図7の右角の直線のグラフ参照)
【0086】
【数2】 g(w)=(−(rs 2−f( W1))w /W1)+rs 2 (2) 但し、V_st=0でg(W1 )=f(W1 )とした。
【0087】(ST21)処理対象となっている有声区
間の最大ピッチ周波数Pk が、以下の式(3)の条件を
満たす場合は(ST22)へ、満たさない場合は(ST
23)へ移る。
【0088】
【数3】 Pk >Pitch_max×Th2 (3) 本実施例では、Th2=0.7とした。
【0089】(ST22)変数V_stに時刻tk を代
入する。
【0090】(ST22−1)変数rs に(rs −Th
3)を代入する。
【0091】これによって、f(t)は(rs −Th
3)からre まで倍率を変化させる。本実施例では、T
h3=0.1に設定した。その後、上記の(ST17)
へ戻る。
【0092】(ST23)有声区間を伸張倍率をre
伸張する。つまり、話速を最も速い状態のままにする。
その後、(ST9)の有声区間処理ルーチンを終了し、
図5のメインルーチンに戻る。
【0093】
【発明の効果】以上説明したように、本発明によれば、
入力音声の無音区間、無声区間、有声区間を分離し、有
声区間を伸張することによって発声する速さ(話速)を
ゆっくりに変換する方法において、全ての有声区間を一
定の倍率によって変換した際に、各有声区間長の違いに
より生ずる聴感上の話速変換効果のばらつきを解消する
ため、有声区間がある値よりも短いものについては所望
の倍率に対応した聴感上の話速変換効果が得られるよう
に、その区間長に応じて更に高い倍率で伸張するように
しているので、いかなる発声音声に対しても自然で且つ
安定した話速変換効果が得られる。即ち、本発明によれ
ば、受聴者の希望にあった話速に安定、且つ自然に変換
することが出来る。
【図面の簡単な説明】
【図1】従来法における倍率関数を示すグラフである。
【図2】従来法を適用した場合の1フレーズ内の有声区
間長の時間軸上の分布を示すタイミング図である。
【図3】本発明の一実施例の倍率関数を示すグラフであ
る。
【図4】本発明一実施例リアルタイム話速変換装置
の回路構成例を示すブロック図である。
【図5】図4に示すリアルタイム話速変換装置の動作例
を示すメインフローチャートである。
【図6】図5に示す有声区間処理ルーチンの詳細を示す
フローチャートである。
【図7】図4に示すリアルタイム話速変換装置にf
(t),g(w)の関数を適用した場合の動作例を示す
タイミング図である。
【符号の説明】
1 音声入力回路 2 CPU回路 3 PROM回路 4 入力バッファ回路 5 処理バッファ回路 6 ファイル回路 7 音声出力回路 8 バス f(t) 話速変換に伴う時間伸張を吸収するために用
いる倍率関数 g(w) 一定の区間長W1 に満たない有声区間を、そ
の区間長wに応じて、f(t)により定まる規準倍率よ
り高い倍率で伸張するための倍率関数 rs あらかじめ定めた最高倍率 re あらかじめ定めた最低倍率 T 予測フレーズ長(フレーズの平均的な時間長) Ph_st フレーズ(ポーズと次のポーズに挟まれる
区間)の開始点 V_st 有声区間の処理における時間軸の原点 Pk 第k有声区間の最大ピッチ周波数 pitch_max 最初の3つの有声区間P1 ,P
2 ,P3 のうち最大値 W1 予め設定されている区間長 wk k番目の有声区間長 i フレーム番号 k 有声区間番号 tk 第k有声区間の開始時刻
───────────────────────────────────────────────────── フロントページの続き (72)発明者 清山 信正 東京都世田谷区砧一丁目10番11号 日本 放送協会 放送技術研究所内 (72)発明者 宮坂 栄一 東京都世田谷区砧一丁目10番11号 日本 放送協会 放送技術研究所内 (56)参考文献 特開 平1−93795(JP,A) 特開 平5−257490(JP,A) 特開 平5−80796(JP,A) 特開 平4−367898(JP,A) 特開 昭63−234299(JP,A) 特開 平6−337696(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声の無音区間、無声区間、有声区
    間を分離し、このうち有声区間を伸張することによって
    発声の速さ(話速)を声の高さを保ったまま遅くする変
    換を行う際に、各有声区間の時間長を逐次検出し、各々
    の有声区間の時間長に一様な値の、あるいは経過時間と
    ともに滑らかに変化する規準倍率を乗ずることにより、
    その倍率に対応した聴感的な効果を得る話速変換装置
    あって、変換対象となる有声区間の時間長が所定の長さ以下か否
    かを判定する判定手段と、 該判定手段の判定結果により、前記 変換対象となる有声
    区間の時間長が所定の長さを越える場合にはその有声
    区間の出現時刻での規準倍率を乗ずるが、前記変換対象
    となる有声区間の時間長が、前記所定の長さ以下の有声
    区間については、その有声区間の時間長に応じて前記規
    準倍率に比べてより高い伸張倍率を乗ずる演算手段とを
    有することを特徴とする話速変換装置
  2. 【請求項2】 前記演算手段は、前記所定の長さに当る
    150ms以下の短い有声区間に対しては、その有声区
    間の出現時刻に関係なく、前記規準倍率に比べてより高
    い伸張倍率を供する倍率関数に沿ってその有声区間の時
    間長に対応した伸張倍率を乗じ、また前記150msを
    越える有声区間の場合は、当該有声区間の時間長に前記
    規準倍率を乗ずることを特徴とする請求項1に記載の話
    速変換装置
  3. 【請求項3】 前記経過時間とともに滑らかに変化する
    規準倍率として、一息で発生する区間を単位にしてこの
    区間の開始点ではゆっくりとした話速を設定し、その終
    了に向かって徐々に話速を速めることを特徴とする倍率
    関数を適用する場合に、前記演算手段は、この区間の開
    始時刻から時間450ms以内に出現する前記所定の長
    さに当たる150ms以下の短い有声区間に対しては、
    その有声区間の出現時刻に関係なく、前記規準倍率に比
    べてより高い伸張倍率を供する倍率関数に沿ってその有
    声区間の時間長に対応した伸張倍率を乗じ、また前記1
    50msを越える有声区間および経過時間が450ms
    を越える場合には、当該有声区間の時間長に前記規準
    率を乗ずることを特徴とする請求項1に記載の話速変換
    装置
  4. 【請求項4】 前記所定の長さとは規準倍率として実用
    的な値を設定したときに、変換音声の「ゆっくり感」が
    聴感的に感じ取れなくなる有声区間の最大時間長を指
    し、この最大時間長以下の有声区間については、その時
    間長wを変数とする新たな倍率関数g(w)を導入し、
    その倍率関数に従って伸張倍率を与えることとし、 この倍率関数によって与えられる倍率は前記規準倍率に
    比べて高い値であって、特に、短い有声区間ほど高倍率
    になるという性質のものであり、 また同倍率関数による倍率の最大増幅値、最小増幅値は
    固定ではなく、前記規準倍率の規準倍率関数f(t)の
    値によってそれぞれが比例的に変化させられるものであ
    ることを特徴とする請求項1に記載の話速変換装置
JP06725094A 1994-04-05 1994-04-05 話速変換装置 Expired - Lifetime JP3187241B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06725094A JP3187241B2 (ja) 1994-04-05 1994-04-05 話速変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06725094A JP3187241B2 (ja) 1994-04-05 1994-04-05 話速変換装置

Publications (2)

Publication Number Publication Date
JPH07281690A JPH07281690A (ja) 1995-10-27
JP3187241B2 true JP3187241B2 (ja) 2001-07-11

Family

ID=13339498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06725094A Expired - Lifetime JP3187241B2 (ja) 1994-04-05 1994-04-05 話速変換装置

Country Status (1)

Country Link
JP (1) JP3187241B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344905A (ja) 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Also Published As

Publication number Publication date
JPH07281690A (ja) 1995-10-27

Similar Documents

Publication Publication Date Title
JP2955247B2 (ja) 話速変換方法およびその装置
US5828994A (en) Non-uniform time scale modification of recorded audio
Arons Techniques, perception, and applications of time-compressed speech
JP3875513B2 (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JP5530720B2 (ja) エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
US8484035B2 (en) Modification of voice waveforms to change social signaling
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
EP2388780A1 (en) Apparatus and method for extending or compressing time sections of an audio signal
KR20000022351A (ko) 음성 구간 검출 방법과 시스템 및 그 음성 구간 검출 방법과 시스템을 이용한 음성 속도 변환 방법과 시스템
KR20050010927A (ko) 오디오 신호 처리 장치
JP3249567B2 (ja) 話速変換方法および装置
JP3187242B2 (ja) 話速変換装置
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP3219892B2 (ja) リアルタイム話速変換装置
JPH10301598A (ja) 話速変換方法およびその装置
JP3187241B2 (ja) 話速変換装置
Nakamura et al. A new approach to compensate degeneration of speech intelligibility for elderly listeners-development of a portable real time speech rate conversion system
JP3961616B2 (ja) 話速変換方法および話速変換機能付補聴器
JP2009075280A (ja) コンテンツ再生装置
JP3327936B2 (ja) 話速制御型補聴装置
JPH0772896A (ja) 音声の圧縮伸長装置
JP2867744B2 (ja) 音声再生装置
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JPH08110796A (ja) 音声強調方法および装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090511

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100511

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140511

Year of fee payment: 13

EXPY Cancellation because of completion of term