JP2001222300A - 音声再生装置および記録媒体 - Google Patents

音声再生装置および記録媒体

Info

Publication number
JP2001222300A
JP2001222300A JP2000030959A JP2000030959A JP2001222300A JP 2001222300 A JP2001222300 A JP 2001222300A JP 2000030959 A JP2000030959 A JP 2000030959A JP 2000030959 A JP2000030959 A JP 2000030959A JP 2001222300 A JP2001222300 A JP 2001222300A
Authority
JP
Japan
Prior art keywords
voice
speech
signal
section
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000030959A
Other languages
English (en)
Inventor
Atsushi Imai
篤 今井
Nobumasa Seiyama
信正 清山
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2000030959A priority Critical patent/JP2001222300A/ja
Publication of JP2001222300A publication Critical patent/JP2001222300A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 収録した音声を指定速度で再生させるとき、
情報の欠落をなるべく少なく留めて、音声を聞き取り易
くさせながら、収録された音声全体を指定速度で再生さ
せるのに必要な時間枠とほぼ同じ時間枠で、音声を高速
再生させる。 【解決手段】 n倍速(指定速度)再生対象となる音声
データの再生指示が入力されたとき、通信回線やCD−
RW、DVDなどを介して供給される音声データが、音
声分析部2aによって、音声区間と、非音声区間とに分
離される。次いで、話速変換部3aによって、一定時間
長以上の非音声区間に扶まれた音声区間に対し、その冒
頭部分が所定の再生速度よりも遅くなり、かつ末尾に向
けて次第に所定の再生速度に戻すように話速変換され
る。話速変換された音声信号と音響分析部2aで分離さ
れた非音声区間の音声信号とが合成部5aで合成され、
重要な部分を聞き易くさせながら、再生時間枠から大き
く遅らせることなくn倍速で音声を再生させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、通常の発話速度を
大幅に上回る高速な音声の聞き取りを補助する音声再生
装置および記録媒体に関する。
【0002】[発明の概要]本発明は任意の信号処理方
法によって、予め記録された音声信号を、声の高さを変
更すること無く、または意図的に声の高さを変化させな
がら、収録時よりも高速で再生する場合において、発話
の開始部分や、聞こえに大切な情報と思われる音声部分
を、声の高さや強さなどの情報から自動的に検出し、そ
の部分を前後の発話速度より遅く変換する一方、非音声
部分や、発話末尾のパワーの小さい部分などを適応的に
削除することで、従来聴敢不可能であった10倍速再生
音声程度までの高速音声の内容把握を可能にするもので
ある。
【0003】
【従来の技術】従来、音声の早聞きは、アナログ方式の
テープレコーダやVTRに記録されたものを早回し再生
し、再生速度に比例して声の高さの変化した音声を聞く
方法や、デジタル方式のテープレコーダやVTRに記録
されたものを、再生速度に比例してデータを読み飛ばす
ことにより、離散的な音声を聞く方法が一般的であっ
た。
【0004】また、基本周波数を逐次抽出し、その波形
単位での間引き処理を行うことにより、声の高さを変化
させずに連続的な高速音声を再生する話速変換方式(特
許第2955247号)が提案されている。
【0005】
【発明が解決しようとする課題】ところで、このような
音声の早聞き方法のうち、アナログテープレコーダーに
よる方式では、データの欠落はないものの、音の高さの
変化により非常に聞き辛く、また、デジタルテープレコ
ーダによる方式では、再生速度の上昇につれて情報欠落
が増大するため、両方式共に2倍速程度までの聞き取り
が限界であった。
【0006】また、上記の話速変換方式では、さらに高
速な音声の聞き取りが期待できるが、従来、放送素材V
TRなどの内容検索を行う場合には、映像主体の検索が
10倍速程度で行われるのに対し、音声本体では高々、
2倍速程度までの検索しかできなかった。
【0007】このほか、部分的に情報を削除することに
より、音声区間の伸張を行う方式が提案されている(1
995信学総大D−695)。この方式は、メモリ上に
蓄積した音声データ量に応じて話速を制御したり、無音
区間の削除したりすることにより、音声の高速再生を行
う。
【0008】しかしながら、この方式では、内容の重要
度に関係無く情報が削除されたり、話速の制御をされて
しまうことが多く、内容の聞き取りや把握が十分できな
いことがあった。
【0009】これらのことから明らかなように、従来、
提案されているいずれの方式でも、内容を把握させるこ
とができる2倍速、3倍速程度の再生速度でしか、音声
の高速再生を行うことができない。
【0010】このため、映像内容を検索する場合と同様
な10倍速程度の再生速度で、音声の内容を検索できる
装置の開発が強く望まれていた。
【0011】本発明は上記の事情に鑑み、情報の欠落を
なるべく少なく留めて、指定速度で再生された音声を聞
き取り易くさせながら、収録された音声全体を指定速度
で再生させるのに必要な時間枠とほぼ同じ時間枠で高速
再生させることができ、これによって収録された音声の
内容を番組編集者などに高速で検索させることができる
音声再生装置および記録媒体を提供することを目的とし
ている。
【0012】
【課題を解決するための手段】上記の目的を達成するた
めに本発明は、請求項1では、再生対象となる音声信号
を音響分析して、音声区間の音声信号と非音声区間の音
声信号とに分離する音響分析部と、この音響分析部で分
離された音声区間の音声信号に対し、その冒頭部分を所
定の再生速度よりも遅くし、かつ末尾に向けて次第に所
定の再生速度に戻すように話速を変換する話速変換部
と、この話速変換部によって話速変換が行われた音声信
号と前記音響分析部で分離された非音声区間の音声信号
とを合成して変換音声信号を生成する合成部とを備えた
ことを特徴としている。
【0013】請求項2では、請求項1に記載の音声再生
装置において、前記話速変換部によって話速変換が行わ
れた音声信号の時間情報に基づき、前記音響分析部で分
離された非音声区間の音声信号を適応的に削除、または
圧縮して、前記合成部で話速変換後の前記音声信号と合
成させる非音声区間長制御部を備えたことを特徴として
いる。
【0014】請求項3では、再生対象となる音声信号の
パワー値を判定して、前記音声信号を音声区間の音声信
号、非音声区間の音声信号に分離させるのに必要なパワ
ーしきい値を生成する音声・非音声判定部と、この音声
・非音声判定部によって得られたパワーしきい値を用い
て、再生対象となる音声信号を音声区間の音声信号と非
音声区間の音声信号とに分離する音響分析部と、この音
響分析部で分離された音声区間の音声信号に対し、その
冒頭部分を所定の再生速度よりも遅くし、かつ末尾に向
けて次第に所定の再生速度に戻すように話速を変換する
話速変換部と、この話速変換部によって話速変換が行わ
れた音声信号と前記音響分析部で分離された非音声区間
の音声信号とを合成して、変換音声信号を生成する合成
部とを備えたことを特徴としている。
【0015】請求項4では、請求項3に記載の音声再生
装置において、前記音声・非音声判定部によって、再生
対象となる音声信号を音声区間の音声信号と非音声区間
の音声信号とに分離させるのに必要なパワーしきい値を
生成するとき、音声区間の音声信号を伸張させたことに
伴う原音声からの遅延時聞の蓄積量に比例させて、前記
パワーしきい値を適応的に変化させることを特徴として
いる。
【0016】請求項5では、再生対象となる音声信号を
音響分析して、音声区間の音声信号と非音声区間の音声
信号とに分離する音響分析部と、この音響分析部で分離
された音声区間の音声信号に対し、その冒頭部分を所定
の再生速度よりも遅くし、かつ末尾に向けて次第に所定
の再生速度に戻すように話速を変換する話速変換部と、
この話速変換部によって話速変換が行われた音声信号の
時間情報に基づき、前記音響分析部で分離された非音声
区間の音声信号を適応的に削除、または圧縮する際に、
所定の長さよりは短くせずに出力する非音声区間調整部
と、前記話速変換部によって話速変換が行われた音声信
号と前記非音声区間調整部で得られた非音声区間の音声
信号とを合成して、変換音声信号を生成する合成部とを
備えたことを特徴としている。
【0017】請求項6では、再生対象となる音声信号を
音響分析して、音声区間の音声信号と非音声区間の音声
信号とに分離する音響分析部と、この音響分析部で分離
された音声区間の音声信号に含まれる基本周波数を計算
する基本周波数演算部と、この基本周波数演算部で得ら
れた基本周波数の変化率に応じて、前記音響分析部で分
離された音声区間の音声信号を適応的に伸長させて、話
速を変換する話速変換部と、この話速変換部によって話
速変換が行われた音声信号と前記音響分析部で分離され
た非音声区間の音声信号とを合成して、変換音声信号を
生成する合成部とを備えたことを特徴としている。
【0018】請求項7では、請求項6に記載の音声再生
装置において、前記話速変換部によって、前記音響分析
部で分離された音声区間の音声信号を伸長させる際、基
本周波数演算部で得られた基本周波数の変化率と、予め
設定されている変化率しきい値とを比較し、基本周波数
演算部で得られた基本周波数の変化率が予め設定されて
いる変化率しきい値を越えている区間の音声信号に対す
る伸長率を前後の音声信号に対する伸長率より大きくす
ることを特徴としている。
【0019】請求項8では、請求項6に記載の音声再生
装置において、前記話速変換部によって、前記音響分析
部で分離された音声区間の音声信号を伸長させる際、基
本周波数演算部で得られた基本周波数の変化率と、予め
設定されている変化率しきい値とを比較し、基本周波数
演算部で得られた基本周波数の変化率が予め設定されて
いる変化率しきい値を越えたとき、当該音声区間の出現
時刻から一定時間、または当該音声区間から以降に有声
音区間が一定数出現するまでの間、同じ伸張率で、音声
信号を伸長させることを特徴としている。
【0020】請求項9では、コンピュータ装置を動作さ
せるプログラムが格納された記録媒体において、前記コ
ンピュータ装置にインストールされて、音声再生指示が
入力されたとき、前記コンピュータ装置内に、再生対象
となる音声信号を音響分析して、音声区間の音声信号と
非音声区間の音声信号とに分離する音響分析部と、この
音響分析部で分離された音声区間の音声信号に対し、そ
の冒頭部分を所定の再生速度よりも遅くし、かつ末尾に
向けて次第に所定の再生速度に戻すように話速を変換す
る話速変換部と、この話速変換部によって話速変換が行
われた音声信号と前記音響分析部で分離された非音声区
間の音声信号とを合成して、変換音声信号を生成する合
成部とを生成させる音声再生プログラムが格納されたこ
とを特徴としている。
【0021】請求項10では、請求項9に記載の記録媒
体において、前記音声再生プログラムは、前記コンピュ
ータ装置にインストールされて、音声再生指示が入力さ
れたとき、前記コンピュータ装置内に、前記話速変換部
によって話速変換が行われた音声信号の時間情報に基づ
き、前記音響分析部で分離された非音声区間の音声信号
を適応的に削除、または圧縮して、前記合成部で話速変
換後の前記音声信号と合成させる非音声区間長制御部を
生成させることを特徴としている。
【0022】請求項11では、コンピュータ装置を動作
させるプログラムが格納された記録媒体において、前記
コンピュータ装置にインストールされて、音声再生指示
が入力されたとき、前記コンピュータ装置内に、再生対
象となる音声信号のパワー値を判定して、前記音声信号
を音声区間の音声信号、非音声区間の音声信号に分離さ
せるのに必要なパワーしきい値を生成する音声・非音声
判定部と、この音声・非音声判定部によって得られたパ
ワーしきい値を用いて、再生対象となる音声信号を音声
区間の音声信号と非音声区間の音声信号とに分離する音
響分析部と、この音響分析部で分離された音声区間の音
声信号に対し、その冒頭部分を所定の再生速度よりも遅
くし、かつ末尾に向けて次第に所定の再生速度に戻すよ
うに話速を変換する話速変換部と、この話速変換部によ
って話速変換が行われた音声信号と前記音響分析部で分
離された非音声区間の音声信号とを合成して、変換音声
信号を生成する合成部とを生成させる音声再生プログラ
ムが格納されたことを特徴としている。
【0023】請求項12では、請求項11に記載の記録
媒体において、前記音声再生プログラムは、前記コンピ
ュータ装置にインストールされて、音声再生指示が入力
されたとき、前記コンピュータ装置内に、再生対象とな
る音声信号を音声区間の音声信号と非音声区間の音声信
号とに分離させるのに必要なパワーしきい値を生成し、
音声区間の音声信号を伸張させたことに伴う原音声から
の遅延時聞の蓄積量に比例させて、前記パワーしきい値
を適応的に変化させる前記音声・非音声判定部を生成さ
せることを特徴としている。
【0024】請求項13では、コンピュータ装置を動作
させるプログラムが格納された記録媒体において、前記
コンピュータ装置にインストールされて、音声再生指示
が入力されたとき、前記コンピュータ装置内に、再生対
象となる音声信号を音響分析して、音声区間の音声信号
と非音声区間の音声信号とに分離する音響分析部と、こ
の音響分析部で分離された音声区間の音声信号に対し、
その冒頭部分を所定の再生速度よりも遅くし、かつ末尾
に向けて次第に所定の再生速度に戻すように話速を変換
する話速変換部と、この話速変換部によって話速変換が
行われた音声信号の時間情報に基づき、前記音響分析部
で分離された非音声区間の音声信号を適応的に削除、ま
たは圧縮する際に、所定の長さよりは短くせずに出力す
る非音声区間調整部と、この話速変換部によって話速変
換が行われた音声信号と前記非音声区間調整部で得られ
た非音声区間の音声信号とを合成して、変換音声信号を
生成する合成部とを生成させる音声再生プログラムが格
納されたことを特徴としている。
【0025】請求項14では、コンピュータ装置を動作
させるプログラムが格納された記録媒体において、前記
コンピュータ装置にインストールされて、音声再生指示
が入力されたとき、前記コンピュータ装置内に、再生対
象となる音声信号を音響分析して、音声区間の音声信号
と非音声区間の音声信号とに分離する音響分析部と、こ
の音響分析部で分離された音声区間の音声信号に含まれ
る基本周波数を計算する基本周波数演算部と、この基本
周波数演算部で得られた基本周波数の変化率に応じて、
前記音響分析部で分離された音声区間の音声信号を適応
的に伸長させて、話速を変換する話速変換部と、この話
速変換部によって話速変換が行われた音声信号と前記音
響分析部で分離された非音声区間の音声信号とを合成し
て、変換音声信号を生成する合成部とを生成させる音声
再生プログラムが格納されたことを特徴としている。
【0026】請求項15では、請求項14に記載の記録
媒体において、前記音声再生プログラムは、前記コンピ
ュータ装置にインストールされて、音声再生指示が入力
されたとき、前記コンピュータ装置内に、前記音響分析
部で分離された音声区間の音声信号を伸長させる際、基
本周波数演算部で得られた基本周波数の変化率と、予め
設定されている変化率しきい値とを比較し、基本周波数
演算部で得られた基本周波数の変化率が予め設定されて
いる変化率しきい値を越えている区間の音声信号に対す
る伸長率を前後の音声信号に対する伸長率より大きくす
る話速変換部を生成させることを特徴としている。
【0027】請求項16では、請求項14に記載の記録
媒体において、前記音声再生プログラムは、前記コンピ
ュータ装置にインストールされて、音声再生指示が入力
されたとき、前記コンピュータ装置内に、前記音響分析
部で分離された音声区間の音声信号を伸長させる際、基
本周波数演算部で得られた基本周波数の変化率と、予め
設定されている変化率しきい値とを比較し、基本周波数
演算部で得られた基本周波数の変化率が予め設定されて
いる変化率しきい値を越えたとき、当該音声区間の出現
時刻から一定時間、または当該音声区間から以降に有声
音区間が一定数出現するまでの時間、同じ伸張率で、音
声信号を伸長させる話速変換部を生成させることを特徴
としている。
【0028】上記の各請求項の構成によれば、各音声の
開始部分を指定速度よりもゆっくりとした速度で、再生
させるとともに、情報の欠落をなるべく少なく留めて、
指定速度で再生された音声を聞き取り易くさせながら、
収録された音声全体を指定速度で再生させるのに必要な
時間枠とほぼ同じ時間枠で、高速再生させ、これによっ
て収録された音声の内容を番組編集者などに高速で検索
させることができる。
【0029】
【発明の実施の形態】《第1の実施形態》図1は本発明
による音声再生装置および記録媒体のうち、請求項1、
2に対応する一実施形態を示すブロック図である。
【0030】図1に示すように、この音声再生装置1a
は、音響分析部2aと、話速変換部3aと、非音声区間
長制御部4aと、合成部5aとを備え、供給される音声
データを音声区間と、非音声区間とに分離させるととも
に、一定時間長以上の非音声区間に扶まれた音声区間に
対し、その冒頭部分が所定の再生速度よりも遅くなり、
かつ末尾に向けて次第に所定の再生速度に戻すように話
速変換させて、重要な部分を聞き易くさせながら、再生
時間枠から大きく遅らせることなく指定速度(n倍速)
で音声を再生させる。なお、供給される音声データとし
ては、通信回線などを介してCD−RWやDVDなど
に、映像データとともに記録された音声データ、あるい
は通信回線を介して供給される音声データ(主調整室、
副調整室などから出力される映像データと対にされた音
声データ)、あるいはビデオテープなどにアナログ記録
された映像信号、音声信号をデジタル化して得られた音
声データ、あるいはビデオテープなどに映像データとと
もにデジタル記録された音声データなどである。以下の
第2の実施形態〜第4の実施形態においても同様であ
る。
【0031】音響分析部2aは、予め設定されているパ
ワーしきい値を用いて、n倍速(n;n>0の有理数、
以下同じ)で再生するように指定された音声データを音
声区間と非音声区間とに分離し、音声区間に含まれてい
る音声データと、この音声データに対する時間情報とを
話速変換部3aに供給するとともに、非音声区間の音声
データを非音声区間長制御部4aに供給する。
【0032】話速変換部3aは、音響分析部2aから出
力された音声データ(音声区間に含まれている音声デー
タ)の音声波形を所定の規則、例えば一息で発声された
音声の開始部分を必ず所望の再生速度、例えばn倍速よ
り相対的に遅く変換させ、かつ残りの音声を末尾に向け
て漸次、所定の再生速度に戻すように変換させるという
規則で伸長させて、音声区間の話速を逐次、変化させ、
これによって得られた音声データを合成部5aに供給す
るとともに、音響分析部2aから出力された時間情報
(音声区間の音声データに付加されている時間情報)
と、話速変換後における音声データの時間情報とを比較
して、話速変換前の音声波形に対する話速変換後におけ
る音声波形の遅延時間を示す遅延時間情報を生成し、こ
れを非音声区間長制御部4aに供給する。
【0033】非音声区間長制御部4aは、話速変換部3
aから出力される遅延時間情報に基づき、音声分析部2
aから出力される音声データ(非音声区間に含まれる音
声データ)を適応的に削除、または圧縮して、非音声区
間に含まれる音声データの長さを話速変換部3aの音声
データ伸長処理で生じた遅れ時間を解消させるのに必要
な長さにするとともに、この削除処理、圧縮処理で得ら
れた非音声区間の音声データを合成部5aに供給する。
【0034】合成部5aは、話速変換部3aから出力さ
れる話速変換済みの音声データと、非音声区間長制御部
4aから出力される削除、圧縮処理済みの音声データと
を合成するとともに、この合成処理で得られた音声デー
タをサウンドボード(図示は省略する)に供給して、ス
ピーカから、遅れ時間が少なく、かつ聞き取り易い音声
を出力させる。
【0035】このように、この第1の実施形態では、指
定速度(n倍速)で再生対象となる音声データの再生指
示が入力されたとき、供給される音声データを音声区間
と、非音声区間とに分離させた後、一定時間長以上の非
音声区間に扶まれた音声区間に対し、その冒頭部分が所
定の再生速度よりも遅くなり、かつ末尾に向けて次第に
所定の再生速度に戻すように話速変換させて、重要な部
分を聞き易くさせながら、再生時間枠から大きく遅らせ
ることなくn倍速で音声を再生させるようにしているの
で、収録した音声をn倍速で再生させるとき、高速再生
対象となる音声を一息で発声し得る単位に分割させ、各
音声の開始部分をn倍速よりもゆっくりとした速度で、
再生させ、これによって情報の欠落をなるべく少なく留
めて、n倍速で再生された音声を聞き取り易くさせなが
ら、収録された音声全体をn倍速で再生させるのに必要
な時間枠とほぼ同じ時間枠で、音声を高速再生させ、収
録された音声の内容を番組編集者などに高速で検索させ
ることができる(請求項1の効果)。
【0036】また、この第1の実施形態では、収録した
音声をn倍速で再生させるとき、話速変換部3aによっ
て、音声部分の波形長を長くした分だけ、非音声区間長
制御部4aによって、非音声区間の長さを短くした後、
合成部5aによって、音声区間の音声データと、非音声
区間の音声データとを加算させて、変換音声データを生
成させるようにしているので、情報の欠落をなるべく少
なく留めて、n倍速で再生された音声を聞き取り易くさ
せながら、話速変換前における音声区間、非音声区間全
体の長さと、話速変換後における音声区間、非音声区間
全体の長さとをほぼ同じ長さにすることができる(請求
項2の効果)。
【0037】《第2の実施形態》図2は本発明による音
声再生装置および記録媒体のうち、請求項3、4、に対
応する一実施形態を示すブロック図である。
【0038】この図に示す音声再生装置1bは、音声・
非音声判定部6と、音響分析部2bと、話速変換部3b
と、非音声区間長制御部4bと、合成部5bとを備え、
供給される音声データのパワー値に対応するしきい値を
用いて、音声データを音声区間と、非音声区間とに分離
させるとともに、一定時間長以上の非音声区間に扶まれ
た音声区間に対し、その冒頭部分が所定の再生速度より
も遅くなり、かつ末尾に向けて次第に所定の再生速度に
戻すように話速変換させて、重要な部分を聞き易くさせ
ながら、再生時間枠から大きく遅らせることなく指定速
度(n倍速)で音声を再生させる。
【0039】この際、音声・非音声判定部6は、n倍速
で再生するように指定された音声データのパワー値を検
知して、音声データを音声区間の音声データと非音声区
間の音声データとに分離するのに必要なパワーしきい値
を生成するとともに、非音声区間長制御部4bから出力
される遅延時間情報に基づき、話速変換処理によって音
声がどの程度、遅れているかを判定する。原音声に比べ
て、変換音声の遅れが目立つと判定されたとき、削除の
対象を増やすために、音声区間と判定される割合を減ら
す一方、非音声区間と判定される割合を増加させるよう
に、パワーしきい値を適応的に調整する。これによって
得られたパワーしきい値と、n倍速で再生するように指
定された音声データとを音響分析部2bに供給する。
【0040】音響分析部2bは、音声・非音声判定部6
から出力されるパワーしきい値を用いて、音声・非音声
判定部6から出力される音声データを音声区間と非音声
区間とに分離し、音声区間に含まれている音声データ
と、この音声データに対する時間情報とを話速変換部3
bに供給するとともに、非音声区間の音声データを非音
声区間長制御部4bに供給する。
【0041】話速変換部3bは、音響分析部2bから出
力された音声データ(音声区間に含まれている音声デー
タ)の音声波形を所定の規則、例えば一息で発声された
音声の開始部分を必ず所望の再生速度、例えばn倍速よ
り相対的に遅く変換させ、かつ残りの音声を末尾に向け
て漸次、所定の再生速度に戻すように変換させるという
規則で、伸長させて、音声区間の話速を逐次、変化さ
せ、これによって得られた音声データを合成部5bに供
給するとともに、音響分析部2bから出力された時間情
報(音声区間の音声データに付加されている時間情報)
と、話速変換後における音声データの時間情報とを比較
して、話速変換前の音声波形に対する話速変換後におけ
る音声波形の遅延時間を示す遅延時間情報を生成し、こ
れを非音声区間長制御部4bに供給する。
【0042】非音声区間長制御部4bは、話速変換部3
bから出力される遅延時間情報を音声・非音声判定部6
に転送しながら、前記遅延時間情報に基づき、音声分析
部2bから出力される音声データ(非音声区間に含まれ
る音声データ)を適応的に削除、または圧縮して、非音
声区間に含まれる音声データの長さを話速変換部3bの
音声データ伸長処理で生じた遅れ時間を解消させるのに
必要な長さにするとともに、この削除処理、圧縮処理で
得られた非音声区間の音声データを合成部5bに供給す
る。
【0043】合成部5bは、話速変換部3bから出力さ
れる話速変換済みの音声データと、非音声区間長制御部
4bから出力される削除、圧縮処理済みの音声データと
を合成するとともに、この合成処理で得られた音声デー
タをサウンドボード(図示は省略する)に供給して、ス
ピーカから、遅れ時間が少なく、かつ聞き取り易い音声
を出力させる。
【0044】このように、この第2の実施形態では、n
倍速再生対象となる音声データの再生指示が入力された
とき、供給される音声データのパワー値に対応するしき
い値を用いて、音声データを音声区間と、非音声区間と
に分離させた後、一定時間長以上の非音声区間に扶まれ
た音声区間に対し、その冒頭部分が所定の再生速度より
も遅くなり、かつ末尾に向けて次第に所定の再生速度に
戻すように話速変換させて、重要な部分を聞き易くさせ
ながら、再生時間枠から大きく遅らせることなくn倍速
で音声を再生させるようにしているので、収録した音声
をn倍速で再生させるとき、高速再生対象となる音声の
パワー値に応じた最適なパワーしきい値を使用させて、
音声区間中であっても、聞き取りに際しては重要度が低
いと考えられる部分を非音声区間と同様に効率的に削除
させることができ、これによって情報の欠落をなるべく
少なく留めて、n倍速で再生された音声を聞き取り易く
させながら、収録された音声全体をn倍速で再生させる
のに必要な時間枠とほぼ同じ時間枠で、音声を高速再生
させ、収録された音声の内容を番組編集者などに高速で
検索させることができる(請求項3の効果)。
【0045】また、この第2の実施形態では、収録した
音声をn倍速で再生させるとき、話速変換前の音声波形
に対する話速変換後における音声波形の遅延時間に応じ
て、高速再生対象となる音声データを音声区間の音声デ
ータと、非音声区間の音声データとに分離させるのに必
要なパワーしきい値を変化させ、非音声区間に含まれる
音声データのみならず、音声区間に含まれる音声データ
のうち、聞き取りに際しては重要度が低いと考えられる
音声部分をも削除させるようにしているので、音声区間
の長さに比べて、非音声区間が短いときでも、収録され
た音声全体をn倍速で再生させるのに必要な時間枠とほ
ぼ同じ時間枠で、聞き取り易さを保持させたまま、音声
を高速再生させることができる(請求項4の効果)。
【0046】《第3の実施形態》図3は本発明による音
声再生装置および記録媒体のうち、請求項5に対応する
一実施形態を示すブロック図である。
【0047】この図に示す音声再生装置1cは、音響分
析部2cと、話速変換部3cと、非音声区間長判定・制
御部7と、合成部5cとを備え、供給される音声データ
を音声区間と、非音声区間とに分離させるとともに、一
定時間長以上の非音声区間に扶まれた音声区間に対し、
その冒頭部分が所定の再生速度よりも遅くなり、かつ末
尾に向けて次第に所定の再生速度に戻すように話速変換
させ、さらに非音声区間の長さを一定長以上に保持さ
せ、重要な部分を聞き易くさせながら、再生時間枠から
大きく遅らせることなく指定速度(n倍速)で音声を再
生させる。
【0048】この際、音響分析部2cは、予め設定され
ているパワーしきい値を用いて、n倍速で再生するよう
に指定された音声データを音声区間と非音声区間とに分
離し、音声区間に含まれている音声データと、この音声
データに対する時間情報とを話速変換部3cに供給する
とともに、非音声区間の音声データを非音声区間長判定
部7に供給する。
【0049】話速変換部3cは、音響分析部2cから出
力された音声データ(音声区間に含まれている音声デー
タ)の音声波形を所定の規則、例えば一息で発声された
音声の開始部分を必ず所望の再生速度、例えばn倍速よ
り相対的に遅く変換させ、かつ残りの音声を末尾に向け
て漸次、所定の再生速度に戻すように変換させるという
規則で、伸長させて、音声区間の話速を逐次、変化さ
せ、これによって得られた音声データを合成部5cに供
給するとともに、音響分析部2cから出力された時間情
報(音声区間の音声データに付加されている時間情報)
と、話速変換後における音声データの時間情報とを比較
して、話速変換前の音声波形に対する話速変換後におけ
る音声波形の遅延時間を示す遅延時間情報を生成し、こ
れを非音声区間長判定・制御部7に供給する。
【0050】非音声区間長判定・制御部7は、音響分析
部2cから非音声区間の音声データが出力されていると
き、話速変換部3cから出力される遅延時間情報に基づ
き、音響分析部2cから出力される音声データ(非音声
区間に含まれる音声データ)を適応的に削除、または圧
縮して、非音声区間に含まれる音声データの長さを話速
変換部3cの音声データ伸長処理で生じた遅れ時間を解
消させるのに必要な長さにする際、予め設定された極め
て短い設定区間長(音声区間に含まれる音声データを1
0倍速で再生する場合には、例えば100ms程度)を
最低限残すとともに、この削除処理、圧縮処理で得られ
た非音声区間の音声データを合成部5cに供給する。
【0051】合成部5cは、話速変換部3cから出力さ
れる話速変換済みの音声データと、非音声区間長判定部
7から出力される非音声区間の音声データまたは非音声
区間長制御部4cから出力される削除、圧縮処理済みの
音声データとを合成するとともに、この合成処理で得ら
れた音声データをサウンドボード(図示は省略する)に
供給して、スピーカから、遅れ時間が少なく、かつ聞き
取り易い音声を出力させる。
【0052】このように、この第3の実施形態では、n
倍速再生対象となる音声データの再生指示が入力された
とき、CD−RW、DVD、通信回線などを介して供給
される音声データを音声区間と、非音声区間とに分離さ
せた後、一定時間長以上の非音声区間に扶まれた音声区
間に対し、その冒頭部分が所定の再生速度よりも遅くな
り、かつ末尾に向けて次第に所定の再生速度に戻すよう
に話速変換させ、さらに非音声区間の長さを一定長以上
に保持させ、重要な部分を聞き易くさせながら、再生時
間枠から大きく遅らせることなくn倍速で音声を再生さ
せるようにしているので、収録した音声の非音声区間を
削除させながら、収録した音声をn倍速で再生させると
き、発声の開始部分にある声立て境界などを残しなが
ら、高速再生対象となる音声を一息で発声し得る単位に
分割させ、各音声の開始部分をn倍速よりもゆっくりと
した速度で、再生させ、これによって情報の欠落をなる
べく少なく留めて、n倍速で再生された音声を聞き取り
易くさせながら、収録された音声全体をn倍速で再生さ
せるのに必要な時間枠とほぼ同じ時間枠で、音声を高速
再生させ、収録された音声の内容を番組編集者などに高
速で検索させることができる(請求項5の効果)。
【0053】《第4の実施形態》図4は本発明による音
声再生装置および記録媒体のうち、請求項6、7、8に
対応する一実施形態を示すブロック図である。
【0054】この図に示す音声再生装置1dは、音響分
析部2dと、基本周波数演算部8と、話速変換部3d
と、非音声区間長制御部4dと、合成部5dとを備え、
供給される音声データを音声区間と、非音声区間とに分
離させた後、一定時間長以上の非音声区間に扶まれた音
声区間に対し、その基本周波数の変動に応じて適応的に
波形伸長を行って、重要な部分を聞き易くさせながら、
再生時間枠から大きく遅らせることなく指定速度(n倍
速)で音声を再生させる。
【0055】この際、音響分析部2dは、n倍速で再生
するように指定された音声データの時間情報を話速変換
部3dに供給しながら、予め設定されているパワーしき
い値を用いて、n倍速で再生するように指定された音声
データを音声区間と非音声区間とに分離し、音声区間に
含まれている音声データを基本周波数演算部8に供給す
るとともに、非音声区間の音声データを非音声区間長制
御部4dに供給する。
【0056】基本周波数演算部8は、音響分析部2dか
ら出力される音声区間の音声データによって示される音
声波形の基本周波数を逐次、計算し、この計算結果に基
づき、基本周波数情報を生成するとともに、この基本周
波数情報と、音響分析部2dから出力される音声区間の
音声データとを話速変換部3dに供給する。
【0057】話速変換部3dは、基本周波数演算部8か
ら出力された基本周波数情報で示される基本周波数の時
間的な変化率と、予め設定されている変化率しきい値と
を比較し、基本周波数の時間的な変化率が変化率しきい
値より小さいとき、基本周波数の時間的な変化に応じ
て、音響分析部2dから出力された音声データ(音声区
間に含まれている音声データ)の音声波形を適応的に伸
長させて、音声区間の話速を逐次、変化させ、また基本
周波数の時間的な変化率が変化率しきい値より大きいと
き、所定の規則、例えば基本周波数の時間的な変化率が
変化率しきい値より大きい区間だけ、音響分析部2dか
ら出力された音声データ(音声区間に含まれている音声
データ)の音声波形を前後区間の伸長率より大きい伸長
率で、伸長させるという規則、あるいは基本周波数の時
間的な変化率が変化率しきい値より大きくなった時刻か
ら一定時間(または、当該時刻が含まれる音声区間から
後に出現する有音声区間が一定の数に達するまでの
間)、同じ伸長率で、伸長させるという規則で、音声波
形を伸長させて、基本周波数の変化に依存する特定箇所
を安定させ、声の調子が変わった部分を強調させ、これ
によって得られた音声データを合成部5dに供給し、さ
らにこれらの動作と並行し、音響分析部2dから出力さ
れた時間情報(音声区間の音声データに付加されている
時間情報)と、話速変換後における音声データの時間情
報とを比較して、話速変換前の音声波形に対する話速変
換後における音声波形の遅延時間を示す遅延時間情報を
生成し、これを非音声区間長制御部4dに供給する。
【0058】非音声区間長制御部4dは、話速変換部3
dから出力される遅延時間情報に基づき、音声分析部2
dから出力される音声データ(非音声区間に含まれる音
声データ)を適応的に削除、または圧縮して、非音声区
間に含まれる音声データの長さを話速変換部3dの音声
データ伸長処理で生じた遅れ時間を解消させるのに必要
な長さにするとともに、この削除処理、圧縮処理で得ら
れた非音声区間の音声データを合成部5dに供給する。
【0059】合成部5dは、話速変換部3dから出力さ
れる話速変換済みの音声データと、非音声区間長制御部
4dから出力される削除、圧縮処理済みの音声データと
を合成するとともに、この合成処理で得られた音声デー
タをサウンドボード(図示は省略する)に供給して、ス
ピーカから、遅れ時間が少なく、かつ聞き取り易い音声
を出力させる。
【0060】このように、この第4の実施形態では、n
倍速再生対象となる音声データの再生指示が入力された
とき、供給される音声データを音声区間と、非音声区間
とに分離させた後、一定時間長以上の非音声区間に扶ま
れた音声区間に対し、その基本周波数の変動に応じて適
応的に波形伸長を行って、重要な部分を聞き易くさせな
がら、再生時間枠から大きく遅らせることなくn倍速で
音声を再生させるようにしているので、収録した音声を
n倍速で再生させるとき、高速再生対象となる音声を一
息で発声し得る単位に分割させ、各音声の基本周波数が
変動した部分をn倍速よりもゆっくりとした速度で、再
生させることができ、これによって声の高さが変化した
部分を重点的に伸長させ、かつ情報の欠落をなるべく少
なく留め、n倍速で再生された音声を聞き取り易くさせ
ながら、収録された音声全体をn倍速で再生させるのに
必要な時間枠とほぼ同じ時間枠で、音声を高速再生させ
て、収録された音声の内容を番組編集者などに高速で検
索させることができる(請求項6の効果)。
【0061】また、この第4の実施形態では、基本周波
数の時間的な変化率が変化率しきい値より大きいときに
適応する規則として、基本周波数の時間的な変化率が変
化率しきい値より大きい区間だけ、音響分析部2dから
出力された音声データ(音声区間に含まれている音声デ
ータ)の音声波形を前後区間の伸長率より大きい伸長率
で、伸長させるという規則を選択させることができるよ
うにしているので、収録した音声をn倍速で再生させる
とき、各音声の基本周波数が大きく変動した部分を周囲
の速度よりも更にゆっくりとした速度で、再生させるこ
とができ、これによって情報の欠落をなるべく少なく留
めさせながら、声の高さが変化した部分を重点的に伸長
させて、n倍速で再生された音声を聞き取り易くさせる
ことができる(請求項7の効果)。
【0062】また、この第4の実施形態では、基本周波
数の時間的な変化率が変化率しきい値より大きいときに
適応する規則として、基本周波数の時間的な変化率が変
化率しきい値より大きくなった時刻から一定時間(また
は、当該時刻が含まれる音声区間から以降に出現する有
音声区間が一定の数に達するまでの間)、同じ伸長率
で、伸長させるという規則を選択させることができるよ
うにしているので、収録した音声をn倍速で再生させる
とき、各音声の基本周波数が大きく変動した部分を当該
有声音区間に続く音声区間を一定時間、または、一定数
の有声音区間が出現するまでの間、同じゆっくりとした
速度で、再生させることができ、これによって情報の欠
落をなるべく少なく留めさせながら、声の高さが変化し
た部分を含む一定の区間を重点的に伸長させて、n倍速
で再生された音声を聞き取り易くさせることができる
(請求項8の効果)。
【0063】《他の実施形態》図5は、本発明による音
声再生プログラムを記録した記録媒体をコンピュータ装
置内にインストールして図1乃至図4に示す音声再生装
置を構成する一例を示すブロック図である。
【0064】すなわち、記録媒体11に格納されている
音声再生プログラム13がインストールされたコンピュ
ータ装置によって音響分析部2a〜2d、話速変換部3
a〜3d、非音声区間長制御部4a〜4d、合成部5a
〜5d、音声・非音声判定部6、非音声区間長判定部
7、基本周波数演算部8が生成された音声再生装置1a
〜1dを構成したものであり、コンピュータ装置のキー
ボード、マウスなどが操作されて、n倍速再生対象とな
る音声データの再生指示が入力されたとき、通信回線1
5やCD−RW16、DVD17などを介して供給され
る音声データを音声区間と、非音声区間とに分離させた
後、一定時間長以上の非音声区間に扶まれた音声区間に
対し、その冒頭部分が所定の再生速度よりも遅くなり、
かつ末尾に向けて次第に所定の再生速度に戻すように話
速変換させて、重要な部分を聞き易くさせながら、再生
時間枠から大きく遅らせることなくn倍速で音声を再生
させる。
【0065】この場合、記録媒体11は、CD−RO
M、DVDなどによって構成される記録媒体本体12
と、この記録媒体本体12に記録された音声再生プログ
ラム13と、この音声再生プログラム13をコンピュー
タ装置本体にセットさせて音声再生装置1a〜1dを構
築させるセットアッププログラム14とを備えており、
インストール指示が入力されたとき、記録媒体本体12
に格納されているセットアッププログラム14によっ
て、記録媒体本体12に格納されている音声再生プログ
ラム13をコンピュータ装置本体のCPUに転送させ
て、このハードディスク機構にインストールさせる。こ
のようにして図1〜図4に示した各音声再生装置1a〜
1dを構成することができる。
【0066】なお上記の例では、音声再生装置1a〜1
dとして、記録媒体11に格納されている音声再生プロ
グラム13をコンピュータ装置にインストールして、音
響分析部2a〜2d、話速変換部3a〜3d、非音声区
間長制御部4a〜4d、合成部5a〜5d、音声・非音
声判定部6、非音声区間長判定部7、基本周波数演算部
8を生成させるようにしているが、LSI素子、IC素
子、トランジスタ素子、抵抗、コンデンサ、コイルなど
のディスクリート部品を使用して、これら音響分析部2
a〜2d、話速変換部3a〜3d、非音声区間長制御部
4a〜4d、合成部5a〜5d、音声・非音声判定部
6、非音声区間長判定部7、基本周波数演算部8を作成
させて、音声再生装置を作成させるようにしても良い。
【0067】そして、このようにして作成された音声再
生装置を使用させることにより、コンピュータ装置を使
用した音声再生装置1a〜1dよりも、高速で、かつ効
率の良い話速変換処理を行わせ、番組編集作業の効率を
さらに向上させることができる。
【0068】
【発明の効果】以上説明したように本発明によれば、請
求項1および請求項9では、収録した音声を指定速度
(n倍速)で再生させるとき、高速再生対象となる音声
を一息で発声し得る単位に分割させ、各音声の開始部分
を指定速度よりもゆっくりとした速度で、再生させるこ
とにより、情報の欠落をなるべく少なく留めて、指定速
度で再生された音声を聞き取り易くさせながら、収録さ
れた音声全体を指定速度で再生させるのに必要な時間枠
とほぼ同じ時間枠で、高速再生させることができ、これ
によって収録された音声の内容を番組編集者などに高速
で検索させることができる。
【0069】請求項2および請求項10では、収録した
音声を指定速度で再生させるとき、高速再生対象となる
音声を一息で発声し得る単位に分割させ、各音声の開始
部分を指定速度よりもゆっくりとした速度で、再生させ
るとともに、無音声部分を効率的に削除させることによ
り、情報の欠落をなるべく少なく留めて、指定速度で再
生された音声を聞き取り易くさせながら、収録された音
声全体を指定速度で再生させるのに必要な時間枠とほぼ
同じ時間枠で、高速再生させることができ、これによっ
て収録された音声の内容を番組編集者などに高速で検索
させることができる。
【0070】請求項3および請求項11では、収録した
音声を指定速度で再生させるとき、高速再生対象となる
音声のパワー値に応じた最適なパワーしきい値を使用さ
せて、高速再生対象となる音声を一息で発声し得る単位
に分割させ、さらに各音声の開始部分を指定速度よりも
ゆっくりとした速度で、再生させるとともに、聞き取り
に際しては重要度が低いと考えられる音声部分および無
音声部分を効率的に削除させることにより、情報の欠落
をなるべく少なく留めて、指定速度で再生された音声を
聞き取り易くさせながら、収録された音声全体を指定速
度で再生させるのに必要な時間枠とほぼ同じ時間枠で、
高速再生させることができ、これによって収録された音
声の内容を番組編集者などに高速で検索させることがで
きる。
【0071】請求項4および請求項12では、収録した
音声を指定速度で再生させるとき、高速再生対象となる
音声のパワー値に応じた最適なパワーしきい値を使用さ
せて、高速再生対象となる音声を一息で発声し得る単位
に分割させ、さらに各音声の開始部分を指定速度よりも
ゆっくりとした速度で、再生させるとともに、聞き取り
に際しては重要度が低いと考えれる音声部分および無音
声部分をより効率的に削除させることにより、情報の欠
落をなるべく少なく留めて、指定速度で再生された音声
を聞き取り易くさせながら、収録された音声全体を指定
速度で再生させるのに必要な時間枠とほぼ同じ時間枠
で、高速再生させることができ、これによって収録され
た音声の内容を番組編集者などに高速で検索させること
ができる。
【0072】請求項5および請求項13では、収録した
音声の非音声区間を削除させながら、収録した音声を指
定速度で再生させるとき、発声の開始部分にある声立て
境界などを残しながら、高速再生対象となる音声を一息
で発声し得る単位に分割させ、各音声の開始部分を指定
速度よりもゆっくりとした速度で、再生させることによ
り、情報の欠落をなるべく少なく留めて、指定速度で再
生された音声を聞き取り易くさせながら、収録された音
声全体を指定速度で再生させるのに必要な時間枠とほぼ
同じ時間枠で、高速再生させることができ、これによっ
て収録された音声の内容を番組編集者などに高速で検索
させることができる。
【0073】請求項6および請求項14では、収録した
音声を指定速度で再生させるとき、高速再生対象となる
音声を一息で発声し得る単位に分割させ、各音声の基本
周波数が変動した部分を指定速度よりもゆっくりとした
速度で、再生させることにより、声の高さが変化した部
分を重点的に伸長させ、これによって情報の欠落をなる
べく少なく留めて、指定速度で再生された音声を聞き取
り易くさせながら、収録された音声全体を指定速度で再
生させるのに必要な時間枠とほぼ同じ時間枠で、高速再
生させて、収録された音声の内容を番組編集者などに高
速で検索させることができる。
【0074】請求項7および請求項15では、収録した
音声を指定速度で再生させるとき、高速再生対象となる
音声を一息で発声し得る単位に分割させ、各音声の基本
周波数が大きく変動した部分を周囲の速度よりも更にゆ
っくりとした速度で、再生させることにより、声の高さ
が変化した部分を重点的に伸長させ、これによって情報
の欠落をなるべく少なく留めて、指定速度で再生された
音声を聞き取り易くさせながら、収録された音声全体を
指定速度で再生させるのに必要な時間枠とほぼ同じ時間
枠で、高速再生させて、収録された音声の内容を番組編
集者などに高速で検索させることができる。
【0075】請求項8および請求項16では、収録した
音声を指定速度で再生させるとき、高速再生対象となる
音声を一息で発声し得る単位に分割させ、各音声の基本
周波数が大きく変動した部分を中心として、当該有声音
区間に続く音声区間を一定時間、または、一定数の有声
音区間が出現するまでの間、同じゆっくりとした速度
で、再生させることにより、声の高さが変化した部分を
重点的に伸長させ、これによって情報の欠落をなるべく
少なく留めて、指定速度で再生された音声を聞き取り易
くさせながら、収録された音声全体を指定速度で再生さ
せるのに必要な時間枠とほぼ同じ時間枠で、高速再生さ
せて、収録された音声の内容を番組編集者などに高速で
検索させることができる。
【図面の簡単な説明】
【図1】本発明による音声再生装置および記録媒体のう
ち、請求項1、2、9、10に対応する一実施形態を示
すブロック図である。
【図2】本発明による音声再生装置および記録媒体のう
ち、請求項3、4、11、12に対応する一実施形態を
示すブロック図である。
【図3】本発明による音声再生装置および記録媒体のう
ち、請求項5、13に対応する一実施形態を示すブロッ
ク図である。
【図4】本発明による音声再生装置および記録媒体のう
ち、請求項6、7、8、14、15、16に対応する一
実施形態を示すブロック図である。
【図5】本発明による音声再生プログラムを記録した記
録媒体をコンピュータ装置内にインストールして図1乃
至図4に示す音声再生装置を構成する一例を示すブロッ
ク図である。
【符号の説明】
1a〜1d:音声再生装置 2a〜2d:音響分析部 3a〜3d:話速変換部 4a、4b、4d:非音声区間長制御部 5a〜5d:合成部 6:音声・非音声判定部 7:非音声区間長判定・制御部(非音声区間調整部) 8:基本周波数演算部 11:記録媒体 12:記録媒体本体 13:音声再生プログラム 14:セットアッププログラム 15:通信回線 16:CD−RW 17:DVD
フロントページの続き (72)発明者 都木 徹 東京都世田谷区砧一丁目10番11号 日本放 送協会放送技術研究所内 Fターム(参考) 5D045 BA02 9A001 BB02 BB03 BB04 DD11 EE02 EE04 FF03 HH16 HH18 JJ72 KK43 KK60

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 再生対象となる音声信号を音響分析し
    て、音声区間の音声信号と非音声区間の音声信号とに分
    離する音響分析部と、 この音響分析部で分離された音声区間の音声信号に対
    し、その冒頭部分を所定の再生速度よりも遅くし、かつ
    末尾に向けて次第に所定の再生速度に戻すように話速を
    変換する話速変換部と、 この話速変換部によって話速変換が行われた音声信号と
    前記音響分析部で分離された非音声区間の音声信号とを
    合成して変換音声信号を生成する合成部と、を備えたこ
    とを特徴とする音声再生装置。
  2. 【請求項2】 請求項1に記載の音声再生装置におい
    て、 前記話速変換部によって話速変換が行われた音声信号の
    時間情報に基づき、前記音響分析部で分離された非音声
    区間の音声信号を適応的に削除、または圧縮して、前記
    合成部で話速変換後の前記音声信号と合成させる非音声
    区間長制御部、を備えたことを特徴とする音声再生装
    置。
  3. 【請求項3】 再生対象となる音声信号のパワー値を判
    定して、前記音声信号を音声区間の音声信号、非音声区
    間の音声信号に分離させるのに必要なパワーしきい値を
    生成する音声・非音声判定部と、 この音声・非音声判定部によって得られたパワーしきい
    値を用いて、再生対象となる音声信号を音声区間の音声
    信号と非音声区間の音声信号とに分離する音響分析部
    と、 この音響分析部で分離された音声区間の音声信号に対
    し、その冒頭部分を所定の再生速度よりも遅くし、かつ
    末尾に向けて次第に所定の再生速度に戻すように話速を
    変換する話速変換部と、 この話速変換部によって話速変換が行われた音声信号と
    前記音響分析部で分離された非音声区間の音声信号とを
    合成して、変換音声信号を生成する合成部と、を備えた
    ことを特徴とする音声再生装置。
  4. 【請求項4】 請求項3に記載の音声再生装置におい
    て、 前記音声・非音声判定部によって、再生対象となる音声
    信号を音声区間の音声信号と非音声区間の音声信号とに
    分離させるのに必要なパワーしきい値を生成するとき、
    音声区間の音声信号を伸張させたことに伴う原音声から
    の遅延時聞の蓄積量に比例させて、前記パワーしきい値
    を適応的に変化させる、ことを特徴とする音声再生装
    置。
  5. 【請求項5】 再生対象となる音声信号を音響分析し
    て、音声区間の音声信号と非音声区間の音声信号とに分
    離する音響分析部と、 この音響分析部で分離された音声区間の音声信号に対
    し、その冒頭部分を所定の再生速度よりも遅くし、かつ
    末尾に向けて次第に所定の再生速度に戻すように話速を
    変換する話速変換部と、 この話速変換部によって話速変換が行われた音声信号の
    時間情報に基づき、前記音響分析部で分離された非音声
    区間の音声信号を適応的に削除、または圧縮する際に、
    所定の長さよりは短くせずに出力する非音声区間調整部
    と、 前記話速変換部によって話速変換が行われた音声信号と
    前記非音声区間調整部で得られた非音声区間の音声信号
    とを合成して、変換音声信号を生成する合成部と、 を備えたことを特徴とする音声再生装置。
  6. 【請求項6】 再生対象となる音声信号を音響分析し
    て、音声区間の音声信号と非音声区間の音声信号とに分
    離する音響分析部と、 この音響分析部で分離された音声区間の音声信号に含ま
    れる基本周波数を計算する基本周波数演算部と、 この基本周波数演算部で得られた基本周波数の変化率に
    応じて、前記音響分析部で分離された音声区間の音声信
    号を適応的に伸長させて、話速を変換する話速変換部
    と、 この話速変換部によって話速変換が行われた音声信号と
    前記音響分析部で分離された非音声区間の音声信号とを
    合成して、変換音声信号を生成する合成部と、を備えた
    ことを特徴とする音声再生装置。
  7. 【請求項7】 請求項6に記載の音声再生装置におい
    て、 前記話速変換部によって、前記音響分析部で分離された
    音声区間の音声信号を伸長させる際、基本周波数演算部
    で得られた基本周波数の変化率と、予め設定されている
    変化率しきい値とを比較し、基本周波数演算部で得られ
    た基本周波数の変化率が予め設定されている変化率しき
    い値を越えている区間の音声信号に対する伸長率を前後
    の音声信号に対する伸長率より大きくする、 ことを特徴とする音声再生装置。
  8. 【請求項8】 請求項6に記載の音声再生装置におい
    て、 前記話速変換部によって、前記音響分析部で分離された
    音声区間の音声信号を伸長させる際、基本周波数演算部
    で得られた基本周波数の変化率と、予め設定されている
    変化率しきい値とを比較し、基本周波数演算部で得られ
    た基本周波数の変化率が予め設定されている変化率しき
    い値を越えたとき、当該音声区間の出現時刻から一定時
    間、または当該音声区間から以降に有声音区間が一定数
    出現するまでの間、同じ伸張率で、音声信号を伸長させ
    る、 ことを特徴とする音声再生装置。
  9. 【請求項9】 コンピュータ装置を動作させるプログラ
    ムが格納された記録媒体において、 前記コンピュータ装置にインストールされて、音声再生
    指示が入力されたとき、前記コンピュータ装置内に、 再生対象となる音声信号を音響分析して、音声区間の音
    声信号と非音声区間の音声信号とに分離する音響分析部
    と、 この音響分析部で分離された音声区間の音声信号に対
    し、その冒頭部分を所定の再生速度よりも遅くし、かつ
    末尾に向けて次第に所定の再生速度に戻すように話速を
    変換する話速変換部と、 この話速変換部によって話速変換が行われた音声信号と
    前記音響分析部で分離された非音声区間の音声信号とを
    合成して、変換音声信号を生成する合成部と、 を生成させる音声再生プログラムが格納されたことを特
    徴とする記録媒体。
  10. 【請求項10】 請求項9に記載の記録媒体において、 前記音声再生プログラムは、前記コンピュータ装置にイ
    ンストールされて、音声再生指示が入力されたとき、前
    記コンピュータ装置内に、 前記話速変換部によって話速変換が行われた音声信号の
    時間情報に基づき、前記音響分析部で分離された非音声
    区間の音声信号を適応的に削除、または圧縮して、前記
    合成部で話速変換後の前記音声信号と合成させる非音声
    区間長制御部を生成させる、 ことを特徴とする記録媒体。
  11. 【請求項11】 コンピュータ装置を動作させるプログ
    ラムが格納された記録媒体において、 前記コンピュータ装置にインストールされて、音声再生
    指示が入力されたとき、前記コンピュータ装置内に、 再生対象となる音声信号のパワー値を判定して、前記音
    声信号を音声区間の音声信号、非音声区間の音声信号に
    分離させるのに必要なパワーしきい値を生成する音声・
    非音声判定部と、 この音声・非音声判定部によって得られたパワーしきい
    値を用いて、再生対象となる音声信号を音声区間の音声
    信号と非音声区間の音声信号とに分離する音響分析部
    と、 この音響分析部で分離された音声区間の音声信号に対
    し、その冒頭部分を所定の再生速度よりも遅くし、かつ
    末尾に向けて次第に所定の再生速度に戻すように話速を
    変換する話速変換部と、 この話速変換部によって話速変換が行われた音声信号と
    前記音響分析部で分離された非音声区間の音声信号とを
    合成して、変換音声信号を生成する合成部と、 を生成させる音声再生プログラムが格納されたことを特
    徴とする記録媒体。
  12. 【請求項12】 請求項11に記載の記録媒体におい
    て、 前記音声再生プログラムは、前記コンピュータ装置にイ
    ンストールされて、音声再生指示が入力されたとき、前
    記コンピュータ装置内に、 再生対象となる音声信号を音声区間の音声信号と非音声
    区間の音声信号とに分離させるのに必要なパワーしきい
    値を生成し、音声区間の音声信号を伸張させたことに伴
    う原音声からの遅延時聞の蓄積量に比例させて、前記パ
    ワーしきい値を適応的に変化させる前記音声・非音声判
    定部を生成させる、 ことを特徴とする記録媒体。
  13. 【請求項13】 コンピュータ装置を動作させるプログ
    ラムが格納された記録媒体において、 前記コンピュータ装置にインストールされて、音声再生
    指示が入力されたとき、前記コンピュータ装置内に、 再生対象となる音声信号を音響分析して、音声区間の音
    声信号と非音声区間の音声信号とに分離する音響分析部
    と、 この音響分析部で分離された音声区間の音声信号に対
    し、その冒頭部分を所定の再生速度よりも遅くし、かつ
    末尾に向けて次第に所定の再生速度に戻すように話速を
    変換する話速変換部と、 この話速変換部によって話速変換が行われた音声信号の
    時間情報に基づき、前記音響分析部で分離された非音声
    区間の音声信号を適応的に削除、または圧縮する際に、
    所定の長さよりは短くせずに出力する非音声区間調整部
    と、 この話速変換部によって話速変換が行われた音声信号と
    前記非音声区間調整部で得られた非音声区間の音声信号
    とを合成して、変換音声信号を生成する合成部と、 を生成させる音声再生プログラムが格納されたことを特
    徴とする記録媒体。
  14. 【請求項14】 コンピュータ装置を動作させるプログ
    ラムが格納された記録媒体において、 前記コンピュータ装置にインストールされて、音声再生
    指示が入力されたとき、前記コンピュータ装置内に、 再生対象となる音声信号を音響分析して、音声区間の音
    声信号と非音声区間の音声信号とに分離する音響分析部
    と、 この音響分析部で分離された音声区間の音声信号に含ま
    れる基本周波数を計算する基本周波数演算部と、 この基本周波数演算部で得られた基本周波数の変化率に
    応じて、前記音響分析部で分離された音声区間の音声信
    号を適応的に伸長させて、話速を変換する話速変換部
    と、 この話速変換部によって話速変換が行われた音声信号と
    前記音響分析部で分離された非音声区間の音声信号とを
    合成して、変換音声信号を生成する合成部と、 を生成させる音声再生プログラムが格納されたことを特
    徴とする記録媒体。
  15. 【請求項15】 請求項14に記載の記録媒体におい
    て、 前記音声再生プログラムは、前記コンピュータ装置にイ
    ンストールされて、音声再生指示が入力されたとき、前
    記コンピュータ装置内に、 前記音響分析部で分離された音声区間の音声信号を伸長
    させる際、基本周波数演算部で得られた基本周波数の変
    化率と、予め設定されている変化率しきい値とを比較
    し、基本周波数演算部で得られた基本周波数の変化率が
    予め設定されている変化率しきい値を越えている区間の
    音声信号に対する伸長率を前後の音声信号に対する伸長
    率より大きくする話速変換部を生成させる、 ことを特徴とする記録媒体。
  16. 【請求項16】 請求項14に記載の記録媒体におい
    て、 前記音声再生プログラムは、前記コンピュータ装置にイ
    ンストールされて、音声再生指示が入力されたとき、前
    記コンピュータ装置内に、 前記音響分析部で分離された音声区間の音声信号を伸長
    させる際、基本周波数演算部で得られた基本周波数の変
    化率と、予め設定されている変化率しきい値とを比較
    し、基本周波数演算部で得られた基本周波数の変化率が
    予め設定されている変化率しきい値を越えたとき、当該
    音声区間の出現時刻から一定時間、または当該音声区間
    から以降に有声音区間が一定数出現するまでの時間、同
    じ伸張率で、音声信号を伸長させる話速変換部を生成さ
    せる、 ことを特徴とする記録媒体。
JP2000030959A 2000-02-08 2000-02-08 音声再生装置および記録媒体 Pending JP2001222300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000030959A JP2001222300A (ja) 2000-02-08 2000-02-08 音声再生装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000030959A JP2001222300A (ja) 2000-02-08 2000-02-08 音声再生装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2001222300A true JP2001222300A (ja) 2001-08-17

Family

ID=18555900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000030959A Pending JP2001222300A (ja) 2000-02-08 2000-02-08 音声再生装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2001222300A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006014150A (ja) * 2004-06-29 2006-01-12 Matsushita Electric Ind Co Ltd 端末、ネットワークカメラとプログラム、及びネットワークシステム
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
JP2007025039A (ja) * 2005-07-13 2007-02-01 Matsushita Electric Ind Co Ltd 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP2009003394A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
US8165459B2 (en) 2007-05-07 2012-04-24 The University Of Electro-Communications Reproducing apparatus
KR101473249B1 (ko) * 2012-10-30 2014-12-17 주식회사 케이티 콘텐츠 재생 속도 테이블 생성 서버, 디바이스 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289895A (ja) * 1993-04-05 1994-10-18 Nippon Hoso Kyokai <Nhk> リアルタイム話速変換方法
JPH07192392A (ja) * 1993-09-18 1995-07-28 Sanyo Electric Co Ltd 話速変換装置
JPH07281691A (ja) * 1994-04-05 1995-10-27 Nippon Hoso Kyokai <Nhk> 話速変換方法
JPH0973299A (ja) * 1995-06-30 1997-03-18 Sanyo Electric Co Ltd Mpegオーディオ再生装置およびmpeg再生装置
JPH11194796A (ja) * 1997-10-31 1999-07-21 Matsushita Electric Ind Co Ltd 音声再生装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289895A (ja) * 1993-04-05 1994-10-18 Nippon Hoso Kyokai <Nhk> リアルタイム話速変換方法
JPH07192392A (ja) * 1993-09-18 1995-07-28 Sanyo Electric Co Ltd 話速変換装置
JPH07281691A (ja) * 1994-04-05 1995-10-27 Nippon Hoso Kyokai <Nhk> 話速変換方法
JPH0973299A (ja) * 1995-06-30 1997-03-18 Sanyo Electric Co Ltd Mpegオーディオ再生装置およびmpeg再生装置
JPH11194796A (ja) * 1997-10-31 1999-07-21 Matsushita Electric Ind Co Ltd 音声再生装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006014150A (ja) * 2004-06-29 2006-01-12 Matsushita Electric Ind Co Ltd 端末、ネットワークカメラとプログラム、及びネットワークシステム
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
JPWO2006077626A1 (ja) * 2005-01-18 2008-06-12 富士通株式会社 話速変換方法及び話速変換装置
JP4630876B2 (ja) * 2005-01-18 2011-02-09 富士通株式会社 話速変換方法及び話速変換装置
US7912710B2 (en) 2005-01-18 2011-03-22 Fujitsu Limited Apparatus and method for changing reproduction speed of speech sound
JP2007025039A (ja) * 2005-07-13 2007-02-01 Matsushita Electric Ind Co Ltd 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP4580297B2 (ja) * 2005-07-13 2010-11-10 パナソニック株式会社 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
US8165459B2 (en) 2007-05-07 2012-04-24 The University Of Electro-Communications Reproducing apparatus
JP2009003394A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
KR101473249B1 (ko) * 2012-10-30 2014-12-17 주식회사 케이티 콘텐츠 재생 속도 테이블 생성 서버, 디바이스 및 방법
US9264777B2 (en) 2012-10-30 2016-02-16 Kt Corporation Control video content play speed

Similar Documents

Publication Publication Date Title
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
US7809241B2 (en) Audio frequency scaling during video trick modes utilizing digital signal processing
JP2010283605A (ja) 映像処理装置及び方法
JP2001222300A (ja) 音声再生装置および記録媒体
JP2009075280A (ja) コンテンツ再生装置
JP2005044409A (ja) 情報再生装置、情報再生方法および情報再生プログラム
JP3081469B2 (ja) 話速変換装置
JPH09152889A (ja) 話速変換装置
JP3357742B2 (ja) 話速変換装置
JPH09138698A (ja) 音声記録再生装置
JPH07191695A (ja) 話速変換装置
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP2003058192A (ja) 音楽データ再生装置
JP2008145841A (ja) 再生装置、再生方法、信号処理装置、信号処理方法
JP5359203B2 (ja) 楽曲処理装置およびプログラム
JPH1152995A (ja) 音声再生装置
JPH09146587A (ja) 話速変換装置
JP4529859B2 (ja) 音声再生装置
JPH08292796A (ja) 再生装置
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
JPH0772896A (ja) 音声の圧縮伸長装置
JP2001318700A (ja) 話速変換装置
JPH05303400A (ja) 音声再生装置と音声再生方法
JP2003271198A (ja) 圧縮データ処理装置、方法および圧縮データ処理プログラム
KR20030000400A (ko) 음성 재생속도 실시간 변환 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040706