JPH08255000A

JPH08255000A - 音声信号再生装置

Info

Publication number: JPH08255000A
Application number: JP7058719A
Authority: JP
Inventors: Teruo Hoshi; 照雄法師; Masanori Miyatake; 正典宮武; Junichi Umemoto; 順一梅本
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-03-17
Filing date: 1995-03-17
Publication date: 1996-10-01

Abstract

(57)【要約】【目的】聞き取りやすい状態を維持したまま、録音音
声の再生所要時間を短縮する。【構成】ＤＳＰ２２は、入力音声データの無音部分を
検出し、これを削除して、リングメモリ２４に書き込
む。一方リングメモリ２４から一定速度でデータが読み
出されるため、スピーカ２８において通常の音程で再生
音声が出力される。無音部分が少ないと、リングメモリ
２４において読み出されるデータ量より書き込まれるデ
ータ量の方が多くなる。この場合には、モータ３４のス
ピードを遅くし、かつＡ／Ｄ変換器１６のサンプリング
周波数をモータ３４の回転数に同期して遅くして、ＤＳ
Ｐ２２に入力するデータ量を少なくする。これによっ
て、リングメモリ２４に書き込まれるデータ量が少なく
なり、リングメモリ２４において、読み出される前にデ
ータが書き換えられてしまうことを防止できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、会議などにおける録音
音声を短時間で効率的に再生する音声信号再生装置に関
する。

【０００２】

【従来の技術】従来より、講演会、講習会、打ち合わせ
会議などの内容を記録するために、テープレコーダ等の
録音装置が利用されている。特に、コンパクトタイプの
カセットテープを用いたカセットテープレコーダは、カ
セットテープのみならず、レコーダ自体が安価、小型で
あり、これら録音に広く利用されている。

【０００３】そして、録音したテープは、その後におい
て再生され、録音した本人における内容確認や、録音時
にいなかった者による内容の把握に利用される。実際に
再生すると、これらの録音された内容の中には、不要な
間（音声入力のない状態）などがかなり多く存在する。

【０００４】一方、このようなテープの再生において
は、なるべく短時間ですませたいという要求がある。こ
のため、音声が入力されたときのみ録音を行う音声起動
機能を有した装置も知られている。この機能を利用すれ
ば、無音部分が録音されないため、再生が短時間で行え
る。しかし、この音声起動機能は、音声が入力されたこ
とを認識してから、録音を開始するため、音声の最初の
部分が削除されてしまい、内容を十分に把握できなくな
るという問題があった。

【０００５】一方、テープを早送り再生すれば、これに
よって再生時間を短縮できる。しかし、単に早送りする
と、音声の音程が高域側（周波数が高周波数側）にシフ
トし、非常に聞き取りにくくなってしまう。

【０００６】そこで、テープを早送り再生しながらも、
通常の音程でしかも比較的ゆっくりとした速度で音声を
再生する話速変換処理技術も知られている。この話速変
換では、テープを早送りして得た音声信号の音程をもと
の周波数に戻すとともに、音声信号の無音部分を検出し
てこの部分を削除する。削除する部分が十分であれば、
早送り再生にもかかわらず通常再生速度で音声を再生す
ることができる。

【０００７】一方、通常速度で再生する場合でも、英会
話などゆっくり聞きたいという需要がある。その場合に
も音声信号の無音部分をゆっくり検出して削除すれば、
検出部分に相当する時間だけ音声を伸長でき、ゆっくり
音声を再生することができる。

【０００８】

【発明が解決しようとする課題】しかし、上記従来例に
よれば、検出される無音部分が少ない場合、早送り再生
速度に追従させて音声を出力させるには、音声部分の時
間軸圧縮率を高くしなければならない。一般に、３０％
以上圧縮すると話の意味を聞き取るのが困難になってし
まうという欠点があった。また、通常速度で再生する場
合にも、ほとんど音声を伸長させることが出来ず、話速
変換の効果が得られなかった。

【０００９】本発明は、上記問題点を解決することを課
題としてなされたものであり、話の速度を聞きやすいも
のに維持しながら再生に要する時間を短縮したり、再生
速度を維持しながら話の速度を聞きやすいものに変換し
たりすることのできる音声再生装置を提供することを目
的とする。

【００１０】

【課題を解決するための手段】本発明は音声信号記録媒
体に記憶されている音声信号を再生出力する音声信号再
生手段と、再生出力される音声信号の継続時間を圧縮あ
るいは伸長処理する時間圧縮伸長手段と、この時間圧縮
伸長手段における圧縮伸長処理状況に応じて上記音声信
号再生手段の再生速度を制御する再生制御手段と、を有
することを特徴とする。

【００１１】また、本発明は上記時間圧縮伸長手段は、
音声信号の中の無音部分を圧縮する無音省略処理を行う
ことを特徴とする。

【００１２】また、本発明は、上記音声信号再生手段
は、アナログの音声信号を出力するものであり、このア
ナログの音声信号をデジタルに変換するＡ／Ｄ変換手段
をさらに有し、このＡ／Ｄ変換手段から出力されるデジ
タル音声信号が時間圧縮伸長手段に供給されることを特
徴とする。

【００１３】また、本発明は、上記Ａ／Ｄ変換手段は、
アナログ信号を所定のサンプリングクロックに応じてデ
ジタル信号に変換するものであり、このサンプリングク
ロックを上記音声信号再生手段の再生速度に応じて変更
するサンプリングクロック制御手段を更に有することを
特徴とする。

【００１４】また、本発明は、上記音声信号記録媒体
は、磁気テープであり、上記音声信号再生手段は磁気テ
ープを送るテープ送りモータを含み、上記サンプリング
クロック制御手段は、上記テープ送りモータの回転数に
応じてサンプリングクロックを制御することを特徴とす
る。

【００１５】また、本発明は、上記時間圧縮伸長手段
は、Ａ／Ｄ変換手段からのデジタル音声データの中から
無音部分を検出し、無音部分を省略する処理を行う無音
省略処理部と、無音部分が省略された音声データを新し
いものから常に所定時間分記憶する音声メモリと、この
音声メモリに記憶されている音声データを読み出し出力
する読み出し出力部と、を有することを特徴とする。

【００１６】また、本発明は、上記時間圧縮伸長手段
は、音声メモリ内におけるすでに読み出された音声デー
タの量であるメモリ残量を認識するメモリ残量認識手段
を含み、上記再生制御手段は、認識されたメモリ残量に
応じて再生速度を制御することを特徴とする。

【００１７】また、本発明は、上記時間圧縮伸長手段
は、有音部分における音声データの繰り返し波形の一部
を間引きあるいは繰り返し波形を付加する時間軸圧縮伸
長処理を行うことを特徴とする。

【００１８】また、本発明は、話速指令を外部から入力
する話速入力手段と、音声信号再生手段から再生出力さ
れる音声信号の話速を検出する話速検出手段と、を有
し、上記時間圧縮伸長手段は、話速変換処理後の話速
が、入力された話速指令における話速に合致するように
間引きあるいは付加処理を行うことを特徴とする。

【００１９】また、本発明は、上記時間圧縮伸長手段
は、音声信号再生手段から再生出力される音声信号の話
速を検出する話速検出手段を有し、この話速検出手段に
よって検出した話速が速い場合には目標とする話速を所
定の話速より比較的速く、上記話速検出手段によって検
出した話速が遅い場合には目標とする話速を所定の話速
より比較的遅く設定して時間軸圧縮伸張処理を行うこと
を特徴とする。

【００２０】また、本発明は、上記話速検出手段は、単
位時間当たりの母音の発生回数をカウントすることによ
って話速を検出することを特徴とする。

【００２１】また、本発明は、上記話速検出手段は、１
つの母音の発声継続時間を検出することによって話速を
検出することを特徴とする。

【００２２】

【作用】音声信号再生手段は、記録媒体に記憶されてい
る音声信号を再生して出力する。時間圧縮伸長手段は、
再生された音声信号に対して時間圧縮伸長処理を施す。
そして、再生制御手段が時間の圧縮伸長状況に応じて、
再生手段による再生速度を制御する。例えば、時間圧縮
伸長手段が無音部分を省略する場合であれば、無音部分
が多い場合に、再生速度を速くし、無音部分が少なく、
省略が少ない場合に再生速度を遅くする。これによっ
て、時間圧縮伸長手段からの出力データ量が一定値に近
づく。

【００２３】また、Ａ／Ｄ変換手段により、デジタル信
号を時間圧縮伸長手段に供給することにより、通常のメ
モリ等を利用して、時間圧縮伸長の処理が行われる。

【００２４】また、Ａ／Ｄ変換手段におけるサンプリン
グクロックを再生速度に同期させることにより、再生速
度が変わっても入力信号に対するデジタル信号の変換レ
ートは一定に保持される。

【００２５】また、音声信号記録媒体が磁気テープであ
れば、磁気テープの送り駆動用のモータの回転数を制御
することによって、再生速度が制御される。また、Ａ／
Ｄ変換手段のサンプリングクロックは、モータ回転数に
応じて発生するパルスを利用することができる。

【００２６】また、無音部分を省略等の時間圧縮伸長処
理を行った音声データを音声メモリに順次記憶してお
き、これを所定の周波数で読み出すことにより、時間が
圧縮短縮された音声データが得られる。

【００２７】また、音声メモリには、時間圧縮伸長され
た音声データが書き込まれ、この書き込まれた音声デー
タが所定のスピードで読み出される。読み出しスピード
の方は、音程が所定のものになるように読み出さなけれ
ばならず、一定のスピードになる。そこで、音声メモリ
内のすでに読み出されたデータの量、換言すると音声メ
モリ内の書き込み可能なデータの量、すなわちメモリ残
量は、入力されてくる音声信号の時間圧縮伸長の度合い
によって変化する。本発明では、メモリ残量によって、
再生速度を制御することによって、メモリ残量をほぼ一
定の値に制御する。

【００２８】また、話速変換処理によって、無音部分を
削除するとともに有音部分を時間軸を圧縮伸長すること
によっても、時間圧縮伸長が達成される。

【００２９】また、この話速変換による時間軸圧縮伸長
処理によれば、音声は好みの速さで再生できる。この速
さの程度は、ユーザの好みによって異なる。そこで、ユ
ーザが話速変換の程度を指定すること０より、ユーザの
指定通りの速さで再生が行われる。

【００３０】また、音声信号再生手段によって再生出力
された音声信号における話速を検出し、その話速を考慮
することによって、音声信号再生手段によって再生出力
された音声信号（例えば、録音テープの再生によって得
られる音声信号）の局所的な早口、遅口を残して、時間
軸圧縮処理が行われる。すなわち、時間軸圧縮処理の目
標とする話速は、通常予め設定された所定の話速である
が、この処理の目標となる所定の話速を検出した話速に
よって、検出した話速が遅ければ目標となる話速を速
く、検出した話速が遅ければ目標となる話速を遅くす
る。

【００３１】また、単位時間当たりの母音の数を数える
ことによって、音声信号における話速を検出することが
できる。

【００３２】また、１つの母音の継続時間を計測するこ
とによって、音声信号における話速を検出することがで
きる。通常、母音は、１つの繰り返し波形を多数回繰り
返すことによって、構成されている。そこで、この波形
の繰り返し数をカウントすることによって早口遅口の程
度、すなわち話速を検出することができる。なお、話速
変換における圧縮伸長は、この波形単位でデータを間引
いたり追加したりすることによって好適に行われる。

【００３３】

【実施例】以下、本発明に係る音声再生装置の一実施例
について、図面に基づいて説明する。録音テープ１０
は、通常のオーディオ等の録音に使用されるコンパクト
サイズのＣ−カセットであり、通常の方式で音声信号が
録音されている。すなわち、普通の録音機で、標準のテ
ープ速度４．７５ｃｍ／ｓｅｃで録音されたものであ
り、テープ上の音声の記録フォーマットも標準のもので
ある。

【００３４】磁気ヘッド１２は、録音テープ１０のテー
プ走行面に近接して配置されており、録音されている音
声信号を電気信号（アナログ音声信号）として出力す
る。磁気ヘッド１２には、プリアンプ１４を介し、Ａ／
Ｄ変換器１６が接続されており、磁気ヘッド１２で得ら
れたアナログ音声信号は、所定のレベルに増幅されてＡ
／Ｄ変換器１６に供給される。Ａ／Ｄ変換器１６は、外
部から供給されるサンプリングクロックによって決定さ
れるサンプリング周波数（例えば、１６ｋＨｚ）で、ア
ナログ音声信号をサンプリングし、例えば１６ビットの
ＰＣＭ形式のデジタルデータ（音声データ）に変換す
る。

【００３５】Ａ／Ｄ変換器１６からのデジタルデータ
は、入力バッファ１８に入力され、ここに記憶される。
ここで、この入力バッファ１８は、１フレーム分（通常
１フレームが１０ｍｓｅｃ程度）の音声データを交互に
受け入れる２つのフレームメモリからなっており、一方
のフレームメモリにデータが記憶されているときに他方
のフレームメモリからのデータが読み出され、これにつ
いて後述の処理がなされる。

【００３６】入力バッファ１８には、データバス２０を
介し、ＤＳＰ（デジタルシグナルプロセッサ）２２が接
続されており、またデータバス２０にはリングメモリ２
４も接続されている。このＤＳＰ２２は、音程を維持し
たまま出力音声を時間圧縮伸長処理を行う。特に、本実
施例では、無音部分を検出して、この無音部分を間引き
処理する無音省略処理と、有音部分の一部を圧縮伸長す
る時間軸圧縮伸長処理の両方を行う、いわゆる話速変換
処理を行う。そして、時間圧縮伸長したデータをリング
メモリ２４に記憶する。なお、この例では、リングメモ
リ２４として、２５６ｋビットのものが採用されてい
る。

【００３７】また、データバス２０には、Ｄ／Ａ変換器
２６も接続されており、リングメモリ２４から読み出さ
れたデータは、Ｄ／Ａ変換器２６によりアナログ音声信
号に変換され、スピーカ２８に供給される。そこで、こ
のスピーカ２８から入力音声信号に比べて時間が圧縮伸
長された音声データに基づく音声が出力される。なお、
図示は省略したが、Ｄ／Ａ変換器２６とスピーカ２８の
間には、通常増幅器などが設けられる。

【００３８】また、データバス２０には、メモリコント
ローラ３０も接続されている。そして、このメモリコン
トローラ３０が、上述のリングメモリ２４に対するデー
タの書き込み読み出しを制御する。すなわち、メモリコ
ントローラ３０は、書き込みアドレスカウンタ及び読み
出しアドレスカウンタを内蔵しており、これらのカウン
ト値によって、リングメモリ２４におけるデータの書き
込み読み出しアドレスを決定する。

【００３９】書き込みアドレスは、ＤＳＰ２２が所定の
時間圧縮伸長処理した音声データを供給する際に書き込
みデータ量に応じて順次カウントアップしていき、リン
グメモリ２４の最終アドレスに達した場合には、最初の
アドレスに戻る。これによって、入力されてくる音声デ
ータをリングメモリ２４に順次記憶することができる。
一方、読み出しアドレスは、常に一定のクロックでカウ
ントアップしていく。なお、読み出しアドレスもリング
メモリ２４の最終アドレスまで来たときには、次のカウ
ントアップで最初のアドレスに戻る。

【００４０】そして、読み出しアドレスのすすみは一定
であるが、書き込みアドレスのすすみは、ＤＳＰ２２に
おける時間圧縮伸長処理の状況により異なる。このた
め、書き込みアドレスと読み出しアドレスの差は、時間
圧縮伸長処理の状況によって変化する。なお、このアド
レスの差は、読み出しが終了した音声データの量、すな
わち今後の書き込みが可能な音声データの量に対応して
おり、これをリングメモリ２４におけるメモリ残量と呼
ぶ。

【００４１】本実施例では、このメモリ残量はメモリコ
ントローラ３０が認識し、これについての信号をサーボ
アンプ３２に供給する。そして、サーボアンプ３２がメ
モリ残量に応じてテープ送り用のモータ３４の回転を制
御する。

【００４２】また、本実施例では、モータ３４にモータ
回転数に応じたパルスを発生するＦＧパルス発生器３６
が取り付けられており、ここからモータ回転数に応じた
ＦＧパルスは発生される。そして、このＦＧパルス発生
器３６からのＦＧパルスは、位相比較器３８、電圧制御
発振器４０及び１／Ｎ分周器４２からなるＰＬＬ（フェ
ーズ・ロックド・ループ）に供給され、電圧制御発振器
４０の出力である周波数信号がＡ／Ｄ変換器１６にサン
プリングクロックとして供給される。従って、Ａ／Ｄ変
換器１６におけるサンプリングクロックはモータ３４の
回転数に応じたものになる。

【００４３】そして、本実施例の装置により音声再生を
行う場合には、まずモータ３４を２倍速（回転数１６ｒ
ｐｓ（回転／秒）、テープ送り速度９．５ｃｍ／ｓｅ
ｃ、テープ送り用ローラ径２ｍｍ）で駆動する。

【００４４】また、ＦＧパルス発生器３６はモータ３４
の１６ｒｐｓに対し、３２０ＨｚのＦＧパルス（１回転
２０パルス）を発生するものとし、１／Ｎ分周器４２
は、１／５０分周器とする。これによって、モータ３４
の回転数が１６ｒｐｓであった場合には、１６ｋＨｚの
サンプリングクロックがＡ／Ｄ変換器１６に供給される
ことになる。

【００４５】このため、Ａ／Ｄ変換器１６において、１
６ｋＨｚのサンプリング周波数でＡ／Ｄ変換が行われ、
これが入力バッファ１８に記憶される。

【００４６】ここで、本実施例においては、ＤＳＰ２２
による時間圧縮伸長処理は、データ中の無音部分を検出
し、この一部を削除する無音省略処理と、音声信号の繰
り返し波形の一部を圧縮伸長して音程を変更せずに時間
軸を圧縮伸長して話速を制御する話速変換処理の２つで
ある。しかし、本実施例では、まず無音省略処理のみを
前提として説明を行う。

【００４７】ＤＳＰ２２は、入力バッファ１８に記憶さ
れている１フレーム（１０ｍｓｅｃ）の音声データのパ
ワーの平均値が所定の閾値以下であるかによって無音フ
レームを検出する。この場合の閾値としては、音声のパ
ワーと話者の発声環境中の周囲雑音のパワーとを区別で
きる値が設定される。そして、この無音フレームが５１
以上継続した場合に、５１フレーム目以降を削除する。

【００４８】これは、無音部分は、できるだけ短くする
ことが望ましいが、余り短くすると、間がなくなり、聞
き取りずらくなるためであり、これによって、無音部分
は最大０．５秒程度になる。なお、通常無音部分は、１
秒程度であれば、十分とされているができるだけ短くし
たい。しかし、０．３秒以下にすると間が小さくなりす
ぎると考えられる。そこで、早送り再生でも０．５秒程
度に設定するのが好適と考えられる。

【００４９】このような処理によって、無音部分が短縮
されたデータがリングメモリ２４に書き込まれる。一
方、このリングメモリ２４からの読み出しは、８ｋＨｚ
に固定されたクロックで行う。Ａ／Ｄ変換器１６におけ
るサンプリング周波数は、テープ速度を９．５ｃｍ／ｓ
ｅｃとした際に１６ｋＨｚである。録音テープ１０には
通常の４．７５ｃｍ／ｓｅｃで録音された音声が記憶さ
れており、そのままでは２倍速再生した周波数が２倍の
音声になってしまう。本実施例では、Ａ／Ｄ変換器１６
のサンプリング周波数（１６ｋＨｚ）の１／２の周波数
（８ｋＨｚ）のクロックでリングメモリ２４からの読み
出しを行うことで、音声信号の周波数を通常のものに戻
している。

【００５０】ここで、無音部分が適度に分散しており、
かつその存在率がちょうど１／２であれば、このような
処理が問題なく継続される。しかし、無音部分が少ない
場合には、リングメモリ２４に書き込まれるデータ量が
多く、読み出しスピードは一定であるため、リングメモ
リ２４における書き込みアドレスと読み出しアドレスの
差（時間差）が大きくなってくる。このアドレスの差が
大きくなるということは、未だに読み出されていないデ
ータの記憶量が大きいことを意味しており、書き換えて
よいメモリ容量（メモリ残量）が少ないことを意味して
いる。そして、メモリ残量が、０より小さくなると、読
み出す前のデータが書き換えられてしまうことになり、
正しい再生が行えなくなる。

【００５１】そこで、メモリコントローラ３０は、メモ
リ残量についての信号をサーボアンプ３２に供給し、サ
ーボアンプがメモリ残量が小さくなると、モータ３４の
回転数を低くするように制御する。これによって、録音
テープ１０の送り速度が遅くなり、再生速度が遅くな
る。一方、ＰＬＬによってＡ／Ｄ変換器１６におけるサ
ンプリング周波数もテープ送り速度に応じて小さくな
る。従って、Ａ／Ｄ変換器１６の出力のデジタルデータ
におけるテープ送り速度９．５ｃｍ／ｓｅｃの再生音に
対しサンプリングクロック１６ｋＨｚという関係、すな
わち、テープ送り速度に対するサンプリングクロックの
比率（データのサンプリングレートに対応）を維持しつ
つ、遅いサンプリングクロックでデジタルデータが入力
バッファ１８に書き込まれることになる。

【００５２】これによって、ＤＳＰ２２における無音部
分の時間圧縮伸長処理を行った後のデータ量も少なくな
り、リングメモリ２４におけるメモリ残量が所定値に収
められることになる。例えば、テープ送り速度を４．７
５ｃｍ／ｓｅｃ、サンプリング周波数を８ｋＨｚにすれ
ば、無音部分が０であってもそのまま時間軸圧縮０の再
生が行われることになる。

【００５３】一方、リングメモリ２４におけるメモリ残
量が大きくなり、例えばメモリ残量が１００％を超える
と、前に読み出したデータをもう一度読み出すことにな
り、やはり正常な再生が行えなくなる。この場合には、
上述の場合と逆にモータ３４の回転数を速め、書き込み
データ量を増やせばよい。また、ＤＳＰ２２における無
音部分の時間圧縮伸長処理におけるデータ削除量を全デ
ータの３／４に限定しておき、テープ送り速度を４倍速
まで変更可能にしておけば、１／４の無音データはリン
グメモリ２４に少なくとも書き込まれることになり、無
音部分が継続した場合でも再生音において問題は発生し
ない。

【００５４】このように、本実施例によれば、２倍速の
再生を基本として、録音テープ１０に録音されている音
声信号中の無音部分の量に応じて、１倍速から４倍速ま
でテープ送り速度を変化させる。これによって、リング
メモリ２４内のメモリ残量を所定量に維持し、効果的な
時間圧縮伸長の再生を行うことができる。例えば、図２
に示すように、メモリ残量に応じてテープ速度が１倍か
ら４倍に変更される。

【００５５】さらに、上記説明においては、ＤＳＰ２２
による時間圧縮伸長処理を無音部分についてだけ述べた
が、これに音声信号の繰り返し波形の一部を間引いたり
付加したりして音程を変更せずに話速を制御する処理が
組み合わされた時間圧縮伸張を行うこともできる。

【００５６】このため、時間軸圧縮処理について次に説
明する。まず、入力バッファ１８には、テープの再生速
度に係わらずオリジナルの音声（録音テープ１０に記憶
されている音声）の２倍の話速を保持した状態の音声デ
ータが蓄えられている。そして、時間軸圧縮伸長のため
には、まず母音についての繰り返し波形を検出しなけれ
ばならない。

【００５７】そこで、ＤＳＰ２２は、入力バッファ１８
に記憶されている音声データから音声データのパワー変
化、スペクトル変化、周期性の変化等を検出し、これら
検出結果についての情報に基づいて音声データ中の母音
区間を検出すると共に、この母音区間を抽出する。そし
て、抽出された母音区間中における周期性から繰り返し
波形を認識し、繰り返し波形を所望数だけ削除・追加し
て時間軸圧縮伸長を行う。

【００５８】ここで、パワー変化、スペクトル変化、周
期性の変化の検出に基づく母音区間の検出および繰り返
し周期の検出について、説明する。

【００５９】まず、音声データのパワーは、音声データ
の二乗の関数である。そして、母音は子音よりパワーが
大きい。そこで、サンプリングされた音声データの二乗
の値の変化状態からその値が大きい部分を母音区間と推
定する。次に、音声データについて、高速フーリエ変換
処理を施し、順次スペクトル分析を行う。母音区間は、
特定の周波数の強度が大きい状態がある程度続くため、
これを基に母音区間を推定できる。さらに、母音区間
は、一定の波形が繰り返される。このため、音声データ
の自己相関をとれば、母音区間では、大きなピークが検
出される。そこで、音声データについての自己相関のピ
ークの大きさから母音部分を検出することができる。さ
らに、この自己相関におけるピークの存在位置の変化か
ら母音の変化を検出することができる。

【００６０】このような検出結果の１つから母音区間を
検出してもよいが、これらを総合的に評価して、母音区
間を検出するとよい。次に、検出した母音区間を抽出す
ると共に、１つの母音についての繰り返し波形およびこ
の繰り返し数を認識する。このためには、繰り返し波形
を認識しなければならないが、これらは上述の自己相関
のピークの存在位置から検出できる。そして、認識した
繰り返し波形の１またはそれ以上を削除・追加すること
によって繰り返し波形の間引き・追加による時間軸圧縮
伸長が達成される。

【００６１】通常の場合、１つの母音は、ほぼ同一の繰
り返し波形が５〜３０程度繰り返される場合が多い。こ
のため、例えば、ほぼ繰り返し波形が１２連続する音声
に対して、連続３波形ごとに１波形の計４波形を削除す
れば、１つの母音の継続時間を２／３に時間圧縮するこ
とができる。

【００６２】ここで、波形を単純に削除するのではな
く、次のようにして、２波形を１波形にまとめることも
好適である。この場合の削除・付加波形の前後の波形の
接続には、接続部分の前の１波形のサンプル値に０〜１
に線形変化する窓を掛けた傾斜波形値と接続部分の後の
１波形に１〜０に線形変化する窓を掛けた逆傾斜波形値
とを加算する重複加算法と称する手法が採用される。こ
のような接続手法によって、波形の連続性を維持しなが
ら時間軸圧縮伸長でき、結果、音声の波形の周波数（音
声の音程）に変化はない。これにより、音程を維持した
まま時間軸を圧縮伸長する（最適な速度に変換する）こ
とができる。

【００６３】なお、このような母音区間の検出、繰り返
し波形の認識、間引き等の処理をおこうためには、ある
程度の期間の音声データを記憶しておき、これについて
処理を行うことが好ましい。そこで、入力バッファ１８
を単なるフレームメモリではなく、１００フレーム分程
度のリングメモリとするとよい。すなわち、入力バッフ
ァ１８において、入力されてくる音声データを順次古い
ものの上に上書きし、常に最新のものから１００フレー
ム分を記憶する。これによって、周期性等をかなりの時
間にわたって検出でき、より精度の高い処理が行える。

【００６４】このように本実施例のＤＰＳ２２において
は、時間軸圧縮伸長を無音部分を削除する無音省略処置
に組み合わせ、より積極的な話速変換を行っている。

【００６５】ここで、この話速変換の程度については、
ユーザの好みもある。そこで、図示のごとくユーザによ
る操作スイッチＳを設け、話速変換についての程度を選
択して指令入力させるとよい。例えば、これを３段階と
し、図２に示すように、メモリ残量に対する話速の大き
さＳ１〜Ｓ３を選択するとよい。すなわち、予め図２に
示すような関係をマップとして記憶しておき、これを参
照して話速変換の程度（波形を圧縮伸長する割合）を決
定する。そして、テープ速度及び話速変換の組み合わせ
によって、図２における話速の特性の直線（ユーザの選
択による３種類）と、テープ速度の直線の交点にメモリ
残量がなるように制御が行われる。

【００６６】「変形例１」上記の例では、話速変換の基
準をオリジナルの録音テープからのそのままの再生音声
においている。しかし、録音された音声には、早口の場
合と遅口の場合があり、聞き取りやすい話速変換の程度
は、録音音声の早口（遅口）の程度によって異なる。そ
こで、本例では、話速変換の基準をオリジナルの音声に
おける音声の絶対速度におく。

【００６７】すなわち、本例では、固定的に設定される
絶対話速と話者の本来の話速との比率を用いて、ＤＳＰ
２２から出力される音声データが絶対話速になるように
時間軸圧縮伸長処理における母音の繰り返し波形の圧縮
伸長率を決定する。

【００６８】これによって、話速が常に一定になり、早
口のものをもっと早口にしたり、遅口のものが余り短縮
されないというような欠点が除去される。さらに、リン
グメモリ２４のメモリ残量に応じたテープ速度の変更も
行うため、系全体の安定した動作が確保される。

【００６９】また、ユーザが、外部からの入力により、
この話速の絶対速度（早口の程度）を指定できるように
するとよい。例えば、早口の程度１、２、３等のボタン
を設け、このボタンをユーザに操作させて、この程度を
決定する。そして、ＤＳＰ２２における話速変換処理に
おいて、指定された早口の程度に応じて、母音の繰り返
し波形の繰り返し数を決定し、入力音声の繰り返し波形
の繰り返し数をこれにそろえる。従って、ユーザの望む
話速での音声再生を行うことができる。なお、ボタンは
インターフェースを介し、データバス２０に接続してお
くことで、この操作をＤＳＰ２２が認識できる。

【００７０】「変形例２」上記変形例１においては、ユ
ーザが絶対速度を指定して再生するようにした。しか
し、一般的に、話者は重要な部分、相手に意志を確実に
伝えたい部分等は比較的ゆっくり話す傾向がある。従っ
て、上記変形例１のように、絶対速度を一定にしてしま
うと話しのニュアンスが読みにくくなることが考えられ
る。

【００７１】そこで、本例では、所定期間（１秒間）の
入力音声データに対し、その母音の繰り返し波形の繰り
返し数をカウントして、話速の絶対速度（母音繰り返し
波形の繰り返し数）を計測し、この平均繰り返し数を求
める。次に、算出された平均繰り返し数が目標となる繰
り返し数（再生の際に目的とする話速に対応した繰り返
し数）となるように、削減率を計算する。そして、求め
られた削減率が３割であれば、これに対応する０．７を
乗算して、ＤＳＰ２２における時間軸圧縮伸長処理の目
標である各母音の繰り返し波形の繰り返し数を決定す
る。

【００７２】これによって、ＤＳＰ２２は、入力されて
くる音声の１フレーム（１０ｍｓｅｃ）に対しては、各
母音の繰り返し波形の３割を間引いて、話速変換を行
う。そこで、話者の本来の話速の平均値（１秒間）に対
するその実時間変化（１０ｍｓｅｃ）との比率を用い、
固定的に設定される絶対話速に対し、この比率をかけた
変動話速になるように時間軸圧縮伸長処理における母音
の繰り返し波形の間引き処理が行われる。このようにし
て、随時検出した話速によって時間圧縮処理において目
標となる所定の話速（例えば、早口でもなく、遅口でも
ない適切な話速）が比較的小さな変動幅で変化する。

【００７３】なお、目標となる絶対話速については、上
述の例と同様に、ユーザにより選択できるようにすると
よい。また、この処理を行うためには、入力バッファ１
８として、１秒分（１００フレーム分）の容量が必要で
ある。

【００７４】このようにして、図３に示すように、絶対
話速が遅いほど話速変換による時間軸圧縮率が高くなる
処理が行われる。そして、全体としての時間の圧縮率
は、所定のものに維持しながら、部分的な早口、遅口は
残すことができ、話しのニュアンスを維持して好適な時
間軸圧縮処理が行える。

【００７５】「さらに、別の変形」上述の例では、話速
を母音に繰り返し波形の繰り返し数で決定したが、所定
時間当たりの母音の出現回数によっても実質的の同等の
判定を行うことができる。そこで、母音の繰り返し波形
の繰り返し数に代えて母音の出現回数により、早口の程
度を判定してもよい。すなわちＤＳＰ２２において、所
定時間内の母音の出現回数をカウントし、話速を検出す
るとよい。

【００７６】また、時間軸圧縮伸長の処理としては、無
音省略処理または時間軸圧縮伸長処理のいずれか一方の
みでもよく、両方を用いた話速変換の処理でもよい。

【００７７】また、上述の例では、録音媒体としてＣカ
セット録音テープのみを説明したが、他の録音テープで
も同様に、適用することができる。さらに、コンパクト
ディスク（ＣＤ）、半導体メモリによる固体録音メモリ
などでもその再生速度を制御することによって、本発明
を好適に適用することができる。

【００７８】さらに、上述の例では、ＤＳＰ２２が話速
変換処理のすべてを行ったが、マイコンなどを別に設
け、このマイコンにおいて話速変換処理や、ユーザの入
力する話速指令についての処理等行ってもよい。

【００７９】

【発明の効果】以上説明したように、本発明によれば、
話速変換処理により、話速を適正化できる。また、話速
変換処理の状況に応じて記録媒体からの再生速度を制御
するため、再生されたが出力されないでデータが消えて
しまうような不具合の発生を防止することができる。ま
た、無音部分を省略することにより、有音部分に悪影響
を及ぼさずに、再生時間の短縮が行える。

【００８０】また、無音部分の省略処理をデジタル的に
行うことによって、メモリなどを利用した効率的な処理
が行える。

【００８１】また、Ａ／Ｄ変換のサンプリングクロック
を記憶媒体からの再生速度に応じて変更することによっ
て、再生された音声信号とデジタルデータとの間の変換
レートは一定の保つことができ、音声出力の際の処理が
容易となる。

【００８２】また、通常のカセットデッキで録音された
通常の磁気テープを再生して、好適な話速変換を行うこ
とができる。

【００８３】また、話速変換された音声データを音声メ
モリに記憶し、ここから音声データを読み出すことによ
って、話速変換した音声をスピーカなどに所定のスピー
ドで供給することができる。

【００８４】また、音声メモリのメモリ残量に応じて再
生速度を制御することによって、音声メモリにおいてデ
ータが読み出される前に書き換えられてしまうような事
態の発生を防止して、好適な話速変換が行える。

【００８５】また、話速変換の程度をユーザが指定する
ことによって、ユーザの好みに合わせた話速での再生が
行われる。

【００８６】また、平均的な話速を一定に制御してお
き、局所的には入力音声信号の話速に応じて話速を変更
することで、話のニュアンスを維持しつつ話速の最適化
を行うことができる。

【００８７】また、単位時間当たりの母音の発生回数や
１つの母音の継続時間の検出により、入力音声の話速を
容易に検出することができる。

【図面の簡単な説明】

【図１】実施例の全体構成を示すブロック図である。

【図２】メモリ残量とテープ速度及び話速の関係を示
す特性図である。

【図３】絶対話速と話速変換率の関係を示す特性図で
ある。

【符号の説明】

１０録音テープ、１２磁気ヘッド、１６Ａ／Ｄ変
換器、１８入力バッファ、２０データバス、２２
ＤＳＰ、２４リングメモリ、２６Ｄ／Ａ変換器、２
８スピーカ、３０メモリコントローラ、３４モー
タ、３６ＦＧパルス発生器、３８位相比較器、４０
電圧制御発振器、４２１／Ｎ分周器。

Claims

【特許請求の範囲】

【請求項１】音声信号記録媒体に記憶されている音声
信号を再生出力する音声信号再生手段と、再生出力される音声信号の継続時間を圧縮あるいは伸長
処理する時間圧縮伸長手段と、この時間圧縮伸長手段における圧縮伸長処理状況に応じ
て上記音声信号再生手段の再生速度を制御する再生制御
手段と、を有することを特徴とする音声信号再生装置。
【請求項２】請求項１に記載の装置において、上記時間圧縮伸長手段は、音声信号の中の無音部分を圧
縮する無音省略処理を行うことを特徴とする音声信号再
生装置。
【請求項３】請求項１または２に記載の装置におい
て、上記音声信号再生手段は、アナログの音声信号を出力す
るものであり、このアナログの音声信号をデジタルに変換するＡ／Ｄ変
換手段をさらに有し、このＡ／Ｄ変換手段から出力されるデジタル音声信号が
時間圧縮伸長手段に供給されることを特徴とする音声信
号再生装置。
【請求項４】請求項３に記載の装置において、上記Ａ／Ｄ変換手段は、アナログ信号を所定のサンプリ
ングクロックに応じてデジタル信号に変換するものであ
り、このサンプリングクロックを上記音声信号再生手段
の再生速度に応じて変更するサンプリングクロック制御
手段を更に有することを特徴とする音声信号再生装置。
【請求項５】請求項４に記載の装置において、上記音声信号記録媒体は、磁気テープであり、上記音声
信号再生手段は磁気テープを送るテープ送りモータを含
み、上記サンプリングクロック制御手段は、上記テープ送り
モータの回転数に応じてサンプリングクロックを制御す
ることを特徴とする音声信号再生装置。
【請求項６】請求項３〜５のいずれかに記載の装置に
おいて、上記時間圧縮伸長手段は、Ａ／Ｄ変換手段からのデジタル音声データの中から無音
部分を検出し、無音部分を省略する処理を行う無音省略
処理部と、無音部分が省略された音声データを新しいも
のから常に所定時間分記憶する音声メモリと、この音声
メモリに記憶されている音声データを読み出し出力する
読み出し出力部と、を有することを特徴とする音声信号再生装置。
【請求項７】請求項６に記載の装置において、上記時間圧縮伸長手段は、音声メモリ内におけるすでに読み出された音声データの
量であるメモリ残量を認識するメモリ残量認識手段を含
み、上記再生制御手段は、認識されたメモリ残量に応じて再生速度を制御すること
を特徴とする音声信号再生装置。
【請求項８】請求項１〜７のいずれかに記載の装置に
おいて、上記時間圧縮伸長手段は、有音部分における音声データの繰り返し波形の一部を間
引きあるいは繰り返し波形を付加する時間軸圧縮伸長処
理を行うことを特徴とする音声信号再生装置。
【請求項９】請求項８に記載の装置において、話速指令を外部から入力する話速入力手段と、音声信号
再生手段から再生出力される音声信号の話速を検出する
話速検出手段と、を有し、上記時間圧縮伸長手段は、時間軸圧縮伸張処理後の話速
が、入力された話速指令における話速に合致するように
間引きあるいは付加処理を行うことを特徴とする音声信
号再生装置。
【請求項１０】請求項８に記載の装置において、上記時間圧縮伸長手段は、音声信号再生手段から再生出
力される音声信号の話速を検出する話速検出手段を有
し、この話速検出手段によって検出した話速が速い場合
には目標とする話速を所定の話速より比較的速く、上記
話速検出手段によって検出した話速が遅い場合には目標
とする話速を所定の話速より比較的遅く設定して時間軸
圧縮伸張処理を行うことを特徴とする音声信号再生装
置。
【請求項１１】請求項９または１０に記載の装置にお
いて、上記話速検出手段は、単位時間当たりの母音の発生回数をカウントすることに
よって話速を検出することを特徴とする音声信号再生装
置。
【請求項１２】請求項９または１０に記載の装置にお
いて、上記話速検出手段は、１つの母音の発声継続時間を検出することによって話速
を検出することを特徴とする音声信号再生装置。