JPH08255000A - 音声信号再生装置 - Google Patents

音声信号再生装置

Info

Publication number
JPH08255000A
JPH08255000A JP7058719A JP5871995A JPH08255000A JP H08255000 A JPH08255000 A JP H08255000A JP 7058719 A JP7058719 A JP 7058719A JP 5871995 A JP5871995 A JP 5871995A JP H08255000 A JPH08255000 A JP H08255000A
Authority
JP
Japan
Prior art keywords
speed
audio signal
voice
speech speed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7058719A
Other languages
English (en)
Inventor
Teruo Hoshi
照雄 法師
Masanori Miyatake
正典 宮武
Junichi Umemoto
順一 梅本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP7058719A priority Critical patent/JPH08255000A/ja
Publication of JPH08255000A publication Critical patent/JPH08255000A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

(57)【要約】 【目的】 聞き取りやすい状態を維持したまま、録音音
声の再生所要時間を短縮する。 【構成】 DSP22は、入力音声データの無音部分を
検出し、これを削除して、リングメモリ24に書き込
む。一方リングメモリ24から一定速度でデータが読み
出されるため、スピーカ28において通常の音程で再生
音声が出力される。無音部分が少ないと、リングメモリ
24において読み出されるデータ量より書き込まれるデ
ータ量の方が多くなる。この場合には、モータ34のス
ピードを遅くし、かつA/D変換器16のサンプリング
周波数をモータ34の回転数に同期して遅くして、DS
P22に入力するデータ量を少なくする。これによっ
て、リングメモリ24に書き込まれるデータ量が少なく
なり、リングメモリ24において、読み出される前にデ
ータが書き換えられてしまうことを防止できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、会議などにおける録音
音声を短時間で効率的に再生する音声信号再生装置に関
する。
【0002】
【従来の技術】従来より、講演会、講習会、打ち合わせ
会議などの内容を記録するために、テープレコーダ等の
録音装置が利用されている。特に、コンパクトタイプの
カセットテープを用いたカセットテープレコーダは、カ
セットテープのみならず、レコーダ自体が安価、小型で
あり、これら録音に広く利用されている。
【0003】そして、録音したテープは、その後におい
て再生され、録音した本人における内容確認や、録音時
にいなかった者による内容の把握に利用される。実際に
再生すると、これらの録音された内容の中には、不要な
間(音声入力のない状態)などがかなり多く存在する。
【0004】一方、このようなテープの再生において
は、なるべく短時間ですませたいという要求がある。こ
のため、音声が入力されたときのみ録音を行う音声起動
機能を有した装置も知られている。この機能を利用すれ
ば、無音部分が録音されないため、再生が短時間で行え
る。しかし、この音声起動機能は、音声が入力されたこ
とを認識してから、録音を開始するため、音声の最初の
部分が削除されてしまい、内容を十分に把握できなくな
るという問題があった。
【0005】一方、テープを早送り再生すれば、これに
よって再生時間を短縮できる。しかし、単に早送りする
と、音声の音程が高域側(周波数が高周波数側)にシフ
トし、非常に聞き取りにくくなってしまう。
【0006】そこで、テープを早送り再生しながらも、
通常の音程でしかも比較的ゆっくりとした速度で音声を
再生する話速変換処理技術も知られている。この話速変
換では、テープを早送りして得た音声信号の音程をもと
の周波数に戻すとともに、音声信号の無音部分を検出し
てこの部分を削除する。削除する部分が十分であれば、
早送り再生にもかかわらず通常再生速度で音声を再生す
ることができる。
【0007】一方、通常速度で再生する場合でも、英会
話などゆっくり聞きたいという需要がある。その場合に
も音声信号の無音部分をゆっくり検出して削除すれば、
検出部分に相当する時間だけ音声を伸長でき、ゆっくり
音声を再生することができる。
【0008】
【発明が解決しようとする課題】しかし、上記従来例に
よれば、検出される無音部分が少ない場合、早送り再生
速度に追従させて音声を出力させるには、音声部分の時
間軸圧縮率を高くしなければならない。一般に、30%
以上圧縮すると話の意味を聞き取るのが困難になってし
まうという欠点があった。また、通常速度で再生する場
合にも、ほとんど音声を伸長させることが出来ず、話速
変換の効果が得られなかった。
【0009】本発明は、上記問題点を解決することを課
題としてなされたものであり、話の速度を聞きやすいも
のに維持しながら再生に要する時間を短縮したり、再生
速度を維持しながら話の速度を聞きやすいものに変換し
たりすることのできる音声再生装置を提供することを目
的とする。
【0010】
【課題を解決するための手段】本発明は音声信号記録媒
体に記憶されている音声信号を再生出力する音声信号再
生手段と、再生出力される音声信号の継続時間を圧縮あ
るいは伸長処理する時間圧縮伸長手段と、この時間圧縮
伸長手段における圧縮伸長処理状況に応じて上記音声信
号再生手段の再生速度を制御する再生制御手段と、を有
することを特徴とする。
【0011】また、本発明は上記時間圧縮伸長手段は、
音声信号の中の無音部分を圧縮する無音省略処理を行う
ことを特徴とする。
【0012】また、本発明は、上記音声信号再生手段
は、アナログの音声信号を出力するものであり、このア
ナログの音声信号をデジタルに変換するA/D変換手段
をさらに有し、このA/D変換手段から出力されるデジ
タル音声信号が時間圧縮伸長手段に供給されることを特
徴とする。
【0013】また、本発明は、上記A/D変換手段は、
アナログ信号を所定のサンプリングクロックに応じてデ
ジタル信号に変換するものであり、このサンプリングク
ロックを上記音声信号再生手段の再生速度に応じて変更
するサンプリングクロック制御手段を更に有することを
特徴とする。
【0014】また、本発明は、上記音声信号記録媒体
は、磁気テープであり、上記音声信号再生手段は磁気テ
ープを送るテープ送りモータを含み、上記サンプリング
クロック制御手段は、上記テープ送りモータの回転数に
応じてサンプリングクロックを制御することを特徴とす
る。
【0015】また、本発明は、上記時間圧縮伸長手段
は、A/D変換手段からのデジタル音声データの中から
無音部分を検出し、無音部分を省略する処理を行う無音
省略処理部と、無音部分が省略された音声データを新し
いものから常に所定時間分記憶する音声メモリと、この
音声メモリに記憶されている音声データを読み出し出力
する読み出し出力部と、を有することを特徴とする。
【0016】また、本発明は、上記時間圧縮伸長手段
は、音声メモリ内におけるすでに読み出された音声デー
タの量であるメモリ残量を認識するメモリ残量認識手段
を含み、上記再生制御手段は、認識されたメモリ残量に
応じて再生速度を制御することを特徴とする。
【0017】また、本発明は、上記時間圧縮伸長手段
は、有音部分における音声データの繰り返し波形の一部
を間引きあるいは繰り返し波形を付加する時間軸圧縮伸
長処理を行うことを特徴とする。
【0018】また、本発明は、話速指令を外部から入力
する話速入力手段と、音声信号再生手段から再生出力さ
れる音声信号の話速を検出する話速検出手段と、を有
し、上記時間圧縮伸長手段は、話速変換処理後の話速
が、入力された話速指令における話速に合致するように
間引きあるいは付加処理を行うことを特徴とする。
【0019】また、本発明は、上記時間圧縮伸長手段
は、音声信号再生手段から再生出力される音声信号の話
速を検出する話速検出手段を有し、この話速検出手段に
よって検出した話速が速い場合には目標とする話速を所
定の話速より比較的速く、上記話速検出手段によって検
出した話速が遅い場合には目標とする話速を所定の話速
より比較的遅く設定して時間軸圧縮伸張処理を行うこと
を特徴とする。
【0020】また、本発明は、上記話速検出手段は、単
位時間当たりの母音の発生回数をカウントすることによ
って話速を検出することを特徴とする。
【0021】また、本発明は、上記話速検出手段は、1
つの母音の発声継続時間を検出することによって話速を
検出することを特徴とする。
【0022】
【作用】音声信号再生手段は、記録媒体に記憶されてい
る音声信号を再生して出力する。時間圧縮伸長手段は、
再生された音声信号に対して時間圧縮伸長処理を施す。
そして、再生制御手段が時間の圧縮伸長状況に応じて、
再生手段による再生速度を制御する。例えば、時間圧縮
伸長手段が無音部分を省略する場合であれば、無音部分
が多い場合に、再生速度を速くし、無音部分が少なく、
省略が少ない場合に再生速度を遅くする。これによっ
て、時間圧縮伸長手段からの出力データ量が一定値に近
づく。
【0023】また、A/D変換手段により、デジタル信
号を時間圧縮伸長手段に供給することにより、通常のメ
モリ等を利用して、時間圧縮伸長の処理が行われる。
【0024】また、A/D変換手段におけるサンプリン
グクロックを再生速度に同期させることにより、再生速
度が変わっても入力信号に対するデジタル信号の変換レ
ートは一定に保持される。
【0025】また、音声信号記録媒体が磁気テープであ
れば、磁気テープの送り駆動用のモータの回転数を制御
することによって、再生速度が制御される。また、A/
D変換手段のサンプリングクロックは、モータ回転数に
応じて発生するパルスを利用することができる。
【0026】また、無音部分を省略等の時間圧縮伸長処
理を行った音声データを音声メモリに順次記憶してお
き、これを所定の周波数で読み出すことにより、時間が
圧縮短縮された音声データが得られる。
【0027】また、音声メモリには、時間圧縮伸長され
た音声データが書き込まれ、この書き込まれた音声デー
タが所定のスピードで読み出される。読み出しスピード
の方は、音程が所定のものになるように読み出さなけれ
ばならず、一定のスピードになる。そこで、音声メモリ
内のすでに読み出されたデータの量、換言すると音声メ
モリ内の書き込み可能なデータの量、すなわちメモリ残
量は、入力されてくる音声信号の時間圧縮伸長の度合い
によって変化する。本発明では、メモリ残量によって、
再生速度を制御することによって、メモリ残量をほぼ一
定の値に制御する。
【0028】また、話速変換処理によって、無音部分を
削除するとともに有音部分を時間軸を圧縮伸長すること
によっても、時間圧縮伸長が達成される。
【0029】また、この話速変換による時間軸圧縮伸長
処理によれば、音声は好みの速さで再生できる。この速
さの程度は、ユーザの好みによって異なる。そこで、ユ
ーザが話速変換の程度を指定すること0より、ユーザの
指定通りの速さで再生が行われる。
【0030】また、音声信号再生手段によって再生出力
された音声信号における話速を検出し、その話速を考慮
することによって、音声信号再生手段によって再生出力
された音声信号(例えば、録音テープの再生によって得
られる音声信号)の局所的な早口、遅口を残して、時間
軸圧縮処理が行われる。すなわち、時間軸圧縮処理の目
標とする話速は、通常予め設定された所定の話速である
が、この処理の目標となる所定の話速を検出した話速に
よって、検出した話速が遅ければ目標となる話速を速
く、検出した話速が遅ければ目標となる話速を遅くす
る。
【0031】また、単位時間当たりの母音の数を数える
ことによって、音声信号における話速を検出することが
できる。
【0032】また、1つの母音の継続時間を計測するこ
とによって、音声信号における話速を検出することがで
きる。通常、母音は、1つの繰り返し波形を多数回繰り
返すことによって、構成されている。そこで、この波形
の繰り返し数をカウントすることによって早口遅口の程
度、すなわち話速を検出することができる。なお、話速
変換における圧縮伸長は、この波形単位でデータを間引
いたり追加したりすることによって好適に行われる。
【0033】
【実施例】以下、本発明に係る音声再生装置の一実施例
について、図面に基づいて説明する。録音テープ10
は、通常のオーディオ等の録音に使用されるコンパクト
サイズのC−カセットであり、通常の方式で音声信号が
録音されている。すなわち、普通の録音機で、標準のテ
ープ速度4.75cm/secで録音されたものであ
り、テープ上の音声の記録フォーマットも標準のもので
ある。
【0034】磁気ヘッド12は、録音テープ10のテー
プ走行面に近接して配置されており、録音されている音
声信号を電気信号(アナログ音声信号)として出力す
る。磁気ヘッド12には、プリアンプ14を介し、A/
D変換器16が接続されており、磁気ヘッド12で得ら
れたアナログ音声信号は、所定のレベルに増幅されてA
/D変換器16に供給される。A/D変換器16は、外
部から供給されるサンプリングクロックによって決定さ
れるサンプリング周波数(例えば、16kHz)で、ア
ナログ音声信号をサンプリングし、例えば16ビットの
PCM形式のデジタルデータ(音声データ)に変換す
る。
【0035】A/D変換器16からのデジタルデータ
は、入力バッファ18に入力され、ここに記憶される。
ここで、この入力バッファ18は、1フレーム分(通常
1フレームが10msec程度)の音声データを交互に
受け入れる2つのフレームメモリからなっており、一方
のフレームメモリにデータが記憶されているときに他方
のフレームメモリからのデータが読み出され、これにつ
いて後述の処理がなされる。
【0036】入力バッファ18には、データバス20を
介し、DSP(デジタルシグナルプロセッサ)22が接
続されており、またデータバス20にはリングメモリ2
4も接続されている。このDSP22は、音程を維持し
たまま出力音声を時間圧縮伸長処理を行う。特に、本実
施例では、無音部分を検出して、この無音部分を間引き
処理する無音省略処理と、有音部分の一部を圧縮伸長す
る時間軸圧縮伸長処理の両方を行う、いわゆる話速変換
処理を行う。そして、時間圧縮伸長したデータをリング
メモリ24に記憶する。なお、この例では、リングメモ
リ24として、256kビットのものが採用されてい
る。
【0037】また、データバス20には、D/A変換器
26も接続されており、リングメモリ24から読み出さ
れたデータは、D/A変換器26によりアナログ音声信
号に変換され、スピーカ28に供給される。そこで、こ
のスピーカ28から入力音声信号に比べて時間が圧縮伸
長された音声データに基づく音声が出力される。なお、
図示は省略したが、D/A変換器26とスピーカ28の
間には、通常増幅器などが設けられる。
【0038】また、データバス20には、メモリコント
ローラ30も接続されている。そして、このメモリコン
トローラ30が、上述のリングメモリ24に対するデー
タの書き込み読み出しを制御する。すなわち、メモリコ
ントローラ30は、書き込みアドレスカウンタ及び読み
出しアドレスカウンタを内蔵しており、これらのカウン
ト値によって、リングメモリ24におけるデータの書き
込み読み出しアドレスを決定する。
【0039】書き込みアドレスは、DSP22が所定の
時間圧縮伸長処理した音声データを供給する際に書き込
みデータ量に応じて順次カウントアップしていき、リン
グメモリ24の最終アドレスに達した場合には、最初の
アドレスに戻る。これによって、入力されてくる音声デ
ータをリングメモリ24に順次記憶することができる。
一方、読み出しアドレスは、常に一定のクロックでカウ
ントアップしていく。なお、読み出しアドレスもリング
メモリ24の最終アドレスまで来たときには、次のカウ
ントアップで最初のアドレスに戻る。
【0040】そして、読み出しアドレスのすすみは一定
であるが、書き込みアドレスのすすみは、DSP22に
おける時間圧縮伸長処理の状況により異なる。このた
め、書き込みアドレスと読み出しアドレスの差は、時間
圧縮伸長処理の状況によって変化する。なお、このアド
レスの差は、読み出しが終了した音声データの量、すな
わち今後の書き込みが可能な音声データの量に対応して
おり、これをリングメモリ24におけるメモリ残量と呼
ぶ。
【0041】本実施例では、このメモリ残量はメモリコ
ントローラ30が認識し、これについての信号をサーボ
アンプ32に供給する。そして、サーボアンプ32がメ
モリ残量に応じてテープ送り用のモータ34の回転を制
御する。
【0042】また、本実施例では、モータ34にモータ
回転数に応じたパルスを発生するFGパルス発生器36
が取り付けられており、ここからモータ回転数に応じた
FGパルスは発生される。そして、このFGパルス発生
器36からのFGパルスは、位相比較器38、電圧制御
発振器40及び1/N分周器42からなるPLL(フェ
ーズ・ロックド・ループ)に供給され、電圧制御発振器
40の出力である周波数信号がA/D変換器16にサン
プリングクロックとして供給される。従って、A/D変
換器16におけるサンプリングクロックはモータ34の
回転数に応じたものになる。
【0043】そして、本実施例の装置により音声再生を
行う場合には、まずモータ34を2倍速(回転数16r
ps(回転/秒)、テープ送り速度9.5cm/se
c、テープ送り用ローラ径2mm)で駆動する。
【0044】また、FGパルス発生器36はモータ34
の16rpsに対し、320HzのFGパルス(1回転
20パルス)を発生するものとし、1/N分周器42
は、1/50分周器とする。これによって、モータ34
の回転数が16rpsであった場合には、16kHzの
サンプリングクロックがA/D変換器16に供給される
ことになる。
【0045】このため、A/D変換器16において、1
6kHzのサンプリング周波数でA/D変換が行われ、
これが入力バッファ18に記憶される。
【0046】ここで、本実施例においては、DSP22
による時間圧縮伸長処理は、データ中の無音部分を検出
し、この一部を削除する無音省略処理と、音声信号の繰
り返し波形の一部を圧縮伸長して音程を変更せずに時間
軸を圧縮伸長して話速を制御する話速変換処理の2つで
ある。しかし、本実施例では、まず無音省略処理のみを
前提として説明を行う。
【0047】DSP22は、入力バッファ18に記憶さ
れている1フレーム(10msec)の音声データのパ
ワーの平均値が所定の閾値以下であるかによって無音フ
レームを検出する。この場合の閾値としては、音声のパ
ワーと話者の発声環境中の周囲雑音のパワーとを区別で
きる値が設定される。そして、この無音フレームが51
以上継続した場合に、51フレーム目以降を削除する。
【0048】これは、無音部分は、できるだけ短くする
ことが望ましいが、余り短くすると、間がなくなり、聞
き取りずらくなるためであり、これによって、無音部分
は最大0.5秒程度になる。なお、通常無音部分は、1
秒程度であれば、十分とされているができるだけ短くし
たい。しかし、0.3秒以下にすると間が小さくなりす
ぎると考えられる。そこで、早送り再生でも0.5秒程
度に設定するのが好適と考えられる。
【0049】このような処理によって、無音部分が短縮
されたデータがリングメモリ24に書き込まれる。一
方、このリングメモリ24からの読み出しは、8kHz
に固定されたクロックで行う。A/D変換器16におけ
るサンプリング周波数は、テープ速度を9.5cm/s
ecとした際に16kHzである。録音テープ10には
通常の4.75cm/secで録音された音声が記憶さ
れており、そのままでは2倍速再生した周波数が2倍の
音声になってしまう。本実施例では、A/D変換器16
のサンプリング周波数(16kHz)の1/2の周波数
(8kHz)のクロックでリングメモリ24からの読み
出しを行うことで、音声信号の周波数を通常のものに戻
している。
【0050】ここで、無音部分が適度に分散しており、
かつその存在率がちょうど1/2であれば、このような
処理が問題なく継続される。しかし、無音部分が少ない
場合には、リングメモリ24に書き込まれるデータ量が
多く、読み出しスピードは一定であるため、リングメモ
リ24における書き込みアドレスと読み出しアドレスの
差(時間差)が大きくなってくる。このアドレスの差が
大きくなるということは、未だに読み出されていないデ
ータの記憶量が大きいことを意味しており、書き換えて
よいメモリ容量(メモリ残量)が少ないことを意味して
いる。そして、メモリ残量が、0より小さくなると、読
み出す前のデータが書き換えられてしまうことになり、
正しい再生が行えなくなる。
【0051】そこで、メモリコントローラ30は、メモ
リ残量についての信号をサーボアンプ32に供給し、サ
ーボアンプがメモリ残量が小さくなると、モータ34の
回転数を低くするように制御する。これによって、録音
テープ10の送り速度が遅くなり、再生速度が遅くな
る。一方、PLLによってA/D変換器16におけるサ
ンプリング周波数もテープ送り速度に応じて小さくな
る。従って、A/D変換器16の出力のデジタルデータ
におけるテープ送り速度9.5cm/secの再生音に
対しサンプリングクロック16kHzという関係、すな
わち、テープ送り速度に対するサンプリングクロックの
比率(データのサンプリングレートに対応)を維持しつ
つ、遅いサンプリングクロックでデジタルデータが入力
バッファ18に書き込まれることになる。
【0052】これによって、DSP22における無音部
分の時間圧縮伸長処理を行った後のデータ量も少なくな
り、リングメモリ24におけるメモリ残量が所定値に収
められることになる。例えば、テープ送り速度を4.7
5cm/sec、サンプリング周波数を8kHzにすれ
ば、無音部分が0であってもそのまま時間軸圧縮0の再
生が行われることになる。
【0053】一方、リングメモリ24におけるメモリ残
量が大きくなり、例えばメモリ残量が100%を超える
と、前に読み出したデータをもう一度読み出すことにな
り、やはり正常な再生が行えなくなる。この場合には、
上述の場合と逆にモータ34の回転数を速め、書き込み
データ量を増やせばよい。また、DSP22における無
音部分の時間圧縮伸長処理におけるデータ削除量を全デ
ータの3/4に限定しておき、テープ送り速度を4倍速
まで変更可能にしておけば、1/4の無音データはリン
グメモリ24に少なくとも書き込まれることになり、無
音部分が継続した場合でも再生音において問題は発生し
ない。
【0054】このように、本実施例によれば、2倍速の
再生を基本として、録音テープ10に録音されている音
声信号中の無音部分の量に応じて、1倍速から4倍速ま
でテープ送り速度を変化させる。これによって、リング
メモリ24内のメモリ残量を所定量に維持し、効果的な
時間圧縮伸長の再生を行うことができる。例えば、図2
に示すように、メモリ残量に応じてテープ速度が1倍か
ら4倍に変更される。
【0055】さらに、上記説明においては、DSP22
による時間圧縮伸長処理を無音部分についてだけ述べた
が、これに音声信号の繰り返し波形の一部を間引いたり
付加したりして音程を変更せずに話速を制御する処理が
組み合わされた時間圧縮伸張を行うこともできる。
【0056】このため、時間軸圧縮処理について次に説
明する。まず、入力バッファ18には、テープの再生速
度に係わらずオリジナルの音声(録音テープ10に記憶
されている音声)の2倍の話速を保持した状態の音声デ
ータが蓄えられている。そして、時間軸圧縮伸長のため
には、まず母音についての繰り返し波形を検出しなけれ
ばならない。
【0057】そこで、DSP22は、入力バッファ18
に記憶されている音声データから音声データのパワー変
化、スペクトル変化、周期性の変化等を検出し、これら
検出結果についての情報に基づいて音声データ中の母音
区間を検出すると共に、この母音区間を抽出する。そし
て、抽出された母音区間中における周期性から繰り返し
波形を認識し、繰り返し波形を所望数だけ削除・追加し
て時間軸圧縮伸長を行う。
【0058】ここで、パワー変化、スペクトル変化、周
期性の変化の検出に基づく母音区間の検出および繰り返
し周期の検出について、説明する。
【0059】まず、音声データのパワーは、音声データ
の二乗の関数である。そして、母音は子音よりパワーが
大きい。そこで、サンプリングされた音声データの二乗
の値の変化状態からその値が大きい部分を母音区間と推
定する。次に、音声データについて、高速フーリエ変換
処理を施し、順次スペクトル分析を行う。母音区間は、
特定の周波数の強度が大きい状態がある程度続くため、
これを基に母音区間を推定できる。さらに、母音区間
は、一定の波形が繰り返される。このため、音声データ
の自己相関をとれば、母音区間では、大きなピークが検
出される。そこで、音声データについての自己相関のピ
ークの大きさから母音部分を検出することができる。さ
らに、この自己相関におけるピークの存在位置の変化か
ら母音の変化を検出することができる。
【0060】このような検出結果の1つから母音区間を
検出してもよいが、これらを総合的に評価して、母音区
間を検出するとよい。次に、検出した母音区間を抽出す
ると共に、1つの母音についての繰り返し波形およびこ
の繰り返し数を認識する。このためには、繰り返し波形
を認識しなければならないが、これらは上述の自己相関
のピークの存在位置から検出できる。そして、認識した
繰り返し波形の1またはそれ以上を削除・追加すること
によって繰り返し波形の間引き・追加による時間軸圧縮
伸長が達成される。
【0061】通常の場合、1つの母音は、ほぼ同一の繰
り返し波形が5〜30程度繰り返される場合が多い。こ
のため、例えば、ほぼ繰り返し波形が12連続する音声
に対して、連続3波形ごとに1波形の計4波形を削除す
れば、1つの母音の継続時間を2/3に時間圧縮するこ
とができる。
【0062】ここで、波形を単純に削除するのではな
く、次のようにして、2波形を1波形にまとめることも
好適である。この場合の削除・付加波形の前後の波形の
接続には、接続部分の前の1波形のサンプル値に0〜1
に線形変化する窓を掛けた傾斜波形値と接続部分の後の
1波形に1〜0に線形変化する窓を掛けた逆傾斜波形値
とを加算する重複加算法と称する手法が採用される。こ
のような接続手法によって、波形の連続性を維持しなが
ら時間軸圧縮伸長でき、結果、音声の波形の周波数(音
声の音程)に変化はない。これにより、音程を維持した
まま時間軸を圧縮伸長する(最適な速度に変換する)こ
とができる。
【0063】なお、このような母音区間の検出、繰り返
し波形の認識、間引き等の処理をおこうためには、ある
程度の期間の音声データを記憶しておき、これについて
処理を行うことが好ましい。そこで、入力バッファ18
を単なるフレームメモリではなく、100フレーム分程
度のリングメモリとするとよい。すなわち、入力バッフ
ァ18において、入力されてくる音声データを順次古い
ものの上に上書きし、常に最新のものから100フレー
ム分を記憶する。これによって、周期性等をかなりの時
間にわたって検出でき、より精度の高い処理が行える。
【0064】このように本実施例のDPS22において
は、時間軸圧縮伸長を無音部分を削除する無音省略処置
に組み合わせ、より積極的な話速変換を行っている。
【0065】ここで、この話速変換の程度については、
ユーザの好みもある。そこで、図示のごとくユーザによ
る操作スイッチSを設け、話速変換についての程度を選
択して指令入力させるとよい。例えば、これを3段階と
し、図2に示すように、メモリ残量に対する話速の大き
さS1〜S3を選択するとよい。すなわち、予め図2に
示すような関係をマップとして記憶しておき、これを参
照して話速変換の程度(波形を圧縮伸長する割合)を決
定する。そして、テープ速度及び話速変換の組み合わせ
によって、図2における話速の特性の直線(ユーザの選
択による3種類)と、テープ速度の直線の交点にメモリ
残量がなるように制御が行われる。
【0066】「変形例1」上記の例では、話速変換の基
準をオリジナルの録音テープからのそのままの再生音声
においている。しかし、録音された音声には、早口の場
合と遅口の場合があり、聞き取りやすい話速変換の程度
は、録音音声の早口(遅口)の程度によって異なる。そ
こで、本例では、話速変換の基準をオリジナルの音声に
おける音声の絶対速度におく。
【0067】すなわち、本例では、固定的に設定される
絶対話速と話者の本来の話速との比率を用いて、DSP
22から出力される音声データが絶対話速になるように
時間軸圧縮伸長処理における母音の繰り返し波形の圧縮
伸長率を決定する。
【0068】これによって、話速が常に一定になり、早
口のものをもっと早口にしたり、遅口のものが余り短縮
されないというような欠点が除去される。さらに、リン
グメモリ24のメモリ残量に応じたテープ速度の変更も
行うため、系全体の安定した動作が確保される。
【0069】また、ユーザが、外部からの入力により、
この話速の絶対速度(早口の程度)を指定できるように
するとよい。例えば、早口の程度1、2、3等のボタン
を設け、このボタンをユーザに操作させて、この程度を
決定する。そして、DSP22における話速変換処理に
おいて、指定された早口の程度に応じて、母音の繰り返
し波形の繰り返し数を決定し、入力音声の繰り返し波形
の繰り返し数をこれにそろえる。従って、ユーザの望む
話速での音声再生を行うことができる。なお、ボタンは
インターフェースを介し、データバス20に接続してお
くことで、この操作をDSP22が認識できる。
【0070】「変形例2」上記変形例1においては、ユ
ーザが絶対速度を指定して再生するようにした。しか
し、一般的に、話者は重要な部分、相手に意志を確実に
伝えたい部分等は比較的ゆっくり話す傾向がある。従っ
て、上記変形例1のように、絶対速度を一定にしてしま
うと話しのニュアンスが読みにくくなることが考えられ
る。
【0071】そこで、本例では、所定期間(1秒間)の
入力音声データに対し、その母音の繰り返し波形の繰り
返し数をカウントして、話速の絶対速度(母音繰り返し
波形の繰り返し数)を計測し、この平均繰り返し数を求
める。次に、算出された平均繰り返し数が目標となる繰
り返し数(再生の際に目的とする話速に対応した繰り返
し数)となるように、削減率を計算する。そして、求め
られた削減率が3割であれば、これに対応する0.7を
乗算して、DSP22における時間軸圧縮伸長処理の目
標である各母音の繰り返し波形の繰り返し数を決定す
る。
【0072】これによって、DSP22は、入力されて
くる音声の1フレーム(10msec)に対しては、各
母音の繰り返し波形の3割を間引いて、話速変換を行
う。そこで、話者の本来の話速の平均値(1秒間)に対
するその実時間変化(10msec)との比率を用い、
固定的に設定される絶対話速に対し、この比率をかけた
変動話速になるように時間軸圧縮伸長処理における母音
の繰り返し波形の間引き処理が行われる。このようにし
て、随時検出した話速によって時間圧縮処理において目
標となる所定の話速(例えば、早口でもなく、遅口でも
ない適切な話速)が比較的小さな変動幅で変化する。
【0073】なお、目標となる絶対話速については、上
述の例と同様に、ユーザにより選択できるようにすると
よい。また、この処理を行うためには、入力バッファ1
8として、1秒分(100フレーム分)の容量が必要で
ある。
【0074】このようにして、図3に示すように、絶対
話速が遅いほど話速変換による時間軸圧縮率が高くなる
処理が行われる。そして、全体としての時間の圧縮率
は、所定のものに維持しながら、部分的な早口、遅口は
残すことができ、話しのニュアンスを維持して好適な時
間軸圧縮処理が行える。
【0075】「さらに、別の変形」上述の例では、話速
を母音に繰り返し波形の繰り返し数で決定したが、所定
時間当たりの母音の出現回数によっても実質的の同等の
判定を行うことができる。そこで、母音の繰り返し波形
の繰り返し数に代えて母音の出現回数により、早口の程
度を判定してもよい。すなわちDSP22において、所
定時間内の母音の出現回数をカウントし、話速を検出す
るとよい。
【0076】また、時間軸圧縮伸長の処理としては、無
音省略処理または時間軸圧縮伸長処理のいずれか一方の
みでもよく、両方を用いた話速変換の処理でもよい。
【0077】また、上述の例では、録音媒体としてCカ
セット録音テープのみを説明したが、他の録音テープで
も同様に、適用することができる。さらに、コンパクト
ディスク(CD)、半導体メモリによる固体録音メモリ
などでもその再生速度を制御することによって、本発明
を好適に適用することができる。
【0078】さらに、上述の例では、DSP22が話速
変換処理のすべてを行ったが、マイコンなどを別に設
け、このマイコンにおいて話速変換処理や、ユーザの入
力する話速指令についての処理等行ってもよい。
【0079】
【発明の効果】以上説明したように、本発明によれば、
話速変換処理により、話速を適正化できる。また、話速
変換処理の状況に応じて記録媒体からの再生速度を制御
するため、再生されたが出力されないでデータが消えて
しまうような不具合の発生を防止することができる。ま
た、無音部分を省略することにより、有音部分に悪影響
を及ぼさずに、再生時間の短縮が行える。
【0080】また、無音部分の省略処理をデジタル的に
行うことによって、メモリなどを利用した効率的な処理
が行える。
【0081】また、A/D変換のサンプリングクロック
を記憶媒体からの再生速度に応じて変更することによっ
て、再生された音声信号とデジタルデータとの間の変換
レートは一定の保つことができ、音声出力の際の処理が
容易となる。
【0082】また、通常のカセットデッキで録音された
通常の磁気テープを再生して、好適な話速変換を行うこ
とができる。
【0083】また、話速変換された音声データを音声メ
モリに記憶し、ここから音声データを読み出すことによ
って、話速変換した音声をスピーカなどに所定のスピー
ドで供給することができる。
【0084】また、音声メモリのメモリ残量に応じて再
生速度を制御することによって、音声メモリにおいてデ
ータが読み出される前に書き換えられてしまうような事
態の発生を防止して、好適な話速変換が行える。
【0085】また、話速変換の程度をユーザが指定する
ことによって、ユーザの好みに合わせた話速での再生が
行われる。
【0086】また、平均的な話速を一定に制御してお
き、局所的には入力音声信号の話速に応じて話速を変更
することで、話のニュアンスを維持しつつ話速の最適化
を行うことができる。
【0087】また、単位時間当たりの母音の発生回数や
1つの母音の継続時間の検出により、入力音声の話速を
容易に検出することができる。
【図面の簡単な説明】
【図1】 実施例の全体構成を示すブロック図である。
【図2】 メモリ残量とテープ速度及び話速の関係を示
す特性図である。
【図3】 絶対話速と話速変換率の関係を示す特性図で
ある。
【符号の説明】
10 録音テープ、12 磁気ヘッド、16 A/D変
換器、18 入力バッファ、20 データバス、22
DSP、24 リングメモリ、26 D/A変換器、2
8 スピーカ、30 メモリコントローラ、34 モー
タ、36 FGパルス発生器、38 位相比較器、40
電圧制御発振器、42 1/N分周器。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声信号記録媒体に記憶されている音声
    信号を再生出力する音声信号再生手段と、 再生出力される音声信号の継続時間を圧縮あるいは伸長
    処理する時間圧縮伸長手段と、 この時間圧縮伸長手段における圧縮伸長処理状況に応じ
    て上記音声信号再生手段の再生速度を制御する再生制御
    手段と、 を有することを特徴とする音声信号再生装置。
  2. 【請求項2】 請求項1に記載の装置において、 上記時間圧縮伸長手段は、音声信号の中の無音部分を圧
    縮する無音省略処理を行うことを特徴とする音声信号再
    生装置。
  3. 【請求項3】 請求項1または2に記載の装置におい
    て、 上記音声信号再生手段は、アナログの音声信号を出力す
    るものであり、 このアナログの音声信号をデジタルに変換するA/D変
    換手段をさらに有し、 このA/D変換手段から出力されるデジタル音声信号が
    時間圧縮伸長手段に供給されることを特徴とする音声信
    号再生装置。
  4. 【請求項4】 請求項3に記載の装置において、 上記A/D変換手段は、アナログ信号を所定のサンプリ
    ングクロックに応じてデジタル信号に変換するものであ
    り、このサンプリングクロックを上記音声信号再生手段
    の再生速度に応じて変更するサンプリングクロック制御
    手段を更に有することを特徴とする音声信号再生装置。
  5. 【請求項5】 請求項4に記載の装置において、 上記音声信号記録媒体は、磁気テープであり、上記音声
    信号再生手段は磁気テープを送るテープ送りモータを含
    み、 上記サンプリングクロック制御手段は、上記テープ送り
    モータの回転数に応じてサンプリングクロックを制御す
    ることを特徴とする音声信号再生装置。
  6. 【請求項6】 請求項3〜5のいずれかに記載の装置に
    おいて、 上記時間圧縮伸長手段は、 A/D変換手段からのデジタル音声データの中から無音
    部分を検出し、無音部分を省略する処理を行う無音省略
    処理部と、無音部分が省略された音声データを新しいも
    のから常に所定時間分記憶する音声メモリと、この音声
    メモリに記憶されている音声データを読み出し出力する
    読み出し出力部と、 を有することを特徴とする音声信号再生装置。
  7. 【請求項7】 請求項6に記載の装置において、 上記時間圧縮伸長手段は、 音声メモリ内におけるすでに読み出された音声データの
    量であるメモリ残量を認識するメモリ残量認識手段を含
    み、 上記再生制御手段は、 認識されたメモリ残量に応じて再生速度を制御すること
    を特徴とする音声信号再生装置。
  8. 【請求項8】 請求項1〜7のいずれかに記載の装置に
    おいて、 上記時間圧縮伸長手段は、 有音部分における音声データの繰り返し波形の一部を間
    引きあるいは繰り返し波形を付加する時間軸圧縮伸長処
    理を行うことを特徴とする音声信号再生装置。
  9. 【請求項9】 請求項8に記載の装置において、 話速指令を外部から入力する話速入力手段と、音声信号
    再生手段から再生出力される音声信号の話速を検出する
    話速検出手段と、を有し、 上記時間圧縮伸長手段は、時間軸圧縮伸張処理後の話速
    が、入力された話速指令における話速に合致するように
    間引きあるいは付加処理を行うことを特徴とする音声信
    号再生装置。
  10. 【請求項10】 請求項8に記載の装置において、 上記時間圧縮伸長手段は、音声信号再生手段から再生出
    力される音声信号の話速を検出する話速検出手段を有
    し、この話速検出手段によって検出した話速が速い場合
    には目標とする話速を所定の話速より比較的速く、上記
    話速検出手段によって検出した話速が遅い場合には目標
    とする話速を所定の話速より比較的遅く設定して時間軸
    圧縮伸張処理を行うことを特徴とする音声信号再生装
    置。
  11. 【請求項11】 請求項9または10に記載の装置にお
    いて、 上記話速検出手段は、 単位時間当たりの母音の発生回数をカウントすることに
    よって話速を検出することを特徴とする音声信号再生装
    置。
  12. 【請求項12】 請求項9または10に記載の装置にお
    いて、 上記話速検出手段は、 1つの母音の発声継続時間を検出することによって話速
    を検出することを特徴とする音声信号再生装置。
JP7058719A 1995-03-17 1995-03-17 音声信号再生装置 Pending JPH08255000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7058719A JPH08255000A (ja) 1995-03-17 1995-03-17 音声信号再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7058719A JPH08255000A (ja) 1995-03-17 1995-03-17 音声信号再生装置

Publications (1)

Publication Number Publication Date
JPH08255000A true JPH08255000A (ja) 1996-10-01

Family

ID=13092312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7058719A Pending JPH08255000A (ja) 1995-03-17 1995-03-17 音声信号再生装置

Country Status (1)

Country Link
JP (1) JPH08255000A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134300A (ja) * 1999-08-24 2001-05-18 Sony Corp 音声再生方法および音声再生装置
JP2009075280A (ja) * 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134300A (ja) * 1999-08-24 2001-05-18 Sony Corp 音声再生方法および音声再生装置
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
JP2009075280A (ja) * 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置

Similar Documents

Publication Publication Date Title
JPH08255000A (ja) 音声信号再生装置
JP2000099097A (ja) 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法
JP3081469B2 (ja) 話速変換装置
JPH08292790A (ja) ビデオテープレコーダ
JP3189587B2 (ja) 音声時間軸変換装置
JP2001222300A (ja) 音声再生装置および記録媒体
JP3189597B2 (ja) 音声時間軸変換装置
JPH08292796A (ja) 再生装置
JPH0772896A (ja) 音声の圧縮伸長装置
KR100410863B1 (ko) 캡션카셋트플레이어에서문장단위로반복재생방법
JPH0573089A (ja) 音声再生方法
JPH1152995A (ja) 音声再生装置
JP2962777B2 (ja) 音声信号の時間軸伸長圧縮装置
JP3201327B2 (ja) 録音再生装置
KR100194659B1 (ko) 디지탈 녹음기의 음성 녹음방법
JPH09146587A (ja) 話速変換装置
JP2000020091A (ja) 音声記録再生装置
JPH08255423A (ja) 音声録音装置
JPH08202391A (ja) 話速変換装置
JPH06309732A (ja) 情報処理装置
JP2814385B2 (ja) 書写用減速再生テープレコーダー
JP3246327B2 (ja) 音響信号処理装置
JPH05303400A (ja) 音声再生装置と音声再生方法
JP2001117596A (ja) 音声信号再生方法および音声信号再生装置
JPH07272396A (ja) 語学用テープレコーダ