WO2006077626A1

WO2006077626A1 - 話速変換方法及び話速変換装置

Info

Publication number: WO2006077626A1
Application number: PCT/JP2005/000549
Authority: WO
Inventors: Hitoshi Sasaki; Hiroshi Katayama; Rika Nishiike
Original assignee: Fujitsu Limited
Priority date: 2005-01-18
Filing date: 2005-01-18
Publication date: 2006-07-27
Also published as: US20070265839A1; JPWO2006077626A1; EP1840877A1; JP4630876B2; EP1840877A4; US7912710B2

Abstract

　本発明は、入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法において、前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行うよう構成することにより、遅延を最小限に抑え、話頭切れの発生を低減できる。

Description

明細書

話速変換方法及び話速変換装置

技術分野

[0001] 本発明は、話速変換方法及び話速変換装置に関し、音の高さを変えずに音声の再生速度を変換する話速変換方法及び話速変換装置に関する。

背景技術

[0002] 従来から、相手の声の高さを変化させることなく音声の再生速度すなわち話速を遅くさせることにより、会話の内容を聞き取りやすくするための技術が提案されている。このとき、単純に話速を遅くさせるのみでは、遅くさせた分の遅延が生じてしまう。

[0003] このような問題を解決するため、会話の途中に存在する無音区間（人の声などの音が無い区間）を詰めることや無音区間における話速を早くさせることで、遅延を解消する技術が提案されている。

[0004] 図 1は、従来の話速変換装置の一例のブロック図を示す。同図中、端子 10には 1フレーム 20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部 11 及び話速変換部 12に供給される。

[0005] 有音無音判定部 11は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば +4dBを有音閾値として設定し、入力音声信号を有音閾値と比較して、音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を話速決定部 13に供給する。

[0006] 話速決定部 13は、入力蓄積量計算部 14から蓄積量 (蓄積フレーム数)を供給されると共に、話頭保護区間（固定のフレーム数)を設定されており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部 12及び入力蓄積量計算部 14に供給する。

[0007] 話速変換部 12は入力音声信号をバッファに書き込み、話速決定部 13からの話速に従ってバッファから音声信号を読み出して端子 15から出力する。入力蓄積量計算部 14は話速決定部 13からの話速に基づ、て話速変換部 12のバッファに蓄積されている蓄積量を計算して、話速決定部 13に供給する。 [0008] 図 2は、話速決定部 13の話速決定テーブルを示す。有音区間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒（ = 50フレーム)以上の場合には話速を 1倍とする。話頭保護区間、即ち後続 3フレーム以内に有音判定区間がある場合には話速を 1倍とする。話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には話速を 1倍とする。ポーズ保持区間、即ち話尾保護終了後の 10フレーム以内は話速を 1倍とする。無音削除区間は、上記各区間以外では音声信号を削除して詰める。ただし、処理遅延時間がない場合は話速を 1倍とする。

[0009] なお、特許文献 1には、一定時間長以上の非音声区間に挟まれた音声区間に対し、その冒頭部分が所定の再生速度より遅くなり、かつ末尾に向けて次第に所定の再生速度に戻すように話速変換することが記載されて、る。

特許文献 1：特開 2001—222300公報

発明の開示

発明が解決しょうとする課題

[0010] し力しながら、無音区間を詰める処理や無音区間における話速を速める処理を行う際には、有音無音判定の精度を考慮する必要がある。例えば、雑音環境下では有音無音判定において誤判定が生じる場合がある。雑音の無い環境下では、話頭や話尾においても比較的正確に有音無音の判定が行われる。しかし、雑音環境下では、雑音レベルが話頭や話尾におけるパワー値と近い値又は超える値となってしまう場合があり、その場合は話頭や話尾が雑音に埋もれてしまう。

[0011] このため、雑音環境下では、有音無音の判定を正確に実現することが困難となる。

例えば、雑音環境下では、話頭や話尾や無声子音などのように音声パワーが小さい部分は、有音区間であるにも拘わらず無音と誤判定される可能性が高くなつてしまう

[0012] このような誤判定に基づいて無音区間を詰める処理や話速を速める処理が実行されると、音切れの発生や、無音継続長が過度に短縮されるなどの問題が生じてしまう

[0013] 図 3 (A)に入力音声信号パワー (音量)の概略の時間変化を実線で示す。音声信号に定常パワーの雑音が重畳しており、その雑音レベル +4dBを有音閾値に設定している。図 3 (A)の下部には各区間の判定結果を示している。ただし話頭保護区間は話頭から、語尾保護区間については語尾からの分のみを記載している。左から 1 番目、 2番目、 5番目、 6番目の音声については有音区間と判定される力 3番目、 4 番目の音声については雑音に埋もれた形となっていて無音区間と判定される。

[0014] 3番目の音声については語尾保護で削除をまぬがれる力 4番目の音声については固定の話頭保護区間が短いために話頭切れが生じる。図 3 (B)に話速変換後の音声信号パワーを示す。

[0015] 図 3 (B)の区間（1)：開始時点で既に話速変換での処理遅延 (入力蓄積)力 10フレーム分あるものとする。

[0016] 区間（2) ,区間（3)： 1番目、 2番目の音声は有音判定となるので 2倍伸長（1Z2倍速)となる。区間（2) , (3)の間は話頭保護及び語尾保護で 1倍速の出力となる。

[0017] 区間 (4)： 3番目の音声は無音判定であるが、語尾保護とポーズ保持区間に入るので、 1倍速で出力される。その後の無音区間もポーズ保持区間内は 1倍速の出力となり、その後は削除される。

[0018] 区間（5) :4番目の音声は無音判定で一部しか話頭保護されない。この時点での話速変換遅延 (入力蓄積量)が十分あるために、保護区間のみ 1倍速で出力され、それ以外は削除され、話頭切れが生じる。

[0019] 区間（6)： 5番目の音声は有音判定なので、 2倍伸長となる。

[0020] 話頭保護につ、て従来は固定長の話頭保護区間を設定して、るので、話頭保護の分だけ遅延を挿入 (追加)する必要がある。例えば電話における留守録等の蓄積音では十分な話頭保護を設定できる。しかし、実時間の通話で話速変換する場合には、遅延を最小限に抑える必要があるので、十分な長さの話頭保護区間を設定することができず、話頭切れを生じるおそれがあるという問題があった。

[0021] 本発明は、上記の点に鑑みなされたものであり、遅延を最小限に抑え、話頭切れの発生を低減できる話速変換方法及び話速変換装置を提供することを総括的な目的とする。

課題を解決するための手段

[0022] この目的を達成するため、本発明は、入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法にぉ、て、前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行うよう構成する。

発明の効果

[0023] このような話速変換方法によれば、遅延を最小限に抑え、話頭切れの発生を低減できる。

図面の簡単な説明

[0024] [図 1]従来の話速変換装置の一例のブロック図である。

[図 2]従来の話速変換装置の話速決定部の話速決定テーブルを示す図である。

[図 3]従来の入力音声信号パワーと話速変換後の音声信号パワーを示す図である。

[図 4]本発明の話速変換装置の第 1実施形態のブロック図である。

[図 5]第 1実施形態における話速決定部の話速決定テーブルを示す図である。

[図 6]本発明の入力音声信号パワーと話速変換後の音声信号パワーを示す図である

[図 7]第 2実施形態における有音無音判定部の音声無音判定テーブルを示す図である。

[図 8]第 2実施形態における話速決定部の話速決定テーブルを示す図である。

[図 9]本発明の話速変換装置の第 3実施形態のブロック図である。

[図 10]第 4実施形態における話速決定部の話速決定テーブルを示す図である。符号の説明

[0025] 20, 26 端子

21 有音無音判定部

22 話速変換部

23 話速決定部

24 入力蓄積量計算部 25, 31 話頭保護区間決定部

30 推定 SNR判定部

発明を実施するための最良の形態

[0026] 以下、図面に基づいて本発明の実施形態について説明する。

<第 1実施形態 >

図 4は、本発明の話速変換装置の第 1実施形態のブロック図を示す。同図中、端子 20には 1フレーム 20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部 21及び話速変換部 22に供給される。

[0027] 有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば +4dBを有音閾値として設定し、入力音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を話速決定部 23に供給する。なお、簡単のためパワー (音量)のみで有音判定を行うこととしたが、周波数特性などの特徴量を用いて有音判定を行っても良ぐまた、有音閾値として固定値を用いても良い

[0028] 話速決定部 23は、入力蓄積量計算部 24から蓄積量 (蓄積フレーム数)を供給されると共に、話頭保護区間決定部 25から話頭保護区間（可変のフレーム数)を供給されており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部 22及び入力蓄積量計算部 24に供給する。

[0029] 話速変換部 22は入力音声信号をバッファに書き込み、話速決定部 23からの話速に従ってバッファから音声信号を読み出して端子 26から出力する。削除区間は単にデータを捨てる。話速を遅くする場合には、例えば各フレームを 4分割程度のサブフレームに分割し、サブフレーム毎に伸長倍率に応じて繰返し再生する。 2倍伸長の場合は各サブフレームを 2回繰返し再生する。 1. 5倍伸長であれば、奇数サブフレームを 1回再生し、偶数サブフレームを 2回繰返し再生する。このとき、特許第 3147562 号に記載のように、相関などの情報を基に滑らかに接続できるようにずらして接続する手法が一般的である。

[0030] なお、話速変換部 22は音声信号を削除する代りに、話速を速くして圧縮しても良い。話速を 2倍にして圧縮する場合には、例えば奇数サブフレームを 1回再生し、偶数サブフレームを削除する。

[0031] 入力蓄積量計算部 24は話速決定部 23からの話速に基づいて話速変換部 22のバッファに蓄積されている蓄積量を計算して、話速決定部 23及び話頭保護区間決定部 25に供給する。具体的には、削除であれば、削除するフレーム数だけ蓄積量及び遅延は減少し、話速を 0. 5倍にすれば 1フレームにっき 20ms分だけ蓄積量が増加することになる。この修正された蓄積量は次のフレームの話速を決定するのに用いられる。

[0032] 話頭保護区間決定部 25は、蓄積量に応じて話頭保護区間 (可変のフレーム数)を決定する。例えば、蓄積量 (話速変換での遅延に対応）が 10フレーム以下の場合は、蓄積量 (蓄積フレーム数)を話頭保護区間とする。蓄積量が 10フレーム以上の場合には話頭保護区間を 10フレームとする。

[0033] 図 5は、第 1実施形態における話速決定部 23の話速決定テーブルを示す。有音区間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒（ = 50フレーム)以上の場合には音声信号の削除を禁止して話速を 1倍とする。

[0034] 話頭保護区間、即ち話頭保護区間決定部 25で決定されたフレーム数以内に有音判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良ヽ。

[0035] 話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。

[0036] ポーズ保持区間、即ち話尾保護終了後の Nフレームのポーズ保持区間は音声信号の削除を禁止して話速を 1倍とする。 N= 13—話頭保護区間 (ただし、 Nの上限は 10フレーム、下限は 5フレーム）である。

[0037] 無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信号を削除する。処理遅延時間がない場合は話速を 1倍とする。

[0038] 図 6 (A)に入力音声信号パワー (音量)の概略の時間変化を実線で示す。音声信号に定常パワーの雑音が重畳しており、その雑音レベル +4dBを有音閾値に設定している。図 6 (A)の下部には各区間の判定結果を示している。ただし話頭保護区間は話頭から、語尾保護区間については語尾からの分のみを記載している。左から 1 番目、 2番目、 5番目、 6番目の音声については有音区間と判定される力 3番目、 4 番目の音声については雑音に埋もれた形となっていて、無音区間と判定される。

[0039] 図 6 (B)に話速変換後の音声信号パワーを示す。

[0040] 図 6 (B)の区間（1)：開始時点で既に話速変換での処理遅延 (入力蓄積)力 10フレーム分あるものとする。

[0041] 区間（2) ,区間（3)： 1番目、 2番目の音声は有音区間と判定されるので 2倍伸長（1 Z2倍速)となる。区間（2) , (3)の間は話頭保護及び語尾保護で 1倍速の出力となる

[0042] 区間 (4)： 3番目の音声に続く無音区間はポーズ保持区間（1倍速)を従来に対し減らした分だけ早い時点力削除を開始する。

[0043] 区間（5) :4番目の音声は話頭保護が増えたので話頭切れが解消する。

[0044] 区間（6)： 5番目の音声は有音判定なので 2倍伸長となる。

[0045] 無音区間を詰める必要があるのは遅延が発生している場合、つまり未処理の音声信号データが蓄積されている場合である。したがって、話速変換部 22のバッファ蓄積量に応じ、かつ所定値に制限して話頭保護区間を設定することで、遅延を増やさずに話頭保護を実施でき、また、ポーズ保持区間を話頭保護区間に応じて可変することにより、バッファ蓄積量が多いときには遅延量を増やすことなく従来よりも正確な話頭保護が実現できる。

<第 2実施形態 >

第 2実施形態では、図 4のブロック図に示す有音無音判定部 21及び話速決定部 2 3の動作が第 1実施形態と異なっているので、有音無音判定部 21及び話速決定部 2 3の動作にっ、て説明する。

[0046] 図 7は、第 2実施形態における有音無音判定部 21の音声無音判定テーブルを示す。有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば +4dBを有音閾値として設定し、学習した無音レベル + Id Bを無音確実度判定値として設定する。

[0047] 有音無音判定部 21は入力音声信号が有音閾値以上の区間を有音判定区間と判定し、入力音声信号が有音閾値以下で無音確実度判定値以上であれば確実度小の無音区間と判定し、無音確実度判定値以下であれば確実度大の無音区間と判定し、判定結果を話速決定部 23に供給する。

[0048] 図 8は、第 2実施形態における話速決定部 23の話速決定テーブルを示す。有音区間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒（ = 50フレーム)以上の場合には音声信号の削除を禁止して話速を 1倍とする。

[0049] 話頭保護区間、即ち話頭保護区間決定部 25で決定されたフレーム数以内に有音判定区間がある場合、または、話頭保護区間決定部 25で決定されたフレーム数が 1 0フレーム未満で確実度小の無音区間がある場合には音声信号の削除を禁止して話速を 1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良い。

[0050] 話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。

[0051] ポーズ保持区間、即ち話尾保護終了後の 10フレームのポーズ保持区間は音声信号の削除を禁止して話速を 1倍とする。

[0052] 無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信号を削除する。処理遅延時間がない場合は話速を 1倍とする。

[0053] このように、話頭保護区間が 10フレーム未満の場合には現フレームの無音信頼度が高い場合のみ削除または 1倍速の対象とすることによって、話頭保護区間が相対的に短！ヽ場合に話頭切れが発生しやす！ヽという問題を低減する。

<第 3実施形態 >

図 9は、本発明の話速変換装置の第 3実施形態のブロック図を示す。同図中、図 4 と同一部分には同一符号を付す。

[0054] 図 9において、端子 20には 1フレーム 20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部 21及び話速変換部 22及び推定 SNR算出部 27に供給される。

[0055] 有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば +4dBを有音閾値として設定し、入力音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を話速決定部 23に供給する。なお、簡単のためパワー (音量)のみで有音判定を行うこととしたが、周波数特性など特徴量を用いて有音判定を行っても良ぐまた、有音閾値として固定値を用いても良い。

[0056] 推定 SNR判定部 30は、 SNR (信号雑音比）を推定し、推定 SNRが高ヽか低ヽか判定する。 SNRの推定判定法としては、例えば過去 30秒の最大パワー（音量）と最小パワーの差を求め、その差が閾値 (例えば 15dB)を超えていれば推定 SNRが高 V、と見なし、閾値以下であれば推定 SNRが低、と見なす。

[0057] 話速決定部 23は、入力蓄積量計算部 24から蓄積量 (蓄積フレーム数)を供給されると共に、話頭保護区間決定部 31から話頭保護区間（可変のフレーム数)を供給されており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部 22及び入力蓄積量計算部 24に供給する。

[0058] 話速変換部 22は入力音声信号をバッファに書き込み、話速決定部 23からの話速に従ってバッファから音声信号を読み出して端子 26から出力する。削除区間は単にデータを捨てる。話速を遅くする場合には、例えば各フレームを 4分割程度のサブフレームに分割し、サブフレーム毎に伸長倍率に応じて繰返し再生する。 2倍伸長の場合は各サブフレームを 2回繰返し再生する。 1. 5倍伸長であれば、奇数サブフレームを 1回再生し、偶数サブフレームを 2回繰返し再生する。

[0059] 入力蓄積量計算部 24は話速決定部 23からの話速に基づいて話速変換部 22のバッファに蓄積されている蓄積量を計算して、話速決定部 23及び話頭保護区間決定部 31に供給する。具体的には、削除であれば、削除するフレーム数だけ蓄積量及び遅延は減少し、話速を 0. 5倍にすれば 1フレームにっき 20ms分だけ蓄積量が増加することになる。この修正された蓄積量は次のフレームの話速を決定するのに用いられる。

[0060] 話頭保護区間決定部 31は、蓄積量と推定 SNRに応じて話頭保護区間 (可変のフレーム数)を決定する。例えば、推定 SNRが低い場合は、蓄積量 (話速変換での遅延に対応)が 10フレーム以下であれば蓄積量 (蓄積フレーム数)を話頭保護区間とする。蓄積量が 10フレーム以上のときは話頭保護区間を 10フレームとする。

[0061] 推定 SNRが高、場合は、蓄積量が 3フレーム以下の場合は蓄積量 (蓄積フレーム数)を話頭保護区間とする。蓄積量が 3フレーム以上の場合には話頭保護区間を 3フレームとする。 [0062] 本実施形態では、推定 SNRが高い場合には話頭を誤って無音と判定するおそれが少ないことから、過剰に保護区間を設定することを防止できる。

<第 4実施形態 >

第 4実施形態では、図 4のブロック図に示す有音無音判定部 21及び話速決定部 2 3の動作が第 3実施形態と異なっているので、有音無音判定部 21及び話速決定部 2 3の動作にっ、て説明する。

[0063] 第 4実施形態における有音無音判定部 21の音声無音判定テーブルは図 7に示す通りである。有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば +4dBを有音閾値として設定し、学習した無音レべル + ldBを無音確実度判定値として設定する。

[0064] 有音無音判定部 21は入力音声信号が有音閾値以上の区間を有音判定区間と判定し、入力音声信号が有音閾値以下で無音確実度判定値以上であれば確実度小の無音区間と判定し、無音確実度判定値以下であれば確実度大の無音区間と判定し、判定結果を話速決定部 23に供給する。

[0065] 図 10は、第 4実施形態における話速決定部 23の話速決定テーブルを示す。有音区間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒（ = 50フレーム)以上の場合には音声信号の削除を禁止して話速を 1倍とする。

[0066] 話頭保護区間、即ち話頭保護区間決定部 25で決定されたフレーム数以内に有音判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。ただし、現フレームと後続 3フレームが全て確実度大の無音区間である場合には話頭保護を行わない。

[0067] 話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良い。

[0068] ポーズ保持区間、即ち話尾保護終了後の 10フレームのポーズ保持区間は音声信号の削除を禁止して話速を 1倍とする。

[0069] 無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信号を削除する。処理遅延時間がない場合は話速を 1倍とする。 [0070] 本実施形態では、現フレームと後続 3フレームの無音確実度が大の場合には話頭を誤って無音と判定するおそれが少ないことから、過剰に保護区間を設定することを防止できる。

[0071] なお、話頭保護区間決定部 25, 31が請求項記載の話頭保護区間決定手段に相当し、話速決定部 23が話頭保護手段及びポーズ保持区間設定手段に相当し、有音無音判定部 21が無音確実度判定手段に相当し、推定 SNR判定部 30が信号雑音比推定手段に相当する。

Claims

請求の範囲

[1] 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法にぉヽて、

前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、

前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換方法。

[2] 請求項 1記載の話速変換方法において、

前記有音区間に続く所定長の話尾保護区間の終了後に設定するポーズ保持区間の長さを前記話頭保護区間の長さに応じて設定する話速変換方法。

[3] 請求項 1または 2記載の話速変換方法にぉ、て、

前記入力音声信号のパワーが前記閾値未満の無音区間で無音確実度を判定し、前記話頭保護区間内における無音区間の無音確実度が小さければ前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換方法

[4] 請求項 1乃至 3のいずれか 1項記載の話速変換方法において、

前記入力音声信号の信号雑音比を推定し、

推定信号雑音比が一定値より低い場合の前記話頭保護区間に対する前記制限値より、前記推定信号雑音比が一定値より高い場合の前記話頭保護区間に対する前記制限値を小さく設定する話速変換方法。

[5] 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換装置において、

前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とする話頭保護区間決定手段と、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話頭保護手段を

有する話速変換装置。

[6] 請求項 5記載の話速変換装置にお、て、

前記有音区間に続く所定長の話尾保護区間の終了後に設定するポーズ保持区間の長さを前記話頭保護区間の長さに応じて設定するポーズ保持区間設定手段を有する話速変換装置。

[7] 請求項 5または 6記載の話速変換装置にぉ、て、

前記入力音声信号のパワーが前記閾値未満の無音区間で無音確実度を判定する無音確実度判定手段を有し、

前記話頭保護手段は、前記話頭保護区間内における無音区間の無音確実度が小さければ前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換装置。

[8] 請求項 5乃至 7のいずれか 1項記載の話速変換装置において、

前記入力音声信号の信号雑音比を推定する信号雑音比推定手段を有し、前記話頭保護区間決定手段は、推定信号雑音比が一定値より低!ヽ場合の前記話頭保護区間に対する前記制限値より、前記推定信号雑音比が一定値より高い場合の前記話頭保護区間に対する前記制限値を小さく設定する話速変換装置。

[9] 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号を圧縮'伸張する際に、パワーが前記閾値を下回る無音区間よりもゆっくりとなるよう話速を変換する話速変換装置において、

前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とする話頭保護区間決定手段と、

前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話頭保護手段を

有する話速変換装置。