JP5598552B2

JP5598552B2 - 音声制御装置、音声制御方法、音声制御プログラム及び携帯端末装置

Info

Publication number: JP5598552B2
Application number: JP2012550609A
Authority: JP
Inventors: 太郎外川; 千里石川; 猛大谷; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-27
Filing date: 2010-12-27
Publication date: 2014-10-01
Anticipated expiration: 2030-12-27
Also published as: US20130290002A1; WO2012090282A1; CN103270740B; JPWO2012090282A1; CN103270740A; EP2661053A1; US9330678B2; EP2661053A4

Description

本発明は、受話音を制御する音声制御装置、音声制御方法、音声制御プログラム及び携帯端末装置に関する。

従来から、受話音声を聞きやすくするための制御を行う携帯端末装置がある。例えば、ユーザに対して複数の単音周波数信号を再生し、ユーザの聴取結果に基づいて最低聴取レベルを算出し、音声を加工する技術がある（特許文献１）。

また、案内音声の出力から所定時間内に案内音声の聞き返しを示す操作信号が出力された場合、案内音声の出力態様を示す設定値を調整して案内音声を再出力する技術がある（特許文献２）。

特開平７−６６７６７号公報特開２００６−３８７０５号公報

しかしながら、特許文献１では、ユーザが聴力検査を実施する必要があるため、ユーザに対し煩雑な処理を強いることになり、使い勝手が悪いという問題点がある。また、特許文献２では、聞き返し操作を行わなければ案内音声を調整しないため、ユーザによる聞き返し操作が必要であるという問題点がある。

そこで、開示の技術は、上記問題点に鑑みてなされたものであり、ユーザに負担を強いることなく、ユーザの聴力に応じて音声制御を行うことができる音声制御装置、音声制御方法及び音声制御プログラムを提供することを目的とする。

開示の一態様の音声制御装置は、受話信号の音声と送話信号の音声との時間差を表す応答時間を算出する算出部と、算出された前記応答時間に基づいてユーザの聴力を推定する聴力推定部と、推定された前記聴力に応じた補正量により前記受話信号を制御する音声制御部と、を備える。

開示の技術によれば、ユーザに負担を強いることなく、ユーザの聴力に応じて音声制御を行うことができる。

年齢による聴力レベルの変化を示す図。実施例１における音声制御装置の構成の一例を示すブロック図。実施例１における応答時間算出部の構成の一例を示すブロック図。応答時間を説明するための図。応答時間の例外を説明するための図。実施例１における、応答時間の平均値から聴力を推定する場合の聴力推定部の構成の一例を示すブロック図。平均応答時間と聴力特性との関係を示す図。実施例１における音声制御部の構成の一例を示すブロック図。補正量の算出を説明するための図。スペクトル制御の一例を示す図。実施例１における音声制御の一例を示すフローチャート。実施例２における音声制御装置の構成の一例を示すブロック図。時間長算出を説明するための図。実施例２における応答時間算出部の構成の一例を示すブロック図。実施例２における、応答時間の平均値から聴力を推定する場合の聴力推定部の構成の一例を示すブロック図。受話音声の時間長と平滑化係数の関係を示す図。実施例２における音声制御処理の一例を示すフローチャート。実施例３における応答時間算出部の構成の一例を示すブロック図。実施例３における音声制御処理の一例を示すフローチャート。実施例４における音声制御装置の構成の一例を示すブロック図。実施例４における評価部の構成の一例を示すブロック図。実施例４における音声制御部の構成の一例を示すブロック図。実施例４における音声制御処理の一例を示すフローチャート。制御信号生成処理の一例を示すフローチャート。変形例における携帯端末装置を説明するための図変形例における携帯端末装置のハードウェアの一例を示すブロック図

１０１、１０３時間周波数変換部
１０５、２０５応答時間算出部
１０７、２０７聴力推定部
１０９、４０３音声制御部
１１１周波数時間変換部
１５１第１音声判定部
１５３第２音声判定部
１５５、２５１、３０３時間差算出部
１７１、２７３時間平均部
１７３バッファ
１７５聴力特性推定部
１９１、４３３スペクトル制御部
１９３補正量算出部
２０１、２０３時間長算出部
２７１係数変更部
３０１明瞭度算出部
４０１評価部
４１１バッファ制御部
４１３バッファ
４１５比較部
４１７信号生成部
４３１ゲイン調整部

まず、年齢と聴力との関係について説明する。聴力は、例えば最小可聴域である。図１は、年齢による聴力レベルの変化を示す図である。図１に示す実験によれば、４０歳代と６０歳代とでは平均聴力レベルが異なることが分かる。６０歳代の平均聴力レベルが高域（２ｋＨｚ〜４ｋＨｚ）で顕著に落ち込んでいる。また、年齢による聴力低下については、http://tri-osaka.jp/group/infoele/life/sense/data/katagiri/070622.pdfにも調査結果が報告されている。

図１に示すように、加齢により聴力レベルが落ちることが既に知られている。特に、高周波領域において、年齢を重ねるにつれ、聴力レベルが低下する。

ここで、加齢に伴い、聴力が低下したり脳の情報処理能力が低下したりし、会話における応答時間も遅くなると考えられる。例えばhttp://www.caa.go.jp/seikatsu/keizaijikken/nousan2-1.pdfの第2章を参照されたい。

そこで、以下では、通話中における応答時間に着目し、応答時間からユーザの聴力を推定し、推定した聴力に応じて受話音を制御し、受話音を聞きやすくする実施例について説明する。以下、図面に基づいて各実施例を説明する。

［実施例１］
＜構成＞
実施例１における音声制御装置１の構成について説明する。図２は、実施例１における音声制御装置１の構成の一例を示すブロック図である。図２に示すように、音声制御装置１は、時間周波数変換部１０１、１０３、応答時間算出部１０５、聴力推定部１０７、音声制御部１０９、周波数時間変換部１１１を含む。

時間周波数変換部１０１は、受話音ｘに対して、次の式（１）により時間周波数変換を行って受話音スペクトルF（j）に変換する。時間周波数変換は、例えば、高速フーリエ変換（FFT）とする。

x：入力信号
n：FFT分析長（例えば２５６）
j：周波数bin
k：ナイキスト周波数
時間周波数変換部１０１は、求めた受話音スペクトルを応答時間算出部１０５、音声制御部１０９に出力する。

時間周波数変換部１０３は、マイク１１３から入力された送話音声yに対して、前述した式（１）と同様にして時間周波数変換を行って送話音スペクトルに変換する。時間周波数変換は、例えば、高速フーリエ変換（FFT）とする。

時間周波数変換部１０３は、求めた送話音スペクトルを応答時間算出部１０５に出力する。

応答時間算出部１０５は、受話信号と送話信号との時間差を表す応答時間を算出する。図３は、実施例１における応答時間算出部１０５の構成の一例を示すブロック図である。図３に示す例では、応答時間算出部１０５は、第１音声判定部１５１、第２音声判定部１５３、時間差算出部１５５を含む。

第１音声判定部１５１は、音声と雑音が混ざり合ったフレーム単位の受話信号に対して、音声か非音声かを判定する。第１音声判定部１５１は、公知の技術を用いて音声か非音声かの判定を行なえばよい。

例えば、特許第３８４９１１６号公報では、入力信号のフレーム毎に、電力、零交差率、パワースペクトルのピーク周波数、ピッチ周期等を用いて算出した第１の音声特徴量と、パワースペクトルのピーク周波数の高次成分のみの相違を基に算出した第２の音声特徴量を基に音声か非音声かの判定を行なう。

第１音声判定部１５１は、受話信号に対する音声か非音声かの判定結果を時間差算出部１５５に出力する。

第２音声判定部１５３は、音声と雑音が混ざり合ったフレーム単位の送話信号に対して、音声か非音声かを判定する。第２音声判定部１５３は、音声か非音声かの判定について、第１音声判定部１５１と同様に公知の技術を用いればよい。第２音声判定部１５３は、送話信号に対する音声か非音声かの判定結果を時間差算出部１５５に出力する。

時間差算出部１５５は、受話信号の音声区間の終了時刻と、送話信号の音声区間の開始時刻との時間差を応答時間として算出する。時間差算出部１５５は、算出した応答時間を聴力推定部１０７に出力する。

図４は、応答時間を説明するための図である。図４に示す例では、時間差算出部１５５は、受話信号の音声区間の終了時刻T1と送話信号の音声区間の開始時刻T2とを用いて応答時間RTを次の式（２）により求める。
RT＝T2−T1 ・・・式（２）
図５は、応答時間の例外を説明するための図である。図５に示す例では、時間差算出部１５５は、送話信号の音声区間の開始時刻T2が受話信号の音声区間の終了時刻T1よりも先である（T2＜T1）場合、応答時間を算出しない。これにより、相槌などで受話音声と送話音声とが重なる場合を除去することができる。

応答時間算出部１０５は、応答時間の求め方は前述した例に限られず、簡易的に送話音量や受話音量を用いて音量が所定の閾値より大きい場合を音声とみなして応答時間を算出するようにしてもよい。応答時間算出部１０５は、受話信号のパラメータと送話信号のパラメータとを用いて、応答時間を算出すればよい。

図２に戻り、聴力推定部１０７は、応答時間算出部１０５から応答時間を取得し、応答時間からユーザの聴力を推定する。聴力推定部１０７は、応答時間と聴力特性（例えば最小可聴値）とを対応付けた情報を保持しておき、取得した応答時間に対応する最小可聴値を特定する。

また、聴力推定部１０７は、応答時間の平均値から最小可聴値を取得するようにしてもよい。図６は、実施例１における、応答時間の平均値から聴力を推定する場合の聴力推定部１０７の構成の一例を示すブロック図である。

図６に示す例では、聴力推定部１０７は、時間平均部１７１、バッファ１７３、聴力特性推定部１７５を含む。時間平均部１７１は、応答時間を時間方向に平均化した平均応答時間を算出する。バッファ１７３は、過去の平均応答時間を記憶しておく。

時間平均部１７１は、例えば、次の式により平均応答時間を算出する。

AVE_RT：平均応答時間
AVE_RT_PREV：過去の平均応答時間
COEF：平滑化係数（例えば０．９）
時間平均部１７１は、式（３）により求めた平均応答時間を聴力特性推定部１７５に出力し、式（４）により過去の平均応答時間を更新してバッファ１７３に記憶する。これにより、応答時間の局所的なバラつきの影響を軽減することができる。

聴力特性推定部１７５は、取得した平均応答時間から聴力特性（例えば最小可聴値）を推定する。図７は、平均応答時間と聴力特性との関係を示す図である。図７に示すA1の聴力特性は平均応答時間が４秒に対応し、A2の聴力特性は平均応答時間が２秒に対応し、A3の聴力特性は平均応答時間が１秒に対応する。

平均応答時間の４秒は６０代の平均値を表し、平均応答時間の２秒は４０代の平均値を表し、平均応答時間の１秒は２０代の平均値を表す。なお、この４、２、１という数値は、各年代の平均応答時間を実験により求め、適切な値を設定するようにすればよい。

聴力特性推定部１７５は、図７に示すような情報を用いて、時間平均部１７１から取得した平均応答時間に対応する聴力特性を特定する。聴力特性推定部１７５は、特定した聴力特性を音声制御部１０９に出力する。

なお、聴力推定部１０７は、応答時間、又は平均応答時間が所定の閾値以上の場合は、聴力を推定しない。これにより、会話が途切れたり話題が変わったりした際に生じる長い間（ま）の影響を除去することができる。所定の閾値は、例えば、実験した最年長の年代の平均応答時間より長くしておけばよい。

図２に戻り音声制御部１０９は、聴力推定部１０７から取得した聴力特性に応じた補正量を用いて、時間周波数変換部１０１から取得した受話信号（受話音スペクトル）を制御する。例えば、音声制御部１０９は、推定されたユーザの聴力特性（例えば最小可聴値）以上になるように、受話信号を制御する。

図８は、実施例１における音声制御部１０９の構成の一例を示すブロック図である。図８に示す例では、音声制御部１０９は、スペクトル制御部１９１、補正量算出部１９３を含む。

補正量算出部１９３は、聴力推定部１０７から聴力特性を取得し、取得した聴力特性に応じた補正量を算出する。補正量算出部１９３は、算出した補正量をスペクトル制御部１９１に出力する。図９は、補正量の算出を説明するための図である。

図９に示すB1は、聴力低下量を表す。聴力低下量とは、ユーザの推定された最小可聴値から20歳代の最小可聴値を減算した量である。図９に示すB2は、補正量を表す。補正量は、例えば聴力低下量の半分とする。この補正量は、例えば強調ゲインである。

補正量は、補聴器などで用いられる様々なゲイン算出法を適用可能である。ゲイン算出の一例として、前述したハーフゲイン法によるゲイン算出法がある。ゲイン算出法については、http://www.okayama.med.or.jp/ishi/bukai/h18kenshukai/05.pdf（ハーフゲイン法、POGO法、NAL法）、http://www.tokyo-hotyouki.co.jp/siryou.htm（ハーフゲイン法、シャピロ法、クリンバイル法、バーガー法、POGO法）を参照されたい。

図８に戻り、スペクトル制御部１９１は、補正量算出部１９３から取得した補正量を用いて受話信号を制御する。例えば、スペクトル制御部１９１は、受話音スペクトルの各周波数の電力について、補正量（例えば強調ゲイン量）を以下の式（５）により増幅する。

j：周波数bin（j＝1~256）
F（j）：受話音スペクトル
gain（j）：補正量
図１０は、スペクトル制御の一例を示す図である。図１０に示すC2は、制御前の受話音スペクトルを表し、C1は制御後の受話音スペクトルを表す。スペクトル制御部１９１は、補正量算出部１９３から取得した補正量により、C2の受話音スペクトルを増幅し、C1の受話音スペクトルに制御する。スペクトル制御部１９３は、制御した受話音スペクトルを周波数時間変換部１１１に出力する。

図２に戻り、周波数時間変換部１１１は、音声制御部１０９から制御された受話音スペクトルを取得し、周波数時間変換を行って、受話信号を時間領域に変換する。周波数時間変換部１１１は、例えば次の式（６）により受話信号を時間領域に変換する。

F'（j）：制御後の受話音スペクトル
n：FFTの分析長（例えば２５６）
j：周波数bin
k：ナイキスト周波数
スピーカ１１５は、時間領域に変換された受話信号を出力する。これにより、ユーザは、端末操作を意識することなく端末を通じて会話をするだけで、ユーザの聴力に応じた処理音（受話音）を聞くことができる。

＜動作＞
次に、実施例１における音声制御装置１の動作について説明する。図１１は、実施例１における音声制御の一例を示すフローチャートである。

図１１に示すステップＳ１０１で、音声制御装置１は、受話信号、送話信号を入力する。

ステップＳ１０２で、時間周波数変換部１０１、１０３は、例えば、式（１）により入力信号を時間−周波数変換（FFT）する。

ステップＳ１０３で、応答時間算出部１０５は、受話信号に対する送話信号の応答時間を算出する。例えば、応答時間算出部１０５は、受話信号と送話信号との音声区間を判定し、受話信号の音声区間の終了時刻から送話信号の音声区間の開始時刻までの時間差を算出する。

ステップＳ１０４で、聴力推定部１０７は、応答時間からユーザの聴力を推定する。例えば、聴力推定部１０７は、応答時間又は平均応答時間に対応する聴力特性を保持しておき（例えば図７参照）、算出された応答時間又は平均応答時間に対応する聴力特性を取得する。聴力特性は、例えば最小可聴値とする。

ステップＳ１０５で、音声制御部１０９は、推定された聴力特性に応じた補正量で受話信号を制御し（例えば図９、１０参照）、制御した信号を周波数時間変換部１１１に出力する。

ステップＳ１０６で、周波数時間変換部１１１は、音声制御部１０９から出力された受話信号を周波数−時間変換（IFFT）し、時間領域の受話信号に変換する。

以上、実施例１によれば、ユーザの応答時間からユーザの聴力を推定し、推定したユーザの聴力に応じて音声制御を行うことができる。また、実施例１によれば、平均応答時間を算出し、平均応答時間からユーザの聴力を推定することで、応答時間の局所的なバラつきを除去することができる。

また、実施例１によれば、受話信号と送話信号とが時間的に重なった場合は応答時間を算出しないことで、不適切な応答時間の算出を防止することができる。また、実施例１によれば、応答時間が長すぎる場合には聴力推定を行わないことで、適切な応答時間に基づいて聴力推定を行うことができる。

［実施例２］
次に、実施例２における音声制御装置２について説明する。実施例２では、受話信号の音声区間の時間長や送話信号の音声区間の時間長を算出し、算出した時間長を応答時間の算出に考慮する。

＜構成＞
図１２は、実施例２における音声制御装置２の構成の一例を示すブロック図である。図１２に示す音声制御装置２は、時間周波数変換部１０１、１０３、時間長算出部２０１、２０３、応答時間算出部２０５、聴力推定部２０７、音声制御部１０９、周波数時間変換部１１１を含む。

図１２に示す構成で、図２に示す構成と同様のものは同じ符号を付し、その説明を省略する。図１２に示す時間長算出部２０１は、受話信号の音声区間の時間長を算出する。時間長算出部２０１は、前述した第１音声判定部１５１と同様にして、受話信号の音声区間を判定し、その音声区間の時間長を算出する。

図１３は、時間長算出を説明するための図である。図１３に示すように、時間長算出部２０１は、受話信号の音声区間の開始時刻T0から終了時刻T1までの時間長L1を算出する。時間長算出部２０１は、算出した受話音声の時間長L1を応答時間算出部２０５、聴力推定部２０７に出力する。

時間長算出部２０３は、送話信号の音声区間の時間長を算出する。時間長算出部２０３は、前述した第２音声判定部１５３と同様にして、送話信号の音声区間を判定し、その音声区間の時間長L2を算出する。時間長算出部２０３は、算出した送話音声の時間長L2を応答時間算出部２０５に出力する。

応答時間算出部２０５は、受話音声の時間長及び／又は送話信号の時間長に基づいて、応答時間を算出するか否かを判断する。図１４は、実施例２における応答時間算出部２０５の構成の一例を示すブロック図である。

図１４に示す応答時間算出部２０５は、第１音声判定部１５１、第２音声判定部１５３、時間差算出部２５１を含む。図１４に示す構成で、図３に示す構成と同様のものは同じ符号を付し、その説明を省略する。

時間差算出部２５１は、時間長算出部２０１から受話音声の時間長L1、時間長算出部２０３から送話音声の時間長L2を取得する。時間差算出部２５１は、第１音声判定部１５１から受話音声の終了時刻T1、第２音声判定部１５３から送話音声の開始時刻T2を取得する。

時間差算出部２５１は、受話音声の時間長L1が所定の閾値よりも短い場合に、受話音声を会話とはみなさず、応答時間を算出しない。所定の閾値は、実験により会話における受話音声の長さを計測し、適切な値が設定されればよい。これにより、受話音声における聞き返しの一言などに基づき応答時間が算出されることを除外することができる。

時間差算出部２５１は、送話音声の時間長L2が所定の閾値よりも短い場合に、送話音声を会話とはみなさず、応答時間を算出しない。所定の閾値は、実験により会話における送話音声の長さを計測し、適切な値が設定されればよい。これにより、送話音声における聞き返しの一言などに基づき応答時間が算出されることを除外することができる。応答時間の算出については、実施例１と同様とする。

なお、時間長算出部２０１、２０３の機能は、時間差算出部２５１に実装されてもよい。時間差算出部２５１は、受話信号の音声区間と、送話信号の音声区間を知ることができるからである。また、時間差算出部２５１は、受話音声の時間長、送話信号の時間長のいずれかのみを用いて、応答時間を算出するか否かを判定するようにしてもよい。

図１２に戻り、聴力推定部２０７は、応答時間算出部２０５により算出された応答時間に基づきユーザの聴力を推定する。なお、聴力推定部２０７は、平均応答時間を求める場合、実施例１とはその処理が異なるので、以下に説明する。

図１５は、実施例２における、応答時間の平均値から聴力を推定する場合の聴力推定部２０７の構成の一例を示すブロック図である。図１５に示す聴力推定部２０７は、係数変更部２７１、時間平均部２７３、バッファ１７３、聴力特性推定部１７５を含む。図１５に示す構成で、図６に示す構成と同様のものは同じ符号を付し、その説明を省略する。

係数変更部２７１は、受話音声の時間長により応答時間の時間平均に用いる平滑化係数を更新（変更）する。係数変更部２７１は、例えば、受話音声の時間長が長い場合、平滑化係数を大きくし、受話音声の時間長が短い場合、平滑化係数を小さくする。

これは、長い受話音声に対する応答時間の寄与度を大きくするためである。年をとると長い音声ほど覚えきれなくなるため、長い音声に対する応答時間の平均値は、各年代による応答時間の変化を示しやすくなると考えられる。

図１６は、受話音声の時間長と平滑化係数の関係を示す図である。係数変更部２７１は、例えば、図１６に示すような情報を保持しておき、受話音声の時間長L1に対応する平滑化係数COEFを取得する。図１６に示すように、時間長L1が大きくなれば平滑化係数COEFも大きくなる。係数変更部２７１は、取得した平滑化係数を時間平均部２７３に出力する。

図１５に戻り、時間平均部２７３は、係数変更部２７１から取得した平滑化係数を用いて応答時間の平均値（平均応答時間）を算出する。平均応答時間は、前述した式（３）により求められる。時間平均部２７３は、求めた平均応答時間を聴力特性推定部１７５に出力し、求めた平均応答時間を過去の平均応答時間としてバッファ１７３に記憶する。なお、受話信号の時間長L1は、平滑化係数を求めるためだけに用いられるようにしてもよい。以降の処理は、実施例１と同様である。

＜動作＞
次に、実施例２における音声制御装置２の動作について説明する。図１７は、実施例２における音声制御処理の一例を示すフローチャートである。図１７に示すフローは、受話音声の時間長に対応する平滑化係数を用いて平均応答時間を算出する処理のフローである。

図１７に示すステップＳ２０１、Ｓ２０２、Ｓ２０６、Ｓ２０７は、図１１に示すステップＳ１０１、Ｓ１０２、Ｓ１０５、Ｓ１０６とそれぞれ同様であるため、その説明を省略する。

ステップＳ２０３で、時間長算出部２０１は、受話信号における音声区間の時間長を算出する。

ステップＳ２０４で、応答時間算出部２０５は、受話信号に対する送話信号の応答時間を算出する。このとき、受話音声の時間長及び／又は送話信号の時間長が閾値より短ければ応答時間を算出しなくてもよい。

ステップＳ２０５で、聴力推定部２０７は、受話音声の時間長に応じた平滑化係数を用いて、平均応答時間を算出する。聴力推定部２０７は、算出した平均応答時間に基づきユーザの聴力特性を推定する。以降の処理は実施例１と同様である。

以上、実施例２によれば、受話信号における音声区間の時間長及び／又は送話信号における音声区間の時間長を算出し、応答時間を算出するか否かを判定することで、適切な会話における応答時間を算出することができる。また、実施例２によれば、受話信号における音声区間の時間長が長いときの応答時間の重みを大きくして平均応答時間を算出することで、各年代による応答時間の差をより顕著にすることができる。

［実施例３］
次に、実施例３における音声制御装置について説明する。実施例３における音声制御装置は、受話信号の明瞭度を算出して、受話信号が明瞭である場合に応答時間を算出する。

＜構成＞
実施例３における音声制御装置の構成については、図２と同様である。実施例３では、応答時間算出部１０５の構成が実施例１と異なるため、以下に説明する。図１８は、実施例３における応答時間算出部１０５の構成の一例を示すブロック図である。

図１８に示す応答時間算出部１０５は、第１音声判定部１５１、第２音声判定部１５３、明瞭度算出部３０１、時間差算出部３０３を含む。図１８に示す構成で、図３に示す構成と同様のものは同じ符号を付し、その説明を省略する。

明瞭度算出部３０１は、受話信号の明瞭度を算出する。明瞭度算出部３０１は、例えば、受話信号のパワースペクトルの傾きにより音声の明瞭度を判定できる。パワースペクトルの傾きが小さい場合、明瞭度が低く、パワースペクトルの傾きが大きい場合、明瞭度が大きい。

明瞭度算出部３０１は、低域（０−２ｋHz）の平均パワーPW_lと、高域（２−４kＨｚ）の平均パワーＰＷ_hとを算出する。明瞭度算出部３０１は、例えば、以下の式（７）により明瞭度を算出する。
CL＝ＰＷ_h−ＰＷ_l ・・・式（７）
CL：明瞭度
明瞭度算出部３０１は、算出した明瞭度CLを時間差算出部３０３に出力する。

時間差算出部３０３は、取得した明瞭度CLの絶対値が閾値よりも大きい場合に受話信号は明瞭であるとして応答時間を算出する。閾値は、例えば３dＢ（デシベル）とする。時間差算出部３０３は、取得した明瞭度CLが閾値以下の場合には応答時間を算出しない。これは、受話音声の明瞭度が低い場合には聴力に関わらず聞きづらいため、この影響を除去するためである。時間差算出部３０３は、算出した応答時間を聴力推定部１０７に出力する。以降の処理は、実施例１と同様である。

＜動作＞
次に、実施例３における音声制御装置の動作について説明する。図１９は、実施例３における音声制御処理の一例を示すフローチャートである。図１９に示すステップＳ３０１、Ｓ３０２、Ｓ３０５〜Ｓ３０７は、図１１に示すステップＳ１０１、Ｓ１０２、Ｓ１０４〜Ｓ１０６とそれぞれ同様であるため、その説明を省略する。

ステップＳ３０３で、明瞭度算出部３０１は、受話信号の明瞭度を算出する。明瞭度算出部３０１は、例えば、受話信号のパワースペクトルの傾きにより音声の明瞭度を判定する。

ステップＳ３０４で、時間差算出部３０３は、算出された明瞭度が所定の閾値を超える場合に応答時間を算出する。以降の処理は、実施例１と同様である。

以上、実施例３によれば、受話信号の明瞭度を算出し、受話信号が明瞭な場合に応答時間を算出して聴力を推定するので、高精度に聴力を推定することができる。

［実施例４］
次に、実施例４における音声制御装置４について説明する。実施例４では、応答時間による時間変化から音声制御による効果を評価し、音声制御にフィードバックする。

＜構成＞
図２０は、実施例４における音声制御装置４の構成の一例を示すブロック図である。図２０に示す音声制御装置４は、時間周波数変換部１０１、１０３、応答時間算出部１０５、聴力推定部１０７、周波数時間変換部１１１、評価部４０１、音声制御部４０３を含む。図２０に示す構成で、図２に示す構成と同様のものは同じ符号を付し、その説明を省略する。

評価部４０１は、応答時間算出部１０５から取得する応答時間と、音声制御部４０３から取得する補正量とから、受話信号の補正量を調整するための制御信号を生成する。

図２１は、実施例４における評価部４０１の構成の一例を示すブロック図である。図２１に示す評価部４０１は、バッファ制御部４１１、バッファ４１３、比較部４１５、信号生成部４１７を含む。

バッファ制御部４１１は、応答時間算出部１０５から応答時間を取得し、音声制御部４０３から受話信号の補正量を取得する。バッファ制御部４１１は、音声制御前の応答時間RT_aをバッファ４１３に記憶し、音声制御後の応答時間RT_bを比較部４１５に出力する。

バッファ４１３は、音声制御部４０３により音声制御前の応答時間RT_aを記憶する。

比較部４１５は、バッファ４１３から読み出した制御前の応答時間RT_aと、バッファ制御部４１１から取得した制御後の応答時間RT_bとを比較し、比較結果を信号生成部４１７に出力する。

信号生成部４１７は、比較部４１５から取得した比較結果に基づいて、受話信号を制御するための制御信号を生成する。信号生成部４１７は、生成した制御信号を音声制御部４０３に出力する。

信号生成部４１７は、例えば、次の制御信号S0〜S2を生成する。
S0：変更前のゲインに戻すための制御信号
S1：ゲインを強めるための制御信号
S2：ゲインを弱めるための制御信号
信号生成部４１７は、応答時間が低減した場合、さらにゲイン強調を行うよう制御信号S1を生成する。応答時間が低減する場合、ゲイン変更の効果があると考えられるからである。信号生成部４１７は、応答時間が低減しなくなるまで、ゲイン強調を行うための制御信号を生成する。

信号生成部４１７は、応答時間が低減しない場合、変更前のゲインに戻してゲインを弱めるよう制御信号S0、S２を生成する。応答時間が低減しない場合、ゲイン変更の効果がないと考えられるからである。信号生成部４１７は、ゲインを変更前に戻した後、応答時間が低減しなくなるまで、ゲインを弱める。ユーザにとって、そもそものゲインが強調されすぎて聞こえづらくなっている場合もあるからである。

図２０に戻り、音声制御部４０３は、評価部４０１から取得した制御信号に基づいて補正量を調整し、調整された補正量を用いて受話信号の制御を行う。補正量は、例えばゲインである。

図２２は、実施例４における音声制御部４０３の構成の一例を示すブロック図である。図２２に示す音声制御部４０３は、補正量算出部１９３、ゲイン調整部４３１、スペクトル制御部４３３を含む。図２２に示す構成において、図８に示す構成と同様であるものは同じ符号を付し、その説明を省略する。

ゲイン調整部４３１は、聴力特性（例えば最小可聴値）から算出した補正量に対して、制御信号に基づき補正量を調整する。ゲイン調整部４３１は、以下の式（８）により補正量（ゲイン）を調整する。
gain'（j）＝gain（j）＋D ・・・式（８）
gain（j）：補正量（強調ゲイン）
j：周波数bin（j＝１〜２５６）
D：ゲイン調整量
gain'（j）：調整後の補正量
ゲイン調整部４３１は、調整量Dを制御信号により変更する。ゲイン調整部４３１は、制御信号S0を取得した場合、調整量Dを前回補正した量だけ減算されるように設定する。これにより、ゲインを制御前に戻すことができる。

ゲイン調整部４３１は、制御信号S1を取得した場合、調整量Dに所定の値を設定し、さらにゲインが強調されるようにする。

ゲイン調整部４３１は、制御信号S2を取得した場合、調整量Dに所定のマイナスの値を設定し、ゲインを弱めるようにする。

ゲイン調整部４３１は、調整した補正量gain'（j）をスペクトル制御部４３３に出力する。

スペクトル制御部４３３は、ゲイン調整部４３１から取得した補正量を用いて、受話音スペクトルを制御する。制御の仕方は実施例１と同様である。

＜動作＞
次に、実施例４における音声制御装置４の動作について説明する。図２３は、実施例４における音声制御処理の一例を示すフローチャートである。図２３に示すステップＳ４０１〜Ｓ４０４、Ｓ４０９は、図１１に示すステップＳ１０１〜Ｓ１０４、Ｓ１０６とそれぞれ同様であるため、その説明を省略する。

ステップＳ４０５で、補正量算出部１９３は、推定された聴力特性に応じて補正量を算出する。聴力特性は、例えば最小可聴値であり、補正量は、例えばゲインである。

ステップＳ４０６で、信号生成部４１７は、応答時間の時間変化に基づき、補正量を調整するための制御信号を生成する。

ステップＳ４０７で、ゲイン調整部４３１は、前述したように、制御信号に応じて補正量を調整する。

ステップＳ４０８で、スペクトル制御部４３３は、調整した補正量に応じて受話信号（受話音スペクトル）を制御し、制御した受話信号を周波数時間変換部１１１に出力する。以降の処理は、実施例１と同様である。

次に、実施例４における制御信号生成処理について説明する。図２４は、制御信号生成処理の一例を示すフローチャートである。図２４に示すステップＳ５０１で、比較部４１５は、制御前の応答時間RT_aが制御後の応答時間ＲＴ_bより大きいかを判定する。RT_a＞RT_bであれば（ステップＳ５０１−ＹＥＳ）ステップＳ５０２に進み、RT_a＞RT_bでなければ（ステップＳ５０１−ＮＯ）ステップＳ５０５に進む。

ステップＳ５０２で、信号生成部４１７は、制御信号S1を音声制御部４０３に出力する。

ステップＳ５０３で、比較部４１５は、更新されたRT_aが更新されたRT_bより大きいかを判定する。更新されたRT_aは、ステップＳ５０２の処理前のRT_bであり、更新されたRT_bは、ステップＳ５０２の処理後に算出された応答時間である。

RT_a＞RT_bであれば（ステップＳ５０３−ＹＥＳ）ステップＳ５０２に戻ってゲインの強調を行い、RT_a＞RT_bでなければ（ステップＳ５０３−ＮＯ）ステップＳ５０４に進む。

ステップＳ５０４で、信号生成部４１７は、制御信号S0を音声制御部４０３に出力する。これにより、補正量が最適な値に設定される。

ステップＳ５０５で、信号生成部４１７は、制御信号S0を音声制御部４０３に出力する。ステップＳ５０５は、ゲイン強調の効果がなかったため、制御前のゲインに戻す処理である。

ステップＳ５０６で、信号生成部４１７は、制御信号S2を音声制御部４０３に出力する。これにより、補正量を弱めることができる。

ステップＳ５０７で、比較部４１５は、更新されたRT_aが、更新されたRT_bより大きいかを判定する。更新されたRT_aは、ステップＳ５０６の処理前のRT_bであり、更新されたRT_bは、ステップＳ５０６の処理後に算出された応答時間である。

RT_a＞RT_bであれば（ステップＳ５０７−ＹＥＳ）ステップＳ５０６に戻ってゲインの低減を行い、RT_a＞RT_bでなければ（ステップＳ５０７−ＮＯ）ステップＳ５０８に進む。

ステップＳ５０８で、信号生成部４１７は、制御信号S0を音声制御部４０３に出力する。これにより、補正量が最適な値に設定される。

以上、実施例４によれば、応答時間による時間変化から音声制御による効果を評価し、音声制御にフィードバックすることができる。

［変形例］
次に、変形例における携帯端末装置について説明する。変形例では、各実施例の音声制御装置を携帯端末装置に実装した例について説明する。

図２５は、変形例における携帯端末装置を説明するための図である。図２５に示す携帯端末装置６０９は、基地局６０７に対して符号化された送話信号の送信を行い、基地局６０７から符号化された受話信号の受信を行う。

携帯端末装置６０１は、相手側の装置であり、携帯端末装置６０１で符号化された音声信号が、基地局６０３、ネットワーク６０５、基地局６０７を介して、受話信号として携帯端末装置６０９に受信される。

図２５に示す携帯端末装置６０９は、受信部６１１、復号部６１３、ＦＦＴ部６１５、応答時間算出部６１７、聴力推定部６１９、音声制御部６２１、ＩＦＦＴ部６２３、音声出力部６２５を含む。

また、携帯端末装置６０９は、音声入力部６２７、ＦＦＴ部６２９、符号化部６３１、送信部６３３を含む。

音声入力部６２７は、マイク１１３やＡ／Ｄ変換器により実現され、マイク１１３により出力された送話音をアナログデジタル変換する。変換後の信号（送話信号）はＦＦＴ部６２９に出力される。

ＦＦＴ部６２９は、送話信号に対して時間周波数変換を行い、送話音スペクトルを生成し、応答時間算出部６１７に出力する。

符号化部６３１は、携帯端末装置による一般的な音声符号化技術を用いて符号化信号を生成する。送信部６３３は、符号化部６３１により符号化された符号化信号を基地局６０７に送信する。

受信部６１１は、基地局６０７から符号化信号を受信する。復号部６１３は、符号化信号を復号し、音声信号（受話信号）に変換する。

ＦＦＴ部６１５は、受話信号に対して時間周波数変換を行い、受話音スペクトルを生成し、応答時間算出部６１７、音声制御部６２１に出力する。

応答時間算出部６１７、聴力推定部６１９、音声制御部６２１は、各実施例で説明した機能のいずれかを有していればよい。

ＩＦＦＴ部６２３は、音声制御部６２１から取得した受話信号に対し、周波数時間変換を行って時間領域の受話信号に変換する。

音声出力部６２５は、Ｄ／Ａ変換器、スピーカ１１５により実現され、ＩＦＦＴ部６２３から取得した受話信号をデジタルアナログ変換する。アナログ信号に変換された受話信号は、スピーカ１１５により受話音として出力される。

変形例では、音声制御装置を携帯端末装置に実装した例について説明したが、実装する機器は携帯端末装置だけに限られない。例えば、前述した各音声制御装置、又は前述した各音声制御処理は、テレビ電話会議装置や電話機能を有する情報処理装置にも適用可能である。

図２６は、変形例における携帯端末装置６０９のハードウェアの一例を示すブロック図である。携帯端末装置６０９は、アンテナ７０１、無線部７０３、ベースバンド処理部７０５、制御部７０７、端末インタフェース部７０９、マイク７１１、スピーカ７１３、主記憶部７１５、補助記憶部７１７を有する。

アンテナ７０１は、送信アンプで増幅された無線信号を送信し、また、基地局から無線信号を受信する。無線部７０３は、ベースバンド処理部７０５で拡散された送信信号をＤ／Ａ変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部７０３は、受信した無線信号を増幅し、その信号をＡ／Ｄ変換してベースバンド処理部７０５に伝送する。

ベースバンド部７０５は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。

制御部７０７は、制御信号の送受信などの無線制御を行う。また、制御部７０７は、補助記憶部７１７などに記憶されている音声制御プログラムを実行し、各実施例における音声制御処理を行う。

主記憶部７１５は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などであり、制御部７０７が実行する基本ソフトウェアであるＯＳやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

補助記憶部７１７は、ＨＤＤ（Hard Disk Drive）などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。例えば、図７、１６に示すような情報は、補助記憶部７１７に記憶される。

端末インタフェース部７０９は、データ用アダプタ処理、ハンドセットおよび外部データ端末とのインタフェース処理を行う。

これにより、携帯端末装置６０９において、通話中に、自動でユーザの聴力に応じた音声を提供することができる。また、各実施例における音声制御装置を１つ又は複数の半導体集積化回路として、携帯端末装置６０９に実装することも可能である。また、開示の技術は、携帯端末装置６０９に限らず、固定電話などにも実装することができる。

また、前述した各実施例で説明した音声制御処理を実現するためのプログラムを記録媒体に記録することで、各実施例での音声制御処理をコンピュータに実施させることができる。

また、このプログラムを記録媒体に記録し、このプログラムが記録された記録媒体をコンピュータや携帯端末装置に読み取らせて、前述した音声制御処理を実現させることも可能である。なお、記録媒体は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的，電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、前述した各実施例の構成要素を全部又は複数を組み合わせることも可能である。

Claims

受話信号の音声と送話信号の音声との時間差を表す応答時間を算出する算出部と、
算出された前記応答時間に基づいてユーザの聴力を推定する聴力推定部と、
推定された前記聴力に応じた補正量により前記受話信号を制御する音声制御部と、
を備える音声制御装置。
前記受話信号の音声の時間長を算出する受話音時間算出部をさらに備え、
前記算出部は、
算出された受話音の音声の時間長が第１閾値以上の場合に、前記応答時間を算出する請求項１記載の音声制御装置。
前記送話信号の音声の時間長を算出する送話音時間算出部をさらに備え、
前記算出部は、
算出された送話信号の音声の時間長が第２閾値より大きい場合に、前記応答時間を算出する請求項１又は２記載の音声制御装置。
前記受話信号の音声の明瞭度を算出する明瞭度算出部をさらに備え、
前記算出部は、
算出された前記明瞭度が第３閾値より大きい場合に、前記応答時間を算出する請求項１乃至３いずれか一項に記載の音声制御装置。
前記音声制御部は、
前記応答時間の時間的な変化に応じて前記補正量を調整し、調整された補正量を用いて前記受話信号を制御する請求項１乃至４いずれか一項に記載の音声制御装置。
前記音声制御部は、
制御後の応答時間が制御前の応答時間よりも短い場合、前記受話信号を強調する制御を行い、制御後の応答時間が制御前の応答時間よりも長い場合、前記受話信号を減衰する制御を行う請求項５記載の音声制御装置。
前記算出部は、
算出した複数の応答時間を平均した平均応答時間を算出し、
前記聴力推定部は、
前記平均応答時間に基づいて前記聴力を推定する請求項１乃至４いずれか一項に記載の音声制御装置。
音声制御装置における音声制御方法であって、
受話信号の音声と送話信号の音声との時間差を表す応答時間を算出し、
算出された前記応答時間に基づいてユーザの聴力を推定し、
推定された前記聴力に応じた補正量により前記受話信号を制御する音声制御方法。
受話信号の音声と送話信号の音声との時間差を表す応答時間を算出し、
算出された前記応答時間に基づいてユーザの聴力を推定し、
推定された前記聴力に応じた補正量により前記受話信号を制御する、
処理をコンピュータに実行させるための音声制御プログラム。
受話信号を第１スペクトルに変換する第１時間周波数変換部と、
送話信号を第２スペクトルに変換する第２時間周波数変換部と、
前記第１スペクトルと前記第２スペクトルとの時間差を表す応答時間を算出する算出部と、
算出された前記応答時間に基づいてユーザの聴力を推定する聴力推定部と、
推定された前記聴力に応じた補正量により前記第１スペクトルを制御する音声制御部と、
制御された第１スペクトルを受話信号に変換する周波数時間変換部と、
を備える携帯端末装置。