JP6098149B2 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP6098149B2
JP6098149B2 JP2012270916A JP2012270916A JP6098149B2 JP 6098149 B2 JP6098149 B2 JP 6098149B2 JP 2012270916 A JP2012270916 A JP 2012270916A JP 2012270916 A JP2012270916 A JP 2012270916A JP 6098149 B2 JP6098149 B2 JP 6098149B2
Authority
JP
Japan
Prior art keywords
end signal
far
unit
silent section
silent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012270916A
Other languages
English (en)
Other versions
JP2014115546A (ja
Inventor
鈴木 政直
政直 鈴木
猛 大谷
猛 大谷
太郎 外川
太郎 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012270916A priority Critical patent/JP6098149B2/ja
Priority to US14/074,511 priority patent/US9330679B2/en
Priority to EP13192457.3A priority patent/EP2743923B1/en
Priority to CN201310638114.4A priority patent/CN103871416B/zh
Publication of JP2014115546A publication Critical patent/JP2014115546A/ja
Application granted granted Critical
Publication of JP6098149B2 publication Critical patent/JP6098149B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Description

本発明は、例えば、入力信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。
従来から、入力信号の一例となる音声信号を聞き易く制御する方法が開示されている。例えば、高齢者は、加齢に伴う聴力低下を始めとした音声認知能力が低下する為、携帯端末等の双方向音声通話において、相手の受話音の話速が速くなると、音声が聞き取り難くなる傾向にある。この問題を解決する為には、発話者が「ゆっくり」かつ「はっきり」と話すことが、最も簡単な対策であることが知られている。換言すると、発話者が、一語一語をゆっくりと、かつ、明確に文節を区切りながら話すことが有効な対策となる。しかしながら、双方向音声通話の場合においては、早口で話す発話者に対して、意識的に「ゆっくり」かつ「はっきり」と話してもらうことが困難である。この為、受話音の音声区間を検出し、当該音声区間を伸長して可聴性を向上させると共に、非音声区間を短縮することにより、音声区間の伸長による遅延量を削減する技術が開示されている。具体的には、入力信号に対して、音声区間となる有音区間と、非音声区間となる無音区間の判定を行い、有音区間に含まれる音声サンプルを周期的に繰り返すことにより、受話音の声の高さを変えずに話速を遅く(ゆっくり)制御することで音声の聞きやすさを向上させている。また、複数の有音区間の間にある無音区間を短縮することにより、音声区間の伸長により発生する遅延を防止することにより、話速制御による会話の間延びを抑制して自然な双方向音声通話を実現している。
特許4460580号公報
三木朋乃ら、「話速変換技術を搭載したラジオ・テレビの開発」、一橋大学イノベーション研究センター、CASE#10−03、2010年4月
上述の話速を制御する方法は、音声を「ゆっくり」させることを考慮するのみであり、音声を明確に区切ることによって、音声を「はっきり」させることが考慮されておらず、音声の聞きやすさの補償の観点からは、必ずしも十分なものとは言えない。更に、従来の話速を制御する方法においては、受話者となる近端側の周囲雑音の有無に関わらず無音区間を単調に短縮しているが、受話者の周囲が騒がしい環境(周囲雑音が存在する環境)で双方向通話を行う場合、音声が聞き取り難くなる。図1(a)は、送話側から発信される遠端信号の振幅と時間の関係図である。図1(b)は、送話側から発信される遠端信号と、受話側の周囲雑音を重畳させた合成信号の振幅と時間の関係図である。図1(a)、(b)においては、例えば、遠端信号の振幅がある任意の閾値未満の場合を無音区間とし、当該閾値以上の場合を有音区間として判定している。図1(b)においては、図1(a)の無音区間に周囲雑音が重畳している。なお、図1(b)の有音区間においても背景雑音が重畳しているが、周囲雑音の振幅は、遠端信号の振幅と比較して十分小さいことを考慮して、有音区間における周囲雑音の振幅の図示は省略している。
ここで、本発明者らは、近端信号を発する受話側の周囲が騒がしい環境で双方向通話を行う場合に音声が聞き取り難くなる要因として、以下の事項を推察した。図1(b)に示される通り、有音区間の終端と無音区間における周囲雑音の始端は重畳しており、遠端信号の終点と無音区間における周囲雑音の始点の区別が付き難くなっている。ここで、受話者は、周囲雑音の区間がある程度の時間に渡って継続した時に、自分が認識している信号は、遠端信号ではなく周囲雑音であることに気付くものと推察される。この場合、受話者が認識することになる実効的な無音区間が、図1(a)に示す本来の無音区間に比較して短縮することになり、音声が明確に区切られなくなる為、音声の聞きやすさ(可聴性)が低下する。なお、周囲雑音が大きいほど、遠端信号の振幅と周囲雑音の振幅が近接する為、実効的な無音区間が短くなることによる音声の聞きやすさの低下の影響度は大きくなる。
本発明においては、受話者の音声の聞きやすさを向上させることが可能となる音声処理装置を提供することを目的とする。
本発明が開示する音声処理装置は、送話側から発信される複数の有音区間および複数の有音区間の間に少なくとも一つの無音区間が含まれる第1遠端信号と、周囲雑音が含まれる受話側から発信される近端信号とを受信する受信部と、第1遠端信号の無音区間長を判定する判定部と、近端信号に含まれる前記周囲雑音の雑音特性値を算出する算出部と、無音区間長と雑音特性値に基づいて、無音区間長を所定の第1閾値以上となる様に補正する制御部と、複数の有音区間と制御した無音区間を含む第2遠端信号を出力する出力部を備える。
なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示される音声処理装置では、受話者の音声の聞きやすさを向上させることが可能となる。
(a)は、送話側から発信される遠端信号の振幅と時間の関係図である。(b)は、送話側から発信される遠端信号と、受話側の周囲雑音を重畳させた合成信号の振幅と時間の関係図である。 一つの実施形態による音声処理装置の機能ブロック図である。 一つの実施形態による制御部の機能ブロック図である。 雑音特性値と無音区間長の制御量の関係図である。 第1遠端信号のフレーム構成の一例である。 処理部による無音区間長の伸長処理の概念図である。 処理部による無音区間長の短縮処理の概念図である。 音声処理装置による音声処理方法のフローチャートである。 第1遠端信号の雑音特性値と補正量の関係図である。 第1遠端信号の信号対雑音比(SNR)と補正量の関係図である。 雑音特性値と有音区間長の伸長率の関係図である。 一つの実施形態による画像処理装置として機能するコンピュータのハードウェア構成図である。 一つの実施形態による携帯端末装置として機能するハードウェア構成図である。
以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。
(実施例1)
図2は、一つの実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、受信部2、判定部3、算出部4、制御部5、出力部6を有する。
受信部2は、例えば、ワイヤードロジックによるハードウェア回路である。また、受信部2は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。受信部2は、受話側(音声処理装置1のユーザ)から発信される近端信号と、送話側(音声処理装置1のユーザとの通話者)から発信される発話音を含む第1遠端信号を外部から取得する。なお、受信部2は、近端信号を、例えば、音声処理装置1に接続または配置される、図示しないマイクロフォンから受信することが可能である。また、受信部2は、第1遠端信号を、例えば、有線または無線回路を介して受信し、音声処理装置1に接続または配置される、図示しないデコード部で復号することが可能である。受信部2は、受信した第1遠端信号を、判定部3と制御部5へ出力する。また、受信部2は、受信した近端信号を算出部4へ出力する。ここで、第1遠端信号と近端信号は、例えば、所定数の音声サンプル(または周囲雑音サンプル)を含む10〜20msec程度の複数のフレーム単位で受信部2に入力されるものとする。また、近端信号は、受話側の周囲雑音を含んでいても良い。
判定部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、判定部3は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。判定部3は、第1遠端信号を受信部2から受け取る。判定部3は、第1遠端信号に含まれる無音区間長と、有音区間長を判定する。判定部3は、例えば、
第1遠端信号の任意のフレームが有音区間であるか、または無音区間であるかを判定することで、無音区間長と有音区間長を判定することが出来る。なお、任意のフレームにおける有音区間と無音区間判定の方法としては、例えば、現フレームの音声サンプルの電力から、過去フレームの平均入力音声サンプル電力を減算して差分電力を求め、当該差分電力が、任意の閾値以上であれば有音区間と判別し、閾値未満であれば無音区間と判別すれば良い。判定部3は、判定した第1遠端信号の有音区間長と無音区間長の付帯情報として、有音区間長を構成するフレーム番号f(i)と、当該フレームが、有音区間であることを示すフラグvad(voice activity detection)=1を有音区間長に付与しても良い。また、判定部3は、判定した第1遠端信号の無音区間長の付帯情報として、無音区間長を構成するフレーム番号f(i)と、当該フレームが、無音区間であることを示すフラグvad=0を無音区間長に付与しても良い。なお、任意のフレームにおける有音区間と無音区間の判定の方法は、様々な公知の手法を用いることが可能であり、例えば、特許4460580号公報に開示される方法を用いることもできる。判定部3は判定した第1遠端信号の有音区間長と無音区間長を、制御部5へ出力する。
算出部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部4は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部4は、近端信号を受信部2から受け取る。算出部4は、近端信号に含まれる周囲雑音の雑音特性値を算出する。算出部4は、算出した周囲雑音の雑音特性値を制御部5へ出力する。
ここで、算出部4による周囲雑音の雑音特性値を算出方法について説明する。まず、算出部4は、近端信号(Sin)から近端信号電力(S(i))を算出する。例えば、近端信号(Sin)の1フレームを160サンプル(8kHzサンプリング)とすると、算出部4は、近端信号電力(S(i))を次式の通り算出することが出来る。
(数1)

Figure 0006098149
次に、算出部4は、現フレーム(第iフレーム)の近端信号電力(S(i))から、平均近端信号電力(S_ave(i))を算出する。算出部4は、例えば、過去20フレーム分の平均近端信号電力(S_ave(i))を次式の通り算出することが出来る。
(数2)

Figure 0006098149
算出部4は、近端信号電力(S(i))と平均近端信号電力(S_ave(i))の差分で規定される差分近端信号電力(S_dif(i))と、周囲雑音レベル閾値(TH_noise)を比較する。算出部4は、差分近端信号電力(S_dif(i))が、周囲雑音レベル(TH_noise)以上の場合に、当該近端信号電力(S(i))を周囲雑音値(N)として規定することが出来る。ここで、周囲雑音値(N)を周囲雑音の雑音特性値と称しても良い。なお、周囲雑音レベル閾値(TH_noise)は、予め定めた任意の閾値であり、例えば、TH_noise=3dBと規定することが出来る。
算出部4は、差分近端信号電力(S_dif(i))が、周囲雑音レベル閾値(TH_noise)以上の場合、次式を用いて周囲雑音値(N)を更新しても良い。
(数3)
N(i)=N(i−1)
また、算出部4は、差分近端信号電力(S_dif(i))が、周囲雑音レベル閾値(TH_noise)未満の場合、次式を用いて周囲雑音値(N)を更新しても良い。
(数4)
N(i)=α×S(i)+(1−α)×N(i−1)
ここで、αは、0〜1の任意の定数であり、例えば、α=0.1と規定することが出来る。また、周囲雑音値(N)の初期値N(0)も任意であり、例えばN(0)=0と規定することができる。
図2の制御部5は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部5は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部5は、第1遠端信号を受信部2から受け取り、当該第1遠端信号の有音区間長と無音区間長を判定部3から受け取り、更に、雑音特性値を算出部4から受け取る。制御部5は、有音区間長、無音区間長、ならびに雑音特性値に基づいて第1遠端信号を制御した第2遠端信号を出力部6へ出力する。
ここで、制御部5による第1遠端信号の制御処理について説明する。図3は、一つの実施形態による制御部5の機能ブロック図である。制御部5は、規定部7、生成部8、処理部9を有する。なお、制御部5は、規定部7、生成部8、処理部9を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、制御部5に含まれる各部が有する機能を、ワイヤードロジックによるハードウェア回路に代えて、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。
図3において、雑音特性値が制御部5を介して規定部7に入力される。規定部7は、雑音特性値に基づいて、無音区間長の制御量(non_sp)を規定する。図4は、雑音特性値と無音区間長の制御量の関係図である。図4において、縦軸の制御量が0以上の場合は、当該制御量に応じて無音区間に更に無音区間が挿入されて無音区間長が伸長することになり、制御量が0未満の場合は、当該制御量に応じて無音区間長が短縮される。また、図4において、r_highは、制御量(non_sp)の上限閾値を示し、r_lowは、制御量(non_sp)の下限閾値を示す。なお、制御量は、例えば、上限を1.0、下限を−1.0とした無音区間長に乗算される値であれば良い。また、制御量は、例えば、0秒または、受話側において周囲雑音が存在する場合でも複数の有音区間の文節を聞き分けられる無音区間の一例となる0.2秒を下限とした、任意に定められる所定の無音時間長でも良い。この場合は、無音区間長は、当該無音時間長に置換される。なお、上述の受話側が複数の有音区間の文節を聞き分けられる無音区間長の一例となる0.2秒を、第1閾値と称しても良い。更に、図4の関係図において、雑音特性値がN_lowないしN_highの区間においては、直線の代わりにN_low及び、N_highの前後付近で曲率を有して変化する2次曲線やシグモイド曲線を規定しても良い。
図4の関係図に示される通り、規定部7は、雑音特性値が小さい場合は、無音区間の短縮長を大きく設定し、雑音特性値が大きい場合は無音区間の短縮長を小さく設定または無音区間を伸長する制御量(non_sp)を規定する。換言すると、規定部7は、雑音特性値が小さい場合は、受話者が送話者の音声を聞き取り易い状況下にあるので、無音区間を短縮する制御量を規定する。また、規定部7は、雑音特性値が大きい場合は、受話者が送話者の音声を聞き取り難い状況下にあるので、無音区間を出来るだけ短縮しない様に制御するか、無音区間を伸長する制御量を規定する。規定部7は、無音区間長の制御量(non_sp)を生成部8へ出力する。なお、規定部7(または制御部5)は、双方向音声通話における遅延量を考慮する必要がない場合は、必ずしも無音区間長を短縮する必要はない。
図3において、生成部8は、無音区間長の制御量(non_sp)を規定部7から受け取り、有音区間長と無音区間長を、制御部5を介して判定部3から受け取る。また、生成部8は、第1遠端信号を、制御部5を介して受信部2から受けとる。更に、生成部8は後述する処理部9から遅延量(delay)を受け取る。なお、遅延量(delay)は、例えば、受信部2が受信する第1遠端信号の受信量と、出力部6が出力する第2遠端信号の出力量の差分で規定されれば良い。また、遅延量(delay)は、例えば、処理部9が受信する第1遠端信号の受信量と、当該処理部9が出力する第2遠端信号の出力量の差分で規定されても良い。なお、第1遠端信号と第2遠端信号をそれぞれ第1信号と第2信号と称しても良い。
生成部8は、有音区間長、無音区間長、当該無音区間長の制御量(non_sp)、ならびに遅延量(delay)に基づいて制御情報1(ctrl−1)を生成して、当該制御情報1(ctrl−1)、有音区間長、ならびに無音区間長を処理部9へ出力する。ここで、生成部8の制御情報1(ctrl−1)の生成処理について説明する。生成部8は、有音区間長については、ctrl−1=0として、制御情報1(ctrl−1)を生成する。ここで、ctrl−1=0とは、第1遠端信号に対して伸長または短縮を含む制御処理を実施しないことを意味する。生成部8は、無音区間長については、制御情報1(ctrl−1)として、規定部7から受け取った制御量(non_sp)を用いて、例えば、ctrl−1=non_spとして、制御情報1(ctrl−1)を生成する。なお、生成部8は、無音区間長において、遅延量(delay)が予め規定した任意の上限値(delay_max)を超える場合はctrl−1=0とし、遅延量が大きくならない様に制御情報1を生成しても良い。ここで、任意の上限値(delay_max)は、双方向音声通話において主観的に許容できる上限値とし、例えば1秒に設定することが出来る。
処理部9は、制御情報1(ctrl−1)、有音区間長、ならびに無音区間長を生成部8から受け取る。また、処理部9は、第1遠端信号を、制御部5を介して受信部2から受け取る。なお、処理部9は、上述した遅延量(delay)を生成部8へ出力する。処理部9は、第1遠端信号に対して、無音区間の短縮または伸長処理を含む制御を行う。図5は、第1遠端信号のフレーム構成の一例である。図5に示される通り、第1遠端信号は、一定の音声サンプル数Nを含む複数のフレームで構成される。ここで、処理部9による、第1遠端信号のiフレーム目(フレーム番号(f(i))の音声に対する無音区間長の制御処理(無音区間長の短縮処理または無音区間長の伸長処理)について説明する。
図6は、処理部9による無音区間長の伸長処理の概念図である。図6に示す通り、処理部9は、第1遠端信号の現フレーム(f(i))が、無音区間(vad=0)である場合、現フレームの先頭に対して、サンプルN’の無音区間を挿入する。ここで、サンプルN’の値は、例えば、生成部8から入力される制御情報1となる、ctrl−1=non_spに基づいて規定されれば良い。処理部9は、現フレーム(f(i))に対して、サンプルN’の無音区間を挿入すると、フレームf(i)の先頭からN−N’サンプルが挿入された区間が、挿入された無音区間に続くことになる。この結果、無音区間が挿入された合計Nサンプルが、新しいf(i)フレーム目のサンプル(換言すると、第2遠端信号)として出力される。なお、無音区間挿入による第1遠端信号のフレーム(i)の後半N’サンプルについては、次フレーム(f(i+1))以降で出力される。処理部9は、第1遠端信号に対して無音区間長の伸長処理を実施した信号を第2遠端信号として、制御部5を介して出力部6へ出力する。
処理部9が第1遠端信号に対して無音区間を挿入する場合、元の第1遠端信号の一部が遅延して出力されるため、処理部9は、出力が遅延するフレームを、処理部9の図示しないバッファまたメモリに格納しても良い。また、遅延量(delay)が所定の上限値(delay_max)を超える場合には、無音区間の伸長処理を実施しなくても良い。また、処理部9は、更に、無音区間長が一定以上(例えば10秒以上)継続する場合には、後述する無音区間の短縮処理により無音区間長を短縮して遅延量を回復させても良い。
図7は、処理部9による無音区間長の短縮処理の概念図である。図7に示す通り、処理部9は、第1遠端信号の現フレーム(f(i))が無音区間(vad=0)であり、かつ、過去から一定以上無音が継続している場合は、現フレーム(f(i))の無音区間を短縮する処理を行う。図7において、フレームf(i)が無音区間であり、これをサンプル長N’だけ短縮する場合には、処理部9は、現フレーム(f(i))の先頭N−N’サンプルのみを出力し、現フレームの後半N’サンプルは廃棄する。また、処理部9は、後続するf(i+1)フレーム目の先頭N’サンプルを現フレームf(i)の出力とする。尚、f(i+1)フレーム目の残りの音声については、後続フレームにおいて出力されれば良い。
処理部9が、無音区間長を短縮する場合、第1遠端信号の一部が削除されて遅延量が回復する効果を奏するが、一定区間以上の無音区間を削除すると、有音区間の話頭や話尾の音切れが発生する場合も有り得る。そこで、処理部9は、過去から現在の無音継続時間を算出して、処理部9の図示しないバッファまたはメモリに保持し、無音継続時間が一定以下(例えば0.1秒)とならない様に制御しても良い。また、処理部9は、近端側のユーザの年齢や聴力に応じて、無音区間の短縮率や伸長率を可変する処理を行っても良い。
図2において、出力部6は、例えば、ワイヤードロジックによるハードウェア回路である。また、出力部6は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。出力部6は、第2遠端信号を制御部5から受け取る。出力部6は、第2遠端信号を出力信号として外部へ出力する。出力部6は出力信号を、例えば、音声処理装置1に接続または配置される、図示しないスピーカーへ出力することが可能である。
図8は、音声処理装置1による音声処理方法のフローチャートである。受信部2は、受話側(音声処理装置1のユーザ)から発信される近端信号と、送話側(音声処理装置1のユーザとの通話者)から発信される発話音を含む第1遠端信号を外部から取得したか否かを判定する(ステップS801)。受信部2は、近端信号と第1遠端信号を受信していない場合(ステップS801−No)は、ステップS801の判定処理を繰り返す。受信部2は、近端信号と第1遠端信号を受信した場合(ステップS801−Yes)、受信した第1遠端信号を、判定部3と制御部5へ出力し、近端信号を算出部4へ出力する。
判定部3は、第1遠端信号を受信部2から受け取り、当該第1遠端信号に含まれる無音区間長と、有音区間長を判定する(ステップS802)。判定部3は判定した第1遠端信号の有音区間長と無音区間長を、制御部5へ出力する。
算出部4は、近端信号を受信部2から受け取り、当該近端信号に含まれる周囲雑音の雑音特性値を算出する(ステップS803)。算出部4は、算出した周囲雑音の雑音特性値を制御部5へ出力する。なお、近端信号を第3信号と称しても良い。
制御部5は、第1遠端信号を受信部2から受け取り、当該第1遠端信号の有音区間長と無音区間長を判定部3から受け取り、更に、雑音特性値を算出部4から受け取る。制御部5は、有音区間長、無音区間長、ならびに雑音特性値に基づいて第1遠端信号を制御した第2遠端信号を出力部6へ出力する(ステップS804)。
出力部6は、第2遠端信号を制御部5から受け取る。出力部6は、第2遠端信号を出力信号として外部へ出力する(ステップS805)。
受信部2は、第1遠端信号の受信を継続しているか否かを判定する(ステップS806)。受信部2が第1遠端信号の受信を継続していない場合(ステップS806−No)、音声処理装置1は、図8のフローチャートに示す音声処理を終了する。受信部2が第1遠端信号の受信を継続している場合(ステップS806−Yes)、音声処理装置1は、ステップS802ないしS806の処理を繰返し実行する。
実施例1による音声処理装置においては、受話者の音声の聞きやすさを向上させることが可能となる。
(実施例2)
図3において規定部7は、制御量(non_sp)に対して、第1遠端信号の信号特性に応じた補正量(r_delta)を加えることも出来る。ここで、第1遠端信号の信号特性は、例えば、第1遠端信号の雑音特性値または信号対雑音比(SNR)であれば良い。雑音特性値は、例えば、算出部4が算出する近端信号の雑音特性値の算出処理と同様の処理を用いることが出来る。例えば、第1遠端信号の雑音特性値を処理部9が算出して、規定部7は、当該処理部9から雑音特性値を受け取れば良い。また、信号対雑音比(SNR)は、第1遠端信号の有音区間の信号と雑音特性値の比を用いて、処理部9が算出することが出来る。規定部7は、処理部9から信号対雑音比を受け取ることが出来る。
図9は、第1遠端信号の雑音特性値と補正量の関係図である。図9において、r_delta_maxは、無音区間長の制御量(non_sp)の補正量の上限値を示す。また、N_low’は、制御量(non_sp)を補正する雑音特性値の上限閾値を示し、N_high’は、無音区間長の制御量(non_sp)を補正しない雑音特性値の下限閾値を示す。図10は、第1遠端信号の信号対雑音比(SNR)と補正量の関係図である。図10において、r_delta_maxは、無音区間長の制御量(non_sp)の補正量の上限値を示す。また、SNR_high’は、制御量(non_sp)を補正する信号対雑音比の上限閾値を示し、SNR_low’は、無音区間の制御量(non_sp)を補正しない信号対雑音比の下限閾値を示す。規定部7は、図9または図10のいずれかの関係図を用いて規定した補正量を、制御量(non_sp)に加算することで、制御量(non_sp)を補正することが出来る。
双方向音声通話においては、第1遠端信号に含まれる雑音が大きいほど、受話側の音声の聞きやすさが低下することも推定される為、実施例2における音声処理装置1は、当該補正量を用いることで、受話者の音声の聞きやすさが向上する。
(実施例3)
図3において、生成部8は、制御情報1(ctrl−1)に加えて、有音区間長を制御する制御する制御情報2(ctrl−2)を、有音区間長、ならびに遅延量(delay)に基づいて生成することが出来る。ここで、生成部8による制御情報2(ctrl−2)の生成処理について説明する。生成部8は、無音区間長については、例えば、ctrl−2=0として、制御情報2(ctrl−2)を生成する。
ここで、ctrl−2=0とは、第1遠端信号の有音区間に対して伸長または短縮を含む制御処理を実施しないことを意味する。生成部8は、有音区間長については、有音区間の伸長率をerとした場合、制御情報2(ctrl−2)として、例えば、ctrl−2=erとして、制御情報2(ctrl−2)を生成する。なお、生成部8は、有音区間長であっても遅延量(delay)に応じてctrl−2=0としても良い。生成部8は、制御情報2(ctrl−2)を処理部9へ出力する。ここで、有音区間長の伸長率の規定処理について説明する。図11は、雑音特性値と有音区間長の伸長率の関係図である。図11の関係図の縦軸の伸長率に応じて有音区間長が伸長される。図11の関係図において、er_highは、伸長率(er)の上限閾値を示し、er_lowは、伸長率の下限閾値を示す。また、図11の関係図においては、伸長率は近端信号の雑音特性値に基づいて規定される。なお、この技術的意義は以下の通りとなる。
上述の通り、話速が速い場合(単位時間あたりのモーラ数が多い場合)は、高齢者の音声の聞きやすさが低下する。また、周囲雑音が存在する場合は、受話音が雑音に埋もれることにより、高齢者と非高齢者を問わずに音声の聞きやすさが低下する。ここで、話速が速く、かつ、周囲雑音が存在する状況が同時に起こると、相乗的な影響により、高齢者の音声の聞きやすさが著しく低下する。一方、双方向音声通話では、有音区間を際限なく伸長すると遅延量の増加により通話が困難になる。この為、図11の関係図においては、周囲雑音が大きい有音区間を優先的に伸長することで、遅延量の増加を抑制しつつ、音声の聞きやすさを向上させることが可能となる。
図3において、処理部9は、制御情報1(ctrl−1)、有音区間長、無音区間長に加えて、制御情報2(ctrl−2)を生成部8から受け取る。また、処理部9は、第1遠端信号を、制御部5を介して受信部2から受け取る。なお、処理部9は、実施例1で上述した遅延量(delay)を生成部8へ出力する。処理部9は、第1遠端信号に対して、制御情報1(ctrl−1)に基づく無音区間の短縮または伸長処理を含む制御を行い、制御情報2(ctrl−2)に基づく有音区間の短縮処理を含む制御を行う。なお、処理部9における有音区間の伸長処理は、例えば、特許4460580号公報に開示される方法を用いることが出来る。
実施例3における音声処理装置においては、周囲雑音に応じて無音区間長を制御すること加えて、有音区間長も制御することにより、受話者の音声の聞きやすさが向上する。
(実施例4)
図2に示す音声処理装置1においては、受信部2と判定部3と制御部5のみの機能を用いて受話者の音声の聞きやすさを向上させることが出来る為、以下に説明する。受信部2は、送話側(音声処理装置1のユーザとの通話者)から発信される発話音を含む第1遠端信号を外部から取得する。なお、受信部2は、受話側(音声処理装置1のユーザ)から発信される近端信号を必ずしも受信する必要はない。受信部2は、受信した第1遠端信号を、判定部3と制御部5へ出力する。
判定部3は、第1遠端信号を受信部2から受け取り、当該第1遠端信号に含まれる無音区間長と、有音区間長を判定する。なお、判定部3による無音区間長と、有音区間長の判定方法は、実施例1と同様である為、詳細な説明は省略する。判定部3は判定した第1遠端信号の有音区間長と無音区間長を、制御部5へ出力する。
制御部5は、第1遠端信号を受信部2から受け取り、当該第1遠端信号の有音区間長と無音区間長を判定部3から受け取る。制御部5は、有音区間長、無音区間長に基づいて第第1遠端信号を制御した第2遠端信号を出力部6へ出力する。具体的には、制御部5は、無音区間長が、受話側が複数の有音区間の文節を聞き分けられる無音区間長となる第1閾値以上であるかを判別し、第1閾値未満であれば、第1閾値以上となる様に無音区間長を制御する。なお、第1閾値は主観評価等により実験的に定めることが可能であり、0.2秒と設定することが出来る。また、制御部5は、有音区間に含まれる文節を公知の手法を用いて解析し、文節間を第1閾値以上に制御することでも受話者の音声の聞きやすさを向上させることが可能となる。
実施例4における音声処理装置においては、無音区間長を適切に制御することにより、受話者の音声の聞きやすさが向上する。
(実施例5)
図12は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図12に示すように、音声処理装置1は、制御部21、主記憶部22、補助記憶部23、ドライブ装置24、ネットワークI/F部26、入力部27、表示部28を含む。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
制御部21は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。また、制御部21は、主記憶部22や補助記憶部23に記憶されたプログラムを実行する演算装置であり、入力部27や記憶装置からデータを受け取り、演算、加工した上で、表示部28や記憶装置などに出力する。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。
補助記憶部23は、HDDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置24は、記録媒体25、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部23にインストールする。
また、記録媒体25に、所定のプログラムを格納し、この記録媒体25に格納されたプログラムはドライブ装置24を介して音声処理装置1にインストールされる。インストールされた所定のプログラムは、音声処理装置1により実行可能となる。
ネットワークI/F部26は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器と音声処理装置1とのインターフェースである。
入力部27は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部28の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部27は、ユーザが制御部21に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示部28は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等により構成され、制御部21から入力される表示データに応じた表示が行われる。
なお、上述した音声処理方法は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述した音声処理方法を実現することができる。
また、このプログラムを記録媒体25に記録し、このプログラムが記録された記録媒体25をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体15は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
(実施例6)
図13は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、制御部21、端末インターフェース部34、マイクロフォン35、スピーカー36、主記憶部22、補助記憶部23を有する。
アンテナ31は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
ベースバンド処理部33は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。
制御部21は、制御信号の送受信などの無線制御を行う。また、制御部21は、補
助記憶部23などに記憶されている音声処理プログラムを実行し、例えば、実施例1における音声処理を行う。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
補助記憶部23は、HDDやSSDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
端末インターフェース部34は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインターフェース処理を行う。
マイクロフォン35は、送話者の音声を含む周囲の音を入力し、マイク信号として制御部21に出力する。スピーカー36は、出力信号として制御部21から出力された信号を出力する。
以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
以上、説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の有音区間が含まれる第1遠端信号を受信する受信部と、
前記複数の有音区間の間が所定の第1閾値以上の無音区間となる様に制御する制御部と、
前記複数の有音区間と前記制御した前記無音区間を含む第2信号を出力する出力部と、
を備えることを特徴とする音声処理装置。
(付記2)
前記第1信号は、前記複数の有音区間の間に少なくとも一つの前記無音区間が含まれており、
前記音声処理装置は、前記第1信号の有音区間長と無音区間長をそれぞれ判定する判定部を更に備え、
前記制御部は、前記無音区間長を前記第1閾値以上となる様に制御することを特徴とする付記1記載の音声処理装置。
(付記3)
前記受信部は、周囲雑音が含まれる受話側から発信される第3信号を更に受信し、
前記音声処理装置は、前記第3信号に含まれる前記周囲雑音の雑音特性値を算出する算出部を更に備え、
前記制御部は、前記無音区間長と前記雑音特性値に基づいて、前記無音区間長を前記第1閾値以上となる様に補正することを特徴とする付記2記載の音声処理装置。
(付記4)
前記制御部は、前記無音区間長が前記第1閾値未満の場合、前記雑音特性値の大きさに応じて前記無音区間長を伸長することを特徴とする付記3記載の音声処理装置。
(付記5)
前記制御部は、前記無音区間長が前記第1閾値以上の場合、前記雑音特性値の大きさに応じて前記無音区間長を短縮することを特徴とする付記3記載の音声処理装置。
(付記6)
前記制御部は、前記受信部が受信する前記第1信号の受信量と、前記出力部が出力する前記第2信号の出力量の差分となる遅延量に基づいて、前記無音区間長の伸長率または、短縮率を制御することを特徴とする付記4または付記5記載の音声処理装置。
(付記7)
前記制御部は、前記雑音特性値の大きさに応じて前記有音区間長を伸長することを特徴とする付記3ないし付記5の何れか一つに記載の音声処理装置。
(付記8)
前記算出部は、前記第3信号の所定の時間内に渡る電力変動に基づいて雑音特性値を算出することを特徴とする付記2記載の音声処理装置。
(付記9)
複数の有音区間が含まれる第1信号を受信し、
前記複数の有音区間の間が所定の第1閾値以上の無音区間となる様に制御し、
前記複数の有音区間と前記制御した前記無音区間を含む第2信号を出力すること
を含むことを特徴とする音声処理方法。
(付記10)
前記第1信号は、前記複数の有音区間の間に少なくとも一つの前記無音区間が含まれており、
前記音声処理方法は、前記第1信号の有音区間長と無音区間長をそれぞれ判定し、
前記制御することは、前記無音区間長を前記第1閾値以上となる様に制御することを特徴とする付記9記載の音声処理方法。
(付記11)
前記受信することは、周囲雑音が含まれる受話側から発信される第3信号を更に受信し、
前記音声処理方法は、前記第3信号に含まれる前記周囲雑音の雑音特性値を算出し、
前記制御することは、前記無音区間長と前記雑音特性値に基づいて、前記無音区間長を前記第1閾値以上となる様に補正することを特徴とする付記10記載の音声処理方法。
(付記12)
前記制御することは、前記無音区間長が前記第1閾値未満の場合、前記雑音特性値の大きさに応じて前記無音区間長を伸長することを特徴とする付記11記載の音声処理方法。
(付記13)
前記制御することは、前記無音区間長が前記第1閾値以上の場合、前記雑音特性値の大きさに応じて前記無音区間長を短縮することを特徴とする付記11記載の音声処理方法。
(付記14)
前記制御することは、前記受信することが受信する前記第1信号の受信量と、前記出力することが出力する前記第2信号の出力量の差分となる遅延量に基づいて、前記無音区間長の伸長率または、短縮率を制御することを特徴とする付記12または付記13記載の音声処理方法。
(付記15)
前記制御部は、前記雑音特性値の大きさに応じて前記有音区間長を伸長することを特徴とする付記11ないし付記13の何れか一つに記載の音声処理方法。
(付記16)
前記算出することは、前記第3信号の所定の時間内に渡る電力変動に基づいて雑音特性値を算出することを特徴とする付記11記載の音声処理方法。
(付記17)
コンピュータに、
複数の有音区間が含まれる第1信号を受信し、
前記複数の有音区間の間が所定の第1閾値以上の無音区間となる様に制御し、
前記複数の有音区間と前記制御した前記無音区間を含む第2信号を出力すること
を実行させることを特徴とする音声処理プログラム。
(付記18)
複数の有音区間が含まれる第1信号を受信するマイクロフォンと、
前記マイクロフォンから第1信号を受信する受信部と、
前記複数の有音区間の間が所定の第1閾値以上の無音区間となる様に制御する制御部と、
前記複数の有音区間と前記制御した前記無音区間を含む第2信号を出力するスピーカー、
を備えることを特徴とする携帯端末装置。
1 音声処理装置
2 受信部
3 判定部
4 算出部
5 制御部
6 出力部

Claims (7)

  1. 送話側から発信される複数の有音区間および前記複数の有音区間の間に少なくとも一つの無音区間が含まれる第1遠端信号と、周囲雑音が含まれる受話側から発信される近端信号とを受信する受信部と、
    前記第1遠端信号の無音区間長を判定する判定部と、
    前記近端信号に含まれる前記周囲雑音の雑音特性値を算出する算出部と、
    前記無音区間長と前記雑音特性値に基づいて、前記無音区間長を所定の第1閾値以上となる様に補正する制御部と、
    前記複数の有音区間と前記制御した前記無音区間を含む第2遠端信号を出力する出力部と
    を備えることを特徴とする音声処理装置。
  2. 前記制御部は、前記無音区間長が前記第1閾値未満の場合、前記雑音特性値の大きさに応じて前記無音区間長を伸長することを特徴とする請求項記載の音声処理装置。
  3. 前記制御部は、前記無音区間長が前記第1閾値以上の場合、前記雑音特性値の大きさに応じて前記無音区間長を短縮することを特徴とする請求項記載の音声処理装置。
  4. 前記制御部は、前記受信部が受信する前記第1遠端信号の受信量と、前記出力部が出力する前記第2遠端信号の出力量の差分となる遅延量に基づいて、前記無音区間長の伸長率または、短縮率を制御することを特徴とする請求項または請求項記載の音声処理装置。
  5. 前記制御部は、前記雑音特性値の大きさに応じて前記第1遠端信号の有音区間長を伸長することを特徴とする請求項ないし請求項の何れか一項に記載の音声処理装置。
  6. 送話側から発信される複数の有音区間および前記複数の有音区間の間に少なくとも一つの無音区間が含まれる第1遠端信号と、周囲雑音が含まれる受話側から発信される近端信号とを受信し、
    前記第1遠端信号の無音区間長を判定し、
    前記近端信号に含まれる前記周囲雑音の雑音特性値を算出し、
    前記無音区間長と前記雑音特性値に基づいて、前記無音区間長を所定の第1閾値以上となる様に補正し、
    前記複数の有音区間と前記制御した前記無音区間を含む第2遠端信号を出力すること
    を含むことを特徴とする音声処理方法。
  7. コンピュータに、
    送話側から発信される複数の有音区間および前記複数の有音区間の間に少なくとも一つの無音区間が含まれる第1遠端信号と、周囲雑音が含まれる受話側から発信される近端信号とを受信し、
    前記第1遠端信号の無音区間長を判定し、
    前記近端信号に含まれる前記周囲雑音の雑音特性値を算出し、
    前記無音区間長と前記雑音特性値に基づいて、前記無音区間長を所定の第1閾値以上となる様に補正し、
    前記複数の有音区間と前記制御した前記無音区間を含む第2遠端信号を出力すること
    を実行させることを特徴とする音声処理プログラム。
JP2012270916A 2012-12-12 2012-12-12 音声処理装置、音声処理方法および音声処理プログラム Expired - Fee Related JP6098149B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012270916A JP6098149B2 (ja) 2012-12-12 2012-12-12 音声処理装置、音声処理方法および音声処理プログラム
US14/074,511 US9330679B2 (en) 2012-12-12 2013-11-07 Voice processing device, voice processing method
EP13192457.3A EP2743923B1 (en) 2012-12-12 2013-11-12 Voice processing device, voice processing method
CN201310638114.4A CN103871416B (zh) 2012-12-12 2013-12-02 语音处理设备及语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012270916A JP6098149B2 (ja) 2012-12-12 2012-12-12 音声処理装置、音声処理方法および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2014115546A JP2014115546A (ja) 2014-06-26
JP6098149B2 true JP6098149B2 (ja) 2017-03-22

Family

ID=49553621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012270916A Expired - Fee Related JP6098149B2 (ja) 2012-12-12 2012-12-12 音声処理装置、音声処理方法および音声処理プログラム

Country Status (4)

Country Link
US (1) US9330679B2 (ja)
EP (1) EP2743923B1 (ja)
JP (1) JP6098149B2 (ja)
CN (1) CN103871416B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
JP6394103B2 (ja) * 2014-06-20 2018-09-26 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2016177204A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
DE102017131138A1 (de) * 2017-12-22 2019-06-27 Te Connectivity Germany Gmbh Vorrichtung zum Übermitteln von Daten innerhalb eines Fahrzeugs
CN109087632B (zh) * 2018-08-17 2023-06-06 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN116614573B (zh) * 2023-07-14 2023-09-15 上海飞斯信息科技有限公司 基于数据预分组的dsp的数字信号处理***

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700820A (en) * 1966-04-15 1972-10-24 Ibm Adaptive digital communication system
US4167653A (en) * 1977-04-15 1979-09-11 Nippon Electric Company, Ltd. Adaptive speech signal detector
DE4227826C2 (de) 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
KR100275415B1 (ko) * 1992-01-17 2000-12-15 가나이 쓰도무 무선 페이저 및 음성 전달 기능을 갖는 무선 페이징 시스템
US20020032571A1 (en) * 1996-09-25 2002-03-14 Ka Y. Leung Method and apparatus for storing digital audio and playback thereof
JP3432443B2 (ja) * 1999-02-22 2003-08-04 日本電信電話株式会社 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP2000349893A (ja) 1999-06-08 2000-12-15 Matsushita Electric Ind Co Ltd 音声再生方法および音声再生装置
JP2001211469A (ja) 2000-12-08 2001-08-03 Hitachi Kokusai Electric Inc 音声情報無線受渡しシステム
JP2004519738A (ja) 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7337108B2 (en) 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
JP4218573B2 (ja) * 2004-04-12 2009-02-04 ソニー株式会社 ノイズ低減方法及び装置
JP4460580B2 (ja) 2004-07-21 2010-05-12 富士通株式会社 速度変換装置、速度変換方法及びプログラム
EP1840877A4 (en) 2005-01-18 2008-05-21 Fujitsu Ltd ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE
JP4965371B2 (ja) 2006-07-31 2012-07-04 パナソニック株式会社 音声再生装置
GB2451907B (en) * 2007-08-17 2010-11-03 Fluency Voice Technology Ltd Device for modifying and improving the behaviour of speech recognition systems
JP2009075280A (ja) 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置
KR101235830B1 (ko) * 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
JP4968147B2 (ja) * 2008-03-31 2012-07-04 富士通株式会社 通信端末、通信端末の音声出力調整方法
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
JP5722007B2 (ja) * 2010-11-24 2015-05-20 ルネサスエレクトロニクス株式会社 音声処理装置および音声処理方法並びにプログラム
US8589153B2 (en) * 2011-06-28 2013-11-19 Microsoft Corporation Adaptive conference comfort noise
EP2774148B1 (en) * 2011-11-03 2014-12-24 Telefonaktiebolaget LM Ericsson (PUBL) Bandwidth extension of audio signals

Also Published As

Publication number Publication date
EP2743923A1 (en) 2014-06-18
JP2014115546A (ja) 2014-06-26
EP2743923B1 (en) 2016-11-30
US20140163979A1 (en) 2014-06-12
CN103871416B (zh) 2017-01-04
CN103871416A (zh) 2014-06-18
US9330679B2 (en) 2016-05-03

Similar Documents

Publication Publication Date Title
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
EP2816558B1 (en) Speech processing device and method
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US8924199B2 (en) Voice correction device, voice correction method, and recording medium storing voice correction program
CN105825869B (zh) 语音处理装置和语音处理方法
US9443537B2 (en) Voice processing device and voice processing method for controlling silent period between sound periods
JP2015222847A (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20120209598A1 (en) State detecting device and storage medium storing a state detecting program
EP3252765B1 (en) Noise suppression in a voice signal
JP6394103B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20140142943A1 (en) Signal processing device, method for processing signal
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP2009122204A (ja) 音量調整装置、方法及びプログラム
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170206

R150 Certificate of patent or registration of utility model

Ref document number: 6098149

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees