WO2012053629A1

WO2012053629A1 - 音声処理装置及び音声処理方法

Info

Publication number: WO2012053629A1
Application number: PCT/JP2011/074255
Authority: WO
Inventors: 小林　詠子; 利晃石橋
Original assignee: ヤマハ株式会社
Priority date: 2010-10-21
Filing date: 2011-10-21
Publication date: 2012-04-26
Also published as: CN103189912A; JP5644359B2; US20130182866A1; JP2012088577A; US9117436B2

Abstract

　音声解析部１３は、入力された音声信号からフォルマントやピッチ等の音声特徴量を抽出する。マスカ音生成部１４は、抽出した音声特徴量に基づいて、データベース１５に記憶されている音源データ（汎用マスカ音）を加工し、出力用マスカ音を生成する。汎用マスカ音は、例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない（会話内容が理解できない）撹乱音が含まれている。マスカ音生成部１４は、撹乱音のフォルマントを入力音声信号のフォルマントに一致させる。生成されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者と近似している撹乱音が含まれているため、聴取者は、実際の話者の発言内容を理解することが困難となる。

Description

音声処理装置及び音声処理方法

　この発明は、周囲で発生している音声を収音し、収音した音声に基づいて出力する音声を変化させる音声処理装置及び音声処理方法に関するものである。

　従来、周囲で発生している音声を収音して加工し、収音した音声と加工した音声とをミキシングしてスピーカから音声を出力することにより、周囲で発生している音声とは異なる音声を聴取者に聞かせるものが提案されている（例えば、特許文献１参照）。これにより、周囲で発生している音声（例えば話者の音声）を聞き取り難くし、話者の音声をマスクすることが可能となる。

日本国特開２００９－１１８０６２号公報

　しかし、スピーカから出力された音声が再びマイクで収音されると、収音された音声のある周波数成分が増幅されて出力される可能性もあり、ハウリングが発生するおそれがある。また、話者の音声とは異なる音声が収音されると、目的の話者の音声を適切にマスクするマスカ音を出力することができない場合がある。

　そこで、本発明は、ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置及び音声処理方法を提供することを目的とする。

　本発明の提供する音声処理装置は、
　音声信号を入力する入力部と、
　入力した音声信号を解析する解析部と、
　汎用マスカ音を記憶する記憶部と、
　前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成部と、
　前記出力用マスカ音を出力する出力部と、
　を備えた音声処理装置である。

　好適には、前記解析部は、前記入力した音声信号の音声特徴量を抽出し、
　前記マスカ音生成部は、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する。

　好適には、前記入力した音声信号から前記出力用マスカ音を削減する削減部をさらに備える。

　好適には、前記解析結果を所定時間保持する解析結果保持部をさらに備え、
　前記マスカ音生成部は、前記解析部の解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析部の解析結果に基づく前記出力用マスカ音の生成を停止する。

　好適には、前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる。

　また、本発明の提供する、汎用マスカ音を記憶する記憶部を備えた音声処理装置の音声処理方法は、
　音声信号を入力する入力ステップと、
　入力した音声信号を解析する解析ステップと、
　前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成ステップと、
　前記出力用マスカ音を出力する出力ステップと、
　を備えた音声処理方法である。

　好適には、前記解析ステップでは、前記入力した音声信号の音声特徴量を抽出し、
　前記マスカ音生成ステップでは、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する。

　好適には、前記入力した音声信号から前記出力用マスカ音を削減する削減ステップをさらに備える。

　好適には、前記音声処理装置は、前記解析結果を所定時間保持する解析結果保持部をさらに備え、
　前記音声処理方法は、
　前記マスカ音生成ステップでは、前記解析ステップの解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析ステップの解析結果に基づく前記出力用マスカ音の生成を停止する。

　この発明によれば、ハウリングを防止しつつ、適切なマスカ音を生成することができる。

図１（Ａ）及び図１（Ｂ）は、サウンドマスキングシステムの構成を示すブロック図である。図２（Ａ）は、音声信号の周波数特性を示す図である。図２（Ｂ）は、攪乱音のフォルマントのシフト処理、レベル変更処理及び帯域幅変更処理を示す図である。図３は、変形例１に係る音声処理装置の構成を示すブロック図である。図４は、変形例２に係る音声処理装置の構成を示すブロック図である。図５（Ａ）－図５（Ｃ）は、撹乱音と背景音、演出音の対応付けテーブルを示した図である。

　図１（Ａ）は、本発明の音声処理装置を備えたサウンドマスキングシステムの構成を示すブロック図である。サウンドマスキングシステムは、音声処理装置１、話者２の話者音声や周囲音声を収音するマイク１１、および聴取者３へマスカ音を放音するスピーカ１７を備える。音声処理装置１は、話者２の音声をマイク１１を介して収音し、聴取者３に対して話者２の音声をマスクするマスカ音をスピーカ１７を介して放音する。

　図１（Ａ）において、音声処理装置１は、Ａ／Ｄ変換部１２、音声解析部１３、マスカ音生成部１４、データベース１５、及びＤ／Ａ変換部１６を備えている。なお、図１（Ｂ）に示す音声処理装置１’のように、マイク１１およびスピーカ１７が図１（Ａ）の音声処理装置１と一体に設けられた構成であってもよい。また、マイク１１およびスピーカ１７の一方のみが図１（Ａ）の音声処理装置１と一体に設けられていてもよい。

　マイク１１は、装置周囲で発生する音声（この例では主に話者２の発話音声）を収音する。収音された音声は、Ａ／Ｄ変換部１２でデジタル音声信号に変換され、音声解析部１３に入力される。なお、Ａ／Ｄ変換部１２におけるサンプリングレートＦｓは、人の声の主成分が含まれる帯域（例えば１０ｋＨｚ以下）に対応する周波数（例えばＦｓ＝２０ｋＨｚ）とすれば十分である。

　音声解析部１３は、入力された音声信号を解析し、音声特徴量を抽出する。音声特徴量は、話者を識別するための指標となる物理パラメータであり、例えばフォルマントやピッチ等からなる。フォルマントは、音声の周波数スペクトル上の複数のピークを示したものであり、声質に影響を与える物理パラメータである。ピッチは、音高（基本周波数）を表す物理パラメータである。聴取者は、２つの音声を聴取したとき、これら２つの音声の声質や音高が近似していれば、これら２つの音声を区別することが困難となる。したがって、スピーカ１７から話者２の音声に近似し、かつ異なる内容の音声（例えば語彙的に意味をなさないもの）を撹乱音としてマスカ音に含めて出力すれば、聴取者３は、話者２の発言内容を理解することが困難となり、高いマスク効果が期待できる。

　そこで、音声解析部１３は、まず入力音声信号からピッチを算出する。ピッチは、例えば時間軸上のゼロクロス点（振幅が０となる点）から算出する。また、音声解析部１３は、入力音声信号の周波数解析（例えばＦＦＴ：高速フーリエ変換）を行い、周波数スペクトルを算出する。そして、音声解析部１３は、周波数スペクトルから周波数ピークを検出する。周波数ピークは、周波数スペクトルのなかで、前後の周波数成分よりもレベルが高くなっている周波数成分であり、複数の周波数ピークが検出される。ただし、図２（Ａ）に示すように、人の声には非常に微細な周波数ピークが多数含まれるため、包絡成分の周波数ピークだけを抽出する。この周波数ピークがフォルマントとなる。各フォルマントを表すパラメータとしては、中心周波数やレベル、帯域幅（半値幅）等が抽出される。なお、音声特徴量としては、スペクトルの傾斜度等、他の物理パラメータを抽出してもよい。

　音声解析部１３は、以上のようにして抽出した音声特徴量をマスカ音生成部１４に出力する。

　マスカ音生成部１４は、入力された音声特徴量、およびデータベース１５に記憶されている音源データ（汎用マスカ音）に基づいて、出力用マスカ音を生成する。具体的には以下の処理を行う。

　まず、マスカ音生成部１４は、データベース１５から汎用マスカ音の音声データを読み出す。汎用マスカ音とは、どの様な話者であってもある程度のマスク効果が期待できる汎用的なものである。例えば、男性および女性を含む複数人の音声を録音した音声データであり、語彙的には何ら意味をなさない（会話内容が理解できない）撹乱音が含まれる。なお、後述のように、汎用マスカ音には、撹乱音の他にも、聴取者の不快感を緩和させるための背景音（川のせせらぎ等）や演出音（鳥の鳴き声等）が含まれていてもよい。データベース１５には、汎用マスカ音の音声データとして、撹乱音や背景音、演出音等の周波数軸上の音声信号（または時間軸上の音声信号でもよい。）が記憶されている。

　マスカ音生成部１４は、音声解析部１３から入力された音声特徴量に基づいて、読み出した汎用マスカ音のうち、撹乱音に係る音声データを加工する。例えば、読み出した撹乱音のピッチを、入力音声信号のピッチに変換する。この場合、撹乱音の基本周波数成分を、入力音声信号の基本周波数成分に一致させるように周波数シフトする。

　また、図２（Ｂ）に示すように、撹乱音の各フォルマント成分を、入力音声信号のフォルマント成分に一致させる。例えば同図（Ｂ）において、撹乱音の第１フォルマント、第２フォルマントおよび第３フォルマントは、入力音声信号の第１フォルマント、第２フォルマントおよび第３フォルマントよりもそれぞれ中心周波数が低いため、高域側にシフトする処理を行う。また、第２フォルマントについては、入力音声信号のレベルよりも高いレベルを有するため、レベルを下げる処理を行う。さらに、第３フォルマントについては、入力音声信号のレベルよりも低いレベルを有するため、レベルを上げる処理を行うとともに、入力音声信号のレベルよりも帯域幅が広いため、帯域幅を狭くする処理も行う。また、第４フォルマントについては低域側にシフトする処理を行うとともに、帯域幅を広くする処理も行う。なお、同図の例では第１フォルマント乃至第４フォルマントについて加工する処理を示したが、加工するフォルマントの次数はこの例に限るものではない。例えば、さらに高次のフォルマント成分を加工してもよい。

　なお、音声特徴量にスペクトルの傾斜度等の他のパラメータが含まれる場合には、これらのパラメータに基づいてさらに撹乱音の音声データを加工する。

　マスカ音生成部１４は、以上のようにして撹乱音を加工することで出力用マスカ音を生成する。生成された出力用マスカ音は、Ｄ／Ａ変換部１６でアナログ音声信号に変換され、スピーカ１７から放音され、聴取者３に聴取される。

　このようにしてスピーカ１７から放音されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者２の音声と近似した撹乱音が含まれているため、聴取者３は、話者２の音声とともに同じような声質や音高で意味の理解できない音声を聞くことになり、実際の話者２の発言内容を抽出して理解することが困難となる。

　また、このような撹乱音は、声質や音高が話者２の音声に近似しているため、低い音量であってもマスク効果が高く、聴取者３がマスカ音を聞くことによる不快感を低減することができる。さらに、上述のように、背景音（川のせせらぎ等）や演出音（鳥の鳴き声等）の音声データをデータベース１５に記憶しておき、出力用マスカ音に含めて出力することにより、より不快感を低減することも可能である。

　さらに、上記のマスカ音は、入力音声信号に基づいて新たに生成された音声であるため、入力音声信号が増幅して出力されたものではなく、スピーカから放音された音声がマイクに入力され、再び放音されるようなループ系が形成されることはなく、ハウリングが発生するおそれはない。したがって、本実施形態に示すサウンドマスキングシステムでは、マイクやスピーカの配置関係を考慮する必要なく、どの様な設置環境においても安定したマスカ音を出力することができる。

　また、音声解析部１３において抽出されるフォルマント等の音声特徴量は、人の発話音声に特有の物理パラメータであるため、人の発話音声以外の音から抽出することはほとんどない。したがって、装置周囲で発生する環境音（例えばエアコンのノイズ等）によってマスカ音が変化する恐れは低く、安定して適切なマスカ音を生成することができる。

　なお、上記実施形態においては、データベース１５に１種類の撹乱音を記憶しておく例を示したが、フォルマントやピッチの異なる複数種類の撹乱音をデータベース１５に記憶しておくことも可能である。この場合、入力音声信号の音声特徴量に最も近い撹乱音を選択して読み出し、加工して（あるいは加工しないで）出力用マスカ音を生成することにより、演算量を抑えることもできる。

　また、上記実施形態においては、撹乱音が常に出力される例として説明したが、撹乱音は常に出力される必要はない。例えば話者２が発話していない状態においては撹乱音を出力する必要がないため、音声解析部１３において音声特徴量を抽出できなかったときは撹乱音の出力を停止してもよい。

　また、マスカ音は、連続的に発生する音声と、断続的に発生する音声とを組み合わせてもよい。例えば、話者２が発話していない状態で、音声解析部１３において音声特徴量を抽出できなかったときは、データベース１５に記憶されている撹乱音をそのまま出力用マスカ音として出力し、話者２が発話し、音声解析部１３において音声特徴量を抽出できたときには、撹乱音を加工した出力用マスカ音を出力する。これにより、聴取者３がマスカ音に慣れ、実際の話者２の音声を聞き分けてしまう状態（いわゆるカクテルパーティ効果）を防止することができる。

　また、連続的に発生する音声として撹乱音と小川のせせらぎ等の背景音とを用い、断続的に発生する音声として鳥の鳴き声等の演出音を用いてもよい。例えば、撹乱音と背景音については連続的に出力し、演出音については所定のタイミングで断続的に出力する。このとき、背景音については、所定時間分の録音データ（実際の小川のせせらぎを録音したもの等）を繰り返し連続再生し、演出音については、同じく所定時間分の録音データ（実際の鳥の鳴き声を録音したもの等）をランダムあるいは一定時間毎（環境音の繰り返しタイミングに合わせる等）に再生する。この場合も、聴取者３に聞こえる音が常時同じ音にならないため、カクテルパーティ効果を防止することができる。さらに、連続的に発生する音声と断続的に発生する音声の組み合わせは、以下のような応用例も可能である。

　図５は、撹乱音と背景音、演出音の対応付けテーブルを示した図である。このテーブルは、データベース１５に記憶され、マスカ音生成部１４が読み出すものである。同図の例では、フォルマントやピッチの異なる複数種類の撹乱音をデータベース１５に記憶しておく例として説明する。

　図５（Ａ）に示すように、対応付けテーブルには、データベース１５に記憶されている各撹乱音と背景音、演出音の組み合わせが記載されている。例えば、撹乱音Ａには、背景音Ａ（例えば小川のせせらぎとする。）、演出音Ａ（例えば鳥の鳴き声とする。）が対応づけられている。各撹乱音には、マスク効果が高い背景音や演出音が対応づけられていることが望ましい。

　この場合、マスカ音生成部１４は、入力音声信号の音声特徴量に最も近い撹乱音（例えば撹乱音Ａ）を選択して読み出すとともに、さらにテーブルを参照して、対応づけられている背景音（例えば背景音Ａ）と演出音（例えば演出音Ａ）を選択して読み出す。これにより、入力音声信号に適した撹乱音と背景音が連続的に再生され、演出音が断続的に再生される。

　さらに、図５（Ｂ）に示すように、各撹乱音に対応付けられる背景音や演出音は１つに限るものではない。例えば、図５（Ｂ）のように、撹乱音Ａについては、背景音Ａおよび演出音Ａの組み合わせの他にも、背景音Ａおよび演出音Ｂの組み合わせや、背景音Ｂおよび演出音Ｂの組み合わせが対応付けテーブルに記載されている。撹乱音Ｂについては、背景音Ｂおよび演出音Ｂの組み合わせの他にも、背景音Ｃおよび演出音Ｃの組み合わせが対応付けテーブルに記載されている。

　この場合、音声処理装置１にユーザ操作用のインタフェースを設け、マスカ音生成部１４は、ユーザによる手動選択を受け付け、受け付けた背景音と演出音の組み合わせを選択して読み出してもよい。また、時間帯、季節、場所等によって自動選択されてもよい。例えば午前中は背景音Ａおよび演出音Ａ（川のせせらぎ＋鳥の鳴き声）が選択される場合や、夏の午後は背景音Ａおよび演出音Ｂ（川のせせらぎ＋セミの鳴き声）が選択される場合、海に近い場所では背景音Ｂ（さざ波音等）が選択される場合、等である。この場合、音の変化がさらに多様化するため、より適切にカクテルパーティ効果を防止することができる。

　また、図５（Ｃ）に示すように、各音の音量比についてもテーブルに記載されていてもよい。なお、図５（Ｃ）に示す音量比の数値は、相対的な値を示したものであり、実際の音量値（ｄＢ）を表したものではない。

　例えば、撹乱音Ａについては、音量１００に対し、背景音Ａが音量５０、演出音Ａが音量１０の音量比として記載されている。したがって、マスカ音生成部１４は、背景音Ａを撹乱音Ａの半分程度の音量とし、演出音Ａを撹乱音Ａの１／１０程度の音量としたマスカ音を出力する。また、図５（Ｃ）に示す撹乱音Ａ、背景音Ｂ、演出音Ｂの組み合わせのように、演出音の音量を０とし、演出音を出力しない、という態様も可能である。このように、入力音声信号によって発生する背景音や演出音が変化する態様に加え、音量も変化させることができる。

　また、上述のように、音声処理装置１にユーザ操作用のインタフェースを設ける場合、ユーザから組み合わせの内容や音量比の指定を受け付け、テーブルの記載内容を変更できるようにしてもよい。

　さらに、本実施形態に示した音声処理装置は、以下のような変形例も可能である。

　図３は、変形例１に係る音声処理装置の構成を示すブロック図である。なお、図３においては、図１（Ａ）に示した音声処理装置１と同一の構成については、同一の符号を付し、その説明を省略する。

　図３に示す変形例１に係る音声処理装置１は、図１（Ａ）に示した音声処理装置１と同様の構成に加えて、削減部１８を備えている。なお、図１（Ｂ）に示す音声処理装置１’のように、マイク１１およびスピーカ１７が図３の音声処理装置１と一体に設けられた構成であってもよい。また、マイク１１およびスピーカ１７の一方のみが図３の音声処理装置１と一体に設けられていてもよい。

　削減部１８は、いわゆるエコーキャンセラであり、マイク１１から入力された音声信号（Ａ／Ｄ変換後の信号）のエコー成分を削減する処理を行う。これにより、音声解析部１３には、装置周囲で発生する音声（話者の音声）だけが入力されることになり、音声特徴量の抽出精度を向上することができる。

　削減部１８のエコーキャンセルの態様はどの様な態様であってもよいが、例えばスピーカ１７からマイク１１に至る音響伝達系の伝達特性を模擬した適応型フィルタを用いて出力用マスカ音をフィルタ処理し、マイク１１から入力される信号から減算処理することでエコー成分を削減する。

　ただし、本実施形態では、上述したように、入力音声信号がループしてマイクに入力される系が存在しないため、音声解析部１３において、単に出力用マスカ音の成分を除去（無視）して音声特徴量を抽出すればよい。この場合、適応型フィルタは不要である。

　図４は、変形例２に係る音声処理装置の構成を示すブロック図である。同図においても、図１（Ａ）に示した音声処理装置と同一の構成については、同一の符号を付し、その説明を省略する。

　図４に示す音声処理装置１は、バッファ１９を備えている。バッファ１９は、音声解析部１３からマスカ音生成部１４に入力された音声特徴量を所定時間保持する解析結果保持部に相当する。なお、図１（Ｂ）に示す音声処理装置１’のように、マイク１１およびスピーカ１７が図４の音声処理装置１と一体に設けられた構成であってもよい。また、マイク１１およびスピーカ１７の一方のみが図１４の音声処理装置１と一体に設けられていてもよい。

　マスカ音生成部１４は、音声解析部１３から入力される最新の音声特徴量と、バッファ１９に保持されている過去の音声特徴量とを比較し、異なる音声特徴量が算出された場合には、最新の音声特徴量に基づく出力用マスカ音の生成処理を停止し、バッファ１９に保持されている過去の音声特徴量に基づいて出力用マスカ音を生成する。この場合、突発的に話者２以外の発話音声が入力された場合であっても、出力用マスカ音が大きく変化しない（誤った音声特徴量が出力用マスク音に反映されない）ため、マスキング効果を安定させることができる。

　なお、実際の話者が変わって異なる音声特徴量が抽出された場合、所定時間が経過した後も新たな話者の音声特徴量が抽出されるため、バッファ１９に保持される音声特徴量が新たな話者の音声特徴量に更新され、再び音声解析部１３から入力される最新の音声特徴量と、バッファ１９に保持されている過去の音声特徴量と、が一致することになる。そのため、所定時間経過後は、適切なマスカ音を生成することができる。

　以下に、本発明の概要を記載する。
　この発明の音声処理装置は、音声信号を入力する入力部と、入力した音声信号を解析する解析部と、汎用マスカ音を記憶する記憶部と、マスカ音生成部と、マスカ音生成部が生成した出力用マスカ音を出力する出力部と、を備えている。

　汎用マスカ音とは、どの様な話者の音声であってもある程度マスク効果が期待できるものである。例えば、男性および女性を含む複数人の音声を録音した音声データであり、語彙的には何ら意味をなさない（会話内容が理解できない）撹乱音が含まれている。聴取者は、このような撹乱音を話者の音声と同時に聞くことで、話者の発言内容を理解することが困難となる。ただし、本人の音声を加工して撹乱音として出力する場合に比べ、マスク効果は低くなる。

　そこで、本発明のマスカ音生成部は、解析部の解析結果、および前記記憶部に記憶されている汎用マスカ音に基づいて、出力用マスカ音を生成する。例えば、解析部は、入力した音声信号に含まれている話者の音声特徴量（ピッチやフォルマント等）を抽出し、マスカ音生成部は、抽出した話者の音声特徴量に基づいて記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成する。具体的には、記憶部に記憶されている汎用マスカ音のピッチを入力音声信号のピッチに変換したり、汎用マスカ音のフォルマントを入力音声信号のフォルマントに変換（中心周波数を合わせる、帯域幅を合わせる、等）したりする。これにより、出力部から実際の話者の声質に近似した声質の撹乱音が出力されるため、汎用マスカ音よりもマスク効果が高くなり、話者の音声を適切にマスクすることができる。また、入力された話者の音声は、解析に用いられるだけであり、話者の音声が増幅等されて出力されることはなく、出力された音声が再び収音されて増幅されることがない（ループ系が形成されない）ため、ハウリングの発生を防止することができる。

　さらに、入力した音声信号から出力用マスカ音を削減する削減部を備えると、出力された出力用マスカ音が再び収音された場合であっても、話者の音声だけを適切に解析することができる。

　また、解析結果を所定時間保持する解析結果保持部を備え、マスカ音生成部は、解析部の解析結果と、解析結果保持部に保持されている解析結果を比較し、異なる解析結果が算出された場合に解析部の解析結果に基づく出力用マスカ音の生成を停止してもよい。

　この場合、話者の音声とは異なる音声が突発的に入力された場合であっても、出力用マスカ音が大きく変化しない（誤った解析結果が出力用マスク音に反映されない）ため、マスキング効果を安定させることができる。

本出願は、2010年10月21日出願の日本特許出願（特願2010－236019）に基づくものであり、その内容はここに参照として取り込まれる。

　本発明によれば、ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置及び音声処理方法を提供することができる。

１…音声処理装置
２…話者
３…聴取者
１１…マイク
１２…Ａ／Ｄ変換部
１３…音声解析部
１４…マスカ音生成部
１５…データベース
１７…スピーカ

Claims

　音声信号を入力する入力部と、
　入力した音声信号を解析する解析部と、
　汎用マスカ音を記憶する記憶部と、
　前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成部と、
　前記出力用マスカ音を出力する出力部と、
　を備えた音声処理装置。
　前記解析部は、前記入力した音声信号の音声特徴量を抽出し、
　前記マスカ音生成部は、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する請求項１に記載の音声処理装置。
　前記入力した音声信号から前記出力用マスカ音を削減する削減部をさらに備えた請求項１または請求項２に記載の音声処理装置。
　前記解析結果を所定時間保持する解析結果保持部をさらに備え、
　前記マスカ音生成部は、前記解析部の解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析部の解析結果に基づく前記出力用マスカ音の生成を停止する請求項１乃至請求項３のいずれか一項に記載の音声処理装置。
　前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる請求項１乃至請求項４のいずれか一項に記載の音声処理装置。
　汎用マスカ音を記憶する記憶部を備えた音声処理装置の音声処理方法であって、
　音声信号を入力する入力ステップと、
　入力した音声信号を解析する解析ステップと、
　前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成ステップと、
　前記出力用マスカ音を出力する出力ステップと、
　を備えた音声処理方法。
　前記解析ステップでは、前記入力した音声信号の音声特徴量を抽出し、
　前記マスカ音生成ステップでは、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する請求項６に記載の音声処理方法。
　前記入力した音声信号から前記出力用マスカ音を削減する削減ステップをさらに備えた請求項６または請求項７に記載の音声処理方法。
　前記音声処理装置は、前記解析結果を所定時間保持する解析結果保持部をさらに備え、
　前記音声処理方法は、
　前記マスカ音生成ステップでは、前記解析ステップの解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析ステップの解析結果に基づく前記出力用マスカ音の生成を停止する請求項６乃至請求項８のいずれか一項に記載の音声処理方法。
　前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる請求項６乃至請求項９のいずれか一項に記載の音声処理方法。