JP4867804B2

JP4867804B2 - 音声認識装置及び会議システム

Info

Publication number: JP4867804B2
Application number: JP2007155036A
Authority: JP
Inventors: 紀行畑; 訓史鵜飼; 利晃石橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-06-12
Filing date: 2007-06-12
Publication date: 2012-02-01
Anticipated expiration: 2027-06-12
Also published as: JP2008309856A

Description

本発明は、複数発言者の音声を認識する音声認識装置及び会議システムに関する。

会議の議事録を自動的に作成する装置が種々提案されている。例えば、特許文献１の装置においては、複数の発言者毎に識別データを入力するようにし、入力された識別データによって誰が発言しているのか弁別している。そして、弁別した発言者毎に事前に登録した発声データを用いて音声認識を行っている。この場合、発言者毎に登録した発声データを用いることにより、音声認識の精度を上げるようにしている。
特開２０００−３５２９９５号公報

しかしながら、特許文献１の装置では、発言者を弁別するため識別情報を入力しなければならず、このために、識別情報を記憶した識別カードを持参したり、あるいは、マイクスイッチを切り替えることによって発言者を識別させたりという処理が必要になり会議参加者にとって煩雑となる欠点があった。また、発言は複数人が同時に発言することもあり得るが、上述の装置では同時発言に対処することができなかった。

本発明は、このような事情に鑑みてなされたものであり、会議参加者に負担をかけずに音声認識精度を向上させることができるとともに、複数音声が同時に発音された場合においても音声認識や議事録作成を良好に行うことができる音声認識装置及び会議システムを提供する。

上述した課題を解決するため、本発明に係る音声認識装置は、複数位置からの収音が可能に構成され、収音した位置ごとに音を音声信号に変換してそれぞれ出力する収音手段と、前記収音手段が出力した各音声信号のパワーが所定値を超えたか否かを検知する検知手段と、前記検知手段によって前記パワーが所定値を超えたことを検知された音声信号に対し、当該音声信号と収音位置が異なる他の音声信号を用いて、前記音声信号と前記他の音声信号とが相互に独立であるか否かを判断し、これらが相互に独立であると判断した場合には当該音声信号を音声認識用信号として出力し、相互に独立でないと判断した場合には当該音声信号に含まれる１つの音声を分離して、音声認識用信号として出力する前処理手段と、前記前処理手段が出力した音声認識用信号から特徴量を抽出する特徴量抽出手段と、音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、発言者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、前記辞書選択手段が選択した辞書を用いて、前記前処理手段が出力する音声認識用信号に対して音声認識処理を行う音声認識手段とを具備することを特徴とする。

また、本発明に係る会議システムは、上述の音声認識装置と、前記前処理手段が出力する音声信号から音声の開始時刻を示す開始時刻情報と当該音声の終了時刻を示す終了時刻情報を検出する検出手段と、前記検出手段が検出した前記開始時刻情報、前記終了時刻情報および前記特徴量抽出手段が当該音声認識用信号から抽出した特徴量および前記音声認識手段が当該音声信号に対して音声認識処理を行った処理結果を対応付けて記憶する処理結果記憶手段を具備することを特徴とする。

好ましくは、前記処理結果記憶手段が記憶した処理結果を前記特徴量ごとに予め定められた態様で表示手段に表示させる表示制御手段を有し、前記表示制御手段は前記各処理結果について、それぞれの前記開始時刻情報と前記終了時刻情報が示す時間帯が重複しているか否かを判定し、重複している場合には、重複していない部分とは異なる態様で表示させるとよい。

本発明によれば、会議参加者に負担をかけずに音声認識精度を向上させることができるとともに、複数音声が同時に発音された場合においても音声認識や議事録作成を行うことができる。

次に、この発明を実施するための最良の形態を説明する。
（Ａ）構成
図１は音声認識装置１の全体構成を示すブロック図である。音声認識装置１は、制御部１１、収音部１２、記憶部１３、操作部１４、表示部１５、外部機器ＩＦ１６を備えており、これらはバス１９で接続されている。制御部１１は、例えばＣＰＵ（Central Processing Unit）などの演算装置とＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などの各種メモリを備えている。演算装置がこれらのメモリや記憶部に記憶されているコンピュータプログラムを読み出して実行することにより、音声認識装置１の各部を制御する。また、制御部１１にはタイマが内蔵されている。このタイマは水晶振動子を有する発振回路（図示略）を備えており、その発振回路から出力される発信信号を適宜分周してタイミング制御用のクロックを生成し、生成したクロックに基づいて時間を計測する。

収音部１２には、複数のマイクロフォンＭ、アンプ、アナログ／デジタル（Ａ／Ｄ）コンバータ、各マイクロフォンの接続端子が備えられている。本実施形態において発言者は最大８名を想定しており、これらの各参加者に対して複数のマイクロフォンＭ（Ｍ１〜Ｍ８）が配置されている。そして、マイクロフォンＭ（Ｍ１〜Ｍ８）は各発言者の発声する音声を収音し、音声信号Ｓ（Ｓ１〜Ｓ８）に変換して出力する。制御部１１は収音部１２におけるマイクロフォンＭの接続端子を監視することで音声信号Ｓに対応するマイクロフォンＭを特定する。

操作部１４は各種のキーを備えており、押下されたキーに対応した信号を制御部１１へ出力する。表示部１５は、ＣＲＴ（Cathode Ray Tube）またはＬＣＤ（Liquid Crystal Display）等の表示装置を備えており、制御部１１の制御下で文字や画像を表示する。外部機器ＩＦ１６はＵＳＢインタフェースであり、文字や画像を印刷させるプリンタ２に接続されている。なお、外部機器ＩＦ１６は無線通信回路であってもよい。

記憶部１３は、例えばハードディスクなどの大容量の記憶手段であり、基本ＯＳや、コンピュータプログラムなどのほか、音声認識処理に用いられる標準辞書１３ａを記憶している。ここで標準辞書１３ａは予め定められた言語に係る単語辞書や構文情報が記憶された辞書であり、本実施形態においては日本語の標準音声を認識できる辞書である。また、記憶部１３には、音声認識のための辞書Ｄを少なくとも発言者と同じ数だけ記憶できる辞書群１３ｂの記憶領域と、発言者毎の音声の特徴量Ｃ（Ｃ１〜Ｃ８）と辞書Ｄ（Ｄ１〜Ｄ８）の対応関係を記述した特徴量・辞書テーブル１３ｃの記憶領域が予め定められている。

ここで、特徴量Ｃとは発言者毎に固有の音声の特徴を示したパラメータ群であり、これによれば、発声された語句に依存せずに所定の確率で一意に当該音声の発言者を特定できる。具体的には、特徴量Ｃとは、例えば長時間平均スペクトルや、ケプストラムベクトルの時系列を各発言者固有の多変量線形回帰モデルで表したものなどである。したがって、一つの数値ではなく、数値の集合であるが、説明の便宜のため特徴量Ｃと記載する。図２は特徴量・辞書テーブル１３ｃの一例を示す図である。図に示すように、辞書群１３ｂの各辞書Ｄは特徴量Ｃに対応付けられている。

次に、実施形態の動作を説明する。
（Ｂ）動作
利用者が操作部１４の図示しないスイッチを押下して収音開始の指示をすると、制御部１１はこの指示を受けて、収音部１２を収音可能にする。これにより、収音部１２の複数のマイクロフォンＭ、Ｍ…は収音された音を音声信号Ｓ（Ｓ１〜Ｓ８）に変換して出力する。制御部１１は、各音声信号Ｓのパワー（音声振幅の自乗）を常時検知して、当該音声信号Ｓのパワーが所定のパワー閾値を超えているか否かを監視する。そして、パワー閾値を超えた音声信号Ｓに対しては、発言が開始されたと判定し、以後の処理を行う。

一般に会議においては一人ずつ発言するが、場合によっては２以上の参加者の発言が重なることもある。また、マイクロフォンＭは各参加者に対応して用意されているので、各参加者の音声はそれぞれ対応するマイクロフォンＭによって収音される。この場合、ひとつのマイクロフォンＭの出力ラインには、対応する参加者の音声だけが収音されるようにマイクロフォン位置、座席距離などが設定されているが、参加者が上体や顔の位置を移動させると隣接するマイクロフォンＭにその参加者の音声が混入することもある。また、参加者が席を移動して発言した場合も同様の状態が生じる。
そこで、以下の説明においてはマイクロフォンＭの収音状態に応じて場合分けをして説明を行う。なお、以下においては、会議参加者が８名であると想定する。

（１）一人の参加者だけが発言している場合。
一人の参加者だけが発音している状態とは、マイクロフォンＭ１〜Ｍ８のいずれか一つが出力する音声信号Ｓのパワーがパワー閾値を上回っている状態である。ここでは、音声信号Ｓ２のパワーのみが所定のパワー閾値を超えた場合を挙げて説明する。
制御部１１は音声信号Ｓ２のパワーが上述のパワー閾値を超えたことを検出すると、その時刻にタイマから時刻情報を取得する。この時刻がｔ０であれば、時刻ｔ０を示す時刻情報ｔ０を記憶部１３の所定のエリアに書き込む。また、時刻情報ｔ０に関連させて、上記所定エリアに音声信号Ｓ２の記憶を開始させる。次に制御部１１は音声信号Ｓ２に対して２以上の音声が混入しているか否かを判定して分離処理を行うが（この判定・分離処理については後述する）、ここでは一つの音声だけであるから分離処理は行わない。

次に制御部１１は音声信号Ｓ２のパワーが上述のパワー閾値を下回ったことを検出するとその時刻にタイマから時刻情報を取得する。この時刻がｔｚであれば、時刻ｔｚを示す時刻情報ｔｚを記憶部１３の所定のエリアに書き込むとともに、音声信号Ｓ２の記憶を終了させ、音声信号Ｓ２のうち時刻ｔ０から時刻ｔｚまでを音声認識の対象となる音声信号の部分（以下、音声区間という）として検出する。次に制御部１１はこの音声区間において記憶された音声信号Ｓ２から特徴量を抽出する。このときに得られた特徴量をＣ０とすると、制御部１１は特徴量・辞書テーブル１３ｃに記述された特徴量Ｃ（Ｃ１〜Ｃ８）と上述の特徴量Ｃ０との類似度（０〜１で表される）を算出し、特徴量Ｃ０と最も類似している特徴量を決定する。ここでは特徴量Ｃ２が最も特徴量Ｃ０に類似していたとする。この結果、制御部１１は特徴量Ｃ２を最も類似した特徴量として決定し、さらに決定した特徴量Ｃ２に対応する辞書Ｄ２を辞書群１３ｂから選択する（図２参照）。なお、上述のような特徴量Ｃの類似度を算出する方法は、集合間の類似度を求める算出方法であれば何でもよい。

次に、制御部１１は、選択した辞書Ｄ２と標準辞書１３ａを読み出し、音声信号Ｓ２の音声認識処理を行う。ここで、図３は、制御部１１によって実行される音声認識プロセスを表したブロック図である。図に示すように、音声信号Ｓ２が入力されると、制御部１１は前述の通り、音声区間を検出し（音声区間検出）、音声の特徴を分析すべく、検出された音声区間のスペクトルを所定の時間（例えば３０ｍｓｅｃ）毎に分割し（音声特徴分析）、辞書Ｄ２に含まれる音素・標準スペクトル対応パターンと照合することによって、音声区間に応じた音素類似度行列を生成する（音素認識）。そして、制御部１１は、この音素類似度行列と辞書Ｄ２に記述された各単語の音素標準パターンとをＤＰ（Dynamic Programming：動的計画法）マッチングアルゴリズムに従って順次比較して、音声区間に対応した単語を認識する（単語認識）。そして、認識された単語の前後関係等を、辞書に含まれる構文情報を参照して解析することにより、音声信号Ｓ２に含まれた発言内容を示す文章を生成する（文章認識）。これら音素認識、単語認識、文章認識の各プロセスにおいて制御部１１は辞書Ｄ２を用いる。また、辞書Ｄ２に記述されていない要素については標準辞書１３ａを用いるとともに辞書Ｄ２にその要素を追加記憶する。さらに、辞書Ｄ２には音声信号Ｓ２に関し、標準スペクトルに対するずれや発音の長さ、選択された単語の出現確率（尤度）などの発言者に固有な特徴を記憶する。

以上の処理において、文章認識された結果は、発言内容を示す文字コードからなるデータ列（以下、発言データという）として記憶部１３に設定されている議事録エリアに記憶されてゆく。この場合、議事録エリアに記憶される内容は、発言開始時刻である時刻情報ｔ０と発言終了時刻である時刻情報ｔｚと音声信号Ｓ２の発言者を識別するためのデータ（マイクロフォンを識別するデータなど）と、音声信号Ｓ２から得られた発言データの組みである。ここで、音声信号Ｓ２を識別するためのデータは発言者を特定することができるデータとなるから、音声信号Ｓ２についての議事録が生成されてゆくことになる。以上は音声信号Ｓ２の処理を例に取った説明であったが、制御部１１はすべてのマイクロフォンＭ１〜Ｍ８に対して上記の処理を行うから、会議参加者のすべての発言について、発言者、発言時刻（開始及び終了の時刻）、発言内容が自動的に記憶されてゆく。
なお、発言者を識別するためのデータとして、選択された辞書を特定するデータを用いたり、あるいは、発言者とマイクロフォンとの対応関係や、発言者と辞書の対応関係を記憶したテーブルを用意し、このテーブルを用いて発言者を特定し、特定した発言者を識別するデータを用いたりすることもできる。

（２）複数の参加者の発言が重なった場合。
次に、複数の参加者の発言が重なる場合について説明する。発音が重なる態様としては、一人の発言が終了する前に他の参加者が発言を開始した場合や、複数の参加者が同時に意見を述べる場合などがある。ここでは一例として、音声信号Ｓ１のパワーと音声信号Ｓ２のパワーが前後して所定のパワー閾値を超えた場合を挙げて説明する。制御部１１はすべての音声信号Ｓ１〜Ｓ８のパワーを常時監視しているから、音声信号Ｓ１のパワーが上述のパワー閾値を超えると、その時刻を示す時刻情報ｔ０−１を記憶部に記憶させるとともに音声信号Ｓ１の記憶を開始する。そして、音声信号Ｓ１パワーが上述のパワー閾値を下回ると、その時刻を示す時刻情報ｔｚ−１を記憶部に記憶させるとともに音声信号Ｓ１の記憶を終了し、時刻ｔ０−１から時刻ｔｚ−１までを音声区間とする。次に、この音声区間において記憶された音声信号Ｓ１について上述のような音声認識処理を行う。これと並行して、音声信号Ｓ２がパワー閾値を超えた時刻情報ｔ０−２からパワー閾値を下回った時刻情報ｔｚ−２までの時間は、音声信号Ｓ１の処理に加えて音声信号Ｓ２についての処理を行う。
以上のようにして、複数の参加者の発言が重なった場合には、これらの音声信号についての処理が並行して行われる。

この場合、制御部１１は音声信号Ｓ１から特徴量Ｃ０−１を、音声信号Ｓ２から特徴量Ｃ０−２を抽出し、上述と同様、特徴量・辞書テーブル１３ｃに記述された特徴量Ｃ（Ｃ１〜Ｃ８）を参照して、抽出したそれぞれの特徴量との類似度を比較して、最も類似する特徴量Ｃを決定する。ここでは、特徴量Ｃ０−１に最も類似するとして特徴量Ｃ１を決定し、特徴量Ｃ０−２に最も類似するとして特徴量Ｃ２を決定したとすると、制御部１１は決定した特徴量Ｃ１及び特徴量Ｃ２のそれぞれに対応する辞書Ｄ１及び辞書Ｄ２を辞書群１３ｂから選択する。そして、制御部１１は辞書Ｄ１を使用して音声信号Ｓ１を、辞書Ｄ２を使用して音声信号Ｓ２を、それぞれ音声認識し、また、辞書Ｄ１及び辞書Ｄ２に上述と同様、発言者に固有の特徴を記憶する。
このようにして音声信号Ｓ１、Ｓ２は音声認識されてゆき、各音声信号Ｓ１、Ｓ２に対応する発言データが生成され、発言開始時刻、発言終了時刻、発言者の識別（選択された辞書を特定するデータ、マイクロフォンの識別など）とともに記憶部１３に記憶されてゆく。

図４は発言データの表示の一例を示した図である。上述の通り音声認識により認識した発言データには発言者の識別データと発言開始時刻、発言終了時刻がともに記憶されている。ここでは発言者の識別データとして選択された辞書を特定するデータを用いている。発言データはこの記憶を参照することで辞書Ｄ毎に区別して表示される。図によると、発言者の発言内容に先行して当該発言者を明示する記号が、例えば「Ｄ１：」のように発言者の音声の辞書Ｄ毎に付される。

また、発言データには発言開始の時刻を示す時刻情報ｔ０及び発言終了の時刻を示す時刻情報ｔｚが対になって記憶されており、この記憶を参照することで、発言データの発言時刻が特定され、同時に発言している発言者の数に応じた表示レイアウトで発言データが表示される。図４の冒頭部分は音声が単一の例を示しており、単一の段で文章を表示することにより、音声が単一であることを表している。後半部分に破線で囲った「同時発言部分」では、中央の実線によって段が左右に分割されており、それぞれの段に「Ｄ２」と「Ｄ３」の発言内容が記述されている。これにより、「Ｄ２」と「Ｄ３」が同時に発言をしていることを表している。なお、上述の記号に替えて文字列の表示色によって辞書Ｄを示しても良い。また、図５は発言データの表示について別の一例を示した図である。図５にあるように、同時発言部分を中括弧で両端を閉じられた複数行で表してもよい。

以上、記憶部１３に同時に記憶する音声信号Ｓが２つである場合を例に挙げて説明をしたが、この数が３以上である場合も上述と同様である。

（３）ひとつの音声信号Ｓの中に複数の発言者の音声が混合している場合
上述した（１）、（２）で説明した動作において音声信号Ｓに、二以上の発言者の音声が含まれている場合がある。これは前述したように発言者が本来の位置から移動したり、あるいは大きな声を出したりして、他人が話しているマイクロフォンＭに音声が混入した場合などに生じる。

本実施形態においては複数のマイクロフォンＭ（Ｍ１〜Ｍ８）は８名の発言者毎に配置されているので、通常は同時に複数の発言者が発声したとしても、各マイクロフォンＭが収音し出力する音声信号Ｓには単一の発言者の音声となる。ところが、発言者が席を動いたり、大きな声で発声したりすると各マイクロフォンＭは必ずしも予め対応付けられた発言者の音声を収音するとは限らず、２名以上の混合された音声を収録する場合がある。このような場合には制御部１１は以下の動作により音声信号Ｓを分離する。ここでは、一例として、音声信号Ｓ１及び音声信号Ｓ２のパワーが所定のパワー閾値を超えた場合を挙げて説明する。

制御部１１は音声信号Ｓ１及び音声信号Ｓ２のパワーが上述のパワー閾値を超えたことを検出すると、音声信号Ｓ１及び音声信号Ｓ２をそれぞれの開始時刻ｔ０、終了時刻ｔｚとともに記憶部１３の所定のエリアに記憶する。そして、各音声信号は所定時間Δｔ（例えば３０ｍｓｅｃ）ごとに分割され、それぞれについて短時間フーリエ変換され、パワースペクトルとして記憶される。ここで、周波数をｆとすると、音声信号Ｓ１の時刻ｔから時刻（ｔ＋Δｔ）までにおけるパワースペクトルをＸ１（ｆ，ｔ）と表し、音声信号Ｓ２の時刻ｔから時刻（ｔ＋Δｔ）までにおけるパワースペクトルを同様にＸ２（ｆ，ｔ）と表す。なお、本実施形態においては、音声信号とパワースペクトルの双方を記憶部１３に記憶するが、パワースペクトルのみを記憶してもよい。

次に、制御部１１はパワースペクトルＸ１（ｆ，ｔ），Ｘ２（ｆ，ｔ）の双方に分離フィルタの行列を適用してそれぞれのパワースペクトルから出力信号のパワースペクトルを得る。図６はこの分離フィルタの行列を適用した音声分離処理の概略を示す図である。図６に示すＹ１（ｆ，ｔ）が音声信号Ｓ１に対応する出力信号のパワースペクトルで、Ｙ２（ｆ，ｔ）が音声信号Ｓ２に対応する出力信号のパワースペクトルである。また、Ｗｉ（ｆ）は更新ｉ回目の分離フィルタ行列の周波数領域表現である。ここで、これらの値の関係は次の数１によって表される。

そして、制御部１１は、この出力信号間の独立性を評価して、出力信号がより独立になるように分離フィルタの特性を更新する操作を繰り返す。ηは更新係数、φ（ｘ）は特定の非線形関数（例えば、ｔａｎｈ（ｘ））、Ｉは単位行列、Ｙ^ＨはＹのエルミート転置であるとして、分離フィルタの特性の更新式は、次の数２で表現される。

ここで、出力信号の独立性の判断について述べる。制御部１１は上述した数２で算出される分離フィルタの係数の変化量（前回値との差）が所定の閾値を下回ったか否かを判定し、当該閾値を上回っているときは、出力信号に独立性がないと判断して、分離フィルタの特性の更新を行う。このような更新を繰り返し行った結果、変化量が閾値を下回ったときは、出力信号に独立性があると判断して分離フィルタの特性の更新を停止する。
ところで、音声信号Ｓ１と音声信号Ｓ２が初めから相互に独立である場合には、最初の演算によって分離フィルタの係数の変化量が所定の閾値を下回ることになり、結局、分離フィルタによる処理はなされない。したがって、それぞれの最初の音声信号のパワースペクトルＸ１（ｆ，ｔ），Ｘ２（ｆ，ｔ）について音声認識処理を行う。

そして、制御部１１はこのパワースペクトルＹ１（ｆ，ｔ）及びＹ２（ｆ，ｔ）に基づいて、元信号の特徴量Ｃを抽出し、それぞれの辞書を選択する。そして、パワースペクトルＹ１（ｆ，ｔ）及びＹ２（ｆ，ｔ）を利用して、音素認識から音声認識処理を行う。

以上、記憶した音声信号Ｓに２つの音声が含まれている場合を例に挙げて説明したが、含まれている音声が３以上である場合も上述と同様の処理により、音声分離が可能である。

なお、本実施形態においては、音声分離処理として独立成分分析に基づく音声分離処理を用いたが、音声信号から元信号を得られる処理であれば、どのような処理を用いてもよい。

ここで、表示部１５に表示された文章を利用者が読み、文章に間違いが見つかったときに、利用者は操作部１４を介して文章を修正することができる。制御部１１は利用者からの修正入力を受け取ると、これに応じてＲＡＭに記憶された発言データを修正し、修正された発言データを表示部１５に表示させる。また、図３において、制御部１１は、修正前の語句を導出した音素認識、単語認識、文章認識の各プロセスに対し、修正後の語句を導出するような補正を加える（出力文章補正）。この補正とは例えば、音素類似度行列の生成に用いる重み関数に対し、上述の修正結果を反映して変更を加えることなどである。なお、このような修正機能が音声認識装置１に付与されていると、音声認識の精度を上げることができるが、修正機能を付与しなくてもよい。

また、利用者は操作部１４を介して上述の文章を印刷させることができる。制御部１１は利用者から印刷指示を受け取ると上述のＲＡＭに記憶された発言データを、外部機器ＩＦ１６を介してプリンタ２に送信する。プリンタ２は送信された発言データを文字列として紙に印刷する。

このようにして、各発言者の発言は特徴量Ｃ毎に音声信号Ｓとして記憶され、各音声信号Ｓは特徴量Ｃ毎に用意された辞書Ｄを用いて音声認識されて文章化され、外部機器ＩＦ１６を介してプリンタ２から印刷される。なお、印刷機能が会議システムに備わっていることで、利用者は会議内容を紙面で確認することができるが、会議システムに印刷機能が備わっていなくてもよい。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。

（変形例１）上述の実施形態における収音部１２に代えてマイクアレイを用いてもよい。マイクアレイとは複数のマイクロフォンＭ、Ｍ…が所定の間隔で配置され、それぞれのマイクロフォンＭが収音する音声のパワーと到達時間から収音方向に指向性を持たせることができる。したがって、上述の収音部１２における一つのマイクロフォンＭの機能を、マイクアレイの一つのビームで実現すればよい。

（変形例２）上述の実施形態は、音声信号Ｓ１及び音声信号Ｓ２のパワーが所定のパワー閾値を超えた場合であったが、単一の音声信号のパワーのみが所定のパワー閾値を超えた場合も、以下のようにすることで、音声分離を行うことが可能である。すなわち、パワー閾値を超えた音声信号と、これとは収音位置が異なる音量の小さい他の音声信号を、音声分離処理に利用する「他の音声信号」として少なくとも一つ選択し、これらの音声信号を合わせた複数の音声信号について上述の音声分離処理を行えばよい。

また、２以上の音声信号のパワーが所定のパワー閾値を超えた場合であっても、同様に、これらの音声信号以外の音量の小さい「他の音声信号」を選んでも良い。すわなち、音声分離処理に利用する「他の音声信号」としてはそのパワーが所定のパワー閾値を超えたか否かに関わらず、どれを選んでもよい。例えば、予め記憶部１３には、各音声信号Ｓとこれらを出力するマイクロフォンＭとの対応関係が、マイクロフォンＭの位置関係（すなわち、どのマイクロフォンＭが隣接しているか）と共に記憶されている構成とし、この記憶内容に基づいて、上記単一の音声信号が示す音と隣接して収音された音の音声信号を上述の「他の音声信号」として特定してもよい。

上述の「他の音声信号」は一つでもよいし複数でもよい。例えば、対象の音声信号を出力したマイクロフォンＭに最も近い位置にあるマイクロフォンＭが出力する音声信号のみを「他の音声信号」としてもよいし、位置が近い順に選択して５番目までのマイクロフォンＭが出力するそれぞれの音声信号を「他の音声信号」としてもよい。また、対象の音声信号を出力したマイクロフォンＭ以外のすべてのマイクロフォンＭが出力するそれぞれの音声信号を「他の音声信号」としてもよい。

（変形例３）上述の実施形態では、音声信号Ｓのパワーが上述のパワー閾値を下回ったことを検出すると、音声信号Ｓの記憶を終了したが、このときすぐに音声信号Ｓの記憶を終了することなく、パワー閾値を下回ってからの経過時間を計測して、その計測時間に応じて記憶制御を変えてもよい。

ここで、図７は変形例３に係る音声区間の検出動作を説明するための図である。図７（ａ）、図７（ｂ）の横軸はともに時間を示しており、図７（ａ）の縦軸は音声のパワーを、図７（ｂ）の縦軸は音声の振幅値を示している。制御部１１はＲＯＭにパワー閾値と第１基準時間及び第１基準時間よりも長い第２基準時間を記憶しており、入力された音声のパワーがパワー閾値を超えるか否かを常時監視する。そして、これが超えた時刻ｔ０を音声区間の開始時刻として処理を行う。次に、音声のパワーがパワー閾値を下回ると、制御部１１は制御部１１内のタイマを用いてその時刻ｔｚをＲＡＭ上に記憶するとともに、時刻ｔｚからの経過時間の計測を開始する。そして、当該経過時間が第１基準時間より長くなったら、前述の時刻ｔｚを当該音声区間の終了時刻とする。このようにして、音声区間の開始時と終了時を特定する。ここで、上述の経過時間が第１基準時間に至る前に音声のパワーが再びパワー閾値を超えた場合には、まだ音声区間が続いていると判断する。これは、発言中であっても発声区間の短い単語が含まれていた場合は、瞬断的な無音区間が生じるが、これを発音終了として誤判断しないようにするためである。

音声区間の開始時と終了時を特定すると、制御部１１は特定した音声区間の音声信号Ｓが何らかの単語を表していると推定して、辞書が選択済みであれば当該辞書を用いて、そうでなければ音声信号Ｓから抽出した特徴量Ｃによって辞書を選択し、選択した辞書を用いて音声認識を開始する。特定された音声区間の音声信号Ｓは、音声認識用の辞書によって単語に変換される。

さらに当該経過時間が上述の第２基準時間を超えたとき、発言が終了したものとして（発言検出）、制御部１１は音声信号Ｓの記憶を終了するとともに、辞書の選択を解除する（すなわち、辞書は選択済みでなくなる）。したがって、発言終了が検出された後に、再度音声のパワーがパワー閾値を超えたとき、制御部１１は入力された音声信号Ｓから改めて上述と同様に特徴量を抽出して辞書を選択する（辞書の再選択）。一方、当該経過時間が上述の第２基準時間を超える前に、再度音声のパワーがパワー閾値を超えたときには、制御部１１は辞書が選択済みであるとして、直前に使用した辞書を継続して使用する。あるマイクロフォンを用いた発言が終了した後に他の人が同じマイクロフォンを用いて発言することもあり、そのような場合には辞書選択を一旦クリアした方が妥当だからである。

例えば、図７において時刻ｔ４から時刻ｔ５までの音声のパワーはパワー閾値を下回っており、かつ、この時間は第１基準時間を超えているため音声区間としては認識されない。したがって、時刻ｔ４において音声区間が終了したものとして処理される。同様に、時刻ｔ１から時刻ｔ２まで、時刻ｔ３から時刻ｔ４まで、時刻ｔ５から時刻ｔ６までは音声区間として認識される。さらに、時刻ｔ２から時刻ｔ３までの時間は第２基準時間も超えているため、時刻ｔ２において発言は終了したものとして処理される。すなわち、時刻ｔ３において発言開始が検知されたとき、制御部１１は音声信号Ｓの特徴量に基づいて辞書を選択するが、時刻ｔ５においては、時刻ｔ３から時刻ｔ４までに使用した辞書を継続して使用する。

（変形例４）上述の実施形態では、発言者の識別データとして選択された辞書を特定するデータを用いて、記号「Ｄ１」等を表示部１５に表示したが、発言者の識別を表示するのはこのような記号に限られない。例えば、社員番号や個人名の文字列と辞書を特定するデータ（あるいは特徴量を特定するデータやマイクロフォンを特定するデータ）との対応関係を予め記憶部１３の所定の領域に記憶しておくことで、社員番号や個人名を表示させてもよい。

（変形例５）上述の実施形態において、音声認識の方法として、音素を単位としてＤＰマッチングを行う方法を用いたが、音声認識の方法はこれに限られない。例えば、隠れマルコフモデル（Hidden Markov Model）法やニューラルネットワークによる方法などであってもよい。

音声認識装置１の全体構成を示すブロック図である。特徴量・辞書テーブル１３ｃの一例を示す図である。制御部１１によって実行される音声認識プロセスを表したブロック図である。発言データの表示の一例を示した図である。発言データの表示について別の一例を示した図である。分離フィルタの行列を適用した音声分離処理の概略を示す図である。音声区間の検出動作を説明するための図である。

符号の説明

１…音声認識装置、２…プリンタ、１１…制御部、１２…収音部、１３…記憶部、１３ａ…標準辞書、１３ｂ…辞書群、１３ｃ…特徴量・辞書テーブル、１４…操作部、１５…表示部、１６…外部機器ＩＦ、１９…バス

Claims

複数位置からの収音が可能に構成され、収音した位置ごとに音を音声信号に変換してそれぞれ出力する収音手段と、
前記収音手段が出力した各音声信号のパワーが所定値を超えたか否かを検知する検知手段と、
前記検知手段によって前記パワーが所定値を超えたことを検知された音声信号に対し、当該音声信号と収音位置が異なる他の音声信号を用いて、前記音声信号と前記他の音声信号とが相互に独立であるか否かを判断し、これらが相互に独立であると判断した場合には当該音声信号を音声認識用信号として出力し、相互に独立でないと判断した場合には当該音声信号に含まれる１つの音声を分離して、音声認識用信号として出力する前処理手段と、
前記前処理手段が出力した音声認識用信号から特徴量を抽出する特徴量抽出手段と、
音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
発言者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、
前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、
前記辞書選択手段が選択した辞書を用いて、前記前処理手段が出力する音声認識用信号に対して音声認識処理を行う音声認識手段と
を具備することを特徴とする音声認識装置。
請求項１に記載の音声認識装置と、
前記前処理手段が出力する音声信号から音声の開始時刻を示す開始時刻情報と当該音声の終了時刻を示す終了時刻情報を検出する検出手段と、
前記検出手段が検出した前記開始時刻情報、前記終了時刻情報および前記特徴量抽出手段が当該音声認識用信号から抽出した特徴量および前記音声認識手段が当該音声信号に対して音声認識処理を行った処理結果を対応付けて記憶する処理結果記憶手段
を具備することを特徴とする会議システム。
前記処理結果記憶手段が記憶した処理結果を前記特徴量ごとに予め定められた態様で表示手段に表示させる表示制御手段を有し、
前記表示制御手段は前記各処理結果について、それぞれの前記開始時刻情報と前記終了時刻情報が示す時間帯が重複しているか否かを判定し、重複している場合には、重複していない部分とは異なる態様で表示させる
ことを特徴とする請求項２に記載の会議システム。