JP4867804B2 - 音声認識装置及び会議システム - Google Patents

音声認識装置及び会議システム Download PDF

Info

Publication number
JP4867804B2
JP4867804B2 JP2007155036A JP2007155036A JP4867804B2 JP 4867804 B2 JP4867804 B2 JP 4867804B2 JP 2007155036 A JP2007155036 A JP 2007155036A JP 2007155036 A JP2007155036 A JP 2007155036A JP 4867804 B2 JP4867804 B2 JP 4867804B2
Authority
JP
Japan
Prior art keywords
audio signal
signal
dictionary
sound
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007155036A
Other languages
English (en)
Other versions
JP2008309856A (ja
Inventor
紀行 畑
訓史 鵜飼
利晃 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007155036A priority Critical patent/JP4867804B2/ja
Publication of JP2008309856A publication Critical patent/JP2008309856A/ja
Application granted granted Critical
Publication of JP4867804B2 publication Critical patent/JP4867804B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数発言者の音声を認識する音声認識装置及び会議システムに関する。
会議の議事録を自動的に作成する装置が種々提案されている。例えば、特許文献1の装置においては、複数の発言者毎に識別データを入力するようにし、入力された識別データによって誰が発言しているのか弁別している。そして、弁別した発言者毎に事前に登録した発声データを用いて音声認識を行っている。この場合、発言者毎に登録した発声データを用いることにより、音声認識の精度を上げるようにしている。
特開2000−352995号公報
しかしながら、特許文献1の装置では、発言者を弁別するため識別情報を入力しなければならず、このために、識別情報を記憶した識別カードを持参したり、あるいは、マイクスイッチを切り替えることによって発言者を識別させたりという処理が必要になり会議参加者にとって煩雑となる欠点があった。また、発言は複数人が同時に発言することもあり得るが、上述の装置では同時発言に対処することができなかった。
本発明は、このような事情に鑑みてなされたものであり、会議参加者に負担をかけずに音声認識精度を向上させることができるとともに、複数音声が同時に発音された場合においても音声認識や議事録作成を良好に行うことができる音声認識装置及び会議システムを提供する。
上述した課題を解決するため、本発明に係る音声認識装置は、複数位置からの収音が可能に構成され、収音した位置ごとに音を音声信号に変換してそれぞれ出力する収音手段と、前記収音手段が出力した各音声信号のパワーが所定値を超えたか否かを検知する検知手段と、前記検知手段によって前記パワーが所定値を超えたことを検知された音声信号に対し、当該音声信号と収音位置が異なる他の音声信号を用いて、前記音声信号と前記他の音声信号とが相互に独立であるか否かを判断し、これらが相互に独立であると判断した場合には当該音声信号を音声認識用信号として出力し、相互に独立でないと判断した場合には当該音声信号に含まれる1つの音声を分離して、音声認識用信号として出力する前処理手段と、前記前処理手段が出力した音声認識用信号から特徴量を抽出する特徴量抽出手段と、音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、発言者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、前記辞書選択手段が選択した辞書を用いて、前記前処理手段が出力する音声認識用信号に対して音声認識処理を行う音声認識手段とを具備することを特徴とする。
また、本発明に係る会議システムは、上述の音声認識装置と、前記前処理手段が出力する音声信号から音声の開始時刻を示す開始時刻情報と当該音声の終了時刻を示す終了時刻情報を検出する検出手段と、前記検出手段が検出した前記開始時刻情報、前記終了時刻情報および前記特徴量抽出手段が当該音声認識用信号から抽出した特徴量および前記音声認識手段が当該音声信号に対して音声認識処理を行った処理結果を対応付けて記憶する処理結果記憶手段を具備することを特徴とする。
好ましくは、前記処理結果記憶手段が記憶した処理結果を前記特徴量ごとに予め定められた態様で表示手段に表示させる表示制御手段を有し、前記表示制御手段は前記各処理結果について、それぞれの前記開始時刻情報と前記終了時刻情報が示す時間帯が重複しているか否かを判定し、重複している場合には、重複していない部分とは異なる態様で表示させるとよい。
本発明によれば、会議参加者に負担をかけずに音声認識精度を向上させることができるとともに、複数音声が同時に発音された場合においても音声認識や議事録作成を行うことができる。
次に、この発明を実施するための最良の形態を説明する。
(A)構成
図1は音声認識装置1の全体構成を示すブロック図である。音声認識装置1は、制御部11、収音部12、記憶部13、操作部14、表示部15、外部機器IF16を備えており、これらはバス19で接続されている。制御部11は、例えばCPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)やRAM(Random Access Memory)などの各種メモリを備えている。演算装置がこれらのメモリや記憶部に記憶されているコンピュータプログラムを読み出して実行することにより、音声認識装置1の各部を制御する。また、制御部11にはタイマが内蔵されている。このタイマは水晶振動子を有する発振回路(図示略)を備えており、その発振回路から出力される発信信号を適宜分周してタイミング制御用のクロックを生成し、生成したクロックに基づいて時間を計測する。
収音部12には、複数のマイクロフォンM、アンプ、アナログ/デジタル(A/D)コンバータ、各マイクロフォンの接続端子が備えられている。本実施形態において発言者は最大8名を想定しており、これらの各参加者に対して複数のマイクロフォンM(M1〜M8)が配置されている。そして、マイクロフォンM(M1〜M8)は各発言者の発声する音声を収音し、音声信号S(S1〜S8)に変換して出力する。制御部11は収音部12におけるマイクロフォンMの接続端子を監視することで音声信号Sに対応するマイクロフォンMを特定する。
操作部14は各種のキーを備えており、押下されたキーに対応した信号を制御部11へ出力する。表示部15は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)等の表示装置を備えており、制御部11の制御下で文字や画像を表示する。外部機器IF16はUSBインタフェースであり、文字や画像を印刷させるプリンタ2に接続されている。なお、外部機器IF16は無線通信回路であってもよい。
記憶部13は、例えばハードディスクなどの大容量の記憶手段であり、基本OSや、コンピュータプログラムなどのほか、音声認識処理に用いられる標準辞書13aを記憶している。ここで標準辞書13aは予め定められた言語に係る単語辞書や構文情報が記憶された辞書であり、本実施形態においては日本語の標準音声を認識できる辞書である。また、記憶部13には、音声認識のための辞書Dを少なくとも発言者と同じ数だけ記憶できる辞書群13bの記憶領域と、発言者毎の音声の特徴量C(C1〜C8)と辞書D(D1〜D8)の対応関係を記述した特徴量・辞書テーブル13cの記憶領域が予め定められている。
ここで、特徴量Cとは発言者毎に固有の音声の特徴を示したパラメータ群であり、これによれば、発声された語句に依存せずに所定の確率で一意に当該音声の発言者を特定できる。具体的には、特徴量Cとは、例えば長時間平均スペクトルや、ケプストラムベクトルの時系列を各発言者固有の多変量線形回帰モデルで表したものなどである。したがって、一つの数値ではなく、数値の集合であるが、説明の便宜のため特徴量Cと記載する。図2は特徴量・辞書テーブル13cの一例を示す図である。図に示すように、辞書群13bの各辞書Dは特徴量Cに対応付けられている。
次に、実施形態の動作を説明する。
(B)動作
利用者が操作部14の図示しないスイッチを押下して収音開始の指示をすると、制御部11はこの指示を受けて、収音部12を収音可能にする。これにより、収音部12の複数のマイクロフォンM、M…は収音された音を音声信号S(S1〜S8)に変換して出力する。制御部11は、各音声信号Sのパワー(音声振幅の自乗)を常時検知して、当該音声信号Sのパワーが所定のパワー閾値を超えているか否かを監視する。そして、パワー閾値を超えた音声信号Sに対しては、発言が開始されたと判定し、以後の処理を行う。
一般に会議においては一人ずつ発言するが、場合によっては2以上の参加者の発言が重なることもある。また、マイクロフォンMは各参加者に対応して用意されているので、各参加者の音声はそれぞれ対応するマイクロフォンMによって収音される。この場合、ひとつのマイクロフォンMの出力ラインには、対応する参加者の音声だけが収音されるようにマイクロフォン位置、座席距離などが設定されているが、参加者が上体や顔の位置を移動させると隣接するマイクロフォンMにその参加者の音声が混入することもある。また、参加者が席を移動して発言した場合も同様の状態が生じる。
そこで、以下の説明においてはマイクロフォンMの収音状態に応じて場合分けをして説明を行う。なお、以下においては、会議参加者が8名であると想定する。
(1)一人の参加者だけが発言している場合。
一人の参加者だけが発音している状態とは、マイクロフォンM1〜M8のいずれか一つが出力する音声信号Sのパワーがパワー閾値を上回っている状態である。ここでは、音声信号S2のパワーのみが所定のパワー閾値を超えた場合を挙げて説明する。
制御部11は音声信号S2のパワーが上述のパワー閾値を超えたことを検出すると、その時刻にタイマから時刻情報を取得する。この時刻がt0であれば、時刻t0を示す時刻情報t0を記憶部13の所定のエリアに書き込む。また、時刻情報t0に関連させて、上記所定エリアに音声信号S2の記憶を開始させる。次に制御部11は音声信号S2に対して2以上の音声が混入しているか否かを判定して分離処理を行うが(この判定・分離処理については後述する)、ここでは一つの音声だけであるから分離処理は行わない。
次に制御部11は音声信号S2のパワーが上述のパワー閾値を下回ったことを検出するとその時刻にタイマから時刻情報を取得する。この時刻がtzであれば、時刻tzを示す時刻情報tzを記憶部13の所定のエリアに書き込むとともに、音声信号S2の記憶を終了させ、音声信号S2のうち時刻t0から時刻tzまでを音声認識の対象となる音声信号の部分(以下、音声区間という)として検出する。次に制御部11はこの音声区間において記憶された音声信号S2から特徴量を抽出する。このときに得られた特徴量をC0とすると、制御部11は特徴量・辞書テーブル13cに記述された特徴量C(C1〜C8)と上述の特徴量C0との類似度(0〜1で表される)を算出し、特徴量C0と最も類似している特徴量を決定する。ここでは特徴量C2が最も特徴量C0に類似していたとする。この結果、制御部11は特徴量C2を最も類似した特徴量として決定し、さらに決定した特徴量C2に対応する辞書D2を辞書群13bから選択する(図2参照)。なお、上述のような特徴量Cの類似度を算出する方法は、集合間の類似度を求める算出方法であれば何でもよい。
次に、制御部11は、選択した辞書D2と標準辞書13aを読み出し、音声信号S2の音声認識処理を行う。ここで、図3は、制御部11によって実行される音声認識プロセスを表したブロック図である。図に示すように、音声信号S2が入力されると、制御部11は前述の通り、音声区間を検出し(音声区間検出)、音声の特徴を分析すべく、検出された音声区間のスペクトルを所定の時間(例えば30msec)毎に分割し(音声特徴分析)、辞書D2に含まれる音素・標準スペクトル対応パターンと照合することによって、音声区間に応じた音素類似度行列を生成する(音素認識)。そして、制御部11は、この音素類似度行列と辞書D2に記述された各単語の音素標準パターンとをDP(Dynamic Programming:動的計画法)マッチングアルゴリズムに従って順次比較して、音声区間に対応した単語を認識する(単語認識)。そして、認識された単語の前後関係等を、辞書に含まれる構文情報を参照して解析することにより、音声信号S2に含まれた発言内容を示す文章を生成する(文章認識)。これら音素認識、単語認識、文章認識の各プロセスにおいて制御部11は辞書D2を用いる。また、辞書D2に記述されていない要素については標準辞書13aを用いるとともに辞書D2にその要素を追加記憶する。さらに、辞書D2には音声信号S2に関し、標準スペクトルに対するずれや発音の長さ、選択された単語の出現確率(尤度)などの発言者に固有な特徴を記憶する。
以上の処理において、文章認識された結果は、発言内容を示す文字コードからなるデータ列(以下、発言データという)として記憶部13に設定されている議事録エリアに記憶されてゆく。この場合、議事録エリアに記憶される内容は、発言開始時刻である時刻情報t0と発言終了時刻である時刻情報tzと音声信号S2の発言者を識別するためのデータ(マイクロフォンを識別するデータなど)と、音声信号S2から得られた発言データの組みである。ここで、音声信号S2を識別するためのデータは発言者を特定することができるデータとなるから、音声信号S2についての議事録が生成されてゆくことになる。以上は音声信号S2の処理を例に取った説明であったが、制御部11はすべてのマイクロフォンM1〜M8に対して上記の処理を行うから、会議参加者のすべての発言について、発言者、発言時刻(開始及び終了の時刻)、発言内容が自動的に記憶されてゆく。
なお、発言者を識別するためのデータとして、選択された辞書を特定するデータを用いたり、あるいは、発言者とマイクロフォンとの対応関係や、発言者と辞書の対応関係を記憶したテーブルを用意し、このテーブルを用いて発言者を特定し、特定した発言者を識別するデータを用いたりすることもできる。
(2)複数の参加者の発言が重なった場合。
次に、複数の参加者の発言が重なる場合について説明する。発音が重なる態様としては、一人の発言が終了する前に他の参加者が発言を開始した場合や、複数の参加者が同時に意見を述べる場合などがある。ここでは一例として、音声信号S1のパワーと音声信号S2のパワーが前後して所定のパワー閾値を超えた場合を挙げて説明する。制御部11はすべての音声信号S1〜S8のパワーを常時監視しているから、音声信号S1のパワーが上述のパワー閾値を超えると、その時刻を示す時刻情報t0−1を記憶部に記憶させるとともに音声信号S1の記憶を開始する。そして、音声信号S1パワーが上述のパワー閾値を下回ると、その時刻を示す時刻情報tz−1を記憶部に記憶させるとともに音声信号S1の記憶を終了し、時刻t0−1から時刻tz−1までを音声区間とする。次に、この音声区間において記憶された音声信号S1について上述のような音声認識処理を行う。これと並行して、音声信号S2がパワー閾値を超えた時刻情報t0−2からパワー閾値を下回った時刻情報tz−2までの時間は、音声信号S1の処理に加えて音声信号S2についての処理を行う。
以上のようにして、複数の参加者の発言が重なった場合には、これらの音声信号についての処理が並行して行われる。
この場合、制御部11は音声信号S1から特徴量C0−1を、音声信号S2から特徴量C0−2を抽出し、上述と同様、特徴量・辞書テーブル13cに記述された特徴量C(C1〜C8)を参照して、抽出したそれぞれの特徴量との類似度を比較して、最も類似する特徴量Cを決定する。ここでは、特徴量C0−1に最も類似するとして特徴量C1を決定し、特徴量C0−2に最も類似するとして特徴量C2を決定したとすると、制御部11は決定した特徴量C1及び特徴量C2のそれぞれに対応する辞書D1及び辞書D2を辞書群13bから選択する。そして、制御部11は辞書D1を使用して音声信号S1を、辞書D2を使用して音声信号S2を、それぞれ音声認識し、また、辞書D1及び辞書D2に上述と同様、発言者に固有の特徴を記憶する。
このようにして音声信号S1、S2は音声認識されてゆき、各音声信号S1、S2に対応する発言データが生成され、発言開始時刻、発言終了時刻、発言者の識別(選択された辞書を特定するデータ、マイクロフォンの識別など)とともに記憶部13に記憶されてゆく。
図4は発言データの表示の一例を示した図である。上述の通り音声認識により認識した発言データには発言者の識別データと発言開始時刻、発言終了時刻がともに記憶されている。ここでは発言者の識別データとして選択された辞書を特定するデータを用いている。発言データはこの記憶を参照することで辞書D毎に区別して表示される。図によると、発言者の発言内容に先行して当該発言者を明示する記号が、例えば「D1:」のように発言者の音声の辞書D毎に付される。
また、発言データには発言開始の時刻を示す時刻情報t0及び発言終了の時刻を示す時刻情報tzが対になって記憶されており、この記憶を参照することで、発言データの発言時刻が特定され、同時に発言している発言者の数に応じた表示レイアウトで発言データが表示される。図4の冒頭部分は音声が単一の例を示しており、単一の段で文章を表示することにより、音声が単一であることを表している。後半部分に破線で囲った「同時発言部分」では、中央の実線によって段が左右に分割されており、それぞれの段に「D2」と「D3」の発言内容が記述されている。これにより、「D2」と「D3」が同時に発言をしていることを表している。なお、上述の記号に替えて文字列の表示色によって辞書Dを示しても良い。また、図5は発言データの表示について別の一例を示した図である。図5にあるように、同時発言部分を中括弧で両端を閉じられた複数行で表してもよい。
以上、記憶部13に同時に記憶する音声信号Sが2つである場合を例に挙げて説明をしたが、この数が3以上である場合も上述と同様である。
(3)ひとつの音声信号Sの中に複数の発言者の音声が混合している場合
上述した(1)、(2)で説明した動作において音声信号Sに、二以上の発言者の音声が含まれている場合がある。これは前述したように発言者が本来の位置から移動したり、あるいは大きな声を出したりして、他人が話しているマイクロフォンMに音声が混入した場合などに生じる。
本実施形態においては複数のマイクロフォンM(M1〜M8)は8名の発言者毎に配置されているので、通常は同時に複数の発言者が発声したとしても、各マイクロフォンMが収音し出力する音声信号Sには単一の発言者の音声となる。ところが、発言者が席を動いたり、大きな声で発声したりすると各マイクロフォンMは必ずしも予め対応付けられた発言者の音声を収音するとは限らず、2名以上の混合された音声を収録する場合がある。このような場合には制御部11は以下の動作により音声信号Sを分離する。ここでは、一例として、音声信号S1及び音声信号S2のパワーが所定のパワー閾値を超えた場合を挙げて説明する。
制御部11は音声信号S1及び音声信号S2のパワーが上述のパワー閾値を超えたことを検出すると、音声信号S1及び音声信号S2をそれぞれの開始時刻t0、終了時刻tzとともに記憶部13の所定のエリアに記憶する。そして、各音声信号は所定時間Δt(例えば30msec)ごとに分割され、それぞれについて短時間フーリエ変換され、パワースペクトルとして記憶される。ここで、周波数をfとすると、音声信号S1の時刻tから時刻(t+Δt)までにおけるパワースペクトルをX1(f,t)と表し、音声信号S2の時刻tから時刻(t+Δt)までにおけるパワースペクトルを同様にX2(f,t)と表す。なお、本実施形態においては、音声信号とパワースペクトルの双方を記憶部13に記憶するが、パワースペクトルのみを記憶してもよい。
次に、制御部11はパワースペクトルX1(f,t),X2(f,t)の双方に分離フィルタの行列を適用してそれぞれのパワースペクトルから出力信号のパワースペクトルを得る。図6はこの分離フィルタの行列を適用した音声分離処理の概略を示す図である。図6に示すY1(f,t)が音声信号S1に対応する出力信号のパワースペクトルで、Y2(f,t)が音声信号S2に対応する出力信号のパワースペクトルである。また、Wi(f)は更新i回目の分離フィルタ行列の周波数領域表現である。ここで、これらの値の関係は次の数1によって表される。
Figure 0004867804
そして、制御部11は、この出力信号間の独立性を評価して、出力信号がより独立になるように分離フィルタの特性を更新する操作を繰り返す。ηは更新係数、φ(x)は特定の非線形関数(例えば、tanh(x))、Iは単位行列、YはYのエルミート転置であるとして、分離フィルタの特性の更新式は、次の数2で表現される。
Figure 0004867804
ここで、出力信号の独立性の判断について述べる。制御部11は上述した数2で算出される分離フィルタの係数の変化量(前回値との差)が所定の閾値を下回ったか否かを判定し、当該閾値を上回っているときは、出力信号に独立性がないと判断して、分離フィルタの特性の更新を行う。このような更新を繰り返し行った結果、変化量が閾値を下回ったときは、出力信号に独立性があると判断して分離フィルタの特性の更新を停止する。
ところで、音声信号S1と音声信号S2が初めから相互に独立である場合には、最初の演算によって分離フィルタの係数の変化量が所定の閾値を下回ることになり、結局、分離フィルタによる処理はなされない。したがって、それぞれの最初の音声信号のパワースペクトルX1(f,t),X2(f,t)について音声認識処理を行う。
そして、制御部11はこのパワースペクトルY1(f,t)及びY2(f,t)に基づいて、元信号の特徴量Cを抽出し、それぞれの辞書を選択する。そして、パワースペクトルY1(f,t)及びY2(f,t)を利用して、音素認識から音声認識処理を行う。
以上、記憶した音声信号Sに2つの音声が含まれている場合を例に挙げて説明したが、含まれている音声が3以上である場合も上述と同様の処理により、音声分離が可能である。
なお、本実施形態においては、音声分離処理として独立成分分析に基づく音声分離処理を用いたが、音声信号から元信号を得られる処理であれば、どのような処理を用いてもよい。
ここで、表示部15に表示された文章を利用者が読み、文章に間違いが見つかったときに、利用者は操作部14を介して文章を修正することができる。制御部11は利用者からの修正入力を受け取ると、これに応じてRAMに記憶された発言データを修正し、修正された発言データを表示部15に表示させる。また、図3において、制御部11は、修正前の語句を導出した音素認識、単語認識、文章認識の各プロセスに対し、修正後の語句を導出するような補正を加える(出力文章補正)。この補正とは例えば、音素類似度行列の生成に用いる重み関数に対し、上述の修正結果を反映して変更を加えることなどである。なお、このような修正機能が音声認識装置1に付与されていると、音声認識の精度を上げることができるが、修正機能を付与しなくてもよい。
また、利用者は操作部14を介して上述の文章を印刷させることができる。制御部11は利用者から印刷指示を受け取ると上述のRAMに記憶された発言データを、外部機器IF16を介してプリンタ2に送信する。プリンタ2は送信された発言データを文字列として紙に印刷する。
このようにして、各発言者の発言は特徴量C毎に音声信号Sとして記憶され、各音声信号Sは特徴量C毎に用意された辞書Dを用いて音声認識されて文章化され、外部機器IF16を介してプリンタ2から印刷される。なお、印刷機能が会議システムに備わっていることで、利用者は会議内容を紙面で確認することができるが、会議システムに印刷機能が備わっていなくてもよい。
<変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(変形例1)上述の実施形態における収音部12に代えてマイクアレイを用いてもよい。マイクアレイとは複数のマイクロフォンM、M…が所定の間隔で配置され、それぞれのマイクロフォンMが収音する音声のパワーと到達時間から収音方向に指向性を持たせることができる。したがって、上述の収音部12における一つのマイクロフォンMの機能を、マイクアレイの一つのビームで実現すればよい。
(変形例2)上述の実施形態は、音声信号S1及び音声信号S2のパワーが所定のパワー閾値を超えた場合であったが、単一の音声信号のパワーのみが所定のパワー閾値を超えた場合も、以下のようにすることで、音声分離を行うことが可能である。すなわち、パワー閾値を超えた音声信号と、これとは収音位置が異なる音量の小さい他の音声信号を、音声分離処理に利用する「他の音声信号」として少なくとも一つ選択し、これらの音声信号を合わせた複数の音声信号について上述の音声分離処理を行えばよい。
また、2以上の音声信号のパワーが所定のパワー閾値を超えた場合であっても、同様に、これらの音声信号以外の音量の小さい「他の音声信号」を選んでも良い。すわなち、音声分離処理に利用する「他の音声信号」としてはそのパワーが所定のパワー閾値を超えたか否かに関わらず、どれを選んでもよい。例えば、予め記憶部13には、各音声信号Sとこれらを出力するマイクロフォンMとの対応関係が、マイクロフォンMの位置関係(すなわち、どのマイクロフォンMが隣接しているか)と共に記憶されている構成とし、この記憶内容に基づいて、上記単一の音声信号が示す音と隣接して収音された音の音声信号を上述の「他の音声信号」として特定してもよい。
上述の「他の音声信号」は一つでもよいし複数でもよい。例えば、対象の音声信号を出力したマイクロフォンMに最も近い位置にあるマイクロフォンMが出力する音声信号のみを「他の音声信号」としてもよいし、位置が近い順に選択して5番目までのマイクロフォンMが出力するそれぞれの音声信号を「他の音声信号」としてもよい。また、対象の音声信号を出力したマイクロフォンM以外のすべてのマイクロフォンMが出力するそれぞれの音声信号を「他の音声信号」としてもよい。
(変形例3)上述の実施形態では、音声信号Sのパワーが上述のパワー閾値を下回ったことを検出すると、音声信号Sの記憶を終了したが、このときすぐに音声信号Sの記憶を終了することなく、パワー閾値を下回ってからの経過時間を計測して、その計測時間に応じて記憶制御を変えてもよい。
ここで、図7は変形例3に係る音声区間の検出動作を説明するための図である。図7(a)、図7(b)の横軸はともに時間を示しており、図7(a)の縦軸は音声のパワーを、図7(b)の縦軸は音声の振幅値を示している。制御部11はROMにパワー閾値と第1基準時間及び第1基準時間よりも長い第2基準時間を記憶しており、入力された音声のパワーがパワー閾値を超えるか否かを常時監視する。そして、これが超えた時刻t0を音声区間の開始時刻として処理を行う。次に、音声のパワーがパワー閾値を下回ると、制御部11は制御部11内のタイマを用いてその時刻tzをRAM上に記憶するとともに、時刻tzからの経過時間の計測を開始する。そして、当該経過時間が第1基準時間より長くなったら、前述の時刻tzを当該音声区間の終了時刻とする。このようにして、音声区間の開始時と終了時を特定する。ここで、上述の経過時間が第1基準時間に至る前に音声のパワーが再びパワー閾値を超えた場合には、まだ音声区間が続いていると判断する。これは、発言中であっても発声区間の短い単語が含まれていた場合は、瞬断的な無音区間が生じるが、これを発音終了として誤判断しないようにするためである。
音声区間の開始時と終了時を特定すると、制御部11は特定した音声区間の音声信号Sが何らかの単語を表していると推定して、辞書が選択済みであれば当該辞書を用いて、そうでなければ音声信号Sから抽出した特徴量Cによって辞書を選択し、選択した辞書を用いて音声認識を開始する。特定された音声区間の音声信号Sは、音声認識用の辞書によって単語に変換される。
さらに当該経過時間が上述の第2基準時間を超えたとき、発言が終了したものとして(発言検出)、制御部11は音声信号Sの記憶を終了するとともに、辞書の選択を解除する(すなわち、辞書は選択済みでなくなる)。したがって、発言終了が検出された後に、再度音声のパワーがパワー閾値を超えたとき、制御部11は入力された音声信号Sから改めて上述と同様に特徴量を抽出して辞書を選択する(辞書の再選択)。一方、当該経過時間が上述の第2基準時間を超える前に、再度音声のパワーがパワー閾値を超えたときには、制御部11は辞書が選択済みであるとして、直前に使用した辞書を継続して使用する。あるマイクロフォンを用いた発言が終了した後に他の人が同じマイクロフォンを用いて発言することもあり、そのような場合には辞書選択を一旦クリアした方が妥当だからである。
例えば、図7において時刻t4から時刻t5までの音声のパワーはパワー閾値を下回っており、かつ、この時間は第1基準時間を超えているため音声区間としては認識されない。したがって、時刻t4において音声区間が終了したものとして処理される。同様に、時刻t1から時刻t2まで、時刻t3から時刻t4まで、時刻t5から時刻t6までは音声区間として認識される。さらに、時刻t2から時刻t3までの時間は第2基準時間も超えているため、時刻t2において発言は終了したものとして処理される。すなわち、時刻t3において発言開始が検知されたとき、制御部11は音声信号Sの特徴量に基づいて辞書を選択するが、時刻t5においては、時刻t3から時刻t4までに使用した辞書を継続して使用する。
(変形例4)上述の実施形態では、発言者の識別データとして選択された辞書を特定するデータを用いて、記号「D1」等を表示部15に表示したが、発言者の識別を表示するのはこのような記号に限られない。例えば、社員番号や個人名の文字列と辞書を特定するデータ(あるいは特徴量を特定するデータやマイクロフォンを特定するデータ)との対応関係を予め記憶部13の所定の領域に記憶しておくことで、社員番号や個人名を表示させてもよい。
(変形例5)上述の実施形態において、音声認識の方法として、音素を単位としてDPマッチングを行う方法を用いたが、音声認識の方法はこれに限られない。例えば、隠れマルコフモデル(Hidden Markov Model)法やニューラルネットワークによる方法などであってもよい。
音声認識装置1の全体構成を示すブロック図である。 特徴量・辞書テーブル13cの一例を示す図である。 制御部11によって実行される音声認識プロセスを表したブロック図である。 発言データの表示の一例を示した図である。 発言データの表示について別の一例を示した図である。 分離フィルタの行列を適用した音声分離処理の概略を示す図である。 音声区間の検出動作を説明するための図である。
符号の説明
1…音声認識装置、2…プリンタ、11…制御部、12…収音部、13…記憶部、13a…標準辞書、13b…辞書群、13c…特徴量・辞書テーブル、14…操作部、15…表示部、16…外部機器IF、19…バス

Claims (3)

  1. 複数位置からの収音が可能に構成され、収音した位置ごとに音を音声信号に変換してそれぞれ出力する収音手段と、
    前記収音手段が出力した各音声信号のパワーが所定値を超えたか否かを検知する検知手段と、
    前記検知手段によって前記パワーが所定値を超えたことを検知された音声信号に対し、当該音声信号と収音位置が異なる他の音声信号を用いて、前記音声信号と前記他の音声信号とが相互に独立であるか否かを判断し、これらが相互に独立であると判断した場合には当該音声信号を音声認識用信号として出力し、相互に独立でないと判断した場合には当該音声信号に含まれる1つの音声を分離して、音声認識用信号として出力する前処理手段と、
    前記前処理手段が出力した音声認識用信号から特徴量を抽出する特徴量抽出手段と、
    音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
    発言者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、
    前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、
    前記辞書選択手段が選択した辞書を用いて、前記前処理手段が出力する音声認識用信号に対して音声認識処理を行う音声認識手段と
    を具備することを特徴とする音声認識装置。
  2. 求項1に記載の音声認識装置と、
    前記前処理手段が出力する音声信号から音声の開始時刻を示す開始時刻情報と当該音声の終了時刻を示す終了時刻情報を検出する検出手段と、
    前記検出手段が検出した前記開始時刻情報、前記終了時刻情報および前記特徴量抽出手段が当該音声認識用信号から抽出した特徴量および前記音声認識手段が当該音声信号に対して音声認識処理を行った処理結果を対応付けて記憶する処理結果記憶手段
    を具備することを特徴とする会議システム。
  3. 記処理結果記憶手段が記憶した処理結果を前記特徴量ごとに予め定められた態様で表示手段に表示させる表示制御手段を有し、
    前記表示制御手段は前記各処理結果について、それぞれの前記開始時刻情報と前記終了時刻情報が示す時間帯が重複しているか否かを判定し、重複している場合には、重複していない部分とは異なる態様で表示させる
    ことを特徴とする請求項に記載の会議システム。
JP2007155036A 2007-06-12 2007-06-12 音声認識装置及び会議システム Expired - Fee Related JP4867804B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007155036A JP4867804B2 (ja) 2007-06-12 2007-06-12 音声認識装置及び会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007155036A JP4867804B2 (ja) 2007-06-12 2007-06-12 音声認識装置及び会議システム

Publications (2)

Publication Number Publication Date
JP2008309856A JP2008309856A (ja) 2008-12-25
JP4867804B2 true JP4867804B2 (ja) 2012-02-01

Family

ID=40237543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007155036A Expired - Fee Related JP4867804B2 (ja) 2007-06-12 2007-06-12 音声認識装置及び会議システム

Country Status (1)

Country Link
JP (1) JP4867804B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348011A (zh) * 2019-06-25 2019-10-18 武汉冠科智能科技有限公司 一种无纸化会议展示对象确定方法、装置和存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092914A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5274324B2 (ja) * 2009-03-19 2013-08-28 株式会社エヌ・ティ・ティ・ドコモ 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法
JP5533854B2 (ja) * 2009-03-31 2014-06-25 日本電気株式会社 音声認識処理システム、および音声認識処理方法
JP5385876B2 (ja) * 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP5677901B2 (ja) * 2011-06-29 2015-02-25 みずほ情報総研株式会社 議事録作成システム及び議事録作成方法
JP2015014675A (ja) * 2013-07-04 2015-01-22 株式会社日立システムズ 音声認識装置、方法、プログラム、システム及び端末
JP2015102667A (ja) * 2013-11-25 2015-06-04 シャープ株式会社 電子機器
JP6721298B2 (ja) 2014-07-16 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
JP6052814B2 (ja) * 2014-09-24 2016-12-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
JP6800809B2 (ja) 2017-06-01 2020-12-16 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP7044633B2 (ja) * 2017-12-28 2022-03-30 シャープ株式会社 操作支援装置、操作支援システム、及び操作支援方法
JP7243145B2 (ja) * 2018-03-19 2023-03-22 株式会社リコー 情報処理装置、情報処理システム及び情報処理方法
JP6598323B1 (ja) * 2018-06-01 2019-10-30 学校法人北里研究所 補聴器及びプログラム
JP7095569B2 (ja) * 2018-11-21 2022-07-05 株式会社リコー 音声認識システム、及び音声認識方法
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
CN113708868B (zh) * 2021-08-27 2023-06-27 国网安徽省电力有限公司池州供电公司 一种多拾音设备的调度***及其调度方法
WO2023105778A1 (ja) * 2021-12-10 2023-06-15 日本電信電話株式会社 音声信号の処理方法、音声信号処理装置、およびプログラム
CN114257778A (zh) * 2021-12-27 2022-03-29 新联合众(北京)科技有限公司 一种远程会议***及多麦克风语音识别播放方法
KR102661005B1 (ko) * 2023-02-24 2024-04-25 (주)페르소나에이아이 다채널 다화자 환경에서 화자별 음원분리장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3207281B2 (ja) * 1993-02-12 2001-09-10 株式会社東芝 ステレオ音声符号化・復号化方式、ステレオ音声復号化装置及び単独発言/複数同時発言判別装置
JP3859612B2 (ja) * 2003-04-10 2006-12-20 株式会社アドバンスト・メディア 会議録音・書き起こしシステム
JP2006330170A (ja) * 2005-05-24 2006-12-07 Nhk Engineering Services Inc 記録文書作成支援システム
JP4225430B2 (ja) * 2005-08-11 2009-02-18 旭化成株式会社 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348011A (zh) * 2019-06-25 2019-10-18 武汉冠科智能科技有限公司 一种无纸化会议展示对象确定方法、装置和存储介质

Also Published As

Publication number Publication date
JP2008309856A (ja) 2008-12-25

Similar Documents

Publication Publication Date Title
JP4867804B2 (ja) 音声認識装置及び会議システム
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP6654611B2 (ja) 成長型対話装置
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
WO2001052237A1 (fr) Appareil, methode et support d'apprentissage de langues etrangeres
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
JP2018013549A (ja) 発話内容認識装置
JP2008262120A (ja) 発話評価装置及び発話評価プログラム
JP2008275987A (ja) 音声認識装置および会議システム
JPH06110494A (ja) 発音学習装置
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
WO2013035293A1 (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP4622106B2 (ja) 人物特定システム
JPS645320B2 (ja)
JP2001282098A (ja) 外国語学習装置、外国語学習方法および媒体
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JPH08110790A (ja) 音声認識装置
JP2004309654A (ja) 音声認識装置
KR20090081046A (ko) 인터넷을 이용한 언어 학습 시스템 및 방법
JPH10198393A (ja) 会話記録装置
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置
JP2638151B2 (ja) 会話補助装置
KR101394290B1 (ko) 한국어 경음/연음 구분을 이용한 음성인식 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees