以下、図を参照しながら、この発明の一実施の形態について説明する。以下に説明する実施の形態においては、この発明を音声信号の記録再生装置であるICレコーダに適用した場合を例にして説明する。
[第1の実施の形態]
[ICレコーダの構成と動作の概要]
図1は、この第1の実施の形態の記録再生装置であるICレコーダを説明するためのブロック図である。図1に示すように、この実施の形態のICレコーダは、CPU(Central Processing Unit)101、プログラムや各種のデータが記憶されているROM(Read Only Memory)102、主に作業領域として用いられるRAM(Random Access Memory)103がCPUバス104を通じて接続されて、マイクロコンピュータの構成とされた制御部100を備えている。なお、RAM103は、後述もするように、圧縮データ領域103(1)と、PCM(Pulse Code Modulation)領域103(2)とが設けられている。
制御部100には、ファイル処理部110を通じてデータ記憶装置111が接続され、入力処理部120を通じてキー操作部121が接続されている。また、制御部100には、アナログ/デジタルコンバータ(以下、A/Dコンバータと略称する。)132を通じてマイクロホン131が接続され、デジタル/アナログコンバータ(以下、D/Aコンバータと略称する。)134を通じてスピーカ133が接続されている。また、制御部100には、LCD(Liquid Crystal Display)135が接続されている。なお、この実施の形態において、LCD135は、LCDコントローラの機能をも備えたものである。
さらに、制御部100には、データ圧縮処理部141、データ伸張処理部142、音声特徴解析部143、通信インターフェース(以下、通信I/Fと略称する。)144が接続されている。図1において、2重線で示したデータ圧縮処理部141、データ伸張処理部142、音声特徴解析部143は、制御部100のCPU101で実行されるソフトウェア(プログラム)によっても、その機能を実現することができるものである。
また、この実施の形態において、通信インターフェース144は、例えば、USB(Universal Serial Bus)やIEEE(Institute of Electrical and Electronics Engineers)1394などのデジタルインターフェースであり、接続端子145に接続されるパーソナルコンピュータ、デジタルカメラなどの種々の電子機器との間でデータの送受を行うことができるものである。
この第1の実施の形態のICレコーダは、キー操作部121のRECキー(録音キー)211が押下操作されると、CPU101が各部を制御して録音処理を行う。この場合、マイクロホン131で集音され、A/Dコンバータ132でデジタル変換されると共に、データ圧縮処理部141の機能によりデータ圧縮された音声信号が、ファイル変換部110を通じてデータ記憶装置111の所定の記憶領域に記録される。
この第1の実施の形態のデータ記憶装置111は、フラッシュメモリ、あるいは、フラッシュメモリを用いたメモリカードであり、後述もするように、データベース領域111(1)と音声ファイル111(2)が設けられたものである。
録音処理時において、この第1の実施の形態のICレコーダは、音声特徴解析部143の機能により、集音して録音(記録)する音声信号について、所定の処理単位毎に特徴解析を行い、特徴が変化したことを検出した場合に、その特徴が変化した時点にマーク(目印)を付すようにしている。そして、このマークを利用して、録音した音声信号から目的とする音声信号部分の検索を迅速に行うことができるようにしている。
図2は、集音して録音する音声信号の変化点にマークを付すようにする処理の概要を説明するための図である。この第1の実施の形態のICレコーダにおいては、上述もしたように、マイクロホン131により集音された音声信号について、所定の処理単位毎に特徴解析を行う。
そして、直前の特徴解析結果と比較することによって、無音部分や雑音部分から話音声部分に変化した変化点、あるいは、話音声部分であっても、話者が変化した変化点を検出し、当該音声信号上の変化点の位置(時間)を特定する。そして、その特定した位置を変化点情報(マーク情報)としてデータ記憶装置111に記憶しておくようにする。このように、音声信号上の変化点の位置を示す変化点情報を保持することが、集音して録音する音声信号に対してマークを付すことになる。
具体的には、図2に示すように、会議の様子を録音するようにした場合、録音開始から10秒後に、Aさんが発言を始めたとする。この場合、Aさんの発言の開始前は、無音、あるいは、ざわめきや椅子を引く音、テーブルに何かがあたる音など、明瞭な話音声とは異なるいわゆる雑音などの無意味な音声が集音されおり、Aさんが発言を始め、その話音声が集音されることにより、集音した音声信号の特徴解析結果は、Aさんが発言を始める前とは明らかに異なることになる。
この集音して録音する音声信号の変化点を音声特徴解析部143において検出し、その変化点の音声信号上の位置を特定(取得)して、この特定した変化点情報(音声信号上の特定した位置情報)を図2におけるマークMK1としてデータ記憶装置111に記憶保持する。なお、図2においては、録音開始からの経過時間を変化点情報として記憶保持するようにしている場合の例を示している。
そして、Aさんの発言が終了した後、少し間をおいて、Bさんが発言を始めたとする。このBさんの発言開始の直前も、無音あるいは雑音である。この場合にも、Bさんが発言を始め、その話音声が集音されることにより、集音した音声信号の特徴解析結果は、Bさんが発言を始める前とは明らかに異なることになり、図2において、マークMK2が示すように、Bさんの発言の開始部分にマークを付すように、変化点情報(マークMK2)をデータ記憶装置111に記憶保持する。
さらに、Bさんの発言の途中でCさんが割って入ったような場合も発生する。この場合には、Bさんの話し声と、Cさんの話し声とでは、異なっているために、集音した音声信号の解析結果も異なることになり、図2において、マークMK3が示すように、Cさんの発言の開始部分にマークを付すように、変化点情報(マークMK3)をデータ記憶装置111に記憶保持する。
このように、この実施の形態のICレコーダは、録音処理時において、集音した音声信号の特徴解析を行い、特徴が変化した音声信号上の位置を記憶保持することによって、音声信号の特徴が変化した時点にマークを付すようにすることができるようにしたものである。
なお、図2において、マークMK1、MK2、MK3において、その他という欄が示すように、例えば、発言部分を音声認識してテキストデータに変換することにより、そのテキストデータを関連付けて記憶保持するようにしたり、その他の関連情報を一緒に記憶保持させるようにしたりすることもできるようにしている。
そして、この第1の実施の形態のICレコーダは、キー操作部121のPLAYキー(再生キー)212が押下操作されると、CPU101が各部を制御して再生処理を行う。すなわち、データ圧縮されてデータ記憶装置111の所定の記憶領域に記憶されている録音された音声信号(デジタル音声信号)がファイル処理部110を通じて読み出され、これがデータ伸張処理部142の機能により伸張処理されて、データ圧縮前の元のデジタル音声信号に復元される。この復元されたデジタル音声信号が、D/Aコンバータ134においてアナログ音声信号に変換され、これがスピーカ133に供給されて録音されて再生するようにされた音声信号に応じた音声が放音される。
この再生処理時に、この第1のICレコーダにおいては、キー操作部121のNEXTキー(次のマークへの位置付けを指示するキー)214やPREVキー(前のマークへの位置付けを指示するキー)215が操作された場合に、これに応じて、再生位置をすばやくマークが付与された位置に位置付けて、そこから再生を行うことができるようにしている。
図3は、録音した音声信号の再生時に行われるマークが示す音声信号上の位置への位置付け動作を説明するための図であり、操作に応じて変化するLCD135の表示情報の変化を示す図である。図3に示すように、PLAYキー211が押下操作されると、上述もしたように、CPU101は各部を制御し、指示された録音音声信号の先頭から再生を開始する。
そして、Aさんの発言部分においては、図2を用いて説明したように、録音処理時に付された(記憶保持された)マークMK1に基づいて、図3Aに示すように、Aさんの発言の開始時刻が表示されると共に、これが録音開始から最初に付したマークであることを示すSEQ−No.1という表示がされる。
再生が続行され、Bさんの発言部分の再生が開始されると、図3Bに示すように、Bさんの発言の開始時刻が表示されると共に、これが録音開始から2番目に付したマークであることを示すSEQ−No.2という表示がされる。この後、PREVキー215が押下操作されると、CPU101は、図3Cに示すように、開始時刻が先頭から10秒後(0分10秒後)のマークMK1が示すAさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。
この後、NEXTキーが押下操作されると、CPU101は、図3Dに示すように、開始時刻が先頭から1分25秒後のマークMK2が示すBさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。さらに、NEXTキーが押下操作されると、CPU101は、図3Eに示すように、開始時刻が先頭から2分30秒後のマークMK3が示すCさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。
このように、この実施の形態のICレコーダは、録音処理時において、集音した音声信号の特徴解析を自動的に行い、特徴の変化点にマークを付するようにすると共に、再生処理時においては、NEXTキー214、PREVキー215を操作することによって、付したマークが示す録音された音声信号上の位置に再生位置をすばやく位置付けて、そこから再生を行うようにすることができるものである。
これによって、ユーザは、すばやく目的とする話者(発言者)の発言部分に再生位置を位置付けて、録音した音声信号を再生して聴取することができるので、目的とする発言部分の議事録を迅速に作成することができる。
なお、ここでは、説明を簡単にするため、変化点情報として、録音開始時点からの時刻情報を用いるようにしたが、これに限るものではなく、録音された音声信号のデータ記憶装置111の記録媒体上のアドレスを変化点情報として用いることもできる。
[ICレコーダの動作の詳細について]
次に、図4、図5のフローチャートを参照しながら、この第1の実施の形態のICレコーダにおける録音処理と再生処理とについて、詳細に説明する。
[録音処理について]
まず、録音処理について説明する。図4は、この第1の実施の形態のICレコーダにおいて行われる録音処理を説明するためのフローチャートである。図4に示す処理は、CPU101が各部を制御することにより行われる処理である。
この第1の実施の形態のICレコーダは、電源が投入された状態にあり、動作していないときには、ユーザからの操作入力待ちとなる(ステップS101)。ユーザが操作部121にある操作キーを押下すると、入力処理部120がそれを検知し、CPU101に通知するので、CPU101は、受け付けた操作入力は、RECキー211の押下操作か否かを判断する(ステップS102)。
ステップS102の判断処理において、受け付けた操作入力は、RECキー211の押下操作ではないと判断したときには、CPU101はユーザにより操作されたキーに応じた処理、例えば、PLAYキー212に応じた再生処理、NEXTキー124に応じた次のマークへの位置付け処理、PREVキー215に応じた1つ前のマークへの位置付け処理などを行うことになる(ステップS103)。もちろん、早送り処理や早戻し処理などを行うこともできるようにされている。
ステップS102の判断処理において、RECキーが押下されたと判断した場合には、CPU101は、ファイル処理部110にファイル記録処理を行うように指示を出し、これに応じて、ファイル処理部110は、データ記録装置111に音声ファイル111(2)を作成する(ステップS104)。
そして、CPU101は、キー操作部121のSTOPキー(停止キー)213が押下操作されたか否かを判断する(ステップS105)。ステップS105の判断処理において、STOPキー213が操作されたと判断したときには、後述もするように、所定の終了処理を行って(ステップS114)、この図4に示す処理を終了する。
ステップS105の判断処理において、STOPキー213は操作されていないと判断したときには、CPU101は、A/Dコンバータ132にマイクロホン131を通じて入力されるアナログ音声信号をデジタル音声信号に変換することを指示し、集音音声のデジタル変換を行うようにする(ステップS106)。
これにより、A/Dコンバータ132は、マイクロホン131を通じて入力されるアナログ音声信号を一定周期ごと(所定の処理単位ごと)に変換したデジタル音声信号を、RAM103のPCMデータ領域103(2)に書き込み、書き込んだことをCPU101に通知する(ステップS107)。
これを受けて、CPU101は、データ圧縮処理部141に対し、RAM104のPCMデータ領域103(2)に格納したデジタル音声信号(PCMデータ)をデータ圧縮するように指示する(ステップS108)。これに応じて、データ圧縮処理部141は、RAM103のPCMデータ領域103(2)のデジタル音声信号を圧縮処理し、圧縮したデジタル音声信号をRAM103の圧縮データ領域103(1)に書き込む(ステップS109)。
そして、CPU101は、ファイル処理部110に対して、RAM103の圧縮データ領域103(1)の圧縮されたデジタル音声信号をデータ記憶装置111に作成した音声ファイル111(2)に書き込むことを指示し、これにより、ファイル処理部110により、RAM103の圧縮データ領域の圧縮されたデジタル音声信号が、データ記憶装置111の音声ファイル111(2)に書き込まれる(ステップS110)。
ファイル処理部110は、圧縮されたデジタル音声信号の音声ファイル111(2)への書き込みを終了すると、これをCPU101に通知するので、CPU101は、音声特徴解析部143に対して、RAM103のPCMデータ領域103(2)に先に記録されたデジタル音声信号の特徴解析を指示し、音声特徴解析部143によって、RAM103のPCMデータ領域103(2)のデジタル音声信号の特徴を抽出する(ステップS111)。
なお、音声特徴解析部143において行われるデジタル音声信号の特徴解析(特徴抽出)処理は、声紋分析、話速分析、間の取り方の分析、音声の強弱の分析などの種々の方法を用いることが可能である。ここでは説明を簡単にするため、この第1の実施の形態のICレコーダの音声特徴解析部143は、声紋分析を行うことにより、解析対象のデジタル音声信号の特徴を抽出するものとして説明する。
そして、音声特徴解析部143は、今回抽出した音声の特徴(声紋データ)と、過去に抽出した音声の声紋データとを比較し、入力された音声信号から抽出した特徴が、これまでの音声の特徴から変化したか否かを判断し、その判断結果をCPU101に対して通知するので、これに基づき、CPU101は、集音音声の特徴が変化したか否かを判断する(ステップS112)。
ステップS112の判断処理において、変化がなかったと判断したときには、CPU101は、ステップS105からの処理を繰り返し、次の周期(次の処理単位)の音声信号についても、上述したステップS105からステップS112までの処理を行うようにする。
ステップS112の判断処理において、変化があったと判断したときには、CPU101は、「話者が切り替わった」と判断し、ファイル処理部110に対して、処理対象の音声信号上の音声の特徴の変化点にマークを付することを指示する(ステップS113)。これにより、ファイル処理部110は、データ記録装置111上のデータベース領域111(1)に当該音声ファイル111(2)に関する情報として、音声の特徴に変化のあった場所を示す情報として、当該音声ファイル111(2)の先頭からの時刻情報、あるいは、記録位置に対応するアドレス情報を書き込む。この場合、音声ファイルと音声の特徴に変化のあった場所を示す情報とは対応付けられて記憶される。
このステップS113の処理の後、CPU101は、ステップS105からの処理を繰り返し、次の周期(次の処理単位)の音声信号についても、上述したステップS105からステップS112までの処理を行うようにする。
そして、ステップS105の判断処理において、ユーザがSTOPキー213を押下操作したと判断したときには、CPU101は、ファイル処理部110に対してデータ記憶装置111の音声ファイル111(2)へのデータの書き込みの停止を、データ圧縮処理部141に対して圧縮処理の停止を、A/Dコンバータ132に対してデジタル信号への変換の停止を指示する等の所定の終了処理を行って(ステップS114)、この図4に示す処理を終了する。
なお、音声特徴解析部143において行われる音声の特徴が変化したか否かの判断は、過去に抽出した音声の特徴データ(声紋データ)を保持しておき、これと新たに抽出した特徴データ(声紋データ)とを比較することにより行う。この場合、直前の1つの特徴データだけと比較するだけでよいのであれば、過去の特徴データは、常に直前の1つだけを保持しておけばよい。しかし、精度を向上させるため、過去の2つ以上の特徴データと比較し、2つ以上の違いが生じた場合に特徴が変化したと判断するようにする場合には、2つ以上の過去の特徴データを保持しておく必要がある。
このように、この第1の実施の形態のICレコーダは、集音して録音する音声信号の特徴解析を行い、その集音音声信号の特徴の変化点を検出して、その変化点に相当する集音音声信号上の位置にマークを付すようにすることができるものである。
[再生処理について]
次に、再生処理について説明する。図5は、この第1の実施の形態のICレコーダにおいて行われる再生処理を説明するためのフローチャートである。図5に示す処理は、CPU101が各部を制御することにより行われる処理である。
この第1の実施の形態のICレコーダの再生処理においては、図4を用いて説明したように、録音処理時に付される集音音声(集音して録音する音声)の特徴の変化点に付されたマークを利用して、録音された音声信号から迅速に目的とする音声信号部分を検出することができるようにしている。
この第1の実施の形態のICレコーダは、電源が投入された状態にあり、動作していないときには、ユーザからの操作入力待ちとなる(ステップS201)。ユーザが操作部121にある操作キーを押下すると、入力処理部120がそれを検知し、CPU101に通知するので、CPU101は、受け付けた操作入力は、PLAYキー212の押下操作か否かを判断する(ステップS202)。
ステップS202の判断処理において、受け付けた操作入力は、PLAYキー212の押下操作ではないと判断したときには、CPU101はユーザにより操作されたキーに応じた処理、例えば、RECキー212に応じた録音処理、NEXTキー124に応じた次のマークへの位置付け処理、PREVキー215に応じた1つ前のマークへの位置付け処理などを行うことになる(ステップS203)。もちろん、早送り処理や早戻し処理などを行うこともできるようにされている。
ステップS202の判断処理において、受け付けた操作入力は、PLAYキーの押下操作であると判断したときには、CPU101は、ファイル処理部110にデータ記録装置111上の音声ファイル111(2)の読み出しを指示する(ステップS204)。そして、CPU101は、キー操作部121のSTOPキー(停止キー)213が押下操作されたか否かを判断する(ステップS205)。
ステップS205の判断処理において、STOPキー213が操作されたと判断したときには、後述もするように、所定の終了処理を行って(ステップS219)、この図5に示す処理を終了することになる。
ステップS205の判断処理において、STOPキー213が操作されていないと判断したときには、CPU101はファイル処理部110を制御し、データ記憶装置111の音声ファイル111(2)に記憶されている圧縮されたデジタル音声信号をシステムで規定された所定の処理単位の量だけ読み出し、RAM103の圧縮データ領域103(1)に書き込むようにする(ステップS206)。
書き込みが終了すると、これがCPU101に通知されるので、CPU101は、データ伸張処理部142に対して、RAM103の圧縮データ領域103(1)の圧縮されたデジタル音声信号の伸長処理を行うことを指示し、データ伸張処理部142によって圧縮されたデジタル音声信号の伸張処理を行って、RAM103のPCMデータ領域103(2)に書きこむようにする(ステップS207)。
書き込みが終了すると、これがCPU101に通知されるので、CPU101は、D/Aコンバータ134に対し、RAM103のPCMデータ領域103(2)に格納されたデジタル音声信号(伸張されたデジタル音声信号)をアナログ音声信号に変換し、スピーカ133に供給するように制御する。
これにより、データ記憶装置111の音声ファイル111(2)に記憶保持されているデジタル音声信号に応じた音声が、スピーカ133から放音するようにされる。そして、D/Aコンバータ134は、D/A変換したアナログ音声信号を出力したことをCPU101に通知してくるので、CPU101は、キー操作部121の操作キーが操作されたか否かを判断する(ステップS209)。
ステップS209の判断処理において、操作キーは操作されていないと判断したときには、ステップS205からの処理を繰り返し、データ記憶装置111の音声ファイル111(2)のデジタル音声信号の再生を続行する。
ステップS209の判断処理において、操作キーが操作されたと判断したときには、CPU101は、操作されたキーは、PREVキー215か否かを判断する(ステップS210)。ステップS210の判断処理において、PREVキー215が操作されたと判断したときには、CPU101は、ファイル処理部110に対して音声ファイル111(2)からのデジタル音声信号の読み出しの停止を指示し、データ伸張処理部142に対して伸長処理の停止を指示し、D/Aコンバータ134に対してアナログ信号への変換の停止を指示する(ステップS211)。
次に、CPU101は、ファイル処理部110にデータ記憶装置111のデータベース領域111(1)から現在再生している位置の直前のマークの情報(変化点情報)を読み出すよう指示し、その読み出されたマークの情報によって指示される音声信号上の位置に再生位置を位置付け、そこから再生を開始するようにし(ステップS212)、図3を用いて説明したように、位置付けに用いたマークの情報に応じた再生位置情報を表示して(ステップS213)、ステップS205からの処理を繰り返す。
ステップS210の判断処理において、操作されたキーは、PREVキー215ではないと判断されたときには、CPU101は、操作されたキーは、NEXTキー214か否かを判断する(ステップS214)。ステップS214の判断処理において、NEXTキー214が操作されたと判断したときには、CPU101は、ファイル処理部110を制御し、音声ファイル111(2)からのデジタル音声信号の読み出しの停止を、データ伸張処理部142に伸長処理の停止を、D/Aコンバータ134にアナログ信号への変換の停止を、それぞれ指示する(ステップS215)。
次に、CPU101は、ファイル処理部110にデータ記憶装置111のデータベース領域111(1)から現在再生している位置の直後のマークの情報(変化点情報)を読み出すよう指示し、その読み出されたマークの情報によって指示される音声信号上の位置に再生位置を位置付け、そこから再生を開始するようにし(ステップS216)、図3を用いて説明したように、位置付けに用いたマークの情報に応じた再生位置情報を表示して(ステップS217)、ステップS205からの処理を繰り返す。
ステップS214の判断処理において、操作されたキーは、NEXTキー214ではないと判断されたときには、CPU101は、操作されたキーに応じた処理、例えば、早送り、早戻しなどの操作されたキーに応じた処理を行って、ステップS205からの処理を繰り返す。
このように、録音時にICレコーダが音声の特徴に変化があったことを話者の切り替わりと判断し,その位置にマークを自動的につけることで,ユーザは再生時にPREVキー215、NEXTキー214を押下操作して簡単に各発言の先頭位置を呼び出すことが可能になり、議事録作成時において、ある発言を繰り返し再生させたいときや、重要な発言を見つけ出す際の手間が大幅に削減できる。すなわち、録音された音声信号中から、目的とする音声信号部分を迅速に検索することができる。
しかも、集音音声の特徴の変化点は自動検出され、その変化点へのマークの付与も自動的に行われるので、変化点へのマークの付与に関し、ユーザの手を煩わせることは一切ない。
[第1の実施の形態の変形例]
ところで、会議の様子を録音し、この録音に基づいて議事録を作成する場合、誰がどこで発言をしたかを、録音音声を再生することなく知ることができればより便利である。そこで、この変形例のICレコーダは、会議への出席者の音声の特徴解析結果である声紋データを、各出席者を識別するためのシンボルと対応付けて記憶させておくことによって、話者を特定できるマークを付すようにしたものである。
この変形例のICレコーダは、図1に示した第1の実施の形態のICレコーダと同様に構成されるものである。しかし、この変形例のICレコーダの例えば外部記憶装置の111やRAM103の記憶領域には、会議の出席者についての音声特徴データベースを形成するようにしたものである。なお、以下の説明においては、音声特徴データベースは、外部記憶装置111に形成するものとして説明する。
図6は、この変形例のICレコーダの外部記憶装置111の記憶領域に形成される音声データベースの一例を説明するための図である。図6に示すように、この例の音声データベースは、会議の出席者を識別するための識別子(例えば、登録順に応じたシーケンスナンバなど)と、会議の出席者の名前、会議の出席者の音声の特徴解析結果である声紋データ、会議の出席者の顔写真などの画像データ、会議の出席者のそれぞれに割り当てられたアイコンデータ、その他、テキストデータなどからなるものである。
声紋データ、画像データ、アイコンデータ、その他のデータのそれぞれは、ファイルの形式で外部記憶装置111に記憶されており、それが会議の各出席者の識別子をキー情報(対応付け情報)として記憶保持されている。なお、特徴解析結果である声紋データは、会議に先だって、会議の出席者の音声を集音し、特徴解析を行うことにより予め得るようにしたものである。
すなわち、この例のICレコーダは、音声データベース作成モードを有するものである。そして、音声データベース作成モードが選択された場合には、会議の出席者の音声を集音し、この集音音声の特徴解析を音声特徴解析部143で行って声紋データを得て、この声紋データをシーケンスナンバなどの識別子と対応付けて、外部記憶装置111の記憶領域に記憶することができるものである。
識別子と声紋データ以外の情報である、名前、画像データ、アイコンデータなどの情報は、接続端子145に接続される例えばパーソナルコンピュータなどを通じて、この例のICレコーダに供給され、図6に示したように、対応する識別子、声紋データと関連付けられて記憶保持するようにされる。もちろん、名前などは、ICレコーダのキー操作部121に設けられている操作キーを操作して入力することも可能である。また、画像データは、接続端子145に接続されるデジタルカメラから取り込むことも可能である。
そして、この例のICレコーダもまた、図1、図2および図4を用いて説明したように、集音音声の特徴解析を行って、声紋データの変化点を検出し、その変化点に対応する音声信号上の位置にマークを自動的に付与していくのであるが、変化点を検出した場合に、最新の集音音声の声紋データと、音声データベースの声紋データとのマッチングを行い、声紋データが一致した会議の出席者の識別子を付与するマークに含めるようにしている。
図7は、この変形例のICレコーダにおいて行われる集音して録音する音声信号にマークを付す処理の概要を説明するための図である。基本的にマークを付す処理は、図2を用いて説明した場合と同様に行なわれる。しかし、マークには、話者の識別子が付加される。
図7に示すように、会議の様子を録音するようにした場合、録音開始から10秒後に、Aさんが発言を始めたとする。この場合、Aさんの発言の開始前は、無音、あるいは、ざわめきや椅子を引く音、テーブルに何かがあたる音など、明瞭な話音声とは異なるいわゆる雑音などの無意味な音声が集音されているので、集音した音声信号の特徴解析結果は、Aさんが発言を始める前とは明らかに異なることになる。この変化点の音声信号上の位置を特定(取得)して、この特定した変化点情報を図7におけるマークMK1として記憶保持する。
この場合に、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者(会議の出席者)の識別子をマークMK1に含めるようにする。なお、図7においても、録音開始からの経過時間を変化点情報として記憶保持している場合を示している。
そして、Aさんの発言が終了した後、少し間をおいて、Bさんが発言を始めたとする。このBさんの発言の直前も、無音あるいは雑音であったとする。この場合にも、Bさんが発言を始め、それが集音されることにより、集音した音声信号の特徴解析結果は、Bさんが発言を始める前とは明らかに異なることになり、図7において、マークMK2が示すように、Bさんの発言の開始部分にマークを付すように、変化点情報(マークMK2)を記憶保持する。
この場合にも、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者(会議の出席者)の識別子をマークMK2に含めるようにする。
さらに、Bさんの発言の途中でCさんが割って入ったような場合も発生するが、この場合には、Bさんの話し声とCさんの話し声とでは異なっているために、集音した音声信号の解析結果も異なることになり、図7において、マークMK3が示すように、Cさんの発言の開始部分にマークを付すように、変化点情報(マークMK3)を記憶保持する。
この場合にも、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者(会議の出席者)の識別子をマークMK3に含めるようにする。
このようにすることによって、録音した音声信号のどの部分が誰の発言部分であるかを特定することができるようにされ、例えば、Aさんの発言部分だけを再生するようにしてAさんの発言の要旨をまとめるなどのことが簡単にできるようになる。
なお、この変形例の各マークのその他の情報は、例えば、集音音声の音声認識を行って、集音音声をテキストデータに変換し、このテキストデータをその他の情報としてファイル形式(テキストデータファイル)で記憶保持するようにしている。このテキストデータを用いることにより、議事録や発言の要約を迅速に作成することができるようにされる。
そして、この変形例のICレコーダにおいても、図1、図3、図5を用いて説明した場合と同様にして、録音音声の再生を行うことができるようにされる。そして、この変形例のICレコーダの場合には、録音音声における各発言者の発言部分の録音音声を再生することなく特定することができるようにされる。
図8は、録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するLCD135の表示情報の変化を示す図である。図8に示すように、PLAYキー211が押下操作されると、上述もしたように、CPU101は各部を制御し、指示された録音音声信号の先頭から再生を開始するようにする。
そして、Aさんの発言部分においては、図7を用いて説明したように、録音処理時に付された(記憶保持された)マークMK1に基づいて、図8Aに示すように、Aさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。
そして、再生が続行され、Bさんの発言部分の再生が開始されると、録音時に付されたマークMK2に基づいて、図8Bに示すように、Bさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。
この後、PREVキー215が押下操作されると、CPU101は、図8Cに示すように、開始時刻が先頭から10秒後(0分10秒後)のマークMK1が示すAさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、図8Aの場合と同様に、Aさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。
この後、NEXTキーが押下操作されると、CPU101は、図8Dに示すように、開始時刻が先頭から1分25秒後のマークMK2が示すBさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、図8Bの場合と同様に、Bさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。
さらに、NEXTキーが押下操作されると、CPU101は、図8Eに示すように、開始時刻が先頭から2分30秒後のマークMK3が示すCさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、Cさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。
なお、この変形例において、例えばAさんの発言部分を再生中にNEXTキーまたはPREVキーをすばやく2回押下すると、次にAさんの発言部分が出現する部分またはこれ以前にAさんの発言部分が出現した部分に再生位置を位置付け、そこから再生を開始するモードを付加してもよい。つまり、この操作を繰り返すことにより、Aさんの発言部分のみを辿って、あるいは遡って再生させることができる。もちろん、NEXTキーやPREVキーではなく、このモードを明示的に示す操作キーを設けてもよく、その場合には自動的に次々とAさんの発言部分が再生されるようにする。
このように、この変形例のICレコーダは、録音処理時において、集音した音声信号の特徴解析を自動的に行い、特徴の変化点にマークを付与するようにすると共に、再生処理時においては、NEXTキー214、PREVキー215を操作することによって、付与されたマークが示す録音された音声信号上の位置に再生位置をすばやく位置付けて、そこから再生を行うようにすることができるものである。
しかも、録音された音声信号の変化点においては、誰の発言部分であるかを、話者の名前の表示や顔写真の表示により明確に示すことができるので、目的とする話者の発言部分を迅速に検索することができると共に、特定の話者の発言部分のみを再生するようにするなどのことが簡単にできる。もちろん、話者を特定するための情報として、各話者に固有のアイコンデータに応じたアイコンを表示するようにしてもよい。また、発言の最初の部分のテキストデータを表示することもできるので、目的とする発言部分か否かを判断する際に役立てることができる。
そして、この変形例のICレコーダのユーザは、再生時の表示情報をも利用して、目的とする人の発言部分に再生位置を迅速に位置付けて、録音した音声信号を再生して聴取することができるので、目的とする発言部分の議事録を迅速に作成することができる。
換言すれば、録音後に録音音声信号をいちいち再生することなく、どこに誰の発言があるのかを視覚的に把握することができ、特定の話者の発言を簡単に探し出すことが可能になる。シンボルには文字列や記号の他に話者の顔写真など、より話者を特定し易くできるような情報が利用できるので、検索性が向上する。
また、音声の特徴が未登録の話者(登録済みであってもICレコーダが識別できなかった場合)の発言には未登録話者であることを意味するシンボルを対応付けておくことで、その部分を見つけ易くできる。この場合、議事録作成者は、未登録話者の発言部分を再生し、それが誰であるかを判断すればよい。
未登録話者が誰であるかがわかったときには、それが登録済みの話者であったならば、その話者に対応付けられたシンボルをマークとして付け直せるようにすることもできる。また、未登録の話者であった場合は,話者の新規登録操作を行えるようにすることもできる。音声の特徴は録音音声から抽出し、対応付けるシンボルはICレコーダに予め登録済みの記号や文字列入力、ICレコーダにカメラ撮影機能があれば撮影した画像,または外部機器から取り込んだ画像データなどを用いる。
なお、この変形例のICレコーダの録音処理は、図4を用いて説明した録音処理と同様に行われるが、ステップS113の話者の切り替わりのマークMK1、MK2、MK3、…を付与する処理において、音声データベースの声紋データとのマッチングを行って、該当する話者の識別子が付加するようにされる。また、該当する声紋データが無かった場合には、該当なしを示すマークが付与されることになる。
また、この変形例のICレコーダの再生処理は、図5を用いて説明した再生処理と同様に行われるが、ステップS213、ステップS217の再生位置情報の表示処理において、話者の顔写真や氏名、発言内容のテキストデータなどが表示するようにされることになる。
なお、この変形例のICレコーダの場合にも、変化点情報として、録音開始時点からの時刻を用いるようにしたが、これに限るものではなく、録音された音声信号のデータ記憶装置111の記録媒体上のアドレスを変化点情報として用いるようにしてもよい。
[マーク付与処理の実行タイミングについて]
上述した第1の実施の形態のICレコーダ、第1の実施の形態の変形例のICレコーダにおいては、録音処理時に集音音声の変化点を検出し、その変化点に対応する音声信号上の位置にマークを付すようにしたが、これに限るものではない。録音処理終了後において、マークを付すようにすることができる。すなわち、再生処理時にマークを付すようにしたり、あるいは、マーク付与処理だけを行うようにしたりすることが可能である。
図9は、録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を説明するためのフローチャートである。すなわち、図9に示す処理は、再生処理時において録音音声の変化点にマークを付すようにする場合、あるいは、録音音声の変化点に対してマーク付与処理だけを独立に行う場合において行われるものである。この図9に示す処理もまた、ICレコーダのCPU101が各部を制御することにより行なわれる処理である。
まず、CPU101は、ファイル処理部104を制御して、データ記憶装置111の音声ファイルにデータ圧縮されて記憶されている録音音声信号を所定単位分づつ読み出し(ステップS301)、全ての録音音声信号の読み出しを終了しているか否かを判断する(ステップS302)。
ステップS302の判断処理において、全ての録音音声信号が読み出されていないと判断したときには、CPU101は、データ伸張処理部142を制御して、データ圧縮されている録音音声信号の伸張処理を行う(ステップS303)。この後、CPU101が、音声特徴解析部143を制御して、伸張した音声信号の特徴解析を行って、声紋データを得て、先に取得した声紋データと比較することによって、録音音声信号の特徴が変化したか否かを判断する(ステップS305)。
ステップS305の判断処理において、録音音声信号の特徴は変化していないと判断したときには、ステップS301からの処理を繰り返すようにする。また、ステップS305の判断処理において、録音音声信号の特徴が変化したと判断したときには、CPU101は、「話者が切り替わった」と判断し、ファイル処理部110に音声の特徴に変化があった場所にマークを付加することを指示する(ステップS306)。
これにより、ファイル処理部110は、データ記録装置111上のデータベース領域111(1)に当該音声ファイル111(2)に関する情報として、音声の特徴に変化のあった場所を示す情報として、ファイルの先頭からの時刻情報、あるいは、記録位置に対応するアドレス情報を書き込む。この場合、音声ファイルと音声の特徴に変化のあった場所を示す情報とは対応付けられて記憶される。
このステップS306の処理の後、CPU101は、ステップS301からの処理を繰り返し、次の周期(次の処理単位)の音声信号についても同様の処理を行う。そして、ステップS302の判断処理において、全ての録音音声信号について読み出しが終了していると判断したときには、所定の終了処理を行って(ステップS307)、この図9に示す処理を終了する。
これにより、録音処理後において、再生処理時に録音音声の変化点を検出し、当該録音音声信号に対してマークを付与するようにしたり、あるいは、録音音声に対してマーク付与処理だけを独立に行うようにしたりすることができる。再生処理時において、マークの付与を行う場合には、図9に示したステップS303で伸張処理された音声信号をD/A変換し、D/A変換後のアナログ音声信号をスピーカ133に供給するようにすればよい。
このように、録音後に録音音声信号の特徴の変化点に対してマークを付与するようにすることによって、録音時の処理の負荷と消費電力を軽減することが期待できる。また、ユーザがすべての録音において自動マーク付けを希望しない場合もある。録音時の自動マーク付け機能のオン/オフ設定ができるようにしてもよい。そして、ユーザがオフに設定したまま録音してしまった場合に、後でマーク付けが必要になった場合には、上述のようにして、録音処理後においても、録音音声信号に対してマーク付けができるので、非常に便利である。
また、上述したように、録音された音声信号に対するマーク付けが可能であるので、録音機能を持たないが信号処理機能を備えた機器への適用が可能になる。例えば、パーソナルコンピュータのアプリケーションソフトに、この発明を適用することも可能である。すなわち、音声録音機器で録音された音声信号をパーソナルコンピュータに転送し、このパーソナルコンピュータ上で動作する上述の信号処理アプリケーションソフトにより、マーク付けをすることができる。
また、この発明を適用した機器で作成したデータを、ネットワークなどを介して共有することで、このデータから議事録を書き起こすことなく、このデータそのものを議事録として用いることも可能になる。
したがって、この発明は、録音機器だけでなく、信号処理が可能な種々の電子機器に適用可能であり、既に録音済みの音声信号であっても、この発明を適応したで電子機器で処理することにより、同様の結果を得ることができる。すなわち、議事録の作成を効率的に行うことができるようにされる。
また、上述もしたように、図1を用いて説明した第1の実施の形態のICレコーダは、通信I/F144を備えており、パーソナルコンピュータなどの電子機器に接続可能である。そこで、上述した第1の実施の形態のICレコーダで録音されると共に、変化点にマークが付すようにされた音声信号(デジタル音声信号)をパーソナルコンピュータに転送するようにすれば、パーソナルコンピュータの大きな表示画面の表示装置を通じて、詳細情報をより多く表示し、目的とする発言者の発言部分を迅速に検索することができる。
図10、図11は、上述した第1の実施の形態のICレコーダからパーソナルコンピュータに転送された録音音声信号、付与された変化点情報(マーク情報)に基づいて、パーソナルコンピュータに接続された表示装置200の表示画面への変化点情報の表示例を説明するための図である。
図10の場合には、録音音声信号に対応する時間帯表示201と、その時間帯表示201の該当位置に、マーク表示(変化点表示)MK1、MK2、MK3、MK4、…を表示するようにする。このようにすれば、複数の変化点の位置を一見して認識することができる。そして、例えばマウスなどのポインティングデバイスを用いて、目的とするマーク表示にカーソルを位置付けてクリックすることにより、その位置から録音音声の再生を行うようにすることなどができるようにされる。
また、図11の場合には、図8に示した表示を、表示装置200の表示画眼に複数個いっぺんに表示するようにしたものであり、話者の顔写真211(1)、211(2)、211(3)、…や発言内容に応じたテキストデータ212(1)、212(2)、212(3)、…を表示して、目的とする話者の発言部分を迅速に検索するなどのことができるようにされる。また、パーソナルコンピュータの機能を用いて、タイトル表示210を行うようにすることもできる。
なお、図11の表示例の場合、左側の「00」、「01」、「02」、「03」、…は、録音音声の先頭からの時間を示すものである。もちろん、図8に示したような表示を複数個行うようにするなど、種々の表示態様の実現が可能である。
そして、発言(録音音声)とその発言者を識別する情報(シンボル)とが対応付けられたデータをパーソナルコンピュータなど表示部が大きい機器に転送すれば、音声データから文章を書き起こさなくても議事録が作成できる。つまり、この発明を適用したICレコーダで録音したデータそのものが議事録になっていることになる。
また、そのデータを Webページで公開し、Webブラウザで閲覧できるようにするプラグイン(plug-in)のようなソフトウェアを用意すれば、ネットワークを通じて議事録を共有することが可能になる。これにより情報の共有、すなわち、情報を公開するまでの手間と時間が、この発明を用いることにより、大幅に削減できる。
[第2の実施の形態]
[ICレコーダの構成と動作の概要]
図12は、この第2の実施の形態の記録再生装置であるICレコーダを説明するためのブロック図である。この第2の実施の形態のICレコーダは、2つのマイクロホン131(1)、131(2)と、これら2つのマイクロホン131(1)、131(2)からの音声信号を処理する音声信号処理部136を備える点を除けば、図1に示した第1の実施の形態のICレコーダと同様に構成されるものである。このため、この第2の実施の形態のICレコーダにおいて、図1に示した第1の実施の形態のICレコーダと同様に構成される部分には同じ参照符号を付し、その部分の詳細な説明については省略することとする。
そして、この第2の実施の形態のICレコーダにおいては、2つのマイクロホン131(1)、131(2)のそれぞれからの集音音声信号を音声信号処理部136において処理することにより、話者の位置(音源の位置)を特定するようにし、これをも考慮して集音した音声信号の変化点(話者の変化点)を特定することができるようにしたものである。すなわち、音声解析の結果得られる声紋データを用いた集音音声信号の変化点検出を行う場合の補助情報として、2つのマイクロホンの集音音声に基づく、話者の位置をも用いて、より正確に、変化点や話者を特定することができるようにしたものである。
図13は、マイクロホン131(1)、131(2)と、音声信号処理部136との構成例を説明するための図である。この図13に示す例の場合、2つのマイクロホン131(1)、131(2)のそれぞれは、図13にそれらの指向特性を示したように、いずれも単一指向性のものである。そして、マイクロホン131(1)、131(2)は、主指向方向が逆向きとなるように背中あわせに近接配置されている。これにより、マイクロホン131(1)は発言者Aの音声を良好に集音し、マイクロホン131(2)は発言者Bの音声を良好に集音することができるようにされる。
そして、音声信号処理部136は、図13に示したように、加算器1361と、コンパレータ(比較器)1362と、A/Dコンバータ1363とを備えたものである。そして、マイクロホン131(1)、131(2)のそれぞれ集音された音声信号は、加算器1361と、コンパレータ1362に供給される。
加算器1361は、マイクロホン131(1)からの集音音声信号と、マイクロホン131(2)からの集音音声信号とを加算し、加算後の音声信号をA/Dコンバータ1363に供給する。マイクロホン131(1)からの集音音声とマイクロホン131(2)からの集音音声の加算信号は、次の(式1)のように表すことがで、無指向性マイクで集音したものと同じになることが分かる。
((1+cosθ)/2)+((1−cosθ)/2)=1 …(1式)
また、コンパレータ1362は、マイクロホン131(1)からの集音声信号と、マイクロホン131(2)からの集音音声信号とを比較する。そして、コンパレータ1362は、マイクロホン131(1)からの集音音声信号のレベルの方が大きければ、発言者Aが主に発言していると判断し、値が「1(ハイレベル)」となる話者判別信号を制御部100に供給する。また、コンパレータ1362は、マイクロホン131(2)からの集音音声信号のレベルの方が大きければ、発言者Bが主に発言していると判断し、値が「0(ローレベル)」となる話者判別信号を制御部100に供給する。
これにより、マイクロホン131(1)からの集音音声信号と、マイクロホン131(2)からの集音音声信号とに基づいて、話者の位置を特定するようにし、発言者Aの発言か発言者Bの発言かを判別することができるようにしている。
なお、3人目の発言者Cが、マイクロホン131(1)、131(2)の主指向方向と交差する方向(図13において、発言者A、発言者Bをそれぞれ斜め前方に見る位置(図13の横方向))から発言した場合には、マイクロホン131(1)、131(2)からの集音音声の出力レベルはほぼ等しくなる。
このような位置にある発言者Cについても対応する場合には、コンパレータ1362における閾値を2つ設けて、レベル差が±Vth以内なら横方向にいる発言者Cによる発言であると判断し、レベル差が+Vthより大きければ発言者Aであり、レベル差が−Vthより小さければ発言者Bであると判断するようにしてもよい。
そして、マイクロホン131(1)の指向方向に位置する発言者、マイクロホン131(2)の指向方向に位置する発言者、マイクロホン131(1)、131(2)の指向方向と交差する方向に位置する発言者のそれぞれが誰であるかを把握しておくことにより、発言者(話者)が誰であるかを識別することができるようにされる。したがって、集音音声の特徴解析の結果得られる声紋データによる変化点検出の他に、マイクロホンの集音音声のレベルをも考慮することにより、発言者の特定をより正確に行うようにすることができる。
[マイクロホンと音声信号処理部の他の例]
また、マイクロホン131(1)、131(2)と音声信号処理部136とは、図14に示すように構成することもできる。すなわち、図14は、マイクロホン131(1)、131(2)と、音声信号処理部136との他の構成例を説明するための図である。この図14に示す例の場合、2つのマイクロホン131(1)、131(2)のそれぞれは、図14にそれらの指向特性を示したように、いずれも無指向性のものである。マイクロホン131(1)、131(2)は、例えば1cm位離間して近接配置するようにする。
また、図14に示したように、この例の音声信号処理部136は、加算器1361、A/Dコンバータ1363、減算器1364、位相比較器1365を備えたものである。そして、マイクロホン131(1)、131(2)のそれぞれからの集音音声信号は、加算器1361と減算器1364とのそれぞれに供給される。
ここで、加算器1361からの加算出力信号は、無指向性マイク出力と等価であり、減算器1364からの減算出力は、両指向性(8の字型指向性)マイク出力と等価である。両指向性マイクは、その音波の入射方向により出力の位相が正相または逆相になる。そこで、加算器1361からの加算出力(無指向性出力)と、減算器1364からの減算出力との間で位相コンパレータ1365により位相比較を行うことにより、減算器1364からの減算出力の極性を判断することにより発言者を特定できる。
すなわち、減算器1364からの減算出力の極性が正相の場合には、発言者Aの発言を集音しており、減算器1364からの減算出力の極性が逆相の場合には、発言者Bの発言を集音していると判断することができる。
また、図13を用いて説明した場合と同様に、発言者A、発言者Bのそれぞれを斜め前方に見る位置(図14の横方向)に位置する発言者Cの発言をも判断しようとする場合には、当該発言者Cの発言を集音した音声信号の減算出力は、そのレベルが小さくなる。そこで、加算器1361からの加算出力と、減算器1364からの減算出力とのレベルをチェックすることで、発言者Cの発言をも認識することが可能となる。
なお、図14に示した音声信号処理部136の場合には、加算器1361を用いるようにした。しかし、加算器1361は必須の構成要素ではない。例えば、マイクロホン131(1)、または、131(2)のいずれか一方の出力信号を、A/Dコンバータ1363と、位相比較器1365とに供給するようにしてもよい。
このように、図13、図14は、録音処理時において、2つのマイクロホン131(1)、131(2)の集音音声のレベルや極性を用いて、発言者の位置を特定することができるようにしている。そして、この特定結果をも考慮することにより、集音音声の変化点の検出、および、発言者の特定を精度良く行うことができるようにしている。
そして、図13、図14を用いた方式は、録音処理時だけでなく、再生処理時に録音音声に対してマークを付与する場合や、録音音声に対してマーク付与処理だけを独立に行う場合にも利用することができる。
例えば、図13を用いて説明した方式を録音処理後において利用しようとする場合に置いては、図15Aに示すように、単一指向性のマイクロホン131(1)、131(2)のそれぞれからの集音音声信号を2チャンネルステレオ録音する。そして、図15Bに示すように、再生時、あるいは、マーク付与処理を独立に行う場合において、外部記憶装置111から読み出されるデータ圧縮された2チャンネルの音声信号のそれぞれを伸張処理し、伸張処理後の2チャンネルの音声信号を図13に示したコンパレータ1362と同様の機能を有するコンパレータに入力する。
これにより、マイクロホン131(1)の集音音声信号が主に用いられたか、マイクロホン131(2)の集音音声信号が主に用いられたかを判別することができ、この判別結果と、予め把握されている各マイクロホンに対する発言者の位置とに基づいて、発言者を特定することができる。
なお、図14を用いて説明した方式を録音処理後において利用しようとする場合においても同様に、マイクロホン131(1)、131(2)からの出力信号を2チャンネルステレオ録音し、再生時やマーク付与処理を独立に行う場合において、図14に示した音声信号処理部136と同様の処理を行うことによって、発言者を特定することができる。
そして、マイクロホン131(1)、131(2)からの出力信号を用いた発言者の特定処理を行う場合に予め用意するマイクロホン131(1)、131(2)のそれぞれに対する発言者の位置情報は、例えば、図16に示す話者位置データベースのようにして、ICレコーダに記憶保持されておくようにすればよい。
図16は、話者位置データベースの一例を説明するための図である。この例の話者位置データベースは、ICレコーダの音声信号処理部136からの識別結果に対応する話者識別信号と、各話者識別信号に対応するマイクロホンの識別情報と、各マイクロホンを主に用いる発言者候補の識別子(話者識別子)からなるものである。また、図16に示したように、1つのマイクロホンに対して、話者識別子は複数個登録することができるようにしている。
この図16に示すような話者位置データベースは、好ましくは、会議の始まる前に作成しておく。一般に、会議への出席者や各出席者の席順は予め決まっている場合が多いので、ICレコーダの設置位置を考慮して、会議の始まる前に話者位置データベースを作成することが可能である。
また、会議への出席者の急な変更や、会議中において、座席が変更になった場合においては、例えば、マイクロホンの集音音声に応じた発言者の認識は行わないようにし、音声解析処理により得た声紋データによる変化点の検出だけを行うようにしたり、あるいは、録音処理後において、話者位置データベースを調整して正確なものとし、録音音声に対して、マークの付け直しを行うようにしたりすることもできる。
この図16に示すような話者位置データベースを用いることにより、話者位置を特定し、その位置の話者自体をも特定することができるようにされる。
なお、この第2の実施の形態においては、2つのマイクロホン131(1)、131(2)を用い、発言者も2人または3人である場合を例にして説明したが、これに限るものではない。用いるマイクロホンを多くすることにより、より多くの発言者の識別を行うことが可能である。
また、マイクロホンからの出力信号に応じて、発言者の位置を特定することにより、発言者自身を特定する方式としては、図13、図14を用いて説明した方式に限るものではない。例えば、近接4点法や近接3点法などを用いるようにすることもできる。
近接4点法は、図17Aに示すように、必ず1つのマイクロホンが同一平面内にないようにして近接配置される4つのマイクロホンM0、M1、M2、M3で集音された音声信号の時間構造のわずかな違いに着目して、短時間相関あるいは音響インテンシティなどの手法により、音源の位置や大きさなどの空間情報を算出するようにする手法である。このように、少なくとも4つのマイクロホンを用いることにより、発言者の位置を正確に特定し、その発言者の位置(座席位置)に応じて、発言者を特定することも可能である。
また、発言者がほぼ水平面内に位置すると限定して差し支えない場合には、近接配置されるマイクロホンの配置関係は、図17Bに示すように水平面内の3つでよい。
また、図17A、Bに示したように、各マイクロホンの配置関係は、直交関係とならなくてもよい。図17Bに示した近接3点法の場合には、3つのマイクロホンが、例えば正三角形の頂点に配置されるような位置関係となるようにしてもよい。
[第2の実施の形態の変形例]
上述した第2の実施の形態のICレコーダにおいては、音声解析の結果得られる声紋データを用いた集音音声信号の変化点検出を行う場合に、2つのマイクロホンの集音音声に基づく、主に利用されているマイクロホンの判別結果をも考慮することによって、音声信号の変化点の検出をより精度良く行うようにした。しかし、これに限るものではない。
例えば、図18に示すように、2つのマイクロホン131(1)、131(2)と、音声信号処理部136は備えるが、音声特徴解析部143を備えないようにしたICレコーダを構成することも可能である。すなわち、図18のICレコーダは、音声特徴解析部143を備えない点を除けば、図12に示した第2の実施の形態のICレコーダと同様に構成されるものである。
そして、2つのマイクロホン131(1)、131(2)の集音音声に基づく、主に利用されているマイクロホンの判別結果のみに基づいて、話者の変化点を検出し、その変化点に応じた音声信号上の対応する位置にマークを付すようにすることもできる。このようにした場合には、音声特徴解析処理を行う必要が無いので、CPU101にかかる負荷を軽減することができる。
なお、上述した実施の形態においては、処理対象の音声信号の変化点にマークを付すようにしたが、変化点であっても、話音声への変化点のみにマークを付すようにすることによって、より効率的に検索を行うようにすることができる。例えば、処理対象の音声信号の信号レベルや声紋データなどに基づいて、話音声とそれ以外の雑音などの不要部分とを明確に認識するようにし、話音声の開始点のみにマークを付すようにすることもできる。
また、声紋データや音声信号の周波数の特徴データなどに基づいて、話者が男性か女性かを判別して、変化点における話者の性別を通知するようにすることも可能である。
また、上述したように付されるマーク情報に基づいて、検索だけを行う用にする検索モードや、付されたマークの位置を変更したり、削除したり、追加したりするマーク編集モードや、また、付されたマークに応じて指定可能な話者の発言部分のみ、例えば、Aさんの発言部分のみを再生するようにする特殊再生モードなどを設けるようにすることもできる。これらの各モードの実現は、CPU101で実行するプログラムに追加のみによって比較的に簡単に実現可能である。
また、図6に示した音声特徴データベースの声紋データを、変化点の検出に用いた声紋データによって更新し、精度の高い音声特徴データベースにするなど、データベースの更新機能を持たせるようにしてもよい。例えば、声紋データの比較処理において不一致であっても、実際にその発言者の音声特徴データベースが存在している場合には、その発言者のデータベースの声紋データを新たに取得した声紋データに変更するようにすることができる。
また、声紋データの比較処理において一致しても、実際には違う話者の声紋データと一致してしまうような場合には、その異なる話者の声紋データを比較処理に用いないように設定するなどのこともできる。
また、声紋データが、複数の話者の声紋データと一致してしまうような場合には、正しい話者とだけ一致するように、用いる声紋データに優先順位を付けるようにしてももちろんよい。
また、マークを付す位置は、発言の開始点だけでなく、終了点に付すようにしてもよいし、その他、開始点から数秒後または数秒前などのユーザ個々の利便性を考慮して、変更できるようにすることも可能である。
また、音声信号の特徴解析は、上述もしたように、声紋解析だけでなく、種々の方法の1つ以上を用いることにより、精度の高い解析データを得るようにすることができる。
また、上述した第2の実施の形態においては、主に2つのマイクロホンを用いた場合を例にして説明したが、これに限るものではない。マイクロホンの数は2つ以上であれば、いくつでも良く、それら複数のマイクロホンの個々の集音音声の信号レベル、極性、また、集音までの遅延時間などの種々のパラメータを利用して、話者の位置を特定し、その位置に応じた話者自身を特定できるようにすることができる。
また、上述した第1、第2の実施の形態においては、音声信号の記録再生装置であるICレコーダにこの発明を適用した場合を例にして説明したが、これに限るものではない。例えば、ハードディスクドライブやMDなどの光磁気ディスク、DVDなどの光ディスクなどの記録媒体を用いる記録装置、再生装置、記録再生装置にこの発明を適用することができる。すなわち、種々の記録媒体を用いる記録装置、再生装置、記録再生装置にこの発明を適用することが可能である。
[ソフトウェアによる実現]
また、上述した実施の形態のICレコーダの音声特徴解析部143、音声信号処理部136などの各処理部の機能を実現するようにすると共に、各機能を有機的に結びつけるようにするプログラムを作成し、このプログラムをCPU101において実行するようにすることによっても、この発明を実現することができる。すなわち、図4、図5のフローチャートに示した処理を行うプログラムを作成し、これをCPU101で実行させることにより、この発明を実現することができる。
また、上述した実施の形態と同様に、例えば音声特徴解析部143の機能を実現したプログラムがインストールされたパーソナルコンピュータに、録音機で録音した音声データを取り込み、話者の切り換わりを検出させることも可能である。
101…CPU、102…ROM、103…RAM、104…CPUバス、110…ファイル処理部、111…データ記憶装置、120…入力処理部、121…キー操作部、132…A/Dコンバータ、131…マイクロホン、134…D/Aコンバータ、133…スピーカ、135…LCD、141…データ圧縮処理部、142…データ伸張処理部、143…音声特徴解析部、144…通信I/F、145…接続端子、131(1)、131(2)…マイクロホン、136…音声信号処理部