JP2007256498A - 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム - Google Patents

音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム Download PDF

Info

Publication number
JP2007256498A
JP2007256498A JP2006079303A JP2006079303A JP2007256498A JP 2007256498 A JP2007256498 A JP 2007256498A JP 2006079303 A JP2006079303 A JP 2006079303A JP 2006079303 A JP2006079303 A JP 2006079303A JP 2007256498 A JP2007256498 A JP 2007256498A
Authority
JP
Japan
Prior art keywords
voice
data
audio
situation
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006079303A
Other languages
English (en)
Inventor
Noriyuki Hata
紀行 畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006079303A priority Critical patent/JP2007256498A/ja
Publication of JP2007256498A publication Critical patent/JP2007256498A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】複数の音源からの音声データを経時的に記録したデータを利用する際に、利用者に対して使い勝手の良い状態でデータを提供することにある。
【解決手段】録音サーバ101のネットワークI/F4は、ネットワーク100で通信される多地点音声会議の音声ファイルを取得する。音声ファイルには収音された装置を表す装置データ、収音方位を表す方位データ、収音時間を表す時間データが添付されている。音声ファイルは記録部3の音声ファイル記録部31へ装置毎に記録される。音声状況データ生成部2は、音声ファイルの方位データと時間データとに基づいて音声ファイルを区分化するための音声状況データを生成して記録部3に与え、音声状況データは記録部3の音声状況データ記録部32に記録される。議事録作成者が会議後に録音サーバ101にアクセスすると、音声状況データに基づいて音声ファイルを区分化されて表示され、編集可能となる。
【選択図】図3

Description

この発明は、会議音声等の音声を記録して利用する装置およびシステムに関するものである。
多地点をネットワークで結んで音声会議を行う音声会議システムが各種考案されている(例えば、特許文献1参照)。
このような音声会議システムでは、会議を行う各地点(会議室)に音声会議装置が配置され、各音声会議装置に対して一人または複数の会議者が在席する。各音声会議装置は、自室内の会議者の発言を収音して音声データ化し、ネットワークを介して相手先の音声会議装置に送信する。また、各音声会議装置は、相手先の音声会議装置からの音声データを受信すれば音声化して放音する。
そして、特許文献1に記載の音声会議システムでは、RFIDタグとマイクとを各会議者の近傍に配置し、音声会議装置は、マイクで収音すると、収音音声信号と対応するRFIDタグにより得られる会議者情報とを関連付けして送信する。
この音声会議システムには録音サーバが備えられており、録音サーバに録音される収音音声信号には前記会議者情報が関連付けされている。
特開2005−80110公報
特許文献1に記載の音声通信システムでは、会議後に会議参加者の1人が議事録作成等のために、録音サーバにパソコン等を接続して記録された音声データを再生すると、関連付けされた会議者情報が表示される。
しかしながら、特許文献1の音声通信システムでは、単に時系列で録音サーバに記憶された音声データを選択することで、対応する会議者を初めて知ることができるため、特定の会議者の発言を抽出したり、記録された会議の全体の流れ(状況)を把握したりすることが容易ではできなかった。
また、音声データや会議者情報から得られる音声状況(会議状況)に基づいて各音声データを区分化する等の編集を行い、この音声状況を記憶しておくことができなかった。
このため、会議後等に録音サーバに記録された音声データを利用する際に、利用者が使い辛いものとなってしまっていた。
したがって、この発明の目的は、多地点音声会議後に議事録を作成する等のように、複数の音源からの音声データを経時的に記録したデータを利用する際に、利用者に対して使い勝手の良い状態でデータを提供することにある。
この発明の音声状況データ生成装置は、音声データと当該音声データの話者を識別する話者識別データとを経時的に取得するデータ取得手段と、音声データの話者毎の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、音声データおよび音声状況データを記憶する記憶手段と、を備えたことを特徴としている。
この構成では、データ取得手段で音声データと話者識別データとを経時的に取得して記憶手段でこれらのデータを記憶する。また、音声状況データ生成手段は、取得した音声データの時間データと話者識別データとから、話者毎に音声データが時間区分される。この音声データの各区分と時間データと話者識別データとの関係が音声状況データとして生成され、音声データとともに記憶手段に記憶される。このように話者と時間とにより音声データを区分して識別可能にすることで、後述する可視化、編集、再生の際に各区分の音声データを容易に識別できる。
特に、この発明の音声状況データ生成装置は、話者識別データを音声の到来方向を検出した方位データとすることを特徴としている。
この構成では、検出できる各方位に話者がいるものとして関連付けし、取得した方位データを話者識別データとする。
具体的に、音声会議の議事録作成の場合であれば、議事録作成者が会議後にこれらのデータを利用する際に、方位データにより会議者が識別され、時間データにより発言時間が識別されるので、各会議者の発言タイミングが容易に識別される。さらに、会議全体の発言状況(会議の流れ)が容易に識別される。
また、この発明の音声状況可視化装置は、前述の音声状況データ生成装置の各手段と、音声状況データに基づいて音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、を備えたことを特徴としている。
この構成では、表示手段により、時間区分化された音声データが話者別(方位別)で時系列にグラフ表示されることで、利用者へ視覚的に音声状況が提供される。表示手段とは、具体的に液晶ディスプレイ等の表示器と、表示器上に画像を映し出す制御部および表示アプリケーションとを有し、制御部が表示アプリケーションを実行することで、音声状況データに基づいて、音声データ全体を話者別(方位別)で時系列に区分してなる区分化音声データがタイムチャートのように表示される。これにより、利用者に対して、音声状況がより分かりやすく提供される。
具体的に、前述の音声会議の議事録作成の場合であれば、各会議者の発言タイミングや会議全体の発言状況がタイムチャート等で表示され、議事録作成者へ視覚的に提供される。これにより、議事録作成者に対して会議の発言状況等がより分かりやすく提供される。
また、この発明の音声状況データ編集装置は、前述の音声状況可視化装置と、音声状況データを編集する操作入力を受け付ける操作受付手段と、該操作受付手段により受け付けた編集内容を解析して音声状況データを編集するデータ編集手段と、を備えたことと特徴としている。
この構成では、データ編集手段により、音声状況データの各項目が変更される。この際、利用者からの操作は操作受付手段により受け付けられる。例えば、方位と話者との関係が分かっており、方位名を話者名に変更したい場合には、利用者は操作受付手段により方位名変更の操作を行う。操作受付手段はこの操作を受け付けてデータ編集手段に与える。データ編集手段は、データ編集アプリケーションを有し、前記制御部でデータ編集アプリケーションを実行することで、指示された内容にしたがい方位名を話者名に変更し、音声状況データの更新記録を行う。
具体的に、前述の音声会議の議事録作成の場合であれば、方位名を会議者名に変更する等の操作が可能となる。これにより、会議者が直接的に分からない方位名ではなく、会議者名がそのまま表示されるので、より分かりやすい議事録が作成される。
また、この発明の音声データ再生装置は、前述の音声状況データ編集装置と、操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、を備えたことを特徴としている。
この構成では、操作受付手段を操作することで、区分化音声データが選択されると、該当する区分化音声データが再生手段により再生される。これにより、各区分化音声データを、会議後に再度聴くことができる。また、前述の編集時に各区分化音声データの再生音を聞くことで、話者の特定を聴覚的にも行うことができる。
具体的に、前述の音声会議の議事録作成の場合であれば、各区分化音声データを選択して再生することで、会議者を聴覚的に特定することができるとともに、どの会議者が何を話したかを、会議後であっても確実に知ることができる。
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置とは別体でネットワークに接続されており、各装置のデータ取得手段は、複数の放収音装置間で通信される音声データと話者識別データとを取得することを特徴としている。
この構成では、各放収音装置で収音した音声データがネットワークを介して前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置(以下、総称して「音声データ処理装置」とする。)に入力される。このように、放収音装置と音声データ処理装置とが別体で構成されていることで、膨大な記憶容量を要する音声データ処理装置を、比較的小型化が要求される放収音装置に備え付ける必要がなくなる。
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置のいずれか1台に内蔵されており、各装置のデータ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと話者識別データとを取得することを特徴としている。
この構成では、前述の音声データ処理装置を放収音装置に備える。これにより、サーバレスで音声通信を記録することができる。
また、この発明の音声通信システムの放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、選択された収音ビーム信号を音声データとし、検出した方位を話者識別データとして出力することを特徴としている。
この構成では、放収音装置は、マイクアレイの各マイクの収音音声信号から複数の収音ビーム信号を形成して、最も信号強度の高い収音ビーム信号を選択するとともに、当該収音ビーム信号に対応する方位を検出する。そして、放収音装置は、選択した収音ビーム信号を音声データとし、検出方位を話者識別データとして出力する。これにより、従来のように、会議者を識別するRFIDタグ等を必要としないので、より簡素に音声通信システムが構成される。
この発明によれば、複数の音源からの音声データを経時的に記録したデータを利用する場合に、利用者に対して使い勝手の良い状態でデータを提供することができる。具体例として、多地点会議システムで各会議者の発言を記録しておくような場合に、各会議者の発言をタイムチャート等により、より分かりやすく議事録作成者に提供することができる。
また、この発明によれば、収音信号により話者方向を自動検出する放収音装置を用いることで、音声通信システムおよびこのシステムで通信される音声データの記録を、従来よりも簡素な構成で実現することができる。
以下の実施形態では具体的なシステム例として議事録作成システムについて説明する。
本発明の実施形態に係る議事録作成システムについて図を参照して説明する。
図1は本実施形態の議事録作成システムの構成図である。
図2は本実施形態の音声会議装置111,112の主要構成を示すブロック図である。
図3は本実施形態の録音サーバ101の主要構成を示すブロック図である。
議事録作成システムは、ネットワーク100に接続された音声会議装置111,112と、録音サーバ101とを備える。
音声会議装置111、112は、それぞれ離れた地点a、地点bにそれぞれ配置されている。地点aには、音声会議装置111が配置されており、該音声会議装置111を囲むように話者A〜Gの7人が音声会議装置111に対してそれぞれ方位Dir11〜Dir16,Dir18で在席している。地点bには、音声会議装置112が配置されており、該音声会議装置112を囲むように会議者H〜Lの5人が音声会議装置112に対してそれぞれ方位Dir21,Dir22,Dir24,Dir26,Dir28で在席している。
音声会議装置111、112は、図2に示すように、制御部11、入出力I/F12、放音指向性制御部13、D/Aコンバータ14、放音アンプ15、スピーカSP1〜SP16、マイクMIC101〜116、201〜216、収音アンプ16、A/Dコンバータ17、収音ビーム生成部18、収音ビーム選択部19、エコーキャンセル回路20、操作部31、表示部32を備える。制御部11は、音声会議装置111,112の全体制御を行う。入出力I/F12はネットワーク100に接続し、ネットワーク100を介して入力された相手装置からの音声ファイルを、ネットワーク形式のデータから一般的な音声信号に変換してエコーキャンセル回路20を介して放音指向性制御部13に出力する。この際、制御部11は、入力音声信号に添付された方位データを取得して、放音指向性制御部13に対して放音制御を行う。
放音指向性制御部13は、放音制御内容に応じてスピーカSP1〜SP16に対する放音音声信号を生成する。スピーカSP1〜SP16に対する放音音声信号は、入力音声データを遅延制御や振幅制御等の信号制御処理を行うことにより形成される。D/Aコンバータ14はディジタル形式の放音音声信号をアナログ形式に変換し、放音アンプ15は放音音声信号を増幅してスピーカSP1〜SP16に与え、スピーカSP1〜SP16は、放音音声信号を音声変換して放音する。これにより、自装置の会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
マイクMIC101〜116、201〜216は自装置の会議者の発声音を含む周囲の音を収音して電気信号変換し、収音音声信号を生成する。収音アンプ16は収音音声信号を増幅し、A/Dコンバータ17はアナログ形式の収音音声信号をディジタル形式に変換する。
収音ビーム生成部18は、マイクMIC101〜116、201〜216の収音信号に対して遅延処理等を行い、所定方位に強い指向性を有する収音ビーム音声信号MB1〜MB8を生成する。収音ビーム音声信号MB1〜MB8はそれぞれ異なる方位に強い指向性を有するように設定されている。図1の音声会議装置111であれば、MB1を方位Dir11に、MB2を方位Dir12に、MB3を方位Dir13に、MB4を方位Dir14に、MB5を方位Dir15に、MB6を方位Dir16に、MB7を方位Dir17に、MB8を方位Dir18に設定される。一方、音声会議装置112、MB1を方位Dir21に、MB2を方位Dir22に、MB3を方位Dir23に、MB4を方位Dir24に、MB5を方位Dir25に、MB6を方位Dir26に、MB7を方位Dir27に、MB8を方位Dir28に設定される。
収音ビーム選択部19は、収音ビーム音声信号MB1〜MB8の信号強度を比較して、最も強度の高い収音ビーム音声信号を選択し、収音ビーム音声信号MBとしてエコーキャンセル回路20に出力する。収音ビーム選択部19は、選択した収音ビーム音声信号MBに対応する方位Dirを検出して制御部11に与える。エコーキャンセル回路20は、適応型フィルタ21で入力音声信号に基づいて擬似回帰音信号を生成して、ポストプロセッサ22で収音ビーム音声信号MBから擬似回帰音信号を減算する。これにより、スピーカSPからマイクMICへの回り込み音を抑圧する。入出力I/F12は、エコーキャンセル回路20からの収音ビーム音声信号MBをネットワーク形式で所定データ長からなる音声ファイルに変換し、制御部11から得られる方位データと収音時間データとを添付して、ネットワーク100に出力する。
このような構成により、ネットワーク100に接続された音声会議装置111,112で多地点会議を行うことができる。
録音サーバ101は、制御部1、音声状況データ生成部2、記録部3、ネットワークI/F4を備える。録音サーバ101は、音声会議装置111、112のいずれかと同じ場所に配置しても、これらとは全く異なる場所に配置してもよい。
制御部1は、ネットワークI/F4に対するネットワーク通信制御や、記録部3に対する記録制御等の録音サーバ101全体制御を行う。
音声状況データ生成部2は、音声ファイルから時間データおよび方位データを取得して、音声ファイルの各部分の属性を識別する音声状況データを生成する。ここで属性には、音声ファイルの送信元装置、該装置での収音方位、収音時刻を少なくとも備え、さらに、収音時間長等を備える。
記録部3は、大容量の磁気ディスク装置等からなり、機能的に音声ファイル記録部31と音声状況データ記録部32とを備える。音声ファイル記録部31は、ネットワークI/F4を介して入力される音声ファイルを順次記録する。この際、音声ファイル記録部31には、音声会議装置111用の記録領域と、音声会議装置112用の記録領域とが用意されており、音声ファイルに添付された装置データに基づいて、それぞれ対応する領域に音声ファイルが記録される。音声状況データ記録部32は、音声状況データ生成部2で生成された音声状況データを記録する。
次に、録音サーバ101の録音フローについて図4、図5を参照して説明する。
図4は録音サーバ101の録音処理フローを示すフローチャートである。
図5は録音サーバ101に記録された音声ファイルの概念図である。
録音サーバ101は、ネットワーク100での音声ファイル通信を監視している。録音サーバ101は、会議開始トリガを検出すると録音を開始する(S1→S2)。この際、会議開始トリガとしては、ネットワーク100に音声ファイルが通信されたことを検知することで得られたり、各音声会議装置111、112が会議開始スイッチの押下により会議開始パルスを発してこれを検知することにより得ることができる。また、録音サーバ101に録音開始スイッチが備えられており、この録音開始スイッチが押下されることにより検知することもできる。
録音が開始されると、録音サーバ101(制御部1)は録音開始時間を取得し、音声状況データ生成部2に与える。音声状況データ生成部2は、この録音開始時刻を1つの音声状況データのタイトルとして保存する(S3)。
ネットワークI/F4は、ネットワーク100で通信される音声ファイルを取得し、記憶部3に与え、記憶部3は順次音声ファイルを記憶する(S4)。
この際、制御部1は、ネットワークI/F4が取得した音声ファイルから装置データ、方位データ、時間データを取得して、装置データを記憶部3に与える。記憶部3は、制御部1から取得した装置データに従い、音声ファイルを装置別に順次音声ファイル記録部31に記録する。
なお、音声会議装置111,112は並行して音声ファイルをネットワークに出力するので、これらの音声ファイルを同時に記憶するため、記録サーバ101はマルチタスク処理を実行可能とするように構成されている。
また、制御部1は、音声ファイルから装置データ、方位データ、時間データを取得し、音声状況データ生成部2に与える(S5)。音声状況データ生成部2は、これら装置データ、方位データおよび時間データを順次記憶する。
この処理は、装置毎に方位データの変化を制御部1が検出するまで繰り返し行われ、方位データの変化を制御部1が検出すると(S6)、制御部1はセッション終了処理制御を音声状況データ生成部2に与える(S7)。音声状況データ生成部2は、同じ方位データからなる音声ファイル群を関連付けするため、該当する音声ファイル群の装置データと方位データと開始時間データとを備える音声状況データを生成して記憶部3に与える。記憶部3は、音声状況データ生成部2からの音声状況データを音声状況データ記録部32に記録する(S8)。このような音声状況データの生成、記録処理と音声ファイルの記録処理とは、録音終了トリガが検出されるまで繰り返し行われ、方位データが変化する毎に音声状況データの生成、記録される。
そして、録音終了トリガが検出されれば、制御部1は、音声状況データ生成部2に録音終了制御指示を与える。なお、録音終了トリガは、ネットワーク100に接続された音声会議装置111,112の会議終了スイッチ押下や電源オフ等を検出することにより得られる。音声状況データ生成部2は、最終の音声状況データを生成、記録するとともに、音声状況データ記録部32に予め記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部32に記録する(S11)。
このような構成および処理を行うことで、図5に示すように、音声ファイル記録部31には、経時的に連続する音声ファイルが装置毎に記録される。この際、音声ファイルは、音声状況データ記憶部32に記録された音声状況データにより、方位別に区分されている。例えば、地点aの音声ファイルであれば、方位Dir11の音声ファイル、方位Dir12からの音声ファイル、方位Dir13からの音声ファイル、方位Dir14からの音声ファイル、方位Dir15からの音声ファイル、方位Dir16からの音声ファイル、および方位の指定されていない無音の音声ファイルとで区分化される。そして、各区分化音声ファイルには区分の開始時間データが関連付けされている。ここで、前述のように音声会議装置111を利用する会議者が7人であるにも関わらず、記録される方位が6方向であるが、これは方位Dir18の会議者の発言が無かったからであり、このように発言がなければ、方位データも生成されないので、音声状況データには記録されない。同様に、地点bの音声ファイルであれば、方位Dir21の音声ファイル、方位Dir22からの音声ファイル、方位Dir24からの音声ファイル、方位Dir26からの音声ファイル、および方位の指定されていない無音の音声ファイルとで区分化され、区分毎の開始時間データが関連付けされている。この場合も、前述のように音声会議装置112を利用する会議者が5人であるにも関わらず、記録される方位が4方向であるが、これは方位Dir28の会議者の発言が無かったからであり、このように発言がなければ、方位データも生成されないので、音声状況データには記録されない。
このように、本実施形態の構成及び処理を用いることで、会議者に対応する方位データを備えた状態で議事録を記録することができる。そして、時間データも関連付けされていることで、各会議者の発言状況をも含んで議事録を記録することができる。これにより、後述するような議事録作成処理を行う場合に、議事録作成者に対して使い勝手の良い記録データを提供することができる。
次に、議事録作成時の構成および処理について説明する。
図6は議事録作成時の音声通信システムの構成図である。
図7は図6に示すパソコン102の主要構成を示すブロック図である。
図8は編集アプリ実行時にパソコン102の表示部123に表示される表示画像を示す図であり、(A)が初期状態、(B)が編集後状態を示す。
図6に示すように、議事録作成時には、議事録作成者はパソコン102をネットワーク100に接続する。この際、ネットワーク100には、録音サーバ101がON状態で接続され、音声会議装置111,112は接続されていない。なお、音声会議装置111,112はネットワーク100に接続されていてもよいが、議事録作成処理とは無関係であるので、実質的に接続していないのと同じである。
パソコン102は、CPU121、ハードディスク等の記憶部122、表示部123、操作入力部124、ネットワークI/F125、スピーカ126を備える。
CPU121は通常のパソコンの処理制御を行うととも、記憶部122に記憶されている、編集アプリや再生アプリを読み出して実行することで、音声状況ファイルの表示手段、編集手段や、音声ファイルの再生手段として機能する。
記憶部122は、ハードディスク等の磁気ディスクやメモリからなり、編集アプリや再生アプリを記憶するとともに、CPU121が各機能を実行する際の作業部として利用される。なお、本実施形態では編集アプリに表示アプリも含まれているが、編集アプリと表示アプリとを別にしてもよい。
表示部123は、液晶ディスプレイ等により構成され、CPU121で編集アプリが実行されると、編集アプリ内の表示アプリが起動してCPU121から表示画像情報が与えられ図8に示すような画像を表示する。
操作入力部124は、キーボードやマウスからなり、ユーザ(議事録作成者)の操作入力を受け付けてCPU121に与える。例えば、マウスで表示画面上のカーソルを移動させ、該当位置でマウスをクリックすることにより、クリック情報がCPU121に与えられ、CPU121はクリック位置とクリック状況から操作入力内容を判断して後述するような所定の編集、再生処理を行う。
ネットワークI/F125は、パソコン102をネットワーク100に接続させる機能部であり、CPU121からの通信制御に応じて、CPU121からの制御信号や、録音サーバ101から音声状況データおよび音声ファイルを通信する。
スピーカ126は、CPU121の制御に従い音声ファイルを放音する。
次に、音声状況データの編集方法について、図8を参照しながら詳述する。
議事録作成者が会議後にパソコン102を操作して編集アプリを実行すると、パソコン102は、録音サーバ101から音声状況データを取得し、図8(A)に示すような画面を表示する。
図8(A)に示すように編集画面は、表題表示部201、タイムチャート表示部202、を備える。タイムチャート表示部202は、各音声ファイルを示すバーグラフ203、方位(会議者)表示部204、装置(地点)表示部205、内容表示部206を備える。
(1)表題表示部201
初期状態で、図8(A)に示すように表題表示部201には音声状況ファイルのファイル名に相当する、議事録記録年月日が表示される。議事録作成者がマウスを用いて表題表示部201を選択すると、表題表示部201は編集可能となる。そして、議事録作成者が、会議名である「商品販売検討会議」をキーボード等で入力すると、図8(B)に示すように表題表示部201には、「商品販売検討会議」が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、音声状況ファイルに表題名が「商品販売検討会議」であることを関連付けする。この場合、音声状況ファイル名を直接「商品販売検討会議」に変更して、録音サーバ101に記憶させても良い。これにより、表題が単なる年月日表示から具体的な会議名の表示になるので、後からでも容易に議事録を認識することができる。
(2)タイムチャート表示部202
タイムチャート表示部202は、音声状況ファイル名から得られる区分化の情報に従い、各区分化音声ファイルを方位別で時系列に並べてバーグラフ203として表示する。この際、バーグラフ203の長さは区分化音声ファイルの時間長を表す。この際、方位を表す情報として、方位表示部204が表示される。
各方位表示部204には、図8(A)に示すように、音声状況ファイルから得られた方位データ(Dir11〜16,Dir21,Dir22,Dir24,Dir26)が初期状態で表示される。議事録作成者がマウスを用いて方位表示部204を選択すると、方位表示部204は編集可能となる。そして、議事録作成者が、方位毎に対応する会議者(話者)名をキーボード等で入力すると、方位表示部204には、図8(B)に示すように話者名(話者A〜F、話者H〜K)が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各方位データに対応する話者名を関連付けする。この場合、方位データを直接話者名データに置き換えて、録音サーバ101に記憶させても良い。これにより、各区分化音声ファイルが単に方位で識別されるのではなく、発言した話者で識別される。
この際、各区分化音声状況ファイルをマウスでダブルクリックする等の操作を行えば、CPU121はこれを認識して、該当する区分化音声ファイルを録音サーバ101から読み出して再生する。再生音はスピーカ126から議事録作成者に放音される。議事録作成者はこの音声を聞くことにより、各区分化音声ファイルに対応する話者を聴覚的に把握することができる。これにより、会議中に各話者がどの方位にいたかをメモ等で記録しておかなくても、方位と話者とを一致させることができる。
また、各方位表示部204をマウスでダブルクリックすると、CPU121はこれを認識して、選択された各方位表示部204(話者)に対応する区分化音声ファイルを録音サーバ101から読み出して再生する。これにより、会議全体をいちいち聞き直すことなく、必要な話者の発言のみを容易に抽出して聴き取ることができる。
装置(地点)表示部205には、図8(A)に示すように、音声状況ファイルから得られた装置データ(装置111,112)が初期状態で表示される。議事録作成者がマウスを用いて装置表示部205を選択すると、装置表示部205は編集可能となる。そして、議事録作成者が、各装置の配置場所をキーボード等で入力すると、装置表示部205には、図8(B)に示すように場所名(「本社」、「大阪支社」)が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各装置データに対応する場所名を関連付けする。この場合、装置データを直接場所名データに置き換えて、録音サーバ101に記憶させても良い。これにより、どの地点間で会議が行われたかを容易に識別することができる。
内容表示部206には、図8(A)に示すように初期状態では枠しか表示されない。議事録作成者がマウスを用いて内容表示部206を選択すると、内容表示部206は編集可能となる。そして、議事録作成者が議事内容をキーボード等で入力すると、内容表示部206には、図8(B)に示すように議事内容(「会議の趣旨確認」、「コスト見積もり」、「マーケティング」)が表示される。この際、各内容表示部206は、それぞれ異なる色やパターンで表示される。そして、いずれかの内容表示部206を選択した状態で、各区分化音声ファイルのバーグラフ203を選択すると、これらが関連付けされて、内容表示部206と同じ色、パターンで表示される。制御部121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各内容表示部206に対応する議事内容を関連付けして記憶するとともに、さらに各区分化音声ファイルと議事内容とを関連付けして記憶する。なお、これらの情報は音声状況ファイルに付加されるものである。これにより、各区分化音声ファイルの内容を容易に識別することができる。
さらに、このように関連付けされた後、内容表示部206をマウスでダブルクリックすると、CPU121はこれを認識して、選択された内容表示部206に関連付けされている区分化音声ファイルを録音サーバ101から読み出して再生する。これにより、会議全体をいちいち聞き直すことなく、必要な内容の部分のみを容易に抽出して聴き取ることができる。
以上のような構成および処理を用いることで、より分かりやすい議事録を簡単に形成することができる。また、会議の必要部のみを容易に聞き直すことができる。
なお、前述の説明では、録音サーバ101と、音声状況ファイルの表示、編集装置であり、音声ファイルの再生装置であるパソコン102とがネットワーク接続される場合を示したが、パソコン102が録音サーバ101を備えるような構成としてもよい。
図9はパソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
図9に示すように、録音サーバを兼用したパソコンは、制御部(CPU)1、音声状況データ生成部2、記録部3、ネットワークI/F4、表示部5、操作入力部6、スピーカ7を備える。音声状況データ生成部2は前述の図3に示した音声状況データ生成部2と同じである。記録部3は、録音サーバとして記録部(図3の記録部3)とパソコンのアプリのための記憶部(図7の記憶部122)とを兼ね備え、ネットワークI/F4は、録音サーバとしてのネットワークI/F(図3のネットワークI/F4)とパソコンとしてのネットワークI/F(図7のネットワークI/F125)とを兼ね備える。制御部1はパソコンの制御部(CPU)であるとともに、録音サーバの制御部として機能する。表示部5操作入力部6、スピーカ7は、前述のパソコン102の表示部123、操作入力部124、スピーカ126と同じである。
このような構成とすることで、録音サーバ(音声ファイルの記録と音声状況ファイルの生成記録とを行う装置)、音声状況(会議発言状況)を可視化する装置、音声状況データの編集装置、音声ファイルの再生装置を一体形成することができる。なお、記録部はパソコンに内蔵される磁気記録装置であっても、外付けされる各種の記録装置であってもよい。
また、前述の説明では、録音サーバ101と音声会議装置111,112とを別体形成した例を示したが、ネットワーク100に接続する音声会議装置のうち、少なくともいずれか1つの音声会議装置に内蔵させても良い。
図10は録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
図10に示すように、録音サーバを音声会議装置に内蔵させる場合、図2に示した構成に対して、記憶部30を追加する。
記憶部30には、エコーキャンセル回路20の収音ビーム音声信号MBが入力されるとともに、入出力I/F12からの入力音声信号が入力される。記憶部30はこれらを音声ファイルとして記憶する。制御部10は収音ビーム音声信号が記憶部30に入力される場合、自身の装置データと収音ビーム選択部19から得られる方位データと、収音時間データとを添付して記憶するとともに、音声状況データを生成して記憶部30に記憶する。また、制御部10は入力音声信号が記憶部30に入力される場合、入出力I/F12から受信元の装置データ、入力音声信号に添付された方位データ、収音時間データを取得して、記憶部30の音声状況データを更新する。この際、まだ、音声状況データが生成、記憶されていなければ、音声状況データを生成、記憶する。
このような構成とすることで、録音サーバを別途設ける必要が無く、議事録作成システムをより簡素な構造で実現することができる。なお、記憶部を備える音声会議装置はネットワークに接続する1台のみである必要はなく、複数台に備えさせても良い。
また、音声会議装置に備えられる記憶部はあまり大きなものとすることができないので、音声会議装置に記憶部を備えさせるとともに、別途録音サーバを設けても良い。この場合、音声会議装置の記憶部で対応可能な時間までは、音声会議装置の記憶部で音声ファイルおよび音声状況データを記憶し続け、記憶部の容量が一杯となる時点で録音サーバに転送を行ってもよい。
また、前述の説明では、ネットワークに接続する複数の音声会議装置で多地点会議を行う場合を示したが、単一の音声会議装置のみを使う場合であっても同時に方位を検出して収音音声信号に関連付けすることで同様の作用・効果を得ることができる。
また、前述の説明では、議事録作成の場合を例に説明したが、他の多地点間の通信音声を記録装置(システム)に対しても同様の作用・効果を得ることができる。
本発明の実施形態の議事録作成システムの構成図である。 本実施形態の音声会議装置111,112の主要構成を示すブロック図である。 本実施形態の録音サーバ101の主要構成を示すブロック図である。 録音サーバ101の録音処理フローを示すフローチャートである。 録音サーバ101に記録された音声ファイルの概念図である。 議事録作成時の音声通信システムの構成図である。 図6に示すパソコン102の主要構成を示すブロック図である。 編集アプリ実行時にパソコン102の表示部123に表示される表示画像を示す図である。 パソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。 録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
符号の説明
100−ネットワーク、101−録音サーバ、1−制御部、2−音声状況データ生成部、3−記録部、31−音声ファイル記録部、32−音声状況データ記録部、4−ネットワークI/F、111,112−音声会議装置

Claims (8)

  1. 音声データと当該音声データの話者を識別する話者識別データとを経時的に取得するデータ取得手段と、
    前記音声データの話者毎の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
    前記音声データおよび前記音声状況データを記憶する記憶手段と、
    を備えたことを特徴とする音声状況データ生成装置。
  2. 前記話者識別データは音声の到来方向を検出した方位データである請求項1に記載の音声状況データ生成装置。
  3. 請求項1または請求項2に記載の音声状況データ生成装置と、
    前記音声状況データに基づいて前記音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、
    を備えたことを特徴とする音声状況可視化装置。
  4. 請求項3に記載の音声状況可視化装置と、
    前記音声状況データを編集する操作入力を受け付ける操作受付手段と、
    該操作受付手段により受け付けた編集内容を解析して、前記音声状況データを編集するデータ編集手段と、
    を備えたことと特徴とする音声状況データ編集装置。
  5. 請求項4に記載の音声状況データ編集装置と、
    前記操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、
    を備えたことを特徴とする音声データ再生装置。
  6. 複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
    請求項1または請求項2に記載の音声状況データ生成装置、請求項3に記載の音声状況可視化装置、請求項4に記載の音声状況データ編集装置、請求項5に記載の音声データ再生装置のいずれかは、前記複数の放収音装置とは別体でネットワークに接続され、
    前記データ取得手段は、前記複数の放収音装置間で通信される音声データと話者識別データとを取得することを特徴とする音声通信システム。
  7. 複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
    請求項1または請求項2に記載の音声状況データ生成装置、請求項3に記載の音声状況可視化装置、請求項4に記載の音声状況データ編集装置、請求項5に記載の音声データ再生装置のいずれかは、前記複数の放収音装置のいずれか1台に内蔵され、
    前記データ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと話者識別データとを取得することを特徴とする音声通信システム。
  8. 前記放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、前記選択された収音ビーム信号を音声データとし、前記検出した方位を話者識別データとして出力する請求項6または請求項7に記載の音声通信システム。
JP2006079303A 2006-03-22 2006-03-22 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム Pending JP2007256498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006079303A JP2007256498A (ja) 2006-03-22 2006-03-22 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006079303A JP2007256498A (ja) 2006-03-22 2006-03-22 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム

Publications (1)

Publication Number Publication Date
JP2007256498A true JP2007256498A (ja) 2007-10-04

Family

ID=38630815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006079303A Pending JP2007256498A (ja) 2006-03-22 2006-03-22 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム

Country Status (1)

Country Link
JP (1) JP2007256498A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301125A (ja) * 2008-06-10 2009-12-24 Hitachi Ltd 会議音声録音システム
WO2011043274A1 (en) * 2009-10-07 2011-04-14 Ricoh Company, Ltd. Conference progress supporting apparatus
WO2014082445A1 (zh) * 2012-11-29 2014-06-05 华为技术有限公司 一种语音会议纪要的分类方法、设备和***
JP2014143668A (ja) * 2012-12-26 2014-08-07 Canon Marketing Japan Inc 情報処理装置、情報処理装置の制御方法、およびプログラム
US8811626B2 (en) 2008-08-22 2014-08-19 Yamaha Corporation Recording/reproducing apparatus
JP2015072635A (ja) * 2013-10-03 2015-04-16 富士ゼロックス株式会社 音声解析装置、表示装置、音声解析システムおよびプログラム
JP2016116206A (ja) * 2014-12-17 2016-06-23 富士ゼロックス株式会社 会議再生方法、メディアストリーム取得方法及びプログラム
US9536526B2 (en) 2014-09-22 2017-01-03 Kabushiki Kaisha Toshiba Electronic device with speaker identification, method and storage medium
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理***、信息处理方法以及程序

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1118192A (ja) * 1997-06-23 1999-01-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法およびその装置
JPH1153385A (ja) * 1997-08-05 1999-02-26 Fuji Xerox Co Ltd 会議情報記録再生装置
JPH11262096A (ja) * 1998-03-09 1999-09-24 Fuji Xerox Co Ltd 記録再生装置
JP2001325250A (ja) * 2000-05-15 2001-11-22 Ricoh Co Ltd 議事録作成装置および議事録作成方法および記録媒体
JP2002101205A (ja) * 2000-09-22 2002-04-05 Sharp Corp 会議支援装置及び方法並びにこれに利用される記憶媒体
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
WO2004034734A1 (ja) * 2002-10-08 2004-04-22 Nec Corporation アレイ装置および携帯端末
JP2004287201A (ja) * 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2005080110A (ja) * 2003-09-02 2005-03-24 Yamaha Corp 音声会議システム、音声会議端末装置およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1118192A (ja) * 1997-06-23 1999-01-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法およびその装置
JPH1153385A (ja) * 1997-08-05 1999-02-26 Fuji Xerox Co Ltd 会議情報記録再生装置
JPH11262096A (ja) * 1998-03-09 1999-09-24 Fuji Xerox Co Ltd 記録再生装置
JP2001325250A (ja) * 2000-05-15 2001-11-22 Ricoh Co Ltd 議事録作成装置および議事録作成方法および記録媒体
JP2002101205A (ja) * 2000-09-22 2002-04-05 Sharp Corp 会議支援装置及び方法並びにこれに利用される記憶媒体
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
WO2004034734A1 (ja) * 2002-10-08 2004-04-22 Nec Corporation アレイ装置および携帯端末
JP2004287201A (ja) * 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2005080110A (ja) * 2003-09-02 2005-03-24 Yamaha Corp 音声会議システム、音声会議端末装置およびプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301125A (ja) * 2008-06-10 2009-12-24 Hitachi Ltd 会議音声録音システム
US8811626B2 (en) 2008-08-22 2014-08-19 Yamaha Corporation Recording/reproducing apparatus
CN102549606A (zh) * 2009-10-07 2012-07-04 株式会社理光 会议进行支持设备
JP2011081581A (ja) * 2009-10-07 2011-04-21 Ricoh Co Ltd 会議進行支援装置
WO2011043274A1 (en) * 2009-10-07 2011-04-14 Ricoh Company, Ltd. Conference progress supporting apparatus
US8885806B2 (en) 2009-10-07 2014-11-11 Ricoh Company, Ltd. Conference progress supporting apparatus
WO2014082445A1 (zh) * 2012-11-29 2014-06-05 华为技术有限公司 一种语音会议纪要的分类方法、设备和***
US8838447B2 (en) 2012-11-29 2014-09-16 Huawei Technologies Co., Ltd. Method for classifying voice conference minutes, device, and system
JP2014143668A (ja) * 2012-12-26 2014-08-07 Canon Marketing Japan Inc 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2015072635A (ja) * 2013-10-03 2015-04-16 富士ゼロックス株式会社 音声解析装置、表示装置、音声解析システムおよびプログラム
US9536526B2 (en) 2014-09-22 2017-01-03 Kabushiki Kaisha Toshiba Electronic device with speaker identification, method and storage medium
JP2016116206A (ja) * 2014-12-17 2016-06-23 富士ゼロックス株式会社 会議再生方法、メディアストリーム取得方法及びプログラム
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理***、信息处理方法以及程序
CN114509157B (zh) * 2020-11-17 2024-04-05 丰田自动车株式会社 信息处理***、信息处理方法以及程序

Similar Documents

Publication Publication Date Title
JP2007318438A (ja) 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2007256498A (ja) 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US8339458B2 (en) Technique for allowing the modification of the audio characteristics of items appearing in an interactive video using RFID tags
CN109644314A (zh) 在数字音频信号处理双耳渲染环境中产生头戴式耳机驱动信号
US11915687B1 (en) Systems and methods for generating labeled data to facilitate configuration of network microphone devices
JP2013222347A (ja) 議事録生成装置及び議事録生成方法
GB2342802A (en) Indexing conference content onto a timeline
WO2010024426A1 (ja) 録音装置
Pras et al. Sampling rate discrimination: 44.1 khz vs. 88.2 khz
Garcia et al. Interactive-compositional authoring of sound spatialization
Clement When texts of study are audio files: Digital tools for sound studies in digital humanities
JP2007256618A (ja) 検索装置
WO2017061278A1 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
JP2011199698A (ja) Av機器
WO2022163137A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2007298876A (ja) 音声データ記録再生装置
JPH0744575A (ja) 音声情報検索システム及び装置
JP2004259198A (ja) 情報管理装置、情報管理システム、及びプログラム
JP2009244712A (ja) 演奏システム及び録音方法
JP2008059077A (ja) 音声配信システムおよび音声検索装置
Franz Producing in the home studio with pro tools
JPH0793367A (ja) 音声情報検索システム及び装置
JP2005025571A (ja) 業務支援装置、業務支援方法およびそのプログラム
JP2007329794A (ja) 音声録音装置
US20230260505A1 (en) Information processing method, non-transitory recording medium, information processing apparatus, and information processing system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110705