JP6975755B2

JP6975755B2 - 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Info

Publication number: JP6975755B2
Application number: JP2019166859A
Authority: JP
Inventors: 武志水本; 哲也菅原
Original assignee: Hylable Inc
Current assignee: Hylable Inc
Priority date: 2018-01-16
Filing date: 2019-09-13
Publication date: 2021-12-01
Anticipated expiration: 2038-01-16
Also published as: JP2020016892A

Description

本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。

グループ学習や会議における議論を分析する方法として、ハークネス法（ハークネスメソッドともいう）が知られている（例えば、非特許文献１参照）。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。

Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191

コンピュータを用いてハークネス法に類する分析を行う場合には、マイクロフォン等の集音装置の位置を基準とした各参加者の位置を設定することによって、集音装置によって取得した音声を各参加者について分析する。そのため、グループごとに各参加者の位置を設定する大きな手間が掛かるという問題があった。

本発明はこれらの点に鑑みてなされたものであり、議論の音声を分析する際に参加者の位置を設定する手間を削減できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。

本発明の第１の態様の音声分析装置は、集音装置から複数の参加者に関する情報を取得し、取得した前記参加者に関する情報に基づいて前記複数の参加者それぞれの位置を設定する設定部と、前記集音装置から音声を取得する取得部と、前記設定部が設定した前記位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析する分析部と、を有する。

前記設定部は、前記参加者に関する情報として前記集音装置から音声を取得し、取得した前記音声が発せられた向きを特定することによって、前記複数の参加者それぞれの位置を設定してもよい。

前記設定部は、前記参加者に関する情報として前記集音装置上に設けられた撮像部が撮像した画像を取得し、取得した前記画像に含まれる前記複数の参加者の顔を認識することによって、前記複数の参加者それぞれの位置を設定してもよい。

前記設定部は、前記参加者に関する情報として前記集音装置上に設けられた読取部が読み取ったカードの情報を取得し、前記カードが前記読取部に提示された向きに従って前記複数の参加者それぞれの位置を設定してもよい。

前記設定部は、前記参加者に関する情報に加えて、通信端末において入力された情報に基づいて、前記複数の参加者それぞれの位置を設定してもよい。

前記分析部が分析している前記音声の途中において、前記設定部が設定した前記位置を更新する追従部をさらに有してもよい。

前記追従部は、前記分析部が分析している前記音声が発せられた向きが、前記設定部が設定した前記位置に対応しない場合に、前記設定部が設定した前記位置を更新してもよい。

前記追従部は、前記設定部が設定した前記位置を、前記分析部が分析している前記音声が発せられた向きに更新してもよい。

本発明の第２の態様の音声分析方法は、プロセッサが、集音装置から複数の参加者に関する情報を取得し、取得した前記参加者に関する情報に基づいて前記複数の参加者それぞれの位置を設定するステップと、前記集音装置から音声を取得するステップと、前記設定するステップで設定された前記位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析するステップと、を実行する。

本発明の第３の態様の音声分析プログラムは、コンピュータに、集音装置から複数の参加者に関する情報を取得し、取得した前記参加者に関する情報に基づいて前記複数の参加者それぞれの位置を設定するステップと、前記集音装置から音声を取得するステップと、前記設定するステップで設定された前記位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析するステップと、を実行させる。

本発明の第４の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な集音装置と、を備え、前記集音装置は、音声を取得するとともに、複数の参加者に関する情報を取得するように構成され、前記音声分析装置は、前記集音装置から前記参加者に関する情報を取得し、取得した前記参加者に関する情報に基づいて前記複数の参加者それぞれの位置を設定する設定部と、前記集音装置から前記音声を取得する取得部と、前記設定部が設定した前記位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析する分析部と、を有する。

本発明によれば、議論の音声を分析する際に参加者の位置を設定する手間を削減できるという効果を奏する。

本実施形態に係る音声分析システムの模式図である。本実施形態に係る音声分析システムのブロック図である。本実施形態に係る音声分析システムが行う音声分析方法の模式図である。本実施形態に係る音声分析装置が行う音声分析方法の全体のフローチャートを示す図である。設定画面を表示している通信端末の表示部の前面図である。本実施形態に係る音声分析装置が行う自動設定処理の模式図である。本実施形態に係る音声分析装置が行う位置設定処理のフローチャートを示す図である。本実施形態に係る音声分析装置が行う追従処理の模式図である。本実施形態に係る音声分析装置が行う追従処理のフローチャートを示す図である。

［音声分析システムＳの概要］
図１は、本実施形態に係る音声分析システムＳの模式図である。音声分析システムＳは、音声分析装置１００と、集音装置１０と、通信端末２０とを含む。音声分析システムＳが含む集音装置１０及び通信端末２０の数は限定されない。音声分析システムＳは、その他のサーバ、端末等の機器を含んでもよい。

音声分析装置１００、集音装置１０及び通信端末２０は、ローカルエリアネットワーク、インターネット等のネットワークＮを介して接続される。音声分析装置１００、集音装置１０及び通信端末２０のうち少なくとも一部は、ネットワークＮを介さず直接接続されてもよい。

集音装置１０は、異なる向きに配置された複数の集音部（マイクロフォン）を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された８個のマイクロフォンを含む。集音装置１０は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置１００に送信する。

通信端末２０は、有線又は無線の通信を行うことが可能な通信装置である。通信端末２０は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末２０は、分析者から分析条件の設定を受け付けるとともに、音声分析装置１００による分析結果を表示する。

音声分析装置１００は、集音装置１０によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置１００は、音声分析の結果を通信端末２０に送信する。

［音声分析システムＳの構成］
図２は、本実施形態に係る音声分析システムＳのブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。

集音装置１０は、議論の参加者を撮像するための撮像部１１と、議論の参加者が提示するカード等の情報を読み取るための読取部１２とを有する。撮像部１１は、各参加者（すなわち、複数の参加者それぞれ）の顔を含む所定の撮像範囲を撮像することが可能な撮像装置である。撮像部１１は、集音装置１０を取り囲む全ての参加者の顔を撮像可能な数及び配置の撮像素子を含む。例えば撮像部１１は、地面に対する水平面において、１８０度ごとの異なる向きに配置された２個の撮像素子を含む。また、撮像部１１は、地面に対する水平面において回転することによって、集音装置１０を取り囲む全ての参加者の顔を撮像してもよい。

撮像部１１は、集音装置１０に予め設定されたタイミング（例えば１０秒ごと）で撮像を行ってもよく、あるいは音声分析装置１００から受信した撮像の指示に従って撮像を行ってもよい。撮像部１１は、撮像した内容を示す画像を音声分析装置１００に送信する。

読取部１２は、参加者が提示するＩＣ（Integrated Circuit）カード又は磁気カード（以下、総称してカードという）に記録された情報を接触方式又は非接触方式で読み取る読取装置（カードリーダ）を有する。スマートフォン等に内蔵されたＩＣチップを、ＩＣカードとして用いてもよい。読取部１２は、カードを提示した参加者の向きを特定可能に構成される。例えば読取部１２は、地面に対する水平面において、３０度ごとの異なる向きに配置された１２個の読取装置を備える。また、例えば読取部１２は、読取装置に加えて、参加者の向きを指定するボタンを備えてもよい。

読取部１２は、参加者によってカードが提示された場合に、読取装置によってカードの情報を読み取り、いずれの読取装置がカードを読み取ったかに基づいて参加者の向きを特定する。そして読取部１２は、読み取った情報と参加者の向きとを関連付けて音声分析装置１００に送信する。

通信端末２０は、各種情報を表示するための表示部２１と、分析者による操作を受け付けるための操作部２２とを有する。表示部２１は、液晶ディスプレイ、有機エレクトロルミネッセンス（OLED: Organic Light Emitting Diode）ディスプレイ等の表示装置を含む。操作部２２は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部２１として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部２１と操作部２２とを一体に構成してもよい。

音声分析装置１００は、制御部１１０と、通信部１２０と、記憶部１３０とを有する。制御部１１０は、位置設定部１１１と、音声取得部１１２と、音源定位部１１３と、追従部１１４と、分析部１１５と、出力部１１６とを有する。記憶部１３０は、位置記憶部１３１と、音声記憶部１３２と、分析結果記憶部１３３とを有する。

通信部１２０は、ネットワークＮを介して集音装置１０及び通信端末２０との間で通信をするための通信インターフェースである。通信部１２０は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部１２０は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部１１０に入力する。また、通信部１２０は、制御部１１０から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。

記憶部１３０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１３０は、制御部１１０が実行するプログラムを予め記憶している。記憶部１３０は、音声分析装置１００の外部に設けられてもよく、その場合に通信部１２０を介して制御部１１０との間でデータの授受を行ってもよい。

位置記憶部１３１は、議論の参加者の位置を示す情報を記憶する。音声記憶部１３２は、集音装置１０によって取得された音声を記憶する。分析結果記憶部１３３は、音声を分析した結果を示す分析結果を記憶する。位置記憶部１３１、音声記憶部１３２及び分析結果記憶部１３３は、それぞれ記憶部１３０上の記憶領域であってもよく、あるいは記憶部１３０上で構成されたデータベースであってもよい。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１３０に記憶されたプログラムを実行することにより、位置設定部１１１、音声取得部１１２、音源定位部１１３、追従部１１４、分析部１１５及び出力部１１６として機能する。位置設定部１１１、音声取得部１１２、音源定位部１１３、追従部１１４、分析部１１５及び出力部１１６の機能については、図３〜図９を用いて後述する。制御部１１０の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部１１０の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。

本実施形態に係る音声分析システムＳは、図２に示す具体的な構成に限定されない。例えば音声分析装置１００は、１つの装置に限られず、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。

［音声分析方法の説明］
図３は、本実施形態に係る音声分析システムＳが行う音声分析方法の模式図である。まず音声分析装置１００の位置設定部１１１は、後述の位置設定処理によって、分析対象とする議論における各参加者の位置を設定する（ａ）。位置設定部１１１は、後述の位置設定処理において特定した各参加者の位置を位置記憶部１３１に記憶させることにより、各参加者の位置を設定する。

音声分析装置１００の音声取得部１１２は、音声の取得を開始する際に、音声の取得を指示する信号を集音装置１０に送信する（ｂ）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置１００の音声取得部１１２は、音声の取得を終了する際に、音声の取得の終了を指示する信号を集音装置１０に送信する。集音装置１０は、音声分析装置１００から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。

集音装置１０は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置１０は、取得した複数のチャネルの音声を、音声分析装置１００に送信する（ｃ）。集音装置１０は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。また、集音装置１０は、取得の開始から終了までの音声をまとめて送信してもよい。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、集音装置１０から取得した音声を用いて、所定のタイミングで音声を分析する。音声分析装置１００は、分析者が通信端末２０において所定の操作によって分析指示を行った際に、音声を分析してもよい。この場合には、分析者は分析対象とする議論に対応する音声を音声記憶部１３２に記憶された音声の中から選択する。

また、音声分析装置１００は、音声の取得が終了した際に音声を分析してもよい。この場合には、取得の開始から終了までの音声が分析対象の議論に対応する。また、音声分析装置１００は、音声の取得の途中で逐次（すなわちリアルタイム処理で）音声を分析してもよい。この場合には、音声分析装置１００は、現在時間から遡って過去の所定時間分（例えば３０秒間）の音声が分析対象の議論に対応する。

音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した複数チャネルの音声に基づいて音源定位を行う（ｄ）。音源定位は、音声取得部１１２が取得した音声に含まれる音源の向きを、時間ごと（例えば１０ミリ秒〜１００ミリ秒ごと）に推定する処理である。音源定位部１１３は、時間ごとに推定した音源の向きを、位置記憶部１３１に記憶された参加者の位置と関連付ける。

音源定位部１１３は、集音装置１０から取得した音声に基づいて音源の向きを特定可能であれば、ＭＵＳＩＣ（Multiple Signal Classification）法、ビームフォーミング法等、公知の音源定位方法を用いることができる。

次に分析部１１５は、音声取得部１１２が取得した音声、音源定位部１１３が推定した音源の向き及び位置記憶部１３１に記憶された参加者の位置に基づいて、音声を分析する（ｅ）。分析部１１５は、完了した議論の全体を分析対象としてもよく、あるいはリアルタイム処理の場合に議論の一部を分析対象としてもよい。

具体的には、まず分析部１１５は、音声取得部１１２が取得した音声、音源定位部１１３が推定した音源の向き及び位置記憶部１３１に記憶された参加者の位置に基づいて、分析対象の議論において、時間ごと（例えば１０ミリ秒〜１００ミリ秒ごと）に、いずれの参加者が発言（発声）したかを判別する。分析部１１５は、１人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部１３３に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部１１５は、参加者ごとに発言期間を特定する。

また、分析部１１５は、時間ごとの各参加者の発言量を算出し、分析結果記憶部１３３に記憶させる。具体的には、分析部１１５は、ある時間窓（例えば５秒間）において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。そして分析部１１５は、議論の開始時間から終了時間（リアルタイム処理の場合には現在）まで、時間窓を所定の時間（例えば１秒）ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。

追従部１１４は、後述の追従処理によって、音源定位部１１３及び分析部１１５による分析対象の音声において所定の時間間隔で最新の参加者の位置を取得し、位置記憶部１３１に記憶された参加者の位置を更新する。これにより、音声の取得途中で参加者が既に設定された位置から移動した場合であっても、音源定位部１１３及び分析部１１５は追従して音声を分析することができる。

出力部１１６は、表示情報を通信端末２０に送信することによって、分析部１１５による分析結果を表示部２１上に表示させる制御を行う（ｆ）。出力部１１６は、表示部２１への表示に限られず、プリンタによる印刷、記憶装置へのデータ記録等、その他の方法によって分析結果を出力してもよい。

図４は、本実施形態に係る音声分析装置１００が行う音声分析方法の全体のフローチャートを示す図である。まず、位置設定部１１１は、後述の位置設定処理によって、分析対象とする議論の各参加者の位置を特定し、位置記憶部１３１に記憶させる（Ｓ１）。次に音声取得部１１２は、集音装置１０から音声を取得して音声記憶部１３２に記憶させる（Ｓ２）。

音声分析装置１００は、ステップＳ２で音声取得部１１２が取得した音声について開始時間から終了時間までの所定の時間範囲（時間窓）ごとに分析する。音源定位部１１３は、分析対象の音声の時間範囲において、音源定位を実行し、推定した音源の向きを、位置記憶部１３１に記憶された各参加者の位置と関連付ける（Ｓ３）。

追従部１１４は、後述の追従処理によって、分析対象の音声の時間範囲における最新の参加者の位置を取得し、位置記憶部１３１に記憶された参加者の位置を更新する（Ｓ４）。

分析部１１５は、ステップＳ２で音声取得部１１２が取得した音声、ステップＳ３で音源定位部１１３が推定した音源の向き及び位置記憶部１３１に記憶された参加者の位置に基づいて、音声を分析する（Ｓ５）。分析部１１５は、分析結果を分析結果記憶部１３３に記憶させる。

ステップＳ２で音声取得部１１２が取得した音声の終了時間まで分析が終了していない場合（Ｓ６のＮＯ）には、音声分析装置１００は分析対象の音声中の次の時間範囲についてステップＳ３〜Ｓ５を繰り返す。ステップＳ２で音声取得部１１２が取得した音声の終了時間まで分析が終了した場合（Ｓ６のＹＥＳ）には、出力部１１６は、ステップＳ５の分析結果を所定の方法で出力する（Ｓ７）。

［位置設定処理の説明］
まず、図４のステップＳ１に示した位置設定処理について説明する。図５は、設定画面Ａを表示している通信端末２０の表示部２１の前面図である。位置設定処理は、分析者が通信端末２０を操作することによって各参加者の位置を設定する手動設定処理と、各参加者が自身の位置を特定するための情報を集音装置１０に入力する自動設定処理とを含む。

通信端末２０は、表示部２１上に設定画面Ａを表示し、分析者による分析条件の設定を受け付ける。設定画面Ａは、位置設定領域Ａ１と、開始ボタンＡ２と、終了ボタンＡ３と、自動設定ボタンＡ４とを含む。位置設定領域Ａ１は、分析対象の議論において、集音装置１０を基準として各参加者Ｕが実際に位置する向きを設定する領域である。例えば位置設定領域Ａ１は、図５のように集音装置１０の位置を中心とした円を表し、さらに円に沿って集音装置１０を基準とした角度を表している。

手動設定処理を希望する分析者は、通信端末２０の操作部２２を操作することによって、位置設定領域Ａ１において各参加者Ｕの位置を設定する。各参加者Ｕについて設定された位置の近傍には、各参加者Ｕを識別する識別情報（ここではＵ１〜Ｕ４）が割り当てられて表示される。図５の例では、４人の参加者Ｕ１〜Ｕ４が設定されている。位置設定領域Ａ１内の各参加者Ｕに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Ｕが設定されている向きを認識することができる。

開始ボタンＡ２、終了ボタンＡ３及び自動設定ボタンＡ４は、それぞれ表示部２１上に表示された仮想的なボタンである。通信端末２０は、分析者によって開始ボタンＡ２が押下されると、音声分析装置１００に開始指示の信号を送信する。通信端末２０は、分析者によって終了ボタンＡ３が押下されると、音声分析装置１００に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを１つの議論とする。

自動設定処理を希望する分析者は、自動設定ボタンＡ４を押下することによって、音声分析装置１００に自動設定処理を開始させる。通信端末２０は、自動設定ボタンＡ４が押下されると、音声分析装置１００に自動設定指示の信号を送信する。

［自動設定処理の説明］
図６（ａ）〜図６（ｃ）は、それぞれ本実施形態に係る音声分析装置１００が行う自動設定処理の模式図である。音声分析装置１００は、自動設定処理が指示されると、図６（ａ）〜図６（ｃ）に示す処理のうち少なくとも１つによって参加者Ｕの位置を設定する。

図６（ａ）は参加者Ｕが発した音声に基づいて参加者Ｕの位置を設定する処理を示す。この場合に、音声分析装置１００の位置設定部１１１は、集音装置１０の集音部に、各参加者Ｕの発した音声を取得させる。位置設定部１１１は、集音装置１０が取得した音声を取得する。

位置設定部１１１は、取得した音声が発せられた向きに基づいて、各参加者Ｕの向きを特定する。位置設定部１１１は、音声から参加者の向きを特定するために、上述の音源定位部１１３による音源定位の結果を用いる。そして位置設定部１１１は、特定した各参加者Ｕの位置を、位置記憶部１３１に記憶させる。

位置設定部１１１は、取得した各参加者Ｕの音声を、予め音声分析装置１００に記憶された個人の音声と比較することによって、参加者Ｕの個人を特定してもよい。例えば位置設定部１１１は、各参加者Ｕの音声の声紋（すなわち声の周波数スペクトル）を比較することによって、個人を特定する。これにより、分析結果とともに参加者Ｕの個人情報を表示したり、同じ参加者Ｕの複数の分析結果を表示したりすることができる。

図６（ｂ）は参加者Ｕの顔の画像に基づいて参加者Ｕの位置を設定する処理を示す。この場合に、音声分析装置１００の位置設定部１１１は、集音装置１０に設けられた撮像部１１に、集音装置１０を取り囲む全ての参加者Ｕの顔を含む領域を撮像させる。位置設定部１１１は、撮像部１１が撮像した画像を取得する。

位置設定部１１１は、取得した画像中の各参加者Ｕの顔を認識する。位置設定部１１１は、画像から人間の顔を認識するために公知の顔認識技術を用いることができる。そして位置設定部１１１は、画像から認識した各参加者Ｕの顔の位置に基づいて、集音装置１０を基準とした各参加者Ｕの位置を特定し、位置記憶部１３１に記憶させる。画像中の位置（例えば画像中の画素の座標）と、集音装置１０を基準とした位置（例えば集音装置１０に対する角度）との関係は、予め音声分析装置１００に設定される。

位置設定部１１１は、画像から認識した各参加者Ｕの顔を、予め音声分析装置１００に記憶された個人の顔と比較することによって、参加者Ｕの個人を特定してもよい。これにより、分析結果とともに参加者Ｕの個人情報を表示したり、同じ参加者Ｕの複数の分析結果を表示したりすることができる。

図６（ｃ）は参加者Ｕが提示したカードＣの情報に基づいて参加者Ｕの位置を設定する処理を示す。この場合に、音声分析装置１００の位置設定部１１１は、集音装置１０に設けられた読取部１２に、各参加者Ｕが提示したカードＣの情報を読み取らせる。位置設定部１１１は、読取部１２が読み取ったカードＣの情報と、カードＣを提示した参加者Ｕの向きとを取得する。位置設定部１１１は、取得したカードＣの情報及び参加者Ｕの向きに基づいて、集音装置１０を基準とした各参加者Ｕの位置を特定し、位置記憶部１３１に記憶させる。

位置設定部１１１は、取得したカードＣの情報を用いて、予め音声分析装置１００に記憶された個人情報を取得することによって、参加者Ｕの個人を特定してもよい。これにより、分析結果とともに参加者Ｕの個人情報を表示したり、同じ参加者Ｕの複数の分析結果を表示したりすることができる。

位置設定部１１１は、自動設定処理と手動設定処理とを組み合わせて実行してもよい。この場合に、例えば位置設定部１１１は、図６（ａ）〜図６（ｃ）の自動設定処理によって設定された各参加者Ｕの位置を図５の位置設定領域Ａ１に表示し、さらに分析者による手動の設定を受け付ける。これにより、自動設定処理によって設定された各参加者Ｕの位置を手動設定処理によって修正し、各参加者Ｕの位置をより確実に設定することができる。

このように音声分析装置１００は集音装置１０上で取得した参加者Ｕに関する情報に基づいて各参加者Ｕの位置を自動的に設定できるため、分析者が通信端末２０上で全てのグループの各参加者Ｕの位置を設定する手間を削減することができる。音声分析装置１００は、集音装置１０上で取得できる参加者Ｕに関する情報（すなわち参加者Ｕの位置を特定するための情報）として、音声、画像又はカードの情報に限られず、参加者Ｕの向きを特定可能なその他の情報を用いてもよい。

図７は、本実施形態に係る音声分析装置１００が行う位置設定処理のフローチャートを示す図である。まず、位置設定部１１１は、図５は設定画面Ａにおいて分析者によって自動設定処理が指示されたか否かを判定する。自動設定処理が指示されていない場合（すなわち手動設定の場合）に（Ｓ１１のＮＯ）、位置設定部１１１は、通信端末２０上に表示された設定画面Ａにおいて入力された内容に従って各参加者の位置を特定し、位置記憶部１３１に設定する（Ｓ１２）。

自動設定が指示された場合に（Ｓ１１のＹＥＳ）、位置設定部１１１は、集音装置１０上で参加者に関する情報（すなわち参加者の位置を特定するための情報）を取得する（Ｓ１３）。位置設定部１１１は、参加者に関する情報として、上述の参加者の発した音声、参加者の顔の画像、及び参加者の提示したカードの情報のうち少なくとも１つを用いる。

位置設定部１１１は、取得した参加者に関する情報に基づいて、集音装置１０を基準とした各参加者Ｕの位置を特定する（Ｓ１４）。そして位置設定部１１１は、特定した各参加者の位置を位置記憶部１３１に記憶させることにより、参加者の位置を設定する（Ｓ１５）。

［追従処理の説明］
次に、図４のステップＳ４に示した追従処理について説明する。図８は、本実施形態に係る音声分析装置１００が行う追従処理の模式図である。追従処理は、音源定位部１１３及び分析部１１５による分析対象の音声の途中で、位置記憶部１３１に記憶された各参加者Ｕの位置を更新する処理である。

図８の上図には更新前の各参加者Ｕの位置が示され、図８の下図には更新後の各参加者Ｕの位置が示されている。図８の上図は、参加者Ｕ１が、位置記憶部１３１に設定された位置Ｐ１から、別の位置Ｐ２に移動した状態である。この状態では、参加者Ｕ１が発した音声は、参加者Ｕ１の設定された位置Ｐ１とは異なる位置Ｐ２から集音装置１０に入る。そのため、分析部１１５は、該音声から参加者Ｕ１の発言を検出することができない。

そこで追従部１１４は、図８の下図のように、位置記憶部１３１において、参加者Ｕ１の位置を位置Ｐ１から位置Ｐ２に更新する。これにより、分析部１１５は参加者Ｕ１の発言を正しく検出することができる。

各参加者Ｕの位置の更新のために、追従部１１４は、所定の時間（例えば１分）ごとに、音源定位部１１３が推定した音源の向きを取得する。追従部１１４は、推定された音源の向きが、位置記憶部１３１に記憶された各参加者Ｕの位置のいずれにも対応しない場合に、いずれかの参加者Ｕが音源の向きに移動したと判定する。そして追従部１１４は移動した参加者Ｕを特定し、移動した参加者Ｕについて位置記憶部１３１に記憶された位置を、音源の向きに対応する位置に更新する。

例えば追従部１１４は、集音装置１０が取得した音声から推定された音源の向きに最も近い位置に設定された参加者Ｕが、該音源の向きに対応する位置に移動したと特定する。この場合に追従部１１４は、音源の向きから所定の範囲内（例えば−３０度から＋３０度の範囲内）の位置に設定された参加者Ｕの中から、移動した参加者Ｕを選択してもよい。移動の範囲を制限することにより、追従部１１４は、例えば参加者Ｕの位置を誤った位置へ移動させてしまうことを抑制することができる。

また、追従部１１４は、音源の声紋を各参加者Ｕの声紋と比較し、音源の声紋に類似する声紋を有する参加者Ｕが、該音源の向きに対応する位置に移動したと特定してもよい。この場合に追従部１１４は、分析開始時の各参加者Ｕの音声から各参加者Ｕの声紋を取得してもよく、あるいは予め記憶部１３０に記憶した各参加者Ｕの声紋を取得してもよい。追従部１１４は、音源の声紋と各参加者Ｕの声紋との間で声紋の類似度を算出する。追従部１１４は、声紋の類似度がグループの中で最も高い参加者Ｕを選択し、あるいは声紋の類似度が所定の閾値以上の参加者Ｕを選択する。声紋を用いて移動した参加者Ｕを特定することにより、追従の精度を向上させることができる。

また、追従部１１４は、集音装置１０の撮像部１１が撮像した画像中の、音源の向きに位置する顔を取得し、取得した顔に類似する顔を有する参加者Ｕが該音源の向きに対応する位置に移動したと特定してもよい。この場合に追従部１１４は、分析開始時に撮像部１１が撮像した画像から各参加者Ｕの顔を取得してもよく、あるいは予め記憶部１３０に記憶した各参加者Ｕの顔を取得してもよい。追従部１１４は、音源の向きに位置する顔と各参加者Ｕの顔との間で顔の類似度を算出する。追従部１１４は、顔の類似度がグループの中で最も高い参加者Ｕを選択し、あるいは顔の類似度が所定の閾値以上の参加者Ｕを選択する。顔を用いて移動した参加者Ｕを特定することにより、追従の精度を向上させることができる。

声紋又は顔を用いて追従する場合に、追従部１１４は、音源の向きと、位置記憶部１３１に記憶された位置（向き）との間の差に基づいて、各参加者Ｕについての声紋又は顔の類似度を重み付けしてもよい。参加者Ｕに設定された位置と音源の向きとが近いほど参加者Ｕが音源の位置に移動した確率が高く、参加者Ｕに設定された位置と音源の向きとが遠いほど参加者Ｕが音源の位置に移動した確率が低いといえる。そこで追従部１１４は、参加者Ｕに設定された位置と音源の向きとの差が小さいほど声紋又は顔の類似度を高く重み付けし、参加者Ｕに設定された位置と音源の向きとの差が大きいほど声紋又は顔の類似度を低く重み付けする。これによって、追従の精度をより向上させることができる。

図９は、本実施形態に係る音声分析装置１００が行う追従処理のフローチャートを示す図である。まず、追従部１１４は、音源定位部１１３が推定した音源の向きを取得する。音源の向きが、位置記憶部１３１に記憶された各参加者Ｕの位置のいずれかに対応している場合に（Ｓ４１のＹＥＳ）、追従部１１４は位置の更新を行わずに処理を終了する。

音源の向きが、位置記憶部１３１に記憶された各参加者Ｕの位置のいずれにも対応していない場合に（Ｓ４１のＮＯ）、追従部１１４は、集音装置１０上で参加者に関する情報（すなわち参加者の位置を特定するための情報）を取得する（Ｓ４２）。追従部１１４は、参加者に関する情報として、上述の参加者の発した音声及び参加者の顔の画像のうち少なくとも一方を用いる。

追従部１１４は、取得した参加者に関する情報に基づいて、いずれの参加者が移動したかを特定する（Ｓ４３）。そして追従部１１４は、移動したと特定した参加者Ｕについて、位置記憶部１３１に記憶された位置を、音源の向きに対応する位置に更新する（Ｓ４４）。

［本実施形態の効果］
本実施形態に係る音声分析装置１００は、各グループに配置される集音装置１０において参加者の発する音声、参加者の顔の画像、参加者が提示するカードの情報等の各参加者に関する情報を取得し、取得した情報に基づいて自動的に各参加者の位置を設定する。そのため、議論の音声を分析する際に各グループについて各参加者の位置を設定する手間を削減できる。

また、音声分析装置１００は、音声の分析中に各参加者に関する情報に基づいて各参加者の位置を更新する。そのため、音声の取得途中で参加者が移動した場合であっても、追従して分析することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

上述の説明において、音声分析装置１００は議論における音声の分析に用いられているが、その他の用途にも適用できる。例えば音声分析装置１００は、自動車の中に着座している乗客の発する音声を分析することもできる。

音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図４、７、９に示す音声分析方法に含まれる各ステップ（工程）の主体となる。すなわち、音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図４、７、９に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置１００、集音装置１０及び通信端末２０の各部を制御することによって、図４、７、９に示す音声分析方法を実行する。図４、７、９に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ音声分析システム
１００音声分析装置
１１０制御部
１１１位置設定部
１１２音声取得部
１１４追従部
１１５分析部
１０集音装置
２０通信端末

Claims

集音装置から、前記集音装置を取り囲む複数の参加者が発した音声を取得する取得部と、
前記複数の参加者それぞれに対して設定された位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析する分析部と、
前記分析部が分析している前記音声の途中において、前記分析部が分析している前記音声を発した音源の前記集音装置を基準とする向きが、前記複数の参加者に対して設定された前記位置のいずれにも対応しない場合に、前記複数の参加者に対して設定された前記位置を更新する追従部と、
を有し、
前記追従部は、前記分析部が分析している前記音声の特徴と、前記複数の参加者それぞれが発する音声の特徴とを比較することによって、前記分析部が分析している前記音声の特徴に類似する特徴を有する音声を発する前記参加者を選択し、選択した前記参加者の位置を、前記分析部が分析している前記音声を発した前記音源の前記集音装置を基準とする向きに更新する、音声分析装置。
前記追従部は、前記分析部が分析している前記音声の特徴と、前記分析部が分析している前記音声の開始時の前記複数の参加者それぞれの音声の特徴との類似度を算出し、前記類似度が所定の条件を満たす前記参加者を選択する、
請求項１に記載の音声分析装置。
前記追従部は、前記分析部が分析している前記音声の特徴と、予め記憶部に記憶された前記複数の参加者それぞれの音声の特徴との類似度を算出し、前記類似度が所定の条件を満たす前記参加者を選択する、
請求項１に記載の音声分析装置。
前記分析部が分析している前記音声が発せられた向きと、前記複数の参加者それぞれに対して設定された前記位置に対応する向きとの間の差に応じて前記複数の参加者それぞれの前記類似度を重み付けし、重み付けされた前記類似度が所定の条件を満たす前記参加者を選択する、
請求項２又は３に記載の音声分析装置。
前記参加者に関する情報として前記集音装置から音声を取得し、取得した前記音声が発せられた向きを特定することによって、前記複数の参加者それぞれの位置を設定する設定部をさらに有する、請求項１から４のいずれか一項に記載の音声分析装置。
前記参加者に関する情報として前記集音装置が有する撮像部が撮像した画像を取得し、取得した前記画像に含まれる前記複数の参加者の顔を認識することによって、前記複数の参加者それぞれの位置を設定する設定部をさらに有する、請求項１から４のいずれか一項に記載の音声分析装置。
前記集音装置は、カードに記録された情報を読み取る読取部を有し、
前記読取部が読み取った前記カードに記録された情報を取得し、前記カードに記録された情報と、前記読取部において指定された向きに従って、前記複数の参加者それぞれの位置を設定する設定部をさらに有する、請求項１から４のいずれか一項に記載の音声分析装置。
プロセッサが実行する、
集音装置から、前記集音装置を取り囲む複数の参加者が発した音声を取得するステップと、
前記複数の参加者それぞれに対して設定された位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析するステップと、
前記分析するステップで分析されている前記音声の途中において、前記分析するステップで分析されている前記音声を発した音源の前記集音装置を基準とする向きが、前記複数の参加者に対して設定された前記位置のいずれにも対応しない場合に、前記複数の参加者に対して設定された前記位置を更新するステップと、
を有し、
前記更新するステップは、前記分析するステップで分析されている前記音声の特徴と、前記複数の参加者それぞれが発する音声の特徴とを比較することによって、前記分析するステップで分析されている前記音声の特徴に類似する特徴を有する音声を発する前記参加者を選択し、選択した前記参加者の位置を、前記分析するステップで分析されている前記音声を発した前記音源の前記集音装置を基準とする向きに更新する、音声分析方法。
コンピュータに、
集音装置から、前記集音装置を取り囲む複数の参加者が発した音声を取得するステップと、
前記複数の参加者それぞれに対して設定された位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析するステップと、
前記分析するステップで分析されている前記音声の途中において、前記分析するステップで分析されている前記音声を発した音源の前記集音装置を基準とする向きが、前記複数の参加者に対して設定された前記位置のいずれにも対応しない場合に、前記複数の参加者に対して設定された前記位置を更新するステップと、
を実行させ、
前記更新するステップは、前記分析するステップで分析されている前記音声の特徴と、前記複数の参加者それぞれが発する音声の特徴とを比較することによって、前記分析するステップで分析されている前記音声の特徴に類似する特徴を有する音声を発する前記参加者を選択し、選択した前記参加者の位置を、前記分析するステップで分析されている前記音声を発した前記音源の前記集音装置を基準とする向きに更新する、音声分析プログラム。
音声分析装置と、前記音声分析装置と通信可能な集音装置と、を備え、
前記音声分析装置は、
前記集音装置から、前記集音装置を取り囲む複数の参加者が発した音声を取得する取得部と、
前記複数の参加者それぞれに対して設定された位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析する分析部と、
前記分析部が分析している前記音声の途中において、前記分析部が分析している前記音声を発した音源の前記集音装置を基準とする向きが、前記複数の参加者に対して設定された前記位置のいずれにも対応しない場合に、前記複数の参加者に対して設定された前記位置を更新する追従部と、
を有し、
前記追従部は、前記分析部が分析している前記音声の特徴と、前記複数の参加者それぞれが発する音声の特徴とを比較することによって、前記分析部が分析している前記音声の特徴に類似する特徴を有する音声を発する前記参加者を選択し、選択した前記参加者の位置を、前記分析部が分析している前記音声を発した前記音源の前記集音装置を基準とする向きに更新する、音声分析システム。
集音装置から、前記集音装置を取り囲む複数の参加者が発した音声を取得する取得部と、
前記複数の参加者それぞれに対して設定された位置に基づいて、前記複数の参加者それぞれが発した前記音声を分析する分析部と、
前記分析部が分析している前記音声の途中において、前記分析部が分析している前記音声を発した音源の前記集音装置を基準とする向きが、前記複数の参加者に対して設定された前記位置のいずれにも対応しない場合に、前記複数の参加者に対して設定された前記位置を更新する追従部と、
を有し、
前記追従部は、前記集音装置が有する撮像部が撮像した画像中の前記分析部が分析している前記音声が発せられた向きに位置する顔と、前記複数の参加者それぞれの顔とを比較することによって、前記分析部が分析している前記音声が発せられた向きに位置する顔に類似する顔を有する前記参加者を選択し、選択した前記参加者の位置を、前記分析部が分析している前記音声を発した前記音源の前記集音装置を基準とする向きに更新する、音声分析装置。
前記追従部は、前記分析部が分析している前記音声が発せられた向きに位置する顔と、前記分析部が分析している前記音声の開始時に前記撮像部が撮像した前記画像中の前記複数の参加者それぞれの顔との類似度を算出し、前記類似度が所定の条件を満たす前記参加者を選択する、
請求項１１に記載の音声分析装置。
前記追従部は、前記分析部が分析している前記音声が発せられた向きに位置する顔と、予め記憶部に記憶された前記複数の参加者それぞれの顔との類似度を算出し、前記類似度が所定の条件を満たす前記参加者を選択する、
請求項１１に記載の音声分析装置。
前記分析部が分析している前記音声が発せられた向きと、前記複数の参加者それぞれに対して設定された前記位置に対応する向きとの間の差に応じて前記複数の参加者それぞれの前記類似度を重み付けし、重み付けされた前記類似度が所定の条件を満たす前記参加者を選択する、
請求項１２又は１３に記載の音声分析装置。