JP6589040B1

JP6589040B1 - 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Info

Publication number: JP6589040B1
Application number: JP2018502279A
Authority: JP
Inventors: 武志水本; 哲也菅原
Original assignee: Hylable Inc
Current assignee: Hylable Inc
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2019-10-09
Anticipated expiration: 2038-01-16
Also published as: JPWO2019142231A1; WO2019142231A1

Abstract

本発明は、議論における参加者の発言量の時間変化に基づく分析を行うための情報を出力できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。本発明の一実施形態に係る音声分析装置１００は、複数の参加者が発した音声を取得する音声取得部１１２と、音声における、複数の参加者それぞれの時間ごとの発言量を特定する分析部１１４と、ユーザからの入力に基づいて、音声において区間を設定する区間設定部１１５と、複数の参加者の発言量の時間変化を互いに積み上げたグラフと、グラフにおける区間を示す情報とを出力する出力部１１６と、を有する。

Description

本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。

グループ学習や会議における議論を分析する方法として、ハークネス法（ハークネスメソッドともいう）が知られている（例えば、非特許文献１参照）。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。

Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191

しかしながら、ハークネス法は議論の開始から終了までの全期間の発言の傾向を示すため、時系列に沿った各参加者の発言量の変化を示すことができない。そのため、各参加者の発言量の時間変化に基づく分析が難しいという問題があった。

本発明はこれらの点に鑑みてなされたものであり、議論における参加者の発言量の時間変化に基づく分析を行うための情報を出力できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。

本発明の第１の態様の音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定する分析部と、ユーザからの入力に基づいて、前記音声において区間を設定する区間設定部と、前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを出力する出力部と、を有する。

前記出力部は、２つの前記区間の間で切り替わった時間に対応する前記グラフ上の位置を、前記区間を示す情報として出力してもよい。

前記区間設定部は、前記音声分析装置と通信する通信端末における操作と、前記音声を取得する集音装置における操作と、前記音声に含まれる所定の音とのうち少なくとも１つに基づいて、前記区間を設定してもよい。

前記出力部は、前記複数の参加者それぞれについて算出された前記発言量のばらつきの程度が小さい順に、前記発言量の時間変化を互いに積み上げた前記グラフを出力してもよい。

前記出力部は、前記複数の参加者それぞれについて算出された前記区間ごとの前記発言量のばらつきの程度が小さい順に、前記区間ごとに前記発言量の時間変化を互いに積み上げた前記グラフを出力してもよい。

前記出力部は、複数の前記音声に設定された同じ前記区間についての複数の前記グラフを出力してもよい。

前記グラフ及び前記区間を示す情報に加えて、前記音声の時間内に発生したイベントを示す情報を、前記グラフ上に出力してもよい。

前記分析部は、所定の時間窓内に参加者の発言を行った時間の長さを、前記時間窓の長さで割った値を、前記発言量として特定してもよい。

本発明の第２の態様の音声分析方法は、プロセッサが、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定するステップと、ユーザからの入力に基づいて、前記音声において区間を設定するステップと、前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを出力するステップと、を実行する。

本発明の第３の態様の音声分析プログラムは、コンピュータに、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定するステップと、ユーザからの入力に基づいて、前記音声において区間を設定するステップと、前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを出力するステップと、を実行させる。

本発明の第４の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、前記通信端末は、情報を表示する表示部を有し、前記音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定する分析部と、ユーザからの入力に基づいて、前記音声において区間を設定する区間設定部と、前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを、前記表示部に表示させる出力部と、を有する。

本発明によれば、議論の時系列に沿った各参加者の発言量の変化を出力できるという効果を奏する。

本実施形態に係る音声分析システムの模式図である。本実施形態に係る音声分析システムのブロック図である。本実施形態に係る音声分析システムが行う音声分析方法の模式図である。設定画面を表示している通信端末の表示部の前面図である。発言量画面を表示している通信端末の表示部の前面図である。発言量画面を表示している通信端末の表示部の前面図である。発言量画面を表示している通信端末の表示部の前面図である。区間抽出画面を表示している通信端末の表示部の前面図である。発言量画面を表示している通信端末の表示部の前面図である。本実施形態に係る音声分析システムが行う音声分析方法のシーケンス図である。

［音声分析システムＳの概要］
図１は、本実施形態に係る音声分析システムＳの模式図である。音声分析システムＳは、音声分析装置１００と、集音装置１０と、通信端末２０とを含む。音声分析システムＳが含む集音装置１０及び通信端末２０の数は限定されない。音声分析システムＳは、その他のサーバ、端末等の機器を含んでもよい。

音声分析装置１００、集音装置１０及び通信端末２０は、ローカルエリアネットワーク、インターネット等のネットワークＮを介して接続される。音声分析装置１００、集音装置１０及び通信端末２０のうち少なくとも一部は、ネットワークＮを介さず直接接続されてもよい。

集音装置１０は、異なる向きに配置された複数の集音部（マイクロフォン）を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された８個のマイクロフォンを含む。集音装置１０は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置１００に送信する。

通信端末２０は、有線又は無線の通信を行うことが可能な通信装置である。通信端末２０は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末２０は、分析者から分析条件の設定を受け付けるとともに、音声分析装置１００による分析結果を表示する。

音声分析装置１００は、集音装置１０によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置１００は、音声分析の結果を通信端末２０に送信する。

［音声分析システムＳの構成］
図２は、本実施形態に係る音声分析システムＳのブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。

通信端末２０は、各種情報を表示するための表示部２１と、分析者による操作を受け付けるための操作部２２とを有する。表示部２１は、液晶ディスプレイ、有機エレクトロルミネッセンス（OLED: Organic Light Emitting Diode）ディスプレイ等の表示装置を含む。操作部２２は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部２１として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部２１と操作部２２とを一体に構成してもよい。

音声分析装置１００は、制御部１１０と、通信部１２０と、記憶部１３０とを有する。制御部１１０は、設定部１１１と、音声取得部１１２と、音源定位部１１３と、分析部１１４と、区間設定部１１５と、出力部１１６とを有する。記憶部１３０は、設定情報記憶部１３１と、音声記憶部１３２と、分析結果記憶部１３３とを有する。

通信部１２０は、ネットワークＮを介して集音装置１０及び通信端末２０との間で通信をするための通信インターフェースである。通信部１２０は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部１２０は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部１１０に入力する。また、通信部１２０は、制御部１１０から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。

記憶部１３０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１３０は、制御部１１０が実行するプログラムを予め記憶している。記憶部１３０は、音声分析装置１００の外部に設けられてもよく、その場合に通信部１２０を介して制御部１１０との間でデータの授受を行ってもよい。

設定情報記憶部１３１は、通信端末２０において分析者によって設定された分析条件を示す設定情報を記憶する。音声記憶部１３２は、集音装置１０によって取得された音声を記憶する。分析結果記憶部１３３は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部１３１、音声記憶部１３２及び分析結果記憶部１３３は、それぞれ記憶部１３０上の記憶領域であってもよく、あるいは記憶部１３０上で構成されたデータベースであってもよい。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１３０に記憶されたプログラムを実行することにより、設定部１１１、音声取得部１１２、音源定位部１１３、分析部１１４、区間設定部１１５及び出力部１１６として機能する。設定部１１１、音声取得部１１２、音源定位部１１３、分析部１１４、区間設定部１１５及び出力部１１６の機能については、図３〜図９を用いて後述する。制御部１１０の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部１１０の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。

本実施形態に係る音声分析システムＳは、図２に示す具体的な構成に限定されない。例えば音声分析装置１００は、１つの装置に限られず、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。

［音声分析方法の説明］
図３は、本実施形態に係る音声分析システムＳが行う音声分析方法の模式図である。まず分析者は、通信端末２０の操作部２２を操作することによって、分析条件の設定を行う。例えば分析条件は、分析対象とする議論の参加者の人数と、集音装置１０を基準とした各参加者（すなわち、複数の参加者それぞれ）が位置する向きとを示す情報である。通信端末２０は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置１００に送信する（ａ）。音声分析装置１００の設定部１１１は、通信端末２０から設定情報を取得して設定情報記憶部１３１に記憶させる。

図４は、設定画面Ａを表示している通信端末２０の表示部２１の前面図である。通信端末２０は、表示部２１上に設定画面Ａを表示し、分析者による分析条件の設定を受け付ける。設定画面Ａは、位置設定領域Ａ１と、開始ボタンＡ２と、終了ボタンＡ３とを含む。位置設定領域Ａ１は、分析対象の議論において、集音装置１０を基準として各参加者Ｕが実際に位置する向きを設定する領域である。例えば位置設定領域Ａ１は、図４のように集音装置１０の位置を中心とした円を表し、さらに円に沿って集音装置１０を基準とした角度を表している。

分析者は、通信端末２０の操作部２２を操作することによって、位置設定領域Ａ１において各参加者Ｕの位置を設定する。各参加者Ｕについて設定された位置の近傍には、各参加者Ｕを識別する識別情報（ここではＵ１〜Ｕ４）が割り当てられて表示される。図４の例では、４人の参加者Ｕ１〜Ｕ４が設定されている。位置設定領域Ａ１内の各参加者Ｕに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Ｕが設定されている向きを認識することができる。

開始ボタンＡ２及び終了ボタンＡ３は、それぞれ表示部２１上に表示された仮想的なボタンである。通信端末２０は、分析者によって開始ボタンＡ２が押下されると、音声分析装置１００に開始指示の信号を送信する。通信端末２０は、分析者によって終了ボタンＡ３が押下されると、音声分析装置１００に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを１つの議論とする。

音声分析装置１００の音声取得部１１２は、通信端末２０から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置１０に送信する（ｂ）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置１００の音声取得部１１２は、通信端末２０から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置１０に送信する。集音装置１０は、音声分析装置１００から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。

集音装置１０は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置１０は、取得した複数のチャネルの音声を、音声分析装置１００に送信する（ｃ）。集音装置１０は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。また、集音装置１０は、取得の開始から終了までの音声をまとめて送信してもよい。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、集音装置１０から取得した音声を用いて、所定のタイミングで音声を分析する。音声分析装置１００は、分析者が通信端末２０において所定の操作によって分析指示を行った際に、音声を分析してもよい。この場合には、分析者は分析対象とする議論に対応する音声を音声記憶部１３２に記憶された音声の中から選択する。

また、音声分析装置１００は、音声の取得が終了した際に音声を分析してもよい。この場合には、取得の開始から終了までの音声が分析対象の議論に対応する。また、音声分析装置１００は、音声の取得の途中で逐次（すなわちリアルタイム処理で）音声を分析してもよい。この場合には、音声分析装置１００は、現在時間から遡って過去の所定時間分（例えば３０秒間）の音声が分析対象の議論に対応する。

音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した複数チャネルの音声に基づいて音源定位を行う（ｄ）。音源定位は、音声取得部１１２が取得した音声に含まれる音源の向きを、時間ごと（例えば１０ミリ秒〜１００ミリ秒ごと）に推定する処理である。音源定位部１１３は、時間ごとに推定した音源の向きを、設定情報記憶部１３１に記憶された設定情報が示す参加者の向きと関連付ける。

音源定位部１１３は、集音装置１０から取得した音声に基づいて音源の向きを特定可能であれば、ＭＵＳＩＣ（Multiple Signal Classification）法、ビームフォーミング法等、公知の音源定位方法を用いることができる。

次に分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、音声を分析する（ｅ）。分析部１１４は、完了した議論の全体を分析対象としてもよく、あるいはリアルタイム処理の場合に議論の一部を分析対象としてもよい。

具体的には、まず分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、分析対象の議論において、時間ごと（例えば１０ミリ秒〜１００ミリ秒ごと）に、いずれの参加者が発言（発声）したかを判別する。分析部１１４は、１人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部１３３に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部１１４は、参加者ごとに発言期間を特定する。

また、分析部１１４は、時間ごとの各参加者の発言量を算出し、分析結果記憶部１３３に記憶させる。具体的には、分析部１１４は、ある時間窓（例えば５秒間）において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量（活性度ともいう）として算出する。そして分析部１１４は、議論の開始時間から終了時間（リアルタイム処理の場合には現在）まで、時間窓を所定の時間（例えば１秒）ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。

区間設定部１１５は、ユーザ（参加者又は分析者）からの入力に基づいて、分析対象の議論に対応する音声に対して、１つ以上の区間を設定する。区間は、例えば「国語」、「理科」、「社会」のような議論の題目となった教科ごとに設定されてもよく、「ディスカッション」、「アイデア出し」、「まとめ」のような議論中の段階ごとに設定されてもよい。区間設定部１１５は、区間を示す区間情報を、設定対象の音声と関連付けて分析結果記憶部１３３に記憶させる。

区間情報は、区間の名称と、区間の時間（すなわち音声中の区間の開始時間及び終了時間）とを含む。区間設定部１１５は、（１）通信端末２０における操作、（２）集音装置１０における操作、及び（３）集音装置１０が取得した所定の音のうち少なくとも１つに基づいて、区間を設定する。

通信端末２０における操作に基づいて区間を設定する場合には、参加者又は分析者は、通信端末２０の操作部２２（例えばタッチスクリーン、マウス、キーボード等）を操作することによって、区間情報に含まれる文字列及び時間を入力する。参加者又は分析者は、議論の終了後に区間情報を入力してもよく、あるいは議論の途中で区間情報を入力してもよい。そして区間設定部１１５は、通信端末２０において特定された区間情報を、通信部１２０を介して受信して分析結果記憶部１３３に記憶させる。

集音装置１０における操作に基づいて区間を設定する場合には、参加者又は分析者は、区間の切り替え時に、集音装置１０に設けられたスイッチやタッチスクリーン等の操作部を操作することによって、区間を設定する。集音装置１０の操作部の操作は、予め所定の区間の切り替え（例えば「ディスカッション」区間から「アイデア出し」区間への切り替え）に関連付けられている。区間設定部１１５は、通信部１２０を介して集音装置１０の操作部から操作を示す情報を受信し、該操作のタイミングにおける所定の区間の切り替えを特定する。そして区間設定部１１５は、特定した区間情報を、分析結果記憶部１３３に記憶させる。

集音装置１０が取得した所定の音に基づいて区間を設定する場合には、参加者又は分析者は、音を発生可能な装置（例えば携帯端末、音楽再生装置等）を用いて、区間の切り替えを示す所定の切り替え音を発生させる。切り替え音は、人間に聴こえる音波でもよく、人間に聴こえない超音波でもよい。切り替え音は、例えば予め定義された周波数又はオン／オフのパターンによって、区間の切り替えを示す。切り替え音は、区間の切り替えのタイミングのみで発せられてもよく、あるいは区間の中で持続的に発せられてもよい。

切り替え音として、区間ごとに異なる音を用いることができる。この場合に、区間設定部１１５は、集音装置１０が取得した音声に含まれる切り替え音を検出する。そして区間設定部１１５は、切り替え音が変化したタイミングにおける、変化前の切り替え音に対応する区間から変化後の切り替え音に対応する区間への切り替えを特定する。そして区間設定部１１５は、特定した区間情報を、分析結果記憶部１３３に記憶させる。

また、切り替え音として、所定の区間の切り替え（例えば「ディスカッション」区間から「アイデア出し」区間への切り替え）を示す音を用いることができる。この場合に、区間設定部１１５は、集音装置１０が取得した音声に含まれる切り替え音を検出する。そして区間設定部１１５は、切り替え音が発せられたタイミングにおける、所定の区間の切り替えを特定する。そして区間設定部１１５は、特定した区間情報を、分析結果記憶部１３３に記憶させる。

出力部１１６は、表示情報を通信端末２０に送信することによって、分析部１１４による分析結果を表示部２１上に表示させる制御を行う（ｆ）。出力部１１６は、表示部２１への表示に限られず、プリンタによる印刷、記憶装置へのデータ記録等、その他の方法によって分析結果を出力してもよい。出力部１１６による分析結果の出力方法を、図５〜図９を用いて以下に説明する。

［区間ごとの発言量の表示方法の説明］
音声分析装置１００の出力部１１６は、分析結果を表示する際に、表示対象の議論についての分析部１１４による分析結果及び区間設定部１１５による区間情報を分析結果記憶部１３３から読み出す。出力部１１６は、分析部１１４による分析が完了した直後の議論を表示対象としてもよく、あるいは分析者によって指定された議論を表示対象としてもよい。

図５は、発言量画面Ｂを表示している通信端末２０の表示部２１の前面図である。発言量画面Ｂは、区間ごとの発言量の時間変化を示す情報を表示する画面であり、発言量のグラフＢ１と、区間の名称Ｂ２と、区間の切り替え線Ｂ３とを含む。

発言量画面Ｂを表示する際に、出力部１１６は、分析結果記憶部１３３から読み出した分析結果及び区間情報に基づいて、区間ごとの各参加者の発言量の時間変化を表示するための表示情報を生成する。

グラフＢ１は、各参加者Ｕの発言量の時間変化を示すグラフである。出力部１１６は、縦軸に発言量（活性度）を、横軸に時間をとって、各参加者Ｕについて分析結果が示す時間ごとの発言量を折れ線グラフとして、表示部２１に表示させる。このとき、出力部１１６は、各時点において参加者Ｕの発言量を互いに積み上げて、すなわち参加者Ｕの発言量を順に合計した値を、縦軸にとって表示する。

図５の例では、参加者Ｕ４の発言量は参加者Ｕ３及びＵ４の発言量の合計値であり、参加者Ｕ２の発言量は参加者Ｕ２、Ｕ３及びＵ４の発言量の合計値であり、参加者Ｕ１の発言量は参加者Ｕ１、Ｕ２、Ｕ３及びＵ４の発言量の合計値である。出力部１１６は、参加者Ｕの発言量を積み上げる（合計する）順番を、無作為に決定してもよく、あるいは所定の規則に従って決定してもよい。

これにより出力部１１６は、各参加者Ｕの発言量に加えて、議論のグループ全体の発言量を表示することができる。分析者は、各参加者Ｕの貢献の時間変化を把握できると同時に、参加者Ｕのグループ全体の盛り上がりの時間変化を把握できる。

出力部１１６は、参加者ＵごとのグラフＢ１を示す領域又は線を、参加者ごとに異なる色、模様等の表示態様で表示する。図５の例では参加者Ｕごとに異なる模様でグラフＢ１が表示されており、グラフＢ１の近傍に参加者Ｕと模様とを関連付ける凡例が表示されている。これにより、分析者はグラフＢ１がいずれの参加者Ｕに対応するかを容易に判別できる。

区間の名称Ｂ２は、区間の名称を表す文字列である。区間の切り替え線Ｂ３は、２つの区間の切り替わりのタイミングを示す線である。出力部１１６は、区間情報が示す各区間について、該区間に対応する時間範囲のグラフＢ１の近傍に区間の名称に表示させる。また、出力部１１６は、区間情報が示す区間の時間に基づいて、２つの区間の切り替わりのタイミングを特定する。そして出力部１１６は、特定した切り替わりのタイミングに対応するグラフＢ１の時間（横軸）の位置に切り替え線Ｂ３を表示させる。これにより出力部１１６は、各参加者Ｕの発言量のグラフＢ１が時間ごとにいずれの区間に対応するかを表示することができる。

このように出力部１１６は、各参加者Ｕの発言量の時間変化に重畳して、議論の中で設定された区間を示す情報を表示する。そのため分析者は、各参加者Ｕの発言量の時間変化を、区間ごとに把握することができる。

グラフＢ１は、各参加者Ｕの発言量を積み上げて（合計して）表示しているため、下に配置された参加者Ｕの発言量が変化すると、それにともなって上に配置された参加者Ｕの発言量も見かけ上変化したように表示される。そのため、各参加者Ｕの発言量の時間変化が一見してわかりづらい場合がある。そこで出力部１１６は、グラフＢ１において参加者Ｕの発言量を積み上げる順番を各参加者Ｕの発言量に基づいて決定することによって、各参加者Ｕの発言量の時間変化を見やすく表示することができる。

図６は、発言量画面Ｂを表示している通信端末２０の表示部２１の前面図である。図６の発言量画面Ｂにおいては発言量を積み上げる順番が区間ごとに変更されており、それ以外については図５の発言量画面Ｂと同様である。出力部１１６は、図５の発言量画面Ｂと図６の発言量画面Ｂとを分析者の操作に応じて切り替えて表示してもよく、予め定められた少なくとも一方を表示してもよい。

積み上げる順番を変更する場合に、出力部１１６は、分析結果記憶部１３３から読み出した分析結果及び区間情報に基づいて、各区間における各参加者Ｕの発言量のばらつきの程度（例えば分散又は標準偏差）を算出する。そして出力部１１６は、区間ごとにばらつきの程度が小さい順番で参加者Ｕの発言量を積み上げることによって、グラフＢ１を生成する。出力部１１６は、区間ごとではなく、全区間のばらつきの程度に基づいて積み上げる順番を決定してもよい。

このように発言量のばらつきの程度が小さい順にグラフＢ１の下から積み上げることによって、下に配置された参加者Ｕの発言量の変化が、上に配置された参加者Ｕの見かけの発言量に及ぼす影響を低減することができる。また、区間によって各参加者Ｕの発言量の傾向が変化するため、区間ごとに積み上げの順番を変更することによって、発言量の時間変化をより見やすく表示することができる。

［イベントの表示方法の説明］
出力部１１６は、グラフＢ１において、議論中（すなわち音声取得部１１２が取得した音声の時間内）に発生した所定のイベントを表示してもよい。これにより、分析者はイベントの発生が各参加者Ｕの発言量に与えた影響を分析することができる。イベントは、例えば（１）議論の補助者（教師、ファシリテータ等）のグループへの接近、又は（２）補助者の特定の発言（言葉）である。ここに示したイベントは一例であり、出力部１１６は、音声分析装置１００が認識可能なその他イベントの発生を表示してもよい。

補助者のグループへの接近を検出するために、出力部１１６は、集音装置１０と補助者との間で授受される信号を用いる。この場合に、補助者は例えばＢｌｕｅｔｏｏｔｈ（登録商標）等の無線通信の電波や超音波等によって所定の信号を発する発信機を保持し、集音装置１０は該信号を受信する受信機を備える。そして出力部１１６は、集音装置１０の受信機において補助者の発信機からの信号を受信できた場合又は信号を受信した強度が所定の閾値以上となった場合に、補助者が接近したことを判定する。また、出力部１１６は、集音装置１０の受信機において補助者の発信機からの信号を受信できなくなった場合又は信号を受信した強度が所定の閾値未満となった場合に、補助者が離脱したことを判定する。

また、補助者のグループへの接近を検出するために、出力部１１６は、補助者の声紋（すなわち補助者の声の周波数スペクトル）を用いてもよい。この場合に、出力部１１６は、予め補助者の声紋を登録しておき、議論中に集音装置１０によって取得した音声の中に補助者の声紋を検出する。そして出力部１１６は、補助者の声紋を検出した場合に補助者が接近したことを判定し、補助者の声紋を検出できなくなった場合に補助者が離脱したことを判定する。

補助者の特定の言葉を検出するために、出力部１１６は、補助者の音声に対して音声認識を行う。この場合に、補助者は集音装置（例えばピンマイク）を保持し、出力部１１６は補助者が保持する集音装置によって取得した補助者の音声を受信する。集音装置１０とは別に補助者が保持する集音装置を用いることによって、参加者Ｕの音声と補助者の音声とを明確に区別することができる。

出力部１１６は、補助者が保持する集音装置から取得した音声を、文字列に変換する。出力部１１６は、音声を文字列に変換するために、公知の音声認識方法を用いることができる。そして出力部１１６は、変換された文字列の中に特定の言葉（例えば「最初」、「まとめ」、「最後」等の議論の進行に関わる言葉や、「良い」、「悪い」等の言葉）を検出する。検出対象の言葉は、予め音声分析装置１００に設定される。そして出力部１１６は、特定の言葉を検出した場合に、特定の言葉が発せられたことを判定する。

出力部１１６は、各参加者Ｕの発言量の変化が大きいタイミングの前後にのみ音声認識を行ってもよい。この場合に、出力部１１６は、分析結果記憶部１３３から読み出した分析結果に基づいて、時間ごとの発言量の変化の程度（例えば単位時間あたりの変化の量又は割合）を算出する。発言量の変化の程度は、参加者Ｕごとに算出されてもよく、あるいは全ての参加者Ｕの合計として算出されてもよい。

そして出力部１１６は、変化の程度が所定の閾値以上であるタイミングを含む所定の時間範囲（例えば該タイミングの５秒前から５秒後）において、補助者が保持する集音装置によって取得した音声の音声認識を行う。一般的に音声認識は処理の負荷が大きい。そこでこのように発言量の変化の程度が大きいタイミングの前後にのみ音声認識を行うことによって、処理の負荷を低減しながら、発言量の変化の原因となった言葉を分析することができる。

そして出力部１１６は、以上の方法によって検出したイベントを示す情報を、音声中の時間に関連付けた表示情報を生成する。図７は、発言量画面Ｂを表示している通信端末２０の表示部２１の前面図である。図７の発言量画面ＢにおいてはグラフＢ１上にイベント情報Ｂ４が表示されており、それ以外については図５の発言量画面Ｂと同様である。出力部１１６は、図５の発言量画面Ｂと図７の発言量画面Ｂとを分析者の操作に応じて切り替えて表示してもよく、予め定められた少なくとも一方を表示してもよい。

イベント情報Ｂ４は、イベントの内容及びタイミングを示す情報である。イベント情報Ｂ４は、例えば補助者が接近又は離脱したことを表す文字列や、音声認識によって検出した補助者の発言を表す文字列によって、イベントの内容を示す。また、イベント情報Ｂ４は、グラフＢ１上でイベントが発生したタイミングを示す矢印によって、イベントのタイミングを示す。

このように出力部１１６は、各参加者Ｕの発言量の時間変化に重畳して、議論の中で発生したイベントの内容及びタイミングを示す情報を表示する。そのため分析者は、議論中に発生したイベントが各参加者Ｕの発言量の時間変化にどのように影響を与えたかを分析することができる。分析者は、例えば教師がグループに接近した場合に発言量が多くなった場合には、教師は議論を活性化できたと評価できる。また分析者は、例えば教師によって特定の言葉が発せられた場合に発言量が多くなった場合に、その言葉は議論を活性化させるための有効な言葉であると評価できる。

［同じ区間の発言量の表示方法の説明］
出力部１１６は、同じ区間における複数の発言量のグラフを抽出して表示することができる。図８は、区間抽出画面Ｃを表示している通信端末２０の表示部２１の前面図である。出力部１１６は、例えば図５〜図７の発言量画面Ｂにおいて分析者がいずれかの区間の名称Ｂ２を指定した場合に、指定された区間について区間抽出画面Ｃを表示する。区間抽出画面Ｃは、同じ区間の発言量のグラフを抽出した結果を表示する画面であり、発言量のグラフＣ１と、区間の名称Ｃ２と、グループの名称Ｃ３とを含む。

区間抽出画面Ｃを表示する際に、出力部１１６は、指定された区間についての複数のグループの分析結果及び区間情報を、分析結果記憶部１３３から抽出する。表示対象のグループは、同時に議論した異なるグループでもよく、あるいは過去に議論した同じ又は異なるグループでもよい。そして出力部１１６は、抽出した分析結果及び区間情報に基づいて、指定された区間における複数のグループについて各参加者の発言量の時間変化を表示するための表示情報を生成する。

発言量のグラフＣ１は、２つ以上のグループのそれぞれについて、指定された区間における各参加者Ｕの発言量の時間変化を示すグラフである。グラフＣ１の表示態様は、グラフＢ１と同様である。区間の名称Ｃ２は、指定された区間の名称を示す文字列である。

グループの名称Ｃ３は、表示対象のグループを識別するための名称であり、分析者によって設定されてもよく、あるいは音声分析装置１００によって自動的に決定されてもよい。図８の例では出力部１１６は２つのグループのグラフＣ１を表示しているが、３つ以上のグループのグラフＣ１を表示してもよい。また、出力部１１６は、グループの名称Ｃ３に代えて又は加えて、グループに属する１人又は複数人の参加者Ｕの名称を表示してもよい。

このように出力部１１６は、同じ区間について、異なるグループにおける各参加者の発言量の時間変化を示す複数のグラフを表示する。これにより、分析者は、同じ区間（例えば同じ教科、又は議論における同じ段階）について異なるグループの発言量の時間変化を比較して分析することができる。例えば分析者は、同時に議論した異なるグループを比較することによって、グループごとの発言量の傾向を把握することができる。また、例えば分析者は、同じグループについて同じ区間の過去の複数の議論を比較することによって、同じグループの発言量の傾向の変化を把握することができる。

［発言量のヒートマップの表示方法の説明］
出力部１１６は、図５のような積み上げグラフに限られず、各参加者Ｕの発言量の時間変化を示すヒートマップを表示してもよい。図９は、発言量画面Ｄを表示している通信端末２０の表示部２１の前面図である。発言量画面Ｄは、発言量のヒートマップＤ１と、区間の名称Ｄ２と、区間の切り替え線Ｄ３とを含む。区間の名称Ｄ２及び区間の切り替え線Ｄ３は、図５における区間の名称Ｂ２及び区間の切り替え線Ｂ３と同様である。

発言量のヒートマップＤ１は、時間に沿った発言量を、色によって表示する。図９は、色の違いを点の粗密によって表しており、例えば点の密度が高いほど濃い色であり、点の密度が低いほど薄い色である。出力部１１６は、所定の方向（例えば図９の横方向）に時間をとって、各参加者Ｕについて時間ごとの発言量に応じた色の領域を、表示部２１に表示させる。

このように、出力部１１６がグラフの代わりにヒートマップを表示することによっても、分析者は、各参加者Ｕの発言量の時間変化を区間ごとに把握することができる。出力部１１６は、図５のグラフと図９のヒートマップとを分析者の操作に応じて切り替えて表示してもよく、予め定められた少なくとも一方を表示してもよい。

［音声分析方法のシーケンス］
図１０は、本実施形態に係る音声分析システムＳが行う音声分析方法のシーケンス図である。まず通信端末２０は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置１００に送信する（Ｓ１１）。音声分析装置１００の設定部１１１は、通信端末２０から設定情報を取得して設定情報記憶部１３１に記憶させる。

次に音声分析装置１００の音声取得部１１２は、音声の取得を指示する信号を集音装置１０に送信する（Ｓ１２）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置１００に送信する（Ｓ１３）。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、分析者による指示があった時、音声の取得が終了した時、又は音声を取得している途中（すなわちリアルタイム処理）のいずれかのタイミングで、音声の分析を開始する。音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した音声に基づいて音源定位を行う（Ｓ１４）。

次に分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者ごとに発言期間及び発言量を特定する（Ｓ１５）。分析部１１４は、参加者ごとの発言期間及び発言量を、分析結果記憶部１３３に記憶させる。

区間設定部１１５は、分析対象の議論に対応する音声に対して、１つ以上の区間を設定する（Ｓ１６）。このとき、区間設定部１１５は、通信端末２０における操作、集音装置１０における操作、及び集音装置１０が取得した所定の音のうち少なくとも１つに基づいて、区間を設定する。区間設定部１１５は、区間を示す区間情報を、設定対象の音声と関連付けて分析結果記憶部１３３に記憶させる。

出力部１１６は、分析結果を通信端末２０の表示部２１に表示させる制御を行う（Ｓ１７）。具体的には、出力部１１６は、分析部１１４による分析結果及び区間設定部１１５による区間情報に基づいて、上述の発言量画面Ｂ、区間抽出画面Ｃ又は発言量画面Ｄを表示させるための表示情報を生成し、通信端末２０に送信する。

通信端末２０は、音声分析装置１００から受信した表示情報に従って、表示部２１に分析結果を表示させる（Ｓ１８）。

［本実施形態の効果］
ハークネス法は議論の開始から終了までの全期間の発言の傾向を示すため、議論の時系列に沿った各参加者の発言量の変化を示すことができない。そのため、各参加者の発言量の時間変化に基づく分析が難しいという問題があった。それに対して、本実施形態に係る音声分析装置１００は、区間ごとに各参加者の発言量の時間変化を表示する。これにより分析者は、各参加者の発言量の時間変化を、区間ごとに把握することができる。

また、音声分析装置１００は、複数の集音部を有する集音装置１０を用いて取得した音声に基づいて、自動的に複数の参加者の議論を分析する。そのため、非特許文献１に記載のハークネス法のように記録者が議論を監視する必要がなく、またグループごとに記録者を配置する必要がないため、低コストである。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図１０に示す音声分析方法に含まれる各ステップ（工程）の主体となる。すなわち、音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図１０に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置１００、集音装置１０及び通信端末２０の各部を制御することによって、図１０に示す音声分析方法を実行する。図１０に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ音声分析システム
１００音声分析装置
１１０制御部
１１２音声取得部
１１４分析部
１１５区間設定部
１１６出力部
１０集音装置
２０通信端末
２１表示部

Claims

グループに属する複数の参加者が発した音声を前記グループに関連付けて取得する取得部と、
前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定する分析部と、
ユーザからの入力に基づいて、前記音声における少なくとも一部の区間及び前記区間の名称を設定する区間設定部と、
前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを出力する出力部と、
を有し、
前記出力部は、複数の前記グループに関連付けられた複数の前記音声において同じ前記名称が設定された前記区間の複数の前記グラフを、複数の前記グラフそれぞれに対応する複数の前記グループそれぞれに関連付けて出力する音声分析装置。
前記出力部は、連続する２つの前記区間の境界の時刻の位置を、前記グラフ上で、前記区間を示す情報として出力する、請求項１に記載の音声分析装置。
前記区間設定部は、前記ユーザからの前記入力として、前記音声分析装置と通信する通信端末における前記ユーザによる操作と、前記音声を取得する集音装置における前記ユーザによる操作と、前記ユーザが発生させた所定の音を前記取得部が取得したタイミングとのうち少なくとも１つに基づいて、前記区間を設定する、請求項１又は２に記載の音声分析装置。
前記出力部は、前記複数の参加者それぞれの前記発言量に基づいて前記発言量の時間変化を積み上げる順番を決定し、決定した前記順番で前記発言量の時間変化を互いに積み上げた前記グラフを出力する、請求項１から３のいずれか一項に記載の音声分析装置。
前記出力部は、前記複数の参加者それぞれについて算出された前記発言量のばらつきの程度が小さい順に、前記発言量の時間変化を互いに積み上げた前記グラフを出力する、請求項４に記載の音声分析装置。
前記出力部は、前記複数の参加者それぞれについて算出された前記区間ごとの前記発言量のばらつきの程度が小さい順に、前記区間ごとに前記発言量の時間変化を互いに積み上げた前記グラフを出力する、請求項５に記載の音声分析装置。
前記グラフ及び前記区間を示す情報に加えて、前記音声の時間内に発生したイベントを示す情報を、前記グラフ上に出力する、請求項１から６のいずれか一項に記載の音声分析装置。
前記分析部は、所定の時間窓内に参加者の発言を行った時間の長さを、前記時間窓の長さで割った値を、前記発言量として特定する、請求項１から７のいずれか一項に記載の音声分析装置。
プロセッサが、
グループに属する複数の参加者が発した音声を前記グループに関連付けて取得するステップと、
前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定するステップと、
ユーザからの入力に基づいて、前記音声における少なくとも一部の区間及び前記区間の名称を設定するステップと、
前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを出力するステップと、
を実行し、
前記出力するステップは、複数の前記グループに関連付けられた複数の前記音声において同じ前記名称が設定された前記区間の複数の前記グラフを、複数の前記グラフそれぞれに対応する複数の前記グループそれぞれに関連付けて出力する音声分析方法。
コンピュータに、
グループに属する複数の参加者が発した音声を前記グループに関連付けて取得するステップと、
前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定するステップと、
ユーザからの入力に基づいて、前記音声における少なくとも一部の区間及び前記区間の名称を設定するステップと、
前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを出力するステップと、
を実行させ、
前記出力するステップは、複数の前記グループに関連付けられた複数の前記音声において同じ前記名称が設定された前記区間の複数の前記グラフを、複数の前記グラフそれぞれに対応する複数の前記グループそれぞれに関連付けて出力する音声分析プログラム。
音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、
前記通信端末は、情報を表示する表示部を有し、
前記音声分析装置は、
グループに属する複数の参加者が発した音声を前記グループに関連付けて取得する取得部と、
前記音声における、前記複数の参加者それぞれの時間ごとの発言量を特定する分析部と、
ユーザからの入力に基づいて、前記音声における少なくとも一部の区間及び前記区間の名称を設定する区間設定部と、
前記複数の参加者の前記発言量の時間変化を互いに積み上げたグラフと、前記グラフにおける前記区間を示す情報とを、前記表示部に表示させる出力部と、
を有し、
前記出力部は、複数の前記グループに関連付けられた複数の前記音声において同じ前記名称が設定された前記区間の複数の前記グラフを、複数の前記グラフそれぞれに対応する複数の前記グループそれぞれに関連付けて出力する、音声分析システム。