JP2016213631A

JP2016213631A - 理解状態推定装置及びプログラム

Info

Publication number: JP2016213631A
Application number: JP2015094810A
Authority: JP
Inventors: 建鋒徐; Kenho Jo; 茂之酒澤; Shigeyuki Sakasawa
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2016-12-15

Abstract

【課題】遠隔会議などのコミュニケーションの各参加者のリアルタイムの理解状態を高精度に推定する理解状態推定装置を提供する。
【解決手段】個人特徴量取得部2は、各参加者よりその活動状態が反映された信号を取得し、当該信号より活動状態を表す特徴量を時系列で取得する。難易度推定部3は、発言内容に基づき、当該コミュニケーションの難易度を時系列で推定する。個人推定部4は特徴量及び難易度に基づいて各参加者の理解度を推定する。グルーピング部5は各参加者をその理解能力に応じたグループに分ける。総合推定部6は、個人推定部4の出力をグルーピング部5のグループ毎に修正する。
【選択図】図１

Description

本発明は、遠隔会議その他の、複数の参加者によりなされるコミュニケーションにおける各参加者の理解状態を推定することのできる理解状態推定装置及びプログラムに関する。

会議（特に、遠隔開催される場合の会議）の生産性を高めるための技術では、基本的な状況を把握できることが重要である。特に、会議の参加者が会議の内容を理解しているかどうか（以下、理解状態と呼ぶ）を時系列上で推定する技術が重要である。例えば、遠隔参加者が理解しているかどうか（理解状態）を推定し、主会場にリアルタイムでフィードバックすると、きちんと理解できていれば主会場の参加者に安心感を与えることができ、逆にきちんと理解できていなければ、再度説明することなどによって会議の生産性を向上できる。

一方、ウエアラブルセンサーの普及で理解状態と強い相関を持っているデータ（例えば、表情、視線、ジェスチャーなど）がユーザの負担を掛けずに簡単に取れるようになってきた。

理解状態と関係が深いと考えられ、客観的に観測可能な信号として、生体信号（脳波）、表情、視線、ジェスチャー、発話有無、会議附属資料の閲覧履歴、アンケート結果などが注目される。こうした信号を利用した従来技術として、以下のようなものがある。

具体的に、特許文献１に開示の会議管理装置及び会議管理方法では、会議附属資料の参照に係る操作（ページ遡り操作）を集計し、その集計に基づいて会議への理解度が高いか否かを判断する。また、特許文献２に開示の会議支援システムでは、会議の目的や会議での決定事項など会議情報に対してアンケートの正解度合いによって理解度を算出する。また、特許文献３に開示の通信装置では、映像データを解析して顔画像検出を行うことでうなずき動作を検出し、うなずき動作の回数から理解度を算出する。

また、特許文献４に開示の情報処理システム、情報処理方法およびプログラムでは、眼球運動、および発話音量、環境音等を重み付けして加算した評価関数により、デスクワークと並行して遠隔会議に参加するユーザの理解度を推定する。また、特許文献５に開示の理解度判定装置および方法では、生体信号（脳波）を用いて学習時のユーザの理解度を推定する。

また、非特許文献１では、ニューラルネットワークを用いて顔の表情から理解度を推定する。また、非特許文献２では、視線分布から算出したエントロピーとニュース番組の内容の理解度との間に負の相関が見られ、多数の視聴者の視線の動きが共通しているシーンほど内容の理解度が高いという結果が報告されている。

特開2011-066794号公報特開2014-222427号公報特開2009-267621号公報特開2007-079647号公報特開2006-023566号公報

三村ら、表情から得られる理解度の推定システム、電気学会論文誌C、Vol. 120、No.2, pp.273-278, 2000-02-01 澤畠ら、番組視聴時の視線分布と番組内容理解度の関係、映像情報メディア学会誌、Vol.62, No.4, pp.587-594, 2008

しかしながら、以上のような従来技術においては、客観的に観測可能な信号（生体信号、表情、視線、ジェスチャー、発話有無、会議附属資料の閲覧履歴、アンケート結果など）を用いて理解状態を推定しているものの、理解状態のような深層の態度を推定する精度にさらなる向上の余地があった。

理解状態の推定精度が十分とはいえない従来技術における問題点として、次の２点を挙げることができる。

第一に、従来技術においては複数人が参加する会議において参加者間の相関が考慮されていない。例えば、理解力が近い参加者Aと参加者Bは同一の会議内容に対して理解状態で強い相関を期待できる。

第二に、従来技術においては会議の内容や進行フェーズなどコンテキスト的な情報が利用されていない。例えば、専門性が高い会議と専門性が低い会議において参加者の理解状態も当然違う。

本発明は、上記のような従来技術の課題に鑑み、遠隔会議その他の複数の参加者によりなされるコミュニケーションにおける各参加者の理解状態を、高精度に推定することのできる理解状態推定装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、複数の参加者によりなされるコミュニケーションにおける各参加者の理解状態を、当該コミュニケーションの進行に沿った時系列で推定する理解状態推定装置であって、各参加者よりその活動状態が反映された信号を取得し、当該信号より活動状態を表す特徴量を時系列で取得する個人特徴量取得部と、前記コミュニケーションにおける発言に基づき、当該コミュニケーションの難易度を時系列で推定する難易度推定部と、前記取得された特徴量と前記推定された難易度とに基づき、各参加者の前記コミュニケーションにおける理解状態を時系列で推定する個人推定部と、前記複数の参加者を、その理解能力に関連する情報に基づいてグループに分けるグルーピング部と、前記分けられたグループ毎に、当該グループ内で前記推定された理解状態が乖離していると判定される参加者の理解状態を修正し、当該判定されなかった参加者の理解状態は修正しないことにより、各参加者の理解状態を時系列で出力する総合推定部と、を備えることを特徴とする。

また、本発明は、コンピュータを前記理解状態推定装置として機能させるプログラムであることを特徴とする。

本発明によれば、第一に、難易度推定部によりコミュニケーションのコンテキストを考慮した難易度を求め、各参加者の特徴量と当該難易度とに基づいて各参加者の理解状態を推定するので、コンテキストを考慮した理解状態の推定が可能となる。また、第二に、当該推定された理解状態をさらに、グループ分け結果に基づいてグループ毎に修正するので、参加者間の相関を考慮した理解状態の推定も可能となる。以上により、本発明により参加者の理解度を高精度に推定することが可能となる。

一実施形態に係る理解状態推定装置の機能ブロック図である。理解状態推定装置により各参加者の理解状態を推定する対象となる会議の例としての、遠隔会議が開催される際のシステム構成の例を示す図である。頭のピッチ、ヨー及びロールを模式的に示す図である。６種類のアニメーションユニットAU0〜AU5のそれぞれの内容を表形式で示す。特徴量により表される顔の表情及び頭の動きの例を示す図である。一実施形態に係る難易度推定部の機能ブロック図である。キーワードの難易度よりキーワードのスコアを定める規則の例を示す図である。総合スコアよりキーワード難易度を定める規則の例を示す図である。統合部において絶対難易度に基づくキーワード難易度と相対難易度に基づくキーワード難易度とを統合したキーワード難易度を求める例を示す図である。難易度統合部においてキーワード難易度と進行フェーズ難易度とを統合して現時刻の難易度を求める例を示す図である。個人推定部の一実施形態に係る機能ブロック図である。隠れマルコフモデルを説明するための図である。難易度の「低、中、高」が切り替わる際の隠れマルコフモデルによる状態列の計算を模式的に示すための例を示す図である。総合推定部から出力される参加者ごとの理解状態を模式的に示す図である。一実施形態に係る総合推定部の機能ブロック図である。

図１は、一実施形態に係る理解状態推定装置の機能ブロック図である。理解状態推定装置1は、個人特徴量取得部2、難易度推定部3、個人推定部4、グルーピング部5及び総合推定部6を備える。当該各部の処理内容の概要は次の通りである。

個人特徴量取得部2は、複数人の会議において、センサデータ等を入力として受け取ることで参加者毎の生体信号、表情、音声などを収集し、当該収集したリアルタイムのデータにより参加者毎の活動状態を表す特徴量をリアルタイムで算出し、個人推定部4へ出力する。難易度推定部3は、会議における音声データ（発言者となりうる参加者毎に区別した音声データではなく、会議全体としての音声データ）等を入力として受け取ることで会議のテーマや進行フェーズ、キーワードなど（会議のコンテキスト情報）を収集し、リアルタイムで会議の難易度を推定して個人推定部4へと出力する。

個人推定部4は、個人特徴量取得部2から入力された参加者毎の特徴量と、難易度推定部3から入力された会議の難易度と、から参加者毎の会議の理解状態をリアルタイムで推定して、総合推定部6へと出力する。グルーピング部5は、会議の開始前に事前に登録等される情報として、会議の各参加者の情報（特に、各参加者における会議の理解能力に関連する情報）を入力として受け取って会議の参加者をグループ分けし、当該グループ分け結果を総合推定部6へと出力する。

総合推定部6は、個人推定部4から入力された参加者毎の理解状態をグルーピング部5から入力されたグループ分け結果におけるグループ毎に修正し、参加者毎の修正された理解状態をリアルタイムで出力する。

なお、図１では個人特徴量取得部2、個人推定部4及び総合推定部6が、複数のブロックが重なったように表現されているが、当該表現は当該各部2,4,6が会議の参加者毎に特徴量や理解状態といった情報を出力することを模式的に表すためのものである。

また、図１の各部2〜6のうち、グルーピング部5は会議開始前の時点で１回だけ、当該会議の参加者のグループ分け結果を求めておけばよく、会議の進行に沿ってリアルタイムで処理を行う必要はない。一方、上記説明したようにグルーピング部5以外の各部2〜4,6については、会議の進行に沿ってリアルタイムでそれぞれの処理を行う。

図２は、理解状態推定装置1により各参加者の理解状態を推定する対象となる会議の例としての、遠隔会議が開催される際のシステム構成の例を示す図である。図示するように、当該遠隔会議は[1]に示す本社Aと、[2]に示す地方拠点Bと、[3]に示す地方拠点Cと、のそれぞれの地点に1名以上の参加者を有する。そして、[4]に示すネットワーク（社内ネットワークあるいはインターネット等）上のサーバ100を介して各地点での音声映像を共有することによって、当該遠隔会議は進行する。

各地点には自地点に存在する参加者の様子を音声映像等として取得して他地点へ送信し、且つ、他地点から送信されてきた他地点の参加者の様子の音声映像等を再生するための1台以上の入出力機器（マイク、スピーカ、カメラ、ディスプレイ等）が設置され、遠隔会議が実現される。図２ではそれぞれ、本社Aには入出力機器10Aが、地方拠点Bには入出力機器10Bが、地方拠点Cには入出力機器10Cが設置され、ネットワーク上のサーバ100を介して各地点で取得された音声映像が他地点と共有されることにより、遠隔会議が実現される。

図２の構成例では、理解状態推定装置1は当該遠隔会議における音声映像等の地点間の送受を制御しているサーバ100において実現することができるが、当該サーバ100で参照可能となる情報（各地点における音声映像等、会議進行に沿って得られる情報）を取得可能であれば、サーバ100以外の装置として実現してもよい。

以下、図１の各部2〜6の詳細を順に説明する。

＜個人特徴量取得部2について＞
個人特徴量取得部2では、参加者毎に設置あるいは装着等されているカメラやウエアラブルセンサーなどのデバイスより、参加者毎の生体信号、表情、音声など（活動状態が反映された生データとしての信号）を収集し、当該収集した生データから適切な特徴量（活動状態を表す特徴量）をそれぞれ抽出し、参加者毎の特徴量を求める。

個人特徴量取得部2にて当該収集される生データより抽出される特徴量としては、参加者の会議における何らかの活動状態を表す１種類以上の任意のデータを利用することができる。例えば、従来技術として説明した特許文献１〜５で利用されている周知のデータ（生体信号（脳波）、表情、視線、ジェスチャー、発話有無、会議附属資料の閲覧履歴、アンケート結果など）の任意の組み合わせを利用することができる。ある特徴量Aと別の特徴量Bとを組み合わせる際は、(A,B)のようにペアとして組み合わせればよく、3種類以上組み合わせる場合も同様である。

なお、センサ等が出力した直接の生データから人間の活動状態を表す特徴量を抽出する処理については、周知の特徴量の種類に応じた所定処理を利用すればよい。当該所定処理を理解状態推定装置1の外部において予め施しておくことにより、個人特徴量取得部2では生データとして入力を受け取るのではなく、特徴量を入力として直接に受け取り、抽出処理を省略するようにしてよい。また、生データがそのまま特徴量として利用可能な場合は、抽出処理は省略できる。（この場合、生データをそのまま特徴量として採用する処理を抽出処理とみなすことができる。）

以下、個人特徴量取得部2における利用データの一実施例として、生データより顔の表情と頭の動作とを表す特徴量を抽出する場合を説明する。

この場合、データを取得する具体的なデバイスとしては、例えばマイクロソフト社の提供するKinect（登録商標）を利用することができる。Kinectでは映像、音声及び深度データを生データとして収録することができる。さらに、マイクロソフト社が提供しているSDK（ソフトウェア開発キット）によって提供される機能を利用することにより、Kinectが収録した生データから頭のピッチ(Pitch)、ヨー(yaw)及びロール(roll)という姿勢と、顔のパーツである６種類のアニメーションユニット（Animation Units；６種類それぞれ記号でAU0〜AU5と表記する）と、を追跡することができる。

図３に、それぞれ[1],[2],[3]として頭のピッチ、ヨー及びロールを模式的に示す。また、図４に、顔の６種類のアニメーションユニットAU0〜AU5のそれぞれの内容を表形式で示す。なお、これら図３や図４に示すSDKにて算出される内容に関しては、以下のURLにも開示されている。
http://msdn.microsoft.com/en-us/library/jj130970.aspx

以上のように、生データとしての映像、音声及び深度データから特徴量として、頭の動きを表すピッチ、ヨー及びロールの３つのデータ（３次元）と、顔の表情を表す６つのアニメーションユニット（６次元）とが抽出される。従って、最終的に出力する特徴量は、当該３次元データ及び６次元データを組み合わせた９次元データとなる。図５に、当該特徴量により表される顔の表情及び頭の動きの例を示す。

また、当該特徴量としての９次元のデータを個人特徴量取得部2では各参加者に関してリアルタイム取得するが、例えば1秒あたり30回といったような所定のレートで取得すればよい。こうして、各時刻tの特徴量Y(t)={y1(t),y2(t),…,y9(t)}が取得されることとなる。なお、時間軸上にて所定レートで取得することに関しては、以上の一実施例とは別の種類の特徴量を利用する場合も同様である。また、その他の機能部3,4,6でも各データをリアルタイム取得するが、個人特徴量取得部2におけるのと同様の所定レートで取得すればよい。

＜難易度推定部3について＞
難易度推定部3では、入力される会議の音声を解析することによって会議のテーマや進行フェーズ、キーワードなどを収集し、当該収集結果に基づいて会議の進行に沿ったリアルタイムで難易度（会議進行のコンテキストが考慮された難易度）を推定する。当該難易度の推定は例えば、低、中、高の３段階で推定することができる。

図６は、一実施形態に係る難易度推定部3の機能ブロック図である。難易度推定部3は、キーワード抽出部31、キーワード難易度算出部32、進行フェーズ難易度算出部33及び難易度統合部34を備える。ここで、キーワード難易度算出部32はさらに、絶対難易度算出部321、相対難易度算出部322及び統合部323を備える。各部の処理内容の概要は以下の通りである。

キーワード抽出部31では、現時刻tまでの一定時間に渡る会議の音声データよりキーワードを抽出し、抽出結果をキーワード難易度算出部32に渡す。キーワード難易度算出部32は、当該抽出結果に基づいて会議の現時刻tにおけるキーワード難易度を算出し、難易度統合部34に出力する。進行フェーズ難易度算出部33は、データ線L63（図１と共通）に示すように、総合推定部6より得られる過去の理解状態の平均値に基づいて、会議の現時刻tにおける進行フェーズ難易度を算出し、難易度統合部34に出力する。難易度統合部34は、キーワード難易度と進行フェーズ難易度とを統合することにより、会議の現時刻tにおける難易度を算出し、個人推定部4（図１）へと出力する。

以下、図６の各部の詳細を説明する。ここで、図中にも描いてあるように当該各部の処理において様々な種類の難易度（いわゆる中間データとしての各種の難易度及び難易度統合部34が出力する最終結果としての難易度）が算出されることとなるが、これら難易度が全て「低、中、高」の３段階で算出される場合を例として説明する。

＜キーワード抽出部31について＞
キーワード抽出部31は、現時刻tに至るまでの直近の一定時間（例えば10分間）に会議で発話された音声データに対し、周知の音声認識技術でセリフを認識し、当該セリフからキーワードを抽出する。ここで、現時刻tまでの一定時間にて当該抽出されたキーワードがK(t)種類のw₁,w₂, …, w_K(t)であり、抽出された回数がそれぞれN₁, N₂, …, N_K(t)であるものとする。

なお、当該抽出されうる候補としてのキーワードに関しては、所定の一連のキーワードを事前に登録した辞書データを用意しておき、キーワード抽出部31では当該辞書内のキーワードを音声データにおけるセリフ認識結果内から検索するようにすればよい。

当該抽出結果（キーワードw₁,w₂, …, w_K(t)がそれぞれN₁, N₂, …, N_K(t)回だけ抽出されたという結果）は、キーワード難易度算出部32における絶対難易度算出部321及び相対難易度算出部322へと出力される。

＜キーワード難易度算出部32＞
キーワード難易度算出部32では、キーワード抽出結果に基づき、会議の現時刻tにおけるキーワード難易度を算出して、難易度統合部34へと出力する。なお、当該算出されるキーワード難易度とは、抽出されたキーワードに基づいて算出される現時刻tにおける会議の難易度という意味合いを有するものである。（キーワード難易度とは、何らかのキーワードそれ自体の難易度を意味するものではない。）

ここで、当該キーワード難易度の算出の一実施形態として、各部321,322,323が次のような処理を行う。絶対難易度算出部321は、現時刻tにおける絶対難易度としてのキーワード難易度を算出して、統合部323へと出力する。相対難易度算出部322は、現時刻tにおける相対難易度としてのキーワード難易度を算出して、統合部323へと出力する。

そして最後に、統合部323では、当該算出された絶対難易度としてのキーワード難易度及び相対難易度としてのキーワード難易度の両者を統合することにより、キーワード難易度算出部32全体の出力としてのキーワード難易度を算出し、難易度統合部34へと出力する。

以下、キーワード難易度算出部32の各部321,322,323の処理の詳細を説明する。

＜絶対難易度算出部321について＞
絶対難易度算出部321では、以下の順次実施される（手順１）〜（手順５）により、キーワード難易度を算出することができる。

（手順１）まず、抽出された各キーワードw_i(i=1,2,…,K(t))の絶対難易度（世間一般の立場から見た際の難易度）ABS(w_i)を算出する。

ここで、絶対難易度ABS(w_i)を算出する手法として例えば、あまり現れない珍しい言葉は難易度が高く、よく現れる言葉は難易度が低いという考察に基づく算出手法を利用することができる。具体的には、抽出された各キーワードw_iをGoogle（登録商標）などの一般的な検索エンジンで検索した際のヒット件数（所定の検索エンジンによりインターネットにおける文書その他の情報を検索した際のヒット件数）をそのまま、あるいは当該ヒット件数に対する所定関数の値を、絶対難易度ABS(w_i)の値として採用することができる。なお、当該検索処理の流れが、図６中にデータ線L1,L2として示されている。

なお、各キーワードw_iを一般的な検索エンジンで検索した際のヒット数については、会議の開始前の時点で前述の辞書内の全キーワードに関してそのヒット数を求めたうえで辞書に追加情報として登録しておき、当該登録情報を参照することにより求めるようにしてよい。事前に求めておいた検索ヒット件数を参照することで、リアルタイム処理を確実に実施することができる。こうして、リアルタイム処理時における図６中にデータ線L1,L2として示す外部（ネットワーク上の検索サーバ等）へのアクセスを省略することができる。

（手順２）閾値判定により絶対難易度ABS(w_i)の値が「低、中、高」のいずれであるかを判定し、当該判定された「低、中、高」を抽出された各キーワードw_iの難易度とする。（ここで閾値判定は例えば、後述する式(2)と同様に判定することができる。ただし、閾値の値は式(2)のものから変更したものを用いてもよい。）

（手順３）図７にその例を示すようなキーワードの難易度よりスコアを定める所定規則を適用することで、各キーワードw_iにスコアs(w_i)を付与する。なお、図７では、キーワードの難易度が高いほどスコアの値を大きくする所定規則の例が示されている。

（手順４）上記のように求めた各キーワードw_iのスコアs(w_i)を、当該キーワードw_iが抽出の際に現れた回数N_iによって以下の式(1)のように重み付け平均することにより当該時刻tにおける総合スコアs=s(t)を求める。

（手順５）当該総合スコアの値sに対して図８にその例を示すような総合スコアsの値からキーワード難易度を「低、中、高」のいずれであるかを定める所定規則を適用することでキーワード難易度を求め、絶対難易度算出部321における出力となす。

なお、図８では、総合スコアsの値が高いほどキーワード難易度も「低、中、高」のうちの「高」の側の難易度となるような所定規則の例が示されている。また、図８の例は図７の例に対応する例である。すなわち、図７の例ではキーワードのスコアが1,3,5のいずれかとして定まることより、総合スコアsの値も1≦s≦5の範囲内で定まるので、図８の例では当該範囲内において「低、中、高」の区別を与えるような所定規則が示されている。その他の所定規則を用いる場合も、図７及び図８の例と同様に規則を定めるようにすればよい。すなわち、キーワードのスコアのとりうる値に応じて定まる総合スコアsのとりうる範囲内において、キーワード難易度を定めるようにすることができる。

＜相対難易度算出部322について＞
以上説明した絶対難易度算出部321では、絶対難易度（世間一般の立場から見た際の難易度）に基づいたキーワード難易度を算出した。これに対して、相対難易度算出部322では相対難易度（当該会議参加者の立場から見た難易度）に基づいたキーワード難易度を算出する。

具体的に、相対難易度算出部322では以上説明した絶対難易度算出部321の算出手法を次のように修正した手法により、相対難易度に基づいたキーワード難易度を算出することができる。

つまり、絶対難易度算出部321では（手順１）において抽出された各キーワードw_i(i=1,2,…,K(t))の絶対難易度ABS(w_i)に基づいてキーワード難易度の算出を行っているのに代えて、相対難易度算出部322では各キーワードw_iの相対難易度REL(w_i)に基づいてキーワード難易度の算出を行うようにすればよい。そして、絶対難易度ABS(w_i)を相対難易度REL(w_i)に置き換えたうえで、絶対難易度算出部321におけるその後の（手順２）〜（手順５）と同様の手順を相対難易度算出部322においても実施することで、相対難易度に基づいたキーワード難易度を算出することができる。

ここで、（手順１）を修正した手順として相対難易度算出部322では、各キーワードw_iの相対難易度REL(w_i)の値を次のように算出すればよい。すなわち、各キーワードw_iを過去の会議を対象として検索した際のヒット件数を、相対難易度REL(w_i)の値とすればよい。この際、検索対象となる過去の会議のデータについては、その発言を周知の音声解析技術によりテキスト化したデータを利用すればよい。検索ヒット数を求める際の検索エンジンについては、絶対難易度ABS(w_i)を算出した際におけるのと同様の一般的な検索エンジンを用いればよい。（ここで、検索対象データが絶対難易度算出部321ではインターネット上の全ウェブサイト等の膨大なデータであったのに対し、相対難易度算出部322では過去会議テキストに限定されるという点のみが異なり、検索手法そのものについては共通の検索手法を利用すればよい。）

なお、相対難易度REL(w_i)としての検索ヒット数については絶対難易度ABS(w_i)の場合と同様に、リアルタイム処理を可能とすべく、会議の開始前の時点で前述の辞書内の全キーワードに関してそのヒット数を求めたうえで辞書に追加情報として登録しておき、当該登録情報を参照することにより求めるようにしてよい。こうして、リアルタイム処理時において、図６中にデータ線L3,L4として示す外部（過去データの検索サーバ等）とのアクセスを省略することができる。

また、理解状態推定装置1が現時点tで解析対象としている会議に対する過去の会議がいずれであるかが自動で識別できるように、継続関係にある一連の会議には会議開催者等の手によって共通のIDを付与しておき、当該IDと共に既に終了した会議の音声データ（及び／又はそのテキスト情報）を難易度推定部3においてデータベースとして保持しておくものとする。当該保持しておくことにより、上記の相対難易度REL(w_i)をヒット件数として算出することができる。

例えば、理解状態推定装置1が現時点tで解析対象としている会議が「新製品αの開発に関する会議の３回目」であれば、当該会議の過去の会議に相当する「新製品αの開発に関する会議の１回目」及び「新製品αの開発に関する会議の２回目」のデータを保持しておき、利用する。

あるいは、過去会議のデータとして、現時点tで開催されている会議の、会議開始時点t0から現時点tまでの全データを利用するようにしてもよい。この場合、上記のように各会議のIDを管理しなくともよい。

＜統合部323について＞
統合部323は、絶対難易度に基づくキーワード難易度と、相対難易度に基づいたキーワード難易度を算出と、を統合し、最終結果としての現時刻tのキーワード難易度を算出する。

図９に、当該統合対象となる両キーワード難易度が共に「低、中、高」の３段階で与えられている場合に、統合部323における統合結果として「低、中、高」の３段階のキーワード難易度を算出する例を表形式で示す。

図９の例では、統合対象の両キーワード難易度が一致している場合は、当該一致している難易度を統合結果とし、不一致の場合は両者の平均とみなせる難易度又はいずれか片方を優先して決定した難易度を統合結果とするルールベース手法の例が示されている。当該例においては、統合するに際して、片方が平均の「中」であり、もう片方が「高」又は「低」という平均の「中」から乖離した結果であれば、当該乖離している側を優先して統合する。

例えば、一方が「高」、もう一方が「中」であれば、統合結果を（「中」ではなく）「高」とする。これを「高、中」→「高」と表記すると、図８の例では同様に、「高、低」→「中」（平均とみなせる難易度）とし、また、「中、低」→「低」（「低」を優先した難易度）としている。

なお、キーワード難易度を「低、中、高」以外の形式で与えるようにする場合も、図９のようなルールベース手法によって同様に、平均とみなせるような統合されたキーワード難易度を算出すればよい。

＜進行フェーズ難易度算出部33について＞
進行フェーズ難易度算出部33は、会議における難易度の変化パターン（会議進行のコンテクスト）を反映するものとして、会議の現時刻tにおける進行フェーズ難易度を算出する。ここで、会議の難易度の変化パターンに関する考察として、典型例としては次のようなものが考えられる。

例えば、議論する事項を大まかに紹介してから細部の詳細検討に入っていくような会議であれば、会議の最初は難易度が「低」であり、その次は難易度が「中」であり、最後には難易度が「高」となることが一般的であると考えられる。また、互いに議論する会議や、これとは逆に、一方的にプレゼンテーションする会議では、難易度はそれぞれ次のような傾向になるものと考えられる。すなわち、互いに議論する会議では議論の進行と共に参加者が理解してくれる傾向があり、基本的に難易度が徐徐に下がるが、プレゼンテーションする会議では難易度はあまり変わらないものと考えられる。

以上の考察のように、現実の会議において難易度の変化パターンは多種多様であることが想定され、当該パターンの全てを事前に準備しておくことは困難であると考えられる。そこで、進行フェーズ難易度算出部33は具体的には次のようにして、難易度の変化パターンを反映するものとしての現時刻tの会議の進行フェーズ難易度H(t)を自動算出することができる。

すなわち、進行フェーズ難易度算出部33では、図６（及び図１）中にデータ線L63として示すように、後述する総合推定部6が現時刻t（の直前時刻t-1）に至るまでの直近過去の一定時間（例えば10分間）に出力した参加者の理解状態の時系列より、その平均値U_mean(t)を求めたうえで、以下の式(2)のような場合分けに従って「低、中、高」の３段階で進行フェーズ難易度H(t)を算出すればよい。式(2)にて、TH1及びTH2（TH1<TH2）は「低、中、高」の区別を決定するための所定閾値である。

なお、現時刻tに至るまでの一定時間の参加者の理解度の平均値U_mean(t)は、会議の複数の参加者と時間との両者に関する平均（参加者平均及び時間平均）として求めればよい。すなわち、総合推定部6が出力する参加者Xの時刻iにおける理解度をU(X,i)とすると、現時刻t（の直近時刻t-1）に至るまでの一定時間Tの時間i（すなわち、各時刻を整数でカウントするものとして、時刻t-Tから時刻t-1までのT回の各時刻）及び全参加者Xの平均として平均値U_mean(t)を以下の式(3)のように求めればよい。Nは会議参加者の総数である。

また、会議を開始した時刻(時刻i=1とする)から上記の式(3)で平均を求めるための一定時間Tが経過する時刻(時刻i=T)までの間は、上記の式(3)による平均を求めることができない。このため、当該求めることのできない間は、平均値U_mean(t)として所定値、例えば、「中」を利用するようにすればよい。

また、総合推定部6が出力する参加者Xの時刻iにおける理解度U(X,i)は、「低、中、高」のような状態データであり、数値ではない。上記の式(3)で平均を求める際は、状態データを対応する所定の数値に置き換えたうえで平均値を求め、当該数値として求まった平均値に最も近い状態を平均値U_mean(t)とすればよい。

例えば、図７及び図８のキーワードの難易度の例と同様に、理解度においても「低、中、高」にそれぞれ「1」、「3」、「5」の数値を対応付け、式(3)で求まった平均値に最も近い「低、中、高」の状態を平均値U_mean(t)とすればよい。この場合例えば、式(3)で平均値が「2.8」として求まったのであれば、平均値U_mean(t)の状態を「中」とすればよい。

また、総合推定部6が出力する参加者Xの時刻iにおける理解度U(X,i)が２値で「理解している」又は「理解していない」のいずれかを出力する場合も、例えば両者にそれぞれ「1」及び「0」の値を付与することにより、上記の３値の場合と同様に平均値U_mean(t)の状態を求めればよい。

＜難易度統合部34について＞
難易度統合部34は、キーワード難易度算出部32（の統合部323）が出力したキーワード難易度と、進行フェーズ難易度算出部33が出力した進行フェーズ難易度と、を統合することによって会議の現時刻tにおける難易度を求める。

図１０に、難易度統合部34による難易度統合の例を表形式で示すように、難易度統合部34ではルールベース手法により統合した難易度を求めることができる。ここで、図１０におけるルールベースのルール（２つの「低、中、高」を統合して１つの「低、中、高」を得るルール）は、図９と同一の例となっているが、図９で説明したのと同じ考え方に基づくその他のルールを採用してもよい。

＜個人推定部4について＞
個人推定部4では、個人特徴量取得部2より出力された各参加者の特徴量と、難易度推定部3より出力された会議の難易度と、を用いて、各参加者の理解状態をリアルタイムの時系列上で推定し、総合推定部6へと出力する。

本発明においては特に、従来技術（特許文献１〜５等）とは異なり、会議の難易度に応じて参加者の理解状態を推定する手法を切り分ける。推定手法としては周知のHMM（隠れマルコフモデル）を利用することができるが、本発明においては会議の難易度が「低、中、高」のいずれであるかに応じてそれぞれ学習された個別のHMMを切り替えて利用することにより、各参加者の理解状態を推定する。

図１１に、当該切り替え手法を表現するものとしての、個人推定部4の一実施形態に係る機能ブロック図を示す。図示するように、個人推定部4は第一HMM推定部41と、第二HMM推定部42と、第三HMM推定部43と、現時刻tにおける会議の難易度に応じてこれら各推定部41,42,43のいずれを適用するかを切り替えるスイッチ40と、を備える。スイッチ40は、難易度が「高」の場合には第一HMM推定部41により理解状態を推定させるようにし、「中」の場合には第二HMM推定部42により理解状態を推定させるようにし、「低」の場合には第三HMM推定部43により理解状態を推定させるようにして、入力されてくる各参加者の特徴量の流れを制御する。

図１１に示すように、本発明では会議の難易度毎にそれぞれHMMを学習させておき、学習したHMM（各推定部41,42,43）のうち現時刻tの難易度に応じたものを用いて、各参加者の特徴量を入力として各参加者の理解状態を時系列上で推定することにより、理解度推定の精度の向上を図ることができる。

ここで、従来技術としてのHMM（隠れマルコフモデル）を簡単に説明する。HMMは、図１２に示すように、出力変数の系列を観測するモデルである。ただし、その出力変数を生成するためにモデルがたどった状態の列は分からない。HMMの分析は、観測されたデータから状態の列を復元しようとする。

図１２に示すように、観測できない状態集合S={s₁, s₂, …, s_N}から状態の列X={x_t=s_i, t=1, 2, …, T}が出力される。そして、Xに対応する観測できる出力変数の列がY={y_t, t=1, 2, …, T}である。HMMでは、遷移確率P_i,j≡P(x_t=s_j/x_t-1=s_i)の集合Aと、出力確率P(y_t/x_t=s_i)の集合φと、初期確率P_i≡P(x₁=s_i)と、の集合πがHMMモデルを支配するパラメータの集合θ={π, A, φ}となる。

また、HMMモデルが観測できる出力変数の列Yから、モデルパラメータの集合θ={π, A, φ}を推定するアルゴリズムはバウム・ウェルチアルゴリズム（Baum-Welch algorithm）が一般的である。

さらに、モデルパラメータの集合θ={π, A, φ}が既知の時に、与えられた出力変数の列Yの可能性（尤度）が最も高い状態列（最尤状態列）Xを計算するアルゴリズムはビタビアルゴリズム（Viterbi algorithm）が一般的である。

そして、以上のようなHMMを本発明における個人推定部4で利用するに際しては、次の第１、第２手順のようにすればよい。

（第１手順）隠れマルコフモデル(HMM)の学習
本発明では、会議の難易度毎に事前に沢山の教師データを用意する。当該難易度毎の教師データには、特徴量Y(t)と理解状態X(t)（０又は１により、理解していない情報又は理解している状態を表すものとする）をラベルとして付与しておく。ここで、特徴量Y(t)については、個人特徴量取得部2におけるのと同種ものを取得して付与しておく。また、教師データにおける会議の難易度の「低、中、高」の区別に関しても、ラベルと同様に、人手の判断その他の手法により与えておくことにより、難易度毎の教師データが用意される。

こうして、難易度「高」の教師データを用いた学習により図１１における第一HMM推定部41が構築され、「中」の教師データを用いた学習により第二HMM推定部42が構築され、「低」の教師データを用いた学習により第三HMM推定部43が構築されることとなる。なお「低、中、高」以外で難易度を定義している場合も、全く同様に各難易度に応じた教師データを用意しておき、難易度に応じた推定部を構築すればよい。

（第２手順）隠れマルコフモデル(HMM)で推定
現時点t時刻の難易度によって、適用する隠れマルコフモデル(HMM)（すなわち、各HMM推定部41,42,43のいずれか）を選んで、前記t時刻の特徴量Y(t)を適用された隠れマルコフモデル(HMM)に入力すると、前記ビタビアルゴリズム（Viterbi algorithm）を用いてt時刻の理解状態X(t)を推定することができる。「低、中、高」以外で難易度が定義されている場合も同様である。

なお、難易度の「低、中、高」のうちの任意の第１難易度から別の任意の第２難易度に切り替わった際は、HMM状態列を計算するに際して、過去の一連の第２難易度の際に計算されたHMM状態列からさらに状態遷移していくものとして計算すればよい。

図１３は、当該計算を模式的に示すための例である。[1]に示すように、時刻T1〜T7で「低、中、高」が切り替わって、難易度が区間ごとに遷移し「低の区間[T1,T2]、中の区間[T2,T3]、高の区間[T3,T4]、中の区間[T4,T5]、低の区間[T5,T6]、高の区間[T6,T7]」という結果が難易度推定部3より出力されているものとする。

図１３の場合、[2]に示すように、中の区間[T4,T5]で第二HMM推定部42が理解状態を推定する際には、区間[T3,T4]を無視して、共通の中の区間[T2,T3]のみを（時刻T3,T4間を飛び越えて連続している）過去の状態列として利用すればよい。同様に、[3]に示すように、低の区間[T5,T6]で第三推定部HMM43が理解状態を推定する際は、区間[T2,T5]を無視して、共通の低の区間[T1,T2]のみを（時刻T2,T5間を飛び越えて連続している）過去の状態列として利用すればよい。同様に、[4]に示すように、高の区間[T6,T7]で第一推定部41が理解状態を推定する際は、区間[T4,T6]を無視して、共通の高の区間[T3,T4]のみを（時刻T4,T6間を飛び越えて連続している）過去の状態列として利用すればよい。

なお、前述の（第１手順）における学習の際も、教師データとしての会議データの途中で難易度が切り替わっている場合、図１３のような手法によって共通する難易度の会議データ部分が連続しているものとして扱うようにすればよい。

以上、個人推定部4における理解状態推定にはHMMを利用する場合を例として説明したが、HMM以外にも、サポートベクターマシンやニューラルネットワークなどの機械学習手法を利用するようにしてもよい。こうした別手法を利用する場合も図１１で説明したのと同様に、難易度ごとの学習結果で構築された推定部により理解状態を推定することができる。

＜グルーピング部5について＞
グルーピング部5では、参加者の理解能力によって各参加者の属するグループを決定し、グループ分け結果を総合推定部6に出力する。

例えば、理解状態推定装置1の解析対象となる会議がある研究チームにおいて開催され、当該研究チームの構成はプログラマー3人と研究者3人、マネージャー1人であるとする。この場合、知識背景や経験が近いことから、それぞれ3つのグループ（プログラマーグループ、研究者グループ、マネージャーグループ）に所属するというグループ分け結果を得るといった処理を行うのがグルーピング部5である。

グルーピング部5において自動でグループ分け結果を得るための一実施形態として、理解力データベースの中に各参加者の理解能力データを用意しておき、当該理解能力データに対して周知のグルーピング手法を適用することができる。グルーピング手法としては、例えばK平均法（K-means）などのクラスタリング手法を利用することができる。K=3としてK平均法を利用すれば、グループ分け結果として理解能力が「低、中、高」に対応する三つのグループを得ることができる。（なお、いずれのグループが「低、中、高」となるかは、人手で判断するか、あるいは理解能力データから所定手法で各人の理解能力に関するスコア値を算出し、グループ毎のスコア値平均の大小で判断してもよい。）

ここで、上記用意しておく理解能力データについては、所定の評価項目ごとに評価値（量的データあるいは質的データ）を与えることで、所定のフォーマットで用意しておくことができる。例えば、職務経歴データを利用できる。前述の例のように、職位等の項目でそのままグループ分けするようにしてもよい。

なお、当該グループ分けの意義は次の通りである。すなわち、理解力が近い参加者Aと参加者Bは同一の会議内容に対して理解状態で強い相関を期待できることから、当該相関を理解状態の推定精度向上に利用する、という意義である。そして、当該グループ分けによる実際の推定精度向上は、次に説明する総合推定部6において実現される。

＜総合推定部6について＞
総合推定部6では、グルーピング部5で得られたグループ毎に個人の理解状態を修正したうえで、当該修正された理解状態を理解状態推定装置1からの出力となす。ここで、各参加者に対して個人推定部4で推定した理解状態を修正すべきかどうかを判断し、修正対象と判断された参加者については修正された理解状態を求めて出力となし、修正不要と判断された参加者については修正せずそのままの理解状態を出力とする。

図１４は、総合推定部6から出力される参加者ごとの理解状態を模式的に示す図である。図１４にて「○」は理解している状態、「×」は理解してない状態を表すものとする。このように、Aさん、Bさん、…、Eさん、…といった各参加者に関して、その理解状態（理解している／していない）が各時刻t1、t2、…、t7、…においてリアルタイムの時系列で出力されることとなる。

一実施形態では、総合推定部6では以下の３条件を全て満たす参加者の理解状態を修正対象と判断し、修正することができる。
（条件１）グループ内における参加者の理解状態が一致している（概ね一致している）と判定されるようなグループに所属している。
（条件２）上記の（条件１）を満たすグループ内の参加者であって、一定時間内において他の参加者とはその理解状態が異なっていると判定されるような参加者である。
（条件３）上記の（条件２）を満たす参加者であって、且つ、当該参加者の理解状態が一定時間内に突然変化したと判定される。

上記の（条件１）〜（条件３）の例として、例えば、共通のグループに所属する3人のプログラマーが全員、ある時点から理解していない状態を継続するようになり、その後に突然、当該3人の中の１人のみが理解状態になったとすると、当該1人についての推定は誤りである可能性が高いため、修正する。

図１５は、一実施形態に係る総合推定部6の機能ブロック図である。総合推定部6は、（条件１）を判定するグループ内一致判定部61と、（条件２）を判定する理解状態相違者検出部62と、（条件３）を判定する突然変化検出部63と、当該（条件１）〜（条件３）の全てに該当した参加者の理解状態を修正して出力し、その他の参加者については修正せずにそのまま出力する理解状態修正部64と、を備える。各部の詳細は以下の通りである。

＜グループ内一致判定部61について＞
グループ内一致判定部61ではまず、グルーピング部5より得た各グループj(ここでjはグループを識別するインデクスとする)について、個人推定部4の出力より得られる、当該グループjに所属する各参加者の現時刻tにおける理解状態を用いて、以下の式(4)により、当該グループjのエントロピーh(j)を算出する。

ここで、p_j(i)はグループjにおいて理解状態iの確率であって、グループjの総人数に対するグループj内の理解状態iの人数の割合として計算される。Mは理解状態iの総数である。例えば理解状態が「低、中、高」の3種類であれば、理解状態のインデクスi=1,2,3をそれぞれ割り当て、M=3とすればよい。

グループ内一致判定部61ではさらに、上記計算したエントロピーh(j)（すなわち、グループj内の理解状態のばらつきを数値化したもの）が一定閾値より小さいと、当該グループj内の理解状態がほぼ一致していると判定し、逆に一定閾値以上であると、当該グループj内の理解状態は一致していないと判定する。

図１５中にデータ線L611で示すように、理解状態が不一致であると判定されたグループjに関しては、所属する参加者全員が理解度の修正が不要である旨の情報が理解状態修正部64へと出力され、一方、データ線L612で示すように、理解状態が一致すると判定されたグループjに関しては、所属する参加者全員が理解度修正の候補として、次の理解状態相違者検出部62での処理対象に設定される。

＜理解状態相違者検出部62について＞
理解状態相違者検出部62では、上記にて理解状態が一致すると判定されたグループjに所属する各参加者Xにつき、当該参加者Xの理解状態時系列（現時刻tまでの一定時間分の時系列）と、同グループj内の他人Yの理解状態時系列（現時刻tまでの一定時間分の時系列）と、の相関係数Cor(X,Y)を算出し、当該相関係数Cor(X,Y)が一定閾値より小さいような他人Yが所定の閾値人数以上存在する場合、当該参加者Xの理解状態が当該グループj内の多数の他人と異なると判定する。すなわち、当該参加者Xの理解状態は当該グループj内で少数派であり、理解状態の相違者であると判定する。一方、相関係数Cor(X,Y)が以上の条件を満たさない参加者Xについては、その理解状態が当該グループj内の多数派に属し、理解状態の相違者ではないと判定する。

なお、上記にて相関係数Cor(X,Y)が一定閾値より小さいような他人Yが所定の閾値人数以上存在することを判定するに際しての、当該人数の閾値は、一定値とするほか、当該参加者X,Yが属するグループjの総人数に対する所定割合の人数とすることができる。

図１５中にデータ線L621で示すように、相違者ではないと判定された参加者に関しては当該参加者について理解状態の修正を行わない旨の情報が理解状態修正部64へと送られ、一方、データ線L622で示すように、相違者であると判定された参加者については、理解度修正の候補として、次の突然変化検出部63での処理対象に設定される。

＜突然変化検出部63について＞
突然変化検出部63では、理解状態相違者検出部62で相違者として検出された参加者につき、当該参加者の理解状態が現時刻tの直近の一定時間内に突然変化があったか否かを判定し、突然変化があった場合、図１５中にてデータ線L632に示すように、当該参加者の現時刻tの理解状態が修正対象である旨の情報を理解状態修正部64へと出力し、逆に、突然変化がなかった場合にはデータ線L631に示すように、当該参加者の現時刻tの理解状態は修正対象ではない旨の情報を理解状態修正部64へと出力する。

ここで、現時刻tの直近の一定時間内に突然変化があったか否かについては、次のように判定すればよい。すなわち、現時刻tの理解状態の現時刻tに至るまでの連続回数が所定閾値以下の場合に、突然変化があったものと判定すればよい。ここで、連続回数を求めるための過去の理解状態については、理解状態修正部64に出力された修正された状態を用いる。

例えば、図１４の例で現時刻がt7であり、現時刻t7の理解状態「○」又は「×」は修正前のものが示されているとして、突然変化の判定の例を説明する。連続回数の閾値が「２」であり、Bさん、Cさん、Eさんが理解状態相違者検出部62にて相違者として検出されたものとする。

この場合、Bさんについては現時刻t7の理解状態は「×」であり、「×」の状態はt7に至るまでt6,t7の２回の連続であり、閾値「２」以下に該当するため、Bさんは突然変化があったものと判定される。一方、Cさん及びEさんについては、現時刻t7の理解状態「×」の現時刻t7に至るまでの連続回数はそれぞれt5〜t7の3回及びt3〜t7の5回であり、共に閾値「２」より大きいため、Cさん及びEさんについては突然変化がなかったものと判定される。

＜理解状態修正部64について＞
理解状態修正部64では、突然変化があったものとして判定された参加者（図１５のデータ線L632の判定となった参加者）につき、その現時刻tの理解状態を修正して出力し、これ以外の参加者（データ線L611,L621,L631の判定となった参加者）につき、その現時刻tの理解状態を修正せずにそのまま出力する。

ここで、理解状態の修正に際しては、当該修正対象者Xが理解状態相違者検出部62において少数派と判定された際に、同グループj内において逆に多数派であると判定された他の参加者Yの現時刻tの理解状態のうち、最多数を占める状態へと修正すればよい。

なお、理解状態修正部64は現時刻tでの修正された理解状態を理解状態推定装置1の出力として出力すると共に、図１及び図６にてデータ線L63として示すように、当該現時刻tの理解状態を以降の時刻t+1,t+2,…における処理（前述の式(3)）の際に参照に供するべく、難易度推定部3へも出力する。

以上、本発明によれば、会議参加者の理解状態を時系列上で推定する際の精度を向上させることができる。以下、本発明における説明の流れの観点からの補足的事項を説明する。

（１）本発明は会議の参加者より各種データを収集してその理解度を求める場合を例に説明したが、同種のデータを収集することにより、いわゆる会議に限らず、遠隔会議システム（と同等の環境）を利用して実施可能な任意のコミュニケーションにおける各参加者の理解度を推定する際に、本発明は適用可能である。例えば、ビジネス以外のグループミーティング等にも適用可能である。また、遠隔会議システムを利用した遠隔教室による授業その他の実施の際にも、本発明は適用可能である。

（２）本発明の説明において、各種の難易度については、「低、中、高」の３段階を、グループ分けについては「低、中、高」の３種類を、また、理解状態については「理解している、理解していない」の２段階を、例として説明したが、これらはそれぞれ、その他の任意数の離散的状態としてもよい。

（３）本発明はコンピュータを理解状態推定装置1として機能させるプログラムとしても提供可能である。当該コンピュータは、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェアで構成することができ、CPUがメモリから読み込んだプログラムを実行することで理解状態推定装置1の各部として機能する。

1…理解状態推定装置、2…個人特徴量取得部、3…難易度推定部、4…個人推定部、5…グルーピング部、6…総合推定部

Claims

複数の参加者によりなされるコミュニケーションにおける各参加者の理解状態を、当該コミュニケーションの進行に沿った時系列で推定する理解状態推定装置であって、
各参加者よりその活動状態が反映された信号を取得し、当該信号より活動状態を表す特徴量を時系列で取得する個人特徴量取得部と、
前記コミュニケーションにおける発言に基づき、当該コミュニケーションの難易度を時系列で推定する難易度推定部と、
前記取得された特徴量と前記推定された難易度とに基づき、各参加者の前記コミュニケーションにおける理解状態を時系列で推定する個人推定部と、
前記複数の参加者を、その理解能力に関連する情報に基づいてグループに分けるグルーピング部と、
前記分けられたグループ毎に、当該グループ内で前記推定された理解状態が乖離していると判定される参加者の理解状態を修正し、当該判定されなかった参加者の理解状態は修正しないことにより、各参加者の理解状態を時系列で出力する総合推定部と、を備えることを特徴とする理解状態推定装置。
前記難易度推定部がさらに、
前記コミュニケーションにおける現時刻までの一定時間内の発言よりキーワード及びその出現回数を検出するキーワード検出部と、
前記キーワード検出部における検出結果に基づいて前記コミュニケーションのキーワード難易度を時系列で算出するキーワード難度算出部を備え、
前記難易度推定部は、当該キーワード難易度に基づいて前記コミュニケーションの難易度を推定することを特徴とする請求項１に記載の理解状態推定装置。
前記キーワード難易度算出部がさらに、
前記検出結果における各キーワードを用いて、ネットワーク上の情報を対象に検索した際のヒット件数に基づいて、各キーワードの絶対難易度を算出し、前記検出結果及び当該絶対難易度に基づいて前記コミュニケーションの絶対難易度に基づくキーワード難易度を算出する絶対難易度算出部と、
前記検出結果における各キーワードを用いて、前記コミュニケーションのうち過去にななされたもののテキスト情報を対象に検索した際のヒット件数に基づいて、各キーワードの相対難易度を算出し、前記検出結果及び当該相対難易度に基づいて前記コミュニケーションの相対難易度に基づくキーワード難易度を算出する相対難易度算出部と、を備え、
前記キーワード難易度算出部は、前記絶対難易度に基づくキーワード難易度と、前記相対難易度に基づくキーワード難易度と、に基づいて前記コミュニケーションのキーワード難易度を算出することを特徴とする請求項２に記載の理解状態推定装置。
前記難易度推定部がさらに、
前記総合推定部が現時刻より過去の時刻において出力した各参加者の理解状態の、当該現時刻に至る前までの一定時間における平均に基づいて、前記コミュニケーションの進行フェーズ難易度を時系列で算出する進行フェーズ難易度算出部を備え、
前記難易度推定部は、前記コミュニケーションにおける発言と、前記進行フェーズ難易度と、に基づいて前記コミュニケーションの難易度を推定することを特徴とする請求項１ないし３のいずれかに記載の理解状態推定装置。
前記個人推定部では、特徴量を入力として理解状態を出力するモデルを難易度ごとにあらかじめ学習して保持しており、前記取得された特徴量に対して前記推定された難易度におけるモデルを適用することによって、各参加者の前記コミュニケーションにおける理解状態を時系列で推定することを特徴とする請求項１ないし４のいずれかに記載の理解状態推定装置。
前記モデルが隠れマルコフモデルであることを特徴とする請求項５に記載の理解状態推定装置。
前記総合推定部では、
前記分けられたグループのうち、当該グループ内の参加者の理解状態が概ね一致していると判定されるグループに所属する参加者であって、
且つ、当該グループ内において理解状態が少数派に属すると判定される参加者であって、
且つ、現時刻に至るまでの一定時間内で理解状態が突然変化したと判定される参加者を、
前記グループ内で前記推定された理解状態が乖離していると判定される参加者として決定することを特徴とする請求項１ないし６のいずれかに記載の理解状態推定装置。
前記総合推定部では、前記分けられたグループのうち、当該グループ内の参加者の理解状態が概ね一致していると判定されるグループを決定するに際して、当該グループ内の参加者の全員の理解度より算出される、各理解状態にある参加者人数の割合から算出したエントロピーに基づいて決定することを特徴とする請求項７に記載の理解状態推定装置。
前記コミュニケーションが遠隔地に分かれて開催される会議であることを特徴とする請求項１ないし８のいずれかに記載の理解状態推定装置。
コンピュータを請求項１ないし９のいずれかに記載の理解状態推定装置として機能させることを特徴とするプログラム。