JP6756328B2

JP6756328B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6756328B2
Application number: JP2017509478A
Authority: JP
Inventors: 敬太望月; 康隆福本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-27
Filing date: 2016-03-09
Publication date: 2020-09-16
Anticipated expiration: 2036-03-09
Also published as: CN107408396A; EP3276622A1; WO2016158267A1; JPWO2016158267A1; US20180040317A1; WO2016157642A1; EP3276622A4

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

ユーザの間で発生する会話などのコミュニケーションを検出することは、例えばユーザ間の関係性を推測したりするために有用である。そのための技術として、例えば、特許文献１では、各ユーザの端末装置から送信された音声情報から抽出される周波数成分などの音声特徴量の類似度に基づいて会話グループを抽出する技術が提案されている。これによって、不特定の人物の間で不特定に発生する会話を解析することが可能になる。

特開２０１２−１５５３７４号公報

しかしながら、例えば特許文献１に記載されたような技術では、周波数成分のような集計的な音声特徴量に基づいて会話を検出するために、ユーザ間の短い会話を検出したり、会話が開始されたことをリアルタイムで検出したりすることは必ずしも容易ではなかった。また、例えば会話グループの候補になるユーザが大勢いたり、ユーザが騒がしい環境にいるような場合には、会話のロバストな検出が困難になる可能性もあった。

そこで、本開示では、音声データから抽出される特徴量を利用しつつ、さまざまな局面でよりロバストにユーザ間の会話を検出することを可能にする、新規かつ改良された報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部を備える情報処理装置が提供される。

また、本開示によれば、プロセッサが、少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定することを含む情報処理方法が提供される。

また、本開示によれば、少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定する機能をコンピュータに実現させるためのプログラムが提供される。

以上説明したように本開示によれば、音声データから抽出される特徴量を利用しつつ、さまざまな局面でよりロバストにユーザ間の会話を検出することができる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第一の実施形態における会話の検出について概念的に説明するための図である。本開示の第一の実施形態に係るシステムの構成例を示す図である。本開示の第一の実施形態に係るシステムの機能構成例を示す図である。本開示の第一の実施形態におけるアクションの検出について説明するための図である。本開示の第一の実施形態における会話の発生判定について説明するための図である。本開示の第一の実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。本開示の第一の実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。本開示の第一の実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。本開示の第一の実施形態における会話のグラフ構造の最適化について説明するための図である。本開示の第一の実施形態における特徴量の拡張について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第１の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第１の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第１の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第２の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第２の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第３の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第６の利用例について説明するための図である。本開示の第一の実施形態における、会話の検出によって得られた情報の第６の利用例について説明するための図である。本開示の第二の実施形態において、ＧＮＳＳ測位権の授受について概念的に説明するための図である。本開示の第二の実施形態における、ＧＮＳＳ測位権の利用例について説明する図である。本開示の第二の実施形態におけるシステム構成を示すブロック図である。本開示の第二の実施形態における他のシステム構成を示すブロック図である。本開示の第二の実施形態における他のシステム構成を示すブロック図である。本開示の第二の実施形態の応用例の動作を示すフロー図である。本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．第一の実施形態
１−１．概要およびシステム構成
１−２．会話検出のための処理の例
１−３．応用的な情報の生成例
１−４．第一の実施形態に係る補足
２．第二の実施形態
２−１．概要およびシステム構成
２−２．応用例
２−３．第二の実施形態に係る補足
３．ハードウェア構成

＜１．第１の実施形態＞
（１−１．概要およびシステム構成）
図１は、本開示の一実施形態における会話の検出について概念的に説明するための図である。図１には、（ａ）〜（ｃ）として、本実施形態において複数のユーザの中から会話が発生しているユーザが特定される過程が示されている。まず、（ａ）に示すように、対象ユーザとの間で会話が発生しているか否かを判定するために、対象ユーザ以外のユーザが、候補ユーザと他のユーザとに分けられる。候補ユーザは、例えば、ＧＮＳＳやＷｉ−Ｆｉ測位などによって対象ユーザに近い位置にいることが示されるユーザである。他のユーザ、すなわち物理的な制約から会話が発生している可能性が低いと推定されるユーザを以降の検出処理の対象から除外することによって、処理量を削減し、かつ検出の精度を向上させることができる。

次に、（ｂ）に示すように、対象ユーザと候補ユーザとのそれぞれについて、センサデータが取得される。センサデータは、より具体的には、例えばマイクロフォン（音センサ）によって取得された音声データや、ユーザのモーションを示す加速度などのセンサデータを含む。これらのセンサデータから抽出される、ユーザ間のインタラクションを示す特徴量に基づいて、（ｃ）に示すように、対象ユーザと候補ユーザとの間で会話が発生しているか否かが判定される。対象ユーザは、会話が発生していると判定された候補ユーザとともに、共通の会話グループに分類されうる。

図２は、本開示の一実施形態に係るシステムの構成例を示す図である。図２を参照すると、システム１０は、ウェアラブル端末１００（アイウェア１００ａおよびリストウェア１００ｂ）と、モバイル端末２００と、サーバ３００とを含む。システム１０を構成する装置は、例えば後述する情報処理装置のハードウェア構成によって実現されうる。

ウェアラブル端末１００は、各ユーザによって装着される。ウェアラブル端末１００は、例えばマイクロフォン（音センサ）を有し、ユーザの発話音声を含む音声データを取得する。また、ウェアラブル端末１００は、加速度センサやジャイロセンサなどの他のセンサを有し、例えばユーザのモーションを示す加速度などのセンサデータを取得してもよい。例えば、アイウェア１００ａでは、ユーザのうなずきに対応する加速度または角速度を示すセンサデータが取得可能でありうる。また、例えば、リストウェア１００ｂでは、ユーザの手の動きに対応する加速度または角速度や、脈拍などの生体指標を示すセンサデータが取得可能でありうる。また、ウェアラブル端末１００は、後述するような本実施形態に係る情報処理によって生成された情報を、ユーザに提示するために用いられてもよい。より具体的には、ウェアラブル端末１００は、ディスプレイやスピーカなどの出力装置を有し、これらの出力装置から画像や音声などによってユーザに情報を提示してもよい。なお、図示された例では、ウェアラブル端末１００とモバイル端末２００とが別個に示されているが、他の例では、ウェアラブル端末１００の機能はモバイル端末２００に包摂されてもよい。この場合、モバイル端末２００が、マイクロフォンや加速度センサ、ジャイロセンサなどによってセンサデータを取得し、情報処理によって生成された情報をユーザに提示する。

モバイル端末２００は、各ユーザによって携帯される。図示された例において、モバイル端末２００は、ウェアラブル端末１００とサーバ３００との間の通信を中継している。より具体的には、例えばウェアラブル端末１００とモバイル端末２００との間の通信はＢｌｕｅｔｏｏｔｈ（登録商標）などの無線通信によって、モバイル端末２００とサーバ３００との間の通信はインターネットなどのネットワーク通信によって、それぞれ実行される。ここで、モバイル端末２００は、ウェアラブル端末１００から受信した情報を必要に応じて処理した上で、サーバ３００に送信してもよい。例えば、モバイル端末２００は、ウェアラブル端末１００から受信した音声データを含むセンサデータを解析して中間的な特徴量を抽出してもよい。あるいは、モバイル端末２００は、ウェアラブル端末１００から受信したセンサデータを、そのままサーバ３００に転送してもよい。このような場合において、例えばウェアラブル端末１００とサーバ３００との間でネットワーク通信が可能であれば、システム１０は必ずしもモバイル端末２００を含まなくてもよい。また、モバイル端末２００は、ウェアラブル端末１００に代えて、またはこれとともに、後述するような本実施形態に係る情報処理によって生成された情報を、ユーザに提示するために用いられてもよい。

サーバ３００は、ネットワーク上の１または複数の情報処理装置によって実現され、各ユーザにサービスを提供する。例えば、サーバ３００は、各ユーザのウェアラブル端末１００からモバイル端末２００を経由して収集されたセンサデータから特徴量を抽出し、当該特徴量に基づいてユーザ間の会話が発生しているか否かを判定する。サーバ３００は、例えば、上記の判定の結果に基づいて、ユーザ間での会話の発生状況を表現する情報を生成しでもよい。この情報は、例えば、ユーザ（会話に参加していないユーザや、会話の検出対象にはなっていないユーザでありうる）がリアルタイムで発生状況を把握するための画面表示に利用されてもよいし、ログとして蓄積されてもよい。ログとして蓄積された情報は、例えば、事後的に上記のようなユーザによって参照してもよいし、ログとして蓄積された情報に基づいて、複数のユーザの関係性を表現するグラフ構造が特定されてもよい。なお、これらの処理は、例えば、各ユーザのウェアラブル端末１００およびモバイル端末２００の間でホストとしてふるまうモバイル端末２００によって実行されてもよい。この場合、システム１０は必ずしもサーバ３００を含まなくてもよい。

図３は、本開示の一実施形態に係るシステムの機能構成例を示す図である。図３を参照すると、システム１０は、機能構成として、センシング部１１と、アクション検出部１２と、候補選出部１３と、特徴量抽出部１４と、会話判定部１５と、スコア算出部１６と、グルーピング部１７とを含む。なお、センシング部１１は、上記で図２を参照して説明したウェアラブル端末１００が有するマイクロフォン（音センサ）、加速度センサ、および／またはジャイロセンサなどのセンサによって実装される。アクション検出部１２、候補選出部１３、特徴量抽出部１４、会話判定部１５、スコア算出部１６、およびグルーピング部１７は、サーバ３００、モバイル端末２００、および／またはサーバ３００においてＣＰＵなどのプロセッサがプログラムに従って動作することによって実装される。つまり、上記のプロセッサによって実装される機能構成は、システム１０に含まれるいずれかの情報処理装置に集約して実装されてもよいし、複数の情報処理装置に分散して実装されてもよい。以下、各機能構成についてさらに説明する。

センシング部１１は、システム１０の入力として、例えば音声データを取得するマイクロフォン（音センサ）、ユーザのモーションを示す加速度などのセンサデータを取得する加速度センサまたはジャイロセンサなどのセンサを含む。さらに、センシング部１１は、ユーザの位置情報を取得するＧＮＳＳ受信機やＷｉ−Ｆｉなどの無線通信装置を含む。センシング部１１は、例えば図２に示したアイウェア１００ａやリストウェア１００ｂのようなウェアラブル端末１００において実装されるが、上述のように、ウェアラブル端末１００の機能がモバイル端末２００に包摂されるような場合には、モバイル端末２００においてセンシング部１１が実装される。

アクション検出部１２は、センシング部１１が取得したセンサデータ（音声データを含みうる）から、センサデータを提供したそれぞれのユーザのアクションを検出する。より具体的には、例えば、アクション検出部１２は、音声データから、ユーザの発話のアクションを検出する。ここで、本実施形態において、アクション検出部１２は、必ずしも発話における声の特徴や発話の内容を検出しなくてもよい。つまり、アクション検出部１２は、単純に、ある時刻においてユーザの発話があったか否かを検出してもよい。付加的に、アクション検出部１２は、声の特徴や発話の内容などが検出可能である場合には、これらを検出してもよい。また、例えば、アクション検出部１２は、加速度や角速度のセンサデータから、ユーザのうなずきや手の動き（ジェスチャ）などのアクションを検出する。さらに、例えば、アクション検出部１２は、ユーザの脈拍などの生体指標のセンサデータから、ユーザの心理的なアクションを検出してもよい。

候補選出部１３は、センシング部１１が取得したセンサデータから、センサデータを提供したそれぞれのユーザの位置関係を検出し、位置関係が所定の条件を満たすユーザを、会話グループを形成するユーザの候補として選出する。より具体的には、候補選出部１３は、ＧＮＳＳやＷｉ−Ｆｉ測位などによって対象ユーザに近接した位置にいることが示される他のユーザを、候補ユーザに選出する。なお、候補選出部１３が候補ユーザを選出するにあたっては、必ずしも各ユーザの位置情報が利用可能でなくてもよい。例えば、候補選出部１３は、それぞれのユーザの端末装置（例えば、ウェアラブル端末１００またはモバイル端末２００）が、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの無線通信によって直接的に通信可能であることによって、これらのユーザが近接したことを認識してもよい。あるいは、候補選出部１３は、それぞれのユーザの行動情報に基づいて候補ユーザを選出してもよい。より具体的には、例えば、候補選出部１３は、位置に関連付けられたユーザの行動認識結果（例えばオフィスで仕事、会議、など）を取得し、対象ユーザに共通する行動認識結果が取得されている他のユーザを候補ユーザに選出してもよい。また、例えば、候補選出部１３は、位置に関連付けられたユーザのスケジュール（行動認識結果と同様に、例えばオフィスで仕事、会議、など）を取得し、対象ユーザに共通するスケジュールが取得されている他のユーザを候補ユーザに選出してもよい。

特徴量抽出部１４は、候補選出部１３が抽出した候補ユーザのそれぞれについて、対象ユーザとの間で、アクション検出部１２によって検出されたアクションの相互関係、すなわちインタラクションを示す特徴量を抽出する。本実施形態において、このような特徴量は、アクション同士の時間的な関係に基づいて抽出される。

例えば、特徴量抽出部１４は、ユーザの発話音声を含む音声データから、当該ユーザを含む複数のユーザの間のインタラクションを示す特徴量を抽出する。より具体的には、複数のユーザは第１のユーザおよび第２のユーザを含み、特徴量抽出部１４は、第１のユーザ（対象ユーザでありうる）の発話音声と第２のユーザ（候補ユーザでありうる）の発話音声との時間的な関係性に基づいて特徴量を抽出する。この特徴は、第１のユーザと第２のユーザとの間で発話の交換が発生したことを示しうる。例えば、第１のユーザと第２のユーザとが会話している場合、第１のユーザと第２のユーザとの発話区間が大きく重複することは考えにくく、それぞれのユーザの発話区間は概ね交互に発生しているはずである。

なお、上記の例において、センシング部１１が取得する音声データは、第１のユーザの発話音声を含む第１の音声データと、第２のユーザの発話音声を含む第２の音声データとをそれぞれ別個に含んでもよい。あるいは、センシング部１１が取得する音声データは、第１のユーザの発話音声と第２のユーザの発話音声とを含む単一の音声データを含んでもよい（さらに他のユーザの発話音声は、当該単一の音声データに含まれてもよいし、別個の音声データに含まれてもよい）。なお、単一の音声データに複数のユーザの発話音声が含まれる場合、例えば話者認識の結果などに基づいて、それぞれのユーザの発話音声を分離する処理が実行されうる。

また、例えば、特徴量抽出部１４は、第１のユーザと第２のユーザとの間で、それぞれのユーザから提供された音声データに含まれる当該ユーザの発話音声と、同じくそれぞれのユーザから提供されたセンサデータによって示されるモーションまたは生体指標との時間的な関係に基づいて特徴量を抽出してもよい。つまり、例えば、特徴量抽出部１４は、第１のユーザから提供された音声データに含まれる第１のユーザの発話音声と、第２のユーザから提供されたセンサデータによって示されるモーションまたは生体指標との関係に基づいて特徴量を抽出してもよい。また、特徴量抽出部１４は、対象ユーザと候補ユーザとの間で特徴量を抽出するだけでなく、候補ユーザ同士の間で特徴量を抽出してもよい。

会話判定部１５は、特徴量抽出部１４が抽出した特徴量に基づいて、複数のユーザの間で会話が発生しているか否かを判定する。本実施形態では、候補選出部１３が設けられるため、会話判定部１５は、複数のユーザ（処理対象になるすべてのユーザ）から各ユーザの位置関係に基づいて選出されたユーザの間で、会話が発生しているか否かを判定することになる。候補選出部１３について既に説明したように、判定の対象になるユーザは、各ユーザの行動情報に基づいて選出されてもよい。より具体的には、例えば、会話判定部１５は、第１のユーザと第２のユーザとの間で抽出された特徴量に基づいて算出される会話の発生確率が所定の閾値を超えた場合に、第１のユーザと第２のユーザとの間で会話が発生していると判定する。会話判定部１５は、特徴量抽出部１４が対象ユーザと候補ユーザとの間で抽出した特徴量に基づいて発生確率を算出することによって、対象ユーザとの間で会話が発生していた候補ユーザを特定することができる。さらに、会話判定部１５は、特徴量抽出部１４が候補ユーザ同士の間で抽出した特徴量に基づいて発生確率を算出することによって、候補ユーザ同士の間で発生した会話を特定することができる。対象ユーザと候補ユーザとの間だけでなく、候補ユーザ同士の間で発生した会話を特定することで、対象ユーザの周りで発生していた会話の状況を把握することができる。

スコア算出部１６は、会話判定部１５の判定に基づく会話の発生履歴に基づいて、複数のユーザのそれぞれの間でスコアを算出する。例えば、スコア算出部１６は、所定の期間において各ユーザの間で会話が発生していた時間を積算することによってスコアを算出してもよい。あるいは、スコア算出部１６は、所定の期間において各ユーザの間で所定の時間以上の会話が発生した頻度に基づいてスコアを算出してもよい。また、例えば、スコア算出部１６は、ユーザ間で会話が発生したと判定された場合に会話判定部１５によって算出された会話の発生確率を参照し、より高い発生確率で会話が発生したと判定されていたユーザの間でより高いスコアを算出してもよい。さらに、例えば、スコア算出部１６は、アクション検出部１２がユーザの声の特徴や発話の内容などを検出可能である場合に、これらに基づいて会話の盛り上がりの程度を推定し、より盛り上がりの大きい会話が発生したユーザの間でより高いスコアを算出してもよい。

グルーピング部１７は、スコア算出部１６によって算出されたスコアに基づいて、ユーザをグルーピングする。グルーピングの表現はさまざまでありうる。例えば、グルーピング部１７は、相互のスコアが閾値を超える複数のユーザを、共通のグループに分類する。また、グルーピング部１７は、ユーザ間の関係性を表現するグラフ構造を特定してもよい。グラフ構造は、グループとは別に定義されていてもよいし、グラフ構造のリンクの有無や強さに応じてグループが定義されてもよい。なお、本実施形態における会話判定部１５の判定結果に基づく情報の生成は、グルーピング部１７に限らずさまざまな形で実施されうる。そのような他の例については後述する。

（１−２．会話検出のための処理の例）
図４は、本開示の一実施形態におけるアクションの検出について説明するための図である。図４に示された例では、ウェアラブル端末１００ｃに、ヘッドセット１１０と、ユーザのうなずきを検出するためのモーションセンサ１２０とが含まれている。ヘッドセット１１０は、マイクロフォン１１２を含み、音声データを取得する。モーションセンサ１２０は、ジャイロセンサ１２２および加速度センサ１２４を含み、角速度および加速度のセンサデータを取得する。ここで、上述したシステム１０におけるアクション検出部１２は、音声データ抽出されるエネルギーが閾値を超えることを開始条件、エネルギーが閾値を下回った状態が所定の時間以上継続することを終了条件として、ユーザの発話区間を検出することができる。一方、アクション検出部１２は、角速度の所定の周波数が大きい区間から加速度の分散の大きい区間を除去することによって、ユーザのうなずきが発生した区間を検出することができる。

続いて、本開示の一実施形態における特徴量の抽出について説明する。本実施形態において、システム１０における特徴量抽出部１４は、第１のユーザと第２のユーザとの間のインタラクションを示す特徴量を算出する。特徴量抽出部１４は、例えば以下のような事象に基づいて、ユーザ間のインタラクションに対するポジティブな特徴量を抽出する。つまり、以下のような事象の発生頻度が高い場合、ユーザ間のインタラクションを示す特徴量は高くなりうる。
・発話の交換（第１のユーザの発話と第２のユーザの発話とが交互に発生）
・発話中の非発話者のうなずき
・発話の短い間における非発話者のうなずき
・両者同時のうなずき
・相手の発話の間における発話＋うなずきの応答

一方、特徴量抽出部１４は、例えば以下のような事象に基づいて、ユーザ間のインタラクションに対するネガティブな特徴量を算出する。つまり、以下のような事象の発生頻度が高い場合、ユーザ間のインタラクションを示す特徴量は低くなりうる。
・発話区間の一致（第１のユーザの発話と第２のユーザの発話とが同時に発生）
・発話に対する非発話者のリアクションがない

例えば、特徴量抽出部１４は、上記のような事象に基づく特徴量の算出を所定の周期（一例として１００Ｈｚ）で実行する。会話判定部１５は、算出された特徴量を所定の周期（特徴量算出の周期よりも長くてもよい。一例として０．２Ｈｚ。この場合、特徴量は３０ｓごとの平均値として扱われてもよい）で判定器に入力する。判定器は、例えば二値判定器であり、第１のユーザと第２のユーザとが会話していそうか、会話していなさそうかを判別する。このような判定器は、例えば機械学習によって生成される。機械学習の手法としては、例えばＳＶＭ（Support Vector Machine）を利用することができるが、この例に限らず公知の様々な手法が利用可能である。また、本実施形態における判定器は、その出力によって次に説明するような判定が可能になる判定器であればよい。より具体的には、判定器は、二値判定器であってもよいし、確率を出力する判定器であってもよい。また、判定器は、必ずしも機械学習によって生成されるものには限られない。

図５は、本開示の一実施形態における会話の発生判定について説明するための図である。図５に示す例では、システム１０の会話判定部１５において、判定器の出力に応じて発生確率が算出され、発生確率に基づいて会話が発生しているか否かが判定されている。より具体的には、会話判定部１５は、上述した判定器が二値判定器である場合、判定器の出力がポジティブである（会話が発生しているらしい）場合には発生確率を上げ、出力がネガティブである（会話が発生していないらしい）場合には発生確率を下げる。また、会話判定部１５は、上述した判定器が確率を出力する場合には、判定器から出力された確率の大きさに応じて発生確率のスコアを変動させてもよい。図示された例では、０．２Ｈｚで判定器の出力が実施され、５ｓごとに発生確率が更新されている。このようにして逐次加算／減算される発生確率が所定の閾値を超えている区間について、会話判定部１５は、ユーザ間で会話が発生していると判定する。

図６〜図８は、本開示の一実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。本実施形態では、上述したスコア算出部１６やグルーピング部１７による統計的な処理とは別に、例えば図５に示したような会話判定部１５による会話の発生判定に基づいてユーザ間の会話の状態が時系列で出力されてもよい。このような出力は、例えば図１の例に示されたウェアラブル端末１００やモバイル端末２００によって会話に関係しているユーザ自身に提示されてもよいし、会話には関係していないシステム１０のユーザ、またはシステム１０を利用していないが閲覧権限を有する他のユーザに提示されてもよい。この場合、ウェアラブル端末１００、モバイル端末２００、またはサーバ３００のプロセッサによって、検出された会話を時系列で提示する画面を表示させる表示制御部が実装されうる。

図６は、２人のユーザの間で発生している会話の状態を表現する例である。図示された例では、ユーザＵ１とユーザＵ２との間の会話の発生状態が、リンクＬ１およびリンクＬ２によって示されている。リンクＬ１およびリンクＬ２の幅は、例えば図５に示す例のようにして算出された、ユーザＵ１とユーザＵ２との間の会話の発生確率に対応して変化している。つまり、図示された例において、リンクＬ１は、ユーザＵ１とユーザＵ２との間の会話の発生確率が低いことを示す。例えば、会話の発生確率が０より大きいものの所定の閾値に達していない場合、リンクＬ１が最も狭い幅で表示されうる。一方、会話の発生確率が閾値を超えて上昇するほど、より広い幅のリンクＬ２が表示されうる。

既に説明した通り、本実施形態において、会話の発生確率は、例えば図５に示したような閾値を用いた判定によって会話が発生しているか否かを判定するために用いられる。また、上記で例示したような特徴量に基づいて会話の発生確率が算出される場合、会話の発生確率が高いことは、発話の交換や非発話者のうなずきなどが高い頻度で発生していることを表しうる。従って、会話の発生確率を、例えば会話の活発さを示す連続値として解釈し、上記のような表示形態の変化に利用することも可能である。

図７は、３人のユーザの間で発生している会話の状態を表現する例である。これまでに説明してきたように、本実施形態では、対象になる複数のユーザに含まれるユーザのペア（第１のユーザおよび第２のユーザ）について特徴量が抽出され、さらに特徴量に基づいて算出される会話の発生確率に従って会話が発生しているか否かが判定される。ユーザが３人の場合、３つ（＝_３Ｃ_２）のペアについて、それぞれ特徴量の抽出および会話の判定が実施される。図７に示す例では、そのような抽出および判定の結果、ユーザＵ１とユーザＵ２との間、およびユーザＵ２とユーザＵ３との間に幅の広いリンクＬ２が表示されている。リンクＬ２は、図６に示された例と同様に、これらのユーザの間で活発に会話が発生していることを表現する。一方、ユーザＵ３とユーザＵ１との間には、幅が中程度のリンクＬ３が表示されている。リンクＬ３は、ユーザＵ３とユーザＵ１との間でも会話が発生しているが、さほど活発ではないことを表現する。このような表示から、ユーザＵ１〜Ｕ３の３人の会話が、ユーザＵ２をハブとして進行していることが推測される。

一方、会話とは無関係なユーザＵ４がユーザＵ１〜Ｕ３の近くを通りかかった場合、ユーザＵ４の位置はユーザＵ１〜Ｕ３に近接することから、ユーザＵ４が候補ユーザとして扱われることがありうるが、上述のように特徴量抽出部１４によって抽出されるユーザ間のインタラクションを示す特徴量は会話の発生に対してポジティブなものにはならず、従って会話判定部１５において算出される会話の発生確率も高くならない。それゆえ、例えば図示されているようにユーザＵ１とユーザＵ４との間やユーザＵ３とユーザＵ４との間に幅の狭いリンクＬ１が表示されることはありうるものの、会話の発生確率が閾値を超えないため、表示されるリンクの幅がさらに広がることはなく、ユーザＵ４が遠ざかるとリンクＬ１も消滅する。

図８は、４人のユーザの間で発生している会話の状態を表現する例である。この例でも、対象になる複数のユーザに含まれるユーザのペアについて特徴量が抽出され、さらに特徴量に基づいて算出される会話の発生確率に従って会話が発生しているか否かが判定される。図８に示す例では、そのような抽出および判定の結果、ユーザＵ１とユーザＵ２との間、およびユーザＵ３とユーザＵ４との間に幅の広いリンクＬ２が表示されている。リンクＬ２は、既に説明された例と同様に、これらのユーザの間で活発に会話が発生していることを表現する。一方、４人のユーザの残りの組み合わせの間には、幅の狭いリンクＬ１が表示されている。リンクＬ１も既に説明された例と同様に、これらのユーザの間でほとんど会話が発生していないことを表現する。このような表示から、ユーザＵ１〜Ｕ４は同じ場所に集まって会話をしているものの、実際にはユーザＵ１およびユーザＵ２のペア（サブグループ）と、ユーザＵ３およびユーザＵ４のペア（サブグループ）とに分かれて会話が進行していることが推測される。

例えば、ユーザＵ１〜Ｕ４のそれぞれのウェアラブル端末１００で取得された音声データの周波数成分のような特徴量に基づいて会話を検出しようとした場合、上記で図８に示したような例では、ユーザＵ１〜Ｕ４のそれぞれから提供される音声データが相似した特徴量を示しうるために、ユーザＵ１〜Ｕ４を単一の会話グループに分類することはできるものの、その中でどのような組み合わせで会話が発生しているかを推測することは困難である。これに対して、本実施形態では、特徴量抽出部１４がユーザ間のインタラクションを示す特徴量を抽出するために、実際に会話が発生しているユーザの組み合わせを正確に特定することが可能である。

図９は、本開示の一実施形態における会話のグラフ構造の最適化について説明するための図である。図９に示す例では、システム１０の会話判定部１５が、会話が発生していると推定されるユーザを共通の会話グループに分類するにあたり、ユーザ間の会話の発生状況を示すグラフ構造を、グラフ構造について予め設定されたルールに従って最適化している。より具体的には、図示された例では、ユーザＵ１〜Ｕ７を含む元のグラフ構造において、ユーザＵ２とユーザＵ５との間のリンクが最適化によって切断され、ユーザＵ１〜Ｕ４を含む会話グループと、ユーザＵ５〜Ｕ７を含む会話グループとが分離されている。

例えば、会話判定部１５は、生成されたグラフ構造のエネルギーを最小化することによって、上記のような最適化を実行する（エネルギーを最小化するというルール）。また、会話判定部１５は、例えば図７の例におけるユーザＵ２のように会話のハブになるユーザは会話グループの中に１人である、といったような常識に基づくルールに従ってグラフ構造を最適化してもよい。また、例えば、会話判定部１５は、グラフ構造の最適化にあたり、あるユーザの発話に対する他のユーザのリアクションの早さを、リンクを維持するか否かの判定に利用してもよい（発話者と、発話に対するリアクションが早かった非発話者との間のリンクは維持されやすくなる）。また、例えばウェアラブル端末１００によって各ユーザの顔の向きが検出可能であるような場合、会話判定部１５は、各ユーザの顔の向きを、リンクを維持するか否かの判定に利用してもよい（発話者と、顔が発話者の方を向いている被発話者との間のリンクは維持されやすくなる）。

図１０は、本開示の一実施形態における特徴量の拡張について説明するための図である。例えば上記で図４を参照して説明した例では、ユーザ間の会話を検出するための特徴量を抽出するためのアクションとして、ユーザの発話とうなずきとが利用されたが、他の例では、図１０に示されるように、さらに多様なアクションに基づいて特徴量が抽出されてもよい。図１０には、そのような特徴量を抽出するために利用可能なセンサとして、マイクロフォン１１２、モーションセンサ１２０（図４に例示したジャイロセンサ１２２および加速度センサ１２４を含みうる）、地磁気センサ１２６、および生体センサ１２８が例示されている。これらのセンサは、例えばウェアラブル端末１００またはモバイル端末２００に含まれる。以下、図示されているアクション１３０〜１４０について、それぞれ説明する。

うなずき１３０は、図４に示した例でも説明されたように、例えばユーザの頭部に装着されたアイウェア１００ａのような端末装置に搭載されたモーションセンサ１２０が取得するセンサデータに基づいて検出される。さらに、うなずき１３０は、同様に端末装置に搭載される地磁気センサ１２６のセンサデータを利用して検出されてもよい。

発話区間１３２は、図４に示した例でも説明されたように、マイクロフォン１１２が取得するユーザの発話音声を含む音声データに基づいて検出される。音声データからは、さらに、発話内容１３４が検出可能であってもよい。この場合、例えば、発話区間１３２の時間的な関係性によって示されるユーザ間のインタラクションの状態に加えて、会話の話題の共通性にも基づいて、ユーザ間で発生している会話を検出することができる。

身体方向１３６は、例えば地磁気センサ１２６が取得するセンサデータを利用して検出される。上記で図９を参照して説明したように、例えば非発話者が発話者の方を向いていたり、発話者が非発話者の方を向いていたりすることは、そこに会話の発生を検出するためのポジティブな要素になりうる。

ジェスチャ１３８は、例えばモーションセンサ１２０や地磁気センサ１２６が取得するセンサデータを利用して検出される。ジェスチャ１３８は、例えば図４を参照して説明した例におけるうなずきと同様に、発話区間との時間的な関係性を特定することによって、ユーザ間のインタラクションを示す要素として利用可能でありうる。

脈拍１４０は、例えば生体センサ１２８を利用して検出される。例えば、ユーザが活発に会話しているときには脈拍１４０にも上昇傾向が見られるような場合、脈拍の状態とユーザの会話の状態との整合性、ユーザが会話しているか否かを推定することが可能でありうる（例えば、他のアクションまたは特徴量によって活発に会話していることが示されているにもかかわらず、脈拍１４０が上昇していなければ、実際にはユーザが会話していない可能性がある）。

以上のようなアクションの検出結果を利用する場合、例えば以下のような事象の発生頻度が高い場合、ユーザ間のインタラクションを示す特徴量は高くなりうる。
・発話者の発話終了時における非発話者のジェスチャによる反応
・発話に含まれる単語に共通性がある
・発話内容に共通性があり、受け答えが整合している
・発話者と非発話者との身体方向が交差している
・歩行や食事などの動作が共通している
・両者の脈拍の変化に相関性がある

また、会話判定部１５は、ユーザを会話グループに分類するにあたり、ユーザの行動のコンテキストや、特定された会話グループの利用方法を考慮してもよい。例えば、特定された会話グループの間でユーザのプライベートな画像を共有しようとする場合、ユーザ間で会話が発生していると判定するための閾値を高く設定することで、不適切なユーザとの間で画像が共有されることを防ぐことができる。また、例えば、参加者同士が広い範囲で会話している可能性が高いパーティー会場などでは閾値を低く設定することで、ユーザが会話した相手を漏らさず会話グループに分類することができる。さらに、例えば、ユーザが街中などの人混みの中にいることが多い昼間の時間帯には閾値を高く設定して誤検出を防止する一方で、ユーザが家などの人の少ない場所にいることが多い夜の時間帯には閾値を低く設定してもよい。

（１−３．応用的な情報の生成例）
図１１は、本開示の一実施形態における、会話の検出によって得られた情報の利用例について説明するための図である。例えば、上記で図３を参照して説明した例では、会話判定部１５による会話発生の判定結果が、スコア算出部１６およびグルーピング部１７によって利用されたが、本実施形態における情報の利用例はこのような例には限られず、他にも様々な利用が可能である。図１１には、そのような利用のための機能構成として、ＵＩ生成部１７１〜話題推薦部１８３を示した。これらの機能構成は、端末装置またはサーバにおいて、例えばプロセッサおよびメモリまたはストレージを用いてソフトウェア的に実装される。以下、これらの機能構成によって提供される情報について、さらに説明する。

（第１の例）
ＵＩ生成部１７１は、例えば、上記で図６〜図８を参照して説明したような、ユーザ間の会話の状態を時系列でグラフ表示するユーザインターフェースを提供してもよい。また、例えば、ＵＩ生成部１７１は、上記のようなリアルタイムの会話の状態をリストで表示するユーザインターフェースを提供してもよい。また、ＵＩ生成部１７１は、そのようにして表示されたリアルタイムの会話の状態を、他のアプリケーションに連携することを可能にしてもよい。例えば、ＵＩ生成部１７１は、ソーシャルメディアへのリンク機能１７２とも協働して、共通の会話グループに属するユーザの間で画像などのデータの共有を可能にしたり、ゲームを同時にプレイしたりすることをサポートしてもよい。

例えば、上記のように検出されたユーザ間の会話の状態を様々な用途で利用する場合、図１２に示すような端末装置間のアドホックな会話グループ認識によって、実際の会話の発生状況に近い会話グループが認識されうる。

図１２に示された例では、端末装置１００ｘ，１００ｙ（各ユーザが使用する端末装置であればよく、例えば図２の例におけるウェアラブル端末１００でもよいし、モバイル端末２００でもよい。以下の例において同様）のそれぞれが、センシング部１１、アクション検出部１２、候補選出部１３、特徴量抽出部１４、会話判定部１５、通信部３１、表示部３２、およびＵＩ生成部１７１を有する。なお、通信部３１は、端末装置１００ｘ，１００ｙがそれぞれ備えるＢｌｕｅｔｏｏｔｈ（登録商標）などの通信装置によって実装される。表示部３２は、端末装置１００ｘ，１００ｙがそれぞれ備えるＬＣＤなどのディスプレイによって実装される。図示された例では、端末装置１００ｘおよび端末装置１００ｙのそれぞれの対応する機能構成が協働することによって、互いのユーザが共通の会話グループに属することが特定される。

より具体的には、図示された例において、候補選出部１３は、センシング部１１によって取得される位置情報と、相手のセンシング部１１によって取得される位置情報とに基づいて候補ユーザを選出する。このとき、端末装置１００ｘ，１００ｙのユーザは、それぞれ互いの候補ユーザとして選出される。次に、アクション検出部１２が、センシング部１１によって取得されたセンサデータに基づいて、例えば発話やうなずきなどのアクションが発生した区間を特定する。さらに、特徴量抽出部１４が、それぞれの端末装置のアクション検出部１２によって特定された区間などの情報を通信部３１を介して共有し、端末装置１００ｘ，１００ｙのユーザ間のインタラクションを示す特徴量を抽出する。会話判定部１５は、抽出された特徴量に基づいて、端末装置１００ｘ，１００ｙのユーザの間に会話が発生しているか否かを判定する。ＵＩ生成部１７１は、判定の結果に従って上述のようなグラフやリストのユーザインターフェースを生成し、表示部３２を介してそれぞれのユーザに提示する。

図１３および図１４は、上述した第１の例において提供されるユーザインターフェースの例を示す図である。これらの例では、ユーザインターフェースとして、モバイル端末２００のディスプレイ２１０に画面が表示されている（例えばウェアラブル端末１００において同様の画面が表示されてもよい）。図１３に示した例では、画面２１００ａ，２１００ｂにおいてユーザ間の会話グループがグラフによって表示されている。例えば、ユーザは、ズームイン／アウトの操作によって、画面２１００ａと画面２１００ｂとを相互に遷移させることができる。画面２１００ａでは、例えば比較的高い発生確率の閾値によって、より確実に同じ会話グループに属すると推定される他のユーザだけが表示されている。一方、画面２１００ｂでは、例えば比較的低い発生確率の閾値によって、同じ会話グループに属すると推定される他のユーザが、より幅広く表示されている。ユーザは、例えば画面２１００ａ，２１００ｂに表示された他のユーザのアイコンに対してタッチパネルなどを介した操作を加えることによって、会話グループの認識結果を修正することができる。例えば、ユーザは、他のユーザのアイコンをスワイプ操作によって画面２１００ａ，２１００ｂの外に移動させることで、当該アイコンによって示される他のユーザを会話グループから除外することができる。

図１４に示した例では、画面２１００ｃにおいてユーザ間の会話グループがリストによって表示されている。例えば、リストの表示順は、会話判定部１５によって算出された会話の発生確率が高い順であってもよい。従って、リストの表示順は動的に変化しうる。リストの表示数を予め設定することで、会話グループに含まれるユーザの最大数が制限可能であってもよい。また、画面２１００ｃでも、リストに表示された他のユーザを例えばスワイプ操作によって画面２１００ｃの外に移動させることで、当該他のユーザを会話グループから除外することができる。

（第２の例）
第２の例では、ログ出力部１７５、およびソーシャルメディアへのリンク機能１７２によって、会話した相手の履歴がタイムライン上に出力される。図１５には、そのような出力のための機能構成が示されている（なお、図示された例では会話の推定は端末装置で実行されているが、サーバで実行されてもよい）。図１５に示された例では、端末装置１００ｚが、センシング部１１、アクション検出部１２、候補選出部１３、特徴量抽出部１４、会話判定部１５、通信部３１、ログ出力部１７５、およびソーシャルメディアとリンクする機能１７２を有する。ログ出力部１７５は、会話判定部１５の判定に基づく会話の発生履歴に基づいて、複数のユーザ（処理対象になるすべてのユーザ）に含まれる少なくとも１のユーザが会話した相手の情報、または会話した相手との会話情報の少なくともいずれかを含むログを出力する。ログ出力部１７５によって生成されたログは、ソーシャルメディアとリンクする機能１７２を介して、上記少なくとも１のユーザに提示されるソーシャルメディアのタイムライン（他の例では、ソーシャルメディアとは関係のないタイムラインであってもよい）上に出力される。また、サーバ３００ｚでは、音声認識部３４およびトピック認識部３５がソフトウェア的に実装される。

上記のような機能構成によって、例えば、ある程度の会話（会話時間、または会話確率の高さによって判定されうる）を交わした他のユーザが、ソーシャルメディアにおいて友人として推薦されうる。これによって、会話した他のユーザとわざわざソーシャルメディアの友人登録をする必要がなくなる。また、ソーシャルメディアなどのアプリケーションにおいて、会話の発生履歴に基づくログを参照可能であってもよい。このとき、ログには、音声認識部３４およびトピック認識部３５の処理によって認識された会話のトピックなどの情報や、会話が発生した場所の情報、画像などが付加されてもよい。例えば、会話のログをトピックや会話の相手でフィルタして表示すれば、ユーザの記憶の補助ツールや思い出の記録手段として有用である。

図１６は、上述した第２の例において提供されるユーザインターフェースの例を示す図である。この例では、ユーザインターフェースとして、モバイル端末２００のディスプレイ２１０に画面が表示されている（例えばウェアラブル端末１００において同様の画面が表示されてもよい）。図１６に示した例では、画面２１００ｄにおいて、日付２１０１と、その日にユーザが会話した他のユーザを示すタイムライン上のリストとが表示されている。リストは、例えば、他のユーザの名称２１０３と、会話時間２１０５とを含みうる。ユーザは、例えば、画面２１００ｄ上でリスト表示されたいずれかのユーザを選択することで、当該ユーザの会話履歴画面２１００ｅを表示させることができる。画面２１００ｅは、他のユーザの名称２１０３および会話時間２１０５と、当該ユーザとソーシャルメディアで友人になるためのアイコン２１０７と、当該ユーザとの過去の会話履歴２１０９とを含む。過去の会話履歴には、会話が発生した日付および会話時間に加えて、会話のトピック２１１１が表示されてもよい。

（第３の例）
第３の例では、上記の第２の例において、必ずしも会話を交換していない相手について、例えばソーシャルメディア上でのアクションが可能になる。上述のように、本実施形態において、特徴量抽出部１４は、複数のユーザのそれぞれの発話音声同士に関係に基づいて特徴量を抽出するだけではなく、一方のユーザの発話音声と、他方のユーザの発話以外のアクション（例えばモーションまたは生体指標）との時間的な関係に基づいて特徴量を抽出することが可能である。これを利用して、例えば、単発的に会話した人認識部１７３は、ユーザが発話を交換して会話した他のユーザだけではなく、ユーザの発話に対して何らかのアクションをした他のユーザ、または、ユーザのアクションが向けられた発話をした他のユーザを認識して、ログ出力部１７５によって提供されるタイムライン上に表示することが可能である。これに基づいて、ユーザは、上記の他のユーザ（多くの場合、知り合いではない）に対して、クラウド上でのアクション１７４を実施することが可能である。このとき、クラウド上のアクションでは、プライバシーの保護のため、例えば相手のアバターが見える程度で、必ずしも個人情報はやりとりされなくてもよい。

図１７は、上記のような出力のための機能構成を示す図である。図１６に示された例では、端末装置１００ｗが、センシング部１１、アクション検出部１２、候補選出部１３、特徴量抽出部１４、会話判定部１５、通信部３１、ログ出力部１７５、ポストプロセス部３６を有する。なお、ポストプロセス部３６は、上述した単発的に会話した人認識部１７３および、クラウド上でのアクション１７４に対応し、例えば端末装置１００ｗが備えるプロセッサがプログラムに従って動作することによってソフトウェア的に実装される。

図示された例において、ログ出力部１７５は、会話グループの生成結果をログとして出力する。ポストプロセス部３６は、ログの中で、所定の時間以下の会話、または一方のユーザだけの発話を含むコミュニケーションが検出された他のユーザを特定する。さらに、ポストプロセス部３６は、特定された他のユーザの中から、既にソーシャルメディア上の友人であるようなユーザを除外することによって、一過性の出会いをした他のユーザを抽出し、そのようなユーザに対してクラウド上でのアクションを実行することができる。

（第４の例）
第４の例では、図１１に示された話題推薦部１８３が、話題を提供することによってユーザのコミュニケーションをサポートする。例えば、話題推薦部１８３は、特徴量抽出部１４によって抽出された特徴量によって示される会話のテンポから、会話の盛り上がりの程度を推定し、それに応じて話題を推薦する。より具体的には、話題推薦部１８３は、会話判定部１５によって算出される会話の発生確率が低下傾向であったり、別途推定される会話の盛り上がり度合い（例えばユーザの発話のテンポや、声の大きさによって推定される）が低下傾向であったりする場合に、ユーザが新たな話題を必要としていると判断して、それまでとは異なる話題を推薦してもよい。また、例えば、話題推薦部１８３は、会話の発生確率が上昇傾向であったり、会話の盛り上がり度合いが上昇傾向で合ったりする場合には、現在の話題が継続されると判断して、現在の話題に関する情報をユーザに提供してもよい。

また、別の例として、話題推薦部１８３は、ログ出力部１７５によって出力されるログや、後述する親密度グラフ生成部１７７によって算出される親密度に応じて、ユーザに話題を提供してもよい。より具体的には、例えば、話題推薦部１８３は、ユーザが普段から会話することが多い相手（会話のログが多く残っている相手）、または親密度が高い相手と会話している場合、本来会話が盛り上がるはずなので、上記のように会話が不活発であることが推定される場合には新たな話題を提供する判断をしてもよい。一方、話題推薦部１８３は、ユーザが普段あまり会話しない相手（会話のログがあまり残っていない相手）、または親密度が低い相手と会話している場合、会話が特に必要とされていない場合もあるため、上記のように会話が不活発であると推定される場合でも新たな話題の提供を抑制してもよい。

（第５の例）
第５の例では、図１１に示された親密度グラフ生成部１７７が、ログ出力部１７５によって出力されたログに基づいてユーザ間の親密度を示すグラフを生成する。ここで生成される親密度グラフは、会話の発生履歴に基づいて、複数のユーザの関係性を表現するグラフ構造ともいえる。従って、親密度グラフ生成部１７７は、そのようなグラフ構造を特定する関係性グラフ特定部ともいえる。親密度グラフ生成部１７７は、例えば、ログ出力部１７５のログによって会話の頻度が高かったり、会話の累計時間が長かったりするユーザ同士の間で、親密度グラフにおける強いリンクを生成する。また、親密度グラフ生成部１７７は、アクション検出部１２や特徴量抽出部１４によって抽出されたリアクションの多さや種類に基づいて親密度を推定し、親密度が高いユーザ同士の間に強いリンクを生成してもよい。より具体的には、親密度グラフ生成部１７７は、あるユーザが他のユーザとの会話の中で、よく発話するのか、うなずいているだけなのかによって、親密度グラフにおけるユーザ間のリンクの強さを変えてもよい。また、親密度グラフ生成部１７７は、例えば外部（ユーザのプロフィールなど）から取得される情報に基づいて、ユーザ間のリンクにラベル（例えば、親、兄弟、上司、同僚、友人、恋人など）を与えてもよい。同様に、親密度グラフ生成部１７７は、親密度グラフ上で形成されたグループにラベル（例えば、家族、会社、同期、サークル）などを与えてもよい。

一例として、親密度グラフ生成部１７７は、以下の式１のような数式を用いて、他のユーザとの親密度Ｃを算出してもよい。なお、他のユーザとの間で発生した会話にはそれぞれインデックスｉが与えられているものとし、ｔ_ｎｏｗは現在時刻、ｔ_{ｐａｓｔ_i}はｉ番目の他のユーザとの会話が発生した時刻（従って、式１では、過去に発生した会話ほど、親密度への影響が小さくなる）、ｄｕｒａｔｉｏｎ_ｉはｉ番目の会話の累計時間、ｓｐｅａｋ_ｉはｉ番目の会話において発話していた時間、ｎｏｄ_ｉはｉ番目の会話においてうなずいていた時間（従って、式１では、うなずいていた時間に比べて発話していた時間が長いほど、親密度が高くなる）、ｐｏｓｉｔｉｖｅ_ｉおよびｎｅｇａｔｉｖｅ_ｉは生体情報などに基づいて推定されるｉ番目の会話時の相手のユーザに対する感情（ポジティブおよびネガティブ。式１では、ポジティブな感情の方が強ければ親密度がプラスになり、ネガティブな感情の方が強ければ親密度がマイナスになる）を示す。

（第６の例）
第６の例では、図１１に示した共有欲求グラフ生成部１７９が、親密度グラフ生成部１７７によって生成された親密度グラフに適応グラフ生成部１８１によって生成されたフィルタを適用することによって、ユーザがコンテンツを共有する範囲を設定する。共有欲求グラフ生成部１７９は、複数のユーザ（処理対象になるすべてのユーザ）に含まれる少なくとも１のユーザが情報を共有する局面において、ユーザ同士の関係性を表現するグラフ構造に、共有される情報に関連するフィルタを適用することによって情報を共有する他のユーザを特定する共有ユーザ特定部の一例である。近年、ユーザ個人の生活に密着した画像や音声、資料、ライフログなどのコンテンツが大量に取得されているため、そのようなコンテンツの共有範囲を自動的に設定できる、または共有範囲の候補を自動的に絞り込むことができることは有用でありうる。

図１８は、本実施形態における共有欲求グラフの生成について模式的に説明するための図である。図１８には、グループ親密度グラフＧ１に、フィルタＦを適用することによって、共有欲求グラフＧ２が得られることが示されている。ここで、グループ親密度グラフＧ１は、例えば図１１に示したグループ親密度グラフ生成部１７８によって生成される。グループ親密度グラフＧ１は、例えば、親密度グラフ生成部１７７によって生成されたユーザ個人ごとの親密度グラフを、任意のユーザグループ（複数のユーザを含む）について統合することによって生成される。

また、フィルタＦは、適応グラフ生成部１８１によって生成される適応グラフに対応し、共有される情報に関連したものが選択される。図示された例では、場所、興味、所属、などのグラフの中から、興味のグラフが選択され、それに応じたフィルタＦが適用されている。図１１に示されるように、適応グラフ生成部１８１は、コンテキスト認識部１８０によって認識されたコンテンツ共有時のコンテキスト（どのような状況で、どのような種類のコンテンツが共有されるか）や、ユーザのプロフィール１８２に基づいて、適切なフィルタＦを提供する適応グラフを生成する。

結果として、共有欲求グラフＧ２では、グループ親密度グラフＧ１に比べて、グラフを構成する他のユーザの位置関係が変化している。あるユーザは、フィルタＦの適用によってリンクが強められ、別のユーザはフィルタＦの適用によってリンクが弱められる（図示された例において、リンクの強さはグラフの中心からの距離によって表現されている）。その結果、リンクの強さが所定の閾値を上回る他のユーザとの間でコンテンツを共有する（または、そのようなユーザをコンテンツの共有先の候補にする）場合に、単にグループ親密度グラフＧ１によって共有先やその候補を決定する場合よりも、コンテンツの種類や共有が発生したコンテキストに応じた適切な共有先またはその候補の設定が可能になる。

ここで、フィルタＦの元になる適応グラフの動的な選択の例について、より具体的な例を挙げて説明する。例えば、ユーザが旅行中である場合には、場所の属性に対応する適応グラフが選択され、ユーザの現在地（旅先）にいる他のユーザとのリンクが強められてもよい（グラフ構造に含まれるユーザの位置関係に基づいて構成されるフィルタ）。また、例えば、ユーザが仕事中である場合には、仕事に対応する適応グラフが選択され、仕事上の関係がある他のユーザ（例えば同僚）とのリンクが強められてもよい（グラフ構造に含まれるユーザの所属先に基づいて構成されるフィルタ）。また、例えば、ユーザがスポーツのプレイ中や観戦中である場合には、興味に対応する適応グラフが選択され、そのスポーツに関心がある他のユーザとのリンクが強められてもよい（グラフ構造に含まれるユーザの興味の対象に基づいて構成されるフィルタ）。また、例えば、ユーザが自由参加のパーティー（懇親会）に参加している場合には、その時間に暇な他のユーザとのリンクが強められるように適応グラフが選択されてもよい（グラフ構造に含まれるユーザの行動情報に基づいて構成されるフィルタ）。また、例えば、ユーザが何か知らないことに直面して困っているような場合には、知識を有している他のユーザとのリンクが強められるように適応グラフが選択されてもよい（グラフ構造に含まれるユーザの有するナレッジに基づいて構成されるフィルタ）。

なお、適応グラフは、複数が組み合わされてフィルタＦを構成してもよい。また、適応グラフを使用しない（フィルタＦを実質的に適用しない）ことが選択可能であってもよい。上述の通り、適応グラフ生成部１８１は、認識されたコンテキストやユーザのプロフィールなどに基づいて自動的に（例えばルールベースで）適応グラフを選択するが、選択可能な適応グラフをリストやタブなどによってユーザに提示した上で、ユーザの選択に従って適応グラフを選択することが可能であってもよい。この場合、初期段階ではユーザの選択に従って適応グラフを選択し、ユーザの選択結果に基づいて適応グラフの選択基準（ユーザの状況のコンテキストや、共有されるコンテンツの種類などに基づく）を学習し、やがては適応グラフを自動的に選択するように適応グラフ生成部１８１が構成されていてもよい。

図１９は、本実施形態における親密度グラフの動的な修正について説明するための図である。図示された例では、ユーザＡおよびユーザＢについてのグループ親密度グラフＧ３が、ユーザＡとユーザＢとの会話におけるユーザＡの「Ｃくんも来ればよかったのに」という発言によって位置的に補正され、ユーザＣとユーザＡ，Ｂとのリンクが強められた（ユーザＣの位置がグラフの中心に近づけられた）親密度グラフＧ４が生成されている。このとき、例えば親密度グラフにおけるリンクの強さの総和を一定に保つというようなルールがある場合には、ユーザＣとのリンクが強められた分、それ以外のユーザ（ユーザＤ〜Ｆ）とのリンクが弱められる（位置がグラフの中心から遠ざかる）。

図示された例では、ユーザＡの実際の発話においてユーザＣの名称に言及したためにユーザＣとのリンクが強められているが、同様の処理は、例えばユーザＡとユーザＢとがオンラインでチャットをしているときに、ユーザＡ（またはユーザＢ）が入力した文章にユーザＣの名称が含まれた場合にも可能である。上記の例は、グループ親密度グラフ生成部１７８が、ある期間（第１の期間）におけるユーザＡと他のユーザ（ユーザＣを含む）との会話の発生履歴に基づいて特定された親密度グラフ（ユーザの関係性を表現するグラフ構造）を、第１の期間よりも短い直近の第２の期間においてユーザＡと他のユーザ（上記の例ではユーザＢ）との間で発生した会話（実際の会話でもよいし、オンラインのチャットのような仮想的な会話でもよい）においてユーザＡが発信した内容にユーザＣの名称が含まれる場合に一時的に補正する例ともいえる。この例において、より具体的には、グループ親密度グラフ生成部１７８は、グループ親密度グラフにおいて、ユーザＡとユーザＣとの関係性を一時的に強化する。同様の例として、グループ親密度グラフ生成部１７８は、ユーザが視線を向けた他のユーザについて、一時的に親密度グラフでのリンクを強めてもよい。

上記のような第６の例におけるコンテンツの共有では、例えば、ユーザに、共有欲求グラフ（図１８に示すＧ３）が画像として提示される。共有欲求グラフには、共有範囲（図１８のＧ３に示される範囲Ｒ）が重畳表示されてもよい。さらに、共有欲求グラフだけではなく、グループ親密度グラフや適応グラフがあわせて表示されてもよい。ある例において、共有範囲Ｒは、まず自動的に生成された候補がユーザに提示され、ユーザが候補を修正した上で、最終的に確定される。ユーザは、例えば、共有範囲Ｒを示す円などの図形を拡大／縮小したり、アイコンとして表示されている他のユーザを共有範囲Ｒに包含させたり、共有範囲Ｒから排除したりすることによって、共有範囲Ｒを修正することができる。付加的に、共有欲求グラフ生成部１７９がユーザによる共有範囲Ｒの修正結果から、ユーザの共有範囲に関する意向を学習し、やがては共有欲求グラフ生成部１７９が自動的に適切な共有範囲Ｒを設定してもよい。

上記のような構成によってコンテンツが共有されることによって、例えば、コンテンツの共有を受ける側のユーザは、本当に親密な他のユーザのコンテンツや、興味のもてるコンテンツが選択的に共有されることによって、コンテンツの共有においてより高い満足度を得ることができる。また、あるユーザがリアルタイムで体験しているコンテンツ（ライブでのスポーツ観戦など）を、遠隔地にいる他のユーザとの間でリアルタイムに共有することで、体験の共有ができる。

（１−４．第一の実施形態に係る補足）
本開示の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。

なお、上記の実施形態の説明では、システムにおいて複数のユーザの間での会話が検出されることとした。しかしながら、既に説明された通り、上記の実施形態では、必ずしも関係するユーザのすべてが発話する会話には限らず、例えば一部のユーザだけが発話し、他のユーザはその発話に合わせてうなずきなどのアクションをするような場合についても検出が可能である。従って、他の実施形態でそのような場合を会話とは別に検出する場合も含めて、本開示の実施形態で検出されうるのは、ユーザ間のコミュニケーションの発生であるといえる（会話はコミュニケーションの一種である）。従って、会話判定部は、コミュニケーション判定部の一例であるといえる。

＜２．第二の実施形態＞
（２−１．概要およびシステム構成）
以上では、ユーザ間のインタラクションを示す特徴量に基づいて、対象ユーザと候補ユーザとの間で会話が発生しているか否かが判定される実施形態について説明された。以下では、上述された第一の実施形態の応用例である第二の実施形態について説明される。第二の実施形態では、複数のユーザ間において測位情報が授受されるシステムについて説明される。

ＧＮＳＳ測位は消費電力が大きく、モバイル端末１００またはウェアラブル端末２００のような小さなバッテリを備える端末において、小電力でＧＮＳＳ測位が行えることが望ましい。そこで、以下では複数のユーザ間において測位情報が授受される実施形態について説明される。

図２０は、第二の実施形態におけるＧＮＳＳ測位方法の概要を示す図である。第二の実施形態において、図２０のＡに示されるように、ペンダント型または眼鏡型またはリストウォッチ型などのウェアラブル端末１００が用いられることによって、複数のユーザの間でグループが形成される。図２０では、Ｕ１からＵ３の３人のユーザでグループが形成される場合が説明される。なお、当該複数のユーザには、特定のユーザと行動を共にする少なくとも一人の同伴者が含まれる。ただし、特定のユーザと同伴者の関係は重要ではなく、一人のユーザから見た他方（複数の場合はその他）のユーザが同伴者として扱われる。また、グループを形成する複数の同伴者の認識方法については、後述される。

次に図２０のＢに示されるように、形成されたグループの複数のユーザ間でＧＮＳＳ測位を行うためのＧＮＳＳ測位権（図２０のＢで鍵の図形で概念的に示される）を授受する。次に図３のＣに示すように、ＧＮＳＳ測位権を有するユーザＵ１のウェアラブル端末１００はＧＮＳＳ測位を行い、ＧＮＳＳ測位権を有さない他のユーザ（Ｕ２およびＵ３）のウェアラブル端末１００はＧＮＳＳ測位を行うユーザＵ１のウェアラブル端末１００から測位情報を受け取り、測位情報を共有する。そして受け取った測位情報をグループの代表値（緯度、経度の情報など）として使用する。

なお、上述したＧＮＳＳ測位権は所定の時間間隔で授受されてもよい。また、各ウェアラブル端末１００の電池残量が認識される場合、電池残量の多いウェアラブル端末１００にＧＮＳＳ測位権が渡されてもよい。このように電池残量が多いウェアラブル端末１００によってＧＮＳＳ測位が行われることによって、グループ内の端末の電池残量を平滑化できる。また、ＧＮＳＳ測位権は、図２１に示すようにユーザのモバイル端末２００に表示される操作画面を介してＧＮＳＳ測位権の授受がなされてもよい。

図２１では、グループ内に３人のユーザが認識されている。そして現在「ＢＢＢさん」がＧＮＳＳ測位権を有することが示されている。つまり、表示画面において、ＢＢＢさんの名前の横のチェックボックスにＧＮＳＳ測位権を有することを示す印が表示されている。ユーザがＧＮＳＳ測位権を他のユーザに渡したいときは、ユーザがＧＮＳＳ測位権を渡したいユーザの名前の隣に表示されるチェックボックスに印をつけることによってＧＮＳＳ測位権が他のユーザに渡される。

図２２は、上述した動作を行うシステムのシステム構成を示す図である。本実施形態のシステムは、サーバ３００ｍと、ウェアラブル端末１００ｍ、１００ｎを含む。なお、ウェアラブル端末１００の数は２つに限定されない。

サーバ３００ｍは、通信部３７、同伴者認識部３８およびＧＮＳＳ測位決定部３９を有する。通信部３７は、各ウェアラブル端末１００ｍ、１００ｎと通信を行う。また、同伴者認識部３８は、各ウェアラブル端末１００ｍ、１００ｎから送られてくる情報に基づいて複数の同伴者をグループ化する。また、ＧＮＳＳ測位決定部３９は、同伴者認識部３８によって認識されたグループのうちのどのユーザにＧＮＳＳ測位権を与えるかを決定する。

また、ウェアラブル端末１００ｍ、１００ｎは、通信部３１、表示部３２、センシング部１１、同伴者認識部４０、ＧＮＳＳ測位部４１、ＧＮＳＳ制御部４２および仮想ＧＮＳＳ測位部４３を有する。ここで通信部３１は、サーバ３００ｍと通信を行う。また、表示部３２は、例えばグループに所属する複数のユーザに関する情報などの情報を表示する。なお、通信部３１は、上述したようにウェアラブル端末１００ｍ、１００ｎがそれぞれ備えるＢｌｕｅｔｏｏｔｈ（登録商標）またはＷｉ−Ｆｉなどの通信装置によって実装される。

また、センシング部１１は、上述したようにマイクロフォン、加速度センサ、および／またはジャイロセンサを含み、さらにカメラなどの撮像部を含んでもよい。また、同伴者認識部４０は、センシング部１１および通信部３１からの情報を受け取り、受け取った情報を通信部３１を介してサーバ３００ｍの同伴者識別部３８に送信する。また、同伴者認識部４０は、サーバ３００ｍの同伴者認識部３８で認識された同伴者の情報を受け取る。なお、この同伴者の情報は表示部３２に表示されてもよく、また表示された同伴者の情報は、ユーザによって修正されてもよい。

ＧＮＳＳ測位部４１は、ＧＮＳＳ信号をＧＮＳＳ衛星から受信し、測位を行う。仮想ＧＮＳＳ測位部４３は、他端末から受け取った測位情報を利用して自端末の位置を判定する。次に、ＧＮＳＳ制御部４２は、サーバ３００ｍのＧＮＳＳ測位決定部３９によって生成されるＧＮＳＳ測位権に基づいて、ＧＮＳＳ測位部４１をＯＮにするか仮想ＧＮＳＳ測位部４３をＯＮにするかを切り替える。また図２１を用いて上述されたように、手動でＧＮＳＳ測位権が変更された場合、ＧＮＳＳ制御部４２は、手動によるＧＮＳＳ測位権の変更を認識してＧＮＳＳ測位部４１をＯＮにするか仮想ＧＮＳＳ測位部４３をＯＮにするかを切り替える。

上記の構成の動作が以下に具体的に説明される。ウェアラブル端末１００ｍ、１００ｎの同伴者認識部４０は、センシング部１１またはＧＮＳＳ制御部４２または通信部３１から以下の情報を受け取る。
（１）ＧＮＳＳ測位部４１または仮想ＧＮＳＳ測位部４３が生成した測位情報
（２）受信される他の端末のＢｌｕｅｔｏｏｔｈ（登録商標）またはＷｉ−Ｆｉの端末識別情報（ＩＤ）
（３）マイクロフォンが受音する音声
（４）カメラが撮像する撮像画像の情報

ウェアラブル端末１００ｍ、１００ｎの同伴者認識部４０は、上述した（１）〜（４）の情報をサーバ３００ｍの同伴者認識部３８に送信する。そして当該情報を受け取ったサーバ３００ｍの同伴者認識部３８は、例えば（１）の測位情報から各ウェアラブル端末１００間の距離を判定し、所定の距離以下であれば当該ウェアラブル端末１００を有するユーザを同伴者として認識してもよい。

また、サーバ３００ｍの同伴者認識部３８は、（２）の端末識別情報に関して、長期的に観測される端末識別情報のウェアラブル端末１００を有するユーザを同伴者として認識してもよい。つまり端末識別情報Ａを有するウェアラブル端末１００が端末識別情報Ｂのウェアラブル端末１００を長期間観測している場合、端末識別情報Ｂを有するウェアラブル端末１００を有するユーザを同伴者と識別する。

また、サーバ３００ｍの同伴者認識部３８は、（３）の音声情報に基づいて環境音マッチングを行い、類似する音声情報を有するウェアラブル端末のユーザを同伴者として認識してもよい。また、サーバ３００ｍの同伴者認識部３８は、（４）の画像情報に基づいて、所定期間撮像画像で認識される人物を同伴者として認識してもよい。このとき、画像認識に用いられる人物のデータ（例えば顔の画像データなど）は、各ウェアラブル端末１００ｍ、１００ｎに記憶されていてもよく、ウェアラブル端末１００ｍ、１００ｎの同伴者認識部４０は当該人物データをサーバ３００ｍに送信してもよい。

また上述したサーバ３００ｍの同伴者認識部３８は、第一の実施形態で説明されたユーザのうなずきや手の動き（ジェスチャ）などのアクションまたはユーザ間の発話音声に基づく複数のユーザ（つまり同伴者）の間のインタラクションを示す特徴量に基づいて、同伴者を認識してもよい。また、（１）〜（４）およびユーザ間のインタラクションの各情報を統合して同伴者が認識されてもよい。上述したような様々な情報に基づいて同伴者が認識されることにより、ウェアラブル端末１００ｍ、１００ｎの状況に応じた認識方法が選択される。例えば、カメラが起動されているときはカメラの撮像画像の情報が同伴者の認識のために用いられてもよい。また、マイクロフォンが起動されているときは、音声情報が同伴者の認識のために使用されてもよい。またいくつかの情報が統合されて使用されることにより、より高精度に同伴者が識別される。以上説明したように、（１）〜（４）およびユーザ間のインタラクションの各情報は、同伴者を認識するために用いられる同伴者認識情報の一例と考えられる。

以上では、サーバ３００ｍを介してサーバ３００ｍの同伴者認識部４０において同伴者が認識される例が説明された。しかし、同伴者は各ウェアラブル端末１００ｍ、１００ｎ間で通信されることによって認識されてもよい。図２３は、各ウェアラブル端末１００ｍ、１００ｎにおいて同伴者が認識される例の構成が示された図である。図２３における同伴者識別部４０は、図２２におけるサーバ３００ｍの同伴者認識部３８の機能を有する。また図２３におけるＧＮＳＳ制御部４２は、図２２におけるサーバのＧＮＳＳ測位決定部３９の機能を有する。また、同様の構成を有するモバイル端末２００によって同様のシステムが形成されてもよい。

以上では、グルーピングされた複数のユーザ間でＧＮＳＳ測位権を授受する例が説明された。以下では、例えば車両などの十分大きな電源を有するＧＮＳＳ測位を行うことが可能な装置の測位情報を利用する例について説明される。

図２４は、ＧＮＳＳ測位部４５を有する車両４００と当該車両４００が測位する測位情報を用いるウェアラブル端末１００を示すブロック図である。図２４で示されるウェアラブル端末１００と車両４００は、通信部３１、４４による通信によって関連付けられる。これは例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）などのペアリングによってなされてもよい。

車両４００と関連付けられたウェアラブル端末１００のＧＮＳＳ制御部４２はＧＮＳＳ測位部４１の電源をＯＦＦにする。そしてＧＮＳＳ制御部４２は、車両４００のＧＮＳＳ測位部４５が測位した測位情報を通信部３１を介して取得する。ＧＮＳＳ制御部４２は、仮想ＧＮＳＳ測位部４３をＯＮにし、取得した制御情報を利用して自端末の位置を認識する。そして、ウェアラブル端末１００と車両４００との関連付けが解除されると、ウェアラブル端末１００は、ウェアラブル端末１００のＧＮＳＳ測位部４１をＯＮにし、自身で測位を行う。

このように車両４００のような十分な電源を有する装置とウェアラブル端末１００が関連付けられる場合、ウェアラブル端末１００は十分な電源を有する装置が測位する測位情報を利用する。これによって、ウェアラブル端末１００の電源消費が抑制される。

（２−２．応用例）
以上では他の装置が測位した測位情報を用いるシステムの例が説明された。以下では、当該システムの応用例が説明される。当該応用例では、近接に位置する複数の端末間で測位情報が共有される。この応用例は、例えばショッピングモールなどの限られた範囲に多数の端末が密集するような状況で有効である。

図２５は、当該応用例の動作を示すフローチャートである。最初にＳ１００においてウェアラブル端末１００はＢｌｕｅｔｏｏｔｈ（登録商標）などの通信部３１を用いて近接端末をスキャンする。このとき、例えばＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙなどの近距離無線通信では、半径数ｍ以内の端末がウェアラブル端末１００の通信部３１で検知される。

次にＳ１０２においてウェアラブル端末１００は、Ｓ１００でスキャンされた近接端末の数を判定する。次にＳ１０６においてウェアラブル端末１００は、Ｓ１０２で判定された近接端末の数に基づいて後に詳述される間欠測位を行う。

次にウェアラブル端末１００は、Ｓ１０８において測位情報を他の端末から受信するか否かを判定する。ここで他の端末から測位情報が得られない場合、処理はＳ１１２に進み、ウェアラブル端末１００は自身でＧＮＳＳ測位を行う。Ｓ１０８においてウェアラブル端末が他端末から測位情報を受信すると、処理はＳ１１０に進み、ウェアラブル端末は他端末から受信した測位情報を利用して自端末の位置を認識する。そして処理はＳ１００に戻り、上述した処理が繰り返される。

以上では、第二の実施形態の応用例の動作が説明された。以下では図２５のＳ１０６で示された間欠測位についてより詳細に説明される。上述したようにウェアラブル端末１００が他端末から測位情報を受け取る場合、測位情報を受け取るウェアラブル端末は自身で測位を行わなくてもよい。よって、上述したシステムにおいて、ウェアラブル端末１００は測位を間欠的に行うことができる。

また、上述したようにウェアラブル端末１００が間欠的に測位を行う場合、間欠率はＳ１０２で判定された近接端末の数に応じて変更されてもよい。例えば、Ｓ１０２で判定された近接端末の数が１０個であり、それぞれが間欠率９０％で測位を行っていると仮定する。ここで間欠率９０％は、例えば１０秒間に１秒だけＧＮＳＳ測位部４１をＯＮにすることを意味する。

上述したような状況において、自端末以外の他の９個の端末において測位を行っていない確率は、０．９＾１０≒０．３５（３５％）である。ここで３秒連続で自端末以外の端末が測位を行っていない確率は、０．３５＾３≒０．０３９（３．９％）となる。この確率は非常に低い確率である。つまり、ウェアラブル端末１００は、少なくとも３秒程度の間隔で他端末から測位情報を受け取れる確率が非常に高い。よって、上述したシステムにおいては、ウェアラブル端末１００は間欠率９０％を保ちながら十分な精度で測位情報を得ることができる。

以上の説明から理解されるように、検知される近接端末の数が多ければウェアラブル端末１９９は間欠率を上げることができ、検知される近接端末の数が少なければウェアラブル端末１００は間欠率を下げなければならない。このように間欠的にＧＮＳＳ測位部４１が動作されることによって、ウェアラブル端末１００において省電力化が達成される。また間欠測位を行うＧＮＳＳ測位方法において、ＧＮＳＳ測位は、過去の測位情報を用いて補完して実行されてもよい。このとき、過去の測位情報が古すぎると補完ができない可能性がある。一方、上述したシステムを用いることによって、間欠率を上げても測位情報を他端末から得られるので、測位情報の補完が適切になされる。

（２−３．第二の実施形態の補足）

本開示の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。

なお、上述した実施形態では、ウェアラブル端末１００が検知する各情報から同伴者が認識される例が説明された。しかし、同伴者の認識は、事前にユーザを同伴者として登録する専用のアプリケーションを用いて行われてもよい。また、同伴者の認識は、既存のＳＮＳ（ソーシャルネットワークサービス）におけるグループ機能を用いて行われてもよい。

＜３．ハードウェア構成＞
次に、図２６を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図２６は、本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

情報処理装置９００は、ＣＰＵ（Central Processing unit）９０１、ＲＯＭ（Read Only Memory）９０３、およびＲＡＭ（Random Access Memory）９０５を含む。また、情報処理装置９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理装置９００は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理装置９００は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などの処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりする。

出力装置９１７は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Liquid Crystal Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置９１７は、情報処理装置９００の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。

ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Hard Disk Drive）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置９１９は、例えばＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理装置９００に接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどでありうる。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００と外部接続機器９２９との間で各種のデータが交換されうる。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ、またはＷＵＳＢ（Wireless USB）用の通信カードなどでありうる。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などを含みうる。

撮像装置９３３は、例えば、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）またはＣＣＤ（Charge Coupled Device）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ９３５は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ（マイクロフォン）などの各種のセンサである。センサ９３５は、例えば情報処理装置９００の筐体の姿勢など、情報処理装置９００自体の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音など、情報処理装置９００の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Global Positioning System）信号を受信して装置の緯度、経度および高度を測定するＧＰＳ受信機を含んでもよい。

以上、情報処理装置９００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部を備える、情報処理装置。
（２）前記複数のユーザは、第１のユーザおよび第２のユーザを含み、
前記特徴量は、前記音声データに含まれる前記第１のユーザの発話音声と前記第２のユーザの発話音声との時間的な関係性に基づいて抽出される、前記（１）に記載の情報処理装置。
（３）前記音声データは、前記第１のユーザの発話音声を含む第１の音声データと、前記第２のユーザの発話音声を含む第２の音声データとを含む、前記（２）に記載の情報処理装置。
（４）前記音声データは、前記第１のユーザの発話音声と前記第２のユーザの発話音声とを含む単一の音声データを含む、前記（２）に記載の情報処理装置。
（５）前記音声データから前記特徴量を抽出する特徴量抽出部をさらに備える、前記（１）〜（４）のいずれか１項に記載の情報処理装置。
（６）前記コミュニケーション判定部は、前記複数のユーザから各ユーザの位置関係に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、前記（１）〜（５）のいずれか１項に記載の情報処理装置。
（７）前記コミュニケーション判定部は、前記複数のユーザから各ユーザの行動情報に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、前記（１）〜（６）のいずれか１項に記載の情報処理装置。
（８）前記特徴量は、さらに、前記複数のユーザのモーションまたは生体指標を示すセンサデータから抽出される、前記（１）〜（７）のいずれか１項に記載の情報処理装置。
（９）前記複数のユーザは、第３のユーザおよび第４のユーザを含み、
前記特徴量は、前記音声データに含まれる前記第３のユーザの発話音声と、前記センサデータによって示される前記第４のユーザのモーションまたは生体指標との関係に基づいて抽出される、前記（８）に記載の情報処理装置。
（１０）前記コミュニケーションを時系列で提示する画面を表示させる表示制御部をさらに備える、前記（１）〜（９）のいずれか１項に記載の情報処理装置。
（１１）前記画面において、前記コミュニケーションは、前記特徴量に基づいて算出される前記コミュニケーションの発生確率に対応した形態で提示される、前記（１０）に記載の情報処理装置。
（１２）前記コミュニケーションの発生履歴に基づいて、前記複数のユーザに含まれる少なくとも１のユーザがコミュニケートした相手の情報、または前記コミュニケートした相手との会話情報の少なくともいずれかを含むログを出力するログ出力部をさらに備える、前記（１）〜（１１）のいずれか１項に記載の情報処理装置。
（１３）前記ログ出力部は、前記ログを前記少なくとも１のユーザに提示されるタイムライン上に出力する、前記（１２）に記載の情報処理装置。
（１４）前記コミュニケーションの発生履歴に基づいて、前記複数のユーザの関係性を表現するグラフ構造を特定する関係性グラフ特定部をさらに備える、前記（１）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）前記複数のユーザに含まれる少なくとも１のユーザが情報を共有する局面において、前記グラフ構造に、前記共有される情報に関連するフィルタを適用することによって前記情報を共有する他のユーザを特定する共有ユーザ特定部をさらに備える、前記（１４）に記載の情報処理装置。
（１６）前記フィルタは、前記グラフ構造に含まれるユーザの位置関係、前記グラフ構造に含まれるユーザの所属先、前記グラフ構造に含まれるユーザの興味の対象、前記グラフ構造に含まれるユーザの行動情報、または前記グラフ構造に含まれるユーザの有するナレッジに基づいて構成される、前記（１５）に記載の情報処理装置。
（１７）前記関係性グラフ特定部は、第１の期間における前記コミュニケーションの発生履歴に基づいて特定された前記グラフ構造を、前記第１の期間よりも短い直近の第２の期間において発生した前記コミュニケーションの内容に応じて一時的に補正する、前記（１４）〜（１６）のいずれか１項に記載の情報処理装置。
（１８）前記複数のユーザは、第５のユーザおよび第６のユーザを含み、
前記関係性グラフ特定部は、前記第２の期間において発生した前記コミュニケーションにおいて前記第５のユーザが発信した内容に前記第６のユーザの名称が含まれる場合に、前記グラフ構造において前記第５のユーザと前記第６のユーザとの関係性を一時的に強化する、前記（１７）に記載の情報処理装置。
（１９）プロセッサが、少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定することを含む、情報処理方法。
（２０）少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定する機能をコンピュータに実現させるためのプログラム。
（２１）
前記ユーザの同伴者を認識するための同伴者認識情報に基づいて前記同伴者を認識する同伴者認識部と、
ＧＮＳＳ測位を行うためのＧＮＳＳ測位権を前記ユーザが有する第１の情報処理装置に与えるか前記同伴者が有する第２の情報処理装置に与えるかを判定するＧＮＳＳ測位決定部と、を備える、前記（１）に記載の情報処理装置。
（２２）
前記同伴者認識情報は、前記ユーザと前記同伴者との間のインタラクションを示す特徴量、または前記ユーザが有する第１の情報処理装置が撮像する画像情報、または前記第１の情報処理装置と前記第２の情報処理装置との間の距離に関する情報、または前記第１の情報処理装置または前記第２の情報処理装置が発する端末識別情報のいずれか１つまたはこれらの組み合わせを含む、前記（２１）に記載の情報処理装置。
（２３）
前記第１の情報処理装置および前記第２の情報処理装置の電池残量を認識し、前記電池残量に基づいて前記ＧＮＳＳ測位権を与える情報処理装置を決定する、前記（２１）または前記（２２）に記載の情報処理装置。
（２４）
前記第１の情報処理装置に近接するＧＮＳＳ測位を行うことが可能な車両が認識された場合、前記車両から測位情報を取得する、前記（２１）から前記（２３）のいずれか１項に記載の情報処理装置。
（２５）
通信部をさらに備え、前記通信部が認識する近接端末の数に応じて、間欠的にＧＮＳＳ測位を行う頻度を変更する、前記（２１）から前記（２４）のいずれか１項に記載の情報処理装置。

１０システム
１１センシング部
１２アクション検出部
１３候補選出部
１４特徴量抽出部
１５会話判定部
１６スコア算出部
１７グルーピング部
３８、４０同伴者認識部
３９ＧＮＳＳ測位決定部
１００ａアイウェア
１００ｂリストウェア
２００モバイル端末
３００サーバ

Claims

少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部と、
前記コミュニケーションの発生履歴に基づいて、前記複数のユーザの関係性を表現するグラフ構造を特定し、
第１の期間における前記コミュニケーションの発生履歴に基づいて特定された前記グラフ構造を、前記第１の期間よりも短い直近の第２の期間において発生した前記コミュニケーションの内容に応じて一時的に補正する
関係性グラフ特定部と
を備える、情報処理装置。
前記複数のユーザは、第１のユーザおよび第２のユーザを含み、
前記特徴量は、前記音声データに含まれる前記第１のユーザの発話音声と前記第２のユーザの発話音声との時間的な関係性に基づいて抽出される、請求項１に記載の情報処理装置。
前記音声データは、前記第１のユーザの発話音声を含む第１の音声データと、前記第２のユーザの発話音声を含む第２の音声データとを含む、請求項２に記載の情報処理装置。
前記音声データは、前記第１のユーザの発話音声と前記第２のユーザの発話音声とを含む単一の音声データを含む、請求項２に記載の情報処理装置。
前記音声データから前記特徴量を抽出する特徴量抽出部をさらに備える、請求項１〜４のいずれか１項に記載の情報処理装置。
前記コミュニケーション判定部は、前記複数のユーザから各ユーザの位置関係に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、請求項１〜５のいずれか１項に記載の情報処理装置。
前記コミュニケーション判定部は、前記複数のユーザから各ユーザの行動情報に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、請求項１〜６のいずれか１項に記載の情報処理装置。
前記特徴量は、さらに、前記複数のユーザのモーションまたは生体指標を示すセンサデータから抽出される、請求項１〜７のいずれか１項に記載の情報処理装置。
前記複数のユーザは、第３のユーザおよび第４のユーザを含み、
前記特徴量は、前記音声データに含まれる前記第３のユーザの発話音声と、前記センサデータによって示される前記第４のユーザのモーションまたは生体指標との関係に基づいて抽出される、請求項８に記載の情報処理装置。
前記コミュニケーションを時系列で提示する画面を表示させる表示制御部をさらに備える、請求項１〜９のいずれか１項に記載の情報処理装置。
前記画面において、前記コミュニケーションは、前記特徴量に基づいて算出される前記コミュニケーションの発生確率に対応した形態で提示される、請求項１０に記載の情報処理装置。
前記コミュニケーションの発生履歴に基づいて、前記複数のユーザに含まれる少なくとも１のユーザがコミュニケートした相手の情報、または前記コミュニケートした相手との会話情報の少なくともいずれかを含むログを出力するログ出力部をさらに備える、請求項１〜１１のいずれか１項に記載の情報処理装置。
前記ログ出力部は、前記ログを前記少なくとも１のユーザに提示されるタイムライン上に出力する、請求項１２に記載の情報処理装置。
前記複数のユーザに含まれる少なくとも１のユーザが情報を共有する局面において、前記グラフ構造に、前記共有される情報に関連するフィルタを適用することによって前記情報を共有する他のユーザを特定する共有ユーザ特定部をさらに備える、請求項１に記載の情報処理装置。
前記フィルタは、前記グラフ構造に含まれるユーザの位置関係、前記グラフ構造に含まれるユーザの所属先、前記グラフ構造に含まれるユーザの興味の対象、前記グラフ構造に含まれるユーザの行動情報、または前記グラフ構造に含まれるユーザの有するナレッジに基づいて構成される、請求項１４に記載の情報処理装置。
前記複数のユーザは、第５のユーザおよび第６のユーザを含み、
前記関係性グラフ特定部は、前記第２の期間において発生した前記コミュニケーションにおいて前記第５のユーザが発信した内容に前記第６のユーザの名称が含まれる場合に、前記グラフ構造において前記第５のユーザと前記第６のユーザとの関係性を一時的に強化する、請求項１に記載の情報処理装置。
プロセッサが、
少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定し、
前記コミュニケーションの発生履歴に基づいて、前記複数のユーザの関係性を表現するグラフ構造を特定し、
第１の期間における前記コミュニケーションの発生履歴に基づいて特定された前記グラフ構造を、前記第１の期間よりも短い直近の第２の期間において発生した前記コミュニケーションの内容に応じて一時的に補正する
ことを含む、情報処理方法。
少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定
前記コミュニケーションの発生履歴に基づいて、前記複数のユーザの関係性を表現するグラフ構造を特定し、
第１の期間における前記コミュニケーションの発生履歴に基づいて特定された前記グラフ構造を、前記第１の期間よりも短い直近の第２の期間において発生した前記コミュニケーションの内容に応じて一時的に補正する
機能をコンピュータに実現させるためのプログラム。