JP2019008570A

JP2019008570A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2019008570A
Application number: JP2017123953A
Authority: JP
Inventors: 敦根岸; Atsushi Negishi
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2019-01-17
Also published as: WO2019003616A1; US20210150145A1; DE112018003273T5; US11354511B2

Abstract

【課題】ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が可能な仕組みを提供する。【解決手段】ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、を備える情報処理装置。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

人は、他の人、人以外の生物、又はロボット等の機器などとコミュニケーションをとる際に、各々のコンテキストに応じた方法でコミュニケーションを行う。例えば、人は、母国語が同じ人との間では母国語を用いてコミュニケーションを行い、母国語が異なる人との間では英語等の共通言語を用いてコミュニケーションを行う。また、人は、スマートフォンを買い替えると、新しいスマートフォンの操作方法を学ぶ。異なるコンテキストに応じて異なるコミュニケーション方法をとることは煩雑である。そのため、コンテキストの相違に起因するコミュニケーション負荷を軽減するための技術の開発が求められている。

一例として、下記特許文献１に、入力音声に音声認識処理、機械翻訳処理及び音声合成処理を適用することで、入力音声を他言語に翻訳した合成音声を生成し出力する技術が開示されている。

特開２００１−１１７９２１号公報

しかし、上記特許文献１に記載された技術は、単に音声を他言語に翻訳するものに過ぎなかった。そのため、予め定められた翻訳が行われることはあっても、ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が行われることはなかった。

そこで、本開示では、ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が可能な仕組みを提供する。

本開示によれば、ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、を備える情報処理装置が提供される。

また、本開示によれば、ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して出力装置により前記第２の動作主体へ出力させること、を含む情報処理方法が提供される。

また、本開示によれば、コンピュータは、ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、として機能させるプログラムが記録された記録媒体が提供される。

以上説明したように本開示によれば、ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係るシステムの概要を説明するための図である。本実施形態に係るシステムの全体構成の一例を示すブロック図である。第１の実施例の概要を説明するための図である。同実施例に係るシステムにおいて実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。同実施例の第１のユースケースを説明するための図である。同実施例の第２のユースケースを説明するための図である。同実施例の第３のユースケースを説明するための図である。同実施例の第４のユースケースを説明するための図である。同実施例の第５のユースケースを説明するための図である。第２の実施例の概要を説明するための図である。同実施例に係るシステムにおいて実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の要素を、必要に応じてデバイス１００Ａ、１００Ｂ及び１００Ｃのように区別する。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、デバイス１００Ａ、１００Ｂ及び１００Ｃを特に区別する必要が無い場合には、単にデバイス１００と称する。

なお、説明は以下の順序で行うものとする。
１．概要
２．構成例
２．１．デバイスの構成例
２．２．他の装置の構成例
３．実施例
３．１．第１の実施例
３．１．１．第１のユースケース
３．１．２．第２のユースケース
３．１．３．第３のユースケース
３．１．４．第４のユースケース
３．１．５．第５のユースケース
３．１．６．第６のユースケース
３．１．７．第７のユースケース
３．２．第２の実施例
４．ユースケースの一例
５．ハードウェア構成例
６．まとめ

＜＜１．概要＞＞
まず、図１を参照して、本開示の一実施形態に係るシステム１の概要を説明する。

図１は、本実施形態に係るシステム１の概要を説明するための図である。図１に示すように、システム１は、ユーザ１０と、ユーザ１０のコミュニケーション対象２０とのコミュニケーションを支援するデバイス１００を含む。

コミュニケーション対象２０は、人間（即ち、他のユーザ）であってもよいし、人間以外の任意の種類の動物であってもよい。コミュニケーション対象２０は、ＰＣ、スマートフォン又はタブレット端末等の機器であってもよい。コミュニケーション対象２０は、ゲームのキャラクター又はＡＲ（Augmented Reality）画像等の仮想物体であってもよい。

なお、ユーザ１０とコミュニケーション対象２０である他のユーザとを特に区別する必要がない場合、これらをユーザとも総称する。また、コミュニケーション対象２０が他のユーザである場合、デバイス１００に対応する（例えば、デバイス１００を装着する）ユーザ１０を第１のユーザ１０とも称し、他のユーザ２０を第２のユーザ２０とも称する場合がある。

また、ユーザ１０とコミュニケーション対象２０のうち、情報の発信側を第１の動作主体とも称し、情報の受け手側を第２の動作主体とも称する。そして、第１の動作主体のコンテキストを第１のコンテキストとも称し、第２の動作主体のコンテキストを第２のコンテキストとも称する。例えば、第１のユーザ１０から第２のユーザ２０への発言に関しては、第１の１０が第１の動作主体であり、第２のユーザ２０が第２の動作主体である。一方で、第２のユーザ２０から第１のユーザ１０への発言に関しては、第２の２０が第１の動作主体であり、第１のユーザ１０が第２の動作主体である。第１の動作主体と第２の動作主体とを特に区別する必要がない場合、これらを動作主体とも総称する場合がある。

デバイス１００は、ユーザ１０及びコミュニケーション対象２０の双方のコンテキストに応じたコミュニケーション支援を行う。詳しくは、デバイス１００は、ユーザ１０がユーザ１０のコンテキストにおいて行った動作を、コミュニケーション対象２０のコンテキストにおいて同等の意味を有する情報に変換して、コミュニケーション対象２０に出力する。これにより、ユーザ１０とコミュニケーション対象２０とは、互いのコンテキストの相違を解消する努力を自身で行うことなく、自身のコンテキストのみに基づくコミュニケーションをとることが可能となる。換言すると、ユーザ１０とコミュニケーション対象２０とは、互いのコンテキストの相違を意識せずにコミュニケーションをとることが可能となる。よって、ユーザ１０は、あらゆるコミュニケーション対象２０に対して、同一のメンタルモデルを適用することが可能となる。なお、メンタルモデルとは、人が抱く、ものごとに対するイメージであり、例えば他人とのコミュニケーションの取り方、又は機器の操作方法に関するイメージである。

例えば、第１のユーザ１０は、母国語の異なる第２のユーザ２０と、自身の母国語を用いて会話することが可能となる。第１のユーザ１０が母国語で話した内容が、デバイス１００により第２のユーザ２０の母国語に変換されて出力される。逆方向の会話に関しても同様である。従って、辞書を引く等の作業が不要であるし、他国語の知識及び会話能力も不要となる。さらには、コンテキストが相違すること自体の認識が不要となる。

デバイス１００は、例えばウェアラブルデバイスである。デバイス１００は、ユーザ１０に装着される。デバイス１００は、多様なウェアラブルデバイスとして実現され得る。例えば、デバイス１００は、グラス型、ネックバンド型、ネックレス型、リストバンド型、時計型、ベルト型、グローブ型、指輪型、ネイル型、靴型又は服型等であってもよい。

デバイス１００がウェアラブルデバイスとして実現される場合、デバイス１００は、ユーザ１０に常に装着されるので、ユーザ１０は、デバイス１００を意識的に操作することなく、コミュニケーション支援を受けることが可能となる。また、デバイス１００は、ユーザ１０の内部状態を反映してもよく、例えばユーザ１０が楽しい気分の時は楽しそうな音声を合成して出力し、ユーザ１０が悲しい気分の時は悲しそうな音声を合成して出力してもよい。これにより、より高度なコミュニケーションが実現される。

＜＜２．構成例＞＞
図２は、本実施形態に係るシステム１の全体構成の一例を示すブロック図である。図２に示すように、システム１は、デバイス１００、外部センサ装置２００、サーバ３００及び外部出力装置４００を含む。以下、各装置の詳細な構成例を説明する。

＜２．１．デバイスの構成例＞
図２に示すように、デバイス１００は、センサ部１１０、記憶部１２０、制御部１３０及び出力部１４０を含む。

（１）センサ部１１０
センサ部１１０は、第１の動作主体（即ち、ユーザ１０又はコミュニケーション対象２０）、又は周辺環境に関する情報をセンシングする機能を有する。センサ部１１０は、センシングの結果得られたセンシング情報を、記憶部１２０へ出力する。

・センサ装置の一例
センサ部１１０は、多様なセンサ装置を含み得る。以下、センサ部１１０が含み得るセンサ装置の一例を説明する。センサ部１１０は、以下に挙げるセンサ装置の少なくともいずれかを含む。センサ部１１０は、同一種類のセンサ装置を複数含んでいてもよいし、下記に挙げるセンサ装置以外のセンサ装置を含んでいてもよい。

例えば、センサ部１１０は、音情報をセンシングするマイクを含み得る。マイクは、指向性マイクであってもよい。

例えば、センサ部１１０は、画像（静止画像又は動画像）をセンシングする画像センサを含み得る。画像センサは、レンズ系、レンズ系を駆動させる駆動系、及びレンズ系で得られる撮像光から撮像信号を生成する撮像素子を含む、いわゆるデジタルカメラであってもよい。他にも、画像センサは、赤外線カメラ又はステレオカメラ等の、温度情報又は深度情報等の他の情報も画像と共にセンシングする装置として実現されてもよい。

例えば、センサ部１１０は、測距対象との距離を測定する測距センサを含み得る。測距センサは、ステレオカメラ、ＬｉＤＡＲ（Light Detection and Ranging）、ミリ波レーダー、又はレーザードップラーセンサとして実現され得る。

例えば、センサ部１１０は、位置情報をセンシングする位置センサを含み得る。位置センサは、ＧＮＳＳ（Global Navigation Satellite System）衛星からＧＮＳＳ信号（１周波又は２周波）を受信するＧＮＳＳ信号受信機として実現されてもよい。位置センサは、無線通信装置として実現されてもよく、例えばアクセスポイント（又は基地局）との通信に係る電波強度に基づいて位置を測定する。他にも、位置センサは、慣性センサとして実現されてもよく、例えばＧＮＳＳ信号に基づく位置情報を慣性センサによるセンシング情報により補正されたり、慣性航法により位置情報がセンシングされたりする。また、位置センサは、画像センサとして実現されてもよく、例えばＳＬＡＭ（Simultaneous Localization and Mapping）により位置情報がセンシングされる。

例えば、センサ部１１０は、慣性センサを含み得る。慣性センサは、例えば３軸で角速度及び加速度をセンシングする。

例えば、センサ部１１０は、ユーザ入力装置を含み得る。ユーザ入力装置は、例えばタッチセンサ、ボタン、スライダー又はホイール等として実現され得る。

例えば、センサ部１１０は、生体情報センサを含み得る。生体情報センサは、例えば体温センサ、脳波センサ、血圧センサ、筋電位センサ、発汗センサ又は心拍センサとして実現され得る。

例えば、センサ部１１０は、環境センサを含み得る。環境センサは、例えば気温センサ、大気圧センサ、又は湿度センサとして実現され得る。

例えば、センサ部１１０は、通信装置として実現され得る。通信装置は、ＬＴＥ（Long Term Evolution）、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＢＬＥ（Bluetooth Low Energy（登録商標））、又は可視光通信等の任意の無線通信規格に準拠した通信が可能な無線通信装置であってもよい。もちろん、通信装置は、有線ＬＡＮ（Local Area Network）等の任意の通信規格に準拠した通信が可能な有線通信装置であってもよい。

（２）記憶部１２０
記憶部１２０は、デバイス１００による動作のためのデータを一時的に又は恒久的に記憶する機能を有する。記憶部１２０は、センサ部１１０から出力されたセンシング情報、外部センサ装置２００から受信されたセンシング情報、及びサーバ３００から出力された外部蓄積情報を記憶する。

（３）制御部１３０
制御部１３０は、デバイス１００全体の動作を制御して、デバイス１００の様々な機能を提供する。制御部１３０は、コンテキスト認識部１３１、意図認識部１３３及び出力変換部１３５を含む。

（３．１）コンテキスト認識部１３１
コンテキスト認識部１３１は、コンテキストを認識する機能を有する。詳しくは、コンテキスト認識部１３１は、記憶部１２０動作に記憶された情報（例えば、センシング情報）に基づいて、動作主体（即ち、ユーザ１０又はコミュニケーション対象２０）のコンテキストを認識する。

コンテキストとは、動作主体が行う動作の背景となる情報である。以下、コンテキストの一例を説明する。

コンテキストは、属性を示す情報であってもよい。ユーザの属性を示す情報としては、性別、名前、年齢、誕生日、母国語、会社、住所、電話番号、メッセージアプリケーションのＩＤ、通勤経路、及び勤務地住所が挙げられる。機器の属性を示す情報としては、製造番号等の識別情報、製造元、種別、製造時期、及び入出力インタフェース等が挙げられる。属性を示す情報は、ユーザにより事前登録されてもよいし、場所又は行動に関する過去のコンテキストに基づいて認識されてもよい。

コンテキストは、場所を示す情報であってもよい。ユーザの場所を示す情報としては、国、都道府県、州、絶対座標、屋内座標、及び会社、自宅、スーパーマーケット、電車又は病院等の場所クラスが挙げられる。機器の属性を示す情報としては、絶対座標、屋内座標及び場所クラスが挙げられる。場所を示す情報は、位置センサにより得られるセンシング情報に基づいて認識され得る。その際、基本的にはＧＮＳＳ受信機が用いられ、詳細の座標又は屋内座標を認識する際には無線通信装、慣性センサ及び画像センサ等が組み合わされて用いられ得る。

コンテキストは、環境を示す情報であってもよい。ユーザの環境を示す情報としては、騒音、気温、天気、照度、風速、湿度、標高、及び人口密度等が挙げられる。機器の環境を示す情報としては、ユーザの環境を示す情報と同様のものが挙げられる。環境を示す情報は、マイク又は気温センサ等により得られるセンシング情報に基づいて認識され得る。

コンテキストは、隣接関係を示す情報であってもよい。ユーザの隣接関係を示す情報としては、家族、友人、恋人、上司又は赤の他人等の他者との関係を示す情報、並びにテレビ受像機、家の鍵、コーヒーショップ又はタクシー等のユーザの近くにある物体を示す情報が挙げられる。隣接関係を示す情報は、例えば電波強度、音のマッチング、画像のマッチング、場所に関するコンテキスト、及び環境に関するコンテキストとの組み合わせにより、認識され得る。

コンテキストは、行動を示す情報であってもよい。ユーザの行動を示す情報としては、行動していない、移動、休憩、仕事、睡眠、食事、***、飲酒、会話、運動、遊び、勉強、掃除、読書、及びスマートフォンの操作等が挙げられる。行動を示す情報は、例えば、慣性センサ又は画像センサ等により得られるセンシング情報、場所に関するコンテキスト、及び環境に関するコンテキストとの組み合わせにより認識され得る。なお、ユーザの行動を示す情報は、同時に複数が認識されてもよい。

コンテキストは、移動手段を示す情報であってもよい。ユーザの移動手段を示す情報としては、停留、徒歩、自転車、自動車、電車、新幹線、船及び飛行機等が挙げられる。移動手段を示す情報は、例えばＧＮＳＳ受信機及び慣性センサにより得られるセンシング情報の組み合わせにより認識され得る。

コンテキストは、趣向を示す情報であってもよい。ユーザの趣向を示す情報としては、音楽、食べ物、スポーツ、色、本、映画、思想、及び異性のタイプ等が挙げられる。趣向を示す情報は、ユーザにより事前登録されてもよいし、場所、行動又は感情に関する過去のコンテキストに基づいて認識されてもよい。

コンテキストは、体調又は身体の状態を示す情報であってもよい。ユーザの体調又は身体の状態を示す情報としては、体温、便秘、生理、快調／不調、病気の部位、集中／散漫、安心／不安、及び覚醒度等が挙げられる。機器の状態を示す情報としては、稼働時間、電池残量、及び温度等が挙げられる。体調又は身体の状態を示す情報は、体温、脈拍、心電図又は脳波等の生体情報、画像センサによりセンシングされるユーザの表情、及び慣性センサにより得られるセンシング情報を組み合わせることで認識され得る。

コンテキストは、感情を示す情報であってもよい。ユーザの感情を示す情報としては、基本感情及び応用感情が挙げられる。基本感情は、喜び、信頼、心配、驚き、悲しみ、嫌悪、怒り、及び予測を含む。応用感情は、楽観、愛、服従、畏怖、失望、自責、軽蔑及び攻撃性を含む。感情を示す情報は、生体情報、画像センサによりセンシングされるユーザの画像、慣性センサにより得られるセンシング情報、環境に関する現在及び過去のコンテキスト、並びに行動に関する現在及び過去のコンテキストを組み合わせることで認識され得る。

なお、趣向、体調、身体の状態、又は感情のコンテキストは、内部のコンテキストとして総称され得る。

（３．２）意図認識部１３３
・動作認識
意図認識部１３３は、第１の動作主体による動作を認識する。詳しくは、意図認識部１３３は、記憶部１２０動作に記憶された情報に基づいて、ユーザ１０又はユーザ１０のコミュニケーション対象２０のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作を認識する。以下、動作認識の一例を説明する。

−話す動作
意図認識部１３３は、ユーザが話す動作を認識する。例えば、意図認識部１３３は、ユーザが話した内容（例えば、テキスト情報）を認識する。

マイクがユーザの頭部付近に配置される場合、マイクはユーザの知覚と近い条件でセンシングすることが可能となる。騒音環境下など、マイクによるセンシング情報だけではユーザ音声の抽出が困難な場合、意図認識部１３３は、口の動きの画像認識結果、及び口の動きに関する筋電位等を組み合わせて、音声分離を行う。

−ジェスチャ
意図認識部１３３は、ユーザのジェスチャを認識する。

意図認識部１３３は、認識対象のジェスチャに応じたセンサ装置により得られたセンシング情報に基づいてジェスチャを認識する。例えば、意図認識部１３３は、認識対象のジェスチャが隠れない位置に配置された画像センサにより得られたセンシング情報に基づいてジェスチャを認識する。例えば、意図認識部１３３は、認識対象のジェスチャが行われる部位に装着された慣性センサにより得られたセンシング情報に基づいてジェスチャを認識する。これらの認識処理は、組み合わされてもよい。

−触る動作
意図認識部１３３は、ユーザの触る動作を認識する。

例えば、意図認識部１３３は、静電容量方式のタッチセンサにより得られたセンシング情報に基づいて、接触点数及び感圧の情報も含めて、物への接触動作を認識する。また、意図認識部１３３は、物理スイッチにより得られたセンシング情報に基づいて、物理スイッチを押したり切り替えたりする接触動作を認識する。また、意図認識部１３３は、画像センサにより得られたセンシング情報に基づいて、空間のような実体のない物への接触動作を認識する。

−その他の動作
意図認識部１３３は、上述した動作以外のユーザの動作を認識する。

例えば、意図認識部１３３は、動かす動作を認識する。意図認識部１３３は、画像センサにより得られたセンシング情報に基づいて、ユーザが何をどのくらい動かしたかを認識する。例えば、意図認識部１３３は、見る動作を認識する。意図認識部１３３は、画像センサ又は筋電位センサにより得られたセンシング情報に基づいて、視線及び瞬き等の目の動きに関する動作を認識する。例えば、意図認識部１３３は、力む動作を認識する。意図認識部１３３は、画像センサ又は筋電位センサにより得られたセンシング情報に基づいて、筋肉の活動を認識する。

・意図認識
意図認識部１３３は、ユーザ１０又はユーザ１０のコミュニケーション対象２０のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて第１の動作主体の意図を認識する。そして、意図認識部１３３は、ユーザ１０又はユーザ１０のコミュニケーション対象２０のうち、他方の第２の動作主体の第２のコンテキストにおける第１の動作主体の意図を示す情報を生成する。例えば、意図認識部１３３は、ユーザ１０がユーザ１０のコンテキストにおいて行った動作に基づいてユーザ１０の意図を認識する。そして、意図認識部１３３は、コミュニケーション対象２０のコンテキストにおけるユーザ１０の意図を示す情報を生成する。また、意図認識部１３３は、コミュニケーション対象２０がコミュニケーション対象２０のコンテキストにおいて行った動作に基づいてコミュニケーション対象２０の意図を認識する。そして、意図認識部１３３は、ユーザ１０のコンテキストにおけるコミュニケーション対象２０の意図を示す情報を生成する。このように、意図認識部１３３は、第１の動作主体の意図を示す情報を第２の動作主体のコンテキストに応じて生成することができる

より簡易には、意図認識部１３３は、第１の動作主体による動作を、第２のコンテキストにおける同等の意味を有する情報に変換する。コンテキストが異なれば同じ動作でも意味が異なり得るところ、このような変換が行われることで、第１の動作主体は、第２の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。また、第２の動作主体にとっても、自身のコンテキストに沿った情報が提供されるので、第１の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。このように、ユーザ１０とコミュニケーション対象２０との間のコミュニケーションを円滑化することが可能となる。

第１の動作主体の意図とは、第１の動作主体が動作を起こす動機である。例えば、ユーザの意図は、ユーザが意識的に又は無意識的に相手に伝達したいと考える情報である。具体的には、ユーザの意図は、メッセージ（即ち、連続する１つ以上の単語から成る情報）及び／又は感情等である。ユーザの意図は、例えば、センサ装置によりセンシングされた、ユーザの表情、顔色、視線、ジェスチャ、姿勢、音声、声質、口調、呼吸、又は相手との距離、並びにユーザのコンテキストに基づいて認識される。

・装置
例えば、コミュニケーション対象２０がコンピュータ等のユーザインタフェースを有する装置である場合、ユーザ１０の意図は、ユーザ１０が装置２０に行わせたい動作である。例えば、意図認識部１３３は、ユーザ１０が考える操作方法と装置２０の操作方法とが異なる場合であっても、ユーザ１０が装置２０に行わせた動作を第２のユーザ２０に実行させることが可能である。

（３．３）出力変換部１３５
出力変換部１３５は、意図認識部１３３により生成された、第１の動作主体の意図を示す情報を、第２の動作主体へ出力するための出力情報に変換する機能を有する。例えば、出力変換部１３５は、第１の動作主体の意図を示す情報を、画像、音声、光、触覚刺激、又はこれらの組み合わせからなる出力情報に変換する。出力情報が、第１の動作主体の意図を示す情報として捉えられてもよい。

出力変換部１３５は、出力情報を第２の動作主体へ出力させる。例えば、出力変換部１３５は、出力情報を出力部１４０へ出力し、出力部１４０により出力情報を第２の動作主体へ出力させる。また、例えば、出力変換部１３５は、出力情報を外部出力装置４００に送信し、外部出力装置４００により出力情報を第２の動作主体へ出力させる。

出力変換部１３５は、出力部１４０及び外部出力装置４００の中から、出力情報の出力先を選択する。例えば、出力変換部１３５は、出力部１４０がディスプレイを含んでいれば出力部１４０に画像の出力情報を出力し、出力部１４０がディスプレイを含んでいなければディスプレイを有する外部センサ装置２００に画像の出力情報を出力する。

（４）出力部１４０
出力部１４０は、第２の動作主体（即ち、ユーザ１０又はコミュニケーション対象２０）に対し、出力情報を出力する機能を有する。

・出力装置の一例
出力部１４０は、多様な出力装置を含み得る。以下、出力部１４０が含み得る出力装置の一例を説明する。出力部１４０は、以下に挙げる出力装置の少なくともいずれかを含む。出力部１４０は、同一種類の出力装置を複数含んでいてもよいし、下記に挙げる出力装置以外の出力装置を含んでいてもよい。

出力部１４０は、画像出力装置を含み得る。画像出力装置は、例えば、ディスプレイ、プロジェクタ、又は電子ペーパーにより実現され得る。

出力部１４０は、音声出力装置を含み得る。音声出力装置は、例えば、スピーカ、又はイヤホンにより実現され得る。スピーカは、ダイナミック型等の典型的なスピーカであってもよいし、骨伝導スピーカ又は指向性スピーカであってもよい。

出力部１４０は、触覚出力装置を含み得る。触覚出力装置は、例えば、発熱器、アクチュエータ又は電気刺激出力装置により実現され得る。

出力部１４０は、光出力装置を含み得る。光出力装置は、例えばＬＥＤ（light emitting diode）ランプにより実現され得る。

出力部１４０は、匂い出力装置を含み得る。匂い出力装置は、例えば振動子を含み、アロマオイル等の匂い成分を含む液体をその振動により気化させる。

・具体例
以下、出力部１４０による出力情報の出力の具体例を説明する。

出力部１４０は、視覚的な出力情報を出力し得る。例えば、ＬＥＤは点灯し、ディスプレイにより画像が表示され、又はプロジェクタにより物体若しくは人に画像が投影される。デバイス１００がグラス型デバイスとして実現される場合、シースルー型ディスプレイに、出力情報がＡＲ表示される。

視覚的な出力情報の出力は、デバイス１００が例えばグラス型、ネックバンド型、リストバンド型又は時計型である場合に行われ得る。例えば、グラス型のデバイス１００を装着した、手話利用の第１のユーザ１０に、音声から翻訳した手話ジェスチャの動画がＡＲ表示される。例えば、グラス型のデバイス１００を装着した第１のユーザ１０に、第１のユーザ１０が知らない情報（例えば、キーワード）に関する説明を含む補足情報がＡＲ表示される。例えば、第１のユーザ１０が、ＰＣに表示された画像又はノートに記述された図をつまんで壁に離す動作（ドラッグアンドドロップ動作）を行うと、かかる画像又は図が壁に投影される。

出力部１４０は、聴覚的な出力情報を出力し得る。例えば、スピーカにより音声が出力される。デバイス１００は、環境のコンテキストに応じて出力するスピーカを切り替えてもよい。例えば、デバイス１００は、騒がしい環境ではノイズキャンセル型スピーカ又は骨伝導性スピーカで出力し、静かな環境では指向性スピーカで出力する。

聴覚的な出力情報の出力は、デバイス１００が例えばグラス型、ネックバンド型、ネックレス型、イヤリング型、リストバンド型、グローブ型又は指輪型である場合に行われ得る。

出力部１４０は、触覚的な出力情報を出力し得る。例えば、アクチュエータの振動により、触覚的な出力情報が出力される。振動パターン、強さ、又は振動する位置の変動により、多様な情報が表現可能である。また、熱電素子の利用により温度情報が出力されてもよい。

触覚的な出力情報の出力は、デバイス１００が例えばグラス型、ネックバンド型、リストバンド型、時計型、グローブ型、指輪型、ネイル型、又は衣服型である場合に行われ得る。例えば、グローブ型又は衣服型のデバイス１００を装着した第１のユーザ１０に、アクチュエータの運動により、触覚的な出力情報が出力される。アクチュエータの運動によって、物理的に第１のユーザ１０の表面の形状を変化させることで、触覚的な出力情報が出力されてもよい。典型的な例としては、点字の出力が挙げられる。

触覚的な出力情報の出力位置は、コンテキストに応じて変化してもよい。例えば、デバイス１００は、行動に関するコンテキスト又はデバイス１００表面の温度（例えば、体表面と接触しているか否か）に基づいて、第１のユーザ１０が読み取りやすい表面に点字が出力されるよう、出力位置を制御する。

出力部１４０は、嗅覚的な出力情報を出力し得る。例えば、デバイス１００は、感情に関するコンテキストに応じて、第１のユーザ１０の感情の高ぶりを抑える匂いを出力させる。

嗅覚的な出力情報の出力は、デバイス１００が例えばネックバンド型、リストバンド型又は時計型である場合に行われ得る。

＜２．２．他の装置の構成例＞
以下、外部センサ装置２００、サーバ３００及び外部出力装置４００の構成例を説明する。

（１）外部センサ装置２００
外部センサ装置２００は、第１の動作主体（即ち、第１のユーザ１０又はコミュニケーション対象２０）、又は周辺環境に関する情報をセンシングする機能を有する。外部センサ装置２００は、デバイス１００との間で有線通信又は無線通信を行い、センシングの結果得られたセンシング情報をデバイス１００に送信する。

外部センサ装置２００は、デバイス１００による制御に基づいてセンシングを行ってもよい。

外部センサ装置２００は、センサ部１１０と同様のセンサ装置を含み得る。

なお、以下では、センサ部１１０に含まれるセンサ装置と外部センサ装置２００に含まれるセンサ装置とを特に区別する必要がない場合、これらをセンサ装置として総称する。

（２）サーバ３００
サーバ３００は、外部蓄積情報を記憶する機能を有する。サーバ３００は、デバイス１００の外部記憶装置として機能し、記憶した情報をデバイス１００に送信したり、デバイス１００から受信した情報を記憶したりする。以下、外部蓄積情報の一例を説明する。

サーバ３００は、事前入力データを記憶する。事前入力データは、第１のユーザ１０により入力される情報であり、例えば属性のコンテキスト等を含む。

サーバ３００は、公共データを記憶する。公共データは、例えば地図情報又は天気情報等を含む。

サーバ３００は、第１のユーザ１０の過去のセンシング情報、及び過去のコンテキストを示す情報を記憶する。

サーバ３００は、第２のユーザ２０の過去のセンシング情報、及び過去のコンテキストを示す情報を記憶する。

（３）外部出力装置４００
外部出力装置４００は、第２の動作主体（即ち、第１のユーザ１０又はコミュニケーション対象２０）に対し、出力情報を出力する機能を有する。外部出力装置４００は、デバイス１００との間で有線通信又は無線通信を行い、デバイス１００から受信した出力情報を出力する。

外部出力装置４００は、デバイス１００による制御に基づいて出力を行ってもよい。

外部出力装置４００は、出力部１４０と同様の出力装置を含み得る。

外部出力装置４００は、多様な機器として実現され得る。例えば、外部出力装置４００は、ＰＣ、テレビ受像機、照明、スマートフォン、オーディオ機器、又はその他の機器として実現され得る。また、外部センサ装置２００と外部出力装置４００とは一体的に形成されてもよい。

なお、以下では、出力部１４０に含まれる出力装置と外部出力装置４００に含まれる出力装置とを特に区別する必要がない場合、これらを出力装置として総称する。

＜＜３．実施例＞＞
以下、図３〜図１１を参照して、具体的な実施例を説明する。

＜３．１．第１の実施例＞
本実施例は、人間同士のコミュニケーションに関する。以下、図３を参照して、本実施例の概要を説明する。

図３は、第１の実施例の概要を説明するための図である。図３に示すように、第１のユーザ１０はデバイス１００としてグラス型デバイス１００Ａ及び時計型デバイス１００Ｂを装着している。第１のユーザ１０は、手話利用者であり、第２のユーザ２０は音声利用者である。第１のユーザ１０が、駅がどこかを問う手話を行うと、デバイス１００は、当該手話を「駅はどこですか？」という音声に変換して、スピーカで出力する。第２のユーザ２０が、「この道を真っ直ぐです」と音声で回答すると、デバイス１００Ｂは、当該音声を手話に変換して、アバターがかかる手話を行った画像をディスプレイで出力する。第１のユーザ１０は、アバターの手話を見ることで、駅がどこかを認識することができる。このようにして、第１のユーザ１０と第２のユーザ２０との、手話利用者か音声利用者か、といったコンテキストの相違を感じさせない、自然なコミュニケーションが実現される。

本実施例では、コミュニケーション対象２０は人間である。例えば、第１のコンテキストと第２のコンテキストとでは、利用言語が異なる。利用言語としては、手話言語及び音声言語の他に、英語及び日本語等が挙げられる。

デバイス１００は、第１の言語を利用して表現された第１のメッセージを、第２の言語を利用して表現された第２のメッセージに変換することで、第１の動作主体の意図を示す情報を生成する。例えば、第１の動作主体（例えば、第２のユーザ２０）が音声（即ち、話声）利用者で第２の動作主体（例えば、第１のユーザ１０）が手話利用者である場合、デバイス１００は、第１の動作主体が音声言語を利用して表現したメッセージを、当該メッセージに対応する手話言語のジェスチャを行うアバターの動画に変換する。第２の動作主体は、かかるアバターを見ることで、第１の動作主体が発したメッセージを認識することが可能となる。他にも、第１の動作主体が音声利用者で第２の動作主体が手話利用者である場合、デバイス１００は、第１の動作主体が音声言語を利用して表現したメッセージを、透過型ディスプレイに映る第１の動作主体に重畳してＡＲ表示される、当該メッセージに対応する手話言語のジェスチャを行う手の動画に変換してもよい。第２の動作主体は、透過型ディスプレイに映る第１の動作主体に重畳してＡＲ表示された手によるジェスチャを見ることで、第１の動作主体が発したメッセージを認識することが可能となる。これにより、第２の動作主体は、第１の動作主体が実際に手話で発言したかのうように第１の動作主体からのメッセージを認識することが可能となる。いずれにしろ、第１の動作主体が音声言語を利用して表現したメッセージが、手話言語として表現されて第２の動作主体に提供されるので、第２の動作主体は、第１の動作主体とのコミュニケーションを容易にとることが可能となる。

さらに、デバイス１００は、第１のメッセージのメタ情報を、第２のメッセージのメタ情報に変換してもよい。これにより、例えば第１の動作主体が音声を利用して表現したメタ情報が、手話言語として表現されて第２の動作主体に提供されるので、第２の動作主体は、第１の動作主体とのコミュニケーションを容易にとることが可能となる。従って、メッセージ（例えば、テキスト情報）だけでは伝わりづらい第１の動作主体の感情等を第２の動作主体に伝達することが可能となる。

ここで、音声言語におけるメッセージとは、テキスト情報である。音声言語におけるメタ情報は、話す速さ又は声の大きさ等を示す情報である。

また、手話言語におけるメッセージとは、手話単語（単語に対応するジェスチャ）の連続から成る情報である。手話言語におけるメタ情報は、例えばジェスチャの速さ又はジェスチャの大きさ等を示す情報である。

デバイス１００は、単語ごとに上記変換を行ってもよい。この場合、第１のメッセージが単語ごとに変換されて第２のメッセージとして出力されるので、例えば第１の動作主体が手話で発言してから第２の動作主体に音声が出力されるまでのタイムラグを低減することが可能である。異なる言語間では、文法の違い等に起因する遅延が生じて会話のテンポが悪くなってしまい得る。そのような場合に、単語ごとの変換を行うことで、会話のテンポを維持することが可能である。このような動作モードは、低遅延モードとも称され得る。

なお、本明細書における発言とは、手話ジェスチャによる表現と音声による表現との両方を含む概念であるものとする。

続いて、図４を参照しながら、図３に示した例における詳細な処理の流れを説明する。ここでは、一例として、音声言語利用者と手話言語利用者とのコミュニケーションに関する処理の流れを説明する。図４は、本実施例に係るシステム１において実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。

・センシング
図４に示すように、まず、デバイス１００（即ち、センサ部１１０）は、センシングを行う（ステップＳ１００）。

例えば、グラス型デバイス１００Ａは、カメラ及びマイクにより画像及び音声をセンシングする。これは、第１のユーザ１０Ａ及び第２のユーザ２０Ｂの手の動き（即ち、手話）及び音声（即ち、話声）を、人間の知覚と近い条件で測定するためである。時計型デバイス１００Ｂは、加速度センサ及び角速度センサにより手の動きをセンシングする。これにより、グラス型デバイス１００Ａだけではカメラの画角の制限又は第１のユーザ１０Ａの体によって第１のユーザ１０の手が隠れてしまいセンシングされなくなる問題を、センサフュージョンにより補うことが可能となる。また、時計型デバイス１００Ｂは、筋電位センサ及び測距センサによるセンシングを行ってもよく、その場合、第１のユーザ１０Ａの手の動きの認識精度が向上する。

なお、センシングは、外部センサ装置２００により行われてもよい。

・コンテキストの認識
次いで、デバイス１００（即ち、コンテキスト認識部１３１）は、コンテキストの認識を行う。

詳しくは、まず、デバイス１００は、ユーザの行動のコンテキストを認識する（ステップＳ１１０）。例えば、デバイス１００は、カメラ又はマイクにより得られたセンシング情報に基づいて、ユーザの行動を、ジェスチャ、話している、その他、の３つのクラスに分類することで、行動のコンテキストを認識する。

次いで、デバイス１００は、ユーザの利用言語のコンテキストを認識する（ステップＳ１１２）。第１のユーザ１０の利用言語は、事前に登録されていてもよい。第２のユーザ２０の利用言語は、例えば、位置情報が示す国（母語に対応）若しくは場所（方言に対応）、又は第２のユーザ２０の音声若しくは手の動きに基づいて認識される。第１のユーザ１０Ａは、第２のユーザ２０Ｂの利用言語を手動で設定することもできる。このようにして、デバイス１００は、利用言語のコンテキスト（属性コンテキスト）を認識する。

次に、デバイス１００は、ユーザの感情のコンテキストを認識する（ステップＳ１１４）。例えば、デバイス１００は、ジェスチャ又は音声が示す言語特徴、生体情報、及び表情特徴等に基づいてユーザの感情を認識する。言語特徴としては、ジェスチャの大きさ及び速さ、並びに音声の強度、速さ、及びピッチが挙げられる。生体情報としては、生体情報センサにより得られる第１のユーザ１０Ａの心拍及び発汗、並びに赤外線カメラにより得られる第２のユーザ２０の体表面の温度が挙げられる。表情特徴は、顔画像を画像認識することで得られる。デバイス１００は、これらの情報を組み合わせることで、喜び、怒り、又は悲しみなどの感情のコンテキストを認識する。

・変換
上述したコンテキストの認識後、デバイス１００（即ち、意図認識部１３３）は、第１の動作主体の意図を示す情報の変換を行う。詳しくは、デバイス１００は、第２の動作主体の第２のコンテキストにおける、第１の動作主体の意図を示す情報を生成する。

第１のユーザ１０の手話に関し、デバイス１００は、手話言語から音声言語への変換（即ち、翻訳）を行う。詳しくは、まず、デバイス１００は、手話単語ごとのジェスチャ認識を行う（ステップＳ１２０）。次いで、デバイス１００は、認識した手話単語に基づいて音声言語への翻訳を行う（ステップＳ１２２）。手話言語は、手話単語の連続により構成され、単語の順番以外に単語間の関係性を示す情報を含まない。そのため、デバイス１００は、音声言語への翻訳の際に、自然言語処理を行って、単語間に助詞又は助動詞を適宜補完する。デバイス１００は、手話に特徴的な単語の組み合せによる慣用表現を、テキスト情報に反映する。デバイス１００は、第１のユーザ１０の属性コンテキスト、感情コンテキスト、並びにジェスチャの速さ及び大きさ等に基づいて、第１のユーザ１０のコンテキストに沿った口調をテキスト情報に反映させたり、メタ情報を生成したりしてもよい。

第２のユーザ２０の音声に関し、デバイス１００は、音声言語から手話言語への変換（即ち、翻訳）を行う。詳しくは、まず、デバイス１００は、単語ごとの音声認識を行う（ステップＳ１２４）。次いで、デバイス１００は、認識した単語に基づいて手話言語への翻訳を行う（ステップＳ１２６）。詳しくは、デバイス１００は、音声認識により得らえた単語の各々を対応する手話単語に翻訳して、手話言語において音声言語と同様の意味を有する並び方に手話単語を並べる。デバイス１００は、第２のユーザ２０の属性コンテキスト、感情コンテキスト、並びに話の速さ及び声の大きさ等に基づいて、メタ情報を生成してもよい。

・出力変換
上述した変換処理後、デバイス１００（即ち、出力変換部１３５）は、第１の動作主体の意図を示す情報を、出力情報に変換する。

第１のユーザ１０の手話に関し、デバイス１００は、音声合成により、手話言語から変換された音声言語を示す音声を生成する（ステップＳ１３０）。例えば、デバイス１００は、ＴｅｘｔｔｏＳｐｅｅｃｈ技術によって音声合成を行う。その際、デバイス１００は、メタ情報に基づいて、第１のユーザ１０の年齢、性別及び感情に応じた声、ジェスチャの速さに応じた速さ、且つジェスチャの大きさに応じた声の大きさの、音声を生成する。このような処理により、第１のユーザ１０が、あたかも音声で話しているかのような自然な音声を生成することが可能となる。

第２のユーザ２０の音声に関し、デバイス１００は、音声言語から変換された手話言語を示すジェスチャの動画を生成する（ステップＳ１３２）。例えば、デバイス１００は、アバターが手話言語を示すジェスチャを行うＣＧ（Computer Graphic）動画を生成する。その際、デバイス１００は、第２のユーザ２０の年齢及び性別を反映したアバターを生成し、音声利用者の感情に応じた表情、話す速さに応じたジェスチャの速さ、及び声の大きさに応じたジェスチャの大きさで、アバターにジェスチャを行わせる。このような処理により、第２のユーザ２０が、あたかも手話で話しているかのような自然な動画を生成することが可能となる。

・出力
上述した生成処理の後、デバイス１００（即ち、出力部１４０）は、出力情報を第２の動作主体へ出力する。

第１のユーザ１０の手話に関し、デバイス１００は、生成した音声をスピーカから出力する。例えば、グラス型デバイス１００Ａのスピーカから音声が出力される場合、第１のユーザ１０の頭部付近から音声が出力されるので、第１のユーザ１０が話しているかのような印象を第２のユーザ２０に与えることが可能である。デバイス１００は、音声出力と同時に、認識した手話言語を示すＣＧ画像又はテキスト情報等のフィードバック情報を表示してもよい。このようなフィードバックにより、第１のユーザ１０は、意図通りの出力が成されているか否かを可能である。このフィードバックは、グラス型デバイス１００ＡによるＡＲ表示により行われてもよいし、時計型デバイス１００Ｂによる表示により行われてもよい。

第２のユーザ２０の音声に関し、デバイス１００は、生成した動画をディスプレイから出力する。例えば、グラス型デバイス１００Ａにより動画がＡＲ表示されることで、第１のユーザ１０は、目の前の第２のユーザ２０があたかも手話で話しているかのように感じ、自然なやり取りを行うことが可能である。なお、第２のユーザ２０も他のデバイス１００を装着している場合、フィードバック情報が第２のユーザ２０へ出力されてもよい。

なお、情報の出力は、外部出力装置４００により行われてもよい。

情報の出力後、処理は、再度ステップＳ１００に戻る。

以下、本実施例のユースケースの一例を説明する。

＜３．１．１．第１のユースケース＞
図５は、第１の実施例の第１のユースケースを説明するための図である。図５に示すように、第１のユーザ１０はグラス型のデバイス１００を装着している。第１のユーザ１０は聴覚障碍者且つ手話利用者であり、若い女性であるものとする。第２のユーザ２０は音声を利用する健常者であり、若い男性であるものとする。そして、第１のユーザ１０は道に迷い、焦りながら第２のユーザ２０に道を尋ねているものとする。

第１のユーザ１０は、第２のユーザ２０に対し、道を尋ねる手話ジェスチャを行う。焦りと困惑から、その手話は手早く行われる。すると、デバイス１００は、「大通りはどこですか？」という音声を、若い女性の声で出力する。この音声は、「どこですか？」という砕けた口調であり、少し上ずった早口で再生される。このようなメタ情報の変換により、第１のユーザ１０の焦りと困った感情とが、口調、声質及び速さに反映される。

第２のユーザ２０は、デバイス１００から出力された音声に基づいて、道を尋ねられていること、及び第１のユーザ１０の焦りと困惑とを認識する。そして、第２のユーザ２０は、第１のユーザ１０に対し、「この通りの２番目の角を右です」と、手短に音声で教える。すると、デバイス１００は、リアルタイムで音声認識を行い、シースルー型ディスプレイに映る第２のユーザ２０に、対応する手話ジェスチャを行う腕３０を重畳してＡＲ表示する。これにより、第１のユーザ１０は、第２のユーザ２０から道を教わることができる。第２のユーザ２０が、「２番目」又は「右」といった単語を、無意識的に声を大きくする等して強調していた場合、デバイス１００は、かかるメタ情報を手話ジェスチャの腕を振る大きさ又は速さに反映する。また、デバイス１００は、音声認識した結果得られたテキスト情報３１をＡＲ表示してもよい。

このようにして、第１のユーザ１０は、目的地までの道を知ることが可能となる。第１のユーザ１０は、コンテキストの相違を意識せずともコミュニケーションをとることが可能であるし、コンテキストが異なる第２のユーザ２０に対して躊躇せずにコミュニケーションを始めることが可能である。

＜３．１．２．第２のユースケース＞
図６は、第１の実施例の第２のユースケースを説明するための図である。図６に示すように、第１のユーザ１０はネックバンド型のデバイス１００を装着しており、第２のユーザ２０は、スマートフォン３４を操作している。スマートフォン３４は、外部出力装置４００の一例である。そして、第１のユーザ１０は、飲食店の従業員であり、第２のユーザ２０は、当該飲食店に来店した客であるものとする。第１のユーザ１０は、音声を利用する健常者であり、女性であるものとする。第２のユーザ２０は、聴覚障碍者且つ手話利用者であり、女性であるものとする。

第１のユーザ１０は、「いらっしゃいませ。ご注文はお決まりでしょうか？」と音声で話し掛けて、テーブルに座った第２のユーザ２０からオーダーを受けようとする。第２のユーザ２０は手話利用者であるから、デバイス１００は、リアルタイムで音声認識を行い、女性店員のアバター３５が「いらっしゃいませ。ご注文はお決まりでしょうか？」という手話ジェスチャを行う動画を、スマートフォン端末３４に出力させる。なお、第２のユーザ２０は、スマートフォン３４上で専用のアプリケーションを動作させることで、スマートフォン３４をデバイス１００の外部出力装置４００として機能させ得る。第１のユーザ１０が丁寧に接客している場合、女性店員のアバター３５は穏やかな表情で、ゆっくりとした速さで手話ジェスチャを行う。このようなメタ情報の変換により、第２のユーザ２０は、第１のユーザ１０から丁寧に接客されていることを認識することができる。

第２のユーザ２０が注文を手話ジェスチャで行うと、デバイス１００から注文の音声が女性の声で再生される。その際、第２のユーザ２０が無意識に腕を大きく振って表現した単語（例えば、注文する品物名、カレーライス）に関しては、大きな音量で再生される。これにより、第１のユーザ１０は、第２のユーザ２０からの注文を認識することができる。

その後、飲食物の提供が遅くなり、第１のユーザ１０が謝罪し、第２のユーザ２０は快く許して「大丈夫です。時間はあるので」と手話で話したものとする。デバイス１００は、第２のユーザ２０の感情を読み取り、明るい柔らかい音声で「大丈夫です。時間はあるので」と出力する。これにより、第１のユーザ１０は、第２のユーザ２０が怒っていないことを認識し、安心することができる。

このようにして、第２のユーザ２０は、飲食店におけるオーダーや会計等のやり取りを、身振り手振りや筆談を行うことなく容易に行うことが可能となる。これにより、第２のユーザ２０はストレスなく飲食店に通うことが可能となり、ＱＯＬ（quality of life）を向上させることが可能となる。

＜３．１．３．第３のユースケース＞
図７は、第１の実施例の第３のユースケースを説明するための図である。図７に示すように、第１のユーザ１０はグラス型のデバイス１００Ａを装着しており、第２のユーザ２０Ｂもグラス型のデバイス１００Ｂを装着しており、残りの第２のユーザ２０Ａ、２０Ｃ〜２０Ｅはデバイス１００を装着していない。デバイス１００Ｂの装着者は、デバイス１００Ｂにとっては第１のユーザであるが、デバイス１００Ａにとっては第２のユーザ２０である。第１のユーザ１０及び第２のユーザ２０Ｂは聴覚障碍者且つ手話利用者であり、第２のユーザ２０Ａ、２０Ｃ〜２０Ｅは音声を利用する健常者であるものとする。また、第１のユーザ１０、第２のユーザ２０Ａ及び２０Ｂは女性であり、第２のユーザ２０Ｃ〜２０Ｅは男性であり、皆で食事をとっているものとする。

第１のユーザ１０が手話で話すと、デバイス１００Ａから女性の声で手話ジェスチャに対応する音声が出力される。同様に、第２のユーザ２０Ｂが手話で話すと、デバイス１００Ｂから女性の声で手話ジェスチャに対応する音声が出力される。ここで、デバイス１００Ａ及び１００Ｂは、各々のユーザに固有の声質の音源を用いて音声合成を行う。これにより、他のユーザは、第１のユーザ１０又は第２のユーザ２０Ｂのどちらが話した音声かを認識することができる。

装着者以外の人が発言した場合、デバイス１００Ａ及びデバイス１００Ｂのシースルー型ディスプレイに手話ジェスチャがＡＲ表示される。例えば、第２のユーザ２０Ｄが発言した場合、デバイス１００Ａのシースルー型ディスプレイに映る第２のユーザ２０Ｄに、発言内容に対応する手話ジェスチャを行う腕３７が重畳してＡＲ表示される。また、デバイス１００は、第２のユーザ２０Ｄの発言内容に対応するテキスト情報３８をＡＲ表示してもよい。ここで、デバイス１００Ａのシースルー型ディスプレイには、第１のユーザ１０の死角に位置する第２のユーザ２０Ａ及び２０Ｂを示すアバター３９及び４０が、第１のユーザ１０にとって第２のユーザ２０Ａ及び２０Ｂがいる方向の端部にＡＲ表示されている。そして、死角に位置する第２のユーザ２０Ａが発言した場合、デバイス１００Ａのシースルー型ディスプレイには、発言内容に対応する手話ジェスチャを行うアバター４０がＡＲ表示される。また、デバイス１００は、第２のユーザ２０Ａの発言内容に対応するテキスト情報４１をＡＲ表示してもよい。このように、他者の発言は、死角にいる人の発言も含めて手話に変換されて聴覚障碍者に提供される。これにより、聴覚障碍者は、複数人での会話をストレスなく楽しむことができる。

第１のユーザ１０Ａは、第２のユーザ２０Ｃにポジティブな発言をしつつも、ネガティブな感情を抱いているものとする。この場合、第１のユーザ１０Ａの手話に基づいてデバイス１００から出力される音声の声色はネガティブなものとなる。これにより、第２のユーザ２０Ｃは、第１のユーザ１０Ａの感情を認識することが可能となる。このような、発言内容と独立したメタ情報の変換により、健常者同士等のコンテキストが同一の者同士で行われる細やかなコミュニケーションを、コンテキストが異なる者同士でも実現することが可能となる。

第１のユーザ１０の手話での発言と他者の発言とが発生する場合、デバイス１００Ａは、音声出力と手話のＡＲ表示とを同時に行う。

デバイス１００Ａは、複数の第２のユーザ２０同士で行われたコミュニケーションの時系列関係を示す情報を出力してもよい。例えば、第２のユーザ２０Ｄの発言に対する回答として第２のユーザ２０Ａが発言した場合、デバイス１００Ａは、第２のユーザ２０Ｄ及びアバター４０に対応付けて強調表現４２及び４３をＡＲ表示する。強調表現としては、例えば第２のユーザ２０Ｄ及びアバター４０自身を光らせる、輪郭を半透明な線で囲む等、任意の表現が採用され得る。強調表現の強調度合いは、発言直後が最も強く、時間が経過するにつれて薄まってもよい。このような強調表現の時系列変化により、第１のユーザ１０は、複数の発言者の時系列の関係性を直観的に認識することができる。なお、この強調表現には、例えば発言者の混乱度合い等の内部状態が反映されてもよい。

デバイス１００Ａは、会話のテンポに応じて、低遅延モードで動作してもよい。

＜３．１．４．第４のユースケース＞
図８は、第１の実施例の第４のユースケースを説明するための図である。図８に示した例は、大学において講師が講義を行い、複数の生徒が講義を受ける例である。第１のユーザ１０は講師であり、第２のユーザ２０は生徒である。第１のユーザ１０はグラス型のデバイス１００Ａを装着しており、第２のユーザ２０もグラス型のデバイス１００Ｂを装着している。デバイス１００Ｂの装着者は、デバイス１００Ｂにとっては第１のユーザであるが、ここでは第１のユーザ１０に着目して説明するため、第２のユーザ２０であるものとする。

大学では、健常者、聴覚障害者、留学生、文系又は理系など、言語及び知識を問わず、誰でも参加できるアクセシビリティの高い授業が行われている。授業は、最新の研究に関するオムニバス形式のもので、講師の専門分野、言語及び知識等も様々である。第１のユーザ１０は、聴覚障碍者であり、自身の母語で専門分野に関する講義を行う。デバイス１００Ａは、音声認識及びジェスチャ認識を行い、認識結果を示す情報をサーバにアップロードする。デバイス１００Ｂは、第１のユーザ１０による講義を、第２のユーザ２０の利用言語等のコンテキストに応じて翻訳し、翻訳結果を第２のユーザ２０へ出力する。かかる出力は、指向性スピーカ、骨伝導スピーカ、又はディスプレイによる出力により、デバイス１００Ｂを装着した第２のユーザ２０にのみ提供される。第２のユーザ２０が発言した場合も、逆方向の変換及び出力がデバイス１００Ａにおいて行われる。

ここで、第１のユーザ１０の第１のコンテキストと第２のユーザ２０の第２のコンテキストとでは、前提知識が異なる。この場合、デバイス１００は、第１の動作主体の第１の前提知識に基づいて表現された第１のメッセージを、当該第１のメッセージを第２の動作主体の第２の前提知識において理解するための補足情報を付加した第２のメッセージに変換する。例えば、デバイス１００Ｂは、専門用語の解説又は第１のユーザ１０の専門分野に特有の考え方等を示す情報を、補足情報５０として第２のユーザ２０に提供する。このような補足情報は、第２のユーザ２０が困っている又は悩んでいる等の感情が検出されたことをトリガとして提供される。これにより、第２のユーザ２０は、専門用語及び知識に関するギャップを感じることなく、講義を受けることができる。同様に、デバイス１００Ａも、補足情報を第１のユーザ１０に提供する。例えば、デバイス１００Ａは、第２のユーザ２０が第１のユーザ１０の専門分野では一般的ではない用語を用いて質問してきた場合に、当該用語の解説を補足情報として第１のユーザ１０に提供する。これにより、第１のユーザ１０は、第２のユーザ２０からの質問の意図を理解することが可能となる。

＜３．１．５．第５のユースケース＞
図９は、第１の実施例の第５のユースケースを説明するための図である。本ユースケースは、コンテキストの変化に応じた出力情報の変化に関する。

図９に示すように、第１のユーザ１０はグラス型のデバイス１００を装着している。第１のユーザ１０は、聴覚障碍者且つ手話利用者である。第２のユーザ２０は、音声を利用する健常者である。第１のユーザ１０及び第２のユーザ２０は、工場に勤務している。第１のユーザ１０が手話で発言すると、デバイス１００は、その発言内容を音声に変換して第２のユーザ１０へ出力する。第２のユーザ２０が音声で発言すると、デバイス１００は、その発言内容を手話ジェスチャの動画に変換し、シースルー型のディスプレイにＡＲ表示することで第１のユーザ１０へ出力する。

工場内は、工場設備が稼働中であり危険レベルが高い。そのため、図９の左図に示すように、デバイス１００は、工場内では、アバターが第２のユーザ２０の発言内容に対応する手話ジェスチャを行う動画５２を、ディスプレイの端部にＡＲ表示する。これにより、第１のユーザ１０は、視界の端で動画５２を確認して第２のユーザ２０の意図を理解することができ、よそ見が防止される。一方で、工場外は危険レベルが低い。そのため、図９の右図に示すように、デバイス１００は、工場外では、シースルー型のディスプレイに映る第２のユーザ２０に、第２のユーザ２０の発言内容に対応する手話ジェスチャを行う腕５４を重畳してＡＲ表示する。

工場内は、工場設備が稼働中であり騒音レベルが高い。そのため、デバイス１００は、工場内では、第１のユーザ１０の手話での発言内容に対応する音声を大音量で出力する。これにより、第２のユーザ２０は、騒音レベルが高い環境下でも第１のユーザ１０の意図を理解することができる。一方で、工場外は騒音レベルが低い。そのため、デバイス１００は、工場外では、第１のユーザ１０の手話での発言内容に対応する音声を小音量で出力する。なお、音量は、第１のユーザ１０と第２のユーザ２０との距離、及び障害物の有無等のコンテキストに応じても制御され得る。このようなコンテキストに応じた音量制御により、コンテキストが変化する環境下でも容易に互いの意図を伝え合うことが可能となる。

なお、第２のユーザ２０の外国人である等利用言語が第１のユーザ１０と異なる場合には、上記説明したユースケースと同様に、異なる利用言語間での変換が行われる。

さらに、第１のユーザ１０と第２のユーザ２０とのコンテキストでは、文化（即ち、前提知識）が異なる場合がある。文化としては、例えばボディランゲージ、及び感情の表情への表れ方がある。この場合、デバイス１００は、第１の文化において表現されたメッセージ及びメタ情報を、第２の文化において表現されたメッセージ及びメタ情報に変換することで、第１の動作主体の意図を示す情報を生成する。ここでのメタ情報は、ボディランゲージ及び感情の表情への現れ方等である。例えば、デバイス１００は、第２のユーザ２０のコンテキストにおいて行われたボディランゲージを、第１のユーザ１０のコンテキストにおけるボディランゲージに変換し、手話ジェスチャを行うアバターにかかるボディランゲージを行わせる。これにより、第１のユーザ１０は、第２のユーザ２０の感情を正しく推定することが可能となり、第２のユーザ２０とのコミュニケーションを円滑に行うことが可能となる。

＜３．１．６．第６のユースケース＞
本ユースケースは、英語又は日本語等の利用言語が異なる音声利用者間でのコミュニケーションに関する。

例えば、第１のユーザ１０は、デバイス１００を装着して、異なる言語を話す第２のユーザ２０と音声を用いて会話する。デバイス１００は、センシングした音声に基づいて特徴抽出を行い、音声特徴、並びに属性及び場所のコンテキストに基づいて、第１のユーザ１０及び第２のユーザ２０の利用言語を認識する。次に、デバイス１００は、音響モデル及び言語モデルを用いて、話者の音声をテキストとして取得する。次いで、デバイス１００は、感情コンテキストを口調に反映させ、統計的手法でテキストを相手の利用言語のテキストへ翻訳する。最後に、デバイス１００は、元の音声特徴、並びに属性及び感情コンテキストを反映した音声合成を行い、音声をスピーカから出力する。

＜３．１．７．第７のユースケース＞
本ユースケースは、遠隔地にいるユーザ同士のコミュニケーションに関する。

第１のユーザ１０はデバイス１００Ａを装着し、第２のユーザ２０はデバイス１００Ｂを装着しているものとする。この場合、デバイス１００Ａは、第１のユーザ１０に関するセンシングを行い、デバイス１００Ｂは、第２のユーザ２０に関するセンシングを行う。デバイス１００Ａは、第１のユーザ１０が第１のユーザ１０のコンテキストにおいて行った動作に基づいて第１のユーザ１０の意図を認識して、認識結果を示す情報をデバイス１００Ｂに送信する。デバイス１００Ｂは、受信した第１のユーザ１０の意図の認識結果に基づいて、第２のユーザ２０のコンテキストにおける第１のユーザ１０の意図を示す情報を生成して、第２のユーザ２０へ出力する。一方で、デバイス１００Ｂは、第２のユーザ２０が第２のユーザ２０のコンテキストにおいて行った動作に基づいて第２のユーザ２０の意図を認識して、認識結果を示す情報をデバイス１００Ａに送信する。デバイス１００Ａは、受信した第２のユーザ２０の意図の認識結果に基づいて、第１のユーザ１０のコンテキストにおける第２のユーザ２０の意図を示す情報を生成して、第１のユーザ１０へ出力する。これにより、遠隔地にいるユーザ同士でのコミュニケーションが可能となる。

例えば、第１のユーザ１０と第２のユーザ２０とでは、行動又は場所のコンテキストの相違により、音声を出してもよい状況か否かが異なり得る。この場合、例えば、第１のユーザ１０の音声で発言した情報がテキスト情報に変換されて第２のユーザ２０へ出力され、第２のユーザ２０が入力したテキスト情が音声に変換されて第１のユーザ１０へ出力される。また、テキスト情報の入出力は、デバイス１００のディスプレイの大きさ等に応じて、最新の情報のみが表示される、又はやりとりの一連の流れが表示される、等の出力形態が制御されてもよい。

デバイス１００は、どのような入力形態（音声入力／テキスト入力等）及び出力形態（音声出力／テキスト出力等）を採用するかを、ユーザのスケジュール、行動、位置情報、１日の行動履歴又は生体情報等に基づいて選択してもよい。例えば、デバイス１００は、属性、場所、環境又は行動のコンテキストに基づいて、会議中、デスクワーク中、休憩中、移動中、又は在宅中等の、状況に関する高次のコンテキストを認識する。次いで、デバイス１００は、各々のユーザの状況のコンテキストに基づいて、適切な入出力形態を選択して、入力を促す。入力された情報は、相手の状況のコンテキストに応じた出形態の情報に変換されて、相手へ出力される。例えば、デバイス１００は、ユーザがミーティング中であればテキスト入力及びテキスト出力を採用し、ユーザが車で移動中であれば音声入力及び音声出力を選択する。また、テキスト入力に関しては、デバイス１００は、入力負荷を削減するために、「ミーティング中」「遅くなる」「疲れた」等の候補のテキストをユーザに提示してもよい。

このような処理により、互いに遠隔地にいる複数のユーザは、互いのコンテキストの相違を気にすることなく、自身に都合のいい方法でコミュニケーションをとることができる。ユーザ間で、職業又は生活環境が異なる場合であっても、それぞれが自身に都合のいい方法でコミュニケーションをとることができるので、容易に連絡を取り合うことが可能となる。

＜３．２．第２の実施例＞
本実施例は、人間と機器とのコミュニケーションに関する。以下、図１０を参照して、本実施例の概要を説明する。

図１０は、第２の実施例の概要を説明するための図である。図１０に示すように、ユーザ１０は、リストバンド型のデバイス１００を装着している。コミュニケーション対象２０は、カメラ２０Ａ、ＰＣ２０Ｂ、テレビ受像機２０Ｃ及びスマートフォン２０Ｄである。カメラ２０Ａは、ディスプレイを有し、過去に撮影された画像を表示可能である。第１のユーザ１０は、カメラ２０Ａへ向けてつまむ動作を行い、つまんだ手をＰＣ２０Ｂに向けて移動させて離す動作を行う。このようなドラッグアンドドロップ動作を行うと、デバイス１００は、当該画像をカメラ２０ＡからＰＣ２０Ｂへ転送させる。詳しくは、デバイス１００は、つまむ動作の対象であるカメラ２０Ａを送信モードにし、離す動作の対象であるＰＣ２０Ｂを受信モードにして、両機器を接続する。そして、これらの２つの機器を、例えばＢＬＥ（Bluetooth Low Energy（登録商標））又はＷｉ−Ｆｉ（登録商標）等の任意の無線通信規格に準拠した通信路で接続し、データを送受信させる。これにより、ＰＣ２０Ｂに当該画像が転送されて、表示される。同様に、ユーザ１０が、ＰＣ２０Ｂに表示された画像に対し、ＰＣ２０Ｂからテレビ受像機２０Ｃへドラッグアンドドロップ動作を行うと、当該画像がＰＣ２０Ｂからテレビ受像機２０Ｃへ転送されて、テレビ受像機２０Ｃで表示される。同様に、ユーザ１０が、テレビ受像機２０Ｃに表示された画像に対し、テレビ受像機２０Ｃからスマートフォン２０Ｄへドラッグアンドドロップ動作を行うと、当該画像がテレビ受像機２０Ｃからスマートフォン２０Ｄへ転送されて、スマートフォン２０Ｄで表示される。

本実施例では、コミュニケーション対象２０は機器である。ユーザ１０のコンテキストは、機器の操作に関するメンタルモデルであり、機器２０のコンテキストは、操作方法である。ユーザ１０は、機器２０に行わせたい動作を機器２０に行わせるための動作を自身のメンタルモデルに従って行う。デバイス１００は、ユーザ１０の意図、即ちユーザ１０が機器２０に行わせた動作をユーザ１０のメンタルモデルに従って認識し、当該行わせたい動作を機器２０に行わせる制御コマンドを生成して、機器２０へ出力する。これにより、ユーザ１０は、自身が考える操作方法に従って操作すると、当該操作方法が実際の機器２０の操作方法と異なっていたとしても、デバイス１００による支援により、思い通りに機器２０を操作することが可能となる。

図１０を参照して説明した例に関し、制御コマンドの生成に関し詳しく説明する。まず、デバイス１００は、場所及び隣接のコンテキストにより、ユーザ１０と機器２０との位置関係を認識し、機器２０が操作対象に含まれるか否かを認識する。次いで、デバイス１００は、ジェスチャ認識又は音声認識を行い、認識結果に対応する共通ルール化されたコマンドを取得する。そして、デバイス１００は、機器２０の属性のコンテキストに基づいて、共通ルール化されたコマンドを機器２０の制御コマンドに変換して、機器２０に送信する。このようなコンテキストに基づく変換が行われることで、ユーザ１０は、同じ操作方法で、本来は操作方法が異なる機器２０に同じ動作を行わせることが可能となる。例えば、同じドラッグアンドドロップ操作により、画像を転送させることが可能となる。

図１０を参照して説明した上記説明した例に関し、機器２０間でのデータの送受信について詳しく説明する。まず、デバイス１００は、ユーザ１０のジェスチャ認識を行う。つまむ動作である場合、デバイス１００は、属性、場所及び隣接のコンテキストに基づいて、送信元の機器２０を認識する。次いで、デバイス１００は、ユーザ１０の指を離す動作のジェスチャ認識を行い、属性、場所、及び隣接のコンテキストに基づいて、送信先の機器２０を認識する。最後に、デバイス１００は、これら２つの機器２０の間で通信路を確立させて、データを送受信させる。

このように、本実施例によれば、ユーザ１０は、機器２０ごとの操作方法の相違や物理的な接続の有無等を意識せずとも、異なる機器２０を同一の操作方法で操作することが可能となる。

続いて、図１１を参照しながら、図１０に示した例における詳細な処理の流れを説明する。図１１は、本実施例に係るシステム１において実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。

・センシング
まず、デバイス１００（即ち、センサ部１１０）は、センシングを行う（ステップＳ２００）。

例えば、リストバンド型のデバイス１００は、加速度及び角速度をセンシングすることで手の動きをセンシングする。また、デバイス１００は、ＢＬＥの電波強度及び磁気をセンシングすることで、ユーザ１０と機器２０との位置関係をセンシングする。もちろん、デバイス１００は、筋電位センサ及び測距センサ等によるセンシングを行ってもよいし、グラス型のデバイス１００等の他のデバイス１００によるセンシング情報を取得してもよい。これにより、デバイス１００の性能向上が見込まれる。

詳しくは、デバイス１００は、隣接のコンテキストを認識する（ステップＳ２１０）。例えば、デバイス１００は、カメラにより得られたセンシング情報に基づいて、ユーザ１０に隣接する機器２０を認識する。隣接していると認識可能な距離の閾値は、機器２０ごとに設定され得る。最大の距離は、例えばＢＬＥの電波が届く範囲であってもよい。また、デバイス１００は、機器２０同士の位置関係も認識する。

・変換
上述したコンテキストの認識後、デバイス１００（即ち、意図認識部１３３）は、コンテキストの相違に基づいたユーザの意図を示す情報の変換を行う。

詳しくは、まず、デバイス１００は、ユーザ１０のドラッグアンドドロップ操作を認識する（ステップＳ２２０）。

次いで、デバイス１００は、認識したドラッグアンドドロップ操作に対応する共通のコマンドを生成する（ステップＳ２２２）。例えば、デバイス１００は、ユーザ１０の動作を、つまむ動作、離す動作、及びそれ以外の３つのパターンに分類する。そして、デバイス１００は、ユーザ１０が指をつまんだ方向にある機器２０を、送信元の機器２０として認識し、ユーザ１０が指を離した方向にある機器２０を、送信先の機器２０として認識する。対象ファイルは、例えば送信元の機器２０に表示されたファイルである。次いで、デバイス１００は、通信路を確立させる共通のコマンド、及び対象ファイルを送受信させる共通のコマンドを生成する。なお、隣接する機器２０が２以上ない場合、又は指つまんだ方向若しくは指を離した方向に機器２０が存在しない場合、共通のコマンドは生成されず、処理は再度ステップＳ２００に戻る。

次に、デバイス１００は、各々の機器２０の属性のコンテキストに基づいて、共通のコマンドを各々の機器２０の制御コマンドに変換する（ステップＳ２２４）。

・出力変換
上述した変換処理後、デバイス１００（即ち、出力変換部１３５）は、ユーザの意図を示す情報を、出力情報に変換する。

詳しくは、デバイス１００は、各々の機器２０の制御コマンドを、各々の機器２０との通信に係るプロトコルに応じた情報に変換する（ステップＳ２３０）。

・出力
上述した生成処理の後、デバイス１００（即ち、出力部１４０）は、出力情報を機器２０へ出力する。

詳しくは、デバイス１００は、各々の機器２０のプロトコルに応じた制御コマンドを各々の機器２０に送信する。これにより、送信元の機器２０と送信先の機器２０との間で通信路が確立されて、送信元の機器２０から送信先の機器２０へ対象ファイルが転送される（ステップＳ２４０）。

＜＜４．ユースケースの一例＞＞
以下、システム１のユースケースの一例を説明する。

まず、ユーザが話す動作を行う場合にデバイス１００により提供されるサービスの一例を説明する。例えば、利用言語のコンテキストが異なる音声利用者間の相互通訳が提供されてもよい。例えば、行動又は場所コンテキストが異なるユーザ同士のコミュニケーションに関し、相手の状況を気にせず使うことのできる電話が提供されてもよい。例えば、音場環境のコンテキストが異なるユーザ同士のコミュニケーションに関し、相手の音場環境を気にせず使うことのできる電話が提供されてもよい。例えば、感情のコンテキストが異なるユーザ同士のコミュニケーションに関し、相手の気持ちを落ち着けるように働きかけて、いつものように話せるようにする対話補助が提供されてもよい。例えば、前提知識のコンテキストが異なるユーザ同士のコミュニケーションに関し、理解することが困難な第２のユーザ２０の発言に対する困っている感情を示す情報を第２のユーザ２０に出力し、前提知識の相違を埋めるための補足情報を第１のユーザ１０に提供する、対話補助が提供されてもよい。例えば、デバイス１００により、属性、趣向及び体調のコンテキストが異なるユーザ同士のコミュニケーションに関し、相手の属性、趣向及び体調の補足情報を提供する、対話補助が提供されてもよい。これにより、ユーザは、初めて会う他のユーザ又はロボットとも、旧知の仲であるかのように接することが可能となる。

次いで、ユーザがジェスチャを行う場合にデバイス１００により提供されるサービスの一例を説明する。例えば、利用言語のコンテキストが異なる、手話利用者と音声利用者との間の相互通訳が提供されてもよい。例えば、ユーザが、機器Ａから機器Ｂへドラッグアンドドロップ動作を行うと、つまむ動作の対象である機器Ａを送信モードにし、離す動作の対象である機器Ｂを受信モードにして、両機器の通信を仲介するサービスが提供される。本サービスには、ユーザにとっては機器のコンテキストが用いられ、機器にとっては通信コンテキストが用いられる。例えば、ユーザが座って作業をしている場合、マウスを動かすようなジェスチャでＰＣにマウス入力がなされ、会議室でプレゼンテーションしている場合は、ジェスチャでページ送り及びポインタの移動がなされる、ユーザインタフェースが提供される。本サービスには、場所、及び行動のコンテキストが用いられる。

次に、ユーザが触る動作を行う場合にデバイス１００により提供されるサービスの一例を説明する。例えば、点字ディスプレイにユーザが触る場合に、気温のコンテキストに応じて、又は手がかじかんでいる若しくは手袋を着けている等の内部のコンテキストに応じて、点字の凸部の高さが制御されてもよい。例えば、スマートフォンのＵＩに関し、高齢者又は視覚障碍者等の属性のコンテキストに応じて、又はユーザの気分等の内部のコンテキストに応じて、ＵＩの文字の大きさ又は配色が制御されてもよい。

最後に、ユーザがその他の動作を行う場合にデバイス１００により提供されるサービスの一例を説明する。例えば、デバイス１００は、グローブ型又は服型のウェアラブルデバイス（例えば、パワードスーツ）である場合、ユーザが動かしたい物の重さとユーザの能力（例えば、筋力）に応じて、適宜補助する力が提供されてもよい。

＜＜５．ハードウェア構成例＞＞
最後に、図１２を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１２は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図１２に示す情報処理装置９００は、例えば、図２に示したデバイス１００を実現し得る。本実施形態に係るデバイス１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図１２に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図２に示す制御部１３０形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

他にも、入力装置９０６は、ユーザに関する情報を検知する装置により形成され得る。例えば、入力装置９０６は、画像センサ（例えば、カメラ）、深度センサ（例えば、ステレオカメラ）、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサを含み得る。また、入力装置９０６は、情報処理装置９００の姿勢、移動速度等、情報処理装置９００自身の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音等、情報処理装置９００の周辺環境に関する情報を取得してもよい。また、入力装置９０６は、ＧＮＳＳ（Global Navigation Satellite System）衛星からのＧＮＳＳ信号（例えば、ＧＰＳ（Global Positioning System）衛星からのＧＰＳ信号）を受信して装置の緯度、経度及び高度を含む位置情報を測定するＧＮＳＳモジュールを含んでもよい。また、位置情報に関しては、入力装置９０６は、Ｗｉ−Ｆｉ（登録商標）、携帯電話・ＰＨＳ・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置９０６は、例えば、図２に示すセンサ部１１０を形成し得る。また、図２に示す外部センサ装置２００は、上述した入力装置９０６と同様の構成要素を含んで形成され得る。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば図２に示す出力部１４０を形成し得る。また、図２に示す外部出力装置４００は、上述した出力装置９０７と同様の構成要素を含んで形成され得る。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図２に示す記憶部１２０を形成し得る。また、図２に示すサーバ３００は、上述したストレージ装置９０８と同様の構成要素を含んで形成され得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。本実施形態では、通信装置９１３は、デバイス１００と外部センサ装置２００、サーバ３００及び外部出力装置４００との通信インタフェースとして機能する。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜６．まとめ＞＞
以上、図１〜図１２を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係るデバイス１００は、ユーザ１０又はユーザ１０のコミュニケーション対象２０のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて第１の動作主体の意図を認識する。そして、意図認識部１３３は、ユーザ１０又はユーザ１０のコミュニケーション対象２０のうち、他方の第２の動作主体の第２のコンテキストにおける第１の動作主体の意図を示す情報を生成する。即ち、デバイス１００は、第１の動作主体による動作を、第２のコンテキストにおける同等の意味を有する情報に変換する。コンテキストが異なれば同じ動作でも意味が異なり得るところ、このような変換が行われることで、第１の動作主体は、第２の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。また、第２の動作主体にとっても、自身のコンテキストに沿った情報が提供されるので、第１の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。このように、ユーザ１０とコミュニケーション対象２０との間のコミュニケーションを円滑化することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図２に示したデバイス１００の機能構成例のうち、記憶部１２０及び制御部１３０が、センサ部１１０及び出力部１４０とネットワーク等で接続されたサーバ等の装置に備えられていても良い。

また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、
を備える情報処理装置。
（２）
前記コミュニケーション対象は、他のユーザであり、
前記第１のコンテキストと前記第２のコンテキストとでは、利用言語が異なり、
前記制御部は、第１の言語を利用して表現されたメッセージを第２の言語を利用して表現されたメッセージに変換することで、前記第１の動作主体の意図を示す情報を生成する、前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記第１の動作主体が音声言語を利用して表現したメッセージを、前記メッセージに対応する手話言語のジェスチャを行うアバターの動画に変換する、前記（２）に記載の情報処理装置。
（４）
前記制御部は、前記第１の動作主体が音声言語を利用して表現したメッセージを、透過型ディスプレイに映る前記第１の動作主体に重畳してＡＲ表示される、前記メッセージに対応する手話言語のジェスチャを行う手の動画に変換する、前記（２）に記載の情報処理装置。
（５）
前記制御部は、前記第１の言語を利用して表現されたメッセージのメタ情報を、前記第２の言語を利用して表現されたメッセージのメタ情報に変換する、前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（６）
音声言語を利用して表現されたメッセージの前記メタ情報は、話す速さ又は声の大きさを示す情報を含む、前記（５）に記載の情報処理装置。
（７）
手話言語を利用して表現されたメッセージの前記メタ情報は、ジェスチャの速さ又はジェスチャの大きさを示す情報を含む、前記（５）に記載の情報処理装置。
（８）
前記制御部は、単語ごとに前記変換を行う、前記（２）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記制御部は、複数の前記コミュニケーション対象同士で行われたコミュニケーションの時系列関係を示す情報を前記ユーザへ出力する、前記（２）〜（８）のいずれか一項に記載の情報処理装置。
（１０）
前記コミュニケーション対象は、他のユーザであり、
前記第１のコンテキストと前記第２のコンテキストとでは、前提知識が異なり、
前記制御部は、第１の前提知識に基づいて表現された第１のメッセージを、前記第１のメッセージを第２の前提知識において理解するための補足情報を付加した第２のメッセージに変換する、前記（１）〜（９）のいずれか一項に記載の情報処理装置。
（１１）
前記コミュニケーション対象は、他のユーザであり、
前記制御部は、前記ユーザが第１のコンテキストにおいて行った動作に基づいて前記ユーザの意図を認識して認識結果を示す情報を他の情報処理装置に送信し、前記他の情報処理装置から受信した前記他のユーザの意図の認識結果を示す情報に基づいて、前記第１のコンテキストにおける前記他のユーザの意図を示す情報を生成して前記ユーザへ出力させる、前記（１）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記コミュニケーション対象は、機器であり、
前記意図は、前記ユーザが前記機器に行わせたい動作であり、
前記制御部は、前記行わせたい動作を前記機器に行わせる制御コマンドを生成して、前記機器へ出力する、前記（１）に記載の情報処理装置。
（１３）
前記制御部は、複数の前記機器の間で通信路を確立させてデータを送受信させる、前記（１２）に記載の情報処理装置。
（１４）
前記制御部は、前記ユーザに装着されたデバイスによりセンシングされた情報に基づいて、前記第１のコンテキスト、前記第２のコンテキスト又は前記第１の動作主体による動作を認識する、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記制御部は、前記ユーザに装着されたデバイスにより前記第１の動作主体の意図を示す情報を前記第２の動作主体に出力させる、前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して出力装置により前記第２の動作主体へ出力させること、
を含む情報処理方法。
（１７）
コンピュータは、
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、
として機能させるプログラムが記録された記録媒体。

１システム
１０ユーザ、第１のユーザ
２０コミュニケーション対象、第２のユーザ、機器
１００デバイス
１１０センサ部
１２０記憶部
１３０制御部
１３１コンテキスト認識部
１３３意図認識部
１３５出力変換部
１４０出力部
２００外部センサ装置
３００サーバ
４００外部出力装置

Claims

ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、
を備える情報処理装置。
前記コミュニケーション対象は、他のユーザであり、
前記第１のコンテキストと前記第２のコンテキストとでは、利用言語が異なり、
前記制御部は、第１の言語を利用して表現されたメッセージを第２の言語を利用して表現されたメッセージに変換することで、前記第１の動作主体の意図を示す情報を生成する、請求項１に記載の情報処理装置。
前記制御部は、前記第１の動作主体が音声言語を利用して表現したメッセージを、前記メッセージに対応する手話言語のジェスチャを行うアバターの動画に変換する、請求項２に記載の情報処理装置。
前記制御部は、前記第１の動作主体が音声言語を利用して表現したメッセージを、透過型ディスプレイに映る前記第１の動作主体に重畳してＡＲ表示される、前記メッセージに対応する手話言語のジェスチャを行う手の動画に変換する、請求項２に記載の情報処理装置。
前記制御部は、前記第１の言語を利用して表現されたメッセージのメタ情報を、前記第２の言語を利用して表現されたメッセージのメタ情報に変換する、請求項２に記載の情報処理装置。
音声言語を利用して表現されたメッセージの前記メタ情報は、話す速さ又は声の大きさを示す情報を含む、請求項５に記載の情報処理装置。
手話言語を利用して表現されたメッセージの前記メタ情報は、ジェスチャの速さ又はジェスチャの大きさを示す情報を含む、請求項５に記載の情報処理装置。
前記制御部は、単語ごとに前記変換を行う、請求項２に記載の情報処理装置。
前記制御部は、複数の前記コミュニケーション対象同士で行われたコミュニケーションの時系列関係を示す情報を前記ユーザへ出力する、請求項２に記載の情報処理装置。
前記コミュニケーション対象は、他のユーザであり、
前記第１のコンテキストと前記第２のコンテキストとでは、前提知識が異なり、
前記制御部は、第１の前提知識に基づいて表現された第１のメッセージを、前記第１のメッセージを第２の前提知識において理解するための補足情報を付加した第２のメッセージに変換する、請求項１に記載の情報処理装置。
前記コミュニケーション対象は、他のユーザであり、
前記制御部は、前記ユーザが第１のコンテキストにおいて行った動作に基づいて前記ユーザの意図を認識して認識結果を示す情報を他の情報処理装置に送信し、前記他の情報処理装置から受信した前記他のユーザの意図の認識結果を示す情報に基づいて、前記第１のコンテキストにおける前記他のユーザの意図を示す情報を生成して前記ユーザへ出力させる、請求項１に記載の情報処理装置。
前記コミュニケーション対象は、機器であり、
前記意図は、前記ユーザが前記機器に行わせたい動作であり、
前記制御部は、前記行わせたい動作を前記機器に行わせる制御コマンドを生成して、前記機器へ出力する、請求項１に記載の情報処理装置。
前記制御部は、複数の前記機器の間で通信路を確立させてデータを送受信させる、請求項１２に記載の情報処理装置。
前記制御部は、前記ユーザに装着されたデバイスによりセンシングされた情報に基づいて、前記第１のコンテキスト、前記第２のコンテキスト又は前記第１の動作主体による動作を認識する、請求項１に記載の情報処理装置。
前記制御部は、前記ユーザに装着されたデバイスにより前記第１の動作主体の意図を示す情報を前記第２の動作主体に出力させる、請求項１に記載の情報処理装置。
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して出力装置により前記第２の動作主体へ出力させること、
を含む情報処理方法。
コンピュータは、
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第１の動作主体が第１のコンテキストにおいて行った動作に基づいて前記第１の動作主体の意図を認識し、他方の第２の動作主体の第２のコンテキストにおける前記第１の動作主体の意図を示す情報を生成して前記第２の動作主体へ出力させる制御部、
として機能させるプログラムが記録された記録媒体。