JP2019008570A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2019008570A
JP2019008570A JP2017123953A JP2017123953A JP2019008570A JP 2019008570 A JP2019008570 A JP 2019008570A JP 2017123953 A JP2017123953 A JP 2017123953A JP 2017123953 A JP2017123953 A JP 2017123953A JP 2019008570 A JP2019008570 A JP 2019008570A
Authority
JP
Japan
Prior art keywords
user
information
context
subject
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017123953A
Other languages
English (en)
Inventor
敦 根岸
Atsushi Negishi
敦 根岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2017123953A priority Critical patent/JP2019008570A/ja
Priority to PCT/JP2018/016902 priority patent/WO2019003616A1/ja
Priority to US16/623,508 priority patent/US11354511B2/en
Priority to DE112018003273.6T priority patent/DE112018003273T5/de
Publication of JP2019008570A publication Critical patent/JP2019008570A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が可能な仕組みを提供する。【解決手段】ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、を備える情報処理装置。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。
人は、他の人、人以外の生物、又はロボット等の機器などとコミュニケーションをとる際に、各々のコンテキストに応じた方法でコミュニケーションを行う。例えば、人は、母国語が同じ人との間では母国語を用いてコミュニケーションを行い、母国語が異なる人との間では英語等の共通言語を用いてコミュニケーションを行う。また、人は、スマートフォンを買い替えると、新しいスマートフォンの操作方法を学ぶ。異なるコンテキストに応じて異なるコミュニケーション方法をとることは煩雑である。そのため、コンテキストの相違に起因するコミュニケーション負荷を軽減するための技術の開発が求められている。
一例として、下記特許文献1に、入力音声に音声認識処理、機械翻訳処理及び音声合成処理を適用することで、入力音声を他言語に翻訳した合成音声を生成し出力する技術が開示されている。
特開2001−117921号公報
しかし、上記特許文献1に記載された技術は、単に音声を他言語に翻訳するものに過ぎなかった。そのため、予め定められた翻訳が行われることはあっても、ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が行われることはなかった。
そこで、本開示では、ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が可能な仕組みを提供する。
本開示によれば、ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、を備える情報処理装置が提供される。
また、本開示によれば、ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して出力装置により前記第2の動作主体へ出力させること、を含む情報処理方法が提供される。
また、本開示によれば、コンピュータは、ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、として機能させるプログラムが記録された記録媒体が提供される。
以上説明したように本開示によれば、ユーザ及びコミュニケーション対象の双方のコンテキストに応じたコミュニケーション支援が可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係るシステムの概要を説明するための図である。 本実施形態に係るシステムの全体構成の一例を示すブロック図である。 第1の実施例の概要を説明するための図である。 同実施例に係るシステムにおいて実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。 同実施例の第1のユースケースを説明するための図である。 同実施例の第2のユースケースを説明するための図である。 同実施例の第3のユースケースを説明するための図である。 同実施例の第4のユースケースを説明するための図である。 同実施例の第5のユースケースを説明するための図である。 第2の実施例の概要を説明するための図である。 同実施例に係るシステムにおいて実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の要素を、必要に応じてデバイス100A、100B及び100Cのように区別する。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、デバイス100A、100B及び100Cを特に区別する必要が無い場合には、単にデバイス100と称する。
なお、説明は以下の順序で行うものとする。
1.概要
2.構成例
2.1.デバイスの構成例
2.2.他の装置の構成例
3.実施例
3.1.第1の実施例
3.1.1.第1のユースケース
3.1.2.第2のユースケース
3.1.3.第3のユースケース
3.1.4.第4のユースケース
3.1.5.第5のユースケース
3.1.6.第6のユースケース
3.1.7.第7のユースケース
3.2.第2の実施例
4.ユースケースの一例
5.ハードウェア構成例
6.まとめ
<<1.概要>>
まず、図1を参照して、本開示の一実施形態に係るシステム1の概要を説明する。
図1は、本実施形態に係るシステム1の概要を説明するための図である。図1に示すように、システム1は、ユーザ10と、ユーザ10のコミュニケーション対象20とのコミュニケーションを支援するデバイス100を含む。
コミュニケーション対象20は、人間(即ち、他のユーザ)であってもよいし、人間以外の任意の種類の動物であってもよい。コミュニケーション対象20は、PC、スマートフォン又はタブレット端末等の機器であってもよい。コミュニケーション対象20は、ゲームのキャラクター又はAR(Augmented Reality)画像等の仮想物体であってもよい。
なお、ユーザ10とコミュニケーション対象20である他のユーザとを特に区別する必要がない場合、これらをユーザとも総称する。また、コミュニケーション対象20が他のユーザである場合、デバイス100に対応する(例えば、デバイス100を装着する)ユーザ10を第1のユーザ10とも称し、他のユーザ20を第2のユーザ20とも称する場合がある。
また、ユーザ10とコミュニケーション対象20のうち、情報の発信側を第1の動作主体とも称し、情報の受け手側を第2の動作主体とも称する。そして、第1の動作主体のコンテキストを第1のコンテキストとも称し、第2の動作主体のコンテキストを第2のコンテキストとも称する。例えば、第1のユーザ10から第2のユーザ20への発言に関しては、第1の10が第1の動作主体であり、第2のユーザ20が第2の動作主体である。一方で、第2のユーザ20から第1のユーザ10への発言に関しては、第2の20が第1の動作主体であり、第1のユーザ10が第2の動作主体である。第1の動作主体と第2の動作主体とを特に区別する必要がない場合、これらを動作主体とも総称する場合がある。
デバイス100は、ユーザ10及びコミュニケーション対象20の双方のコンテキストに応じたコミュニケーション支援を行う。詳しくは、デバイス100は、ユーザ10がユーザ10のコンテキストにおいて行った動作を、コミュニケーション対象20のコンテキストにおいて同等の意味を有する情報に変換して、コミュニケーション対象20に出力する。これにより、ユーザ10とコミュニケーション対象20とは、互いのコンテキストの相違を解消する努力を自身で行うことなく、自身のコンテキストのみに基づくコミュニケーションをとることが可能となる。換言すると、ユーザ10とコミュニケーション対象20とは、互いのコンテキストの相違を意識せずにコミュニケーションをとることが可能となる。よって、ユーザ10は、あらゆるコミュニケーション対象20に対して、同一のメンタルモデルを適用することが可能となる。なお、メンタルモデルとは、人が抱く、ものごとに対するイメージであり、例えば他人とのコミュニケーションの取り方、又は機器の操作方法に関するイメージである。
例えば、第1のユーザ10は、母国語の異なる第2のユーザ20と、自身の母国語を用いて会話することが可能となる。第1のユーザ10が母国語で話した内容が、デバイス100により第2のユーザ20の母国語に変換されて出力される。逆方向の会話に関しても同様である。従って、辞書を引く等の作業が不要であるし、他国語の知識及び会話能力も不要となる。さらには、コンテキストが相違すること自体の認識が不要となる。
デバイス100は、例えばウェアラブルデバイスである。デバイス100は、ユーザ10に装着される。デバイス100は、多様なウェアラブルデバイスとして実現され得る。例えば、デバイス100は、グラス型、ネックバンド型、ネックレス型、リストバンド型、時計型、ベルト型、グローブ型、指輪型、ネイル型、靴型又は服型等であってもよい。
デバイス100がウェアラブルデバイスとして実現される場合、デバイス100は、ユーザ10に常に装着されるので、ユーザ10は、デバイス100を意識的に操作することなく、コミュニケーション支援を受けることが可能となる。また、デバイス100は、ユーザ10の内部状態を反映してもよく、例えばユーザ10が楽しい気分の時は楽しそうな音声を合成して出力し、ユーザ10が悲しい気分の時は悲しそうな音声を合成して出力してもよい。これにより、より高度なコミュニケーションが実現される。
<<2.構成例>>
図2は、本実施形態に係るシステム1の全体構成の一例を示すブロック図である。図2に示すように、システム1は、デバイス100、外部センサ装置200、サーバ300及び外部出力装置400を含む。以下、各装置の詳細な構成例を説明する。
<2.1.デバイスの構成例>
図2に示すように、デバイス100は、センサ部110、記憶部120、制御部130及び出力部140を含む。
(1)センサ部110
センサ部110は、第1の動作主体(即ち、ユーザ10又はコミュニケーション対象20)、又は周辺環境に関する情報をセンシングする機能を有する。センサ部110は、センシングの結果得られたセンシング情報を、記憶部120へ出力する。
・センサ装置の一例
センサ部110は、多様なセンサ装置を含み得る。以下、センサ部110が含み得るセンサ装置の一例を説明する。センサ部110は、以下に挙げるセンサ装置の少なくともいずれかを含む。センサ部110は、同一種類のセンサ装置を複数含んでいてもよいし、下記に挙げるセンサ装置以外のセンサ装置を含んでいてもよい。
例えば、センサ部110は、音情報をセンシングするマイクを含み得る。マイクは、指向性マイクであってもよい。
例えば、センサ部110は、画像(静止画像又は動画像)をセンシングする画像センサを含み得る。画像センサは、レンズ系、レンズ系を駆動させる駆動系、及びレンズ系で得られる撮像光から撮像信号を生成する撮像素子を含む、いわゆるデジタルカメラであってもよい。他にも、画像センサは、赤外線カメラ又はステレオカメラ等の、温度情報又は深度情報等の他の情報も画像と共にセンシングする装置として実現されてもよい。
例えば、センサ部110は、測距対象との距離を測定する測距センサを含み得る。測距センサは、ステレオカメラ、LiDAR(Light Detection and Ranging)、ミリ波レーダー、又はレーザードップラーセンサとして実現され得る。
例えば、センサ部110は、位置情報をセンシングする位置センサを含み得る。位置センサは、GNSS(Global Navigation Satellite System)衛星からGNSS信号(1周波又は2周波)を受信するGNSS信号受信機として実現されてもよい。位置センサは、無線通信装置として実現されてもよく、例えばアクセスポイント(又は基地局)との通信に係る電波強度に基づいて位置を測定する。他にも、位置センサは、慣性センサとして実現されてもよく、例えばGNSS信号に基づく位置情報を慣性センサによるセンシング情報により補正されたり、慣性航法により位置情報がセンシングされたりする。また、位置センサは、画像センサとして実現されてもよく、例えばSLAM(Simultaneous Localization and Mapping)により位置情報がセンシングされる。
例えば、センサ部110は、慣性センサを含み得る。慣性センサは、例えば3軸で角速度及び加速度をセンシングする。
例えば、センサ部110は、ユーザ入力装置を含み得る。ユーザ入力装置は、例えばタッチセンサ、ボタン、スライダー又はホイール等として実現され得る。
例えば、センサ部110は、生体情報センサを含み得る。生体情報センサは、例えば体温センサ、脳波センサ、血圧センサ、筋電位センサ、発汗センサ又は心拍センサとして実現され得る。
例えば、センサ部110は、環境センサを含み得る。環境センサは、例えば気温センサ、大気圧センサ、又は湿度センサとして実現され得る。
例えば、センサ部110は、通信装置として実現され得る。通信装置は、LTE(Long Term Evolution)、Wi−Fi(登録商標)、Bluetooth(登録商標)、BLE(Bluetooth Low Energy(登録商標))、又は可視光通信等の任意の無線通信規格に準拠した通信が可能な無線通信装置であってもよい。もちろん、通信装置は、有線LAN(Local Area Network)等の任意の通信規格に準拠した通信が可能な有線通信装置であってもよい。
(2)記憶部120
記憶部120は、デバイス100による動作のためのデータを一時的に又は恒久的に記憶する機能を有する。記憶部120は、センサ部110から出力されたセンシング情報、外部センサ装置200から受信されたセンシング情報、及びサーバ300から出力された外部蓄積情報を記憶する。
(3)制御部130
制御部130は、デバイス100全体の動作を制御して、デバイス100の様々な機能を提供する。制御部130は、コンテキスト認識部131、意図認識部133及び出力変換部135を含む。
(3.1)コンテキスト認識部131
コンテキスト認識部131は、コンテキストを認識する機能を有する。詳しくは、コンテキスト認識部131は、記憶部120動作に記憶された情報(例えば、センシング情報)に基づいて、動作主体(即ち、ユーザ10又はコミュニケーション対象20)のコンテキストを認識する。
コンテキストとは、動作主体が行う動作の背景となる情報である。以下、コンテキストの一例を説明する。
コンテキストは、属性を示す情報であってもよい。ユーザの属性を示す情報としては、性別、名前、年齢、誕生日、母国語、会社、住所、電話番号、メッセージアプリケーションのID、通勤経路、及び勤務地住所が挙げられる。機器の属性を示す情報としては、製造番号等の識別情報、製造元、種別、製造時期、及び入出力インタフェース等が挙げられる。属性を示す情報は、ユーザにより事前登録されてもよいし、場所又は行動に関する過去のコンテキストに基づいて認識されてもよい。
コンテキストは、場所を示す情報であってもよい。ユーザの場所を示す情報としては、国、都道府県、州、絶対座標、屋内座標、及び会社、自宅、スーパーマーケット、電車又は病院等の場所クラスが挙げられる。機器の属性を示す情報としては、絶対座標、屋内座標及び場所クラスが挙げられる。場所を示す情報は、位置センサにより得られるセンシング情報に基づいて認識され得る。その際、基本的にはGNSS受信機が用いられ、詳細の座標又は屋内座標を認識する際には無線通信装、慣性センサ及び画像センサ等が組み合わされて用いられ得る。
コンテキストは、環境を示す情報であってもよい。ユーザの環境を示す情報としては、騒音、気温、天気、照度、風速、湿度、標高、及び人口密度等が挙げられる。機器の環境を示す情報としては、ユーザの環境を示す情報と同様のものが挙げられる。環境を示す情報は、マイク又は気温センサ等により得られるセンシング情報に基づいて認識され得る。
コンテキストは、隣接関係を示す情報であってもよい。ユーザの隣接関係を示す情報としては、家族、友人、恋人、上司又は赤の他人等の他者との関係を示す情報、並びにテレビ受像機、家の鍵、コーヒーショップ又はタクシー等のユーザの近くにある物体を示す情報が挙げられる。隣接関係を示す情報は、例えば電波強度、音のマッチング、画像のマッチング、場所に関するコンテキスト、及び環境に関するコンテキストとの組み合わせにより、認識され得る。
コンテキストは、行動を示す情報であってもよい。ユーザの行動を示す情報としては、行動していない、移動、休憩、仕事、睡眠、食事、***、飲酒、会話、運動、遊び、勉強、掃除、読書、及びスマートフォンの操作等が挙げられる。行動を示す情報は、例えば、慣性センサ又は画像センサ等により得られるセンシング情報、場所に関するコンテキスト、及び環境に関するコンテキストとの組み合わせにより認識され得る。なお、ユーザの行動を示す情報は、同時に複数が認識されてもよい。
コンテキストは、移動手段を示す情報であってもよい。ユーザの移動手段を示す情報としては、停留、徒歩、自転車、自動車、電車、新幹線、船及び飛行機等が挙げられる。移動手段を示す情報は、例えばGNSS受信機及び慣性センサにより得られるセンシング情報の組み合わせにより認識され得る。
コンテキストは、趣向を示す情報であってもよい。ユーザの趣向を示す情報としては、音楽、食べ物、スポーツ、色、本、映画、思想、及び異性のタイプ等が挙げられる。趣向を示す情報は、ユーザにより事前登録されてもよいし、場所、行動又は感情に関する過去のコンテキストに基づいて認識されてもよい。
コンテキストは、体調又は身体の状態を示す情報であってもよい。ユーザの体調又は身体の状態を示す情報としては、体温、便秘、生理、快調/不調、病気の部位、集中/散漫、安心/不安、及び覚醒度等が挙げられる。機器の状態を示す情報としては、稼働時間、電池残量、及び温度等が挙げられる。体調又は身体の状態を示す情報は、体温、脈拍、心電図又は脳波等の生体情報、画像センサによりセンシングされるユーザの表情、及び慣性センサにより得られるセンシング情報を組み合わせることで認識され得る。
コンテキストは、感情を示す情報であってもよい。ユーザの感情を示す情報としては、基本感情及び応用感情が挙げられる。基本感情は、喜び、信頼、心配、驚き、悲しみ、嫌悪、怒り、及び予測を含む。応用感情は、楽観、愛、服従、畏怖、失望、自責、軽蔑及び攻撃性を含む。感情を示す情報は、生体情報、画像センサによりセンシングされるユーザの画像、慣性センサにより得られるセンシング情報、環境に関する現在及び過去のコンテキスト、並びに行動に関する現在及び過去のコンテキストを組み合わせることで認識され得る。
なお、趣向、体調、身体の状態、又は感情のコンテキストは、内部のコンテキストとして総称され得る。
(3.2)意図認識部133
・動作認識
意図認識部133は、第1の動作主体による動作を認識する。詳しくは、意図認識部133は、記憶部120動作に記憶された情報に基づいて、ユーザ10又はユーザ10のコミュニケーション対象20のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作を認識する。以下、動作認識の一例を説明する。
−話す動作
意図認識部133は、ユーザが話す動作を認識する。例えば、意図認識部133は、ユーザが話した内容(例えば、テキスト情報)を認識する。
マイクがユーザの頭部付近に配置される場合、マイクはユーザの知覚と近い条件でセンシングすることが可能となる。騒音環境下など、マイクによるセンシング情報だけではユーザ音声の抽出が困難な場合、意図認識部133は、口の動きの画像認識結果、及び口の動きに関する筋電位等を組み合わせて、音声分離を行う。
−ジェスチャ
意図認識部133は、ユーザのジェスチャを認識する。
意図認識部133は、認識対象のジェスチャに応じたセンサ装置により得られたセンシング情報に基づいてジェスチャを認識する。例えば、意図認識部133は、認識対象のジェスチャが隠れない位置に配置された画像センサにより得られたセンシング情報に基づいてジェスチャを認識する。例えば、意図認識部133は、認識対象のジェスチャが行われる部位に装着された慣性センサにより得られたセンシング情報に基づいてジェスチャを認識する。これらの認識処理は、組み合わされてもよい。
−触る動作
意図認識部133は、ユーザの触る動作を認識する。
例えば、意図認識部133は、静電容量方式のタッチセンサにより得られたセンシング情報に基づいて、接触点数及び感圧の情報も含めて、物への接触動作を認識する。また、意図認識部133は、物理スイッチにより得られたセンシング情報に基づいて、物理スイッチを押したり切り替えたりする接触動作を認識する。また、意図認識部133は、画像センサにより得られたセンシング情報に基づいて、空間のような実体のない物への接触動作を認識する。
−その他の動作
意図認識部133は、上述した動作以外のユーザの動作を認識する。
例えば、意図認識部133は、動かす動作を認識する。意図認識部133は、画像センサにより得られたセンシング情報に基づいて、ユーザが何をどのくらい動かしたかを認識する。例えば、意図認識部133は、見る動作を認識する。意図認識部133は、画像センサ又は筋電位センサにより得られたセンシング情報に基づいて、視線及び瞬き等の目の動きに関する動作を認識する。例えば、意図認識部133は、力む動作を認識する。意図認識部133は、画像センサ又は筋電位センサにより得られたセンシング情報に基づいて、筋肉の活動を認識する。
・意図認識
意図認識部133は、ユーザ10又はユーザ10のコミュニケーション対象20のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて第1の動作主体の意図を認識する。そして、意図認識部133は、ユーザ10又はユーザ10のコミュニケーション対象20のうち、他方の第2の動作主体の第2のコンテキストにおける第1の動作主体の意図を示す情報を生成する。例えば、意図認識部133は、ユーザ10がユーザ10のコンテキストにおいて行った動作に基づいてユーザ10の意図を認識する。そして、意図認識部133は、コミュニケーション対象20のコンテキストにおけるユーザ10の意図を示す情報を生成する。また、意図認識部133は、コミュニケーション対象20がコミュニケーション対象20のコンテキストにおいて行った動作に基づいてコミュニケーション対象20の意図を認識する。そして、意図認識部133は、ユーザ10のコンテキストにおけるコミュニケーション対象20の意図を示す情報を生成する。このように、意図認識部133は、第1の動作主体の意図を示す情報を第2の動作主体のコンテキストに応じて生成することができる
より簡易には、意図認識部133は、第1の動作主体による動作を、第2のコンテキストにおける同等の意味を有する情報に変換する。コンテキストが異なれば同じ動作でも意味が異なり得るところ、このような変換が行われることで、第1の動作主体は、第2の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。また、第2の動作主体にとっても、自身のコンテキストに沿った情報が提供されるので、第1の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。このように、ユーザ10とコミュニケーション対象20との間のコミュニケーションを円滑化することが可能となる。
第1の動作主体の意図とは、第1の動作主体が動作を起こす動機である。例えば、ユーザの意図は、ユーザが意識的に又は無意識的に相手に伝達したいと考える情報である。具体的には、ユーザの意図は、メッセージ(即ち、連続する1つ以上の単語から成る情報)及び/又は感情等である。ユーザの意図は、例えば、センサ装置によりセンシングされた、ユーザの表情、顔色、視線、ジェスチャ、姿勢、音声、声質、口調、呼吸、又は相手との距離、並びにユーザのコンテキストに基づいて認識される。
・装置
例えば、コミュニケーション対象20がコンピュータ等のユーザインタフェースを有する装置である場合、ユーザ10の意図は、ユーザ10が装置20に行わせたい動作である。例えば、意図認識部133は、ユーザ10が考える操作方法と装置20の操作方法とが異なる場合であっても、ユーザ10が装置20に行わせた動作を第2のユーザ20に実行させることが可能である。
(3.3)出力変換部135
出力変換部135は、意図認識部133により生成された、第1の動作主体の意図を示す情報を、第2の動作主体へ出力するための出力情報に変換する機能を有する。例えば、出力変換部135は、第1の動作主体の意図を示す情報を、画像、音声、光、触覚刺激、又はこれらの組み合わせからなる出力情報に変換する。出力情報が、第1の動作主体の意図を示す情報として捉えられてもよい。
出力変換部135は、出力情報を第2の動作主体へ出力させる。例えば、出力変換部135は、出力情報を出力部140へ出力し、出力部140により出力情報を第2の動作主体へ出力させる。また、例えば、出力変換部135は、出力情報を外部出力装置400に送信し、外部出力装置400により出力情報を第2の動作主体へ出力させる。
出力変換部135は、出力部140及び外部出力装置400の中から、出力情報の出力先を選択する。例えば、出力変換部135は、出力部140がディスプレイを含んでいれば出力部140に画像の出力情報を出力し、出力部140がディスプレイを含んでいなければディスプレイを有する外部センサ装置200に画像の出力情報を出力する。
(4)出力部140
出力部140は、第2の動作主体(即ち、ユーザ10又はコミュニケーション対象20)に対し、出力情報を出力する機能を有する。
・出力装置の一例
出力部140は、多様な出力装置を含み得る。以下、出力部140が含み得る出力装置の一例を説明する。出力部140は、以下に挙げる出力装置の少なくともいずれかを含む。出力部140は、同一種類の出力装置を複数含んでいてもよいし、下記に挙げる出力装置以外の出力装置を含んでいてもよい。
出力部140は、画像出力装置を含み得る。画像出力装置は、例えば、ディスプレイ、プロジェクタ、又は電子ペーパーにより実現され得る。
出力部140は、音声出力装置を含み得る。音声出力装置は、例えば、スピーカ、又はイヤホンにより実現され得る。スピーカは、ダイナミック型等の典型的なスピーカであってもよいし、骨伝導スピーカ又は指向性スピーカであってもよい。
出力部140は、触覚出力装置を含み得る。触覚出力装置は、例えば、発熱器、アクチュエータ又は電気刺激出力装置により実現され得る。
出力部140は、光出力装置を含み得る。光出力装置は、例えばLED(light emitting diode)ランプにより実現され得る。
出力部140は、匂い出力装置を含み得る。匂い出力装置は、例えば振動子を含み、アロマオイル等の匂い成分を含む液体をその振動により気化させる。
・具体例
以下、出力部140による出力情報の出力の具体例を説明する。
出力部140は、視覚的な出力情報を出力し得る。例えば、LEDは点灯し、ディスプレイにより画像が表示され、又はプロジェクタにより物体若しくは人に画像が投影される。デバイス100がグラス型デバイスとして実現される場合、シースルー型ディスプレイに、出力情報がAR表示される。
視覚的な出力情報の出力は、デバイス100が例えばグラス型、ネックバンド型、リストバンド型又は時計型である場合に行われ得る。例えば、グラス型のデバイス100を装着した、手話利用の第1のユーザ10に、音声から翻訳した手話ジェスチャの動画がAR表示される。例えば、グラス型のデバイス100を装着した第1のユーザ10に、第1のユーザ10が知らない情報(例えば、キーワード)に関する説明を含む補足情報がAR表示される。例えば、第1のユーザ10が、PCに表示された画像又はノートに記述された図をつまんで壁に離す動作(ドラッグアンドドロップ動作)を行うと、かかる画像又は図が壁に投影される。
出力部140は、聴覚的な出力情報を出力し得る。例えば、スピーカにより音声が出力される。デバイス100は、環境のコンテキストに応じて出力するスピーカを切り替えてもよい。例えば、デバイス100は、騒がしい環境ではノイズキャンセル型スピーカ又は骨伝導性スピーカで出力し、静かな環境では指向性スピーカで出力する。
聴覚的な出力情報の出力は、デバイス100が例えばグラス型、ネックバンド型、ネックレス型、イヤリング型、リストバンド型、グローブ型又は指輪型である場合に行われ得る。
出力部140は、触覚的な出力情報を出力し得る。例えば、アクチュエータの振動により、触覚的な出力情報が出力される。振動パターン、強さ、又は振動する位置の変動により、多様な情報が表現可能である。また、熱電素子の利用により温度情報が出力されてもよい。
触覚的な出力情報の出力は、デバイス100が例えばグラス型、ネックバンド型、リストバンド型、時計型、グローブ型、指輪型、ネイル型、又は衣服型である場合に行われ得る。例えば、グローブ型又は衣服型のデバイス100を装着した第1のユーザ10に、アクチュエータの運動により、触覚的な出力情報が出力される。アクチュエータの運動によって、物理的に第1のユーザ10の表面の形状を変化させることで、触覚的な出力情報が出力されてもよい。典型的な例としては、点字の出力が挙げられる。
触覚的な出力情報の出力位置は、コンテキストに応じて変化してもよい。例えば、デバイス100は、行動に関するコンテキスト又はデバイス100表面の温度(例えば、体表面と接触しているか否か)に基づいて、第1のユーザ10が読み取りやすい表面に点字が出力されるよう、出力位置を制御する。
出力部140は、嗅覚的な出力情報を出力し得る。例えば、デバイス100は、感情に関するコンテキストに応じて、第1のユーザ10の感情の高ぶりを抑える匂いを出力させる。
嗅覚的な出力情報の出力は、デバイス100が例えばネックバンド型、リストバンド型又は時計型である場合に行われ得る。
<2.2.他の装置の構成例>
以下、外部センサ装置200、サーバ300及び外部出力装置400の構成例を説明する。
(1)外部センサ装置200
外部センサ装置200は、第1の動作主体(即ち、第1のユーザ10又はコミュニケーション対象20)、又は周辺環境に関する情報をセンシングする機能を有する。外部センサ装置200は、デバイス100との間で有線通信又は無線通信を行い、センシングの結果得られたセンシング情報をデバイス100に送信する。
外部センサ装置200は、デバイス100による制御に基づいてセンシングを行ってもよい。
外部センサ装置200は、センサ部110と同様のセンサ装置を含み得る。
なお、以下では、センサ部110に含まれるセンサ装置と外部センサ装置200に含まれるセンサ装置とを特に区別する必要がない場合、これらをセンサ装置として総称する。
(2)サーバ300
サーバ300は、外部蓄積情報を記憶する機能を有する。サーバ300は、デバイス100の外部記憶装置として機能し、記憶した情報をデバイス100に送信したり、デバイス100から受信した情報を記憶したりする。以下、外部蓄積情報の一例を説明する。
サーバ300は、事前入力データを記憶する。事前入力データは、第1のユーザ10により入力される情報であり、例えば属性のコンテキスト等を含む。
サーバ300は、公共データを記憶する。公共データは、例えば地図情報又は天気情報等を含む。
サーバ300は、第1のユーザ10の過去のセンシング情報、及び過去のコンテキストを示す情報を記憶する。
サーバ300は、第2のユーザ20の過去のセンシング情報、及び過去のコンテキストを示す情報を記憶する。
(3)外部出力装置400
外部出力装置400は、第2の動作主体(即ち、第1のユーザ10又はコミュニケーション対象20)に対し、出力情報を出力する機能を有する。外部出力装置400は、デバイス100との間で有線通信又は無線通信を行い、デバイス100から受信した出力情報を出力する。
外部出力装置400は、デバイス100による制御に基づいて出力を行ってもよい。
外部出力装置400は、出力部140と同様の出力装置を含み得る。
外部出力装置400は、多様な機器として実現され得る。例えば、外部出力装置400は、PC、テレビ受像機、照明、スマートフォン、オーディオ機器、又はその他の機器として実現され得る。また、外部センサ装置200と外部出力装置400とは一体的に形成されてもよい。
なお、以下では、出力部140に含まれる出力装置と外部出力装置400に含まれる出力装置とを特に区別する必要がない場合、これらを出力装置として総称する。
<<3.実施例>>
以下、図3〜図11を参照して、具体的な実施例を説明する。
<3.1.第1の実施例>
本実施例は、人間同士のコミュニケーションに関する。以下、図3を参照して、本実施例の概要を説明する。
図3は、第1の実施例の概要を説明するための図である。図3に示すように、第1のユーザ10はデバイス100としてグラス型デバイス100A及び時計型デバイス100Bを装着している。第1のユーザ10は、手話利用者であり、第2のユーザ20は音声利用者である。第1のユーザ10が、駅がどこかを問う手話を行うと、デバイス100は、当該手話を「駅はどこですか?」という音声に変換して、スピーカで出力する。第2のユーザ20が、「この道を真っ直ぐです」と音声で回答すると、デバイス100Bは、当該音声を手話に変換して、アバターがかかる手話を行った画像をディスプレイで出力する。第1のユーザ10は、アバターの手話を見ることで、駅がどこかを認識することができる。このようにして、第1のユーザ10と第2のユーザ20との、手話利用者か音声利用者か、といったコンテキストの相違を感じさせない、自然なコミュニケーションが実現される。
本実施例では、コミュニケーション対象20は人間である。例えば、第1のコンテキストと第2のコンテキストとでは、利用言語が異なる。利用言語としては、手話言語及び音声言語の他に、英語及び日本語等が挙げられる。
デバイス100は、第1の言語を利用して表現された第1のメッセージを、第2の言語を利用して表現された第2のメッセージに変換することで、第1の動作主体の意図を示す情報を生成する。例えば、第1の動作主体(例えば、第2のユーザ20)が音声(即ち、話声)利用者で第2の動作主体(例えば、第1のユーザ10)が手話利用者である場合、デバイス100は、第1の動作主体が音声言語を利用して表現したメッセージを、当該メッセージに対応する手話言語のジェスチャを行うアバターの動画に変換する。第2の動作主体は、かかるアバターを見ることで、第1の動作主体が発したメッセージを認識することが可能となる。他にも、第1の動作主体が音声利用者で第2の動作主体が手話利用者である場合、デバイス100は、第1の動作主体が音声言語を利用して表現したメッセージを、透過型ディスプレイに映る第1の動作主体に重畳してAR表示される、当該メッセージに対応する手話言語のジェスチャを行う手の動画に変換してもよい。第2の動作主体は、透過型ディスプレイに映る第1の動作主体に重畳してAR表示された手によるジェスチャを見ることで、第1の動作主体が発したメッセージを認識することが可能となる。これにより、第2の動作主体は、第1の動作主体が実際に手話で発言したかのうように第1の動作主体からのメッセージを認識することが可能となる。いずれにしろ、第1の動作主体が音声言語を利用して表現したメッセージが、手話言語として表現されて第2の動作主体に提供されるので、第2の動作主体は、第1の動作主体とのコミュニケーションを容易にとることが可能となる。
さらに、デバイス100は、第1のメッセージのメタ情報を、第2のメッセージのメタ情報に変換してもよい。これにより、例えば第1の動作主体が音声を利用して表現したメタ情報が、手話言語として表現されて第2の動作主体に提供されるので、第2の動作主体は、第1の動作主体とのコミュニケーションを容易にとることが可能となる。従って、メッセージ(例えば、テキスト情報)だけでは伝わりづらい第1の動作主体の感情等を第2の動作主体に伝達することが可能となる。
ここで、音声言語におけるメッセージとは、テキスト情報である。音声言語におけるメタ情報は、話す速さ又は声の大きさ等を示す情報である。
また、手話言語におけるメッセージとは、手話単語(単語に対応するジェスチャ)の連続から成る情報である。手話言語におけるメタ情報は、例えばジェスチャの速さ又はジェスチャの大きさ等を示す情報である。
デバイス100は、単語ごとに上記変換を行ってもよい。この場合、第1のメッセージが単語ごとに変換されて第2のメッセージとして出力されるので、例えば第1の動作主体が手話で発言してから第2の動作主体に音声が出力されるまでのタイムラグを低減することが可能である。異なる言語間では、文法の違い等に起因する遅延が生じて会話のテンポが悪くなってしまい得る。そのような場合に、単語ごとの変換を行うことで、会話のテンポを維持することが可能である。このような動作モードは、低遅延モードとも称され得る。
なお、本明細書における発言とは、手話ジェスチャによる表現と音声による表現との両方を含む概念であるものとする。
続いて、図4を参照しながら、図3に示した例における詳細な処理の流れを説明する。ここでは、一例として、音声言語利用者と手話言語利用者とのコミュニケーションに関する処理の流れを説明する。図4は、本実施例に係るシステム1において実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。
・センシング
図4に示すように、まず、デバイス100(即ち、センサ部110)は、センシングを行う(ステップS100)。
例えば、グラス型デバイス100Aは、カメラ及びマイクにより画像及び音声をセンシングする。これは、第1のユーザ10A及び第2のユーザ20Bの手の動き(即ち、手話)及び音声(即ち、話声)を、人間の知覚と近い条件で測定するためである。時計型デバイス100Bは、加速度センサ及び角速度センサにより手の動きをセンシングする。これにより、グラス型デバイス100Aだけではカメラの画角の制限又は第1のユーザ10Aの体によって第1のユーザ10の手が隠れてしまいセンシングされなくなる問題を、センサフュージョンにより補うことが可能となる。また、時計型デバイス100Bは、筋電位センサ及び測距センサによるセンシングを行ってもよく、その場合、第1のユーザ10Aの手の動きの認識精度が向上する。
なお、センシングは、外部センサ装置200により行われてもよい。
・コンテキストの認識
次いで、デバイス100(即ち、コンテキスト認識部131)は、コンテキストの認識を行う。
詳しくは、まず、デバイス100は、ユーザの行動のコンテキストを認識する(ステップS110)。例えば、デバイス100は、カメラ又はマイクにより得られたセンシング情報に基づいて、ユーザの行動を、ジェスチャ、話している、その他、の3つのクラスに分類することで、行動のコンテキストを認識する。
次いで、デバイス100は、ユーザの利用言語のコンテキストを認識する(ステップS112)。第1のユーザ10の利用言語は、事前に登録されていてもよい。第2のユーザ20の利用言語は、例えば、位置情報が示す国(母語に対応)若しくは場所(方言に対応)、又は第2のユーザ20の音声若しくは手の動きに基づいて認識される。第1のユーザ10Aは、第2のユーザ20Bの利用言語を手動で設定することもできる。このようにして、デバイス100は、利用言語のコンテキスト(属性コンテキスト)を認識する。
次に、デバイス100は、ユーザの感情のコンテキストを認識する(ステップS114)。例えば、デバイス100は、ジェスチャ又は音声が示す言語特徴、生体情報、及び表情特徴等に基づいてユーザの感情を認識する。言語特徴としては、ジェスチャの大きさ及び速さ、並びに音声の強度、速さ、及びピッチが挙げられる。生体情報としては、生体情報センサにより得られる第1のユーザ10Aの心拍及び発汗、並びに赤外線カメラにより得られる第2のユーザ20の体表面の温度が挙げられる。表情特徴は、顔画像を画像認識することで得られる。デバイス100は、これらの情報を組み合わせることで、喜び、怒り、又は悲しみなどの感情のコンテキストを認識する。
・変換
上述したコンテキストの認識後、デバイス100(即ち、意図認識部133)は、第1の動作主体の意図を示す情報の変換を行う。詳しくは、デバイス100は、第2の動作主体の第2のコンテキストにおける、第1の動作主体の意図を示す情報を生成する。
第1のユーザ10の手話に関し、デバイス100は、手話言語から音声言語への変換(即ち、翻訳)を行う。詳しくは、まず、デバイス100は、手話単語ごとのジェスチャ認識を行う(ステップS120)。次いで、デバイス100は、認識した手話単語に基づいて音声言語への翻訳を行う(ステップS122)。手話言語は、手話単語の連続により構成され、単語の順番以外に単語間の関係性を示す情報を含まない。そのため、デバイス100は、音声言語への翻訳の際に、自然言語処理を行って、単語間に助詞又は助動詞を適宜補完する。デバイス100は、手話に特徴的な単語の組み合せによる慣用表現を、テキスト情報に反映する。デバイス100は、第1のユーザ10の属性コンテキスト、感情コンテキスト、並びにジェスチャの速さ及び大きさ等に基づいて、第1のユーザ10のコンテキストに沿った口調をテキスト情報に反映させたり、メタ情報を生成したりしてもよい。
第2のユーザ20の音声に関し、デバイス100は、音声言語から手話言語への変換(即ち、翻訳)を行う。詳しくは、まず、デバイス100は、単語ごとの音声認識を行う(ステップS124)。次いで、デバイス100は、認識した単語に基づいて手話言語への翻訳を行う(ステップS126)。詳しくは、デバイス100は、音声認識により得らえた単語の各々を対応する手話単語に翻訳して、手話言語において音声言語と同様の意味を有する並び方に手話単語を並べる。デバイス100は、第2のユーザ20の属性コンテキスト、感情コンテキスト、並びに話の速さ及び声の大きさ等に基づいて、メタ情報を生成してもよい。
・出力変換
上述した変換処理後、デバイス100(即ち、出力変換部135)は、第1の動作主体の意図を示す情報を、出力情報に変換する。
第1のユーザ10の手話に関し、デバイス100は、音声合成により、手話言語から変換された音声言語を示す音声を生成する(ステップS130)。例えば、デバイス100は、Text to Speech技術によって音声合成を行う。その際、デバイス100は、メタ情報に基づいて、第1のユーザ10の年齢、性別及び感情に応じた声、ジェスチャの速さに応じた速さ、且つジェスチャの大きさに応じた声の大きさの、音声を生成する。このような処理により、第1のユーザ10が、あたかも音声で話しているかのような自然な音声を生成することが可能となる。
第2のユーザ20の音声に関し、デバイス100は、音声言語から変換された手話言語を示すジェスチャの動画を生成する(ステップS132)。例えば、デバイス100は、アバターが手話言語を示すジェスチャを行うCG(Computer Graphic)動画を生成する。その際、デバイス100は、第2のユーザ20の年齢及び性別を反映したアバターを生成し、音声利用者の感情に応じた表情、話す速さに応じたジェスチャの速さ、及び声の大きさに応じたジェスチャの大きさで、アバターにジェスチャを行わせる。このような処理により、第2のユーザ20が、あたかも手話で話しているかのような自然な動画を生成することが可能となる。
・出力
上述した生成処理の後、デバイス100(即ち、出力部140)は、出力情報を第2の動作主体へ出力する。
第1のユーザ10の手話に関し、デバイス100は、生成した音声をスピーカから出力する。例えば、グラス型デバイス100Aのスピーカから音声が出力される場合、第1のユーザ10の頭部付近から音声が出力されるので、第1のユーザ10が話しているかのような印象を第2のユーザ20に与えることが可能である。デバイス100は、音声出力と同時に、認識した手話言語を示すCG画像又はテキスト情報等のフィードバック情報を表示してもよい。このようなフィードバックにより、第1のユーザ10は、意図通りの出力が成されているか否かを可能である。このフィードバックは、グラス型デバイス100AによるAR表示により行われてもよいし、時計型デバイス100Bによる表示により行われてもよい。
第2のユーザ20の音声に関し、デバイス100は、生成した動画をディスプレイから出力する。例えば、グラス型デバイス100Aにより動画がAR表示されることで、第1のユーザ10は、目の前の第2のユーザ20があたかも手話で話しているかのように感じ、自然なやり取りを行うことが可能である。なお、第2のユーザ20も他のデバイス100を装着している場合、フィードバック情報が第2のユーザ20へ出力されてもよい。
なお、情報の出力は、外部出力装置400により行われてもよい。
情報の出力後、処理は、再度ステップS100に戻る。
以下、本実施例のユースケースの一例を説明する。
<3.1.1.第1のユースケース>
図5は、第1の実施例の第1のユースケースを説明するための図である。図5に示すように、第1のユーザ10はグラス型のデバイス100を装着している。第1のユーザ10は聴覚障碍者且つ手話利用者であり、若い女性であるものとする。第2のユーザ20は音声を利用する健常者であり、若い男性であるものとする。そして、第1のユーザ10は道に迷い、焦りながら第2のユーザ20に道を尋ねているものとする。
第1のユーザ10は、第2のユーザ20に対し、道を尋ねる手話ジェスチャを行う。焦りと困惑から、その手話は手早く行われる。すると、デバイス100は、「大通りはどこですか?」という音声を、若い女性の声で出力する。この音声は、「どこですか?」という砕けた口調であり、少し上ずった早口で再生される。このようなメタ情報の変換により、第1のユーザ10の焦りと困った感情とが、口調、声質及び速さに反映される。
第2のユーザ20は、デバイス100から出力された音声に基づいて、道を尋ねられていること、及び第1のユーザ10の焦りと困惑とを認識する。そして、第2のユーザ20は、第1のユーザ10に対し、「この通りの2番目の角を右です」と、手短に音声で教える。すると、デバイス100は、リアルタイムで音声認識を行い、シースルー型ディスプレイに映る第2のユーザ20に、対応する手話ジェスチャを行う腕30を重畳してAR表示する。これにより、第1のユーザ10は、第2のユーザ20から道を教わることができる。第2のユーザ20が、「2番目」又は「右」といった単語を、無意識的に声を大きくする等して強調していた場合、デバイス100は、かかるメタ情報を手話ジェスチャの腕を振る大きさ又は速さに反映する。また、デバイス100は、音声認識した結果得られたテキスト情報31をAR表示してもよい。
このようにして、第1のユーザ10は、目的地までの道を知ることが可能となる。第1のユーザ10は、コンテキストの相違を意識せずともコミュニケーションをとることが可能であるし、コンテキストが異なる第2のユーザ20に対して躊躇せずにコミュニケーションを始めることが可能である。
<3.1.2.第2のユースケース>
図6は、第1の実施例の第2のユースケースを説明するための図である。図6に示すように、第1のユーザ10はネックバンド型のデバイス100を装着しており、第2のユーザ20は、スマートフォン34を操作している。スマートフォン34は、外部出力装置400の一例である。そして、第1のユーザ10は、飲食店の従業員であり、第2のユーザ20は、当該飲食店に来店した客であるものとする。第1のユーザ10は、音声を利用する健常者であり、女性であるものとする。第2のユーザ20は、聴覚障碍者且つ手話利用者であり、女性であるものとする。
第1のユーザ10は、「いらっしゃいませ。ご注文はお決まりでしょうか?」と音声で話し掛けて、テーブルに座った第2のユーザ20からオーダーを受けようとする。第2のユーザ20は手話利用者であるから、デバイス100は、リアルタイムで音声認識を行い、女性店員のアバター35が「いらっしゃいませ。ご注文はお決まりでしょうか?」という手話ジェスチャを行う動画を、スマートフォン端末34に出力させる。なお、第2のユーザ20は、スマートフォン34上で専用のアプリケーションを動作させることで、スマートフォン34をデバイス100の外部出力装置400として機能させ得る。第1のユーザ10が丁寧に接客している場合、女性店員のアバター35は穏やかな表情で、ゆっくりとした速さで手話ジェスチャを行う。このようなメタ情報の変換により、第2のユーザ20は、第1のユーザ10から丁寧に接客されていることを認識することができる。
第2のユーザ20が注文を手話ジェスチャで行うと、デバイス100から注文の音声が女性の声で再生される。その際、第2のユーザ20が無意識に腕を大きく振って表現した単語(例えば、注文する品物名、カレーライス)に関しては、大きな音量で再生される。これにより、第1のユーザ10は、第2のユーザ20からの注文を認識することができる。
その後、飲食物の提供が遅くなり、第1のユーザ10が謝罪し、第2のユーザ20は快く許して「大丈夫です。時間はあるので」と手話で話したものとする。デバイス100は、第2のユーザ20の感情を読み取り、明るい柔らかい音声で「大丈夫です。時間はあるので」と出力する。これにより、第1のユーザ10は、第2のユーザ20が怒っていないことを認識し、安心することができる。
このようにして、第2のユーザ20は、飲食店におけるオーダーや会計等のやり取りを、身振り手振りや筆談を行うことなく容易に行うことが可能となる。これにより、第2のユーザ20はストレスなく飲食店に通うことが可能となり、QOL(quality of life)を向上させることが可能となる。
<3.1.3.第3のユースケース>
図7は、第1の実施例の第3のユースケースを説明するための図である。図7に示すように、第1のユーザ10はグラス型のデバイス100Aを装着しており、第2のユーザ20Bもグラス型のデバイス100Bを装着しており、残りの第2のユーザ20A、20C〜20Eはデバイス100を装着していない。デバイス100Bの装着者は、デバイス100Bにとっては第1のユーザであるが、デバイス100Aにとっては第2のユーザ20である。第1のユーザ10及び第2のユーザ20Bは聴覚障碍者且つ手話利用者であり、第2のユーザ20A、20C〜20Eは音声を利用する健常者であるものとする。また、第1のユーザ10、第2のユーザ20A及び20Bは女性であり、第2のユーザ20C〜20Eは男性であり、皆で食事をとっているものとする。
第1のユーザ10が手話で話すと、デバイス100Aから女性の声で手話ジェスチャに対応する音声が出力される。同様に、第2のユーザ20Bが手話で話すと、デバイス100Bから女性の声で手話ジェスチャに対応する音声が出力される。ここで、デバイス100A及び100Bは、各々のユーザに固有の声質の音源を用いて音声合成を行う。これにより、他のユーザは、第1のユーザ10又は第2のユーザ20Bのどちらが話した音声かを認識することができる。
装着者以外の人が発言した場合、デバイス100A及びデバイス100Bのシースルー型ディスプレイに手話ジェスチャがAR表示される。例えば、第2のユーザ20Dが発言した場合、デバイス100Aのシースルー型ディスプレイに映る第2のユーザ20Dに、発言内容に対応する手話ジェスチャを行う腕37が重畳してAR表示される。また、デバイス100は、第2のユーザ20Dの発言内容に対応するテキスト情報38をAR表示してもよい。ここで、デバイス100Aのシースルー型ディスプレイには、第1のユーザ10の死角に位置する第2のユーザ20A及び20Bを示すアバター39及び40が、第1のユーザ10にとって第2のユーザ20A及び20Bがいる方向の端部にAR表示されている。そして、死角に位置する第2のユーザ20Aが発言した場合、デバイス100Aのシースルー型ディスプレイには、発言内容に対応する手話ジェスチャを行うアバター40がAR表示される。また、デバイス100は、第2のユーザ20Aの発言内容に対応するテキスト情報41をAR表示してもよい。このように、他者の発言は、死角にいる人の発言も含めて手話に変換されて聴覚障碍者に提供される。これにより、聴覚障碍者は、複数人での会話をストレスなく楽しむことができる。
第1のユーザ10Aは、第2のユーザ20Cにポジティブな発言をしつつも、ネガティブな感情を抱いているものとする。この場合、第1のユーザ10Aの手話に基づいてデバイス100から出力される音声の声色はネガティブなものとなる。これにより、第2のユーザ20Cは、第1のユーザ10Aの感情を認識することが可能となる。このような、発言内容と独立したメタ情報の変換により、健常者同士等のコンテキストが同一の者同士で行われる細やかなコミュニケーションを、コンテキストが異なる者同士でも実現することが可能となる。
第1のユーザ10の手話での発言と他者の発言とが発生する場合、デバイス100Aは、音声出力と手話のAR表示とを同時に行う。
デバイス100Aは、複数の第2のユーザ20同士で行われたコミュニケーションの時系列関係を示す情報を出力してもよい。例えば、第2のユーザ20Dの発言に対する回答として第2のユーザ20Aが発言した場合、デバイス100Aは、第2のユーザ20D及びアバター40に対応付けて強調表現42及び43をAR表示する。強調表現としては、例えば第2のユーザ20D及びアバター40自身を光らせる、輪郭を半透明な線で囲む等、任意の表現が採用され得る。強調表現の強調度合いは、発言直後が最も強く、時間が経過するにつれて薄まってもよい。このような強調表現の時系列変化により、第1のユーザ10は、複数の発言者の時系列の関係性を直観的に認識することができる。なお、この強調表現には、例えば発言者の混乱度合い等の内部状態が反映されてもよい。
デバイス100Aは、会話のテンポに応じて、低遅延モードで動作してもよい。
<3.1.4.第4のユースケース>
図8は、第1の実施例の第4のユースケースを説明するための図である。図8に示した例は、大学において講師が講義を行い、複数の生徒が講義を受ける例である。第1のユーザ10は講師であり、第2のユーザ20は生徒である。第1のユーザ10はグラス型のデバイス100Aを装着しており、第2のユーザ20もグラス型のデバイス100Bを装着している。デバイス100Bの装着者は、デバイス100Bにとっては第1のユーザであるが、ここでは第1のユーザ10に着目して説明するため、第2のユーザ20であるものとする。
大学では、健常者、聴覚障害者、留学生、文系又は理系など、言語及び知識を問わず、誰でも参加できるアクセシビリティの高い授業が行われている。授業は、最新の研究に関するオムニバス形式のもので、講師の専門分野、言語及び知識等も様々である。第1のユーザ10は、聴覚障碍者であり、自身の母語で専門分野に関する講義を行う。デバイス100Aは、音声認識及びジェスチャ認識を行い、認識結果を示す情報をサーバにアップロードする。デバイス100Bは、第1のユーザ10による講義を、第2のユーザ20の利用言語等のコンテキストに応じて翻訳し、翻訳結果を第2のユーザ20へ出力する。かかる出力は、指向性スピーカ、骨伝導スピーカ、又はディスプレイによる出力により、デバイス100Bを装着した第2のユーザ20にのみ提供される。第2のユーザ20が発言した場合も、逆方向の変換及び出力がデバイス100Aにおいて行われる。
ここで、第1のユーザ10の第1のコンテキストと第2のユーザ20の第2のコンテキストとでは、前提知識が異なる。この場合、デバイス100は、第1の動作主体の第1の前提知識に基づいて表現された第1のメッセージを、当該第1のメッセージを第2の動作主体の第2の前提知識において理解するための補足情報を付加した第2のメッセージに変換する。例えば、デバイス100Bは、専門用語の解説又は第1のユーザ10の専門分野に特有の考え方等を示す情報を、補足情報50として第2のユーザ20に提供する。このような補足情報は、第2のユーザ20が困っている又は悩んでいる等の感情が検出されたことをトリガとして提供される。これにより、第2のユーザ20は、専門用語及び知識に関するギャップを感じることなく、講義を受けることができる。同様に、デバイス100Aも、補足情報を第1のユーザ10に提供する。例えば、デバイス100Aは、第2のユーザ20が第1のユーザ10の専門分野では一般的ではない用語を用いて質問してきた場合に、当該用語の解説を補足情報として第1のユーザ10に提供する。これにより、第1のユーザ10は、第2のユーザ20からの質問の意図を理解することが可能となる。
<3.1.5.第5のユースケース>
図9は、第1の実施例の第5のユースケースを説明するための図である。本ユースケースは、コンテキストの変化に応じた出力情報の変化に関する。
図9に示すように、第1のユーザ10はグラス型のデバイス100を装着している。第1のユーザ10は、聴覚障碍者且つ手話利用者である。第2のユーザ20は、音声を利用する健常者である。第1のユーザ10及び第2のユーザ20は、工場に勤務している。第1のユーザ10が手話で発言すると、デバイス100は、その発言内容を音声に変換して第2のユーザ10へ出力する。第2のユーザ20が音声で発言すると、デバイス100は、その発言内容を手話ジェスチャの動画に変換し、シースルー型のディスプレイにAR表示することで第1のユーザ10へ出力する。
工場内は、工場設備が稼働中であり危険レベルが高い。そのため、図9の左図に示すように、デバイス100は、工場内では、アバターが第2のユーザ20の発言内容に対応する手話ジェスチャを行う動画52を、ディスプレイの端部にAR表示する。これにより、第1のユーザ10は、視界の端で動画52を確認して第2のユーザ20の意図を理解することができ、よそ見が防止される。一方で、工場外は危険レベルが低い。そのため、図9の右図に示すように、デバイス100は、工場外では、シースルー型のディスプレイに映る第2のユーザ20に、第2のユーザ20の発言内容に対応する手話ジェスチャを行う腕54を重畳してAR表示する。
工場内は、工場設備が稼働中であり騒音レベルが高い。そのため、デバイス100は、工場内では、第1のユーザ10の手話での発言内容に対応する音声を大音量で出力する。これにより、第2のユーザ20は、騒音レベルが高い環境下でも第1のユーザ10の意図を理解することができる。一方で、工場外は騒音レベルが低い。そのため、デバイス100は、工場外では、第1のユーザ10の手話での発言内容に対応する音声を小音量で出力する。なお、音量は、第1のユーザ10と第2のユーザ20との距離、及び障害物の有無等のコンテキストに応じても制御され得る。このようなコンテキストに応じた音量制御により、コンテキストが変化する環境下でも容易に互いの意図を伝え合うことが可能となる。
なお、第2のユーザ20の外国人である等利用言語が第1のユーザ10と異なる場合には、上記説明したユースケースと同様に、異なる利用言語間での変換が行われる。
さらに、第1のユーザ10と第2のユーザ20とのコンテキストでは、文化(即ち、前提知識)が異なる場合がある。文化としては、例えばボディランゲージ、及び感情の表情への表れ方がある。この場合、デバイス100は、第1の文化において表現されたメッセージ及びメタ情報を、第2の文化において表現されたメッセージ及びメタ情報に変換することで、第1の動作主体の意図を示す情報を生成する。ここでのメタ情報は、ボディランゲージ及び感情の表情への現れ方等である。例えば、デバイス100は、第2のユーザ20のコンテキストにおいて行われたボディランゲージを、第1のユーザ10のコンテキストにおけるボディランゲージに変換し、手話ジェスチャを行うアバターにかかるボディランゲージを行わせる。これにより、第1のユーザ10は、第2のユーザ20の感情を正しく推定することが可能となり、第2のユーザ20とのコミュニケーションを円滑に行うことが可能となる。
<3.1.6.第6のユースケース>
本ユースケースは、英語又は日本語等の利用言語が異なる音声利用者間でのコミュニケーションに関する。
例えば、第1のユーザ10は、デバイス100を装着して、異なる言語を話す第2のユーザ20と音声を用いて会話する。デバイス100は、センシングした音声に基づいて特徴抽出を行い、音声特徴、並びに属性及び場所のコンテキストに基づいて、第1のユーザ10及び第2のユーザ20の利用言語を認識する。次に、デバイス100は、音響モデル及び言語モデルを用いて、話者の音声をテキストとして取得する。次いで、デバイス100は、感情コンテキストを口調に反映させ、統計的手法でテキストを相手の利用言語のテキストへ翻訳する。最後に、デバイス100は、元の音声特徴、並びに属性及び感情コンテキストを反映した音声合成を行い、音声をスピーカから出力する。
<3.1.7.第7のユースケース>
本ユースケースは、遠隔地にいるユーザ同士のコミュニケーションに関する。
第1のユーザ10はデバイス100Aを装着し、第2のユーザ20はデバイス100Bを装着しているものとする。この場合、デバイス100Aは、第1のユーザ10に関するセンシングを行い、デバイス100Bは、第2のユーザ20に関するセンシングを行う。デバイス100Aは、第1のユーザ10が第1のユーザ10のコンテキストにおいて行った動作に基づいて第1のユーザ10の意図を認識して、認識結果を示す情報をデバイス100Bに送信する。デバイス100Bは、受信した第1のユーザ10の意図の認識結果に基づいて、第2のユーザ20のコンテキストにおける第1のユーザ10の意図を示す情報を生成して、第2のユーザ20へ出力する。一方で、デバイス100Bは、第2のユーザ20が第2のユーザ20のコンテキストにおいて行った動作に基づいて第2のユーザ20の意図を認識して、認識結果を示す情報をデバイス100Aに送信する。デバイス100Aは、受信した第2のユーザ20の意図の認識結果に基づいて、第1のユーザ10のコンテキストにおける第2のユーザ20の意図を示す情報を生成して、第1のユーザ10へ出力する。これにより、遠隔地にいるユーザ同士でのコミュニケーションが可能となる。
例えば、第1のユーザ10と第2のユーザ20とでは、行動又は場所のコンテキストの相違により、音声を出してもよい状況か否かが異なり得る。この場合、例えば、第1のユーザ10の音声で発言した情報がテキスト情報に変換されて第2のユーザ20へ出力され、第2のユーザ20が入力したテキスト情が音声に変換されて第1のユーザ10へ出力される。また、テキスト情報の入出力は、デバイス100のディスプレイの大きさ等に応じて、最新の情報のみが表示される、又はやりとりの一連の流れが表示される、等の出力形態が制御されてもよい。
デバイス100は、どのような入力形態(音声入力/テキスト入力等)及び出力形態(音声出力/テキスト出力等)を採用するかを、ユーザのスケジュール、行動、位置情報、1日の行動履歴又は生体情報等に基づいて選択してもよい。例えば、デバイス100は、属性、場所、環境又は行動のコンテキストに基づいて、会議中、デスクワーク中、休憩中、移動中、又は在宅中等の、状況に関する高次のコンテキストを認識する。次いで、デバイス100は、各々のユーザの状況のコンテキストに基づいて、適切な入出力形態を選択して、入力を促す。入力された情報は、相手の状況のコンテキストに応じた出形態の情報に変換されて、相手へ出力される。例えば、デバイス100は、ユーザがミーティング中であればテキスト入力及びテキスト出力を採用し、ユーザが車で移動中であれば音声入力及び音声出力を選択する。また、テキスト入力に関しては、デバイス100は、入力負荷を削減するために、「ミーティング中」「遅くなる」「疲れた」等の候補のテキストをユーザに提示してもよい。
このような処理により、互いに遠隔地にいる複数のユーザは、互いのコンテキストの相違を気にすることなく、自身に都合のいい方法でコミュニケーションをとることができる。ユーザ間で、職業又は生活環境が異なる場合であっても、それぞれが自身に都合のいい方法でコミュニケーションをとることができるので、容易に連絡を取り合うことが可能となる。
<3.2.第2の実施例>
本実施例は、人間と機器とのコミュニケーションに関する。以下、図10を参照して、本実施例の概要を説明する。
図10は、第2の実施例の概要を説明するための図である。図10に示すように、ユーザ10は、リストバンド型のデバイス100を装着している。コミュニケーション対象20は、カメラ20A、PC20B、テレビ受像機20C及びスマートフォン20Dである。カメラ20Aは、ディスプレイを有し、過去に撮影された画像を表示可能である。第1のユーザ10は、カメラ20Aへ向けてつまむ動作を行い、つまんだ手をPC20Bに向けて移動させて離す動作を行う。このようなドラッグアンドドロップ動作を行うと、デバイス100は、当該画像をカメラ20AからPC20Bへ転送させる。詳しくは、デバイス100は、つまむ動作の対象であるカメラ20Aを送信モードにし、離す動作の対象であるPC20Bを受信モードにして、両機器を接続する。そして、これらの2つの機器を、例えばBLE(Bluetooth Low Energy(登録商標))又はWi−Fi(登録商標)等の任意の無線通信規格に準拠した通信路で接続し、データを送受信させる。これにより、PC20Bに当該画像が転送されて、表示される。同様に、ユーザ10が、PC20Bに表示された画像に対し、PC20Bからテレビ受像機20Cへドラッグアンドドロップ動作を行うと、当該画像がPC20Bからテレビ受像機20Cへ転送されて、テレビ受像機20Cで表示される。同様に、ユーザ10が、テレビ受像機20Cに表示された画像に対し、テレビ受像機20Cからスマートフォン20Dへドラッグアンドドロップ動作を行うと、当該画像がテレビ受像機20Cからスマートフォン20Dへ転送されて、スマートフォン20Dで表示される。
本実施例では、コミュニケーション対象20は機器である。ユーザ10のコンテキストは、機器の操作に関するメンタルモデルであり、機器20のコンテキストは、操作方法である。ユーザ10は、機器20に行わせたい動作を機器20に行わせるための動作を自身のメンタルモデルに従って行う。デバイス100は、ユーザ10の意図、即ちユーザ10が機器20に行わせた動作をユーザ10のメンタルモデルに従って認識し、当該行わせたい動作を機器20に行わせる制御コマンドを生成して、機器20へ出力する。これにより、ユーザ10は、自身が考える操作方法に従って操作すると、当該操作方法が実際の機器20の操作方法と異なっていたとしても、デバイス100による支援により、思い通りに機器20を操作することが可能となる。
図10を参照して説明した例に関し、制御コマンドの生成に関し詳しく説明する。まず、デバイス100は、場所及び隣接のコンテキストにより、ユーザ10と機器20との位置関係を認識し、機器20が操作対象に含まれるか否かを認識する。次いで、デバイス100は、ジェスチャ認識又は音声認識を行い、認識結果に対応する共通ルール化されたコマンドを取得する。そして、デバイス100は、機器20の属性のコンテキストに基づいて、共通ルール化されたコマンドを機器20の制御コマンドに変換して、機器20に送信する。このようなコンテキストに基づく変換が行われることで、ユーザ10は、同じ操作方法で、本来は操作方法が異なる機器20に同じ動作を行わせることが可能となる。例えば、同じドラッグアンドドロップ操作により、画像を転送させることが可能となる。
図10を参照して説明した上記説明した例に関し、機器20間でのデータの送受信について詳しく説明する。まず、デバイス100は、ユーザ10のジェスチャ認識を行う。つまむ動作である場合、デバイス100は、属性、場所及び隣接のコンテキストに基づいて、送信元の機器20を認識する。次いで、デバイス100は、ユーザ10の指を離す動作のジェスチャ認識を行い、属性、場所、及び隣接のコンテキストに基づいて、送信先の機器20を認識する。最後に、デバイス100は、これら2つの機器20の間で通信路を確立させて、データを送受信させる。
このように、本実施例によれば、ユーザ10は、機器20ごとの操作方法の相違や物理的な接続の有無等を意識せずとも、異なる機器20を同一の操作方法で操作することが可能となる。
続いて、図11を参照しながら、図10に示した例における詳細な処理の流れを説明する。図11は、本実施例に係るシステム1において実行されるコミュニケーション支援処理の流れの一例を示すフローチャートである。
・センシング
まず、デバイス100(即ち、センサ部110)は、センシングを行う(ステップS200)。
例えば、リストバンド型のデバイス100は、加速度及び角速度をセンシングすることで手の動きをセンシングする。また、デバイス100は、BLEの電波強度及び磁気をセンシングすることで、ユーザ10と機器20との位置関係をセンシングする。もちろん、デバイス100は、筋電位センサ及び測距センサ等によるセンシングを行ってもよいし、グラス型のデバイス100等の他のデバイス100によるセンシング情報を取得してもよい。これにより、デバイス100の性能向上が見込まれる。
・コンテキストの認識
次いで、デバイス100(即ち、コンテキスト認識部131)は、コンテキストの認識を行う。
詳しくは、デバイス100は、隣接のコンテキストを認識する(ステップS210)。例えば、デバイス100は、カメラにより得られたセンシング情報に基づいて、ユーザ10に隣接する機器20を認識する。隣接していると認識可能な距離の閾値は、機器20ごとに設定され得る。最大の距離は、例えばBLEの電波が届く範囲であってもよい。また、デバイス100は、機器20同士の位置関係も認識する。
・変換
上述したコンテキストの認識後、デバイス100(即ち、意図認識部133)は、コンテキストの相違に基づいたユーザの意図を示す情報の変換を行う。
詳しくは、まず、デバイス100は、ユーザ10のドラッグアンドドロップ操作を認識する(ステップS220)。
次いで、デバイス100は、認識したドラッグアンドドロップ操作に対応する共通のコマンドを生成する(ステップS222)。例えば、デバイス100は、ユーザ10の動作を、つまむ動作、離す動作、及びそれ以外の3つのパターンに分類する。そして、デバイス100は、ユーザ10が指をつまんだ方向にある機器20を、送信元の機器20として認識し、ユーザ10が指を離した方向にある機器20を、送信先の機器20として認識する。対象ファイルは、例えば送信元の機器20に表示されたファイルである。次いで、デバイス100は、通信路を確立させる共通のコマンド、及び対象ファイルを送受信させる共通のコマンドを生成する。なお、隣接する機器20が2以上ない場合、又は指つまんだ方向若しくは指を離した方向に機器20が存在しない場合、共通のコマンドは生成されず、処理は再度ステップS200に戻る。
次に、デバイス100は、各々の機器20の属性のコンテキストに基づいて、共通のコマンドを各々の機器20の制御コマンドに変換する(ステップS224)。
・出力変換
上述した変換処理後、デバイス100(即ち、出力変換部135)は、ユーザの意図を示す情報を、出力情報に変換する。
詳しくは、デバイス100は、各々の機器20の制御コマンドを、各々の機器20との通信に係るプロトコルに応じた情報に変換する(ステップS230)。
・出力
上述した生成処理の後、デバイス100(即ち、出力部140)は、出力情報を機器20へ出力する。
詳しくは、デバイス100は、各々の機器20のプロトコルに応じた制御コマンドを各々の機器20に送信する。これにより、送信元の機器20と送信先の機器20との間で通信路が確立されて、送信元の機器20から送信先の機器20へ対象ファイルが転送される(ステップS240)。
<<4.ユースケースの一例>>
以下、システム1のユースケースの一例を説明する。
まず、ユーザが話す動作を行う場合にデバイス100により提供されるサービスの一例を説明する。例えば、利用言語のコンテキストが異なる音声利用者間の相互通訳が提供されてもよい。例えば、行動又は場所コンテキストが異なるユーザ同士のコミュニケーションに関し、相手の状況を気にせず使うことのできる電話が提供されてもよい。例えば、音場環境のコンテキストが異なるユーザ同士のコミュニケーションに関し、相手の音場環境を気にせず使うことのできる電話が提供されてもよい。例えば、感情のコンテキストが異なるユーザ同士のコミュニケーションに関し、相手の気持ちを落ち着けるように働きかけて、いつものように話せるようにする対話補助が提供されてもよい。例えば、前提知識のコンテキストが異なるユーザ同士のコミュニケーションに関し、理解することが困難な第2のユーザ20の発言に対する困っている感情を示す情報を第2のユーザ20に出力し、前提知識の相違を埋めるための補足情報を第1のユーザ10に提供する、対話補助が提供されてもよい。例えば、デバイス100により、属性、趣向及び体調のコンテキストが異なるユーザ同士のコミュニケーションに関し、相手の属性、趣向及び体調の補足情報を提供する、対話補助が提供されてもよい。これにより、ユーザは、初めて会う他のユーザ又はロボットとも、旧知の仲であるかのように接することが可能となる。
次いで、ユーザがジェスチャを行う場合にデバイス100により提供されるサービスの一例を説明する。例えば、利用言語のコンテキストが異なる、手話利用者と音声利用者との間の相互通訳が提供されてもよい。例えば、ユーザが、機器Aから機器Bへドラッグアンドドロップ動作を行うと、つまむ動作の対象である機器Aを送信モードにし、離す動作の対象である機器Bを受信モードにして、両機器の通信を仲介するサービスが提供される。本サービスには、ユーザにとっては機器のコンテキストが用いられ、機器にとっては通信コンテキストが用いられる。例えば、ユーザが座って作業をしている場合、マウスを動かすようなジェスチャでPCにマウス入力がなされ、会議室でプレゼンテーションしている場合は、ジェスチャでページ送り及びポインタの移動がなされる、ユーザインタフェースが提供される。本サービスには、場所、及び行動のコンテキストが用いられる。
次に、ユーザが触る動作を行う場合にデバイス100により提供されるサービスの一例を説明する。例えば、点字ディスプレイにユーザが触る場合に、気温のコンテキストに応じて、又は手がかじかんでいる若しくは手袋を着けている等の内部のコンテキストに応じて、点字の凸部の高さが制御されてもよい。例えば、スマートフォンのUIに関し、高齢者又は視覚障碍者等の属性のコンテキストに応じて、又はユーザの気分等の内部のコンテキストに応じて、UIの文字の大きさ又は配色が制御されてもよい。
最後に、ユーザがその他の動作を行う場合にデバイス100により提供されるサービスの一例を説明する。例えば、デバイス100は、グローブ型又は服型のウェアラブルデバイス(例えば、パワードスーツ)である場合、ユーザが動かしたい物の重さとユーザの能力(例えば、筋力)に応じて、適宜補助する力が提供されてもよい。
<<5.ハードウェア構成例>>
最後に、図12を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図12は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図12に示す情報処理装置900は、例えば、図2に示したデバイス100を実現し得る。本実施形態に係るデバイス100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図12に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図2に示す制御部130形成し得る。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
他にも、入力装置906は、ユーザに関する情報を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサを含み得る。また、入力装置906は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi−Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図2に示すセンサ部110を形成し得る。また、図2に示す外部センサ装置200は、上述した入力装置906と同様の構成要素を含んで形成され得る。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば図2に示す出力部140を形成し得る。また、図2に示す外部出力装置400は、上述した出力装置907と同様の構成要素を含んで形成され得る。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図2に示す記憶部120を形成し得る。また、図2に示すサーバ300は、上述したストレージ装置908と同様の構成要素を含んで形成され得る。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。本実施形態では、通信装置913は、デバイス100と外部センサ装置200、サーバ300及び外部出力装置400との通信インタフェースとして機能する。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<<6.まとめ>>
以上、図1〜図12を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係るデバイス100は、ユーザ10又はユーザ10のコミュニケーション対象20のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて第1の動作主体の意図を認識する。そして、意図認識部133は、ユーザ10又はユーザ10のコミュニケーション対象20のうち、他方の第2の動作主体の第2のコンテキストにおける第1の動作主体の意図を示す情報を生成する。即ち、デバイス100は、第1の動作主体による動作を、第2のコンテキストにおける同等の意味を有する情報に変換する。コンテキストが異なれば同じ動作でも意味が異なり得るところ、このような変換が行われることで、第1の動作主体は、第2の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。また、第2の動作主体にとっても、自身のコンテキストに沿った情報が提供されるので、第1の動作主体とのコンテキストの相違を意識せずに、コミュニケーションをとることが可能となる。このように、ユーザ10とコミュニケーション対象20との間のコミュニケーションを円滑化することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図2に示したデバイス100の機能構成例のうち、記憶部120及び制御部130が、センサ部110及び出力部140とネットワーク等で接続されたサーバ等の装置に備えられていても良い。
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、
を備える情報処理装置。
(2)
前記コミュニケーション対象は、他のユーザであり、
前記第1のコンテキストと前記第2のコンテキストとでは、利用言語が異なり、
前記制御部は、第1の言語を利用して表現されたメッセージを第2の言語を利用して表現されたメッセージに変換することで、前記第1の動作主体の意図を示す情報を生成する、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記第1の動作主体が音声言語を利用して表現したメッセージを、前記メッセージに対応する手話言語のジェスチャを行うアバターの動画に変換する、前記(2)に記載の情報処理装置。
(4)
前記制御部は、前記第1の動作主体が音声言語を利用して表現したメッセージを、透過型ディスプレイに映る前記第1の動作主体に重畳してAR表示される、前記メッセージに対応する手話言語のジェスチャを行う手の動画に変換する、前記(2)に記載の情報処理装置。
(5)
前記制御部は、前記第1の言語を利用して表現されたメッセージのメタ情報を、前記第2の言語を利用して表現されたメッセージのメタ情報に変換する、前記(2)〜(4)のいずれか一項に記載の情報処理装置。
(6)
音声言語を利用して表現されたメッセージの前記メタ情報は、話す速さ又は声の大きさを示す情報を含む、前記(5)に記載の情報処理装置。
(7)
手話言語を利用して表現されたメッセージの前記メタ情報は、ジェスチャの速さ又はジェスチャの大きさを示す情報を含む、前記(5)に記載の情報処理装置。
(8)
前記制御部は、単語ごとに前記変換を行う、前記(2)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記制御部は、複数の前記コミュニケーション対象同士で行われたコミュニケーションの時系列関係を示す情報を前記ユーザへ出力する、前記(2)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記コミュニケーション対象は、他のユーザであり、
前記第1のコンテキストと前記第2のコンテキストとでは、前提知識が異なり、
前記制御部は、第1の前提知識に基づいて表現された第1のメッセージを、前記第1のメッセージを第2の前提知識において理解するための補足情報を付加した第2のメッセージに変換する、前記(1)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記コミュニケーション対象は、他のユーザであり、
前記制御部は、前記ユーザが第1のコンテキストにおいて行った動作に基づいて前記ユーザの意図を認識して認識結果を示す情報を他の情報処理装置に送信し、前記他の情報処理装置から受信した前記他のユーザの意図の認識結果を示す情報に基づいて、前記第1のコンテキストにおける前記他のユーザの意図を示す情報を生成して前記ユーザへ出力させる、前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記コミュニケーション対象は、機器であり、
前記意図は、前記ユーザが前記機器に行わせたい動作であり、
前記制御部は、前記行わせたい動作を前記機器に行わせる制御コマンドを生成して、前記機器へ出力する、前記(1)に記載の情報処理装置。
(13)
前記制御部は、複数の前記機器の間で通信路を確立させてデータを送受信させる、前記(12)に記載の情報処理装置。
(14)
前記制御部は、前記ユーザに装着されたデバイスによりセンシングされた情報に基づいて、前記第1のコンテキスト、前記第2のコンテキスト又は前記第1の動作主体による動作を認識する、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記制御部は、前記ユーザに装着されたデバイスにより前記第1の動作主体の意図を示す情報を前記第2の動作主体に出力させる、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して出力装置により前記第2の動作主体へ出力させること、
を含む情報処理方法。
(17)
コンピュータは、
ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、
として機能させるプログラムが記録された記録媒体。
1 システム
10 ユーザ、第1のユーザ
20 コミュニケーション対象、第2のユーザ、機器
100 デバイス
110 センサ部
120 記憶部
130 制御部
131 コンテキスト認識部
133 意図認識部
135 出力変換部
140 出力部
200 外部センサ装置
300 サーバ
400 外部出力装置

Claims (17)

  1. ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、
    を備える情報処理装置。
  2. 前記コミュニケーション対象は、他のユーザであり、
    前記第1のコンテキストと前記第2のコンテキストとでは、利用言語が異なり、
    前記制御部は、第1の言語を利用して表現されたメッセージを第2の言語を利用して表現されたメッセージに変換することで、前記第1の動作主体の意図を示す情報を生成する、請求項1に記載の情報処理装置。
  3. 前記制御部は、前記第1の動作主体が音声言語を利用して表現したメッセージを、前記メッセージに対応する手話言語のジェスチャを行うアバターの動画に変換する、請求項2に記載の情報処理装置。
  4. 前記制御部は、前記第1の動作主体が音声言語を利用して表現したメッセージを、透過型ディスプレイに映る前記第1の動作主体に重畳してAR表示される、前記メッセージに対応する手話言語のジェスチャを行う手の動画に変換する、請求項2に記載の情報処理装置。
  5. 前記制御部は、前記第1の言語を利用して表現されたメッセージのメタ情報を、前記第2の言語を利用して表現されたメッセージのメタ情報に変換する、請求項2に記載の情報処理装置。
  6. 音声言語を利用して表現されたメッセージの前記メタ情報は、話す速さ又は声の大きさを示す情報を含む、請求項5に記載の情報処理装置。
  7. 手話言語を利用して表現されたメッセージの前記メタ情報は、ジェスチャの速さ又はジェスチャの大きさを示す情報を含む、請求項5に記載の情報処理装置。
  8. 前記制御部は、単語ごとに前記変換を行う、請求項2に記載の情報処理装置。
  9. 前記制御部は、複数の前記コミュニケーション対象同士で行われたコミュニケーションの時系列関係を示す情報を前記ユーザへ出力する、請求項2に記載の情報処理装置。
  10. 前記コミュニケーション対象は、他のユーザであり、
    前記第1のコンテキストと前記第2のコンテキストとでは、前提知識が異なり、
    前記制御部は、第1の前提知識に基づいて表現された第1のメッセージを、前記第1のメッセージを第2の前提知識において理解するための補足情報を付加した第2のメッセージに変換する、請求項1に記載の情報処理装置。
  11. 前記コミュニケーション対象は、他のユーザであり、
    前記制御部は、前記ユーザが第1のコンテキストにおいて行った動作に基づいて前記ユーザの意図を認識して認識結果を示す情報を他の情報処理装置に送信し、前記他の情報処理装置から受信した前記他のユーザの意図の認識結果を示す情報に基づいて、前記第1のコンテキストにおける前記他のユーザの意図を示す情報を生成して前記ユーザへ出力させる、請求項1に記載の情報処理装置。
  12. 前記コミュニケーション対象は、機器であり、
    前記意図は、前記ユーザが前記機器に行わせたい動作であり、
    前記制御部は、前記行わせたい動作を前記機器に行わせる制御コマンドを生成して、前記機器へ出力する、請求項1に記載の情報処理装置。
  13. 前記制御部は、複数の前記機器の間で通信路を確立させてデータを送受信させる、請求項12に記載の情報処理装置。
  14. 前記制御部は、前記ユーザに装着されたデバイスによりセンシングされた情報に基づいて、前記第1のコンテキスト、前記第2のコンテキスト又は前記第1の動作主体による動作を認識する、請求項1に記載の情報処理装置。
  15. 前記制御部は、前記ユーザに装着されたデバイスにより前記第1の動作主体の意図を示す情報を前記第2の動作主体に出力させる、請求項1に記載の情報処理装置。
  16. ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して出力装置により前記第2の動作主体へ出力させること、
    を含む情報処理方法。
  17. コンピュータは、
    ユーザ又は前記ユーザのコミュニケーション対象のうち一方である第1の動作主体が第1のコンテキストにおいて行った動作に基づいて前記第1の動作主体の意図を認識し、他方の第2の動作主体の第2のコンテキストにおける前記第1の動作主体の意図を示す情報を生成して前記第2の動作主体へ出力させる制御部、
    として機能させるプログラムが記録された記録媒体。
JP2017123953A 2017-06-26 2017-06-26 情報処理装置、情報処理方法及びプログラム Pending JP2019008570A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017123953A JP2019008570A (ja) 2017-06-26 2017-06-26 情報処理装置、情報処理方法及びプログラム
PCT/JP2018/016902 WO2019003616A1 (ja) 2017-06-26 2018-04-26 情報処理装置、情報処理方法及び記録媒体
US16/623,508 US11354511B2 (en) 2017-06-26 2018-04-26 Information processing device, information processing method, and recording medium
DE112018003273.6T DE112018003273T5 (de) 2017-06-26 2018-04-26 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und aufzeichnungsmedium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017123953A JP2019008570A (ja) 2017-06-26 2017-06-26 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019008570A true JP2019008570A (ja) 2019-01-17

Family

ID=64742052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017123953A Pending JP2019008570A (ja) 2017-06-26 2017-06-26 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US11354511B2 (ja)
JP (1) JP2019008570A (ja)
DE (1) DE112018003273T5 (ja)
WO (1) WO2019003616A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102174922B1 (ko) * 2019-08-06 2020-11-05 한국전자기술연구원 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
JP2020194517A (ja) * 2019-05-21 2020-12-03 雄史 高田 翻訳システムおよび翻訳システムセット
JP2021047499A (ja) * 2019-09-17 2021-03-25 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、および、情報処理システム
JP6946579B1 (ja) * 2021-01-20 2021-10-06 株式会社Synamon 情報処理装置、情報処理方法及びプログラム
JP2022020574A (ja) * 2020-07-20 2022-02-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102257181B1 (ko) * 2016-09-13 2021-05-27 매직 립, 인코포레이티드 감각 안경류
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
KR20200087337A (ko) * 2018-12-31 2020-07-21 삼성전자주식회사 헬스 케어 로봇 및 그 제어 방법.
US11289067B2 (en) * 2019-06-25 2022-03-29 International Business Machines Corporation Voice generation based on characteristics of an avatar
KR102098734B1 (ko) * 2019-08-06 2020-04-08 전자부품연구원 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
CN113851029B (zh) * 2021-07-30 2023-09-05 阿里巴巴达摩院(杭州)科技有限公司 一种无障碍通信方法和装置
US20230077446A1 (en) * 2021-09-16 2023-03-16 International Business Machines Corporation Smart seamless sign language conversation device
JP2023112556A (ja) * 2022-02-01 2023-08-14 Necプラットフォームズ株式会社 視覚化装置、視覚化方法、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3222283B2 (ja) 1993-09-22 2001-10-22 株式会社日立製作所 案内装置
JP2001117921A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2002259369A (ja) 2001-02-26 2002-09-13 Two Para Kk 言語データ配信方法及び同配信システム並びに言語データ配信プログラム
JP2002259377A (ja) 2001-02-28 2002-09-13 Axis Software Kk 日本語翻訳システム
JP2004254218A (ja) * 2003-02-21 2004-09-09 Seiko Epson Corp 携帯電話、通信方法および通信プログラム
JP4350566B2 (ja) 2004-03-17 2009-10-21 東芝ソリューション株式会社 機械翻訳システム
KR101394283B1 (ko) * 2007-09-27 2014-05-13 삼성전자주식회사 블루투스 모듈을 구비한 휴대 단말기 및 그의 블루투스통신 방법
US20120206322A1 (en) * 2010-02-28 2012-08-16 Osterhout Group, Inc. Ar glasses with event and sensor input triggered user action capture device control of ar eyepiece facility
US9098494B2 (en) 2012-05-10 2015-08-04 Microsoft Technology Licensing, Llc Building multi-language processes from existing single-language processes
JP6555272B2 (ja) 2014-11-12 2019-08-07 富士通株式会社 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
JP6310150B2 (ja) * 2015-03-20 2018-04-11 株式会社東芝 意図理解装置、方法およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020194517A (ja) * 2019-05-21 2020-12-03 雄史 高田 翻訳システムおよび翻訳システムセット
KR102174922B1 (ko) * 2019-08-06 2020-11-05 한국전자기술연구원 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
JP2021047499A (ja) * 2019-09-17 2021-03-25 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、および、情報処理システム
JP7243541B2 (ja) 2019-09-17 2023-03-22 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、および、情報処理システム
JP2022020574A (ja) * 2020-07-20 2022-02-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体
JP7247442B2 (ja) 2020-07-20 2023-03-29 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体
JP6946579B1 (ja) * 2021-01-20 2021-10-06 株式会社Synamon 情報処理装置、情報処理方法及びプログラム
JP2022111618A (ja) * 2021-01-20 2022-08-01 株式会社Synamon 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
WO2019003616A1 (ja) 2019-01-03
US20210150145A1 (en) 2021-05-20
DE112018003273T5 (de) 2020-04-09
US11354511B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
US11354511B2 (en) Information processing device, information processing method, and recording medium
Csapó et al. A survey of assistive technologies and applications for blind users on mobile platforms: a review and foundation for research
US20220284896A1 (en) Electronic personal interactive device
US11237635B2 (en) Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio
KR101777807B1 (ko) 수화 번역기, 시스템 및 방법
CN107924395A (zh) 个人翻译器
JP7010000B2 (ja) 情報処理装置及びプログラム
WO2022079933A1 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US20190149490A1 (en) Information processing apparatus and non-transitory computer readable medium
Chatterjee et al. Classification of wearable computing: A survey of electronic assistive technology and future design
Dhanjal et al. Tools and techniques of assistive technology for hearing impaired people
Qiu et al. Understanding visually impaired people’s experiences of social signal perception in face-to-face communication
US11550470B2 (en) Grammar dependent tactile pattern invocation
US11544968B2 (en) Information processing system, information processingmethod, and recording medium
JP2003345727A (ja) 感情伝達装置
Brown Unifying interaction across distributed controls in a smart environment using anthropology-based computing to make human-computer interaction" Calm"
Gul et al. Two-way smart communication system for deaf & dumb and normal people
WO2020175969A1 (ko) 감정 인식 장치 및 감정 인식 방법
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
Carmigniani Augmented reality methods and algorithms for hearing augmentation
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
US11270682B2 (en) Information processing device and information processing method for presentation of word-of-mouth information
Mansouri Benssassi et al. Wearable assistive technologies for autism: opportunities and challenges
CN111819565A (zh) 数据转换***、数据转换方法和程序
EP3882894B1 (en) Seeing aid for a visually impaired individual