JP2012103840A - 情報処理装置、プログラムおよびコマンド生成方法 - Google Patents

情報処理装置、プログラムおよびコマンド生成方法 Download PDF

Info

Publication number
JP2012103840A
JP2012103840A JP2010250713A JP2010250713A JP2012103840A JP 2012103840 A JP2012103840 A JP 2012103840A JP 2010250713 A JP2010250713 A JP 2010250713A JP 2010250713 A JP2010250713 A JP 2010250713A JP 2012103840 A JP2012103840 A JP 2012103840A
Authority
JP
Japan
Prior art keywords
information
input
command
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010250713A
Other languages
English (en)
Other versions
JP5636888B2 (ja
Inventor
Yukinori Maeda
幸徳 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010250713A priority Critical patent/JP5636888B2/ja
Priority to US13/285,405 priority patent/US20120112995A1/en
Priority to EP11187390A priority patent/EP2450879A1/en
Priority to RU2011144585/08A priority patent/RU2011144585A/ru
Priority to CN2011103419297A priority patent/CN102591448A/zh
Publication of JP2012103840A publication Critical patent/JP2012103840A/ja
Application granted granted Critical
Publication of JP5636888B2 publication Critical patent/JP5636888B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Details Of Television Systems (AREA)

Abstract

【課題】2種類以上の入力操作を用いて対象装置に所望の動作を実行させるための入力操作を簡易にすることを可能とすること。
【解決手段】2種類以上の異なる入力操作により取得した2種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、2種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、を備える情報処理装置を提供する。
【選択図】図1

Description

本発明は、情報処理装置、プログラムおよびコマンド生成方法に関する。
従来から、各種装置を動作させるために、例えば、入力装置として、キーボードやマウス、テレビ等の家庭用電気機械器具用のリモートコントローラ等が使用されている。しかしながら、対象装置を動作させるために上記のような従来型の入力装置を使用することは、必ずしもユーザにとって直感的で分かりやすいものではない場合がある。また、ユーザは、入力装置を紛失した場合、対象装置を動作できなくなるおそれがある。
そこで、直感的で分かりやすい音声、ジェスチャ等による入力操作により対象装置を動作させることを可能とする、ユーザインターフェースに関する技術が提案されている。例えば、下記特許文献1では、ユーザの入力操作を撮影した動画像からジェスチャを認識し、認識結果に基づいて制御命令を生成する技術が開示されている。また、下記特許文献2には、音声、ジェスチャ等のうち2種類以上の入力操作を用いて、一方の入力操作により取得した入力情報に基づき処理を実行し、他方の入力操作により取得した入力情報に基づき処理の実行に対する制御(開始、中断、等)を行う技術が開示されている。
特開2003−334389号公報 特開2004−192653号公報
しかしながら、音声、ジェスチャ等による入力操作の場合、ユーザは、対象装置に与えられる命令コマンドと各音声、各ジェスチャ等との対応関係を覚えなければならない。特に、上記特許文献2のように2種類以上の入力操作を使用する場合には、各コマンドと入力操作との対応関係を覚えておくことは非常に困難である。
そこで、本発明は、このような問題に鑑みてなされたもので、その目的は、2種類以上の入力操作を用いて対象装置に所望の動作を実行させるための入力操作を簡易にすることが可能な新規かつ改良された情報処理装置、プログラムおよびコマンド生成方法を提供しようとするものである。
上記課題を解決するために、本発明のある観点によれば、2種類以上の異なる入力操作により取得した2種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、2種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、を備える情報処理装置が提供される。
また、上記入力認識部は、上記2種類以上の入力情報から少なくとも上記所定の動作の対象を示す意味情報と上記所定の動作の内容を示す意味情報とを認識してもよい。
また、上記2種類以上の入力情報は、音声による入力操作により取得した音声入力情報、および体の一部若しくは全部の動きまたは状態による入力操作により取得した1種類以上のジェスチャ入力情報のうちの、少なくとも2種類以上の入力情報を含んでもよい。
また、上記情報処理装置は、上記2種類以上の入力情報および別の入力操作により取得した別の入力情報のうち、いずれかの入力情報から、上記所定の動作の実行量を示す実行量情報を認識する変化量変換部をさらに備え、上記動作処理部は、上記2種類以上の上記意味情報および上記実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成してもよい。
また、上記いずれかの入力情報は、音声による入力操作により取得した音声入力情報、または体の一部若しくは全部の動きまたは状態による入力操作により取得したジェスチャ入力情報であり、上記変化量変換部は、上記いずれかの入力情報が上記音声入力情報である場合には、上記音声入力情報から取得される音量から上記実行量情報を認識し、上記いずれかの入力情報が上記ジェスチャ入力情報である場合には、上記ジェスチャ入力情報から取得される体の一部若しくは全部の動きまたは状態の変化量から上記実行量情報を認識してもよい。
また、上記情報処理装置は、予め登録されたユーザIDの中から、上記入力操作を行うユーザのユーザIDを特定する個人判別部をさらに備え、上記入力識別部は、上記特定されたユーザIDに応じて、上記入力情報の種類毎に上記入力操作を行うユーザの特性に合わせた意味情報を認識してもよい。
また、上記入力識別部は、上記特定されたユーザIDに応じて、上記入力情報の種類毎に、ユーザID毎に予め入力操作をパターン化した入力パターンのうち、上記各入力情報に対応する上記入力パターンを特定し、当該入力パターンに関連付けられた上記意味情報を抽出してもよい。
また、上記入力識別部は、上記特定されたユーザIDに応じて、上記入力情報の種類毎に、予め入力操作をパターン化した入力パターンに対してユーザID毎に予め定められた優先度に基づいて、上記各入力情報に対応する上記入力パターンを特定し、当該入力パターンに関連付けられた上記意味情報を抽出してもよい。
また、上記動作処理部は、上記コマンドが入力操作の一部を省略することが可能な省略対象に指定されている場合に、上記コマンドを生成するための2種類以上の上記意味情報のうち1種類以上の上記意味情報が認識されると、上記コマンドを生成してもよい。
また、上記動作処理部は、上記コマンドの生成頻度、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドのうち少なくとも1つ以上のコマンド、上記動作処理部により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンド、およびユーザにより指定された省略対象に関する情報のうち少なくとも1つ以上に基づいて、上記コマンドを上記省略対象に指定してもよい。
また、上記動作処理部は、上記コマンドにより所定の動作が実行される前に、当該所定の動作の実行の可否をユーザに確認させるための確認表示を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。
また、上記動作処理部は、上記コマンドの生成のために必要な上記意味情報のうち1種類以上の上記意味情報が認識されていない場合に、上記認識されていない上記意味情報の候補を特定し、当該候補の意味情報を意味する入力操作を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。
また、上記動作処理部は、上記コマンドの生成のために必要な上記意味情報のうち1種類以上の上記意味情報が認識されていない場合に、上記認識されていない上記意味情報の候補を特定し、当該候補の意味情報と既に認識された意味情報により生成される上記コマンドを特定し、当該コマンドにより所定の動作が実行される前の、上記対象装置に関する当該動作の対象の状態を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。
また、上記対象装置は、上記情報処理装置および上記情報処理装置に接続された機器のうち少なくとも1つ以上であり、上記動作処理部は、生成された上記コマンドに従って上記情報処理装置および上記機器のなくとも1つ以上に所定の動作を実行させてもよい。
また、上記動作処理部は、生成された上記コマンドに従って所定の動作が実行された結果を示す結果情報を、上記対象装置またはその他の装置の表示画面に表示するように制御してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、2種類以上の異なる入力操作により取得した2種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、2種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、として機能させるためのプログラムが提供される。
さらに、上記課題を解決するために、本発明の別の観点によれば、2種類以上の異なる入力操作により取得した2種類以上の入力情報から、当該入力情報の種類毎に各入力操作の意味する意味情報を認識するステップと、2種類以上の上記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成するステップと、を含むコマンド生成方法が提供される。
以上説明したように、本発明に係る情報処理装置、プログラムおよびコマンド生成方法によれば、2種類以上の入力操作を用いて対象装置に所望の動作を実行させるための入力操作を簡易にすることができる。
本発明の第1の実施形態に係る情報処理装置の機能構成を示すブロック図である。 音声記憶部が記憶する音声認識辞書の一例を示す図である。 ジェスチャ記憶部が記憶するジェスチャ認識辞書の一例を示す第1の図である。 ジェスチャ記憶部が記憶するジェスチャ認識辞書の一例を示す第2の図である。 コマンド記憶部が記憶するコマンド辞書の一例を示す第1の図である。 コマンドによる動作の実行結果の一例を示す第1の図である。 コマンドによる動作の実行結果の一例を示す第2の図である。 入力情報と意味情報との関係の一例を示す図である。 第1の実施形態に係るコマンド生成処理を示すフローチャートである。 本発明の第2の実施形態に係る情報処理装置の機能構成を示すブロック図である。 変化量記憶部が記憶する変化量変換辞書の一例を示す第1の図である。 変化量記憶部が記憶する変化量変換辞書の一例を示す第2の図である。 コマンド記憶部が記憶するコマンド辞書の一例を示す第2の図である。 第2の実施形態に係るコマンド生成処理を示すフローチャートである。 本発明の第3の実施形態に係る情報処理装置の機能構成を示すブロック図である。 ユーザID毎の音声認識辞書およびジェスチャ認識辞書の一例を示す第1の図である。 ユーザID毎の音声認識辞書およびジェスチャ認識辞書の一例を示す第2の図である。 第3の実施形態に係るコマンド生成処理を示すフローチャートである。 本発明の第4の実施形態に係る情報処理装置の機能構成を示すブロック図である。 動作内容記憶部が記憶する情報の一例を示す図である。 頻度情報記憶部が記憶する情報の一例を示す図である。 コマンド記憶部が記憶するコマンド辞書の一例を示す第3の図である。 省略対象のコマンドの候補を表示する表示画面の一例を示す図である。 コマンドの実行可否の確認表示を表示する表示画面の一例を示す図である 第4の実施形態に係るコマンド生成処理を示すフローチャートである。 本発明の第5の実施形態に係る情報処理装置の機能構成を示すブロック図である。 入力操作の候補を表示する表示画面の一例を示す第1の図である。 入力操作の候補を表示する表示画面の一例を示す第2の図である。 対象装置に関する動作の対象の状態を表示する表示画面の一例を示す第1の図である。 対象装置に関する動作の対象の状態を表示する表示画面の一例を示す第2の図である。 第5の実施形態に係るコマンド生成処理を示すフローチャートである。 本発明の各実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。
また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
1.第1の実施形態
1−1.情報処理装置の構成
1−2.処理の流れ
2.第2の実施形態
2−1.情報処理装置の構成
2−2.処理の流れ
3.第3の実施形態
3−1.情報処理装置の構成
3−2.処理の流れ
4.第4の実施形態
4−1.情報処理装置の構成
4−2.処理の流れ
5.第5の実施形態
5−1.情報処理装置の構成
5−2.処理の流れ
6.発明の各実施形態に係る情報処理装置のハードウェア構成
7.まとめ
以下に説明される各実施形態では、ユーザが操作したい対象装置に対して行う入力操作として、2種類以上の入力操作が行われる。また、2種類以上の入力操作により取得した2種類以上の入力情報として、音声による入力操作により取得した音声入力情報と、体の一部若しくは全体の動きまたは状態による入力操作により取得したジェスチャ入力情報とが用いられる。なお、音声入力情報およびジェスチャ認識情報は、ユーザの入力操作により取得した2種類以上の入力操作により取得した入力情報の一例である。
また、各実施形態に係る情報処理装置は、上記入力情報から対象装置を動作させるコマンドを生成する。情報処理装置は、例えば、テレビ、プロジェクタ、DVDレコーダ、ブルーレイレコーダ、音楽プレイヤ、ゲーム機器、エアコンディショナ、洗濯機、冷蔵庫等の家電機器、PC(Personal Computer)、プリンタ、スキャナ、スマートフォン、携帯情報端末(Personal Digital Assistant)等の情報処理機器、または照明機器、湯沸かし器等のその他の機器であってよい。また、情報処理装置は、これら装置と接続される周辺機器であってもよい。
<1.第1の実施形態>
[1−1.情報処理装置の構成]
以下では、図1〜8を用いて、本発明の第1の実施形態に係る情報処理装置の構成について説明する。
図1は、本発明の第1の実施形態に係る情報処理装置100の機能構成を示すブロック図である。図1を参照すると、情報処理装置100は、音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142、動作処理部150およびコマンド記憶部152を有する。なお、入力認識部は音声認識部130とジェスチャ認識部140との組合せであるものとして説明される。
音声入力情報取得部110は、ユーザが行う音声による入力操作により音声入力情報を取得する。例えば、ユーザが音声による入力操作を行うと、音声入力情報取得部110は、収音された音声から音声波形信号を抽出し、音声波形信号をアナログ/デジタル変換することにより、デジタル化された音声情報を音声入力情報として取得する。また、音声入力情報取得部110は、デジタル化された音声情報から音声に関する特徴量をさらに抽出し、当該特徴量を音声入力情報として取得してもよい。その後、音声入力情報取得部110は、取得された音声入力情報を音声認識部130へ出力する。なお、情報処理装置100と接続された外部の装置が、収音された音声から音声入力情報を取得し、音声入力情報取得部110は、当該外部の装置から音声自体、デジタル化された音声情報または上記特徴量のいずれかの情報の形で音声入力情報を受信してもよい。
ジェスチャ入力情報取得部120は、ユーザが行う体の一部若しくは全体の動きまたは状態による入力操作によりジェスチャ入力情報を取得する。例えば、ユーザが手の動きによる入力操作を行うと、ジェスチャ入力情報取得部120は、情報処理装置100に取付けられたカメラを用いてユーザの手の動きを撮影することにより、デジタル化された動画像情報をジェスチャ入力情報として取得する。また、ジェスチャ入力情報取得部120は、デジタル化された動画像情報から抽出された手の動きに関する特徴量をジェスチャ入力情報として取得してもよい。その後、ジェスチャ入力情報取得部120は、取得されたジェスチャ入力情報をジェスチャ認識部140へ出力する。なお、入力操作は、手の動きに限られず、体全体、頭、指、顔(表情)または目(視線)等の体の別の部分の動きによるものであってもよい。また、入力操作は、体の一部若しくは全体の動的な動きによるものに限られず、体の一部若しくは全体の静的な状態によるものであってもよい。また、ジェスチャ入力情報は、動画像情報に限られず、静止画像情報でもよく、またセンサ等によって得られるその他の信号情報であってもよい。また、情報処理装置100と接続された外部の装置が、上記ジェスチャ入力情報を取得し、ジェスチャ入力情報取得部120は、当該外部の装置からデジタル化された動画像、上記抽出された特徴量等の形式でジェスチャ入力情報を受信してもよい。
音声記憶部132は、予め定められた入力パターンと、当該入力パターンに関連付けられた意味情報とを、音声認識辞書として記憶する。ここで、入力パターンとは、例えば、音声による入力操作を予めパターン化した情報を指す。また、意味情報とは、入力操作の意味する情報を指す。図2は、音声記憶部132が記憶する音声認識辞書の一例を示す。図2を参照すると、音声認識辞書には、例えば「ちゃんねる」、「おんりょう」等が入力パターンとして記憶されている。上記入力パターンは、例えば、デジタル化された音声情報や音声に関する特徴量等の、音声入力情報との比較が可能な形式で、記憶されている。また、音声認識辞書には、例えば「ちゃんねる」という入力パターンに関連付けられた「動作の対象はチャンネル」という意味情報、「おんりょう」という入力パターンに関連付けられた「動作の対象は音量」という意味情報が、意味情報として記憶されている。
音声認識部130は、音声による入力操作により取得した音声入力情報から、音声による入力操作の意味する意味情報を認識する。例えば、音声認識部130は、入力パターンのうち、音声入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。
音声認識部130は、音声入力情報取得部110により音声入力情報を入力されると、音声記憶部132から入力パターンを取得する。次に、音声認識部130は、例えば、音声入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、スコアが最も大きい入力パターンを特定する。音声入力情報と各入力パターンとの比較による上記スコアの算出は、現在までの公知の音声認識に関する従来技術を用いることにより実行され得る。次に、音声認識部130は、特定された入力パターンに関連付けられた意味情報を音声記憶部132から抽出する。このようにして、音声認識部130は、入力された音声入力情報から音声による入力操作の意味する意味情報を認識する。最後に、音声認識部130は、認識された意味情報を動作処理部150へ出力する。
例えば、「おんりょう」という音声により取得された音声入力情報が、音声認識部130に入力される。図2を参照すると、例えば、音声認識部130は、音声入力情報と各入力パターンとの間の上記スコア(図示せず)を算出した結果、最もスコアが大きかった入力パターンである「おんりょう」を特定する。すると、音声認識部130は、「おんりょう」と関連付けられた意味情報である「動作の対象は音量」を意味情報として抽出する。
ジェスチャ記憶部142は、体の一部若しくは全部の動きまたは状態による入力操作を予めパターン化した入力パターンと、当該入力パターンに関連付けられた意味情報とを、ジェスチャ認識辞書として記憶する。図3は、ジェスチャ記憶部142が記憶するジェスチャ認識辞書の一例を示す。図3を参照すると、ジェスチャ認識辞書には、例えば「手を上に挙げる」、「手を下にさげる」等が入力パターンとして記憶されている。上記入力パターンは、例えば、手の動きに関する動画像や手の動きに関する特徴量等の、ジェスチャ入力情報との比較が可能な形式で、記憶されている。また、ジェスチャ認識辞書には、例えば「手を上に挙げる」という入力パターンに関連付けられた「パラメータを上げる」という意味情報、「手を下にさげる」という入力パターンに関連付けられた「パラメータを下げる」という意味情報等が、記憶されている。
図4は、ジェスチャ記憶部142が記憶するジェスチャ認識辞書の他の一例を示す。手の動きまたは状態による入力操作ではなく、体の別の部分の動きまたは状態による入力操作が行われる場合、ジェスチャ記憶部142は、図3に例示される入力パターンの代わりに、図4に例示される入力パターンを記憶してもよい。例えば、ジェスチャ認識辞書には、「全ての指を広げて伸ばす」、「全ての指を閉じる」等が入力パターンとして記憶されてもよい。
ジェスチャ認識部140は、体の一部若しくは全体の動きまたは状態による入力操作により取得したジェスチャ入力情報から、体の一部若しくは全体の動きまたは状態による入力操作の意味する意味情報を認識する。例えば、ジェスチャ認識部140は、入力パターンのうち、ジェスチャ入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。
ジェスチャ認識部140は、ジェスチャ入力情報取得部120によりジェスチャ入力情報を入力されると、ジェスチャ記憶部142から入力パターンを取得する。次に、ジェスチャ認識部140は、例えば、ジェスチャ入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、スコアが最も大きい入力パターンを特定する。ジェスチャ入力情報と各入力パターンとの比較による上記スコアの算出は、現在までの公知のジェスチャ認識に関する従来技術を用いることにより実行され得る。次に、ジェスチャ認識部140は、特定された入力パターンに関連付けられた意味情報をジェスチャ記憶部142から抽出する。このようにして、ジェスチャ認識部140は、入力されたジェスチャ入力情報から体の一部若しくは全体の動きまたは状態による入力操作の意味する意味情報を認識する。最後に、ジェスチャ認識部140は、認識された意味情報を動作処理部150へ出力する。
例えば、手を上に挙げる動作により取得されたジェスチャ入力情報が、ジェスチャ認識部140に入力される。図3を参照すると、例えば、ジェスチャ認識部140は、ジェスチャ入力情報と各入力パターンとの間の上記スコアを算出した結果、最もスコアが大きかった入力パターンである「手を上に挙げる」を特定する。すると、ジェスチャ認識部140は、「手を上に挙げる」と関連付けられた意味情報である「パラメータを上げる」を意味情報として抽出する。
コマンド記憶部152は、ユーザが入力操作を行う対象装置に所定の動作を実行させるためのコマンドと、コマンドに対応する2種類以上の意味情報の組合せとを、コマンド辞書として記憶する。図5は、コマンド記憶部152が記憶するコマンド辞書の一例を示す。図5を参照すると、コマンド辞書には、例えば「チャンネルを昇順に変える」、「音量を上げる」等のコマンドが、記憶されている。上記コマンドは、例えば、対象装置が読み取り可能なデータ形式で記憶されている。また、コマンド辞書には、例えば「チャンネルを昇順に変える」というコマンドに対応する、「パラメータを上げる」、「動作の対象はチャンネル」等が、意味情報の組合せとして記憶されている。
動作処理部150は、2種類以上の意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する。ここでの意味情報は、音声認識部130により認識された意味情報、ジェスチャ認識部140により認識された意味情報という2種類の意味情報である。動作処理部150は、音声認識部130およびジェスチャ認識部140から意味情報の入力を受けると、コマンド記憶部152からこれらの意味情報の組合せに対応するコマンドを抽出する。抽出されたコマンドは、対象装置に所定の動作を実行させるためのコマンドである。このようにして、動作処理部150は、対象装置に所定の動作を実行させるためのコマンドを生成する。
動作処理部150は、生成されたコマンドに従って対象装置に所定の動作を実行させる。また、動作処理部150は、生成されたコマンドに従って所定の動作が実行された結果を示す結果情報を、対象装置またはその他の装置の表示画面に表示するように制御する。ここで、その他の装置とは、例えば対象装置と直接的にまたは間接的に接続された装置である。
例えば、動作処理部150は、音声認識部130により「動作の対象は音量」という意味情報を入力され、ジェスチャ認識部140により「パラメータを上げる」という意味情報を入力される。図5を参照すると、動作処理部150は、「動作の対象は音量」という意味情報と「パラメータを上げる」という意味情報の組合せと対応する「音量を上げる」というコマンドを生成する。すると、動作処理部150は、生成された「音量を上げる」というコマンドに従って対象装置に「音量を上げる」動作を実行させる。図6は、コマンドによる動作の実行結果の一例を示す。上記のように「音量を上げる」動作が実行されると、動作処理部150は、図6に示されるように、対象装置またはその他の装置の表示画面の例えば右下に上げられた音量を結果情報として表示するように制御する。
また、例えば、動作処理部150は、音声認識部130により「動作は対象はチャンネル」という意味情報を入力され、ジェスチャ認識部140により「パラメータを上げる」という意味情報を入力される。図5を参照すると、動作処理部150は、「動作の対象はチャンネル」という意味情報と「パラメータを上げる」という意味情報の組合せと対応する「チャンネルを昇順に変える」というコマンドを生成する。すると、動作処理部150は、生成された「チャンネルを昇順に変える」というコマンドに従って対象装置に「チャンネルを昇順に変える」動作を実行させる。図7は、コマンドによる動作の実行結果の一例を示す。上記のように「チャンネルを昇順に変える」動作が実行されると、動作処理部150は、図7に示されるように、対象装置またはその他の装置の表示画面の例えば右下に昇順に変えられたチャンネルを結果情報として表示するように制御する。
なお、動作処理部150が動作を実行させる対象装置は、情報処理装置100および情報処理装置に接続された機器のうち少なくとも1つ以上でもよい。例えば、対象装置がテレビであり、当該テレビ自体が情報処理装置100であってもよい。また、例えば、対象装置がエアコンディショナであり、情報処理装置100は当該エアコンディショナと接続された周辺機器であってもよい。また、例えば、対象装置がPC、プリンタ、スキャナであり、情報処理装置100はこれらに接続された周辺機器であってもよい。
以上、情報処理装置100が有する音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142、動作処理部150およびコマンド記憶部152の各々について説明した。ここでは、さらに、音声認識部130とジェスチャ認識部140に共通する事項を説明し、その後で音声記憶部132およびジェスチャ記憶部142に共通する事項を説明する。
また、本実施形態では、音声認識部130は、音声入力情報から所定の動作の対象を示す意味情報を認識し、ジェスチャ認識部140は、ジェスチャ入力情報から所定の動作の内容を示す意味情報を認識する。入力情報に対応する入力パターンと意味情報との関係の一例を示した図8を参照して、その関係について説明する。図8のとおり、例えば、音声入力情報から「おんりょう」とういう入力パターンが特定された場合に、「動作の対象は音量」という意味情報が認識される。また、音声入力情報から「ちゃんねる」とういう入力パターンが特定された場合に、「動作の対象はチャンネル」という意味情報が認識される。このようにして、音声入力情報から動作の対象を示す意味情報が認識される。また、例えば、ジェスチャ入力情報から「手を上に挙げる」とういう入力パターンが特定された場合に、「パラメータを上げる」という意味情報が認識される。また、例えば、ジェスチャ入力情報から「手を下にさげる」とういう入力パターンが特定された場合に、「パラメータを下げる」という意味情報が認識される。このようにして、各入力情報から、それぞれ無作為に定められた意味情報が認識されるのではなく、それぞれ動作の内容を示す意味情報および動作の対象を示す意味情報が認識される。これにより、ユーザは、各入力操作が意味し得る意味情報を想定しやすいため、入力操作をより容易に覚え得る。
音声記憶部132およびジェスチャ記憶部142では、図2および図3のとおり、複数の入力パターンに同一の意味情報が関連付けられ得る。図2を参照すると、例えば、「ちゃんねる」、「ばんぐみ」という2つの入力パターンに、「対象はチャンネル」という同一の意味情報が関連付けられている。また、図3を参照すると、例えば、「手を上に挙げる」、「手を押し出す」という2つの入力パターンに、「パラメータを上げる」という同一の意味情報が関連付けられている。この場合、ユーザは、特定の意味情報を装置に認識させるために細かく入力操作を覚える必要はない。ユーザは、特定の意味情報を示すいずれかの入力操作のうち覚えやすいものを覚えればよい。または、ユーザは、特定の意味情報を示すいくつかの入力操作を知り、入力操作を行う際に思い出せるものを使えばよい。その結果、ユーザが必ず覚えなければならない入力操作は減り得る。なお、入力パターンと意味情報を1対1に対応付けてもよい。
[1−2.処理の流れ]
以下では、図9を用いて、本発明の第1の実施形態に係るコマンド生成処理について説明する。図9は、第1の実施形態に係るコマンド生成処理を示すフローチャートである。
図9を参照すると、まずステップS310において、音声入力情報取得部110が、ユーザの音声による入力操作から音声入力情報を取得する。また、ジェスチャ入力情報取得部120が、ユーザの体の一部若しくは全体の動きまたは状態による入力操作からジェスチャ入力情報を取得する。
次に、ステップS320において、音声認識部130は、音声入力情報から音声による入力操作の意味する意味情報を認識する。また、ジェスチャ認識部140は、ジェスチャ入力情報から体の一部若しくは全体の動きまたは状態による入力操作の意味する意味情報を認識する。
ステップS330において、動作処理部150は、音声認識部130およびジェスチャ認識部140から、コマンドの生成に必要な意味情報が全て認識され、入力されているかを判定する。具体的には、例えば、動作処理部150は、所定の時間内に必要な意味情報が全て入力されていなければ、本処理を終了する。一方で、動作処理部150は、コマンドの生成に必要な意味情報が全て入力されていれば、コマンドの生成に必要な意味情報が全て認識されていると判定し、ステップS340へ進む。また、例えば、動作処理部150は、所定の時間毎に意味情報の有無を確認し、一方の意味情報の入力のみがあれば、所定の時間後に再度他方の意味情報の入力の有無を確認してもよい。その結果、動作処理部150は、他方の意味情報の入力がなければ、コマンドの生成に必要ないずれかの意味情報が認識されていないと判定し、本処理を終了する。他方の意味情報の入力があれば、コマンドの生成に必要な意味情報が全て認識されていると判定し、ステップS340へ進む。
次に、ステップS340において、動作処理部150は、2種類以上の意味情報を組合せることにより対象装置に所定の動作を実行させるためのコマンドを生成する。本実施形態では、動作処理部150は、認識された意味情報を組合せることにより生成できるコマンドがある場合にはコマンドを生成し、認識された意味情報を組合せることにより生成できるコマンドがない場合にはコマンドを生成しない。
ステップ350において、動作処理部150は、コマンドが生成されているかを判定する。ここで、コマンドが生成されている場合には、処理はステップS360へ進む。一方、コマンドが生成されていない場合には、本処理を終了する。
最後に、ステップ360において、動作処理部150は、生成されたコマンドに従って対象装置に所定の動作を実行させる。また、動作処理部150は、生成されたコマンドに従って所定の動作が実行された結果を示す結果情報を、対象装置またはその他の装置の表示画面に表示するように制御する。
以上が本発明の第1の実施形態に係るコマンド生成処理の流れである。なお、当該コマンド生成処理は、情報処理装置の起動時に実行され、その後コマンド生成処理の終了時に繰り返し実行されてもよい。または、当該コマンド生成処理は、例えば、所定の時間間隔で繰り返し実行されてもよい。
<2.第2の実施形態>
本発明の第2の実施形態に係る情報処理装置は、本発明の第1の実施形態に係る情報処理装置が有する機能に対して、対象装置に実行させる動作の実行量を入力操作に基づいて変える機能がさらに追加されたものである。
[2−1.情報処理装置の構成]
以下では、図10〜13を用いて、本発明の第2の実施形態に係る情報処理装置の構成について説明する。
図10は、本発明の第2の実施形態に係る情報処理装置100の機能構成を示すブロック図である。図10を参照すると、情報処理装置100は、音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142、動作処理部150、コマンド記憶部152、変化量変換部160および変化量記憶部162を有する。
このうち、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142は、第1の実施形態として[1−1.情報処理装置の構成]において説明したとおりである。よって、新たに追加されている変化量変換部160および変化量記憶部162、並びに第1の実施形態と一部の機能が相違する音声入力情報取得部110、ジェスチャ入力情報取得部120、動作処理部150およびコマンド記憶部152の相違箇所を中心に説明する。
音声入力情報取得部110は、変化量変換部160に音声入力情報を出力し、変化量変換部160は音声入力情報から所定の動作の実行量を示す実行量情報を認識する。
ジェスチャ入力情報取得部120は、変化量変換部160にジェスチャ入力情報を出力し、変化量変換部160がジェスチャ入力情報から所定の動作の実行量を示す実行量情報を認識する。本実施形態では、変化量変換部160は、音声入力情報またはジェスチャ入力情報の少なくともいずれかから実行量情報を認識する。
変化量記憶部162は、所定の動作の実行量を示す実行量情報と、音声入力情報またはジェスチャ入力情報から実行量情報を認識するための判断基準とを、変化量変換辞書として記憶する。
図11は、変化量記憶部162が記憶する変化量変換辞書の一例を示す。図11は、ジェスチャ入力情報から取得される手の動きの変化量から実行量情報を認識する場合の変化量変換辞書の例を示している。この場合、変化量変換辞書には、例えば「手の動きの変化量はX未満」、「手の動きの変化量はX以上Y未満」、「手の動きの変化量はY以上」の場合に動作の実行量を「小」、「中」、「大」とする判断基準が記憶されている。なお、動作の実行量は、数値として表されてもよい。
図12は、変化量記憶部162が記憶する変化量変換辞書の一例を示す。図12は、ジェスチャ入力情報の他の一例である目の動きにより取得した手の動きによるジェスチャ入力情報とは別の入力情報から、実行量情報を認識する場合の、変化量変換辞書の例を示している。この場合、変化量変換辞書には、例えば「目を細めている」、「画面を凝視している」場合に、動作の実行量を「画面の輝度を上げる場合:動作の実行 大、その他の場合:動作の実行 小」、「音量を上げる/下げる場合:動作の実行 大、その他の場合:動作の実行 小」とする判断基準が、記憶されている。
変化量変換部160は、例えば、変化量変換部160は、入力情報が音声入力情報である場合には、音声入力情報から取得される音量から実行量情報を認識し、入力情報がジェスチャ入力情報である場合には、ジェスチャ入力情報から取得される体の一部若しくは全部の動きまたは状態の変化量から実行量情報を認識する。
変化量変換部160は、音量から実行量情報を認識する場合、音声入力情報から音声の音量を取得する。または、変化量変換部160は、体の一部若しくは全体の動きまたは状態の変化量から実行量情報を認識する場合、ジェスチャ入力情報から体の一部若しくは全体の動きまたは状態の変化量を取得する。ここで、体の一部若しくは全体の動きの変化量とは、例えば、動きの開始時点と動きの完了時点との間で体の一部若しくは全体が変化した程度であってもよい。また、体の一部若しくは全体の状態の変化量とは、例えば、撮影等された体の一部若しくは全体の状態と基準となる体の一部若しくは全体の状態との間で、体の一部若しくは全体が相違する程度であってもよい。体の一部若しくは全体の動きまたは状態の変化量の取得は、現在までの公知のジェスチャ認識に関する従来技術を用いることにより実行され得る。次に、変化量変換部160は、判断基準によると音量または変化量が対応する動作の実行量を、変化量記憶部162から取得する。このようにして、変化量変換部160は、動作の実行量を示す実行量情報を認識する。最後に、変化量変換部160は、認識された実行量情報を動作処理部150へ出力する。
例えば、手を大きく上に挙げる動作により取得されたジェスチャ入力情報が、変化量変換部160に入力される。そして、変化量変換部160は、ジェスチャ入力情報から手の動きの変化量A3を取得する。図11を参照すると、例えば、測定された変化量A3はY以上であるため、動作の実行量が「大」という実行量情報を変化量記憶部162から取得する。このようにして、変化量変換部160は、動作の実行量が「大」という実行量情報を認識する。
なお、変化量変換部160は、意味情報を認識するために用いた音声入力情報およびジェスチャ入力情報とは異なる、別の入力操作により取得した別の入力情報から、所定の動作の実行量を示す実行量情報を認識してもよい。変化量変換部160は、上記別の入力情報が入力されると、例えば変化量記憶部162から上記別の入力情報から実行量情報を認識するための判断基準を取得する。次に、変化量変換部160は、例えば、上記別の入力情報と各判断基準との間の適合の程度を示すスコアを算出し、スコアが最も大きい判断基準を特定する。次に、変化量変換部160は、特定された判断基準に対応する実行量情報を変化量記憶部162から抽出する。例えばこのようにして、変化量変換部160は、別の入力操作により取得した上記別の入力情報から実行量情報を認識してもよい。
別の入力操作が目の動きによる入力操作である場合の例を説明する。例えば、目を細める動作により取得された上記別の入力情報が、変化量変換部160に入力される。図12を参照すると、例えば、変化量変換部160は、上記別の入力情報と各判断基準との間のスコアを算出した結果、最もスコアが大きかった判断基準である「目を細めている」を特定する。すると、変化量変換部160は、「目を細めている」という判断基準と対応する動作の実行量である「画面の輝度を下げる場合:動作の実行量 大、その他の場合:動作の実行量 小」を実行量情報として抽出する。
コマンド記憶部152は、対象装置に所定量の動作を実行させるためのコマンドと、コマンドに対応する意味情報および実行量情報との組合せとをコマンド辞書として記憶する。図13は、コマンド記憶部152が記憶するコマンド辞書の他の例を示す。図13を参照すると、コマンド辞書には、例えば「音量を1ポイント上げる」、「音量を3ポイント上げる」等のコマンドが、記憶されている。また、コマンド辞書には、「パラメータを上げる」、「動作の対象は音量」等の意味情報と「小」、「大」等の実行量情報との組合せが記憶されている。
動作処理部150は、2種類以上の意味情報および実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成する。ここでの意味情報は、音声認識部130により認識された意味情報、ジェスチャ認識部140により認識された意味情報という2種類の意味情報である。動作処理部150は、意味情報を入力されるだけではなく、変化量変換部160により実行量情報を入力されると、意味情報および実行量情報の組合せと対応するコマンドをコマンド記憶部152から取得する。
[2−2.処理の流れ]
以下では、図14を用いて、本発明の第2の実施形態に係るコマンド生成処理について説明する。図14は、第2の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップS310、ステップS320、ステップS330、ステップS350およびステップS360は、[1−2.処理の流れ]にて説明した第1の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップS322、および第1の実施形態と一部の処理が相違するステップS340の相違箇所を中心に説明する。
ステップ322において、変化量変換部160は、意味情報を認識するための音声入力情報またはジェスチャ入力情報のうちいずれかの入力情報から、所定の動作の実行量を示す実行量情報を認識する。
また、ステップ340において、動作処理部150は、2種類以上の意味情報および実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成する。
<3.第3の実施形態>
本発明の第3の実施形態に係る情報処理装置は、本発明の第1の実施形態に係る情報処理装置が有する機能に対して、各ユーザの特性に合わせた意味情報の認識を行う機能がさらに追加されたものである。
[3−1.情報処理装置の構成]
以下では、図15〜17を用いて、本発明の第3の実施形態に係る情報処理装置の構成について説明する。
図15は、本発明の第3の実施形態に係る情報処理装置100の機能構成を示すブロック図である。図15を参照すると、情報処理装置100は、音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142、動作処理部150、コマンド記憶部152および個人判別部170を有する。
このうち、動作処理部150およびコマンド記憶部152は、第1の実施形態として[1−1.情報処理装置の構成]において説明したとおりである。よって、新たに追加されている個人判別部170、並びに第1の実施形態と一部の機能が相違する音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140およびジェスチャ記憶部142の相違箇所を中心に説明する。
音声入力情報取得部110は、個人判別部170が音声入力情報から入力操作を行うユーザのユーザIDを特定する場合には、個人判別部170に音声入力情報を出力する。
ジェスチャ入力情報取得部120は、個人判別部170がジェスチャ入力情報から入力操作を行うユーザのユーザIDを特定する場合には、個人判別部170にジェスチャ入力情報を出力する。
個人判別部170は、予め登録されたユーザIDの中から、入力操作を行うユーザのユーザIDを特定する。個人判別部170は、例えば、ユーザによる入力操作により取得した音声入力情報またはジェスチャ入力情報から、予め登録されたユーザIDを特定する。例えば、音声入力情報からユーザIDを特定する場合、個人判別部170は、音声入力情報が入力されると、音声入力情報の中の音声情報と予め登録された各ユーザの音声の特徴量とを比較する。個人判別部170は、比較の結果に基づき、例えば最も適合する特徴量を特定することにより、ユーザIDを特定する。また、ジェスチャに入力情報からユーザIDを特定する場合、個人判別部170は、ジェスチャ力情報が入力されると、例えばジェスチャ力情報の中のユーザの顔の画像と予め登録された各ユーザの顔の特徴量とを比較する。個人判別部170は、比較の結果に基づき、例えば最も適合する特徴量を特定することにより、ユーザIDを特定する。最後に、個人判別部170は、特定されたユーザIDを音声認識部130およびジェスチャ認識部140へ出力する。なお、個人判別部170は、ユーザIDの特定のために、意味情報を認識するための入力情報を使用せずに、別の情報を使用してもよい。例えば、ユーザIDカードからの読込情報、リモコン、マウス、キーボード等の入力装置により入力されたユーザID情報等の、意味情報を認識するための入力情報以外の別の入力情報が、使用されてもよい。
音声記憶部132はおよびジェスチャ記憶部142は、それぞれユーザID毎の音声認識辞書およびジェスチャ認識辞書を記憶する。
図16は、ユーザID毎の音声認識辞書およびジェスチャ認識辞書の一例を示す。図16には、ユーザID毎に予め定められた入力パターンが記憶された、ユーザID毎の音声認識辞書およびジェスチャ認識辞書の例を示している。図16を参照すると、ユーザAの音声認識辞書には、例えば「ちゃんねる」、「おんりょう」等の入力パターンが記憶されている。一方で、ユーザBの音声認識辞書には、「ばんぐみ」、「ぼりゅうむ」等の入力パターンが記憶されている。また、ユーザAのジェスチャ認識辞書には、例えば「手を上に挙げる」、「手を下に下げる」等の入力パターンが記憶されている。一方で、ユーザBのジェスチャ認識辞書には、「手を押し出す」、「手を引き戻す」等の入力パターンが記憶されている。なお、入力パターンに関連付けられた意味情報も記憶されている。
また、図17は、ユーザID毎の音声認識辞書およびジェスチャ認識辞書の他の例を示す。図17には、入力パターンに対してユーザID毎に予め定められた優先度が記憶された、ユーザID毎の音声認識辞書およびジェスチャ認識辞書の例を示している。図17を参照すると、ユーザAの音声認識辞書には、例えば「ちゃんねる」という入力パターンに対して、優先度として例えば「+0.5」というスコア付加値が記憶されている。一方で、ユーザBの音声認識辞書には、例えば「ちゃんねる」という入力パターンに対して、優先度として例えば「+0」というスコア付加値が記憶されている。また、ユーザAのジェスチャ認識辞書には、例えば「手を押し戻す」という入力パターンに対して、優先度として例えば「+0」というスコア付加値が記憶されている。一方で、ユーザBのジェスチャ認識辞書には、例えば「手を押し戻す」という入力パターンに対して、優先度として例えば「+0.5」というスコア付加値が記憶されている。なお、図17には表示されていないものの、入力パターンに関連付けられた意味情報も記憶されている。
音声認識部130およびジェスチャ認識部140は、特定されたユーザIDに応じて、入力操作を行うユーザの特性に合わせた意味情報を認識する。例えば、音声認識部130およびジェスチャ認識部140は、特定されたユーザIDに応じて、ユーザID毎の入力パターンのうち、入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。
音声認識部130およびジェスチャ認識部140は、ここでは同様の処理を行うため、音声認識部130を例にとって説明する。音声認識部130は、音声入力情報取得部110により音声入力情報を入力され、また個人判別部170により特定されたユーザIDが入力される。音声認識部130は、特定されたユーザIDの音声認識辞書に記憶されている、特定されたユーザIDに対して予め定められた入力パターンを取得する。次に、音声認識部130は、例えば、音声入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、スコアが最も大きい入力パターンを特定する。次に、音声認識部130は、特定されたユーザIDの音声認識辞書において、特定された入力パターンに関連付けられた意味情報を、音声記憶部132から抽出する。このようにして、音声認識部130は、例えばユーザID毎に予め定められた入力パターンを用いて、ユーザの特性に合わせた意味情報を認識する。
例えば、ユーザAによる「おんりょう」という音声により取得された音声入力情報が、音声認識部130に入力される。図16を参照すると、例えば、音声認識部130は、ユーザAの音声認識辞書に記憶された入力パターンである「おんりょう」を特定する。すると、音声認識部130は、「おんりょう」と関連付けられた意味情報である「動作の対象は音量」を意味情報として抽出する。
なお、音声認識部130およびジェスチャ認識部140は、特定されたユーザIDに応じて、入力パターンに対してユーザID毎に予め定められた優先度に基づいて、入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出してもよい。例えば、音声認識部130は、音声入力情報取得部110により音声入力情報を入力され、また個人判別部170により特定されたユーザIDが入力される。音声認識部130は、特定されたユーザIDの音声認識辞書に記憶されている、入力パターン、および当該入力パターンに対して予め定められた優先度である例えばスコア付加値を取得する。次に、音声認識部130は、例えば、音声入力情報と各入力パターンとの間の適合の程度を示すスコアを算出し、当該スコアと各入力パターンのスコア付加値の和を算出する。音声認識部130は、例えば、当該和が最も大きい入力パターンを特定する。次に、音声認識部130は、特定されたユーザIDの音声認識辞書において、特定された入力パターンに関連付けられた意味情報を、音声記憶部132から抽出する。このようにして、音声認識部130は、例えばユーザID毎に予め定められた優先度を用いて、ユーザの特性に合わせた意味情報を認識する。
上記のように、入力操作をユーザの特性に合わせた意味情報を認識する手法の具体的な例として、ユーザID毎に予め定められた入力パターンを用いる場合、ユーザID毎に予め定められた優先度を用いる場合を説明した。しかしながら、入力操作をユーザの特性に合わせた意味情報を認識する手法は、これらの具体的な例に限られず、他の具体的な手法により実行されてもよい。
[3−2.処理の流れ]
以下では、図18を用いて、本発明の第3の実施形態に係るコマンド生成処理について説明する。図18は、第3の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップS310、ステップS330、ステップS340、ステップS350およびステップS360は、[1−2.処理の流れ]にて説明した第1の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップS312、ステップS314、ステップS316およびステップS318、並びに第1の実施形態と一部の処理が相違するステップS320の相違箇所を中心に説明する。
ステップ312において、個人判別部170は、音声入力情報またはジェスチャ入力情報から、予め登録されたユーザIDの中から、入力操作を行うユーザのユーザIDを特定する。
ステップ314において、個人判別部170は、ユーザIDは既に登録されているかを判定する。ここで、ユーザIDが登録されていない、つまりユーザIDが特定されなかった場合には、個人判別部170は、ユーザIDが特定できなかったこと示す通知を音声認識部130およびジェスチャ認識部140に出力する。その後、処理はステップS316へ進む。一方、ユーザIDが登録されている、つまりユーザIDが特定された場合には、個人判別部170は、ユーザIDを音声認識部130およびジェスチャ認識部140に出力する。その後、処理はステップS318へ進む。
ステップ316において、音声認識部130およびジェスチャ認識部140は、それぞれ汎用の音声認識辞書および汎用のジェスチャ認識辞書を使用することを決定する。
ステップ318において、音声認識部130およびジェスチャ認識部140は、それぞれユーザID毎の音声認識辞書およびユーザID毎のジェスチャ認識辞書は使用することを決定する。
また、ステップ320において、音声認識部130およびジェスチャ認識部140は、それぞれ使用することを決定した音声認識辞書およびジェスチャ認識辞書を用いて、意味情報を認識する。特にユーザID毎の音声認識辞書およびジェスチャ認識辞書を使用する場合には、音声認識部130およびジェスチャ認識部140は、特定されたユーザIDに応じて、入力操作を行うユーザの特性に合わせた意味情報を認識する。例えば、音声認識部130およびジェスチャ認識部140は、特定されたユーザIDに応じて、ユーザID毎の入力パターンのうち、入力情報に対応する入力パターンを特定し、当該入力パターンに関連付けられた意味情報を抽出する。
<4.第4の実施形態>
本発明の第4の実施形態に係る情報処理装置は、本発明の第1の実施形態に係る情報処理装置が有する機能に対して、コマンドを生成するために入力操作の一部を省略することを可能とする機能がさらに追加されたものである。
[4−1.情報処理装置の構成]
以下では、図19〜24を用いて、本発明の第4の実施形態に係る情報処理装置の構成について説明する。
図19は、本発明の第4の実施形態に係る情報処理装置100の機能構成を示すブロック図である。図19を参照すると、情報処理装置100は、音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142、動作処理部150、コマンド記憶部152、動作内容記憶部154および頻度情報記憶部156を有する。
このうち、音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140およびジェスチャ記憶部142は、第1の実施形態として[1−1.情報処理装置の構成]において説明したとおりである。よって、新たに追加されている動作内容記憶部154および頻度情報記憶部156、並びに第1の実施形態と一部の機能が相違する動作処理部150およびコマンド記憶部152の相違箇所を中心に説明する。
動作内容記憶部154は、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドを記憶する。例えば図9に示したコマンド生成処理を繰り返す毎に1つのコマンドを生成する動作内容記憶部154は、動作処理部150がコマンドを生成する度に、動作処理部150から当該コマンドを取得する。そして、動作内容記憶部154は、当該コマンドに基づき記憶しているコマンドを更新する。なお、動作内容記憶部154は、動作処理部150により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンドを記憶してもよい。
図20は、動作内容記憶部154が記憶する情報の一例を示す。図20を参照すると、動作内容記憶部154は、例えば最新に生成されたコマンドから過去に向かって連続的に生成されたN個のコマンドを記憶する。例えば、「音量を挙げる」というコマンドが最新のコマンドとして記憶されている。また、例えば、「音量を挙げる」というコマンドに対応する「パラメータを挙げる」、「動作の対象は音量」という意味情報も記憶されている。
頻度情報記憶部156は、各コマンドの生成頻度を記憶する。頻度情報記憶部156は、例えば、動作内容記憶部154が新たなコマンドを取得する度に、動作内容記憶部154から当該コマンドを取得する。そして、頻度情報記憶部156は、当該コマンドに基づき記憶している各コマンドの生成頻度を更新する。なお、コマンドの生成頻度は、例えば、所定の期間内にコマンドが生成された回数を示す。
図21は、頻度情報記憶部156が記憶する情報の一例を示す。図21を参照すると、例えば、「チャンネルを昇順に変える」というコマンドに対して、「8回」というコマンドの生成頻度が記憶されている。また、「チャンネルを昇順に変える」というコマンドに対して、「パラメータを上げる」、「動作の対象はチャンネル」という意味情報も記憶されている。
コマンド記憶部152は、各コマンドおよびそれに対応する意味情報の組合せに加えて、省略対象に指定されているコマンドを示す省略対象情報を記憶する。例えば、コマンド記憶部152は、各コマンドに対して、省略対象であるか否かを示す省略対象識別情報を記憶する。
図22は、コマンド記憶部152が記憶するコマンド辞書の一例を示す。図22を参照すると、例えば、コマンドの右側に省略対象であるか否かを示す省略対象識別情報が設けられ、ここでは「音量を上げる」というコマンドが省略対象として指定されている。
動作処理部150は、コマンドが入力操作の一部を省略することが可能な省略対象に指定されている場合に、コマンドを生成するための2種類以上の意味情報のうち1種類以上の意味情報が認識されると、コマンドを生成する。ここでの意味情報は、音声認識部130により認識された意味情報、ジェスチャ認識部140により認識された意味情報という2種類の意味情報である。例えば所定の時間内に、音声認識部130またはジェスチャ認識部140のいずれか一方のみから意味情報を入力された場合に、動作処理部150は、コマンド記憶部152内で、入力された意味情報から生成され得るコマンドであって省略対象に指定されているものを検索する。省略対象に指定されているコマンドがあれば、動作処理部150は、コマンド記憶部152から当該コマンドを取得する。省略対象に指定されているコマンドが存在する場合、動作処理部150は、当該コマンドを対象装置に所定の動作を実行させるためのコマンドとして決定する。このようにして、動作処理部150は、省略対象に指定されているコマンドを生成する。
例えば、動作処理部150は、ジェスチャ認識部140により「パラメータを上げる」という意味情報を入力され、音声認識部130により意味情報が入力されない。図22を参照すると、「音量を上げる」というコマンドが省略対象に指定されているため、動作処理部150は、「パラメータを上げる」という意味情報から、「音量を上げる」というコマンドをコマンド記憶部152から取得する。そして、動作処理部150は、「音量を上げる」というコマンドを対象装置に所定の動作を実行させるためのコマンドとして決定する。
また、動作処理部150は、特定のコマンドを省略対象として指定する。例えば、動作処理部150は、コマンドの生成頻度に基づいて、特定のコマンドを省略対象として指定する。例えば、動作処理部150は、頻度情報記憶部156に記憶されているコマンドのうち生成頻度の最も高いコマンドを省略対象に指定する。図21を参照すると、例えば、動作処理部150は、生成頻度が「15回」である「音量を上げる」というコマンドを省略対象に指定する。
例えば、動作処理部150は、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドのうち少なくとも1つ以上のコマンドに基づいて、特定のコマンドを省略対象として指定する。例えば、動作処理部150は、動作内容記憶部154に記憶されているコマンドのうち最新に生成されたコマンドを省略対象に指定する。図20を参照すると、例えば、動作処理部150は、最新に生成されたコマンドである「音量を上げる」というコマンドを省略対象に指定する。なお、動作処理部150は、動作処理部150により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンドに基づいて、特定のコマンドを省略対象として指定してもよい。
例えば、動作処理部150は、ユーザにより指定された省略対象に関する情報に基づいて、特定のコマンドを省略対象として指定する。例えば、動作処理部150は、所定の表示画面にコマンドの一覧を表示するように制御し、ユーザの入力操作により選択されたコマンドを省略対象として指定する。図23は、省略対象のコマンドの候補を表示する表示画面の一例を示す。図23を参照すると、動作処理部150は、例えば、ユーザの入力操作により選択された「音量を上げる」というコマンドを省略対象に指定する。
なお、動作処理部150は、コマンドにより所定の動作が実行される前に、当該所定の動作の実行の可否をユーザに確認させるための確認表示を、対象装置またはその他の装置の表示画面に表示するように制御してもよい。図24は、コマンドの実行可否の確認表示を表示する表示画面の一例を示す。図24を参照すると、例えば、「音量を上げる」という省略対象に指定されているコマンドが生成された場合に、動作処理部150は、「音量を上げますか?」という確認表示を、対象装置またはその他の装置の表示画面に表示するように制御する。
[4−2.処理の流れ]
以下では、図25を用いて、本発明の第4の実施形態に係るコマンド生成処理について説明する。図25は、第4の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップS310、ステップS320、ステップS330、ステップS340、ステップS350およびステップS360は、[1−2.処理の流れ]にて説明した第1の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップS410、ステップS420、ステップS430およびステップS440を中心に説明する。
ステップS410において、動作処理部150は、コマンドを生成するための2種類の意味情報のうち一方の意味情報が認識されているかを判定する。ここで、一方の意味情報が認識されていれば、処理はステップS420へ進む。一方、いずれの意味情報も認識されていない場合には、本処理を終了する。
次に、ステップS420において、動作処理部150は、入力された一方の意味情報から生成され得るコマンドであって省略対象に指定されているものがあるかを判定する。例えば、動作処理部150は、入力された一方の意味情報に基づいてコマンド記憶部152から当該コマンドを取得する。ここで、上記コマンドがあれば、処理はステップS430へ進む。一方、上記コマンドがなければ、本処理を終了する。
次に、ステップS430において、動作処理部150は、省略対象として指定されているコマンドを生成する。例えば、動作処理部150は、上記のようにコマンド記憶部152から取得している上記コマンドを、対象装置に所定の動作を実行させるためのコマンドとして決定する。
最後に、ステップS440において、動作処理部150は、特定のコマンドを省略対象として指定する。
<5.第5の実施形態>
本発明の第5の実施形態に係る情報処理装置は、本発明の第1の実施形態に係る情報処理装置が有する機能に対して、ユーザにより入力操作の一部が行われた場合に、さらなる入力操作の候補をユーザに提示することを可能とする機能が、さらに追加されたものである。また、ユーザにより入力操作の一部が行われた場合に、コマンドにより動作が実行される前における当該動作の対象の状態をユーザに提示することを可能とする機能が、さらに追加されたものである。
[5−1.情報処理装置の構成]
以下では、図26〜30を用いて、本発明の第5の実施形態に係る情報処理装置の構成について説明する。
図26は、本発明の第5の実施形態に係る情報処理装置100の機能構成を示すブロック図である。図26を参照すると、情報処理装置100は、音声入力情報取得部110、ジェスチャ入力情報取得部120、音声認識部130、音声記憶部132、ジェスチャ認識部140、ジェスチャ記憶部142、動作処理部150、コマンド記憶部152および時系列管理部180を有する。
このうち、音声認識部130、ジェスチャ認識部140およびコマンド記憶部152は、第1の実施形態として[1−1.情報処理装置の構成]において説明したとおりである。よって、新たに追加されている時系列管理部180、並びに第1の実施形態と一部の機能が相違する音声入力情報取得部110、ジェスチャ入力情報取得部120、音声記憶部132、ジェスチャ記憶部142および動作処理部150の相違箇所を中心に説明する。
音声入力情報取得部110は、音声による入力操作から音声入力情報を取得すると、音声入力情報を取得したことを示す音声取得済情報を時系列管理部180へ出力する。
ジェスチャ入力情報取得部120は、体の一部若しくは全部の動きまたは状態による入力操作からジェスチャ入力情報を取得すると、ジェスチャ入力情報を取得したことを示すジェスチャ取得済情報を時系列管理部180へ出力する。
音声記憶部132は、入力パターンを、例えばデジタル化された音声情報や音声に関する特徴量等の音声入力情報との比較が可能な形式で記憶する。それに加えて、音声記憶部132は、さらに入力パターンを、当該入力パターンに対応する入力操作をユーザが理解できる文字情報等の形式でも記憶する。音声記憶部132は、動作処理部150からの要求に応じて当該入力パターンを動作処理部150に出力する。
ジェスチャ記憶部142は、入力パターンを、例えば手の動きに関する動画像や手の動きに関する特徴量等の、ジェスチャ入力情報との比較が可能な形式で記憶する。それに加えて、ジェスチャ記憶部142は、さらに入力パターンを、文字情報や入力操作を示す動画像または静止画像等の、当該入力パターンに対応する入力操作をユーザが理解できる形式でも記憶する。ジェスチャ記憶部132は、動作処理部150からの要求に応じて当該入力パターンを動作処理部150に出力する。
時系列管理部180は、音声入力情報およびジェスチャ入力情報の取得状況を時系列で記憶する。また、時系列管理部180は、動作処理部150からの要求に応じて音声入力情報およびジェスチャ入力情報の取得状況を動作処理部150に出力する。時系列管理部180は、例えば上記音声取得済情報およびジェスチャ取得済情報により、音声入力情報およびジェスチャ入力情報の取得状況を時系列で把握し得る。
動作処理部150は、コマンドの生成のために必要な意味情報のうち1種類以上の意味情報が認識されていない場合に、認識されていない意味情報の候補を特定し、当該候補の意味情報を意味する入力操作を、対象装置またはその他の装置の表示画面に表示するように制御する。
動作処理部150は、例えば、所定の時間内に、音声認識部130またはジェスチャ認識部140のいずれか一方のみから意味情報の入力を受けた場合に、残りの意味情報を認識するための入力情報が取得されているかを時系列管理部180に確認する。そして、当該入力情報が取得されていない場合に、動作処理部150は、コマンド記憶部152から、既に認識されている意味情報と組合されて記憶されている意味情報を、認識されていない意味情報の候補として取得する。次に、動作処理部150は、例えば、音声記憶部132またはジェスチャ記憶部142から、上記候補の意味情報と関連付けられた入力パターンを取得する。そして、動作処理部150は、取得した入力パターンに基づいて、当該入力パターンに対応する入力操作をユーザが理解できる形式で、対象装置またはその他の装置の表示画面に表示するように制御する。表示される当該入力操作が、コマンドを生成するためのユーザによる入力操作の候補となる。
図27は、入力操作の候補を表示する表示画面の一例を示す。図27には、ユーザが「手を上に挙げる」という手の動きによる入力操作を行った場合の表示画面の例が示されている。図3を参照すると、「手を上に挙げる」という入力操作により、「パラメータを挙げる」という意味情報が、ジェスチャ認識部140により認識される。よって、動作処理部150は、「パラメータを挙げる」という意味情報をジェスチャ認識部140から入力される。さらに図5を参照すると、コマンド記憶部152のコマンド辞書には、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報が、「手を上に挙げる」という意味情報と組合されて記憶されている。よって、動作処理部150は、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報の候補をコマンド記憶部152から取得する。また、図2を参照すると、音声記憶部132の音声認識辞書には、「ちゃんねる」、「ばんぐみ」、「おんりょう」という入力パターンが、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報と関連付けられて記憶されている。よって、動作処理部150は、「ちゃんねる」、「ばんぐみ」、「おんりょう」という入力パターンを音声記憶部132から取得する。そして、動作処理部150は、図27に示されるとおり、「チャンネル」、「音量」、「明るさ」という音声による入力操作の候補を表示画面に表示するよう制御する。
図28は、入力操作の候補を表示する表示画面他の例を示す。図28には、ユーザが「おんりょう」という音声による入力操作を行った場合の表示画面の例が示されている。動作処理部150は、上記と同様の処理を行った上で、図28に示されるとおり、「手を上に挙げる」、「手を下にさげる」という手の動きによる入力操作の候補を表示画面に表示するように制御する。
なお、動作処理部150は、コマンドの生成のために必要な意味情報のうち1種類以上の意味情報が認識されていない場合に、認識されていない意味情報の候補を特定し、当該候補の意味情報と既に認識された意味情報により生成されるコマンドを特定し、当該コマンドにより所定の動作が実行される前の、対象装置に関する当該動作の対象の状態を、対象装置またはその他の装置の表示画面に表示するように制御してもよい。
動作処理部150は、例えば、上記のように入力操作の候補を表示する場合と同じ処理により、認識されていない意味情報の候補として取得する。次に、動作処理部150は、例えば、コマンド記憶部152から、既に認識されている意味情報と上記候補の意味情報との組合せに対応するコマンドを取得する。そして、動作処理部150は、当該コマンドにより所定の動作が実行される前の、対象装置に関する当該動作の対象の状態を、表示画面に表示するように制御する。
図29は、対象装置に関する動作の対象の状態を表示する表示画面の一例を示す。図29には、ユーザが「手を上に挙げる」という手の動きによる入力操作が行った場合の表示画面の例が示されている。図27の場合と同様に、動作処理部150は、
「パラメータを上げる」という意味情報をジェスチャ認識部140から入力される。また、図27の場合と同様に、動作処理部150は、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という意味情報の候補をコマンド記憶部152から取得する。図5を参照すると、コマンド記憶部152のコマンド辞書には、「チャンネルを昇順に変える」、「音量を上げる」、「画面の輝度を上げる」というコマンドが「パラメータを上げる」という既に認識された意味情報と、「動作の対象はチャンネル」、「動作の対象は音量」、「動作の対象は画面の輝度」という候補の意味情報との組合せに対応して記憶されている。よって、動作処理部150は、「チャンネルを昇順に変える」、「音量を上げる」、「画面の輝度を上げる」というコマンドをコマンド記憶部152から取得する。そして、動作処理部150は、図29に示されるとおり、「チャンネルを昇順に変える」、「音量を上げる」、「画面の輝度を上げる」というコマンドにより動作が実行される前の、「チャンネル」、「音量」、「画面の輝度」の状態を、表示画面に表示するよう制御する。
図30は、対象装置に関する動作の対象の状態を表示する表示画面の他の例を示す。図30には、ユーザが「おんりょう」という音声による入力操作を行った場合の表示画面の例が示されている。動作処理部150は、上記と同様の処理を行った上で、「音量を上げる」、「音量を下げる」というコマンドにより動作が実行される前の、「音量」の状態を、表示画面に表示するよう制御する。
[5−2.処理の流れ]
以下では、図31を用いて、本発明の第5の実施形態に係るコマンド生成処理について説明する。図31は、第5の実施形態に係るコマンド生成処理を示すフローチャートである。この中で、ステップS310、ステップS320、ステップS330、ステップS340、ステップS350およびステップS360は、[1−2.処理の流れ]にて説明した第1の実施形態に係るコマンド生成処理と同じである。よって、ここでは新たに追加されているステップS410、ステップS450、ステップS460、ステップS470、ステップS480およびステップS490を中心に説明する。
ステップS410において、動作処理部150は、コマンドを生成するための2種類の意味情報のうち一方の意味情報が認識されているかを判定する。ここで、一方の意味情報が認識されていれば、処理はステップS450へ進む。一方、いずれの意味情報も認識されていない場合には、本処理を終了する。
ステップS450において、動作処理部150は、意味情報を認識するための他方の入力情報が存在するかを、時系列管理部180に確認する。ここで、他方の入力情報が既に存在していれば、処理はステップS480へ進む。一方、他方の入力情報が未だ存在していなければ、処理はステップS460へ進む。
ステップS460において、動作処理部150は、認識されていない意味情報の候補を特定し、当該候補の意味情報を意味する入力操作を、対象装置またはその他の装置の表示画面に表示するように制御する。
ステップS470において、例えばユーザがさらなる入力操作を所定の時間内に行うと、音声入力情報取得部110またはジェスチャ入力情報取得部120は、当該入力操作により音声入力情報またはジェスチャ入力情報を取得する。
ステップS480において、音声認識部130またはジェスチャ認識部140は、取得された音声入力情報またはジェスチャ入力情報から、上記他方の意味情報を認識する。
ステップS490において、動作処理部150は、他方の意味情報が認識されているかを判定する。ここで、他方の意味情報が認識されていれば、処理ステップはステップS340へ進む。一方、他方の意味情報が認識されていない場合には、本処理を終了する。
<6.発明の各実施形態に係る情報処理装置のハードウェア構成>
次に、図32を参照しながら、本発明の各実施形態に係る情報処理装置100のハードウェア構成について、詳細に説明する。図32は、本発明の各実施形態に係る情報処理装置100のハードウェア構成の一例を示すブロック図である。
情報処理装置100は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置100は、更に、ホストバス907と、ブリッジ909と、外部バス911と、インターフェース913と、入力装置915と、出力装置917と、ストレージ装置919と、ドライブ921と、接続ポート923と、通信装置925とを備える。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置100内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。
ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス911に接続されている。
入力装置915は、例えば、マイク、カメラ等ユーザの入力操作から入力情報を取得するための手段である。また、入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバー等ユーザが操作する操作手段である。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置100の操作に対応した携帯電話やPDA等の外部接続機器929であってもよい。さらに、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置100のユーザは、この入力装置915を操作することにより、情報処理装置100に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプ等の表示装置や、スピーカおよびヘッドホン等の音声出力装置や、プリンタ装置、携帯電話、ファクシミリ等がある。出力装置917は、例えば、情報処理装置100が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置100が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
ストレージ装置919は、情報処理装置100の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および入力装置915または外部から取得した音響信号データや画像信号データ等を格納する。
ドライブ921は、記録媒体用リーダライタであり、情報処理装置100に内蔵、あるいは外付けされる。ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録を書き込むことも可能である。リムーバブル記録媒体927は、例えば、DVDメディア、HD−DVDメディア、Blu−rayメディア等である。また、リムーバブル記録媒体927は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ、または、SDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体927は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
接続ポート923は、機器を情報処理装置100に直接接続するためのポートである。接続ポート923の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート923の別の例として、RS−232Cポート、光オーディオ端子、HDMI(High−Definition Multimedia Interface)ポート等がある。この接続ポート923に外部接続機器929を接続することで、情報処理装置100は、外部接続機器929から直接音響信号データや画像信号データを取得したり、外部接続機器929に音響信号データや画像信号データを提供したりする。
通信装置925は、例えば、通信網931に接続するための通信デバイス等で構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデム等であってもよい。この通信装置925は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置925に接続される通信網931は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等であってもよい。
以上、本発明の実施形態に係る情報処理装置100の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
<7.まとめ>
ここまで、図1〜図32を用いて、本発明の各実施形態について説明した。第1の実施形態によれば、様々な効果が得られ得る。まず、2種類以上の入力操作を組合せることにより、ユーザが覚えなければならない入力操作の数を減らすことが可能となる。例えば、音声による入力操作と手の動きによる入力操作が組合せられる場合に、ユーザは、5個の音声による入力操作および5個の手の動きによる入力操作の計10個の入力操作を覚えることにより、最大でその組合せの数である25個のコマンドを生成させ得る。一方で、手の動きによる入力操作のみが用いられる場合に、ユーザが25個のコマンドを生成させるために、ユーザは25個の手の動きによる入力操作を覚えなければならない。
また、2種類以上の入力操作を組合せることにより、入力操作の種類毎の入力パターンの数が減るため、入力操作から意図していない入力パターンが特定され、その結果意図していない意味情報が認識されるという誤入力の可能性を低減し得る。
また、例えば1種類の入力操作が動作の内容を示す意味情報を意味し、別の1種類の入力操作が動作の対象を示す意味情報を意味する場合に、ユーザは、各入力操作が意味し得る意味情報を想定しやすいため、入力操作をより容易に覚え得る。
また、例えば複数の入力パターンに同一の意味情報が関連付けられる場合に、ユーザが必ず覚えなければならない入力操作は減るため、ユーザが入力操作を覚える負担は軽減され得る。
また、第2の実施形態によれば、第1の実施形態に関する上記効果に加えて、ユーザは、入力操作により、対象装置に単に所定の動作を実行させるだけではなく、対象装置に所望の実行量で動作を実行させ得る。これにより、簡単な入力操作により、より細かい操作指示を示すコマンドを生成でき、対象装置をより正確に動作させることができる。
また、第3の実施形態によれば、第1の実施形態に関する上記効果に加えて、各ユーザは容易に入力操作を行い得る。例えば、ユーザID毎に予め定められた入力パターンを用いる場合、あるいはユーザID毎に予め定められた優先度を用いる場合に、ユーザの特性を考慮してコマンドが生成されるため、ユーザが使用しない入力操作が誤って特定され、意図しない意味情報が認識される可能性が低減され得る。またユーザが使用する入力操作が正しく特定され、意図した意味情報が認識される可能性が高まり得る。
また、第4の実施形態によれば、第1の実施形態に関する上記効果に加えて、ユーザは入力操作の一部を省略し得る。これにより、ユーザにとっての入力操作の負担が軽減され得る。
また、第5の実施形態によれば、第1の実施形態に関する上記効果に加えて、ユーザは、入力操作の一部を行うと、コマンドを生成するための残りの入力操作を把握し得る。また、ユーザは、入力操作の一部を行うと、コマンドにより動作が実行される前における当該動作の対象の状態を把握し得る。したがって、ユーザは次の入力操作のための参考情報を得ることができるため、ユーザにとっての利便性が向上し得る。
なお、上記第1〜第5の実施形態において、各部の動作は互いに関連しており、互いの関連を考慮しながら、一連の動作及び一連の処理として置き換えることができる。これにより、情報処理装置の実施形態を、情報処理装置のコマンド生成方法の実施形態及び情報処理装置が有する機能をコンピュータに実現させるためのプログラムの実施形態とすることができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、各実施形態では、入力情報から意味情報を認識するために、予め入力操作をパターン化した入力パターンを用いる例が説明されたが、本発明はかかる例に限定されない。情報処理装置は、入力情報から直接的に意味情報を認識し、または別の種類の情報を介して入力情報から意味情報を認識してもよい。
また、各実施形態では、入力パターン、意味情報、コマンド等の情報が情報処理装置内に記憶されている例が説明されたが、本発明はかかる例に限定されない。各情報は、情報処理装置に接続された別の装置に記憶され、情報処理装置は、適宜当該別の装置から各情報を取得してもよい。
また、各実施形態では、2種類以上の入力操作として音声による入力操作と体の一部若しくは全部の動きまたは状態による入力操作が用いられているが、本発明はかかる例に限定されない。2種類の入力操作ではなく、3種類以上の入力操作が用いられてもよい。また、例えばリモートコントローラ、マウス、キーボード、タッチパネル等の、音声または体の一部若しくは全部の動きまたは状態以外を用いた入力操作が用いられてもよい。
また、各実施形態は、理解しやすくするために分けて説明されているが、本発明はかかる例に限定されない。各実施形態は適宜組合せてもよい。例えば、第2の実施形態と第3の実施形態を組合せて、情報処理装置は、変化量変換部および個人判別部の両方を有してもよい。この場合に、例えば、変化量記憶部はユーザ毎の変化量変換辞書を記憶してもよく、変化量変換部は、特定されたユーザIDに応じて動作の実行量を示す実行量情報を認識してもよい。
100 情報処理装置
110 音声入力情報取得部
120 ジェスチャ入力情報取得部
130 音声認識部
132 音声記憶部
140 ジェスチャ認識部
142 ジェスチャ記憶部
150 動作処理部
152 コマンド記憶部
160 変化量変換部
170 個人判別部

Claims (17)

  1. 2種類以上の異なる入力操作により取得した2種類以上の入力情報から、該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、
    2種類以上の前記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、
    を備える情報処理装置。
  2. 前記入力認識部は、前記2種類以上の入力情報から少なくとも前記所定の動作の対象を示す意味情報と前記所定の動作の内容を示す意味情報とを認識する、請求項1に記載の情報処理装置。
  3. 前記2種類以上の入力情報は、音声による入力操作により取得した音声入力情報、および体の一部若しくは全部の動きまたは状態による入力操作により取得した1種類以上のジェスチャ入力情報のうちの、少なくとも2種類以上の入力情報を含む、請求項1に記載の情報処理装置。
  4. 前記情報処理装置は、前記2種類以上の入力情報および別の入力操作により取得した別の入力情報のうち、いずれかの入力情報から、前記所定の動作の実行量を示す実行量情報を認識する変化量変換部をさらに備え、
    前記動作処理部は、前記2種類以上の前記意味情報および前記実行量情報を組合せることにより、対象装置に所定量の動作を実行させるためのコマンドを生成する、
    請求項1に記載の情報処理装置。
  5. 前記いずれかの入力情報は、音声による入力操作により取得した音声入力情報、または体の一部若しくは全部の動きまたは状態による入力操作により取得したジェスチャ入力情報であり、
    前記変化量変換部は、前記いずれかの入力情報が前記音声入力情報である場合には、前記音声入力情報から取得される音量から前記実行量情報を認識し、前記いずれかの入力情報が前記ジェスチャ入力情報である場合には、前記ジェスチャ入力情報から取得される体の一部若しくは全部の動きまたは状態の変化量から前記実行量情報を認識する、
    請求項4に記載の情報処理装置。
  6. 前記情報処理装置は、予め登録されたユーザIDの中から、前記入力操作を行うユーザのユーザIDを特定する個人判別部をさらに備え、
    前記入力識別部は、前記特定されたユーザIDに応じて、前記入力情報の種類毎に前記入力操作を行うユーザの特性に合わせた意味情報を認識する、
    請求項1に記載の情報処理装置。
  7. 前記入力識別部は、前記特定されたユーザIDに応じて、前記入力情報の種類毎に、ユーザID毎に予め入力操作をパターン化した入力パターンのうち、前記各入力情報に対応する前記入力パターンを特定し、該入力パターンに関連付けられた前記意味情報を抽出する、
    請求項6に記載の情報処理装置。
  8. 前記入力識別部は、前記特定されたユーザIDに応じて、前記入力情報の種類毎に、予め入力操作をパターン化した入力パターンに対してユーザID毎に予め定められた優先度に基づいて、前記各入力情報に対応する前記入力パターンを特定し、該入力パターンに関連付けられた前記意味情報を抽出する、
    請求項6に記載の情報処理装置。
  9. 前記動作処理部は、前記コマンドが入力操作の一部を省略することが可能な省略対象に指定されている場合に、前記コマンドを生成するための2種類以上の前記意味情報のうち1種類以上の前記意味情報が認識されると、前記コマンドを生成する、請求項1に記載の情報処理装置。
  10. 前記動作処理部は、前記コマンドの生成頻度、最新に生成されたコマンドから過去に向かって連続的に生成された所定個数のコマンドのうち少なくとも1つ以上のコマンド、前記動作処理部により繰り返し実行されるコマンド生成処理のうち最新のコマンド生成処理の開始時点から過去に向かって所定時間内に生成されたコマンド、およびユーザにより指定された省略対象に関する情報のうち少なくとも1つ以上に基づいて、前記コマンドを前記省略対象に指定する、請求項9に記載の情報処理装置。
  11. 前記動作処理部は、前記コマンドにより所定の動作が実行される前に、該所定の動作の実行の可否をユーザに確認させるための確認表示を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項9に記載の情報処理装置。
  12. 前記動作処理部は、前記コマンドの生成のために必要な前記意味情報のうち1種類以上の前記意味情報が認識されていない場合に、前記認識されていない前記意味情報の候補を特定し、該候補の意味情報を意味する入力操作を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項1に記載の情報処理装置。
  13. 前記動作処理部は、前記コマンドの生成のために必要な前記意味情報のうち1種類以上の前記意味情報が認識されていない場合に、前記認識されていない前記意味情報の候補を特定し、該候補の意味情報と既に認識された意味情報により生成される前記コマンドを特定し、該コマンドにより所定の動作が実行される前の、前記対象装置に関する該動作の対象の状態を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項1に記載の情報処理装置。
  14. 前記対象装置は、前記情報処理装置および前記情報処理装置に接続された機器のうち少なくとも1つ以上であり、
    前記動作処理部は、生成された前記コマンドに従って前記情報処理装置および前記機器のなくとも1つ以上に所定の動作を実行させる、
    請求項1に記載の情報処理装置。
  15. 前記動作処理部は、生成された前記コマンドに従って所定の動作が実行された結果を示す結果情報を、前記対象装置またはその他の装置の表示画面に表示するように制御する、請求項14に記載の情報処理装置。
  16. コンピュータを、
    2種類以上の異なる入力操作により取得した2種類以上の入力情報から、該入力情報の種類毎に各入力操作の意味する意味情報を認識する入力認識部と、
    2種類以上の前記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成する動作処理部と、
    として機能させるためのプログラム。
  17. 2種類以上の異なる入力操作により取得した2種類以上の入力情報から、該入力情報の種類毎に各入力操作の意味する意味情報を認識するステップと、
    2種類以上の前記意味情報を組合せることにより、対象装置に所定の動作を実行させるためのコマンドを生成するステップと、
    を含むコマンド生成方法。
JP2010250713A 2010-11-09 2010-11-09 情報処理装置、プログラムおよびコマンド生成方法 Expired - Fee Related JP5636888B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2010250713A JP5636888B2 (ja) 2010-11-09 2010-11-09 情報処理装置、プログラムおよびコマンド生成方法
US13/285,405 US20120112995A1 (en) 2010-11-09 2011-10-31 Information Processing Apparatus, Information Processing Method, and Computer-Readable Storage Medium
EP11187390A EP2450879A1 (en) 2010-11-09 2011-11-01 Information processing apparatus, information processing method, and computer-readable storage medium
RU2011144585/08A RU2011144585A (ru) 2010-11-09 2011-11-02 Устройство обработки информации, способ обработки информации и компьютерный носитель данных
CN2011103419297A CN102591448A (zh) 2010-11-09 2011-11-02 信息处理设备、信息处理方法和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010250713A JP5636888B2 (ja) 2010-11-09 2010-11-09 情報処理装置、プログラムおよびコマンド生成方法

Publications (2)

Publication Number Publication Date
JP2012103840A true JP2012103840A (ja) 2012-05-31
JP5636888B2 JP5636888B2 (ja) 2014-12-10

Family

ID=44925371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010250713A Expired - Fee Related JP5636888B2 (ja) 2010-11-09 2010-11-09 情報処理装置、プログラムおよびコマンド生成方法

Country Status (5)

Country Link
US (1) US20120112995A1 (ja)
EP (1) EP2450879A1 (ja)
JP (1) JP5636888B2 (ja)
CN (1) CN102591448A (ja)
RU (1) RU2011144585A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250683A (ja) * 2012-05-30 2013-12-12 Nec Corp 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
JP2014072866A (ja) * 2012-10-01 2014-04-21 Sharp Corp 端末装置、記録装置および再生装置
JP2014132461A (ja) * 2013-01-07 2014-07-17 Samsung Electronics Co Ltd 電子装置でコンテンツを制御する装置及びその方法
KR20140107135A (ko) * 2013-02-27 2014-09-04 가시오게산키 가부시키가이샤 제스처 조작을 검출하는 데이터 처리 장치
EP2824564A1 (en) 2013-07-10 2015-01-14 Sony Corporation Information processing device, information processing method, and program
JP2015153353A (ja) * 2014-02-19 2015-08-24 パイオニア株式会社 情報処理装置及び方法、並びにコンピュータプログラム
JP2015212970A (ja) * 2015-07-10 2015-11-26 カシオ計算機株式会社 処理装置及びプログラム
US9720509B2 (en) 2013-11-05 2017-08-01 Moff, Inc. Gesture detection system, gesture detection apparatus, and mobile communication terminal
JP2017161637A (ja) * 2016-03-08 2017-09-14 シャープ株式会社 発話装置、発話装置の制御方法、制御プログラム、および記録媒体
WO2018185830A1 (ja) * 2017-04-04 2018-10-11 株式会社オプティム 情報処理システム、情報処理方法、情報処理装置、及びプログラム
US10307672B2 (en) 2014-05-19 2019-06-04 Moff, Inc. Distribution system, distribution method, and distribution device
JP2020135667A (ja) * 2019-02-22 2020-08-31 菱洋エレクトロ株式会社 報告書作成するための方法、システム、及び装置
JP2021513154A (ja) * 2018-01-31 2021-05-20 株式会社ソニー・インタラクティブエンタテインメント 視標追跡システムの画像調整
WO2023218522A1 (ja) * 2022-05-10 2023-11-16 ファナック株式会社 機械操作装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652506B2 (en) 2011-12-16 2017-05-16 Microsoft Technology Licensing, Llc Providing data experience(s) via disparate semantic annotations based on a respective user scenario
KR101196751B1 (ko) * 2012-04-23 2012-11-07 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
KR102206383B1 (ko) * 2012-07-09 2021-01-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US10656808B2 (en) * 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US10157618B2 (en) * 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
CN103761463B (zh) * 2014-01-13 2017-09-01 联想(北京)有限公司 一种信息处理方法及电子设备
KR20150102589A (ko) * 2014-02-28 2015-09-07 삼성메디슨 주식회사 의료 영상 처리 장치, 의료 영상 처리 방법, 및 컴퓨터 판독가능 기록매체
US9778736B2 (en) * 2014-09-22 2017-10-03 Rovi Guides, Inc. Methods and systems for calibrating user devices
US9710071B2 (en) * 2014-09-22 2017-07-18 Rovi Guides, Inc. Methods and systems for recalibrating a user device based on age of a user and received verbal input
CN105792005B (zh) * 2014-12-22 2019-05-14 深圳Tcl数字技术有限公司 录像控制的方法及装置
US10157333B1 (en) * 2015-09-15 2018-12-18 Snap Inc. Systems and methods for content tagging
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
CN105898256A (zh) * 2016-05-30 2016-08-24 佛山市章扬科技有限公司 一种动作识别无屏电视
KR102441067B1 (ko) * 2017-10-12 2022-09-06 현대자동차주식회사 차량의 사용자 입력 처리 장치 및 사용자 입력 처리 방법
US11195525B2 (en) * 2018-06-13 2021-12-07 Panasonic Intellectual Property Corporation Of America Operation terminal, voice inputting method, and computer-readable recording medium
EP3835923A4 (en) * 2018-08-10 2021-08-18 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN112614490B (zh) * 2020-12-09 2024-04-16 北京罗克维尔斯科技有限公司 生成语音指令的方法、装置、介质、设备、***及车辆

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031551A (ja) * 1996-07-15 1998-02-03 Mitsubishi Electric Corp ヒューマンインターフェースシステムおよびこれを使用した高速移動物***置検出装置
JPH11288296A (ja) * 1998-04-06 1999-10-19 Denso Corp 情報処理装置
JP2000339305A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書作成装置、及び文書作成方法
JP2002062962A (ja) * 2000-08-23 2002-02-28 Hitachi Ltd 機器のデータ処理方法および装置および機器
JP2002091492A (ja) * 2000-07-13 2002-03-27 National Institute Of Advanced Industrial & Technology 音声補完方法、装置および記録媒体
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP2005178473A (ja) * 2003-12-17 2005-07-07 Denso Corp 車載機器用インターフェース
JP2007283968A (ja) * 2006-04-19 2007-11-01 Toyota Motor Corp 車両用制御装置
JP2008180833A (ja) * 2007-01-24 2008-08-07 Kyocera Mita Corp 操作表示装置、操作表示プログラム及び電子機器
US20080252595A1 (en) * 2007-04-11 2008-10-16 Marc Boillot Method and Device for Virtual Navigation and Voice Processing
US20080270896A1 (en) * 2007-04-27 2008-10-30 Per Ola Kristensson System and method for preview and selection of words
JP2008293252A (ja) * 2007-05-24 2008-12-04 Nec Corp 操作システム及び操作システムの制御方法
JP2010157192A (ja) * 2009-01-05 2010-07-15 Nintendo Co Ltd 描画処理プログラムおよび情報処理装置
JPWO2008149482A1 (ja) * 2007-06-05 2010-08-19 三菱電機株式会社 車両用操作装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192653A (ja) 1997-02-28 2004-07-08 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
JP3837505B2 (ja) 2002-05-20 2006-10-25 独立行政法人産業技術総合研究所 ジェスチャ認識による制御装置のジェスチャの登録方法
US20050197843A1 (en) * 2004-03-07 2005-09-08 International Business Machines Corporation Multimodal aggregating unit
JP5018074B2 (ja) * 2006-12-22 2012-09-05 富士通セミコンダクター株式会社 メモリ装置,メモリコントローラ及びメモリシステム
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
JP5282640B2 (ja) 2009-04-20 2013-09-04 富士通株式会社 データ処理装置、データ処理方法、およびデータ処理プログラム
KR101566379B1 (ko) * 2009-05-07 2015-11-13 삼성전자주식회사 입력 신호 종류 별 사용자 기능 활성화 방법 및 이를 지원하는 휴대 단말기
US20100315329A1 (en) * 2009-06-12 2010-12-16 Southwest Research Institute Wearable workspace

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031551A (ja) * 1996-07-15 1998-02-03 Mitsubishi Electric Corp ヒューマンインターフェースシステムおよびこれを使用した高速移動物***置検出装置
JPH11288296A (ja) * 1998-04-06 1999-10-19 Denso Corp 情報処理装置
JP2000339305A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書作成装置、及び文書作成方法
JP2002091492A (ja) * 2000-07-13 2002-03-27 National Institute Of Advanced Industrial & Technology 音声補完方法、装置および記録媒体
JP2002062962A (ja) * 2000-08-23 2002-02-28 Hitachi Ltd 機器のデータ処理方法および装置および機器
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP2005178473A (ja) * 2003-12-17 2005-07-07 Denso Corp 車載機器用インターフェース
JP2007283968A (ja) * 2006-04-19 2007-11-01 Toyota Motor Corp 車両用制御装置
JP2008180833A (ja) * 2007-01-24 2008-08-07 Kyocera Mita Corp 操作表示装置、操作表示プログラム及び電子機器
US20080252595A1 (en) * 2007-04-11 2008-10-16 Marc Boillot Method and Device for Virtual Navigation and Voice Processing
US20080270896A1 (en) * 2007-04-27 2008-10-30 Per Ola Kristensson System and method for preview and selection of words
JP2008293252A (ja) * 2007-05-24 2008-12-04 Nec Corp 操作システム及び操作システムの制御方法
JPWO2008149482A1 (ja) * 2007-06-05 2010-08-19 三菱電機株式会社 車両用操作装置
JP2010157192A (ja) * 2009-01-05 2010-07-15 Nintendo Co Ltd 描画処理プログラムおよび情報処理装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250683A (ja) * 2012-05-30 2013-12-12 Nec Corp 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
JP2014072866A (ja) * 2012-10-01 2014-04-21 Sharp Corp 端末装置、記録装置および再生装置
JP2014132461A (ja) * 2013-01-07 2014-07-17 Samsung Electronics Co Ltd 電子装置でコンテンツを制御する装置及びその方法
KR20140107135A (ko) * 2013-02-27 2014-09-04 가시오게산키 가부시키가이샤 제스처 조작을 검출하는 데이터 처리 장치
JP2014164695A (ja) * 2013-02-27 2014-09-08 Casio Comput Co Ltd データ処理装置及びプログラム
KR101591586B1 (ko) * 2013-02-27 2016-02-03 가시오게산키 가부시키가이샤 제스처 조작을 검출하는 데이터 처리 장치
EP2824564A1 (en) 2013-07-10 2015-01-14 Sony Corporation Information processing device, information processing method, and program
JP2015018365A (ja) * 2013-07-10 2015-01-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9720509B2 (en) 2013-11-05 2017-08-01 Moff, Inc. Gesture detection system, gesture detection apparatus, and mobile communication terminal
JP2015153353A (ja) * 2014-02-19 2015-08-24 パイオニア株式会社 情報処理装置及び方法、並びにコンピュータプログラム
US10307672B2 (en) 2014-05-19 2019-06-04 Moff, Inc. Distribution system, distribution method, and distribution device
JP2015212970A (ja) * 2015-07-10 2015-11-26 カシオ計算機株式会社 処理装置及びプログラム
JP2017161637A (ja) * 2016-03-08 2017-09-14 シャープ株式会社 発話装置、発話装置の制御方法、制御プログラム、および記録媒体
WO2018185830A1 (ja) * 2017-04-04 2018-10-11 株式会社オプティム 情報処理システム、情報処理方法、情報処理装置、及びプログラム
JPWO2018185830A1 (ja) * 2017-04-04 2019-12-26 株式会社オプティム 情報処理システム、情報処理方法、ウェアラブル端末、及びプログラム
JP2021513154A (ja) * 2018-01-31 2021-05-20 株式会社ソニー・インタラクティブエンタテインメント 視標追跡システムの画像調整
JP7001832B2 (ja) 2018-01-31 2022-01-20 株式会社ソニー・インタラクティブエンタテインメント 視標追跡システムの画像調整
JP2020135667A (ja) * 2019-02-22 2020-08-31 菱洋エレクトロ株式会社 報告書作成するための方法、システム、及び装置
WO2023218522A1 (ja) * 2022-05-10 2023-11-16 ファナック株式会社 機械操作装置

Also Published As

Publication number Publication date
EP2450879A1 (en) 2012-05-09
CN102591448A (zh) 2012-07-18
JP5636888B2 (ja) 2014-12-10
US20120112995A1 (en) 2012-05-10
RU2011144585A (ru) 2013-05-10

Similar Documents

Publication Publication Date Title
JP5636888B2 (ja) 情報処理装置、プログラムおよびコマンド生成方法
US10796694B2 (en) Optimum control method based on multi-mode command of operation-voice, and electronic device to which same is applied
US10771845B2 (en) Information processing apparatus and method for estimating attribute of a user based on a voice input
US10504517B2 (en) Method for controlling speech-recognition text-generation system and method for controlling mobile terminal
US10438058B2 (en) Information processing apparatus, information processing method, and program
JP7152528B2 (ja) フェイシャル特殊効果による複数のフェイシャルの追跡方法、装置および電子機器
JP6221535B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8013890B2 (en) Image processing apparatus and image processing method for recognizing an object with color
US10564712B2 (en) Information processing device, information processing method, and program
CN104662889B (zh) 用于在便携式终端中进行拍摄的方法和设备
KR20220048374A (ko) 전자 장치 및 이의 제어 방법
JP4945617B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
KR20170097890A (ko) 전자 장치 및 이의 서비스 제공 방법
US9536526B2 (en) Electronic device with speaker identification, method and storage medium
US20220138625A1 (en) Information processing apparatus, information processing method, and program
JP7468360B2 (ja) 情報処理装置および情報処理方法
WO2019187549A1 (ja) 情報処理装置および情報処理方法
JP7322824B2 (ja) 情報処理装置、情報処理方法、および制御システム
WO2020252008A1 (en) Fingertip tracking for touchless input device
JP2014021893A (ja) 情報処理装置、操作信号生成方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

R151 Written notification of patent or utility model registration

Ref document number: 5636888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees