JP5998861B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP5998861B2 JP5998861B2 JP2012246118A JP2012246118A JP5998861B2 JP 5998861 B2 JP5998861 B2 JP 5998861B2 JP 2012246118 A JP2012246118 A JP 2012246118A JP 2012246118 A JP2012246118 A JP 2012246118A JP 5998861 B2 JP5998861 B2 JP 5998861B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- information processing
- image
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
Description
1.概要
2.第1の実施形態
2−1.ハードウェア構成例
2−2.機能構成例
2−3.制御シナリオの例
2−4.処理の流れの例
3.第2の実施形態
4.まとめ
本節では、図1及び図2を用いて、本開示に係る技術が適用され得る情報処理装置の概要について説明する。本開示に係る技術は、ユーザインタフェースのための手段として音声認識を活用する様々な装置及びシステムに適用可能である。一例として、本開示に係る技術は、テレビジョン装置、デジタルスチルカメラ又はデジタルビデオカメラなどのデジタル家電機器に適用されてもよい。また、本開示に係る技術は、PC(Personal Computer)、スマートフォン、PDA(Personal Digital Assistant)又はゲーム端末などの端末装置に適用されてもよい。また、本開示に係る技術は、カラオケシステム又はアミューズメント装置のような特殊な用途を有するシステム又は装置に適用されてもよい。
[2−1.ハードウェア構成例]
図3は、情報処理装置100のハードウェア構成の一例を示すブロック図である。図3を参照すると、情報処理装置100は、カメラ101、マイクロフォン102、入力デバイス103、通信インタフェース(I/F)104、メモリ105、チューナ106、デコーダ107、ディスプレイ108、スピーカ109、遠隔制御I/F110、バス111及びプロセッサ112を備える。
カメラ101は、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を有し、画像を撮像する。カメラ101により撮像される画像(動画を構成する各フレーム)は、情報処理装置100による処理のための入力画像として扱われる。
マイクロフォン102は、ユーザにより発せられる音声を集音し、音声信号を生成する。マイクロフォン102により生成される音声信号は、情報処理装置100による音声認識のための入力音声として扱われる。マイクロフォン102は、無指向性マイクロフォンであってもよく、又は固定的な若しくは可変的な指向性を有していてもよい。あるシナリオにおいて、マイクロフォン102は可変的な指向性を有し、その指向性は動的に制御される。
入力デバイス103は、ユーザが情報処理装置100を直接的に操作するために使用されるデバイスである。入力デバイス103は、例えば、情報処理装置100の筐体に配設されるボタン、スイッチ及びダイヤルなどを含み得る。入力デバイス103は、ユーザ入力を検出すると、検出されたユーザ入力に対応する入力信号を生成する。
通信I/F104は、情報処理装置100による他の装置との間の通信を仲介する。通信I/F104は、任意の無線通信プロトコル又は有線通信プロトコルをサポートし、他の装置との間の通信接続を確立する。
メモリ105は、半導体メモリ又はハードディスクなどの記憶媒体により構成され、情報処理装置100による処理のためのプログラム及びデータ、並びにコンテンツデータを記憶する。メモリ105により記憶されるデータは、例えば、後に説明する画像認識及び音声認識のための特徴データを含み得る。なお、本明細書で説明するプログラム及びデータの一部又は全部は、メモリ105により記憶されることなく、外部のデータソース(例えば、データサーバ、ネットワークストレージ又は外付けメモリなど)から取得されてもよい。
チューナ106は、アンテナ(図示せず)を介して受信される放送信号から、所望のチャンネルのコンテンツ信号を抽出し及び復調する。そして、チューナ106は、復調したコンテンツ信号をデコーダ107へ出力する。
デコーダ107は、チューナ106から入力されるコンテンツ信号からコンテンツデータを復号する。デコーダ107は、通信I/F104を介して受信されるコンテンツ信号からコンテンツデータを復号してもよい。デコーダ107により復号されるコンテンツデータに基づいて、コンテンツ画像が生成され得る。
ディスプレイ108は、LCD(Liquid Crystal Display)、OLED(Organic light-Emitting Diode)又はCRT(Cathode Ray Tube)などにより構成される画面を有し、情報処理装置100により生成される画像を表示する。例えば、図1及び図2を用いて説明したコンテンツ画像及びUI画像が、ディスプレイ108の画面に表示され得る。
スピーカ109は、振動板及びアンプなどの回路素子を有し、情報処理装置100により生成される出力音声信号に基づいて、音声を出力する。スピーカ109の音量は、変更可能である。
遠隔制御I/F110は、ユーザにより使用されるリモートコントローラから送信される遠隔制御信号(赤外線信号又はその他の無線信号)を受信するインタフェースである。遠隔制御I/F110は、遠隔制御信号を検出すると、検出された遠隔制御信号に対応する入力信号を生成する。
バス111は、カメラ101、マイクロフォン102、入力デバイス103、通信I/F104、メモリ105、チューナ106、デコーダ107、ディスプレイ108、スピーカ109、遠隔制御I/F110及びプロセッサ112を相互に接続する。
プロセッサ112は、例えば、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)などであってよい。プロセッサ112は、メモリ105又は他の記憶媒体に記憶されるプログラムを実行することにより、後に説明する情報処理装置100の様々な機能を動作させる。
図4は、図3に示した情報処理装置100のメモリ105及びプロセッサ112により実現される論理的機能の構成の一例を示すブロック図である。図4を参照すると、情報処理装置100は、画像取得部120、音声取得部130、アプリケーション部140、認識部150、特徴データベース(DB)160及び制御部170を備える。認識部150は、画像認識部152及び音声認識部154を含む。制御部170は、認識制御部172及び表示制御部174を含む。なお、図4に示した機能ブロックの一部は、情報処理装置100の外部の(例えば、クラウドコンピューティング環境内の)装置において実現されてもよい。例えば、画像認識部152は、以下に説明する画像認識処理を自ら実行する代わりに、当該処理を外部の画像認識機能に実行させてもよい。同様に、音声認識部154は、以下に説明する音声認識処理を自ら実行する代わりに、当該処理を外部の音声認識機能に実行させてもよい。
画像取得部120は、カメラ101により撮像される画像を入力画像として取得する。入力画像は、典型的には、ユーザが映る動画を構成する一連のフレームの各々である。そして、画像取得部120は、取得した入力画像を認識部150及び制御部170へ出力する。
音声取得部130は、マイクロフォン102により生成される音声信号を入力音声として取得する。そして、音声取得部130は、取得した入力音声を認識部150へ出力する。
アプリケーション部140は、情報処理装置100が有する様々なアプリケーション機能を実行する。例えば、テレビジョン番組再生機能、電子番組表表示機能、録画設定機能、写真再生機能、動画再生機能、音楽再生機能及びインターネットブラウジング機能などが、アプリケーション部140により実行されてよい。アプリケーション部140は、アプリケーション機能を通じて生成される(コンテンツ画像を含み得る)アプリケーション画像及び音声を、制御部170へ出力する。
画像認識部152は、画像取得部120から入力される入力画像に映るユーザの身体を認識する。例えば、画像認識部152は、入力画像から抽出される画像特徴量をユーザの身体の所定の部分について特徴DB160により予め記憶される画像特徴量と照合することにより、当該所定の部分を認識する。所定の部分とは、例えば、ユーザの手、口及び顔のうちの少なくとも1つを含み得る。
音声認識部154は、音声取得部130から入力される入力音声に基づいて、ユーザの音声を認識する。本実施形態において、音声取得部130から音声認識部154への音声入力は、後述する認識制御部172によりアクティブ化され、又は非アクティブ化される。音声入力がアクティブである間、音声認識部154は、入力音声をその内容を示すテキストに変換する。実行中のアプリケーションがフリーテキストの入力を受け付ける場合には、音声認識部154は、認識した音声の内容を示すテキストを、アプリケーション部140へ出力し得る。その代わりに、実行中のアプリケーションが所定の音声コマンドセット内の音声コマンドの入力を受け付ける場合には、音声認識部154は、ユーザの音声から認識した音声コマンドを識別する識別子を、アプリケーション部140へ出力してもよい。音声入力が非アクティブである間、音声認識部154は、音声認識を実行しない。
特徴DB160は、画像認識部152により画像認識のために使用される画像特徴データ、及び音声認識部154により音声認識のために使用される音声特徴データを予め記憶する。画像特徴データは、例えば、ユーザの手、口又は顔などの所定の部分の既知の画像特徴量を含み得る。また、画像特徴データは、ユーザごとの顔画像データを含んでもよい。また、画像特徴データは、画像認識部152が認識すべきジェスチャを定義するジェスチャ定義データを含んでもよい。音声特徴データは、例えば、ユーザごとの発話の特徴を示す音声特徴量を含み得る。
認識制御部172は、入力画像に重畳されるオブジェクトであって、発話に関連する当該オブジェクトを生成する。そして、認識制御部172は、生成した当該オブジェクトを用いて、音声認識部154により実行される音声認識を制御する。以下、音声認識を制御するために使用されるこのオブジェクトを、制御オブジェクトという。制御オブジェクトは、ユーザによる操作に従って画面上で移動してもよく、又は固定的な位置に表示されてもよい。
表示制御部174は、ディスプレイ108を介する画像の表示を制御する。例えば、表示制御部174は、アプリケーション部140から入力されるアプリケーション画像をディスプレイ108に表示させる。また、表示制御部174は、音声対応アプリケーションが起動された場合に、認識制御部172により生成されるUI画像を、ディスプレイ108に表示させる。表示制御部174は、UI画像のみをディスプレイ108に表示させてもよく、又はアプリケーション画像及びUI画像を合成することにより生成される1つの出力画像をディスプレイ108に表示させてもよい。
上述した情報処理装置100において行われ得るいくつかの制御シナリオの例について、図20〜図23を用いて説明する
図20は、第1の制御シナリオについて説明するための説明図である。図20を参照すると、5つのUI画像ST11〜ST15が時間軸に沿って示されている。
図21は、第2の制御シナリオについて説明するための説明図である。図21を参照すると、5つのUI画像ST21〜ST25が時間軸に沿って示されている。
図22は、第3の制御シナリオについて説明するための説明図である。図22を参照すると、3つのUI画像ST31〜ST33が時間軸に沿って示されている。
第4のシナリオは、制御オブジェクトが介在しない補足的なシナリオである。図23は、第4の制御シナリオについて説明するための説明図である。図23を参照すると、3つのUI画像ST41〜ST43が時間軸に沿って示されている。
図24及び図25のフローチャートは、本実施形態に係る情報処理装置100により実行され得る処理の流れの一例を示している。ここで説明する処理は、カメラ101により撮像される動画を構成する一連のフレームの各々について繰り返される。
上述したように、本開示に係る技術は、テレビジョン装置に限定されず、様々な種類の装置に適用可能である。そこで、第2の実施形態として、本開示に係る技術がメッセージ交換用アプリケーションを有する情報処理装置200に適用される例について説明する。図2を用いて説明したように、情報処理装置200は、タブレットPCである。
図26は、情報処理装置200のハードウェア構成の一例を示すブロック図である。図26を参照すると、情報処理装置200は、カメラ201、マイクロフォン202、入力デバイス203、通信I/F204、メモリ205、ディスプレイ208、スピーカ209、バス211及びプロセッサ212を備える。
図27は、第2の実施形態における制御シナリオの一例について説明するための説明図である。図27を参照すると、4つの出力画像ST51〜ST54が時間軸に沿って示されている。本シナリオにおいて、各出力画像は、上部のメッセージ交換用アプリケーションのアプリケーション画像と、下部のUI画像とにより構成される。
ここまで、図1〜図27を用いて、本開示に係る技術の実施形態について詳細に説明した。上述した実施形態によれば、入力画像に重畳して表示される制御オブジェクトを用いて、情報機器により実行される音声認識が制御される。従って、ユーザは、画面上の制御オブジェクトの状態を手掛かりとして、音声認識のための適切なタイミングを判断することができる。
(1)
入力画像を取得する画像取得部と、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
を備え、
前記制御部は、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御する、
情報処理装置。
(2)
前記情報処理装置は、前記入力画像に映るユーザの身体を認識する画像認識部、をさらに備え、
前記制御部は、前記画像認識部により認識されるユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、前記音声認識を制御する、
前記(1)に記載の情報処理装置。
(3)
前記所定の部分は、ユーザの口を含み、
前記制御部は、ユーザの口と前記オブジェクトとの間の距離に基づいて、前記音声認識のための音声入力をアクティブ化する、
前記(2)に記載の情報処理装置。
(4)
前記所定の部分は、ユーザの手を含み、
前記制御部は、ユーザの手の動きに従って前記オブジェクトを前記画面内で移動させる、
前記(3)に記載の情報処理装置。
(5)
前記制御部は、前記入力画像に映るユーザのジェスチャに応じて、前記音声認識のための音声入力を非アクティブ化する、前記(3)又は前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記音声認識のための音声入力がアクティブ化されているか否かを、前記オブジェクトの表示属性を変化させることによりユーザに通知する、前記(1)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記制御部は、前記音声認識において音声が検出されているか否かを、前記オブジェクトの表示属性を変化させ又は前記オブジェクトが重畳された出力画像の状態を変化させることにより、ユーザに通知する、前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記制御部は、前記音声認識において検出されている音声のレベルに応じて、前記オブジェクトの前記表示属性又は前記出力画像の前記状態の変化のレベルを変化させる、前記(7)に記載の情報処理装置。
(9)
前記音声認識は、可変的な指向性を有するマイクロフォンにより取得される音声信号を用いて実行される、前記(1)〜(8)のいずれか1項に記載の情報処理装置。
(10)
前記制御部は、前記オブジェクトの位置をユーザの動きに応じて変化させ、
前記マイクロフォンの指向性は、前記オブジェクトの位置に応じて設定される、
前記(9)に記載の情報処理装置。
(11)
前記制御部は、前記オブジェクトの向きをユーザの動きに応じて変化させ、
前記マイクロフォンの指向性は、前記オブジェクトの向きに応じて設定される、
前記(9)又は前記(10)に記載の情報処理装置。
(12)
前記制御部は、前記音声認識において認識された音声の内容を表すテキストを含む第1の追加的なオブジェクトを、前記入力画像に映るユーザの近傍にさらに重畳する、前記(1)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記制御部は、前記音声認識が失敗した場合に、前記第1の追加的なオブジェクトの表示属性を変化させ又は特別な文字列を前記テキストに挿入することにより、前記音声認識の失敗をユーザに通知する、前記(12)に記載の情報処理装置。
(14)
前記制御部は、前記音声認識において検出されている音声のレベルと、前記音声認識を有効に行うために求められる音声のレベルとを示す第2の追加的なオブジェクトを、前記入力画像にさらに重畳する、前記(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記制御部は、1つ以上の音声コマンドの候補の各々を表すテキストオブジェクトを、前記入力画像にさらに重畳する、前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記情報処理装置は、テレビジョン装置であり、
前記音声コマンドは、前記情報処理装置をユーザが遠隔的に制御するために発せられるコマンドである、
前記(15)に記載の情報処理装置。
(17)
前記オブジェクトは、マイクロフォンを模したアイコンである、前記(1)〜(16)のいずれか1項に記載の情報処理装置。
(18)
情報処理装置により実行される情報処理方法であって、
入力画像を取得することと、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させることと、
ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御することと、
を含む情報処理方法。
(19)
情報処理装置を制御するコンピュータを、
入力画像を取得する画像取得部と、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
として機能させ、
前記制御部は、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御する、
プログラム。
120 画像取得部
152 画像認識部
154 音声認識部
172 認識制御部
174 表示制御部
IC1,IC2 制御オブジェクト
Claims (18)
- 入力画像を取得する画像取得部と、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
前記入力画像に映るユーザの身体を認識する画像認識部と、
を備え、
前記制御部は、前記ユーザの音声について実行される音声認識を、前記画像認識部により認識される前記ユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、制御する、
情報処理装置。 - 前記所定の部分は、前記ユーザの口を含み、
前記制御部は、前記ユーザの口と前記オブジェクトとの間の距離に基づいて、前記音声認識のための音声入力をアクティブ化する、
請求項1に記載の情報処理装置。 - 前記所定の部分は、前記ユーザの手を含み、
前記制御部は、前記ユーザの手の動きに従って前記オブジェクトを前記画面内で移動させる、
請求項2に記載の情報処理装置。 - 前記制御部は、前記入力画像に映る前記ユーザのジェスチャに応じて、前記音声認識のための音声入力を非アクティブ化する、請求項2又は3に記載の情報処理装置。
- 前記制御部は、前記音声認識のための音声入力がアクティブ化されているか否かを、前記オブジェクトの表示属性を変化させることにより前記ユーザに通知する、請求項1〜4のいずれか1項に記載の情報処理装置。
- 前記制御部は、前記音声認識において音声が検出されているか否かを、前記オブジェクトの表示属性を変化させ又は前記オブジェクトが重畳された出力画像の状態を変化させることにより、前記ユーザに通知する、請求項1〜5のいずれか1項に記載の情報処理装置。
- 前記制御部は、前記音声認識において検出されている音声のレベルに応じて、前記オブジェクトの前記表示属性又は前記出力画像の前記状態の変化のレベルを変化させる、請求項6に記載の情報処理装置。
- 前記音声認識は、可変的な指向性を有するマイクロフォンにより取得される音声信号を用いて実行される、請求項1〜7のいずれか1項に記載の情報処理装置。
- 前記制御部は、前記オブジェクトの位置を前記ユーザの動きに応じて変化させ、
前記マイクロフォンの指向性は、前記オブジェクトの位置に応じて設定される、
請求項8に記載の情報処理装置。 - 前記制御部は、前記オブジェクトの向きを前記ユーザの動きに応じて変化させ、
前記マイクロフォンの指向性は、前記オブジェクトの向きに応じて設定される、
請求項8又は9に記載の情報処理装置。 - 前記制御部は、前記音声認識において認識された音声の内容を表すテキストを含む第1の追加的なオブジェクトを、前記入力画像に映る前記ユーザの近傍にさらに重畳する、請求項1〜10のいずれか1項に記載の情報処理装置。
- 前記制御部は、前記音声認識が失敗した場合に、前記第1の追加的なオブジェクトの表示属性を変化させ又は特別な文字列を前記テキストに挿入することにより、前記音声認識の失敗を前記ユーザに通知する、請求項11に記載の情報処理装置。
- 前記制御部は、前記音声認識において検出されている音声のレベルと、前記音声認識を有効に行うために求められる音声のレベルとを示す第2の追加的なオブジェクトを、前記入力画像にさらに重畳する、請求項1〜12のいずれか1項に記載の情報処理装置。
- 前記制御部は、1つ以上の音声コマンドの候補の各々を表すテキストオブジェクトを、前記入力画像にさらに重畳する、請求項1〜13のいずれか1項に記載の情報処理装置。
- 前記情報処理装置は、テレビジョン装置であり、
前記音声コマンドは、前記情報処理装置を前記ユーザが遠隔的に制御するために発せられるコマンドである、
請求項14に記載の情報処理装置。 - 前記オブジェクトは、マイクロフォンを模したアイコンである、請求項1〜15のいずれか1項に記載の情報処理装置。
- 情報処理装置により実行される情報処理方法であって、
入力画像を取得することと、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させることと、
前記入力画像に映るユーザの身体を認識することと、
前記ユーザの音声について実行される音声認識を、認識された前記ユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、制御することと、
を含む情報処理方法。 - 情報処理装置を制御するコンピュータを、
入力画像を取得する画像取得部と、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
前記入力画像に映るユーザの身体を認識する画像認識部と、
として機能させ、
前記制御部は、前記ユーザの音声について実行される音声認識を、前記画像認識部により認識される前記ユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、制御する、
プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012246118A JP5998861B2 (ja) | 2012-11-08 | 2012-11-08 | 情報処理装置、情報処理方法及びプログラム |
EP13783688.8A EP2917824B1 (en) | 2012-11-08 | 2013-10-01 | Information processing apparatus, information processing method, and program |
US14/417,859 US10438058B2 (en) | 2012-11-08 | 2013-10-01 | Information processing apparatus, information processing method, and program |
CN201380057286.0A CN104781782A (zh) | 2012-11-08 | 2013-10-01 | 信息处理设备、信息处理方法和程序 |
PCT/JP2013/005859 WO2014073149A1 (en) | 2012-11-08 | 2013-10-01 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012246118A JP5998861B2 (ja) | 2012-11-08 | 2012-11-08 | 情報処理装置、情報処理方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014095766A JP2014095766A (ja) | 2014-05-22 |
JP2014095766A5 JP2014095766A5 (ja) | 2015-03-12 |
JP5998861B2 true JP5998861B2 (ja) | 2016-09-28 |
Family
ID=49510468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012246118A Expired - Fee Related JP5998861B2 (ja) | 2012-11-08 | 2012-11-08 | 情報処理装置、情報処理方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10438058B2 (ja) |
EP (1) | EP2917824B1 (ja) |
JP (1) | JP5998861B2 (ja) |
CN (1) | CN104781782A (ja) |
WO (1) | WO2014073149A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102210433B1 (ko) * | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
JP6418820B2 (ja) * | 2014-07-07 | 2018-11-07 | キヤノン株式会社 | 情報処理装置、表示制御方法、及びコンピュータプログラム |
JP6772839B2 (ja) * | 2014-12-25 | 2020-10-21 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN107430856B (zh) * | 2015-03-23 | 2021-02-19 | 索尼公司 | 信息处理***和信息处理方法 |
USD777784S1 (en) * | 2015-08-26 | 2017-01-31 | Google Inc. | Display screen with icon |
JP6547551B2 (ja) * | 2015-09-28 | 2019-07-24 | ブラザー工業株式会社 | カラオケ装置、プログラム |
CN105869639A (zh) * | 2016-03-21 | 2016-08-17 | 广东小天才科技有限公司 | 一种语音识别的方法及*** |
WO2018013564A1 (en) * | 2016-07-12 | 2018-01-18 | Bose Corporation | Combining gesture and voice user interfaces |
US20180039478A1 (en) * | 2016-08-02 | 2018-02-08 | Google Inc. | Voice interaction services |
KR102591413B1 (ko) * | 2016-11-16 | 2023-10-19 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
EP3343483A1 (en) | 2016-12-30 | 2018-07-04 | Spotify AB | System and method for providing a video with lyrics overlay for use in a social messaging environment |
US10146501B1 (en) * | 2017-06-01 | 2018-12-04 | Qualcomm Incorporated | Sound control by various hand gestures |
CN109391884A (zh) * | 2017-08-08 | 2019-02-26 | 惠州超声音响有限公司 | 扬声器***及操控扬声器的方法 |
CN111033606A (zh) * | 2017-08-31 | 2020-04-17 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
CN110770692B (zh) | 2017-10-03 | 2023-10-13 | 谷歌有限责任公司 | 从存储器传输数据以管理图形输出延时 |
CN108647002A (zh) * | 2018-03-30 | 2018-10-12 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
US11195525B2 (en) * | 2018-06-13 | 2021-12-07 | Panasonic Intellectual Property Corporation Of America | Operation terminal, voice inputting method, and computer-readable recording medium |
EP3848788A4 (en) * | 2018-09-07 | 2021-11-10 | Sony Group Corporation | TERMINAL DEVICE AS WELL AS THE MANUFACTURING PROCESS OF THE SAME, AND RECORDING MEDIA |
CN110164440B (zh) * | 2019-06-03 | 2022-08-09 | 交互未来(北京)科技有限公司 | 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 |
US11157086B2 (en) * | 2020-01-28 | 2021-10-26 | Pison Technology, Inc. | Determining a geographical location based on human gestures |
JP7491147B2 (ja) * | 2020-08-31 | 2024-05-28 | セイコーエプソン株式会社 | 表示システムの制御方法、表示システム、及び、表示装置の制御方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1372660A (zh) * | 2000-03-09 | 2002-10-02 | 皇家菲利浦电子有限公司 | 与消费电子***进行交互的方法 |
JP3705735B2 (ja) * | 2000-08-29 | 2005-10-12 | シャープ株式会社 | オンデマンド・インタフェース装置とそのウィンドウ表示装置 |
JP2002108390A (ja) * | 2000-09-27 | 2002-04-10 | Sharp Corp | 音声認識装置及びコンピュータ読み取り可能な記録媒体 |
JP2004239963A (ja) * | 2003-02-03 | 2004-08-26 | Mitsubishi Electric Corp | 車載制御装置 |
JP4689548B2 (ja) * | 2006-07-19 | 2011-05-25 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置、画像処理方法、記録媒体、コンピュータプログラム、半導体デバイス |
GB0703974D0 (en) * | 2007-03-01 | 2007-04-11 | Sony Comp Entertainment Europe | Entertainment device |
WO2008109299A2 (en) * | 2007-03-01 | 2008-09-12 | Sony Computer Entertainment America Inc. | System and method for communicating with a virtual world |
KR101502003B1 (ko) * | 2008-07-08 | 2015-03-12 | 엘지전자 주식회사 | 이동 단말기 및 그 텍스트 입력 방법 |
KR20100088094A (ko) * | 2009-01-29 | 2010-08-06 | 삼성전자주식회사 | 다중 입력 소스를 이용한 오브젝트 조작 장치 |
KR101623007B1 (ko) | 2009-11-11 | 2016-05-20 | 엘지전자 주식회사 | 디스플레이 장치 및 그 제어방법 |
US9205706B2 (en) * | 2010-01-27 | 2015-12-08 | Bridgestone Americas Tire Operations, Llc | Tire with noise-reducing tread pattern |
KR101184460B1 (ko) * | 2010-02-05 | 2012-09-19 | 연세대학교 산학협력단 | 마우스 포인터 제어 장치 및 방법 |
JP2012058838A (ja) | 2010-09-06 | 2012-03-22 | Sony Corp | 画像処理装置、プログラム及び画像処理方法 |
US20120259638A1 (en) | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
JP2013080015A (ja) * | 2011-09-30 | 2013-05-02 | Toshiba Corp | 音声認識装置および音声認識方法 |
US9423870B2 (en) * | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
-
2012
- 2012-11-08 JP JP2012246118A patent/JP5998861B2/ja not_active Expired - Fee Related
-
2013
- 2013-10-01 WO PCT/JP2013/005859 patent/WO2014073149A1/en active Application Filing
- 2013-10-01 EP EP13783688.8A patent/EP2917824B1/en not_active Not-in-force
- 2013-10-01 CN CN201380057286.0A patent/CN104781782A/zh active Pending
- 2013-10-01 US US14/417,859 patent/US10438058B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2917824A1 (en) | 2015-09-16 |
CN104781782A (zh) | 2015-07-15 |
US10438058B2 (en) | 2019-10-08 |
EP2917824B1 (en) | 2018-07-25 |
WO2014073149A1 (en) | 2014-05-15 |
JP2014095766A (ja) | 2014-05-22 |
US20150262005A1 (en) | 2015-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5998861B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR102339657B1 (ko) | 전자 장치 및 이의 제어 방법 | |
JP5746111B2 (ja) | 電子装置及びその制御方法 | |
EP3139261A1 (en) | User terminal apparatus, system, and method for controlling the same | |
JP5819269B2 (ja) | 電子装置及びその制御方法 | |
EP2680110B1 (en) | Method and apparatus for processing multiple inputs | |
US10678563B2 (en) | Display apparatus and method for controlling display apparatus | |
WO2016103988A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US11449307B2 (en) | Remote controller for controlling an external device using voice recognition and method thereof | |
CN105814628B (zh) | 用于基于装置信息来执行语音识别的方法和设备 | |
JP2013037689A (ja) | 電子装置及びその制御方法 | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
CN108962220A (zh) | 多媒体文件播放场景下的文本显示方法及装置 | |
JP7204804B2 (ja) | スマートバックミラーのインタラクション方法、装置、電子機器及び記憶媒体 | |
WO2016152200A1 (ja) | 情報処理システムおよび情報処理方法 | |
KR20160133305A (ko) | 제스쳐 인식 방법, 컴퓨팅 장치 및 제어 장치 | |
US11474683B2 (en) | Portable device and screen control method of portable device | |
CN111491212A (zh) | 视频处理方法及电子设备 | |
WO2018139050A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR102278213B1 (ko) | 휴대 장치 및 휴대 장치의 화면 제어방법 | |
KR102393774B1 (ko) | 음성 인식 장치 및 그 제어방법 | |
US20140195014A1 (en) | Electronic apparatus and method for controlling electronic apparatus | |
JP2017134713A (ja) | 電子機器、電子機器の制御プログラム | |
KR20210109722A (ko) | 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150123 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160815 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5998861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |