JP5998861B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP5998861B2
JP5998861B2 JP2012246118A JP2012246118A JP5998861B2 JP 5998861 B2 JP5998861 B2 JP 5998861B2 JP 2012246118 A JP2012246118 A JP 2012246118A JP 2012246118 A JP2012246118 A JP 2012246118A JP 5998861 B2 JP5998861 B2 JP 5998861B2
Authority
JP
Japan
Prior art keywords
user
voice
information processing
image
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012246118A
Other languages
English (en)
Other versions
JP2014095766A5 (ja
JP2014095766A (ja
Inventor
淳己 大村
淳己 大村
道成 河野
道成 河野
池田 卓郎
卓郎 池田
憲一 岡田
憲一 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012246118A priority Critical patent/JP5998861B2/ja
Priority to EP13783688.8A priority patent/EP2917824B1/en
Priority to US14/417,859 priority patent/US10438058B2/en
Priority to CN201380057286.0A priority patent/CN104781782A/zh
Priority to PCT/JP2013/005859 priority patent/WO2014073149A1/en
Publication of JP2014095766A publication Critical patent/JP2014095766A/ja
Publication of JP2014095766A5 publication Critical patent/JP2014095766A5/ja
Application granted granted Critical
Publication of JP5998861B2 publication Critical patent/JP5998861B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。
従来、音声認識は、ユーザによる情報機器への入力を支援する技術として利用されている。例えば、下記特許文献1は、ユーザが発した音声の内容を音声認識によってテキストに変換し、得られたテキストを複数のユーザ間のコミュニケーションのために画面に表示する技術を開示している。
特開2012−58838号公報
しかしながら、音声認識が機能し音声入力がアクティブになっているタイミングと、ユーザが音声認識のために音声を発するタイミングとが整合しないケースが少なくない。これらタイミングが整合しなければ、認識すべき音声が認識されず、又は予期しない音声が認識されてしまうという不都合が生じ得る。
従って、ユーザが適切なタイミングで音声認識のために音声を発することを支援する、改善された仕組みが提供されることが望ましい。
本開示によれば、入力画像を取得する画像取得部と、発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、を備え、前記制御部は、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御する、情報処理装置が提供される。
また、本開示によれば、情報処理装置により実行される情報処理方法であって、入力画像を取得することと、発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させることと、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御することと、を含む情報処理方法が提供される。
また、本開示によれば、情報処理装置を制御するコンピュータを、入力画像を取得する画像取得部と、発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、として機能させ、前記制御部は、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御する、プログラムが提供される。
本開示に係る技術によれば、ユーザが適切なタイミングで音声認識のために音声を発することを支援することができる。
第1の実施形態に係る情報処理装置の概要について説明するための説明図である。 第2の実施形態に係る情報処理装置の概要について説明するための説明図である。 第1の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 第1の実施形態に係る情報処理装置の論理的機能の構成の一例を示すブロック図である。 画像認識の結果の一例について説明するための説明図である。 画像認識の結果の他の例について説明するための説明図である。 音声認識を制御するために使用される制御オブジェクトの第1の例について説明するための説明図である。 音声認識を制御するために使用される制御オブジェクトの第2の例について説明するための説明図である。 音声入力をアクティブ化するためのアクティブ化条件の第1の例について説明するための説明図である。 音声入力をアクティブ化するためのアクティブ化条件の第2の例について説明するための説明図である。 音声認識結果の視覚的なフィードバックの一例について説明するための説明図である。 認識された音声の内容を表す追加的な表示オブジェクトの一例について説明するための第1の説明図である。 認識された音声の内容を表す追加的な表示オブジェクトの一例について説明するための第2の説明図である。 音声認識を支援する追加的な表示オブジェクトの一例について説明するための説明図である。 マイクロフォンの指向性の制御の一例について説明するための第1の説明図である。 マイクロフォンの指向性の制御の一例について説明するための第2の説明図である。 マイクロフォンの指向性の制御の一例について説明するための第3の説明図である。 出力画像のウィンドウ構成の第1の例について説明するための説明図である。 出力画像のウィンドウ構成の第2の例について説明するための説明図である。 第1の制御シナリオについて説明するための説明図である。 第2の制御シナリオについて説明するための説明図である。 第3の制御シナリオについて説明するための説明図である。 第4の制御シナリオについて説明するための説明図である。 第1の実施形態に係る処理の流れの一例を示すフローチャートの前半部である。 第1の実施形態に係る処理の流れの一例を示すフローチャートの後半部である。 第2の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 第2の実施形態における制御シナリオの一例について説明するための説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下の順序で説明を行う。
1.概要
2.第1の実施形態
2−1.ハードウェア構成例
2−2.機能構成例
2−3.制御シナリオの例
2−4.処理の流れの例
3.第2の実施形態
4.まとめ
<1.概要>
本節では、図1及び図2を用いて、本開示に係る技術が適用され得る情報処理装置の概要について説明する。本開示に係る技術は、ユーザインタフェースのための手段として音声認識を活用する様々な装置及びシステムに適用可能である。一例として、本開示に係る技術は、テレビジョン装置、デジタルスチルカメラ又はデジタルビデオカメラなどのデジタル家電機器に適用されてもよい。また、本開示に係る技術は、PC(Personal Computer)、スマートフォン、PDA(Personal Digital Assistant)又はゲーム端末などの端末装置に適用されてもよい。また、本開示に係る技術は、カラオケシステム又はアミューズメント装置のような特殊な用途を有するシステム又は装置に適用されてもよい。
図1は、第1の実施形態に係る情報処理装置100の概要について説明するための説明図である。図1を参照すると、情報処理装置100は、テレビジョン装置である。情報処理装置100は、カメラ101、マイクロフォン102及びディスプレイ108を備える。カメラ101は、情報処理装置100のディスプレイ108を見るユーザを撮像する。マイクロフォン102は、ユーザが発する音声を集音する。ディスプレイ108は、情報処理装置100により生成される画像を表示する。ディスプレイ108により表示される画像は、コンテンツ画像に加えて、ユーザインタフェース(UI)画像を含み得る。図1の例では、ユーザUa及びUbがディスプレイ108を見ている。ディスプレイ108には、UI画像W01が表示されている。UI画像W01は、カメラ101により撮像される撮像画像を用いて生成され、それによりいわゆるミラー表示が実現される。情報処理装置100は、音声認識機能を有する。ユーザUa及びUbは、マイクロフォン102を介して情報処理装置100へ音声を入力することにより、情報処理装置100を操作し又は情報処理装置100へ情報を入力することができる。
図2は、第2の実施形態に係る情報処理装置200の概要について説明するための説明図である。図2を参照すると、情報処理装置200は、タブレットPCである。情報処理装置200は、カメラ201、マイクロフォン202及びディスプレイ208を備える。カメラ201は、情報処理装置200のディスプレイ208を見るユーザを撮像する。マイクロフォン202は、ユーザが発する音声を集音する。ディスプレイ208は、情報処理装置200により生成される画像を表示する。ディスプレイ208により表示される画像は、コンテンツ画像に加えて、UI画像を含み得る。図2の例では、ユーザUcがディスプレイ208を見ている。ディスプレイ208には、UI画像W02が表示されている。UI画像W02は、カメラ201により撮像される撮像画像を用いて生成され、それによりいわゆるミラー表示が実現される。情報処理装置200は、音声認識機能を有する。ユーザUcは、マイクロフォン202を介して情報処理装置200へ音声を入力することにより、情報処理装置200を操作し又は情報処理装置200へ情報を入力することができる。
これら装置において、音声認識機能が動作し音声入力がアクティブになっている間、ユーザが音声認識のための音声のみを発するとは限らない。また、音声入力がアクティブになっていない時にユーザが音声認識のための音声を発する可能性もある。このようなタイミングの不整合は、認識しなくてもよい音声の認識又は音声認識の不成功などといった、ユーザにとって不都合な結果を招来し得る。そこで、情報処理装置100及び200は、次節より詳細に説明する仕組みに従って、ユーザが適切なタイミングで音声認識のために音声を発することを支援する。
<2.第1の実施形態>
[2−1.ハードウェア構成例]
図3は、情報処理装置100のハードウェア構成の一例を示すブロック図である。図3を参照すると、情報処理装置100は、カメラ101、マイクロフォン102、入力デバイス103、通信インタフェース(I/F)104、メモリ105、チューナ106、デコーダ107、ディスプレイ108、スピーカ109、遠隔制御I/F110、バス111及びプロセッサ112を備える。
(1)カメラ
カメラ101は、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を有し、画像を撮像する。カメラ101により撮像される画像(動画を構成する各フレーム)は、情報処理装置100による処理のための入力画像として扱われる。
(2)マイクロフォン
マイクロフォン102は、ユーザにより発せられる音声を集音し、音声信号を生成する。マイクロフォン102により生成される音声信号は、情報処理装置100による音声認識のための入力音声として扱われる。マイクロフォン102は、無指向性マイクロフォンであってもよく、又は固定的な若しくは可変的な指向性を有していてもよい。あるシナリオにおいて、マイクロフォン102は可変的な指向性を有し、その指向性は動的に制御される。
(3)入力デバイス
入力デバイス103は、ユーザが情報処理装置100を直接的に操作するために使用されるデバイスである。入力デバイス103は、例えば、情報処理装置100の筐体に配設されるボタン、スイッチ及びダイヤルなどを含み得る。入力デバイス103は、ユーザ入力を検出すると、検出されたユーザ入力に対応する入力信号を生成する。
(4)通信インタフェース
通信I/F104は、情報処理装置100による他の装置との間の通信を仲介する。通信I/F104は、任意の無線通信プロトコル又は有線通信プロトコルをサポートし、他の装置との間の通信接続を確立する。
(5)メモリ
メモリ105は、半導体メモリ又はハードディスクなどの記憶媒体により構成され、情報処理装置100による処理のためのプログラム及びデータ、並びにコンテンツデータを記憶する。メモリ105により記憶されるデータは、例えば、後に説明する画像認識及び音声認識のための特徴データを含み得る。なお、本明細書で説明するプログラム及びデータの一部又は全部は、メモリ105により記憶されることなく、外部のデータソース(例えば、データサーバ、ネットワークストレージ又は外付けメモリなど)から取得されてもよい。
(6)チューナ
チューナ106は、アンテナ(図示せず)を介して受信される放送信号から、所望のチャンネルのコンテンツ信号を抽出し及び復調する。そして、チューナ106は、復調したコンテンツ信号をデコーダ107へ出力する。
(7)デコーダ
デコーダ107は、チューナ106から入力されるコンテンツ信号からコンテンツデータを復号する。デコーダ107は、通信I/F104を介して受信されるコンテンツ信号からコンテンツデータを復号してもよい。デコーダ107により復号されるコンテンツデータに基づいて、コンテンツ画像が生成され得る。
(8)ディスプレイ
ディスプレイ108は、LCD(Liquid Crystal Display)、OLED(Organic light-Emitting Diode)又はCRT(Cathode Ray Tube)などにより構成される画面を有し、情報処理装置100により生成される画像を表示する。例えば、図1及び図2を用いて説明したコンテンツ画像及びUI画像が、ディスプレイ108の画面に表示され得る。
(9)スピーカ
スピーカ109は、振動板及びアンプなどの回路素子を有し、情報処理装置100により生成される出力音声信号に基づいて、音声を出力する。スピーカ109の音量は、変更可能である。
(10)遠隔制御インタフェース
遠隔制御I/F110は、ユーザにより使用されるリモートコントローラから送信される遠隔制御信号(赤外線信号又はその他の無線信号)を受信するインタフェースである。遠隔制御I/F110は、遠隔制御信号を検出すると、検出された遠隔制御信号に対応する入力信号を生成する。
(11)バス
バス111は、カメラ101、マイクロフォン102、入力デバイス103、通信I/F104、メモリ105、チューナ106、デコーダ107、ディスプレイ108、スピーカ109、遠隔制御I/F110及びプロセッサ112を相互に接続する。
(12)プロセッサ
プロセッサ112は、例えば、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)などであってよい。プロセッサ112は、メモリ105又は他の記憶媒体に記憶されるプログラムを実行することにより、後に説明する情報処理装置100の様々な機能を動作させる。
[2−2.機能構成例]
図4は、図3に示した情報処理装置100のメモリ105及びプロセッサ112により実現される論理的機能の構成の一例を示すブロック図である。図4を参照すると、情報処理装置100は、画像取得部120、音声取得部130、アプリケーション部140、認識部150、特徴データベース(DB)160及び制御部170を備える。認識部150は、画像認識部152及び音声認識部154を含む。制御部170は、認識制御部172及び表示制御部174を含む。なお、図4に示した機能ブロックの一部は、情報処理装置100の外部の(例えば、クラウドコンピューティング環境内の)装置において実現されてもよい。例えば、画像認識部152は、以下に説明する画像認識処理を自ら実行する代わりに、当該処理を外部の画像認識機能に実行させてもよい。同様に、音声認識部154は、以下に説明する音声認識処理を自ら実行する代わりに、当該処理を外部の音声認識機能に実行させてもよい。
(1)画像取得部
画像取得部120は、カメラ101により撮像される画像を入力画像として取得する。入力画像は、典型的には、ユーザが映る動画を構成する一連のフレームの各々である。そして、画像取得部120は、取得した入力画像を認識部150及び制御部170へ出力する。
(2)音声取得部
音声取得部130は、マイクロフォン102により生成される音声信号を入力音声として取得する。そして、音声取得部130は、取得した入力音声を認識部150へ出力する。
(3)アプリケーション部
アプリケーション部140は、情報処理装置100が有する様々なアプリケーション機能を実行する。例えば、テレビジョン番組再生機能、電子番組表表示機能、録画設定機能、写真再生機能、動画再生機能、音楽再生機能及びインターネットブラウジング機能などが、アプリケーション部140により実行されてよい。アプリケーション部140は、アプリケーション機能を通じて生成される(コンテンツ画像を含み得る)アプリケーション画像及び音声を、制御部170へ出力する。
本実施形態において、アプリケーション部140により実行されるアプリケーション機能の少なくとも一部は、後述する音声認識部154と連携し、ユーザからの音声入力を受け付ける。例えば、テレビジョン番組再生機能は、音声認識部154により認識される音声コマンドに従って、再生されるチャンネル及び音量などの設定を変更し得る。電子番組表表示機能は、音声認識部154により認識される音声コマンドに従って、表示すべき電子番組表のチャンネル及び時間帯を変更し得る。写真再生機能は、音声認識部154により認識される指定日に撮像された写真を再生し得る。インターネットブラウジング機能は、音声認識部154により認識されるキーワードを用いたインターネット検索を実行し得る。
(4)画像認識部
画像認識部152は、画像取得部120から入力される入力画像に映るユーザの身体を認識する。例えば、画像認識部152は、入力画像から抽出される画像特徴量をユーザの身体の所定の部分について特徴DB160により予め記憶される画像特徴量と照合することにより、当該所定の部分を認識する。所定の部分とは、例えば、ユーザの手、口及び顔のうちの少なくとも1つを含み得る。
図5は、画像認識部152による画像認識の結果の一例について説明するための説明図である。図5を参照すると、入力画像W03にユーザUaが映っている。ユーザUaは、カメラ101の方向を向き、左手を挙げている。画像認識部152は、画像特徴量の照合又はその他の公知の手法を用いて、入力画像W03内の手領域A01、口領域A02及び顔領域A03を認識し得る。そして、画像認識部152は、認識したこれら領域の画像内の位置を示す位置データを、制御部170へ出力する。
一例として、画像認識部152は、入力画像内で認識した顔領域の部分画像(顔画像)を特徴DB160により予め記憶される既知のユーザの顔画像データと照合することにより、ユーザを識別してもよい。画像認識部152によるユーザ識別結果は、例えば、音声認識の調整、UI画像に表示されるメニューの個人化又はアプリケーション部140によるコンテンツの推薦などの用途に使用され得る。なお、ユーザの識別(即ち、個人認識)は、入力画像ではなく、入力音声に基づいて行われてもよい。
本実施形態において、画像認識部152は、入力画像に映るユーザのジェスチャをも認識し得る。なお、本明細書において、ジェスチャとの用語は、ユーザの身体の動的な動きを伴わないいわゆるポーズ(形状)をも含むものとする。
図6は、画像認識部152による画像認識の結果の他の例について説明するための説明図である。図6を参照すると、入力画像W04にユーザUa及びUbが映っている。ユーザUaは、右手の人差し指を口に当てるジェスチャを行っている。画像認識部152は、入力画像W04内の手領域A04を認識し、ユーザUaの上記ジェスチャをさらに認識し得る。ユーザUbは、両手で口を塞ぐジェスチャを行っている。画像認識部152は、入力画像W04内の手領域A05を認識し、ユーザUbの上記ジェスチャをさらに認識し得る。画像認識部152は、ユーザのジェスチャを認識すると、認識したジェスチャの種類を示すジェスチャデータを、制御部170へ出力する。
(5)音声認識部
音声認識部154は、音声取得部130から入力される入力音声に基づいて、ユーザの音声を認識する。本実施形態において、音声取得部130から音声認識部154への音声入力は、後述する認識制御部172によりアクティブ化され、又は非アクティブ化される。音声入力がアクティブである間、音声認識部154は、入力音声をその内容を示すテキストに変換する。実行中のアプリケーションがフリーテキストの入力を受け付ける場合には、音声認識部154は、認識した音声の内容を示すテキストを、アプリケーション部140へ出力し得る。その代わりに、実行中のアプリケーションが所定の音声コマンドセット内の音声コマンドの入力を受け付ける場合には、音声認識部154は、ユーザの音声から認識した音声コマンドを識別する識別子を、アプリケーション部140へ出力してもよい。音声入力が非アクティブである間、音声認識部154は、音声認識を実行しない。
音声認識部154は、音声取得部130から入力される入力音声のレベルを判定し、判定したレベルを制御部170へ通知してもよい。後述する認識制御部172は、音声認識部154から通知される入力音声のレベルに応じて、画面上でのユーザへの様々なフィードバックを行い得る。
上述したように、あるシナリオにおいて、マイクロフォン102は可変的な指向性を有する。この場合、後述する認識制御部172により、マイクロフォン102の指向性が設定される。そして、音声認識部154は、設定された指向性に対応する方向に位置するユーザの音声を、マイクロフォン102により取得される音声信号を用いて認識する。
(6)特徴データベース
特徴DB160は、画像認識部152により画像認識のために使用される画像特徴データ、及び音声認識部154により音声認識のために使用される音声特徴データを予め記憶する。画像特徴データは、例えば、ユーザの手、口又は顔などの所定の部分の既知の画像特徴量を含み得る。また、画像特徴データは、ユーザごとの顔画像データを含んでもよい。また、画像特徴データは、画像認識部152が認識すべきジェスチャを定義するジェスチャ定義データを含んでもよい。音声特徴データは、例えば、ユーザごとの発話の特徴を示す音声特徴量を含み得る。
(7)認識制御部172
認識制御部172は、入力画像に重畳されるオブジェクトであって、発話に関連する当該オブジェクトを生成する。そして、認識制御部172は、生成した当該オブジェクトを用いて、音声認識部154により実行される音声認識を制御する。以下、音声認識を制御するために使用されるこのオブジェクトを、制御オブジェクトという。制御オブジェクトは、ユーザによる操作に従って画面上で移動してもよく、又は固定的な位置に表示されてもよい。
図7は、制御オブジェクトの第1の例について説明するための説明図である。図7を参照すると、入力画像W05に制御オブジェクトIC1が重畳されている。制御オブジェクトIC1は、手持ち型のマイクロフォンを模したアイコンである。認識制御部172は、例えば、ユーザからの音声入力を受け付けるアプリケーション(以下、音声対応アプリケーションという)が起動されると、画面上の規定の表示位置又は画像認識部152により認識されるユーザの身体の近傍に、制御オブジェクトIC1を表示させる。そして、認識制御部172は、ユーザの動き(例えば、手領域の動き)に応じて、制御オブジェクトIC1の表示位置を変化させる。認識制御部172は、ユーザの動き(例えば、手領域の回転)に応じて、制御オブジェクトIC1の向きを変化させてもよい。音声対応アプリケーションが終了すると、制御オブジェクトIC1は画面から消去され、又は非アクティブ化されて既定の表示位置若しくは画面の端部へ移動し得る。
図8は、制御オブジェクトの第2の例について説明するための説明図である。図8を参照すると、入力画像W06に制御オブジェクトIC2が重畳されている。制御オブジェクトIC2は、スタンド型のマイクロフォンを模したアイコンである。認識制御部172は、例えば、音声対応アプリケーションが起動されると、画面上の既定の表示位置に制御オブジェクトIC2を表示させる。制御オブジェクトIC2の表示位置は移動しない。音声対応アプリケーションが終了すると、制御オブジェクトIC2は画面から消去され得る。
なお、図7及び図8に示した制御オブジェクトIC1及びIC2は一例に過ぎない。例えば、口若しくは拡声器を模した他の種類のアイコン又はテキストラベルなどが制御オブジェクトとして使用されてもよい。また、制御オブジェクトの外観ではなく、制御オブジェクトの機能性が発話に関連していてもよい。
本実施形態において、認識制御部172は、画像認識部152により認識されるユーザの身体の所定の部分と制御オブジェクトとの間の画面内の位置関係に基づいて、音声認識部154により実行される音声認識を制御する。例えば、認識制御部172は、当該位置関係に基づくアクティブ化条件が満たされている場合に、音声認識部154への音声入力をアクティブ化する。認識制御部172は、アクティブ化条件が満たされていない場合に、音声認識部154への音声入力をアクティブ化しない。
図9は、音声入力をアクティブ化するためのアクティブ化条件の第1の例について説明するための説明図である。図9を参照すると、入力画像W07a及びW07bにユーザUaが映っている。画像認識部152は、入力画像に映るユーザの口領域及び手領域を認識する。第1の例において、アクティブ化条件は、ユーザの口と制御オブジェクトとの間の距離が距離閾値D1を下回る、という条件である。図中には、口領域の中心点G1を中心とし半径が距離閾値D1に等しい円が点線で示されている。認識制御部172は、認識される手領域A01の動きに従って、制御オブジェクトIC1を画面内で移動させる。図9の上段では、ユーザの口と制御オブジェクトIC1との間の距離が距離閾値D1を上回るため、音声入力は非アクティブである。即ち、ユーザが音声を発しても(又は近傍で雑音が発生しても)、音声認識部154は音声を認識しない。従って、その間、ユーザが意図しない音声認識に起因して、アプリケーションが予期しない動作をすることが防止される。図9の下段において、ユーザが手を動かした結果、ユーザの口と制御オブジェクトIC1との間の距離が距離閾値D1を下回っている。そこで、認識制御部172は、アクティブ化条件が満たされていると判定し、音声入力をアクティブ化する。すると、ユーザにより発せられる音声が音声認識部154により認識されるようになる。なお、ユーザの身体の口以外の部分と制御オブジェクトとの間の距離が上記距離閾値と比較されてもよい。
図10は、音声入力をアクティブ化するためのアクティブ化条件の第2の例について説明するための説明図である。図10を参照すると、入力画像W08a及びW08bにユーザUbが映っている。また、入力画像W08a及びW08bに制御オブジェクトIC2が重畳されている。画像認識部152は、入力画像に映るユーザの口領域A06を認識する。第2の例において、アクティブ化条件は、ユーザの口と制御オブジェクトとの間の距離が距離閾値D2を下回る、という条件である。図中には、制御オブジェクト上の基準点G2を中心とし半径が距離閾値D2に等しい円が点線で示されている。図10の上段では、ユーザの口と制御オブジェクトIC2との間の距離が距離閾値D2を上回るため、音声入力は非アクティブである。即ち、ユーザが音声を発しても(又は近傍で雑音が発生しても)、音声認識部154は音声を認識しない。従って、その間、ユーザが意図しない音声認識に起因して、アプリケーションが予期しない動作をすることが防止される。図10の下段において、ユーザが移動した結果、ユーザの口と制御オブジェクトIC2との間の距離が距離閾値D2を下回っている。そこで、認識制御部172は、アクティブ化条件が満たされていると判定し、音声入力をアクティブ化する。すると、ユーザにより発せられる音声が音声認識部154により認識されるようになる。
なお、図9及び図10を用いて説明したアクティブ化条件は一例に過ぎない。例えば、制御オブジェクトへのタッチ又は制御オブジェクトを高く掲げるなどといった、制御オブジェクトに関連する所定のジェスチャの検出が、アクティブ化条件として定義されてもよい。
音声入力が一度アクティブ化された後、認識制御部172は、所定の非アクティブ化条件が満たされるまで、音声入力のアクティブ状態を継続させる。非アクティブ化条件は、例えば、上記アクティブ化条件の単純な反対(例えば、ユーザの口と制御オブジェクトとの間の距離が距離閾値を上回る、など)であってもよい。その代わりに、非アクティブ化条件は、画像認識部152によるユーザの所定のジェスチャの認識などであってもよい。音声入力を非アクティブ化するためのジェスチャとは、例えば、人差し指を口に当てるジェスチャなどであってよい。また、非アクティブ化条件は、一単位の音声コマンドの認識の成功、又はアクティブ化からの所定の期間の経過などを含んでもよい。
音声入力がアクティブである間、認識制御部172は、音声認識部154による音声認識に関連するユーザへの視覚的なフィードバックをも制御する。
例えば、認識制御部172は、制御オブジェクトの表示属性を変化させることにより、音声認識部154への音声入力がアクティブ化されていることをユーザに通知する。認識制御部172により変更される制御オブジェクトの表示属性は、例えば、色、輝度、透明度、サイズ、形状及びテクスチャのうち少なくとも1つを含み得る。図9及び図10の例では、音声入力がアクティブであるか否かが、制御オブジェクトのテクスチャの変化によって示されている。
また、例えば、認識制御部172は、音声認識部154から通知される入力音声のレベルをユーザへフィードバックする。入力音声のレベルのフィードバックは、制御オブジェクトの表示属性を変化させ、又は制御オブジェクトが重畳されたUI画像の状態を変化させることにより行われてよい。図11は、音声認識結果の視覚的なフィードバックの一例について説明するための説明図である。図11を参照すると、制御オブジェクトIC1が重畳されたUI画像W09に、エフェクトFb1が適用されている。エフェクトFb1は、制御オブジェクトIC1(ユーザの口であってもよい)から波動が放出されているかのようなUI画像の状態を表現する。入力音声のレベルが所定の閾値を下回る場合には、エフェクトFb1は解除され得る。こうしたフィードバックによれば、ユーザは、自身が発した音声を情報処理装置100が適切に検出しているか否かを、直感的に把握することができる。認識制御部172は、上記所定の閾値を上回る入力音声のレベルに応じて、制御オブジェクトの表示属性の変化のレベル又は出力画像の状態の変化のレベルを変化させてもよい。例えば、入力音声のレベルがより大きいほどより広い画像領域に、エフェクトFb1が適用されてもよい。それにより、ユーザは、自身が発した音声について情報処理装置100が検出したレベルを、直感的に把握することができる。なお、認識制御部172は、エフェクトFb1の表示属性(例えば、色など)を、音声認識のステータス又はエラーの有無を示すように変化させてもよい。入力音声のレベルの所定の基準値との比較の結果が、UI画像W09においてテキストで示されてもよい。
また、例えば、認識制御部172は、音声認識部154により認識された音声の内容を表すテキストを含む追加的な表示オブジェクトを、入力画像に映るユーザの近傍にさらに重畳してもよい。図12及び図13は、認識された音声の内容を表す追加的な表示オブジェクトの一例について説明するための説明図である。図12を参照すると、制御オブジェクトIC1及び追加オブジェクトFb2がUI画像W10に重畳されている。追加オブジェクトFb2は、UI画像W10に映るユーザUaが発した音声の内容を表すテキストを含む吹き出しである。こうしたフィードバックによれば、ユーザは、自身が発した音声を情報処理装置100が正しく認識したか否かを、即座に把握することができる。図13を参照すると、追加オブジェクトFb2は、ランダム文字列Str1を含む。ランダム文字列Str1は、所定の閾値を上回るレベルの入力音声が検出されたものの、当該入力音声に基づく音声認識が失敗した場合に、追加オブジェクトFb2に挿入され得る。こうしたフィードバックによれば、ユーザは、自身が発した音声のレベルが十分であったものの音声認識が失敗したことを、即座に把握することができる。音声認識の失敗は、追加オブジェクトFb2の表示属性を変化させることによりユーザに通知されてもよい。なお、追加オブジェクトFb2は、ランダム文字列の代わりに、空白を含んでもよい。ランダム文字列又は空白の長さは、音声認識が失敗した間の発話時間の長さに応じて決定されてもよい。
また、例えば、認識制御部172は、音声認識部154により検出されている音声のレベルと、音声認識を有効に行うために求められる音声のレベルとを示す追加的なオブジェクトを入力画像に重畳してもよい。音声認識を有効に行うために求められる音声のレベルは、メモリ105により予め記憶されてもよく、又は環境の雑音レベルに依存して動的に計算されてもよい。図14は、音声認識を支援する追加的な表示オブジェクトの一例について説明するための説明図である。図14を参照すると、UI画像W12に、制御オブジェクトIC1、追加オブジェクトFb2及び追加オブジェクトFb3が重畳されている。追加オブジェクトFb2は、音声の内容を表すテキストを含む吹き出しである。ここでは、ユーザが発した音声のレベルが十分ではないことに起因して音声認識が失敗した結果、追加オブジェクトFb2の背景色が暗い色に変更されている。追加オブジェクトFb3は、音声のレベルを通知するインジケータである。追加オブジェクトFb3の外側の点線の円周の半径は、音声認識を有効に行うために求められる音声のレベルに対応する。塗りつぶされた円の半径は、音声認識部154から通知される入力音声のレベルに対応する。入力音声のレベルが高くなれば、塗りつぶされた円は大きくなる。なお、追加オブジェクトFb3は、図14の例に限定されず、例えば帯状のインジケータなどであってもよい。こうしたフィードバックによれば、ユーザは、自身が発した音声のレベルが不十分であった場合に、どの程度声を大きくすれば音声認識が成功し得るかを、直感的に把握することができる。なお、認識制御部172は、追加オブジェクトFb3の表示属性(例えば、色など)を、音声認識のステータス又はエラーの有無を示すように変化させてもよい。入力音声のレベルの所定の基準値との比較の結果が、UI画像W12においてテキストで示されてもよい。
マイクロフォン102が可変的な指向性を有する場合には、認識制御部172は、制御オブジェクトを用いてマイクロフォン102の指向性を設定することにより、音声認識の精度を向上させてもよい。例えば、認識制御部172は、制御オブジェクトの画面上の位置に応じて、マイクロフォン102の指向性を設定してもよい。また、認識制御部172は、制御オブジェクトの画面上の向きに応じて、マイクロフォン102の指向性を設定してもよい。
図15〜図17は、マイクロフォンの指向性の制御の一例について説明するための説明図である。図15の上段において、UI画像W13に、制御オブジェクトIC1が重畳されている。制御オブジェクトIC1の表示位置は、ユーザUaの手領域の動きに応じて変化し得る。図示された時点において、制御オブジェクトIC1の表示位置は、画面の中央のやや左である。図15の下段には、ユーザUaの頭上の視点から見た、情報処理装置100とユーザUaとの間の実空間における位置関係が示されている。認識制御部172は、例えば、カメラ101の画角と制御オブジェクトIC1の表示位置とに基づいて、マイクロフォン102の指向性を角度R1に設定する。ユーザUaは角度R1の方向に存在するため、結果として、ユーザUaが発する音声をマイクロフォン102がより高い品質で集音することが可能となる。
図16の上段において、UI画像W14に、制御オブジェクトIC1が重畳されている。また、UI画像W14には、ユーザUa及びUbが映っている。図示された時点において、制御オブジェクトIC1の表示位置は、ユーザUaよりもむしろユーザUbの顔の近傍である。図16の下段には、ユーザUa及びUbの頭上の視点から見た、情報処理装置100とユーザUa及びUbとの間の実空間における位置関係が示されている。認識制御部172は、例えば、カメラ101の画角と制御オブジェクトIC1の表示位置とに基づいて、マイクロフォン102の指向性を角度R2に設定する。角度R2の方向にはユーザUbが存在するため、結果として、ユーザUbが発する音声をマイクロフォン102がより高い品質で集音することが可能となる。
図17の上段において、UI画像W15に、制御オブジェクトIC1が重畳されている。制御オブジェクトIC1の画面上での向きは、ユーザUaの手領域の向きに応じて変化し得る。UI画像W15には、ユーザUa及びUbが映っている。図示された時点において、制御オブジェクトIC1は、ユーザUaより操作され、ユーザUbの顔領域A07の方向に向けられている。図17の下段には、ユーザUa及びUbの頭上の視点から見た、情報処理装置100とユーザUa及びUbとの間の実空間における位置関係が示されている。認識制御部172は、例えば、制御オブジェクトIC1の表示位置及び向き、並びにユーザUbの顔領域A07の位置に基づいて、マイクロフォン102の指向性を角度R3に設定する。角度R3の方向にはユーザUbが存在するため、結果として、ユーザUbが発する音声をマイクロフォン102がより高い品質で集音することが可能となる。
図16又は図17を用いて説明したような手法によれば、複数のユーザが存在する場合に、制御オブジェクトIC1をあたかも現実のマイクロフォンであるかのように使用して、音声認識についての発話権をユーザ間で受け渡すことが可能となる。
ここまでに説明した例以外にも、ユーザのジェスチャに基づく様々なユーザインタフェースが実現されてよい。例えば、認識制御部172は、ユーザが手で口を塞ぐジェスチャの認識に応じて、音声認識部154によるそれまでの音声認識結果をキャンセルしてもよい。それにより、ユーザが誤った内容の音声を発し又は音声認識部154が音声の内容を誤って認識した場合に、ユーザが簡易に音声入力をやり直すことができる。また、認識制御部172は、予め定義されるジェスチャの認識に応じて、スピーカ109からの音声出力のボリュームを増加させ又は減少させてもよい。
また、認識制御部172は、1つ以上の音声コマンド候補の各々を表すテキストオブジェクトを、入力画像にさらに重畳してもよい。それにより、ユーザは、アプリケーション機能が受け付ける音声コマンドを事前に知っていなくても、必要とされる音声コマンドを適切に発することができる。
(8)表示制御部174
表示制御部174は、ディスプレイ108を介する画像の表示を制御する。例えば、表示制御部174は、アプリケーション部140から入力されるアプリケーション画像をディスプレイ108に表示させる。また、表示制御部174は、音声対応アプリケーションが起動された場合に、認識制御部172により生成されるUI画像を、ディスプレイ108に表示させる。表示制御部174は、UI画像のみをディスプレイ108に表示させてもよく、又はアプリケーション画像及びUI画像を合成することにより生成される1つの出力画像をディスプレイ108に表示させてもよい。
図18及び図19は、本実施形態において採用され得る出力画像のウィンドウ構成の例をそれぞれ示している。これら図において、UI用ウィンドウWUI及びアプリケーション用ウィンドウWAPPがディスプレイ108により表示される。UI用ウィンドウWUIは、認識制御部172により生成されるUI画像を表示する。アプリケーション用ウィンドウWAPPは、アプリケーション部140から入力されるアプリケーション画像(例えば、コンテンツ画像)を表示する。図18の第1の例では、アプリケーション用ウィンドウWAPPは、UI用ウィンドウWUIの右下のコーナーに合成されている。図19の第2の例では、UI用ウィンドウWUIはアプリケーション用ウィンドウWAPPの一部分にブレンディングされている。こうしたウィンドウ構成によれば、ユーザは、例えばコンテンツ画像を閲覧しながら、リモートコントローラが手元になくても、制御オブジェクトを用いて情報処理装置100を自らの音声で操作することができる。
[2−3.制御シナリオの例]
上述した情報処理装置100において行われ得るいくつかの制御シナリオの例について、図20〜図23を用いて説明する
(1)第1のシナリオ
図20は、第1の制御シナリオについて説明するための説明図である。図20を参照すると、5つのUI画像ST11〜ST15が時間軸に沿って示されている。
UI画像ST11にはユーザUdが映っており、ミラー表示が実現されている。
次のUI画像ST12は、例えば音声対応アプリケーションが起動し、又はユーザが手を挙げるなどのジェスチャをした後に表示され得る。UI画像ST12には、制御オブジェクトIC1が重畳されている。但し、この時点では、音声認識部154への音声入力はアクティブ化されていない。
次のUI画像ST13は、例えばユーザUdが制御オブジェクトIC1を口の近傍に移動させた後に表示され得る。認識制御部172は、アクティブ化条件が満たされた結果として、音声認識部154への音声入力をアクティブ化する。UI画像ST13において、制御オブジェクトIC1の表示属性は、アクティブ状態を示すように変化している。
次のUI画像ST14は、ユーザUdが音声を発している間に表示され得る。UI画像ST14において、制御オブジェクトIC1の表示属性は、引き続きアクティブ状態を示している。また、UI画像ST14にはエフェクトFb1が適用されると共に、認識された音声の内容を示す追加オブジェクトFb2がUI画像ST14に重畳されている。
次のUI画像ST15は、非アクティブ化条件が満たされた場合に表示され得る。ここでは、音声入力を非アクティブ化させるジェスチャとして人差し指を口に当てるジェスチャが定義されているものとする。認識制御部172は、当該ジェスチャの認識に応じて、音声認識部154への音声入力を非アクティブ化する。制御オブジェクトIC1の表示位置は例えば既定の表示位置に戻され、制御オブジェクトIC1の表示属性は非アクティブ状態を示すように変更される。
(2)第2のシナリオ
図21は、第2の制御シナリオについて説明するための説明図である。図21を参照すると、5つのUI画像ST21〜ST25が時間軸に沿って示されている。
UI画像ST21には、ユーザUdが映っている。また、UI画像ST21に制御オブジェクトIC1が重畳されている。但し、この時点では、音声認識部154への音声入力はアクティブ化されていない。
次のUI画像ST22は、例えばユーザUdが制御オブジェクトIC1を口の近傍に移動させた後に表示され得る。認識制御部172は、アクティブ化条件が満たされた結果として、音声認識部154への音声入力をアクティブ化する。UI画像ST22において、制御オブジェクトIC1の表示属性は、アクティブ状態を示すように変化している。
次のUI画像ST23は、ユーザUdが音声を発している間に表示され得る。UI画像ST23において、制御オブジェクトIC1の表示属性は、引き続きアクティブ状態を示している。第2の制御シナリオでは、ユーザUdが音声を発している間、手の動きに関わらず、制御オブジェクトIC1の表示位置は、ユーザUdの口の近傍に維持される。従って、ユーザは、例えば電子メールのメッセージのように長い文章を音声で入力するような場合に、手を挙げ続けることで疲れることなく、音声入力を継続することができる。
次のUI画像ST24において、ユーザUdは、手で口を塞ぐジェスチャをしている。認識制御部172は、かかるジェスチャの認識に応じて、それまでの音声認識結果をキャンセルする。第2の制御シナリオにおいて、音声認識部154への音声入力のアクティブ状態は、その後も維持される。
次のUI画像ST25において、ユーザUdは再び音声を発している。その結果、当初ユーザUdが発した音声の内容とは異なる内容の音声が、音声認識部154により適切に認識されている。
(3)第3のシナリオ
図22は、第3の制御シナリオについて説明するための説明図である。図22を参照すると、3つのUI画像ST31〜ST33が時間軸に沿って示されている。
UI画像ST31にはユーザUdが映っており、ミラー表示が実現されている。
次のUI画像ST32は、例えばユーザが手を挙げるなどのジェスチャをした後に表示され得る。UI画像ST32には、制御オブジェクトIC2が重畳されている。また、UI画像ST32には、音声対応アプリケーションが受け付ける音声コマンド候補(コマンドA〜コマンドD)の各々を表す4つのテキストオブジェクトが重畳されている。
次のUI画像ST33において、例えばユーザUdが制御オブジェクトIC2の近傍に近付いた結果として音声入力がアクティブ化されている。そして、ユーザUdがコマンドBを読み上げる音声を発し、発せられたコマンドBを音声認識部154が適切に認識している。音声コマンド候補は、例えば、情報処理装置100をユーザが遠隔的に制御するために予め用意される1つ以上のコマンドであってよい。
このように、本実施形態では、ユーザの手元にリモートコントローラがなくても、ユーザが情報処理装置100を遠隔的に制御することが可能である。例えば、リモートコントローラが紛失した状況、又は他のユーザによりリモートコントローラが保持されている状況でも、ユーザは、ストレスを感じることなく、所望のタイミングで情報処理装置100を制御することができる。なお、UI画像ST32が表示された後、所定の音声コマンド又はジェスチャの認識に応じて、音声コマンドA〜Dを表すテキストオブジェクトが他の音声コマンド候補を表すテキストオブジェクトに置き換えられてもよい。
(4)第4のシナリオ
第4のシナリオは、制御オブジェクトが介在しない補足的なシナリオである。図23は、第4の制御シナリオについて説明するための説明図である。図23を参照すると、3つのUI画像ST41〜ST43が時間軸に沿って示されている。
UI画像ST41にはユーザUdが映っており、ミラー表示が実現されている。
次のUI画像ST42において、ユーザUdは、耳元で手を丸めるジェスチャをしている。認識制御部172は、かかるジェスチャの認識に応じて、スピーカ109からの音声出力のボリュームを増加させる。ボリュームの増加量は、ジェスチャが認識されている時間の長さに依存して変化してもよい。
次のUI画像ST43において、ユーザUdは、人差し指を口に当てるジェスチャをしている。認識制御部172は、かかるジェスチャの認識に応じて、スピーカ109からの音声出力のボリュームを減少させる。ボリュームの減少量は、ジェスチャが認識されている時間の長さに依存して変化してもよい。
このように、本実施形態では、ユーザのジェスチャに基づく様々なユーザインタフェースが実現され得る。音声入力がアクティブか否か、又は音声対応アプリケーションが実行中であるか否かに依存して、同じ種類のジェスチャが互いに異なる意味に解釈されてもよい。なお、ユーザ独自のジェスチャをユーザに登録させるためのユーザインタフェースが提供されてもよい。例えば、“手で(制御オブジェクトを)払いのける”というジェスチャが登録され、当該ジェスチャが音声入力のアクティブ化/非アクティブ化のためのジェスチャとして定義されてもよい。個々のジェスチャのための動き、及びジェスチャと対応する処理との間のマッピングをユーザにカスタマイズさせるためのユーザインタフェースがさらに提供されてもよい。
[2−4.処理の流れの例]
図24及び図25のフローチャートは、本実施形態に係る情報処理装置100により実行され得る処理の流れの一例を示している。ここで説明する処理は、カメラ101により撮像される動画を構成する一連のフレームの各々について繰り返される。
図24を参照すると、まず、画像取得部120は、カメラ101により撮像される画像を入力画像として取得する(ステップS100)。そして、画像取得部120は、取得した入力画像を認識部150及び制御部170へ出力する。
次に、画像認識部152は、画像取得部120から入力される入力画像に映るユーザの身体を認識する(ステップS105)。例えば、画像認識部152は、入力画像内のユーザの手領域及び口領域を認識し、認識したこれら領域の位置を示す位置データを制御部170へ出力する。また、画像認識部152は、予め定義されるいくつかのユーザのジェスチャを追加的に認識してもよい。
次に、認識制御部172は、音声対応アプリケーションが起動しているかを判定する(ステップS110)。音声対応アプリケーションが起動していない場合には、その後のステップS115〜ステップS160の処理はスキップされる。音声対応アプリケーションが起動している場合(又はステップS105で認識されるジェスチャによって、音声対応アプリケーションが起動された場合)には、処理はステップS115へ進む。
ステップS115において、認識制御部172は、発話に関連する制御オブジェクトの表示位置及び向きを決定する(ステップS115)。制御オブジェクトの表示位置は、既定の位置であってもよく、又は画像認識部152により認識されるユーザの手の動きに追随して移動してもよい。同様に、制御オブジェクトの向きは、既定の向きであってもよく、又はユーザの手の動きに追随して回転してもよい。
次に、マイクロフォン102が可変的な指向性を有する場合には、認識制御部172は、ステップS115において決定した制御オブジェクトの表示位置及び向きに応じて、マイクロフォン102の指向性を設定する(ステップS120)。
次に、認識制御部172は、入力画像をミラー表示するUI画像に、ステップS115において決定した表示位置及び向きを有する制御オブジェクトを重畳する(ステップS125)。ここでの制御オブジェクトの表示属性は、音声入力がアクティブ化されていないことを示す値に設定され得る。
図25に移り、次に、認識制御部172は、上述したアクティブ化条件及び非アクティブ化条件に従って、音声入力がアクティブであるかを判定する(ステップS130)。例えば、ユーザの口領域と制御オブジェクトとの間の距離が距離閾値を下回る場合には、アクティブ化条件は満たされていると判定され得る。音声入力がアクティブであると判定されない場合には、その後のステップS135〜ステップS160の処理はスキップされる。音声入力がアクティブであると判定された場合には、処理はステップS135へ進む。
ステップS135において、認識制御部172は、音声認識部154への音声入力を必要に応じてアクティブ化し、制御オブジェクトの表示属性を、音声入力がアクティブ化されていることを示す値に設定する(ステップS135)。
次に、音声取得部130は、マイクロフォン102から取得される入力音声を、音声認識部154へ出力する(ステップS140)。
次に、音声認識部154は、音声取得部130から入力される入力音声に基づいて、ユーザの音声を認識する(ステップS145)。そして、音声認識部154は、音声認識の結果を、アプリケーション部140及び認識制御部172へ出力する。
次に、認識制御部172は、音声認識部154から入力される音声認識結果についてのフィードバックを、UI画像に適用する(ステップS150)。例えば、認識制御部172は、図11に例示したエフェクトFb1をUI画像に適用してもよい。また、認識制御部172は、図12〜図14に例示した追加オブジェクトFb2又はFb3をUI画像に重畳してもよい。
次に、認識制御部172は、音声認識が成功したか否かを判定する(ステップS155)。音声認識が成功していなければ、その後のステップS160の処理はスキップされる。音声認識が成功していれば、処理はステップS160へ進む。
ステップS160において、アプリケーション部140は、音声認識結果に基づくアプリケーション処理を実行する(ステップS160)。例えば、アプリケーション部140は、認識された音声コマンドに対応する処理を実行してもよい。また、アプリケーション部140は、認識された音声の内容を示すテキストを入力情報として受け付けてもよい。
次に、表示制御部174は、UI画像を含む出力画像をディスプレイ108に表示させる(ステップS165)。ここで表示される出力画像は、UI画像のみを含んでもよく、又はUI画像及びアプリケーション画像の双方を含んでもよい。その後、処理は図24のステップS100へ戻る。
なお、ここまで、主にUI画像に1つの制御オブジェクトのみが重畳される例を説明した。しかしながら、かかる例に限定されず、UI画像に複数の制御オブジェクトが重畳されてもよい。例えば、入力画像に複数のユーザが映っている場合において、それぞれのユーザについて別個の制御オブジェクトを重畳すれば、制御オブジェクトをユーザ間で受け渡す作業を要することなく、各ユーザが所望のタイミングで音声コマンドを入力することが可能となる。
<3.第2の実施形態>
上述したように、本開示に係る技術は、テレビジョン装置に限定されず、様々な種類の装置に適用可能である。そこで、第2の実施形態として、本開示に係る技術がメッセージ交換用アプリケーションを有する情報処理装置200に適用される例について説明する。図2を用いて説明したように、情報処理装置200は、タブレットPCである。
(1)ハードウェア構成例
図26は、情報処理装置200のハードウェア構成の一例を示すブロック図である。図26を参照すると、情報処理装置200は、カメラ201、マイクロフォン202、入力デバイス203、通信I/F204、メモリ205、ディスプレイ208、スピーカ209、バス211及びプロセッサ212を備える。
カメラ201は、CCD又はCMOSなどの撮像素子を有し、画像を撮像する。カメラ201により撮像される画像(動画を構成する各フレーム)は、情報処理装置200による処理のための入力画像として扱われる。
マイクロフォン202は、ユーザにより発せられる音声を集音し、音声信号を生成する。マイクロフォン202により生成される音声信号は、情報処理装置200による音声認識のための入力音声として扱われる。
入力デバイス203は、ユーザが情報処理装置200を操作し又は情報処理装置200へ情報を入力するために使用されるデバイスである。入力デバイス203は、例えば、タッチパネル、ボタン及びスイッチなどを含み得る。入力デバイス203は、ユーザ入力を検出すると、検出されたユーザ入力に対応する入力信号を生成する。
通信I/F204は、情報処理装置200による他の装置との間の通信を仲介する。通信I/F204は、任意の無線通信プロトコル又は有線通信プロトコルをサポートし、他の装置との間の通信接続を確立する。
メモリ205は、半導体メモリ又はハードディスクなどの記憶媒体により構成され、情報処理装置200による処理のためのプログラム及びデータ、並びにコンテンツデータを記憶する。なお、プログラム及びデータの一部又は全部は、メモリ205により記憶されることなく、外部のデータソース(例えば、データサーバ、ネットワークストレージ又は外付けメモリなど)から取得されてもよい。
ディスプレイ208は、LCD又はOLEDなどにより構成される画面を有し、情報処理装置200により生成される画像を表示する。例えば、第1の実施形態において説明したものと同様のUI画像が、ディスプレイ208の画面に表示され得る。
スピーカ209は、振動板及びアンプなどの回路素子を有し、情報処理装置200により生成される出力音声信号に基づいて、音声を出力する。スピーカ209の音量は、変更可能である。
バス211は、カメラ201、マイクロフォン202、入力デバイス203、通信I/F204、メモリ205、ディスプレイ208、スピーカ209及びプロセッサ212を相互に接続する。
プロセッサ212は、例えば、CPU又はDSPなどであってよい。プロセッサ212は、メモリ205又は他の記憶媒体に記憶されるプログラムを実行することにより、第1の実施形態に係る情報処理装置100のプロセッサ112と同様に、情報処理装置200の様々な機能を動作させる。情報処理装置200のメモリ205及びプロセッサ212により実現される論理的機能の構成は、アプリケーション機能が異なることを除き、図4に例示した情報処理装置100の構成と同様であってよい。
(2)制御シナリオの例
図27は、第2の実施形態における制御シナリオの一例について説明するための説明図である。図27を参照すると、4つの出力画像ST51〜ST54が時間軸に沿って示されている。本シナリオにおいて、各出力画像は、上部のメッセージ交換用アプリケーションのアプリケーション画像と、下部のUI画像とにより構成される。
出力画像ST51において、アプリケーション画像は、メッセージ入力ボックスを含む。メッセージ入力ボックスには、メッセージは入力されていない。UI画像にはユーザUdが映っており、ミラー表示が実現されている。
次の出力画像ST52は、例えばユーザが手を挙げるなどのジェスチャをした後に表示され得る。出力画像ST52において、UI画像に制御オブジェクトIC1が重畳されている。但し、この時点では、音声入力はアクティブ化されていない。
次の出力画像ST53は、例えばユーザUdが制御オブジェクトIC1を口の近傍に移動させた後に表示され得る。音声入力はアクティブ化され、制御オブジェクトIC1の表示属性は、アクティブ状態を示すように変化している。メッセージ入力ボックスには、ユーザにより発せられた音声の内容が入力されている。
次の出力画像ST54は、例えばユーザUdが制御オブジェクトIC1を口の近傍から離した後に表示され得る。音声入力は非アクティブ化され、制御オブジェクトIC1の表示属性は、非アクティブ状態を示すように変化している。この状態でユーザが音声を発しても、メッセージ入力ボックスには音声の内容は入力されない。従って、ユーザは、手を動かす簡単な動作だけで、音声入力の状態を切り替えて、入力することを望む音声の内容だけをメッセージに含めることができる。
<4.まとめ>
ここまで、図1〜図27を用いて、本開示に係る技術の実施形態について詳細に説明した。上述した実施形態によれば、入力画像に重畳して表示される制御オブジェクトを用いて、情報機器により実行される音声認識が制御される。従って、ユーザは、画面上の制御オブジェクトの状態を手掛かりとして、音声認識のための適切なタイミングを判断することができる。
また、上述した実施形態によれば、入力画像内で認識されるユーザの身体の所定の部分と制御オブジェクトとの間の位置関係に基づいて、音声認識が制御される。従って、ユーザは、画面に表示される自らの身体を動かすことにより、音声認識に関連する様々な機能性を扱うことができる。
また、上述した実施形態によれば、ユーザの口と制御オブジェクトとの間の距離に基づいて、音声認識のための音声入力がアクティブ化され得る。また、制御オブジェクトは、ユーザの手の動きに従って画面内で移動し得る。従って、ユーザは、制御オブジェクトを移動させ又は自ら制御オブジェクトの方へ移動することにより、意図したタイミングで所望の音声のみを容易に認識させることができる。その際にユーザに求められる動きは、現実のマイクロフォンを扱う動きに類似しているため、こうした仕組みによって、ユーザにとって直感的なユーザインタフェースを実現することができる。
また、上述した実施形態によれば、音声入力がアクティブ化されているか否かが、制御オブジェクトの表示属性の変化を通じてユーザに通知される。従って、ユーザは、画面上の制御オブジェクトのみに注意を払うだけで、適切なタイミングで発話することができる。
なお、本明細書において説明した各装置による一連の処理は、典型的には、ソフトウェアを用いて実現される。一連の処理を実現するソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記憶媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、実行時にRAM(Random Access Memory)に読み込まれ、CPUなどのプロセッサにより実行される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力画像を取得する画像取得部と、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
を備え、
前記制御部は、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御する、
情報処理装置。
(2)
前記情報処理装置は、前記入力画像に映るユーザの身体を認識する画像認識部、をさらに備え、
前記制御部は、前記画像認識部により認識されるユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、前記音声認識を制御する、
前記(1)に記載の情報処理装置。
(3)
前記所定の部分は、ユーザの口を含み、
前記制御部は、ユーザの口と前記オブジェクトとの間の距離に基づいて、前記音声認識のための音声入力をアクティブ化する、
前記(2)に記載の情報処理装置。
(4)
前記所定の部分は、ユーザの手を含み、
前記制御部は、ユーザの手の動きに従って前記オブジェクトを前記画面内で移動させる、
前記(3)に記載の情報処理装置。
(5)
前記制御部は、前記入力画像に映るユーザのジェスチャに応じて、前記音声認識のための音声入力を非アクティブ化する、前記(3)又は前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記音声認識のための音声入力がアクティブ化されているか否かを、前記オブジェクトの表示属性を変化させることによりユーザに通知する、前記(1)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記制御部は、前記音声認識において音声が検出されているか否かを、前記オブジェクトの表示属性を変化させ又は前記オブジェクトが重畳された出力画像の状態を変化させることにより、ユーザに通知する、前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記制御部は、前記音声認識において検出されている音声のレベルに応じて、前記オブジェクトの前記表示属性又は前記出力画像の前記状態の変化のレベルを変化させる、前記(7)に記載の情報処理装置。
(9)
前記音声認識は、可変的な指向性を有するマイクロフォンにより取得される音声信号を用いて実行される、前記(1)〜(8)のいずれか1項に記載の情報処理装置。
(10)
前記制御部は、前記オブジェクトの位置をユーザの動きに応じて変化させ、
前記マイクロフォンの指向性は、前記オブジェクトの位置に応じて設定される、
前記(9)に記載の情報処理装置。
(11)
前記制御部は、前記オブジェクトの向きをユーザの動きに応じて変化させ、
前記マイクロフォンの指向性は、前記オブジェクトの向きに応じて設定される、
前記(9)又は前記(10)に記載の情報処理装置。
(12)
前記制御部は、前記音声認識において認識された音声の内容を表すテキストを含む第1の追加的なオブジェクトを、前記入力画像に映るユーザの近傍にさらに重畳する、前記(1)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記制御部は、前記音声認識が失敗した場合に、前記第1の追加的なオブジェクトの表示属性を変化させ又は特別な文字列を前記テキストに挿入することにより、前記音声認識の失敗をユーザに通知する、前記(12)に記載の情報処理装置。
(14)
前記制御部は、前記音声認識において検出されている音声のレベルと、前記音声認識を有効に行うために求められる音声のレベルとを示す第2の追加的なオブジェクトを、前記入力画像にさらに重畳する、前記(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記制御部は、1つ以上の音声コマンドの候補の各々を表すテキストオブジェクトを、前記入力画像にさらに重畳する、前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記情報処理装置は、テレビジョン装置であり、
前記音声コマンドは、前記情報処理装置をユーザが遠隔的に制御するために発せられるコマンドである、
前記(15)に記載の情報処理装置。
(17)
前記オブジェクトは、マイクロフォンを模したアイコンである、前記(1)〜(16)のいずれか1項に記載の情報処理装置。
(18)
情報処理装置により実行される情報処理方法であって、
入力画像を取得することと、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させることと、
ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御することと、
を含む情報処理方法。
(19)
情報処理装置を制御するコンピュータを、
入力画像を取得する画像取得部と、
発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
として機能させ、
前記制御部は、ユーザの音声について実行される音声認識を、前記オブジェクトを用いて制御する、
プログラム。
100,200 情報処理装置
120 画像取得部
152 画像認識部
154 音声認識部
172 認識制御部
174 表示制御部
IC1,IC2 制御オブジェクト

Claims (18)

  1. 入力画像を取得する画像取得部と、
    発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
    前記入力画像に映るユーザの身体を認識する画像認識部と、
    を備え、
    前記制御部は、前記ユーザの音声について実行される音声認識を、前記画像認識部により認識される前記ユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、制御する、
    情報処理装置。
  2. 前記所定の部分は、前記ユーザの口を含み、
    前記制御部は、前記ユーザの口と前記オブジェクトとの間の距離に基づいて、前記音声認識のための音声入力をアクティブ化する、
    請求項1に記載の情報処理装置。
  3. 前記所定の部分は、前記ユーザの手を含み、
    前記制御部は、前記ユーザの手の動きに従って前記オブジェクトを前記画面内で移動させる、
    請求項に記載の情報処理装置。
  4. 前記制御部は、前記入力画像に映る前記ユーザのジェスチャに応じて、前記音声認識のための音声入力を非アクティブ化する、請求項2又は3に記載の情報処理装置。
  5. 前記制御部は、前記音声認識のための音声入力がアクティブ化されているか否かを、前記オブジェクトの表示属性を変化させることにより前記ユーザに通知する、請求項1〜のいずれか1項に記載の情報処理装置。
  6. 前記制御部は、前記音声認識において音声が検出されているか否かを、前記オブジェクトの表示属性を変化させ又は前記オブジェクトが重畳された出力画像の状態を変化させることにより、前記ユーザに通知する、請求項1〜のいずれか1項に記載の情報処理装置。
  7. 前記制御部は、前記音声認識において検出されている音声のレベルに応じて、前記オブジェクトの前記表示属性又は前記出力画像の前記状態の変化のレベルを変化させる、請求項に記載の情報処理装置。
  8. 前記音声認識は、可変的な指向性を有するマイクロフォンにより取得される音声信号を用いて実行される、請求項1〜のいずれか1項に記載の情報処理装置。
  9. 前記制御部は、前記オブジェクトの位置を前記ユーザの動きに応じて変化させ、
    前記マイクロフォンの指向性は、前記オブジェクトの位置に応じて設定される、
    請求項に記載の情報処理装置。
  10. 前記制御部は、前記オブジェクトの向きを前記ユーザの動きに応じて変化させ、
    前記マイクロフォンの指向性は、前記オブジェクトの向きに応じて設定される、
    請求項8又は9に記載の情報処理装置。
  11. 前記制御部は、前記音声認識において認識された音声の内容を表すテキストを含む第1の追加的なオブジェクトを、前記入力画像に映る前記ユーザの近傍にさらに重畳する、請求項1〜10のいずれか1項に記載の情報処理装置。
  12. 前記制御部は、前記音声認識が失敗した場合に、前記第1の追加的なオブジェクトの表示属性を変化させ又は特別な文字列を前記テキストに挿入することにより、前記音声認識の失敗を前記ユーザに通知する、請求項11に記載の情報処理装置。
  13. 前記制御部は、前記音声認識において検出されている音声のレベルと、前記音声認識を有効に行うために求められる音声のレベルとを示す第2の追加的なオブジェクトを、前記入力画像にさらに重畳する、請求項1〜12のいずれか1項に記載の情報処理装置。
  14. 前記制御部は、1つ以上の音声コマンドの候補の各々を表すテキストオブジェクトを、前記入力画像にさらに重畳する、請求項1〜13のいずれか1項に記載の情報処理装置。
  15. 前記情報処理装置は、テレビジョン装置であり、
    前記音声コマンドは、前記情報処理装置を前記ユーザが遠隔的に制御するために発せられるコマンドである、
    請求項14に記載の情報処理装置。
  16. 前記オブジェクトは、マイクロフォンを模したアイコンである、請求項1〜15のいずれか1項に記載の情報処理装置。
  17. 情報処理装置により実行される情報処理方法であって、
    入力画像を取得することと、
    発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させることと、
    前記入力画像に映るユーザの身体を認識することと、
    前記ユーザの音声について実行される音声認識を、認識された前記ユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、制御することと、
    を含む情報処理方法。
  18. 情報処理装置を制御するコンピュータを、
    入力画像を取得する画像取得部と、
    発話に関連するオブジェクトを前記入力画像に重畳して画面に表示させる制御部と、
    前記入力画像に映るユーザの身体を認識する画像認識部と、
    として機能させ、
    前記制御部は、前記ユーザの音声について実行される音声認識を、前記画像認識部により認識される前記ユーザの身体の所定の部分と前記オブジェクトとの間の前記画面内の位置関係に基づいて、制御する、
    プログラム。
JP2012246118A 2012-11-08 2012-11-08 情報処理装置、情報処理方法及びプログラム Expired - Fee Related JP5998861B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012246118A JP5998861B2 (ja) 2012-11-08 2012-11-08 情報処理装置、情報処理方法及びプログラム
EP13783688.8A EP2917824B1 (en) 2012-11-08 2013-10-01 Information processing apparatus, information processing method, and program
US14/417,859 US10438058B2 (en) 2012-11-08 2013-10-01 Information processing apparatus, information processing method, and program
CN201380057286.0A CN104781782A (zh) 2012-11-08 2013-10-01 信息处理设备、信息处理方法和程序
PCT/JP2013/005859 WO2014073149A1 (en) 2012-11-08 2013-10-01 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012246118A JP5998861B2 (ja) 2012-11-08 2012-11-08 情報処理装置、情報処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2014095766A JP2014095766A (ja) 2014-05-22
JP2014095766A5 JP2014095766A5 (ja) 2015-03-12
JP5998861B2 true JP5998861B2 (ja) 2016-09-28

Family

ID=49510468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012246118A Expired - Fee Related JP5998861B2 (ja) 2012-11-08 2012-11-08 情報処理装置、情報処理方法及びプログラム

Country Status (5)

Country Link
US (1) US10438058B2 (ja)
EP (1) EP2917824B1 (ja)
JP (1) JP5998861B2 (ja)
CN (1) CN104781782A (ja)
WO (1) WO2014073149A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
JP6772839B2 (ja) * 2014-12-25 2020-10-21 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN107430856B (zh) * 2015-03-23 2021-02-19 索尼公司 信息处理***和信息处理方法
USD777784S1 (en) * 2015-08-26 2017-01-31 Google Inc. Display screen with icon
JP6547551B2 (ja) * 2015-09-28 2019-07-24 ブラザー工業株式会社 カラオケ装置、プログラム
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及***
WO2018013564A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining gesture and voice user interfaces
US20180039478A1 (en) * 2016-08-02 2018-02-08 Google Inc. Voice interaction services
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
EP3343483A1 (en) 2016-12-30 2018-07-04 Spotify AB System and method for providing a video with lyrics overlay for use in a social messaging environment
US10146501B1 (en) * 2017-06-01 2018-12-04 Qualcomm Incorporated Sound control by various hand gestures
CN109391884A (zh) * 2017-08-08 2019-02-26 惠州超声音响有限公司 扬声器***及操控扬声器的方法
CN111033606A (zh) * 2017-08-31 2020-04-17 索尼公司 信息处理装置、信息处理方法和程序
CN110770692B (zh) 2017-10-03 2023-10-13 谷歌有限责任公司 从存储器传输数据以管理图形输出延时
CN108647002A (zh) * 2018-03-30 2018-10-12 联想(北京)有限公司 信息处理方法及电子设备
US11195525B2 (en) * 2018-06-13 2021-12-07 Panasonic Intellectual Property Corporation Of America Operation terminal, voice inputting method, and computer-readable recording medium
EP3848788A4 (en) * 2018-09-07 2021-11-10 Sony Group Corporation TERMINAL DEVICE AS WELL AS THE MANUFACTURING PROCESS OF THE SAME, AND RECORDING MEDIA
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
US11157086B2 (en) * 2020-01-28 2021-10-26 Pison Technology, Inc. Determining a geographical location based on human gestures
JP7491147B2 (ja) * 2020-08-31 2024-05-28 セイコーエプソン株式会社 表示システムの制御方法、表示システム、及び、表示装置の制御方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372660A (zh) * 2000-03-09 2002-10-02 皇家菲利浦电子有限公司 与消费电子***进行交互的方法
JP3705735B2 (ja) * 2000-08-29 2005-10-12 シャープ株式会社 オンデマンド・インタフェース装置とそのウィンドウ表示装置
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP4689548B2 (ja) * 2006-07-19 2011-05-25 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、画像処理方法、記録媒体、コンピュータプログラム、半導体デバイス
GB0703974D0 (en) * 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
WO2008109299A2 (en) * 2007-03-01 2008-09-12 Sony Computer Entertainment America Inc. System and method for communicating with a virtual world
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
KR20100088094A (ko) * 2009-01-29 2010-08-06 삼성전자주식회사 다중 입력 소스를 이용한 오브젝트 조작 장치
KR101623007B1 (ko) 2009-11-11 2016-05-20 엘지전자 주식회사 디스플레이 장치 및 그 제어방법
US9205706B2 (en) * 2010-01-27 2015-12-08 Bridgestone Americas Tire Operations, Llc Tire with noise-reducing tread pattern
KR101184460B1 (ko) * 2010-02-05 2012-09-19 연세대학교 산학협력단 마우스 포인터 제어 장치 및 방법
JP2012058838A (ja) 2010-09-06 2012-03-22 Sony Corp 画像処理装置、プログラム及び画像処理方法
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method

Also Published As

Publication number Publication date
EP2917824A1 (en) 2015-09-16
CN104781782A (zh) 2015-07-15
US10438058B2 (en) 2019-10-08
EP2917824B1 (en) 2018-07-25
WO2014073149A1 (en) 2014-05-15
JP2014095766A (ja) 2014-05-22
US20150262005A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
JP5998861B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
JP5746111B2 (ja) 電子装置及びその制御方法
EP3139261A1 (en) User terminal apparatus, system, and method for controlling the same
JP5819269B2 (ja) 電子装置及びその制御方法
EP2680110B1 (en) Method and apparatus for processing multiple inputs
US10678563B2 (en) Display apparatus and method for controlling display apparatus
WO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11449307B2 (en) Remote controller for controlling an external device using voice recognition and method thereof
CN105814628B (zh) 用于基于装置信息来执行语音识别的方法和设备
JP2013037689A (ja) 電子装置及びその制御方法
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
CN108962220A (zh) 多媒体文件播放场景下的文本显示方法及装置
JP7204804B2 (ja) スマートバックミラーのインタラクション方法、装置、電子機器及び記憶媒体
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
KR20160133305A (ko) 제스쳐 인식 방법, 컴퓨팅 장치 및 제어 장치
US11474683B2 (en) Portable device and screen control method of portable device
CN111491212A (zh) 视频处理方法及电子设备
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR102278213B1 (ko) 휴대 장치 및 휴대 장치의 화면 제어방법
KR102393774B1 (ko) 음성 인식 장치 및 그 제어방법
US20140195014A1 (en) Electronic apparatus and method for controlling electronic apparatus
JP2017134713A (ja) 電子機器、電子機器の制御プログラム
KR20210109722A (ko) 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160815

R151 Written notification of patent or utility model registration

Ref document number: 5998861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees