JP2019101739A - 情報処理装置、情報処理システムおよびプログラム - Google Patents

情報処理装置、情報処理システムおよびプログラム Download PDF

Info

Publication number
JP2019101739A
JP2019101739A JP2017231834A JP2017231834A JP2019101739A JP 2019101739 A JP2019101739 A JP 2019101739A JP 2017231834 A JP2017231834 A JP 2017231834A JP 2017231834 A JP2017231834 A JP 2017231834A JP 2019101739 A JP2019101739 A JP 2019101739A
Authority
JP
Japan
Prior art keywords
information
processing apparatus
user
gesture
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017231834A
Other languages
English (en)
Other versions
JP7006198B2 (ja
Inventor
柴田 博仁
Hirohito Shibata
博仁 柴田
興亜 徐
Xingya Xu
興亜 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017231834A priority Critical patent/JP7006198B2/ja
Priority to CN201810562525.2A priority patent/CN109871173A/zh
Priority to US16/197,374 priority patent/US11269511B2/en
Publication of JP2019101739A publication Critical patent/JP2019101739A/ja
Application granted granted Critical
Publication of JP7006198B2 publication Critical patent/JP7006198B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】複数の入力手段を組みわせてコマンドの入力を行なう場合でも、描画においてその開始を指定する必要がなく、作業効率が低下しにくい情報処理装置等を提供する。
【解決手段】ユーザによる描画操作についての情報である描画情報を受け付ける受付手段110と、描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識するジェスチャー認識手段120と、ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する図形抽出手段130と、抽出した図形の種類に基づく処理を行なうオブジェクト変換手段190と、を備える情報処理装置10。
【選択図】図2

Description

本発明は、情報処理装置、情報処理システム、プログラムに関する。
従来技術として、音声、ペンやマウスなどのポインティングデバイスなどの複数の入力手段を組みわせて、ユーザがコマンドの入力を行ない、そのコマンドに対応した処理を行なう情報処理装置が存在する。そして従来は、それぞれの入力手段について、入力のスピード、正確さ、認識率などの向上が目指されてきた。そして昨今、音声認識や手書き認識の精度が向上し、実用レベルになり、複数の入力手段を使用して処理を行なう環境が整いつつある。
特許文献1には、マイクロフォンなどの音声入力手段と、ペンあるいはマウスなどのポインティング入力手段と、コマンドを実行するコマンド実行手段と、コマンドに対応して画面表示を変更する画面表示手段と、ディスプレイなどの画面出力を行なう画面出力手段を有する情報処理装置において、音声入力情報およびポインティング入力情報を統合して解釈を行なう情報統合手段を設け、利用者が音声入力手段とポインティング入力手段を用いて行なう、画面上の不可視部分の操作や複数対象物の一括選択操作などの、非直接操作を含む操作を解釈する機能を備えた情報処理装置が記載されている。
また特許文献2には、以下のジェスチャー処理装置が記載されている。即ち、液晶ディスプレイ等の表示装置を設ける。入力ペンにて描画することによりイメージを入力したり上記表示装置の表示面の所望する位置を指示したりできるタブレットを上記表示面上に設ける。上記表示面における文字や記号の配列等の画像を、上記イメージにて編集できるジェスチャー機能を備える。上記ジェスチャー機能が起動した時、上記表示面での画像を示す画像情報と、各機能の動作状況を示すワークフラグとを記憶する画面情報バッファを設定する。
特開08−63319号公報 特開2000−47824号公報
コマンドの入力は、例えば、ポインティングデバイスを使用することで行なうことが多い。
しかしながらユーザがコマンドの入力を行なう際には、ポインティングデバイス等による描画の際に、その開始と終了とを指定することが必要であり、作業効率が低下しやすい問題がある。
本発明は、複数の入力手段を組みわせてコマンドの入力を行なう場合でも、描画においてその開始を指定する必要がなく、作業効率が低下しにくい情報処理装置等を提供する。
請求項1に記載の発明は、ユーザによる描画操作についての情報である描画情報を受け付ける受付手段と、前記描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識手段と、前記ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出手段と、抽出した前記図形の種類に基づく処理を行なう処理手段と、を備える情報処理装置である。
請求項2に記載の発明は、前記受付手段は、ユーザの描画操作中の音声の情報である音声情報をさらに受け付け、前記処理手段は、前記図形の種類に加え、前記音声情報に基づき前記処理を行なうことを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記処理手段は、前記ジェスチャーの前後の音声情報に基づき前記処理を行なうことを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記抽出手段は、前記処理を行なうための対象となる音声情報を音声の途切れを利用して特定することを特徴とする請求項3に記載の情報処理装置である。
請求項5に記載の発明は、前記処理手段は、前記図形の種類に対応するオブジェクトに変換する処理を行なうことを特徴とする請求項2に記載の情報処理装置である。
請求項6に記載の発明は、前記処理手段は、前記図形の種類と前記音声情報との関係から前記オブジェクトを決定することを特徴とする請求項5に記載の情報処理装置である。
請求項7に記載の発明は、前記処理手段は、前記オブジェクトとして、前記音声情報が意味するアイコンに変換することを特徴とする請求項6に記載の情報処理装置である。
請求項8に記載の発明は、前記処理手段は、前記オブジェクトとして、2つのアイコンを結ぶリンクに変換することを特徴とする請求項6に記載の情報処理装置である。
請求項9に記載の発明は、前記処理手段は、前記オブジェクトとして、前記音声情報が意味するテキストに変換して配することを特徴とする請求項6に記載の情報処理装置である。
請求項10に記載の発明は、前記処理手段は、前記オブジェクトとして、前記図形に対応する枠の中に、前記音声情報が意味するテキストが入るように変換することを特徴とする請求項9に記載の情報処理装置である。
請求項11に記載の発明は、前記処理手段は、前記音声情報がないときは、前記オブジェクトとして、前記図形に対応する枠に変換し、テキストを入れないことを特徴とする請求項9に記載の情報処理装置である。
請求項12に記載の発明は、前記処理手段は、前記オブジェクトとして、前記図形を描画するときの描画操作の描画方向に沿って、前記テキストを配することを特徴とする請求項9に記載の情報処理装置である。
請求項13に記載の発明は、前記処理手段は、前記オブジェクトを配する位置および大きさを、前記図形が描画された位置および大きさに応じて決定することを特徴とする請求項5に記載の情報処理装置である。
請求項14に記載の発明は、前記認識手段は、予め定められた形状をユーザが描画したときに、前記ジェスチャーであると認識することを特徴とする請求項1に記載の情報処理装置である。
請求項15に記載の発明は、前記予め定められた形状は、閉空間を表す形状であることを特徴とする請求項14に記載の情報処理装置である。
請求項16に記載の発明は、前記認識手段は、予め定められた大きさ以下の閉空間を表す形状を前記ジェスチャーであると認識することを特徴とする請求項15に記載の情報処理装置である。
請求項17に記載の発明は、前記認識手段が行なう前記ジェスチャーの認識および前記抽出手段が行なう前記図形の種類の抽出は、描画操作の中から行なうことを特徴とする請求項1に記載の情報処理装置である。
請求項18に記載の発明は、前記認識手段が行なう前記ジェスチャーの認識および前記抽出手段が行なう前記図形の種類の抽出は、一筆書きの描画操作の中から行なうことを特徴とする請求項17に記載の情報処理装置である。
請求項19に記載の発明は、前記抽出手段は、前記ジェスチャーの描画操作以外の部分を前記図形であるとすることを特徴とする請求項18に記載の情報処理装置である。
請求項20に記載の発明は、ユーザの描画操作を基に画像を表示する表示装置と、描画操作を基に前記表示装置で表示する画像の表示情報を作成する情報処理装置と、を備え、前記情報処理装置は、ユーザによる描画操作についての情報である描画情報を受け付ける受付手段と、前記描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識手段と、前記ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出手段と、抽出した前記図形の種類に基づく処理を行なう処理手段と、を備える情報処理システムである。
請求項21に記載の発明は、コンピュータに、ユーザによる描画操作についての情報である描画情報を受け付ける受付機能と、前記描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識機能と、前記ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出機能と、抽出した前記図形の種類に基づく処理を行なう処理機能と、を実現させるためのプログラムである。
請求項1の発明によれば、複数の入力手段を組みわせてコマンドの入力を行なう場合でも、描画においてその開始を指定する必要がなく、作業効率が低下しにくい情報処理装置を提供することができる。
請求項2の発明によれば、図形の種類に加え、音声情報を併せてコマンドの入力を行なうことができる。
請求項3の発明によれば、対象となる音声情報を抽出することができる。
請求項4の発明によれば、対象となる音声情報をより容易に抽出することができる。
請求項5の発明によれば、描画操作をオブジェクトに変換することができる。
請求項6の発明によれば、処理手段が、ユーザが望むオブジェクトを決定することができる。
請求項7の発明によれば、オブジェクトとしてアイコンに変換することができる。
請求項8の発明によれば、オブジェクトとして他の2つのオブジェクトの結びつきを表現することができる。
請求項9の発明によれば、オブジェクトとしてテキストに変換することができる。
請求項10の発明によれば、オブジェクトとして枠付きのテキストに変換することができる。
請求項11の発明によれば、オブジェクトとしてテキストが入らない枠だけに変換することができる。
請求項12の発明によれば、オブジェクトとしてユーザの意図する向きに沿ってテキストを配することができる。
請求項13の発明によれば、ユーザの意図した位置および大きさのオブジェクトを配することができる。
請求項14の発明によれば、描画操作によりコマンドの入力を行なうことができる。
請求項15の発明によれば、コマンドの入力がより簡単になる。
請求項16の発明によれば、コマンドの認識率がより向上する。
請求項17の発明によれば、図形の描画を行なう際に、コマンドの入力も併せて行なうことができる。
請求項18の発明によれば、図形の描画とジェスチャーの描画とを連続的に行なうことができる。
請求項19の発明によれば、ユーザが描画した図形の範囲がより明確になる。
請求項20の発明によれば、複数の入力手段を組みわせてコマンドの入力を行なう場合でも、描画においてその開始を指定する必要がなく、作業効率が低下しにくい情報処理システムを提供することができる。
請求項21の発明によれば、複数の入力手段を組みわせてコマンドの入力を行なう場合でも、描画においてその開始を指定する必要がなく、作業効率が低下しにくい機能をコンピュータにより実現できる。
本実施の形態における情報処理システムの構成例を示す図である。 本実施の形態における情報処理装置の機能構成例を表すブロック図である。 (a)〜(c)は、ユーザがコマンドを指定するジェスチャーとして、予め定められた形状を描画した例を示した図である。 (a)〜(c)は、図形抽出手段が、抽出した図形についての図形タイプを抽出し、さらにオブジェクトタイプを決定する場合について示した図である。 オブジェクト構造データを説明した図である。 音声抽出手段が音声情報を抽出する方法について示した図である。 (a)は、アイコンテーブルについて示した図である。(b)は、テキスト構造データについて示した図である。 (a)〜(d)は、オブジェクト変換手段が図形の種類に対応するオブジェクトに変換する処理について示した図である。 情報処理装置の動作について説明したフローチャートである。 ユーザの描画操作をオブジェクトに変換したときに、表示装置に表示される画面の例を示した図である。 (a)〜(b)は、本実施の形態においてコマンドモードの開始と終了を決める方法について示した図である。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<情報処理システム全体の説明>
図1は、本実施の形態における情報処理システム1の構成例を示す図である。
図示するように本実施の形態の情報処理システム1は、ユーザの描画操作を基に表示装置20で表示する画像の表示情報を作成する情報処理装置10と、ユーザの描画操作を受け付けるとともに、ユーザの描画操作を基に画像を表示する表示装置20とを備える。
情報処理装置10は、例えば、所謂汎用のパーソナルコンピュータ(PC)である。そして、情報処理装置10は、OS(Operating System)による管理下において、各種アプリケーションソフトウェアを動作させることで、情報の処理等が行われるようになっている。
情報処理装置10は、演算手段であるCPU(Central Processing Unit)と、記憶手段であるメインメモリ及びHDD(Hard Disk Drive)とを備える。ここで、CPUは、OS(Operating System、基本ソフトウェア)やアプリケーションプログラム(応用ソフトウェア)等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、HDDは、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。
更に、情報処理装置10は、外部との通信を行なうための通信インタフェースを備える。
表示装置20は、表示画面20aに画像を表示する。表示装置20は、例えばPC用の液晶ディスプレイ、液晶テレビあるいはプロジェクタなど、画像を表示する機能を備えたもので構成される。したがって、表示装置20における表示方式は、液晶方式に限定されるものではなく、例えば、有機EL(ElectroLuminescence)方式やプラズマディスプレイ方式などであってもよい。
表示画面20aは、例えば、タッチパネルであり、このタッチパネルにより画像の表示を行なうとともにタッチ等のユーザの指示が入力される。よって表示画面20aは、表示画面20aにスタイラスペン、人の指に代表される接触物が接触したときに、接触物がタッチパネルに接触した位置を検知する位置検知部(図示せず)を備えている。本実施の形態において表示画面20aとして使用するタッチパネルは、特に限定されるものではなく、抵抗膜方式や静電容量方式など種々の方式のものが採用される。
情報処理装置10および表示装置20は、DVI(Digital Visual Interface)を介して接続されている。なお、DVIに代えて、HDMI(登録商標)(High-Definition Multimedia Interface)、DisplayPort、USB(Universal Serial Bus)等を介して接続するようにしてもかまわない。
またこのような有線接続に限られるものではなく、無線LAN(Local Area Network)、ブルートゥース(Bluetooth)(登録商標)等の無線接続であってもよい。
このような情報処理システム1において、まずユーザが、表示装置20の表示画面20aに対し、スタイラスペン等により描画操作を行なう。この描画操作は、表示画面20aに軌跡として表示される。この描画操作の情報は、描画情報として情報処理装置10に送られる。そして情報処理装置10では、この描画情報を基に、ユーザが描いた図形を抽出し、これを予め定められた規則によりオブジェクトに変換する。そして表示画面20aでは、このオブジェクトが表示される。つまり、ユーザが描画した軌跡が消去され、その代わりにオブジェクトが表示される。また本実施の形態では、情報処理装置10が、オブジェクトに変換を行なうときに、ユーザの発話した音声の情報である音声情報を併せて使用することができる。つまり描画情報と音声情報とを利用し、変換するオブジェクトを決定する。なおこのとき、音声については必須でなく、音声を使用しない場合もある。
なお本実施の形態における情報処理システム1は、図1の形態に限られるものではない。例えば、情報処理システム1としてタブレット端末を例示することができる。この場合、タブレット端末は、タッチパネルを備え、このタッチパネルにより画像の表示を行なうとともにタッチ等のユーザの指示が入力される。またオブジェクトに変換する処理は、タブレット端末が内蔵するコンピュータ装置により行なうことができる。即ち、タブレット端末が、上述した情報処理装置10および表示装置20として機能する。また同様の観点から、情報処理システム1は、スマートフォン、ノートPC等であってもよい。
<情報処理装置10の説明>
図2は、本実施の形態における情報処理装置10の機能構成例を表すブロック図である。なお図2では、情報処理装置10が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
図示するように本実施の形態の情報処理装置10は、ユーザの描画操作についての情報である描画情報やユーザの音声の情報である音声情報を受け取る受付手段110と、ユーザがコマンドを指定するジェスチャーを認識するジェスチャー認識手段120と、ユーザが描画した図形の種類を抽出する図形抽出手段130と、音声情報を保持する音声保持手段140と、音声情報の抽出を行なう音声抽出手段150と、音声認識を行ない音声情報をテキストの情報に変換するテキスト変換手段160と、コマンドが有効であるか否かを判定するコマンド判定手段170と、描画情報や音声情報をオブジェクトに変換するためのアイコンを検索するアイコン管理手段180と、描画情報や音声情報を基にオブジェクトへの変換を行なうオブジェクト変換手段190と、を備える。
受付手段110は、ユーザによる描画操作についての情報である描画情報を受け付ける。
「描画操作」は、ユーザがスタイラスペン等を使用して、タッチパネル等である表示画面20aに対し入力する操作を言う。また「描画情報」は、ユーザが表示画面20aにおいて、描画した線の軌跡を示す情報である。描画情報は、例えば、表示画面20aにおいて、スタイラスペン等が接触した位置を示す2次元の座標情報の集まりである。そしてユーザがスタイラスペン等により描画操作を行なうと、表示画面20a上において、スタイラスペン等が接触する位置が時間に応じ変化し、ユーザが何を描画したかは、この座標情報の変化により把握することができる。よって、描画情報は、複数の2次元の座標情報の集まり(座標情報群)として構成される。
また受付手段110は、ユーザの描画操作中の音声の情報である音声情報をさらに受け付ける。
「音声情報」は、図示しないマイクロフォン等の音声取得手段により取得されたユーザの音声を、電気信号(音声信号)に変換した情報である。なお音声情報は、オペアンプ等の増幅器により、増幅されたものであってもよい。
ジェスチャー認識手段120は、認識手段の一例であり、描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する。
ここで「コマンド」とは、描画操作や音声をオブジェクトに変換することをユーザが指示することを言う。また「オブジェクト」とは、ユーザの描画操作を基に変換され、表示画面20aに表示される表示対象である。「オブジェクト」は、詳しくは後述するが、例えば、アイコン、ボックス、テキスト、リンクである。さらに「ジェスチャー」とは、ユーザが行ない、コマンドであることを明示する動作を言う。
このときジェスチャー認識手段120は、予め定められた形状をユーザが描画したときに、ユーザがコマンドを指定するジェスチャーであると認識する。ジェスチャーの認識は、描画操作の中から行なう。具体的には、ジェスチャー認識手段120は、ユーザが描画した描画操作の中の最後の箇所から、予め定められた長さ分を切り出し、この部分の形状により、ユーザがコマンドを指定するジェスチャーであるか否かを判断する。
図3(a)〜(c)は、ユーザがコマンドを指定するジェスチャーとして、予め定められた形状を描画した例を示した図である。
この場合、ユーザが何らかの図形Zを描画し、そして図形Zを描画した後の最後の箇所にジェスチャーを表す予め定められた形状を描画した場合を示している。この予め定められた形状は、閉空間を表す形状である。
このうち図3(a)は、図形Zとしてユーザが円形を描画し、最後の箇所に時計回りで、小さな円形の閉空間Hを描画した例を示している。
また図3(b)は、図形Zとしてユーザが四角形を描画し、最後の箇所に同様の閉空間Hを描画した例を示している。さらに図3(c)は、図形Zとしてユーザが直線を描画し、最後の箇所に同様の閉空間Hを描画した例を示している。
予め定められた形状を、閉空間Hを表す形状とすると、ユーザが描画しやすいという効果が生じる。
この予め定められた形状を、閉空間Hを表す形状とした場合、図3に例示したような閉空間Hのサイズを予め定められた大きさ以下に限定することが好ましい。これにより図形Zとして大きな閉空間を描画する場合との区別が容易になる。またこの閉空間Hの形状について、ユーザの癖に合わせてカスタマイズした形状としてもよい。またここでは、閉空間Hは、時計回りの小さな円形の形状としたが、これに限られるものでなく、反時計回りでもよく、三角形や四角形など他の形状であってもよい。またこれらを全て閉空間Hとして扱ってもよい。つまり図形Zとして円形を描画した後は、円形を描画しやすく、図形Zとして四角形を描画した後は、四角形を描画しやすい。よってこれらを全て含めることで、ユーザの利便性が向上する。
さらにジェスチャー認識手段120は、ユーザが予め定められた形状をユーザが描画したときに、ユーザがコマンドを指定するジェスチャーとして認識したが、これに限られるものではない。例えば、スタイラスペン等の圧力や傾きを利用し、図形Zを描画するときとの差異を検知してもよい。また上述した例では、ジェスチャーの認識は、描画操作の中から行なっていたが、ユーザの描画操作以外であってもよい。例えば、描画操作の最後に、ユーザが、スタイラスペン等を持つ手とは逆側の手でタップをする、息を吹きかける、ユーザが音声のトーンを変化させる等の動作を検知し、これをユーザがコマンドを指定するジェスチャーであることを認識するようにしてもよい。
図形抽出手段130は、図形Zの種類を抽出する抽出手段の一例であり、ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形Zの種類を抽出する。図形Zの種類の抽出は、描画操作の中から行ない、さらに具体的には、一筆書きの描画操作の中から行なう。ここで「一筆書き」とは、ユーザが、1回(1ストローク)で行なう描画操作を言う。即ち、「一筆書き」は、ユーザが、スタイラスペン等を表示画面20aから離さずに行なう1回(1ストローク)の描画操作である。このとき図形抽出手段130は、ジェスチャーの描画操作以外の部分を図形Zであるとする。つまり図3の場合を例に取ると、図形抽出手段130は、閉空間H以外の箇所を図形Zとする。
そして図形抽出手段130は、図形Zについて、図形Zの種類として図形タイプを抽出し、さらにオブジェクトタイプを決定する。
ここで「図形タイプ」は、図形Zの形状から導かれる図形の種類を言う。本実施の形態では、「図形タイプ」は、「円」、「四角形」、「線」の3種類の何れかである。また「オブジェクトタイプ」は、詳しくは後述するオブジェクト変換手段110が変換するオブジェクトの種類を言う。本実施の形態では、「オブジェクトタイプ」は、「アイコン」、「ボックス」、「テキスト」、「リンク」の4種類の何れかである。このうち「アイコン」は、オブジェクトがアイコンであることを意味する。また「ボックス」は、オブジェクトが四角形の枠であることを意味する。さらに「テキスト」は、オブジェクトが文字列であることを意味する。またさらに「リンク」は、オブジェクトが他の2つのオブジェクト間を結ぶ線であることを意味する。
図4(a)〜(c)は、図形抽出手段130が、抽出した図形Zについての図形タイプを抽出し、さらにオブジェクトタイプを決定する場合について示した図である。
ここで第1列は、ユーザの描画操作であり、上述した1ストロークで行なった描画操作を図示している。ここでは、上述したように描画操作は、図形Zと閉空間Hとからなる。また第2列は、図形タイプについて図示している。さらに第3列は、オブジェクトタイプを図示している。
図4(a)の場合、閉空間H以外の図形Zは、角がない曲線状の線からなる大きな閉空間であり、この場合、図形タイプは、「円」とされる。そして図形タイプが「円」の場合、オブジェクトタイプは、「アイコン」となる。
また図4(b)の場合、閉空間H以外の図形Zは、直線状の線と角からなる大きな閉空間であり、この場合、図形タイプは、「四角形」とされる。そして図形タイプが「四角形」の場合、オブジェクトタイプは、「ボックス」となる。
さらに図4(c)の場合、閉空間H以外の図形Zは、直線状の線からなり、この場合、図形タイプは、「線」とされる。そして図形タイプが「線」の場合、オブジェクトタイプは、「リンク」および「テキスト」の何れかとなる。具体的には、図形Zの始点および終点が他の2つのオブジェクトの位置であれば、「リンク」となり、そうでなければ「テキスト」となる。
なお上述した例では、閉空間H以外を図形Zとし、図形タイプを抽出したが、閉空間Hを含めて図形Zとし、これから閉空間Hや図形タイプを抽出してもよい。
さらに図形抽出手段130は、オブジェクト構造データODを作成する。
図5は、オブジェクト構造データODを説明した図である。
図示するオブジェクト構造データODは、図示する属性および値からなる。このうち属性は、オブジェクトタイプ、矩形の左上位置、矩形の縦横サイズ、ストローク開始位置、ストローク終了位置からなる。また値は、この属性に対応する値である。ここでは、オブジェクトタイプがボックスであること、および1ストロークを覆うことができる矩形として最小サイズの矩形の左上位置が、(134、335)の画素位置であることを意味する。またこの矩形の縦横サイズが、54dot(画素)×88dotであること、1ストロークの開始位置であるストローク開始位置が、(13、45)の画素位置であること、および1ストロークの終了位置であるストローク終了位置が、(144、523)の画素位置であることを意味する。ただしこの属性は、全て使用されるわけではなく、例えば、オブジェクトタイプがボックスのときは、ストローク開始位置およびストローク終了位置は使用されない。またオブジェクトタイプがリンクおよびテキストのときは、矩形の左上位置および矩形の縦横サイズは使用されない。
音声保持手段140は、音声情報を予め定められた時間保持する。また予め定められた時間を過ぎた音声情報は、破棄される。つまり音声保持手段140は、音声情報のバッファとして機能する。
音声抽出手段150は、音声情報を抽出する抽出手段の一例であり、ジェスチャーの前後の音声情報の中から、テキスト変換手段160でテキストの情報に変換するための対象となる音声情報を抽出する。
図6は、音声抽出手段150が音声情報を抽出する方法について示した図である。図6で横方向は、時間であり、音声情報が存在する箇所を矩形Kにより表している。
音声抽出手段150は、ジェスチャーの前後の音声情報を調べ、音声の途切れを検出する。そして対象となる音声情報を音声の途切れを利用して特定する。音声抽出手段150は、音声保持手段140に保持されている音声情報の中で、予め定められた時間以上音声情報が存在しないときを見つけ、この場合、音声の途切れが生じたとする。図示する場合は、ユーザの描画操作として1ストロークが終了した時点、即ち、コマンドを指定するジェスチャーである閉空間Hを描画した時点でユーザは発話しており、音声抽出手段150は、この前後で検出された音声の途切れが生じる箇所を検出する。そして検出された音声の途切れが生じる箇所を、対象となる音声情報の開始位置および終了位置として特定する。なお途切れを検出するための予め定められた時間は、可変としてもよい。つまりユーザにより早口で話す人の場合は、より短く設定し、そうでない人は、より長く設定する。またユーザが早く話しているときは、より短く設定し、そうでないときは、より長く設定する方法でもよい。
なお音声情報がなかったときは、音声抽出手段150は、対象となる音声情報がないとし、抽出は行なわない。またユーザが、連続的に発話し、開始位置および終了位置が検出できない場合がある。この場合、音声抽出手段150は、例えば、言語解析を行ない意味的な区切りを検出し、対象となる音声情報を抽出してもよい。また音声抽出手段150は、ユーザが発話した音声の抑揚により区切りを検出してもよい。
テキスト変換手段160は、音声抽出手段150で抽出された音声情報を音声認識し、テキストの情報に変換し、音声テキストとする。音声認識を行なうモジュールとしては、特に限られるものではなく、一般的に市販されているものを使用することができる。なお音声抽出手段150で対象となる音声情報が抽出されなかったときは、テキスト変換手段160は、空文字列に変換する。
コマンド判定手段170は、図形抽出手段130で決定されたオブジェクトタイプTとテキスト変換手段160で変換された音声テキストSとを基に、これらがコマンドとして有効であるか否かを判定する。
具体的には、コマンド判定手段170は、オブジェクトタイプTが「アイコン」であり、音声テキストSに対応するアイコンが存在するときは、コマンドとして有効であると判定する。対して音声テキストSに対応するアイコンが存在しないときは、コマンドとして無効であると判定する。なおコマンド判定手段170は、音声テキストSが空文字列である場合は、コマンドとして無効であると判定する。
またコマンド判定手段170は、オブジェクトタイプTが「ボックス」である場合は、音声テキストSに関わらず有効であると判定する。
さらにコマンド判定手段170は、オブジェクトタイプTが「テキスト」であり、音声テキストSが空文字列でなければ、コマンドとして有効であると判定する。対して、音声テキストSが空文字列である場合は、コマンドとして無効であると判定する。
またさらにコマンド判定手段170は、オブジェクトタイプTが「リンク」である場合は、音声テキストSに関わらず有効であると判定する。
アイコン管理手段180は、アイコンを管理する。またアイコン管理手段180は、描画情報や音声情報をオブジェクトに変換するためのアイコンを検索する。
アイコン管理手段180は、アイコンテーブルによりアイコンの管理を行なう。
図7(a)は、アイコンテーブルITについて示した図である。
図示するアイコンテーブルITは、第1列のアイコンID、第2列のアイコンパス、第3列のアイコン名リストから構成される。アイコンIDは、アイコンに付与されるIDであり、ここではアイコンIDが1と2の場合について図示している。またアイコンパスは、アイコンの画像情報が格納されるファイルの場所を表す。さらにアイコン名リストは、それぞれのアイコンの呼び名である。ここではアイコン名リストは、複数の単語からなる。
コマンド判定手段170は、オブジェクトタイプTが「アイコン」のときに、音声テキストSをアイコン管理手段180に渡す。そしてアイコン管理手段180は、アイコン名リストの中に音声テキストSを含むものが存在するか否かを検索する。そして存在した場合には、アイコン管理手段180は、テキスト構造データを作成し、コマンド判定手段170に返す。また存在しなかった場合は、アイコン管理手段180は、コマンド判定手段170に対応するアイコンがないことを返す。
図7(b)は、テキスト構造データTDについて示した図である。
図示するテキスト構造データTDは、第1列の属性、第2列の値から構成される。第1列の属性は、音声テキストとアイコンIDからなり、第2列の値として、それぞれ「ノートPC」、「1」であることが示される。つまりこのテキスト構造データTDは、音声テキストSが「ノートPC」であり、図7(a)に示すように、アイコンIDが1のアイコン名リストの中に、音声テキストSと同一の「ノートPC」があるため、アイコンIDが「1」となるテキスト構造データTDが作成されたことを示す。
なおテキスト構造データTDが複数のアイコンIDを含む場合がある。つまり音声テキストSに対応するアイコンIDが複数ある場合である。この場合は、アイコン管理手段180は、音声テキストSとアイコン名リストとの類似度を算出する。そして最も類似度の高いときのアイコンIDをコマンド判定手段170に返す。類似度の算出は、特に限られるものではないが、例えば、部分文字列の一致数(E)/アイコン名リストの単語数(L)により算出できる。またアイコン名リストのそれぞれの単語に重みを付与してもよい。
オブジェクト変換手段190は、処理手段の一例であり、抽出した図形の種類に基づく処理を行なう。またオブジェクト変換手段190は、図形の種類に加え、音声情報に基づき処理を行なう。
本実施の形態では、オブジェクト変換手段190で行なう処理は、図形の種類に対応するオブジェクトに変換する処理である。具体的には、オブジェクト変換手段190は、図形の種類と音声情報との関係からオブジェクトを決定する。
図8(a)〜(d)は、オブジェクト変換手段190が図形の種類に対応するオブジェクトに変換する処理について示した図である。ここで矢印より左側の欄は、音声テキストおよびユーザの描画操作を図示している。さらに矢印より右側の欄は、ユーザの描画操作を変換後のオブジェクトを図示している。
上述したように、図形の種類である図形タイプが、「円」である場合、オブジェクトタイプは、「アイコン」となる。そしてこの場合、図8(a)に示すように、オブジェクト変換手段190は、オブジェクトとして、音声情報が意味するアイコンに変換する。即ち、オブジェクト変換手段190は、音声情報をテキストの情報に変換した音声テキストに対応するアイコンに変換する。この場合、音声テキストが、「デスクトップPC」であったため、ユーザが描画した描画操作は、デスクトップPCのアイコンのオブジェクトに変換される。
またオブジェクト変換手段190は、オブジェクトとして、音声情報が意味するテキストに変換して配する場合がある。
図形タイプが、「四角形」である場合、オブジェクトタイプは、「ボックス」となる。そしてこの場合、図8(b)に示すように、オブジェクト変換手段190は、オブジェクトとして、図形に対応する枠の中に、音声情報が意味するテキストが入るように変換する。即ち、オブジェクト変換手段190は、四角形の枠の中に音声テキストが入るように変換する。この場合、音声テキストが、「N事業所」であったため、ユーザが描画した描画操作は、四角形の枠の中に「N事業所」のテキストが入ったオブジェクトに変換される。なお音声テキストが空文字列であったときは、四角形の枠だけが表示される。つまりオブジェクト変換手段190は、音声情報がないときは、オブジェクトとして、図形に対応する枠に変換し、テキストを入れない。
さらに図形タイプが、「線」であり、オブジェクトタイプが、「テキスト」の場合、図8(c)に示すように、オブジェクト変換手段190は、オブジェクトとして、図形を描画するときの描画操作の描画方向に沿って、テキストを配する。この場合、音声テキストが、「N事業所」であったため、ユーザが描画操作として描いた線に沿った、「N事業所」のテキストのオブジェクトに変換される。
さらに図形タイプが、「線」であり、オブジェクトタイプが、「リンク」の場合、図8(d)に示すように、オブジェクト変換手段190は、オブジェクトとして、2つのアイコンを結ぶリンクに変換する。この場合、ユーザが描画操作として描いた線に沿って、リンクを意味する矢印のオブジェクトに変換される。なおここでは、リンクを表すオブジェクトは、矢印としたが、単なる直線とすることもできる。
またオブジェクト変換手段190は、図形抽出手段130が作成したオブジェクト構造データODと、アイコン管理手段180が作成したテキスト構造データTDとを用いて、変換するオブジェクトの位置および大きさを決定する。
例えば、オブジェクト構造データODを参照し、オブジェクトタイプTが「アイコン」の場合、オブジェクト変換手段190は、矩形の左上位置の値の箇所に矩形の縦横サイズの値の大きさのアイコンが位置するようにする。
またオブジェクトタイプTが「ボックス」の場合、オブジェクト変換手段190は、矩形の左上位置の値の箇所に矩形の縦横サイズの値の大きさの四角形の枠と、この枠の中に入る音声テキストが位置するようにする。
さらにオブジェクトタイプTが「テキスト」の場合、オブジェクト変換手段190は、ストローク開始位置とストローク終了位置とを結ぶ直線上に音声テキストが配されるようにする。
またさらにオブジェクトタイプTが「リンク」の場合、オブジェクト変換手段190は、ストローク開始位置にある別のオブジェクトからストローク終了位置にある別のオブジェクトを結ぶ矢印が配されるようにする。
つまりこの場合、オブジェクト変換手段190は、オブジェクトを配する位置および大きさを、図形が描画された位置および大きさに応じて決定する。なおオブジェクトを配した後で、その位置および大きさを変えられるようにしてもよい。この場合、ユーザは、図形の大きさや位置を正確に描画する必要がなくなり、ユーザの利便性が向上する。
<情報処理装置10の動作の説明>
次に情報処理装置10の動作について説明する。
図9は、情報処理装置10の動作について説明したフローチャートである。
まず受付手段110が、ユーザの描画操作についての情報である描画情報、およびユーザの音声の情報である音声情報を受け取る(ステップ101)。取得した音声情報は、音声保持手段140が、予め定められた時間保持する。(ステップ102)。
次に、ジェスチャー認識手段120が、ユーザがコマンドを指定するジェスチャーを行なったか否かを判断する(ステップ103)。これは、ユーザの1ストロークの描画操作が終了したときに、最後に上述した閉空間H等を描画したか否かで判断することができる。
その結果、ジェスチャーを行なわなかった場合(ステップ103でNo)、ステップ101に戻る。
一方、ジェスチャーを行なった場合(ステップ103でYes)、図4に示したように、図形抽出手段130が、ユーザが描画した図形タイプを抽出し、さらにオブジェクトタイプを決定する(ステップ104)。また図形抽出手段130は、図5に示したオブジェクト構造データODを作成する(ステップ105)。
次に音声抽出手段150が、音声情報の抽出を行なう(ステップ106)。これは図6に示したように、音声保持手段140に保持されている音声情報から、テキストの情報に変換するための対象となる音声情報を音声の途切れを利用して特定する。
そしてテキスト変換手段160が、音声抽出手段150が抽出した音声情報に対し、音声認識を行ないテキストの情報である音声テキストに変換する(ステップ107)。
次に、コマンド判定手段170が、図形抽出手段130で決定されたオブジェクトタイプとテキスト変換手段160で変換された音声テキストとを基に、これらがコマンドとして有効であるか否かを判定する(ステップ108)。
その結果、有効でない(無効である)場合(ステップ108でNo)、一連の処理を終了する。
一方、有効である場合(ステップ108でYes)、コマンド判定手段170が、オブジェクトタイプがアイコンであるか否かを判断する(ステップ109)。
その結果、オブジェクトタイプがアイコンでない場合(ステップ109でNo)、ステップ113に移行する。
対してオブジェクトタイプがアイコンである場合(ステップ109でYes)、アイコン管理手段180は、図7(a)に示すアイコンテーブルを参照し、アイコン名リストの中に音声テキストを含むものが存在するか否かを判断する(ステップ110)。
そして存在した場合(ステップ110でYes)、アイコン管理手段180は、図7(b)に示すテキスト構造データを作成し、コマンド判定手段170に返す(ステップ111)。
また存在しなかった場合(ステップ110でNo)、アイコン管理手段180は、コマンド判定手段170に対応するアイコンがないことを返す(ステップ112)。
そして、図8に示すように、オブジェクト変換手段190が、図形の種類と音声情報との関係からオブジェクトを決定する(ステップ113)。
さらにオブジェクト変換手段190は、描画情報をオブジェクトに変換する(ステップ114)。
そしてオブジェクト変換手段190は、オブジェクトの表示情報を表示装置20に対し出力する(ステップ115)。
これにより表示装置20では、ユーザの描画操作が消去され、変換後のオブジェクトが表示される。
図10は、ユーザの描画操作をオブジェクトに変換したときに、表示装置20に表示される画面の例を示した図である。
図示する例は、クラウドサービスについて示した図である。そしてオブジェクトとして、アイコンI1〜I7、ボックスB1、テキストTx1〜Tx4、リンクR1〜R6が図示されている。
ここでは、店舗のアイコンI1および「D店」のテキストTx1により、D店を表し、ここから「Cloud」のテキストTx2が付されたクラウドのアイコンI2により表されるクラウドに対し、データがアップロードされることをリンクR1により表している。
一方、「サーバ」のテキストTx3が付されたサーバのアイコンI3により表されるサーバからもデータがアップロードされることをリンクR2により表している。またこのサーバから、HDDのアイコンI4により表されるHDDにデータが保存されることをリンクR3により表している。
さらに「PC」のテキストTx4が付されたPCのアイコンI5により表されるPCからデータがサーバに送られることをリンクR4により表している。そしてこのPCからは、プリンタのアイコンI6により表されるプリンタに対し、データが送られることをリンクR5により表している。
またさらにこのPCには、スマートフォンのアイコンI7により表されるスマートフォンから、データが送られることをリンクR6により表している。そしてこのサーバ、HDD、PC、プリンタ、スマートフォンは、ボックスB1の中に包含され、例えば、1つの会社内にあることを示している。
<効果の説明>
従来、ペンやマウスなどのポインティングデバイスなどの複数の入力手段を組みわせて、ユーザがコマンドの入力を行なう場合、例えば、プレゼンテーション中に行なうことは想定されていない。そのため、例えば、音声については、常にコマンドを受け付ける状態(コマンドモード)となる。しかしプレゼンテーション中では、例えば、相手と同じ表示画面20aを共有し、指差をしながら議論等を行なうような場合に、ユーザの意図しない動作(意図せずにオブジェクトが挿入される、意図せずにオブジェクトが移動するなど)をすることがあり、使い勝手がよくないものとなる。
これを抑制するため、コマンドモードの指定をすることが考えられるが、コマンドモードをポインティングデバイス等により指定する場合、従来は、描画の際に、その開始と終了とを指定することが必要であり、作業効率が低下しやすい問題があった。またこの操作は、プレゼンテーションや議論のスムーズな流れを阻害しやすい問題もある。さらに何かを描画する際に、ユーザは、常にコマンドモードでの描画や発話であるかどうかを意識する必要があり、ユーザに対する負担が大きい問題もある。
この場合、描画や発話の前にコマンドモードに入る操作を行なうことは難しいが、描画や発話の後に、これまでコマンドモードであったことを指定する操作を行なうことは比較的容易である。また音声によりこれを指定することは、プレゼンテーションの際に、これとは関係のない発話を行なう必要が生じ、コミュニケーションを阻害しやすくなる。よって本実施の形態では、コマンドモードの指定を描画操作の最後に行なうこととし、これを予め定められたジェスチャーで行なう。そしてこのジェスチャーを行なった時より、描画操作および音声について、時間的に遡って解析を行ない、コマンドを認識する。なお音声については、必須ではなく、描画操作だけでコマンドを認識する場合もある
図11(a)〜(b)は、本実施の形態においてコマンドモードの開始と終了を決める方法について示した図である。ここで横方向は時間を表し、時間T1〜時間T2の間に描画操作が行われ、時間T3〜時間T4の間に発話し、ユーザの音声が存在することを示している。
このうち図11(a)は、ユーザの描画操作が終了した時点、即ち、コマンドを指定するジェスチャーである閉空間Hを描画した時点で、ユーザの発話が終了し、音声が存在しない場合を示し、図11(b)は、この時点でユーザの発話がまだ終了せず、音声が継続している場合を示す。
いずれの場合も描画操作の途切れ(1ストローク前後の描画を行なわない期間)や音声の途切れを利用しコマンドモードの開始と終了を決める。即ち、図11(a)の場合は、音声の開始時間である時間T3〜描画操作の終了時間である時間T2の間をコマンドモードの期間であるとする。また図11(b)の場合は、描画操作の開始時間である時間T1〜音声の終了時間である時間T4の間をコマンドモードの期間であるとする。
このように本実施の形態では、コマンドモードの指定を描画操作の最後に行えば、これを基に、描画操作や音声の途切れを利用してコマンドモードの開始と終了を決めることができる。
以上説明したように、本実施の形態によれば、コマンドを入力する際により容易に入力を行なうことができ、コミュニケーションを阻害しにくく、さらにその開始を指定する必要がなく、作業効率が低下しにくい情報処理装置10等が提供できる。
なお以上説明した例では、プレゼンテーションを行なう場合に本実施の形態の情報処理装置10を使用する場合について説明を行なったが、これに限られるものではない。例えば、教育用途に使用することができる。
また以上説明した例では、描画操作として1ストロークの場合について説明を行なったがこれに限られるものではなく、2ストローク以上を対象とし、ここからジェスチャーや図形の種類を抽出してもよい。
<プログラムの説明>
ここで以上説明を行った本実施の形態における情報処理装置10が行なう処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
よって本実施の形態で情報処理装置10が行なう処理は、コンピュータに、ユーザによる描画操作についての情報である描画情報を受け付ける受付機能と、描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識機能と、ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出機能と、抽出した図形の種類に基づく処理を行なう処理機能と、を実現させるためのプログラムとして捉えることができる。
なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD−ROM等の記録媒体に格納して提供することも可能である。
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
1…情報処理システム、10…情報処理装置、20…表示装置、20a…表示画面、110…受付手段、120…ジェスチャー認識手段、130…図形抽出手段、140…音声保持手段、150…音声抽出手段、160…テキスト変換手段、170…コマンド判定手段、180…アイコン管理手段、190…オブジェクト変換手段

Claims (21)

  1. ユーザによる描画操作についての情報である描画情報を受け付ける受付手段と、
    前記描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識手段と、
    前記ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出手段と、
    抽出した前記図形の種類に基づく処理を行なう処理手段と、
    を備える情報処理装置。
  2. 前記受付手段は、ユーザの描画操作中の音声の情報である音声情報をさらに受け付け、
    前記処理手段は、前記図形の種類に加え、前記音声情報に基づき前記処理を行なうことを特徴とする請求項1に記載の情報処理装置。
  3. 前記処理手段は、前記ジェスチャーの前後の音声情報に基づき前記処理を行なうことを特徴とする請求項2に記載の情報処理装置。
  4. 前記抽出手段は、前記処理を行なうための対象となる音声情報を音声の途切れを利用して特定することを特徴とする請求項3に記載の情報処理装置。
  5. 前記処理手段は、前記図形の種類に対応するオブジェクトに変換する処理を行なうことを特徴とする請求項2に記載の情報処理装置。
  6. 前記処理手段は、前記図形の種類と前記音声情報との関係から前記オブジェクトを決定することを特徴とする請求項5に記載の情報処理装置。
  7. 前記処理手段は、前記オブジェクトとして、前記音声情報が意味するアイコンに変換することを特徴とする請求項6に記載の情報処理装置。
  8. 前記処理手段は、前記オブジェクトとして、2つのアイコンを結ぶリンクに変換することを特徴とする請求項6に記載の情報処理装置。
  9. 前記処理手段は、前記オブジェクトとして、前記音声情報が意味するテキストに変換して配することを特徴とする請求項6に記載の情報処理装置。
  10. 前記処理手段は、前記オブジェクトとして、前記図形に対応する枠の中に、前記音声情報が意味するテキストが入るように変換することを特徴とする請求項9に記載の情報処理装置。
  11. 前記処理手段は、前記音声情報がないときは、前記オブジェクトとして、前記図形に対応する枠に変換し、テキストを入れないことを特徴とする請求項9に記載の情報処理装置。
  12. 前記処理手段は、前記オブジェクトとして、前記図形を描画するときの描画操作の描画方向に沿って、前記テキストを配することを特徴とする請求項9に記載の情報処理装置。
  13. 前記処理手段は、前記オブジェクトを配する位置および大きさを、前記図形が描画された位置および大きさに応じて決定することを特徴とする請求項5に記載の情報処理装置。
  14. 前記認識手段は、予め定められた形状をユーザが描画したときに、前記ジェスチャーであると認識することを特徴とする請求項1に記載の情報処理装置。
  15. 前記予め定められた形状は、閉空間を表す形状であることを特徴とする請求項14に記載の情報処理装置。
  16. 前記認識手段は、予め定められた大きさ以下の閉空間を表す形状を前記ジェスチャーであると認識することを特徴とする請求項15に記載の情報処理装置。
  17. 前記認識手段が行なう前記ジェスチャーの認識および前記抽出手段が行なう前記図形の種類の抽出は、描画操作の中から行なうことを特徴とする請求項1に記載の情報処理装置。
  18. 前記認識手段が行なう前記ジェスチャーの認識および前記抽出手段が行なう前記図形の種類の抽出は、一筆書きの描画操作の中から行なうことを特徴とする請求項17に記載の情報処理装置。
  19. 前記抽出手段は、前記ジェスチャーの描画操作以外の部分を前記図形であるとすることを特徴とする請求項18に記載の情報処理装置。
  20. ユーザの描画操作を基に画像を表示する表示装置と、
    描画操作を基に前記表示装置で表示する画像の表示情報を作成する情報処理装置と、
    を備え、
    前記情報処理装置は、
    ユーザによる描画操作についての情報である描画情報を受け付ける受付手段と、
    前記描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識手段と、
    前記ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出手段と、
    抽出した前記図形の種類に基づく処理を行なう処理手段と、
    を備える情報処理システム。
  21. コンピュータに、
    ユーザによる描画操作についての情報である描画情報を受け付ける受付機能と、
    前記描画情報を基に描画操作の最後の部分が、ユーザがコマンドを指定するジェスチャーであることを認識する認識機能と、
    前記ジェスチャーを行なった時より過去に遡って、ユーザが描画した図形の種類を抽出する抽出機能と、
    抽出した前記図形の種類に基づく処理を行なう処理機能と、
    を実現させるためのプログラム。
JP2017231834A 2017-12-01 2017-12-01 情報処理装置、情報処理システムおよびプログラム Active JP7006198B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017231834A JP7006198B2 (ja) 2017-12-01 2017-12-01 情報処理装置、情報処理システムおよびプログラム
CN201810562525.2A CN109871173A (zh) 2017-12-01 2018-06-04 信息处理装置、信息处理***
US16/197,374 US11269511B2 (en) 2017-12-01 2018-11-21 Information processing apparatus, information processing system, and non-transitory computer readable medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017231834A JP7006198B2 (ja) 2017-12-01 2017-12-01 情報処理装置、情報処理システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2019101739A true JP2019101739A (ja) 2019-06-24
JP7006198B2 JP7006198B2 (ja) 2022-01-24

Family

ID=66658515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017231834A Active JP7006198B2 (ja) 2017-12-01 2017-12-01 情報処理装置、情報処理システムおよびプログラム

Country Status (3)

Country Link
US (1) US11269511B2 (ja)
JP (1) JP7006198B2 (ja)
CN (1) CN109871173A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115262624A (zh) * 2022-08-26 2022-11-01 中电建铁路建设投资集团有限公司 一种pc工法桩间逆向模筑挡土墙施工方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403064B2 (en) * 2019-11-14 2022-08-02 Microsoft Technology Licensing, Llc Content capture experiences driven by multi-modal user inputs

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863319A (ja) * 1994-08-24 1996-03-08 Hitachi Ltd 情報処理装置
JPH1049700A (ja) * 1996-08-02 1998-02-20 Canon Inc ペン入力装置、ペン入力方法、入力装置及び入力方法
JP2002251280A (ja) * 2001-02-22 2002-09-06 Canon Inc 電子黒板装置およびその制御方法
JP2004110584A (ja) * 2002-09-19 2004-04-08 Ricoh Co Ltd リンク生成装置、方法、プログラム及び記録媒体
JP2007048177A (ja) * 2005-08-12 2007-02-22 Canon Inc 情報処理方法及び情報処理装置
JP2011076563A (ja) * 2009-10-02 2011-04-14 Mitsubishi Electric Corp 監視制御装置の端末装置
US20120092268A1 (en) * 2010-10-15 2012-04-19 Hon Hai Precision Industry Co., Ltd. Computer-implemented method for manipulating onscreen data
JP2013046151A (ja) * 2011-08-23 2013-03-04 Ricoh Co Ltd プロジェクタ、投影システム及び情報検索表示方法
JP2016024519A (ja) * 2014-07-17 2016-02-08 公立大学法人首都大学東京 電子機器遠隔操作システム及びプログラム
WO2017138076A1 (ja) * 2016-02-08 2017-08-17 三菱電機株式会社 入力表示制御装置、入力表示制御方法及び入力表示システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3258978B2 (ja) 1999-05-21 2002-02-18 シャープ株式会社 ジェスチャー処理装置及びジェスチャー処理方法
US20090251441A1 (en) * 2008-04-03 2009-10-08 Livescribe, Inc. Multi-Modal Controller
KR101690117B1 (ko) * 2011-01-19 2016-12-27 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 멀티모달 및 제스처 제어를 위한 방법 및 시스템
CN102750104A (zh) * 2012-06-29 2012-10-24 鸿富锦精密工业(深圳)有限公司 具有触摸输入单元的电子设备
KR20140014510A (ko) * 2012-07-24 2014-02-06 삼성전자주식회사 음성 인식에 의하여 형성된 문자의 편집 방법 및 그 단말
JP5761216B2 (ja) * 2013-01-22 2015-08-12 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム
KR20150086032A (ko) * 2014-01-17 2015-07-27 엘지전자 주식회사 이동 단말기 및 이의 제어방법
KR20160065503A (ko) * 2014-12-01 2016-06-09 엘지전자 주식회사 이동 단말기 및 그 제어 방법

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863319A (ja) * 1994-08-24 1996-03-08 Hitachi Ltd 情報処理装置
JPH1049700A (ja) * 1996-08-02 1998-02-20 Canon Inc ペン入力装置、ペン入力方法、入力装置及び入力方法
JP2002251280A (ja) * 2001-02-22 2002-09-06 Canon Inc 電子黒板装置およびその制御方法
JP2004110584A (ja) * 2002-09-19 2004-04-08 Ricoh Co Ltd リンク生成装置、方法、プログラム及び記録媒体
JP2007048177A (ja) * 2005-08-12 2007-02-22 Canon Inc 情報処理方法及び情報処理装置
JP2011076563A (ja) * 2009-10-02 2011-04-14 Mitsubishi Electric Corp 監視制御装置の端末装置
US20120092268A1 (en) * 2010-10-15 2012-04-19 Hon Hai Precision Industry Co., Ltd. Computer-implemented method for manipulating onscreen data
JP2012089123A (ja) * 2010-10-15 2012-05-10 Hon Hai Precision Industry Co Ltd スクリーンデータ操作方法
JP2013046151A (ja) * 2011-08-23 2013-03-04 Ricoh Co Ltd プロジェクタ、投影システム及び情報検索表示方法
JP2016024519A (ja) * 2014-07-17 2016-02-08 公立大学法人首都大学東京 電子機器遠隔操作システム及びプログラム
WO2017138076A1 (ja) * 2016-02-08 2017-08-17 三菱電機株式会社 入力表示制御装置、入力表示制御方法及び入力表示システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115262624A (zh) * 2022-08-26 2022-11-01 中电建铁路建设投资集团有限公司 一种pc工法桩间逆向模筑挡土墙施工方法

Also Published As

Publication number Publication date
JP7006198B2 (ja) 2022-01-24
CN109871173A (zh) 2019-06-11
US11269511B2 (en) 2022-03-08
US20190171352A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
US8656296B1 (en) Selection of characters in a string of characters
JP6109625B2 (ja) 電子機器およびデータ処理方法
JP6609994B2 (ja) 表示制御方法、情報処理装置及び表示制御プログラム
KR101474854B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
US20160154997A1 (en) Handwriting input apparatus and control method thereof
US20180121074A1 (en) Freehand table manipulation
KR101474856B1 (ko) 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
JP5567097B2 (ja) 電子機器、手書き文書表示方法、及び表示プログラム
US20170322913A1 (en) Stylizing text by replacing glyph with alternate glyph
KR101085702B1 (ko) 터치스크린의 한글 입력 방법, 기록매체
KR102075424B1 (ko) 필기 입력 장치 및 그 제어 방법
US20140288916A1 (en) Method and apparatus for function control based on speech recognition
JP2012088969A (ja) 入力表示装置、入力表示方法、コンピュータプログラム及び記録媒体
JP7006198B2 (ja) 情報処理装置、情報処理システムおよびプログラム
US20210271380A1 (en) Display device
KR101447879B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
JP6342194B2 (ja) 電子機器、方法及びプログラム
US11978252B2 (en) Communication system, display apparatus, and display control method
JP5468640B2 (ja) 電子機器、電子機器の制御方法、電子機器の制御プログラム
US20150347004A1 (en) Indic language keyboard interface
JP5213794B2 (ja) 情報処理装置及び情報処理方法
JP6925789B2 (ja) 電子機器、制御方法、及びプログラム
JP6391064B2 (ja) 音声出力処理装置、音声出力処理プログラムおよび音声出力処理方法
US10564819B2 (en) Method, apparatus and system for display of text correction or modification
JP5660966B2 (ja) しおり出力装置、しおり出力プログラムおよびしおり出力方法ならびに電子書籍閲覧装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7006198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150