JP6203070B2

JP6203070B2 - スキャンシステムおよびその制御方法、並びにプログラム

Info

Publication number: JP6203070B2
Application number: JP2014017741A
Authority: JP
Inventors: 澤野　靖明; 靖明澤野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-01-31
Filing date: 2014-01-31
Publication date: 2017-09-27
Anticipated expiration: 2034-01-31
Also published as: JP2015146481A

Description

本発明は、スキャンシステムおよびその制御方法、並びにプログラムに関し、特にカメラスキャナを利用して原稿のデータ化を行い、保存する技術に関する。

従来、文書をスキャンして電子データとして保存する場合、撮影にラインセンサを用いるラインスキャナと、２次元のエリアセンサを用いるカメラスキャナとがある。特に、書画台の上方にカメラを配置し、原稿を上向きに書画台に置いて撮影するカメラスキャナの場合には、１枚の原稿であれば置くだけで素早くスキャンすることができる。さらに、複数枚の原稿を重ね置きした場合も、重ね置き前後にカメラスキャナで撮影し、差分画像から各原稿の輪郭を抽出して、各原稿をスキャンするものがある（例えば、特許文献１参照）。

特開２００７−２０１９４８号公報

複数枚の原稿を重ね置きした場合、重ね置き前後の撮影画像の差分を取るだけでは、原稿の輪郭として複数の候補が検出されたり、原稿の輪郭を検出できなかったりする場合がある。

上記課題を解決するために本願発明は以下の構成を有する。すなわち、載置部に載置された物体の画像を取得するスキャンシステムであって、前記載置部およびその近傍の画像を取得する画像取得手段と、前記画像取得手段にて連続して取得された画像の変化に基づいて、前記載置部への物体の載置を検知する検知手段と、前記画像取得手段にて取得された画像から前記物体の領域を抽出する抽出手段と、前記抽出手段にて抽出した前記物体の領域を所定の座標系に変換する変換手段と、前記変換手段にて変換された前記物体の領域の輪郭を導出する導出手段とを有し、前記物体とは異なる新たな物体が更に前記載置部に載置される場合、前記抽出手段、前記変換手段、および前記導出手段は、当該新たな物体が前記載置部に載置されたと前記検知手段により検知される前後の画像それぞれから求められる当該新たな物体の領域に含まれる特徴点の対応関係を用いて当該新たな物体の載置後の輪郭を導出する。

本発明により、撮影対象が重ね置きされる場合でも撮影画像に含まれる撮影対象の輪郭を適切に検出できる。

カメラスキャナシステムのネットワーク構成を示す図。カメラスキャナの外観を示す図。カメラスキャナのハードウェア構成図。カメラスキャナの制御用プログラムの構成例およびシーケンスの図。距離画像取得部の処理のフローチャートおよび説明図。ジェスチャ認識部の処理のフローチャート。ジェスチャ認識部が実行する処理を説明するための図。物体検知部の処理のフローチャート。平面原稿画像撮影部の処理のフローチャート。平面原稿画像撮影部の処理を説明するための図。物体検知部の処理を説明するための図。平面原稿画像撮影部の処理を説明するための図。実施形態１に係るメイン制御部の処理のフローチャート。ユーザインターフェイス部が表示するＧＵＩ表示画面の一例を示す図。原稿領域と印刷用紙の定型サイズを説明するための図。実施形態２に係る平面原稿画像撮影部の処理のフローチャート。実施形態３に係る平面原稿画像撮影部の処理のフローチャート。実施形態３に係る平面原稿画像撮影部の処理の説明図。実施形態４に係る物体検知部の処理のフローチャート。実施形態４に係る物体検知部の処理を説明するための図。

以下、本発明を実施するための形態について図面を参照して説明する。

＜実施形態１＞
図１は、本実施形態に係るカメラスキャナ１０１が含まれるスキャンシステムのネットワーク構成を示す図である。図１において、カメラスキャナ１０１は、イーサネット（登録商標）等のネットワーク１０４を介して、ホストコンピュータ１０２およびプリンタ１０３に接続されている。図１のネットワーク構成において、ホストコンピュータ１０２からの指示により、カメラスキャナ１０１から画像を読み取るスキャン機能や、スキャンデータをプリンタ１０３により出力するプリント機能の実行が可能である。また、ホストコンピュータ１０２を介さず、カメラスキャナ１０１への直接の指示により、スキャン機能、プリント機能の実行も可能である。

ホストコンピュータ１０２は、一般的な情報処理装置であり、カメラスキャナ１０１にて読み取った画像の保存や、読み取った画像に対する処理を行うことができる。プリンタ１０３は、画像形成装置であり、例えば複合機（ＭＦＰ：Ｍｕｌｔｉ−ＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）や単機能のプリンタなどが含まれる。

［カメラスキャナの構成］
図２は、本実施形態に係るカメラスキャナ１０１の構成例を示す図である。図２（ａ）に示すように、カメラスキャナ１０１は、コントローラ部２０１、カメラ部２０２、腕部２０３、プロジェクタ２０７、距離画像センサ部２０８を含む。カメラスキャナ１０１の本体であるコントローラ部２０１、撮像を行うためのカメラ部２０２、プロジェクタ２０７、および距離画像センサ部２０８は、腕部２０３により連結されている。腕部２０３は、関節を用いて曲げ伸ばしが可能である。

図２（ａ）には、カメラスキャナ１０１が設置されている書画台２０４も示している。書画台２０４は、スキャン対象の物体（ここでは原稿２０６）が載置される載置部である。カメラ部２０２および距離画像センサ部２０８のレンズは、書画台２０４方向に向けられており、破線で囲まれた読取領域２０５内の画像を読み取り可能である。ここでの読取領域２０５には書画台２０４およびその近傍が含まれることとなる。図２の例では、原稿２０６が読取領域２０５内に置かれているため、カメラスキャナ１０１によって原稿２０６が読み取り可能となっている。また、書画台２０４内にはターンテーブル２０９が設けられている。ターンテーブル２０９は、コントローラ部２０１からの指示によって回転することが可能であり、ターンテーブル２０９上に置かれた物体とカメラ部２０２との角度を変えることができる。

カメラ部２０２は、単一解像度で画像を撮像するものとしてもよいが、高解像度画像撮像と低解像度画像撮像など複数の解像度を切り替えて撮影が可能なものとすることが好ましい。なお、図２には示されていないが、カメラスキャナ１０１は、ＬＣＤタッチパネル３３０およびスピーカ３４０をさらに含んでもよい。

図２（ｂ）は、カメラスキャナ１０１における座標系について示す。カメラスキャナ１０１では、各ハードウェアデバイスに対して、カメラ座標系、距離画像センサ座標系、プロジェクタ座標系という複数の座標系が定義される。これらはカメラ部２０２および距離画像センサ部２０８のＲＧＢカメラ部５０３が撮像する画像平面、あるいはプロジェクタ２０７が投影する画像平面をＸＹ平面とし、画像平面に直交した方向をＺ方向として定義したものである。さらに、これらの独立した座標系の３次元データを統一的に扱えるようにするために、書画台２０４を含む平面をＸＹ平面とし、このＸＹ平面から上方に垂直な向きをＺ軸とする直交座標系を定義する。

各座標系を変換する場合の例として、図２（ｃ）に直交座標系と、カメラ部２０２を中心としたカメラ座標系を用いて表現された空間と、カメラ部２０２が撮像する画像平面との関係を示す。直交座標系における３次元点Ｐ［Ｘ，Ｙ，Ｚ］は、式（１）によって、カメラ座標系における３次元点Ｐｃ［Ｘｃ，Ｙｃ，Ｚｃ］へ変換できる。
ここで、Ｒｃおよびｔｃは、直交座標系に対するカメラの姿勢（回転）と位置（並進）によって求まる外部パラメータによって構成され、Ｒｃを３×３の回転行列、ｔｃを並進ベクトルと呼ぶ。

逆に、カメラ座標系で定義された３次元点は式（２）によって、直交座標系へ変換できる。

さらに、カメラ部２０２で撮影される２次元のカメラ画像平面は、カメラ部２０２によって３次元空間中の３次元情報が２次元情報に変換されたものである。すなわち、カメラ座標系上での３次元点Ｐｃ［Ｘｃ，Ｙｃ，Ｚｃ］を、式（３）によってカメラ画像平面での２次元座標ｐｃ［ｘｐ，ｙｐ］に透視投影変換することによって変換できる。
ここで、Ａは、カメラの内部パラメータと呼ばれ、焦点距離と画像中心などで表現される３×３の行列である。

以上のように、式（１）と式（３）を用いることで、直交座標系で表された３次元点群を、カメラ座標系での３次元点群座標やカメラ画像平面に変換できる。なお、各ハードウェアデバイスの内部パラメータおよび直交座標系に対する位置姿勢（外部パラメータ）は、公知のキャリブレーション手法により予めキャリブレーションされているものとする。以後、特に断りがなく「３次元点群」と表記した場合は、直交座標系における３次元データを表しているものとする。

［カメラスキャナのハードウェア構成］
図３は、カメラスキャナ１０１の本体であるコントローラ部２０１のハードウェア構成例を示す図である。

図３のコントローラ部２０１は、ＣＰＵ３０２、ＲＡＭ３０３、ＲＯＭ３０４、ＨＤＤ３０５、ネットワークＩ／Ｆ３０６、画像処理プロセッサ３０７、カメラＩ／Ｆ３０８、ディスプレイコントローラ３０９、シリアルＩ／Ｆ３１０、オーディオコントローラ３１１、およびＵＳＢコントローラ３１２を含む。これらの構成要素は、システムバス３０１によって互いに接続され、通信可能である。

ＣＰＵ３０２は、コントローラ部２０１全体の動作を制御する中央演算装置である。ＲＡＭ３０３は、揮発性メモリである。ＲＯＭ３０４は不揮発性メモリであり、ＣＰＵ３０２の起動用プログラムが格納されている。ＨＤＤ３０５は、記憶部であり、ＲＡＭ３０３と比較して大容量なハードディスクドライブ（ＨＤＤ）である。ＨＤＤ３０５にはコントローラ部２０１の実行する、本実施形態に係るカメラスキャナ１０１の制御用プログラムが格納されている。

ＣＰＵ３０２は電源ＯＮ等の起動時、ＲＯＭ３０４に格納されている起動用プログラムを実行する。この起動用プログラムは、ＨＤＤ３０５に格納されている制御用プログラムを読み出し、ＲＡＭ３０３上に展開するためのものである。ＣＰＵ３０２は起動用プログラムを実行すると、続けてＲＡＭ３０３上に展開した制御用プログラムを実行し、制御を行う。また、ＣＰＵ３０２は、制御用プログラムによる動作に用いるデータもＲＡＭ３０３上に格納して読み書きを行う。ＨＤＤ３０５上には更に、制御用プログラムによる動作に必要な各種設定や、また、カメラ入力によって生成した画像データを格納することができ、ＣＰＵ３０２によって読み書きされる。ＣＰＵ３０２は、ネットワークＩ／Ｆ３０６を介してネットワーク１０４上の他の機器との通信を行う。ここでの通信の方式は、有線・無線のいずれであっても構わない。

画像処理プロセッサ３０７は、ＲＡＭ３０３に格納された画像データを読み出して処理し、またＲＡＭ３０３へ書き戻す。なお、画像処理プロセッサ３０７が実行する画像処理としては、画像に対する回転、変倍、色変換等の処理が挙げられる。

カメラＩ／Ｆ３０８は、カメラ部２０２および距離画像センサ部２０８と接続され、ＣＰＵ３０２からの指示に応じてカメラ部２０２から画像データを、距離画像センサ部２０８から距離画像データを取得してＲＡＭ３０３へ書き込む。また、ＣＰＵ３０２からの制御コマンドをカメラ部２０２および距離画像センサ部２０８へ送信し、カメラ部２０２および距離画像センサ部２０８の設定を行う。

また、コントローラ部２０１は、ディスプレイコントローラ３０９、シリアルＩ／Ｆ３１０、オーディオコントローラ３１１、およびＵＳＢコントローラ３１２のうち少なくとも１つをさらに含んでもよい。

ディスプレイコントローラ３０９は、ＣＰＵ３０２の指示に応じてディスプレイへの画像データの表示を制御する。ここでは、ディスプレイコントローラ３０９は、プロジェクタ２０７およびＬＣＤタッチパネル３３０に接続されている。

シリアルＩ／Ｆ３１０は、シリアル信号の入出力を行う。ここでは、シリアルＩ／Ｆ３１０はターンテーブル２０９に接続され、ＣＰＵ３０２の回転開始・終了および回転角度の指示をターンテーブル２０９へ送信する。また、シリアルＩ／Ｆ３１０はＬＣＤタッチパネル３３０に接続され、ＣＰＵ３０２はＬＣＤタッチパネル３３０が押下された場合に、シリアルＩ／Ｆ３１０を介して押下された座標を取得する。

オーディオコントローラ３１１はスピーカ３４０に接続され、ＣＰＵ３０２の指示に応じて音声データをアナログ音声信号に変換し、スピーカ３４０を通じて音声を出力する。

ＵＳＢコントローラ３１２は、ＣＰＵ３０２の指示に応じて外付けのＵＳＢデバイスの制御を行う。ここでは、ＵＳＢコントローラ３１２はＵＳＢメモリやＳＤカードなどの外部メモリ３５０に接続され、外部メモリ３５０へのデータの読み書きを行う。

［カメラスキャナの機能構成］
図４（ａ）は、ＣＰＵ３０２が実行するカメラスキャナ１０１の制御用プログラム４０１の機能構成の例を示す図である。また、図４（ｂ）は、制御用プログラム４０１の各モジュールの関係をシーケンス図として示したものである。

カメラスキャナ１０１の制御用プログラム４０１はＨＤＤ３０５に格納され、ＣＰＵ３０２が起動時にＲＡＭ３０３上に展開して実行する。メイン制御部４０２は、他の各モジュールを図４（ｂ）に示すように制御する。したがって、本実施形態に係る、後述する各処理は、各モジュールに対応するプログラムをＣＰＵ３０２がＨＤＤ３０５から読み出し、実行することで実現される。

画像取得部４１６は画像入力処理を行い、カメラ画像取得部４０７および距離画像取得部４０８から構成される。カメラ画像取得部４０７はカメラＩ／Ｆ３０８を介してカメラ部２０２が出力する画像データを取得し、ＲＡＭ３０３へ格納する。距離画像取得部４０８はカメラＩ／Ｆ３０８を介して距離画像センサ部２０８が出力する距離画像データを取得し、ＲＡＭ３０３へ格納する。ここでの距離画像、および距離画像取得部４０８の処理の詳細は図５を用いて後述する。また、カメラ部２０２および距離画像センサ部２０８は、定期的な間隔にて画像を連続して取得することができる。本明細書において、この連続した画像群のうち、１つの画像を「フレーム」とも記載する。

認識処理部４１７は、カメラ画像取得部４０７および距離画像取得部４０８が取得する画像データから書画台２０４上の物体の動きを検知して認識する。認識処理部４１７は、ジェスチャ認識部４０９、物体検知部４１０、原稿領域抽出部４１９、原稿領域変換部４２０、特徴点抽出部４２１、２次元画像原稿輪郭算出部４２２、距離算出部４２３、および原稿輪郭算出部４２４から構成される。

ジェスチャ認識部４０９は、画像取得部４１６から書画台２０４上の画像を取得し続け、タッチなどのジェスチャによる操作指示を検知すると、その内容を解析し、メイン制御部４０２へ通知する。物体検知部４１０は、メイン制御部４０２から物体の載置待ち処理あるいは物体の除去待ち処理の通知を受けると、画像取得部４１６から書画台２０４を撮像した画像を取得する。また、物体検知部４１０は、書画台２０４上に物体が置かれて静止するタイミングあるいは物体が取り除かれるタイミングを検知する。原稿領域抽出部４１９は、距離画像取得部４０８で取得した距離画像から原稿領域を抽出する。

原稿領域変換部４２０は、カメラ画像取得部４０７で取得したカメラ画像と距離画像取得部４０８で取得した距離画像から原稿領域抽出部４１９で抽出した原稿領域を切り出し、原稿の画像に対し、書画台２０４と平行な平面上に位置するように画像情報を変換する。特徴点抽出部４２１は、原稿領域変換部４２０で変換したカメラ画像の原稿から特徴点を抽出する。２次元画像原稿輪郭算出部４２２は、原稿領域変換部４２０で取得したカメラ画像の原稿から輪郭を抽出する。距離算出部４２３は、特徴点抽出部４２１で抽出された特徴点と、２次元画像原稿輪郭算出部４２２で算出したカメラ画像の原稿の輪郭との距離、および特徴点間の距離を算出する。原稿輪郭算出部４２４は、物体検知部４１０で書画台２０４上に原稿が載置されたことを検知したら、距離算出部４２３で特徴点間の距離を再度算出し、原稿の輪郭を算出する。認識処理部４１７の処理の詳細は図６〜図８を用いてそれぞれ後述する。

スキャン処理部４１８は実際に対象物のスキャンを行うモジュールであり、スキャン対象物の種類に応じて、平面原稿画像撮影部４１１、書籍画像撮影部４１２、および立体形状測定部４１３から構成される。平面原稿画像撮影部４１１は平面原稿に、書籍画像撮影部４１２は書籍に、立体形状測定部４１３は立体物に、それぞれ適した処理を実行し、それぞれの処理に応じた形式のデータを出力する。本実施形態では、スキャン対象が原稿のため、平面原稿画像撮影部４１１の処理の詳細のみ図９〜図１０を用いて後述する。なお、他の対象物をスキャンする場合でも基本的な動作は同じである。

ユーザインターフェイス部４０３は、ＧＵＩ部品生成表示部４１４および投射領域検出部４１５から構成される。ＧＵＩ部品生成表示部４１４は、メイン制御部４０２からの要求を受け、メッセージやボタン等のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）部品を生成する。そして、ＧＵＩ部品生成表示部４１４は、表示部４０６へ生成したＧＵＩ部品の表示を要求する。なお、書画台２０４上のＧＵＩ部品の表示場所は、投射領域検出部４１５により検出される。表示部４０６は、ディスプレイコントローラ３０９を介して、プロジェクタ２０７もしくはＬＣＤタッチパネル３３０へ要求されたＧＵＩ部品の表示を行う。プロジェクタ２０７は書画台２０４に向けて設置されているため、書画台２０４上にＧＵＩ部品を投射・投影することが可能となっている。また、ユーザインターフェイス部４０３は、ジェスチャ認識部４０９が認識したタッチ等のジェスチャ操作、あるいはシリアルＩ／Ｆ３１０を介したＬＣＤタッチパネル３３０からの入力操作、そして更にそれらの座標を受信する。そして、ユーザインターフェイス部４０３は、描画中の操作画面の内容と操作座標を対応させて操作内容（押下されたボタン等）を判定する。ユーザインターフェイス部４０３は、この判定した操作内容をメイン制御部４０２へ通知することにより、操作者の操作を受け付ける。

ネットワーク通信部４０４は、ネットワークＩ／Ｆ３０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによる通信を行う。データ管理部４０５は、制御用プログラム４０１の実行において生成した作業データなど様々なデータをＨＤＤ３０５上の所定の領域へ保存し、管理する。ここで保存されるデータは例えば、平面原稿画像撮影部４１１、書籍画像撮影部４１２、もしくは立体形状測定部４１３が生成したスキャンデータなどである。

［距離画像センサ部および距離画像取得部の説明］
図３は、距離画像センサ部２０８の構成を示す。距離画像センサ部２０８は赤外線によるパターン投射方式の距離画像センサである。赤外線パターン投射部３６１は、対象物に、人の目には不可視である赤外線によって３次元測定パターンを投射する。赤外線カメラ３６２は、対象物に投射した３次元測定パターンを読みとるカメラである。ＲＧＢカメラ３６３は、人の目に見える可視光をＲＧＢ信号で撮影するカメラである。

距離画像取得部４０８の処理を図５（ａ）のフローチャートを用いて説明する。また、図５（ｂ）〜（ｄ）はパターン投射方式による距離画像の計測原理を説明するための図面である。

処理を開始すると、Ｓ５０１にて、距離画像取得部４０８は、図５（ｂ）に示すように赤外線パターン投射部３６１を用いて赤外線による３次元形状測定パターン５２２を対象物５２１に投射する。Ｓ５０２にて、距離画像取得部４０８は、ＲＧＢカメラ３６３を用いて対象物を撮影したＲＧＢ画像５２３、および、赤外線カメラ３６２を用いてＳ５０１で投射した３次元形状測定パターン５２２を含んで撮影した赤外線カメラ画像５２４を取得する。

ここで、図２に示すように赤外線カメラ３６２とＲＧＢカメラ３６３とでは設置位置が異なるため、図５（ｃ）に示すようにそれぞれで撮影される２つのＲＧＢ画像５２３および赤外線カメラ画像５２４の撮影領域が異なる。そこで、Ｓ５０３にて、距離画像取得部４０８は、赤外線カメラ３６２の座標系からＲＧＢカメラ３６３の座標系への座標系変換を用いて赤外線カメラ画像５２４をＲＧＢ画像５２３の座標系に合わせる処理を行う。なお、赤外線カメラ３６２とＲＧＢカメラ３６３の相対位置や、それぞれの内部パラメータは事前のキャリブレーション処理により既知であるとする。

Ｓ５０４にて、距離画像取得部４０８は、図５（ｃ）に示すように、３次元形状測定パターン５２２とＳ５０３で座標変換を行った赤外線カメラ画像５２４間での対応点を抽出する。例えば、距離画像取得部４０８は、赤外線カメラ画像５２４上の１点を３次元形状測定パターン５２２上から探索して、同一の点が検出された場合に対応付けを行う。あるいは、距離画像取得部４０８は、赤外線カメラ画像５２４の画素の周辺のパターンを３次元形状測定パターン５２２上から探索し、一番類似度が高い部分と対応付けてもよい。

Ｓ５０５にて、距離画像取得部４０８は、赤外線パターン投射部３６１と赤外線カメラ３６２を結ぶ直線を基線５２５として三角測量の原理を用いて計算を行うことにより、赤外線カメラ３６２からの距離を算出する。距離画像取得部４０８は、Ｓ５０４で対応付けが出来た画素については、赤外線カメラ３６２からの距離を算出して画素値として保存し、対応付けが出来なかった画素については、距離の計測が出来なかった部分として無効値を保存する。これをＳ５０３で座標変換を行った赤外線カメラ画像５２４の全画素に対して行うことで、各画素に距離値が入った距離画像を生成する。

Ｓ５０６にて、距離画像取得部４０８は、距離画像の各画素にＲＧＢ画像５２３のＲＧＢ値を保存することにより、１画素につきＲ、Ｇ、Ｂ、距離の４つの値を持つ距離画像を生成する。ここで取得した距離画像は、距離画像センサ部２０８のＲＧＢカメラ３６３で定義された距離画像センサ座標系が基準となる。そこでＳ５０７にて、距離画像取得部４０８は、図２（ｂ）を用いて上述したように、距離画像センサ座標系として得られた距離データを直交座標系における３次元点群に変換する。以後、特に指定がなく「３次元点群」と表記した場合は、直交座標系における３次元点群を示すものとする。

なお、本実施形態では、上述したように、距離画像センサ部２０８として赤外線パターン投射方式を採用しているが、他の方式の距離画像センサを用いてもよい。例えば、２つのＲＧＢカメラでステレオ立体視を行うステレオ方式や、レーザー光の飛行時間を検出することで距離を測定するＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）方式を用いても構わない。

［ジェスチャ認識部の説明］
ジェスチャ認識部４０９の処理の詳細を、図６のフローチャートを用いて説明する。処理を開始すると、Ｓ６０１にて、ジェスチャ認識部４０９は、初期化処理を行う。初期化処理で、ジェスチャ認識部４０９は、距離画像取得部４０８から距離画像を１フレーム取得する。ここで、ジェスチャ認識部４０９の開始時は書画台２０４上に対象物が置かれていない状態であるため、取得した距離画像から、初期状態として書画台２０４の平面の認識を行う。つまり、ジェスチャ認識部４０９は、取得した距離画像から最も広い平面を抽出し、その位置と法線ベクトル（以降、書画台２０４の平面パラメータと呼ぶ）を算出し、ＲＡＭ３０３に保存する。

Ｓ６０２にて、ジェスチャ認識部４０９は、Ｓ６２１〜Ｓ６２２に示す、書画台２０４上に存在する物体の３次元点群を取得する。その際、Ｓ６２１にて、ジェスチャ認識部４０９は、距離画像取得部４０８から距離画像と３次元点群を１フレーム取得する。Ｓ６２２にて、ジェスチャ認識部４０９は、書画台２０４の平面パラメータを用いて、取得した３次元点群から書画台２０４を含む平面領域に位置する点群を除去する。

Ｓ６０３にて、ジェスチャ認識部４０９は、Ｓ６３１〜Ｓ６３４に示す、取得した３次元点群からユーザの手の形状および指先を検出する処理を行う。ここで、図７に示す、指先検出処理の方法を模式的に表した図を用いて説明する。Ｓ６３１にて、ジェスチャ認識部４０９は、Ｓ６０２で取得した３次元点群から、書画台２０４を含む平面領域において所定の高さの範囲内にある肌色の３次元点群を抽出することで、手の３次元点群を得る。ここでの所定の高さは、ジェスチャの認識の感度に応じて任意に設定できるものとする。図７（ａ）に示す３次元点群７０１は、抽出した手に対する３次元点群を表している。Ｓ６３２にて、ジェスチャ認識部４０９は、抽出した手に対する３次元点群を、書画台２０４の平面に射影した２次元画像を生成して、その手の外形を検出する。図７（ａ）に示す３次元点群７０２は、３次元点群７０１を書画台２０４の平面に投影した際の３次元点群を表している。投影は、点群の各座標を、書画台２０４の平面パラメータを用いて投影することができる。また、図７（ｂ）に示すように、投影した手に対する３次元点群の値から、ｘｙ座標の値だけを取り出せば、ｚ軸方向から見た２次元画像７０３として扱うことができる。この時、ジェスチャ認識部４０９は、手に対する３次元点群の各点が、書画台２０４の平面に投影した２次元画像の各座標のいずれに対応するかの情報を、ＨＤＤ３０５等に記憶しておくものとする。

Ｓ６３３にて、ジェスチャ認識部４０９は、検出した手の外形上の各点について、その点での外形の曲率を算出し、算出した曲率が所定値より大きい点を指先として検出する。ここでの曲率に対する所定値は、予め定義され、ＨＤＤ３０５等に保持されているものとする。図７（ｃ）は、外形の曲率から指先を検出する方法を模式的に表している。点７０４は、書画台２０４の平面に投影された２次元画像７０３の外形を表す点の一部を表している。ここで、点７０４のような、外形を表す点のうち、隣り合う５個の点を含むように円を描くことを考える。円７０５、７０７が、その例である。この円を、全ての外形の点に対して順に描き、その直径（例えば直径７０６、および直径７０８）が所定の値より小さい（曲率が大きい）ことを以て、指先とする。この例では隣り合う５個の点としたが、その数は限定されるものではない。また、ここでは曲率を用いたが、その他の方法として、外形に対して楕円フィッティングを行うことで、指先を検出してもよい。

Ｓ６３４にて、ジェスチャ認識部４０９は、検出した指先の個数および各指先の座標を算出する。この時、前述したように、書画台２０４に投影した２次元画像の各点と、手に対する３次元点群の各点の対応関係に関する情報が記憶されているため、各指先の３次元座標を得ることができる。

本例では、３次元点群から２次元画像に投影した画像から指先を検出する方法を説明したが、指先検出の対象とする画像は、これに限定されるものではない。例えば、距離画像の背景差分や、ＲＧＢ画像の肌色領域から手の領域を抽出し、上に述べたのと同様の方法（外形の曲率計算等）で、手領域のうちの指先を検出してもよい。この場合、検出した指先の座標はＲＧＢ画像や距離画像といった、２次元画像上の座標であるため、その座標における距離画像の距離情報を用いて、直交座標系の３次元座標に変換する必要がある。この時、指先点となる外形上の点ではなく、指先を検出するときに用いた、曲率円の中心を指先点としてもよい。

Ｓ６０４にて、ジェスチャ認識部４０９は、Ｓ６４１〜Ｓ６４６に示す、検出した手の形状および指先からのジェスチャ判定処理を行う。Ｓ６４１にて、ジェスチャ認識部４０９は、Ｓ６０３で検出した指先が１つか否かを判定する。検出した指先が１つでなければ（Ｓ６４１にてＮＯ）Ｓ６４６へ進み、ジェスチャ認識部４０９は、「ジェスチャ無し」と判定する。検出した指先が１つであれば（Ｓ６４１にてＹＥＳ）、Ｓ６４２へ進み、ジェスチャ認識部４０９は、検出した指先と書画台２０４を含む平面との距離を算出する。

Ｓ６４３にて、ジェスチャ認識部４０９は、Ｓ６４２で算出した距離が所定値以下であるか否かを判定する。ここでの所定値は、指先による書画台２０４へのタッチ動作か、移動指示動作かを判定するための閾値であり、その指先の動きを踏まえた値となる。所定値以下である場合（Ｓ６４３にてＹＥＳ）、Ｓ６４４へ進み、ジェスチャ認識部４０９は、指先が書画台２０４へタッチしたとして「タッチジェスチャあり」と判定する。算出した距離が所定値以下で無い場合（Ｓ６４３にてＮＯ）、Ｓ６４５へ進み、ジェスチャ認識部４０９は、「指先移動ジェスチャあり」と判定する。ここでの指先移動は例えば、タッチはしていないが指先が書画台２０４上に存在するジェスチャである。

Ｓ６０５にて、ジェスチャ認識部４０９は、判定したジェスチャをメイン制御部４０２へ通知し、その後、Ｓ６０２へ戻ってジェスチャ認識処理を繰り返す。

これにより、書画台２０４およびその近傍でなされたジェスチャによる操作指示を受け付ける受付手段を実現する。

［物体検知部の処理］
図８のフローチャートを用いて物体検知部４１０の処理の説明を行う。処理を開始すると、図８（ａ）のＳ８０１にて、物体検知部４１０は、Ｓ８１１〜Ｓ８１３に示す初期化処理を行う。Ｓ８１１にて、物体検知部４１０は、カメラ画像取得部４０７からカメラ画像を１フレーム取得し、距離画像取得部４０８から距離画像を１フレーム取得する。Ｓ８１２にて、物体検知部４１０は、取得したカメラ画像を前フレームカメラ画像として保存する。Ｓ８１３にて、物体検知部４１０は、取得したカメラ画像および距離画像を書画台背景カメラ画像および書画台背景距離画像としてそれぞれ保存する。以降、「書画台背景カメラ画像」および「書画台背景距離画像」と記載した場合は、ここで取得したカメラ画像および距離画像のことを指す。つまり、書画台２０４の初期状態を認識させる。

Ｓ８０２にて、物体検知部４１０は、物体が書画台２０４上に置かれたことの検知（物体載置検知処理）を行う。処理の詳細は図８（ｂ）、（ｃ）を用いて後述する。

Ｓ８０３にて、物体検知部４１０は、Ｓ８０２で載置を検知した書画台２０４上の物体が除去されることの検知（物体除去検知処理）を行う。処理の詳細は図８（ｄ）を用いて後述する。

（物体載置検知処理）
図８（ｂ）は、Ｓ８０２の物体載置検知処理の詳細を示すフローチャートであり、１枚目の原稿に対する原稿載置検知処理である。図８（ａ）の初期化処理の後や、図８（ｄ）の物体除去検知処理の後は、こちらの処理が行われる。ここで、画像取得部４１６にて、所定の間隔にて連続して画像群が撮影されているものとする。

Ｓ８２１にて、物体検知部４１０は、画像取得部４１６が取得した連続する画像群の中からカメラ画像と距離画像を１フレーム取得する。Ｓ８２２にて、物体検知部４１０は、Ｓ８２１にて取得したカメラ画像と、すでに保持されている前フレームカメラ画像との差分を計算し、その絶対値の総和を差分値として算出する。Ｓ８２３にて、物体検知部４１０は、算出した差分値が予め決めておいた所定値以上か否かを判定する。ここでの所定値は、予め定義され、ＨＤＤ３０５等に保持されているものとする。

算出した差分値が所定値未満であれば（Ｓ８２３にてＮＯ）、物体検知部４１０は、書画台２０４上には「物体が無い」と判定し、Ｓ８２８へ進み、物体検知部４１０は、現フレームのカメラ画像と距離画像を前フレームカメラ画像と距離画像として保存する。その後、Ｓ８２１へ戻り、処理を続ける。差分値が所定値以上であれば（Ｓ８２３にてＹＥＳ）、Ｓ８２４へ進み、物体検知部４１０は、Ｓ８２１で取得したカメラ画像と前フレームカメラ画像との差分値を、Ｓ８２２と同様に算出する。

Ｓ８２５にて、物体検知部４１０は、算出した差分値が予め決めておいた所定値以下であるか否かを判定する。ここでの所定値は、予め定義され、ＨＤＤ３０５等に保持されているものとする。なお、Ｓ８２３にて用いた所定値と同じ値を用いても良いし、異なる値を用いても構わない。算出した差分値が所定値よりも大きければ（Ｓ８２５にてＮＯ）、物体検知部４１０は、「書画台２０４上の物体が動いている」と判定し、Ｓ８２８へ進み、現フレームのカメラ画像を前フレームカメラ画像として保存する。その後、Ｓ８２１へ戻り、処理を続ける。算出した差分値が所定値以下であれば（Ｓ８２５にてＹＥＳ）、Ｓ８２６へ進む。このとき、物体検知部４１０は、算出した差分値が所定値以下であると連続して判定された回数をカウントしておくものとする。

Ｓ８２６にて、物体検知部４１０は、Ｓ８２５において連続して所定値以下と判定された回数が閾値以上か否か（つまり、書画台２０４上の物体が静止した状態が、予め決めておいたフレーム数続いたか否か）を判定する。書画台２０４上の物体が静止した状態が予め決めておいたフレーム数続いていない場合（Ｓ８２６にてＮＯ）、Ｓ８２８へ進む。Ｓ８２８にて、物体検知部４１０は、現フレームのカメラ画像と距離画像を前フレームカメラ画像と距離画像として保存する。その後、Ｓ８２１へ戻り、処理を続ける。

書画台２０４上の物体が静止した状態が予め決めておいたフレーム数続いた場合（Ｓ８２６にてＹＥＳ）、Ｓ８２７へ進み、物体検知部４１０は、物体が置かれたことをメイン制御部４０２へ通知する。そして、物体載置検知処理を終了する。

図８（ｃ）は、Ｓ８０２の物体載置検知処理の詳細を示すフローチャートであり、２枚目以降の原稿に対する原稿載置検知処理である。図８（ｂ）と同じ処理については同じ番号を付して、説明は省略する。

Ｓ８３１にて、物体検知部４１０は、取得した距離画像と前フレーム距離画像との差分を計算してその絶対値を合計した差分値を算出する。２枚目の原稿に対する最初のフレームの処理では、前フレーム距離画像は図８（ｂ）のＳ８２８で得られる画像を用いる。

Ｓ８３２にて、物体検知部４１０は、算出した差分値が予め決めておいた所定値以上か否かを判定する。ここでの所定値は予め定義され、ＨＤＤ３０５等に保持されているものとする。算出した差分値が所定値未満であれば（Ｓ８３２にてＮＯ）、物体検知部４１０は、新しい原稿（未検知の原稿）が写りこんでいないと判定し、Ｓ８２８へ進む。差分値が所定値以上であれば（Ｓ８３２にてＹＥＳ）、物体検知部４１０は、新しい原稿が写りこんでいると判定し、Ｓ８３３へ進み、原稿輪郭算出処理を行う。処理の詳細は図８（ｅ）、図１１を用いて後述する。

（物体除去検知処理）
図８（ｄ）は、Ｓ８０３の物体除去検知処理の詳細フローチャートである。物体除去検知処理を開始すると、Ｓ８４１にて、物体検知部４１０は、カメラ画像取得部４０７からカメラ画像を１フレーム取得する。Ｓ８４２にて、物体検知部４１０は、取得したカメラ画像と書画台背景カメラ画像との差分値を算出する。Ｓ８４３にて、物体検知部４１０は、算出した差分値が予め決めておいた所定値以下か否かを判定する。ここでの所定値は予め定義され、ＨＤＤ３０５等に保持されているものとする。なお、図８（ｂ）のＳ８２３にて用いた値と同じものを用いてもよい。

算出した差分値が所定値よりも大きければ（Ｓ８４３にてＮＯ）、書画台２０４上にまだ物体が存在するため、Ｓ８４１へ戻り、処理を続ける。算出した差分値が所定値以下であれば（Ｓ８４３にてＹＥＳ）、物体検知部４１０は、書画台２０４上の物体が無くなったと判定し、物体除去をメイン制御部４０２へ通知する。その後、物体除去検知処理を終了する。

（原稿輪郭算出処理）
図８（ｅ）は、Ｓ８３３の原稿輪郭算出処理の詳細を示すフローチャートである。図１１は、原稿輪郭算出処理を説明するための模式図である。本実施形態では、書画台２０４の平面を示す領域と距離画像から得られる原稿領域との距離が、カメラ部２０２の被写界深度によって決まる所定値以内となった初めてのフレームに対してのみ原稿輪郭算出処理を行う。つまり、原稿が書画台２０４に配置された時点での画像に対してのみ、原稿の輪郭の算出を行う。

原稿輪郭算出処理を開始すると、Ｓ８５１にて、原稿輪郭算出部４２４は、原稿領域抽出部４１９を用いて距離画像から原稿領域を抽出する。図１１（ａ）は、２枚目の原稿を書画台２０４に置く過程でのカメラ画像の例を示す。図１１（ｂ）は、２枚目の原稿を書画台２０４に置く過程での距離画像の例である。図１１（ｂ）では、距離画像センサ部２０８からの距離が遠くなればなるほど、距離画像においてその位置の値は暗くなる。図１１（ｃ）は、前フレーム距離画像との差分画像を示す。ここでは、前フレーム距離画像と現フレーム距離画像との差分のある領域を原稿領域として判断する。もちろん、距離画像にも原稿を持っている手が写る場合があるが、手に対応する領域は例えば前述したジェスチャ認識部４０９のＳ６０３の処理で検出して原稿領域とは切り離すことが可能である。

Ｓ８５２にて、原稿輪郭算出部４２４は、原稿領域と書画台２０４の距離が所定値以下になったか否かを判定する。この所定値は、すでに原稿が書画台２０４に載置されている上に、２枚目以降の原稿が重ねて載置されようとして近づいたか否かを示す閾値である。この所定値は、予め定義され、ＨＤＤ３０５等に保持されているものとする。つまり所定値以下ではない場合（Ｓ８５２にてＮＯ）、原稿輪郭算出部４２４は、原稿が書画台２０４に配置されていないと判定し、原稿輪郭算出処理は行わずに処理を終了する。所定値以下の場合（Ｓ８５２にてＹＥＳ）、Ｓ８５３に進み、原稿輪郭算出部４２４は、Ｓ８５２でＹＥＳとなった初めてのフレームであるか否かを判定する。すなわち、以前のフレームにおいて、対応する原稿が書画台２０４に所定の距離以上近づいたことをすでに検知しているか否かを判定する。初めてのフレームではない場合（Ｓ８５３にてＮＯ）、原稿輪郭算出部４２４は、原稿輪郭算出処理は行わずに処理を終了する。

初めてのフレームである場合（Ｓ８５３にてＹＥＳ）、Ｓ８５４に進み、原稿輪郭算出部４２４は、カメラ画像と距離画像から原稿領域を切り出し、書画台２０４と平行な平面上に対応付けて配置する。具体的には、Ｓ８５１で距離画像から原稿領域は切り出せているため、原稿輪郭算出部４２４は、カメラ画像を距離画像座標系に変換して、カメラ画像から原稿領域を切り出す。切り出したカメラ画像と距離画像の原稿領域をそれぞれ図１１（ｄ）、図１１（ｅ）に示す。原稿輪郭算出部４２４は、これらの画像を書画台２０４と平行な平面上に配置する。つまり、原稿輪郭算出部４２４は、書画台２０４の直交座標系に変換する。

図１１（ｄ）、図１１（ｅ）の例では２次元歪みの変換となるが、一般的には手に持った原稿は３次元に歪むため、３次元歪みを変換する方法を採用する必要がある。変換の方法としては、例えば「可展面モデルを用いた非剛体変形の推定」（中島崇ほか、“可展面モデルを用いた非剛体変形の推定”、２００９年７月２２日、第１２回画像の認識・理解シンポジウム（ＭＩＲＵ２００９））を用いて平面展開をすることが可能である。カメラ画像と距離画像から切り出した原稿領域を書画台２０４の直交座標系に変換した画像をそれぞれ図１１（ｆ）、図１１（ｇ）に示す。この例では、Ｚ軸方向は、距離画像の原稿領域の中で最も書画台２０４に近い位置に合わせて平面展開している（この時のＺ軸方向の値をＺ０とする）。

Ｓ８５５にて、原稿輪郭算出部４２４は、変換したカメラ画像の原稿領域から特徴点を抽出する。特徴点抽出方法としては、照明の変化や回転、拡大縮小に比較的強い耐性をもつ特徴点算出手法であるＳＩＦＴ（Ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ）など、様々な方法が提案されており、ここでの詳細説明は割愛する。図１１（ｈ）は、図１１（ｆ）の画像から特徴点を抽出した例である。図１１（ｈ）において、特徴点は黒い点（●）で表わされており、特徴点１１０３、１１０４など計２４個の特徴点が抽出されている。特徴点１１０３、１１０４の書画台２０４の直交座標系での位置はそれぞれ（Ｘ１１０３、Ｙ１１０３、Ｚ０）、（Ｘ１１０４、Ｙ１１０４、Ｚ０）である。

Ｓ８５６にて、原稿輪郭算出部４２４は、変換したカメラ画像から原稿の輪郭を抽出する。これは、Ｓ８５４の処理で変換したカメラ画像の最外郭となり、図１１（ｉ）のようになる。Ｓ８５７にて、原稿輪郭算出部４２４は、Ｓ８５５で抽出した特徴点間の距離と、Ｓ８５６で抽出した輪郭との距離を算出する。図１１（ｊ）の例では、特徴点１１０３、１１０４間の距離をＤ１とする。特徴点１１０３と原稿の輪郭の左辺、右辺、上辺、下辺との距離をそれぞれＤ２、Ｄ３、Ｄ４、Ｄ５とする。特徴点１１０３と原稿の輪郭の交点の座標をそれぞれＰ２、Ｐ３、Ｐ４、Ｐ５とする。特徴点１１０４と原稿の輪郭の左辺、右辺、上辺、下辺との距離をそれぞれＤ６、Ｄ７、Ｄ８、Ｄ９とする。特徴点１１０４と原稿の輪郭の交点の座標をそれぞれＰ６、Ｐ７、Ｐ８、Ｐ９とする。原稿輪郭算出部４２４は、他の特徴点についても距離の計算を行って、特徴点間の関係を導出し、原稿輪郭算出処理を終了する。

［平面原稿画像撮影部の説明］
図９（ａ）、（ｂ）のフローチャートを用いて、平面原稿画像撮影部４１１が実行する処理を説明する。図９（ａ）は、１枚目の原稿に対して平面原稿画像撮影部４１１が実行する処理のフローチャートであり、図１０は処理を説明するための模式図である。

処理を開始すると、Ｓ９０１にて、平面原稿画像撮影部４１１は、カメラ画像取得部４０７を介してカメラ部２０２からの画像を１フレーム取得する。ここで、カメラ部２０２の座標系は図２（ｂ）で示したように書画台２０４に正対していない。そのため、このときの撮影画像は、図１０（ａ）に示すように対象物１００１、書画台２０４ともに歪んでいる。

Ｓ９０２にて、平面原稿画像撮影部４１１は、書画台背景カメラ画像とＳ９０１で取得したカメラ画像との画素毎の差分を算出し、差分画像を生成した上で、差分のある画素を黒、差分の無い画素を白となるように二値化する。その結果、ここで生成した差分画像は、図１０（ｂ）の差分領域１００２のように、対象物１００１の領域が黒色である（差分がある）画像となる。

Ｓ９０３にて、平面原稿画像撮影部４１１は、差分領域１００２を用いて、図１０（ｃ）のように対象物１００１のみの画像を抽出する。Ｓ９０４にて、平面原稿画像撮影部４１１は、抽出した原稿領域画像に対して階調補正を行う。Ｓ９０５にて、平面原稿画像撮影部４１１は、抽出した原稿領域画像に対してカメラ座標系から書画台２０４への射影変換を行い、図１０（ｄ）のように書画台２０４の真上から見た画像１００３に変換する。ここで用いる射影変換パラメータは、ジェスチャ認識部４０９の処理において、前述した図６のＳ６０１で算出した平面パラメータとカメラ座標系から求めることができる。

なお、図１０（ｄ）に示したように、書画台２０４上への原稿の置き方により、ここで得られる画像１００３は傾いている場合がある。そこで、Ｓ９０６にて、平面原稿画像撮影部４１１は、画像１００３を矩形近似してから、その矩形が水平になるように回転し、図９（ｅ）で示した画像１００４のように傾きの無い画像を得る。図１０（ｆ）に示すように、基準ラインに対しての矩形の傾きθ１およびθ２を算出し、傾きが小さい方（ここではθ１）を画像１００３の回転角度として決定する。あるいは、図１０（ｇ）および図１０（ｈ）に示すように、画像１００３中に含まれる文字列に対してＯＣＲ処理を行い、文字列の傾きから画像１００３の回転角度の算出および天地判定処理をしてもよい。

Ｓ９０７にて、平面原稿画像撮影部４１１は、抽出した画像１００４に対して、予め決めておいた画像フォーマットに合わせて圧縮およびファイルフォーマット変換を行う。画像フォーマットとしては、例えば、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）、ＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）等がある。そして、平面原稿画像撮影部４１１は、データ管理部４０５を介してＨＤＤ３０５の所定の領域へファイルとして保存し、処理を終了する。

図９（ｂ）は、２枚目以降の原稿に対して平面原稿画像撮影部４１１が実行する処理のフローチャートで、図１２は処理を説明するための模式図である。図９（ａ）と同じ処理については同じ番号を付して、説明は省略する。

Ｓ９１１にて、平面原稿画像撮影部４１１は、取得したカメラ画像（図１２（ａ））を書画台２０４の直交座標系に射影変換する。その結果、図１２（ｂ）のような画像が得られる。Ｓ９１２にて、平面原稿画像撮影部４１１は、射影変換したカメラ画像の特徴点を抽出する。特徴点の抽出方法は、図８（ｅ）のＳ８５３で用いた方法と同じ方法を用いる。図１２（ｃ）は、図１２（ｂ）の画像から特徴点を抽出した例である。図１２（ｃ）において、特徴点は黒い点（●）で表わされており、特徴点１２０３、１２０４など計２７個の特徴点が抽出されている。特徴点１２０３、１２０４の書画台２０４の直交座標系での位置はそれぞれ（Ｘ１２０３、Ｙ１２０３、０）、（Ｘ１２０４、Ｙ１２０４、０）である。

Ｓ９１３にて、平面原稿画像撮影部４１１は、Ｓ８５５で得られた特徴点と、Ｓ９１２で得られた特徴点を比較し、一致する特徴点を残す。完全に一致しなくても、一致度が予め決められた値以上であれば一致したとみなしても良い。図１２（ｄ）では２４個の特徴点が一致し、特徴点１２０３、１２０４はそれぞれ図１１（ｈ）の特徴点１１０３、１１０４と一致したとする。

Ｓ９１４にて、平面原稿画像撮影部４１１は、特徴点間の距離を算出する。図１２（ｅ）の例では、特徴点１２０３、１２０４間の距離をＤ１’とする。他の特徴点についても距離の計算を行う。Ｓ９１５にて、平面原稿画像撮影部４１１は、原稿の輪郭を算出する。Ｓ８５７で算出した特徴点間の距離および特徴点と輪郭との距離と、Ｓ９１４で算出した特徴点間の距離および特徴点と輪郭との距離とは相似の関係にあるため、特徴点と原稿の輪郭との距離が導出できる。また、Ｓ８５７で算出した特徴点の座標と原稿の輪郭の交点の座標と、Ｓ９１４で算出した特徴点の座標および特徴点と原稿の輪郭の交点の座標の位置関係も相似の関係にあるため、特徴点と原稿の輪郭との交点も導出できる。以上により２枚目以降の原稿の輪郭が算出できる。算出された原稿の輪郭の例を図１２（ｆ）に示す。つまり、同じ原稿であれば、撮影状態が変動したとしても、特徴点の間の関係は変動しない。よって、２枚目以降の原稿をすでに載置されている原稿に重ね置きする前後の画像それぞれから、その重ね置きする側の原稿に対する領域を抽出し、その特徴点の対応関係から２枚目以降の原稿の載置後の輪郭を特定する。

Ｓ９１６にて、平面原稿画像撮影部４１１は、Ｓ９１５で算出した原稿の輪郭に沿って原稿を切り出す。Ｓ９１７にて、平面原稿画像撮影部４１１は、Ｓ９０６と同様の方法で切り出した原稿が水平になるように回転する。

［メイン制御部の説明］
図１３のフローチャートを用いてメイン制御部４０２が実行するスキャンアプリケーションの処理について説明する。

処理を開始すると、Ｓ１３０１にて、メイン制御部４０２は、書画台２０４にスキャンの対象物の載置を検知するために物体載置待ち処理を行う。物体載置待ち処理を開始すると、Ｓ１３１１にて、メイン制御部４０２は、ユーザインターフェイス部４０３のＧＵＩ部品生成表示部４１４を介して、書画台２０４にプロジェクタ２０７によって初期画面を投射表示する。例えば、図１４（ａ）に示すような書画台２０４上に対象物を置くことをユーザに促すメッセージ１４４１のＧＵＩ部品を生成し表示する。

Ｓ１３１２にて、メイン制御部４０２は、物体検知部４１０の処理を起動する。物体検知部４１０は図８のフローチャートで説明した処理の実行を開始する。Ｓ１３１３にて、メイン制御部４０２は、物体検知部４１０からの物体載置通知を待つ。物体検知部４１０が図８（ｂ）（ｃ）のＳ８２７の処理を実行して物体載置をメイン制御部４０２へ通知すると、Ｓ１３１３にて、メイン制御部４０２は、「物体載置通知あり」と判定する（Ｓ１３１３にてＹＥＳ）。

Ｓ１３０１の物体載置待ち処理を終了すると、メイン制御部４０２は、Ｓ１３０２にて、スキャン操作を行うためのメニュー表示であるＧＵＩ部品を表示する。例えば、メイン制御部４０２は、図１４（ｂ）のようなスキャン処理モードを設定するためのメニューボタン（１４４２〜１４４４）で構成されるＧＵＩ部品を生成する。そして、メイン制御部４０２は、ＧＵＩ部品生成表示部４１４を介して、書画台２０４にプロジェクタ２０７によってＧＵＩ部品を初期投射する。

ＧＵＩ部品更新処理の後、Ｓ１３０３にて、メイン制御部４０２は、スキャン実行処理を行う。スキャン実行処理の開始時には、図１４（ｂ）に示したスキャン開始画面が、ＧＵＩ部品生成表示部４１４を介して書画台２０４に投射されている。２Ｄスキャンボタン１４４２は、平面原稿の撮影指示を受け付けるボタンである。書籍スキャンボタン１４４３は、書籍原稿の撮影指示を受け付けるボタンである。３Ｄスキャンボタン１４４４は、立体形状の測定指示を受け付けるボタンである。

ユーザインターフェイス部４０３は、前述したようにジェスチャ認識部４０９から通知されるタッチジェスチャの座標とこれらのボタンを表示している座標から、いずれかのボタンがユーザによって押下されたことを検知する。以降、ユーザインターフェイス部４０３による検知の説明を省略して「ボタンへのタッチを検知する」と記載する。また、ユーザインターフェイス部４０３は、２Ｄスキャンボタン１４４２、書籍スキャンボタン１４４３、もしくは３Ｄスキャンボタン１４４４へのタッチを検知すると、選択したスキャン実行を行う。あるいは、選択したスキャンの実行開始指示を受け付けるスキャン開始ボタンを別途配置し、２Ｄスキャンボタン１４４２、書籍スキャンボタン１４４３、および３Ｄスキャンボタン１４４４のそれぞれを排他的に選択できるようにしてもよい。その際には、ユーザのいずれかのボタンへのタッチを検知すると、ユーザインターフェイス部４０３は、タッチされたボタンを選択状態とし、他のボタンの選択を解除する。

Ｓ１３３１にて、メイン制御部４０２は、メニューボタン（１４４２〜１４４４）のタッチを検知するまで待つ。タッチされたスキャン開始ボタンが２Ｄスキャンボタン１４４２の場合、Ｓ１３３２へ進み、メイン制御部４０２は、平面原稿画像撮影部４１１の処理を実行する。書籍スキャンボタン１４４３の場合、Ｓ１３３３へ進み、メイン制御部４０２は、書籍画像撮影部４１２の処理を実行する。また、３Ｄスキャンボタン１４４４の場合、Ｓ１３３４へ進み、メイン制御部４０２は、立体形状測定部４１３の処理を実行する。そしてＳ１３３２〜Ｓ１３３４のいずれかによる処理が終了すると、スキャン実行処理を終了する。

Ｓ１３０３のスキャン実行処理の後、メイン制御部４０２は、Ｓ１３０４にて物体除去待ち処理・物体載置待ち処理を行う。物体除去待ち処理・物体載置待ち処理を開始すると、Ｓ１３４１にて、ＧＵＩ部品生成表示部４１４は、スキャン終了画面を表示する。例えば、図１４（ｃ）に示すようなスキャンが終了した旨をユーザに通知するメッセージ１４４５のＧＵＩ部品を生成し投射する。

Ｓ１３４２およびＳ１３４３にて、メイン制御部４０２は、物体検知部４１０からの物体載置通知、もしくは物体除去通知を受信するのを待つ。物体除去通知は、物体検知部４１０が図８のＳ８４４で通知するものである。物体載置通知を受信すると（Ｓ１３４２にてＹＥＳ）、Ｓ１３０２に戻り、処理を継続する。物体除去通知を受信すると（Ｓ１３４３にてＹＥＳ）、物体除去待ち処理を終了する。

Ｓ１３０４の物体除去待ち処理・物体載置待ち処理の後、メイン制御部４０２は、Ｓ１３０５へ進み、スキャン終了判定処理を行う。スキャン終了判定は、ネットワークＩ／Ｆ３０６を介してホストコンピュータ１０２から送信されるスキャン終了命令や、ＬＣＤタッチパネル３３０から入力される終了命令、あるいはタイマー設定（不図示）などにより行われるものとする。スキャン終了命令を受信した場合（Ｓ１３０４にてＹＥＳ）、メイン制御部４０２は、スキャン処理を終了する。スキャン処理を継続する場合（Ｓ１３０４にてＮＯ）、Ｓ１３０１へ戻り、図１４（ａ）の初期画面を表示して書画台２０４への物体載置を待つ。

なお、図１４に示す画面の構成は一例であり、他の画面やメッセージを表示するようにしてもよい。以上により、ユーザが複数の原稿をスキャンしたい場合に、書画台２０４上の原稿を取り換えたことを検知することができ、複数の原稿のスキャンを連続して実行できる。

以上、原稿が重ね置きされようとしている状態で、重ねられる側の原稿の情報を取得することで、重ね置きされた際に原稿の輪郭を適切に算出することができる。

なお、本実施形態では１枚目の原稿に対する処理と２枚目以降の原稿に対する処理を分けて記載したが、１枚目の原稿から図８（ｃ）、図９（ｂ）の処理を行うようにしても良い。

また、本実施形態では原稿輪郭算出処理は１度だけ行った。しかし、別の処理方法として、図８（ｆ）のフローチャートのＳ８６１のように、抽出した原稿領域と書画台の距離が所定の範囲内である場合に、後続の処理を行うようにしてもよい。その場合（Ｓ８６１にてＹＥＳ）、原稿輪郭算出部４２４は、原稿を載置するまでの複数のフレームで特徴点の抽出、特徴点と原稿の輪郭との距離、および特徴点間の距離を算出する。その結果、各フレームから異なる特徴点間の距離、および特徴点と輪郭との距離が得られるので、例えば対応する特徴点間の距離、および特徴点と輪郭との距離それぞれにおいて平均を取る。そして原稿を書画台２０４に載置した後の特徴点を比較して一致した特徴点を用いて原稿の輪郭を算出できる。

＜実施形態２＞
実施形態１では、図９（ａ）および図９（ｂ）のように書画台２０４に載置された平面原稿の輪郭を算出して原稿領域を切り出し、原稿領域が水平になるように回転して画像圧縮、フォーマット変換して保存した。保存したデータをプリンタ１０３に送信して印刷する場合、例えば保存したデータの原稿領域（図１５の１５０１）がＡ４サイズ（図１５の１５０２）より少し大きいとする。プリンタ１０３の給紙カセット（不図示）にはＡ３とＡ４の２種類のサイズの用紙が積載されており、給紙設定が自動用紙選択となっている場合、画像サイズが少し大きいだけなのにＡ３用紙が選択されてしまう（図１５の１５０３）。そこで、本実施形態では、保存するデータの原稿領域が印刷用紙の定型サイズ（Ａ３、Ａ４など）に近いサイズになったときは、原稿領域を定型サイズに補正する仕組みを提供する。

図１６（ａ）、（ｂ）は、本実施形態に係る平面原稿画像撮影部４１１が実行する処理のフローチャートである。このフローチャートでは、実施形態１に係る図９（ａ）、（ｂ）のフローチャートに対して、Ｓ１６０１の原稿領域と定型サイズの比較処理、Ｓ１６０２の閾値との比較処理、原稿領域の縮小処理が追加されている。そのほかの処理は図９で説明した平面原稿画像撮影部４１１の処理と同じであるため、説明は省略する。また、定型サイズとしてはＡ３とＡ４の２種類の用紙サイズがあるものとして説明するが、他の定型サイズがあっても問題ないことはいうまでもない。

Ｓ１６０１にて、平面原稿画像撮影部４１１は、原稿領域と定型サイズの大きさを比較する。図１５の例では、原稿領域１５０１はＡ４よりは大きく、Ａ３よりは小さい。Ａ４よりは大きいため（Ｓ１６０１にてＹＥＳ）、Ｓ１６０２にて、平面原稿画像撮影部４１１は、原稿領域と定型サイズの比を閾値と比較する。図１５の例で、原稿領域１５０１とＡ４のサイズ比が１０３％で、閾値が１０５％とすると、閾値より小さいことになる。なお、閾値は予め定義され、ＨＤＤ３０５等に保持されているものとする。また、各閾値の設定は用紙サイズの種類それぞれに対して設定できるようにしても構わない。

閾値より小さいため（Ｓ１６０２にてＹＥＳ）、Ｓ１６０３にて、平面原稿画像撮影部４１１は、原稿領域を定型サイズに縮小する。

以上、本実施形態により、実施形態１の効果に加え、保存するデータの原稿領域が印刷用紙の定型サイズに近いサイズになったときは、原稿領域を定型サイズに補正することが可能となる。

＜実施形態３＞
実施形態１及び２では、原稿領域を特定するのにカメラ画像と距離画像を用いた。本実施形態では、カメラ画像のみを用い、原稿領域が特定できない場合にはユーザに原稿を置き直してもらうように指示する方法を提供する。

図１７（ａ）、（ｂ）は、本実施形態に係る平面原稿画像撮影部４１１が実行する処理のフローチャートである。このフローチャートにおいて、図９（ａ）、（ｂ）のフローチャートと同様の処理については説明を省略する。ここでは、１枚目の原稿に対する処理は、実施形態１と同様であるため（図９（ａ））、図１７（ａ）の説明は省略する。

図１７（ｂ）において、Ｓ１７０１にて、平面原稿画像撮影部４１１は、取得したカメラ画像を射影変換する。図１８（ａ）は、１枚目の原稿が置かれた時の書画台２０４内の画像を射影変換したものである。図１８（ｂ）は、２枚目の原稿が重ね置きされた時の書画台２０４内の画像を射影変換したものである。図１８（ｃ）は、３枚目の原稿が重ね置きされた時の書画台２０４内の画像を射影変換したものである。

Ｓ１７０２にて、平面原稿画像撮影部４１１は、射影変換後の前回カメラ画像と今回カメラ画像の差分画像を生成し、二値化する。図１８（ｄ）は、２枚目の原稿が重ね置きされた時の差分画像を二値化したものである。つまり、前回のカメラ画像である図１８（ａ）と今回のカメラ画像である図１８（ｂ）の差分画像を二値化したものである。差分のある個所が黒色画像となる。図１８（ｅ）は、３枚目の原稿が重ね置きされた時の差分画像を二値化したものである。図１８（ｂ）と図１８（ｄ）の間には差分がないため、図１８（ｅ）には黒色画像領域が存在しない。したがって、１枚目と２枚目の差分は検知できるが、２枚目と３枚目の差分が検知できないこととなる。

Ｓ１７０３にて、平面原稿画像撮影部４１１は、原稿領域としての矩形を抽出する。矩形抽出の方法としては、先行技術（例えば、特開２００７−２０１９４８号公報）に記載の方法などを用いることが可能である。図１８（ｄ）の差分画像から抽出された矩形を図１８（ｆ）に示す。図１８（ｆ）では１８０１、１８０２の２通りの矩形が抽出される。この中で、矩形１８０２は１枚目の原稿から抽出された矩形と同じであるので２枚目の原稿の輪郭候補から外す。したがって、２枚目の原稿の輪郭候補は矩形１８０１のみとなる。

Ｓ１７０４にて、平面原稿画像撮影部４１１は、原稿の輪郭候補は１種類か否かを判定する。図１８の例では、２枚目の原稿の輪郭の候補は１種類であるため（Ｓ１７０４にてＹＥＳ）、Ｓ９０４以降の処理が行われる。一方、３枚目の原稿の輪郭候補はないため（Ｓ１７０４にてＮＯ）、Ｓ１７０５に進む。Ｓ１７０５にて、平面原稿画像撮影部４１１は、原稿の輪郭候補が１種類に特定できなかったので、ＧＵＩ部品生成表示部４１４はその旨をユーザに通知するメッセージを表示して、処理を終了する。図１８（ｇ）は、ユーザに通知するメッセージの一例である。

以上、本実施形態により、カメラ画像のみを用い、原稿領域が特定できない場合にはユーザに原稿を置き直してもらうように指示することが可能となる。なお、本実施形態では輪郭の候補がない場合にはユーザにメッセージを通知して処理を終了するが、他の形態での実施も可能である。例えば原稿の輪郭候補が複数存在したり、１つも存在しなかったりした場合には、それまでの原稿の輪郭候補を１つずつ表示し、ユーザに原稿の輪郭候補を選択させるようにしてもよい。

＜実施形態４＞
実施形態３では、カメラ画像のみを用い、原稿領域が特定できない場合にはユーザに原稿を置き直してもらうように指示する方法を提供したが、本実施形態では原稿領域が特定できる場所を予め算出し、ユーザに置く場所を指示する方法を提供する。

図１９は、本実施形態に係る物体検知部４１０が実行する処理のフローチャートである。このフローチャートにおいて、図８（ｂ）のフローチャートと同様の処理については説明を省略する。

Ｓ１９０１にて、物体検知部４１０は、原稿載置位置を算出して表示する。１枚目の原稿については、図２０（ａ）のように、メイン制御部４０２が書画台２０４と水平になるように矩形２００１を生成し、ＧＵＩ部品生成表示部４１４は生成した矩形２００１を表示する。２枚目の原稿については、図２０（ｂ）のように、メイン制御部４０２が１枚目の原稿の矩形２００２と中心が同じで角度をαだけ傾けた矩形２００３を生成する。角度αは、確実に原稿の輪郭が特定できる角度にする必要があるが、本例ではαは３０°とする。ＧＵＩ部品生成表示部４１４は、生成した矩形２００３を表示する。３枚目以降の原稿も同様に、メイン制御部４０２が角度をαだけ傾けた矩形を生成し、ＧＵＩ部品生成表示部４１４は生成した矩形を表示する。

Ｓ１９０２にて、物体検知部４１０は、カメラ画像取得部４０７を介してカメラ部２０２からの画像を１フレーム取得する。Ｓ１９０３にて、物体検知部４１０は、現フレームカメラ画像を前フレームカメラ画像として保存する。

以上、本実施形態により、カメラ画像のみを用い、原稿領域が特定できる場所を予め算出し、ユーザに置く場所を指示する方法を提供することが可能となる。なお、本実施形態では１枚目の原稿を置く前から矩形を表示したが、他の形態での実施も可能である。例えば１枚目の原稿は矩形表示しないでユーザに自由に原稿を置いてもらい、２枚目以降の原稿の置く位置を矩形表示で指示するようにしても構わない。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

載置部に載置された物体の画像を取得するスキャンシステムであって、
前記載置部およびその近傍の画像を取得する画像取得手段と、
前記画像取得手段にて連続して取得された画像の変化に基づいて、前記載置部への物体の載置を検知する検知手段と、
前記画像取得手段にて取得された画像から前記物体の領域を抽出する抽出手段と、
前記抽出手段にて抽出した前記物体の領域を所定の座標系に変換する変換手段と、
前記変換手段にて変換された前記物体の領域の輪郭を導出する導出手段と
を有し、
前記物体とは異なる新たな物体が更に前記載置部に載置される場合、前記抽出手段、前記変換手段、および前記導出手段は、当該新たな物体が前記載置部に載置されたと前記検知手段により検知される前後の画像それぞれから求められる当該新たな物体の領域に含まれる特徴点の対応関係を用いて当該新たな物体の載置後の輪郭を導出することを特徴とするスキャンシステム。
前記新たな物体は、前記載置部に載置された物体に重ねて載置されることを特徴とする請求項１に記載のスキャンシステム。
前記導出手段が導出した前記物体の領域の輪郭のサイズと定型の用紙サイズとを比較し、差が所定値以下である場合に、当該定型の用紙サイズに前記物体の領域の輪郭を補正する補正手段を更に有することを特徴とする請求項１または２に記載のスキャンシステム。
前記導出手段が物体の領域の輪郭を導出できない場合、その旨を通知する通知手段を更に有することを特徴とする請求項１乃至３のいずれか一項に記載のスキャンシステム。
前記所定の座標系は、前記載置部において物体が載置される平面に平行な直交座標系であり、
前記変換手段は、射影変換により前記物体の領域を変換することを特徴とする請求項１乃至４のいずれか一項に記載のスキャンシステム。
前記検知手段は、前記画像取得手段が取得した連続する画像において、物体の領域の位置が変動していない場合に、当該物体が載置されたと検知することを特徴とする請求項１乃至５のいずれか一項に記載のスキャンシステム。
前記載置部において物体を載置する位置を指示する指示手段を更に有することを特徴とする請求項１乃至６のいずれか一項に記載のスキャンシステム。
前記指示手段は、前記載置部において物体を重ねて載置する場合、載置する位置を切り替えて指示することを特徴とする請求項７に記載のスキャンシステム。
前記指示手段は、プロジェクタによる投影にて表示を行うことを特徴とする請求項７または８に記載のスキャンシステム。
前記画像取得手段は、カメラによる撮影にて画像を取得することを特徴とする請求項１乃至９のいずれか一項に記載のスキャンシステム。
前記画像取得手段は、前記物体に対するＲＧＢ画像と距離画像とを取得し、
前記検知手段は、前記ＲＧＢ画像と前記距離画像における画像の変化に基づいて、検知を行うことを特徴とする請求項１乃至１０のいずれか一項に記載のスキャンシステム。
前記物体は、平面原稿であることを特徴とする請求項１乃至１１のいずれか一項に記載のスキャンシステム。
前記画像取得手段にて連続して取得された画像を解析することで、前記載置部にて行われたユーザのジェスチャによる操作指示を受け付ける受付手段を更に有することを特徴とする請求項１乃至１２のいずれか一項に記載のスキャンシステム。
載置部に載置された物体の画像を取得するスキャンシステムの制御方法であって、
前記載置部およびその近傍の画像を取得する画像取得工程と、
前記画像取得工程にて連続して取得された画像の変化に基づいて、前記載置部への物体の載置を検知する検知工程と、
前記画像取得工程にて取得された画像から前記物体の領域を抽出する抽出工程と、
前記抽出工程にて抽出した前記物体の領域を所定の座標系に変換する変換工程と、
前記変換工程にて変換された前記物体の領域の輪郭を導出する導出工程と
を有し、
前記物体とは異なる新たな物体が更に前記載置部に載置される場合、前記抽出工程、前記変換工程、および前記導出工程において、当該新たな物体が前記載置部に載置されたと前記検知工程にて検知される前後の画像それぞれから求められる当該新たな物体の領域に含まれる特徴点の対応関係を用いて当該新たな物体の載置後の輪郭を導出することを特徴とするスキャンシステムの制御方法。
コンピュータを、
載置部およびその近傍の画像を取得する画像取得手段、
前記画像取得手段にて連続して取得された画像の変化に基づいて、前記載置部への物体の載置を検知する検知手段、
前記画像取得手段にて取得された画像から前記物体の領域を抽出する抽出手段、
前記抽出手段にて抽出した前記物体の領域を所定の座標系に変換する変換手段、
前記変換手段にて変換された前記物体の領域の輪郭を導出する導出手段
として機能させ、
前記物体とは異なる新たな物体が更に前記載置部に載置される場合、前記抽出手段、前記変換手段、および前記導出手段は、当該新たな物体が前記載置部に載置されたと前記検知手段により検知される前後の画像それぞれから求められる当該新たな物体の領域に含まれる特徴点の対応関係を用いて当該新たな物体の載置後の輪郭を導出することを特徴とするプログラム。