JP2014038543A

JP2014038543A - 指文字を認識するための文字認識システムおよびプログラム

Info

Publication number: JP2014038543A
Application number: JP2012181493A
Authority: JP
Inventors: Hiroshi Tanaka; 博田中; Takaya Shoji; 貴哉庄司; Masaki Kato; 正樹加藤; Takahiro Sugaya; 隆浩菅谷; Hiromitsu Nishimura; 広光西村; Takayuki Suzuki; 孝幸鈴木
Original assignee: Ikutoku Gakuen School Corp
Current assignee: Ikutoku Gakuen School Corp
Priority date: 2012-08-20
Filing date: 2012-08-20
Publication date: 2014-02-27

Abstract

【課題】本発明は、指文字の実時間画像認識のための新規な手法を提供することを目的とする。
【解決手段】５本の指の先と手の甲を６種類の色で色分け着色したカラー手袋を両手にはめたユーザが両手の甲を向けて正対した様子をカラーで撮影し、そのフレーム画像をＸ軸方向に２分割する。分割後の第１の画像および第２の画像のそれぞれについて、手の甲の着色領域の重心と、各指の先端部分の着色領域の重心との間の重心間距離を算出・正規化し、左右の手の５本の指に係る正規化された重心間距離を要素とする集合データを照合データとして、事前に用意したテンプレートと照合する。
【選択図】図３

Description

本発明は、指文字を認識する技術に関し、より詳細には、指文字を実時間で画像認識する技術に関する。

従来、手指の形状で文字を表現する方法として指文字が知られている。日本では、片手で一文字を表現する指文字が使用されており、４６個の仮名文字に対応して４６個の指文字が用意され、アルファベット２６文字に対応して２６個の指文字が用意されている。

一方、このような指文字を画像認識する技術について種々研究がなされている。この点につき、非特許文献１は、カラーグローブを装着したユーザの指文字画像を複数の特徴量に基づいて解析する方法を開示する。

しかしながら、現在使用されている指文字は、その手指形状において相互に類似しているものが少なくないので、画像解析によってこれらを正確且つリアルタイムに判別することは難しく、指文字の実時間画像認識は未だ実用レベルに至っていない。

渡辺他、"カラーグローブを用いた指文字の認識"、電子情報通信学会論文誌D-II、Vol.J80-D-II、No.10, pp.2713-2722, 1997年10月

本発明は、上記従来技術における課題に鑑みてなされたものであり、本発明は、指文字の実時間画像認識のための新規な手法を提供することを目的とする。

現在使用されている指文字においては、ユーザは、文字の数だけ手指形状を覚えなければならず、その習得自体が非常に困難を伴う。本発明者らは、指文字の実時間画像認識を実現すべく検討する中で、従来の指文字に比べて格段に習得が容易な新規な指文字を創案するとともに、これに対応する新規な文字認識システムの構成に想到し、本発明に至ったのである。

上述したように、本発明によれば、指文字の実時間画像認識のための新規な手法が提供される。

本実施形態におけるカラー手袋を示す図。本実施形態における両手指文字の仮名文字対応表（その１）を示す図。本実施形態における文字認識システムの構成図を示す図。本実施形態における文字認識装置の機能ブロック図。本実施形態における文字認識装置が実行する処理のフローチャート。本実施形態における画像分割部が実行する画像分割処理を概念的に示す図。本実施形態における着色領域の抽出処理を表すフローチャート。本実施形態における照合データの生成処理を説明するための概念図。本実施形態における設定テーブルを示す図。本実施形態における指の静止判定処理を概念的を示す図。本実施形態における照合データの生成処理を説明するための概念図。本実施形態における妥当性のない照合データを示す図。本実施形態における判定結果の棄却を説明するための概念図。本実施形態における着色領域の抽出処理の別法を説明するための概念図。本実施形態における着色領域の抽出処理の別法を表すフローチャート。本実施形態における両手指文字の仮名文字対応表（その２）を示す図。本実施形態における両手指文字の仮名文字対応表（その３）を示す図。

以下、本発明を図面に示した実施の形態をもって説明するが、本発明は、図面に示した実施の形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜、その説明を省略するものとする。

本発明の実施形態の説明に入る前に、本発明が採用する３つの前提条件について説明する。

（前提条件１：カラー手袋）
本発明の文字認識システムを利用するにあたり、ユーザは、５本の指と手の甲が色分け着色された手袋（以下、カラー手袋として参照する）を両手に着用することが求められる。図１は、本発明におけるカラー手袋の実施形態であるカラー手袋５００を示す。図１に示されるように、本実施形態においては、カラー手袋５００の５本の指（親指・人差し指・中指・薬指・小指）の各先端領域および手の甲の一部領域が６種類の異なる色で色を分けて着色されており、且つ、右手用と左手用が同じ配色で着色されている。なお、図１では、手の甲を矩形に着色しているが着色する領域の形状はこれに限定されない。

本実施形態において、カラー手袋５００の着色に用いる６色は、認識精度向上の観点から、お互いの色相値が最大限に離れるような組み合わせを採用することが好ましい。なお、カラー手袋５００は、無地の手袋の該当箇所を後から染料や塗料を使って着色したり、該当箇所を所望の色の素材ではじめから作り込むなどして作製することができる。

（前提条件２：両手指を用いた新規な指文字）
本発明では、表現しようとする文字（以下、目的文字という）を２つの文字構成要素に分解し、左右の手の手指形状で各文字構成要素を表わすことを特徴とする新規な指文字を採用する。例えば、日本語の仮名文字（五十音）は、観念的に子音と母音に分解することができるので、本発明が採用する指文字では、一方の手の手指形状で子音（すなわち、五十音の行）を表わし、他方の手の手指形状で母音（すなわち、五十音の段）を表わす。以下、本発明が採用するこの新規な指文字を従来の指文字と区別するために「両手指文字」という。

図２は、本発明が採用する両手指文字の仮名文字対応表を例示する。図２に示す例では、１０個の子音（五十音の行）および５個の母音（五十音の段）を表す１５種類の手指形状が定義されており、１０個の子音（五十音の行）の表現が右手に割り当てられ、５個の母音（五十音の段）の表現を左手で割り当てられている。

この場合、例えば、ユーザが、右手で「か行」の手指形状を作り、左手で「い段」の手指形状を作った場合、「か行」+「い段」＝「き」を表したことなる。なお、単純母音（あ・い・う・え・お）についても、同様に、「行」と「段」の組み合わせによって表すものとする（例えば、「あ行」+「あ段」＝「あ」のように）。

（前提条件３：撮影条件）
本発明の文字認識システムは、ユーザを撮影した動画像に基づいてユーザが作る両手指文字をリアルタイムで認識することを目的とする。よって、本発明では、撮影に際して、ユーザがカメラに対して両手の甲を向けて正対することが求められる。なお、このとき、ユーザは両手を交差させてはならない。

以上、説明した３つの前提条件を念頭に置いて、本発明の実施形態の説明を始める。なお、以下の説明は、図２の仮名文字対応表に基づいて実装されたシステムを例にとって行うものとする。

図３は、本発明の実施形態である文字認識システム１０００の構成図を示す。図３に示すように、本実施形態の文字認識システム１０００は、デジタルビデオカメラとして参照される撮影手段２００と、撮影手段２００が取得したカラー画像を解析することによって両手指文字が表すところの目的文字に対応する文字情報を生成し、当該文字情報に基づいて出力データを生成するためのコンピュータ装置１００と、コンピュータ装置１００が生成した出力データを出力する出力装置３００とを含んで構成されている。なお、コンピュータ装置１００と、撮影手段２００および出力装置３００の間は、適切な通信手段（有線または無線を問わず）を介して通信可能に接続されているものとする。

図４は、本実施形態の文字認識システム１０００を構成するコンピュータ装置１００（以下、文字認識装置１００として参照する）の機能ブロック図を示す。

文字認識装置１００は、照合データ生成部１０と、文字構成要素判定部２０と、文字情報生成部３０と、出力データ生成部４０と、テンプレート記憶部５０と、処理に必要な各種パラメータを格納するパラメータ設定部６０とを含んで構成され、照合データ生成部１０は、さらに、画像読み込み部１２と、画像分割部１３と、着色領域抽出部１４と、重心間距離算出部１５と、正規化部１６と、指静止判定部１７と、データ妥当性判断部１８とを含んで構成されている。

照合データ生成部１０は、撮影手段２００が取得したカラー画像から所定のアルゴリズムに従って照合データを生成する。文字構成要素判定部２０は、生成された照合データとテンプレート記憶部５０に用意されたテンプレートデータを照合し、ユーザの右手が表すところの文字構成要素（子音：五十音の行）およびユーザの左手が表すところの文字構成要素（母音：五十音の段）を判定する。

文字情報生成部３０は、判定結果として出力された子音（五十音の行）および母音（五十音の段）に基づいて、両者の組み合わせとして観念される仮名文字に対応する文字情報（テキストデータ）を生成する。出力データ生成部４０は、文字情報生成部３０が生成した文字情報（テキストデータ）に基づいて出力装置３００に応じた出力データを生成する。

出力装置３００が、各種ディスプレイ装置（ヘッドマウントディスプレイを含む）やプロジェクター装置である場合には、出力データ生成部４０は、文字情報生成部３０が生成したテキストデータをそのまま出力し、出力装置３００は、そのテキストを表示する。一方、出力装置３００が音声出力装置である場合には、出力データ生成部４０は、文字情報生成部３０が生成したテキストデータをさらに音声データに変換し、出力する。さらに、出力装置３００が表示機能と音声出力機能を両具している場合は、テキスト表示と音声出力を同時に行うこともできる。

以上、本実施形態の文字認識装置１００の構成について概説してきたが、続いて、文字認識装置１００を構成する各機能部が実行する処理の内容を図５に基づいて順を追って説明する。なお、以下の説明においては、適宜、図４を参照するものとする。

図５は、文字認識装置１００が実行する処理のフローチャートである。ユーザから実行開始を指示されると、データを初期化した後（ステップ１０１）、画像読み込み部１２が、撮影手段２００が撮影したカラー画像（ＲＧＢ画像）の最新の１フレームを読み込む（ステップ１０２）。

続く、ステップ１０３において、画像分割部１３が、読み込んだカラー画像をＸ軸方向に二分して分割する。図６は、画像分割部１３が実行する画像分割処理を概念的に示す。なお、本実施形態においては、計算負荷を軽減するためにカラー画像を事前に適切な倍率で縮小しておくことが好ましい。

図６に示す例では、読み込んだカラー画像を320×240に縮小した後、縮小後のカラー画像について、Ｘ座標値が0〜159の画素領域を第１の画像として定義し、Ｘ座標値が160〜319の画素領域を第２の画像として定義している。本実施形態においては、先に述べたように、ユーザが撮影手段２００のカメラレンズに対して両手の甲を向けて正対することを前提とするので、第１の画像には必ず右手が写り、第２の画像には必ず左手が写ることになる。よって、本実施形態では、第１の画像の解析結果を右手に係るものとし、第２の画像の解析結果を左手に係るものとする。

仮に、全体画像から右手と左手を区別して認識するとなると、右手用と左手用でカラー手袋の配色を異ならしめるなどの工夫が必要となる。この点、本実施形態は、画面の座標に基づいて右手の画像と左手の画像を自動的に判別するので、カラー手袋を右手用と左手用で同じ配色にすることができ、抽出する色の種類を少なくすることができる（６色に限定することができる）。抽出する色の種類が少なくなれば、お互いの色相値が最大限に離れるような組み合わせを採用しやすくなり、結果的に認識精度が向上する。

次に、分割後の第１の画像（以下、右手画像という）および第２の画像（以下、左手画像という）のそれぞれについて、着色領域抽出部１４が着色領域の抽出処理を実行する（ステップ１０４）。

図７は、着色領域の抽出処理を表すフローチャートである。まず、ステップ２０１において、背景差分法により前景画像を抽出する。本実施形態においては、先のステップ１０２の前に、背景画像を取得するフェーズを設け、そこで、例えば、カラー手袋５００が写り込まないように手を隠したユーザの画像を背景画像として取得しておき、当該背景画像の差分として前景画像を抽出することができる。その結果、図８（ａ）に示すように、右手画像および左手画像のそれぞれについて、カラー手袋５００に相当する画像領域が抽出される。なお、本実施形態においては、背景差分法による前景画像の抽出処理を上述した画像分割処理（ステップ１０３）の前に行うようにしてもよい。

続いて抽出した前景画像（ＲＧＢ画像）をＨＳＶ画像に変換した後（ステップ２０２）、変換後のＨＳＶ画像からカラー手袋５００の６つの着色領域を以下の手順で抽出する。

まず、変換後のＨＳＶ画像につき、Ｈ値（色相：hue）に基づいて二値化処理を行う（ステップ２０３）。図９は、二値化処理に使用するＨ値の閾値を設定するテーブル６００を例示する。テーブル６００には、カラー手袋の６つの着色領域（親指・人差し指・中指・薬指・小指・手の甲）のそれぞれに対して、着色する色（赤・黄色・紫・緑・ピンク・青）、当該色に係るＨ値の閾値範囲およびラベルナンバーが格納されている。なお、本実施形態においては、テーブル６００をはじめ、後述する各種閾値のパラメータがパラメータ設定部６０において管理されている。

ステップ２０３においては、抽出対象とする領域の色に紐付いたＨ値の２つの閾値（すなわち、Ｈ値の最小値Ｈ_minおよび最大値Ｈ_max）に照らして、Ｈ値が、最小値Ｈ_min以上、且つ、最大値Ｈ_max以下となる画素の値を「１」とし、それ以外の画素の値を「０」とする二値化処理を行って、ＨＳＶ画像を二値化画像に変換する。

次に、変換後の二値化画像に対してノイズ除去処理を施した後（ステップ２０４）、ノイズ除去後の二値化画像に対して、４連結または８連結などの適切なアルゴリズムに従ってラベリング処理を施す（ステップ２０５）。その結果、例えば「親指」の着色領域を構成する全画素は、テーブル６００に設定されたラベルナンバー[１]でラベリングされる。

続く、ステップ２０６において、全ての色についてラベリング処理が終了したか否かが判断され、６色全てについてラベリングが終了するまで（ステップ２０６、Ｎｏ）、上述したステップ２０３〜ステップ２０５を繰り返す。その結果、各着色領域（親指・人差し指・中指・薬指・小指・手の甲）を構成する画素が、それぞれ、テーブル６００に設定されたラベルナンバー[１]、[２]、[３]、[４]、[５]、[６]でラベリングされる。

６色全てについてラベリング処理が終了すると（ステップ２０６、Ｙｅｓ）、最後に、６色のラベリング結果をマージする。図８（ｂ）は、マージの結果、右手画像から、手の甲、親指および人差し指に対応する３つの着色領域が抽出され、左手画像から、手の甲および人差し指に対応する２つの着色領域が抽出された様子を示している。ステップ２０７が終了すると、処理は、図５に示すステップ１０５に進む。

続くステップ１０５では、重心間距離算出部１５が、抽出された各着色領域の重心（重心画素のＸＹ座標）を算出する。図８（ｃ）は、図８（ｂ）に示した着色領域について算出された重心を示す。

続くステップ１０６では、２フレーム分のデータ（着色領域の重心）が取得済みか否かを判断する。一番最初のフレームについて、ステップ１０３〜ステップ１０５が終わった時点では、当然２フレーム分のデータが取得されていない状態なので（ステップ１０６、Ｎｏ）、重心間距離算出部１５は、その旨を画像読み込み部１２に通知する。これを受けて、処理はステップ１０２に戻り、画像読み込み部１２が次のフレームを読み込む。なお、画像読み込み部１２は、隣接するフレームを順次読み込むように構成してもよいし、所定の時間間隔でフレームを間引きして読み込むように構成してもよい。

次のフレームが読み込まれると、上述したステップ１０３〜ステップ１０５を繰り返した後、処理はステップ１０６に戻る。この時点では、２フレーム分のデータが取得済みの状態となるので（ステップ１０６、Ｙｅｓ）、処理はステップ１０７に進む。ステップ１０７においては、指静止判定部１７が指の静止判定処理を実行する。

以下、本実施形態における指の静止判定処理について説明する。ユーザの動画像に基づいて両手指文字を認識するにあたり、どの時点のフレーム画像を解析して目的文字を認識するかが問題になる。この点につき、予め決められた１文字分の入力周期（例えば、１秒周期）を光や音を使ってユーザに知らせ、ユーザがそのタイミングに合わせて両手指文字を作るといった方法が考えられる。

本発明は、そのように入力周期を固定する方法を排除するものではない。しかしながら、この方法では、入力周期を長くしすぎると、両手指文字に慣れたユーザにとっては、次の周期を待つのがもどかしく感じられるし、逆に、入力周期を短くしすぎると、両手指文字に不慣れなユーザは、装置側の要求するタイミングについてゆくことができず、完成途中の手指形状の画像に基づいて認識処理が実行される結果、認識効率が悪化する虞がある。

この点につき、本実施形態においては、ユーザの指の静止状態を判定することで両手指文字が完成したタイミングを検出し、当該タイミングに同期して両手指文字の認識処理を実行する構成を採用する。

具体的には、時間的に前後する２フレーム分のデータ（着色領域の重心）を取得した後、２つのフレーム画像間における着色領域の重心の移動量を適切な評価関数を用いて評価し、当該評価結果に基づいてユーザの指の静止状態を判定する。

本実施形態においては、例えば、下記式（１）に示す評価関数を用いて、評価値Ｌが予め定めた閾値より大きい場合には指が静止していないと判定し、評価値Ｌが閾値未満の場合には指が静止していると判定することができる。

なお、上記式（１）において、ｘ_ｉ（ｔ）およびｙ_ｉ（ｔ）は、それぞれ、時間(ｔ)のフレーム（最新のフレーム）において抽出された指ｉの着色領域の重心のｘ座標およびｙ座標を示し、ｘ_ｉ（ｔ−Δｔ）およびｙ_ｉ（ｔ−Δｔ）は、それぞれ、時間(ｔ−Δｔ)のフレーム（一つ前のフレーム）において抽出された指の着色領域の重心のｘ座標およびｙ座標を示し、ｎは着色領域が抽出された指ｉの数を示す。

図１０は、指静止判定部１７が実行する指の静止判定処理を説明するための概念図である。図１０に示す例の場合、第１フレームの左手画像について得られた人差し指の着色領域（２）の重心座標と第２フレームの左手画像について得られた人差し指の着色領域（２）の重心座標に基づく評価値Ｌが閾値未満となり、第１フレームの右手画像について得られた親指の着色領域（１）および人差し指の（２）の重心座標と第２フレームの右手画像について得られた親指の着色領域（１）および人差し指の（２）の重心座標に基づく評価値Ｌが閾値以上となる。

この場合、左手の指は静止しているものの、右手の指は静止していないことが推定されるので、指静止判定部１７は、両手の指が静止していないと判定し（ステップ１０８、Ｎｏ）、その旨を重心間距離算出部１５に通知する。これを受けて、重心間距離算出部１５は、第１フレームのデータを破棄した後（ステップ１０９）、その旨を画像読み込み部１２に通知する。これを受けて、処理はステップ１０２に戻り、画像読み込み部１２が次のフレーム（第３フレーム）を読み込む。その後、処理はステップ１０３〜ステップ１０６を経て、ステップ１０７に戻り、再び、指静止判定部１７が指の静止判定を実行する。

２回目の指の静止判定では、第２フレームの左手画像について得られた人差し指の着色領域（２）の重心座標と第３フレームの左手画像について得られた人差し指の着色領域（２）の重心座標に基づく評価値Ｌが閾値未満となるとともに、第２フレームの右手画像について得られた親指の着色領域（１）および人差し指の着色領域（２）の重心座標と第３フレームの右手画像について得られた親指の着色領域（１）および人差し指の着色領域（２）の重心座標に基づく評価値Ｌがいずれも閾値未満となる。この場合、指静止判定部１７は、両手の指が静止していると判定し（ステップ１０８、Ｙｅｓ）、その旨を重心間距離算出部１５に通知する。

これを受けて、重心間距離算出部１５は、指ｉの着色領域の重心と手の甲の着色領域の重心との離間距離（重心間距離ｄ_ｉ）を下記式（２）に基づいて算出する（ステップ１１０）。

なお、上記式（２）において、（ｐｘ）および（ｐｙ）は、手の甲の着色領域の重心のｘ座標およびｙ座標を示し、（ｆｘ_ｉ）および（ｆｙ_ｉ）は、指ｉの着色領域の重心のｘ座標およびｙ座標を示す。

その結果、図１１（ａ）に示すように、右手画像については、手の甲の着色領域の重心画素（６）と親指の着色領域の重心画素（１）の間の重心間距離ｄ_１と、手の甲の着色領域の重心画素（６）と人差し指の着色領域の重心画素（２）の間の重心間距離ｄ_２が算出され、左手画像については、手の甲の着色領域の重心画素（６）と人差し指の着色領域の重心画素（２）の間の重心間距離ｄ_２が算出される。

なお、重心間距離ｄの算出は、指の静止判定に使用した２つのフレーム（第２フレームおよび第３フレーム）のいずれか一方の画像で行ってもよいし、２つのフレーム（第２フレームおよび第３フレーム）のそれぞれについて重心間距離ｄを算出してその平均をとるなどしてもよい。なお、重心間距離の算出処理においては、着色領域が抽出されなかった指ｉに係る重心間距離ｄの値を「０」とする。

ステップ１１０が実行される結果、図１１（ｂ）に示すように、右手画像および右手画像のそれぞれについて、重心間距離[ｄ_１]〜[ｄ_５]を要素とする集合データ（以下、データＤとして参照する）が取得される。その後、続くステップ１１１においては、正規化部１６がデータＤの正規化を行う。

データＤを構成する５つの要素（重心間距離ｄ）の大きさは、撮影手段２００とユーザの離間距離によって変化する。この点につき、正規化部１６は、この距離依存性を排除するために、「手の甲の着色領域」の面積Ｓに基づいて重心間距離ｄを正規化する。本実施形態においては、例えば、指ｉに係る重心間距離ｄ_ｉを下記式（３）によって正規化することができる。

なお、上記式（３）において、Ｓは「手の甲の着色領域」の面積（ピクセル数）を示し、ｄ_ｉ′は指ｉに係る正規化された重心間距離を示す。

ステップ１１１が実行される結果、図１１（ｂ）に示したデータＤは、図１１（ｃ）に示すように正規化される。以下、正規化された集合データをデータＤ′として参照する。ステップ１１１でデータＤ′が生成されると、続くステップ１１２において、データ妥当性判断部１８がデータＤ′の妥当性について判断する。

ユーザの後ろを人が通ったり、ユーザが動いたりすることや、照明光の状態の変化が原因で、取得画像上のカラー手袋以外の位置においてカラー手袋の配色と同じ色が抽出されることがある。このような状況下で生成されたデータＤ′は妥当性に欠けるのでこれを棄却することが好ましい。この点につき、本実施形態においては、人間の手指に係る解剖学的な制約条件に照らしてデータＤ′の妥当性を判断する。

ここで、人間の手指に係る解剖学的な制約条件としては、人間の指の長さはほぼ決まっているといった定量的な条件や、人間の指は交差しないといった定性的な条件を挙げることができる。ここでは、人間の指の長さに関する制約条件に照らしてデータＤ′の妥当性を判断する処理を例示的に説明する。

この場合、正規化された重心間距離ｄ′の値の大きさについて、解剖学的な見地から人間の指の長さに見合う数値範囲を制約条件として予め定めておき、左右の手にかかるデータＤ′（右手に係るデータＤ′_Ｒおよび左手に係るデータＤ′_Ｌ）を構成する５つの要素（重心間距離ｄ′）の全てが制約条件を満たすか否かによってデータＤ′の妥当性を判断する。

仮に、重心間距離ｄ′の制約条件を「２≦ ｄ′≦４」と定めた場合、図１２に例示するデータＤ′について見ると、右手に係るデータＤ′_Ｒにおいて、小指に係る重心間距離[ｄ_５′]が制約条件を満たしていない。この場合、データ妥当性判断部１８は、図１２に示すデータＤ′について妥当性なしと判断する（ステップ１１３、Ｎｏ）。

この判断を受けて、処理は、ステップ１０１に戻り、全てのデータが初期化される。その後、再び、画像読み込み部１２が次のフレームを読み込んで、上述した手順を繰り返す。なお、本実施形態においては、妥当性なしと判断されたフレームの連続数が所定の回数を超えた場合に、ユーザに対してアラートを出すように構成することが好ましい。

一方、データＤ′を構成する５つの要素（重心間距離ｄ′）の全てが制約条件を満たす場合、データ妥当性判断部１８は、当該データＤ′について妥当性ありと判断し（ステップ１１３、Ｙｅｓ）、その旨を正規化部１６に通知する。これを受けて、正規化部１６は、当該データＤ′を内容とする照合データを生成して文字構成要素判定部２０に渡す。

正規化部１６から右手および左手に係る照合データ（データＤ′_ＲおよびデータＤ′_Ｌ）を受け取った文字構成要素判定部２０は、２つの照合データＤ′_Ｒおよび照合データＤ′_Ｌと、テンプレート記憶部５０に用意されたテンプレートデータを照合する。

ここで、テンプレート記憶部５０には、図２に示した文字構成要素（子音：五十音の行／母音：五十音の段）に対応するカラー手袋の手指形状の１５種類の画像について、上述したのと同様の手順で事前に生成しておいた１５個のデータＤ′がテンプレートデータとして記憶されている。

文字構成要素判定部２０は、２つの照合データＤ′_Ｒおよび照合データＤ′_Ｌと、テンプレート記憶部５０に用意された１５個のテンプレートデータのベクトル間距離を算出して、ベクトル間距離が最小値を示すテンプレートデータを特定し、当該テンプレートデータに対応付けられた文字構成要素（子音：五十音の行／母音：五十音の段）を判定結果として文字情報生成部３０に出力する。

具体的には、ステップ１１３に続くステップ１１４において、文字構成要素判定部２０が、正規化部１６から受け取った２つの照合データ（データＤ′_ＲおよびデータＤ′_Ｌ）のそれぞれについてベクトル間距離を算出する。ここで、本実施形態においては、右手に係る照合データＤ′_Ｒは、「子音：五十音の行」に係る１０個のテンプレートデータと照合され、左手に係る照合データＤ′_Ｌは、「母音：五十音の段」に係る５個のテンプレートデータと照合される。

なお、本実施形態においては、ステップ１１４で算出したベクトル間距離が最小値を示したテンプレートデータをそのまま判定結果としてもよいが、好ましくは、認識精度向上の観点から、以下の処理（ステップ１１５〜ステップ１１６）を実行する。

すなわち、ステップ１１４に続くステップ１１５において、文字構成要素判定部２０は、２つの照合データのそれぞれについてベクトル間距離の最小値と当該最小値の次に小さい値の差分を求めた後、両者の差分が所定の閾値αよりも大きいか否かを判断する（ステップ１１６）。

その結果、２つの照合データの少なくとも一方において、差分が閾値αよりも大きくない場合（ステップ１１６、Ｎｏ）、誤認識の蓋然性が高いので、処理は、ステップ１０１に戻り、全てのデータを初期化した後、再び、画像読み込み部１２が次のフレームを読み込んで、上述した手順を繰り返す。一方、２つの照合データのいずれにおいても、差分が閾値αよりも大きい場合には（ステップ１１６、Ｙｅｓ）、ステップ１１７に進み、ベクトル間距離が最小値を示したテンプレートデータに対応する文字構成要素（子音：五十音の行／母音：五十音の段）を判定結果として文字情報生成部３０に出力する。

図１３は、照合データの棄却処理を説明するための概念図である。図１３は、左手に係る照合データＤ′_Ｌと「母音：五十音の段」に係る５個のテンプレートデータのベクトル間距離の算出結果を示している。ここで、仮に、閾値α＝2.0とした場合、図１３（ａ）に示す例では、ベクトル間距離の最小値[1.47]と当該最小値の次に小さい値[3.00]の差分[1.53]は、閾値[2.0]よりも大きくないので、文字構成要素判定部２０は判定処理を中止する。これを受けて、処理は、ステップ１０１に戻り、全てのデータが初期化され、再び、画像読み込み部１２が次のフレームを読み込んで、上述した手順を繰り返す。

一方、図１３（ｂ）に示す例では、ベクトル間距離の最小値[0.09]と当該最小値の次に小さい値[3.00]の差分[2.91]は、閾値[2.0]よりも大きいので、文字構成要素判定部２０は、最小値[0.09]を示したテンプレートデータに対応する文字構成要素「あ段」を判定結果として文字情報生成部３０に出力する。

文字情報生成部３０は、受領した２つの文字構成要素（子音：五十音の行／母音：五十音の段）の組み合わせとして観念される仮名文字のテキストデータを生成し、出力データ生成部４０に出力する。出力データ生成部４０は、受領したテキストデータに基づいて出力装置３００に応じた出力データを生成し、出力装置３００に出力する。

一方、画像読み込み部１２は、ステップ１１８において、ユーザから終了が指示されているか否かを判断する。終了が指示されていない場合には（ステップ１１８、Ｎｏ）、処理はステップ１０１に戻り、全てのデータが初期化される。その後、次の目的文字を認識するために、再び、ステップ１０２〜ステップ１１７の処理が繰り返される。一方、ユーザから終了が指示された場合には（ステップ１１８、Ｙｅｓ）、そのまま処理を終了する。

以上、本実施形態の文字認識装置１００が実行する処理について説明してきたが、次に、図７に基づいて説明した着色領域の抽出処理に関して、さらに好ましい別の実施形態を説明する。

本発明では、既に上述したように、「手の甲の着色領域」の面積を重心間距離の正規化の基準とするところ、背景差分処理後に「手の甲の着色領域」の一部に欠損が生じることがある。このような場合、基準となる「手の甲の着色領域」の面積が変化するため適正な正規化がなされない。一方、背景差分を適用しない元の画像に基づいて解析を行うとなると、背景部分を含めた全画素を解析対象としなければならなくなるので処理速度が犠牲になる。この点につき、以下に説明する別法は、処理速度を犠牲にすることなく、適正な正規化を実現する方法を提供する。

図１５は、着色領域の抽出処理の別法を表すフローチャートである。別法においては、まず、ステップ３０１において、図１４（ａ）に示す元の画像から背景差分法により前景画像を抽出する。

次に、図１４（ｂ）に示すように、抽出された前景画像（カラー手袋に相当する画像領域）に外接する四角形の４辺に囲まれる画素領域を手領域Ｔとして定義する（ステップ３０２）

次に、図１４（ｃ）に示すように、背景差分適用前の元の画像の手領域Ｔから、手の甲の着色領域のみを抽出する一方で（ステップ３０３）、図１４（ｄ）に示すように、各指の着色領域については、背景差分適用後の前景画像から抽出する（ステップ３０４）。

上述した別法によれば、正規化の基準となる「手の甲の着色領域」の抽出を背景差分適用前の元の画像から行うので「手の甲の着色領域」を欠損のない形で抽出することができ、且つ、その際の解析領域を必要最小限の範囲（手領域）に限定することができるので、処理速度を犠牲にすることなく適正な正規化を実現することができる。

以上、本発明の文字認証システムを実施の形態をもって説明してきたが、上述したように、本発明によれば、日本語の仮名文字（五十音）を表すために最大でわずか１５の手指形状を覚えるだけ済むので、その習得が格段に容易になり、また、指文字の策定にあたり、１５種類程度であれば、類似する手指形状を採用しなくて済むので、認識精度を最大化することができる。

また、本発明によれば、ユーザの指の静止状態を判定することで両手指文字が完成したタイミングを動的に検出し、当該タイミングに同期して両手指文字の認識処理を実行するので、習熟度の異なるユーザに柔軟に対応することが可能になる。

さらに、本発明においては、５本の指に係る重心間距離を要素とする集合データを照合に用いるため、左右の手で共通のテンプレートを使用することができ、また、シンプルな形式の照合データ（５次元ベクトル）を採用することで、計算負荷を格段に小さくすることができるので、リアルタイム性が好適に実現される。

また、本発明によれば、生成した照合データの妥当性および照合結果の妥当性を検証する構成を採用するので、誤認識が好適に回避され、認識精度が向上する。

なお、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。以下、本発明の範囲に含まれる事項を例示的に示す。

上述した実施形態においては、日本語の仮名文字（五十音）に対して１５個のテンプレートを用意する例を示したが、別の実施形態では、図１６に示すように、「母音：五十音の段」に係る手指形状と「子音：五十音の行」に係る手指形状の一部を共通させることもできる。この場合、ユーザは、わずか１０種類の手指形状を覚えるだけ済むので、その習得がさらに容易になり、また、識別対象となる手指形状が２／３になるので認識精度がさらに向上する。

また、上述した実施形態においては、右手および左手に係る照合データを専用のテンプレートデータ（すなわち、「子音：五十音の行」に係る１０個のテンプレートデータおよび「母音：五十音の段」に係る５個のテンプレートデータ）と照合する例を示したが、別の実施形態では、右手および左手に係る照合データを、１５個のテンプレートデータのすべてと照合するように構成してもよい。この場合、理論上、１５×１５＝２２５種類の両手指文字を定義することが可能になる。この点につき、図１７は、右手に対して、１５個のテンプレートデータを割り当てた例を示す。この場合、例えば、左手で「あ段」の手指形状を作り、且つ、右手で「あ段」、「い段」、「う段」、「え段」、「お段」と同じ手指形状を作った場合について、それぞれ、「濁点」、「半濁点」、「句点」、「読点」、「長音記号」と定義することができる。

さらに、上述した実施形態においては、両手指文字で表す文字（目的文字）として、日本語の仮名文字（五十音）を例示したが、本発明は、対象とする目的文字を日本語の仮名文字（五十音）に限定するものではなく、２つの文字構成要素に分解できる文字であれば、仮名文字（五十音）以外にも適用が可能である。例えば、漢字は、図形的に「部首」と「つくり」という２つの文字構成要素に分解することができ、ハングル文字は、「母音字母」と「子音字母」という２つの文字構成要素に分解することができるので、これらの２つの文字構成要素を表す適切な手指形状を策定すればよい。

さらに加えて、上述した実施形態においては、撮影手段２００、文字認識装置１００（コンピュータ装置）および出力装置３００が分離してなるシステム構成を示したが、別の実施形態では、上述した各装置の持つそれぞれの機能を１つの装置（例えば、スマートフォンやタブレット型ＰＣなど）に集約搭載して一体化することもできる。またそれとは逆に、図４に示した文字認識装置１００を構成する各機能部を適切な単位でネットワーク上に分散配置してネットワークシステムとして構築することもできる。その他、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

なお、上述した実施形態の各機能は、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）などのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、フレキシブルディスク、ＥＥＰＲＯＭ、ＥＰＲＯＭなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。

上述した本発明の文字認証システムを市販のWebカメラ（有効画素：500万画素、フレームレート：30fps）とパーソナルコンピュータを使って構築し、認識精度を検証する実験を行った。なお、カラー手袋は、市販の白軍手を油性マーカー６色で着色して作製した。下記表１に、着色に使用した油性マーカーの色の種類と着色箇所および着色領域の抽出に使用した色相値（Ｈ値）のパラメータを示す。

事前に、カラー手袋を着用した４名の被験者(Ａ，Ｂ，Ｃ，Ｄ)のそれぞれに、図２に示した１５種類の手指形状を作らせて、一人につき１５個のテンプレートデータを生成した。その後、Webカメラから50cm離間した位置でカラー手袋を着用した各被験者に同じく図２に示した１５種類の手指形状を作らせて、一人につき１５個の照合データを生成した。

テンプレートデータおよび照合データについて、下記（１）〜（５）の組み合わせでベクトル間距離を計算し、ベクトル間距離が最小値を示したテンプレートを判定結果とした。
（１）被験者Ａのテンプレートデータ／被験者Ａの照合データ
（２）被験者Ａのテンプレートデータ／被験者Ｂの照合データ
（３）被験者Ａのテンプレートデータ／被験者Ｃの照合データ
（４）被験者ＡおよびＤのテンプレートデータの混合／被験者Ｂの照合データ
（５）被験者ＡおよびＤのテンプレートデータの混合／被験者Ｃの照合データ

その結果、上記（１）〜（５）のすべての組み合わせにおいて、正解率１００％を示した。また、認識に要する時間は約46.8ミリ秒となり、本発明の文字認証システムが手指形状を実時間で認識できることが実証された。

１０…照合データ生成部
１２…画像読み込み部
１３…画像分割部
１４…着色領域抽出部
１５…重心間距離算出部
１６…正規化部
１７…指静止判定部
１８…データ妥当性判断部
２０…文字構成要素判定部
３０…文字情報生成部
４０…出力データ生成部
５０…テンプレート記憶部
６０…パラメータ設定部
１００…文字認識装置（コンピュータ装置）
２００…撮影手段
３００…出力装置
５００…カラー手袋
６００…設定テーブル
１０００…文字認識システム

Claims

目的文字を表すユーザの手指形状を画像認識するための文字認識システムであって、
５本の指の各先端領域および手の甲の一部領域が６種類の色で色分け着色されたカラー手袋を両手にはめたユーザが該両手の甲を向けて正対した様子をカラーで撮影するための撮影手段と、
目的文字を構成する第１の文字構成要素および第２の文字構成要素のそれぞれに対して、第１のテンプレートデータおよび第２のテンプレートデータを対応付けて記憶するテンプレート記憶手段と、
前記撮影手段から読み出したフレーム画像に基づいて第１の照合データおよび第２の照合データを生成する照合データ生成手段と、
前記第１の照合データと前記第１のテンプレートデータの第１のベクトル間距離および前記第２の照合データと前記第２のテンプレートデータの第２のベクトル間距離をそれぞれ算出し、前記第１のベクトル間距離が最小の前記第１のテンプレートデータに対応付けられた前記第１の文字構成要素および前記第２のベクトル間距離が最小の前記第２のテンプレートデータに対応付けられた前記第２の文字構成要素を判定結果として出力する文字構成要素判定手段と、
判定結果として出力された前記第１の文字構成要素と前記第２の文字構成要素から構成される目的文字に対応する文字情報を生成する文字情報生成手段と
を含む、
文字認識システム。
前記照合データ生成手段は、
前記フレーム画像をＸ軸方向に二分して、一方の手にはめた前記カラー手袋を写す第１の画像と他方の手にはめた前記カラー手袋を写す第２の画像に分割する画像分割手段と、
前記第１の画像および前記第２の画像のそれぞれについて、前記カラー手袋の着色領域を抽出する着色領域抽出手段と、
前記第１の画像および前記第２の画像のそれぞれについて、前記手の甲の一部に対応する前記着色領域の重心と、前記指の先端部分に対応する着色領域の重心との間の重心間距離を算出する重心間距離算出手段と、
算出された前記重心間距離を前記手の甲の一部に対応する前記着色領域の面積に基づいて正規化する正規化手段と
を含み、
前記一方の手の５本の指に係る正規化された前記重心間距離を要素とする第１の集合データを第１の照合データとして生成し、前記他方の手の５本の指に係る正規化された前記重心間距離を要素とする集合データを第２の照合データとして生成する、
請求項１に記載の文字認識システム。
前記照合データ生成手段は、
時間的に前後する２つのフレーム画像間における前記指の先端部分に対応する着色領域の重心の移動量を評価し、評価結果に基づいて指が静止しているか否かを判定する指静止判定手段を含み、
ユーザの両手の指が静止していると判定された場合にのみ、前記照合データを生成する、
請求項２に記載の文字認識システム。
前記着色領域抽出手段は、
前記第１の画像および前記第２の画像のそれぞれについて、背景差分法により抽出した前景画像に外接する四角形の４辺に囲まれる画素領域を手領域として定義し、背景差分適用前の画像の前記手領域から前記手の甲の一部に対応する前記着色領域を抽出し、背景差分適用後の前記前景画像から前記指の先端部分に対応する着色領域を抽出する、請求項２または３に記載の文字認識システム。
前記照合データ生成手段は、
人間の手指に係る解剖学的な制約条件に照らして前記第１および第２の集合データの妥当性を判断するデータ妥当性判断手段を含み、
前記第１および第２の集合データの両方に妥当性があると判断された場合にのみ、該集合データを内容とする前記照合データを生成する
請求項１〜４のいずれか一項に記載の文字認識システム。
前記文字構成要素判定手段は、
算出した前記第１および第２のベクトル間距離のそれぞれについて、最小値と該最小値の次に小さい値を求め、両者の差分が所定の閾値よりも大きいと判断した場合にのみ、前記判定結果を出力する、
請求項１〜５のいずれか一項に記載の文字認識システム。
前記目的文字は、仮名文字（五十音）であり、
前記第１の文字構成要素および前記第２の文字構成要素は、それぞれ、子音（五十音の行）および母音（五十音の段）である、
請求項１〜６のいずれか一項に記載の文字認識システム。
コンピュータに目的文字を表すユーザの手指形状の画像認識を実行させるためのコンピュータ実行可能なプログラムであって、
コンピュータを、
目的文字を構成する第１の文字構成要素および第２の文字構成要素のそれぞれに対して、第１のテンプレートデータおよび第２のテンプレートデータを対応付けて記憶するテンプレート記憶手段、
５本の指の各先端領域および手の甲の一部領域が６種類の色で色分け着色されたカラー手袋を両手にはめたユーザが該両手の甲を向けて正対した様子をカラーで撮影する撮影手段から読み出したフレーム画像に基づいて第１の照合データおよび第２の照合データを生成する照合データ生成手段、
前記第１の照合データと目的文字を構成する第１の文字構成要素に対応付けられた第１のテンプレートデータの第１のベクトル間距離を算出し、
前記第２の照合データと目的文字を構成する第２の文字構成要素に対応付けられた第２のテンプレートデータの第２のベクトル間距離を算出し、
前記第１のベクトル間距離が最小値を示す前記第１のテンプレートデータに対応付けられた前記第１の文字構成要素および前記第２のベクトル間距離が最小値を示す前記第２のテンプレートデータに対応付けられた前記第２の文字構成要素を判定結果として出力する文字構成要素判定手段、
判定結果として出力された前記第１の文字構成要素と前記第２の文字構成要素から構成される目的文字に対応する文字情報を生成する文字情報生成手段
として機能させるためのプログラム。
前記照合データ生成手段は、
前記フレーム画像をＸ軸方向に二分して、一方の手にはめた前記カラー手袋を写す第第１の画像と他方の手にはめた前記カラー手袋を写す第２の画像に分割する画像分割手段と、
前記第１の画像および前記第２の画像のそれぞれについて、前記カラー手袋の着色領域を抽出する着色領域抽出手段と、
前記第１の画像および前記第２の画像のそれぞれについて、前記手の甲の一部に対応する前記着色領域の重心と、前記指の先端部分に対応する着色領域の重心との間の重心間距離を算出する重心間距離算出手段と、
算出された前記重心間距離を前記手の甲の一部に対応する前記着色領域の面積に基づいて正規化する正規化手段と
を含み、
前記一方の手の５本の指に係る正規化された前記重心間距離を要素とする第１の集合データを第１の照合データとして生成し、前記他方の手の５本の指に係る正規化された前記重心間距離を要素とする集合データを第２の照合データとして生成する、
請求項８に記載のプログラム。
前記照合データ生成手段は、
時間的に前後する２つのフレーム画像間における前記指の先端部分に対応する着色領域の重心の移動量を評価し、評価結果に基づいて指が静止しているか否かを判定する指静止判定手段を含み、
ユーザの両手の指が静止していると判定された場合にのみ、前記照合データを生成する、
請求項９に記載のプログラム。
前記着色領域抽出手段は、
前記第１の画像および前記第２の画像のそれぞれについて、背景差分法により抽出した前景画像に外接する四角形の４辺に囲まれる画素領域を手領域として定義し、背景差分適用前の画像の前記手領域から前記手の甲の一部に対応する前記着色領域を抽出し、背景差分適用後の前記前景画像から前記指の先端部分に対応する着色領域を抽出する、請求項９または１０に記載のプログラム。
前記照合データ生成手段は、
人間の手指に係る解剖学的な制約条件に照らして前記第１および第２の集合データの妥当性を判断するデータ妥当性判断手段を含み、
前記第１および第２の集合データの両方に妥当性があると判断された場合にのみ、該集合データを内容とする前記照合データを生成する
請求項８〜１１のいずれか一項に記載のプログラム。
前記文字構成要素判定手段は、
算出した前記第１および第２のベクトル間距離のそれぞれについて、最小値と該最小値の次に小さい値を求め、両者の差分が所定の閾値よりも大きいと判断した場合にのみ、前記判定結果を出力する、
請求項８〜１２のいずれか一項に記載のプログラム。
前記目的文字は、仮名文字（五十音）であり、
前記第１の文字構成要素および前記第２の文字構成要素は、それぞれ、子音（五十音の行）および母音（五十音の段）である、
請求項８〜１３のいずれか一項に記載のプログラム。