JP2014038543A - 指文字を認識するための文字認識システムおよびプログラム - Google Patents

指文字を認識するための文字認識システムおよびプログラム Download PDF

Info

Publication number
JP2014038543A
JP2014038543A JP2012181493A JP2012181493A JP2014038543A JP 2014038543 A JP2014038543 A JP 2014038543A JP 2012181493 A JP2012181493 A JP 2012181493A JP 2012181493 A JP2012181493 A JP 2012181493A JP 2014038543 A JP2014038543 A JP 2014038543A
Authority
JP
Japan
Prior art keywords
character
data
image
finger
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012181493A
Other languages
English (en)
Inventor
Hiroshi Tanaka
博 田中
Takaya Shoji
貴哉 庄司
Masaki Kato
正樹 加藤
Takahiro Sugaya
隆浩 菅谷
Hiromitsu Nishimura
広光 西村
Takayuki Suzuki
孝幸 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ikutoku Gakuen School Corp
Original Assignee
Ikutoku Gakuen School Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ikutoku Gakuen School Corp filed Critical Ikutoku Gakuen School Corp
Priority to JP2012181493A priority Critical patent/JP2014038543A/ja
Publication of JP2014038543A publication Critical patent/JP2014038543A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】本発明は、指文字の実時間画像認識のための新規な手法を提供することを目的とする。
【解決手段】5本の指の先と手の甲を6種類の色で色分け着色したカラー手袋を両手にはめたユーザが両手の甲を向けて正対した様子をカラーで撮影し、そのフレーム画像をX軸方向に2分割する。分割後の第1の画像および第2の画像のそれぞれについて、手の甲の着色領域の重心と、各指の先端部分の着色領域の重心との間の重心間距離を算出・正規化し、左右の手の5本の指に係る正規化された重心間距離を要素とする集合データを照合データとして、事前に用意したテンプレートと照合する。
【選択図】図3

Description

本発明は、指文字を認識する技術に関し、より詳細には、指文字を実時間で画像認識する技術に関する。
従来、手指の形状で文字を表現する方法として指文字が知られている。日本では、片手で一文字を表現する指文字が使用されており、46個の仮名文字に対応して46個の指文字が用意され、アルファベット26文字に対応して26個の指文字が用意されている。
一方、このような指文字を画像認識する技術について種々研究がなされている。この点につき、非特許文献1は、カラーグローブを装着したユーザの指文字画像を複数の特徴量に基づいて解析する方法を開示する。
しかしながら、現在使用されている指文字は、その手指形状において相互に類似しているものが少なくないので、画像解析によってこれらを正確且つリアルタイムに判別することは難しく、指文字の実時間画像認識は未だ実用レベルに至っていない。
渡辺他、"カラーグローブを用いた指文字の認識"、電子情報通信学会論文誌D-II、Vol.J80-D-II、No.10, pp.2713-2722, 1997年10月
本発明は、上記従来技術における課題に鑑みてなされたものであり、本発明は、指文字の実時間画像認識のための新規な手法を提供することを目的とする。
現在使用されている指文字においては、ユーザは、文字の数だけ手指形状を覚えなければならず、その習得自体が非常に困難を伴う。本発明者らは、指文字の実時間画像認識を実現すべく検討する中で、従来の指文字に比べて格段に習得が容易な新規な指文字を創案するとともに、これに対応する新規な文字認識システムの構成に想到し、本発明に至ったのである。
上述したように、本発明によれば、指文字の実時間画像認識のための新規な手法が提供される。
本実施形態におけるカラー手袋を示す図。 本実施形態における両手指文字の仮名文字対応表(その1)を示す図。 本実施形態における文字認識システムの構成図を示す図。 本実施形態における文字認識装置の機能ブロック図。 本実施形態における文字認識装置が実行する処理のフローチャート。 本実施形態における画像分割部が実行する画像分割処理を概念的に示す図。 本実施形態における着色領域の抽出処理を表すフローチャート。 本実施形態における照合データの生成処理を説明するための概念図。 本実施形態における設定テーブルを示す図。 本実施形態における指の静止判定処理を概念的を示す図。 本実施形態における照合データの生成処理を説明するための概念図。 本実施形態における妥当性のない照合データを示す図。 本実施形態における判定結果の棄却を説明するための概念図。 本実施形態における着色領域の抽出処理の別法を説明するための概念図。 本実施形態における着色領域の抽出処理の別法を表すフローチャート。 本実施形態における両手指文字の仮名文字対応表(その2)を示す図。 本実施形態における両手指文字の仮名文字対応表(その3)を示す図。
以下、本発明を図面に示した実施の形態をもって説明するが、本発明は、図面に示した実施の形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜、その説明を省略するものとする。
本発明の実施形態の説明に入る前に、本発明が採用する3つの前提条件について説明する。
(前提条件1:カラー手袋)
本発明の文字認識システムを利用するにあたり、ユーザは、5本の指と手の甲が色分け着色された手袋(以下、カラー手袋として参照する)を両手に着用することが求められる。図1は、本発明におけるカラー手袋の実施形態であるカラー手袋500を示す。図1に示されるように、本実施形態においては、カラー手袋500の5本の指(親指・人差し指・中指・薬指・小指)の各先端領域および手の甲の一部領域が6種類の異なる色で色を分けて着色されており、且つ、右手用と左手用が同じ配色で着色されている。なお、図1では、手の甲を矩形に着色しているが着色する領域の形状はこれに限定されない。
本実施形態において、カラー手袋500の着色に用いる6色は、認識精度向上の観点から、お互いの色相値が最大限に離れるような組み合わせを採用することが好ましい。なお、カラー手袋500は、無地の手袋の該当箇所を後から染料や塗料を使って着色したり、該当箇所を所望の色の素材ではじめから作り込むなどして作製することができる。
(前提条件2:両手指を用いた新規な指文字)
本発明では、表現しようとする文字(以下、目的文字という)を2つの文字構成要素に分解し、左右の手の手指形状で各文字構成要素を表わすことを特徴とする新規な指文字を採用する。例えば、日本語の仮名文字(五十音)は、観念的に子音と母音に分解することができるので、本発明が採用する指文字では、一方の手の手指形状で子音(すなわち、五十音の行)を表わし、他方の手の手指形状で母音(すなわち、五十音の段)を表わす。以下、本発明が採用するこの新規な指文字を従来の指文字と区別するために「両手指文字」という。
図2は、本発明が採用する両手指文字の仮名文字対応表を例示する。図2に示す例では、10個の子音(五十音の行)および5個の母音(五十音の段)を表す15種類の手指形状が定義されており、10個の子音(五十音の行)の表現が右手に割り当てられ、5個の母音(五十音の段)の表現を左手で割り当てられている。
この場合、例えば、ユーザが、右手で「か行」の手指形状を作り、左手で「い段」の手指形状を作った場合、「か行」+「い段」=「き」を表したことなる。なお、単純母音(あ・い・う・え・お)についても、同様に、「行」と「段」の組み合わせによって表すものとする(例えば、「あ行」+「あ段」=「あ」のように)。
(前提条件3:撮影条件)
本発明の文字認識システムは、ユーザを撮影した動画像に基づいてユーザが作る両手指文字をリアルタイムで認識することを目的とする。よって、本発明では、撮影に際して、ユーザがカメラに対して両手の甲を向けて正対することが求められる。なお、このとき、ユーザは両手を交差させてはならない。
以上、説明した3つの前提条件を念頭に置いて、本発明の実施形態の説明を始める。なお、以下の説明は、図2の仮名文字対応表に基づいて実装されたシステムを例にとって行うものとする。
図3は、本発明の実施形態である文字認識システム1000の構成図を示す。図3に示すように、本実施形態の文字認識システム1000は、デジタルビデオカメラとして参照される撮影手段200と、撮影手段200が取得したカラー画像を解析することによって両手指文字が表すところの目的文字に対応する文字情報を生成し、当該文字情報に基づいて出力データを生成するためのコンピュータ装置100と、コンピュータ装置100が生成した出力データを出力する出力装置300とを含んで構成されている。なお、コンピュータ装置100と、撮影手段200および出力装置300の間は、適切な通信手段(有線または無線を問わず)を介して通信可能に接続されているものとする。
図4は、本実施形態の文字認識システム1000を構成するコンピュータ装置100(以下、文字認識装置100として参照する)の機能ブロック図を示す。
文字認識装置100は、照合データ生成部10と、文字構成要素判定部20と、文字情報生成部30と、出力データ生成部40と、テンプレート記憶部50と、処理に必要な各種パラメータを格納するパラメータ設定部60とを含んで構成され、照合データ生成部10は、さらに、画像読み込み部12と、画像分割部13と、着色領域抽出部14と、重心間距離算出部15と、正規化部16と、指静止判定部17と、データ妥当性判断部18とを含んで構成されている。
照合データ生成部10は、撮影手段200が取得したカラー画像から所定のアルゴリズムに従って照合データを生成する。文字構成要素判定部20は、生成された照合データとテンプレート記憶部50に用意されたテンプレートデータを照合し、ユーザの右手が表すところの文字構成要素(子音:五十音の行)およびユーザの左手が表すところの文字構成要素(母音:五十音の段)を判定する。
文字情報生成部30は、判定結果として出力された子音(五十音の行)および母音(五十音の段)に基づいて、両者の組み合わせとして観念される仮名文字に対応する文字情報(テキストデータ)を生成する。出力データ生成部40は、文字情報生成部30が生成した文字情報(テキストデータ)に基づいて出力装置300に応じた出力データを生成する。
出力装置300が、各種ディスプレイ装置(ヘッドマウントディスプレイを含む)やプロジェクター装置である場合には、出力データ生成部40は、文字情報生成部30が生成したテキストデータをそのまま出力し、出力装置300は、そのテキストを表示する。一方、出力装置300が音声出力装置である場合には、出力データ生成部40は、文字情報生成部30が生成したテキストデータをさらに音声データに変換し、出力する。さらに、出力装置300が表示機能と音声出力機能を両具している場合は、テキスト表示と音声出力を同時に行うこともできる。
以上、本実施形態の文字認識装置100の構成について概説してきたが、続いて、文字認識装置100を構成する各機能部が実行する処理の内容を図5に基づいて順を追って説明する。なお、以下の説明においては、適宜、図4を参照するものとする。
図5は、文字認識装置100が実行する処理のフローチャートである。ユーザから実行開始を指示されると、データを初期化した後(ステップ101)、画像読み込み部12が、撮影手段200が撮影したカラー画像(RGB画像)の最新の1フレームを読み込む(ステップ102)。
続く、ステップ103において、画像分割部13が、読み込んだカラー画像をX軸方向に二分して分割する。図6は、画像分割部13が実行する画像分割処理を概念的に示す。なお、本実施形態においては、計算負荷を軽減するためにカラー画像を事前に適切な倍率で縮小しておくことが好ましい。
図6に示す例では、読み込んだカラー画像を320×240に縮小した後、縮小後のカラー画像について、X座標値が0〜159の画素領域を第1の画像として定義し、X座標値が160〜319の画素領域を第2の画像として定義している。本実施形態においては、先に述べたように、ユーザが撮影手段200のカメラレンズに対して両手の甲を向けて正対することを前提とするので、第1の画像には必ず右手が写り、第2の画像には必ず左手が写ることになる。よって、本実施形態では、第1の画像の解析結果を右手に係るものとし、第2の画像の解析結果を左手に係るものとする。
仮に、全体画像から右手と左手を区別して認識するとなると、右手用と左手用でカラー手袋の配色を異ならしめるなどの工夫が必要となる。この点、本実施形態は、画面の座標に基づいて右手の画像と左手の画像を自動的に判別するので、カラー手袋を右手用と左手用で同じ配色にすることができ、抽出する色の種類を少なくすることができる(6色に限定することができる)。抽出する色の種類が少なくなれば、お互いの色相値が最大限に離れるような組み合わせを採用しやすくなり、結果的に認識精度が向上する。
次に、分割後の第1の画像(以下、右手画像という)および第2の画像(以下、左手画像という)のそれぞれについて、着色領域抽出部14が着色領域の抽出処理を実行する(ステップ104)。
図7は、着色領域の抽出処理を表すフローチャートである。まず、ステップ201において、背景差分法により前景画像を抽出する。本実施形態においては、先のステップ102の前に、背景画像を取得するフェーズを設け、そこで、例えば、カラー手袋500が写り込まないように手を隠したユーザの画像を背景画像として取得しておき、当該背景画像の差分として前景画像を抽出することができる。その結果、図8(a)に示すように、右手画像および左手画像のそれぞれについて、カラー手袋500に相当する画像領域が抽出される。なお、本実施形態においては、背景差分法による前景画像の抽出処理を上述した画像分割処理(ステップ103)の前に行うようにしてもよい。
続いて抽出した前景画像(RGB画像)をHSV画像に変換した後(ステップ202)、変換後のHSV画像からカラー手袋500の6つの着色領域を以下の手順で抽出する。
まず、変換後のHSV画像につき、H値(色相:hue)に基づいて二値化処理を行う(ステップ203)。図9は、二値化処理に使用するH値の閾値を設定するテーブル600を例示する。テーブル600には、カラー手袋の6つの着色領域(親指・人差し指・中指・薬指・小指・手の甲)のそれぞれに対して、着色する色(赤・黄色・紫・緑・ピンク・青)、当該色に係るH値の閾値範囲およびラベルナンバーが格納されている。なお、本実施形態においては、テーブル600をはじめ、後述する各種閾値のパラメータがパラメータ設定部60において管理されている。
ステップ203においては、抽出対象とする領域の色に紐付いたH値の2つの閾値(すなわち、H値の最小値Hminおよび最大値Hmax)に照らして、H値が、最小値Hmin以上、且つ、最大値Hmax以下となる画素の値を「1」とし、それ以外の画素の値を「0」とする二値化処理を行って、HSV画像を二値化画像に変換する。
次に、変換後の二値化画像に対してノイズ除去処理を施した後(ステップ204)、ノイズ除去後の二値化画像に対して、4連結または8連結などの適切なアルゴリズムに従ってラベリング処理を施す(ステップ205)。その結果、例えば「親指」の着色領域を構成する全画素は、テーブル600に設定されたラベルナンバー[1]でラベリングされる。
続く、ステップ206において、全ての色についてラベリング処理が終了したか否かが判断され、6色全てについてラベリングが終了するまで(ステップ206、No)、上述したステップ203〜ステップ205を繰り返す。その結果、各着色領域(親指・人差し指・中指・薬指・小指・手の甲)を構成する画素が、それぞれ、テーブル600に設定されたラベルナンバー[1]、[2]、[3]、[4]、[5]、[6]でラベリングされる。
6色全てについてラベリング処理が終了すると(ステップ206、Yes)、最後に、6色のラベリング結果をマージする。図8(b)は、マージの結果、右手画像から、手の甲、親指および人差し指に対応する3つの着色領域が抽出され、左手画像から、手の甲および人差し指に対応する2つの着色領域が抽出された様子を示している。ステップ207が終了すると、処理は、図5に示すステップ105に進む。
続くステップ105では、重心間距離算出部15が、抽出された各着色領域の重心(重心画素のXY座標)を算出する。図8(c)は、図8(b)に示した着色領域について算出された重心を示す。
続くステップ106では、2フレーム分のデータ(着色領域の重心)が取得済みか否かを判断する。一番最初のフレームについて、ステップ103〜ステップ105が終わった時点では、当然2フレーム分のデータが取得されていない状態なので(ステップ106、No)、重心間距離算出部15は、その旨を画像読み込み部12に通知する。これを受けて、処理はステップ102に戻り、画像読み込み部12が次のフレームを読み込む。なお、画像読み込み部12は、隣接するフレームを順次読み込むように構成してもよいし、所定の時間間隔でフレームを間引きして読み込むように構成してもよい。
次のフレームが読み込まれると、上述したステップ103〜ステップ105を繰り返した後、処理はステップ106に戻る。この時点では、2フレーム分のデータが取得済みの状態となるので(ステップ106、Yes)、処理はステップ107に進む。ステップ107においては、指静止判定部17が指の静止判定処理を実行する。
以下、本実施形態における指の静止判定処理について説明する。ユーザの動画像に基づいて両手指文字を認識するにあたり、どの時点のフレーム画像を解析して目的文字を認識するかが問題になる。この点につき、予め決められた1文字分の入力周期(例えば、1秒周期)を光や音を使ってユーザに知らせ、ユーザがそのタイミングに合わせて両手指文字を作るといった方法が考えられる。
本発明は、そのように入力周期を固定する方法を排除するものではない。しかしながら、この方法では、入力周期を長くしすぎると、両手指文字に慣れたユーザにとっては、次の周期を待つのがもどかしく感じられるし、逆に、入力周期を短くしすぎると、両手指文字に不慣れなユーザは、装置側の要求するタイミングについてゆくことができず、完成途中の手指形状の画像に基づいて認識処理が実行される結果、認識効率が悪化する虞がある。
この点につき、本実施形態においては、ユーザの指の静止状態を判定することで両手指文字が完成したタイミングを検出し、当該タイミングに同期して両手指文字の認識処理を実行する構成を採用する。
具体的には、時間的に前後する2フレーム分のデータ(着色領域の重心)を取得した後、2つのフレーム画像間における着色領域の重心の移動量を適切な評価関数を用いて評価し、当該評価結果に基づいてユーザの指の静止状態を判定する。
本実施形態においては、例えば、下記式(1)に示す評価関数を用いて、評価値Lが予め定めた閾値より大きい場合には指が静止していないと判定し、評価値Lが閾値未満の場合には指が静止していると判定することができる。
なお、上記式(1)において、x(t)およびy(t)は、それぞれ、時間(t)のフレーム(最新のフレーム)において抽出された指iの着色領域の重心のx座標およびy座標を示し、x(t−Δt)およびy(t−Δt)は、それぞれ、時間(t−Δt)のフレーム(一つ前のフレーム)において抽出された指の着色領域の重心のx座標およびy座標を示し、nは着色領域が抽出された指iの数を示す。
図10は、指静止判定部17が実行する指の静止判定処理を説明するための概念図である。図10に示す例の場合、第1フレームの左手画像について得られた人差し指の着色領域(2)の重心座標と第2フレームの左手画像について得られた人差し指の着色領域(2)の重心座標に基づく評価値Lが閾値未満となり、第1フレームの右手画像について得られた親指の着色領域(1)および人差し指の(2)の重心座標と第2フレームの右手画像について得られた親指の着色領域(1)および人差し指の(2)の重心座標に基づく評価値Lが閾値以上となる。
この場合、左手の指は静止しているものの、右手の指は静止していないことが推定されるので、指静止判定部17は、両手の指が静止していないと判定し(ステップ108、No)、その旨を重心間距離算出部15に通知する。これを受けて、重心間距離算出部15は、第1フレームのデータを破棄した後(ステップ109)、その旨を画像読み込み部12に通知する。これを受けて、処理はステップ102に戻り、画像読み込み部12が次のフレーム(第3フレーム)を読み込む。その後、処理はステップ103〜ステップ106を経て、ステップ107に戻り、再び、指静止判定部17が指の静止判定を実行する。
2回目の指の静止判定では、第2フレームの左手画像について得られた人差し指の着色領域(2)の重心座標と第3フレームの左手画像について得られた人差し指の着色領域(2)の重心座標に基づく評価値Lが閾値未満となるとともに、第2フレームの右手画像について得られた親指の着色領域(1)および人差し指の着色領域(2)の重心座標と第3フレームの右手画像について得られた親指の着色領域(1)および人差し指の着色領域(2)の重心座標に基づく評価値Lがいずれも閾値未満となる。この場合、指静止判定部17は、両手の指が静止していると判定し(ステップ108、Yes)、その旨を重心間距離算出部15に通知する。
これを受けて、重心間距離算出部15は、指iの着色領域の重心と手の甲の着色領域の重心との離間距離(重心間距離d)を下記式(2)に基づいて算出する(ステップ110)。
なお、上記式(2)において、(px)および(py)は、手の甲の着色領域の重心のx座標およびy座標を示し、(fx)および(fy)は、指iの着色領域の重心のx座標およびy座標を示す。
その結果、図11(a)に示すように、右手画像については、手の甲の着色領域の重心画素(6)と親指の着色領域の重心画素(1)の間の重心間距離dと、手の甲の着色領域の重心画素(6)と人差し指の着色領域の重心画素(2)の間の重心間距離dが算出され、左手画像については、手の甲の着色領域の重心画素(6)と人差し指の着色領域の重心画素(2)の間の重心間距離dが算出される。
なお、重心間距離dの算出は、指の静止判定に使用した2つのフレーム(第2フレームおよび第3フレーム)のいずれか一方の画像で行ってもよいし、2つのフレーム(第2フレームおよび第3フレーム)のそれぞれについて重心間距離dを算出してその平均をとるなどしてもよい。なお、重心間距離の算出処理においては、着色領域が抽出されなかった指iに係る重心間距離dの値を「0」とする。
ステップ110が実行される結果、図11(b)に示すように、右手画像および右手画像のそれぞれについて、重心間距離[d]〜[d]を要素とする集合データ(以下、データDとして参照する)が取得される。その後、続くステップ111においては、正規化部16がデータDの正規化を行う。
データDを構成する5つの要素(重心間距離d)の大きさは、撮影手段200とユーザの離間距離によって変化する。この点につき、正規化部16は、この距離依存性を排除するために、「手の甲の着色領域」の面積Sに基づいて重心間距離dを正規化する。本実施形態においては、例えば、指iに係る重心間距離dを下記式(3)によって正規化することができる。
なお、上記式(3)において、Sは「手の甲の着色領域」の面積(ピクセル数)を示し、d′は指iに係る正規化された重心間距離を示す。
ステップ111が実行される結果、図11(b)に示したデータDは、図11(c)に示すように正規化される。以下、正規化された集合データをデータD′として参照する。ステップ111でデータD′が生成されると、続くステップ112において、データ妥当性判断部18がデータD′の妥当性について判断する。
ユーザの後ろを人が通ったり、ユーザが動いたりすることや、照明光の状態の変化が原因で、取得画像上のカラー手袋以外の位置においてカラー手袋の配色と同じ色が抽出されることがある。このような状況下で生成されたデータD′は妥当性に欠けるのでこれを棄却することが好ましい。この点につき、本実施形態においては、人間の手指に係る解剖学的な制約条件に照らしてデータD′の妥当性を判断する。
ここで、人間の手指に係る解剖学的な制約条件としては、人間の指の長さはほぼ決まっているといった定量的な条件や、人間の指は交差しないといった定性的な条件を挙げることができる。ここでは、人間の指の長さに関する制約条件に照らしてデータD′の妥当性を判断する処理を例示的に説明する。
この場合、正規化された重心間距離d′の値の大きさについて、解剖学的な見地から人間の指の長さに見合う数値範囲を制約条件として予め定めておき、左右の手にかかるデータD′(右手に係るデータD′および左手に係るデータD′)を構成する5つの要素(重心間距離d′)の全てが制約条件を満たすか否かによってデータD′の妥当性を判断する。
仮に、重心間距離d′の制約条件を「2≦ d′≦4」と定めた場合、図12に例示するデータD′について見ると、右手に係るデータD′において、小指に係る重心間距離[d′]が制約条件を満たしていない。この場合、データ妥当性判断部18は、図12に示すデータD′について妥当性なしと判断する(ステップ113、No)。
この判断を受けて、処理は、ステップ101に戻り、全てのデータが初期化される。その後、再び、画像読み込み部12が次のフレームを読み込んで、上述した手順を繰り返す。なお、本実施形態においては、妥当性なしと判断されたフレームの連続数が所定の回数を超えた場合に、ユーザに対してアラートを出すように構成することが好ましい。
一方、データD′を構成する5つの要素(重心間距離d′)の全てが制約条件を満たす場合、データ妥当性判断部18は、当該データD′について妥当性ありと判断し(ステップ113、Yes)、その旨を正規化部16に通知する。これを受けて、正規化部16は、当該データD′を内容とする照合データを生成して文字構成要素判定部20に渡す。
正規化部16から右手および左手に係る照合データ(データD′およびデータD′)を受け取った文字構成要素判定部20は、2つの照合データD′および照合データD′と、テンプレート記憶部50に用意されたテンプレートデータを照合する。
ここで、テンプレート記憶部50には、図2に示した文字構成要素(子音:五十音の行/母音:五十音の段)に対応するカラー手袋の手指形状の15種類の画像について、上述したのと同様の手順で事前に生成しておいた15個のデータD′がテンプレートデータとして記憶されている。
文字構成要素判定部20は、2つの照合データD′および照合データD′と、テンプレート記憶部50に用意された15個のテンプレートデータのベクトル間距離を算出して、ベクトル間距離が最小値を示すテンプレートデータを特定し、当該テンプレートデータに対応付けられた文字構成要素(子音:五十音の行/母音:五十音の段)を判定結果として文字情報生成部30に出力する。
具体的には、ステップ113に続くステップ114において、文字構成要素判定部20が、正規化部16から受け取った2つの照合データ(データD′およびデータD′)のそれぞれについてベクトル間距離を算出する。ここで、本実施形態においては、右手に係る照合データD′は、「子音:五十音の行」に係る10個のテンプレートデータと照合され、左手に係る照合データD′は、「母音:五十音の段」に係る5個のテンプレートデータと照合される。
なお、本実施形態においては、ステップ114で算出したベクトル間距離が最小値を示したテンプレートデータをそのまま判定結果としてもよいが、好ましくは、認識精度向上の観点から、以下の処理(ステップ115〜ステップ116)を実行する。
すなわち、ステップ114に続くステップ115において、文字構成要素判定部20は、2つの照合データのそれぞれについてベクトル間距離の最小値と当該最小値の次に小さい値の差分を求めた後、両者の差分が所定の閾値αよりも大きいか否かを判断する(ステップ116)。
その結果、2つの照合データの少なくとも一方において、差分が閾値αよりも大きくない場合(ステップ116、No)、誤認識の蓋然性が高いので、処理は、ステップ101に戻り、全てのデータを初期化した後、再び、画像読み込み部12が次のフレームを読み込んで、上述した手順を繰り返す。一方、2つの照合データのいずれにおいても、差分が閾値αよりも大きい場合には(ステップ116、Yes)、ステップ117に進み、ベクトル間距離が最小値を示したテンプレートデータに対応する文字構成要素(子音:五十音の行/母音:五十音の段)を判定結果として文字情報生成部30に出力する。
図13は、照合データの棄却処理を説明するための概念図である。図13は、左手に係る照合データD′と「母音:五十音の段」に係る5個のテンプレートデータのベクトル間距離の算出結果を示している。ここで、仮に、閾値α=2.0とした場合、図13(a)に示す例では、ベクトル間距離の最小値[1.47]と当該最小値の次に小さい値[3.00]の差分[1.53]は、閾値[2.0]よりも大きくないので、文字構成要素判定部20は判定処理を中止する。これを受けて、処理は、ステップ101に戻り、全てのデータが初期化され、再び、画像読み込み部12が次のフレームを読み込んで、上述した手順を繰り返す。
一方、図13(b)に示す例では、ベクトル間距離の最小値[0.09]と当該最小値の次に小さい値[3.00]の差分[2.91]は、閾値[2.0]よりも大きいので、文字構成要素判定部20は、最小値[0.09]を示したテンプレートデータに対応する文字構成要素「あ段」を判定結果として文字情報生成部30に出力する。
文字情報生成部30は、受領した2つの文字構成要素(子音:五十音の行/母音:五十音の段)の組み合わせとして観念される仮名文字のテキストデータを生成し、出力データ生成部40に出力する。出力データ生成部40は、受領したテキストデータに基づいて出力装置300に応じた出力データを生成し、出力装置300に出力する。
一方、画像読み込み部12は、ステップ118において、ユーザから終了が指示されているか否かを判断する。終了が指示されていない場合には(ステップ118、No)、処理はステップ101に戻り、全てのデータが初期化される。その後、次の目的文字を認識するために、再び、ステップ102〜ステップ117の処理が繰り返される。一方、ユーザから終了が指示された場合には(ステップ118、Yes)、そのまま処理を終了する。
以上、本実施形態の文字認識装置100が実行する処理について説明してきたが、次に、図7に基づいて説明した着色領域の抽出処理に関して、さらに好ましい別の実施形態を説明する。
本発明では、既に上述したように、「手の甲の着色領域」の面積を重心間距離の正規化の基準とするところ、背景差分処理後に「手の甲の着色領域」の一部に欠損が生じることがある。このような場合、基準となる「手の甲の着色領域」の面積が変化するため適正な正規化がなされない。一方、背景差分を適用しない元の画像に基づいて解析を行うとなると、背景部分を含めた全画素を解析対象としなければならなくなるので処理速度が犠牲になる。この点につき、以下に説明する別法は、処理速度を犠牲にすることなく、適正な正規化を実現する方法を提供する。
図15は、着色領域の抽出処理の別法を表すフローチャートである。別法においては、まず、ステップ301において、図14(a)に示す元の画像から背景差分法により前景画像を抽出する。
次に、図14(b)に示すように、抽出された前景画像(カラー手袋に相当する画像領域)に外接する四角形の4辺に囲まれる画素領域を手領域Tとして定義する(ステップ302)
次に、図14(c)に示すように、背景差分適用前の元の画像の手領域Tから、手の甲の着色領域のみを抽出する一方で(ステップ303)、図14(d)に示すように、各指の着色領域については、背景差分適用後の前景画像から抽出する(ステップ304)。
上述した別法によれば、正規化の基準となる「手の甲の着色領域」の抽出を背景差分適用前の元の画像から行うので「手の甲の着色領域」を欠損のない形で抽出することができ、且つ、その際の解析領域を必要最小限の範囲(手領域)に限定することができるので、処理速度を犠牲にすることなく適正な正規化を実現することができる。
以上、本発明の文字認証システムを実施の形態をもって説明してきたが、上述したように、本発明によれば、日本語の仮名文字(五十音)を表すために最大でわずか15の手指形状を覚えるだけ済むので、その習得が格段に容易になり、また、指文字の策定にあたり、15種類程度であれば、類似する手指形状を採用しなくて済むので、認識精度を最大化することができる。
また、本発明によれば、ユーザの指の静止状態を判定することで両手指文字が完成したタイミングを動的に検出し、当該タイミングに同期して両手指文字の認識処理を実行するので、習熟度の異なるユーザに柔軟に対応することが可能になる。
さらに、本発明においては、5本の指に係る重心間距離を要素とする集合データを照合に用いるため、左右の手で共通のテンプレートを使用することができ、また、シンプルな形式の照合データ(5次元ベクトル)を採用することで、計算負荷を格段に小さくすることができるので、リアルタイム性が好適に実現される。
また、本発明によれば、生成した照合データの妥当性および照合結果の妥当性を検証する構成を採用するので、誤認識が好適に回避され、認識精度が向上する。
なお、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。以下、本発明の範囲に含まれる事項を例示的に示す。
上述した実施形態においては、日本語の仮名文字(五十音)に対して15個のテンプレートを用意する例を示したが、別の実施形態では、図16に示すように、「母音:五十音の段」に係る手指形状と「子音:五十音の行」に係る手指形状の一部を共通させることもできる。この場合、ユーザは、わずか10種類の手指形状を覚えるだけ済むので、その習得がさらに容易になり、また、識別対象となる手指形状が2/3になるので認識精度がさらに向上する。
また、上述した実施形態においては、右手および左手に係る照合データを専用のテンプレートデータ(すなわち、「子音:五十音の行」に係る10個のテンプレートデータおよび「母音:五十音の段」に係る5個のテンプレートデータ)と照合する例を示したが、別の実施形態では、右手および左手に係る照合データを、15個のテンプレートデータのすべてと照合するように構成してもよい。この場合、理論上、15×15=225種類の両手指文字を定義することが可能になる。この点につき、図17は、右手に対して、15個のテンプレートデータを割り当てた例を示す。この場合、例えば、左手で「あ段」の手指形状を作り、且つ、右手で「あ段」、「い段」、「う段」、「え段」、「お段」と同じ手指形状を作った場合について、それぞれ、「濁点」、「半濁点」、「句点」、「読点」、「長音記号」と定義することができる。
さらに、上述した実施形態においては、両手指文字で表す文字(目的文字)として、日本語の仮名文字(五十音)を例示したが、本発明は、対象とする目的文字を日本語の仮名文字(五十音)に限定するものではなく、2つの文字構成要素に分解できる文字であれば、仮名文字(五十音)以外にも適用が可能である。例えば、漢字は、図形的に「部首」と「つくり」という2つの文字構成要素に分解することができ、ハングル文字は、「母音字母」と「子音字母」という2つの文字構成要素に分解することができるので、これらの2つの文字構成要素を表す適切な手指形状を策定すればよい。
さらに加えて、上述した実施形態においては、撮影手段200、文字認識装置100(コンピュータ装置)および出力装置300が分離してなるシステム構成を示したが、別の実施形態では、上述した各装置の持つそれぞれの機能を1つの装置(例えば、スマートフォンやタブレット型PCなど)に集約搭載して一体化することもできる。またそれとは逆に、図4に示した文字認識装置100を構成する各機能部を適切な単位でネットワーク上に分散配置してネットワークシステムとして構築することもできる。その他、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
なお、上述した実施形態の各機能は、C、C++、C#、Java(登録商標)などのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD−ROM、MO、DVD、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
上述した本発明の文字認証システムを市販のWebカメラ(有効画素:500万画素、フレームレート:30fps)とパーソナルコンピュータを使って構築し、認識精度を検証する実験を行った。なお、カラー手袋は、市販の白軍手を油性マーカー6色で着色して作製した。下記表1に、着色に使用した油性マーカーの色の種類と着色箇所および着色領域の抽出に使用した色相値(H値)のパラメータを示す。
事前に、カラー手袋を着用した4名の被験者(A,B,C,D)のそれぞれに、図2に示した15種類の手指形状を作らせて、一人につき15個のテンプレートデータを生成した。その後、Webカメラから50cm離間した位置でカラー手袋を着用した各被験者に同じく図2に示した15種類の手指形状を作らせて、一人につき15個の照合データを生成した。
テンプレートデータおよび照合データについて、下記(1)〜(5)の組み合わせでベクトル間距離を計算し、ベクトル間距離が最小値を示したテンプレートを判定結果とした。
(1)被験者Aのテンプレートデータ/被験者Aの照合データ
(2)被験者Aのテンプレートデータ/被験者Bの照合データ
(3)被験者Aのテンプレートデータ/被験者Cの照合データ
(4)被験者AおよびDのテンプレートデータの混合/被験者Bの照合データ
(5)被験者AおよびDのテンプレートデータの混合/被験者Cの照合データ
その結果、上記(1)〜(5)のすべての組み合わせにおいて、正解率100%を示した。また、認識に要する時間は約46.8ミリ秒となり、本発明の文字認証システムが手指形状を実時間で認識できることが実証された。
10…照合データ生成部
12…画像読み込み部
13…画像分割部
14…着色領域抽出部
15…重心間距離算出部
16…正規化部
17…指静止判定部
18…データ妥当性判断部
20…文字構成要素判定部
30…文字情報生成部
40…出力データ生成部
50…テンプレート記憶部
60…パラメータ設定部
100…文字認識装置(コンピュータ装置)
200…撮影手段
300…出力装置
500…カラー手袋
600…設定テーブル
1000…文字認識システム

Claims (14)

  1. 目的文字を表すユーザの手指形状を画像認識するための文字認識システムであって、
    5本の指の各先端領域および手の甲の一部領域が6種類の色で色分け着色されたカラー手袋を両手にはめたユーザが該両手の甲を向けて正対した様子をカラーで撮影するための撮影手段と、
    目的文字を構成する第1の文字構成要素および第2の文字構成要素のそれぞれに対して、第1のテンプレートデータおよび第2のテンプレートデータを対応付けて記憶するテンプレート記憶手段と、
    前記撮影手段から読み出したフレーム画像に基づいて第1の照合データおよび第2の照合データを生成する照合データ生成手段と、
    前記第1の照合データと前記第1のテンプレートデータの第1のベクトル間距離および前記第2の照合データと前記第2のテンプレートデータの第2のベクトル間距離をそれぞれ算出し、前記第1のベクトル間距離が最小の前記第1のテンプレートデータに対応付けられた前記第1の文字構成要素および前記第2のベクトル間距離が最小の前記第2のテンプレートデータに対応付けられた前記第2の文字構成要素を判定結果として出力する文字構成要素判定手段と、
    判定結果として出力された前記第1の文字構成要素と前記第2の文字構成要素から構成される目的文字に対応する文字情報を生成する文字情報生成手段と
    を含む、
    文字認識システム。
  2. 前記照合データ生成手段は、
    前記フレーム画像をX軸方向に二分して、一方の手にはめた前記カラー手袋を写す第1の画像と他方の手にはめた前記カラー手袋を写す第2の画像に分割する画像分割手段と、
    前記第1の画像および前記第2の画像のそれぞれについて、前記カラー手袋の着色領域を抽出する着色領域抽出手段と、
    前記第1の画像および前記第2の画像のそれぞれについて、前記手の甲の一部に対応する前記着色領域の重心と、前記指の先端部分に対応する着色領域の重心との間の重心間距離を算出する重心間距離算出手段と、
    算出された前記重心間距離を前記手の甲の一部に対応する前記着色領域の面積に基づいて正規化する正規化手段と
    を含み、
    前記一方の手の5本の指に係る正規化された前記重心間距離を要素とする第1の集合データを第1の照合データとして生成し、前記他方の手の5本の指に係る正規化された前記重心間距離を要素とする集合データを第2の照合データとして生成する、
    請求項1に記載の文字認識システム。
  3. 前記照合データ生成手段は、
    時間的に前後する2つのフレーム画像間における前記指の先端部分に対応する着色領域の重心の移動量を評価し、評価結果に基づいて指が静止しているか否かを判定する指静止判定手段を含み、
    ユーザの両手の指が静止していると判定された場合にのみ、前記照合データを生成する、
    請求項2に記載の文字認識システム。
  4. 前記着色領域抽出手段は、
    前記第1の画像および前記第2の画像のそれぞれについて、背景差分法により抽出した前景画像に外接する四角形の4辺に囲まれる画素領域を手領域として定義し、背景差分適用前の画像の前記手領域から前記手の甲の一部に対応する前記着色領域を抽出し、背景差分適用後の前記前景画像から前記指の先端部分に対応する着色領域を抽出する、請求項2または3に記載の文字認識システム。
  5. 前記照合データ生成手段は、
    人間の手指に係る解剖学的な制約条件に照らして前記第1および第2の集合データの妥当性を判断するデータ妥当性判断手段を含み、
    前記第1および第2の集合データの両方に妥当性があると判断された場合にのみ、該集合データを内容とする前記照合データを生成する
    請求項1〜4のいずれか一項に記載の文字認識システム。
  6. 前記文字構成要素判定手段は、
    算出した前記第1および第2のベクトル間距離のそれぞれについて、最小値と該最小値の次に小さい値を求め、両者の差分が所定の閾値よりも大きいと判断した場合にのみ、前記判定結果を出力する、
    請求項1〜5のいずれか一項に記載の文字認識システム。
  7. 前記目的文字は、仮名文字(五十音)であり、
    前記第1の文字構成要素および前記第2の文字構成要素は、それぞれ、子音(五十音の行)および母音(五十音の段)である、
    請求項1〜6のいずれか一項に記載の文字認識システム。
  8. コンピュータに目的文字を表すユーザの手指形状の画像認識を実行させるためのコンピュータ実行可能なプログラムであって、
    コンピュータを、
    目的文字を構成する第1の文字構成要素および第2の文字構成要素のそれぞれに対して、第1のテンプレートデータおよび第2のテンプレートデータを対応付けて記憶するテンプレート記憶手段、
    5本の指の各先端領域および手の甲の一部領域が6種類の色で色分け着色されたカラー手袋を両手にはめたユーザが該両手の甲を向けて正対した様子をカラーで撮影する撮影手段から読み出したフレーム画像に基づいて第1の照合データおよび第2の照合データを生成する照合データ生成手段、
    前記第1の照合データと目的文字を構成する第1の文字構成要素に対応付けられた第1のテンプレートデータの第1のベクトル間距離を算出し、
    前記第2の照合データと目的文字を構成する第2の文字構成要素に対応付けられた第2のテンプレートデータの第2のベクトル間距離を算出し、
    前記第1のベクトル間距離が最小値を示す前記第1のテンプレートデータに対応付けられた前記第1の文字構成要素および前記第2のベクトル間距離が最小値を示す前記第2のテンプレートデータに対応付けられた前記第2の文字構成要素を判定結果として出力する文字構成要素判定手段、
    判定結果として出力された前記第1の文字構成要素と前記第2の文字構成要素から構成される目的文字に対応する文字情報を生成する文字情報生成手段
    として機能させるためのプログラム。
  9. 前記照合データ生成手段は、
    前記フレーム画像をX軸方向に二分して、一方の手にはめた前記カラー手袋を写す第第1の画像と他方の手にはめた前記カラー手袋を写す第2の画像に分割する画像分割手段と、
    前記第1の画像および前記第2の画像のそれぞれについて、前記カラー手袋の着色領域を抽出する着色領域抽出手段と、
    前記第1の画像および前記第2の画像のそれぞれについて、前記手の甲の一部に対応する前記着色領域の重心と、前記指の先端部分に対応する着色領域の重心との間の重心間距離を算出する重心間距離算出手段と、
    算出された前記重心間距離を前記手の甲の一部に対応する前記着色領域の面積に基づいて正規化する正規化手段と
    を含み、
    前記一方の手の5本の指に係る正規化された前記重心間距離を要素とする第1の集合データを第1の照合データとして生成し、前記他方の手の5本の指に係る正規化された前記重心間距離を要素とする集合データを第2の照合データとして生成する、
    請求項8に記載のプログラム。
  10. 前記照合データ生成手段は、
    時間的に前後する2つのフレーム画像間における前記指の先端部分に対応する着色領域の重心の移動量を評価し、評価結果に基づいて指が静止しているか否かを判定する指静止判定手段を含み、
    ユーザの両手の指が静止していると判定された場合にのみ、前記照合データを生成する、
    請求項9に記載のプログラム。
  11. 前記着色領域抽出手段は、
    前記第1の画像および前記第2の画像のそれぞれについて、背景差分法により抽出した前景画像に外接する四角形の4辺に囲まれる画素領域を手領域として定義し、背景差分適用前の画像の前記手領域から前記手の甲の一部に対応する前記着色領域を抽出し、背景差分適用後の前記前景画像から前記指の先端部分に対応する着色領域を抽出する、請求項9または10に記載のプログラム。
  12. 前記照合データ生成手段は、
    人間の手指に係る解剖学的な制約条件に照らして前記第1および第2の集合データの妥当性を判断するデータ妥当性判断手段を含み、
    前記第1および第2の集合データの両方に妥当性があると判断された場合にのみ、該集合データを内容とする前記照合データを生成する
    請求項8〜11のいずれか一項に記載のプログラム。
  13. 前記文字構成要素判定手段は、
    算出した前記第1および第2のベクトル間距離のそれぞれについて、最小値と該最小値の次に小さい値を求め、両者の差分が所定の閾値よりも大きいと判断した場合にのみ、前記判定結果を出力する、
    請求項8〜12のいずれか一項に記載のプログラム。
  14. 前記目的文字は、仮名文字(五十音)であり、
    前記第1の文字構成要素および前記第2の文字構成要素は、それぞれ、子音(五十音の行)および母音(五十音の段)である、
    請求項8〜13のいずれか一項に記載のプログラム。
JP2012181493A 2012-08-20 2012-08-20 指文字を認識するための文字認識システムおよびプログラム Pending JP2014038543A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012181493A JP2014038543A (ja) 2012-08-20 2012-08-20 指文字を認識するための文字認識システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012181493A JP2014038543A (ja) 2012-08-20 2012-08-20 指文字を認識するための文字認識システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2014038543A true JP2014038543A (ja) 2014-02-27

Family

ID=50286628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012181493A Pending JP2014038543A (ja) 2012-08-20 2012-08-20 指文字を認識するための文字認識システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2014038543A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015172848A (ja) * 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 読唇入力装置、読唇入力方法及び読唇入力プログラム
JP5988286B1 (ja) * 2016-04-01 2016-09-07 株式会社Cygames プログラム及び画像処理装置
JP2021005220A (ja) * 2019-06-26 2021-01-14 株式会社Nttドコモ 情報処理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015172848A (ja) * 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 読唇入力装置、読唇入力方法及び読唇入力プログラム
JP5988286B1 (ja) * 2016-04-01 2016-09-07 株式会社Cygames プログラム及び画像処理装置
WO2017168989A1 (ja) * 2016-04-01 2017-10-05 株式会社Cygames プログラム及び画像処理装置
US10719943B2 (en) * 2016-04-01 2020-07-21 Cygames, Inc. Program and image processing device
JP2021005220A (ja) * 2019-06-26 2021-01-14 株式会社Nttドコモ 情報処理装置
JP7287600B2 (ja) 2019-06-26 2023-06-06 株式会社Nttドコモ 情報処理装置

Similar Documents

Publication Publication Date Title
Kulkarni et al. Appearance based recognition of american sign language using gesture segmentation
US20190392587A1 (en) System for predicting articulated object feature location
Sawant et al. Real time sign language recognition using pca
Alrubayi et al. A pattern recognition model for static gestures in malaysian sign language based on machine learning techniques
Geetha et al. A vision based dynamic gesture recognition of indian sign language on kinect based depth images
Pariwat et al. Thai finger-spelling sign language recognition using global and local features with SVM
WO2014137806A2 (en) Visual language for human computer interfaces
Adhikary et al. A vision-based system for recognition of words used in indian sign language using mediapipe
KR20130015958A (ko) 얼굴표정을 이용한 감정인식 장치, 감정인식 방법 및 그 기록매체
Raees et al. Image based recognition of Pakistan sign language
Sawant Sign language recognition system to aid deaf-dumb people using PCA
Kasukurthi et al. American sign language alphabet recognition using deep learning
Chaman et al. Real-time hand gesture communication system in Hindi for speech and hearing impaired
JP2014038543A (ja) 指文字を認識するための文字認識システムおよびプログラム
CN102778951B (zh) 使用虚拟按键的输入设备及输入方法
Elakkiya et al. Intelligent system for human computer interface using hand gesture recognition
Kumar et al. Mediapipe and cnns for real-time asl gesture recognition
Bisht et al. Smart communication system using sign language interpretation
Arooj et al. Enhancing sign language recognition using CNN and SIFT: A case study on Pakistan sign language
Desai Segmentation and recognition of fingers using Microsoft Kinect
Siby et al. Gesture based real-time sign language recognition system
KR101601660B1 (ko) 깊이 영상을 이용한 손 영역 분류 방법 및 그 장치
Peiris Sinhala sign language to text interpreter based on machine learning
JP6467994B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
Mesbahi et al. Hand gesture recognition based on various deep learning YOLO models