JP2016224608A

JP2016224608A - 文字列入力装置

Info

Publication number: JP2016224608A
Application number: JP2015108708A
Authority: JP
Inventors: 剛史齊藤; Takashi Saito; 眞紀飯沼; Maki Iinuma
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2015-05-28
Filing date: 2015-05-28
Publication date: 2016-12-28
Anticipated expiration: 2035-05-28
Also published as: JP6562542B2

Abstract

【課題】口形を基に文字の母音成分を検出し、利用者の負担を抑制して文字列を入力する文字列入力装置を提供する。
【解決手段】利用者Ｐの口形を撮像する撮像手段１１と、撮像された画像２３を基に求めた口形に対応する母音成分を、被検出母音成分として導出する母音検知手段１２と、複数の文字列が予め登録された文字列データベース１３から、母音成分が被検出母音成分である文字からはじまる文字列を選出する文字列選出手段１４と、選出された文字列について、順次、文字列の一を入力可能な項目に指定するオートスキャン手段１５と、入力可能な項目を表示する表示手段２０と、外部から操作される入力手段１８と、入力可能な項目に指定されている文字列を、外部から入力手段１８への操作によって、入力情報として確定する確定手段１６とを備える。
【選択図】図１

Description

本発明は、利用者の口の形状を基に、文字を検出し、文字列を入力する文字列入力装置に関する。

コンピュータや携帯端末において、文字を入力する一般的なインタフェースとして、キーボード、マウス及び釦が主流である。
一方、科学技術の発達により、日常生活で用いられている文字を書く感覚で文章を入力可能な手書き文字認識技術に基づくインタフェースや、人間にとって最も自然なコミュニケーション手段である音声を利用して文字を入力する音声認識用のインタフェースが、近年、利用可能となっている。

しかしながら、振戦（筋肉の収縮、弛緩の繰り返しにより生じる不随意のリズミカル運動）等の手指に障害をもつ人は、キーボードやマウス、あるいは、手書き文字認識のインタフェースを利用することが難しい。また、音声認識用のインタフェースを利用するには、声を発する必要があるため、入力しようとする内容が周囲に伝わり、秘匿性を欠き、しかも、周囲の雑音等により認識精度が低下するという課題が存在する。

そこで、口形を基にその口形に対応する文字を検出する技術が着目され、その技術を利用した装置の具体例が、特許文献１〜４に記載されている。
口形は、発話時に自然に変化するため、音声認識と同様に意図する言葉を自然に入力でき、更に、音声を発する必要がないことから、音声認識の課題を解決できるという利点がある。
ここで、文字を発するときの口形は、その文字の母音成分（「カ」の母音成分は「ア」）を発するときと同じになるという性質がある。従って、「カ」と「ア」は同じ口形となり、例えば、「ありがとう」を発音する口形は、「アイアオウ」と発音した口形とみなすことができる。

特許文献１〜４に記載の装置は、文字を発する口形とその文字の母音成分を発する口形が同じになるという性質を利用したもので、口形を基にその口形に対応する文字の母音成分を検出する。口形を基に、文字の母音成分を検出する精度は、文字そのものを検出（例えば、「カ」を「カ」として検出）する精度より高いことが報告されていることから、特許文献１〜４に記載の装置は、口形から文字を安定的に検出することができる。

特開２０１１−１８６９９４号公報特開２００５−３０９９５２号公報特開２００５−１０８０７９号公報特開２００９−１６９４６４号公報

しかしながら、特許文献１の装置は、携帯電話機への適用を想定したもので、子音の文字を入力するために、テンキー（１０個のキー）を操作する必要があり、表示された候補単語のリストから単語を選択する際には、選択キーと確定キーの操作を要する。従って、特許文献１の装置は、複数のキーを操作する必要があり、手指に障害が有る者にとって負担が大きい。

そして、特許文献２、３の装置は、子音の文字を入力する際、１文字ごとにキー操作が必要であり、例えば、「カメラ」と入力するには、少なくとも３回のキー操作を要する。よって、操作回数が多い点で、利用者の負担が大きい。
また、特許文献４の装置は、口形から口形に対応する文字の母音成分を検出した後、利用者の頭部の動きを検知して、入力したい子音の文字を確定する。そのため、原則として、１文字ごとに、頭部を動かす必要があり、利用者の負担が大きい。
本発明は、かかる事情に鑑みてなされるもので、口形を基に文字の母音成分を検出し、利用者の負担を抑制して文字列を入力する文字列入力装置を提供することを目的とする。

前記目的に沿う本発明に係る文字列入力装置は、利用者の口形を撮像する撮像手段と、撮像された画像を基に求めた前記口形に対応する母音成分を、被検出母音成分として導出する母音検知手段と、複数の文字列が予め登録された文字列データベースから、母音成分が前記被検出母音成分である文字からはじまる前記文字列を選出する文字列選出手段と、選出された前記文字列について、順次、該文字列の一（一つ）を入力可能な項目に指定するオートスキャン手段と、前記入力可能な項目を表示する表示手段と、外部から操作される入力手段と、前記入力可能な項目に指定されている前記文字列を、外部から前記入力手段への操作によって、入力情報として確定する確定手段とを備える。

本発明に係る文字列入力装置において、前記撮像手段は、前記被検出母音成分が導出されるまで、間欠的に撮像を行い、前記母音検知手段は、撮像された複数の前記画像それぞれに対し、該画像にとらえられている前記口形の特徴量を導出し、所定時間内に撮像された前記複数の画像に対応する前記特徴量が、所定範囲内に収まっていることを判定して、前記被検出母音成分の導出を行うのが好ましい。

本発明に係る文字列入力装置において、前記母音検知手段は、間欠的に撮像が行われる度に、新たに撮像された前記画像を基に前記口形に対応する母音成分を求め、前記表示手段は、該口形に対応する母音成分が求められる度に、新たに求められた該口形に対応する母音成分を表示するのが好ましい。

本発明に係る文字列入力装置において、前記オートスキャン手段は、前記母音検知手段に新たな前記被検出母音成分の導出を開始させる状態にするモード切替項目も、順次、前記入力可能な項目に指定し、１つ目の前記被検出母音成分を導出した前記母音検知手段は、前記モード切替項目が前記入力可能な項目に指定されている状態で、外部から前記入力手段に操作がなされることによって、２つ目の前記被検出母音成分を導出し、前記文字列選出手段は、１番目及び２番目の文字の母音成分がそれぞれ１つ目及び２つ目に導出された前記被検出母音成分である前記文字列を選出するのが好ましい。

本発明に係る文字列入力装置において、前記表示手段は、前記文字列選出手段が選出した前記文字列の合計数も表示するのが好ましい。

本発明に係る文字列入力装置において、前記文字列データベースから選出される前記文字列は、利用者ごとに定められるのが好ましい。

本発明に係る文字列入力装置において、各母音成分に対応する領域がマッピングされ、前記母音検知手段による前記被検出母音成分の導出基準となる複数の口形マップを更に備え、前記各口形マップは、各母音成分に対応する前記領域が、利用者ごとに調整されるのが好ましい。

本発明に係る文字列入力装置は、（１）撮像された画像を基に求めた口形に対応する母音成分を、被検出母音成分として導出し、（２）複数の文字列が予め登録された文字列データベースから、母音成分が被検出母音成分である文字からはじまる文字列を選出し、（３）選出された文字列について、順次、文字列の一を入力可能な項目に指定し、（４）入力可能な項目に指定されている文字列を、外部から入力手段への操作によって、入力情報として確定するので、入力手段に、文字列を入力情報として確定するための１つの釦（キー）を設け、利用者にその１つの釦のみを操作させることで、文字列の入力を行うことができる。従って、利用者は、文字列を入力するために複数の釦を操作する必要がなく、文字列を入力するための利用者の負担を抑制可能である。

本発明の一実施の形態に係る文字列入力装置のブロック図である。同文字列入力装置の表示手段が表示する内容の説明図である。（Ａ）〜（Ｄ）は、それぞれ口形マップの説明図である。撮像された画像から抽出される***領域の説明図である。口形マップを作成する流れを示すフロー図である。入力文字列情報を確定する流れの一部を示すフロー図である。入力文字列情報を確定する流れの一部を示すフロー図である。入力速度の計測結果を示すグラフである。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図１に示すように、本発明の一実施の形態に係る文字列入力装置１０は、利用者Ｐの口形を撮像する撮像手段１１と、撮像された図２に示す画像２３を基に口形に対応する母音成分を求め、被検出母音成分として導出する母音検知手段１２と、文字列データベース１３から、母音成分が被検出母音成分である文字からはじまる文字列を選出する文字列選出手段１４と、選出された文字列について、順次、文字列の一（一つ）を入力可能な項目に指定するオートスキャン手段１５と、入力可能な項目に指定されている文字列を、入力情報として確定する確定手段１６とを備えて、文字列を入力する。以下、これらについて詳細に説明する。

文字列入力装置１０は、図１に示すように、コンピュータ（電子計算機）１７と、コンピュータ１７に接続された各種ハードウェアを備えている。
コンピュータ１７に接続された各種ハードウェアは、カメラからなる撮像手段１１、入力デバイスである入力手段１８、キーボード１９、ディスプレイからなる表示手段２０、及び、プリンタ（印刷機器）からなる出力手段２１である。
本実施の形態では、入力手段１８に、操作釦が１つの入力デバイスを採用しているが、外部から操作が可能な入力デバイスであれば、複数の操作釦を備える入力デバイスであってもよい。また、キーボードの１つの操作釦を入力手段として扱ってもよい。

コンピュータ１７は、ＣＰＵ、ハードディスク、メモリ及び接続ポートを備え、接続ポートに、上述した各種ハードウェアが接続されている。なお、コンピュータ１７と各種ハードウェアの接続は、有線接続でも、無線接続でもよい。
母音検知手段１２、文字列選出手段１４、オートスキャン手段１５及び確定手段１６は、コンピュータ１７のハードディスク内に記憶されたソフトウェアである。

本実施の形態において、撮像手段１１、入力手段１８、キーボード１９及び表示手段２０は、コンピュータ１７とはそれぞれ別体のハードウェアであるが、コンピュータと一体となったものであってもよい。
文字列入力装置１０は、口元を撮像手段１１で撮像されている利用者Ｐが、表示手段２０の画面を見ながら、入力手段１８及びキーボード１９を操作することを想定して、設計されている。そのため、撮像手段１１は、表示手段２０の画面を見ている利用者Ｐの口元（本実施の形態では、口元を含む顔全体）を撮像できるように配置されている。

母音検知手段１２は、主として、図１、図２に示すように、撮像手段１１が利用者Ｐの顔を撮像した画像２３から、利用者Ｐの***領域（***の輪郭によって囲まれた領域）２４を抽出する領域抽出部２２、抽出された***領域２４の特徴量を求める特徴量計測部２５、及び、***領域２４の特徴量から利用者Ｐの口形（***の輪郭の形）に対応する母音成分を求める母音判別部２６から構成されている。

また、コンピュータ１７のハードディスクには、図１に示すように、特徴量計測部２５及び母音判別部２６がアクセス可能な口形マップデータベース２７も記憶されている。口形マップデータベース２７は、***領域２４と***領域２４に対応する母音成分の関係を定義した図３（Ａ）〜（Ｄ）に示す複数の口形マップ２８を格納している。口形マップデータベース２７に格納される新たな口形マップ２８は、母音検知手段１２によって作成され、作成された口形マップ２８は、母音検知手段１２による被検出母音成分の導出基準として利用される。

撮像手段１１によって撮像された画像２３及び口形マップ２８に対する母音検知手段１２の各処理には、口形マップ２８を作成する際、及び、被検出母音成分を導出する際に共通する処理と異なる処理が存在する。以下、その共通する処理について説明する。
撮像手段１１によって撮像された画像２３には、図２に示すように、利用者Ｐの***領域２４の他、利用者Ｐの眼、眉、首等の***領域２４以外の部位が含まれている。
領域抽出部２２は、撮像手段１１によって撮像された画像２３を取得し、画像２３における利用者Ｐの***領域２４を抽出する。本実施の形態では、領域抽出部２２が、２段階の処理を経て、***領域２４の抽出を行う。

領域抽出部２２は、まず、ＶｉｏｌａとＪｏｎｅｓが考案したアルゴリズムを用いて、画像２３から利用者Ｐの顔全体の領域を抽出し（１段階目の処理）、抽出した顔全体の領域に対し、Ｃｏｎｓｔｒａｉｎｅｄｌｏｃａｌｍｏｄｅｌ（ＣＬＭ）を適用して、図４に示すように、利用者Ｐの鼻と共に、利用者Ｐの***領域２４を抽出する（２段階目の処理）。なお、ＣＬＭは、統計的アプローチによって、特徴点を検出する手法の一つである。本実施の形態では、１段階目の処理において、左右の鼻孔にそれぞれ１点の特徴点２４ａを割り当て、***領域２４の輪郭に対し８点の特徴点２４ａを割り当てる処理を行っているが、これに限定されない。

特徴量計測部２５は、領域抽出部２２によって抽出された***領域２４から、***領域２４の特徴量を導出する。本実施の形態では、特徴量計測部２５が、***領域２４の面積を第１の特徴量として導出し、***領域２４のアスペクト比を第２の特徴量として導出する。アスペクト比とは、***領域２４の縦の長さを***領域２４の横幅で割った値である。
なお、本実施の形態では、２つの特徴量を導出するが、これに限定されない。

口形マップ２８は、図３（Ａ）〜（Ｄ）に示すように、６つの領域がマッピングされた２次元マップであり、５つの領域は、「あ」、「い」、「う」、「え」、「お」の母音成分にそれぞれ対応し、残りの１つの領域は、「ん」の文字に対応している（便宜上、「ん」の文字も母音成分として、以下、説明する）。即ち、口形マップ２８には、各母音成分に対応する領域がマッピングされている。
母音判別部２６は、第１、第２の特徴量をそれぞれ、口形マップ２８上の横軸の座標及び縦軸の座標として、口形マップ２８における***領域２４の座標（位置）を決定し、口形マップ２８上に***領域２４の座標をプロットする。

次に、口形マップ２８を作成する際の処理について説明する。
図５に示すように、利用者Ｐによってログインされた文字列入力装置１０が待機状態にあるときに（ステップＳ１）、撮像手段１１が利用者Ｐの顔を撮像することによって（ステップＳ２）、領域抽出部２２は、撮像された画像２３を撮像手段１１から取得し（ステップＳ３）、画像２３から***領域２４を抽出する（ステップＳ４）。抽出された口形領域２４は、図２に示すように、表示手段２０の画面において、画像２３の表示領域外に表示される。そして、特徴量計測部２５は、図５に示すように、抽出された***領域２４を基に***領域２４の第１、第２の特徴量を計測する（ステップＳ５）。

第１、第２の特徴量が計測された際、表示手段２０は、第１、第２の特徴量に応じて***領域２４の座標がプロットされた口形マップ２８を表示する。このとき、表示手段２０には、標準的な（デフォルトの）口形マップ２８が表示されている。
この状態で、利用者Ｐが、キーボード１９又は入力手段１８からの操作（キー入力）により、自らの口形に対応する母音成分を入力すると（ステップＳ６）、***領域２４の座標が、口形マップ２８において、入力された母音成分に対応する領域内に配されるように、口形マップ２８上の各母音成分に対応する６つの領域それぞれの形状が調整される（ステップＳ７）。

このステップＳ１〜ステップＳ７のサイクルを、複数回、繰り返すことによって、利用者Ｐに応じた口形マップ２８を作成することができ、各口形マップ２８は、各母音成分に対応する領域が、利用者Ｐごとに調整可能である。図３（Ａ）〜（Ｄ）にそれぞれ示された口形マップ２８は、４人の利用者Ｐに対して作成されたもので、口形マップ２８上の６つの領域の形状が、口形マップ２８ごとに異なっているのが確認できる。
キーボード１９又は入力手段１８からの操作により、口形マップ２８の各領域の調整が完了したことが検出されると（ステップＳ８）、その口形マップ２８は、利用者Ｐの識別情報と共に、口形マップデータベース２７に格納される（ステップＳ９）。

続いて、利用者Ｐの口形に対応する母音成分を求めて、被検出母音成分を導出する際の処理について説明する。
図６に示すように、利用者Ｐによってログインされた文字列入力装置１０が待機状態の際に（ステップＳ１’）、撮像手段１１が利用者Ｐの顔を撮像することによって（ステップＳ２’）、領域抽出部２２は、撮像された画像２３を撮像手段１１から取得し（ステップＳ３’）、画像２３から***領域２４を抽出する（ステップＳ４’）。そして、特徴量計測部２５は、抽出された***領域２４の第１、第２の特徴量（即ち、画像２３にとらえられている口形の特徴量）を導出する（ステップＳ５’）。

母音判別部２６は、口形マップデータベース２７内の利用者Ｐに対応する口形マップ２８を、利用者Ｐの識別情報を基に選択し、その口形マップ２８における***領域２４の座標を、計測された第１、第２の特徴量を基に決定することによって、画像２３中の利用者Ｐの口形に対応する母音成分を求める（ステップＳ６’）。
そして、表示手段２０は、母音判別部２６が求めた母音成分を、図２に示す母音表示部２９に表示する（ステップＳ７’）。また、母音判別部２６は、ステップＳ６’で決定した***領域２４の座標を、口形マップ２８上にプロットし、表示手段２０は、図２に示すように、***領域２４の座標がプロットされた口形マップ２８も表示する。

本実施の形態においては、撮像手段１１が、間欠的に（例えば、１秒間に１〜３０回）、利用者Ｐの顔の撮像を行い、特徴量計測部２５は、撮像によって画像２３が生成される度に、画像２３に対して、***領域２４の第１、第２の特徴量を導出して、コンピュータ１７のメモリ内に格納する。母音判別部２６は、第１、第２の特徴量が新たに導出される度に、利用者Ｐの口形に対応する母音成分を求める。即ち、母音検知手段１２は、間欠的に撮像が行われる度に、新たに撮像された画像２３を基に母音成分を求める。

そして、母音判別部２６は、所定時間（例えば、１〜３秒）内に撮像された複数の画像２３それぞれに対応する第１、第２の特徴量が、所定範囲内に収まっているか否かを判定する（ステップＳ８’）。具体的には、所定時間内に撮像された画像２３について、（１）口形マップ２８上の***領域２４の座標が、全て、同一の母音成分の領域内に位置し、かつ、（２）口形マップ２８上で最も離れている２つの***領域２４の座標の距離が所定範囲内である場合、第１、第２の特徴量が、所定範囲内に収まっているとの判定をし、それ以外の場合、第１、第２の特徴量が、所定範囲内に収まっていないとの判定をする。
なお、口形マップ２８上の***領域２４の座標が、全て、同一の母音成分の領域内に位置するか否かのみを、第１、第２の特徴量が、所定範囲内に収まっているか否かの判定基準にしてもよい。

ステップＳ８’において、所定時間内に撮像された複数の画像２３それぞれに対応する第１、第２の特徴量が、所定範囲内に収まっていると判定された際には、母音判別部２６は、自らが求めた母音成分を、被検出母音成分として確定（導出）する（ステップＳ９’）。
一方、母音判別部２６が、所定時間内に撮像された複数の画像２３それぞれに対応する第１、第２の特徴量が、所定範囲内に収まっていないと判定した際には、ステップＳ２’からステップＳ８’までの処理が再度行われる。ここで、撮像手段１１による間欠的な撮像を行っている時間が所定時間に達するまで、被検出母音成分は確定されず、ステップＳ２’からステップＳ８’までの処理が繰り返される。

被検出母音成分が確定されるまで、撮像手段１１が間欠的に画像２３を撮像する度に、領域抽出部２２は、画像２３から***領域２４を抽出し、***領域２４が抽出される度に、表示手段２０は、図２に示すように、その***領域２４を表示し、母音判別部２６が新たに母音成分を求める度に、新たに求められた母音成分を母音表示部２９に表示する。
利用者Ｐは、表示手段２０によって表示される***領域２４を視認することによって、***領域２４の抽出が適切か否かを確認でき、***領域２４の抽出が不適切であると判断した場合、例えば、撮像手段１１に対する顔の向きを調整可能である。そして、利用者Ｐは、表示手段２０に表示される新たに求められた母音成分を視認することによって、自らが意図した母音成分が求められているか否かを判断でき、意図していない母音成分が求められている場合、例えば、自らの口形を変えることで、意図している母音成分が求められるようにすることが可能である。

次に、文字列データベース１３、文字列選出手段１４、オートスキャン手段１５及び確定手段１６によって、主として、行われる被検出母音成分を基にした文字列の入力処理について説明する。
文字列データベース１３には、利用者Ｐが、利用者Ｐごとに自らが入力したい複数の文字列を、予め登録することができる。本実施の形態において、文字列は、１つの単語や、複数の単語からなる文章を意味する。

文字列選出手段１４は、図１に示すように、文字列データベース１３にアクセス可能に設計され、図６に示すステップＳ９’で確定された被検出母音成分を基に、文字列データベース１３から、文字列を選出する。
ステップＳ９’で被検出母音成分を確定した後、図６に示すように、文字列選出手段１４は、文字列データベース１３から、母音成分が被検出母音成分の文字からはじまる文字列を、入力候補の文字列として選出する（ステップＳ１０’）。

例えば、被検出母音成分が「あ」であれば、「間」、「明日」、「会社」、「立場」等の単語や、「明日の会議に参加します」のような複数の単語からなる文章が選出される。
ここで、文字列データベース１３においては、各文字列が、利用者Ｐの識別情報を付与された状態で記憶され、文字列データベース１３から入力候補の文字列として選出する文字列を、利用者Ｐごとに定義している。そのため、利用者Ｐは、自らが入力する意図のない文字列が選出されるのを回避可能である。
そして、表示手段２０は、図７に示すように、文字列選出手段１４によって選出された入力候補の文字列を、図２に示す文字列表示部３０に表示する（ステップＳ１１’）。

オートスキャン手段１５は、文字列選出手段１４によって選出された複数の入力候補の文字列について、所定時間（本実施の形態では、１〜３秒）ごとに、順次、その一つ（入力候補の文字列の一）を入力可能な項目に指定する。入力候補の文字列が、入力可能な項目に指定される順番は、過去に入力文字列情報として確定された実績を基に、オートスキャン手段１５が決定する。即ち、オートスキャン手段１５は、過去の実績を基に、入力候補の文字列を入力可能な項目に指定する順番を決定する学習機能を有している。
表示手段２０は、入力可能な項目に指定されている入力候補の文字列を、文字列表示部３０において、強調表示する（即ち、入力可能な項目を表示する）。従って、利用者Ｐは、入力可能な項目となっている入力候補の文字列を視認可能である。

文字列表示部３０は、図２に示すように、一度に表示可能な入力候補の文字列の数（本実施の形態では、１０個）に制限がある。その制限の数を超える入力候補の文字列が選ばれた場合、表示手段２０は、文字列表示部３０の更新を繰り返すことによって、全ての入力候補の文字列を表示することができる。文字列表示部３０に一度に表示可能な数を超える入力候補の文字列が選ばれた場合、表示手段２０は、文字列表示部３０を更新するための文字列表示更新項目３１（図２において、「次の候補」と示された項目）を表示する。

オートスキャン手段１５が、文字列表示部３０中の入力候補の文字列を、上から下に向かって、順に、入力可能な項目に指定するのに従って、表示手段２０は、入力可能な項目に指定されている入力候補の文字列を、強調表示する。そして、最下段に表示されている入力候補の文字列が強調表示された後、文字列表示更新項目３１が、オートスキャン手段１５によって入力可能な項目に指定され、表示手段２０によって強調表示される。

図７に示すように、文字列表示部３０中の入力候補の文字列が強調表示されている際に、利用者Ｐによって入力手段１８の釦が押される（入力手段１８が操作される）と（ステップＳ１２’）、確定手段１６は、強調表示されている入力候補の文字列を、入力情報（以下、「入力文字列情報」ともいう）として確定してコンピュータ１７のメモリに記録し（ステップ１３’）、新たな入力文字列情報を、確定する処理を行う場合は（ステップＳ１４’）、ステップＳ２’に戻る。一方、ステップＳ１４’において、入力文字列情報の確定を終了する場合は、これまで確定した入力文字列情報を、確定順に並べて、出力手段２１から出力し（ステップＳ１５’）、ステップＳ１’へ戻る。

そして、文字列表示更新項目３１が強調表示されている際に、利用者Ｐによって入力手段１８の釦が押されると（ステップＳ１６’）、確定手段１６は、表示手段２０に、文字列表示部３０を更新させて、新たな入力候補の文字列を表示させる（ステップＳ１７’）。文字列表示部３０の更新後、新たに表示された入力候補の文字列に対して、強調表示が開始され、ステップＳ１２’に進む。

また、表示手段２０は、図２に示すように、既に確定した入力文字列情報を削除するための削除用項目３２（図２において、「単語の削除」と示された項目）、及び、既に確定した入力文字列情報をコンピュータ１７のスピーカから音で出力するための音出力項目３３（図２において、「音声の出力」と示された項目）に加え、母音検知手段１２に新たな被検出母音成分の導出を開始させる状態にするモード切替項目３４（図２において、「次の音の入力」と示された項目）も表示している。

オートスキャン手段１５は、ステップＳ１６’で、文字列表示更新項目３１が強調表示されている際に、入力手段１８の釦が押されない場合、モード切替項目３４を入力可能な項目に指定し（即ち、オートスキャン手段１５は、モード切替項目３４も、順次、入力可能な項目に指定し）、表示手段２０は、モード切替項目３４を強調表示する。
図７に示すように、モード切替項目３４が強調表示されている際に（即ち、モード切替項目３４が入力可能な項目に指定されている状態で）、利用者Ｐによって入力手段１８の釦が押されることによって（ステップＳ１８’）、ステップＳ２’に戻り、母音検知手段１２は、新たに撮像された画像２３を基に、図６に示すように、ステップＳ３’からステップＳ９’を経て、新たな被検出母音成分を導出する（１つ目の被検出母音成分が既に導出されている際には、２つ目の被検出母音成分が導出され、Ｎ個目の被検出母音成分が既に導出されている際には、Ｎ＋１個目の被検出母音成分が導出される）。

ステップＳ９’で、１つ目の被検出母音成分を既に導出した母音検知手段１２によって、２つ目の被検出母音成分が導出された際には、文字列選出手段１４は、ステップＳ１０’にて、１番目及び２番目の文字の母音成分がそれぞれ１つ目及び２つ目に導出された被検出母音成分である文字列を、文字列データベース１３から、入力候補の文字列として選出する。例えば、１つ目に導出された被検出母音成分が「あ」で、２つ目に導出された被検出母音成分が「い」であれば、１番目及び２番目の文字の母音成分がそれぞれ「あ」、「い」である「間」、「会社」、「立場」等の文字列が選出される。

そして、ステップＳ９’で、Ｎ個目の被検出母音成分が導出された際には、文字列選出手段１４は、ステップＳ１０’にて、１番目、２番目、・・・Ｎ番目の文字の母音成分がそれぞれ１つ目、２つ目、・・・Ｎ個目に導出された被検出母音成分である文字列を、文字列データベース１３から、入力候補の文字列として選出する。従って、導出する被検出母音成分の増加によって、選出される入力候補の文字列は減少する（絞り込まれる）。

一方、ステップＳ１８’で、モード切替項目３４が強調表示されている際に、入力手段１８の釦が押されない場合、オートスキャン手段１５は、削除用項目３２及び音出力項目３３を、順次、入力可能な項目にし、表示手段２０は、削除用項目３２及び音出力項目３３を、入力可能な項目となったタイミングで、順次、強調表示する。
図７に示すように、削除用項目３２が強調表示されている際に、入力手段１８の釦が押されると（ステップＳ１９’）、既に入力文字列情報として確定していた入力候補の文字列が削除され（ステップＳ２０’）、ステップＳ２’に戻る。

ステップＳ１９’で、削除用項目３２が強調表示されている際に、入力手段１８の釦が押されないと、次に、音出力項目３３が強調表示される。そして、音出力項目３３が強調表示されている際に、入力手段１８の釦が押されると（ステップＳ２１’）、既に確定した入力文字列情報が音で出力され（ステップＳ２２’）、ステップＳ１４’に進む。一方、ステップＳ２１’で、音出力項目３３が強調表示されている際に、入力手段１８の釦が押されなかった場合、文字列表示部３０中の最上段に表示されている入力候補の文字列からの強調表示が再開され、ステップＳ１２’に戻る。

また、表示手段２０は、ステップＳ１０’にて、入力候補の文字列が選出されることによって、文字列選出手段１４が選出した入力候補の文字列の合計数も表示する。よって、利用者Ｐは、選出された入力候補の文字列の合計数を視認し、その数に応じて、ステップＳ１８’において、ステップＳ２’に戻って、新たな被検出母音成分の導出により、選出される入力候補の文字列の数を減少させるかを判断することが可能である。

次に、本発明の作用効果を確認するために行った実験について説明する。
実験では、文字列データベースに、全国手話検定試験５級の出題対象である４００個の単語を文字列として登録した。母音判別部は、２秒以内に撮像された複数の画像それぞれに対応する第１、第２の特徴量が、所定範囲内に収まっていることを条件に、被検出母音成分を確定するように設定され、オートスキャン手段は、１秒ごとに入力可能な項目を、順次、切り替えるように設定された。

文字列データベースに登録された文字列を基にそれぞれ作成される表１に示す２つの単語からなる文章、３つの単語からなる文章、及び、４つの単語からなる文章を１セットとし、１０名の被験者（利用者）に、３セットの文章を入力させ、１セットあたりの入力速度を計測した。なお、入力速度の単位は、ＫＰＭ（ＫａｎａＰｅｒＭｉｎｕｔｅ）であり、例えば、「カメラ買う」の文章は、「か」、「め」、「ら」、「か」、「う」の５つのＫａｎａ（文字）を含んでいるものとして計測した。

１０名の被験者に対して入力速度を計測した平均値を、図８のグラフに示す。図８のグラフにおいて、横軸の「試行回数」の「１」、「２」、「３」はそれぞれ、１セット目、２セット目及び３セット目の計測結果を示している。
図８のグラフより、入力速度の平均値は、１セット目で５．６（ＫＰＭ）であったものが、３セット目で６．８（ＫＰＭ）となり、文章の入力を重ねることにより、入力速度が向上することが確認された。なお、オートスキャン手段による入力可能な項目を切り替える時間は、被験者に応じて調整可能であり、その時間を短くすることで、入力時間を短縮できることが考えられる。

以上、本発明の実施の形態を説明したが、本発明は、上記した形態に限定されるものでなく、要旨を逸脱しない条件の変更等は全て本発明の適用範囲である。
例えば、撮像手段は、被検出母音成分が確定されるまで、間欠的に撮像を行う必要はなく、１つの画像を基に母音成分を求めて、被検出母音成分を確定するようにしてもよい。
また、モード切替項目を、表示手段に表示させる代わりに、母音検知手段に新たな被検出母音成分の導出を開始させる状態にするための釦を、入力手段に設けてもよい。
そして、表示手段が、文字列選出手段によって選出された文字列の数を、必ずしも表示する必要はない。
更に、利用者ごとに各母音成分に対応する領域が調整された口形マップを作成する機能や、文字列データベースから選出される文字列を利用者ごとに定める機能も、必ずしも必要ではない。
また、表示手段は、入力可能な項目に指定されている入力候補の文字列を、他の入力候補の文字列とは、異なる色で表示してもよいし、入力可能な項目に指定されている入力候補の文字列のみを表示するようにしてもよい。

１０：文字列入力装置、１１：撮像手段、１２：母音検知手段、１３：文字列データベース、１４：文字列選出手段、１５：オートスキャン手段、１６：確定手段、１７：コンピュータ、１８：入力手段、１９：キーボード、２０：表示手段、２１：出力手段、２２：領域抽出部、２３：画像、２４：***領域、２４ａ：特徴点、２５：特徴量計測部、２６：母音判別部、２７：口形マップデータベース、２８：口形マップ、２９：母音表示部、３０：文字列表示部、３１：文字列表示更新項目、３２：削除用項目、３３：音出力項目、３４：モード切替項目、Ｐ：利用者

Claims

利用者の口形を撮像する撮像手段と、
撮像された画像を基に求めた前記口形に対応する母音成分を、被検出母音成分として導出する母音検知手段と、
複数の文字列が予め登録された文字列データベースから、母音成分が前記被検出母音成分である文字からはじまる前記文字列を選出する文字列選出手段と、
選出された前記文字列について、順次、該文字列の一を入力可能な項目に指定するオートスキャン手段と、
前記入力可能な項目を表示する表示手段と、
外部から操作される入力手段と、
前記入力可能な項目に指定されている前記文字列を、外部から前記入力手段への操作によって、入力情報として確定する確定手段とを備えることを特徴とする文字列入力装置。
請求項１記載の文字列入力装置において、前記撮像手段は、前記被検出母音成分が導出されるまで、間欠的に撮像を行い、前記母音検知手段は、撮像された複数の前記画像それぞれに対し、該画像にとらえられている前記口形の特徴量を導出し、所定時間内に撮像された前記複数の画像に対応する前記特徴量が、所定範囲内に収まっていることを判定して、前記被検出母音成分の導出を行うことを特徴とする文字列入力装置。
請求項２記載の文字列入力装置において、前記母音検知手段は、間欠的に撮像が行われる度に、新たに撮像された前記画像を基に前記口形に対応する母音成分を求め、前記表示手段は、該口形に対応する母音成分が求められる度に、新たに求められた該口形に対応する母音成分を表示することを特徴とする文字列入力装置。
請求項１〜３のいずれか１項に記載の文字列入力装置において、前記オートスキャン手段は、前記母音検知手段に新たな前記被検出母音成分の導出を開始させる状態にするモード切替項目も、順次、前記入力可能な項目に指定し、１つ目の前記被検出母音成分を導出した前記母音検知手段は、前記モード切替項目が前記入力可能な項目に指定されている状態で、外部から前記入力手段に操作がなされることによって、２つ目の前記被検出母音成分を導出し、前記文字列選出手段は、１番目及び２番目の文字の母音成分がそれぞれ１つ目及び２つ目に導出された前記被検出母音成分である前記文字列を選出することを特徴とする文字列入力装置。
請求項１〜４のいずれか１項に記載の文字列入力装置において、前記表示手段は、前記文字列選出手段が選出した前記文字列の合計数も表示することを特徴とする文字列入力装置。
請求項１〜５のいずれか１項に記載の文字列入力装置において、前記文字列データベースから選出される前記文字列は、利用者ごとに定められることを特徴とする文字列入力装置。
請求項１〜６のいずれか１項に記載の文字列入力装置において、各母音成分に対応する領域がマッピングされ、前記母音検知手段による前記被検出母音成分の導出基準となる複数の口形マップを更に備え、前記各口形マップは、各母音成分に対応する前記領域が、利用者ごとに調整されることを特徴とする文字列入力装置。