JP5090330B2

JP5090330B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP5090330B2
Application number: JP2008332311A
Authority: JP
Inventors: 知彦高橋; 勝菅野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2012-12-05
Anticipated expiration: 2028-12-26
Also published as: JP2010152800A

Description

本発明は、画面に表示された映像に含まれる文字入力領域の映像を検出する技術に関する。

従来から、与えられた画像の中から文字を認識する文字認識技術が知られている。例えば、特許文献１に開示されている文字認識装置は、文書をスキャナで読み込み、その画像を画像処理部が処理し、文字列化部が文字列化する。特徴抽出部は、それらから文字の特徴を抽出する。マッチング部は、その特徴を辞書と比較し、最も相似しているカテゴリを結果出力する。特徴抽出部の前に文字種別判定部が配設されていて、各入力文字の大きさによる種別分類を判定する。辞書は種別分類を備えていて、文字種別判定部は、文字列中の文字のうち最大の高さＨを基準として、文字の大きさがＨ／ｔｈ角以下のものを「小文字」と分類する。マッチング部は、種別判定処理で得た種別分類に対応する辞書のみとマッチング処理を行なう。

一方、近年、テレビＣＭなどで、画像中にインターネット検索エンジンの検索窓を表示し、そこにあるキーワードを入力した画面を提示することで、インターネットによる検索を促す手法が一般的になりつつある。この検索窓を利用したＣＭにおいては、検索窓は一種の文字入力領域として働き、ユーザが検索窓中に文字を入力し、検索することを促すものであり、この検索窓中に提示されたキーワードは、あらかじめ広告主のサイトが検索結果の最上位に来るように調整されたものであり、このキーワードを用いて手軽に検索可能な仕組みを提供することは、非常に有意義である。

従って、画面中から所望の文字が含まれた検索窓領域のみを正確に検知する技術があれば、前記技術との組み合わせによって、検索窓領域に含まれる文字の取得が可能となる。しかしながら、従来、テレビ映像中から、検索窓領域のみを識別し、その領域を正確に検出する技術は存在していなかった。一方で、テレビ映像において、検索窓領域同様、テキストを提示するための表現方法としては、テロップがある。テレビ番組中のテロップ領域を認識する技術としては、例えば以下が知られている。

特許文献２では、テロップが「（１）画面の上部または下部の所定領域に表示される。」、「（２）テロップ出現時およびテロップ終了時、輝度変化がおきる。」という特徴を用いて、テロップを検出する。また、特許文献３では、「（３）テロップは背景画像に対して高輝度であるという特徴を用い、検出されたエッジと輝度２値化画像の組み合わせにより、テロップ検出する。」ということを行なっている。更に、特許文献４では、「（４）テロップ領域は、自然画に比べ、一定時間、安定した輝度状態を保つ。」、「（５）テロップ領域は自然画に比べ均一的な輝度レベルを示す。」という特徴を用い、テロップを検出している。
特開平５−２８３１８号公報特開平１２−２３０６２号公報特開平１２−１８２０５３号公報特開平１０−２３３９９４号公報

しかしながら、文字入力領域としての検索窓領域は、画面の上部または下部の所定領域に表示されるわけではないので、上記（１）の特徴を利用することはできない。また、検索窓領域が表示されたとしても、常に輝度変化が起きるわけではないので、上記（２）の特徴を利用することはできない。また、検索窓領域は、背景画像に対して高輝度であるとは限らないため、上記（３）の特徴を利用することはできない。さらに、上記（４）の特徴についても、検索窓領域のあるＣＭでは、画面全体が静止画になるような例が少なからず存在するため、利用できない。上記（５）の特徴は、検索窓領域においても同様の傾向が見られるものの、この特徴のみで検索窓領域の検出を試みた場合、十分な精度を得ることが出来ず、テレビ映像に含まれる検索窓領域に似た物体を、検索窓領域と誤検知してしまう。

本発明は、このような事情に鑑みてなされたものであり、テレビ映像を解析することによって、テレビ映像中の検索窓領域のみを正確に認識することができる画像処理装置、画像処理方法およびプログラムを提供することを目的とする。

なお、本発明の課題を解決する別の手段として、検索キーワードを、字幕として含むことが容易に考えられるが、２００８年１１月現在、ＣＭ放送には字幕情報が含まれないため、前述の検索キーワードは、映像としてのみ存在し、ユーザに対してテキストとして提供する手段は無い。

（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の画像処理装置は、画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理装置であって、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する抽出部と、前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する形状判別部と、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する文字配置判別部と、を備えることを特徴としている。

この構成により、高い精度で映像中の文字入力領域のみを検出することが可能となる。また、文字配置判別部は、文字入力領域内の文字情報の配置を抽出する処理を行なう。この文字情報配置判別処理は、文字の認識処理（すなわち、文字を個々の辞書と照らし合わせる処理）ではなく、画像中から、文字に一般的に見られる特徴量の存在を抽出し、その配置を調査する、軽量な処理のみを行なう。本文字情報は、位置判別処理を行なうことにより、文字入力領域でない候補を除外することで、精度良く文字入力領域を抽出することができ、無駄な文字認識処理を回避することができる。

（２）また、本発明の画像処理装置において、前記抽出部は、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出することを特徴としている。

このように、色ヒストグラム処理や文字入力領域内の文字配置の判別といった処理の前に、文字入力領域として期待される形状に基づいた抽出処理を行ない、文字入力領域の候補を大幅に削減することで、処理負担の軽減と動作の迅速化を図ることが可能となる。

（３）また、本発明の画像処理装置において、前記抽出部は、前記多角形近似の結果のうち、４頂点以上の多角形の中から、最長の２直線が画面に対して水平である多角形を文字入力領域の候補として抽出することを特徴としている。

このように、多角形近似の結果のうち、４頂点以上の多角形の中から、最長の２直線が画面に対して水平である多角形を文字入力領域の候補として抽出するので、処理負担の軽減と動作の迅速化を図ることが可能となる。

（４）また、本発明の画像処理装置において、前記抽出部は、前記多角形近似の結果のうち、４頂点以上の多角形の中から、最長の２直線が画面に対して水平であり、かつ、その２直線の長さが等しい多角形を、文字入力領域の候補として抽出することを特徴としている。

このように、多角形近似の結果のうち、４頂点以上の多角形の中から、最長の２直線が画面に対して水平であり、かつ、その２直線の長さが等しい多角形を、文字入力領域の候補として抽出するので、処理負担の軽減と動作の迅速化を図ることが可能となる。

（５）また、本発明の画像処理装置において、前記抽出部は、前記多角形近似の結果のうち、画面に対して水平な２直線間の距離から、前記多角形の高さを求め、その高さが、前記多角形の横の長さの所定の割合以下の長さである領域を、文字入力領域の候補として抽出することを特徴している。

このように、多角形近似の結果のうち、画面に対して水平な２直線間の距離から、多角形の高さを求め、その高さが、多角形の横の長さの所定の割合以下の長さである領域を、文字入力領域の候補として抽出するので、処理負担の軽減と動作の迅速化を図ることが可能となる。ここで、「多角形の高さが、多角形の横の長さの所定の割合以下である」とは、例えば、多角形の高さが、多角形の横の長さの１／３以下である、というように定めることができる。すなわち、一般的によく知られている検索用の文字入力領域に近似する形状のみを抽出することができる。

（６）また、本発明の画像処理装置において、前記文字配置判別部は、前記多角形近似によって得られた領域に対して、色ヒストグラムを算出し、その頻度から、背景色、文字色を判別し、文字色の出現頻度から、文字入力領域であるか否かを判別することを特徴としている。

このように、多角形近似によって得られた領域に対して、色ヒストグラムを算出し、その頻度から、背景色、文字色を判別し、文字色の出現頻度から、文字入力領域であるか否かを判別するので、高い精度で文字入力領域を抽出することが可能となる。

（７）また、本発明の画像処理装置において、前記文字配置判別部は、前記多角形近似によって得られた領域に対して、コーナー検出を行ない、検出されたコーナーの頻度から領域内の文字の配置を判別し、文字の配置から、文字入力領域であるか否かを判別することを特徴としている。

このように、多角形近似によって得られた領域に対して、コーナー検出を行ない、検出されたコーナーの頻度から領域内の文字の配置を判別し、文字の配置から、文字入力領域であるか否かを判別するので、高い精度で文字入力領域を抽出することが可能となる。

（８）また、本発明の画像処理装置は、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、複数の文字入力領域が抽出された際に、それらの間の横の長さの比および画面内での位置関係から、前記文字入力領域以外の領域を取り除く位置判別部をさらに備えることを特徴としている。

このように、形状判別部により抽出された文字入力領域の形状を有する映像のうち、複数の文字入力領域が抽出された際に、それらの間の横の長さの比および画面内での位置関係から、文字入力領域以外の領域を取り除くので、高い精度で文字入力領域を抽出することが可能となる。

（９）また、本発明の画像処理装置は、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する文字入力完了判別部をさらに備え、前記文字配置判別部は、文字数の変化が終了したときにキーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出することを特徴としている。

この構成により、文字入力領域に文字が徐々に入力されている映像であっても、文字入力が完了したタイミングで文字入力領域の形状を有する映像を抽出することが可能となる。

（１０）また、本発明の画像処理装置において、前記文字配置判別部により抽出された文字入力領域の形状を有する映像を、文字認識を行なう文字認識部に出力し、文字認識部によって認識された文字を用いて、キーワード検索を行なうことを特徴としている。

この構成により、例えば、ユーザがテレビＣＭを視聴中に、文字入力領域のところでリモコンボタンを押すことによって、キーワード検索をすることが可能となる。

（１１）また、本発明の画像処理方法は、画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理方法であって、抽出部において、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出するステップと、形状判別部において、前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出するステップと、文字入力完了判別部において、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別するステップと、文字配置判別部において、文字数の変化が終了したときに、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出するステップと、前記文字配置判別部により抽出された文字入力領域の形状を有する映像を出力するステップと、を少なくとも含むことを特徴としている。

（１２）また、本発明のプログラムは、画面に表示された映像に含まれる文字入力領域の映像を検出するプログラムであって、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する処理と、前記抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する処理と、前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する処理と、前記文字数の変化が終了したときに、前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する処理と、前記抽出された文字入力領域の形状を有する映像を出力する処理と、の一連の処理が、コンピュータに読み取りおよび実行可能にコマンド化されたことを特徴としている。

本発明によれば、高い精度で映像中の文字入力領域のみを検出することが可能となる。その結果、キーボードを用いずに簡易にキーワード検索を行なうことが可能となる。

図１は、本発明の実施形態に係る画像処理装置の概略構成を示すブロック図である。また、図２は、本発明の実施形態に係る画像処理装置の動作を示すメインフローチャートであり、図３は、文字入力領域（以下、「検索窓領域」と呼称する。）の抽出動作を示すフローチャートであり、また、図４は、文字入力完了判別動作を示すフローチャートである。図１において、画像処理装置１０は、多角形抽出部１１、形状判別部１２、色ヒストグラム算出部１３、文字配置判別部１４、位置判別部１６、文字入力完了判別部１７を備えている。また、画像処理装置１０は、映像信号入力部１９から映像信号を入力し、処理結果を文字認識部１８に出力する。

本発明の実施形態では、インターネット接続機能を備えたテレビ受信機が、本発明の画像処理装置１０を内蔵し、ユーザはテレビのリモコン操作によって本発明の機能を用いることが出来るものとする。

図２において、まず、画像処理装置１０は、ユーザが視聴しているテレビ映像から、一定間隔でフレームの情報を取得する。検索窓領域は、その領域に表示される検索キーワードを、視聴者に覚えてもらう必要があるため、数秒間表示される。一般にテレビ映像は１秒あたり２９．９７フレームから構成されるため、画像処理装置１０は、数十フレームに一度の周期で、１フレームを抽出する（ステップＳ１）ことで、検索窓領域が含まれたフレームを、もれなく抽出することが可能である。次に、検索窓領域の抽出を行なう（ステップＳ２）。この検索窓領域の抽出動作は、図３に示すフローチャートに従って行なわれる。

図３において、まず、エッジ抽出・多角形近似を行なう（ステップＳ１０）。検索窓領域は、キーワードが枠線で囲まれる形で構成されるため、その輪郭は、閉じた多角形で近似可能である。そこで、検索窓領域を４頂点以上の多角形で近似する。映像信号入力より得られた画像フレームに対して、多角形抽出部１１では、まず、入力画像の輪郭を抽出する。輪郭を抽出する手法としては、任意の手法が利用可能であるが、例えばCannyフィルタ（J.Canny.A Computational Approach to Edge Detection, IEEE Trans. on Pattern Analysis and Machine Intelligence, 8(6), pp.679-698 (1986).）を用いてエッジを抽出することが考えられる。

図５Ａは、現画像の例を示す図であり、図５Ｂは、そこから抽出されたエッジ画像の例を示す図である。検索窓領域のエッジは、閉じた枠線を形成する。この枠線を検出するため、抽出されたエッジ画像に対して直線検出を行なう。直線検出の手法は、任意の手法が適用可能であるが、例えば、ラドン変換を用いて直線を検出する方法が、特開２００５−２７５４４７号公報に開示されている。次に、検出した直線に対して、それぞれが閉じた枠線を形成するかどうかを判別する。判別の方法は任意の手法が利用可能であるが、例えば、以下のような手法が利用可能である。
（１）検出された直線から一つを選び、直線と隣接する領域に直線があるかを調べる。
（２）（１）の処理で見つけた直線に移動し、（１）と同様に隣接する領域を調べる。
（３）上記の処理を繰り返し、最初に選んだ直線に戻れば、それは閉じた枠線であると判別する。
（４）上記１〜３の処理を、検出された全てのエッジについて調べ終わるまで繰り返す。

検出された直線を滑らかにするため、多角形での近似を行なう。近似のアルゴリズムは、任意の手法が利用可能であるが、例えば、Douglas-Peuckerアルゴリズム等が利用可能である。図５Ｃは、多角形近似された結果の例を示す図である。

次に、形状判別を行なう（ステップＳ１１）。多角形が検索窓（領域）の形状であるかどうかを判断する（ステップＳ１２）。形状判別部１２では、ステップＳ１０で得られた多角形の形状から、検索窓領域でないものを取り除く。検索窓領域の形状は図６Ａのような矩形が一般的であるが、図６Ｂ、図６Ｃのような形も見られる。しかしながら、検索窓（領域）は、中に文字を入力するという性質から、画面に対して平行に配置され、また、インターネットの検索をイメージさせる必要性から、横長で、上下の線分の長さがほぼ等しい多角形である。すなわち、台形やひし形の中に記載された文字では、インターネットの検索を十分に想起させることが出来ない。そのため、少なくとも４頂点を持つ四角形であり、場合によってはそれ以上の多角形である。そこで、多角形近似の結果から、形状判別部１２において以下の判別処理を行なう。
（１）４頂点より少ない頂点を持つ領域を除外する。なぜならば、検索窓領域は少なくとも平行な二直線を持つため、４角形以上の多角形、多くは４角形になるためである。
（２）多角系に含まれる最長の２直線を選択し、それが画面に対して十分に水平であることをチェックする。チェックの方法としては、最長の２直線の始点と終点が、それぞれ、
［直線１について］
始点（ｘ１，ｙ１）、終点（ｘ２，ｙ２）
［直線２について］
始点（ｘ３、ｙ３）、終点（ｘ４、ｙ４）
とするとき、
｜ｙ１−ｙ２｜＜Ｐ１かつ
｜ｙ３−ｙ４｜＜Ｐ１
であること。ただし、ここでＰ１は閾値とする。

また、さらに最長の２直線が十分に平行であることをチェックすることも、精度向上のために有効である。２直線が平行であることのチェックの方法としては、前述の水平条件に加え、
｜｜ｙ１−ｙ２｜−｜ｙ３−ｙ４｜｜＜Ｐ２
であることを調べる。ただし、ここでＰ２はＰ１より小さい閾値とする。
（３）続いて、最長の２直線の長さが大きく離れていないことをチェックする。チェック方法としては、上記の条件において、
｜｜ｘ２−ｘ１｜−｜ｘ３−ｘ４｜｜＜Ｐ３であること。Ｐ３は閾値とする。
（４）２直線間の距離から、検索窓領域の高さを取得し、検索窓領域の横の長さに対して十分小さいことをチェックする。上記（１）により、すでに２直線が画面に対して水平かつ平行に近いことは確認されているため、検索窓領域の高さは、ｙ座標の平均値を比較することで得られる。すなわち、次の数式で得ることができる。

ここで、Ｐ４は係数である。

この形状判別処理は、検索窓領域の枠として得られた直線の座標情報に対してのみ計算をすればよく、後述する処理に比べ軽量である。従って、この処理で候補を絞り込むことで、全体の計算量を減らすことができる。図９は、上記の形状判別処理の考え方を概念的に示す図である。

次に、文字配置判別を行なう（ステップＳ１４）。検索窓領域内には、検索キーワードが記述される。検索窓領域はインターネットの検索エンジンを模倣しているため、この検索キーワードの水平方向の位置は中央、または左詰、垂直方向の位置は、中央または下よりである。文字配置判別部１４では、この文字位置を判別することによって、野球中継におけるスコアボード、番組のテロップ、画面に表示された表のカラムなどを取り除く。文字位置の判別は以下の２つの処理のいずれか、またはその両方を行なう。

（１）色ヒストグラムの分布を見る手法
色ヒストグラム算出部１３によって、検出された多角形内の色ヒストグラムを算出する。ヒストグラムの頻度が一番大きい部分が背景色であり、２番目に大きい部分が文字であると判別できる。この２番目に頻度の高い色の値を持つ部分の配置から、中に文字の入った検索窓領域か否かを判別する。
水平方向判別としては、水平方向の座標を、検出された検索窓領域候補内の左上の頂点座標を（ｘ１、ｙ１）、右下の頂点座標を（ｘｎ、ｙｎ）としたとき、垂直方向座標がｙ１である全ての画素について、２番目に高い頻度を持つ画素の出現頻度を算出する。画素ｙ＋１、ｙ＋２についても同様の処理を行ない、出現最終的にｙｎまで頻度を算出する。中に文字の入った検索窓領域の場合、画素の出現頻度が閾値を超えるのは、ｙ座標では座標がｙｎに近い位置（つまり、下詰め）、ｘ座標では、座標がｘ１に近い方向または中央（つまり、左詰めまたは中央詰め）になる。
（ｙ１付近の出現頻度アベレージ）≧（ｙｎ付近の出現頻度アベレージ）
（ｘ１付近の出現頻度アベレージ）≦（ｘｎ付近の出現頻度アベレージ）
である場合、検索窓領域で無いと判別する（ステップＳ１３）。
（２）コーナー検出によって文字のコーナーの分布を見る方法
文字はいずれの言語であっても、直線・曲線・点から構成される。そのため、文字領域は大小さまざまなコーナーを含む。従って、このコーナーを検出することで、文字の配置を検出することが可能となる。コーナー検出の手法は、Ｈａｒｒｉｓの手法等既存の手法を利用可能であるが、検出したコーナーから、文字の配置の検索窓領域らしさを判別する部分は、本発明の特徴の一つである。

図７Ａは、これまでの処理によって検出された検索窓領域の例を示す図であり、図７Ｂは、その領域に対してコーナー検出を行なった結果を示す。丸の部分が、検出されたコーナーである。

ここで、水平方向、垂直方向それぞれに対して、コーナーの出現頻度から文字の配置判別を行なう。今、検索窓領域内を、垂直方向、水平方向について、それぞれ適当な数に分割し（図８参照）、分割された領域内のエッジの個数を算出し、それぞれのエリアに対して、検出されたエッジの個数＞Ｐとなるエリアを文字が含まれたエリアと判別する。

ここで、分割された領域のうち、文字が出現しない領域のみで構成される縦列を右から数えたものを、「右方向の空白数Ｅｍｐｔｙｒ」と定義する。図８では、右方向の空白数は２である。左方向（Ｅｍｐｔｙｌ）、上（Ｅｍｐｔｙｃ）下（Ｅｍｐｔｙｆ）についても同様に空白数を算出する。

ここで、文字が横方向では左詰めまたは中央詰め、縦方向では中央詰めまたは下詰めになることから、
Ｅｍｐｔｙｌ＝＞Ｔ１＊Ｅｍｐｔｙｒ
Ｅｍｐｔｙｆ＝＞Ｔ２＊Ｅｍｐｔｙｃ
の場合、検索窓領域で無いと判断する。ここで、Ｔ１、Ｔ２は定数である。

以上のようにして、多角形内のヒストグラム配置が検索窓領域として適切である場合は、検索窓候補であるとする（ステップＳ１５）。

次に、位置判別処理を行なう（ステップＳ１６）。検索窓領域を用いたテレビＣＭにおいては、検索窓領域のそばに、検索ボタンを模したオブジェクトがおかれる例が多い。このオブジェクトは、検索窓領域内部と非常に近い傾向を持つため、誤検知が起こりやすいが、検索ボタンには以下の傾向がある。
「検索窓領域よりも横の長さが小さく、検索窓領域の右に置かれる。」

位置判別部１６では、抽出された検索窓領域候補に対して、そのうちひとつが上記を満たす場合、それは検索ボタンと判断し、取り除く処理を行なう。すなわち、一つの画像中から、検索窓の候補となる領域が複数見つかった場合、候補ｎを形成する領域の右上点座標を（ｘｎ、ｙｎ）、領域の横の長さをｗｎ、候補ｍを形成する領域の右上座標を（ｘｍ、ｙｍ）、領域の横の長さをｗｍとするとき、
｜ｙｎ−ｙｍ｜＜Ｐ５かつ
ｘｎ＜＝ｘｍ − ｗｍかつ
ｗｎ＞ｗｍ × Ｐ６
を満たすとき、候補ｍは検索ボタンと判断し、検索窓領域候補から取り除く。ステップＳ１６において、検索ボタンである場合は、検索窓候補でないとされる（ステップＳ１７）。検索ボタンで無い場合は、次の処理へ進む。

次に、表示時間判別を行なう（ステップＳ１８）。検索窓領域広告においては、検索窓領域は、少なくともユーザが目で確認できる時間だけは表示されるという特徴があるため、一定時間ｎだけ表示されているかの判別を行なう。ここで、検索窓領域の特徴として、窓の中に文字が動的に入力されていくことで、検索窓領域内部には変化がおきるが、検索窓領域を形成する枠線そのものは変化しないという特徴を用い、この枠線が固定されているかで判別を行なう。

判別方法としては、上記のエッジ抽出処理と、形状判別処理を行なう。ここで、前述の通り検索窓領域には矩形ではなく図６Ｂのような形状を持ったものも含まれるため、簡略化のため、この表示時間判別には、水平方向の２線分を用い、現在のフレームにおける検索窓領域候補の最長の線分が、ｎフレーム後も同じ位置にある場合、検索窓領域候補はｎフレーム後も存在していると判別する。ここまでの処理で、検索窓領域候補を１つに絞り込む（ステップＳ１９）。

図２において、検索窓領域の抽出が終了すると（ステップＳ２）、ユーザへの検索窓領域の提示を行なう（ステップＳ３）。次に、文字入力完了判別を行なう（ステップＳ４）。この文字入力完了判別処理は、図４に示すフローチャートに従って行なわれる。ここで、検索窓領域中の文字表示には、以下の２種類の表示方法がある。
（１）全ての文字が最初から入力されている。
（２）文字が徐々に入力されていく。

そのため、（２）のケースでは、認識した検索窓領域内の文字列を直に取得するのではなく、文字入力が完了したタイミングで取得することが望ましい。検索窓領域の入力完了を判断する手法としては、検索窓領域の最後の状態は文字入力が完了しているため、シーンチェンジがおこるまで待って検索窓領域を取得するという手法が容易に考えられる。しかし、その手法では、（１）の場合に窓領域を認識するまで時間がかかるという問題がある。

そこで、図４に示すフローチャートに基づき、（１）と（２）双方に対応する文字入力完了判別を行なう。文字入力完了判別部１７は、検索窓領域候補を取得した後、対象のフレームより、時間的にｍフレーム後のフレームの後続フレームを同様に取得する（ステップＳ２０）。前述の通り、検索窓領域は、少なくともユーザが目で確認できる時間だけは表示されるという特徴があるため、ここで取得間隔ｍはその時間よりも小さい間隔で行なう。

ここで、シーンチェンジを検出する（ステップＳ２１）。シーンチェンジが検出された場合、現在フレームの検索窓領域を文字入力完了した状態として取得する（ステップＳ２２）。一方、ステップＳ２１において、シーンチェンジが検出されない場合、検索窓領域内に対して、色ヒストグラム分析を行ない、直前フレームと比較する（ステップＳ２３）。ここでは、図１に示す後続フレームヒストグラム情報１５を利用する。ヒストグラムに変化がある場合、まだ文字が入力途中であると判断し、ステップＳ２０に遷移して、さらにｍフレーム後の画像を取得する。画素の出現頻度が変化しなかった場合は文字入力は終了したと判断し、検索窓領域内の画像を取得する（ステップＳ２２）。

図１０は、上記各処理の結果、検索窓領域と認められる場合と認められない場合の例を示す図である。なお、線図では表現できないが、領域を多角形で近似した後、その領域内の色相が、検索窓らしい（すなわち、単色の背景上に文字色が存在し、そのヒストグラムが２箇所に偏りを生じる）ことを利用した判定を追加で行なうことも可能である。

以上のようにして、検索窓領域内の画像を取得した後、文字認識処理を行なう。すなわち、取得された検索窓領域内の画像に対して、文字認識処理を行ない、キーワードを取得する。この処理には、既存の手法を用いることができる。

また、上記の各処理により、キーワードが抽出された場合、画像処理装置１０は、ユーザに対して検索が可能であることを通知する。この通知は、例えば画面に「Ｉｎｆｏボタンを押すと○○について検索します」と表示する等である。ユーザは、抽出されたキーワードに興味がある場合、Ｉｎｆｏボタンを押すことで、映像受信装置が備えるブラウザを起動させ、簡便にキーワードを用いて検索することができる。

以上説明したように、本実施形態によれば、高い精度で映像中の文字入力領域のみを検出することが可能となる。その結果、キーボードを用いずに簡易にキーワード検索を行なうことが可能となる。

本発明の実施形態に係る画像処理装置の概略構成を示すブロック図である。本発明の実施形態に係る画像処理装置の動作を示すメインフローチャートである。文字入力領域（以下、「検索窓領域」と呼称する。）の抽出動作を示すフローチャートである。文字入力完了判別動作を示すフローチャートである。現画像の例を示す図である。図５Ａから抽出されたエッジ画像の例を示す図である。多角形近似された結果の例を示す図である。検索窓領域の形状を示す図である。検索窓領域の形状を示す図である。検索窓領域の形状を示す図である。上記処理によって検出された検索窓領域の例を示す図である。その領域に対してコーナー検出を行なった結果を示す図である。検索窓領域内を、垂直方向、水平方向について、それぞれ適当な数に分割した様子を示す図である。形状判別処理を概念的に示す図である。上記各処理の結果、検索窓領域と認められる場合と認められない場合の例を示す図である。

符号の説明

１０画像処理装置
１１多角形抽出部
１２形状判別部
１３色ヒストグラム算出部
１４文字配置判別部
１６位置判別部
１７文字入力完了判別部
１８文字認識部
１９映像信号入力部

Claims

画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理装置であって、
前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する抽出部と、
前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する形状判別部と、
前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する文字配置判別部と、
前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する文字入力完了判別部と、を備え、
前記文字配置判別部は、文字数の変化が終了したときにキーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出することを特徴とする画像処理装置。
前記抽出部は、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出することを特徴とする請求項１記載の画像処理装置。
前記抽出部は、前記多角形近似の結果のうち、４頂点以上の多角形の中から、最長の２直線が画面に対して水平である多角形を文字入力領域の候補として抽出することを特徴とする請求項２記載の画像処理装置。
前記抽出部は、前記多角形近似の結果のうち、４頂点以上の多角形の中から、最長の２直線が画面に対して水平であり、かつ、その２直線の長さが等しい多角形を、文字入力領域の候補として抽出することを特徴とする請求項２記載の画像処理装置。
前記抽出部は、前記多角形近似の結果のうち、画面に対して水平な２直線間の距離から、前記多角形の高さを求め、その高さが、前記多角形の横の長さの所定の割合以下の長さである領域を、文字入力領域の候補として抽出することを特徴とする請求項２記載の画像処理装置。
前記文字配置判別部は、前記多角形近似によって得られた領域に対して、色ヒストグラムを算出し、その頻度から、背景色、文字色を判別し、文字色の出現頻度から、文字入力領域であるか否かを判別することを特徴とする請求項２記載の画像処理装置。
前記文字配置判別部は、前記多角形近似によって得られた領域に対して、コーナー検出を行ない、検出されたコーナーの頻度から領域内の文字の配置を判別し、文字の配置から、文字入力領域であるか否かを判別することを特徴とする請求項２記載の画像処理装置。
前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、複数の文字入力領域が抽出された際に、それらの間の横の長さの比および画面内での位置関係から、前記文字入力領域以外の領域を取り除く位置判別部をさらに備えることを特徴とする請求項１または２に記載の画像処理装置。
前記文字配置判別部により抽出された文字入力領域の形状を有する映像を、文字認識を行なう文字認識部に出力し、文字認識部によって認識された文字を用いて、キーワード検索を行なうことを特徴とする請求項１から請求項８のいずれかに記載の画像処理装置。
画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理方法であって、
抽出部において、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出するステップと、
形状判別部において、前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出するステップと、
文字入力完了判別部において、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別するステップと、
文字配置判別部において、文字数の変化が終了したときに、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出するステップと、を少なくとも含むことを特徴とする画像処理方法。
画面に表示された映像に含まれる文字入力領域の映像を検出するプログラムであって、
前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する処理と、
前記抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する処理と、
前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する処理と、
前記文字数の変化が終了したときに、前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する処理と、の一連の処理が、コンピュータに読み取りおよび実行可能にコマンド化されたことを特徴とするプログラム。