JP5090330B2 - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP5090330B2
JP5090330B2 JP2008332311A JP2008332311A JP5090330B2 JP 5090330 B2 JP5090330 B2 JP 5090330B2 JP 2008332311 A JP2008332311 A JP 2008332311A JP 2008332311 A JP2008332311 A JP 2008332311A JP 5090330 B2 JP5090330 B2 JP 5090330B2
Authority
JP
Japan
Prior art keywords
character input
input area
character
shape
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008332311A
Other languages
English (en)
Other versions
JP2010152800A (ja
Inventor
知彦 高橋
勝 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008332311A priority Critical patent/JP5090330B2/ja
Publication of JP2010152800A publication Critical patent/JP2010152800A/ja
Application granted granted Critical
Publication of JP5090330B2 publication Critical patent/JP5090330B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Description

本発明は、画面に表示された映像に含まれる文字入力領域の映像を検出する技術に関する。
従来から、与えられた画像の中から文字を認識する文字認識技術が知られている。例えば、特許文献1に開示されている文字認識装置は、文書をスキャナで読み込み、その画像を画像処理部が処理し、文字列化部が文字列化する。特徴抽出部は、それらから文字の特徴を抽出する。マッチング部は、その特徴を辞書と比較し、最も相似しているカテゴリを結果出力する。特徴抽出部の前に文字種別判定部が配設されていて、各入力文字の大きさによる種別分類を判定する。辞書は種別分類を備えていて、文字種別判定部は、文字列中の文字のうち最大の高さHを基準として、文字の大きさがH/th角以下のものを「小文字」と分類する。マッチング部は、種別判定処理で得た種別分類に対応する辞書のみとマッチング処理を行なう。
一方、近年、テレビCMなどで、画像中にインターネット検索エンジンの検索窓を表示し、そこにあるキーワードを入力した画面を提示することで、インターネットによる検索を促す手法が一般的になりつつある。この検索窓を利用したCMにおいては、検索窓は一種の文字入力領域として働き、ユーザが検索窓中に文字を入力し、検索することを促すものであり、この検索窓中に提示されたキーワードは、あらかじめ広告主のサイトが検索結果の最上位に来るように調整されたものであり、このキーワードを用いて手軽に検索可能な仕組みを提供することは、非常に有意義である。
従って、画面中から所望の文字が含まれた検索窓領域のみを正確に検知する技術があれば、前記技術との組み合わせによって、検索窓領域に含まれる文字の取得が可能となる。しかしながら、従来、テレビ映像中から、検索窓領域のみを識別し、その領域を正確に検出する技術は存在していなかった。一方で、テレビ映像において、検索窓領域同様、テキストを提示するための表現方法としては、テロップがある。テレビ番組中のテロップ領域を認識する技術としては、例えば以下が知られている。
特許文献2では、テロップが「(1)画面の上部または下部の所定領域に表示される。」、「(2)テロップ出現時およびテロップ終了時、輝度変化がおきる。」という特徴を用いて、テロップを検出する。また、特許文献3では、「(3)テロップは背景画像に対して高輝度であるという特徴を用い、検出されたエッジと輝度2値化画像の組み合わせにより、テロップ検出する。」ということを行なっている。更に、特許文献4では、「(4)テロップ領域は、自然画に比べ、一定時間、安定した輝度状態を保つ。」、「(5)テロップ領域は自然画に比べ均一的な輝度レベルを示す。」という特徴を用い、テロップを検出している。
特開平5−28318号公報 特開平12−23062号公報 特開平12−182053号公報 特開平10−233994号公報
しかしながら、文字入力領域としての検索窓領域は、画面の上部または下部の所定領域に表示されるわけではないので、上記(1)の特徴を利用することはできない。また、検索窓領域が表示されたとしても、常に輝度変化が起きるわけではないので、上記(2)の特徴を利用することはできない。また、検索窓領域は、背景画像に対して高輝度であるとは限らないため、上記(3)の特徴を利用することはできない。さらに、上記(4)の特徴についても、検索窓領域のあるCMでは、画面全体が静止画になるような例が少なからず存在するため、利用できない。上記(5)の特徴は、検索窓領域においても同様の傾向が見られるものの、この特徴のみで検索窓領域の検出を試みた場合、十分な精度を得ることが出来ず、テレビ映像に含まれる検索窓領域に似た物体を、検索窓領域と誤検知してしまう。
本発明は、このような事情に鑑みてなされたものであり、テレビ映像を解析することによって、テレビ映像中の検索窓領域のみを正確に認識することができる画像処理装置、画像処理方法およびプログラムを提供することを目的とする。
なお、本発明の課題を解決する別の手段として、検索キーワードを、字幕として含むことが容易に考えられるが、2008年11月現在、CM放送には字幕情報が含まれないため、前述の検索キーワードは、映像としてのみ存在し、ユーザに対してテキストとして提供する手段は無い。
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の画像処理装置は、画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理装置であって、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する抽出部と、前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する形状判別部と、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する文字配置判別部と、を備えることを特徴としている。
この構成により、高い精度で映像中の文字入力領域のみを検出することが可能となる。また、文字配置判別部は、文字入力領域内の文字情報の配置を抽出する処理を行なう。この文字情報配置判別処理は、文字の認識処理(すなわち、文字を個々の辞書と照らし合わせる処理)ではなく、画像中から、文字に一般的に見られる特徴量の存在を抽出し、その配置を調査する、軽量な処理のみを行なう。本文字情報は、位置判別処理を行なうことにより、文字入力領域でない候補を除外することで、精度良く文字入力領域を抽出することができ、無駄な文字認識処理を回避することができる。
(2)また、本発明の画像処理装置において、前記抽出部は、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出することを特徴としている。
このように、色ヒストグラム処理や文字入力領域内の文字配置の判別といった処理の前に、文字入力領域として期待される形状に基づいた抽出処理を行ない、文字入力領域の候補を大幅に削減することで、処理負担の軽減と動作の迅速化を図ることが可能となる。
(3)また、本発明の画像処理装置において、前記抽出部は、前記多角形近似の結果のうち、4頂点以上の多角形の中から、最長の2直線が画面に対して水平である多角形を文字入力領域の候補として抽出することを特徴としている。
このように、多角形近似の結果のうち、4頂点以上の多角形の中から、最長の2直線が画面に対して水平である多角形を文字入力領域の候補として抽出するので、処理負担の軽減と動作の迅速化を図ることが可能となる。
(4)また、本発明の画像処理装置において、前記抽出部は、前記多角形近似の結果のうち、4頂点以上の多角形の中から、最長の2直線が画面に対して水平であり、かつ、その2直線の長さが等しい多角形を、文字入力領域の候補として抽出することを特徴としている。
このように、多角形近似の結果のうち、4頂点以上の多角形の中から、最長の2直線が画面に対して水平であり、かつ、その2直線の長さが等しい多角形を、文字入力領域の候補として抽出するので、処理負担の軽減と動作の迅速化を図ることが可能となる。
(5)また、本発明の画像処理装置において、前記抽出部は、前記多角形近似の結果のうち、画面に対して水平な2直線間の距離から、前記多角形の高さを求め、その高さが、前記多角形の横の長さの所定の割合以下の長さである領域を、文字入力領域の候補として抽出することを特徴している。
このように、多角形近似の結果のうち、画面に対して水平な2直線間の距離から、多角形の高さを求め、その高さが、多角形の横の長さの所定の割合以下の長さである領域を、文字入力領域の候補として抽出するので、処理負担の軽減と動作の迅速化を図ることが可能となる。ここで、「多角形の高さが、多角形の横の長さの所定の割合以下である」とは、例えば、多角形の高さが、多角形の横の長さの1/3以下である、というように定めることができる。すなわち、一般的によく知られている検索用の文字入力領域に近似する形状のみを抽出することができる。
(6)また、本発明の画像処理装置において、前記文字配置判別部は、前記多角形近似によって得られた領域に対して、色ヒストグラムを算出し、その頻度から、背景色、文字色を判別し、文字色の出現頻度から、文字入力領域であるか否かを判別することを特徴としている。
このように、多角形近似によって得られた領域に対して、色ヒストグラムを算出し、その頻度から、背景色、文字色を判別し、文字色の出現頻度から、文字入力領域であるか否かを判別するので、高い精度で文字入力領域を抽出することが可能となる。
(7)また、本発明の画像処理装置において、前記文字配置判別部は、前記多角形近似によって得られた領域に対して、コーナー検出を行ない、検出されたコーナーの頻度から領域内の文字の配置を判別し、文字の配置から、文字入力領域であるか否かを判別することを特徴としている。
このように、多角形近似によって得られた領域に対して、コーナー検出を行ない、検出されたコーナーの頻度から領域内の文字の配置を判別し、文字の配置から、文字入力領域であるか否かを判別するので、高い精度で文字入力領域を抽出することが可能となる。
(8)また、本発明の画像処理装置は、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、複数の文字入力領域が抽出された際に、それらの間の横の長さの比および画面内での位置関係から、前記文字入力領域以外の領域を取り除く位置判別部をさらに備えることを特徴としている。
このように、形状判別部により抽出された文字入力領域の形状を有する映像のうち、複数の文字入力領域が抽出された際に、それらの間の横の長さの比および画面内での位置関係から、文字入力領域以外の領域を取り除くので、高い精度で文字入力領域を抽出することが可能となる。
(9)また、本発明の画像処理装置は、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する文字入力完了判別部をさらに備え、前記文字配置判別部は、文字数の変化が終了したときにキーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出することを特徴としている。
この構成により、文字入力領域に文字が徐々に入力されている映像であっても、文字入力が完了したタイミングで文字入力領域の形状を有する映像を抽出することが可能となる。
(10)また、本発明の画像処理装置において、前記文字配置判別部により抽出された文字入力領域の形状を有する映像を、文字認識を行なう文字認識部に出力し、文字認識部によって認識された文字を用いて、キーワード検索を行なうことを特徴としている。
この構成により、例えば、ユーザがテレビCMを視聴中に、文字入力領域のところでリモコンボタンを押すことによって、キーワード検索をすることが可能となる。
(11)また、本発明の画像処理方法は、画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理方法であって、抽出部において、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出するステップと、形状判別部において、前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出するステップと、文字入力完了判別部において、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別するステップと、文字配置判別部において、文字数の変化が終了したときに、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出するステップと、前記文字配置判別部により抽出された文字入力領域の形状を有する映像を出力するステップと、を少なくとも含むことを特徴としている。
この構成により、高い精度で映像中の文字入力領域のみを検出することが可能となる。また、文字配置判別部は、文字入力領域内の文字情報の配置を抽出する処理を行なう。この文字情報配置判別処理は、文字の認識処理(すなわち、文字を個々の辞書と照らし合わせる処理)ではなく、画像中から、文字に一般的に見られる特徴量の存在を抽出し、その配置を調査する、軽量な処理のみを行なう。本文字情報は、位置判別処理を行なうことにより、文字入力領域でない候補を除外することで、精度良く文字入力領域を抽出することができ、無駄な文字認識処理を回避することができる。
(12)また、本発明のプログラムは、画面に表示された映像に含まれる文字入力領域の映像を検出するプログラムであって、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する処理と、前記抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する処理と、前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する処理と、前記文字数の変化が終了したときに、前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する処理と、前記抽出された文字入力領域の形状を有する映像を出力する処理と、の一連の処理が、コンピュータに読み取りおよび実行可能にコマンド化されたことを特徴としている。
この構成により、高い精度で映像中の文字入力領域のみを検出することが可能となる。また、文字配置判別部は、文字入力領域内の文字情報の配置を抽出する処理を行なう。この文字情報配置判別処理は、文字の認識処理(すなわち、文字を個々の辞書と照らし合わせる処理)ではなく、画像中から、文字に一般的に見られる特徴量の存在を抽出し、その配置を調査する、軽量な処理のみを行なう。本文字情報は、位置判別処理を行なうことにより、文字入力領域でない候補を除外することで、精度良く文字入力領域を抽出することができ、無駄な文字認識処理を回避することができる。
本発明によれば、高い精度で映像中の文字入力領域のみを検出することが可能となる。その結果、キーボードを用いずに簡易にキーワード検索を行なうことが可能となる。
図1は、本発明の実施形態に係る画像処理装置の概略構成を示すブロック図である。また、図2は、本発明の実施形態に係る画像処理装置の動作を示すメインフローチャートであり、図3は、文字入力領域(以下、「検索窓領域」と呼称する。)の抽出動作を示すフローチャートであり、また、図4は、文字入力完了判別動作を示すフローチャートである。図1において、画像処理装置10は、多角形抽出部11、形状判別部12、色ヒストグラム算出部13、文字配置判別部14、位置判別部16、文字入力完了判別部17を備えている。また、画像処理装置10は、映像信号入力部19から映像信号を入力し、処理結果を文字認識部18に出力する。
本発明の実施形態では、インターネット接続機能を備えたテレビ受信機が、本発明の画像処理装置10を内蔵し、ユーザはテレビのリモコン操作によって本発明の機能を用いることが出来るものとする。
図2において、まず、画像処理装置10は、ユーザが視聴しているテレビ映像から、一定間隔でフレームの情報を取得する。検索窓領域は、その領域に表示される検索キーワードを、視聴者に覚えてもらう必要があるため、数秒間表示される。一般にテレビ映像は1秒あたり29.97フレームから構成されるため、画像処理装置10は、数十フレームに一度の周期で、1フレームを抽出する(ステップS1)ことで、検索窓領域が含まれたフレームを、もれなく抽出することが可能である。次に、検索窓領域の抽出を行なう(ステップS2)。この検索窓領域の抽出動作は、図3に示すフローチャートに従って行なわれる。
図3において、まず、エッジ抽出・多角形近似を行なう(ステップS10)。検索窓領域は、キーワードが枠線で囲まれる形で構成されるため、その輪郭は、閉じた多角形で近似可能である。そこで、検索窓領域を4頂点以上の多角形で近似する。映像信号入力より得られた画像フレームに対して、多角形抽出部11では、まず、入力画像の輪郭を抽出する。輪郭を抽出する手法としては、任意の手法が利用可能であるが、例えばCannyフィルタ(J.Canny.A Computational Approach to Edge Detection, IEEE Trans. on Pattern Analysis and Machine Intelligence, 8(6), pp.679-698 (1986).)を用いてエッジを抽出することが考えられる。
図5Aは、現画像の例を示す図であり、図5Bは、そこから抽出されたエッジ画像の例を示す図である。検索窓領域のエッジは、閉じた枠線を形成する。この枠線を検出するため、抽出されたエッジ画像に対して直線検出を行なう。直線検出の手法は、任意の手法が適用可能であるが、例えば、ラドン変換を用いて直線を検出する方法が、特開2005−275447号公報に開示されている。次に、検出した直線に対して、それぞれが閉じた枠線を形成するかどうかを判別する。判別の方法は任意の手法が利用可能であるが、例えば、以下のような手法が利用可能である。
(1)検出された直線から一つを選び、直線と隣接する領域に直線があるかを調べる。
(2)(1)の処理で見つけた直線に移動し、(1)と同様に隣接する領域を調べる。
(3)上記の処理を繰り返し、最初に選んだ直線に戻れば、それは閉じた枠線であると判別する。
(4)上記1〜3の処理を、検出された全てのエッジについて調べ終わるまで繰り返す。
検出された直線を滑らかにするため、多角形での近似を行なう。近似のアルゴリズムは、任意の手法が利用可能であるが、例えば、Douglas-Peuckerアルゴリズム等が利用可能である。図5Cは、多角形近似された結果の例を示す図である。
次に、形状判別を行なう(ステップS11)。多角形が検索窓(領域)の形状であるかどうかを判断する(ステップS12)。形状判別部12では、ステップS10で得られた多角形の形状から、検索窓領域でないものを取り除く。検索窓領域の形状は図6Aのような矩形が一般的であるが、図6B、図6Cのような形も見られる。しかしながら、検索窓(領域)は、中に文字を入力するという性質から、画面に対して平行に配置され、また、インターネットの検索をイメージさせる必要性から、横長で、上下の線分の長さがほぼ等しい多角形である。すなわち、台形やひし形の中に記載された文字では、インターネットの検索を十分に想起させることが出来ない。そのため、少なくとも4頂点を持つ四角形であり、場合によってはそれ以上の多角形である。そこで、多角形近似の結果から、形状判別部12において以下の判別処理を行なう。
(1)4頂点より少ない頂点を持つ領域を除外する。なぜならば、検索窓領域は少なくとも平行な二直線を持つため、4角形以上の多角形、多くは4角形になるためである。
(2) 多角系に含まれる最長の2直線を選択し、それが画面に対して十分に水平であることをチェックする。チェックの方法としては、最長の2直線の始点と終点が、それぞれ、
[直線1について]
始点(x1,y1)、終点(x2,y2)
[直線2について]
始点(x3、y3)、終点(x4、y4)
とするとき、
|y1−y2|<P1 かつ
|y3−y4|<P1
であること。ただし、ここでP1は閾値とする。
また、さらに最長の2直線が十分に平行であることをチェックすることも、精度向上のために有効である。2直線が平行であることのチェックの方法としては、前述の水平条件に加え、
||y1−y2|−|y3−y4||<P2
であることを調べる。ただし、ここでP2はP1より小さい閾値とする。
(3)続いて、最長の2直線の長さが大きく離れていないことをチェックする。チェック方法としては、上記の条件において、
||x2−x1|−|x3−x4||<P3であること。P3は閾値とする。
(4)2直線間の距離から、検索窓領域の高さを取得し、検索窓領域の横の長さに対して十分小さいことをチェックする。上記(1)により、すでに2直線が画面に対して水平かつ平行に近いことは確認されているため、検索窓領域の高さは、y座標の平均値を比較することで得られる。すなわち、次の数式で得ることができる。

ここで、P4は係数である。
この形状判別処理は、検索窓領域の枠として得られた直線の座標情報に対してのみ計算をすればよく、後述する処理に比べ軽量である。従って、この処理で候補を絞り込むことで、全体の計算量を減らすことができる。図9は、上記の形状判別処理の考え方を概念的に示す図である。
次に、文字配置判別を行なう(ステップS14)。検索窓領域内には、検索キーワードが記述される。検索窓領域はインターネットの検索エンジンを模倣しているため、この検索キーワードの水平方向の位置は中央、または左詰、垂直方向の位置は、中央または下よりである。文字配置判別部14では、この文字位置を判別することによって、野球中継におけるスコアボード、番組のテロップ、画面に表示された表のカラムなどを取り除く。文字位置の判別は以下の2つの処理のいずれか、またはその両方を行なう。
(1) 色ヒストグラムの分布を見る手法
色ヒストグラム算出部13によって、検出された多角形内の色ヒストグラムを算出する。ヒストグラムの頻度が一番大きい部分が背景色であり、2番目に大きい部分が文字であると判別できる。この2番目に頻度の高い色の値を持つ部分の配置から、中に文字の入った検索窓領域か否かを判別する。
水平方向判別としては、水平方向の座標を、検出された検索窓領域候補内の左上の頂点座標を(x1、y1)、右下の頂点座標を(xn、yn)としたとき、垂直方向座標がy1である全ての画素について、2番目に高い頻度を持つ画素の出現頻度を算出する。画素y+1、y+2についても同様の処理を行ない、出現最終的にynまで頻度を算出する。中に文字の入った検索窓領域の場合、画素の出現頻度が閾値を超えるのは、y座標では座標がynに近い位置(つまり、下詰め)、x座標では、座標がx1に近い方向または中央(つまり、左詰めまたは中央詰め)になる。
(y1付近の出現頻度アベレージ)≧(yn付近の出現頻度アベレージ)
(x1付近の出現頻度アベレージ)≦(xn付近の出現頻度アベレージ)
である場合、検索窓領域で無いと判別する(ステップS13)。
(2)コーナー検出によって文字のコーナーの分布を見る方法
文字はいずれの言語であっても、直線・曲線・点から構成される。そのため、文字領域は大小さまざまなコーナーを含む。従って、このコーナーを検出することで、文字の配置を検出することが可能となる。コーナー検出の手法は、Harrisの手法等既存の手法を利用可能であるが、検出したコーナーから、文字の配置の検索窓領域らしさを判別する部分は、本発明の特徴の一つである。
図7Aは、これまでの処理によって検出された検索窓領域の例を示す図であり、図7Bは、その領域に対してコーナー検出を行なった結果を示す。丸の部分が、検出されたコーナーである。
ここで、水平方向、垂直方向それぞれに対して、コーナーの出現頻度から文字の配置判別を行なう。今、検索窓領域内を、垂直方向、水平方向について、それぞれ適当な数に分割し(図8参照)、分割された領域内のエッジの個数を算出し、それぞれのエリアに対して、検出されたエッジの個数>Pとなるエリアを文字が含まれたエリアと判別する。
ここで、分割された領域のうち、文字が出現しない領域のみで構成される縦列を右から数えたものを、「右方向の空白数Empty r」と定義する。図8では、右方向の空白数は2である。左方向(Empty l)、上(Empty c)下(Empty f)についても同様に空白数を算出する。
ここで、文字が横方向では左詰めまたは中央詰め、縦方向では中央詰めまたは下詰めになることから、
Empty l=>T1*Empty r
Empty f=>T2*Empty c
の場合、検索窓領域で無いと判断する。ここで、T1、T2は定数である。
以上のようにして、多角形内のヒストグラム配置が検索窓領域として適切である場合は、検索窓候補であるとする(ステップS15)。
次に、位置判別処理を行なう(ステップS16)。検索窓領域を用いたテレビCMにおいては、検索窓領域のそばに、検索ボタンを模したオブジェクトがおかれる例が多い。このオブジェクトは、検索窓領域内部と非常に近い傾向を持つため、誤検知が起こりやすいが、検索ボタンには以下の傾向がある。
「検索窓領域よりも横の長さが小さく、検索窓領域の右に置かれる。」
位置判別部16では、抽出された検索窓領域候補に対して、そのうちひとつが上記を満たす場合、それは検索ボタンと判断し、取り除く処理を行なう。すなわち、一つの画像中から、検索窓の候補となる領域が複数見つかった場合、候補nを形成する領域の右上点座標を(xn、yn)、領域の横の長さをwn、候補mを形成する領域の右上座標を(xm、ym)、領域の横の長さをwmとするとき、
|yn−ym| < P5 かつ
xn <= xm − wm かつ
wn > wm × P6
を満たすとき、候補mは検索ボタンと判断し、検索窓領域候補から取り除く。ステップS16において、検索ボタンである場合は、検索窓候補でないとされる(ステップS17)。検索ボタンで無い場合は、次の処理へ進む。
次に、表示時間判別を行なう(ステップS18)。検索窓領域広告においては、検索窓領域は、少なくともユーザが目で確認できる時間だけは表示されるという特徴があるため、一定時間nだけ表示されているかの判別を行なう。ここで、検索窓領域の特徴として、窓の中に文字が動的に入力されていくことで、検索窓領域内部には変化がおきるが、検索窓領域を形成する枠線そのものは変化しないという特徴を用い、この枠線が固定されているかで判別を行なう。
判別方法としては、上記のエッジ抽出処理と、形状判別処理を行なう。ここで、前述の通り検索窓領域には矩形ではなく図6Bのような形状を持ったものも含まれるため、簡略化のため、この表示時間判別には、水平方向の2線分を用い、現在のフレームにおける検索窓領域候補の最長の線分が、nフレーム後も同じ位置にある場合、検索窓領域候補はnフレーム後も存在していると判別する。ここまでの処理で、検索窓領域候補を1つに絞り込む(ステップS19)。
図2において、検索窓領域の抽出が終了すると(ステップS2)、ユーザへの検索窓領域の提示を行なう(ステップS3)。次に、文字入力完了判別を行なう(ステップS4)。この文字入力完了判別処理は、図4に示すフローチャートに従って行なわれる。ここで、検索窓領域中の文字表示には、以下の2種類の表示方法がある。
(1)全ての文字が最初から入力されている。
(2)文字が徐々に入力されていく。
そのため、(2)のケースでは、認識した検索窓領域内の文字列を直に取得するのではなく、文字入力が完了したタイミングで取得することが望ましい。検索窓領域の入力完了を判断する手法としては、検索窓領域の最後の状態は文字入力が完了しているため、シーンチェンジがおこるまで待って検索窓領域を取得するという手法が容易に考えられる。しかし、その手法では、(1)の場合に窓領域を認識するまで時間がかかるという問題がある。
そこで、図4に示すフローチャートに基づき、(1)と(2)双方に対応する文字入力完了判別を行なう。文字入力完了判別部17は、検索窓領域候補を取得した後、対象のフレームより、時間的にmフレーム後のフレームの後続フレームを同様に取得する(ステップS20)。前述の通り、検索窓領域は、少なくともユーザが目で確認できる時間だけは表示されるという特徴があるため、ここで取得間隔mはその時間よりも小さい間隔で行なう。
ここで、シーンチェンジを検出する(ステップS21)。シーンチェンジが検出された場合、現在フレームの検索窓領域を文字入力完了した状態として取得する(ステップS22)。一方、ステップS21において、シーンチェンジが検出されない場合、検索窓領域内に対して、色ヒストグラム分析を行ない、直前フレームと比較する(ステップS23)。ここでは、図1に示す後続フレームヒストグラム情報15を利用する。ヒストグラムに変化がある場合、まだ文字が入力途中であると判断し、ステップS20に遷移して、さらにmフレーム後の画像を取得する。画素の出現頻度が変化しなかった場合は文字入力は終了したと判断し、検索窓領域内の画像を取得する(ステップS22)。
図10は、上記各処理の結果、検索窓領域と認められる場合と認められない場合の例を示す図である。なお、線図では表現できないが、領域を多角形で近似した後、その領域内の色相が、検索窓らしい(すなわち、単色の背景上に文字色が存在し、そのヒストグラムが2箇所に偏りを生じる)ことを利用した判定を追加で行なうことも可能である。
以上のようにして、検索窓領域内の画像を取得した後、文字認識処理を行なう。すなわち、取得された検索窓領域内の画像に対して、文字認識処理を行ない、キーワードを取得する。この処理には、既存の手法を用いることができる。
また、上記の各処理により、キーワードが抽出された場合、画像処理装置10は、ユーザに対して検索が可能であることを通知する。この通知は、例えば画面に「Infoボタンを押すと○○について検索します」と表示する等である。ユーザは、抽出されたキーワードに興味がある場合、Infoボタンを押すことで、映像受信装置が備えるブラウザを起動させ、簡便にキーワードを用いて検索することができる。
以上説明したように、本実施形態によれば、高い精度で映像中の文字入力領域のみを検出することが可能となる。その結果、キーボードを用いずに簡易にキーワード検索を行なうことが可能となる。
本発明の実施形態に係る画像処理装置の概略構成を示すブロック図である。 本発明の実施形態に係る画像処理装置の動作を示すメインフローチャートである。 文字入力領域(以下、「検索窓領域」と呼称する。)の抽出動作を示すフローチャートである。 文字入力完了判別動作を示すフローチャートである。 現画像の例を示す図である。 図5Aから抽出されたエッジ画像の例を示す図である。 多角形近似された結果の例を示す図である。 検索窓領域の形状を示す図である。 検索窓領域の形状を示す図である。 検索窓領域の形状を示す図である。 上記処理によって検出された検索窓領域の例を示す図である。 その領域に対してコーナー検出を行なった結果を示す図である。 検索窓領域内を、垂直方向、水平方向について、それぞれ適当な数に分割した様子を示す図である。 形状判別処理を概念的に示す図である。 上記各処理の結果、検索窓領域と認められる場合と認められない場合の例を示す図である。
符号の説明
10 画像処理装置
11 多角形抽出部
12 形状判別部
13 色ヒストグラム算出部
14 文字配置判別部
16 位置判別部
17 文字入力完了判別部
18 文字認識部
19 映像信号入力部

Claims (11)

  1. 画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理装置であって、
    前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する抽出部と、
    前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する形状判別部と、
    前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する文字配置判別部と、
    前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する文字入力完了判別部と、を備え、
    前記文字配置判別部は、文字数の変化が終了したときにキーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出することを特徴とする画像処理装置。
  2. 前記抽出部は、多角形近似を行なうことにより、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出することを特徴とする請求項1記載の画像処理装置。
  3. 前記抽出部は、前記多角形近似の結果のうち、4頂点以上の多角形の中から、最長の2直線が画面に対して水平である多角形を文字入力領域の候補として抽出することを特徴とする請求項2記載の画像処理装置。
  4. 前記抽出部は、前記多角形近似の結果のうち、4頂点以上の多角形の中から、最長の2直線が画面に対して水平であり、かつ、その2直線の長さが等しい多角形を、文字入力領域の候補として抽出することを特徴とする請求項2記載の画像処理装置。
  5. 前記抽出部は、前記多角形近似の結果のうち、画面に対して水平な2直線間の距離から、前記多角形の高さを求め、その高さが、前記多角形の横の長さの所定の割合以下の長さである領域を、文字入力領域の候補として抽出することを特徴とする請求項2記載の画像処理装置。
  6. 前記文字配置判別部は、前記多角形近似によって得られた領域に対して、色ヒストグラムを算出し、その頻度から、背景色、文字色を判別し、文字色の出現頻度から、文字入力領域であるか否かを判別することを特徴とする請求項2記載の画像処理装置。
  7. 前記文字配置判別部は、前記多角形近似によって得られた領域に対して、コーナー検出を行ない、検出されたコーナーの頻度から領域内の文字の配置を判別し、文字の配置から、文字入力領域であるか否かを判別することを特徴とする請求項2記載の画像処理装置。
  8. 前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、複数の文字入力領域が抽出された際に、それらの間の横の長さの比および画面内での位置関係から、前記文字入力領域以外の領域を取り除く位置判別部をさらに備えることを特徴とする請求項1または2に記載の画像処理装置。
  9. 前記文字配置判別部により抽出された文字入力領域の形状を有する映像を、文字認識を行なう文字認識部に出力し、文字認識部によって認識された文字を用いて、キーワード検索を行なうことを特徴とする請求項1から請求項8のいずれかに記載の画像処理装置。
  10. 画面に表示された映像に含まれる文字入力領域の映像を検出する画像処理方法であって、
    抽出部において、前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出するステップと、
    形状判別部において、前記抽出部により抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出するステップと、
    文字入力完了判別部において、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別するステップと、
    文字配置判別部において、文字数の変化が終了したときに、前記形状判別部により抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出するステップと、を少なくとも含むことを特徴とする画像処理方法。
  11. 画面に表示された映像に含まれる文字入力領域の映像を検出するプログラムであって、
    前記画面に表示された映像から文字入力領域の形状に近似する映像を抽出する処理と、
    前記抽出された文字入力領域の形状に近似する映像のうち、文字入力領域の形状を有する映像を抽出する処理と、
    前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内の文字数が時間と共に変化する場合、文字数の変化が終了したかどうかを判別する処理と、
    前記文字数の変化が終了したときに、前記抽出された文字入力領域の形状を有する映像のうち、文字入力領域の映像内に存在する文字の配列が、キーワード検索時に文字入力領域に入力されるべき文字の配列に近似する配列である文字入力領域の形状を有する映像を抽出する処理と、の一連の処理が、コンピュータに読み取りおよび実行可能にコマンド化されたことを特徴とするプログラム。
JP2008332311A 2008-12-26 2008-12-26 画像処理装置、画像処理方法およびプログラム Expired - Fee Related JP5090330B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008332311A JP5090330B2 (ja) 2008-12-26 2008-12-26 画像処理装置、画像処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008332311A JP5090330B2 (ja) 2008-12-26 2008-12-26 画像処理装置、画像処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010152800A JP2010152800A (ja) 2010-07-08
JP5090330B2 true JP5090330B2 (ja) 2012-12-05

Family

ID=42571783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008332311A Expired - Fee Related JP5090330B2 (ja) 2008-12-26 2008-12-26 画像処理装置、画像処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5090330B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MA34521B1 (fr) 2010-08-17 2013-09-02 Ambrx Inc Polypeptides de relaxine modifiés et leurs utilisations
US9567386B2 (en) 2010-08-17 2017-02-14 Ambrx, Inc. Therapeutic uses of modified relaxin polypeptides
JP5906843B2 (ja) 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
JP6155740B2 (ja) * 2013-03-22 2017-07-05 富士通株式会社 画像処理装置、画像処理プログラムおよび画像処理方法
TW201837051A (zh) 2017-02-08 2018-10-16 美商必治妥美雅史谷比公司 包含藥物動力學增強劑之經修飾之鬆弛素(relaxin)多肽及其用途
US20230094651A1 (en) 2021-09-30 2023-03-30 Konica Minolta Business Solutions U.S.A., Inc. Extracting text from an image
WO2023204265A1 (ja) * 2022-04-20 2023-10-26 京セラ株式会社 信号処理システムおよび信号処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2893814B2 (ja) * 1990-03-15 1999-05-24 住友電気工業株式会社 車番自動読取装置におけるプレート切出し装置
JPH11203404A (ja) * 1998-01-20 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体
JP2000268291A (ja) * 1999-03-18 2000-09-29 Nec Corp ナンバープレート認識装置
JP2007213416A (ja) * 2006-02-10 2007-08-23 Canon Inc 手書き文字列検索装置、手書き文字列検索方法及びプログラム
JP4853073B2 (ja) * 2006-03-27 2012-01-11 沖電気工業株式会社 帳票分類処理システム、電子媒体レセプトの作成方法および納入方法
JP4861845B2 (ja) * 2007-02-05 2012-01-25 富士通株式会社 テロップ文字抽出プログラム、記録媒体、方法及び装置

Also Published As

Publication number Publication date
JP2010152800A (ja) 2010-07-08

Similar Documents

Publication Publication Date Title
JP5090330B2 (ja) 画像処理装置、画像処理方法およびプログラム
US7949157B2 (en) Interpreting sign language gestures
CN101453575B (zh) 一种视频字幕信息提取方法
CN106254933B (zh) 字幕提取方法及装置
EP0720114B1 (en) Method and apparatus for detecting and interpreting textual captions in digital video signals
US11853347B2 (en) Product auditing in point-of-sale images
US7403657B2 (en) Method and apparatus for character string search in image
US20050196043A1 (en) Method and apparatus for detecting text associated with video
US20080240618A1 (en) Image-document retrieving apparatus, method of retrieving image document, program, and recording medium
KR100999056B1 (ko) 이미지 컨텐츠에 대해 트리밍을 수행하기 위한 방법, 단말기 및 컴퓨터 판독 가능한 기록 매체
JP5445467B2 (ja) クレジット情報区間検出方法、クレジット情報区間検出装置及びクレジット情報区間検出プログラム
US20050139782A1 (en) Face image detecting method, face image detecting system and face image detecting program
US8311269B2 (en) Blocker image identification apparatus and method
CN102802074A (zh) 从电视信号中提取文字信息并显示的方法及电视机
CN110855917A (zh) 一种台标调整方法、oled电视及存储介质
JP2012194705A (ja) 画像処理装置、画像処理方法および画像処理プログラム
KR20030027953A (ko) 영상 정보에서의 자동적인 자연 콘텐트 검출
JP2000182053A (ja) 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
JP5377649B2 (ja) 画像処理装置および映像再生装置
CN108304825B (zh) 一种文本检测方法及装置
TWI417796B (zh) Method of recognizing objects in images
EP1612725A1 (en) Image processing method and image processing device
JP2006268180A (ja) 画像処理システム
JP2003346081A (ja) 文字認識装置
JP4371306B2 (ja) カラー画像処理装置及びカラー画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees