JP3733161B2

JP3733161B2 - 画像処理装置および方法

Info

Publication number: JP3733161B2
Application number: JP19639095A
Authority: JP
Inventors: 伸一砂川; 一弘松林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-08-01
Filing date: 1995-08-01
Publication date: 2006-01-11
Anticipated expiration: 2015-08-01
Also published as: US5828782A; JPH0946519A

Description

【０００１】
【発明の属する技術分野】
本発明は、画像データを空間周波数軸上のデータに変換して、領域を判別する画像処理装置及び方法に関するものである
【従来の技術】
従来より、複写機やＯＣＲ機器等において、画像を空間周波数軸上のデータに変換し、写真領域や網点画像領域、文字領域を分離する方法が考案されている。
【０００２】
画像電子学会研究会予稿９３−０１−０２においては、文字画像と網点画像の周波数特性の違いに着目して像域分離する方法が開示されている。この方法では、まず、画像データを８×８サイズの小ブロックに分割し、離散コサイン変換（ＤＣＴ変換）を行なう。ＤＣＴ変換は、ＪＰＥＧ標準などの画像符号化方式に広く利用されており、画像データを周波数軸上のデータに変換するものである。この結果として、ブロックの係数は、その１行１列にブロック全体の直流成分が、列方向は水平方向の周波数、行方向は垂直方向の周波数を表すデータが格納されるようになる。各方向とも、行（列）の番号が増えるに従って、より高い周波数の強さを示している。上記のＤＣＴ変換に続いて、ジグザグスキャン処理を行ない、２次元ブロックデータを１次元に変換する。これもＪＰＥＧ標準で用いられている処理方法であり、図９に示すように、低周波部分から高周波部分へ斜め方向にスキャンを行なう。次のステップとして、式（１）に従って、「ジグザグレート」を計算する。
【０００３】

続いて、ジグザグレートの低周波部分と高周波部分での積算を行ない、それぞれＺＺ＿Ｒａｔｅ＿ｍｏｊｉ、ＺＺ＿Ｒａｔｅ＿ＨＴとする。
【０００４】
すなわち、Zigzag_Rate[i]の絶対値のｉが小さい部分を加えた値をＺＺ＿Ｒａｔｅ＿ｍｏｊｉ、逆に絶対値のｉが大きい部分を加えた値をＺＺ＿Ｒａｔｅ＿ＨＴとする。
【０００５】
そして、式（２）の判定条件が成り立つ時は文字画像、式（３）の判定条件が成り立つ時は網点画像と判定する。これは、ジグザグレートについての、文字画像は低周波部分の値が大きく、網点画像は高周波部分の値が大きいという性質を利用したものである。
【０００６】
ＺＺ＿Ｒａｔｅ＿ｍｏｊｉ＋ｋｅｙ≧定数１式（２）
ＺＺ＿Ｒａｔｅ＿ＨＴ＋ｋｅｙ≦定数２式（３）
ここで、定数１、２は実験的に設定し、ｋｅｙは周囲４ブロックの判定結果を式（４）に従って計算したものを用いる。つまり、注目ブロックに対して、上ブロック、斜め右上ブロック、左ブロック、２つ左ブロックである。
【０００７】
さらに、式（４）中のｆｌａｇは、判定結果が文字ならば負、網点ならば正の値をとる。
【０００８】

次に、画像電子学会誌第２０巻５号の「適応的量子化を用いたＤＣＴ符号化法」における処理を説明する。
【０００９】
これは、文字画像と網点画像を分離して画像圧縮の量子化テーブルを切り換えることで、文字画像の劣化防止と網点画像部分の圧縮率向上を図ることを目的とする。同方式においても、初めに画像データを８×８サイズのブロックに分割し、ＤＣＴ変換を行なう。次に、図１０（ａ）〜（ｅ）の領域９０〜９４に含まれる係数の絶対値の和をそれぞれ算出する。そして、９１〜９４の係数和の最大値が９０より大きく、且つ、９１〜９４の係数和の最大値が所定の閾値Ａより大きいときに、ブロックを網点画像であると判定する。また、図１０（ｆ）において、領域９５に含まれる係数の絶対値の和が閾値Ｂより大きく、且つ、網点画像ブロックと判別されなかった場合に、文字画像ブロックであると判定する。
【００１０】
次に、特開平２−２０２７７１号公報の「ファクシミリ装置」における処理を説明する。これには、２値画像領域と中間調画像領域の分離の明確化を目的としている。同提案における像域分離パラメータ決定部では、画像データを４×４サイズのブロックに分割し、２次元アダマール変換を行う。像域分離パラメータＬは、Ｙijをアダマール変換の係数要素とすると、
Ｌ＝ΣΣＹij^2 （ｉ＋ｊ＝３、４、５、６）式（５）
（ここでＹ＾Ｘは、ＹのＸ乗を示している。）
で計算する。そして、Ｌの値に従って２値化のスライスレベルを決定する。これは「２値画像領域に仮定した変換結果の方が空間周波数の高域に対してエネルギーが大」であることによる。すなわち、２値画の領域はＬが大きな値に、中間調画像の領域ではＬが小さな値になることを示している。
【００１１】
【発明が解決しようとする課題】
しかしながら、上記技術を動画像に適応すると、各フレーム毎に独立に処理を行うことになり、時間的に隣接したフレーム間でも抽出される領域が大きく異なり、安定した抽出が行なえないという問題があった。これは、各フレーム内の被写体の動きによって、文字領域と類似した特徴の領域が表れることによるものである。
【００１２】
【課題を解決するための手段】
本発明はかかる問題点に鑑みなされたものであり、背景の動きによる影響を除去して、高い抽出率で安定した画像切り出しを行う画像処理装置及び方法を提供しようとするものである。
【００１３】
この課題を解決するため、たとえば本発明の画像処理装置は以下に示す構成を備える。すなわち、
動画像に含まれる複数のフレーム画像それぞれに対して、各フレーム画像を複数の画素で構成される所定サイズのブロック毎に直交変換することにより空間周波数軸上データを得る変換手段と、
前記変換手段により得られる現フレーム画像中の注目ブロックの空間周波数軸上データに基づいて、前記現フレーム画像中の注目ブロックの文字らしさを表す第１の情報を生成する第１の生成手段と、
前記現フレーム画像中の注目ブロックにおける空間周波数軸上データと従前に入力された少なくとも１つのフレーム画像中の注目ブロックにおける空間周波数軸上データとの誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す第２の情報を生成する第２の生成手段と、
前記第１の情報により文字らしいと判断され且つ前記第２の情報により静止状態であると判断される前記現フレーム画像中の注目ブロックを、文字領域であるとして識別する識別手段とを備える。
【００１６】
また、前記第２の生成手段は、前記注目ブロックの空間周波数軸上データから、高周波帯域における特徴量を抽出し、該高周波帯域の特徴量を用いて前記誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す前記第２の情報を生成することが望ましい。この結果、背景画像が変化する場合であっても文字領域を良好に抽出することが可能になる。
【００１７】
また、更に、注目ブロックに対する前記直交変換後のデータに基づいて所定の帯域における特徴量を抽出する抽出手段を備え、前記識別手段は、当該抽出手段で得られた結果を含めて、注目ブロックの属性を識別することが望ましい。この結果、背景画像が変化する場合であっても文字領域を良好に抽出することが可能になる。
【００１８】
【発明の実施の形態】
以下、添付図面を参照して、本発明に係る好適な実施の形態を詳細に説明する。
【００１９】
＜装置構成の説明（図２）＞
本実施形態の画像処理装置は、外部インターフェースから画像を入力し、蓄積する手段を設けたパーソナルコンピュータ等である。入力画像から文字領域を切出してデータベースを構築し、それを利用して画像検索を行なう機能を備える。
【００２０】
図２は、本実施形態の画像処理装置の概略構成を示すブロック図である。図中、１は装置全体の制御を行なうＣＰＵであり、メモリ部３に格納されたプログラムに従って演算、Ｉ／Ｏ制御などの処理を実行する。周辺機器コントローラ２は、ＣＰＵ１とセットで用いられ、周辺機器を制御するのに必要なＩ／Ｏ（シリアル通信、パラレル通信、リアルタイムクロック、タイマ、割り込み制御、ＤＭＡ制御等）の制御を行なう。メモリ部３は、ＣＰＵ１の主装置として、ＤＲＡＭ、キャッシュＲＡＭ、ＲＯＭ等のメモリを含み、画像領域検出処理におけるワークエリアも兼ねる。４は、ユーザデータや装置の設定、画像データの記憶を行なうハードディスクドライブである。５はＦＤＤ制御部であり、６はフロッピーディスクドライブである。７はキーボード制御部であり、８はキーボードである。表示ユニット９において、１０は表示制御部であり、ＶＲＡＭ１１から表示データを順次読み出し、階調変換等を行ないながら、液晶パネル１２へデータを転送する。また、表示制御部１０は、ＣＰＵ１からＶＲＡＭへのアクセスと、ＶＲＡＭから表示部６へのデータ転送の調停を行なう。本実施形態においては、液晶パネル（ＬＣＤ）１２は、各種ファイルの情報を表示すると共に、画像データを表示する。また、通信ユニット１３において、１５は通信インターフェースであり、１４は通信制御部である。通信規格は、ＲＳ−２３２Ｃ、イーサネット等のシリアル通信、セントロニクス、ＳＣＳＩ等のパラレル通信のインターフェースであり、テキスト等の各種データや画像データ等のバイナリーデータの入出力を行なう。また、ＮＴＳＣ方式などのテレビ信号を入力するインターフェースを備える。１６は画像データから文字領域を抽出する画像領域検出部（詳細は後述する）である。
【００２１】
＜画像領域検出部の説明（図１，図３）＞
まず、図３を用いて、本実施形態における文字切り出しの様子を説明する。本実施形態では、カラーの画像をたとえば不図示のビデオカメラや、通信インターフェース１３を介して入力し、その中から文字領域を抽出する処理を行なう。図３（ａ）は画像の例であり、タイトル文字８０と８１、写真画像８２の３つの要素で構成されている。なお、図中のマス目は、後述する小ブロックの境界を表わしており、実際に画像に表示されているものではない。尚、実施形態では、１マスの大きさは、８×８画素とした。図３（ｂ）は文字抽出結果を表わす図であり、文字領域８０，８１のみが切出されている。本実施形態の処理は、図３（ａ）の入力画像から、図３（ｂ）の画像を作成することである。
【００２２】
次に、図１のブロック図を用いて、本実施形態の画像領域検出部１６について説明する。
【００２３】
図中、２０はブロック分割部であり、画像データを８×８画素の小ブロックに分割する。続く２１はブロック演算部であり、ブロック毎に文字領域候補であるかを判定し、候補格納領域２６にその結果を格納する。
【００２４】
ブロック演算部２１において、２２は先に従来の技術の項で説明した像域パラメータ決定部である。本実施形態においては、ブロックサイズが８×８サイズであることと、直交変換として離散コサイン変換を用いる点が異なる。２４は、ＤＣＴ変換部、２５は空間高調波係数演算部である。尚、２０、２４はＪＰＥＧやＭＰＥＧ方式等の標準規格で使用されている技術と同様であり、詳細な原理は省略する。
【００２５】
像域パラメータ決定部２２によって、文字領域と中間調画像領域を分離するための特徴パラメータＬが計算される。しかし、本発明の実施形態の像域パラメータ分離処理では、文字領域の特徴が検出できるものであれば、他の方式であっても構わない。２３は、属性判定部であり、像域パラメータ分離部２３の結果を閾値と比較して、該当ブロックが文字領域であるかの判定を行う。
【００２６】
２６は、静止ブロック検出部であり、隣接するフレームと比較し、特定位置の交流係数の変化が少ないブロックを検出する。静止ブロック検出部２６において、２７はフレームメモリであり、前フレームの交流係数を記憶する。また、２８はブロック比較部であり、フレームメモリ２７の前フレームの交流係数と、ＤＣＴ変換部２４で変換された現フレームの交流係数の比較を行う。
【００２７】
＜処理内容の説明＞
次に上記構成における本実施形態の装置における処理内容を説明する。
【００２８】
本実施形態では、動画像に合成されたキャプション文字を検出する。特にキャプション文字の背後に、無地の背景が合成されている画像を対象とする。
【００２９】
まず、動画の各フレームから文字らしい特徴を持つ候補領域を検出する。同時に、前フレームの周波数係数と比較を行ない、変化の少ない（動きの少ない）領域を検出する。そして、候補領域で且つ変化の少ない部分を文字領域と判定する。これはキャプション文字の表示形態を利用したものである。すなわち、キャプション文字は、ユーザが読み終るまでの十分な時間として、数秒間は同じ位置に静止して表示される、という特徴を有する。また、一方では、背景に表示されている物体等は、物体自身の移動、又はカメラワーク等により動きが生じることが多い。そこで、本実施形態では、静止領域か否かを判定条件に加えることで、画像中の物体が文字領域として判定されるのを防ぐ。
【００３０】
図１の構成で説明する。先ず、ブロック分割部２０では入力画像を小ブロックに分割する。小ブロックデータは、ブロック単位で、ＤＣＴ変換され、空間高調波係数演算部２５で文字らしさを表わす特徴量が算出される。一方で、ＤＣＴ係数は、静止ブロック検出部２６において、前フレームの対応する位置の小ブロックの係数分布と比較が行われる。属性判定部２３は、算出した現フレームの小ブロックの特徴量が文字らしさの度合が高く、且つ、前フレームの同位置の交流係数と比較して変化が小さい場合、当該注目ブロックは文字であると判定し、その結果を出力する。この比較処理の後、現フレームの交流係数をフレームメモリ２７に記憶する。
【００３１】
次に、各構成ブロック毎の動作を説明する。
【００３２】
図４は、ブロック比較部２８の処理の流れを示すフローチャートであり、同図を用いて静止ブロック検出動作の説明を行なう。本実施形態のブロック比較部２８は、前フレーム中の該当するブロックと現フレームの該当ブロックの各空間周波数係数との誤差を計算し、全周波数に渡って積算する。これを閾値と比較し、閾値以下の場合は、ブロック内の画像が静止していると判定する。
【００３３】
図中、ステップＳ１００では、フレームメモリ２７の検索を行ない、前フレームの対応する位置のブロックの周波数係数を取り出す。ステップＳ１０１では、係数カウンタｉ，ｊや積算値レジスタ等の変数をクリアする。ステップＳ１０２では、前フレームの周波数係数と現フレーム中の該当する周波数係数との誤差を計算する。ｉ行ｊ列の現フレームの周波数係数をＡｉｊ、前フレームの周波数係数をＢｉｊとすると、誤差Ｅｉｊは式（６）で計算される。
【００３４】
Ｅｉｊ＝Ａｉｊ−Ｂｉｊ式（６）
続くステップＳ１０３では、ｉ行ｊ列の係数の誤差を、式（７）に従って積算する。
【００３５】
Ｅｒｒ＝Σ｜Ｅｉｊ｜式（７）
尚、この式（７）は、Ｅｒｒ←Ｅｒｒ＋｜Ｅｉｊ｜としても表される。
【００３６】
ステップＳ１０４に処理が進むと、係数カウンタｉ，ｊを更新する。ステップＳ１０５では、ブロック内の全係数の比較が終了したか判定し、否定であればステップＳ１０２に戻り、上記処理を繰り返す。
【００３７】
さて、ステップＳ１０５の判定が肯定であれば、ブロック内の全ての係数についての誤差の積算値がＥｒｒに格納されていることになる。そこで、ステップＳ１０６に進み、積算値Ｅｒｒが、予め設定してある静止判定閾値Ｔa以上であるか判定する。
【００３８】
Ｅｒｒ＜Ｔaであれば、注目ブロックと前フレームの該当するブロックの間にはほとんど変化がないと判断できるので、ステップＳ１０７に進み、「静止フラグ」を出力し、本処理を終了する。また、Ｅｒｒ≧Ｔaであると判断できた場合には、注目ブロックと前フレーム中の該当するブロックとの間には変化があったことになるから、「静止フラグ」の出力は行なわない。
【００３９】
尚、ステップＳ１０７の処理は、属性判定部２３の出力信号をたとえば“１”にすることを意味し、ステップＳ１０７の処理をスキップすることは、その出力信号を“０”にさせたまま終了することを意味する。また、静止しているか否かの判定に用いた閾値Ｔａは、文字領域の微小な揺れや変化を吸収できる程度の値である。
【００４０】
以上の処理により、ブロック内の物体が静止しているかを検出することができる。また、上記例では、直前の１フレームとの比較を行ったが、過去の複数フレームを使用するようにしても良い。複数のフレームの周波数係数を記憶しておき、前後のフレームと比較するようにしても良い。更に、静止ブロックの判定方法として、本実施形態では各係数の誤差を積算する方法を示したが、他の方法であっても良い。例えば、ブロック内の全係数を積算してから差分をとるようにしも良いし、パターンマッチングによる方法であっても本発明の趣旨と何等異なるものではない。尚、上記処理は、ソフトウェアによるものとして説明したが、これをロジック回路で構成しても良いのは勿論である。
【００４１】
次に、本実施形態における属性判定部２３の処理内容を図５のフローチャートに従って説明する。
【００４２】
本実施形態の属性判定部２３は、像域パラメータ決定部２２の出力する特徴パラメータと、静止ブロック検出部２６の出力する「静止フラグ」から、当該ブロックが文字であるかの判定を行なう。具体的には次の通りである。
【００４３】
ステップＳ１２０では、メモリ部３から文字判定閾値Ｔｂを読み込む。ステップＳ１２１では、像域パラメータ決定部２２から特徴パラメータＬ、静止ブロック検出部２６から静止フラグの入力を行なう。ステップＳ１２２では、入力した静止フラグに基づいて注目ブロックが静止状態か否かを判定する。静止状態でないと判定した場合には、注目ブロックは文字領域ではないと判断し、本処理を終了する。
【００４４】
一方、静止状態にあると判断した場合には、ステップＳ１２４に進み、入力した特徴パラメータＬと、先に読み込んだ閾値Ｔｂと比較し、ステップＳ１２５でその比較結果に基づいて処理を分岐する。具体的には、特徴パラメータＬが閾値Ｔｂ以上であると判断した場合には、ステップＳ１２６に進み、注目ブロックは文字領域であると判断し、その旨を出力信号として出力する。また、特徴パラメータＬが閾値Ｔｂ未満であると判断した場合には、当該注目ブロックは文字領域ではないと判断し、本処理を終える。
【００４５】
尚、単純にブロック毎の判定結果を論理レベルの異なる信号として出力するようにしてもよいし、文字領域と判定されたブロックの画像をファイルに出力するようにしてもよい。
【００４６】
以上の処理により、特徴パラメータが文字判定閾値Ｔｂ以上であって静止したブロックのみを文字領域として検出することができる。
【００４７】
以上説明したように本実施形態によれば、フレーム間で係数分布を比較して領域判定することで、フレーム毎のバラツキのない安定した領域抽出が可能となる。
【００４８】
尚、本発明は上記実施形態に限らず、幅広く応用することが可能である。例えば、実施形態では、直行変換の方法としてＤＣＴを使用した例を示したが、フーリエ変換やアダマール変換であっても良い。また、像域パラメータ分離処理は、実施形態では、パラメータＬの値を計算して閾値と比較したが、文字領域の特徴を検出する他の方法を用いても勿論構わない。また、属性判定部では、静止ブロック判定によって閾値以上のブロックを除去する例を説明したが、静止ブロックの判定によって閾値を補正するようにしても良い。これにより、静止しているキャプション文字はより確実に検出され易く、また、画像中のほぼ静止している文字領域も検出できるようになる。
【００４９】
また、上記処理は、パーソナルコンピュータ等の情報処理装置に備えられた拡張スロットに画像領域検出部１６を装着し、その中で処理するものとして説明したが、情報処理装置のＣＰＵ１が十分高速演算できるものであれば、これに限るものではない。
【００５０】
この場合には、対応するプログラムをＨＤＤ４やＦＤＤ６からメモリ部３内のＲＡＭにロードし、ＣＰＵ１が実行することになる。尚、動画像の入力は、通信インターフェース１５を介して入力されるものとするが、これに限らず、如何なるインターフェースを介して受信しても良い。
【００５１】
＜第２の実施形態＞
前述の第１の実施形態では、ブロック内の全係数を比較して領域判定を行なった。これは、無地背景上にキャプション文字が合成されているものを対象としたからである。しかしながら、変化する背景上にキャプション文字が合成されている場合には、小ブロックの係数分布はフレーム毎に変化することとなり、文字として検出が行なえない。本第２の実施形態はこれに対応して、背景の影響を除去して領域抽出率のさらなる向上を図るものである。以下では、小ブロック内の特定部分の係数のみを取り出し、比較判定する例について説明を行なう。
【００５２】
＜画像領域検出部の説明（図６）＞
まず、図６のブロック図を用いて、本第２の実施形態における画像領域検出部１６の構成を説明する。尚、他の構成要素については、第１の実施形態と同様であるので、その説明は省略する。同図においては、静止ブロック検出部２６の中に帯域分離部２９を付加したことが、前述の第１の実施形態と異なる。帯域分離部２９は、ＤＣＴ係数の中からあらかじめ設定された部分の係数のみを取り出す。そして、フレームメモリ２７に記憶すると共に、ブロック比較部２８の係数データの入力とする。
【００５３】
＜帯域分離部の説明（図７，図８）＞
以下、本実施形態における帯域分離部２９の動作を説明する。
【００５４】
まず、図７は、ブロック内における帯域分割の様子を示す図である。同図において、８×８サイズの小ブロックは対角線で２分割されており、７０はＤＣＴ変換後の低周波領域、７１は高周波領域の交流係数である。
【００５５】
次に、図８は画像の種類による各周波数領域の分布状況を表す図である。図中、８０は小ブロックに含まれる画像の種類、８１は低周波領域の係数振幅の割合、８２は高周波領域の割合を示す。８１と８２は領域内の係数の絶対値を積算し、ブロック全体に対する割合を求めたものである。従って、これらの合算は丸め誤差を除けば１００になる。
【００５６】
また、８３は文字（キャプション文字）画像ブロック、８４は中間調画像ブロック、８５は文字と中間調の混在画像ブロックの平均的な係数分布状況である。これを見ると、画像種８３は低周波と高周波領域が半々であり、画像種８４は大部分が低周波側に集中している。また、画像種８５は全域に渡って分布しているが、やや低周波側に片寄っている。
【００５７】
ここで、本実施形態での目的は、無地、又は、動きのある背景上に合成されているキャプション文字を検出することにあった。これらは、無地背景の文字は画像種８３、動く背景上の文字は画像種８５と対応しており、本実施形態は画像種８３と８５のブロックを検出できればよい。そして、静止ブロック検出部２６は、これら両ブロックの文字特徴を示す部分が静止していることを検出する。
【００５８】
これについて検討すると、低周波領域８１については、画像種８３〜８５で分布が集中している。一方で、高周波領域８２では、文字を含んでいる画像８３と８５の分布割合は多く、中間調画像のみの画像種８４の分布割合は非常に少ない。従って、本実施形態の帯域分離部２９では、高周波領域７１の交流係数を取り出して、ブロックの動きを判定するのに使用する。ｉ行ｊ列の交流係数をＡｉｊとすると、帯域分離部２９は式（８）に該当する交流係数のみを取り出して、フレームメモリ２７、ブロック比較部２８に出力する。
【００５９】
Ａｉｊ（ｉ＋ｊ：７〜１６）式（８）
この係数を入力するブロック比較部２８の処理は、前述の実施形態と同様であり、説明を省略する。
【００６０】
以上の処理を行なうことで、中間調の背景の動きを除去して、文字特徴と示す部分の静止していることを検出することができる。
【００６１】
以上説明したように本第２の実施形態によれば、フレーム間で特定部分の係数比較を行って領域判定することで、背景の動きを除去した安定した領域抽出が可能となる。
【００６２】
なお、本発明は上述の実施形態に限られることなく、幅広く応用することができる。上述の帯域分離部の周波数帯域の分割方法は任意のものでよい。例えば、分割数も３つ以上にすることができ、分割形状も任意のものでよい。本実施形態では特定帯域の係数のみを取り込んで静止判定する例を説明したが、各帯域で重み付けを行って判定するようにしてもよい。また、属性判定部の判定条件として、隣接ブロックの判定結果を入れることで、更に抽出率を向上させることができる。
【００６３】
＜第３の実施形態＞
上記第１、第２の実施形態では、パーソナルコンピュータ等の拡張スロットと呼ばれる部分に、画像領域検出部１６という拡張ボードもしくはカードを装着し実現した。
【００６４】
しかしながら、動画像を取り込むインターフェースを有し、尚且つ、ＣＰＵ１がある程度の処理速度を有している場合には、ソフトウェアでもって実現することも可能である。
【００６５】
たとえば図２におけるＦＤＤ６に装着されるフロッピーディスク、或いは、ＨＤＤ４内のディスク等の記憶媒体には、図１１に示すようなプログラムモジュールを格納させ、それを適宜メモリ部３内のＲＡＭにロードすることで実現できる。
【００６６】
図１１において、１００は記憶媒体であり、１０１は直交変換を行うモジュール、１０２は直交変換によって得られたデータに基づいて注目ブロックが文字領域である可能性が高いか否かを判断するための第１判断モジュール、１０３は前フレームにおける変換後のブロックと現フレームの変換後のブロックを比較し、変化が大きいか小さいかを判断するための第２判断モジュール、１０４は第１判断モジュール１０２及び第２判断モジュール１０３の判断結果に基づいて注目ブロックが文字領域であるか否かを識別し、その判断結果を上位処理に返す識別モジュールである。
【００６７】
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明はシステム或は装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明に係るプログラムを格納した記憶媒体が、本発明を構成することになる。そして、該記憶媒体からプログラムをシステム或は装置に読み出すことによって、そのシステム或は装置が、予め定められたし方で動作する。
【００６８】
【発明の効果】
以上説明したように本発明によれば、背景の動きによる影響を除去して、高い抽出率で安定した画像、特に文字領域を切り出しを行うことが可能になる。
【００６９】
【図面の簡単な説明】
【図１】実施形態における画像領域検出部の構成を示すブロック図である。
【図２】実施形態における画像処理装置の概略構成を示すブロック図である。
【図３】実施形態における文字領域抽出動作の画像例を示す図である。
【図４】図１における静止ブロック検出部の処理内容を示すフローチャートである。
【図５】図１における属性判定部２３の処理内容を示すフローチャートである。
【図６】第２の実施形態における画像領域検出部の構成を示すブロック図である。
【図７】図６の帯域分離部で分離する領域を示す図である。
【図８】帯域領域分離による属性判断テーブルを示す図である。
【図９】従来技術におけるジグザグスキャン処理の順序を説明する図である。
【図１０】従来技術における係数の積算領域を説明する図である。
【図１１】第３の実施形態におけるプログラムを記憶した記憶媒体の内容を模式的に示す図である。
【符号の説明】
１ＣＰＵ
２周辺コントローラ
３メモリ部
４ハードディスクドライブ（ＨＤＤ）
５ＦＤＤ制御部
６ＦＤＤドライブ
７キーボード制御部
８キーボード
９表示ユニット
１０表示制御部
１１ＶＲＡＭ
１２液晶ディスプレイ
１３通信ユニット
１４通信制御部
１５通信インターフェース
１６画像領域検出部
２０ブロック分割部
２１ブロック演算部
２２像域パラメータ決定部
２３属性判定部
２４ＤＣＴ変換部
２５空間高調波係数演算部
２６静止ブロック検出部
２７フレームメモリ
２８ブロック比較部

Claims

動画像に含まれる複数のフレーム画像それぞれに対して、各フレーム画像を複数の画素で構成される所定サイズのブロック毎に直交変換することにより空間周波数軸上データを得る変換手段と、
前記変換手段により得られる現フレーム画像中の注目ブロックの空間周波数軸上データに基づいて、前記現フレーム画像中の注目ブロックの文字らしさを表す第１の情報を生成する第１の生成手段と、
前記現フレーム画像中の注目ブロックにおける空間周波数軸上データと従前に入力された少なくとも１つのフレーム画像中の注目ブロックにおける空間周波数軸上データとの誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す第２の情報を生成する第２の生成手段と、
前記第１の情報により文字らしいと判断され且つ前記第２の情報により静止状態であると判断される前記現フレーム画像中の注目ブロックを、文字領域であるとして識別する識別手段とを備えることを特徴とする画像処理装置。
前記変換手段で行われる直交変換は、離散コサイン変換、アダマール変換、フーリエ変換のいずれかを含むことを特徴とする請求項１に記載の画像処理装置。
前記第２の生成手段において用いられる前記所定の閾値は、文字の微小な揺れや変化を吸収できる程度の値であることを特徴とする請求項１に記載の画像処理装置。
前記識別手段は、前記第２の情報に基づいて静止状態であると判断された注目ブロックに関して、前記第１の情報に基づいて文字らしいか否か判断し、文字らしいと判断された注目ブロックを文字であると識別することを特徴とする請求項１に記載の画像処理装置。
前記第２の生成手段で計算される前記誤差は、前記注目ブロックの空間周波数軸上データの各係数と、前記従前に入力された少なくとも１つのフレーム画像における注目ブロックの空間周波数軸上データの各係数との差分の合計であり、
前記第２の生成手段は、当該算出された合計値が前記所定の閾値以内であるか否かに基づいて当該注目ブロックが静止状態であるか否かを示す前記第２の情報を生成することを特徴とする請求項１に記載の画像処理装置。
前記第２の生成手段は、前記注目ブロックの空間周波数軸上データから、高周波帯域における特徴量を抽出し、該高周波帯域の特徴量を用いて前記誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す前記第２の情報を生成することを特徴とする請求項１に記載の画像処理装置。
動画像に含まれる複数のフレーム画像それぞれに対して、各フレーム画像を複数の画素で構成される所定サイズのブロック毎に直交変換することにより、前記所定サイズのブロックのそれぞれの空間周波数軸上データを得る変換工程と、
前記変換工程で得られる現フレーム画像中の注目ブロックの空間周波数軸上データに基づいて、前記現フレーム画像中の注目ブロックの文字らしさを現す第１の情報を生成する第１の生成工程と、
前記現フレーム画像中の注目ブロックにおける空間周波数軸上データと従前に入力された少なくとも１つのフレーム画像中の注目ブロックにおける空間周波数軸上データとの誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す第２の情報を生成する第２の生成工程と、
前記第１の情報により文字らしいと判断され且つ前記第２の情報により静止状態であると判断される前記現フレーム画像中の注目ブロックを、文字領域であるとして識別する識別工程とを備えることを特徴とする画像処理方法。
前記変換工程で行われる直交変換は、離散コサイン変換、アダマール変換、フーリエ変換のいずれかを含むことを特徴とする請求項７に記載の画像処理方法。
前記第２の生成工程において用いられる前記所定の閾値は、文字の微小な揺れや変化を吸収できる程度の値であることを特徴とする請求項７に記載の画像処理方法。
前記識別工程では、前記第２の情報に基づいて静止状態であると判断された注目ブロックに関して、前記第１の情報に基づいて文字らしいか否か判断し、文字らしいと判断された注目ブロックを文字であると識別することを特徴とする請求項７に記載の画像処理方法。
前記第２の生成工程で計算される前記誤差は、前記注目ブロックの空間周波数軸上データの各係数と、前記従前に入力された少なくとも１つのフレーム画像における注目ブロックの空間周波数軸上データの各係数との差分の合計値であり、
前記第２の生成手段は、当該算出された合計値が前記所定の閾値以内であるか否かに基づいて当該注目ブロックが静止状態であるか否かを示す前記第２の情報を生成することを特徴とする請求項７に記載の画像処理方法。
前記第２の生成工程では、前記注目ブロックの空間周波数軸上データから、高周波帯域における特徴量を抽出し、該高周波帯域の特徴量を用いて前記誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す前記第２の情報を生成することを特徴とする請求項７に記載の画像処理方法。
メモリ媒体から所定のプログラムを読み込むことで、動画像に含まれる複数のフレーム画像それぞれを空間周波数軸上のデータに変換し、当該変換された空間周波数軸上のデータ特性に基づいて該フレーム画像内の注目ブロックの属性を判別する画像処理装置であって、
前記メモリ媒体は、
動画像に含まれる複数のフレーム画像それぞれに対して、各フレーム画像を複数の画素で構成される所定サイズのブロック毎に直交変換することにより、前記所定サイズのブロックのそれぞれの空間周波数軸上データを得る変換工程の手順コードと、
前記変換工程で得られる現フレーム画像中の注目ブロックの空間周波数軸上データに基づいて、前記現フレーム画像中の注目ブロックの文字らしさを表す第１の情報を生成する第１の生成工程の手順コードと、
前記現フレーム画像中の注目ブロックにおける空間周波数軸上データと従前に入力された少なくとも１つのフレーム画像中の注目ブロックにおける空間周波数軸上データとの誤差を算出し、当該算出された誤差が所定の閾値以内であるか否かに基づいて、前記現フレーム画像中の注目ブロックが静止状態であるか否かを表す第２の情報を生成する第２の生成工程の手順コードと、
前記第１の情報により文字らしいと判断され且つ前記第２の情報により静止状態であると判断される前記現フレーム画像中の注目ブロックを、文字領域であるとして識別する識別工程の手順コードとを備えることを特徴とする画像処理装置。