JP2007019673A

JP2007019673A - 画像処理装置、画像圧縮方法、画像圧縮プログラムおよび圧縮画像のデータ構造

Info

Publication number: JP2007019673A
Application number: JP2005196908A
Authority: JP
Inventors: Toshihiro Mori; 俊浩森
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2005-07-05
Filing date: 2005-07-05
Publication date: 2007-01-25

Abstract

【課題】画像データを圧縮しても罫線のガタツキを目立たなくすること。
【解決手段】ＭＦＰは、画像データを入力するスキャナ部１０３と、入力された画像データから罫線を含む罫線領域を抽出する領域判別部１１と、罫線領域の画像データから罫線の中心画素を少なくとも含む罫線２値化データを生成し、罫線領域の画像データから罫線データを補間するための補間２値化データを生成する罫線２値化部１４と、罫線２値化データおよび補間２値化データそれぞれを圧縮して第１および第２圧縮データを生成する可逆圧縮部１５と、画像データから罫線領域を除いた領域を圧縮して第３および第４圧縮データを生成するか逆圧縮部１３および非可逆圧縮部１７と、第１圧縮データと、第２圧縮データと、第３圧縮データとを結合して結合データを生成する結合部１８と、を備える。
【選択図】図２

Description

この発明は、画像処理装置、画像圧縮方法、画像圧縮プログラムおよび圧縮画像のデータ構造に関し、画像データを圧縮する画像処理装置、画像圧縮方法、画像圧縮プログラムおよび圧縮した画像のデータ構造に関する。

近年、情報の電子化が進み、文書を紙ではなく電子化して保存あるいは送信する需要が高まっている。さらに、電子化データを送信する場合には、通信の効率化のためにデータを圧縮して送信するのが一般的である。文書を電子化する際にスキャナで原稿を読み取って画像データが得られる。この画像データ全体に対して非可逆的な方式で圧縮すると、圧縮後のデータ量を小さくすれば文字が読めなくなり、文字を読める程度で圧縮すると圧縮後のデータ量が大きくなってしまう。このため、画像データを文字領域と背景領域とで異なる圧縮方式で圧縮する技術が知られている（たとえば、特許文献１）。この場合、文字領域は２値化した後に可逆的な方式で圧縮され、背景領域は非可逆的な方式で圧縮される。この技術によれば、圧縮率を高めても文字を判読できるように圧縮することができる。

一方、原稿に罫線が表されている場合には、罫線は輪郭が鮮明であることが望ましいため、画像データに含まれる罫線を文字と同様に２値化するのが好ましい。しかしながら、原稿をスキャナで読み取るときに原稿が傾かないように原稿をセットするのは困難であるため、原稿が傾いた状態で読み取られることが多い。このため、傾いて読み取られた罫線部分を２値化すると罫線のガタツキが強調されてしまう。罫線を背景と同様に非可逆圧縮すると、ガタツキは解消されるが罫線の輪郭がぼけてしまう。
特開２００５−５００７０９号公報

この発明は上述した問題点を解決するためになされたもので、この発明の目的の一つは、画像データを圧縮しても罫線のガタツキを目立たなくすることが可能な画像処理装置、画像圧縮方法および画像圧縮プログラムを提供することである。

この発明の他の目的は、復元された罫線のガタツキが目立たないように、画像データを圧縮したデータを記憶可能な圧縮画像のデータ構造を提供することである。

上述した目的を達成するためにこの発明のある局面によれば、画像処理装置は、画像データを入力する入力手段と、入力された画像データから罫線を含む罫線領域を抽出する罫線領域抽出手段と、罫線領域の画像データから罫線の中心画素を少なくとも含む罫線データを生成する第１生成手段と、罫線領域の画像データから罫線データを補間するための補間データを生成する第２生成手段と、罫線データおよび補間データそれぞれを圧縮して第１および第２圧縮データを生成する第１圧縮手段と、画像データから罫線領域を除いた領域を圧縮して第３圧縮データを生成する第２圧縮手段と、第１圧縮データと、第２圧縮データと、第３圧縮データとを結合して結合データを生成する結合手段と、を備える。

罫線は、直線、曲線、アンダーライン、枠、表、大きな文字の直線部分、斜線、破線を含む。この発明に従えば、罫線の中心画素を少なくとも含む罫線データが、補間データにより補間される。罫線データは、罫線の中心画素を含むので、データ量を削減することができるが、ガタツキが発生する確率が高い。このガタツキが補間データにより補間される。罫線領域の画像データをそのまま圧縮することなく、罫線の中心画素を含む罫線データと、それを補間するための補間データとに分けて圧縮するので、画像データを圧縮しても罫線のガタツキを目立たなくすることが可能な画像処理装置を提供することができる。

好ましくは、第１生成手段は、罫線領域の画像データに含まれる罫線を構成する画素のうちから明度が第１のしきい値以下の画素を抽出する第１抽出手段を含み、第２生成手段は、罫線領域の画像データに含まれる罫線を構成する画素のうちから明度が第１のしきい値を超える画素を抽出する第２抽出手段を含む、請求項１に記載の画像処理装置。

この発明に従えば、明度が第１しきい値以下の画素が罫線の中心画素として抽出され、明度が第１のしきい値を超える画素が罫線の中心画素を補間する画素として抽出される。このため、補間データは、罫線の中心画素の近傍の画素を含むことになり、罫線の中心画素をその近傍の画素で補間することができる。

好ましくは、第１抽出手段は、罫線領域の画像データを第１のしきい値で２値化して罫線データを生成する第１の２値化手段を含む。

この発明によれば、２値化するので罫線データのデータ量を削減することができる。

好ましくは、罫線データと画像データとから罫線データに含まれる罫線の第１罫線色を決定する第１罫線色決定手段をさらに備え、結合手段は、第１圧縮データと第１罫線色とを関連付ける罫線色関連付手段を含む。

この発明に従えば、罫線データと画像データとから決定される第１罫線色と、第１圧縮データとが関連付けられるので、罫線の中心画素を第１罫線色で復元することができる。

好ましくは、第２抽出手段は、罫線領域の画像データを第１のしきい値と第２のしきい値との内外で２値化して前記補間データを生成する第２の２値化手段を含む。

この発明によれば、２値化するので補間データのデータ量を削減することができる。

好ましくは、罫線データと画像データとから罫線データに含まれる罫線の第１罫線色を決定する第１罫線色決定手段と、補間データと画像データとから補間データに含まれる第２罫線色を決定する第２罫線色決定手段とをさらに備え、結合手段は、第１圧縮データと第１罫線色とを関連付け、第２圧縮データを第２罫線色と関連付ける罫線色関連付手段を含む。

この発明に従えば、罫線データと画像データとから決定された第１罫線色と、第１圧縮データとが関連付けられ、補間データと画像データとから決定された第２罫線色と第２圧縮データとが関連付けられるので、罫線の中心画素を第１罫線色で復元し、罫線の中心画素を補間する画素を第２罫線色で復元することができる。

好ましくは、第１生成手段は、罫線領域の画像データを２値化する２値化手段と、２値化されたデータを解像度の低い罫線データに変換する解像度変換手段とを含み、第２生成手段は、罫線領域の画像データを２値化する２値化手段と、２値化されたデータから前記罫線データに含まれる罫線成分を除去して補間データを生成する差分抽出手段とを含む。

この発明に従えば、罫線領域の画像データを２値化したデータを低解像度に変換して罫線データが生成され、罫線領域の画像データを２値化したデータから罫線データに含まれる罫線成分を除去して補間データが生成される。罫線データは解像度が小さくなるのでデータ量が削減されるが、罫線のガタツキが目立つようになる。補間データは、２値化したデータから罫線データに含まれる罫線成分が除去されるのでデータ量が削減される。罫線データと補間データとで、罫線領域の画像データの罫線の形状を復元することができる。その結果、画像データを圧縮しても罫線のガタツキを目立たなくすることが可能な画像処理装置を提供することができる。

好ましくは、罫線領域の画像データから色相および彩度の組が近似する罫線を集めて罫線領域の画像データを色相および彩度の組別に分割して複数の分割データを生成する分割手段をさらに備え、第１および第２生成手段それぞれは、複数の分割データが入力され、色相および彩度の組ごとに罫線データおよび補間データを抽出する。

この発明に従えば、カラーの画像データを圧縮率する場合であっても、罫線のガタツキを目立たなくすることができる。

この発明の他の局面によれば、画像圧縮方法は、画像データを入力するステップと、入力された画像データから罫線を含む罫線領域を抽出するステップと、罫線領域の画像データから罫線の中心画素を少なくとも含む罫線データを生成するステップと、罫線領域の画像データから罫線データを補間するための補間データを生成するステップと、罫線データおよび補間データそれぞれを圧縮して第１および第２圧縮データを生成するステップと、画像データから罫線領域を除いた領域を圧縮して第３圧縮データを生成するステップと、第１圧縮データと、第２圧縮データと、第３圧縮データとを結合して結合データを生成するステップとを含む。

この発明に従えば、画像データを圧縮しても罫線のガタツキを目立たなくすることが可能な画像圧縮方法を提供することができる。

この発明のさらに他の局面によれば、画像圧縮プログラムは、画像データを入力するステップと、入力された画像データから罫線を含む罫線領域を抽出するステップと、罫線領域の画像データから罫線の中心画素を少なくとも含む罫線データを生成するステップと、罫線領域の画像データから罫線データを補間するための補間データを生成するステップと、罫線データおよび補間データそれぞれを圧縮して第１および第２圧縮データを生成するステップと、画像データから罫線領域を除いた領域を圧縮して第３圧縮データを生成するステップと、第１圧縮データと、第２圧縮データと、第３圧縮データとを結合して結合データを生成するステップとを含む。

この発明に従えば、画像データを圧縮しても罫線のガタツキを目立たなくすることが可能な画像圧縮プログラムを提供することができる。

この発明のさらに他の局面によれば、圧縮画像のデータ構造は、画像データに含まれる罫線領域から罫線の中心画素を抽出し、該中心画素を少なくとも含む罫線データを圧縮した第１の圧縮データと、画像データに含まれる罫線領域から罫線データを補間するための補間データを生成し、該補間データを圧縮した第２の圧縮データと、画像データから罫線領域を除いた領域を圧縮した第３圧縮データとを含む。

この発明に従えば、復元された罫線のガタツキが目立たないように、画像データを圧縮したデータを記憶可能な圧縮画像のデータ構造を提供することができる。

以下、本発明の実施の形態について図面を参照して説明する。以下の説明では同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰返さない。

＜第１の実施の形態＞
図１は、本発明の第１の実施の形態におけるＭＦＰのハード構成を示すブロック図である。図１を参照して、ＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００は、スキャナ部１０３と、用紙などの記録媒体に画像を形成する画像形成部１０６と、それぞれがバス１１１に接続されたＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１と、記憶部１０２と、スキャナ部１０３が出力する画像データを処理する入力画像処理部１０４と、画像データに出力するのに適した処理を行う出力画像処理部１０５と、ネットワークインターフェイス（Ｉ／Ｆ）１０７と、モデム１０８と、操作パネル１０９と、カードＩ／Ｆ１１０とを含む。

ＣＰＵ１０１は、ＭＦＰ１００の全体を制御する。記憶部１０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅ／ＰｒｏｇｒａｍａｂｌｅＲＯＭ）などの半導体メモリおよびハードディスクドライブ（ＨＤＤ）等の磁気記憶装置を含む。ＣＰＵ１０１は、ＲＯＭに記録された画像圧縮プログラムをＲＡＭにロードして実行する。

スキャナ部１０３は、原稿台とＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等の光電変換素子とを含み、原稿台に載置された原稿を光学的に読取って電子データとしての画像データを入力画像処理部１０４に出力する。入力画像処理部１０４は、入力された画像データに対して、色変換処理、色補正処理などを実行して、処理した画像データを記憶部１０２に記憶する。

出力画像処理部１０５は、記憶部１０２から画像データを読み出して、スクリーン制御処理、スムージング処理、パルス幅変調（ＰＷＭ）を行い、処理後の画像データを画像形成部１０６に出力する。画像形成部１０６は、レーザプリンタであり、出力画像処理部１０５から入力される画像データを紙などの記録媒体に可視化する。画像形成部１０６は、カラープリントの場合には、イエロー、マゼンタ、シアン、ブラックの４色のトナーで画像を形成する。画像形成部１０６は、インクジェットプリンタであってもよい。

カードＩ／Ｆ１１０には、ＩＣカード１１０Ａが装着される。ＣＰＵ１０１は、カードＩ／Ｆ１１０を介してＩＣカード１１０Ａにアクセスが可能である。ネットワークＩ／Ｆ１０７は、ＭＦＰ１００をネットワーク１１２と接続する。ネットワークＩ／Ｆ１０７は、データを所定の通信プロトコルに従ってネットワークに出力し、ネットワーク１１２から所定の通信プロトコルに従ってデータを受信する。ＣＰＵ１０１は、ネットワークＩ／Ｆ１０７を介してネットワーク１１２に接続された他のコンピュータと通信することが可能となる。このため、たとえば、電子メールを用いて画像データの送受信が可能である。

モデム１０８は、ＭＦＰ１００を電話回線１１３と接続する。モデム１０８は、データをファクシミリの通信プロトコルに従ってファクシミリ通信を可能とする。モデム１０８は、ファクシミリ受信されたデータを記憶部１０２のＨＤＤに記憶する。また、モデム１０８は、電話回線１１３に接続されたコンピュータとの通信を可能とするためＮＣＵ（ＮｅｔｗｏｒｋＣｏｎｔｒｏｌＵｎｉｔ）を含む。モデム１０８により他のコンピュータから受信されたデータは、記憶部１０２のＨＤＤに記憶される。

操作パネル１０９は、入力部１０９Ａと表示部１０９Ｂとを含む。入力部１０９Ａは、ＭＦＰ１００のユーザによる操作の入力を受付けるためのタッチパネル、キーボードまたはマウス等の入力装置である。表示部１０９Ｂは、液晶表示装置または有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイパネルである。入力部１０９Ａに透明な部材からなるタッチパネルを用いる場合には、表示部１０９Ｂ上にタッチパネルを重ねて設置することで、表示部１０９Ｂに表示されたボタンの指示を検出することができる。これにより、種々の操作の入力が可能となる。

なお、ＣＰＵ１０１で実行する画像圧縮プログラムは、ＲＯＭに記憶されたものに限られず、ＥＥＰＲＯＭに記憶するようにしてもよい。ＥＥＰＲＯＭに記憶するようにすれば、画像圧縮プログラムを書き換えるまたは追加して書き込みすることが可能となる。このため、ネットワーク１１２に接続された他のコンピュータが、ＭＰＰ１００のＥＥＰＲＯＭに記憶された画像圧縮プログラムを書換える、または、新たな画像圧縮プログラムを追加して書き込むことができる。さらに、ＭＦＰ１００が、ネットワーク１１２に接続された他のコンピュータから画像圧縮プログラムをダウンロードして、その画像圧縮プログラムをＥＥＰＲＯＭに記憶することができる。さらに、画像圧縮プログラムをＩＣカード１１０Ａに記憶するようにし、カードＩ／Ｆ１１０に装着されたＩＣカード１１０Ａに記録された画像圧縮プログラムをＲＡＭにロードして実行するようにしてもよい。

なお、画像圧縮プログラムを記憶する記録媒体としては、ＩＣカード１１０Ａに限られず、フレキシブルディスク、カセットテープ、光ディスク（ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲＯＭ）／ＭＯ（ＭａｇｎｅｔｉｃＯｐｔｉｃａｌＤｉｓｃ／ＭＤ（ＭｉｎｉＤｉｓｃ）／ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ））、光カード、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの半導体メモリ等の固定的にプログラムを担持する媒体でもよい。

ここでいうプログラムは、ＣＰＵ１０１により直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。

図２は、第１の実施の形態におけるＭＦＰの機能の概略を示す機能ブロック図である。図２を参照して、ＣＰＵ１０１には、スキャナ部１０３で読み取られて出力される画像データ（イメージデータ）が入力画像処理部１０４で処理されて入力される。ＣＰＵ１０１は、前処理部１０と、前処理部１０により処理された画像データが入力される領域判別部１１と、領域判別部１１が出力する文字領域の画像データが入力される文字２値化部１２と、文字２値化部１２に接続された可逆圧縮部１３と、領域判別部１１が出力する罫線領域の画像データが入力される罫線２値化部１４と、罫線２値化部１４に接続された可逆圧縮部１５と、領域判別部１１が出力する背景領域の画像データが入力される低解像度化部１６と、低解像度化部１６に接続された非可逆圧縮部１７と、可逆圧縮部１３，１５および非可逆圧縮部１７に接続された結合部１８とを含む。

なお、ＣＰＵ１０１に入力される画像データは、スキャナ部１０３が出力する画像データに限られず、他のコンピュータから受信される画像データであてもよい。この場合、画像データは、ネットワーク１１２または電話回線１１３を介して、または、ＩＣカード１１０Ａを介して入力される。

前処理部１０は、入力される画像データに対して、画像形式の変換処理、解像度変換処理、下地除去処理を実行する。これらの処理は、画像データを領域判別部１１で処理するのに適したデータとするための処理であり、これらの処理に限らず、これらの処理を実行しなくてもよいし、他の処理を実行するようにしてもよい。スキャナ部１０３の性能や、入力される画像データに応じて適宜組み合わせればよい。

領域判別部１１は、前処理された画像データが入力される。ここで入力される画像データは、１画素が２４ビットの３つのＲＧＢプレーンを有するフルカラーの画像データである。領域判別部１１は、フルカラーの画像データを１画素が８ビットの明度プレーンを有する画像データに変換する。以下単に画像データというときは明度プレーンを有する画像データを示し、ＲＧＢプレーンを有するフルカラーの画像データを「ＲＧＢ画像データ」という。

領域判別部１１は、画像データから図、写真、下地の各領域を抽出する。図、写真および下地の領域は、背景領域として低解像度化部１６に出力される。また、画像データからエッジ画像を生成し、エッジ画像から罫線を含む罫線領域を抽出する。罫線は、直線、曲線、アンダーライン、枠、表、大きな文字の直線部分、斜線、破線を含む。罫線領域は罫線２値化部１４に出力される。そして、エッジ画像から罫線領域を除いたものから文字ブロックを検出する。さらに検出された文字ブロックのＲＧＢ画像データの画素値から文字の色を算出する。複数の文字ブロックのブロック間の距離と算出した文字色の差から近傍で似た色の文字ブロックを統合して文字領域とする。文字ブロックの数を減らすことで、データ量を削減することができるからである。そして文字領域を文字２値化部１２に出力する。

文字２値化部１２は、文字領域と画像データとが入力される。文字２値化部１２は、画像データの文字領域を２値化する。そして、文字領域で文字とされた画素のＲＧＢ画像データにおける画素値から文字領域の色を決定する。ＲＧＢ画像データの文字とされた画素のＲＧＢ各色の平均値または中央値をその文字領域の色に決定する。文字２値化部１２は、文字領域の２値化データを可逆圧縮部１３に出力し、その文字領域の色を結合部１８に出力する。可逆圧縮部１３は、文字２値化部１２から入力される２値化データを可逆圧縮する。ここでは、可逆圧縮方式としてＭＭＲ（Ｍｏｄｉｆｉｅｄ
ＭｏｄｉｆｉｅｄＲｅａｄ）符号化を用いている。可逆圧縮部１３は、２値化データを可逆圧縮して得られる第３圧縮データを結合部１８に出力する。

罫線２値化部１４には、罫線領域と画像データとＲＧＢ画像データとが入力される。罫線２値化部１４は、入力される複数の罫線領域の色相および彩度をＲＧＢ画像データから求め、色相および彩度が近似する罫線領域を集めて統合した分割データを生成する。これにより、色相および彩度の組の数の分割データが生成される。罫線２値化部１４は、複数の分割データそれぞれについて、分割データに含まれる複数の罫線領域それぞれの画像データから罫線の中心画素を少なくとも含む罫線２値化データと、罫線データを補間するための補間２値化データとを生成し、可逆圧縮部１５に出力する。罫線２値化部１４は、罫線２値化データで特定されるＲＧＢ画像データの画素値から第１罫線色を決定して結合部１８に出力し、補間２値化罫線データで特定されるＲＧＢ画像データの画素値から第２罫線色を決定して結合部１８に出力する。

可逆圧縮部１５は、罫線２値化データと補間２値化データとが入力される。罫線２値化データと補間２値化データとは、色相および彩度の組ごと（分割データごと）に入力される。可逆圧縮部１５は、色相および彩度の組ごとに入力される罫線２値化データを可逆圧縮して得られる第１圧縮データを結合部１８に出力し、色相および彩度の組ごとに入力される補間２値化データを可逆圧縮して得られる第２圧縮データを結合部１８に出力する。

低解像度化部１６は、背景領域とＲＧＢ画像データとが入力され、ＲＧＢ画像データの背景領域について解像度を低減する。解像度を低くすることによりデータ量を減少して圧縮効率を高めるためである。低解像度化部１６は、解像度を低下させたＲＧＢ画像データの背景領域を非可逆圧縮部１７に出力する。非可逆圧縮部１７は、低解像度化部１６から入力される解像度を低下させた背景領域のＲＧＢ画像データを非可逆圧縮する。ここでは、非可逆圧縮方式としてＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）符号化を用いている。なお、非可逆的な圧縮方式であればＪＰＥＧ以外を用いてもよい。

結合部１８は、可逆圧縮部１３から第３圧縮データが、可逆圧縮部１５から第１および第２圧縮データが、非可逆圧縮部１７から第４圧縮データが、文字２値化部１２から文字領域の色が、罫線２値化部１４から第１罫線色および第２罫線色とが入力される。結合部１８は、第１圧縮データと第１罫線色とを関連付けた第１関連データと、第２圧縮データと第２罫線色とを関連付けた第２関連データと、第３圧縮データと文字領域の色とを関連付けた第３関連データと、第１〜第４圧縮データとを結合して結合圧縮データを生成して出力する。出力は、記憶部１０２またはＩＣカード１１０Ａへの記憶、ネットワークＩ／Ｆ１０７またはモデム１０８から他のコンピュータへの送信のいずれであってもよい。結合データは、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）のフォーマットであってもよい。

図３は、第１の実施の形態における罫線２値化部の詳細な機能を示す機能ブロック図である。図３を参照して、罫線２値化部１４は、罫線領域の画像データを第１のしきい値で２値化して罫線２値化データを抽出する第１の２値化部２１と、罫線領域の画像データを第１および第２のしきい値の内外で２値化して補間２値化データを抽出する第２の２値化部２３と、罫線２値化データで特定されるＲＧＢ画像データの画素値から第１罫線色を決定する第１罫線色決定部２２と、補間２値化データで特定されるＲＧＢ画像データの画素値から第２罫線色を決定する第２罫線色決定部２４とを含む。

ここでは、色相および彩度の組で特定される１つの分割データについて、その分割データに含まれる罫線領域が入力される場合について説明する。実際には、分割データが複数ある場合には、複数の分割データそれぞれについて罫線２値化データおよび補間２値化データが生成され、罫線２値化データに対応する第１罫線色および補間２値化データに対応する第２罫線色が決定される。換言すれば、罫線２値化部１４では、色相と彩度の組ごとに、罫線２値化データおよび補間２値化データが生成され、罫線２値化データに対応する第１罫線色および補間２値化データに対応する第２罫線色が決定される。

ここで、第１のしきい値と第２のしきい値の決定について説明する。図４は、画像データの罫線領域近傍における明度のヒストグラムを示す図である。図４を参照して、横軸は図面右側から左側方向に明度が低くなる次元を示す。縦軸は、画素数を示す。ヒストグラムの左側（明度の低い側）の山が罫線部分に相当し、右側（明度の高い側）の山が背景領域に相当する。左側の山のピークより明度の高い位置に第１のしきい値が設定される。この第１のしきい値よりも明度の低い画素は、罫線の濃度の濃い部分、換言すれば罫線の中心付近の画素に相当する。第２のしきい値は、第１のしきい値よりも明度が高い。第１しきい値と第２しきい値との間の明度の画素は、主に罫線の濃度の薄い部分の画素、換言すれば罫線のエッジ付近の画像に相当する。

第１のしきい値および第２のしきい値は、罫線領域のヒストグラムから次の手順で決定される。
（１）ヒストグラムのノイズを取るために、明度の階調数を２５６階調から６４階調に削減する。
（２）ヒストグラムの罫線領域のピーク値を求める。
（３）ヒストグラムの画素数のピーク値の１０％の画素数に当たる２つの明度のうちピーク値の明度よりも高い明度を第２のしきい値に決定する。
（４）罫線領域の第２しきい値以上の明度の画素の数の上位７０％の画素を含むことのできる明度を第１のしきい値に決定する。

なお、第１しきい値と第２しきい値とを定めるパラメータは、ヒストグラムの形状や処理の対象となる画素数等に応じて適切に変更するようにしてもよい。

図３に戻って、第１の２値化部２１は、罫線領域の画像データを第１のしきい値で２値化して罫線２値化データを生成する。換言すれば、第１の２値化部２１は、罫線領域の画像データの画素のうち明度が第１のしきい値以下の画素を「１」とし、他を「０」とする罫線２値化データを生成する。罫線２値化データは、罫線領域の画像データにおける罫線の中心付近の画素を「１」とし、他を「０」とした２値のデータとなる。このため、罫線領域の画像データが傾いた罫線を含んでいる場合、または曲線である場合には、直線にならないのでガタツキが目立つ罫線となる。

第１罫線色決定部２２には、ＲＧＢ画像データと罫線２値化データとが入力される。第１罫線色決定部２２は、罫線２値化データで画素値が「１」とされる画素に対応するＲＧＢ画像データの画素のＲＧＢ値それぞれの平均値または中央値を第１罫線色として決定する。この第１罫線色は、罫線２値化データで画素値「１」とされた画素の罫線色とされる。第１罫線色決定部２２は、第１罫線色を結合部１８に出力する。

第２の２値化部２３は、罫線領域の画像データを第１および第２のしきい値の内外で２値化して補間２値化データを生成する。換言すれば、第２の２値化部２３は、罫線領域の画像データの画素のうち明度が第１しきい値より高く第２のしきい値以下の画素を「１」とし、他を「０」とした補間２値化データを生成する。このため、補間２値化データは、罫線領域の画像データでは、罫線のエッジ付近の明度の高い画素を「１」とし、他を「０」とした２値のデータである。このような画素は、第１の２値化部２１で２値化された罫線のガタツキ部分の近傍に存在することが多い。

第２罫線色決定部２４には、ＲＧＢ画像データと、補間２値化データとが入力される。第２罫線色決定部２４は、補間２値化データで画素値が「１」とされる画素に対応するＲＧＢ画像データの画素のＲＧＢ値それぞれの平均値または中央値を第２罫線色として決定する。この第２罫線色は、補間２値化データで画素値「１」とされた画素の罫線色とされる。第２罫線色決定部２４は、第２罫線色を結合部１８に出力する。

図５は、罫線２値化データと補間２値化データの関係を示す図である。図５（Ａ）は、罫線２値化データを示し、図５（Ｂ）は、罫線２値化データおよび補間２値化データを示す。図５（Ａ）を参照して、原稿が傾いてスキャナで読み取られた場合に、罫線がスキャナの主走査方向に垂直または平行とならない。罫線２値化データは、画像データで罫線の中心付近に相当する画素を「１」としたデータであるので、図に示すように直線とはならず、２つの直線が重なる部分でカタツキが存在する。

図５（Ｂ）を参照して、罫線２値化データに含まれる罫線を細かいハッチングで示し、補間２値化データに含まれる罫線を粗いハッチングで示している。罫線２値化データに含まれる罫線のガタツキ部分の近傍に補間２値化データに含まれる罫線が位置する。補間２値化データに含まれる罫線の明度は、罫線２値化データに含まれる罫線の明度より高いので、ガタツキ部分が補間２値化データに含まれる罫線によって見た目上緩和される。

図６は、ＭＦＰで実行される領域別圧縮処理の流れを示すフローチャートである。図６を参照して、領域別圧縮処理では、まず、ＲＧＢ画像データが入力されるまで待機状態となっており（ステップＳ０１でＮＯ）、ＲＧＢ画像データが入力されるとステップＳ０２に進む。ステップＳ０２では、ＲＧＢ画像データの各画素の明度を算出して、ＲＧＢ画像データを１画素が８ビットの明度プレーンを有する画像データに変換する。明度を算出して画像データに変換するのは、以降に実行される領域判別処理において、判別精度を向上させるため、および演算負荷を低減させるために、明度を処理するからである。

次のステップＳ０３では、画像データをスムージングする。これにより画像データからノイズが除去されて、誤検出を低減することができる。そして、写真ブロックが検出される（ステップＳ０４）。写真ブロックの検出は、画像データを２値化して、２値化したデータをラベリング処理することにより、画像データ中に含まれる矩形の写真ブロックの位置が検出される。写真ブロックを矩形とするのは、以降に実行される写真判定処理が、矩形毎に判定するからである。

次のステップＳ０５では、写真ブロック内の画像の特性に応じて、写真ブロックが図領域、写真領域、下地領域、その他の領域のいずれであるかを判定する。ステップＳ０５における判定結果は、文字と罫線の判別に利用される。たとえば、写真領域にある文字または罫線を文字または罫線と判定するために、白地上の文字または罫線の判定で用いるしきい値と異なるしきい値を用いる必要があるからである。また、罫線分離処理では、画像全体の罫線を検出する他、図領域と判別された領域に特化した罫線検出を行うことに利用できるからである。

そして、次の写真ブロックが存在するか否かが判断され（ステップＳ０６）、存在する場合にはステップＳ０５に戻り、存在しない場合にはステップＳ０７に進む。

次のステップＳ０７およびステップＳ０８では、ステップＳ０２およびステップＳ０３と同様にＲＧＢ画像データが明度プレーンを有する画像データに変換されて、スムージングされる。そして、スムージングされた画像データからエッジが抽出される（ステップＳ０９）。エッジの抽出は、たとえば、画像データに一次微分フィルタまたは二次部分フィルタを用いてフィルタ処理して、エッジ画像を生成することにより行われる。写真領域のように明度を２値化したデータを用いずに、エッジを抽出するのは、明度の高い領域の文字や反転文字を検出するためである。

そして、エッジ画像を用いて罫線を抽出する。罫線の抽出は、画像の全体に対して行う他、ステップＳ０５で図領域と判定された領域のみ、および写真領域と判定された領域のみに対しても行われる。画像全体から罫線を抽出することで、文字を修飾するアンダーライン等を抽出することができる。また、図属性または写真領域と判定された領域から罫線を正確に抽出することができる。さらに、縦横の連続性を考慮して罫線を検出することができる。

ここで、罫線分離処理について詳細に説明する。図７は、図６のステップＳ１０で実行される罫線分離処理の流れを示すフローチャートである。図７を参照して、まず、画像データの傾きが検出される（ステップＳ４１）。この傾き検出のため、まずエッジ画像を低解像度化する。処理速度と検出精度に応じて、適切な解像度に縮小される。そして、傾き検出領域を抽出する。傾き検出は、文字の多い領域で精度が高くなるため、エッジの多い領域を検出領域として抽出する。検出領域において、ラインごとにエッジ画素のヒストグラムを作成する。検出領域を回転させていき、それぞれの回転角においてヒストグラムを作成する。そして、ヒストグラムの形状が原稿の傾がない場合の形状となったときの回転角を傾き角度として検出する。

次のステップＳ４２では、ステップＳ４１で検出した傾き角だけエッジ画像を回転させる。そして、罫線を検出する（ステップＳ４３）。罫線の検出は、まず、回転させたエッジ画像の行方向のヒストグラムを作成し、ヒストグラムの形状およびピーク値をしきい値と比較し、所定の条件を満たせばピーク値の行を罫線領域として検出する。検出された罫線領域は、エッジ画像から分離される。ピーク値の行が複数あれば、複数が罫線領域として検出される。次に列方向のヒストグラムを作成する。そして、ピーク値の列を罫線領域として分離する。ピーク値の列が複数あれば、複数が分離される。検出された罫線領域は、エッジ画像から分離される。そして、検出した罫線領域および罫線領域が分離されたエッジ画像を、ステップＳ４２で回転させたのと逆方向に同じ角度だけ回転させる。

図６に戻って、ステップＳ１１では、罫線が分離されたエッジ画像から文字ブロックが検出される。エッジ画像をラベリングすることにより単語１つ程度の大きさの文字ブロックを検出する。文字ブロックを単語１つ程度の大きさとすることにより、処理時間を低減して、文字の判定制度を向上させることができる。なお、文字ブロックの大きさは、これに限られず、これより大きいたとえば１ライン程度の大きさとしてもよいし、これより小さいたとえば１文字程度の大きさとしてもよい。

そして、文字ブロックが文字特性を有するか否かを、文字ブロックの画像データを用いて判定する（ステップＳ１２）。すなわち、画像データにおける文字ブロックに含まれる画素の明度を用いて文字特性を有するか否かが判定される。文字特性を有するとされた文字ブロックは、文字領域とされ、そうでなければ文字ブロックは文字領域とされない。

次のステップＳ１３では、文字領域の画像データに網点除去処理を行う。文字領域の背景に網点が存在する場合、網点は２値化されるとノイズとなるため、網点が２値化されるのを防ぐためである。次のステップＳ１４では、文字領域の画像データを２値化する（ステップＳ１４）。これにより、文字と背景とが分離され、データ量が削減される。２値化により文字とされた画素は「１」とされ、背景とされた画素は「０」となる。

そして、文字色が決定される（ステップＳ１５）。文字色の決定は、文字領域ごとに決定され、文字領域に対して１色が決定される。具体的には、文字領域における文字とされた画素のＲＧＢ画像データにおける画素値の平均値または中央値が、文字領域の文字の色とされる。複数の文字領域の文字領域間の距離と、決定した文字色の差とから、近傍でかつ類似する色の文字領域を統合して、文字領域の数が削減される。これにより、データ量が削減される。

そして、次に処理対象とする文字ブロックの有無が判断され（ステップＳ１６）、そのような文字ブロックが有ればステップＳ１２に戻り、なければステップＳ１７に進む。ステップＳ１７では、画像データ全体からステップＳ１２で文字と判定された文字領域とステップＳ１０で抽出された罫線領域とを除いた領域を背景領域とし、ＲＧＢ画像データから背景領域を抽出した背景領域の画像データ（背景領域データ）が生成される。そして、背景領域データが低解像度に変換され（ステップＳ１８）、非可逆圧縮方式で圧縮される（ステップＳ１９）。これにより、第４圧縮データが生成される。ここでは、ＪＰＥＧ方式で圧縮される。

ステップＳ２０では、近似する色の文字領域を統合した文字領域データが生成される（ステップＳ２０）。統合された文字領域データは、全て同じ色とされる。同じ色は、文字とされた画素のＲＧＢ値の平均または中央値とすればよい。ここでは、黒色、赤色、青色および緑色それぞれの色の文字領域データが生成されるものとする。そして、色別に生成された文字領域データを可逆圧縮する（ステップＳ２１）。これにより、色別の第３圧縮データが生成される。ここでは、黒色の文字領域を圧縮した第３圧縮データと、赤色の文字領域を圧縮した第３圧縮データと、青色の文字領域を圧縮した第３圧縮データと、緑色の文字領域を圧縮した第３圧縮データとが生成される。

次のステップＳ２２では、同色の罫線が統合される（ステップＳ２２）。ステップＳ１３で検出された罫線領域に含まれる画素のＲＧＢ値から、各罫線領域の色相および彩度の組が決定される。そして、色相および彩度の組が近似する罫線領域を統合するのである。これにより、色相および彩度の組別に罫線領域が特定される。ここでは、説明のため罫線領域の色相および彩度の組が黒、赤、緑、青の４色である場合を例に説明する。なお、ここでは、色相および彩度の組別に罫線領域を特定するようにしたが、ステップＳ１０で分離された罫線ごとにステップＳ２３からステップＳ２８の処理を実行するようにしてもよい。

ステップＳ２３からＳ２８は、色相および彩度の組別に統合された罫線領域のうち、色相および彩度の組が同じ罫線領域の全てに対して行われる。ステップＳ２３では、罫線領域の画像データを第１のしきい値で２値化する。これにより罫線２値化データが生成される。罫線２値化データは、罫線領域の画像データのうち第１のしきい値よりも明度が低い画素を「１」とし、そうでない画素を「０」としたデータである。罫線２値化データにおいて、画素値「１」の画素は、罫線であることを示す。そして、生成された罫線２値化データが可逆圧縮される（ステップＳ２４）。これにより、罫線２値化データを可逆圧縮した第１圧縮データが生成される。そして、罫線２値化データで特定されるＲＧＢ画像データの画素値から第１罫線色が決定される（ステップＳ２５）。第１罫線色は、たとえば、罫線２値化データで画素値が「１」とされる画素に対応するＲＧＢ画像データの画素のＲＧＢ値それぞれの平均値または中央値である。

ステップＳ２６では、罫線領域の画像データを第１のしきい値および第２しきい値の内外で２値化する。これにより補間２値化データが生成される。補間２値化データは、罫線領域の画像データのうち第１しきい値より高く第２のしきい値以下の画素を「１」とし、そうでない画素を「０」としたデータである。補間２値化データにおいて、画素値「１」の画素は、罫線であることを示す。そして、生成された補間２値化データが可逆圧縮される（ステップＳ２７）。これにより、補間２値化データを可逆圧縮した第２圧縮データが生成される。そして、補間２値化データで特定されるＲＧＢ画像データの画素値から第２罫線色が決定される（ステップＳ２５）。第２罫線色は、たとえば、補間２値化データで画素値が「１」とされる画素に対応するＲＧＢ画像データの画素のＲＧＢ値それぞれの平均値または中央値である。

次のステップＳ２９では、未処理の色相および彩度の組の罫線領域が存在するか否かが判断される。そのような罫線領域が存在する場合にはステップＳ２３に戻り、存在しなければステップＳ３０に進む。これにより、ステップＳ２２で色相および彩度の組別に統合された罫線領域の全てについて、ステップＳ２３からＳ２８までの処理が実行される。したがって、罫線２値化データおよび補間２値化データは、色相および彩度の組別に罫線領域を統合した分割データの数だけ生成されて可逆圧縮される。換言すれば、第１圧縮データおよび第２圧縮データは、色相および彩度の組別に生成される。ここでは、色相と彩度の組を、黒、赤、緑、青としたので、これら４つの組の分割データそれぞれに対して、第１圧縮データと第１罫線色、第２圧縮データと第２罫線色が求められる。

ステップＳ３０では、色相および彩度の組別の第１圧縮データ、色相および彩度の組別の第２圧縮データ、色別の第３圧縮データおよび第４圧縮データを統合して１つのデータとする。この際、第１圧縮データと第１罫線色とを関連付けた関連データと、第２圧縮データと第２罫線色とを関連付けた関連データと、第３圧縮データと文字領域の色とを関連付けた関連データとが併せて結合される。ここでは、色相および彩度の組が黒、赤、緑および青それぞれので、第１圧縮データおよび第２圧縮データが生成されるので、色相および彩度の組が黒、赤、緑および青それぞれで、第１圧縮データと第１罫線色とを関連つけた関連データと、第２圧縮データと第２罫線色とを関連付けた関連データとが記憶され、さらに、黒の色と第３圧縮データとを関連付けた関連データと、赤の色と第３圧縮データとを関連付けた関連データと、青の色と第３圧縮データとを関連付けた関連データと、緑の色と第３圧縮データとを関連付けた関連データとが記憶される。

図８は、結合データのデータ構造を示す図である。図８を参照して、結合データは、ヘッダと、ボディと、相互参照表と、トレーラとを含む。ボディは、作成日付などを含む文字情報と、第１ページ〜最終ページそれぞれのデータブロックと、各ページに対応する子ページ辞書と、親ページ辞書と、カタログ辞書とを含む。

第１ページ〜最終ページのデータブロックそれぞれは、背景領域を圧縮した第４圧縮データと、黒色の文字領域を圧縮した第３圧縮データと、赤色の文字領域を圧縮した第３圧縮データと、青色の文字領域を圧縮した第３圧縮データと、緑色の文字領域を圧縮した第３圧縮データと、色相および彩度の組が黒のうち第１罫線色（濃い黒）の第１圧縮データと、色相および彩度の組が黒のうち第２罫線色（薄い黒）の第２圧縮データと、色相および彩度の組が赤のうち第１罫線色（濃い赤）の第１圧縮データと、色相および彩度の組が赤のうち第２罫線色（薄い赤）の第２圧縮データと、色相および彩度の組が緑のうち第１罫線色（濃い緑）の第１圧縮データと、色相および彩度の組が緑のうち第２罫線色（薄い緑）の第２圧縮データと、色相および彩度の組が青のうち第１罫線色（濃い青）の第１圧縮データと、色相および彩度の組が青のうち第２罫線色（薄い青）の第２圧縮データと、レイヤ情報とを含む。レイヤ情報は、色相および彩度の組が黒、赤、緑および青それぞれについて第１罫線色と第１圧縮データとを関連付けた４つの関連データと、色相および彩度の組が黒、赤、緑および青それぞれについて第２罫線色と第２圧縮データとを関連付けた４つの関連データとを含み、さらに、黒の色と第３圧縮データとを関連付けた関連データと、赤の色と第３圧縮データとを関連付けた関連データと、青の色と第３圧縮データとを関連付けた関連データと、緑の色と第３圧縮データとを関連付けた関連データとを含む。

図９は、罫線２値化データと補間２値化データの関係を示す別の図である。図９（Ａ）は、罫線２値化データを示し、図９（Ｂ）は、罫線２値化データおよび補間２値化データを示す。図９（Ａ）を参照して原稿に曲線の罫線が含まれている場合、罫線がスキャナの主走査方向に垂直または平行とならない。罫線２値化データは、画像データで罫線の中心付近に相当する画素を「１」としたデータであるので、図に示すように曲線が複数の短い直線の集合となり、直線の接する部分でカタツキが存在する。

図９（Ｂ）を参照して、罫線２値化データに含まれる罫線を細かいハッチングで示し、補間２値化データに含まれる罫線を粗いハッチングで示している。罫線２値化データに含まれる罫線のガタツキ部分の近傍に補間２値化データに含まれる罫線が位置する。補間２値化データに含まれる罫線の明度は、罫線２値化データに含まれる罫線の明度より高いので、ガタツキ部分が補間２値化データに含まれる罫線によって見た目上緩和される。

以上説明したように第１の実施の形態におけるＭＦＰは、ＲＧＢ画像データ中の罫線領域を色相および彩度の組別に第１罫線色の罫線２値化データと、第１罫線色よりも明度の高い第２罫線色の補間２値化データとに分割して圧縮する。第１罫線色の罫線２値化データのデータ量を削減することにより発生する罫線のガタツキが、第２罫線色の補間２値化データで補間される。このため、画像データを圧縮しても罫線のガタツキを目立たなくすることができる。

＜第２の実施の形態＞
次に第２の実施の形態における画像処理装置について説明する。第２の実施の形態における画像処理装置のハード構成は第１の実施の形態における画像処理装置のそれと同じなので、ここでは説明を繰り返さない。第２の実施の形態における画像処理装置は、罫線を低解像度化して圧縮する際に発生する罫線のガタツキを目立たなくするようにする。

図１０は、第２の実施の形態におけるＭＦＰの機能の概略を示す機能ブロック図である。図１０を参照して、図２と異なる点は、罫線２値化部１４Ａである。その他の機能は図２に示したのと同じなのでここでは説明を繰り返さない。

図１１は、第２の実施の形態における罫線２値化部の詳細な機能を示す機能ブロック図である。図１１を参照して、第２の実施の形態における罫線２値化部１４Ａは、罫線領域と画像データとが入力され、罫線領域の画像データを２値化する２値化部３１と、２値化されたデータとＲＧＢ画像データとが入力され、２値化されたデータで特定されるＲＧＢ画像データの画素値から罫線色を決定する罫線色決定部３４と、２値化されたデータを低い解像度に変換して罫線２値化データを出力する解像度変換部３２と、２値化されたデータと罫線２値化データとが入力され、２値化されたデータから罫線２値化データの罫線成分を除去して補間２値化データを出力する差分抽出部３３とを含む。

２値化部３１は、罫線領域と画像データとが入力され、罫線領域の画像データを２値化する。画像データは、高解像度のデータであり、ここでは６００ｄｐｉ（ｄｏｔｐｅｒｉｎｃｈ）としている。罫線領域は、３００ｄｐｉであるので、罫線領域を６００ｄｐｉに解像度変換して、罫線領域の画像データが特定される。罫線色決定部３４は、２値化されたデータで画素値が「１」とされる画素（罫線）に対応するＲＧＢ画像データの画素のＲＧＢ値それぞれの平均値または中央値を第１罫線色として決定する。この罫線色は、罫線２値化データで画素値「１」とされた画素の罫線色とされるとともに、補間２値化データで画素値「１」とされた画素の罫線色とされる。罫線色決定部３４は、罫線色を結合部１８に出力する。

解像度変換部３２は、２値化された罫線領域の画像データが入力され、２値化されたデータを低解像度に変換して罫線２値化データを可逆圧縮部１５に出力する。ここでは罫線２値化データを３００ｄｐｉとしている。差分抽出部３３は、罫線領域の画像データを２値化したデータと、罫線２値化データの解像度を元に戻したデータとが入力され、罫線領域の画像データを２値化したデータと罫線２値化データの解像度を元に戻したデータとの差分を補間２値化データとして出力する。換言すれば、罫線領域の画像データを２値化したデータのうちから罫線２値化データで罫線とされた成分を除去した補間２値化データを抽出する。

罫線領域の画像データを２値化したデータは解像度が画像データと同じ６００ｄｐｉであるが、罫線２値化データは、解像度変換部３２で３００ｄｐｉに変換される。一方、補間２値化データは、画像データを２値化したデータ（６００ｄｐｉ）から罫線２値化データ（３００ｄｐｉ）の解像度を元に戻したデータ（６００ｄｐｉ）との差分とされる。このため、補間２値化データは、画像データと同じ６００ｄｐｉの解像度のままである。すなわち、補間２値化データは、罫線領域に含まれる罫線のうち解像度変換部３２で低解像度化することにより削除されてしまった罫線部分のみを含むことになる。

なお、解像度は例示的に示したもので、これに限られることはない。また、差分抽出部３３は、ここでは解像度変換部３２により縦横それぞれが１／２に低解像度化されるので、罫線領域の画像データを２値化したデータのうち縦横２×２のサイズの領域の画素が全て「１」となる画素の画素値を「０」とするようにしてもよい。また、ここでは、罫線２値化データを、罫線領域の画像データを２値化してから低解像度化しているが、罫線領域の画像データを低解像度化してから２値化するようにしてもよい。

図１０に戻って、結合部１８には、可逆圧縮部１５から第１圧縮データと第２圧縮データとが入力され、罫線２値化部１４Ａから罫線色が入力される。結合部１８は、第１圧縮データと罫線色とを関連付けた関連データ、および第２圧縮データと罫線色とを関連付けた関連データを生成して、レイヤ情報として結合圧縮データに含める。

図１２は、第２の実施の形態におけるＭＦＰで実行される領域別圧縮処理の流れを示すフローチャートである。第２の実施の形態における画像処理装置では、図６に示した領域別圧縮処理と同様の処理が実行されるが、ステップＳ２３からステップＳ２８の処理が異なり、これらに代えてステップＳ４１〜Ｓ４６が実行される。図１２を参照して、ステップＳ４１〜Ｓ４６は、色相および彩度の組別に統合された罫線領域のうち、色相および彩度の組が同じ罫線領域の全てに対して行われる。ステップＳ４１では、罫線領域の画像データを所定のしきい値で２値化する。ここでは、罫線領域は解像度が３００ｄｐｉであり、画像データは解像度が６００ｄｐｉの高解像度であるので、罫線領域を６００ｄｐｉに解像度変換して、罫線領域の画像データが特定される。罫線領域の画像データを２値化したデータは、罫線領域の画像データのうち所定のしきい値よりも明度が低い画素を「１」とし、そうでない画素を「０」としたデータである。２値化されたデータにおいて、画素値「１」の画素は、高解像度の画像データにおいて罫線であることを示す。そして、２値化されたデータで特定されるＲＧＢ画像データの画素値から罫線色が決定される（ステップＳ４２）。罫線色は、たとえば、２値化されたデータで画素値が「１」とされる画素に対応するＲＧＢ画像データの画素のＲＧＢ値それぞれの平均値または中央値である。

そして、罫線２値化データが生成される（ステップＳ４３）。罫線２値化データは、２値化されたデータを低解像度に変換することにより生成される。ここでは罫線２値化データの解像度を３００ｄｐｉとしている。生成された罫線２値化データが可逆圧縮される（ステップＳ４４）。これにより、罫線２値化データを可逆圧縮した第１圧縮データが生成される。次に、補間２値化データが生成される（ステップＳ４５）。補間２値化データは、ステップＳ４１で２値化されたデータと、罫線２値化データの解像度を元に戻したデータとの差分である。換言すれば、ステップＳ４１で２値化されたデータのうちから罫線２値化データで罫線とされた成分を除去したものを補間２値化データとする。補間２値化データは、画像データと同じ６００ｄｐｉの解像度のままであり、罫線領域に含まれる罫線のうち低解像度の罫線２値化データに含めることのできない罫線部分のみを含むことになる。そして、生成された補間２値化データが可逆圧縮される（ステップＳ４６）。これにより、補間２値化データを可逆圧縮した第２圧縮データが生成される。

図１３は、罫線２値化データと補間２値化データの関係を示すさらに別の図である。図１３（Ａ）は、画像データの罫線部分を示す図であり、図１３（Ｂ）は罫線２値化データを示し、図１３（Ｃ）は、補間２値化データを示す。図１３（Ａ）を参照して、罫線２値化データは、画像データの解像度を縦横１／２に低解像度化したデータを２値化したデータである。画像データを低解像度化することにより画像データの罫線の一部が失われ、罫線の形状が変形していることがわかる。この罫線２値化データを復元しても、画像データに存在した罫線と同じ形状にはならない。図１３（Ｃ）を参照して、補間２値化データは、罫線２値化データを生成するために画像データを低解像度化することにより画像データから失われた画素を「１」とし、他を「０」とするデータである。このため、罫線２値化データを復元したものと、補間２値化データを復元したものとを合成すれば、図１３（Ａ）に示した罫線の形状となることがわかる。このため、画像データの罫線領域を２値化したのと同じ結果が得られる。罫線２値化データは、解像度を縦横１／２に低解像度化しているのでデータ量が少なくなっている。このため、罫線２値化データと補間２値化データとは、画像データの罫線領域を２値化したものと比較して、データ量は少なくなる。

第２の実施の形態におけるＭＦＰ１００によれば、ＲＧＢ画像データ中の罫線領域から、色別に、罫線領域の画像データを低解像度化したデータを２値化した罫線２値化データと、罫線領域の画像データを２値化したデータから罫線データに含まれる罫線成分を除去した補間２値化データとに分割して圧縮する。罫線領域の画像データを低解像度化することによりデータ量が削減される。また、一方で罫線の形状のガタツキが目立つようになるが、補間２値化データにより罫線のガタツキが緩和される。補間２値化データは、罫線領域の画像データを２値化したデータから罫線データに含まれる罫線成分を除去したデータなので、データ量が削減される。このため、罫線領域の画像データを復元することができ、画像データを圧縮しても罫線のガタツキを目立たなくすることができる。

なお、本実施の形態においては、画像処理装置の一例としてＭＦＰを例に説明したが、ＭＦＰに限らず、画像データを処理可能な装置であればよく、たとえばコンピュータであってもよい。また、本実施の形態においては、ＭＦＰを例に説明したが、図６および図７に示した圧縮処理をコンピュータに実行させるための画像圧縮方法、および画像圧縮プログラムとして発明を捕らえることができるのは言うまでもない。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

＜付記＞
（１）前記第１圧縮手段は、可逆圧縮方式で圧縮する、請求項１に記載の画像処理装置。
（２）（１）において、前記第２圧縮手段は、非可逆圧縮方式で圧縮する。
（３）前記入力手段は、原稿を読み取って得られる画像データを出力する読み取り手段を含む、請求項１に記載の画像処理装置。

本発明の第１の実施の形態におけるＭＦＰのハード構成を示すブロック図である。第１の実施の形態におけるＭＦＰの機能の概略を示す機能ブロック図である。第１の実施の形態における罫線２値化部の詳細な機能を示す機能ブロック図である。画像データの罫線領域近傍における明度のヒストグラムを示す図である。罫線２値化データと補間２値化データの関係を示す図である。ＭＦＰで実行される領域別圧縮処理の流れを示すフローチャートである。図６のステップＳ１３で実行される罫線分離処理の流れを示すフローチャートである。結合データのデータ構造を示す図である。罫線２値化データと補間２値化データの関係を示す別の図である。第２の実施の形態におけるＭＦＰの機能の概略を示す機能ブロック図である。第２の実施の形態における罫線２値化部の詳細な機能を示す機能ブロック図である。第２の実施の形態におけるＭＦＰで実行される領域別圧縮処理の流れを示すフローチャートである。罫線２値化データと補間２値化データの関係を示すさらに別の図である。

符号の説明

１０前処理部、１１領域判別部、１２文字値化部、１３，１５可逆圧縮部、１４，１４Ａ罫線２値化部、１６低解像度化部、１７非可逆圧縮部、１８結合部、２１第１の２値化部、２２第１罫線色決定部、２３第２の値化部、２４第２罫線色決定部、３１２値化部、３２解像度変換部、３３差分抽出部、３４罫線色決定部、１０２記憶部、１０３スキャナ部、１０４入力画像処理部、１０５出力画像処理部、１０６画像形成部、１０７ネットワークＩ／Ｆ、１０８モデム、１０９操作パネル、１０９Ａ入力部、１０９Ｂ表示部、１１０カードＩ／Ｆ、１１０ＡＩＣカード、１１１バス、１１２ネットワーク、１１３電話回線。

Claims

画像データを入力する入力手段と、
前記入力された画像データから罫線を含む罫線領域を抽出する罫線領域抽出手段と、
前記罫線領域の画像データから罫線の中心画素を少なくとも含む罫線データを生成する第１生成手段と、
前記罫線領域の画像データから前記罫線データを補間するための補間データを生成する第２生成手段と、
前記罫線データおよび前記補間データそれぞれを圧縮して第１および第２圧縮データを生成する第１圧縮手段と、
前記画像データから前記罫線領域を除いた領域を圧縮して第３圧縮データを生成する第２圧縮手段と、
前記第１圧縮データと、前記第２圧縮データと、前記第３圧縮データとを結合して結合データを生成する結合手段と、を備えた画像処理装置。
前記第１生成手段は、前記罫線領域の画像データに含まれる罫線を構成する画素のうちから明度が第１のしきい値以下の画素を抽出する第１抽出手段を含み、
前記第２生成手段は、前記罫線領域の画像データに含まれる罫線を構成する画素のうちから明度が前記第１のしきい値を超える画素を抽出する第２抽出手段を含む、請求項１に記載の画像処理装置。
前記第１抽出手段は、前記罫線領域の画像データを前記第１のしきい値で２値化して前記罫線データを生成する第１の２値化手段を含む、請求項２に記載の画像処理装置。
前記罫線データと前記画像データとから前記罫線データに含まれる罫線の第１罫線色を決定する第１罫線色決定手段をさらに備え、
前記結合手段は、前記第１圧縮データと前記第１罫線色とを関連付ける罫線色関連付手段を含む、請求項３に記載の画像処理装置。
前記第２抽出手段は、前記罫線領域の画像データを前記第１のしきい値と第２のしきい値との内外で２値化して前記補間データを生成する第２の２値化手段を含む、請求項３に記載の画像処理装置。
前記罫線データと前記画像データとから前記罫線データに含まれる罫線の第１罫線色を決定する第１罫線色決定手段と、
前記補間データと前記画像データとから前記補間データに含まれる第２罫線色を決定する第２罫線色決定手段とをさらに備え、
前記結合手段は、前記第１圧縮データと前記第１罫線色とを関連付け、前記第２圧縮データを前記第２罫線色と関連付ける罫線色関連付手段を含む、請求項５に記載の画像処理装置。
前記第１生成手段は、前記罫線領域の画像データを２値化する２値化手段と、
前記２値化されたデータを解像度の低い罫線データに変換する解像度変換手段とを含み、
前記第２生成手段は、前記罫線領域の画像データを２値化する２値化手段と、
前記２値化されたデータから前記罫線データに含まれる罫線成分を除去して補間データを生成する差分抽出手段とを含む、請求項１に記載の画像処理装置。
前記罫線領域の画像データから色相および彩度の組が近似する罫線を集めて前記罫線領域の画像データを色相および彩度の組別に分割して複数の分割データを生成する分割手段をさらに備え、
前記第１および第２生成手段それぞれは、前記複数の分割データが入力され、色相および彩度の組ごとに前記罫線データおよび前記補間データを抽出する、請求項１に記載の画像処理圧縮装置。
画像データを入力するステップと、
前記入力された画像データから罫線を含む罫線領域を抽出するステップと、
前記罫線領域の画像データから罫線の中心画素を少なくとも含む罫線データを生成するステップと、
前記罫線領域の画像データから前記罫線データを補間するための補間データを生成するステップと、
前記罫線データおよび前記補間データそれぞれを圧縮して第１および第２圧縮データを生成するステップと、
前記画像データから前記罫線領域を除いた領域を圧縮して第３圧縮データを生成するステップと、
前記第１圧縮データと、前記第２圧縮データと、前記第３圧縮データとを結合して結合データを生成するステップとを含む、画像圧縮方法。
画像データを入力するステップと、
前記入力された画像データから罫線を含む罫線領域を抽出するステップと、
前記罫線領域の画像データから罫線の中心画素を少なくとも含む罫線データを生成するステップと、
前記罫線領域の画像データから前記罫線データを補間するための補間データを生成するステップと、
前記罫線データおよび前記補間データそれぞれを圧縮して第１および第２圧縮データを生成するステップと、
前記画像データから前記罫線領域を除いた領域を圧縮して第３圧縮データを生成するステップと、
前記第１圧縮データと、前記第２圧縮データと、前記第３圧縮データとを結合して結合データを生成するステップとをコンピュータに実行させる、画像圧縮プログラム。
画像データに含まれる罫線領域から罫線の中心画素を抽出し、該中心画素を少なくとも含む罫線データを圧縮した第１の圧縮データと、
画像データに含まれる罫線領域から前記罫線データを補間するための補間データを生成し、該補間データを圧縮した第２の圧縮データと、
前記画像データから前記罫線領域を除いた領域を圧縮した第３圧縮データとを含む、圧縮画像のデータ構造。