JP2009026287A

JP2009026287A - 文字画像抽出装置および文字画像抽出方法

Info

Publication number: JP2009026287A
Application number: JP2007246157A
Authority: JP
Inventors: Bo Wu; 波呉; Jianjun Dou; 建軍竇; Ning Le; 寧楽; Atou Go; 亜棟呉; Jing Jia; 靖賈
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-07-23
Filing date: 2007-09-21
Publication date: 2009-02-05
Also published as: US8750616B2; CN101354746B; US20090028435A1; CN101354746A

Abstract

【課題】複数の文字が並ぶ文字列領域から、各文字の画像を高精度で抽出することができる文字画像抽出方法および文字画像抽出装置を提供する。
【解決手段】抽出ステップでは、抽出部４０１によって、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、その中から連結成分に外接する外接図形によって区画される区画要素を抽出する。第１改変ステップでは、第１改変部４０２によって、前記抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。第１選択ステップでは、第１選択部４０３によって、基準の大きさを予め定め、第１改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。
【選択図】図１

Description

本発明は、複数の文字が並ぶ文字列領域から各文字の画像を抽出する文字画像抽出装置および文字画像抽出方法に関する。

また本発明は、複数の文字が並ぶ文字列領域から各文字の画像を抽出するための文字画像抽出プログラムおよび記録媒体に関する。

従来から、文書ファイリング装置が実用化されている。文書ファイリング装置は、文書データベースに文書を保持し、文書データベースに対して文書を検索することを可能とする（たとえば特許文献１参照）。文書ファイリング装置には、イメージスキャナなどの画像入力装置で文書を画像に変換して電子的に蓄積し、後から検索することを可能とするものもある。このような文書ファイリング装置では、後から検索することを可能とするために、画像文書中の文字列領域から、各文字の画像を抽出する必要がある。

文字列領域には、文字の他に、句読点などの約物が含まれることが多くあり、またノイズ部分が含まれることも多くある。約物およびノイズ部分は、検索には必要がない。それにも拘わらず、従来の文書ファイリング装置では、文字列領域から各文字の画像を抽出する際に、文字を含む要素だけでなく、約物を含む要素およびノイズ部分を含む要素までもが抽出されてしまう。

特開２００２−２４５０６２号公報

本発明の目的は、複数の文字が並ぶ文字列領域から、各文字の画像を高精度で抽出することができる文字画像抽出方法および文字画像抽出装置を提供することである。

本発明は、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出ステップと、
抽出ステップにて抽出された区画要素を改変する改変ステップであって、抽出ステップにて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変ステップと、
基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択ステップとを備えることを特徴とする文字画像抽出方法である。

また本発明は、前記選択ステップにて選択された区画要素を改変する第２の改変ステップであって、第１の基準の寸法を予め定め、前記選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第１の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする第２の改変ステップと、
第２の基準の寸法を予め定め、第２の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第２の基準の寸法よりも大きい区画要素を選択する第２の選択ステップとをさらに備えることを特徴とする。

また本発明は、第３の基準の寸法を予め定め、前記第２の選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第３の基準の寸法よりも大きい区画要素を、前記第３の基準の寸法に基づいて分割する分割ステップをさらに備えることを特徴とする。

また本発明は、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出部と、
抽出部にて抽出された区画要素を改変する改変部であって、抽出部にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変部と、
基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択部とを備えることを特徴とする文字画像抽出装置である。

また本発明は、コンピュータに請求項１に記載の文字画像抽出方法を実行させるための文字画像抽出プログラムである。

また本発明は、コンピュータに請求項１に記載の文字画像抽出方法を実行させるための文字画像抽出プログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、抽出ステップによって、複数の文字が並ぶ文字列領域から区画要素が抽出される。改変ステップによって、抽出ステップにて抽出された区画要素が改変される。選択ステップによって、改変ステップにて改変された区画要素の一部が選択される。

抽出ステップでは、文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を抽出する。この区画要素には、文字の全体を含む要素と、文字の一部を含む要素とがある。また、この区画要素には、約物を含む要素がある。約物とは、句点類、括弧類および中点類などの記述記号をいう。さらに、この区画要素には、文字および約物のいずれにも属さないノイズ部分を含む要素もある。

改変ステップでは、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。これによって、ある文字について、その文字の一部を含む要素とその文字の他の一部を含む要素とを統合させて、その文字の全体を含む１つの要素を得ることができる。また、ある文字について、その文字の一部を含む要素とその文字の全体を含む要素とを統合させて、その文字の全体を含む１つの要素を得ることができる。

しかも改変ステップでは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の選択ステップにて不所望に選択されることを防ぐことができる。

約物を含む要素およびノイズ部分を含む要素は、文字を含む要素に比べて小さい。この点を利用して、選択ステップでは、基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。これによって、改変ステップにて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、改変ステップにて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。

このような本発明では、抽出ステップ、改変ステップおよび選択ステップがこの順で実行されることによって、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を抽出することができる。その結果、文字列領域から、文字を含む要素を文字画像として高精度で抽出することができる。

また本発明によれば、第２の改変ステップによって、選択ステップにて選択された区画要素が改変される。第２の選択ステップによって、第２の選択ステップにて改変された区画要素の一部が選択される。

文字列領域の各文字は、互いに大きさが異なる場合がある。この場合、比較的に小さい文字を含む複数の要素が文字の並び方向に隣接することはよくあり得る。しかしながら、約物を含む要素が文字の並び方向に隣接することは稀であり、またノイズ部分を含む要素が文字の並び方向に隣接することも稀である。

この点を利用して、第２の改変ステップは、第１の基準の寸法を予め定め、前記選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第１の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とする。これによって、比較的に小さい文字を含む要素を統合させて大きな要素とすることができる。したがって比較的に小さい文字を含む要素が、後述の第２の選択ステップにて不所望に除外されることを防ぐことができる。

しかも第２の改変ステップは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素を、後述の第２の選択ステップにて確実に除外することができる。

第２の選択ステップでは、第２の基準の寸法を予め定め、第２の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第２の基準の寸法よりも大きい区画要素を選択する。これによって、第２の改変ステップにて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、第２の改変ステップにて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。

このような本発明では、第２の改変ステップおよび第２の選択ステップがこの順でさらに実行されることによって、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することを可及的に防いだうえで、文字を含む要素を確実に抽出することができる。その結果、より一層に高い精度で、文字列領域から、文字を含む要素を文字画像として抽出することができる。

また本発明によれば、抽出ステップにて区画要素を抽出したときに、文字の並び方向に隣接する複数の文字が、１つの区画要素に含まれてしまうことがある。また改変ステップにて区画要素を改変したとき、さらには第２の改変ステップにて区画要素を改変したときに、文字の並び方向に隣接する複数の文字が、１つの区画要素に含まれてしまうことがある。そこで、分割ステップでは、第３の基準の寸法を予め定め、第２の選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第３の基準の寸法よりも大きい区画要素を、前記第３の基準の寸法に基づいて分割する。これによって１つの区画要素に複数の文字が含まれることを防ぐことができる。換言すれば、文字列領域から、各文字画像を１文字分ずつ抽出することができる。

また本発明によれば、抽出部によって、複数の文字画像が並ぶ文字列領域から区画要素が抽出される。改変部によって、抽出部にて抽出された区画要素が改変される。選択部によって、改変部にて改変された区画要素の一部が選択される。

抽出部は、文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を抽出する。この区画要素には、文字の全体を含む要素と、文字の一部を含む要素とがある。また、この区画要素には、約物を含む要素がある。さらに、この区画要素には、文字および約物のいずれにも属さないノイズ部分を含む要素もある。

改変部は、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。これによって、ある文字について、その文字の一部を含む要素とその文字の他の一部を含む要素とを統合させて、その文字の全体を含む１つの要素を得ることができる。また、ある文字について、その文字の一部を含む要素とその文字の全体を含む要素とを統合させて、その文字の全体を含む１つの要素を得ることができる。

しかも改変部は、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の選択部にて不所望に選択されることを防ぐことができる。

約物を含む要素およびノイズ部分を含む要素は、文字を含む要素に比べて小さい。この点を利用して、選択部は、基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。これによって、改変部にて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、改変部にて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。

このような本発明では、抽出部、改変部および選択部がそれぞれ機能することによって、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を抽出することができる。その結果、文字列領域から、文字を含む要素を文字画像として高精度で抽出することができる。

また本発明によれば、文字画像抽出プログラム、文字画像抽出プログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。

以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図１は、本発明の実施の一形態である文字画像抽出方法を実行する文字画像抽出装置４００の構成を示すブロック図である。文字画像抽出装置４００は、文書を画像として入力して蓄積する画像文書処理装置１０の一部を構成する。文字画像抽出装置４００は、複数の文字が並ぶ文字列領域である見出し領域から、各文字の画像を抽出するために用いられる。

文字列領域には、複数の文字が、文字の幅方向または文字の高さ方向に並ぶ。文字の幅方向とは、文字の、字の向きに直交する方向をいい、文字の高さ方向とは、文字の、字の向きに平行な方向をいう。換言すれば、文字の並び方向は、文字の幅方向または文字の高さ方向と一致する。さらに換言すれば、文字は横書きまたは縦書きになっている。本実施の形態は、文字が横書きになっている場合を想定して説明する。文字は、左から右へと１列に並ぶ。文字列領域は、２値画像である。

文字画像抽出装置４００は、文字列領域から区画要素を抽出する抽出部４０１と、抽出部４０１にて抽出された区画要素を改変する改変部である第１改変部４０２と、第１改変部４０２にて改変された区画要素の一部を選択する選択部である第１選択部４０３と、第１選択部４０３にて選択された区画要素を改変する第２の改変部である第２改変部４０４と、第２改変部４０４にて改変された区画要素の一部を選択する第２の選択部である第２選択部４０５と、第２選択部４０５にて選択された区画要素を分割する分割部４０６とを有する。

図２は、文字画像抽出装置４００によって実行される文字画像抽出方法を説明するためのフローチャートである。文字列領域が与えられると、文字画像抽出処理が開始される。文字画像抽出処理が開始されると、まず、ステップａ１で、抽出ステップを実行する。抽出ステップでは、抽出部４０１によって、文字列領域から区画要素を抽出する。

次のステップａ２では、改変ステップである第１改変ステップを実行する。第１改変ステップでは、第１改変部４０２によって、抽出部４０１にて抽出された区画要素を改変する。次のステップａ３では、選択ステップである第１選択ステップを実行する。第１選択ステップでは、第１選択部４０３によって、第１改変部４０２にて改変された区画要素の一部を選択する。

次のステップａ４では、第２の改変ステップである第２改変ステップを実行する。第２改変ステップでは、第２改変部４０４によって、第１選択部４０３にて選択された区画要素を改変する。次のステップａ５では、第２の選択ステップである第２選択ステップを実行する。第２選択ステップでは、第２選択部４０５によって、第２改変部４０４にて改変された区画要素の一部を選択する。

次のステップａ６では、分割ステップを実行する。分割ステップでは、分割部４０６によって、第２選択部４０５にて選択された区画要素を分割する。分割ステップを実行した後、文字画像抽出処理が終了される。

図３は、抽出ステップ、第１改変ステップ、第１選択ステップおよび第２改変ステップを詳細に説明するための図であり、図３（ａ）は抽出ステップにて抽出された各区画要素を示し、図３（ｂ）は第１改変ステップにて改変された各区画要素を示し、図３（ｃ）は第１選択ステップにて選択された各区画要素を示し、図３（ｄ）は第２改変ステップにて改変された各区画要素を示す。

抽出ステップにおいて、抽出部４０１は、文字列領域４１０について、互いに連結している複数の画素で構成される連結成分４１１を求め、連結成分４１１に外接する外接図形４１２によって区画される区画要素４１３を前記文字列領域４１０から抽出する。抽出ステップでは、図３（ａ）に示すように、各区画要素が抽出される。

連結成分４１１は、互いに連結している同一の画素値を有する画素で構成される。連結成分４１１を求めるにあたっては、連結性について、８連結で見てもよく、あるいは４連結で見てもよい。本実施の形態では、文字列領域４１０において文字は左から右へと１列に並ぶことを考慮して、文字列領域４１０の左端から右端に向かって連結成分４１１を求めていく。

外接図形４１２は、矩形であり、文字の幅方向Ｄ１に平行な２つの辺４１６，４１７と文字の高さ方向Ｄ２に平行な２つの辺４１８，４１９とによって構成される。区画要素４１３は、このような外接図形４１２の内側の部分である。この区画要素には、文字の全体を含む要素と、文字の一部を含む要素とがある。また、この区画要素には、約物を含む要素がある。さらに、この区画要素には、文字および約物のいずれにも属さないノイズ部分を含む要素もある。

約物とは、句点類、括弧類および中点類などの記述記号をいう。句点類は、文または文章の終わりを示すものであり、たとえばピリオドが挙げられる。括弧類は、始め括弧類および終わり括弧類を含む。始め括弧類は、文章の中で、ある部分を囲んで他との区別を明らかにするための記号のうち、区切りの始まりを示すものであり、たとえば二重引用符が挙げられる。終わり括弧類は、文章の中で、ある部分を囲んで他との区別を明らかにするための記号のうち、区切りの終わりを示すものであり、たとえば閉じ二重引用符が挙げられる。終わり括弧類は、文章中の切れ目を示すものも含み、たとえばコンマが挙げられる。中点類は、文章および語句の区切りに用いる記号であり、文字の幅の中心に位置するものであり、たとえばコロンが挙げられる。

第１改変ステップにおいて、第１改変部４０２は、抽出部４０１にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする。第１改変ステップでは、図３（ｂ）に示すように、各区画要素が得られる。

新たな区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させたものは、前記互いに重なり合う区画要素に外接する外接図形によって区画される。この外接図形も、矩形であり、文字の幅方向に平行な２つの辺と文字の高さ方向に平行な２つの辺とによって構成される。

このような第１改変ステップでは、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。これによって、ある文字について、その文字の一部を含む要素とその文字の他の一部を含む要素とを統合させて、その文字の全体を含む１つの要素を得ることができる。また、ある文字について、その文字の一部を含む要素とその文字の全体を含む要素とを統合させて、その文字の全体を含む１つの要素を得ることができる。

たとえば、「男」という文字については、抽出ステップにおいて、図３（ａ）に示すように、２つの区画要素４２１，４２２が抽出される。１つは、文字の一部を含む要素４２１であり、もう１つは、文字の他の一部を含む要素４２２である。第１改変ステップでは、これらの２つの区画要素４２１，４２２を統合させて、図３（ｂ）に示すように、１つの区画要素４２３を得ることができる。

また、たとえば「治」という文字については、抽出ステップにおいて、図３（ａ）に示すように、３つの区画要素４２６，４２７，４２８が抽出される。１つは、文字の全体を含む要素４２６であり、もう１つは、文字の一部を含む要素４２７であり、さらにもう１つは、文字の他の一部を含む要素４２８である。第１改変ステップでは、これらの３つの区画要素４２６〜４２８を統合させて、図３（ｂ）に示すように、１つの区画要素４２９を得ることができる。

しかも第１改変ステップでは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の第１および第２選択ステップにて不所望に選択されることを防ぐことができる。

本実施の形態では、少なくとも一部分が文字の高さ方向Ｄ２に互いに重なり合う区画要素を統合させる。換言すれば、文字の幅方向Ｄ１に互いに重なり合っていたとしても、文字の高さ方向Ｄ２に互いに重なり合っていなければ、区画要素を統合させない。したがって約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを可及的に防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の第１および第２選択ステップにて不所望に選択されることを可及的に防ぐことができる。

第１選択ステップにおいて、第１選択部４０３は、基準の大きさを予め定め、第１改変部４０２にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。第１選択ステップでは、図３（ｃ）に示すように、各区画要素が選択される。

約物を含む要素およびノイズ部分を含む要素は、文字を含む要素に比べて小さい。この点を利用して、第１選択ステップでは、第１改変部４０２にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。これによって、第１改変部４０２にて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、第１改変部４０２にて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。たとえば、二重引用符を含む要素４３１，４３２については、第１選択ステップにて除外される。

前記基準の大きさは、文字列領域の、文字の並び方向に直交する方向に関する寸法、または第１改変部４０２にて改変された区画要素の大きさに基づいて設定される。したがって前記基準の大きさを適切に設定することができる。これによって、前記基準の大きさが小さすぎて、約物を含む要素およびノイズ部分を含む要素が除外されなかったり、前記基準の大きさが大きすぎて、文字を含む要素までもが除外されたりすることを防ぐことができる。

具体的には、第１選択ステップでは、区画要素の大きさとして、区画要素の、文字の幅方向Ｄ１に関する寸法（以下「幅寸法」という）および文字の高さ方向Ｄ２に関する寸法（以下「高さ寸法」という）が用いられ、前記基準の大きさとして、基準の幅寸法および基準の高さ寸法が用いられる。

文字によっては、その文字を含む要素の幅寸法および高さ寸法のいずれか一方が基準の寸法を満たさないことがある。そこで、第１選択ステップでは、幅寸法が基準の幅寸法よりも小さくて高さ寸法が基準の高さ寸法よりも小さい区画要素は除外し、それ以外の区画要素は選択する。これによって文字を含む要素までもが不所望に除外されることを防ぐことができる。

基準の幅寸法および基準の高さ寸法は、文字列領域の、文字の並び方向に直交する方向に関する寸法、本実施の形態では文字列領域の高さ寸法に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、基準の幅寸法および基準の高さ寸法を適切に設定することができる。

具体的には、基準の幅寸法および基準の高さ寸法は、文字列領域の高さ寸法に、０を超えて１未満の所定の比率を乗算した値に設定される。基準の幅寸法および基準の高さ寸法は、文字列領域の高さ寸法に対して、たとえば５０％の値に選ばれる。

基準の幅寸法および基準の高さ寸法は、他の設定方法で設定されてもよい。たとえば、基準の幅寸法は、各区画要素の幅寸法の平均値に所定の比率を乗算した値に設定されてもよい。また基準の高さ寸法は、各区画要素の高さ寸法の平均値に所定の比率を乗算した値に設定されてもよい。

第１選択ステップでは、区画要素の対角線の寸法に基づいて、区画要素を選択するか否かを判定してもよい。また区画要素の面積に基づいて、区画要素を選択するか否かを判定してもよい。

さらに第１選択ステップでは、区画要素の位置情報にも基づいて、区画要素を選択するか否かを判定してもよい。この場合、区画要素が、他の区画要素と比べて、上過ぎる位置または下過ぎる位置にあり、しかも基準の大きさよりも小さいとき、その区画要素は除外し、それ以外の区画要素は選択する。またこの場合、文字の並び方向両端の区画要素については、その他の区画要素から離れていると判定されたときも除外する。

以上のような抽出ステップ、第１改変ステップおよび第１選択ステップが実行されることによって、文字列領域から、文字を含む要素を文字画像として高精度で抽出することができる。換言すれば、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を抽出することができる。

第２改変ステップにおいて、第２改変部４０４は、第１の基準の寸法を予め定め、第１選択部４０３にて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第１の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする。第２改変ステップでは、図３（ｄ）に示すように、各区画要素が得られる。

この点を利用して、第２改変ステップでは、文字の並び方向に関する寸法が前記第１の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とする。具体的には、２つの隣接する区画要素のそれぞれの幅寸法が、前記第１の基準の寸法よりも小さい場合に、それらの区画要素を統合の候補とする。そして、統合の候補となる各区画要素の幅寸法とそれらの区画要素間の距離との合計値が、前記第１の基準の寸法に所定の比率を乗算した値よりも小さい場合は、２つの隣接する区画要素を統合させる。これによって、比較的に小さい文字を含む要素を統合させて大きな要素とすることができる。たとえば、図３（ｃ）に示すような、比較的に小さい文字を含む要素４４１，４４２を統合させて、図３（ｄ）に示すように、１つの大きな要素４４３を得ることができる。したがって比較的に小さい文字を含む要素が、後述の第２選択ステップにて不所望に除外されることを防ぐことができる。

しかも第２改変ステップでは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素を、後述の第２選択ステップにて確実に除外することができる。

前記第１の基準の寸法は、第１選択部４０３にて選択された区画要素の大きさに基づいて設定される。したがって、前記第１の基準の寸法を適切に設定することができる。これによって、前記第１の基準の寸法が小さすぎて、比較的に小さい文字を含む要素が統合されなかったり、前記第１の基準の寸法が大きすぎて、比較的に大きい文字を含む要素までもが統合されたりすることを防ぐことができる。

前記第１の基準の寸法は、各区画要素の幅寸法または各区画要素の高さ寸法に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、前記第１の基準の寸法を適切に設定することができる。

具体的には、前記第１の基準の寸法は、各区画要素の幅寸法の平均値に、０を超えて１未満の所定の比率を乗算した値に設定される。前記第１の基準の寸法は、各区画要素の高さ寸法の平均値に、０を超えて１未満の所定の比率を乗算した値に設定されてもよい。前記第１の基準の寸法は、他の設定方法で設定されてもよい。

図４は、第２選択ステップを説明するための図であり、図４（ａ）は第２改変ステップにて改変された各区画要素を示し、図４（ｂ）は第２選択ステップにて選択された各区画要素を示す。図５は、第２選択ステップを説明するための図であり、図５（ａ）は第２改変ステップにて改変された各区画要素を示し、図５（ｂ）は第２選択ステップにて選択された各区画要素を示す。

第２選択ステップにおいて、第２選択部４０５は、第２の基準の寸法を予め定め、第２改変部４０４にて改変された区画要素のうちで、前記第２の基準の寸法よりも大きい区画要素を選択する。第２選択ステップでは、図４（ｂ）および図５（ｂ）に示すように、各区画要素が選択される。

このような第２選択ステップでは、第２改変部４０４にて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第２の基準の寸法よりも大きい区画要素を選択する。これによって、第２改変部４０４にて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を確実に除外することができる。

前記第２の基準の寸法は、文字列領域の、文字の並び方向に直交する方向に関する寸法、または第２改変部４０４にて改変された区画要素の大きさに基づいて設定される。したがって前記第２の基準の寸法を適切に設定することができる。これによって、前記第２の基準の寸法が小さすぎて、約物を含む要素およびノイズ部分を含む要素が除外されなかったり、前記第２の基準の寸法が大きすぎて、文字を含む要素までもが除外されたりすることを防ぐことができる。

第２選択ステップでは、文字の並び方向に関する寸法が前記第２の基準の寸法よりも小さい区画要素は除外し、それ以外の区画要素は選択する。換言すれば、文字の並び方向に直交する方向に関する寸法が前記第２の基準の寸法よりも大きくても、文字の並び方向に関する寸法が前記第２の基準の寸法よりも小さければ、その区画要素は除外する。このように第２選択ステップでは、選択条件を厳しくしている。これによって、約物を含む要素およびノイズ部分を含む要素を確実に除外することができる。

たとえば、図４に示すように、ノイズ部分である細線を含む要素４４５については、第２選択ステップにて除外される。また図５に示すように、他の文字に比べて非常に小さな文字を含む要素４４６についても、第２選択ステップにて除外される。

前記第２の基準の寸法は、文字列領域の、文字の並び方向に直交する方向に関する寸法、本実施の形態では文字列領域の高さ寸法に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、前記第２の基準の寸法を適切に設定することができる。

具体的には、前記第２の基準の寸法は、文字列領域の高さ寸法に、０を超えて１未満の所定の比率を乗算した値に設定される。第２選択ステップでの所定の比率は、第１選択ステップでの所定の比率よりも大きい。前記第２の基準の寸法は、文字列領域の高さ寸法に対して、たとえば７０％の値に選ばれる。

前記第２の基準の寸法は、他の設定方法で設定されてもよい。たとえば、前記第２の基準の寸法は、各区画要素の幅寸法の平均値に所定の比率を乗算した値に設定されてもよい。また前記第２の基準の寸法は、各区画要素の高さ寸法の平均値に所定の比率を乗算した値に設定されてもよい。

以上のような第２改変ステップおよび第２選択ステップがさらに実行されることによって、より一層に高い精度で、文字列領域から、文字を含む要素を文字画像として抽出することができる。換言すれば、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を確実に抽出することができる。

図６は、分割ステップを説明するための図であり、図６（ａ）は第２選択ステップにて選択された各区画要素を示し、図６（ｂ）は分割ステップにて分割された各区画要素を示す。

分割ステップにおいて、分割部４０６は、第３の基準の寸法を予め定め、第２選択部４０５にて選択された区画要素のうちで、幅寸法が前記第３の基準の寸法よりも大きい区画要素を、前記第３の基準の寸法に基づいて分割する。

抽出ステップにて区画要素を抽出したときに、文字の並び方向に隣接する複数の文字が、１つの区画要素に含まれてしまうことがある。また第１改変ステップにて区画要素を改変したとき、さらには第２改変ステップにて区画要素を改変したときにも、文字の並び方向に隣接する複数の文字が、１つの区画要素に含まれてしまうことがある。

そこで、分割ステップでは、第２選択部４０５にて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第３の基準の寸法よりも大きい区画要素を、前記第３の基準の寸法に基づいて分割する。具体的には、区画要素の幅寸法と前記第３の基準の寸法との割合を算出し、この割合に基づいて分割数を決定し、区画要素をその分割数で等分割する。たとえば、図６に示すように、２つの文字を含む要素４５１については、１つの文字をそれぞれ含む２つの要素４５２，４５３に分割される。これによって１つの区画要素に複数の文字が含まれることを防ぐことができる。換言すれば、文字列領域から、各文字画像を１文字分ずつ抽出することができる。

前記第３の基準の寸法は、第２選択部４０５にて選択された区画要素の大きさに基づいて設定される。したがって前記第３の基準の寸法を適切に設定することができる。これによって前記第３の基準の寸法が小さすぎて、分割されるべきでない区画要素が不所望に分割されたり、前記第３の基準の寸法が大きすぎて、分割されるべき区画要素が分割されなかったりすることを防ぐことができる。

前記第３の基準の寸法は、各区画要素の幅寸法の平均値または各区画要素の高さ寸法の平均値に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、前記第３の基準の寸法を適切に設定することができる。

具体的には、前記第３の基準の寸法は、各区画要素の幅寸法の平均値に、０を超えて１未満の所定の比率を乗算した値に設定される。また前記第３の基準の寸法は、各区画要素の高さ寸法の最大値に、０を超えて１未満の所定の比率を乗算した値に設定されてもよい。前記第３の基準の寸法は、他の設定方法で設定されてもよい。

前述の実施の形態では、第１選択ステップでは、区画要素の大きさに基づいて、区画要素を選択するか否かを判定するけれども、本発明の実施の他の形態では、この第１選択ステップでは、区画要素の位置にも基づいて、区画要素を選択するか否かを判定してもよい。たとえば、他の区画要素に対して離れた位置にある区画要素は除外されてもよい。

また本発明の実施のさらに他の形態では、第２改変ステップおよび第２選択ステップは、省略してもよい。

図７は、画像文書処理装置１０の構成を大略的に示すブロック図である。画像文書処理装置１０は、プロセッサ４と、プロセッサ４が実際の処理を行うためのソフトウエアなどを格納する外部記憶装置５とを含む。

プロセッサ４は、画像文書から検索の要となる見出し領域を抽出する画像文書特徴抽出処理、画像文書に対する検索を可能にするインデックス情報を生成するインデックス情報生成処理、インデックス情報を用いた検索処理、およびインデックス情報を用いて後述する意味のある文書名を作成して画像文書を管理する画像文書管理処理などを実際に行う。

プロセッサ４における実際の処理は、外部記憶装置５に格納されるソフトウエアによって実行される。プロセッサ４は、たとえば通常のコンピュータ本体などで構成される。本実施の形態では、プロセッサ４は、インデックス情報生成処理に用いる後述する字形特徴辞書１５を作成する字形特徴辞書作成処理も実行するようになっている。

外部記憶装置５は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置５は、画像文書を大量に保持するために光ディスクなどの大容量デバイスを用いるような構成をとっても構わない。後述する字形特徴辞書１５、インデックス情報データベース（インデックス情報ＤＢ）１７、画像文書データベース（画像文書ＤＢ）１９、字形見本データベース（字形見本ＤＢ）１３などは、外部記憶装置５にて構成される。

画像文書処理装置１０には、キーボード１が接続されるとともに、表示装置３が接続される。キーボード１は、検索キーワードの入力に用いられる。またキーボード１は、画像文書を閲覧する際の指示入力にも用いられる。さらにキーボード１は、後述する候補文字数、相関値、および行の相関度加重因子Ｑなどの設定値変更にも用いられる。表示装置３は、画像文書などを出力して表示する。表示装置３に表示される内容には、相関度の情報、および画像名称などの情報も含まれる。

画像文書処理装置１０には、イメージスキャナ２またはデジタルカメラ６がさらに接続される。イメージスキャナ２およびデジタルカメラ６は、画像文書を取得するために用いられる。画像文書の取得は、イメージスキャナ２およびデジタルカメラ６に限られるものではなく、ネットワークなどを介して通信を行うことによって取得してもよい。また、イメージスキャナ２またはデジタルカメラ６を用いた検索キーワードの入力も可能である。

図８は、画像文書処理装置１０の構成を詳細に示すブロック図である。画像文書処理装置１０は、文字データベース入力部（文字ＤＢ入力部）１１、字体正規化処理部１２、字形見本ＤＢ１３、文字画像特徴抽出部（画像特徴抽出部）１４、字形特徴辞書１５、特徴マッチング部１６、インデックス情報ＤＢ１７、見出し領域初期処理部１８、画像文書ＤＢ１９、画像文書特徴データベース（画像文書特徴ＤＢ）２０、画像文書入力部２１、検索部２２、語彙解析部２３、キーワード入力部２４、検索結果表示部２５、文書名作成部５１、画像文書ＤＢ管理部５２、画像文書表示部５３、指示入力部５４を含んでいる。

このうち、文字ＤＢ入力部１１、字体正規化処理部１２、字形見本ＤＢ１３、文字画像特徴抽出部１４、字形特徴辞書１５にて、上記した字形特徴辞書作成処理を実施する字形特徴辞書生成部３０が構成される。

まず、字形特徴辞書生成部３０を構成する、上記機能ブロック１１，１２，１３，１４，１５について説明する。

文字ＤＢ入力部１１は、字形特徴辞書１５を作成するために必要な、基本となる文字データベースを入力するためのものである。本装置が、たとえば、中国語対応の装置であれば、中華人民共和国におけるＧＢ２３１２の６７６３個の全文字などが入力される。また、本装置が、日本語対応の装置であれば、ＪＩＳ第一水準の約３，０００字種などが入力される。つまり、ここで言う文字には、符号が含まれる。このような文字ＤＢ入力部１１は、プロセッサ４にて構成され、文字データベースは、記録媒体を介して、或いはネットワークなどを通じて供給される。

字体正規化処理部１２は、文字ＤＢ入力部１１より入力された文字データベースに含まれる全ての文字について、異なるフォントとサイズの文字画像を作成するものである。異なるフォントとサイズの文字画像は、字形見本ＤＢ１３に格納される。

図９に、字体正規化処理部１２が字形見本ＤＢ１３を作成する処理を示す。字体正規化処理部１２には、本装置が中国語対応の装置であれば、たとえば、宋体、倣宋体、黒体、楷体などの字形見本１２ａが具備されている。また、本装置が日本語対応の装置であれば、ＭＳ明朝、ＭＳゴシック…などの字形見本が具備されている。

字体正規化処理部１２における変形処理部１２ｂが、文字データベースの文字を画像化し、文字画像を標準化処理する。次に、変形処理部１２ｂは、字形見本１２ａを参照して、標準化処理した文字画像に対し、変形処理を施し、さらに異なるフォントとサイズの文字画像にする。変形処理には、たとえば、曖昧化処理、拡大・縮小化処理、微細化処理などがある。このように変形処理された文字画像を、字体基準部１２ｃは、基準文字画像として字形見本ＤＢ１３に格納する。

字形見本ＤＢ１３には、文字データベースの全ての文字に対して、同じ文字であっても、フォント、サイズによって決まる字形毎に基準文字画像が格納されている。例をあげると、文字種は同じ「中」であっても、定められているフォントの数だけ形状の異なる基準文字画像の「中」があり、また、定められているサイズの数だけ大きさの異なる基準文字画像の「中」が格納されている。

文字画像特徴抽出部１４は、文字画像の特徴（画像特徴）を抽出して、字形特徴辞書１５に格納するものでもある。本実施の形態では、文字画像特徴抽出部１４は、文字画像外囲特徴と網格方向との組合せによって文字画像の特徴を抽出し、特徴ベクトルとする。なお、文字画像の特徴は、これらに限られるものではなく、他の特徴を抽出して特徴ベクトルを形成してもよい。

ここで、文字画像外囲特徴及び網格方向特徴について説明しておく。図１０は、文字画像外囲特徴の説明図である。文字画像外囲特徴とは、文字画像の外部からみた輪郭の特徴である。図１０に示すように、文字画像の外接矩形の４辺から走査し、白画素から黒画素に変化する点までの距離を特徴とし、最初に変化する位置と２度目に変化する位置を取り出す。

たとえば、外接矩形をＸ行Ｙ列に分割した場合、行を単位として左方向と右方向からそれぞれ画像を走査し、列を単位として上方向と下方向からそれぞれ走査する。なお、図１０は、行を単位に左から走査している図である。

また、図１０において、実線の矢印Ｆ１にて、最初に白画素から黒画素に変化する点までの走査軌跡を示している。破線の矢印Ｆ２は、２回目に白画素から黒画素に変化する点までの走査軌を示している。実線の矢印Ｆ３は、最後まで白画素から黒画素に変化する点を検出することができなかった走査軌跡を示しており、このような場合、距離値は０となる。

一方、図１１（ａ），（ｂ）は、網格方向特徴の説明図である。文字画像を粗い網格に分割し、各格子領域内の黒画素についてあらかじめ定めた複数方向に触手を伸ばす。そして、各方向に連結する黒画素の画素数を計数し、該黒画素の各方向成分別の分布状況を表す方向寄与度を、識別関数としてユークリッド距離を用いて黒画素数の差に応じた値により距離値を除算して距離値を算出する。

図１１（ａ）では、文字画像を４×４の１６個の格子に分割し、格子の交点からＸ軸方向に最も近い黒画素から白画素になる点を中心に、Ｘ軸方向（０°）、４５°方向、Ｙ軸方向（９０°）の３方向に触手を伸ばしている。

本実施例では、文字画像を８×８の４角の網に分割し、図１１（ｂ）に示すように、０°，４５°，９０°，１３５°，１８０°，２２５°，２７０°，３１５°の８方向に触手を伸ばすようになっている。

なお、網格方向の特徴の抽出方法としては、触手の伸ばす方向や、触手を伸ばす中心点を置き方など、様々な手法があり、たとえば、特開２０００−１８１９９４号公報などに記載されている。

文字画像特徴抽出部１４は、このような文字画像の特徴の抽出を、字形見本ＤＢ１３に格納されている、基準文字画像の全部に対して行う。そして、文字画像特徴抽出部１４は、字形見本ＤＢ１３に格納されている基準文字画像の抽出結果については字形特徴辞書１５に格納し、字形特徴辞書１５を生成する。

図１２に、文字画像特徴抽出部１４による字形特徴辞書１５を作成する処理を示す。文字画像特徴抽出部１４における字形基準化部１４ａが、字形見本ＤＢ１３から基準文字画像を取り出し、文字画像特徴取出部１４ｂは、字形基準化部１４ａが取り出した基準文字画像に対してその特徴を取り出す。そして、特徴分類部１４ｃが、字形見本ＤＢ１３を参照して、基準文字画像毎に抽出した特徴を分類して、字形特徴辞書１５に格納する。

文字画像特徴取出部１４ｂにおいては、上述したように、単文字ごと、加重付けによる異なる基準文字画像の特徴の適値を求め、基準文字画像の標準特徴を取得する。

文字画像特徴取出部１４ｂが、異なる字体字号を加重させることによって、異なる字形特徴辞書を作成することができる。多字体の画像特徴を融合し、単文字画像特徴を単位で字形特徴辞書を作成することで、多字体・字号画像文書の自動インデックスと管理を満足できる。

次に、画像文書特徴抽出処理を実施する画像文書特徴抽出部３１を構成する、画像文書ＤＢ１９、画像文書特徴ＤＢ２０、見出し領域初期処理部１８、文字画像特徴抽出部１４について説明する。

画像文書ＤＢ１９は、画像文書入力部２１より画像文書が入力されると、識別のための文書ＩＤを付けて保存するものである。

見出し領域初期処理部１８は、画像文書ＤＢ１９に新しい画像文書が保存されると、そのイメージデータより画像文書における見出し領域を定位して抽出して、文字画像を前述した文字画像特徴抽出部１４に送るものである。

図１５に、画像文書５０に対して、Ｔ１、Ｔ２、Ｔ３の３領域を見出し領域として定位した様子を示す。この図１７からも分かるように、画像文書５０におけるタイトル部分を見出し領域Ｔとして抽出する。

見出し領域初期処理部１８にて抽出されて文字画像特徴抽出部１４に送られる文字画像は、通常は複数の文字を含んだ文字列の画像である。したがって、これ以降は、見出し領域初期処理部１８より送られる文字画像は文字列の画像であるとして説明する。

本実施の形態では、見出し領域初期処理部１８は射影法と連通域統計分析により、見出し領域Ｔの定位及び抽出を行う。なお、このような見出し領域Ｔは、主にタイトル部分が相当し、たとえば、特開平９−３１９７４７号公報、特開平８−１５３１１０号公報などに記載されている方法など、従来ある様々な手法を用いることができる。

画像文書の全ての文字領域（テキスト領域）を対象とすることなく、このように見出し領域Ｔのみを定位し抽出しているため、検索の対象となる情報量を少なくして検索時間を短くできる。

但し、全てのテキスト領域を定位することなく、見出し領域Ｔのみを定位することは、検索に関して言えば必須の構成要素でなく、全文テキスト領域を定位して抽出することも可能である。ただし、後述する意味のある文書名の作成に関して言えば、見出し領域Ｔのみを定位することは必須の構成要素である。

文字画像特徴抽出部１４は、見出し領域初期処理部１８から入力される文字列の画像については、前述の文字画像抽出方法によって、各文字画像を抽出した上で、字形特徴辞書１５の作成時と同様、各文字画像の特徴を抽出する。そして、抽出した特徴は、画像文書特徴ＤＢ２０に画像文書ごとに格納する。

画像文書特徴ＤＢ２０には、見出し領域初期処理部１８にて抽出された見出し領域Ｔに含まれる文字列の画像の特徴情報が、文字列を構成する各文字それぞれの特徴（特徴ベクトル）として格納される。

図１５に示ように、１つの画像文書５０に対して、抽出された全ての見出し領域Ｔ１，Ｔ２，Ｔ３…に含まれる文字列の文字画像の特徴、つまり文字列を構成する各文字の文字画像の特徴が、画像文書５０の文書ＩＤと共に格納される。

次に、インデックス情報作成処理を実施するインデックス情報生成部３２を構成する、文字画像特徴抽出部１４、字形特徴辞書１５、特徴マッチング部１６、インデックス情報ＤＢ１７、画像文書特徴ＤＢ２０について説明する。

文字画像特徴抽出部１４、字形特徴辞書１５、画像文書特徴ＤＢ２０の機能は既に説明したとおりである。

特徴マッチング部１６は、画像文書特徴ＤＢ２０より画像文書の見出し領域Ｔに含まれる文字画像の特徴を読み出し、該読み出した特徴に基づいて、字形特徴辞書１５を参照して後述するようにインデックス行列を作成して、画像文書のインデックス情報を生成するものである。

ここで、インデックス情報が１つの画像文書に対して１つ生成され、インデックス情報に含まれるインデックス行列は、見出し領域Ｔ毎に作成される。したがって、１つの画像文書内に見出し領域Ｔが複数ある場合は、当該画像文書のインデックス情報の中に複数のインデックス行列が含まれることとなる。

図１３に、インデックス情報ＤＢ１７を作成する処理を示す。上述したように、ある画像文書が入力されて画像文書ＤＢ１９に格納されると、文字画像特徴取出部１４ｂが、各見出し領域Ｔに含まれる文字列の文字画像の特徴を抽出して、画像文書特徴ＤＢ２０に格納する。

特徴マッチング部１６は、画像文書特徴ＤＢ２０より、各見出し領域Ｔに含まれる文字列の画像の特徴を読み出し、単文字ごとに字形特徴辞書１５内の基準文字画像と適合を行って、見出し領域Ｔそれぞれのインデックス行列を作成する。

そして、特徴マッチング部１６は、これらインデックス行列に、当該画像文書のその他の情報である、文書ＩＤや画像文書ＤＢ１９内における該当する画像文書の保存位置の情報などを含めてインデックス情報とし、インデックス情報ＤＢ１７に格納する。

図１４に、特徴マッチング部１６によるインデックス行列を作成する処理の一例を示す。図１４は、図１５における見出し領域Ｔ３に含まれる文字列「去神仙居住的地方」の８つの文字画像について、インデックス行列を作成する説明図である。

文字列『去神仙居住的地方』は、「去」「神」「仙」「居」「住」「的」「地」「方」の１文字画像に分割される。

「去」…「地」の８文字には、並び順に従い、「去」には１、「神」には２、…「方」には８というように、１〜８までの番号が付される。この番号は、インデックス行列の行番号に相当する。

このような８つの文字画像全てに対して、図１４に参照符号Ａにて示す、画像文書特徴ＤＢ２０より格納されている文字画像「去」に対する特徴を取り出し（Ｓ１）、字形特徴辞書１５を参照して特徴が近い（適合度が高い）順に、Ｎ個の候補文字を選択する（Ｓ２）といった処理が実施される。

適合度の高い順に抽出されるＮ個の候補文字には、抽出順序に応じた番号が付され、これがインデックス行列の列番号に相当する。そして、検索キーワードに含まれる各検索文字と候補文字との適合度を示す文字相関値（相関値）は、この列番号に応じて設定されている。

図１４に、参照符号１００にて示すテーブルは、文字列『去神仙居住的地方』のインデックス行列の内容を示している。たとえば、５文字目の「住」の文字画像に対しては、行番号５の行に適合度の高い１列目から順に、「任」,「佳」，「住」，…「仁」の候補文字が抽出されている。テーブル１００において、たとえば候補文字「去」のインデックス行列内の位置は［１,１］、候補文字「屑」の位置は［４,２］、候補文字「仁」の位置は［５,Ｎ］となる。

なお、図１４のテーブル１００では、理解を助けるために、文字列の各文字に対応する候補文字に対しては○を付して示している。

このようなインデックス行列の行数Ｍは、見出し領域初期処理部１８が見出し領域Ｔとして抽出した文字列の画像の文字数にて決まる。また、列数Ｎは、１文字について選出する候補文字数にて決まる。したがって、本発明によれば、インデックス行列の次元数（列数）を変えることで、インデックス行列内の要素数、つまり、候補文字数量を柔軟に設定することができる。そのため、画像文書の検索において、正確でほぼ漏れのない検索を行うことができる。

インデックス行列において、選択された候補文字の情報の持たせ方は、検索キーワードの入力方法に応じて適宜設定することができる。たとえば、検索キーワードをキーボード１より入力する構成であれば、キーボード１から入力された検索キーワードに対して検索を掛けることができるように、候補文字を文字コードなどの情報で格納する。

また、イメージスキャナ２などを用いて検索キーワードをイメージデータにて入力する構成であれば、検索キーワードの特徴（特徴ベクトル）を抽出し、特徴ベクトル同士を比べて掛けることができるように、候補文字を特徴（特徴ベクトル）の情報で格納すればよい。

図１５に、インデックス情報ＤＢ１７におけるインデックス情報のデータ配置例を示す。複数の見出し領域Ｔ１，Ｔ２，Ｔ３…Ｔｎが存在する画像文書５０のインデックス情報では、複数の見出し領域Ｔ１，Ｔ２，Ｔ３…Ｔｎに対して作成されたインデックス行列が線形に配置される。図１７の例では、文書ＩＤが先頭に配置され、続いて、複数のインデックス行列が配列され、最後に保存位置の情報が配置されている。ここで、５×Ｎは、インデックス行列のサイズを示しており５行Ｎ列であることを示している。

インデックス情報をこのようなデータ配置としておくことで、画像文書ＤＢ１９内の画像文書の格納位置と、画像文書中の見出し領域Ｔの位置を迅速に定位して、検索結果の表示に用いることができる。

また、実際の要求に従って、インデックス情報に画像文書の他の属性を追加することもできる。

次に、インデックス情報を用いた検索処理を実施する検索部２２について説明する。図１６は、検索部２２の機能と検索処理とを示す説明図である。検索部２２は、インデックス行列検索処理部２２ａ、文字相関値保存部（保存部）２２ｂ、相関度算出部２２ｃ、表示順序決定部（順序決定部）２２ｄ、及び画像文書抽出部２２ｅを含む。

インデックス行列検索処理部２２ａには、キーワード入力部２４より検索キーワードが入力される。キーワード入力部２４としては、前述したキーボード１或いはイメージスキャナ２などが相当する。

インデックス行列検索処理部２２ａは、インデックス情報ＤＢ１７に対して検索を行い、入力された検索キーワードを含むインデックス行列を検出するものである。インデックス行列検索処理部２２ａは、検索キーワードを１文字ごとに分割し、各検索文字を含むインデックス行列を探し、検索文字が含まれている場合は、当該検索文字のインデックス行列内の適合位置の情報を取得する。なお、インデックス行列の抽出手順例については、図１７のフローチャートを用いて後述する。

文字相関値保存部２２ｂは、インデックス行列検索処理部２２ａにて取得された適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存するものである。

相関度算出部２２ｃは、インデックス行列検索処理部２２ａにおける全てのインデックス行列に対する検出が完了すると、検出されたインデックス行列と検索キーワードとの相関度を算出するものである。

相関度の算出は、文字相関値保存部２２ｂに保存されている適合位置及び文字相関値の情報を用い、予め設定されている相関度算出方法に従うことで算出する。相関度の算出については、図１８、図１９を用いて後述する。

なお、ここでは、文字相関値保存部２２ｂが、適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存する構成としていたが、文字相関値保存部２２ｂは、適合位置のみを保存し、相関度算出部２２ｃが、適合位置の情報より文字相関値を取得する構成としてもよい。

表示順序決定部２２ｄは、相関度算出部２２ｃにて算出された相関度の情報を基に、表示順序を決定するものである。表示順序決定部２２ｄは、相関度の高いインデックス行列を含む画像文書より順に、画像文書の内容が検索結果表示部２５に表示されるように表示順序を決定する。

画像文書抽出部２２ｅは、表示順序決定部２２ｄにて決定された順序に従い画像文書が表示されるように、画像文書ＤＢ１９より画像文書のイメージデータを読み出し、検索結果表示部２５に出力して表示させるものである。

検索結果表示部２５は、表示順序に従い画像文書を表示する。サムネイル表示などであってもよい。検索結果表示部２５としては、前述した表示装置３などが相当する。

ここで、検索手順について説明する。図１７は、検索部２２における検索手順を示すフローチャートである。Ｒ個の文字列よりなる検索キーワードが入力され、検索が指示されると、インデックス行列検索処理部２２ａは、まず、検索キーワードの第１番目の検索文字を取り出す（Ｓ１１）。

次に、インデックス行列検索処理部２２ａは、インデックス情報ＤＢ１７内の全てのインデックス行列に対して、第１番目の検索文字を検索する（Ｓ１２）。

全てのインデックス行列に対する検索が完了すると、第１番目の検索文字を検索できたかどうかを判断し、１つも検索できなかった場合はＳ１９に移行し、検索できた場合はＳ１４に進む。

Ｓ１４においては、インデックス行列検索処理部２２ａが、第１番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部２２ｂに保存する。

続いて、インデックス行列検索処理部２２ａは、第１番目の検索文字が含まれていた全てのインデックス行列を取り出す（Ｓ１５）。そして、検索キーワードの次の文字である第２番目の検索文字を取り出し、Ｓ１５で取り出した第１番目の検索文字を含んでいたインデックス行列に対して検索する（Ｓ１６）。

Ｓ１５で取り出した全てのインデックス行列に対する検索が完了すると、第２番目の検索文字を検索できたかどうかを判断し（Ｓ１７）、１つも検索できなかった場合は上記と同様にＳ１９に移行し、検索できた場合はＳ１８に進む。

Ｓ１８においては、インデックス行列検索処理部２２ａが、第２番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部２２ｂに保存する。

続いて、インデックス行列検索処理部２２ａは、再度Ｓ１６に戻り、検索キーワードのさらに次の文字である第３番目の検索文字を取り出し、Ｓ１５で取り出した第１番目の検索文字を含んでいたインデックス行列に対して検索する。

そして、ここでも、検索が完了すると、インデックス行列検索処理部２２ａは、第３番目の検索文字を検索できたかどうかを判断し（Ｓ１７）、１つも検索できなかった場合はＳ１９に移行し、検索できた場合は再度Ｓ１８に進み、検索キーワードのさらなる次の検索文字についての検索を行う。

このようなＳ１６〜Ｓ１８までの処理、つまり、Ｓ１５にて抽出した、第１番目の検索文字が含まれているインデックス行列を対象とした、第２番目以降の各検索文字の絞り込み検索を、インデックス行列検索処理部２２ａは、Ｓ１７で文字を１つも検出できなかったと判断するか、検索キーワード内の全検索文字に対しての検索が完了したと判断するまで行い、その後、Ｓ１９に移行する。

Ｓ１９では、検索キーワードにおける次の文字である第２番目の検索文字を取り出す。次いで、検索文字が終わりか、つまり、全ての検索文字に対して検索を終えたかどうを判断し（Ｓ２０）、終わっていない場合は、Ｓ１２に戻る。

そして、上記と同様にして、インデックス行列検索処理部２２ａは、インデックス情報ＤＢ１７内の全てのインデックス行列に対して、第２番目の検索文字を検索する。検索できた場合は、インデックス行列の適合位置と文字相関値を保存した上でＳ１５に進み、第２番目の検索文字を含んでいる全てのインデックス行列に対して、検索キーワードの次の文字、つまり、第２番目の次である第３番目以降の各検索文字に対して、Ｓ１６〜Ｓ１８を繰り返し行って絞り込み検索を行う。

インデックス行列検索処理部２２ａは、上記のような検索を、Ｓ１９で検索文字を一つ進め、進めた検索文字を含むインデックス行列を取り出し、それ以降の検索文字にて絞り込みを掛けるといった処理を、第３番目以降の各検索文字についても順次行う。

そして、Ｓ１９にて検索キーワード内の全ての検索文字について取り出しを終え、Ｓ２０にて、全ての検索文字に対して検索を終了したと判断した場合は、Ｓ２１に進む。

Ｓ２１では、相関度算出部２２ｃが、検索キーワードと各インデックス行列との相関度を、後述するように相関度基準にしたがって算出する。

そして、表示順序決定部２２ｄが相関度の高いインデックス行列を含む画像文書より表示されるように表示順序を決定し、画像文書抽出部２２ｅが画像文書ＤＢ１９より画像文書のイメージデータを取得し、検索結果表示部２５が相関度の高い順に画像文書を表示する（Ｓ２２）。

続いて、図１８、図１９を用いて、相関度算出部２２ｃにおける相関度基準にしたがった、インデックス行列と検索キーワードとの相関度算出方法について説明する。

図１８の参照符号１０１のブロックには、検索条件を記載している。そして、参照符号１０２のブロックには、相関度を計算するためのある仮定の検索キーワードとインデックス行列との相対関係を記載している。ブロック１０１に示した検索条件で、検索キーワードとインデックス行列とが、ブロック１０２に示すような相対関係であった場合、検索キーワードとインデックス行列の相関度は、ブロック１０３にて示されるような計算式にて算出されることとなる。

まず、ブロック１０１の検索条件について説明する。検索キーワードの文字数はＲ個であり、第１番目の検索文字がＣ１、第２番目がＣ２、…、第Ｒ番目がＣｒである。

検索対照となるインデックス行列はＭ×Ｎ次行列である。つまり、見出し領域Ｔとして切り出された文字列画像の文字数がＭ個であり、文字列の各文字それぞれの候補として選択された候補文字数がＮ個である。

検索文字と各候補文字との相関値である文字相関値は、インデックス行列の各位置に応じて定められているので、インデックス行列と同じ次数の行列となる。つまり、文字相関値行列Ｗｅｉｇｈｔは、Ｍ×Ｎ次行列である。たとえば、Ｗｅｉｇｈｔ［ｉ］［ｊ］は、インデックス行列における位置［ｉ，ｊ］（＝Ｉｎｄｅｘ［ｉ］［ｊ］）にある候補文字が適合された場合の文字相関値を表している。本実施の形態では、インデックス行列の列番号［ｊ］が同じであれば、行番号［ｉ］に関わらず、文字相関値は同じである。

行の相関度加重因子Ｑは、インデックス行列における隣接する２行にわたって、検索文字が適合した場合に、それら２行の文字相関値に加えられる加重である。隣接する２行にわたって検索文字が適合する場合、検索キーワードの連続する２文字を含んでいる可能性が高い。

行の相関度加重因子Ｑを高く設定すると、相関度算出部２２ｃが算出する相関度への貢献度が、連続的に適合された２行の文字相関値では大きくなるが、隣接しない各行の文字相関値では小さくなる。つまり、行の相関度加重因子Ｑを高く設定することで、語彙を一つの単位として検索した結果に近づくようになり、逆に行の相関度加重因子Ｑを小さくすることで、字を１つの単位として検索した結果に近づくようになる。

検索文字Ｃ１が適合した文字相関値はＷ１、検索文字Ｃ２が適合した文字相関値はＷ２,。ュ、検索文字Ｃｒが適合した文字相関値はＷｒとして表す。

続いて、ブロック１０２に示す、相関度を計算するために仮定した、検索キーワードとインデックス行列との相対関係について説明する。

検索キーワードとインデックス行列とは、全ての検索文字Ｃ１，Ｃ２，…Ｃｒがインデックス行列内の何れかの候補文字と適合する関係にある。検索文字Ｃ１，Ｃ２，…Ｃｒが適合した各候補文字のインデックス行列内の位置、つまり適合位置を、［Ｃ１ｉ，Ｃ１ｊ］,［Ｃ２ｉ，Ｃ２ｊ］,…［Ｃｒｉ，Ｃｒｊ］として表す。

そして、さらなる相対関係として、ブロック１０２に示す式（１）、
Ｃ（ｋ＋１）ｉ＝Ｃｋｉ＋１，Ｃ（ｍ＋１）ｉ＝Ｃｍｉ＋１（ｍ＞ｋ）…（１）
の関係にある。

該式において、ｋ,ｍは、検索キーワードを構成する各検索文字の相対位置を表している。また、Ｃ（ｋ＋１）ｉは、検索キーワードの第ｋ＋１番目の検索文字が適合した候補文字のインデックス行列内の行番号を示し、Ｃｋｉは、検索キーワードの第ｋ番目の検索文字が適合した候補文字のインデックス行列内の行番号を示している。

したがって、Ｃ（ｋ＋１）ｉ＝Ｃｋｉ＋１は、検索キーワードの第ｋ＋１番目の検索文字が適合した候補文字のインデックス行列内の行番号が、検索キーワードの第ｋ番目の検索文字が適合した候補文字のインデックス行列内の行番号に１を加算したものと同じであることを示している。換言すると、Ｃ（ｋ＋１）ｉ＝Ｃｋｉ＋１は、検索キーワードの第ｋ＋１番目の検索文字と第ｋ番目の検索文字とが、インデックス行列における隣接した２行にそれぞれ適合する関係にあることを示している。

Ｃ（ｍ＋１）ｉ＝Ｃｍｉ＋１も同様であり、検索キーワードの第ｍ＋１番目の検索文字と第ｍ番目の検索文字とが、インデックス行列における隣接した２行にそれぞれ適合する関係にあることを示している。

検索キーワードとインデックス行列とが、このような相対関係にある場合、検索キーワードとインデックス行列との相関度は、ブロック１０３に示す式（２）にて算出される。
SimDegree＝Ｗ１＋Ｗ２＋…＋Ｗ(ｋ−1)＋Ｑ*（Ｗｋ＋Ｗ(ｋ＋１)）＋…
＋Ｗ（ｍ−1）＋Ｑ*（Ｗｍ＋Ｗ(ｍ＋１)）＋…＋Ｗｒ …（２）

該式において、Ｗ１は、第１番目の検索文字Ｃ１が適合した文字相関値であり、Ｗ２は第２番目の検索文字Ｃ２が適合した文字相関値、Ｗ(ｋ−1)は、第（ｋ−１）番目の検索文字Ｃ（ｋ−１）が適合した文字相関値である。同様にして、Ｗ(ｋ)は、第ｋ番目の検索文字Ｃｋが適合した文字相関値であり、Ｗ(ｋ＋１)は、第(ｋ＋１)番目の検索文字Ｃ(ｋ＋１)が適合した文字相関値である。また、Ｗ(ｍ−1)は、第（ｍ−１）番目の検索文字Ｃ（ｍ−１）が適合した文字相関値である。同様にして、Ｗ(ｍ)は、第ｍ番目の検索文字Ｃｍが適合した文字相関値であり、Ｗ(ｍ＋１)は、第(ｍ＋１)番目の検索文字Ｃ(ｍ＋１)が適合した文字相関値である。そして、最後のＷｒは、第ｒ番目の最後の検索文字Ｃ１が適合した文字相関値である。

このように、相関度の算出においては、検索キーワードを構成する全検索文字の文字相関値Ｗが積算（累計）される。

そして、式（２）におけるＱ*（Ｗｋ＋Ｗ(ｋ＋１)）は、検索キーワードにおける第ｋ番目の検索文字Ｃｋと第（ｋ＋１）番目の検索文字Ｃ（ｋ＋１）とが、インデックス行列における隣接した２行にそれぞれ適合しているので、文字相関値Ｗｋと文字相関値Ｗ(ｋ＋１)とに行の相関度加重因子Ｑが掛け合わされていることを示している。Ｑ*（Ｗｍ＋Ｗ(ｍ＋１)）についても同様である。

なお、検索キーワードの第ｋ−１番目の検索文字と第ｋ番目の検索文字は、隣接した２行に適合する関係にはないため、Ｗ(ｋ−1)とＷｋとの両方に対して相関度加重因子Ｑを掛け合わせてはいない。Ｗ(ｍ−1)とＷｍについても同様である。

ところで、図１８のブロック１０２に示した検索キーワードとインデックス行列との相対関係では、全ての検索文字Ｃ１、Ｃ２、…Ｃｒがインデックス行列内の何れかの候補文字と適合する関係にあるとしたので、式（２）においては、Ｗ１〜Ｗｒまでの全ての検索文字の文字相関値が累積されている。

しかしながら、これは一例であり、たとえば、式（１）の相対関係を有するものの、検索文字Ｃ１と検索文字Ｃｒとがインデックス行列内の何れの候補文字にも適合しなかった場合の相関度を算出する式は、次式のようになり、累積項が少ない分、当然その相関度は低くなる。
SimDegree＝Ｗ２＋…＋Ｗ(ｋ−1)＋Ｑ*（Ｗｋ＋Ｗ(ｋ＋１)）＋…
＋Ｗ（ｍ−1）＋Ｑ*（Ｗｍ＋Ｗ(ｍ＋１)）＋…＋Ｗ（ｒ−１）

また、全ての検索文字Ｃ１、Ｃ２、…Ｃｒがインデックス行列内の何れかの候補文字と適合する関係にあり、かつ、検索キーワードの第ｋ＋１番目の検索文字と第ｋ番目の検索文字、及び、第ｋ＋２番目の検索文字と第ｋ＋１番目の検索文字とが、それぞれ隣接した２行に適合する関係にある場合、相関度を算出する式は次式のようになるであろう。
SimDegree＝Ｗ１＋Ｗ２＋…＋Ｗ(ｋ−1)
＋Ｑ*（Ｗｋ＋Ｗ(ｋ＋１)＋Ｗ（ｋ＋２））…＋ＷＲ

この場合も、検索キーワードの第ｋ−１番目の検索文字と第ｋ番目の検索文字は、隣接した２行に適合する関係にはないため、Ｗ(ｋ−1)とＷｋとの両方に対して相関度加重因子Ｑを掛け合わせてはいない。

次に、図１９を用いて、相関度計算の具体例を説明する。ここでは、図１４に示した、文字列『去神仙居住的地方』のインデックス行列（テーブル１００参照）と、検索キーワード『神仙』との相関度を求める。

図１９のブロック１０４に検索条件を示す。相関値行列WeightはＭ×Ｎ次，文字相関値はＷｅｉｇｈｔ［ｉ］＝［１，１−１／Ｎ，１−２／Ｎ，…，１／Ｎ］（ｉ＝０，１，…，Ｍ−１），行の相関度加重因子Ｑである。

検索キーワード『神仙』は、それぞれ、第１番目の検索文字である『神』と第２番目の検索文字である『仙』とに分割され、それぞれに対してインデックス行列内の候補文字に対して検索される。

図１４のテーブル１００を参照すると分かるように、検索文字である『神』は、インデックス行列における位置[ｉ，ｊ]の[２，２]に適合し、検索文字である『仙』は、インデックス行列における[３，１]に適合する。

したがって、ブロック１０５に示すように、検索文字『神』の文字相関値は（１−１/Ｎ）、検索文字『仙』の文字相関値は１となる。

そして、検索文字『神』の行番号は[２]であり、検索文字『仙』の行番号は[３]であり、図１４のテーブル１００に示すように、これら２つの検索文字は、インデックス行列における隣接した２行にそれぞれ適合している。

したがって、ブロック１０６に示すように、検索文字『神』の文字相関値（１−１/Ｎ）と検索文字『仙』の文字相関値１には、行の相関度加重因子Ｑが掛け合わされ、検索キーワードの『神仙』と文字列『去神仙居住的地方』のインデックス行列との相関度は、 SimDegree＝Ｑ*（（１−１/Ｎ）＋１）となる。

検索キーワードとインデックス行列との相関度は、相関値行列における加重（文字相関値）と行の相関度加重因子Ｑなどのパラメータを、ユーザの要望にしたがって柔軟に調整することで、より理想的な検索結果を得ることができる。

ユーザは、キーボード１などを用いて、相関値行列における加重（文字相関値）と行の相関度加重因子Ｑなどのパラメータを必要に応じて適宜設定することができる。

そして、このような画像特徴によるインデックスと適合方式は、多言語の画像文書のインデックスと検索を満足できる、文字認識を行わず、計算量が少ない。本発明は中国語に限らず各種言語の画像文書に応用できる。

続いて、語彙解析機能（語義分析機能）付き検索処理について説明する。図８にも示すように、本実施の形態の画像文書処理装置１０では、キーワード入力部２４と検索部２２との間に、語彙解析部２３が設けられている。図２０に語彙解析機能付きの検索処理を示す。

語彙解析部２３は、語義分析処理部２３ａと語義辞典２３ｂとから構成される。語義分析処理部２３ａは、キーワード入力部２４から検索キーワードが入力されると、語義辞典２３ｂを参照して、検索キーワードの語彙を分析する。

たとえば、検索キーワードとして「中日関係」が入力されると、語義分析処理部２３ａは、「中日関係」に関連する単語として、たとえば「中国」，「日本」，「関係」の３つを検索部２２の入力する。これら「中国」，「日本」，「関係」はｏｒの関係にあり、検索式は、「中国」ｏｒ「日本」ｏｒ「関係」となる。

検索部２２には、該検索式「中国」ｏｒ「日本」ｏｒ「関係」が入力され、検索部２２は、インデックス情報ＤＢ１７に対して検索を掛け、「中国」を含む画像文書、「日本」を含む画像文書、及び「関係」を含む画像文書を抽出する。

これにより、入力された検索キーワードが直接的に含まれている画像文書だけでなく、関連の画像文書も検索できる。

次に、画像文書管理処理を実施する画像文書管理部５７について説明する。画像文書管理部５７は、文字画像特徴抽出部１４、字形特徴辞書１５、特徴マッチング部１６、見出し領域初期処理部１８、画像文書ＤＢ１９、画像文書特徴ＤＢ２０、文書名作成部５１、画像文書ＤＢ管理部５２、画像文書表示部５３、指示入力部５４により構成されており、これらについて説明する。

文字画像特徴抽出部１４、字形特徴辞書１５、特徴マッチング部１６、見出し領域初期処理部１８、画像文書ＤＢ１９、画像文書特徴ＤＢ２０の機能については既に説明している。ここでは、意味のある文書名を作成して画像文書特徴ＤＢ２０の画像文書を管理する画像文書管理処理を実施するためにさらに必要な機能のみ、適宜説明する。

図２１を用いて画像文書管理処理を説明する。イメージスキャナ２やデジタルカメラ６にて構成される画像文書入力部２１より、画像文書１〜Ｎが入力される。

入力された画像文書１〜Ｎに対し、見出し領域初期処理部１８が、それぞれの画像文書の内容を分析して、見出し領域を切出して文字列を取得する。続いて、図示してはいないが、文字画像特徴抽出部１４が、前記と同様に、切出された見出し領域に含まれる文字列の文字画像を１文字ごとに分割して各文字画像の画像特徴を抽出する。

そして、このように抽出された文字列画像の画像特徴を基に、字形特徴辞書１５および特徴マッチング部１６からなる候補文字列生成部５５が、画像特徴の適合度が高い文字画像を候補文字として選択して、切出された見出し領域に含まれる文字列に応じた候補文字列を作成するとともに、語彙解析法を用いて該候補文字列を構成する各候補文字を調整して意味のある候補文字列とする。

より具体的に言うと、候補文字列生成部５５は、文字画像特徴抽出部１４によって抽出された文字画像の画像特徴を基に、字形特徴辞書１５により、画像特徴の適合度が近い順にＮ個（Ｎ＞１の整数）の文字画像を候補文字として選択し、前記文字列の文字数をＭ個（Ｍ＞１の整数）とした場合に、Ｍ×Ｎ次のインデックス行列を作成する。これは、前述した特徴マッチング部１６の処理である。

次に、特徴マッチング部１６は、作成したインデックス行列に基づいて、該インデックス行列における第１列目に位置する各行の候補文字を順に連ねた候補文字列を作成する。そして、この候補文字列を構成する連続する各行の候補文字によりなる単語の語義を解析し、候補文字列が意味をなすように各行の第１列目の候補文字を調整する。

図２２に、作成したインデックス行列を調整して第１列目の文字列が意味のある文字列となるように、語彙解析法を用いて調整した具体例を示す説明図である。

図２２の上部に示す調整前のインデックス行列１０９は、図１４にテーブル１００にて示したインデックス行列と同じである。インデックス情報ＤＢ１７にはこの状態で格納されている。このようなインデックス行列１０９により作成される候補文字列は「去伸仙居任酌地方」となり意味を成さない。

意味ある文書名として利用する候補文字列は、主語、述語、および目的語の接続詞関係等が意味的に正しくなければならない。そこで、語彙解析により、意味のある候補文字列に変換する。具体例には、複数のエラー候補文字に対し、概念辞書を使用し、複数のエラー候補文字と、候補テキストの他の単語との間の意味情報を分析し、候補文字列を意味ある文字列に修正する。

このような語彙解析に用いられる言語モデル６１は、すべての漢字で始まる活字の統計データを提供するものであればよい。つまり、この言語モデル６１のメインコンセプトにより、自動索引システムを技術的に確立することができ、中国語の新聞のスクリプトに関する統計データを得ることができる。

たとえば、実装例として、Ｂｉ−ｇｒａｍモデル（言語モデル）を使用することができる。Ｂｉ−ｇｒａｍは、２つの文字、２つの音節、または２つの単語のグループであり、テキストの簡単な統計分析の基礎として非常に一般的に使用される。シンボル系列で示した場合、各シンボルの外観を、独立事象とし、上記シンボル系列の確率を、以下のとおり定義する。

なお、上記の機能の分解に、確率の連鎖法則を使用できる。中国語を、（Ｎ−１）オーダマルコフ連鎖とする（シンボルの確率は、Ｎ−１オーダシンボルの前出を条件とする）。この言語文字はＮ−ｇｒａｍモデルと称される。

確立的なＮ−ｇｒａｍモデルの使用は、長く好結果をもたらす統計的な自然言語処理を含んでいる。Ｎ−ｇｒａｍは、テキストの大きい文書全般（コーパス）中の文字および単語の共起を用いて得られる統計から通常構成され、文字連鎖または単語連鎖の確立を規定する。Ｎ−ｇｒａｍには、通常、直接、コーパスから抽出する場合より、はるかに大きい言語をカバーできるという利点がある。言語モデルへのアプリケーションでは、コンピュータの制限と制限のない言語の特性（文字、単語は無限に存在する）のため、Ｎ＝２と設定し、ｂｉ−ｇｒａｍモデルとする。

図２２の下部に、調整後のインデックス行列１１０を示す。第２行目の第１列目の「伸」がエラー候補文字として、第２列目の「神」に置き換えられている。同様に、第５行目の第１列目の「任」が第３列目の「住」に置き換えられている。そして、第６行目の第１列目の「酌」が、その前後の「居住」と「地方」との関連性から鑑みてエラー候補文字であるとして、第２列目の「的」に置き換えられている。

このようなインデックス行列１１０の第１列目に含まれる候補文字列は、「去神仙居住的地方」となり、意味を成す。なお、特徴マッチング部１６は、このような調整後のインデックス行列１１０をインデックス情報ＤＢ１７に格納するようにしてもよい。

再び、図２１に戻り、候補文字列生成部５５にてこのように生成された意味のある候補文字列は、文書名作成部５１に送られる。

文書名作成部５１は、入力された画像文書に対して、候補文字列生成部５５にて生成された意味のある候補文字列を含めた文書名を作成する。この意味のある候補文字列が含まれた文書名を、以下においては「意味のある文書名」と称する。

文書名作成部５１には、時間データ等発生部６０から、画像文書が入力された時間および入力経路を示すデータ等のその他のデータも入力されるようになっている。文書名作成部５１は、時間データ等発生部６０から入力される時間データを少なくとも含むその他のデータを用いて、書類名を生成することもできる。

たとえば、時間データ等のその他のデータのうち、時間データを意味のある文書名に含め、意味のある文書名を、時間データと意味のある候補文字列よりなる構成としてもよい。

あるいは、時間データ等のその他のデータを用いて、同じ画像文書に、別の文書名を作成してもよい。時間データ等のその他のデータ等にて構成された文書名を、以下、オリジナル文書名と称する。

このような構成とすることで、１つの画像文書を、意味のある文書名と、時間データ等のその他のデータ等にて構成されたオリジナル文書名とで管理することが可能となる。

個々の画像文書に対して生成された意味のある文書名、およびオリジナル文書名は、画像文書ＤＢ管理部５２に送られ、画像文書ＤＢ１９に、画像文書のイメージデータに対応させて格納される。

画像文書ＤＢ管理部５２は、キーボード１等により構成される図８に示す指示入力部５４を用いて、画像文書ＤＢ１９に蓄積されている画像文書の閲覧指示等がユーザよりなされると、表示装置３等より構成される図８の画像文書表示部５３に、閲覧画面を表示する。

図２３に、画像文書表示部５３に表示される、画像文書ＤＢ１９に格納されている画像文書の閲覧画面の一例を示す。

図において、左側に示されている画面２０１は、蓄積されている画像文書がオリジナル文書名にて一覧表示されている状態を示す。画面２０１の上には、各画像文書の入力順を示している。紙面一番手前にある「ＡＲＣ２６２Ｍ２００６０８０３１０３１４０」とのオリジナル文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書となる。「２００６０８０３」は入力日（２００６年８月３日）を表し、「１０３１４０」は時間（１０時３１分４０秒）を表している。

このような表示状態において、画面に表示されている「意味のある文書名」のタグを選択するなどの操作にて、閲覧画面の表示は、図において、右側に示されている画面２０２へと遷移する。画面２０２は、蓄積されている画像文書が意味のある文書名にて一覧表示されている状態を示す。

この画面２０２は、画面２０１に対応しており、ここでも、画面２０１の上部に示す、紙面一番手前にある「定格惠州西湖」との意味のある文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書である。

このように、意味のある文書名にて閲覧できることにより、ユーザによる蓄積された画像文書の管理やサーチが容易に実施できるようになる。また、オリジナル文書名も併せて作成されることで、時間データ等の情報も、書類名と同時にみることができる。

なお、本画像文書処理装置１０においては、作成したインデックス行列を用いてインデックス情報を作成し、検索処理に用いる。そのため、見出し領域初期処理部１８は、画像文書に含まれる複数の見出し領域Ｔを抽出し、それぞれにインデックス行列を作成するようになっている。しかしながら、画像文書に意味のある文書名を作成することのみを目的とするのであれば、画像文書に含まれる複数の見出しを抽出してそれぞれにインデックス行列を作成する必要はない。

つまり、画像文書を最もよく表す見出し領域に含まれる見出しの文字列（文字画像列）に対してインデックス行列を作成し、これに基づき、特徴がマッチする文字列を使用して、意味の持つ名称を作成するように構成すればよい。

画像文書を最もよく表す見出し領域としては、たとえば、抽出された複数の見出し領域のうち、画像文書の一番上の行に存在するものとすることができる。これは、重要な見出しは、画像文書の一番上の行に配されることが多いためである。

また、見出し領域に含まれる文字のサイズが、ある閾値より大きく、抽出された他の見出し領域のものよりも大きいものとすることもできる。これは、重要な見出しは、他の見出しよりも大きな文字のサイズにて記載されることが多いためである。

あるいは、見出し領域に含まれる文字のフォント（字形）タイプが、抽出された他の見出し領域のものと異なるものとすることもできる。これは、重要な見出しは、他の見出しとは異なるフォント（字形）にて記載されることが多いためである。なお、これら以外の基準を付加することもでき、また、各基準は、個々に用いてもよいし、組合わせて用いてもよい。

また、本画像文書処理装置１０のように、１つの画像文書について、複数の見出し領域を抽出し、それぞれにインデックス行列を作成する構成では、見出し領域の配置位置や、文字サイズ、あるいはフォントにて、最も重要な見出し領域のインデックス行列を特性するようにすればよい。また、特に、このような場合であれば、抽出された複数の見出し領域のインデックス行列より、最も頻出する単語が候補文字列に含まれるように作成することも好ましい。

最後に、画像文書処理装置１０の各ブロック、特に、字体正規化処理部１２、文字画像特徴抽出部１４、特徴マッチング部１６、見出し領域初期処理部１８、検索部２２、語彙解析部２３、文書名作成部５１、画像文書ＤＢ管理部５２等は、ハードウエアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウエアによって実現してもよい。

すなわち、画像文書処理装置１０は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリなどの記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである画像文書処理装置１０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記画像文書処理装置１０に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、たとえば、磁気テープやカセットテープなどのテープ系、フロッピー（登録商標）ディスク／ハードディスクなどの磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒなどの光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カードなどのカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭなどの半導体メモリ系などを用いることができる。

また、画像文書処理装置１０を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、たとえば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、たとえば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線などの有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。

本発明の実施の一形態である文字画像抽出方法を実行する文字画像抽出装置４００の構成を示すブロック図である。文字画像抽出装置４００によって実行される文字画像抽出方法を説明するためのフローチャートである。抽出ステップ、第１改変ステップ、第１選択ステップおよび第２改変ステップを詳細に説明するための図である。第２選択ステップを説明するための図である。第２選択ステップを説明するための図である。分割ステップを説明するための図である。画像文書処理装置１０の構成を大略的に示すブロック図である。画像文書処理装置１０の構成を詳細に示すブロック図である。字形見本データベースを作成する処理を示す説明図である。文字画像外囲特徴の説明図である。網格方向特徴の説明図である。字形特徴辞書を作成する処理を示す説明図である。インデックス情報データベースを作成する処理を示す説明図である。インデックス行列を作成する処理を、具体例を用いて示す説明図である。画像文書例と、インデックス情報データベース中における、この画像文書のインデックス情報のデータ配置例とを示す説明図である。検索部の機能と検索処理を示す説明図である。検索部における検索手順を示すフローチャートである。検索キーワードとインデックス行列との相関度を算出する方法を示す説明図である。検索キーワードとインデックス行列との相関度の算出を、具体例を用いて示す説明図である。語彙解析機能付きの検索処理を示す説明図である。

画像文書管理部における処理を示す説明図である。作成したインデックス行列を調整して第１列目の文字列が意味のある文字列となるようにする処理を、具体例を用いて示す説明図である。画像文書表示部に表示される、画像文書ＤＢに格納されている画像文書の閲覧画面を示す説明図である。

符号の説明

４００文字画像抽出装置
４０１抽出部
４０２第１改変部
４０３第１選択部
４０４第２改変部
４０５第２選択部
４０６分割部

Claims

複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出ステップと、
抽出ステップにて抽出された区画要素を改変する改変ステップであって、抽出ステップにて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変ステップと、
基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択ステップとを備えることを特徴とする文字画像抽出方法。
前記選択ステップにて選択された区画要素を改変する第２の改変ステップであって、第１の基準の寸法を予め定め、前記選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第１の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする第２の改変ステップと、
第２の基準の寸法を予め定め、第２の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第２の基準の寸法よりも大きい区画要素を選択する第２の選択ステップとをさらに備えることを特徴とする請求項１に記載の文字画像抽出方法。
第３の基準の寸法を予め定め、前記第２の選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第３の基準の寸法よりも大きい区画要素を、前記第３の基準の寸法に基づいて分割する分割ステップをさらに備えることを特徴とする請求項２に記載の文字画像抽出方法。
複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出部と、
抽出部にて抽出された区画要素を改変する改変部であって、抽出部にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変部と、
基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択部とを備えることを特徴とする文字画像抽出装置。
コンピュータに請求項１に記載の文字画像抽出方法を実行させるための文字画像抽出プログラム。
コンピュータに請求項１に記載の文字画像抽出方法を実行させるための文字画像抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。