JP2019016350A

JP2019016350A - 電子文書における強調テキストの識別

Info

Publication number: JP2019016350A
Application number: JP2018115900A
Authority: JP
Inventors: イメイ，; Wei Ming
Original assignee: Konica Minolta Laboratory USA Inc
Current assignee: Konica Minolta Laboratory USA Inc
Priority date: 2017-06-30
Filing date: 2018-06-19
Publication date: 2019-01-31
Anticipated expiration: 2038-06-19
Also published as: JP7244223B2; US20190005325A1; US10169650B1

Abstract

【課題】テキスト画像中の強調テキストを効率的に識別する。【解決手段】強調テキストを識別するための方法であり、文書画像に対する水平方向の圧縮及び水平方向の形態的膨張から生じるクラスターに基づく境界ボックスを処理し、境界ボックスのいずれかが太字の単語又は文字を含むかを判断する。ある境界ボックスの密度とすべての境界ボックスに亘る平均密度との比較に基づいて、そのさが閾値以下の境界ボックスが除去される。境界ボックスの密度がより大きい場合、境界ボックス内のテキスト要素を評価し、テキスト要素が太字であるかを判断する。【選択図】図１１

Description

本開示は概ね画像処理に関し、より詳細にはテキストを含む画像の処理に関する。

テキストを含む用紙のシートをスキャナーに置いて各ページにテキスト画像が載っている電子文書を作成する場合がある。スキャナーは、ＰＤＦ（Portable Document Format）、ＪＰＥＧ（Joint Photographic Experts Group）、ＧＩＦ（Graphics Interchange Format）、ＴＩＦＦ（Tagged Image File Format）、ＰＮＧ（Portable Network Graphics）等、任意のデジタル形式でテキスト画像を出力することができる。通常、スキャン処理では、下線の付与や太字化といった、スタイル強調がなされた単語又は文字にタグ付けを行う方法でのテキスト画像の符号化は行われない。

状況によってはスタイル強調がなされた単語又は文字（本明細書では強調テキストと称する）を識別することが望ましい場合がある。タグを付けると、強調テキストは、さらなる処理の対象となることができる。例えば、あるシステムは、強調テキストのみを対象とした文字認識処理を実行し、文書中の他の単語を処理せずに文書の簡単な要約を生成することができる。文字認識処理で他のテキスト（非強調テキスト）を無視すれば、演算資源を節約し、処理にあまり時間がかからずに済む。演算コストが主要な関心事ではない場合であっても、強調テキストの認識精度が低いことは多くの文字認識（ＯＣＲ）ソフトウェアで問題となる場合がある。テキスト画像に複数のテキストスタイルの混在があれば、精度はさらに悪くなる可能性がある。したがって、強調テキストを識別することで、異なる文字識別アルゴリズムを強調テキストに適用して文字認識精度を向上させることができる。別の例としては、コンピューターを用いて電子文書を読む人が電子文書内の強調テキストに直接ジャンプしようとする場合が挙げられ、この場合、電子文書に文字認識処理を施す必要がない。したがって、強調テキストを効率的かつ有効に識別する方法及びシステムが必要となる。

おおまかに言えば、本発明は強調テキストを識別する方法、システム、及び非一時的コンピューター可読媒体を対象にする。

本発明の側面では、方法は、複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成する工程、前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成する工程、クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせる工程、すべての前記境界ボックスに亘る第１の平均密度を計算する工程、前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較する工程、及び前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別する工程、を含み、前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる。

本発明の側面では、システムは、プロセッサー、及び前記プロセッサーと通信し、命令を格納する記憶装置を備える。前記プロセッサーは、格納された前記命令に従って強調テキストを識別する処理を実行するように構成されている。前記処理は、複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成すること、前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成すること、クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせること、すべての前記境界ボックスに亘る第１の平均密度を計算すること、前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較すること、及び前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別すること、を含み、前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる。

本発明の側面では、非一時的コンピューター可読媒体は、システムのプロセッサーにより実行されると、システムに強調テキストを識別する処理を実行させるコンピューター可読命令を格納する。前記処理は、複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成すること、前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成すること、クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせること、すべての前記境界ボックスに亘る第１の平均密度を計算すること、前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較すること、及び前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別すること、を含み、前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる。

本発明の特徴及び利点は、以下の詳細な説明を添付の図面と併せて読めばより容易に理解できる。

電子文書中の強調テキストを識別する例示的な処理を示す流れ図である。図１の副処理を示す流れ図である。図２の副処理を示す流れ図である。図２の副処理を示す流れ図である。本明細書で説明するいずれの処理でも用いられ、アジア言語テキストを含まない例示的な入力画像（画像０）の表現である。図５の入力画像に対する水平方向の圧縮の例示的結果の表現である。本明細書で説明するいずれの処理でも用いられ、アジア言語テキストを含む例示的な入力画像（画像０）の表現である。図７の入力画像に対する水平方向の圧縮の例示的結果の表現である。ノイズ除去の前及び後の図６の一部の拡大図である。水平方向及び垂直方向に連続した形態的膨張の一例を示す図である。水平方向に連続した形態的膨張の一例を示す図である。水平方向の形態的膨張の前及び後の図６の一部と、水平方向の形態的膨張により形成されたクラスターを示す。図１２の水平方向圧縮テキストに対応する図５の一部のテキストを示す。図１２のクラスターから計算した境界ボックスを示す。図１４で計算した境界ボックスに対応する水平方向圧縮テキストを示す。テキストが上方区域及び下方区域よりも密度が大きい水平方向中央区域を有することを示す密度分布を持った水平方向圧縮テキストと、対応する映像を示す。上方区域及び下方区域よりも大きい密度の水平方向の中央領域を有するテキストを示す。上方区域及び下方区域よりも密度が大きい水平方向の中央区域を有しないアジア言語テキストを示す。図１６Ｂから抽出した水平方向の中央区域を示す。下線を引いたアジア言語テキストを示す。下線を外した図１９のアジア言語テキストを示す。電子文書中の強調テキストを識別する例示的な処理を示す流れ図である。図２１の副処理の流れ図である。図２２の副処理の流れ図である。図１及び図２１の処理を行うシステムのブロック図である。

本明細書で用いるように、「アジア言語テキスト」という文言は、表語文字、音節表記の仮名等を主に含むテキストを指す。表語文字は、単語又は句を表す文字である。表語文字の例は、中国語及び日本語の漢字である。音節文字である仮名は、平仮名及び片仮名を含み、これらは日本語の筆記体系の一部である。「アジア言語テキスト」という文言は、主にローマ字を用いて記載されるいくつかのアジア言語のテキストを含まない。主にローマ字を用いて記載することができるアジア言語の例としては、タガログ語（フィリピン）、マレー語、及びベトナム語が挙げられる。

本明細書で用いるように、「太字」、「太字にした」、及び「太字の」は強調スタイルのことをいい、ある文字が文書中の他の文字よりも太くなっている。

ここで本発明の側面を示すための例示的図面をより詳細に参照する。電子文書中の強調テキストを識別する例示的な方法を図１に示す。同一の参照番号はいくつかの図面間で対応する要素又は類似の要素を指す。図１には破線Ａ−Ａ’が記載されており、これは図２に対応している。図２には破線Ｂ−Ｂ’が記載されており、これは図３に対応している。また、図２には破線Ｂ２−Ｂ’が記載されており、これは図４に対応している。

図１のブロック１００の処理で、入力テキスト画像は水平方向に圧縮されるので、画像の水平方向の領域（画像幅）が小さくなる。垂直方向の圧縮は行われないので、画像の垂直方向の領域（画像の高さ）は小さくならない。入力テキスト画像は、デジタル形式、例えばＰＤＦ、ＪＰＥＧ、ＧＩＦ、ＴＩＦＦ、ＰＮＧ等であってもよい。入力テキスト画像は、画像０とも称し、画像０を水平方向に圧縮した結果を画像１と称する。画像０は、テキストを含み、必要であれば画像、例えば写真や図解を含む。画像０は、強調スタイルの単語又は文字を強調スタイルでない単語又は文字と区別するように符号化されていない。強調スタイルの例としては、下線及び太字が挙げられる。強調スタイルの単語又は文字を、本明細書では強調テキストと称する。

画像０を文字認識処理で符号化しないようにしても良い。この場合、画像０は画素群を特定のアジア言語の文字として区別する方法では符号化しない。

ブロック１００の水平方向の圧縮は、様々な方法で行うことができる。出願人は、下記の副処理に対して重大な悪影響をもたらすことなく水平方向の圧縮を行いつつ、演算資源を節約して強調テキストを識別する処理を完了するのに必要な時間を短縮することができることを発見した。

水平方向の圧縮処理の一例では、画像０は複数の垂直区分に分割され、各区分は１画素の幅である。Ｎの垂直区分群は、１画素幅の１つの垂直区分に変換される。この垂直区分を合成区分と称する。例えばＮ＝４の場合、第１群の４個の区分が第１の合成区分に変換され、次群の４個の垂直区分が第２の合成区分に変換されるといった具合である。平均アルゴリズム又は他のアルゴリズムを４個の区分に適用し、合成区分の個々の画素の値（黒又は白）を決定する。

水平方向の圧縮処理の別の例では、画像０は複数の垂直区分に分割される。区分は交互に取り除かれる。例えば、第１の区分は残り、第２の区分は取り除かれ、第３の区分は残り、第４の区分は取り除かれるといった具合である。残った各区分は、画素幅Ｗ１の水平方向の大きさを有することができる。Ｗ１は、１、５未満、又は他の値であってもよい。取り除かれた各区分は、画素幅Ｗ２の水平方向の大きさを有することができる。Ｗ２は、１より大きく、５より大きく、又は他の値であってもよい。他の水平方向の圧縮処理を用いることができる。

図５に例示的な入力画像である画像０を示す。この入力画像は強調語を含む。例えば「Customer value」等、いくつかの単語が太字になっている。他の単語、例えば「Document summarization algorithm」は下線が引かれている。「MAJOR TECHNOLOGY」という単語は、太字でかつ下線が引かれている。図６に、水平方向に圧縮された画像である画像１の一例を示す。この画像は、図５の画像０にブロック１００の処理を適用した結果である。画像１の個々の単語は、明瞭でないかもしれない。

図７に、アジア言語テキストの例示的な入力画像である画像０を示す。３つの段落があり、段落見出しの文字は太字になっている。また、見出しのいくつかの文字は、太字になっており、かつ下線が引かれている。図８に、水平方向に圧縮された画像である画像１の一例を示す。この画像は、図７の画像０にブロック１００の処理をかけた結果である。画像１の個々の文字は、明瞭でないかもしれない。

ブロック１０２の処理で、ごま塩ノイズを画像１から除去して画像２を生成する。ごま塩ノイズは、当技術分野でインパルスノイズとも称し、まばらに発生する白色及び／又は黒色の画素である。当技術分野で既知の様々なフィルタリングアルゴリズムをブロック１０２の処理で用いてごま塩ノイズを除去することができる。出願人は、この段階でごま塩ノイズを除去することで、下記の特定の副処理の精度を向上させることができることを発見した。図９は、ごま塩ノイズ除去の一例である。図面の左側は画像１を示し、図５の下側部分を拡大したものである。図面の右側は画像２を示し、ブロック１０２の処理結果である。画像１及び画像２の両方は、水平方向に圧縮され、垂直方向には圧縮されない画像の例である。

ブロック１０４の処理で、水平方向線の検出を画像２に対して実行する。例えば、狭くて暗色の区域を形成し、水平方向長さの垂直方向高さに対する比Ｒが非常に大きい、水平方向に連続する画素を探すアルゴリズムを用いることができる。このアルゴリズムは、Ｒを閾値と比較し、Ｒが閾値よりも大きい場合に、繋がっている画素を下線として識別することができる。これに加えて、あるいはこれに代えて、他の基準、例えば直線度及び長さを用いて繋がっている画素を下線として識別することができる。当技術分野で既知の線検出アルゴリズムを用いてもよい。例えば、ハフ変換又は線分検出器（ＬＳＤ）を用いてもよい。図９に戻って、図面の右側は、ブロック１０４の処理で２つの下線が識別された画像２を示す。

ブロック１０４の処理で下線を検出後、下線に関連する単語の位置及び／又は内容を記憶装置１４（図２４）に保存することができる。位置は、ページ番号、行番号、及び／又はページの座標であってもよい。例えば、位置及び／又は内容を記憶装置１４の参照テーブルに保存してもよい。これに代えて、又はさらに、入力画像（画像Ｘ）は、太字の単語又は文字があるものとして入力画像（画像０）の下線位置を入力画像の他の領域と区別するタグで符号化してもよい。タグは、ページ番号、行番号、及び／又はページの座標を含んでもよい。

ブロック１０５の処理で、変更可能な文書の種類を初期化する。文書の種類を「不明」に設定する。

処理はブロック１０５から図２に進む。図２のブロック２００の処理で、水平方向の形態的膨張を画像２に対して実行し、画像３を生成する。画像３は、水平方向に膨張した画像の一例である。一般的には、形態的膨張は、対象、例えば画像の前景要素の境界を膨張させる。対象は、形態的膨張の後に厚みが増したように見える。当技術分野で知られているように、形態的膨張用のアルゴリズムでは構造化要素を用いて境界を拡張させてもよい。

図１０に示すように、構造化要素（円）を文字の境界縁部に沿って当てがい、水平方向及び垂直方向に境界を拡張させる。水平方向の形態的膨張では、境界を垂直方向ではなく水平方向に拡張する。図１１に示すように、水平方向の形態的膨張を実行する際には、文字の境界縁部に沿って当てがう構造化要素として、細い水平方向の線を用いることができる。

図１２に、考察のために水平方向の形態的膨張を誇張した例を示す。図面の左側は、画像２の下方部を示す。図面の右側は、水平方向に形態的膨張をした後の画像２の同じ部分を示す。図１２の圧縮テキストは、図１３に示すテキストの２つの行に対応する。圧縮テキストに実行された水平方向の形態的膨張には、文字間の隙間を埋める効果がある。結果として、個々の文字が結合し、また個々の単語が結合する。例えば、図１３の画像０におけるテキストのある行（「knowledge distribution」）は、図１２の画像３の１つのクラスターに変換され、テキストの別の行（「Step3: create SUMMARY CONNTENT」）は、別のクラスターに変換されている。出願人は、これらのクラスターの信頼性が境界ボックスを計算する一行のテキストを表すことを発見した。

図２のブロック２０２の処理で、画像３のクラスターを決定する。換言すれば、クラスターは、画像３全体で識別される。クラスターを識別した後、その境界ボックスを計算する。本明細書で用いる「境界ボックス」という用語は、クラスターを囲む矩形の外周を有する最小面積の箱形の領域のことである。つまり、境界ボックスは、クラスターの画素を囲むできるだけ小さなボックスである。画像３で識別された各境界ボックスは、重なり合うことはない。図１４に、ブロック２０２の処理で２つのクラスターについて計算された例示的な境界ボックスの概略を示す。

ブロック２０３の処理で、画像３ではなく画像２からすべての境界ボックスに亘る平均密度（ＡＶＥ１）を計算する。画像２と画像３の両方が水平方向に圧縮されているが、画像３のみにクラスターの生成のための形態的膨張が施されており、このクラスターから境界ボックスが計算される。ブロック２０３の処理では、画像３から計算した境界ボックスに基づいてテキストの各行の平均密度を求めるために画像２を用いる。図１５に、ＡＶＥ１を計算する際に画像２に設けられた境界ボックスを示す。

ＡＶＥ１は、画像２のすべての境界ボックスから足し合わせた複数の正規化画素値の合計を、画像２のすべての境界ボックスから足し合わせたすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いてすべての境界ボックスのＡＶＥ１を計算することもできる。

正規化画素値の合計を計算する例示的な処理は、以下の通りである。画素は、０から最大値（例えば、グレースケールの画素では最大値＝２５５）までの値を取ることができる。各画素値は、その画素値を最大値で割り商を求めて正規化される。正規化画素値の合計は、すべての商の合計である。

ＡＶＥ１は、第１の平均密度の一例である。ＡＶＥ１は、画像３ではなく画像２から演算される。ＡＶＥ１は、水平方向に圧縮された画像である画像２に設けられた境界ボックスから生成される。

ブロック２０４の処理で、境界ボックスが太字の単語を含んでいるかを判断するループが始まる。ループは最初の境界ボックスで始まり、すべての境界ボックスが処理されるまで後続の処理ブロックが繰り返される。このループは、平均密度（ＡＶＥ１）を境界ボックスのそれぞれの密度と比較する処理の一例である。

ブロック２０６の処理で、現行の境界ボックス内の画像２の部分の密度を計算する。この密度を局所ボックス密度と呼ぶ。局所ボックス密度は、画像２の現行の境界ボックスにおける正規化画素値の合計を、画像２の現行の境界ボックスにおけるすべての画素（黒色及び白色）の総数で割ったものとして計算される。他の平均法を用いて局所ボックス密度を計算することもできる。

ブロック２０８の処理で、局所ボックス密度をＡＶＥ１と比較する。ブロック２０８の処理では、局所ボックス密度とＡＶＥの間の差を局所ボックス密度−ＡＶＥ１として計算することができる。この差が閾値（Δ１）を越える場合、ブロック２０８の処理結果はＮｏである（ブロック２０８：Ｎｏ）。この差が閾値を超える場合、ブロック２０８の処理結果はＹｅｓである（ブロック２０８：Ｙｅｓ）。

局所ボックス密度がＡＶＥ１＋Δ１より大きくない場合（ブロック２０８：Ｎｏ）、現行の境界ボックスは太字の単語を含まないと判断し、処理はブロック２１４に進む。ブロック２１４の処理で、処理すべき他の境界ボックスがあるかを確認する。無い場合（ブロック２１４：Ｎｏ）、処理は図１に戻り、終了してもよい。Ｙｅｓの場合（ブロック２１４：Ｙｅｓ）、次の境界ボックスを処理する。

局所ボックス密度＞ＡＶＥ１＋Δ１の場合（ブロック２０８：Ｙｅｓ）、ブロック２１０の処理で、現行の境界ボックスが太字の単語又は文字を含むと判断する。入力画像（画像０）の太字の領域を入力画像の他の領域と区別するタグで、出力画像（画像Ｘ）を、太字の単語又は文字を有するものとして符号化してもよい。太字の領域は、現行の境界ボックス内の区域に対応する。タグは、現行のページ番号、行番号、及び境界ボックスの座標を含んでもよい。

太字の特定の単語又は文字を識別することにより処理は進む。しかし、現行の境界ボックスがアジア言語テキストを含むかどうかに応じて処理は異なる。

ブロック２１１及びブロック２１２の処理で、文書の種類が非アジア言語テキスト又はアジア言語テキストとして識別されているかを確認する。図１のブロック１０５で、文書の種類が不明に設定された場合、処理はブロック２１３に進む（ブロック２１１及びブロック２１２の処理の重要性は、下記の図２１に関連して明らかになる）。

ブロック２１３の処理で、現行の境界ボックスがアジア言語テキストを含むか確認する。処理により、現行の境界ボックスに対応する画像領域が、上方区域及び／又は下方区域より大きい密度を有する水平方向の中央区域を含むかを確認してもよい。この目的に用いる画像は、画像０又は画像２であってもよい。より大きな密度を有する水平方向の中央区域が存在する場合、現行の境界ボックスがアジア言語テキストを含まないと判断する（ブロック２１３：Ｎｏ）。より大きい密度を有する水平方向の中央領域が存在しない場合、現行の境界ボックスはアジア言語テキストか、全部大文字のテキストを含む（ブロック２１３：Ｙｅｓ）。「全部大文字のテキスト」という文言は、すべて大文字、例えばａ、ｂ、ｃでなくＡ、Ｂ、Ｃを含むテキストのことをいう。

図１６Ａに、現行の境界ボックスに対応することができる画像２の領域内の例示的なテキストを示す。現行の境界ボックスは、「Step3: create SUMMARY CONNTENT」という複数の単語を含み、これらは水平方向に圧縮されている。画像２の現行の境界ボックスにおける区域について、密度曲線が計算される。図１６Ａに、境界ボックスの垂直方向に対応する垂直軸を有するグラフを示す。水平軸は密度に対応する。曲線上の各地点は、現行の境界ボックス内の同じ垂直位置にある画素の総計密度値を表す。現行の境界ボックス内の同じ垂直位置にあるすべての画素値を用いて、総計密度値を計算する。

例えば、各総計密度値は、現行の境界ボックス内の同じ垂直位置にある画素値の平均であってもよい。画素は、０〜最大値の値を有することができ、各総計密度値は、現行の境界ボックス内の同じ垂直位置にあるすべての画素値の平均に等しい。グレースケールの画素では、最大値は２５５になる場合がある。あるいは、総計密度値は、現行の境界ボックス内の同じ垂直位置にある画素値の合計になる場合がある。あるいは、画素値を正規化してもよい。各画素値において、正規化には、画素値を最大値で割って商を求めることが含まれる。次に、各総計密度値を、現行の境界ボックス内の同じ垂直位置に対応する商の合計として計算する。

密度曲線は、急激な降下２、３、４、５、及び６を含む。境界ボックスの下方部にある、隣接し互いに間隔を置いた急激な降下、例えば降下２及び３は、下線を表すパルスピークに対応しているとみなされる。したがって、下線は、パルスピークが密度曲線内に存在する場合に識別される。

中央の平坦部の両側にある急激な降下、例えば降下４及び５は、境界ボックスの上方及び下方の水平方向の区域よりも大きい密度を有する境界ボックスの中央区域に対応するものとみなされる。すなわち、より大きい密度を有する中央区域は、密度曲線の中央の平坦部の両側に急激な降下がある場合に識別される。

この処理では、密度曲線に谷があるかを確認してもよい。つまり、この処理では、密度曲線上の少なくともＮ個の地点（例えば、Ｎ個の画素の位置）が、パルスピークと境界ボックスの中身の残りの間でゼロ又はゼロに近いかを確認してもよい。Ｎは１、５、１０、又は他の数であってもよい。実際には、この処理により（例えばパルスピークで表される）下線が（例えば密度曲線の残りの部分で表される）テキストの中央区域から離れているかを確認する。図１６Ａでは、密度曲線上のいくつかの地点はパルスピークと密度曲線の残りの部分との間でゼロに近く、したがって下線はテキストから離れている。

下線が検出されると、下線がテキストから離れている場合には、ブロック２１３の処理で非アジア言語テキストが識別される。下線がテキストから離れていない場合、ブロック２１３での処理結果はＹｅｓであり、アジア言語テキストが識別されることを意味する。

下線が検出されないと、より大きい密度の中央区域がなければブロック２１３の処理でアジア言語テキスト又は全部大文字のテキストが識別される。より大きい密度の中央区域がある場合、ブロック２１３での処理結果はＮｏであり、非アジア言語テキスト（アジア言語テキストや全部大文字のテキストではない）が識別されることを意味する。

図１６Ａの例では、非アジア言語テキスト（アジア言語テキストや全部大文字のテキストではない）がブロック２１３の処理で識別される。この例の現行の境界ボックスは、画像０の複数の単語「create SUMMARY CONNTENT」を含み、これらの単語は水平方向に圧縮されている。SUMMARY CONNTENTには下線が引かれている。密度曲線では、谷が検出される。

図１６Ｂに、現行の境界ボックスに対応することができる画像０及び画像２の領域内の別の例示的テキストを示す。画像０及び画像２のこれらの領域には、下線は含まれない。また、上方及び下方の水平方向の区域よりも大きい密度を有する中央の水平方向の区域があるので、これらの領域は、アジア言語テキストを含まないと判断する（ブロック２１３：Ｎｏ）。中央の水平方向の区域を、図１６Ａで考察した方法で識別してもよい。上方区域は、単語「knowledge」の上方の小部分、具体的には文字ｋ、ｌ、及びｄの上部分を含む。下方区域は、単語「knowledge」の下方の小部分、具体的には文字ｇの下部分を含む。

図１７に、現行の境界ボックスに対応することができる画像０及び画像２の領域内におけるもう１つの例示的テキストを示す。画像０及び画像２のこれらの領域には、下線は含まれない。また、より大きい密度を有する中央の水平方向の区域はないので、これらの領域は、アジア言語テキスト又は全部大文字のテキストを含むと判断する（ブロック２１３：Ｙｅｓ）。全部大文字のテキストを含む現行の境界ボックス（例えば、図５の複数の単語「MAJOR TECHNOLOGY」を含む境界ボックス）の画像０と画像２ａの領域には、より大きな密度を有する中央領域がないと予測されるので、ブロック２１３の処理の結果はＹｅｓである。

ブロック２１３での処理結果がＮｏである場合、処理は図３に進む。図１３では、ブロック２１０の処理で（テキストの一行を表す）現行の境界ボックスが太文字を含み、アジア言語テキストを含まないことをすでに確認済みである。

図１８に示すように、図３のブロック３００の処理で、現行の境界ボックスの中央の水平方向の区域を画像０の領域から抽出して画像０Ｘを生成する。境界ボックスの上方及び下方の区域を画像０から取り除いて画像０Ｘを生成する。文字ｋ、ｌ、ｄ、ｇ、ｔ、ｉ、及びｂの上方又は下方の小部分は切り取ってある。

ブロック３０１の処理で、単語を分離する。互いに比較的隣接して配置された各文字群を単語として識別する。上方及び下方の区域を取り除いたので、単語で塞がっている領域を単語中央領域と呼ぶ。図１８に、画像０Ｘの一部において識別された２つの単語中央領域の例を示す。単語中央領域が及ぶ範囲は、切り取られた文字又は単語を囲むできるだけ小さい箱であってもよい。

各境界ボックス内の単語は、テキスト要素の例である。単語中央領域は、テキスト要素領域の一例である。現行の境界ボックスは、多くのテキスト要素領域（単語中央領域）により分割され、テキスト要素領域は、現行の境界ボックスを完全には覆わない場合がある。例えば、単語間の間隔を単語中央領域から除外することで、ブロック３０２、ブロック３０６、及びブロック３０８における後続の副処理の有効性及び効率性を向上させることができる。

ブロック３０２の処理で、現行の境界ボックスのすべての単語中央領域に亘る平均密度（ＡＶＥ２）を計算する。現行の境界ボックスは、図２のブロック２０４又はブロック２１６の処理で規定される。ＡＶＥ２は、画像０Ｘの現行の境界ボックス中のすべての単語中央領域から足し合わせた正規化画素値の合計を、画像０Ｘの現行の境界ボックス中のすべての単語中央領域から足し合わせたすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いてすべての単語中央領域に亘るＡＶＥ２を計算することもできる。上方区域及び下方区域が画像０Ｘにはないことを除き、画像０Ｘは画像０と同じである。

ブロック３０２の処理のＡＶＥ２は、第２の平均密度の一例である。ＡＶＥ２は、画像０Ｘから計算される。ＡＶＥ２は、画像０Ｘである境界ボックスから生成される。画像０Ｘは、水平方向に圧縮された画像ではない。ブロック３０２の処理では、上方区域及び下方区域は、ＡＶＥ２を計算する際に用いられない。

ブロック３０４の処理で、単語が太字かを判断するループが始まる。ループは最初の単語中央領域で始まり、すべての単語中央領域が処理されるまで後続の処理ブロックが繰り返される。ループは、第２の平均密度（ＡＶＥ２）を各テキスト要素領域（単語中央領域）の密度と比較する処理の一例である。

ブロック３０６の処理で、現行の単語中央領域の密度を計算する。この密度を局所単語密度という。局所単語密度は、画像０Ｘの現行の単語中央領域における正規化画素値の合計を、画像０Ｘの現行の単語中央領域におけるすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いて現行の単語中央領域を計算することもできる。

ブロック３０８の処理で、局所単語密度をＡＶＥ２と比較する。ブロック３０８の処理では、局所単語密度とＡＶＥ２の間の差を局所単語密度−ＡＶＥ２として計算することができる。差が閾値（Δ２）を超える場合には、ブロック３０８の処理結果はＮｏである（ブロック３０８：Ｎｏ）。差が閾値を超える場合にはブロック３０８の処理結果はＹｅｓである（ブロック３０８：Ｙｅｓ）。

局所単語密度がＡＶＥ２＋Δ２よりも大きくない場合（ブロック３０８：Ｎｏ）、単語中央領域は太字の単語に対応しないと判断し、処理はブロック３１２に進む。局所単語密度＞ＡＶＥ２＋Δ２である場合（ブロック３０８：Ｙｅｓ）、ブロック３１０の処理で、現行の単語中央領域は太字の単語に対応すると判断する。この判断の結果、単語の位置及び／又は内容を記憶装置１４（図２４）に保存することができる。この位置は、ページ番号、行番号、及び／又はページ内の単語の座標であってもよい。例えば、位置及び／又は内容を記憶装置１４の参照テーブルに保存してもよい。これに代えて、又はこれに加えて、出力画像（画像Ｘ）は、太文字を有するものとして入力画像（画像０）の太字領域を入力画像の他の領域と区別するタグで符号化してもよい。太字領域は、現行の単語中央領域内の単語に対応する。タグはページ番号、行番号、及び／又はページ内の単語の座標を含んでもよい。

処理はブロック３１２に進む。ブロック３１２の処理で、処理すべき別の単語中央領域があるかを確認する。Ｙｅｓの場合（ブロック３１２：Ｙｅｓ）、次の単語中央領域を処理する。そうでない場合（ブロック３１２：Ｎｏ）、処理は図２のブロック２１４に戻る。ブロック２１４の処理で、処理すべき別の境界ボックスがあるかを確認する。無い場合（ブロック２１４：Ｎｏ）、処理は図１に戻り、終了してもよい。Ｙｅｓの場合（ブロック２１４：Ｙｅｓ）、次の境界ボックスを処理する。

上記の図３の処理は、現行の境界ボックスがアジア言語テキストを含まない場合に（ブロック２１３：Ｎｏ）実行される。次に説明する図４の処理は、現行の境界ボックスがアジア言語テキスト又は全部大文字のテキストを含む場合に（ブロック２１３：Ｙｅｓ）実行される。図２に示すように、現行の境界ボックスがアジア言語テキスト又は全部大文字のテキストを含む場合、処理はブロック２１３から図４に進む。

図４で（一行のテキストを表す）現行の境界ボックスが太文字を含み（ブロック２１０）、境界ボックスがアジア言語テキストを含む（ブロック２１３）ことをすでに確認済みである。出願人は、下線がアジア言語テキストの太文字の判断に悪影響を及ぼす可能性があることを発見しており、したがって、処理において下線を無視することで、処理の有効性及び効率性を向上させることができる。

図１９に、アジア言語テキストの一例を示す。図面の右側に、クラスターに対して境界ボックスを計算した画像３（ブロック２００の水平方向の形態的膨張の結果）の一部を示す。図面の左側に、同じ境界ボックスに対応する画像０のアジア言語テキストを示す。

図４のブロック４００の処理で、現行の境界ボックスの画像０に水平方向の下線があるかを判断する。図１のブロック１０４における処理結果を、この判断に用いることができる。あるいは、ブロック４００で、別の下線判断アルゴリズムを用いることもできる。ブロック４００では、現行の境界ボックス内に存在するかもしれない任意の下線を識別する。

図２０に示すように、ブロック４０１の処理で、ブロック４００で識別したすべての下線を現行の境界ボックスの画像０から除去して画像０Ｙを生成する。また、文字を分離する。互いに比較的隣接して配置された各記号群が文字領域を規定する。図２０に、画像０Ｙの現行の境界ボックス内で規定された２つの例示的文字領域を示す。なお、画像０Ｙの文字領域には、画像０にあった下線（図１９）はない。文字領域が及ぶ範囲は、文字の記号を囲むできるだけ小さい箱であってもよい。

各境界ボックスの文字は、テキスト要素の例である。文字領域は、テキスト要素領域の例である。現行の境界ボックスは、多くのテキスト要素領域（文字領域）により分割され、テキスト要素領域は、現行の境界ボックスを完全には覆わない場合がある。例えば、文字間の間隔を文字領域から除外することで、ブロック４０２、ブロック４０６、及びブロック４０８における後続の副処理の有効性及び効率性を向上させることができる。

ブロック４０２の処理で、現行の境界ボックスのすべての文字領域に亘る平均密度（ＡＶＥ２）を計算する。現行の境界ボックスは、図２のブロック２０４又はブロック２１６の処理で規定される。ＡＶＥ２は、画像０Ｙの現行の境界ボックス中のすべての文字領域から足し合わせた正規化画素値の合計を、画像０Ｙの現行の境界ボックス中のすべての文字領域から足し合わせたすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いてすべての文字領域に亘るＡＶＥ２を計算することもできる。画像０の下線が画像０Ｙにないことを除き、画像０Ｙは画像０と同じである。

ブロック４０２のＡＶＥ２は、第２の平均密度の一例である。ＡＶＥ２は、画像０Ｙから計算される。ＡＶＥ２は、画像０Ｙである境界ボックスから生成される。画像０Ｙは、水平方向に圧縮された画像ではない。また、ブロック４００で水平方向の下線を除去したので、下線の画素は、ブロック４０２でＡＶＥ２を計算する際には含まれない。

ブロック４０４の処理で、文字が太字かを判断するループが始まる。ループは最初の文字領域で始まり、すべての文字領域が処理されるまで後続の処理ブロックが繰り返される。ループは、第２の平均密度（ＡＶＥ２）を各テキスト要素領域（文字領域）の密度と比較する処理の一例である。

ブロック４０６の処理で、現行の文字領域の密度を計算する。この密度を局所文字密度という。局所文字密度は、画像０Ｙの現行の文字領域における正規化画素値の合計を、画像０Ｙの現行の文字領域におけるすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いて局所文字密度を計算することもできる。

ブロック４０８の処理で、局所文字密度をＡＶＥ２と比較する。ブロック４０８の処理では、局所文字密度とＡＶＥ２の間の差を局所文字密度−ＡＶＥ２として計算することができる。差が閾値（Δ２）を超える場合には、ブロック４０８の処理結果はＮｏである（ブロック４０８：Ｎｏ）。差が閾値を超える場合には、ブロック４０８の処理結果はＹｅｓである（ブロック４０８：Ｙｅｓ）。

局所文字密度がＡＶＥ２＋Δ２よりも大きくない場合（ブロック４０８：Ｎｏ）、文字領域は太文字に対応しないと判断し、処理はブロック４１２に進む。ブロック４０８のΔ２の値は、ブロック３０８のΔ２の値と同じであってもよいし、異なっていてもよい。

局所文字密度＞ＡＶＥ２＋Δ２である場合（ブロック４０８：Ｙｅｓ）、ブロック４１０の処理で、現行の文字領域が太文字に対応すると判断する。この判断の結果、文字の位置及び／又は内容を記憶装置１４（図２４）に保存することができる。この位置は、ページ番号、行番号、及び／又はページ内の文字の座標であってもよい。例えば、位置及び／又は内容は、記憶装置１４の参照テーブルに保存してもよい。これに代えて、又はこれに加えて、出力画像（画像Ｘ）は、太文字を有するものとして入力画像（画像０）の太字領域を入力画像の他の領域と区別するタグで符号化してもよい。太字領域は、現行の文字領域内の文字に対応する。タグは、ページ番号、行番号、及び／又はページ内の文字の座標を含んでもよい。

処理はブロック４１２に進む。ブロック４１２の処理で、処理すべき別の文字領域があるかを確認する。Ｙｅｓの場合（ブロック４１２：Ｙｅｓ）、次の文字領域を処理する。そうでない場合（ブロック４１２：Ｎｏ）、処理は図２のブロック２１４に戻る。ブロック２１４の処理で、処理すべき別の境界ボックスがあるかを確認する。Ｙｅｓの場合（ブロック２１４：Ｙｅｓ）、次の境界ボックスを処理する。そうでない場合（ブロック２１４：Ｎｏ）、処理は図１に戻り、終了してもよい。

終了せずに、太字テキストの箇所（図３で識別された太字の単語又は図４で識別された太文字）を入力画像（画像０）に符号化することで出力画像（画像Ｘ）を生成してもよい。出力画像は、電子文書の一部を構成してもよい。出力画像又は電子文書を記憶装置１４（図２４）に保存し、及び／又はネットワークＩ／Ｆ２２経由でネットワーク２４に送信してもよい。

図１の方法は、以下のように要約することができる。境界ボックスは、水平方向の圧縮（ブロック１００）及びその後の水平方向の形態的膨張（ブロック２００）から生じるクラスターに基づいており、クラスターに基づく境界ボックスは、図２の処理に従って個々に処理され、境界ボックスのいずれかが太字の単語又は文字を含むかを判断する。局所ボックス密度とすべての境界ボックスに亘る平均密度（ＡＶＥ１）の間の差が閾値（Δ１）を超えない場合に、現行の境界ボックスは除去される。閾値を超える場合、境界ボックス内の各単語（文字群）を図３の処理に従って評価して単語が太字かを判断し、あるいは境界ボックス内のアジア言語テキストの各文字を図４の処理に従って評価して文字が太字かを判断する。図３及び図４の処理は、水平方向に圧縮されなかった画像（画像０Ｘ及び画像０Ｙ）に基づく。

図２１に、電子文書内の強調テキストを識別する別の例示的な方法を示す。図２１の方法は、以下のように要約することができる。下線がないか、アジア言語テキストがある場合、強調テキストを識別する方法は、図２〜図４のように進行する。そうでない場合、方法は、図２２及び図２３の処理に従って進み、この処理は、水平方向に圧縮された画像を密度計算に用いる。水平方向に圧縮した画像を用いると、図２及び図３の処理と比べて演算資源を節約し、有効性を向上させ、処理時間を短くすることができる。図２２では、局所ボックス密度とすべての境界ボックスに亘る平均密度との間の差が閾値よりも大きくない場合、現行の境界ボックスを除去する。平均密度は、水平方向の圧縮したテキストから計算される。除去されていない境界ボックスをさらに処理し、水平方向に圧縮したテキストに基づいて図２４の処理に従って太字の単語を探す。

図２１に再び戻り、ブロック２１００の処理で、入力テキスト画像（画像０）を水平方向に圧縮して画像１を生成する。ブロック１００の水平方向の圧縮の説明がここでは妥当する。ブロック２１０２の処理で、ごま塩ノイズを画像１から除去して画像２を生成する。ブロック１０２のノイズ除去の説明がここでは妥当する。ブロック２１０４で、水平方向の下線検出を画像２に実行する。ブロック１０４及び図１６Ａの下線検出の説明がここでは妥当する。

ブロック２１０６の処理で、下線がブロック２１０４で検出されたかを確認する。下線が検出された場合、下線に関連する単語又は文字の位置及び／又は内容を記憶装置１４（図２４）に保存してもよい。この位置は、ページ番号、行番号、及び／又は下線に関連する単語もしくは文字のページの座標であってもよい。例えば、位置及び／又は内容は、記憶装置１４の参照テーブルに保存してもよい。これに代えて、又はこれに加えて、出力画像（画像Ｘ）は、下線を引いた単語又は文字を有するものとして入力画像（画像０）の下線領域を入力画像の他の領域と区別するタグで符号化してもよい。タグは、ページ番号、行番号、及び／又は下線に関連する単語又は文字のページの座標を含んでもよい。

下線が検出されなかった場合（ブロック２１０６：Ｎｏ）、処理は図２に戻る。下線が検出された場合（ブロック２１０６：Ｙｅｓ）、ブロック２１０８の処理でアジア言語テキストがあるかを確認する。ブロック２１３、図１６Ａ、図１６Ｂ、及び図１７のアジア言語テキスト判断の説明がここでは妥当する。アジア言語テキストがある場合、ブロック２１１１の処理で文書の種類をアジア言語テキストに設定し、処理は図２に戻る。そうでなければ、ブロック２１０９で文書の種類を非アジア言語テキストに設定し、処理はブロック２１１０に進む。

ブロック２１１０の処理で、下線を画像２から除去して画像４を生成し、処理は図２２に進む。なお、画像４はブロック２１００の処理から派生したので、水平方向に圧縮されたテキストを含む。また、ブロック２１０８の処理の結果、画像４はアジア言語テキストを含まない。

ブロック２２００の処理で、水平方向の形態的膨張を画像４に実行して画像５を生成する。画像５は、水平方向に拡張した画像の一例である。図２のブロック２００における水平方向の形態的膨張の説明がここでは妥当する。画像５は、画像４の水平方向の形態的膨張から生じたクラスターを含む。クラスターにより、それぞれが一行のテキストに対応する境界ボックスの正確な計算が容易になる。

ブロック２２０２の処理で、画像５のクラスターを判定する。言い換えれば、画像５全体でクラスターを識別する。クラスターを識別した後、その境界ボックスを計算する。画像５で識別された境界ボックスが重なり合うことはない。

ブロック２２０３の処理で、中央の水平方向の区域を画像４の各境界ボックスから抽出する。図３のブロック３００における中央区域抽出の説明がここでは妥当する。画像４及び画像５の両方が水平方向に圧縮されるが、画像５のみに形態的膨張を実行して（それぞれが一行のテキストを表す）複数のクラスターを生成する。これらのクラスターから境界ボックスが計算される。ここでブロック２２０３の処理で、計算した境界ボックスを画像４に当てはめ、複数行の水平方向に圧縮されたテキストを含む中央区域を抽出する。水平方向に圧縮されたテキストから文字の上方と下方の小部分を切り取ってある。

ブロック２２０４の処理で、すべての境界ボックス中央区域に亘る平均密度（ＡＶＥ１）を計算する。境界ボックスの上方区域及び下方区域の画素は計算に含まれない。ＡＶＥ１は、画像４のすべての境界ボックス中央区域から足し合わせた正規化画素値の合計を、画像４のすべての境界ボックス中央区域から足し合わせたすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いてすべての境界ボックス中央区域に亘るＡＶＥ１を計算することもできる。

ＡＶＥ１は、第１の平均密度の一例である。ＡＶＥ１は画像４から計算される。ＡＶＥ１は、画像４である境界ボックスから計算される。画像４は、水平方向に圧縮された画像である。また、ブロック２１１０の処理における水平方向の下線の除去及び／又はブロック２２０３の処理における下方区域の除去により、ブロック２１０４で検出した下線は、ブロック２２０４の処理でＡＶＥ１を計算する際には用いられない。

ブロック２２０６の処理で、境界ボックス中央区域が太字の単語を含むかを判断するループが始まる。ループは最初の境界ボックス中央区域で始まり、すべての境界ボックス中央区域が処理されるまで後続の処理ブロックが繰り返される。このループは、平均密度（ＡＶＥ１）を境界ボックスのそれぞれの密度と比較する処理の一例である。

ブロック２２０８の処理で、現行の境界ボックス中央区域内の画像４の部分の密度を計算する。この密度を局所ボックス中央区域密度という。局所ボックス中央区域密度は、画像４の現行の境界ボックスの中央区域内の正規化画素値の合計を、画像４の現行の境界ボックスの中央区域内のすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いて局所ボックス中央区域密度を計算することもできる。

ブロック２２１０のＡＶＥ１は、第１の平均密度の別の例である。局所ボックス中央区域密度及びＡＶＥ１の両方は、上方区域及び下方区域からではなく境界ボックスの中央区域から計算する。上方区域及び下方区域は、ブロック２２１０の処理でＡＶＥ１を計算する際には用いられない。これらは、下方区域、中央区域、及び上方区域から計算される図２の局所ボックス密度及びＡＶＥ１とは異なる。図２２のように中央区域に計算を限定することで、演算資源を節約し、有効性を向上させ、処理時間を短くすることができる。

ブロック２２１０の処理で、局所ボックス中央区域密度をＡＶＥ１と比較する。ブロック２２１０の処理では、局所ボックス中央区域密度間の差を局所ボックス中央区域密度−ＡＶＥ１として計算することができる。差が閾値（Δ１）を超える場合、ブロック２２１０の処理結果はＮｏである（ブロック２２１０：Ｎｏ）。差が閾値を超える場合、ブロック２２１０の処理結果はＹｅｓである（ブロック２２１０：Ｙｅｓ）。

局所ボックス中央区域密度がＡＶＥ１＋Δ１よりも大きくない場合（ブロック２２１０：Ｎｏ）、現行の境界ボックスは太字の単語を含まないと判断し、処理はブロック２２１２に進む。ブロック２２１０のΔ１の値は、図２のブロック２０８のΔ１の値と同じか異なる。ブロック２２１２の処理で、処理すべき別の境界ボックスがあるかを確認する。無い場合（ブロック２２１２：Ｎｏ）、処理は図２１に戻り、終了してもよい。Ｙｅｓの場合（ブロック２２１２：Ｙｅｓ）、次の境界ボックスを処理する。

局所ボックス中央区域密度＞ＡＶＥ１＋Δ１である場合（ブロック２２１０：Ｙｅｓ）、処理は図２３に進み、現行の境界ボックス内の個々の単語を評価する。

図２３のブロック２３００の処理で、単語を分離する。画像４で互いに比較的隣接して配置された各文字群を単語として識別する。単語で塞がれた領域を単語中央領域という。上方区域及び下方区域が含まれていないからである。単語中央領域が及ぶ範囲は境界ボックスの中央区域内の水平方向に圧縮された文字部分を囲むできるだけ小さい箱であってもよい。

各境界ボックス内の水平方向に圧縮された単語は、テキスト要素の例である。単語中央領域は、テキスト要素領域の一例である。現行の境界ボックスは、多くのテキスト要素領域（単語中央領域）により分割され、現行の境界ボックスを完全には覆わない場合がある。例えば、単語間の間隔を単語中央領域から除外することで、ブロック２３０１、ブロック２３０６、及びブロック３０８の副処理の有効性及び効率性を向上させることができる。

ブロック２３０１で、平均密度（ＡＶＥ２）を現行の境界ボックスのすべての単語中央領域に亘って計算する。現行の境界ボックスは、図２２のブロック２２０６又はブロック２２１４の処理で規定される。ＡＶＥ２は、画像４の現行の境界ボックス内のすべての単語中央領域から足し合わせた正規化画素値の合計を、画像４の現行の境界ボックス内のすべての単語中央領域から足し合わせたすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いてＡＶＥ２を計算することもできる。

ブロック２３０１のＡＶＥ２は、第２の平均密度の一例である。ＡＶＥ２は、画像４から計算される。ＡＶＥ２は、画像４である境界ボックスから計算される。画像４は、水平方向に圧縮された画像である。また、ブロック２１００の処理で水平方向の下線を除去し、及び／又はブロック２２０３で下方区域を除去したので、下線の画素は、ブロック２３０１の処理でＡＶＥ２を計算する際には含まれない。

ブロック２３０２で、単語が太字かを判断するループが始まる。ループは第１の単語中央領域で始まり、すべての単語中央領域が処理されるまで後続の処理ブロックが繰り返される。このループは、第２の平均密度（ＡＶＥ２）を各テキスト要素領域（単語中央領域）の密度と比較する処理の一例である。

ブロック２３０６の処理で、現行の単語中央領域の密度を計算する。この密度を局所単語密度という。局所単語密度は、画像４の現行の単語中央領域内の正規化画素値の合計を、画像４の現行の単語中央領域内のすべての画素（黒色及び白色）の総数で割って計算することができる。他の平均法を用いて局所単語密度を計算することもできる。

局所単語密度及び平均密度（ＡＶＥ２）は、水平方向に圧縮された画像、つまり画像４から計算される。これらは、水平方向に圧縮された画像から計算されたものではない、図３の局所単語密度及びＡＶＥ２とは異なる。図２３のように水平方向に圧縮された画像から計算することで、演算資源を節約し、有効性を向上させ、処理時間を短くすることができる。

ブロック２３０８の処理で、局所単語密度をＡＶＥ２と比較する。ブロック２３０８の処理では、局所単語密度とＡＶＥ２の間の差を局所単語密度−ＡＶＥ２として計算することができる。差が閾値（Δ２）を超える場合、ブロック２３０８の処理結果はＮｏである（ブロック２３０８：Ｎｏ）。差が閾値を超える場合、ブロック２３０８の処理結果はＹｅｓである（ブロック２３０８：Ｙｅｓ）。

局所単語密度がＡＶＥ２＋Δ２よりも大きくない場合（ブロック２３０８：Ｎｏ）、単語中央領域は太字の単語に対応しないと判断し、処理はブロック２３１２に進む。ブロック２３０８の処理のΔ２の値は、ブロック３０８及びブロック４０８の処理のΔ２の値と同じか異なる場合がある。

局所単語密度＞ＡＶＥ２＋Δ２である場合（ブロック２３０８：Ｙｅｓ）、ブロック２３１０の処理で、現行の単語中央領域は太字の単語に対応すると判断する。この判断の結果、単語の位置及び／又は内容を記憶装置１４（図２４）に保存することができる。位置は、ページ番号、行番号及び／又は太字の単語のページ内の座標を含んでもよい。例えば、位置及び／又は内容を記憶装置１４の参照テーブルに保存してもよい。これに代えて、又はこれに加えて、出力画像（画像Ｘ）は、太字の単語を有するものとして入力画像（画像０）の太字の領域を入力画像の他の領域と区別するタグで符号化してもよい。太字の領域は、現行の単語中央領域内の単語に対応する。タグは、ページ番号、行番号、及び／又は太字の単語のページ内の座標を含んでもよい。

処理はブロック２３１２に進み、処理すべき別の単語中央領域があるかを確認する。Ｙｅｓの場合（ブロック２３１２：Ｙｅｓ）、次の単語中央領域を処理する。そうでない場合（ブロック２３１２：Ｎｏ）、処理は図２２のブロック２２１２に戻る。ブロック２２１２の処理で、処理すべき別の境界ボックスがあるかを確認する。Ｙｅｓの場合（ブロック２２１２：Ｙｅｓ）、次の境界ボックスを処理する。そうでない場合（ブロック２２１２：Ｎｏ）、処理は図２１に戻り、終了してもよい。

終了せずに、太字のテキスト（太字の文字又は単語）の位置を入力画像（画像０）に符号化して出力画像（画像Ｘ）を生成してもよい。出力画像は、電子文書の一部を構成してもよい。出力画像又は電子文書を記憶装置１４（図２４）に保存し、及び／又はネットワークＩ／Ｆ２２経由でネットワーク２４に送信してもよい。

図２４に、上記の処理を行うように構成されている例示的なシステム１０を示す。システム１０は、サーバー、コンピューターワークステーション、パーソナルコンピューター、ラップトップコンピューター、タブレット、スマートフォン、ファックス機、印刷機、プリンターとスキャナーを組み合わせた機能を有する多機能周辺装置（multi-functional peripheral、ＭＦＰ）、又は１つ以上のコンピュータープロセッサー及びメモリーを含む他の種類の機器であってもよい。

システム１０は、１つ以上のコンピュータープロセッサー１２（ＣＰＵ）、１つ以上のコンピューター記憶装置１４、１つ以上の入力装置１６、及び１つ以上の出力装置１８を含む。１つ以上のコンピュータープロセッサー１２は、集合的にプロセッサー１２と称する。プロセッサー１２は、命令を実行するように構成されている。プロセッサー１２は、命令を実行する集積回路を含んでもよい。命令は、上記の処理を行う１つ以上のソフトウェアモジュールの形で具現化してもよい。１つ以上のソフトウェアモジュールは、集合的に画像解析プログラム２０と称する。

１つ以上のコンピューター記憶装置１４は、集合的に記憶装置１４と称する。記憶装置１４は、ランダムアクセスメモリー（ＲＡＭ）モジュール、読み取り専用メモリー（ＲＯＭ）モジュール、及び他の電子装置のいずれか１つ又はこれらの組み合わせを含む。記憶装置１４は、大容量記憶装置、例えば光学式ドライブ、磁気装置、又はソリッドステートフラッシュドライブを含んでもよい。記憶装置１４は、画像解析プログラム２０を格納する非一時的コンピューター可読媒体を含む。

１つ以上の入力装置１６は、集合的に入力装置１６と称する。入力装置１６により使用者がデータを入力してシステム１０とやり取りすることができる。入力装置１６は、ボタン付きキーボード、タッチ感応スクリーン、マウス、電子ペン、及び他の種類の装置のうちの１つ以上を含んでもよい。入力装置１６を用いて入力画像（画像０）を生成してもよい。入力装置１６は、画像０を物理的文書ページから生成するようになっている光学式センサ、例えばＣＣＤセンサを含んでもよい。

１つ以上の出力装置１８は、集合的に出力装置１８と称する。出力装置１８は、液晶表示装置、プロジェクター、又は他の種類の画像表示装置を含んでもよい。出力装置１８を用いて上記の処理の入力画像（画像０）又は出力画像を表示してもよい。出力装置１８は、入力画像を紙に印刷するように構成されている静電プリンターを含んでもよい。

システム１０は、ネットワーク２４、例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、インターネット、及び電話通信事業者経由で他の機械とシステム１０が通信できるようになっているネットワークインタフェース（Ｉ／Ｆ）２２を含む。ネットワークＩ／Ｆ２２は、ネットワーク２４経由でのアナログ通信又はデジタル通信ができる回路を含んでもよい。例えば、ネットワークＩ／Ｆ２２は、入力画像（画像０）を受信するようになっていてもよい。ネットワークＩ／Ｆ２２は、上記処理の出力画像を送信するようになっていてもよい。システム１０の上記の構成要素は、通信バス２６を介して互いに通信可能に結合されている。

本発明のいくつかの具体的な形態を図示及び説明しているが、本発明の範囲を逸脱することなく様々な変更を行うことができることも明らかである。本発明の様々な形態を構成するために、開示した実施形態の特定の特徴及び側面の様々な組み合わせ又は部分的組み合わせを互いに結合させ、又は置き換える可能性があることも考えられる。したがって、添付の特許請求の範囲による場合を除き、本発明を限定することを意図していない。

おおまかに言えば、本発明は強調テキストを識別する方法、システム、プログラム及び処理装置を対象にする。

本発明の側面では、プログラムは、システムのプロセッサーにより実行されると、システムに強調テキストを識別する処理を実行させる。前記処理は、複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成すること、前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成すること、クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせること、すべての前記境界ボックスに亘る第１の平均密度を計算すること、前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較すること、及び前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別すること、を含み、前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる。
本発明の側面では、処理装置は、強調テキストを識別する。処理装置は、複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成する手段と、前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成する手段と、クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせる手段と、すべての前記境界ボックスに亘る第１の平均密度を計算する手段と、前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較する手段と前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別する手段と、を備え、前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる。

ブロック１０２の処理で、ごま塩ノイズを画像１から除去して画像２を生成する。ごま塩ノイズは、当技術分野でインパルスノイズとも称し、まばらに発生する白色及び／又は黒色の画素である。当技術分野で既知の様々なフィルタリングアルゴリズムをブロック１０２の処理で用いてごま塩ノイズを除去することができる。出願人は、この段階でごま塩ノイズを除去することで、下記の特定の副処理の精度を向上させることができることを発見した。図９は、ごま塩ノイズ除去の一例である。図面の左側は画像１を示し、図６の下側部分を拡大したものである。図面の右側は画像２を示し、ブロック１０２の処理結果である。画像１及び画像２の両方は、水平方向に圧縮され、垂直方向には圧縮されない画像の例である。

ブロック２０８の処理で、局所ボックス密度をＡＶＥ１と比較する。ブロック２０８の処理では、局所ボックス密度とＡＶＥ１の間の差を局所ボックス密度−ＡＶＥ１として計算することができる。この差が閾値（Δ１）を越えない場合、ブロック２０８の処理結果はＮｏである（ブロック２０８：Ｎｏ）。この差が閾値を超える場合、ブロック２０８の処理結果はＹｅｓである（ブロック２０８：Ｙｅｓ）。

図１７に、現行の境界ボックスに対応することができる画像０及び画像２の領域内におけるもう１つの例示的テキストを示す。画像０及び画像２のこれらの領域には、下線は含まれない。また、より大きい密度を有する中央の水平方向の区域はないので、これらの領域は、アジア言語テキスト又は全部大文字のテキストを含むと判断する（ブロック２１３：Ｙｅｓ）。全部大文字のテキストを含む現行の境界ボックス（例えば、図５の複数の単語「MAJOR TECHNOLOGY」を含む境界ボックス）の画像０と画像２の領域には、より大きな密度を有する中央領域がないと予測されるので、ブロック２１３の処理の結果はＹｅｓである。

ブロック２１３での処理結果がＮｏである場合、処理は図３に進む。図３では、ブロック２１０の処理で（テキストの一行を表す）現行の境界ボックスが太文字を含み、アジア言語テキストを含まないことをすでに確認済みである。

ブロック３０８の処理で、局所単語密度をＡＶＥ２と比較する。ブロック３０８の処理では、局所単語密度とＡＶＥ２の間の差を局所単語密度−ＡＶＥ２として計算することができる。差が閾値（Δ２）を超えない場合には、ブロック３０８の処理結果はＮｏである（ブロック３０８：Ｎｏ）。差が閾値を超える場合にはブロック３０８の処理結果はＹｅｓである（ブロック３０８：Ｙｅｓ）。

ブロック４０８の処理で、局所文字密度をＡＶＥ２と比較する。ブロック４０８の処理では、局所文字密度とＡＶＥ２の間の差を局所文字密度−ＡＶＥ２として計算することができる。差が閾値（Δ２）を超えない場合には、ブロック４０８の処理結果はＮｏである（ブロック４０８：Ｎｏ）。差が閾値を超える場合には、ブロック４０８の処理結果はＹｅｓである（ブロック４０８：Ｙｅｓ）。

ブロック２２１０の処理で、局所ボックス中央区域密度をＡＶＥ１と比較する。ブロック２２１０の処理では、局所ボックス中央区域密度間の差を局所ボックス中央区域密度−ＡＶＥ１として計算することができる。差が閾値（Δ１）を超えない場合、ブロック２２１０の処理結果はＮｏである（ブロック２２１０：Ｎｏ）。差が閾値を超える場合、ブロック２２１０の処理結果はＹｅｓである（ブロック２２１０：Ｙｅｓ）。

各境界ボックス内の水平方向に圧縮された単語は、テキスト要素の例である。単語中央領域は、テキスト要素領域の一例である。現行の境界ボックスは、多くのテキスト要素領域（単語中央領域）により分割され、現行の境界ボックスを完全には覆わない場合がある。例えば、単語間の間隔を単語中央領域から除外することで、ブロック２３０１、ブロック２３０６、及びブロック２３０８の副処理の有効性及び効率性を向上させることができる。

ブロック２３０８の処理で、局所単語密度をＡＶＥ２と比較する。ブロック２３０８の処理では、局所単語密度とＡＶＥ２の間の差を局所単語密度−ＡＶＥ２として計算することができる。差が閾値（Δ２）を超えない場合、ブロック２３０８の処理結果はＮｏである（ブロック２３０８：Ｎｏ）。差が閾値を超える場合、ブロック２３０８の処理結果はＹｅｓである（ブロック２３０８：Ｙｅｓ）。

Claims

強調テキストを識別する方法であって、
複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成する工程、
前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成する工程、
クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせる工程、
すべての前記境界ボックスに亘る第１の平均密度を計算する工程、
前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較する工程、及び
前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別する工程、
を含み、
前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる、方法。
前記第１の平均密度を計算する前記複数の境界ボックスは、前記水平方向に圧縮された画像に設けられている、請求項１に記載の方法。
各境界ボックスは上方区域及び下方区域を含み、前記上方区域及び前記下方区域のうちの少なくとも１つは単語又は文字の小部分を含み、
前記上方区域及び前記下方区域は前記第１の平均密度を計算する前記工程で用いられない、請求項１又は２に記載の方法。
前記水平方向に圧縮された画像から下線を検出する工程をさらに含み、前記第１の平均密度を計算する前記複数の境界ボックスは前記下線を排除している、請求項１〜３のいずれか１項に記載の方法。
前記特定の境界ボックスは複数のテキスト要素を含み、前記テキスト要素は単語又は文字であり、前記特定の境界ボックスはテキスト要素領域により分割され、各テキスト要素領域は前記複数のテキスト要素のうち互いに異なる一つのテキスト要素を覆い、
前記方法は、
前記特定の境界ボックス内のすべてのテキスト要素領域に亘る第２の平均密度を計算する工程、
各テキスト要素領域について前記第２の平均密度と前記テキスト要素領域の密度を比較する工程、及び
複数のテキスト要素から特定のテキスト要素を太字として識別する工程、
をさらに含み、
前記特定のテキスト要素の識別は、前記第２の平均密度と前記特定のテキスト要素を含む前記テキスト要素領域の密度との比較に基づいてなされる、請求項１〜４のいずれか１項に記載の方法。
前記第２の平均密度を計算する前記テキスト要素領域は、前記入力画像に設けられている、請求項５に記載の方法。
前記第２の平均密度を計算する前記テキスト要素領域は、前記水平方向に圧縮された画像に設けられている、請求項５に記載の方法。
各テキスト要素領域は上方区域及び下方区域を含み、前記上方区域及び前記下方区域のうちの少なくとも１つは前記複数のテキスト要素のうちの１つ以上の小部分を含み、
前記上方区域及び前記下方区域は、前記第２の平均密度を計算する前記工程で用いられない、請求項５〜７のいずれか１項に記載の方法。
前記特定の境界ボックスは下線を含み、
前記第２の平均密度を計算する前記テキスト要素領域は前記下線を排除している、請求項５〜８のいずれか１項に記載の方法。
出力画像を生成する工程をさらに含み、
前記出力画像はタグを含み、当該タグは、太字の単語又は文字を有するものとして前記特定の境界ボックス内の領域を区別し、前記領域を、太字の単語又は文字を有しない前記入力画像の他の領域と区別する、請求項１〜９のいずれか１項に記載の方法。
強調テキストを識別するシステムであって、
プロセッサー、及び
前記プロセッサーと通信し、命令を格納する記憶装置を備え、
前記プロセッサーは、格納された前記命令に従って強調テキストを識別する処理を実行するように構成されており、
前記処理は、
複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成すること、
前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成すること、
クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせること、
すべての前記境界ボックスに亘る第１の平均密度を計算すること、
前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較すること、及び
前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別すること、
を含み、
前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる、システム。
前記第１の平均密度を計算する前記境界ボックスは、前記水平方向に圧縮された画像に設けられている、請求項１１に記載のシステム。
各境界ボックスは上方区域及び下方区域を含み、前記上方区域及び前記下方区域のうちの少なくとも１つは単語又は文字の小部分を含み、
前記上方区域及び前記下方区域は前記第１の平均密度の前記計算で用いられない、請求項１１又は１２に記載のシステム。
前記処理は前記水平方向に圧縮された画像から下線を検出することをさらに含み、前記第１の平均密度を計算する前記複数の境界ボックスは前記下線を排除している、請求項１１〜１３のいずれか１項に記載のシステム。
前記特定の境界ボックスは複数のテキスト要素を含み、前記テキスト要素は単語又は文字であり、前記特定の境界ボックスはテキスト要素領域により分割され、各テキスト要素領域は前記複数のテキスト要素のうち互いに異なる一つのテキスト要素を覆い、
前記処理は、
前記特定の境界ボックス内のすべてのテキスト要素領域に亘る第２の平均密度を計算すること、
各テキスト要素領域について前記第２の平均密度と前記テキスト要素領域の密度を比較すること、及び
複数のテキスト要素から特定のテキスト要素を太字として識別すること、
をさらに含み、
前記特定のテキスト要素の識別は、前記第２の平均密度と前記特定のテキスト要素を含む前記テキスト要素領域の密度との比較に基づいてなされる、請求項１１〜１４のいずれか１項に記載のシステム。
前記第２の平均密度を計算する前記テキスト要素領域は、前記入力画像に設けられている、請求項１５に記載のシステム。
前記第２の平均密度を計算する前記テキスト要素領域は、前記水平方向に圧縮された画像に設けられている、請求項１５に記載のシステム。
各テキスト要素領域は上方区域及び下方区域を含み、前記上方区域及び前記下方区域のうちの少なくとも１つは前記複数のテキスト要素のうちの１つ以上の小部分を含み、
前記上方区域及び前記下方区域は、前記第２の平均密度の前記計算で用いられない、請求項１５〜１７のいずれか１項に記載のシステム。
前記特定の境界ボックスは下線を含み、
前記第２の平均密度を計算する前記テキスト要素領域は前記下線を排除している、請求項１５〜１８のいずれか１項に記載のシステム。
前記処理は出力画像を生成することをさらに含み、
前記出力画像はタグを含み、当該タグは、太字の単語又は文字を有するものとして前記特定の境界ボックス内の領域を区別し、前記領域を、太字の単語又は文字を有しない前記入力画像の他の領域と区別する、請求項１１〜１９のいずれか１項に記載のシステム。
システムのプロセッサーにより実行されると、前記システムに強調テキストを識別する処理を実行させるコンピューター可読命令を格納した非一時的コンピューター可読媒体であって、
前記処理は、
複数行のテキストを含み、各行のテキストが複数の単語又は文字を含む入力画像に水平方向の圧縮を実行し、水平方向に圧縮された画像を生成すること、
前記水平方向に圧縮された画像に水平方向の形態的膨張を実行して、前記複数行のテキストのうちの別々の行にそれぞれ対応するクラスターを含む、水平方向に膨張した画像を形成すること、
クラスター毎に境界ボックスを計算して複数の境界ボックスを生じさせること、
すべての前記境界ボックスに亘る第１の平均密度を計算すること、
前記複数の境界ボックスのそれぞれについて前記第１の平均密度と前記境界ボックスの密度とを比較すること、及び
前記複数の境界ボックスから、太字の単語又は文字を有するものとして特定の境界ボックスを識別すること、
を含み、
前記特定の境界ボックスの識別は、前記第１の平均密度と前記特定の境界ボックスの密度との比較に基づいてなされる、媒体。
前記第１の平均密度を計算する前記境界ボックスは、前記水平方向に圧縮された画像に設けられている、請求項２１に記載の非一時的コンピューター可読媒体。
各境界ボックスは上方区域及び下方区域を含み、前記上方区域及び前記下方区域のうちの少なくとも１つは単語又は文字の小部分を含み、
前記上方区域及び前記下方区域は前記第１の平均密度の前記計算で用いられない、請求項２１又は２２に記載の非一時的コンピューター可読媒体。
前記処理は前記水平方向に圧縮された画像から下線を検出することをさらに含み、前記第１の平均密度を計算する前記複数の境界ボックスは前記下線を排除している、請求項２１〜２３のいずれか１項に記載の非一時的コンピューター可読媒体。
前記特定の境界ボックスは複数のテキスト要素を含み、前記テキスト要素は単語又は文字であり、前記特定の境界ボックスはテキスト要素領域により分割され、各テキスト要素領域は前記複数のテキスト要素のうち互いに異なる一つのテキスト要素を覆い、
前記処理は、
前記特定の境界ボックス内のすべてのテキスト要素領域に亘る第２の平均密度を計算すること、
各テキスト要素領域について前記第２の平均密度と前記テキスト要素領域の密度を比較すること、及び
複数のテキスト要素から特定のテキスト要素を太字として識別すること、
をさらに含み、
前記特定のテキスト要素の識別は、前記第２の平均密度と前記特定のテキスト要素を含む前記テキスト要素領域の密度との比較に基づいてなされる、請求項２１〜２４のいずれか１項に記載の非一時的コンピューター可読媒体。
前記第２の平均密度を計算する前記テキスト要素領域は、前記入力画像に設けられている、請求項２５に記載の非一時的コンピューター可読媒体。
前記第２の平均密度を計算する前記テキスト要素領域は、前記水平方向に圧縮された画像に設けられている、請求項２５に記載の非一時的コンピューター可読媒体。
各テキスト要素領域は上方区域及び下方区域を含み、前記上方区域及び前記下方区域のうちの少なくとも１つは前記複数のテキスト要素のうちの１つ以上の小部分を含み、
前記上方区域及び前記下方区域は、前記第２の平均密度の前記計算で用いられない、請求項２５〜２７のいずれか１項に記載の非一時的コンピューター可読媒体。
前記特定の境界ボックスは下線を含み、
前記第２の平均密度を計算する前記テキスト要素領域は前記下線を排除している、請求項２５〜２８のいずれか１項に記載の非一時的コンピューター可読媒体。
前記処理は出力画像を生成することをさらに含み、
前記出力画像はタグを含み、当該タグは、太字の単語又は文字を有するものとして前記特定の境界ボックス内の領域を区別し、前記領域を、太字の単語又は文字を有しない前記入力画像の他の領域と区別する、請求項２１〜２９のいずれか１項に記載の非一時的コンピューター可読媒体。