JPH1185905A

JPH1185905A - 書体識別装置および書体識別方法および情報記憶媒体

Info

Publication number: JPH1185905A
Application number: JP10213523A
Authority: JP
Inventors: Tei Abe; 悌阿部
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-07-15
Filing date: 1998-07-13
Publication date: 1999-03-30

Abstract

(57)【要約】【課題】斜めのストロークやノイズを含む文字画像に
対しても、その文字の書体を容易にかつ正確に識別する
ことの可能な書体識別装置および書体識別方法および情
報記憶媒体を提供する。【解決手段】書体識別部４は、文字画像において、文
字のストロークの太さを抽出するストローク太さ抽出部
１１と、ストローク太さ抽出部１１で抽出された文字の
ストロークの太さからその変化率を求めるストローク太
さ変化率抽出部１２と、ストローク太さ変化率抽出部１
２で求められたストロークの太さの変化率を所定の閾値
と比較して、該文字の書体(フォント)の識別を行なう比
較識別部１３とを有している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字の書体(フォ
ントまたは字体)の識別を行なう書体識別装置および書
体識別方法および情報記憶媒体に関する。

【０００２】

【従来の技術】従来、例えば特開平６−２０８６４９号
には、文字の縦方向および横方向の文字線幅を推定し、
これらの線幅の比によって、文字の書体(フォントまた
は字体)が明朝体であるかゴシック体であるかを識別す
る書体識別技術が示されている。この書体識別技術は、
より具体的には、文字画像の水平方向および垂直方向の
ランレングスヒストグラムのモード(最頻値)によって、
横方向および縦方向の文字線幅を推定し、これらの線幅
の比によって、文字の書体が明朝体であるかゴシック体
であるかを識別するようになっている。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来の書体識別技術では、「中」や「田」等のように
文字を構成するストロークの多くが水平または垂直な直
線で、かつ画像にノイズがない場合にしか、書体を良好
に識別することができない。

【０００４】すなわち、日本、中国、台湾などで用いら
れる活字(漢字)では、例えば、「宋」や「知」等のよう
に、文字を構成するストロークには、斜めのストローク
が多々存在する。このように、文字に斜めのストローク
が存在する場合、従来の書体識別技術(例えば、上述し
た特開平６−２０８６４９号公報に記載されている技
術)では、ランレングスヒストグラムのピーク(最頻値)
が誤ったところに出てしまい、正しい線幅を抽出でき
ず、実用化には適しないという問題があった。

【０００５】特に、各ストローク幅が均一であり、か
つ、各ストローク幅が全体に細身の細ゴシック体では、
他の書体と区別して識別することが困難であった。

【０００６】本発明は、斜めのストロークやノイズを含
む文字画像に対しても、その文字の書体を容易にかつ正
確に識別することの可能な書体識別装置および書体識別
方法および情報記憶媒体を提供することを目的としてい
る。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、文字画像において文字のス
トロークの太さを抽出するストローク太さ抽出手段と、
該ストローク太さ抽出手段で抽出された文字のストロー
クの太さからその変化率を求めるストローク太さ変化率
抽出手段と、該ストローク太さ変化率抽出手段で求めら
れたストロークの太さの変化率に基づいて、前記文字の
書体を識別する識別手段とを有していることを特徴とし
ている。

【０００８】また、請求項２記載の発明は、請求項１記
載の書体識別装置において、ストローク太さ抽出手段
は、文字を構成する各ストロークの太さを検出し、ま
た、ストローク太さ変化率抽出手段は、前記ストローク
太さ抽出手段で抽出された各ストロークの太さの変化率
の平均を、文字のストローク太さの変化率として抽出す
ることを特徴としている。

【０００９】また、請求項３記載の発明は、請求項１記
載の書体識別装置において、ストローク太さ抽出手段
は、文字を構成する各ストロークのうち特定の方向のス
トロークの太さのみを抽出し、また、前記ストローク太
さ変化率抽出手段は、ストローク太さ抽出手段で抽出さ
れた特定の方向のストロークの太さからその変化率を求
め、特定の方向のストロークの太さの変化率の平均を、
文字のストローク太さの変化率として抽出することを特
徴としている。

【００１０】また、請求項４記載の発明は、請求項１記
載の書体識別装置において、識別手段は、文字のストロ
ークの太さの変化率と予め決められた閾値とを比較する
ことによって、該文字の書体を識別することを特徴とし
ている。

【００１１】また、請求項５記載の発明は、請求項４記
載の書体識別装置において、閾値は、所定文書画像に含
まれる全ての文字のストロークの太さの変化率の平均に
所定の定数を乗ずることによって決定され、この場合、
識別手段は、文書画像に含まれている各文字のストロー
クの太さの変化率を閾値と比較して、各文字の書体をそ
れぞれ識別することを特徴としている。

【００１２】また、請求項６記載の発明は、文字画像に
おいて文字のストロークの太さを抽出する太さ抽出工程
と、該太さ抽出工程により抽出された文字のストローク
太さから、そのストローク太さの変化率を抽出する変化
率抽出工程と、該変化率抽出工程により抽出されたスト
ローク太さの変化率に基づいて、前記文字の書体を識別
する書体識別工程とを含むことを特徴としている。

【００１３】また、請求項７記載の発明は、太さ抽出工
程は、文字を構成する各ストロークの太さを抽出し、前
記変化率抽出工程は、前記太さ抽出工程により抽出され
た各ストロークの太さから、その太さの変化率を求めて
文字のストローク太さの変化率として抽出することを特
徴としている。

【００１４】また、請求項８記載の発明は、太さ抽出工
程は文字を構成する各ストロークのうち特定方向のスト
ロークの太さのみを抽出し、前記変化率抽出工程は、前
記太さ抽出工程により抽出された特定方向の各ストロー
クの太さから、その太さの変化率を求めて文字の特定方
向ストローク太さの変化率として抽出することを特徴と
している。

【００１５】また、請求項９記載の発明は、コンピュー
タによって文字の書体を識別させるための制御プログラ
ムを記憶した記憶媒体であって、文字のストロークの太
さを抽出する太さ抽出工程と、該太さ抽出工程により抽
出された文字のストローク太さから、そのストローク太
さの変化率を抽出する変化率抽出工程と、該変化率抽出
工程により抽出されたストローク太さの変化率に基づい
て、前記文字の書体を識別する書体識別工程とを有する
ことを特徴とするプログラムを記憶した情報記憶媒体で
ある。

【００１６】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る書体識別装置の
構成例を示す図である。図１を参照すると、この書体識
別装置は、文書を例えば２値画像として読み込む画像入
力部１と、画像入力部１で読み込まれた文書画像等を記
憶するメモリ２と、文書画像から文字画像を抽出する文
字切り出し処理部３と、文字切り出し処理部３により切
り出された文字画像に対し、その文字の書体(フォント)
の識別を行なう書体識別部４と、全体の制御を行なう制
御部５と、書体識別部４による文字の書体の識別結果を
出力する結果出力部６とを有している。

【００１７】ここで、文字切り出し処理部３は、文書画
像から矩形状に文字画像ＡＲ_i(添字ｉは文字画像を特定
する番号であり以下文字番号と略す)を切り出すように
なっている。すなわち、図２の例では、一つの文書画像
からある添字ｉで特定された文字画像(文字)ＡＲ_iが外
接矩形領域として切り出されている。この文字はストロ
ークＬ₁，Ｌ₂…(Ｌ_j)を有する。ここで、この実施の形
態での一つのストロークＬとは、ある一つの端点から交
差点を含む分岐点まで、あるいは分岐点から分岐点まで
と定義され、分岐点(交差点を含む)がない場合は、端点
から端点までと定義される。また、添字ｊは、それぞれ
のストロークＬを特定する番号であり、以下ストローク
番号と略す。

【００１８】また、図３は図１の書体識別部４の構成例
を示す図である。図３の例では、書体識別部４は、文字
画像ＡＲにおいて、文字のストロークの太さを抽出する
ストローク太さ抽出部１１と、ストローク太さ抽出部１
１で抽出された文字のストロークの太さからその変化率
を求めるストローク太さ変化率抽出部１２と、ストロー
ク太さ変化率抽出部１２で求められたストロークの太さ
の変化率を所定の閾値と比較して、該文字の書体(フォ
ント)の識別を行なう比較識別部１３とを有している。

【００１９】ここで、第１の抽出例として、ストローク
太さ抽出部１１は、文字を構成する全てのストロークの
太さを抽出し、また、ストローク太さ変化率抽出部１２
は、全てのストロークについて、ストローク太さ抽出部
１１で抽出されたストロークの太さの変化率を求め、全
てのストロークの太さの変化率の平均を、最終的に、該
文字のストロークの太さの変化率として抽出することが
できる。

【００２０】また、第２の抽出例では、第１の抽出例に
おいて、全てのストロークに代えて特定の例えば斜め方
向のストロークのみに注目して抽出することができる。
すなわち、第２の抽出例としては、ストローク太さ抽出
部１１は、文字を構成する全てのストロークのうち、特
定の方向のストロークの太さのみを抽出し、また、スト
ローク太さ変化率抽出部１２は、特定の方向のストロー
クについて、ストローク太さ抽出部１１で抽出されたス
トロークの太さの変化率を求め、特定の方向のストロー
クの太さの変化率の平均を、最終的に、前記文字のスト
ローク太さの変化率として抽出することができる。

【００２１】次に、ストローク太さ抽出部１１について
の抽出例について、図２および図４に基づいて説明す
る。ここで、図２の斜線を施した部分が文字部分であ
り、図２の文字画像ＡＲ_iに対し細線化処理を施すこと
により、図４に示すように、スケルトン(骨格)画像が形
成される。この図４において、斜線部分が骨格画素Ｔ_k
を示す。ここで、添字ｋは画素を特定する番号であり、
以下画素番号と略す。

【００２２】この図４において、ある一つの画素Ｔ_kに
ついての方向ベクトルｒ_kは、この画素Ｔ_kからそれぞれ
前後に例えば２画素分離れた骨格の画素Ｔ_k-2，Ｔ_k+2間
を結ぶ線分の方向として求めることができる。

【００２３】この図４の骨格画像ＡＲ_iから、文字を構
成する一つのストロークの太さを抽出するには、先ず、
ある一つの端点(例えば画素Ｔ₁)から次の端点あるいは
分岐点(例えば画素Ｔ_n)まで骨格を追跡し、この追跡の
結果得られる一つの端点(画素Ｔ₁)から次の分岐点Ｔ_nま
での部分を一つのストロークＬ₁の骨格Ｌ₁'と判断し、
このストロークＬ₁の骨格Ｌ₁'を構成する各画素(すなわ
ち、各点)Ｔ₁，…，Ｔ_nのそれぞれについて、微小の方
向ベクトルｒ₁，…，ｒ_nを求める。

【００２４】そして、このストロークＬ₁の骨格Ｌ₁'に
対応した細線化前の文字画像のストローク(図２にＬ₁で
示すストローク)のある一つの点(骨格Ｌを構成する画素
Ｔ_k)において、この方向ベクトルｒ_kとほぼ垂直な方向
Ｖ_kの幅をこの点(画素Ｔ_k)についてのストロークの太さ
Ｄ_kとして抽出することができる。

【００２５】デジタル画像の常套手段に従い、方向ベク
トルｒ_kを例えば８方向の量子化処理をすると、ある画
素Ｔ_kについての方向ベクトルｒ_kと垂直な方向Ｖ_kの幅
がこの画素Ｔ_kについてのストロークの太さＤ_kの近似値
として抽出することができる。

【００２６】図２、図４の例では、一つのストロークＬ
₁の添字ｋで特定されたある一つの点(画素Ｔ_k)における
太さＤ_kは“２．８”として抽出され、また添字ｋ'で特
定された他の点Ｔ_k'における太さＤ_k'の近似値は“５”
として抽出される。このようにして、このストロークＬ
₁の各点Ｔ₁，…，Ｔ_nにおいて、上記のようにして、ス
トロークの太さＤ₁，…，Ｄ_nを抽出することができる。

【００２７】また、この場合、ストローク太さ変化率抽
出部１２は、上記ストロークの各点において抽出された
ストロークＤ_kの太さからその変化率を例えば次のよう
にして求めることができる。

【００２８】すなわち、一つのストロークＬ₁の各点Ｔ_k
(ｋ＝１〜ｎ)の太さがＤ_k(ｋ＝１〜ｎ)として抽出され
るとき、このストロークの太さＤ_kの変化率ｗ_kは例えば
次式によって求められる。

【００２９】

【数１】ｗ_k＝(Ｄ_k−Ｄ_k-1)／Ｄ_k-1

【００３０】すなわち、この例では、ストロークの太さ
の変化率ｗ_kはストロークの太さに対する微分値として
求められる。

【００３１】なお、このストロークの太さＤ_kの変化率
ｗ_kは数１のような各点Ｔ_kのストロークの太さＤ_kに対
する相対値でなく、画素を単位として表現された絶対値
であってもよい。このような値は例えば、次式で表され
る。

【００３２】

【数２】ｗ_k＝(Ｄ_k+1−Ｄ_k-1)／２ (ｋ＝４〜ｎ−３)

【００３３】なお、この数２では、書体識別の確率を上
昇させるために、一つのストロークＬ₁の骨格Ｌ₁'の画
素数ｎが７よりも小さいとき(ｎ＜７のとき)は無効と判
断してそのストロークの太さＤ_kの変化率ｗ_kの抽出は行
なわないようにしている。このように構成すれば、長さ
(画素数)が所定以上のストロークのみ抽出される。この
ように、ストロークの抽出に画素数ｎの下限を付して、
所定長さ以上のストロークのみ抽出することによりノイ
ズとなる短いストロークを排除して、書体識別の確率を
上昇させることもできる。

【００３４】図５(ａ)，(ｂ)には、図２，図４の文字画
像ＡＲ_iにつき、数２に従い計算した一つのストローク
Ｌ₁の太さＤ_kとこのストロークＬ₁の太さの変化率すな
わち微分値ｗ_kとが示されている。

【００３５】このようにして求めたストローク番号ｉで
特定された一つのストロークの太さの変化率の平均〈ｗ
_i〉は例えば数２に対応して、次式により求められる。

【００３６】

【数３】

【００３７】また、この一つのストロークの太さの変化
率の平均〈ｗ_i〉はその文字番号ｉで特定された文字の
全てのストロークＬ_jについて積算され、次式により平
均値Ｗ_iが求められる。

【００３８】

【数４】

【００３９】この平均値Ｗ_iは文字(または文字番号ｉの
文字画像)の全てのストロークの太さの変化率の平均と
なる。また、このようにして求めた一つの文字番号のス
トロークの太さの変化率の平均Ｗ_iは全ての文字(ＡＲ_i)
に付き積算され、次式によりさらに平均され、平均値Ｗ
_mが求められる。

【００４０】

【数５】

【００４１】この平均値Ｗ_mは読み込まれた文書全体に
おけるストローク太さの変化率の平均となる。以上の平
均は算術平均であったが、加重平均であってもよい。

【００４２】そして、第１の抽出例に従って文字のスト
ロークの太さを抽出し、また、ストロークの太さの変化
率を抽出する場合は次の通りとなる。すなわち、ストロ
ーク太さ抽出部１１は、細線化した骨格(スケルトン)画
像ＡＲ_i'から全ての端点を抽出し、ある１つの端点から
骨格を次の端点あるいは分岐点まで追跡し、この追跡の
結果得られる１つの端点から次の端点あるいは分岐点ま
での部分を、１つのストロークＬ_jと判断する。次い
で、文字を構成する各ストロークの太さｗ_k…を上記の
ように抽出して各ストロークＬ_j…について太さ〈ｗ_j〉
を抽出する。また、ストローク太さ変化率抽出部１２
は、文字を構成する各ストロークの太さの変化率
〈ｗ_j〉(各ストロークごとの太さの変化率の平均
〈ｗ_j〉)を上述したような手法で求め、各ストロークご
との太さの変化率〈ｗ_j〉の平均を各ストロークで平均
した値を、この文字のストローク太さの変化率Ｗ_iとし
て、最終的に抽出するようになっている。

【００４３】具体的に、図２の例では、文字を構成する
ストロークＬ_jは、Ｌ₁，Ｌ₂の２個であり、これら２つ
のストロークＬ₁，Ｌ₂のそれぞれの太さの変化率
〈ｗ_j〉(〈ｗ₁〉，〈ｗ₂〉)の平均を、この文字ｉのス
トロークの太さの変化率Ｗ_iとして抽出するようになっ
ている。この平均値Ｗ_iは必要により、切り出された文
字単位でさらに平均化されて文書の平均値Ｗ_mとされ
る。

【００４４】また、第２の抽出例に従って文字のストロ
ークの太さを抽出し、また、ストロークの太さの変化率
を抽出する場合は次の通りである。すなわち、ストロー
ク太さ抽出部１１は、文字を構成する各ストロークの方
向Ｒを求め、そのうち、特定の方向のストロークＬの太
さＤのみを抽出する。また、この際、ストローク太さ変
化率抽出部１２は、該特定の方向のストロークＬについ
て、ストローク太さ抽出部１１で抽出されたストローク
Ｌの太さＤ_kの変化率ｗ_kを求め、特定方向のストローク
の太さの変化率〈ｗ_j〉の平均をこの文字のストローク
太さの変化率Ｗ_iとして、最終的に抽出するようになっ
ている。

【００４５】なお、１つのストロークの方向(特定方向)
は、例えば、次のようにして求めることができる。すな
わち、図２の例において、例えばストロークＬ₁の方向
Ｒ₁は、このストロークＬ₁の骨格Ｌ₁’を構成する各画
素(すなわち各点)Ｔ₁，…，Ｔ_nについての方向ベクトル
ｒ₁，…，ｒ_nの平均として求めることができる。ストロ
ークＬ₂の方向Ｒ₂についても、同様の手法で、これを求
めることができる。従って、特定の方向として例えば方
向Ｒ₁が用いられる場合、文字を構成する２つのストロ
ークＬ₁，Ｌ₂のうち、方向Ｒ₁のストロークＬ₁の太さの
変化率〈ｗ₁〉は、平均化されることなく、そのまま、
この文字のストローク太さの変化率Ｗ_iとして抽出する
ことができる。

【００４６】このとき、ストローク方向Ｒを例えば垂直
方向，水平方向，斜め方向の８方向に量子化することに
より、特定方向としての斜め方向のストロークＬ_jを選
択して抽出することができる。

【００４７】方向Ｒ₁に対して複数のストロークＬ₁，Ｌ
₂…がある場合、それぞれのストロークＬ_jに対して求め
た変化率〈ｗ_j〉の平均が数４に従い求められて、その
文字ｉのストローク太さの変化率Ｗ_iとして抽出するこ
とができる。

【００４８】図６は図１の書体識別装置のハードウェア
構成例を示す図である。図６を参照すると、この書体識
別装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するＣＰＵ２１と、ＣＰＵ２１の制御プ
ログラム等が記憶されているＲＯＭ２２と、ＣＰＵ２１
のワークエリア等として使用されるＲＡＭ２３と、文書
を文書画像として読込むスキャナ２４と、スキャナ２４
で読込まれた文書画像が例えばページ単位で記憶される
文書画像ファイル２５と、文書画像に含まれている各文
字画像に対し書体識別を行なった結果の情報を出力する
結果出力装置(例えば、ディスプレイやプリンタ)２６と
を有している。

【００４９】ここで、スキャナ２４，文書画像ファイル
２５，結果出力装置２６は、図１の画像入力部１，メモ
リ２，結果出力部６にそれぞれ対応している。また、Ｃ
ＰＵ２１は、図１の制御部５，文字切り出し処理部３，
書体識別部４の機能を有している。

【００５０】なお、ＣＰＵ２１におけるこのような制御
部５，文字切り出し処理部３，書体識別部４等としての
機能は、例えばソフトウェアパッケージ(具体的には、
ＣＤ−ＲＯＭ等の情報記憶媒体)の形で提供することが
でき、このため、図６の例では、情報記憶媒体(記録媒
体)３０がセットさせるとき、これを駆動する媒体駆動
装置３１が設けられている。

【００５１】換言すれば、本発明の書体識別装置は、イ
メージスキャナ，ディスプレイ等を備えた汎用の計算機
システムにＣＤ−ＲＯＭ等の情報記憶媒体３０に記録さ
れたプログラムコードを読み込ませて、この汎用計算機
システムのマイクロプロセッサに書体識別処理を実行さ
せる装置構成においても実施することが可能である。こ
の場合、本発明の書体識別処理プログラムなどを格納す
る情報記憶媒体としては、ＣＤ−ＲＯＭに限られるもの
ではなく、ＲＯＭ，ＲＡＭ，ＦＤ等が用いられても良
い。

【００５２】次にこのような構成の書体識別装置の処理
動作を図７乃至図９のフローチャートを用いて説明す
る。なお、図７，図８は全体の処理動作を説明するため
のフローチャート、図９は図７，図８の処理動作におい
てストロークの太さの変化率Ｗ_iを求める処理の一例を
示すフローチャートである。

【００５３】図７，図８を参照すると、先ず、ステップ
Ｓ１０１では、画像入力部１により、書体識別対象であ
る文字が記載された文書(例えば原稿)を読込み、これを
文書画像としてメモリ２内に記憶させる。次いで、ステ
ップＳ１０２では、文字切り出し部３によって文書画像
から文字画像ＡＲ_iのみを例えば矩形状に切り出し、そ
の外接矩形領域の座標を求める文字矩形切り出し処理を
行なう。このようにして、文書画像に含まれる各文字画
像ＡＲ_iに対して切り出しを行ない、切り出した各文字
画像(文字矩形)ＡＲ_iに対して昇順に１番目，２番目，
３番目と順番に文字番号ｉにより番号付けをする。

【００５４】次いで、ステップＳ１０３では、各文字画
像ＡＲ_iをサーチするための文字番号ｉを“１”に初期
設定する。次いで、ステップＳ１０４では、各文字画像
を１番目から順番にｉ番目の文字のストロークの太さの
変化率Ｗ_iを求める。

【００５５】このステップＳ１０４におけるストローク
太さの変化率Ｗ_iを求める処理は、例えば図９のように
してなされる。なお、図９の処理例は、前述した第１の
抽出例に従い、文字を構成する全てのストロークＬ_jを
用いてストロークの太さの変化率Ｗ_iを抽出するもので
ある。

【００５６】図９を参照すると、先ず、ステップＳ２０
１では、文字画像ＡＲ_iは細線化処理されて骨格画像と
される。次いで、ステップＳ２０２では、ステップＳ２
０１で細線化した骨格画像から端点を抽出し、全ての端
点をメモリ２に記憶する。この際、抽出した各端点に順
番にストローク番号ｊを付して、(Ｌ_j)を記憶する。次
いで、ステップＳ２０３では、端点をサーチするための
ストローク番号ｊを“１”に初期設定する。

【００５７】次いで、ステップＳ２０４では、ｊ番目の
端点から次の端点あるいは分岐点まで骨格を追跡し、こ
の追跡の結果得られる１つの端点から次の端点あるいは
分岐点までの部分を、１つのストロークＬ_j(ストローク
の骨格Ｌ_j')と判断する。次いで、前述のようにして、
このストロークの太さＤ_kを求め、これに基づき、スト
ロークの太さの変化率ｗ_kおよび〈ｗ_j〉を順次求める。

【００５８】しかる後、ステップＳ２０５では、ストロ
ーク番号ｊを“１”だけインクリメントし、ステップＳ
２０６では、ｊ番目の端点が存在するか否かを判定し、
存在すれば、ステップＳ２０４へ戻り、次の端点につい
て、上述したと同様の処理(文字の中の１つのストロー
クの太さの変化率ｗ_kおよび〈ｗ_j〉を抽出する処理)を
行なう。

【００５９】このようにして、ステップＳ２０２でメモ
リ２に記憶された全ての端点について追跡を行ない、こ
の文字画像ＡＲ_iに含まれる各ストロークの太さの変化
率〈ｗ_i〉を順次に求める。ステップＳ２０６でｊ番目
の端点が存在しなくなったとき(全ての端点の処理を完
了したとき)、ステップＳ２０７では、この１つの文字
画像(文字矩形)ＡＲ_i内において全てのストロークの太
さの変化率〈ｗ_j〉の平均を求め、この平均値を、この
文字画像ＡＲ_iのストローク太さの変化率Ｗ_iとして最終
的に抽出する。

【００６０】図７のステップＳ１０４において、ｉ番目
の文字のストローク太さの変化率Ｗ_iを、例えば図９の
ステップＳ２０１乃至Ｓ２０７のようにして求めた後、
図７のステップＳ１０５では、文字番号ｉを“１”だけ
インクリメントし、次いで、ステップＳ１０６では、ｉ
番目の文字が存在するか否かを判定し、存在すれば、ス
テップＳ１０４へ戻り、次の文字について、上述したと
同様の処理(この文字のストローク太さの変化率Ｗ_iを抽
出する処理)を行なう。

【００６１】このようにして、ステップＳ１０１で入力
された文書画像に含まれる各文字画像ＡＲ_iについて、
ストローク太さの変化率Ｗｉを求める処理を順次に行な
い、ステップＳ１０６でｉ番目の文字が存在しなくなっ
たとき(全ての文字画像ＡＲ_iについてストローク太さの
変化率Ｗ_iを求める処理を完了したとき)、ステップＳ１
０７では、ステップＳ１０４で求めた各文字のストロー
ク太さの変化率Ｗ_iの平均を求める。すなわち、ステッ
プＳ１０１で入力された文書画像に含まれている各文字
のストローク太さの変化率Ｗ_iの平均Ｗ_mを求める。

【００６２】明朝体の文字とゴシック体の文字とが混在
している文書画像において、一例として、上述の手法に
より解析し、ストローク太さの変化率Ｗを横軸に取り、
その太さのストロークの出現頻度を縦軸にとって図示す
ると、図１１に示すようになる。ここで、ゴシック体の
文字は、ストローク太さの変化率Ｗの小さな山Ｇとして
出現し、明朝体の文字は、ストローク太さに一定の変化
のある山Ｍとして出現する。また、このときの文書画像
全体のストローク太さの平均値(上述の手法により計算
されたストローク太さの平均値Ｗ_m)は点線Ｗ_mで表示さ
れる。ここで、もし、この平均値Ｗ_mに一定値を乗じて
表される点線Ｗ_sで示される線を想定すると、ゴシック
体の山Ｇと明朝体の山Ｍとが明確に区別できる線が引け
る。そこで、この発明では、この平均値Ｗ_mに一定の定
数を乗じた値を閾値Ｗ_sとして設定し、この閾値Ｗ_sと個
々の文字ＡＲ_iが示す太さの変化率Ｗ_iとを比較すれば、
明朝体とゴシック体との区別が容易となる。

【００６３】そこで、ステップＳ１０８では、ステップ
Ｓ１０７で求めたストローク太さの変化率の平均値Ｗ_m
に予め決めた定数を乗じた値を閾値Ｗ_sとして決定す
る。すなわち、ステップＳ１０１で入力された文書画像
の各文字ＡＲ_iの書体を識別するための識別関数の閾値
Ｗ_sを決定する。なお、この閾値Ｗ_sとしては、予め決め
た定数Ｗ_s'を用いることもできる。この場合は、全ての
文字についての平均値Ｗ_mを求める必要がないので、Ｓ
１０７，Ｓ１０８のステップは省略されていてもよい。
なお、このような定数閾値Ｗ_s'は経験的に求めて予めプ
ログラムの設定値とされていてもよく、また、使用者が
識別すべき書体に応じて設定できる値とすることもでき
る。

【００６４】このようにして、ステップＳ１０７，Ｓ１
０８で閾値Ｗ_sを定めた後、ステップＳ１０９では、各
文字の書体を識別するために、先ず、文字番号ｉを
“１”に初期設定する。次いで、ステップＳ１１０で
は、ｉ番目の文字のストローク太さの変化率Ｗ_iをステ
ップＳ１０８で決定した閾値Ｗ_sと比較して、ｉ番目の
文字の書体を識別する。具体的に、ｉ番目の文字のスト
ローク太さの変化率Ｗ_iが閾値Ｗ_sよりも大きければ、図
１１に示すように、ステップＳ１１１に移行されてこの
ｉ番目の文字の書体は明朝体であると判定される。一
方、ｉ番目の文字のストローク太さの変化率Ｗ_iが閾値
Ｗ_sよりも小さければ、ステップＳ１１２に移行され
て、このｉ番目の文字の書体はゴシック体であると判定
される。

【００６５】しかる後、ステップＳ１１３では、文字番
号ｉを“１”だけインクリメントし、ステップＳ１１４
では、ｉ番目の文字が存在するか否かを判定し、存在す
れば、ステップＳ１１０へ戻り、次の文字について、上
述したと同様の処理(この文字の書体を識別する処理)を
行なう。このようにして、文書画像に含まれている各文
字(ｉ＝１，２，…)について、その書体を識別する処理
を順次に行ない、ステップＳ１１４でｉ番目の文字が存
在しなくなったとき(全ての文字について書体を識別す
る処理を完了したとき)、全ての処理を終了する。

【００６６】このように、この発明においては閾値Ｗ
_s(またはＷ_s')が適宜設定できるという特徴を有する。
一般に、明朝体はゴシック体に対して特定の特徴量を有
するが、明朝体の文字でも、活字によりその太さの変化
率に比較的大きな分散がある。この発明のように、閾値
Ｗ_s(またはＷ_s')を適宜の位置に設定により変化させる
ことにより、明朝体とゴシック体との書体を正確に区別
することができる。

【００６７】なお、図９の例では、第１の抽出例に従っ
て、全てのストロークを用いてストローク太さの変化率
を抽出したが、文字を構成する各ストロークのうち予め
定めた特定の方向のストロークだけを用いて、文字のス
トローク太さの変化率を抽出することも可能である。図
１０は、図７のステップＳ１０４において、図９の処理
のかわりに、第２の抽出例に従って、予め定めた特定の
方向のストロークだけを用いて文字のストローク太さの
変化率を抽出する場合の処理例を示すフローチャートで
ある。

【００６８】図１０を参照すると、先ず、ステップＳ３
０１では、文字画像を細線化し、次いで、ステップＳ３
０２では、ステップＳ３０１で細線化した文字画像(骨
格画像)から端点を抽出し、全ての端点をメモリ２に記
憶する。この際、抽出した各端点に順番にストローク番
号ｊを付して記憶する。次いで、ステップＳ３０３で
は、端点をサーチするためのストローク番号ｊを“１”
に初期設定する。

【００６９】次いで、ステップＳ３０４では、ｊ番目の
端点から次の端点あるいは分岐点まで骨格を追跡し、こ
の追跡の結果得られる１つの端点から次の端点あるいは
分岐点までの部分を、１つのストローク(ストロークの
骨格)と判断し、このストロークの方向を抽出する。し
かる後、ステップＳ３０５では、このストロークの方向
が予め定めた特定の方向であるかを判定し、予め定めた
特定の方向である場合には、ステップＳ３０６におい
て、このストロークの太さを前述したようにして求め、
これに基づき、ストロークの太さの変化率を求める。ま
た、ステップＳ３０５において、このストロークの方向
が予め定めた特定の方向でない場合には、このストロー
クの太さの変化率を求めない。

【００７０】次いで、ステップＳ３０７では、ストロー
ク番号ｊを“１”だけインクリメントし、ステップＳ３
０８では、ｊ番目の端点が存在するか否かを判定し、存
在すれば、ステップＳ３０４へ戻り、次の端点につい
て、上述したと同様の処理(文字を構成するストローク
のうち、特定の方向のストロークの太さの変化率を抽出
する処理)を行なう。

【００７１】このようにして、ステップＳ３０２でメモ
リ２に記憶された全ての端点について追跡を行ない、こ
の文字画像に含まれる各ストロークのうち、予め定めた
特定の方向のストロークについてだけ、その太さの変化
率を順次に求め、ステップＳ３０８でｊ番目の端点が存
在しなくなったとき(全ての端点の処理を完了したと
き)、ステップＳ３０９では、この１つの文字画像内に
おいて予め定めた特定の方向であると判定した各ストロ
ークについてのみ、そのストローク太さの変化率の平均
を求め、これを、この文字画像ＡＲ_iのストローク太さ
の変化率Ｗ_iとして最終的に抽出する。

【００７２】このように、本発明では、文字を構成する
ストロークに、例えば、斜めのストロークが存在する場
合、この斜めのストロークについても、ストローク太さ
の変化率をこのストロークの正確な特徴量として抽出す
るので、斜めのストロークを含む文字画像に対しても、
その文字の書体(フォント)を小さなプログラムサイズで
容易にかつ正確に精度良く識別することができる。

【００７３】具体的に、高度化する文書画像処理におい
ては、より厳密に文字画像を再現するには文字コードだ
けではなく書体情報も必要となる。また書体情報は、例
えば文書中の通常の部分には明朝体が用いられ、重要な
部分(タイトル行やキーワードなど)にはゴシック体が用
いられることが多いことから、これらの重要な部分を自
動的に抽出する際に、本発明は非常に有用なものとな
る。

【００７４】一般に、明朝体，教科書体などの活字の多
くは、毛筆の筆力，筆圧などの筆使いに起因して、スト
ロークに太さの変化を有する。例えば、図１２(ａ)に示
すように、明朝体で表現された「宋」の活字では、スト
ロークＬａは筆順に従い先端Ｌａ１に行くほど太さが細
くなる。一方ストロークＬｂは筆順に従い先端Ｌｂ１に
行くほど太くなっている。また、この文字では、円ｃ内
に示すように、「鱗」と称される、三角形の力点が存す
る。このように、これらの書体は、例えば太さの一様な
ゴシック体(図１２(ｂ)参照)と比べて、ストロークの長
さ方向に直交する太さの違い(変化率)としてその特徴量
が表現される。また、この特徴量は、多くの漢字などの
活字では、斜め方向(特定の方向)に対して顕著に発現し
ている。

【００７５】ここで、本発明の実施形態によれば、スト
ローク太さ抽出手段に従い、文字のストロークの太さが
抽出され、このストローク太さ抽出手段で抽出された文
字のストロークの太さは、ストローク太さ変化率抽出手
段によりそのストローク太さの変化の違いを変化率とし
て求める。次いで、そのストローク太さ変化率抽出手段
で求められたストロークの太さの変化率に基づいて、識
別手段に従い、文字の書体が識別されるので、毛筆の筆
使いに起因して生じる太さの変化は、ストローク太さの
変化率として表現される特徴量として捕らえられる。こ
れにより、文字画像の文字の書体を容易にかつ正確に精
度良く識別することができる。

【００７６】また、本発明の他の実施形態によれば、文
字を構成する各ストロークのうち特定の方向のストロー
クの太さのみを抽出し、その抽出された特定の方向のス
トロークの太さからその変化率を求め、特定の方向のス
トロークの太さの変化率の平均を文字のストローク太さ
の変化率として抽出する。この特定の方向として斜め方
向を選択すれば、漢字などの活字での特徴量を捕らえる
ことができ、特に、特徴量として、従来では困難であっ
た細ゴシック体についても高精度で安定に識別すること
ができる。

【００７７】このように、本発明では、文字画像の文字
の書体を精度良く識別することが可能となり、このよう
にして得られた文字の書体の識別結果に基づいて、例え
ば文書画像を再現したりするのに有用である。

【００７８】また、一般に欧文活字の書体の判断は単語
単位で識別されて判断されることが重要であるのに対し
て、漢字等の活字書体の識別単位は必ずしも単語単位で
ある必要はなく、むしろ、文字単位での書体の判断が重
要である。そのため、本発明では、この識別単位は、文
字単位で切り出された文字情報の他に、例えば、部首な
どの文字の一部、複数の文字、行単位の文字、列単位の
文字などにより切り出された文字情報を含む画像であっ
ても同様に識別できる。

【００７９】また、本発明によれば、原稿単位の情報が
与えられれば、原稿全体がゴシック体であるか、明朝体
であるかの判断ができる。また、文字単位での情報が与
えられれば文字単位での書体の認識が可能である。ま
た、文字が２または３に分割された一文字画像として認
識されていても、また、２または３以上の文字が一文字
画像として認識されていても、大きな誤差とはならな
い。従って、文字切り出し処理部３での文字の文字画像
ＡＲとしての切り出しは文字単位での文字切り出し、行
単位での行切り出し、列単位の列切り出し、文字の部分
単位の部分切り出しなどを包含する。

【００８０】しかしながら、書体が混在されている文書
画像においては、略文字単位で切り出されてこの発明の
書体識別装置に付されるのがよい。この場合、略文字単
位とは、「へん」と「作り」のような部首単位に分かれ
ていてもよいことを示している。

【００８１】なお、上述の例では、書体として、和文に
おける明朝体，ゴシック体のいずれかを識別する場合が
示されているが、本発明は、書体として、明朝体，ゴシ
ック体の他の書体を識別することももちろん可能であ
り、また、書体として、明朝体，ゴシック体に加えてさ
らに他の書体を識別することも可能である。例えば、中
国，台湾における活字の字体(宋体、ゴシック体など)の
識別も可能である。

【００８２】また、情報記憶媒体３０は、計算機システ
ム(コンピュータ)へのインストール・実行などのプログ
ラムが付加されて、プログラムの流通などのために、プ
ログラムが記憶された記憶媒体として用いられても良
い。これにより、書体識別可能なプログラムが記録され
たコンピュータで読み取り可能な記憶媒体として普及さ
れる。

【００８３】以上、この発明の実施の形態を詳述してき
たが、具体的な構成はこの実施の形態に限らず、この発
明の要旨を逸脱しない範囲の設計の変更等があってもこ
の発明に含まれる。例えば、本発明の書体認識装置に
は、コンピュータのハードウェアおよびソフトウェアの
システムの構成要素として通常用いられるものを付加し
たり、システムの構成要素の一部を均等手段に置換しよ
うとすることは、当業者が普通に考えることである。ま
た、通常のシステム化手段の付加または置換を含む。

【００８４】

【発明の効果】以上に説明したように、請求項１乃至請
求項９記載の発明によれば、文字画像において文字のス
トロークの太さの変化率を抽出し、抽出した文字のスト
ロークの太さの変化率に基づいて、該文字の書体を識別
するので、文字画像の文字の書体(フォント)を容易にか
つ正確に精度良く識別することができる。特に、従来で
は困難であった細ゴシック体についても高精度で安定に
識別することができる。

【図面の簡単な説明】

【図１】本発明に係る書体識別装置の構成例を示す図で
ある。

【図２】１つの文字画像の一例を示す図である。

【図３】図１の書体識別部の構成例を示す図である。

【図４】図２の文字画像に対し細線化処理を施した結果
の骨格画像を示す図である。

【図５】図２，図４の文字画像例において、１つのスト
ロークＬ₁の太さＤ_iと、このストロークＬ₁の太さの変
化率(すなわち、微分値)ｗ_iとを示す図である。

【図６】図１の書体識別装置のハードウェア構成例を示
す図である。

【図７】図１の書体識別装置の処理動作を説明するため
のフローチャートである。

【図８】図１の書体識別装置の処理動作を説明するため
のフローチャートである。

【図９】図１の書体識別装置の処理動作を説明するため
のフローチャートである。

【図１０】図１の書体識別装置の処理動作を説明するた
めのフローチャートである。

【図１１】書体が混在された文字画像でのストローク太
さの変化率とその太さのストロークの出現頻度との相関
を示す図である。

【図１２】漢字の特徴を説明するための図である。

【符号の説明】

１画像入力部２メモリ３文字切り出し処理部４書体識別部５制御部６結果出力部１１ストローク太さ抽出部１２ストローク太さ変化率抽出部１３比較識別部２１ＣＰＵ２２ＲＯＭ２３ＲＡＭ２４スキャナ２５文書画像ファイル２６結果出力装置３０情報記憶媒体３１媒体駆動装置

Claims

【特許請求の範囲】

【請求項１】文字画像において文字のストロークの太
さを抽出するストローク太さ抽出手段と、該ストローク
太さ抽出手段で抽出された文字のストロークの太さから
その変化率を求めるストローク太さ変化率抽出手段と、
該ストローク太さ変化率抽出手段で求められたストロー
クの太さの変化率に基づいて、前記文字の書体を識別す
る識別手段とを有していることを特徴とする書体識別装
置。
【請求項２】請求項１記載の書体識別装置において、
前記ストローク太さ抽出手段は、文字を構成する各スト
ロークの太さを検出し、また、前記ストローク太さ変化
率抽出手段は、前記ストローク太さ抽出手段で抽出され
た各ストロークの太さの変化率の平均を、文字のストロ
ーク太さの変化率として抽出することを特徴とする書体
識別装置。
【請求項３】請求項１記載の書体識別装置において、
前記ストローク太さ抽出手段は、文字を構成する各スト
ロークのうち特定の方向のストロークの太さのみを抽出
し、また、前記ストローク太さ変化率抽出手段は、前記
ストローク太さ抽出手段で抽出された特定の方向のスト
ロークの太さからその変化率を求め、特定の方向のスト
ロークの太さの変化率の平均を、文字のストローク太さ
の変化率として抽出することを特徴とする書体識別装
置。
【請求項４】請求項１記載の書体識別装置において、
前記識別手段は、文字のストロークの太さの変化率と予
め決められた閾値とを比較することによって、該文字の
書体を識別することを特徴とする書体識別装置。
【請求項５】請求項４記載の書体識別装置において、
前記閾値は、所定文書画像に含まれる全ての文字のスト
ロークの太さの変化率の平均に所定の定数を乗ずること
によって決定され、この場合、前記識別手段は、文書画
像に含まれている各文字のストロークの太さの変化率を
前記閾値と比較して、各文字の書体をそれぞれ識別する
ことを特徴とする書体識別装置。
【請求項６】文字画像において文字のストロークの太
さを抽出する太さ抽出工程と、該太さ抽出工程により抽
出された文字のストローク太さから、そのストローク太
さの変化率を抽出する変化率抽出工程と、該変化率抽出
工程により抽出されたストローク太さの変化率に基づい
て、前記文字の書体を識別する書体識別工程とを含むこ
とを特徴とする書体識別方法。
【請求項７】請求項６記載の書体識別方法において、
前記太さ抽出工程は、文字を構成する各ストロークの太
さを抽出し、前記変化率抽出工程は、前記太さ抽出工程
により抽出された各ストロークの太さから、その太さの
変化率を求めて文字のストローク太さの変化率として抽
出することを特徴とする書体識別方法。
【請求項８】請求項６記載の書体識別方法において、
前記太さ抽出工程は文字を構成する各ストロークのうち
特定方向のストロークの太さのみを抽出し、前記変化率
抽出工程は、前記太さ抽出工程により抽出された特定方
向の各ストロークの太さから、その太さの変化率を求め
て文字の特定方向ストローク太さの変化率として抽出す
ることを特徴とする書体識別方法。
【請求項９】コンピュータによって文字の書体を識別
させるための制御プログラムを記憶した記憶媒体であっ
て、文字のストロークの太さを抽出する太さ抽出工程
と、該太さ抽出工程により抽出された文字のストローク
太さから、そのストローク太さの変化率を抽出する変化
率抽出工程と、該変化率抽出工程により抽出されたスト
ローク太さの変化率に基づいて、前記文字の書体を識別
する書体識別工程とを有することを特徴とするプログラ
ムを記憶した情報記憶媒体。