JPH1185905A - 書体識別装置および書体識別方法および情報記憶媒体 - Google Patents

書体識別装置および書体識別方法および情報記憶媒体

Info

Publication number
JPH1185905A
JPH1185905A JP10213523A JP21352398A JPH1185905A JP H1185905 A JPH1185905 A JP H1185905A JP 10213523 A JP10213523 A JP 10213523A JP 21352398 A JP21352398 A JP 21352398A JP H1185905 A JPH1185905 A JP H1185905A
Authority
JP
Japan
Prior art keywords
stroke
thickness
character
typeface
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10213523A
Other languages
English (en)
Inventor
Tei Abe
悌 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10213523A priority Critical patent/JPH1185905A/ja
Publication of JPH1185905A publication Critical patent/JPH1185905A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 斜めのストロークやノイズを含む文字画像に
対しても、その文字の書体を容易にかつ正確に識別する
ことの可能な書体識別装置および書体識別方法および情
報記憶媒体を提供する。 【解決手段】 書体識別部4は、文字画像において、文
字のストロークの太さを抽出するストローク太さ抽出部
11と、ストローク太さ抽出部11で抽出された文字の
ストロークの太さからその変化率を求めるストローク太
さ変化率抽出部12と、ストローク太さ変化率抽出部1
2で求められたストロークの太さの変化率を所定の閾値
と比較して、該文字の書体(フォント)の識別を行なう比
較識別部13とを有している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字の書体(フォ
ントまたは字体)の識別を行なう書体識別装置および書
体識別方法および情報記憶媒体に関する。
【0002】
【従来の技術】従来、例えば特開平6−208649号
には、文字の縦方向および横方向の文字線幅を推定し、
これらの線幅の比によって、文字の書体(フォントまた
は字体)が明朝体であるかゴシック体であるかを識別す
る書体識別技術が示されている。この書体識別技術は、
より具体的には、文字画像の水平方向および垂直方向の
ランレングスヒストグラムのモード(最頻値)によって、
横方向および縦方向の文字線幅を推定し、これらの線幅
の比によって、文字の書体が明朝体であるかゴシック体
であるかを識別するようになっている。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の書体識別技術では、「中」や「田」等のように
文字を構成するストロークの多くが水平または垂直な直
線で、かつ画像にノイズがない場合にしか、書体を良好
に識別することができない。
【0004】すなわち、日本、中国、台湾などで用いら
れる活字(漢字)では、例えば、「宋」や「知」等のよう
に、文字を構成するストロークには、斜めのストローク
が多々存在する。このように、文字に斜めのストローク
が存在する場合、従来の書体識別技術(例えば、上述し
た特開平6−208649号公報に記載されている技
術)では、ランレングスヒストグラムのピーク(最頻値)
が誤ったところに出てしまい、正しい線幅を抽出でき
ず、実用化には適しないという問題があった。
【0005】特に、各ストローク幅が均一であり、か
つ、各ストローク幅が全体に細身の細ゴシック体では、
他の書体と区別して識別することが困難であった。
【0006】本発明は、斜めのストロークやノイズを含
む文字画像に対しても、その文字の書体を容易にかつ正
確に識別することの可能な書体識別装置および書体識別
方法および情報記憶媒体を提供することを目的としてい
る。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、文字画像において文字のス
トロークの太さを抽出するストローク太さ抽出手段と、
該ストローク太さ抽出手段で抽出された文字のストロー
クの太さからその変化率を求めるストローク太さ変化率
抽出手段と、該ストローク太さ変化率抽出手段で求めら
れたストロークの太さの変化率に基づいて、前記文字の
書体を識別する識別手段とを有していることを特徴とし
ている。
【0008】また、請求項2記載の発明は、請求項1記
載の書体識別装置において、ストローク太さ抽出手段
は、文字を構成する各ストロークの太さを検出し、ま
た、ストローク太さ変化率抽出手段は、前記ストローク
太さ抽出手段で抽出された各ストロークの太さの変化率
の平均を、文字のストローク太さの変化率として抽出す
ることを特徴としている。
【0009】また、請求項3記載の発明は、請求項1記
載の書体識別装置において、ストローク太さ抽出手段
は、文字を構成する各ストロークのうち特定の方向のス
トロークの太さのみを抽出し、また、前記ストローク太
さ変化率抽出手段は、ストローク太さ抽出手段で抽出さ
れた特定の方向のストロークの太さからその変化率を求
め、特定の方向のストロークの太さの変化率の平均を、
文字のストローク太さの変化率として抽出することを特
徴としている。
【0010】また、請求項4記載の発明は、請求項1記
載の書体識別装置において、識別手段は、文字のストロ
ークの太さの変化率と予め決められた閾値とを比較する
ことによって、該文字の書体を識別することを特徴とし
ている。
【0011】また、請求項5記載の発明は、請求項4記
載の書体識別装置において、閾値は、所定文書画像に含
まれる全ての文字のストロークの太さの変化率の平均に
所定の定数を乗ずることによって決定され、この場合、
識別手段は、文書画像に含まれている各文字のストロー
クの太さの変化率を閾値と比較して、各文字の書体をそ
れぞれ識別することを特徴としている。
【0012】また、請求項6記載の発明は、文字画像に
おいて文字のストロークの太さを抽出する太さ抽出工程
と、該太さ抽出工程により抽出された文字のストローク
太さから、そのストローク太さの変化率を抽出する変化
率抽出工程と、該変化率抽出工程により抽出されたスト
ローク太さの変化率に基づいて、前記文字の書体を識別
する書体識別工程とを含むことを特徴としている。
【0013】また、請求項7記載の発明は、太さ抽出工
程は、文字を構成する各ストロークの太さを抽出し、前
記変化率抽出工程は、前記太さ抽出工程により抽出され
た各ストロークの太さから、その太さの変化率を求めて
文字のストローク太さの変化率として抽出することを特
徴としている。
【0014】また、請求項8記載の発明は、太さ抽出工
程は文字を構成する各ストロークのうち特定方向のスト
ロークの太さのみを抽出し、前記変化率抽出工程は、前
記太さ抽出工程により抽出された特定方向の各ストロー
クの太さから、その太さの変化率を求めて文字の特定方
向ストローク太さの変化率として抽出することを特徴と
している。
【0015】また、請求項9記載の発明は、コンピュー
タによって文字の書体を識別させるための制御プログラ
ムを記憶した記憶媒体であって、文字のストロークの太
さを抽出する太さ抽出工程と、該太さ抽出工程により抽
出された文字のストローク太さから、そのストローク太
さの変化率を抽出する変化率抽出工程と、該変化率抽出
工程により抽出されたストローク太さの変化率に基づい
て、前記文字の書体を識別する書体識別工程とを有する
ことを特徴とするプログラムを記憶した情報記憶媒体で
ある。
【0016】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る書体識別装置の
構成例を示す図である。図1を参照すると、この書体識
別装置は、文書を例えば2値画像として読み込む画像入
力部1と、画像入力部1で読み込まれた文書画像等を記
憶するメモリ2と、文書画像から文字画像を抽出する文
字切り出し処理部3と、文字切り出し処理部3により切
り出された文字画像に対し、その文字の書体(フォント)
の識別を行なう書体識別部4と、全体の制御を行なう制
御部5と、書体識別部4による文字の書体の識別結果を
出力する結果出力部6とを有している。
【0017】ここで、文字切り出し処理部3は、文書画
像から矩形状に文字画像ARi(添字iは文字画像を特定
する番号であり以下文字番号と略す)を切り出すように
なっている。すなわち、図2の例では、一つの文書画像
からある添字iで特定された文字画像(文字)ARiが外
接矩形領域として切り出されている。この文字はストロ
ークL1,L2…(Lj)を有する。ここで、この実施の形
態での一つのストロークLとは、ある一つの端点から交
差点を含む分岐点まで、あるいは分岐点から分岐点まで
と定義され、分岐点(交差点を含む)がない場合は、端点
から端点までと定義される。また、添字jは、それぞれ
のストロークLを特定する番号であり、以下ストローク
番号と略す。
【0018】また、図3は図1の書体識別部4の構成例
を示す図である。図3の例では、書体識別部4は、文字
画像ARにおいて、文字のストロークの太さを抽出する
ストローク太さ抽出部11と、ストローク太さ抽出部1
1で抽出された文字のストロークの太さからその変化率
を求めるストローク太さ変化率抽出部12と、ストロー
ク太さ変化率抽出部12で求められたストロークの太さ
の変化率を所定の閾値と比較して、該文字の書体(フォ
ント)の識別を行なう比較識別部13とを有している。
【0019】ここで、第1の抽出例として、ストローク
太さ抽出部11は、文字を構成する全てのストロークの
太さを抽出し、また、ストローク太さ変化率抽出部12
は、全てのストロークについて、ストローク太さ抽出部
11で抽出されたストロークの太さの変化率を求め、全
てのストロークの太さの変化率の平均を、最終的に、該
文字のストロークの太さの変化率として抽出することが
できる。
【0020】また、第2の抽出例では、第1の抽出例に
おいて、全てのストロークに代えて特定の例えば斜め方
向のストロークのみに注目して抽出することができる。
すなわち、第2の抽出例としては、ストローク太さ抽出
部11は、文字を構成する全てのストロークのうち、特
定の方向のストロークの太さのみを抽出し、また、スト
ローク太さ変化率抽出部12は、特定の方向のストロー
クについて、ストローク太さ抽出部11で抽出されたス
トロークの太さの変化率を求め、特定の方向のストロー
クの太さの変化率の平均を、最終的に、前記文字のスト
ローク太さの変化率として抽出することができる。
【0021】次に、ストローク太さ抽出部11について
の抽出例について、図2および図4に基づいて説明す
る。ここで、図2の斜線を施した部分が文字部分であ
り、図2の文字画像ARiに対し細線化処理を施すこと
により、図4に示すように、スケルトン(骨格)画像が形
成される。この図4において、斜線部分が骨格画素Tk
を示す。ここで、添字kは画素を特定する番号であり、
以下画素番号と略す。
【0022】この図4において、ある一つの画素Tk
ついての方向ベクトルrkは、この画素Tkからそれぞれ
前後に例えば2画素分離れた骨格の画素Tk-2,Tk+2
を結ぶ線分の方向として求めることができる。
【0023】この図4の骨格画像ARiから、文字を構
成する一つのストロークの太さを抽出するには、先ず、
ある一つの端点(例えば画素T1)から次の端点あるいは
分岐点(例えば画素Tn)まで骨格を追跡し、この追跡の
結果得られる一つの端点(画素T1)から次の分岐点Tn
での部分を一つのストロークL1の骨格L1'と判断し、
このストロークL1の骨格L1'を構成する各画素(すなわ
ち、各点)T1,…,Tnのそれぞれについて、微小の方
向ベクトルr1,…,rnを求める。
【0024】そして、このストロークL1の骨格L1'に
対応した細線化前の文字画像のストローク(図2にL1
示すストローク)のある一つの点(骨格Lを構成する画素
k)において、この方向ベクトルrkとほぼ垂直な方向
kの幅をこの点(画素Tk)についてのストロークの太さ
kとして抽出することができる。
【0025】デジタル画像の常套手段に従い、方向ベク
トルrkを例えば8方向の量子化処理をすると、ある画
素Tkについての方向ベクトルrkと垂直な方向Vkの幅
がこの画素Tkについてのストロークの太さDkの近似値
として抽出することができる。
【0026】図2、図4の例では、一つのストロークL
1の添字kで特定されたある一つの点(画素Tk)における
太さDkは“2.8”として抽出され、また添字k'で特
定された他の点Tk'における太さDk'の近似値は“5”
として抽出される。このようにして、このストロークL
1の各点T1,…,Tnにおいて、上記のようにして、ス
トロークの太さD1,…,Dnを抽出することができる。
【0027】また、この場合、ストローク太さ変化率抽
出部12は、上記ストロークの各点において抽出された
ストロークDkの太さからその変化率を例えば次のよう
にして求めることができる。
【0028】すなわち、一つのストロークL1の各点Tk
(k=1〜n)の太さがDk(k=1〜n)として抽出され
るとき、このストロークの太さDkの変化率wkは例えば
次式によって求められる。
【0029】
【数1】wk=(Dk−Dk-1)/Dk-1
【0030】すなわち、この例では、ストロークの太さ
の変化率wkはストロークの太さに対する微分値として
求められる。
【0031】なお、このストロークの太さDkの変化率
kは数1のような各点Tkのストロークの太さDkに対
する相対値でなく、画素を単位として表現された絶対値
であってもよい。このような値は例えば、次式で表され
る。
【0032】
【数2】 wk=(Dk+1−Dk-1)/2 (k=4〜n−3)
【0033】なお、この数2では、書体識別の確率を上
昇させるために、一つのストロークL1の骨格L1'の画
素数nが7よりも小さいとき(n<7のとき)は無効と判
断してそのストロークの太さDkの変化率wkの抽出は行
なわないようにしている。このように構成すれば、長さ
(画素数)が所定以上のストロークのみ抽出される。この
ように、ストロークの抽出に画素数nの下限を付して、
所定長さ以上のストロークのみ抽出することによりノイ
ズとなる短いストロークを排除して、書体識別の確率を
上昇させることもできる。
【0034】図5(a),(b)には、図2,図4の文字画
像ARiにつき、数2に従い計算した一つのストローク
1の太さDkとこのストロークL1の太さの変化率すな
わち微分値wkとが示されている。
【0035】このようにして求めたストローク番号iで
特定された一つのストロークの太さの変化率の平均〈w
i〉は例えば数2に対応して、次式により求められる。
【0036】
【数3】
【0037】また、この一つのストロークの太さの変化
率の平均〈wi〉はその文字番号iで特定された文字の
全てのストロークLjについて積算され、次式により平
均値Wiが求められる。
【0038】
【数4】
【0039】この平均値Wiは文字(または文字番号iの
文字画像)の全てのストロークの太さの変化率の平均と
なる。また、このようにして求めた一つの文字番号のス
トロークの太さの変化率の平均Wiは全ての文字(ARi)
に付き積算され、次式によりさらに平均され、平均値W
mが求められる。
【0040】
【数5】
【0041】この平均値Wmは読み込まれた文書全体に
おけるストローク太さの変化率の平均となる。以上の平
均は算術平均であったが、加重平均であってもよい。
【0042】そして、第1の抽出例に従って文字のスト
ロークの太さを抽出し、また、ストロークの太さの変化
率を抽出する場合は次の通りとなる。すなわち、ストロ
ーク太さ抽出部11は、細線化した骨格(スケルトン)画
像ARi'から全ての端点を抽出し、ある1つの端点から
骨格を次の端点あるいは分岐点まで追跡し、この追跡の
結果得られる1つの端点から次の端点あるいは分岐点ま
での部分を、1つのストロークLjと判断する。次い
で、文字を構成する各ストロークの太さwk…を上記の
ように抽出して各ストロークLj…について太さ〈wj
を抽出する。また、ストローク太さ変化率抽出部12
は、文字を構成する各ストロークの太さの変化率
〈wj〉(各ストロークごとの太さの変化率の平均
〈wj〉)を上述したような手法で求め、各ストロークご
との太さの変化率〈wj〉の平均を各ストロークで平均
した値を、この文字のストローク太さの変化率Wiとし
て、最終的に抽出するようになっている。
【0043】具体的に、図2の例では、文字を構成する
ストロークLjは、L1,L2の2個であり、これら2つ
のストロークL1,L2のそれぞれの太さの変化率
〈wj〉(〈w1〉,〈w2〉)の平均を、この文字iのス
トロークの太さの変化率Wiとして抽出するようになっ
ている。この平均値Wiは必要により、切り出された文
字単位でさらに平均化されて文書の平均値Wmとされ
る。
【0044】また、第2の抽出例に従って文字のストロ
ークの太さを抽出し、また、ストロークの太さの変化率
を抽出する場合は次の通りである。すなわち、ストロー
ク太さ抽出部11は、文字を構成する各ストロークの方
向Rを求め、そのうち、特定の方向のストロークLの太
さDのみを抽出する。また、この際、ストローク太さ変
化率抽出部12は、該特定の方向のストロークLについ
て、ストローク太さ抽出部11で抽出されたストローク
Lの太さDkの変化率wkを求め、特定方向のストローク
の太さの変化率〈wj〉の平均をこの文字のストローク
太さの変化率Wiとして、最終的に抽出するようになっ
ている。
【0045】なお、1つのストロークの方向(特定方向)
は、例えば、次のようにして求めることができる。すな
わち、図2の例において、例えばストロークL1の方向
1は、このストロークL1の骨格L1’を構成する各画
素(すなわち各点)T1,…,Tnについての方向ベクトル
1,…,rnの平均として求めることができる。ストロ
ークL2の方向R2についても、同様の手法で、これを求
めることができる。従って、特定の方向として例えば方
向R1が用いられる場合、文字を構成する2つのストロ
ークL1,L2のうち、方向R1のストロークL1の太さの
変化率〈w1〉は、平均化されることなく、そのまま、
この文字のストローク太さの変化率Wiとして抽出する
ことができる。
【0046】このとき、ストローク方向Rを例えば垂直
方向,水平方向,斜め方向の8方向に量子化することに
より、特定方向としての斜め方向のストロークLjを選
択して抽出することができる。
【0047】方向R1に対して複数のストロークL1,L
2…がある場合、それぞれのストロークLjに対して求め
た変化率〈wj〉の平均が数4に従い求められて、その
文字iのストローク太さの変化率Wiとして抽出するこ
とができる。
【0048】図6は図1の書体識別装置のハードウェア
構成例を示す図である。図6を参照すると、この書体識
別装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するCPU21と、CPU21の制御プ
ログラム等が記憶されているROM22と、CPU21
のワークエリア等として使用されるRAM23と、文書
を文書画像として読込むスキャナ24と、スキャナ24
で読込まれた文書画像が例えばページ単位で記憶される
文書画像ファイル25と、文書画像に含まれている各文
字画像に対し書体識別を行なった結果の情報を出力する
結果出力装置(例えば、ディスプレイやプリンタ)26と
を有している。
【0049】ここで、スキャナ24,文書画像ファイル
25,結果出力装置26は、図1の画像入力部1,メモ
リ2,結果出力部6にそれぞれ対応している。また、C
PU21は、図1の制御部5,文字切り出し処理部3,
書体識別部4の機能を有している。
【0050】なお、CPU21におけるこのような制御
部5,文字切り出し処理部3,書体識別部4等としての
機能は、例えばソフトウェアパッケージ(具体的には、
CD−ROM等の情報記憶媒体)の形で提供することが
でき、このため、図6の例では、情報記憶媒体(記録媒
体)30がセットさせるとき、これを駆動する媒体駆動
装置31が設けられている。
【0051】換言すれば、本発明の書体識別装置は、イ
メージスキャナ,ディスプレイ等を備えた汎用の計算機
システムにCD−ROM等の情報記憶媒体30に記録さ
れたプログラムコードを読み込ませて、この汎用計算機
システムのマイクロプロセッサに書体識別処理を実行さ
せる装置構成においても実施することが可能である。こ
の場合、本発明の書体識別処理プログラムなどを格納す
る情報記憶媒体としては、CD−ROMに限られるもの
ではなく、ROM,RAM,FD等が用いられても良
い。
【0052】次にこのような構成の書体識別装置の処理
動作を図7乃至図9のフローチャートを用いて説明す
る。なお、図7,図8は全体の処理動作を説明するため
のフローチャート、図9は図7,図8の処理動作におい
てストロークの太さの変化率Wiを求める処理の一例を
示すフローチャートである。
【0053】図7,図8を参照すると、先ず、ステップ
S101では、画像入力部1により、書体識別対象であ
る文字が記載された文書(例えば原稿)を読込み、これを
文書画像としてメモリ2内に記憶させる。次いで、ステ
ップS102では、文字切り出し部3によって文書画像
から文字画像ARiのみを例えば矩形状に切り出し、そ
の外接矩形領域の座標を求める文字矩形切り出し処理を
行なう。このようにして、文書画像に含まれる各文字画
像ARiに対して切り出しを行ない、切り出した各文字
画像(文字矩形)ARiに対して昇順に1番目,2番目,
3番目と順番に文字番号iにより番号付けをする。
【0054】次いで、ステップS103では、各文字画
像ARiをサーチするための文字番号iを“1”に初期
設定する。次いで、ステップS104では、各文字画像
を1番目から順番にi番目の文字のストロークの太さの
変化率Wiを求める。
【0055】このステップS104におけるストローク
太さの変化率Wiを求める処理は、例えば図9のように
してなされる。なお、図9の処理例は、前述した第1の
抽出例に従い、文字を構成する全てのストロークLj
用いてストロークの太さの変化率Wiを抽出するもので
ある。
【0056】図9を参照すると、先ず、ステップS20
1では、文字画像ARiは細線化処理されて骨格画像と
される。次いで、ステップS202では、ステップS2
01で細線化した骨格画像から端点を抽出し、全ての端
点をメモリ2に記憶する。この際、抽出した各端点に順
番にストローク番号jを付して、(Lj)を記憶する。次
いで、ステップS203では、端点をサーチするための
ストローク番号jを“1”に初期設定する。
【0057】次いで、ステップS204では、j番目の
端点から次の端点あるいは分岐点まで骨格を追跡し、こ
の追跡の結果得られる1つの端点から次の端点あるいは
分岐点までの部分を、1つのストロークLj(ストローク
の骨格Lj')と判断する。次いで、前述のようにして、
このストロークの太さDkを求め、これに基づき、スト
ロークの太さの変化率wkおよび〈wj〉を順次求める。
【0058】しかる後、ステップS205では、ストロ
ーク番号jを“1”だけインクリメントし、ステップS
206では、j番目の端点が存在するか否かを判定し、
存在すれば、ステップS204へ戻り、次の端点につい
て、上述したと同様の処理(文字の中の1つのストロー
クの太さの変化率wkおよび〈wj〉を抽出する処理)を
行なう。
【0059】このようにして、ステップS202でメモ
リ2に記憶された全ての端点について追跡を行ない、こ
の文字画像ARiに含まれる各ストロークの太さの変化
率〈wi〉を順次に求める。ステップS206でj番目
の端点が存在しなくなったとき(全ての端点の処理を完
了したとき)、ステップS207では、この1つの文字
画像(文字矩形)ARi内において全てのストロークの太
さの変化率〈wj〉の平均を求め、この平均値を、この
文字画像ARiのストローク太さの変化率Wiとして最終
的に抽出する。
【0060】図7のステップS104において、i番目
の文字のストローク太さの変化率Wiを、例えば図9の
ステップS201乃至S207のようにして求めた後、
図7のステップS105では、文字番号iを“1”だけ
インクリメントし、次いで、ステップS106では、i
番目の文字が存在するか否かを判定し、存在すれば、ス
テップS104へ戻り、次の文字について、上述したと
同様の処理(この文字のストローク太さの変化率Wiを抽
出する処理)を行なう。
【0061】このようにして、ステップS101で入力
された文書画像に含まれる各文字画像ARiについて、
ストローク太さの変化率Wiを求める処理を順次に行な
い、ステップS106でi番目の文字が存在しなくなっ
たとき(全ての文字画像ARiについてストローク太さの
変化率Wiを求める処理を完了したとき)、ステップS1
07では、ステップS104で求めた各文字のストロー
ク太さの変化率Wiの平均を求める。すなわち、ステッ
プS101で入力された文書画像に含まれている各文字
のストローク太さの変化率Wiの平均Wmを求める。
【0062】明朝体の文字とゴシック体の文字とが混在
している文書画像において、一例として、上述の手法に
より解析し、ストローク太さの変化率Wを横軸に取り、
その太さのストロークの出現頻度を縦軸にとって図示す
ると、図11に示すようになる。ここで、ゴシック体の
文字は、ストローク太さの変化率Wの小さな山Gとして
出現し、明朝体の文字は、ストローク太さに一定の変化
のある山Mとして出現する。また、このときの文書画像
全体のストローク太さの平均値(上述の手法により計算
されたストローク太さの平均値Wm)は点線Wmで表示さ
れる。ここで、もし、この平均値Wmに一定値を乗じて
表される点線Wsで示される線を想定すると、ゴシック
体の山Gと明朝体の山Mとが明確に区別できる線が引け
る。そこで、この発明では、この平均値Wmに一定の定
数を乗じた値を閾値Wsとして設定し、この閾値Wsと個
々の文字ARiが示す太さの変化率Wiとを比較すれば、
明朝体とゴシック体との区別が容易となる。
【0063】そこで、ステップS108では、ステップ
S107で求めたストローク太さの変化率の平均値Wm
に予め決めた定数を乗じた値を閾値Wsとして決定す
る。すなわち、ステップS101で入力された文書画像
の各文字ARiの書体を識別するための識別関数の閾値
sを決定する。なお、この閾値Wsとしては、予め決め
た定数Ws'を用いることもできる。この場合は、全ての
文字についての平均値Wmを求める必要がないので、S
107,S108のステップは省略されていてもよい。
なお、このような定数閾値Ws'は経験的に求めて予めプ
ログラムの設定値とされていてもよく、また、使用者が
識別すべき書体に応じて設定できる値とすることもでき
る。
【0064】このようにして、ステップS107,S1
08で閾値Wsを定めた後、ステップS109では、各
文字の書体を識別するために、先ず、文字番号iを
“1”に初期設定する。次いで、ステップS110で
は、i番目の文字のストローク太さの変化率Wiをステ
ップS108で決定した閾値Wsと比較して、i番目の
文字の書体を識別する。具体的に、i番目の文字のスト
ローク太さの変化率Wiが閾値Wsよりも大きければ、図
11に示すように、ステップS111に移行されてこの
i番目の文字の書体は明朝体であると判定される。一
方、i番目の文字のストローク太さの変化率Wiが閾値
sよりも小さければ、ステップS112に移行され
て、このi番目の文字の書体はゴシック体であると判定
される。
【0065】しかる後、ステップS113では、文字番
号iを“1”だけインクリメントし、ステップS114
では、i番目の文字が存在するか否かを判定し、存在す
れば、ステップS110へ戻り、次の文字について、上
述したと同様の処理(この文字の書体を識別する処理)を
行なう。このようにして、文書画像に含まれている各文
字(i=1,2,…)について、その書体を識別する処理
を順次に行ない、ステップS114でi番目の文字が存
在しなくなったとき(全ての文字について書体を識別す
る処理を完了したとき)、全ての処理を終了する。
【0066】このように、この発明においては閾値W
s(またはWs')が適宜設定できるという特徴を有する。
一般に、明朝体はゴシック体に対して特定の特徴量を有
するが、明朝体の文字でも、活字によりその太さの変化
率に比較的大きな分散がある。この発明のように、閾値
s(またはWs')を適宜の位置に設定により変化させる
ことにより、明朝体とゴシック体との書体を正確に区別
することができる。
【0067】なお、図9の例では、第1の抽出例に従っ
て、全てのストロークを用いてストローク太さの変化率
を抽出したが、文字を構成する各ストロークのうち予め
定めた特定の方向のストロークだけを用いて、文字のス
トローク太さの変化率を抽出することも可能である。図
10は、図7のステップS104において、図9の処理
のかわりに、第2の抽出例に従って、予め定めた特定の
方向のストロークだけを用いて文字のストローク太さの
変化率を抽出する場合の処理例を示すフローチャートで
ある。
【0068】図10を参照すると、先ず、ステップS3
01では、文字画像を細線化し、次いで、ステップS3
02では、ステップS301で細線化した文字画像(骨
格画像)から端点を抽出し、全ての端点をメモリ2に記
憶する。この際、抽出した各端点に順番にストローク番
号jを付して記憶する。次いで、ステップS303で
は、端点をサーチするためのストローク番号jを“1”
に初期設定する。
【0069】次いで、ステップS304では、j番目の
端点から次の端点あるいは分岐点まで骨格を追跡し、こ
の追跡の結果得られる1つの端点から次の端点あるいは
分岐点までの部分を、1つのストローク(ストロークの
骨格)と判断し、このストロークの方向を抽出する。し
かる後、ステップS305では、このストロークの方向
が予め定めた特定の方向であるかを判定し、予め定めた
特定の方向である場合には、ステップS306におい
て、このストロークの太さを前述したようにして求め、
これに基づき、ストロークの太さの変化率を求める。ま
た、ステップS305において、このストロークの方向
が予め定めた特定の方向でない場合には、このストロー
クの太さの変化率を求めない。
【0070】次いで、ステップS307では、ストロー
ク番号jを“1”だけインクリメントし、ステップS3
08では、j番目の端点が存在するか否かを判定し、存
在すれば、ステップS304へ戻り、次の端点につい
て、上述したと同様の処理(文字を構成するストローク
のうち、特定の方向のストロークの太さの変化率を抽出
する処理)を行なう。
【0071】このようにして、ステップS302でメモ
リ2に記憶された全ての端点について追跡を行ない、こ
の文字画像に含まれる各ストロークのうち、予め定めた
特定の方向のストロークについてだけ、その太さの変化
率を順次に求め、ステップS308でj番目の端点が存
在しなくなったとき(全ての端点の処理を完了したと
き)、ステップS309では、この1つの文字画像内に
おいて予め定めた特定の方向であると判定した各ストロ
ークについてのみ、そのストローク太さの変化率の平均
を求め、これを、この文字画像ARiのストローク太さ
の変化率Wiとして最終的に抽出する。
【0072】このように、本発明では、文字を構成する
ストロークに、例えば、斜めのストロークが存在する場
合、この斜めのストロークについても、ストローク太さ
の変化率をこのストロークの正確な特徴量として抽出す
るので、斜めのストロークを含む文字画像に対しても、
その文字の書体(フォント)を小さなプログラムサイズで
容易にかつ正確に精度良く識別することができる。
【0073】具体的に、高度化する文書画像処理におい
ては、より厳密に文字画像を再現するには文字コードだ
けではなく書体情報も必要となる。また書体情報は、例
えば文書中の通常の部分には明朝体が用いられ、重要な
部分(タイトル行やキーワードなど)にはゴシック体が用
いられることが多いことから、これらの重要な部分を自
動的に抽出する際に、本発明は非常に有用なものとな
る。
【0074】一般に、明朝体,教科書体などの活字の多
くは、毛筆の筆力,筆圧などの筆使いに起因して、スト
ロークに太さの変化を有する。例えば、図12(a)に示
すように、明朝体で表現された「宋」の活字では、スト
ロークLaは筆順に従い先端La1に行くほど太さが細
くなる。一方ストロークLbは筆順に従い先端Lb1に
行くほど太くなっている。また、この文字では、円c内
に示すように、「鱗」と称される、三角形の力点が存す
る。このように、これらの書体は、例えば太さの一様な
ゴシック体(図12(b)参照)と比べて、ストロークの長
さ方向に直交する太さの違い(変化率)としてその特徴量
が表現される。また、この特徴量は、多くの漢字などの
活字では、斜め方向(特定の方向)に対して顕著に発現し
ている。
【0075】ここで、本発明の実施形態によれば、スト
ローク太さ抽出手段に従い、文字のストロークの太さが
抽出され、このストローク太さ抽出手段で抽出された文
字のストロークの太さは、ストローク太さ変化率抽出手
段によりそのストローク太さの変化の違いを変化率とし
て求める。次いで、そのストローク太さ変化率抽出手段
で求められたストロークの太さの変化率に基づいて、識
別手段に従い、文字の書体が識別されるので、毛筆の筆
使いに起因して生じる太さの変化は、ストローク太さの
変化率として表現される特徴量として捕らえられる。こ
れにより、文字画像の文字の書体を容易にかつ正確に精
度良く識別することができる。
【0076】また、本発明の他の実施形態によれば、文
字を構成する各ストロークのうち特定の方向のストロー
クの太さのみを抽出し、その抽出された特定の方向のス
トロークの太さからその変化率を求め、特定の方向のス
トロークの太さの変化率の平均を文字のストローク太さ
の変化率として抽出する。この特定の方向として斜め方
向を選択すれば、漢字などの活字での特徴量を捕らえる
ことができ、特に、特徴量として、従来では困難であっ
た細ゴシック体についても高精度で安定に識別すること
ができる。
【0077】このように、本発明では、文字画像の文字
の書体を精度良く識別することが可能となり、このよう
にして得られた文字の書体の識別結果に基づいて、例え
ば文書画像を再現したりするのに有用である。
【0078】また、一般に欧文活字の書体の判断は単語
単位で識別されて判断されることが重要であるのに対し
て、漢字等の活字書体の識別単位は必ずしも単語単位で
ある必要はなく、むしろ、文字単位での書体の判断が重
要である。そのため、本発明では、この識別単位は、文
字単位で切り出された文字情報の他に、例えば、部首な
どの文字の一部、複数の文字、行単位の文字、列単位の
文字などにより切り出された文字情報を含む画像であっ
ても同様に識別できる。
【0079】また、本発明によれば、原稿単位の情報が
与えられれば、原稿全体がゴシック体であるか、明朝体
であるかの判断ができる。また、文字単位での情報が与
えられれば文字単位での書体の認識が可能である。ま
た、文字が2または3に分割された一文字画像として認
識されていても、また、2または3以上の文字が一文字
画像として認識されていても、大きな誤差とはならな
い。従って、文字切り出し処理部3での文字の文字画像
ARとしての切り出しは文字単位での文字切り出し、行
単位での行切り出し、列単位の列切り出し、文字の部分
単位の部分切り出しなどを包含する。
【0080】しかしながら、書体が混在されている文書
画像においては、略文字単位で切り出されてこの発明の
書体識別装置に付されるのがよい。この場合、略文字単
位とは、「へん」と「作り」のような部首単位に分かれ
ていてもよいことを示している。
【0081】なお、上述の例では、書体として、和文に
おける明朝体,ゴシック体のいずれかを識別する場合が
示されているが、本発明は、書体として、明朝体,ゴシ
ック体の他の書体を識別することももちろん可能であ
り、また、書体として、明朝体,ゴシック体に加えてさ
らに他の書体を識別することも可能である。例えば、中
国,台湾における活字の字体(宋体、ゴシック体など)の
識別も可能である。
【0082】また、情報記憶媒体30は、計算機システ
ム(コンピュータ)へのインストール・実行などのプログ
ラムが付加されて、プログラムの流通などのために、プ
ログラムが記憶された記憶媒体として用いられても良
い。これにより、書体識別可能なプログラムが記録され
たコンピュータで読み取り可能な記憶媒体として普及さ
れる。
【0083】以上、この発明の実施の形態を詳述してき
たが、具体的な構成はこの実施の形態に限らず、この発
明の要旨を逸脱しない範囲の設計の変更等があってもこ
の発明に含まれる。例えば、本発明の書体認識装置に
は、コンピュータのハードウェアおよびソフトウェアの
システムの構成要素として通常用いられるものを付加し
たり、システムの構成要素の一部を均等手段に置換しよ
うとすることは、当業者が普通に考えることである。ま
た、通常のシステム化手段の付加または置換を含む。
【0084】
【発明の効果】以上に説明したように、請求項1乃至請
求項9記載の発明によれば、文字画像において文字のス
トロークの太さの変化率を抽出し、抽出した文字のスト
ロークの太さの変化率に基づいて、該文字の書体を識別
するので、文字画像の文字の書体(フォント)を容易にか
つ正確に精度良く識別することができる。特に、従来で
は困難であった細ゴシック体についても高精度で安定に
識別することができる。
【図面の簡単な説明】
【図1】本発明に係る書体識別装置の構成例を示す図で
ある。
【図2】1つの文字画像の一例を示す図である。
【図3】図1の書体識別部の構成例を示す図である。
【図4】図2の文字画像に対し細線化処理を施した結果
の骨格画像を示す図である。
【図5】図2,図4の文字画像例において、1つのスト
ロークL1の太さDiと、このストロークL1の太さの変
化率(すなわち、微分値)wiとを示す図である。
【図6】図1の書体識別装置のハードウェア構成例を示
す図である。
【図7】図1の書体識別装置の処理動作を説明するため
のフローチャートである。
【図8】図1の書体識別装置の処理動作を説明するため
のフローチャートである。
【図9】図1の書体識別装置の処理動作を説明するため
のフローチャートである。
【図10】図1の書体識別装置の処理動作を説明するた
めのフローチャートである。
【図11】書体が混在された文字画像でのストローク太
さの変化率とその太さのストロークの出現頻度との相関
を示す図である。
【図12】漢字の特徴を説明するための図である。
【符号の説明】
1 画像入力部 2 メモリ 3 文字切り出し処理部 4 書体識別部 5 制御部 6 結果出力部 11 ストローク太さ抽出部 12 ストローク太さ変化率抽出部 13 比較識別部 21 CPU 22 ROM 23 RAM 24 スキャナ 25 文書画像ファイル 26 結果出力装置 30 情報記憶媒体 31 媒体駆動装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文字画像において文字のストロークの太
    さを抽出するストローク太さ抽出手段と、該ストローク
    太さ抽出手段で抽出された文字のストロークの太さから
    その変化率を求めるストローク太さ変化率抽出手段と、
    該ストローク太さ変化率抽出手段で求められたストロー
    クの太さの変化率に基づいて、前記文字の書体を識別す
    る識別手段とを有していることを特徴とする書体識別装
    置。
  2. 【請求項2】 請求項1記載の書体識別装置において、
    前記ストローク太さ抽出手段は、文字を構成する各スト
    ロークの太さを検出し、また、前記ストローク太さ変化
    率抽出手段は、前記ストローク太さ抽出手段で抽出され
    た各ストロークの太さの変化率の平均を、文字のストロ
    ーク太さの変化率として抽出することを特徴とする書体
    識別装置。
  3. 【請求項3】 請求項1記載の書体識別装置において、
    前記ストローク太さ抽出手段は、文字を構成する各スト
    ロークのうち特定の方向のストロークの太さのみを抽出
    し、また、前記ストローク太さ変化率抽出手段は、前記
    ストローク太さ抽出手段で抽出された特定の方向のスト
    ロークの太さからその変化率を求め、特定の方向のスト
    ロークの太さの変化率の平均を、文字のストローク太さ
    の変化率として抽出することを特徴とする書体識別装
    置。
  4. 【請求項4】 請求項1記載の書体識別装置において、
    前記識別手段は、文字のストロークの太さの変化率と予
    め決められた閾値とを比較することによって、該文字の
    書体を識別することを特徴とする書体識別装置。
  5. 【請求項5】 請求項4記載の書体識別装置において、
    前記閾値は、所定文書画像に含まれる全ての文字のスト
    ロークの太さの変化率の平均に所定の定数を乗ずること
    によって決定され、この場合、前記識別手段は、文書画
    像に含まれている各文字のストロークの太さの変化率を
    前記閾値と比較して、各文字の書体をそれぞれ識別する
    ことを特徴とする書体識別装置。
  6. 【請求項6】 文字画像において文字のストロークの太
    さを抽出する太さ抽出工程と、該太さ抽出工程により抽
    出された文字のストローク太さから、そのストローク太
    さの変化率を抽出する変化率抽出工程と、該変化率抽出
    工程により抽出されたストローク太さの変化率に基づい
    て、前記文字の書体を識別する書体識別工程とを含むこ
    とを特徴とする書体識別方法。
  7. 【請求項7】 請求項6記載の書体識別方法において、
    前記太さ抽出工程は、文字を構成する各ストロークの太
    さを抽出し、前記変化率抽出工程は、前記太さ抽出工程
    により抽出された各ストロークの太さから、その太さの
    変化率を求めて文字のストローク太さの変化率として抽
    出することを特徴とする書体識別方法。
  8. 【請求項8】 請求項6記載の書体識別方法において、
    前記太さ抽出工程は文字を構成する各ストロークのうち
    特定方向のストロークの太さのみを抽出し、前記変化率
    抽出工程は、前記太さ抽出工程により抽出された特定方
    向の各ストロークの太さから、その太さの変化率を求め
    て文字の特定方向ストローク太さの変化率として抽出す
    ることを特徴とする書体識別方法。
  9. 【請求項9】 コンピュータによって文字の書体を識別
    させるための制御プログラムを記憶した記憶媒体であっ
    て、文字のストロークの太さを抽出する太さ抽出工程
    と、該太さ抽出工程により抽出された文字のストローク
    太さから、そのストローク太さの変化率を抽出する変化
    率抽出工程と、該変化率抽出工程により抽出されたスト
    ローク太さの変化率に基づいて、前記文字の書体を識別
    する書体識別工程とを有することを特徴とするプログラ
    ムを記憶した情報記憶媒体。
JP10213523A 1997-07-15 1998-07-13 書体識別装置および書体識別方法および情報記憶媒体 Pending JPH1185905A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10213523A JPH1185905A (ja) 1997-07-15 1998-07-13 書体識別装置および書体識別方法および情報記憶媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP20525597 1997-07-15
JP9-205255 1997-07-15
JP10213523A JPH1185905A (ja) 1997-07-15 1998-07-13 書体識別装置および書体識別方法および情報記憶媒体

Publications (1)

Publication Number Publication Date
JPH1185905A true JPH1185905A (ja) 1999-03-30

Family

ID=26514961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10213523A Pending JPH1185905A (ja) 1997-07-15 1998-07-13 書体識別装置および書体識別方法および情報記憶媒体

Country Status (1)

Country Link
JP (1) JPH1185905A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008080621A (ja) * 2006-09-27 2008-04-10 Oki Data Corp 印刷システム及び複合端末装置
CN102262731A (zh) * 2011-07-11 2011-11-30 哈尔滨工业大学 一种基于稀疏编码的字体识别方法
CN109784146A (zh) * 2018-12-05 2019-05-21 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008080621A (ja) * 2006-09-27 2008-04-10 Oki Data Corp 印刷システム及び複合端末装置
CN102262731A (zh) * 2011-07-11 2011-11-30 哈尔滨工业大学 一种基于稀疏编码的字体识别方法
CN109784146A (zh) * 2018-12-05 2019-05-21 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质
CN109784146B (zh) * 2018-12-05 2023-11-07 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US6741745B2 (en) Method and apparatus for formatting OCR text
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
US20030063802A1 (en) Image processing method, apparatus and system
KR100412317B1 (ko) 문자인식/수정방법및장치
JP2000181993A (ja) 文字認識方法および装置
JPH0772905B2 (ja) 記号列の認識方法
JPH05242292A (ja) 分離方法
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
EP0381773B1 (en) Character recognition apparatus
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
US5625710A (en) Character recognition apparatus using modification of a characteristic quantity
JP3428494B2 (ja) 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH1185905A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JPH10162102A (ja) 文字認識装置
JP2592756B2 (ja) 文字切り出し装置およびこれを用いた文字認識装置
JP2832928B2 (ja) 文字認識方法
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP2580976B2 (ja) 文字切出し装置
JPH10124614A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP2576080B2 (ja) 文字切出し方法
JPH0816719A (ja) 文字切り出し方法とこれを用いた文字認識方法及び装置
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070123