JPH10187887A - 書体識別装置および書体識別方法および情報記録媒体 - Google Patents

書体識別装置および書体識別方法および情報記録媒体

Info

Publication number
JPH10187887A
JPH10187887A JP8356216A JP35621696A JPH10187887A JP H10187887 A JPH10187887 A JP H10187887A JP 8356216 A JP8356216 A JP 8356216A JP 35621696 A JP35621696 A JP 35621696A JP H10187887 A JPH10187887 A JP H10187887A
Authority
JP
Japan
Prior art keywords
run
length
histogram
average
horizontal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8356216A
Other languages
English (en)
Inventor
Tei Abe
悌 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8356216A priority Critical patent/JPH10187887A/ja
Priority to CN 97126259 priority patent/CN1105367C/zh
Publication of JPH10187887A publication Critical patent/JPH10187887A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 斜めのストロークやノイズを含む文字画像に
対しても、その文字の書体を容易にかつ正確に識別する
ことが可能である。 【解決手段】 書体識別部4は、文字画像において、垂
直方向のランレングスヒストグラムと水平方向のランレ
ングスヒストグラムを作成し、垂直方向のランレングス
ヒストグラムから垂直方向のランレングスの平均を求
め、また、水平方向のランレングスヒストグラムから水
平方向のランレングスの平均を求めるランレングスヒス
トグラム処理部11と、ランレングスヒストグラム処理
部11で得られた垂直方向のランレングスの平均と水平
方向のランレングスの平均との比を特徴量として算出す
る特徴量算出部12と、特徴量算出部12で算出された
特徴量に基づいて、文字の書体を識別する識別部13と
を有している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字の書体(フォ
ント)の識別を行なう書体識別装置および書体識別方法
および情報記録媒体に関する。
【0002】
【従来の技術】従来、例えば特開平6−208649号
には、文字の縦方向および横方向の文字線幅を推定し、
これらの線幅の比によって、文字の書体が明朝体である
かゴシック体であるかを識別する書体識別技術が示され
ている。この書体識別技術は、より具体的には、文字画
像の水平方向および垂直方向のランレングスヒストグラ
ムのピーク(最頻値)によって、横方向および縦方向の文
字線幅を推定し、これらの線幅の比によって、文字の書
体が明朝体であるかゴシック体であるかを識別するよう
になっている。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の書体識別技術では、「中」や「田」等のように
文字を構成するストロークの多くが水平または垂直な直
線で、かつ画像にノイズがない場合にしか、明朝体かゴ
シック体かを良好に識別することができないという問題
があった。すなわち、ほとんどの文字のフォントは、斜
めのストロークが存在し、文字に斜めのストロークが存
在する場合、上述した従来の書体識別技術では、ランレ
ングスヒストグラムのピーク(最頻値)が誤ったところに
出てしまい、正しい線幅を検出できない。また、明朝値
の横ストロークがゴシック体のそれに比べて細いとは必
ずしもいえない。従って、上述した従来の書体識別技術
では、大半の文字の書体を正確に識別することができ
ず、実用化には適しないという問題があった。
【0004】本発明は、斜めのストロークやノイズを含
む文字画像に対しても、その文字の書体を容易にかつ正
確に識別することの可能な書体識別装置および書体識別
方法および情報記録媒体を提供することを目的としてい
る。
【0005】また、本発明は、太く書かれた明朝体の文
字画像,細く書かれたゴシック体の文字画像について
も、その書体を(すなわち、明朝体かゴシック体かを)正
確に識別することの可能な書体識別装置および書体識別
方法および情報記録媒体を提供することを目的としてい
る。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、文字画像において、垂直方
向のランレングスヒストグラムと水平方向のランレング
スヒストグラムを作成し、垂直方向のランレングスヒス
トグラムから垂直方向のランレングスの平均を求め、ま
た、水平方向のランレングスヒストグラムから水平方向
のランレングスの平均を求めるランレングスヒストグラ
ム処理手段と、ランレングスヒストグラム処理手段で得
られた垂直方向のランレングスの平均と水平方向のラン
レングスの平均との比を特徴量として算出し、該特徴量
に基づいて、文字の書体を識別する識別手段とを有して
いることを特徴としている。
【0007】また、請求項2記載の発明は、請求項1記
載の書体識別装置において、前記ランレングスヒストグ
ラム処理手段は、ランレングスヒストグラムを作成する
際のランレングスを予め決定した閾値よりも小さい範囲
に限定して、垂直方向のランレングスヒストグラムと水
平方向のランレングスヒストグラムを作成し、垂直方向
のランレングスの平均と水平方向のランレングスの平均
を求めることを特徴としている。
【0008】また、請求項3記載の発明は、請求項1記
載の書体識別装置において、前記ランレングスヒストグ
ラム処理手段は、ランレングスヒストグラムを作成する
際のランレングスを文字のサイズに比例して決定した閾
値よりも小さい範囲に限定して、垂直方向のランレング
スヒストグラムと水平方向のランレングスヒストグラム
を作成し、垂直方向のランレングスの平均と水平方向の
ランレングスの平均を求めることを特徴としている。
【0009】また、請求項4記載の発明は、請求項1記
載の書体識別装置において、前記ランレングスヒストグ
ラム処理手段は、文字画像から水平方向に予め決定した
閾値よりも長いランのみを抽出した画像に対して垂直方
向のランレングスヒストグラムを求め、また、文字画像
から垂直方向に予め決定した閾値よりも長いランのみを
抽出した画像に対して水平方向のランレングスヒストグ
ラムを求め、垂直方向のランレングスヒストグラムから
垂直方向のランレングスの平均を求め、また、水平方向
のランレングスヒストグラムから水平方向のランレング
スの平均を求めることを特徴としている。
【0010】また、請求項5記載の発明は、請求項1記
載の書体識別装置において、前記ランレングスヒストグ
ラム処理手段は、文字画像から水平方向に文字のサイズ
に比例して決定した閾値よりも長いランのみを抽出した
画像に対して垂直方向のランレングスヒストグラムを求
め、また文字画像から垂直方向に文字のサイズに比例し
て決定した閾値よりも長いランのみを抽出した画像に対
して水平方向のランレングスヒストグラムを求め、垂直
方向のランレングスヒストグラムから垂直方向のランレ
ングスの平均を求め、また、水平方向のランレングスヒ
ストグラムから水平方向のランレングスの平均を求める
ことを特徴としている。
【0011】また、請求項6記載の発明は、文字画像に
おいて、垂直方向のランレングスヒストグラムと水平方
向のランレングスヒストグラムを作成し、垂直方向のラ
ンレングスヒストグラムから垂直方向のランレングスの
平均を求め、また、水平方向のランレングスヒストグラ
ムから水平方向のランレングスの平均を求め、垂直方向
のランレングスの平均と水平方向のランレングスの平均
との比を特徴量として算出し、該特徴量に基づいて文字
の書体を識別することを特徴としている。
【0012】また、請求項7記載の発明は、文字画像に
おいて、垂直方向のランレングスヒストグラムと水平方
向のランレングスヒストグラムを作成し、垂直方向のラ
ンレングスヒストグラムから垂直方向のランレングスの
平均を求め、また、水平方向のランレングスヒストグラ
ムから水平方向のランレングスの平均を求め、垂直方向
のランレングスの平均と水平方向のランレングスの平均
との比を特徴量として算出し、該特徴量に基づいて文字
の書体を識別するためのプログラムが記録されているこ
とを特徴としている。
【0013】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る書体識別装置の
構成例を示す図である。図1を参照すると、この書体識
別装置は、文書を例えば2値画像として読み込む画像入
力部1と、画像入力部1で読み込まれた文書画像等を記
憶するメモリ2と、文書画像から文字画像を抽出する文
字切り出し処理部3と、文字切り出し処理部3により切
り出された文字画像に対し、その文字の書体(フォント)
の識別を行なう書体識別部4と、全体の制御を行なう制
御部5と、書体識別部4による文字の書体の識別結果を
出力する結果出力部6とを有している。
【0014】ここで、文字切り出し処理部3は、文書画
像から例えば図2に示すように1つの文字画像を切り出
すようになっている。すなわち、図2の例では、1つの
文字画像(図2の例では、文字「永」)は、文字の外接矩
形領域ARとして切り出される。
【0015】また、図3は図1の書体識別部4の構成例
を示す図である。図3の例では、書体識別部4は、文字
画像において、垂直方向のランレングスヒストグラムと
水平方向のランレングスヒストグラムを作成し、垂直方
向のランレングスヒストグラムから垂直方向のランレン
グスの平均を求め、また、水平方向のランレングスヒス
トグラムから水平方向のランレングスの平均を求めるラ
ンレングスヒストグラム処理部11と、ランレングスヒ
ストグラム処理部11で得られた垂直方向のランレング
スの平均と水平方向のランレングスの平均との比を特徴
量として算出する特徴量算出部12と、特徴量算出部1
2で算出された特徴量に基づいて、文字の書体を識別す
る識別部13とを有している。
【0016】より具体的に、識別部13は、ランレング
スヒストグラム処理部11で得られた垂直方向のランレ
ングスの平均と水平方向のランレングスの平均との比
を、所定の閾値と比較して、書体(フォント)の判定を行
なうようになっている。
【0017】次にこのような構成の書体識別装置(図
1,図3の書体識別装置)の処理動作例を図4のフロー
チャートを用いて説明する。
【0018】図4を参照すると、先ず、ステップS10
1では、画像入力部1により、書体識別対象である文字
が記載された文書(例えば原稿)を読込み、これを文書画
像としてメモリ2内に取り込む。次いで、ステップS1
02では、文字切り出し部3によって文書画像から文字
画像のみを切り出し、その外接矩形領域の座標を求める
文字矩形切り出し処理を行なう。このようにして、文書
画像に含まれる各文字画像に対して切り出しを行ない、
切り出した各文字画像に対して書体の識別処理を行な
う。
【0019】すなわち、ステップS103では、各文字
画像のうちの1つの文字画像に対して、文字矩形内の画
像の垂直方向のランレングスヒストグラムを作成し、垂
直方向のランレングスヒストグラムから垂直方向のラン
レングスの平均を求める。また、ステップS104で
は、文字矩形内の画像の水平方向のランレングスヒスト
グラムを作成し、水平方向のランレングスヒストグラム
から水平方向のランレングスの平均を求める。
【0020】次いで、ステップS105では、ステップ
S103で求めた垂直方向ランレングスの平均と、ステ
ップS104で求めた水平方向ランレングスの平均との
比,すなわち(垂直方向のランレングスの平均)/(水平
方向のランレングスの平均)を求める。
【0021】しかる後、ステップS106では、ステッ
プS105で求めたランレングスの平均の比が所定の閾
値(例えば0.7)よりも大きいか否かを判断し、所定の
閾値よりも大きければステップS107へ進み、この文
字の書体(フォント)をゴシック体であると判定する。こ
れに対し、ステップS106において、ランレングスの
平均の比が所定の閾値よりも大きくない(小さい)と判断
されたときには、ステップS108へ進み、この文字の
書体(フォント)を明朝体であると判定する。
【0022】このようにして、文書画像に含まれている
各文字画像の1つについて書体の識別を行なった後、ス
テップS109では、他の文字矩形があるか否か判定
し、他の文字矩形があれば、ステップS103へ戻り、
次の文字について、同様の処理を行なって、その書体を
識別する。
【0023】このようにして、文書画像に含まれている
各文字について、その書体を識別する処理を順次に行な
い、ステップS109で、他の文字矩形が存在しなくな
ったとき(全ての文字について書体を識別する処理を完
了したとき)、全ての処理を終了する。
【0024】図5,図6は図1,図3の書体識別装置の
処理の具体例を示す図である。文字画像が例えば図5
(a)のような明朝体の文字「永」である場合、ランレン
グスヒストグラム処理部11で作成される垂直方向のラ
ンレングスヒストグラムと水平方向のランレングスヒス
トグラムは図5(b)のようになる。図5(b)から、図5
(a)の文字画像の場合、水平方向のランレングスの平均
1は垂直方向のランレングスの平均A2よりも大きく、
従って、図5(c)のように、垂直方向のランレングスの
平均と水平方向のランレングスの平均との比,すなわ
ち、(垂直方向のランレングスの平均)/(水平方向のラ
ンレングスの平均)は、小さなものとなり、この比が小
さいことで、図5(a)の文字画像が明朝体であると識別
できる。
【0025】また、文字画像が例えば図6(a)のような
ゴシック体の文字「永」である場合、ランレングスヒス
トグラム処理部11で作成される垂直方向のランレング
スヒストグラムと水平方向のランレングスヒストグラム
は図6(b)のようになる。図6(b)から、図6(a)の文
字画像の場合、水平方向のランレングスの平均A1と垂
直方向のランレングスの平均A2との差はあまりなく、
従って、図6(c)のように、垂直方向のランレングスの
平均と水平方向のランレングスの平均との比,すなわ
ち、(垂直方向のランレングスの平均)/(水平方向のラ
ンレングスの平均)は、大きなものとなり、この比が小
さいことで、図6(a)の文字画像がゴシック体であると
識別できる。
【0026】このように、この書体識別装置では、垂直
方向のランレングスヒストグラムから垂直方向のランレ
ングスの平均を求め、また、水平方向のランレングスヒ
ストグラムから水平方向のランレングスの平均を求め、
垂直方向のランレングスの平均と水平方向のランレング
スの平均の比を特徴量として、文字の書体を識別するの
で、非常に精度が高く、効率良く書体(フォント)を識別
することができる。すなわち文字画像の水平方向および
垂直方向のランレングスヒストグラムのピーク(最頻値)
によって、横方向および縦方向の文字線幅を推定し、こ
れらの線幅の比によって、文字の書体が明朝体であるか
ゴシック体であるかを識別する従来の書体識別方式で
は、前述のように、文字の書体が明朝体かゴシック体か
を正確に識別することができないのに対し、本発明の書
体識別方式では、文字の書体が明朝体かゴシック体かを
正確に識別することができる。
【0027】なお、垂直方向のランレングスの平均と水
平方向のランレングスの平均との比を特徴量とするかわ
りに、垂直方向のランレングスの平均と水平方向のラン
レングスの平均そのものを特徴量とすることも考えられ
るが、この場合、識別の対象となる文字が太い明朝体と
細いゴシック体であるような場合、誤識別の恐れがあ
る。
【0028】これに対し、明朝体では縦のストロークが
横のストロークに比べて太く、また、ゴシック体では縦
ストロークと横ストロークの太さの違いはあまりないと
いう法則に基づいて、本発明のように、垂直方向のラン
レングスの平均と水平方向のランレングスの平均の比を
用いる場合には、前記のような太い明朝体と細いゴシッ
ク体との識別を対象とする場合にも、文字の書体が明朝
体かゴシック体かを精度良く識別できる。
【0029】また、本発明の書体識別装置において、ラ
ンレングスヒストグラム処理部11は、ランレングスヒ
ストグラムを作成する際に、ランレングスを予め決定し
た所定の閾値よりも小さい範囲に限定して垂直方向と水
平方向のランレングスヒストグラムを作成することもで
きる。この場合には、垂直方向のランレングスヒストグ
ラムでは水平ストロークの太さが正確に抽出でき、水平
方向のランレングスヒストグラムでは垂直ストロークの
太さが正確に抽出できる。
【0030】すなわち、例えば縦方向のランレングスヒ
ストグラムに着目すると、縦方向のランレングスヒスト
グラムを作成しその平均を求めるというのは、横ストロ
ークの太さを抽出することを目的としており、例えば
「−」のような字の場合には全てのランのランレングス
ヒストグラムを作成すれば良いが、このような文字は理
想的でむしろ稀であると言える。これに対して通常の文
字では縦方向のランレングスヒストグラムを作成した場
合、横ストローク以外の部分がかなりあり(ほとんどの
場合は横ストロークの太さよりも大きい)、このまま平
均をとると横ストロークの太さよりも大きい値が出てし
まう。そこで所定の閾値(この閾値としては、例えば、
横ストロークの太さの予想される最大値よりもいくらか
大き目の値が設定される)よりも小さい範囲に限定して
ランレングスヒストグラムを作成することによって、本
来抽出したい横ストロークの太さを算出することができ
る。
【0031】横方向のランレングスヒストグラムについ
ても同様に、所定の閾値(この閾値としては、例えば、
縦ストロークの太さの予想される最大値よりもいくらか
大き目の値が設定される)よりも小さい範囲に限定して
ランレングスヒストグラムを作成することによって、本
来抽出したい縦ストロークの太さを算出することができ
る。
【0032】従って、このようにして作成された垂直方
向のランレングスヒストグラムと水平方向のランレング
スヒストグラムとから、垂直方向のランレングスの平均
と水平方向のランレングスの平均との比を特徴量として
文字の書体を識別するとき、文字の書体を非常に精度良
く識別することが可能となる。
【0033】また、本発明の書体識別装置において、ラ
ンレングスヒストグラム処理部11は、ランレングスヒ
ストグラムを作成する際に、上記所定の閾値として、ラ
ンレングスを文字の大きさ(サイズ)に比例して決定した
閾値を用い、この閾値よりも小さい範囲に限定して垂直
方向と水平方向のランレングスヒストグラムを作成する
こともできる。
【0034】なお、ここで、文字の大きさ(サイズ)は、
図2に示すように、文字切り出し処理部3によって文書
画像から文字画像を文字の外接矩形領域ARとして切り
出すとき、この外接矩形領域ARの大きさ(例えば、高
さ)として検出することができる。
【0035】このように、ランレングスを文字の大きさ
(サイズ)に比例して決定した閾値よりも小さい範囲に限
定して垂直方向と水平方向のランレングスヒストグラム
を作成する場合には、垂直方向のランレングスヒストグ
ラムでは水平ストロークの太さが正確に抽出でき、水平
方向のランレングスヒストグラムでは垂直ストロークの
太さが正確に抽出できる。従って、このようにして作成
された垂直方向のランレングスヒストグラムと水平方向
のランレングスヒストグラムとから、垂直方向のランレ
ングスの平均と水平方向のランレングスの平均との比を
特徴量として文字の書体を識別するとき、文字の書体を
非常に精度良く識別することが可能となる。
【0036】また、図7は図1の書体識別部4の他の構
成例を示す図である。図7の構成例では、書体識別部4
には、所定の閾値よりも長いランを抽出するラン抽出部
15がさらに設けられている。すなわち、図7の構成例
では、ラン抽出15は、文字画像から水平方向に予め決
定した閾値よりも長い水平方向ランのみを抽出し、また
文字画像から垂直方向に予め決定した閾値より長い垂直
方向ランのみを抽出するようになっており、また、ラン
レングスヒストグラム処理部11は、文字画像から水平
方向に予め決定した閾値よりも長い水平方向ランのみを
抽出した画像に対して垂直方向のランレングスヒストグ
ラムを求め、また文字画像から垂直方向に予め決定した
閾値より長い垂直方向ランのみを抽出した画像に対して
水平方向のランレングスヒストグラムを求めるようにな
っている。
【0037】図8は書体識別部4が図7のように構成さ
れている場合の書体識別装置の処理動作例を示すフロー
チャートである。
【0038】図8を参照すると、先ず、ステップS20
1では、画像入力部1により、書体識別対象である文字
が記載された文書(例えば原稿)を読込み、これを文書画
像としてメモリ2内に取り込む。次いで、ステップS2
02では、文字切り出し部3によって文書画像から文字
画像のみを切り出し、その外接矩形領域の座標を求める
文字矩形切り出し処理を行なう。このようにして、文書
画像に含まれる各文字画像に対して切り出しを行ない、
切り出した各文字画像に対して書体の識別処理を行な
う。
【0039】すなわち、ステップS203では、各文字
画像のうちの1つの文字画像に対して、すなわち文字矩
形内の画像に対して、水平方向にランを抽出し、この
際、所定閾値よりも長い水平方向ランを抽出した画像を
生成する。ステップS204では、所定閾値よりも長い
水平方向ランが抽出された画像に対して、垂直方向のラ
ンレングスヒストグラムを作成し、垂直方向のランレン
グスヒストグラムから垂直方向のランレングスの平均を
求める。また、ステップS205では、各文字画像のう
ちの1つの文字画像に対して、すなわち文字矩形内の画
像に対して、垂直方向にランを抽出し、この際、所定閾
値よりも長い垂直方向ランを抽出した画像を生成する。
次いで、ステップS206では、所定閾値よりも垂直方
向ランが抽出された画像に対して、水平方向のランレン
グスヒストグラムを作成し、水平方向のランレングスヒ
ストグラムから水平方向のランレングスの平均を求め
る。
【0040】次いで、ステップS207では、ステップ
S204で求めた垂直方向ランレングスの平均と、ステ
ップS206で求めた水平方向ランレングスの平均との
比(垂直方向のランレングスの平均)/(水平方向のラン
レングスの平均)を求める。
【0041】しかる後、ステップS208では、ステッ
プS207で求めたランレングスの平均の比が所定の閾
値(例えば0.7)よりも大きいか否かを判断し、所定の
閾値よりも大きければステップS209へ進み、この文
字の書体(フォント)がゴシック体であると判定する。こ
れに対し、ステップS208において、ランレングスの
平均の比が所定の閾値よりも大きくない(小さい)と判断
されたときには、ステップS210へ進み、この文字の
書体(フォント)が明朝体であると判定する。
【0042】このようにして、文書画像に含まれている
各文字画像の1つについて書体の識別を行なった後、ス
テップS211では、他の文字矩形があるか否か判定
し、他の文字矩形があれば、ステップS203へ戻り、
次の文字について、同様の処理を行なって、その書体を
識別する。
【0043】このようにして、文書画像に含まれている
各文字について、その書体を識別する処理を順次に行な
い、ステップS211で、他の文字矩形が存在しなくな
ったとき(全ての文字について書体を識別する処理を完
了したとき)、全ての処理を終了する。
【0044】図9,図10はこのような構成の書体識別
装置の処理の具体例を示す図である。文字画像が例えば
図9(a)のような明朝体の文字「永」である場合、ラン
抽出部15で抽出される水平方向,垂直方向のラン画像
は、図9(b)のようになり、図9(b)の水平方向,垂直
方向のラン画像に対し、ランレングスヒストグラム処理
部11でそれぞれ作成される垂直方向のランレングスヒ
ストグラム,水平方向のランレングスヒストグラムは、
図9(c)のようになる。図9(c)から、図9(a)の文字
画像の場合、水平方向のランレングスの平均A1は垂直
方向のランレングスの平均A2よりも大きく、従って、
図9(d)のように、垂直方向のランレングスヒストグラ
ムの平均と水平方向のランレングスの平均との比,すな
わち、(垂直方向のランレングスの平均)/(水平方向の
ランレングスの平均)は、小さなものとなり、この比が
小さいことで、図9(a)の文字画像が明朝体であると識
別できる。
【0045】また、文字画像が例えば図10(a)のよう
なゴシック体の文字「永」である場合、ラン抽出部15
で抽出される水平方向,垂直方向のランは、図10(b)
のようになり、図10(b)の水平方向,垂直方向のラン
画像に対し、ランレングスヒストグラム処理部11でそ
れぞれ作成される垂直方向のランレングスヒストグラ
ム,水平方向のランレングスヒストグラムは、図10
(c)のようになる。図10(c)から、図10(a)の文字
画像の場合、水平方向のランレングスの平均A1と垂直
方向のランレングスの平均A2との差はあまりなく、従
って、図10(d)のように、垂直方向のランレングスの
平均と水平方向のランレングスの平均との比,すなわ
ち、(垂直方向のランレングスの平均)/(水平方向のラ
ンレングスの平均)は、大きなものとなり、この比が大
きいことで、図10(a)の文字画像がゴシック体である
と識別できる。
【0046】このように、図1の書体識別部4として、
図7の構成例のものを用いる場合、所定の閾値よりも長
いランを抽出し、所定閾値よりも長いランが抽出された
ラン画像に対して、書体識別処理を行なうことで、書体
を識別する際、元の画像に含まれるノイズ等の影響を著
しく低減でき、文字の書体を高精度に識別することが可
能となる。また、所定閾値よりも長いラン(水平方向ラ
ン,垂直方向ラン)を抽出することは、水平ストロー
ク、垂直ストロークのみの太さを抽出することになり、
斜めストロークの影響が非常に少なくなるので、書体を
精度良く識別できる。
【0047】なお、上述の説明では、図1の書体識別部
4が図7の構成例のものとなっている場合、ラン抽出1
5は、文字画像から水平方向に予め決定した閾値よりも
長い水平方向ランのみを抽出し、また文字画像から垂直
方向に予め決定した閾値より長い垂直方向ランのみを抽
出するようになっているとしたが、ラン抽出部15は、
文字画像から水平方向に文字のサイズに比例して決定し
た閾値より長いランのみを抽出し、また文字画像から垂
直方向に文字のサイズに比例して決定した閾値よりも長
いランのみを抽出するようになっていても良い。この場
合、ランレングスヒストグラム処理部11は、文字画像
から水平方向に文字のサイズに比例して決定した閾値よ
り長いランのみを抽出した画像に対して垂直方向のラン
レングスヒストグラムを求め、また文字画像から垂直方
向に文字のサイズに比例して決定した閾値よりも長いラ
ンのみを抽出した画像に対して水平方向のランレングス
ヒストグラムを求めることができる。
【0048】この場合にも、それぞれ水平ストローク、
垂直ストロークのみの太さを抽出することになり、斜め
ストロークの影響が非常に少なくなり、さらに、最初に
長いランを抽出する際に閾値を文字のサイズに比例して
決定することにより、文字サイズが変動しても安定して
ランを抽出することができ、書体を非常に精度良く識別
できる。
【0049】なお、上述の例では、書体として、明朝
体,ゴシック体のいずれかを識別する場合が示されてい
るが、本発明は、書体として、明朝体,ゴシック体の他
のフォントを識別することももちろん可能であり、ま
た、書体として、明朝体,ゴシック体に加えてさらに他
のフォントを識別することも可能である。
【0050】このように、本発明では、文字画像の文字
の書体(フォント)を精度良く識別することが可能とな
り、このようにして得られた文字の書体(フォント)の識
別結果に基づいて、例えば文書画像を再現したりするの
に有用である。
【0051】図11は図1の書体識別装置のハードウェ
ア構成例を示す図である。図5を参照すると、この書体
識別装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するCPU21と、CPU21の制御プ
ログラム等が記憶されているROM22と、CPU21
のワークエリア等として使用されるRAM23と、文書
を文書画像として読込むスキャナ24と、スキャナ24
で読込まれた文書画像が例えばページ単位で記憶される
文書画像ファイル25と、文書画像に含まれている各文
字画像に対し書体識別を行なった結果の情報を出力する
結果出力装置(例えば、ディスプレイやプリンタ)26と
を有している。
【0052】ここで、スキャナ24,文書画像ファイル
25,結果出力装置26は、図1の画像入力部1,メモ
リ2,結果出力部6にそれぞれ対応している。また、C
PU21は、図1の制御部5,文字切り出し処理部3,
書体識別部4の機能を有している。
【0053】なお、CPU21におけるこのような制御
部5,文字切り出し処理部3,書体識別部4等としての
機能は、例えばソフトウェアパッケージ(具体的には、
CD−ROM等の情報記録媒体)の形で提供することが
でき、このため、図11の例では、情報記録媒体30が
セットさせるとき、これを駆動する媒体駆動装置31が
設けられている。
【0054】換言すれば、本発明の書体識別装置は、イ
メージスキャナ,ディスプレイ等を備えた汎用の計算機
システムにCD−ROM等の情報記録媒体に記録された
プログラムを読み込ませて、この汎用計算機システムの
マイクロプロセッサに書体識別処理を実行させる装置構
成においても実施することが可能である。この場合、本
発明の書体識別処理を実現するためのプログラム(すな
わち、ハードウェアシステムで用いられるプログラム)
は、媒体に記録された状態で提供される。プログラムな
どが記録される情報記録媒体としては、CD−ROMに
限られるものではなく、ROM,RAM,フレキシブル
ディスク,メモリカード等が用いられても良い。媒体に
記録されたプログラムは、ハードウェアシステムに組み
込まれている記憶装置、例えばハードディスク装置にイ
ンストールされることにより、このプログラムを実行し
て、本発明の書体識別処理の機能を実現することが可能
となる。
【0055】また、本発明の書体識別処理を実現するた
めのプログラムは、媒体の形で提供されるのみならず、
通信によって(例えばサーバによって)提供されるもので
あっても良い。
【0056】このように、本発明の書体識別処理は、プ
ログラムによって実現可能であり、この場合、本発明の
書体識別処理では、小さなプログラムサイズで、高速か
つ高精度に書体を識別することができる。
【0057】
【発明の効果】以上に説明したように、請求項1乃至請
求項7記載の発明によれば、文字画像において、垂直方
向のランレングスヒストグラムと水平方向のランレング
スヒストグラムを作成し、垂直方向のランレングスヒス
トグラムから垂直方向のランレングスの平均を求め、ま
た、水平方向のランレングスヒストグラムから水平方向
のランレングスの平均を求めるランレングスヒストグラ
ム処理手段と、ランレングスヒストグラム処理手段で得
られた垂直方向のランレングスの平均と水平方向のラン
レングスの平均との比を特徴量として算出し、該特徴量
に基づいて、文字の書体を識別する識別手段とを有して
いるので、文字画像の文字の書体(フォント)を容易にか
つ正確に精度良く識別することができる。
【図面の簡単な説明】
【図1】本発明に係る書体識別装置の構成例を示す図で
ある。
【図2】1つの文字画像の一例を示す図である。
【図3】図1の書体識別部の構成例を示す図である。
【図4】図1,図3の書体識別装置の処理動作例を説明
するためのフローチャートである。
【図5】図1,図3の書体識別装置の処理の具体例を示
す図である。
【図6】図1,図3の書体識別装置の処理の具体例を示
す図である。
【図7】図1の書体識別部の他の構成例を示す図であ
る。
【図8】図1,図7の書体識別装置の処理動作例を説明
するためのフローチャートである。
【図9】図1,図7の書体識別装置の処理の具体例を示
す図である。
【図10】図1,図7の書体識別装置の処理の具体例を
示す図である。
【図11】図1の書体識別装置のハードウェア構成例を
示す図である。
【符号の説明】 1 画像入力部 2 メモリ 3 文字切り出し処理部 4 書体識別部 5 制御部 6 結果出力部 11 ランレングスヒストグラム処理部 12 特徴量算出部 13 識別部 15 ラン抽出部 21 CPU 22 ROM 23 RAM 24 スキャナ 25 文書画像ファイル 26 結果出力装置 30 情報記憶媒体 31 媒体駆動装置

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文字画像において、垂直方向のランレン
    グスヒストグラムと水平方向のランレングスヒストグラ
    ムを作成し、垂直方向のランレングスヒストグラムから
    垂直方向のランレングスの平均を求め、また、水平方向
    のランレングスヒストグラムから水平方向のランレング
    スの平均を求めるランレングスヒストグラム処理手段
    と、ランレングスヒストグラム処理手段で得られた垂直
    方向のランレングスの平均と水平方向のランレングスの
    平均との比を特徴量として算出し、該特徴量に基づい
    て、文字の書体を識別する識別手段とを有していること
    を特徴とする書体識別装置。
  2. 【請求項2】 請求項1記載の書体識別装置において、
    前記ランレングスヒストグラム処理手段は、ランレング
    スヒストグラムを作成する際のランレングスを予め決定
    した閾値よりも小さい範囲に限定して、垂直方向のラン
    レングスヒストグラムと水平方向のランレングスヒスト
    グラムを作成し、垂直方向のランレングスの平均と水平
    方向のランレングスの平均を求めることを特徴とする書
    体識別装置。
  3. 【請求項3】 請求項1記載の書体識別装置において、
    前記ランレングスヒストグラム処理手段は、ランレング
    スヒストグラムを作成する際のランレングスを文字のサ
    イズに比例して決定した閾値よりも小さい範囲に限定し
    て、垂直方向のランレングスヒストグラムと水平方向の
    ランレングスヒストグラムを作成し、垂直方向のランレ
    ングスの平均と水平方向のランレングスの平均を求める
    ことを特徴とする書体識別装置。
  4. 【請求項4】 請求項1記載の書体識別装置において、
    前記ランレングスヒストグラム処理手段は、文字画像か
    ら水平方向に予め決定した閾値よりも長いランのみを抽
    出した画像に対して垂直方向のランレングスヒストグラ
    ムを求め、また、文字画像から垂直方向に予め決定した
    閾値よりも長いランのみを抽出した画像に対して水平方
    向のランレングスヒストグラムを求め、垂直方向のラン
    レングスヒストグラムから垂直方向のランレングスの平
    均を求め、また、水平方向のランレングスヒストグラム
    から水平方向のランレングスの平均を求めることを特徴
    とする書体識別装置。
  5. 【請求項5】 請求項1記載の書体識別装置において、
    前記ランレングスヒストグラム処理手段は、文字画像か
    ら水平方向に文字のサイズに比例して決定した閾値より
    も長いランのみを抽出した画像に対して垂直方向のラン
    レングスヒストグラムを求め、また文字画像から垂直方
    向に文字のサイズに比例して決定した閾値よりも長いラ
    ンのみを抽出した画像に対して水平方向のランレングス
    ヒストグラムを求め、垂直方向のランレングスヒストグ
    ラムから垂直方向のランレングスの平均を求め、また、
    水平方向のランレングスヒストグラムから水平方向のラ
    ンレングスの平均を求めることを特徴とする書体識別装
    置。
  6. 【請求項6】 文字画像において、垂直方向のランレン
    グスヒストグラムと水平方向のランレングスヒストグラ
    ムを作成し、垂直方向のランレングスヒストグラムから
    垂直方向のランレングスの平均を求め、また、水平方向
    のランレングスヒストグラムから水平方向のランレング
    スの平均を求め、垂直方向のランレングスの平均と水平
    方向のランレングスの平均との比を特徴量として算出
    し、該特徴量に基づいて文字の書体を識別することを特
    徴とする書体識別方法。
  7. 【請求項7】 文字画像において、垂直方向のランレン
    グスヒストグラムと水平方向のランレングスヒストグラ
    ムを作成し、垂直方向のランレングスヒストグラムから
    垂直方向のランレングスの平均を求め、また、水平方向
    のランレングスヒストグラムから水平方向のランレング
    スの平均を求め、垂直方向のランレングスの平均と水平
    方向のランレングスの平均との比を特徴量として算出
    し、該特徴量に基づいて文字の書体を識別するためのプ
    ログラムが記録されていることを特徴とする情報記録媒
    体。
JP8356216A 1996-12-24 1996-12-24 書体識別装置および書体識別方法および情報記録媒体 Pending JPH10187887A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP8356216A JPH10187887A (ja) 1996-12-24 1996-12-24 書体識別装置および書体識別方法および情報記録媒体
CN 97126259 CN1105367C (zh) 1996-12-24 1997-12-24 字体识别装置、字体识别方法及信息记录媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8356216A JPH10187887A (ja) 1996-12-24 1996-12-24 書体識別装置および書体識別方法および情報記録媒体

Publications (1)

Publication Number Publication Date
JPH10187887A true JPH10187887A (ja) 1998-07-21

Family

ID=18447922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8356216A Pending JPH10187887A (ja) 1996-12-24 1996-12-24 書体識別装置および書体識別方法および情報記録媒体

Country Status (2)

Country Link
JP (1) JPH10187887A (ja)
CN (1) CN1105367C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100708864B1 (ko) * 2005-12-21 2007-04-17 삼성에스디아이 주식회사 이차전지

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784146B (zh) * 2018-12-05 2023-11-07 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质
CN111339803B (zh) * 2018-12-19 2023-10-24 新方正控股发展有限责任公司 字体识别方法、装置、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100708864B1 (ko) * 2005-12-21 2007-04-17 삼성에스디아이 주식회사 이차전지

Also Published As

Publication number Publication date
CN1188944A (zh) 1998-07-29
CN1105367C (zh) 2003-04-09

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP4031210B2 (ja) 文字認識装置、文字認識方法、及び記録媒体
US20030118211A1 (en) Watermark information extraction apparatus and method of controlling thereof
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH1185905A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JPH0749926A (ja) 文字認識装置
JP3880091B2 (ja) 情報処理装置及び方法
JPH10124614A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JPH1055411A (ja) フォント識別装置
JP3220226B2 (ja) 文字列方向判別方法
JP3087714B2 (ja) オンライン手書き文字切り出し装置およびオンライン手書き文字切り出しプログラムを記録した記録媒体
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP3391987B2 (ja) 帳票認識装置
JPH0816719A (ja) 文字切り出し方法とこれを用いた文字認識方法及び装置
JPH10334188A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP2003030584A (ja) 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
JP2004094292A (ja) 文字認識装置、文字認識方法及び該方法の実行に用いるプログラム
JPS63101983A (ja) 文字列抽出方式
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP2753094B2 (ja) 単語切り出し装置
JPH1166225A (ja) 表情報抽出装置及び方法並びに記録媒体
JP3071479B2 (ja) 行間スペース検出方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040407