JP2018142066A - 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 - Google Patents
文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2018142066A JP2018142066A JP2017034606A JP2017034606A JP2018142066A JP 2018142066 A JP2018142066 A JP 2018142066A JP 2017034606 A JP2017034606 A JP 2017034606A JP 2017034606 A JP2017034606 A JP 2017034606A JP 2018142066 A JP2018142066 A JP 2018142066A
- Authority
- JP
- Japan
- Prior art keywords
- italic
- character
- font
- determination
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000012015 optical character recognition Methods 0.000 claims abstract description 21
- 230000005484 gravity Effects 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 28
- 229910052770 Uranium Inorganic materials 0.000 claims description 2
- 229910052739 hydrogen Inorganic materials 0.000 claims description 2
- 229910052757 nitrogen Inorganic materials 0.000 claims description 2
- 229910052760 oxygen Inorganic materials 0.000 claims description 2
- 229910052698 phosphorus Inorganic materials 0.000 claims description 2
- 229910052717 sulfur Inorganic materials 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18067—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/245—Font recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】画像形成装置1は、各文字コードの斜体フォント133aと非斜体フォント133bを含んで構成されるフォント辞書データ133と、文字の斜体判定に用いる複数の斜体判定手法の中から、光学文字認識により画像データ内の文字を認識して取得された文字コードに関連付けられた斜体判定手法を選択する判定手法選択部172と、判定手法選択部172により選択された斜体判定手法を用いて、画像データ内の文字が斜体か否かを判定する斜体判定部173と、斜体判定部173により斜体と判定された文字をフォント辞書データ133に含まれる斜体フォント133aのみと照合し、非斜体と判定された文字をフォント辞書データ133に含まれる非斜体フォント133bのみと照合することで、文字のフォントを特定するフォント特定部174とを備えている。
【選択図】図1
Description
また、前記複数の斜体判定手法は、Hough変換による直線検出、重心比較及び最小二乗法による直線検出であってもよい。
また、前記斜体判定部は、前記Hough変換により前記文字の直線検出を行い、前記文字の縦方向の直線を検出した場合に非斜体と判定し、前記文字の縦方向以外の直線を検出した場合に斜体と判定してもよい。
また、前記斜体判定部は、前記文字の上端部側重心位置と下端部側重心位置とをそれぞれ算出し、前記文字の横方向に対する前記上端部側重心位置と前記下端部側重心位置との距離が特定距離内である場合を非斜体と判定し、特定距離外である場合を斜体と判定してもよい。
また、前記斜体判定部は、前記文字の縦方向の距離を最小とする直線を前記最小二乗法により検出し、前記文字の横方向の直線を検出した場合に非斜体と判定し、前記文字の横方向以外の直線を検出した場合に斜体と判定してもよい。
また、前記Hough変換による直線検出には、1、4、B、DからFまで、HからNまで、P、R、T、Y、b、d、f、hからnまで、pからrまで、t及びuを示す文字コードがそれぞれ関連付けられていてもよい。
また、前記重心比較には、0、2、3、7、8、A、C、G、O、S、UからXまで、Z、a、c、e、g、o、s及びvからzまでを示す文字コードがそれぞれ関連付けられていてもよい。
また、前記最小二乗法による直線検出には、5、6、9及びQを示す文字コードがそれぞれ関連付けられていてもよい。
また、前記判定手法選択部は、特定の前記文字コードについて、複数の前記斜体判定手法を選択し、前記斜体判定部は、前記判定手法選択部によって選択された前記複数の前記斜体判定手法のそれぞれを用いて、前記画像データ内の文字が斜体か否かを判定し、前記フォント特定部は、前記斜体判定部による前記複数の前記斜体判定手法を用いたそれぞれの判定結果が同一とならなかった場合に、例外的に前記斜体フォント及び前記非斜体フォントを含む前記フォント辞書データと照合して、前記文字のフォントを特定してもよい。
また、前記判定手法選択部は、前記フォント特定部によって特定されたフォントが特定種類のフォントである場合に限って、複数の前記斜体判定手法を選択してもよい。
本発明の文字認識方法は、光学文字認識により画像データ内の文字を認識して文字コードを取得する文字認識装置の文字認識方法であって、前記文字認識装置が、各文字コードの斜体フォントと非斜体フォントを含んで構成されるフォント辞書データと、文字の斜体判定に用いる複数の斜体判定手法の中から、前記光学文字認識により取得された前記文字コードに関連付けられた前記斜体判定手法を選択する判定手法選択ステップと、前記判定手法選択ステップにより選択された前記斜体判定手法を用いて、前記画像データ内の文字が斜体か否かを判定する斜体判定ステップと、前記斜体判定ステップにより斜体と判定された前記文字を前記フォント辞書データに含まれる前記斜体フォントのみと照合し、非斜体と判定された前記文字を前記フォント辞書データに含まれる前記非斜体フォントのみと照合することで、前記文字のフォントを特定するフォント特定ステップとを備えたことを特徴とする。
本発明の文字認識プログラムは、上記に記載の文字認識方法を、コンピューターに実行させるための文字認識プログラムであることを特徴とする。
本発明のコンピューター読み取り可能な記録媒体は、上記に記載の文字認識プログラムを記録したコンピューター読み取り可能な記録媒体であることを特徴とする。
11 操作部
12 原稿読取部
13 記憶部
14 画像処理部
15 印刷部
16 通信部
17 制御部
20 文字画像領域
30 直線
41a 上端部側領域
41b 下端部側領域
42a 上端部側重心位置
42b 下端部側重心位置
50 直線
131 OCR辞書データ
132 判定表
133 フォント辞書データ
133a 斜体フォント
133b 非斜体フォント
171 文字認識部
172 判定手法選択部
173 斜体判定部
174 フォント特定部
175 電子データ出力部
Claims (13)
- 光学文字認識により画像データ内の文字を認識して文字コードを取得する文字認識装置であって、
各文字コードの斜体フォントと非斜体フォントを含んで構成されるフォント辞書データと、
文字の斜体判定に用いる複数の斜体判定手法の中から、前記光学文字認識により取得された前記文字コードに関連付けられた前記斜体判定手法を選択する判定手法選択部と、
前記判定手法選択部により選択された前記斜体判定手法を用いて、前記画像データ内の文字が斜体か否かを判定する斜体判定部と、
前記斜体判定部により斜体と判定された前記文字を前記フォント辞書データに含まれる前記斜体フォントのみと照合し、非斜体と判定された前記文字を前記フォント辞書データに含まれる前記非斜体フォントのみと照合することで、前記文字のフォントを特定するフォント特定部と
を備えたことを特徴とする文字認識装置。 - 前記複数の斜体判定手法は、Hough変換による直線検出、重心比較及び最小二乗法による直線検出である
ことを特徴とする請求項1に記載の文字認識装置。 - 前記斜体判定部は、
前記Hough変換により前記文字の直線検出を行い、前記文字の縦方向の直線を検出した場合に非斜体と判定し、前記文字の縦方向以外の直線を検出した場合に斜体と判定する
ことを特徴とする請求項2に記載の文字認識装置。 - 前記斜体判定部は、
前記文字の上端部側重心位置と下端部側重心位置とをそれぞれ算出し、前記文字の横方向に対する前記上端部側重心位置と前記下端部側重心位置との距離が特定距離内である場合を非斜体と判定し、特定距離外である場合を斜体と判定する
ことを特徴とする請求項2又は3に記載の文字認識装置。 - 前記斜体判定部は、
前記文字の縦方向の距離を最小とする直線を前記最小二乗法により検出し、前記文字の横方向の直線を検出した場合に非斜体と判定し、前記文字の横方向以外の直線を検出した場合に斜体と判定する
ことを特徴とする請求項2から3までのいずれか1項に記載の文字認識装置。 - 前記Hough変換による直線検出には、1、4、B、DからFまで、HからNまで、P、R、T、Y、b、d、f、hからnまで、pからrまで、t及びuを示す文字コードがそれぞれ関連付けられている
ことを特徴とする請求項2から5までのいずれか1項に記載の文字認識装置。 - 前記重心比較には、0、2、3、7、8、A、C、G、O、S、UからXまで、Z、a、c、e、g、o、s及びvからzまでを示す文字コードがそれぞれ関連付けられている
ことを特徴とする請求項2から6までのいずれか1項に記載の文字認識装置。 - 前記最小二乗法による直線検出には、5、6、9及びQを示す文字コードがそれぞれ関連付けられている
ことを特徴とする請求項2から7までのいずれか1項に記載の文字認識装置。 - 前記判定手法選択部は、
特定の前記文字コードについて、複数の前記斜体判定手法を選択し、
前記斜体判定部は、
前記判定手法選択部によって選択された前記複数の前記斜体判定手法のそれぞれを用いて、前記画像データ内の文字が斜体か否かを判定し、
前記フォント特定部は、
前記斜体判定部による前記複数の前記斜体判定手法を用いたそれぞれの判定結果が同一とならなかった場合に、例外的に前記斜体フォント及び前記非斜体フォントを含む前記フォント辞書データと照合して、前記文字のフォントを特定する
ことを特徴とする請求項1から8までのいずれか1項に記載の文字認識装置。 - 前記判定手法選択部は、
前記フォント特定部によって特定されたフォントが特定種類のフォントである場合に限って、複数の前記斜体判定手法を選択する
ことを特徴とする請求項9に記載の文字認識装置。 - 光学文字認識により画像データ内の文字を認識して文字コードを取得する文字認識装置の文字認識方法であって、
前記文字認識装置が、
各文字コードの斜体フォントと非斜体フォントを含んで構成されるフォント辞書データと、
文字の斜体判定に用いる複数の斜体判定手法の中から、前記光学文字認識により取得された前記文字コードに関連付けられた前記斜体判定手法を選択する判定手法選択ステップと、
前記判定手法選択ステップにより選択された前記斜体判定手法を用いて、前記画像データ内の文字が斜体か否かを判定する斜体判定ステップと、
前記斜体判定ステップにより斜体と判定された前記文字を前記フォント辞書データに含まれる前記斜体フォントのみと照合し、非斜体と判定された前記文字を前記フォント辞書データに含まれる前記非斜体フォントのみと照合することで、前記文字のフォントを特定するフォント特定ステップと
を備えたことを特徴とする文字認識方法。 - 請求項11に記載の文字認識方法を、コンピューターに実行させるための文字認識プログラム。
- 請求項12に記載の文字認識プログラムを記録したコンピューター読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017034606A JP6624120B2 (ja) | 2017-02-27 | 2017-02-27 | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 |
US15/901,951 US10706337B2 (en) | 2017-02-27 | 2018-02-22 | Character recognition device, character recognition method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017034606A JP6624120B2 (ja) | 2017-02-27 | 2017-02-27 | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018142066A true JP2018142066A (ja) | 2018-09-13 |
JP6624120B2 JP6624120B2 (ja) | 2019-12-25 |
Family
ID=63246819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017034606A Expired - Fee Related JP6624120B2 (ja) | 2017-02-27 | 2017-02-27 | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10706337B2 (ja) |
JP (1) | JP6624120B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6963728B2 (ja) * | 2018-02-26 | 2021-11-10 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
CN109308478B (zh) * | 2018-09-26 | 2021-02-05 | 新华三信息安全技术有限公司 | 一种字符识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03278290A (ja) * | 1990-03-28 | 1991-12-09 | Seiko Epson Corp | 文字認識装置 |
JP2001134026A (ja) * | 1999-11-02 | 2001-05-18 | Canon Inc | 画像処理装置及び方法、並びにコンピュータにより読み取り可能な記憶媒体 |
JP2009223556A (ja) * | 2008-03-14 | 2009-10-01 | Omron Corp | 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造 |
JP2015194872A (ja) * | 2014-03-31 | 2015-11-05 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置、画像形成装置、情報処理方法、及び情報処理プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5880781A (ja) | 1981-11-09 | 1983-05-14 | Ricoh Co Ltd | フオント識別方法 |
JPH0371380A (ja) | 1989-08-11 | 1991-03-27 | Seiko Epson Corp | 文字認識装置 |
US6496600B1 (en) * | 1996-06-17 | 2002-12-17 | Canon Kabushiki Kaisha | Font type identification |
US20020181779A1 (en) * | 2001-06-04 | 2002-12-05 | Hansen Von L. | Character and style recognition of scanned text |
US7095894B2 (en) * | 2002-09-04 | 2006-08-22 | Lockheed Martin Corporation | Method and computer program product for recognizing italicized text |
CN103377371A (zh) * | 2012-04-25 | 2013-10-30 | 佳能株式会社 | 用于改善识别特征的方法和***和光学字符识别*** |
-
2017
- 2017-02-27 JP JP2017034606A patent/JP6624120B2/ja not_active Expired - Fee Related
-
2018
- 2018-02-22 US US15/901,951 patent/US10706337B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03278290A (ja) * | 1990-03-28 | 1991-12-09 | Seiko Epson Corp | 文字認識装置 |
JP2001134026A (ja) * | 1999-11-02 | 2001-05-18 | Canon Inc | 画像処理装置及び方法、並びにコンピュータにより読み取り可能な記憶媒体 |
JP2009223556A (ja) * | 2008-03-14 | 2009-10-01 | Omron Corp | 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造 |
JP2015194872A (ja) * | 2014-03-31 | 2015-11-05 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置、画像形成装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6624120B2 (ja) | 2019-12-25 |
US20180247166A1 (en) | 2018-08-30 |
US10706337B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1703444A2 (en) | Detecting an orientation of characters in a document image | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5357612B2 (ja) | 下線除去装置 | |
JPS63155386A (ja) | 帳票デ−タ読取装置 | |
US9305245B2 (en) | Methods and systems for evaluating handwritten documents | |
JP6000992B2 (ja) | 文書ファイル生成装置及び文書ファイル生成方法 | |
CN106649420B (zh) | 图像处理设备和图像处理方法 | |
JP6624120B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 | |
US11593591B2 (en) | Optical character recognition systems and methods | |
JP2010061471A (ja) | 文字認識装置およびプログラム | |
US20010043742A1 (en) | Communication document detector | |
US10638001B2 (en) | Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data | |
US10887487B2 (en) | Image processing apparatus | |
JP6432179B2 (ja) | 文書ファイル生成装置及び文書ファイル生成方法 | |
JP2004164674A (ja) | フォーマット認識装置及び文字読み取り装置 | |
JP3159087B2 (ja) | 文書照合装置および方法 | |
JP2006277149A (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
JP2020047138A (ja) | 情報処理装置 | |
JP2020087320A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6046088B2 (ja) | 画像処理装置及び画像処理方法 | |
US20230063374A1 (en) | Image processing apparatus, non-transitory storage medium, and image processing method | |
JP2662404B2 (ja) | 光学文字読取装置における辞書作成方法 | |
JP6435636B2 (ja) | 情報処理装置及び情報処理プログラム | |
US10659654B2 (en) | Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document | |
JP6489041B2 (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6624120 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |