JP4661921B2 - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP4661921B2 JP4661921B2 JP2008216184A JP2008216184A JP4661921B2 JP 4661921 B2 JP4661921 B2 JP 4661921B2 JP 2008216184 A JP2008216184 A JP 2008216184A JP 2008216184 A JP2008216184 A JP 2008216184A JP 4661921 B2 JP4661921 B2 JP 4661921B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- character image
- category
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
11 ページ画像記憶部
12 文字画像切り出し部
13 文字画像分類部
13a カテゴリ記憶部
14 文字画像記憶部
15 平均文字画像特徴取得部
16 文字認識部
17 対応付け部
18 対応記憶部
19 認識結果出力部
20 形態素解析部
21 単語辞書
22 認識結果修正部
100 画像処理装置
101 画像入力装置
102 演算装置
103 記憶装置
104 情報出力装置
105 情報表示装置
106 ポインティングデバイス
Claims (8)
- 入力した文書画像から文字画像を切り出す文字切出手段と、
上記文字画像をカテゴリに分類する文字画像分類手段と、
分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段と、
上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段と、
上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段と、
上記文字画像に対して割り当てられる文字識別情報を修正する修正手段と、
を有し、
上記修正手段は、単語辞書を備え、上記出力手段から一連の文字画像の一連の文字識別情報に対して上記単語辞書を参照して形態素解析を行って単語を抽出し、上記単語辞書に適合しない文字列が存在する場合には、当該文字列に最も近い単語に置換するとともに、置換に伴い変更された文字が分類されるカテゴリを生成する文書処理装置。 - 上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項1記載の文書処理装置。
- 上記文字画像のカテゴリを、当該文字画像のカテゴリの上記平均的な画像に対する上記文字認識手段の認識結果と対応させる対応付け手段をさらに有し、上記出力手段は、上記文字画像に対して割り当てられる文字識別情報として、当該文字画像が分類されるカテゴリが上記対応付け手段により対応付けられる上記文字認識結果を出力し、上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記対応付け手段による対応づけを修正して、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項2記載の文書処理装置。
- 自動原稿送り機構を搭載した文書画像入力手段と、切り出した各文字画像が自動原稿送り機構に載置した文書の何枚目の文書から切り出したかの情報と、文字画像の座標と、切り出した文字画像そのものと、切り出した文字画像が分類されるカテゴリの情報を記憶する文字画像管理手段
をさらに有する請求項1〜3のいずれかに記載の文書処理装置。 - 上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像の画素値を画素位置ごとに平均化し、各画素位置の画素値の平均値を用いて平均的な文字画像特徴を取得する請求項1〜4のいずれかに記載の文書処理装置。
- 上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像から特定の特徴量を求め、上記特徴量の平均値から上記平均的な文字画像特徴を取得する請求項1〜4のいずれかに記載の文書処理装置。
- 上記カテゴリの各々について、上記文字認識手段による認識結果の文字識別情報を記憶する文字認識結果記憶手段をさらに有する請求項1〜6のいずれかに記載の文書処理装置。
- コンピュータを、
入力した文書画像から文字画像を切り出す文字切出手段、
上記文字画像をカテゴリに分類する文字画像分類手段、
分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段、
上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段、
上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段、
上記文字画像に対して割り当てられる文字識別情報を修正する修正手段、
として機能させるためのプログラムであり、
上記修正手段は、単語辞書を備え、上記出力手段から一連の文字画像の一連の文字識別情報に対して上記単語辞書を参照して形態素解析を行って単語を抽出し、上記単語辞書に適合しない文字列が存在する場合には、当該文字列に最も近い単語に置換するとともに、置換に伴い変更された文字が分類されるカテゴリを生成する上記プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216184A JP4661921B2 (ja) | 2008-08-26 | 2008-08-26 | 文書処理装置およびプログラム |
US12/372,500 US8280175B2 (en) | 2008-08-26 | 2009-02-17 | Document processing apparatus, document processing method, and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216184A JP4661921B2 (ja) | 2008-08-26 | 2008-08-26 | 文書処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055142A JP2010055142A (ja) | 2010-03-11 |
JP4661921B2 true JP4661921B2 (ja) | 2011-03-30 |
Family
ID=41725548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008216184A Expired - Fee Related JP4661921B2 (ja) | 2008-08-26 | 2008-08-26 | 文書処理装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8280175B2 (ja) |
JP (1) | JP4661921B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120113146A1 (en) * | 2010-11-10 | 2012-05-10 | Patrick Michael Virtue | Methods, apparatus and articles of manufacture to combine segmentations of medical diagnostic images |
US8818092B1 (en) * | 2011-09-29 | 2014-08-26 | Google, Inc. | Multi-threaded text rendering |
US8666123B2 (en) * | 2012-04-26 | 2014-03-04 | Google Inc. | Creating social network groups |
JP6525523B2 (ja) * | 2013-07-31 | 2019-06-05 | キヤノン株式会社 | 情報処理装置、制御方法およびプログラム |
CN104809109B (zh) * | 2014-01-23 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
JP6472184B2 (ja) * | 2014-07-29 | 2019-02-20 | キヤノン株式会社 | オブジェクト識別装置、オブジェクト識別方法及びプログラム |
CN105184289B (zh) * | 2015-10-10 | 2019-06-28 | 北京百度网讯科技有限公司 | 字符识别方法和装置 |
US9684842B2 (en) * | 2015-10-29 | 2017-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to extract text from imaged documents |
CN109034158B (zh) * | 2017-06-09 | 2021-03-26 | 杭州海康威视数字技术股份有限公司 | 一种车牌识别方法、装置及计算机设备 |
CN109685100B (zh) * | 2018-11-12 | 2024-05-10 | 平安科技(深圳)有限公司 | 字符识别方法、服务器及计算机可读存储介质 |
CN111127339B (zh) * | 2019-12-04 | 2020-10-30 | 北京华宇信息技术有限公司 | 一种文档图像的梯形畸变矫正方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099709A (ja) * | 2001-09-25 | 2003-04-04 | Toshiba Corp | 誤読文字修正方法及び光学的文字認識装置 |
JP2007179307A (ja) * | 2005-12-28 | 2007-07-12 | Hitachi Computer Peripherals Co Ltd | 帳票識別装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06119484A (ja) * | 1992-10-05 | 1994-04-28 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH06259595A (ja) * | 1993-03-10 | 1994-09-16 | Oki Electric Ind Co Ltd | 文字認識処理装置及び認識処理方法 |
GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
JP3372005B2 (ja) * | 1995-04-28 | 2003-01-27 | 松下電器産業株式会社 | 文字認識装置 |
JPH09185674A (ja) * | 1995-12-28 | 1997-07-15 | Omron Corp | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
JPH11213087A (ja) | 1998-01-23 | 1999-08-06 | Ricoh Co Ltd | 文字認識装置 |
JP4172584B2 (ja) * | 2004-04-19 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字認識結果出力装置、文字認識装置、その方法及びプログラム |
US7519221B1 (en) * | 2005-02-28 | 2009-04-14 | Adobe Systems Incorporated | Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts |
US7650035B2 (en) * | 2006-09-11 | 2010-01-19 | Google Inc. | Optical character recognition based on shape clustering and multiple optical character recognition processes |
-
2008
- 2008-08-26 JP JP2008216184A patent/JP4661921B2/ja not_active Expired - Fee Related
-
2009
- 2009-02-17 US US12/372,500 patent/US8280175B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099709A (ja) * | 2001-09-25 | 2003-04-04 | Toshiba Corp | 誤読文字修正方法及び光学的文字認識装置 |
JP2007179307A (ja) * | 2005-12-28 | 2007-07-12 | Hitachi Computer Peripherals Co Ltd | 帳票識別装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2010055142A (ja) | 2010-03-11 |
US8280175B2 (en) | 2012-10-02 |
US20100054599A1 (en) | 2010-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4661921B2 (ja) | 文書処理装置およびプログラム | |
US7668372B2 (en) | Method and system for collecting data from a plurality of machine readable documents | |
US11182604B1 (en) | Computerized recognition and extraction of tables in digitized documents | |
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
US20100128922A1 (en) | Automated generation of form definitions from hard-copy forms | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
US8418050B2 (en) | Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method | |
CN102822846A (zh) | 检测文本行图像中的断字位置 | |
US20220415008A1 (en) | Image box filtering for optical character recognition | |
JP2000293626A (ja) | 文字認識方法及び装置ならびに記憶媒体 | |
JP2010061471A (ja) | 文字認識装置およびプログラム | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
US20010043742A1 (en) | Communication document detector | |
US7680331B2 (en) | Document processing device and document processing method | |
JP5657401B2 (ja) | 文書処理装置、及び文書処理プログラム | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
US20210019554A1 (en) | Information processing device and information processing method | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
JP5169648B2 (ja) | 原画像探索装置及び原画像探索プログラム | |
JP5712415B2 (ja) | 帳票処理システム及び帳票処理方法 | |
JP2003030654A (ja) | パターン識別装置、パターン識別方法及びパターン識別用プログラム | |
US7995869B2 (en) | Information processing apparatus, information processing method, and information storing medium | |
JP2010205122A (ja) | レイアウト構造解析装置及びレイアウト構造解析方法 | |
US11763582B2 (en) | Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium | |
US11354890B2 (en) | Information processing apparatus calculating feedback information for partial region of image and non-transitory computer readable medium storing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4661921 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140114 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |