JP6528927B2 - 文書処理装置及びプログラム - Google Patents
文書処理装置及びプログラム Download PDFInfo
- Publication number
- JP6528927B2 JP6528927B2 JP2014167569A JP2014167569A JP6528927B2 JP 6528927 B2 JP6528927 B2 JP 6528927B2 JP 2014167569 A JP2014167569 A JP 2014167569A JP 2014167569 A JP2014167569 A JP 2014167569A JP 6528927 B2 JP6528927 B2 JP 6528927B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- list
- spacing
- character spacing
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Record Information Processing For Printing (AREA)
Description
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置である。
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記取得手段により取得された文字列の文字間隔の標準偏差が、第1の予め定められた値以下である場合に、当該文字列には空白の文字コードを挿入する必要がないと判定する判定手段と、を有し、
前記挿入手段は、前記判定手段により空白の文字コードを挿入する必要がないと判定された文字列に対しては、空白の文字コードの挿入を行わない文書処理装置である。
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記文書データの文字列は分かち書きの言語により構成され、
前記言語の単語を記憶する記憶手段と、
前記取得手段により取得された文字列を、前記挿入手段により挿入された空白の文字コードを境に分割する分割手段と、を有し、
前記第1の作成手段は、前記分割手段により分割された文字列が前記記憶手段に記憶された単語と一致しない場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成し、
前記第2の作成手段は、前記分割された文字列の文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成し、
前記決定手段は、前記分割された文字列の変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定し、
前記挿入手段は、前記分割された文字列に対して、前記決定手段により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する文書処理装置である。
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、を有し、
前記第1の作成手段は、取得された文字列に既に空白の文字コードが含まれている場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるとき、当該文字列に含まれる空白の文字コードを全て削除した後、前記文字間隔リストを作成する文書処理装置である。
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置である。
受け付けられた文書データに含まれる文字コードに基づいて文字列を取得するステップと、
取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成するステップと、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成するステップと、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を閾値として決定するステップと、
前記文字列に対して、前記閾値以上の文字間隔の文字間に空白の文字コードを挿入するステップと、
をコンピュータに実行させるためのプログラムである。
図1は、本発明の一実施形態の文書処理システムのシステム構成を示す図である。
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。
なお、第3の実施形態においては、判別分析の閾値に基づいて挿入された空白の文字コードの数が、文字列の文字間隔数の予め定められた割合以上であるか否かを判定するものとして説明した。しかし、文書データ受付部301において受け付けられた文書データの文字列に既に空白の文字コードが含まれている場合には、判別分析の閾値に基づく空白の文字コードの挿入処理を行わずに、取得された文字列における空白の文字コードの数が、文字列の文字間隔数の予め定められた割合以上であるか否かを判定するようにしてもよい。
11 CPU
12 メモリ
13 記憶装置
14 通信IF
15 UI装置
16 制御バス
20 画像形成装置
30、30a、30b 文書処理サーバ
40 ネットワーク
101〜105 文字列
301 文書データ受付部
302 文字列取得部
303 標準偏差算出部
304 空白挿入判定部
305 文字間隔リスト作成部
306 一次微分リスト作成部
307 閾値決定部
308 空白挿入部
309 文字列分割部
310 記憶部
311 単語判定部
312 判別分析部
313 過挿入判定部
Claims (7)
- 文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置。 - 文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記取得手段により取得された文字列の文字間隔の標準偏差が、第1の予め定められた値以下である場合に、当該文字列には空白の文字コードを挿入する必要がないと判定する判定手段と、を有し、
前記挿入手段は、前記判定手段により空白の文字コードを挿入する必要がないと判定された文字列に対しては、空白の文字コードの挿入を行わない文書処理装置。 - 前記判定手段は、前記取得手段により取得された文字列において、偏差が第2の予め定められた値以下の文字間隔が含まれる場合、当該文字間隔の偏差を0として当該文字列の標準偏差を再計算し、再計算後の標準偏差が、第1の予め定められた値以下であるとき、当該文字列には空白の文字コードを挿入する必要がないと判定する請求項2記載の文書処理装置。
- 文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記文書データの文字列は分かち書きの言語により構成され、
前記言語の単語を記憶する記憶手段と、
前記取得手段により取得された文字列を、前記挿入手段により挿入された空白の文字コードを境に分割する分割手段と、を有し、
前記第1の作成手段は、前記分割手段により分割された文字列が前記記憶手段に記憶された単語と一致しない場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成し、
前記第2の作成手段は、前記分割された文字列の文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成し、
前記決定手段は、前記分割された文字列の変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定し、
前記挿入手段は、前記分割された文字列に対して、前記決定手段により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する文書処理装置。 - 文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、を有し、
前記第1の作成手段は、取得された文字列に既に空白の文字コードが含まれている場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるとき、当該文字列に含まれる空白の文字コードを全て削除した後、前記文字間隔リストを作成する文書処理装置。 - 受け付けた文字列の中の隣接する2つの文字間の距離である文字間隔を大きさの順に並べ替えて文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置。 - 文書データを受け付けるステップと、
受け付けられた文書データに含まれる文字コードに基づいて文字列を取得するステップと、
取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成するステップと、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成するステップと、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を閾値として決定するステップと、
前記文字列に対して、前記閾値以上の文字間隔の文字間に空白の文字コードを挿入するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167569A JP6528927B2 (ja) | 2014-08-20 | 2014-08-20 | 文書処理装置及びプログラム |
PCT/JP2015/050712 WO2016027476A1 (ja) | 2014-08-20 | 2015-01-14 | 文書処理装置、プログラム、及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167569A JP6528927B2 (ja) | 2014-08-20 | 2014-08-20 | 文書処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016045566A JP2016045566A (ja) | 2016-04-04 |
JP6528927B2 true JP6528927B2 (ja) | 2019-06-12 |
Family
ID=55350436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014167569A Expired - Fee Related JP6528927B2 (ja) | 2014-08-20 | 2014-08-20 | 文書処理装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6528927B2 (ja) |
WO (1) | WO2016027476A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5248845B2 (ja) * | 2006-12-13 | 2013-07-31 | キヤノン株式会社 | 文書処理装置、文書処理方法、プログラムおよび記憶媒体 |
US8443278B2 (en) * | 2009-01-02 | 2013-05-14 | Apple Inc. | Identification of tables in an unstructured document |
JP5821648B2 (ja) * | 2012-01-18 | 2015-11-24 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP5949248B2 (ja) * | 2012-07-12 | 2016-07-06 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2014
- 2014-08-20 JP JP2014167569A patent/JP6528927B2/ja not_active Expired - Fee Related
-
2015
- 2015-01-14 WO PCT/JP2015/050712 patent/WO2016027476A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2016045566A (ja) | 2016-04-04 |
WO2016027476A1 (ja) | 2016-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885325B2 (en) | Information processing apparatus, control method, and storage medium | |
JP3919617B2 (ja) | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5508359B2 (ja) | 文字認識装置、文字認識方法及びプログラム | |
CN102592299B (zh) | 文件生成装置和文件生成方法 | |
EA001689B1 (ru) | Система автоматической идентификации языка для многоязычного оптического распознавания символов | |
US9280725B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2018055255A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
JP7186075B2 (ja) | 電子文書中の文字列塊を推測する方法 | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム | |
CN111860513A (zh) | 光学字符识别支持*** | |
JP6528927B2 (ja) | 文書処理装置及びプログラム | |
JP7027757B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN112541505B (zh) | 文本识别方法、装置以及计算机可读存储介质 | |
EP3985556A1 (en) | Apparatus and method for document recognition | |
JP6131765B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2017010187A (ja) | 画像処理装置及び画像処理プログラム | |
García-Calderón et al. | Unsupervised multi-language handwritten text line segmentation | |
CN117391045B (zh) | 可复制蒙文的可携带文件格式文件输出方法 | |
JP7358838B2 (ja) | 情報処理装置、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190430 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6528927 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |