JP6528927B2 - Document processing apparatus and program - Google Patents
Document processing apparatus and program Download PDFInfo
- Publication number
- JP6528927B2 JP6528927B2 JP2014167569A JP2014167569A JP6528927B2 JP 6528927 B2 JP6528927 B2 JP 6528927B2 JP 2014167569 A JP2014167569 A JP 2014167569A JP 2014167569 A JP2014167569 A JP 2014167569A JP 6528927 B2 JP6528927 B2 JP 6528927B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- list
- spacing
- character spacing
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Record Information Processing For Printing (AREA)
Description
本発明は、文書処理装置及びプログラムに関する。 The present invention relates to a document processing apparatus and program.
特許文献1には、互いに隣接する文字領域間の間隔の第1の分布及び文字領域の重心間距離の第2の分布をそれぞれ二分割したときに第1及び第2の分離度を判別分析により求め、第1の分離度と第2の分離度とを比較することで文字列の表記に用いられているフォントを判定して、判定されたフォントに従って単語間の空白を検出するための閾値を設定し、文字領域間の間隔または重心間の距離が閾値以上である場合、対応する二つの文字の間に単語間の空白を検出する技術が開示されている。
In
また、特許文献2には、均等割付けされた文字であるか、見出し文字列であるか、和文・欧文などの文字種判断などの結果に基づいて、空白文字を挿入するか否かの判断を行う技術が開示されている。
Further, in
また、特許文献3には、英語表記ルールによる判断、元文書データに含まれる空白文字の有無の情報による判断、隣接する文字同士が含まれる文字列オブジェクトの同一性による判断、隣接する文字同士が含まれる文字列オブジェクトの間隔による判断を用いて隣接する文字が同じ単語に含まれるかどうかについて判断する技術が開示されている。
In addition, in
単語間に空白の文字コードが挿入されていない分かち書き言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入が発生するという問題点があった。 When the word character code is inserted by detecting the position between the words by the discriminant analysis method or the like for the document data of the split-off language in which the character code of the blank character code is not inserted between the words, There has been a problem that overinsertion occurs, which inserts a blank character code.
本発明の目的は、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置及びプログラムを提供することである。 The object of the present invention is to detect a position between words by a discriminant analysis method or the like and insert a blank character code into document data of a split-off language in which no blank character code is inserted between words. It is another object of the present invention to provide a document processing apparatus and program capable of suppressing overinsertion in which a blank character code is inserted at a position which should not be inserted.
請求項1に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置である。
The present invention according to
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
If the character spacing of the character spacing list corresponding to the maximum value in the variation amount list is less than the average value of the character spacing in the character spacing list or less than the character spacing located at the center of the character spacing list A character spacing of the character spacing list corresponding to the second largest value of the excluded character spacing excluded from the first threshold candidate and the value in the variation list of the excluded character spacing, or a character spacing corresponding to the maximum value of the variation amount list Determining means for determining the character spacing as a first threshold when the character spacing of the list is greater than or equal to the average value of the character spacing in the character spacing list or greater than the character spacing located at the center of the character spacing list ;
Inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
Document processing apparatus.
請求項2に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記取得手段により取得された文字列の文字間隔の標準偏差が、第1の予め定められた値以下である場合に、当該文字列には空白の文字コードを挿入する必要がないと判定する判定手段と、を有し、
前記挿入手段は、前記判定手段により空白の文字コードを挿入する必要がないと判定された文字列に対しては、空白の文字コードの挿入を行わない文書処理装置である。
The present invention according to
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
A determination unit configured to determine, as a first threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation amount list;
Inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
When the standard deviation of the character spacing of the character string acquired by the acquisition means is less than or equal to a first predetermined value, it is determined that it is not necessary to insert a blank character code in the character string Means, and
The insertion means, wherein for the determined character string as there is no need to insert the character code space by determining means, an Ibn document processing apparatus to perform the insertion of blank character codes.
請求項3に係る本発明は、前記判定手段は、前記取得手段により取得された文字列において、偏差が第2の予め定められた値以下の文字間隔が含まれる場合、当該文字間隔の偏差を0として当該文字列の標準偏差を再計算し、再計算後の標準偏差が、第1の予め定められた値以下であるとき、当該文字列には空白の文字コードを挿入する必要がないと判定する請求項2記載の文書処理装置である。
The present invention according to
請求項4に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記文書データの文字列は分かち書きの言語により構成され、
前記言語の単語を記憶する記憶手段と、
前記取得手段により取得された文字列を、前記挿入手段により挿入された空白の文字コードを境に分割する分割手段と、を有し、
前記第1の作成手段は、前記分割手段により分割された文字列が前記記憶手段に記憶された単語と一致しない場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成し、
前記第2の作成手段は、前記分割された文字列の文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成し、
前記決定手段は、前記分割された文字列の変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定し、
前記挿入手段は、前記分割された文字列に対して、前記決定手段により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する文書処理装置である。
The present invention according to
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
A determination unit configured to determine, as a first threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation amount list;
Inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
The character string of the document data is composed of a split language,
Storage means for storing words of the language;
A character string acquired by the acquisition unit, has a dividing means for dividing the boundary of character codes inserted blank by said inserting means,
When the character string divided by the dividing unit does not match the word stored in the storage unit, the first creating unit is a character in which the character intervals of the divided character string are arranged in order of size Create an interval list,
The second creation means creates a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list of the divided character strings;
The determining means determines, as a second threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation list of the divided character strings.
The insertion means, with respect to the divided character string is inserted to Rubun document processing device character code spaces between characters of the second threshold value or more character spacing determined by the determining means.
請求項5に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、を有し、
前記第1の作成手段は、取得された文字列に既に空白の文字コードが含まれている場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるとき、当該文字列に含まれる空白の文字コードを全て削除した後、前記文字間隔リストを作成する文書処理装置である。
The present invention according to
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
A determination unit configured to determine, as a first threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation amount list;
And inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
When the acquired character string already includes a blank character code, the first creating means determines that the number of blank character codes is a predetermined number of character intervals of the acquired character string. when it is proportion or more, after deleting all blank character codes included in the character string, a Rubun form processing unit to generate the character spacing list.
請求項6に係る本発明は、受け付けた文字列の中の隣接する2つの文字間の距離である文字間隔を大きさの順に並べ替えて文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置である。
According to a sixth aspect of the present invention, there is provided a first creation means for rearranging character spacing, which is a distance between two adjacent characters in a received character string, in order of magnitude to create a character spacing list;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
If the character spacing of the character spacing list corresponding to the maximum value in the variation amount list is less than the average value of the character spacing in the character spacing list or less than the character spacing located at the center of the character spacing list A character spacing of the character spacing list corresponding to the second largest value of the excluded character spacing excluded from the first threshold candidate and the value in the variation list of the excluded character spacing, or a character spacing corresponding to the maximum value of the variation amount list Inserting means for inserting a blank character code between characters of the character spacing list if the character spacing of the list is greater than or equal to the average value of the character spacing in the character spacing list or the character spacing located at the center of the character spacing list When,
Document processing apparatus.
請求項7に係る本発明は、文書データを受け付けるステップと、
受け付けられた文書データに含まれる文字コードに基づいて文字列を取得するステップと、
取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成するステップと、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成するステップと、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を閾値として決定するステップと、
前記文字列に対して、前記閾値以上の文字間隔の文字間に空白の文字コードを挿入するステップと、
をコンピュータに実行させるためのプログラムである。
The present invention according to
Acquiring a character string based on a character code included in the accepted document data;
Creating a character interval list in which character intervals, which are distances between two adjacent characters in the acquired character string, are arranged in order of magnitude;
Creating a variation amount list indicating variation amounts for character spacing before and after each character spacing in the character spacing list;
If the character spacing of the character spacing list corresponding to the maximum value in the variation amount list is less than the average value of the character spacing in the character spacing list or less than the character spacing located at the center of the character spacing list Character spacing of the character spacing list corresponding to the second largest value in the variation amount list of excluded character spacings excluded from threshold candidates, or character spacing list character corresponding to the maximum value of the variation amount list Determining the character spacing as a threshold if the spacing is greater than or equal to the average value of the character spacing in the character spacing list or greater than the character spacing located at the center of the character spacing list ;
Inserting a character code of a space between characters of the character space equal to or more than the threshold value for the character string;
Is a program for making a computer execute.
請求項1又は請求項6に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。また、請求項1又は請求項6に係る本発明によれば、単語間に空白の文字コードが挿入されていない文書データの単語間に空白の文字コードを挿入する際に、判別分析法等を用いて空白の文字コードの挿入位置を検出する場合と比較して、空白の文字コードの挿入位置を高い精度で検出することが可能な文書処理装置を提供することができる。
According to the present invention according to
請求項2に係る本発明によれば、文字列の文字間隔の標準偏差に基づいて、空白の文字コードを挿入する必要がある文字列であるか否かを判定することが可能な文書処理装置を提供することができる。また、請求項2に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。
According to the second aspect of the present invention, it is possible to determine, based on the standard deviation of the character spacing of the character string, whether or not the character string needs to have a blank character code inserted. Can be provided. Further, according to the present invention as set forth in
請求項3に係る本発明によれば、文字列の標準偏差に基づいて、空白の文字コードを挿入する必要がある文字列であるか否かを判定することが可能な文書処理装置を提供することができる。 According to the third aspect of the present invention, there is provided a document processing apparatus capable of determining, based on the standard deviation of character strings, whether the character string requires insertion of a blank character code. be able to.
請求項4に係る発明によれば、分かち書きの言語で構成された文書データにおいて、文字列が単語ごとに区切られる位置に空白の文字コードを挿入することが可能な文書処理装置を提供することができる。また、請求項4に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。
According to the fourth aspect of the present invention, there is provided a document processing apparatus capable of inserting a blank character code at a position where a character string is divided for each word in document data configured in a split language. it can. Further, according to the present invention as set forth in
請求項5に係る本発明によれば、文字列の文字間隔数の予め定められた割合以上の空白の文字コードが既に含まれている文字列において、判別分析法等を用いて空白の挿入位置を検出する場合と比較して、空白の挿入位置を高い精度で検出することが可能な文書処理装置を提供することができる。また、請求項5に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。
According to the present invention as set forth in
請求項7に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能なプログラムを提供することができる。また、請求項7に係る本発明によれば、単語間に空白の文字コードが挿入されていない文書データの単語間に空白の文字コードを挿入する際に、判別分析法等を用いて空白の文字コードの挿入位置を検出する場合と比較して、空白の文字コードの挿入位置を高い精度で検出することが可能なプログラムを提供することができる。
According to the present invention as set forth in
次に、本発明の実施の形態について図面を参照して詳細に説明する。 Next, embodiments of the present invention will be described in detail with reference to the drawings.
[第1の実施形態]
図1は、本発明の一実施形態の文書処理システムのシステム構成を示す図である。
First Embodiment
FIG. 1 is a diagram showing a system configuration of a document processing system according to an embodiment of the present invention.
本発明の第1の実施形態の文書処理システムは、図1に示されるように、端末装置10と、画像形成装置20と、文書処理サーバ(文書処理装置)30がネットワーク40を介して相互に接続されている。端末装置10は、文書データを生成して、ネットワーク40経由にて生成した文書データを文書処理サーバ30に対して送信する。文書処理サーバ30は、端末装置10から送信された文書データを受け付けて、文書データに対して後述する処理を行う。なお、画像形成装置20は、印刷(プリント)機能、スキャン機能、複写(コピー)機能、ファクシミリ機能等の複数の機能を有するいわゆる複合機と呼ばれる装置である。
In the document processing system according to the first embodiment of the present invention, as shown in FIG. 1, a
また、本実施形態における文書データは、文字コードを含むPDF(Portable Document Format)等の形式により作成され、分かち書きの言語である英語で構成されたものを対象として説明する。なお、分かち書きとは、文章を書くとき、一定の方針で語句の単位を切り、その切れ目ごとに間隔をおく書き方のこと、換言すれば、文書において語の区切りに空白を挟んで記述することである。 Further, the document data in the present embodiment is created in a format such as PDF (Portable Document Format) including a character code, and will be described for an object configured in English which is a language of separation. In addition, when we write a sentence, we divide the unit of words and phrases according to a fixed policy and write a sentence, and in other words, it is a writing method that puts a space between words in a document. is there.
また、本実施形態における文書データは、文字コードと座標情報に基づいて文字を配置することにより、空白の文字コードを含まずに文字間の空白を表現している。 Further, the document data in the present embodiment expresses the space between characters without including the space character code by arranging the characters based on the character code and the coordinate information.
次に、本実施形態の文書処理システムにおける文書処理サーバ30のハードウェア構成を図2に示す。
Next, the hardware configuration of the
文書処理サーバ30は、図2に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワーク40を介してデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。
As illustrated in FIG. 2, the
CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、文書処理サーバ30の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明したが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU11に提供することも可能である。
The
図3は、CPU11によりメモリ12または記憶装置13に格納された制御プログラムが実行されることにより実現される文書処理サーバ30の機能構成を示す図である。
FIG. 3 is a diagram showing a functional configuration of the
図3に示されるように、本実施形態における文書処理サーバ30は、文書データ受付部301と、文字列取得部302と、標準偏差算出部303と、空白挿入判定部304と、文字間隔リスト作成部305と、一次微分リスト作成部306と、閾値決定部307と、空白挿入部308とによって構成される。
As shown in FIG. 3, the
文書データ受付部301は、端末装置10または画像形成装置20からネットワーク40を介して送信された文書データを受け付ける。
The document
例えば、図4(A)に示されるように、文字列101〜103を含む文書データを受け付ける。
For example, as shown in FIG. 4A, document data including
文字列取得部302は、文書データ受付部301により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する。このとき、文字列取得部302は、文書データにおける各行ごとに文字列を取得する。
The character
例えば、図4(A)に示されるように、文字列取得部302は、文書データに含まれる文字列102の「this is a pen」という文字列において、それぞれの文字の文字コード及び座標情報を抽出することによって、文字列102を取得する。
For example, as shown in FIG. 4A, in the character string “this is a pen” of the
また、文字列取得部302は、前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する。また、文字列取得部302は、取得した文字列に含まれる隣接する2つの文字の距離である文字間隔を取得する。具体的には、図4(B)に示されるように、文字列取得部302において抽出された座標情報から各文字の外接矩形を求め、隣接する文字間において、左側の文字の外接矩形の右端のx座標と、右側の文字の外接矩形の左端のx座標との距離を、当該隣接する文字間の文字間隔とする。例えば、文字列102においては、文字列取得部302は、図4(B)に示されるように、「t」の外接矩形の右端と、「h」の外接矩形の左端との距離を「t」と「h」の文字間隔として検出する。また、文字列取得部302は、文字列102における他の文字間に対しても同様にして、図4(C)に示されるように、文字列102のそれぞれの文字において隣接する文字間の文字間隔を検出する。
Further, the character
標準偏差算出部303は、文字列取得部302により取得された文字列の文字間隔の標準偏差を算出する。
The standard
また、標準偏差算出部303は、文字列取得部302により取得された文字列の文字間隔において、偏差が設定値B(第2の予め定められた値)以下の文字間隔が含まれる場合、この文字間隔の偏差を0として当該文字列の標準偏差を再計算する。
In addition, when the character spacing of the character string acquired by the character
例えば、図5(A)に示されるように、文字列101の「Example」という文字それぞれにおいて、隣接する文字の文字間隔がそれぞれ「0、0、6、6、6、6(ピクセル)」である場合、文字列101の文字間隔の平均値は「4(ピクセル)」である。
For example, as shown in FIG. 5A, in each of the characters "Example" of the
ここで、「E」と「x」の文字間隔「0(ピクセル)」及び「x」と「a」の文字間隔は「0(ピクセル)」であり、文字列101の平均値は「4(ピクセル)」であるため、「E」と「x」の文字間隔及び「x」と「a」の文字間隔の偏差は「−4」である。そして、「E」と「x」の文字間隔及び「x」と「a」の文字間隔の偏差は設定値Bである「−2」以下であるため、標準偏差算出部303は、「E」と「x」の文字間隔及び「x」と「a」の文字間隔の偏差が0であるものとして扱う。具体的には、「E」と「x」との文字間隔及び「x」と「a」との文字間隔を「4(ピクセル)」に変更して、文字列101の文字間隔を「4、4、6、6、6、6」に変換する。
Here, the character spacing "0 (pixel)" of "E" and "x" and the character spacing of "x" and "a" are "0 (pixel)", and the average value of the
そして、標準偏差算出部303は、変換された文字列101の文字間隔の偏差に基づいて標準偏差を算出する。具体的には、図5(B)に示されるように、標準偏差算出部303は、変換された後の文字列101の各文字の文字間隔を、変換される前の文字列101の文字間隔の平均値により減算することで偏差を求め、各文字間隔の偏差の二乗の和を、文字列101の文字間隔数で除算して平方根を求めることによって標準偏差を算出する。これにより、分かち書き言語において単語の区切りである可能性が低い「E」と「x」間及び「x」と「a」間の偏差の影響が排除された標準偏差が算出される。
Then, the standard
空白挿入判定部304は、標準偏差算出部303により算出された標準偏差に基づいて、取得された文字列が、空白の文字コードを挿入する必要があるか否かを判定する。
The blank
具体的には、空白挿入判定部304は、標準偏差算出部303により算出された標準偏差が、設定値A(第1の予め定められた値)よりも大きい場合には、文字列に空白の文字コードを挿入する必要があると判定し、標準偏差が設定値A以下である場合には、文字列に空白の文字コードを挿入する必要がないと判定する。例えば、図5(B)に示されるように、文字列101の標準偏差が1.63であり、設定値Aの2以下であるため、空白挿入判定部304は、文字列101には空白の文字コードを挿入する必要がないと判定する。
Specifically, when the standard deviation calculated by the standard
文字間隔リスト作成部305は、文字列取得部302により取得された文字列に空白の文字コードを挿入する必要があると空白挿入判定部304によって判定された場合に、当該文字列において隣接する2つの文字の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する。本実施形態においては、文字間隔リスト作成部305は、文字列において隣接する2つの文字の文字間隔を小さい順に並べた文字間隔リストを作成する。
When it is determined by the blank space
一次微分リスト作成部306は、文字間隔リスト作成部305により作成された文字間隔リストにおける各文字間隔を一次微分することにより、一次微分リスト(変化量リスト)を作成する。ここで、一次微分リストとは、文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示すリストである。
The first derivative
閾値決定部307は、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストにおける文字間隔の平均値以上である場合に、当該文字間隔を閾値として決定する。
When the character spacing of the character spacing list corresponding to the maximum value in the first derivative list is equal to or more than the average value of the character spacing in the character spacing list, the
空白挿入部308は、取得された文字列に対して、閾値決定部307により決定された閾値以上の文字間隔の文字間に空白の文字コードを挿入する。また、空白挿入部308は、空白の文字コードを挿入する必要がないと空白挿入判定部304により判定された文字列に対しては、空白の文字コードを挿入する処理を行わない。さらに、空白挿入部308は、文字列に空白の文字コードを挿入した場合には、文字列に空白の文字コードが挿入された文書データをネットワーク40を介して端末装置10または画像形成装置20に送信する。
The
以下、文字間隔リスト作成部305、一次微分リスト作成部306、閾値決定部307及び空白挿入部308における処理の具体例について、図6及び図7を参照して詳細に説明する。
Hereinafter, specific examples of the processing in the character interval
まず、文字列102に対する処理について、図6を参照して詳細に説明する。
First, the process for the
まず、図6(A)に示されるように、文字間隔リスト作成部305は、文字列102における各文字の文字間隔「2、3、3、7、3、6、7、4、3(ピクセル)」を、左から小さい順に並べ替えて、文字間隔リスト「2、3、3、3、3、4、6、7、7(ピクセル)」を作成する。
First, as shown in FIG. 6A, the character spacing
そして、図6(B)に示されるように、一次微分リスト作成部306は、文字列102の文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。具体的には、一次微分リスト作成部306は、文字列102の文字間隔リスト「2、3、3、3、3、4、6、7、7(ピクセル)」において、それぞれの文字間隔ごとに、前後の文字間隔との差を算出して、これらの差を各文字間隔の前後の変化量とすることによって、一次微分リスト「1、0、0、0、1、2、1、0」を作成する。ここで、図6(B)に示されるように、一次微分リスト作成部306は、一次微分リストの値を、それぞれの算出元となった文字間隔リストにおける2つの文字間隔うち、右側(大きい側)の文字間隔と対応するよう作成する。
Then, as shown in FIG. 6B, the first derivative
次に、図6(B)に示されるように、閾値決定部307は、文字列102の一次微分リストを参照して、一次微分リストにおける最大値として「2」を検出する。そして、閾値決定部307は、文字列102の文字間隔リストを参照して、一次微分リストの「2」に対応する文字間隔として「6(ピクセル)」を検出する。そして、文字列102の文字間隔リストの平均値は約「4.22(ピクセル)」であるため、閾値決定部307は、検出された文字間隔「6(ピクセル)」を閾値として決定する。
Next, as shown in FIG. 6B, the threshold
そして、図6(C)に示されるように、空白挿入部308は、文字列102に対して、閾値決定部307により決定された閾値である「6(ピクセル)」以上の文字間隔である文字間に空白の文字コードを挿入する。具体的には、文字列102における「this」の「s」と「is」の「i」との間、「is」の「s」と「a」との間、「a」と「pen」の「p」との間にそれぞれ空白の文字コードを挿入する。
Then, as shown in FIG. 6C, the blank
次に、文字列103に対する処理について、図7を参照して詳細に説明する。
Next, the process for the
まず、図7(A)に示されるように、文字間隔リスト作成部305は、文字列103における各文字の文字間隔「0、0、0、7、3、6、7、4、3(ピクセル)」を小さい順に並べ替えて、文字間隔リスト「0、0、0、3、3、4、6、7、7」を作成する。
First, as shown in FIG. 7A, the character spacing
そして、図7(A)に示されるように、一次微分リスト作成部306は、文字列103の文字間隔リスト「0、0、0、3、3、4、6、7、7(ピクセル)」の一次微分リスト「0、0、3、0、1、2、1、0」を作成する。
Then, as shown in FIG. 7A, the first derivative
次に、閾値決定部307は、文字列103の一次微分リストを参照して、一次微分リストにおける最大値として「3」を検出する。そして、閾値決定部307は、文字列103の文字間隔リストを参照して、一次微分リストの「3」と対応する文字間隔として「3(ピクセル)」を検出する。ここで、図7(A)に示されるように、文字列103の文字間隔リストの平均値は「約3.33(ピクセル)」であり、検出された「3(ピクセル)」は文字間隔リストの平均値未満であるため、閾値決定部307は、一次微分リストの「3」と、検出された文字間隔「3(ピクセル)」を閾値の候補から除外する。
Next, the threshold
次に、閾値決定部307は、図7(B)に示されるように、一次微分リストにおいて「3」の次に大きい値である「2」を検出する。次に、閾値決定部307は、一次微分リストの「2」に対応する文字間隔リストの文字間隔として「6(ピクセル)」を検出する。そして、検出された文字間隔「6(ピクセル)」は文字列103の文字間隔リストの平均値「3.33(ピクセル)」以上であるため、閾値決定部307は、閾値として「6(ピクセル)」を決定する。
Next, as shown in FIG. 7B, the threshold
そして、図7(C)に示されるように、空白挿入部308は、文字列103に対して、閾値決定部307により決定された閾値である「6(ピクセル)」以上の文字間隔である文字間に空白の文字コードを挿入する。具体的には、文字列103における「this」の「s」と「is」の「i」との間、「is」の「s」と「a」との間、「a」と「pen」の「p」との間にそれぞれ空白の文字コードを挿入する。
Then, as shown in FIG. 7C, the blank
なお、本実施形態においては、閾値決定部307は、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストにおける文字間隔の平均値以上である場合に当該文字間隔を閾値として決定するものとして説明しているが、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストの中央に位置する文字間隔より大きい場合に当該文字間隔を閾値として決定するようにしてもよい。
In the present embodiment, when the character spacing of the character spacing list corresponding to the maximum value in the first derivative list is equal to or larger than the average value of the character spacing in the character spacing list, the
次に、第1の実施形態における文書処理サーバ30の処理を、図8のフローチャートを参照して説明する。
Next, processing of the
まず、文書データ受付部301は、端末装置10または画像形成装置20からネットワーク40を介して文書データを受け付ける(ステップS101)。
First, the document
次に、文字列取得部302は、受け付けた文書データの文字コード及び文字の座標情報に基づいて文字列を取得する(ステップS102)。この時、文字列取得部302は、取得された文字列の文字間隔を取得する。
Next, the character
また、標準偏差算出部303は、取得された文字列における文字間隔の標準偏差を算出する(ステップS103)。
Also, the standard
そして、空白挿入判定部304は、算出された標準偏差が設定値A以下であるか否かを判定する(ステップS104)。算出された標準偏差が設定値A以下である場合には(ステップS104においてyes)、処理を終了する。
Then, the blank
また、算出された標準偏差が設定値Aより大きい場合には(ステップS104においてno)、文字間隔リスト作成部305は、取得された文字列の文字間隔を小さい順に並べた文字間隔リストを作成する(ステップS105)。
If the calculated standard deviation is larger than the set value A (No in step S104), the character interval
次に、一次微分リスト作成部306は、作成された文字間隔リストの各文字間隔を一次微分することにより一次微分リストを作成する(ステップS106)。
Next, the first derivative
そして、閾値決定部307は、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストにおける文字間隔の平均値以上である場合に当該文字間隔を閾値として決定する(ステップS107)。
Then, when the character spacing of the character spacing list corresponding to the maximum value in the first derivative list is equal to or more than the average value of the character spacing in the character spacing list, the
そして、空白挿入部308は、決定された閾値以上の文字間隔である2つの文字間に空白の文字コードを挿入する(ステップS108)。
Then, the
[第2の実施形態]
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。
Second Embodiment
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
第2の実施形態においては、第1の実施形態における処理が行われた後、空白挿入部308により空白の文字コードが挿入された文字列に対して、文書データを構成する言語の単語であるか否かを判定し、当該文字列が単語ではない場合に、再度、空白の文字コードを挿入する処理を行う。なお、第1の実施形態と同じ構成については、同一の符号を付して説明を省略する。
In the second embodiment, after the processing in the first embodiment is performed, the character string in which a blank character code is inserted by the
第2の実施形態における文書処理システムは、図1に示される第1の実施形態の文書処理システムにおいて、文書処理サーバ30が文書処理サーバ30aに置き換えられている。なお、文書処理サーバ30aのハードウェア構成は、第1の実施形態と同じ構成であるため説明を省略する。
The document processing system according to the second embodiment is the document processing system according to the first embodiment shown in FIG. 1, in which the
次に、文書処理サーバ30aの機能構成について、図9を参照して詳細に説明する。
Next, the functional configuration of the
図9に示されるように、第2の実施形態における文書処理サーバ30aは、第1の実施形態における文書処理サーバ30に対して、文字列分割部309と、記憶部310と、単語判定部311とが追加されている。
As shown in FIG. 9, the
文字列分割部309は、第1の実施形態と同様に処理によって、文字列取得部302により取得された文字列に対して空白の文字コードが挿入された後、この文字列を、空白挿入部308により挿入された空白の文字コードを境に分割する。
The character
記憶部310は、文書データを構成する分かち書きの言語の単語を記憶する。本実施形態においては、記憶部310は、英単語辞書のデータを登録することにより英単語のデータを予め記憶しておく。 The storage unit 310 stores words of the split language that constitute document data. In the present embodiment, the storage unit 310 stores data of English words in advance by registering data of the English word dictionary.
単語判定部311は、文字列分割部309により分割された文字列が記憶部310に記憶された単語と一致するか否かを判定する。本実施形態においては、単語判定部311は、文字列取得部302により取得された文字コードと座標情報とに基づいて、当該文字コードの並び順と、記憶部310に記憶された単語における文字の並び順とを比較することにより一致するか否かを判定する。また、単語判定部311は、文字列分割部309により分割された文字列が記憶部310に記憶された単語と一致すると判定した場合には、文字列に空白の文字コードが挿入された文書データを、ネットワーク40を介して端末装置10または画像形成装置20に送信する。
The
また、文字間隔リスト作成部305は、文字列分割部309によって分割された文字列が、記憶部310に記憶された単語と一致しないと単語判定部311により判定された場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成する。
In addition, the character interval
一次微分リスト作成部306は、文字列分割部309により分割された文字列の文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。
The first derivative
閾値決定部307は、文字列分割部309により分割された文字列の一次微分リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定する。
The
空白挿入部308は、文字列分割部309により分割された文字列に対して、閾値決定部307により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する
The
例えば、図10(A)に示されるような文書データにおいて、文字列取得部302により、「this is a pen」という文字列104が取得された場合、文書処理サーバ30は、まず、第1の実施形態と同様の処理を行う。
For example, in the document data as illustrated in FIG. 10A, when the character
具体的には、図10(B)に示されるように、文字間隔リスト作成部305は、文字列104の文字間隔を小さい順に並べることにより、文字間隔リスト「2、2、3、3、3、4、8、8、18(ピクセル)」を作成する。
Specifically, as shown in FIG. 10B, the character interval
そして、一次微分リスト作成部306は、図10(B)に示されるように、文字間隔リスト「2、2、3、3、3、4、8、8、18(ピクセル)」の一次微分リスト「0、1、0、0、1、4、0、10」を作成する。
Then, as shown in FIG. 10B, the first derivative
そして、閾値決定部307は、一次微分リストにおける最大値「10」を検出し、これに対応する文字間隔「18(ピクセル)」を検出する。そして、文字間隔リストの平均値は「約5.67(ピクセル)」であるため、文字間隔「18(ピクセル)」を第1の閾値として決定する。
Then, the threshold
次に、空白挿入部308は、図10(B)に示されるように、文字列104に対して、第1の閾値として決定された文字間隔「18(ピクセル)」以上の文字間隔である「is」の「s」と「a」との間に空白の文字コードを挿入する。
Next, as shown in FIG. 10B, the blank
次に、文字列分割部309は、文字列に空白の文字コードが挿入された文字列104を、図10(C)に示されるように、文字列104aとして「this is」、及び文字列104bとして「a pen」に分割する。そして、単語判定部311は、記憶部310に記憶された英単語辞書のデータを参照して、「this is」及び「a pen」という単語が存在するか否かを判定する。
Next, the character
そして、英単語辞書には「this is」という単語及び「a pen」という単語は存在しないため、文字間隔リスト作成部305は、図10(C)に示されるように、文字列104a及び文字列104bそれぞれの文字間隔リストを作成する。
Then, since the word "this is" and the word "a pen" do not exist in the English word dictionary, the character interval
次に、一次微分リスト作成部306は、図10(C)に示されるように、文字列104a及び文字列104bそれぞれの文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。
Next, as shown in FIG. 10C, the first derivative
そして、閾値決定部307は、文字列104a及び文字列104bそれぞれの一次微分リストにおける最大値に対応する文字間隔リストの文字間隔をそれぞれの文字列の第2の閾値として決定する。
Then, the
例えば、図10(C)に示されるように、閾値決定部307は、文字列104aの一次微分リストにおける最大値「5」を検出し、これに対応する文字間隔リストの文字間隔「8」を文字列104aの第2の閾値として決定する。また、閾値決定部307は、図10(C)に示されるように、文字列104bの一次微分リストにおける最大値「4」を検出し、これに対応する文字間隔リストの文字間隔「8」を文字列104bの第2の閾値として決定する。
For example, as shown in FIG. 10C, the threshold
そして、空白挿入部308は、文字列104a及び文字列104bに対して、閾値決定部307により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する。例えば、図10(C)に示されるように、空白挿入部308は、文字列104aにおいては、「this」の「s」と「is」の「i」との間に空白の文字コードを挿入する。また、空白挿入部308は、図10(C)に示されるように、文字列104bにおいては、「a」と「p」との間に空白の文字コードを挿入する。
Then, the
次に、第2の実施形態における文書処理サーバ30aの処理を図11のフローチャートを参照して説明する。なお、第1の実施形態と同じ処理については説明を省略する。
Next, the processing of the
まず、文字列分割部309は、空白挿入部308により第1の閾値以上の文字間隔である文字間に空白の文字コードが挿入された文字列を、挿入された空白コードごとに分割する(ステップS201)。
First, the character
次に、単語判定部311は、文字列分割部309により分割された文字列が、記憶部310に記憶された単語と一致するか否かを判定する(ステップS202)。文字列分割部309により分割された文字列が、記憶部310に記憶された単語と一致する場合(ステップS202においてno)、処理を終了する。
Next, the
また、文字列分割部309により分割された文字列が、記憶部310に記憶された単語と一致しないと判定された場合(ステップS202においてyes)、文字間隔リスト作成部305は、分割された文字列の文字間隔を小さい順に並べた文字間隔リストを作成する(ステップS203)。
When it is determined that the character string divided by character
そして、一次微分リスト作成部306は、ステップS203において作成された文字間隔リストの文字間隔の各文字間隔を一次微分することにより一次微分リストを作成する(ステップS204)。
Then, the first derivative
次に、閾値決定部307は、ステップS204において作成された一次微分リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定する(ステップS205)。
Next, the
そして、空白挿入部308は、分割された文字列に対して、ステップS205において決定された閾値以上の文字間隔の文字間に空白の文字コードを挿入する(ステップS206)。そして、ステップS201に戻り、ステップS201〜ステップS206の処理を繰り返す。
Then, the blank
なお、第2の実施形態においては、空白の文字コードを挿入する処理を2回行うものとして説明しているが、空白挿入部308により文字列に対して空白の文字コードが挿入されるごとに、当該文字列が文書データを構成する言語の単語であるか否かを判定し、当該文字列が単語ではない場合には、第2の実施形態と同様の方法により空白の文字コードを挿入する処理を再帰的に繰り返すようにしてもよい。
In the second embodiment, although the process of inserting the blank character code is performed twice, the
また、第2の実施形態においては、記憶部310に記憶される言語の単語が英語であるものとして説明したが、文書データを構成する言語が他の分かち書きの言語である場合には、当該言語の単語を記憶するようにしてもよい。また、文書データが複数の言語により構成されている場合には、記憶部310は、複数の言語の単語を記憶するようにしてもよい。 In the second embodiment, the language of the language stored in the storage unit 310 is described as English. However, when the language of the document data is another split language, the language is May be stored. In addition, when the document data is configured in a plurality of languages, the storage unit 310 may store words in a plurality of languages.
[第3の実施形態]
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。
Third Embodiment
Next, a third embodiment of the present invention will be described in detail with reference to the drawings.
第3の実施形態においては、第1の実施形態における空白の文字コードを挿入する処理が行われる前に、既に空白の文字コードが挿入されている場合に、この空白の文字コードが過挿入であるか否かを判定する場合について説明する。なお、第3の実施形態においても、第1の実施形態と同じ構成については説明を省略する。 In the third embodiment, if the blank character code is already inserted before the blank character code insertion processing in the first embodiment is performed, the blank character code is overinserted. The case where it is determined whether there is any will be described. Also in the third embodiment, the description of the same configuration as that of the first embodiment will be omitted.
第3の実施形態における文書処理システムは、図1に示される第1の実施形態における文書処理システムにおいて、文書処理サーバ30が文書処理サーバ30bに置き換えられている。なお、文書処理サーバ30bのハードウェア構成は、第1の実施形態と同じ構成であるため説明を省略する。
The document processing system in the third embodiment is the document processing system in the first embodiment shown in FIG. 1, in which the
次に、図12を参照して、第3の実施形態における文書処理サーバ30bの機能構成を詳細に説明する。なお、第1の実施形態と同じ構成については、同じ符号を付して説明を省略する。
Next, the functional configuration of the
図12に示されるように、第3の実施形態における文書処理サーバ30bは、第1の実施形態における文書処理サーバ30に対して、判別分析部312と、過挿入判定部313が追加されている。
As shown in FIG. 12, in the
判別分析部312は、文字列取得部302により取得された文字列に空白の文字コードを挿入する必要があると空白挿入判定部304により判定された場合に、判別分析法を用いて判別分析の閾値を決定する。
When it is determined by the blank
過挿入判定部313は、取得された文字列に対して、空白挿入部308により判別分析の閾値に基づいて空白の文字コードが挿入された場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるか否かを判定する。本実施形態においては、予め定められた割合を40%として予め設定されている。
When a blank character code is inserted into the acquired character string based on the threshold of discriminant analysis by the
また、過挿入判定部313は、空白の文字コードの数が、取得された文字列の文字間隔数の40%以上である場合には、文字間隔リスト作成部305に対して、当該文字列に既に含まれている空白の文字コードを全て削除した後、文字間隔リストを作成するよう指示する。
If the number of blank character codes is 40% or more of the number of character intervals of the acquired character string, the excessive
以下、第3の実施形態における処理の具体例を図13、図14を参照して詳細に説明する。 Hereinafter, a specific example of the process in the third embodiment will be described in detail with reference to FIGS. 13 and 14.
例えば、文書データ受付部301によって、図13(A)に示されるような文書データを受け付けて、図13(B)に示されるように、文字列取得部302によって文字列105を取得される。次に、判別分析部312は、図13(C)に示されるように、文字列105の文字間隔のヒストグラムを作成する。
For example, the document
そして、判別分析部312は、作成したヒストグラムに対して判別分析法を用いることにより、判別分析の閾値を境界として、ヒストグラムの値を2つのグループに分類する。例えば、図13(C)に示されるように、「3(ピクセル)」を判別分析の閾値として算出し、ヒストグラムの値を「3(ピクセル)」より大きい文字間隔と、「3(ピクセル)」以下の文字間隔との2つのグループに分類する。
Then, the
そして、空白挿入部308は、判別分析部312により決定された判別分析の閾値より大きい文字間隔の文字間に空白の文字コードを挿入する。例えば、図14(A)に示されるように、文字列105において、「Failed」の「a」と「i」との間、「Failed」の「l」と「e」との間、「Failed」の「d」と「example」の「e」との間、「example」の「x」と「a」との間、「example」の「a」と「m」との間にそれぞれ空白の文字コードを挿入する。
Then, the
次に、図14(B)に示されるように、文字列105の文字間隔数が12個、判別分析の閾値より大きい文字間隔に挿入された空白の文字コード数が5個である場合、空白コードの数は、文字列105の文字間隔数の約41.67%であるため、過挿入判定部313は、文字列105に対して挿入された空白の文字コードの数が、文字列105の文字間隔数の予め定められた割合以上であると判定する。
Next, as shown in FIG. 14B, when the number of character intervals of the
また、過挿入判定部313は、文字列に対して挿入された空白コードが、文字列105の文字間隔数の予め定められた割合以上であると判定した場合には、文字間隔リスト作成部305に対して、文字列105に含まれる空白の文字コードを全て削除した後、文字列105の文字間隔リストを作成するよう指示する。
In addition, when it is determined that the space code inserted into the character string is equal to or more than a predetermined ratio of the character interval number of the
そして、文字間隔リスト作成部305は、文字列105に含まれる空白の文字コードを全て削除した後、第1の実施形態と同様に、文字列105の文字間隔リストを作成する。例えば、図14(C)に示されるように、文字列105の文字間隔リストとして「1、1、2、2、2、2、3、4、4、4、4、6」を作成する。
Then, after deleting all blank character codes included in the
また、一次微分リスト作成部306は、第1の実施形態と同様に、文字列105の文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。例えば、図14(C)に示されるように、文字列105の一次微分リストとして「0、1、0、0、0、1、1、0、0、0、2」を作成する。
Further, as in the first embodiment, the first derivative
次に、閾値決定部307は、文字列105の一次微分リストにおける最大値として「2」を検出し、これに対応する文字間隔リストの「6(ピクセル)」を閾値として決定する。
Next, the threshold
そして、空白挿入部308は、図14(D)に示されるように、「6(ピクセル」以上の文字間隔の文字間に空白の文字コードを挿入する。具体的には、「Failed」の「d」と「example」のうち先頭の「e」との間に空白の文字コードを挿入する。
Then, the
次に、第3の実施形態における文書処理サーバ30bの処理について、図15のフローチャートを参照して説明する。なお、第1の実施形態と同様の処理については同じ符号を付して説明を省略する。
Next, processing of the
まず、文書データ受付部301により文書データが受け付けられ、文字列取得部302により取得された文字列の標準偏差が設定値Aより大きいと空白挿入判定部304により判定された場合に、判別分析部312は、判別分析法を用いて判別分析の閾値を決定する(ステップS301)。
First, when the document
次に、空白挿入部308は、ステップS301において決定された閾値より大きい文字間隔である文字間に空白の文字コードを挿入する(ステップS302)。
Next, the
そして、過挿入判定部313は、ステップS302において挿入された空白の文字コードの数が、取得された文字列の文字間隔数の40%以上であるか否かを判定する(ステップS303)。挿入された空白の文字コードの数が、取得された文字列の40%未満である場合(ステップS303においてno)、処理を終了する。
Then, the excessive
また、ステップS302において挿入された空白の文字コードの数が、取得された文字列の文字間隔数の40%以上である場合(ステップS303においてyes)、過挿入判定部313は、文字間隔リスト作成部305に対して、挿入された空白の文字コードを全て削除して、文字間隔リストを作成するよう指示する(ステップS304)。
If the number of blank character codes inserted in step S302 is 40% or more of the number of character intervals of the acquired character string (yes in step S303), the
そして、過挿入判定部313が文字間隔リストを作成するよう指示した場合には、文書処理サーバ30bは、空白の文字コードが全て削除された文字列に対して、第1の実施形態と同様の処理により空白の文字コードを挿入する処理を行う(ステップS105〜ステップS108)。
Then, when the
[変形例]
なお、第3の実施形態においては、判別分析の閾値に基づいて挿入された空白の文字コードの数が、文字列の文字間隔数の予め定められた割合以上であるか否かを判定するものとして説明した。しかし、文書データ受付部301において受け付けられた文書データの文字列に既に空白の文字コードが含まれている場合には、判別分析の閾値に基づく空白の文字コードの挿入処理を行わずに、取得された文字列における空白の文字コードの数が、文字列の文字間隔数の予め定められた割合以上であるか否かを判定するようにしてもよい。
[Modification]
In the third embodiment, it is determined whether the number of blank character codes inserted based on the threshold of discriminant analysis is equal to or more than a predetermined ratio of the number of character intervals of the character string. As described. However, when the character string of the document data accepted by the document
なお、上記の説明では、第1、第2及び第3の実施形態においてそれぞれ異なる構成を有する文書サーバ30について説明したが、文書サーバ30は、第1、第2及び第3の実施形態の構成を一部または全て含むようにしてもよい。
In the above description, the
また、上記第1から第3の実施形態では、文書データが英語により構成された場合を用いて説明しているが、ドイツ語、フランス語、韓国語、ベトナム語等のように、単語間の区切りに空白を挿入して記述する分かち書きの言語により文書データが構成されている場合であれば同様に本発明を適用可能である。また、一般的に日本語は分かち書きの言語ではないが、ひらがな文を分かち書きにより記述したような文書データであれば本発明を同様に適用可能である。 Also, in the first to third embodiments described above, the document data is described in the case of being composed of English, but as in German, French, Korean, Vietnamese, etc., separation of words The present invention is similarly applicable to the case where document data is configured in a split language, which is described by inserting a space in. Also, in general, Japanese is not a split language, but the present invention is similarly applicable to any document data in which a hiragana sentence is described by a split.
さらに、上記第1から第3の実施形態では、文字コードと座標情報とが含まれている文書データに対して空白を挿入する場合を用いて説明しているが、書類をスキャンして読み取ったデータをOCR(optical character recognition)処理して得られた文書データに対して空白を挿入するような場合にも本発明は適用可能である。 Furthermore, in the first to third embodiments described above, the case of inserting a space into the document data including the character code and the coordinate information is described, but the document is scanned and read. The present invention is also applicable to the case where a space is inserted into document data obtained by subjecting data to OCR (optical character recognition) processing.
本発明の構成を採用することで文書データの適切な位置に空白の文字コードを挿入することが可能となり、その後の翻訳処理などの精度の向上に寄与する。なお、過挿入を抑制することに加え、場合によっては、本来挿入すべき位置に空白の文字コードを挿入できない未挿入を抑制することも可能である。 By adopting the configuration of the present invention, it becomes possible to insert a blank character code at an appropriate position of document data, which contributes to the improvement of the accuracy of subsequent translation processing and the like. In addition to suppressing over-insertion, in some cases, it is also possible to suppress uninsertion in which a blank character code can not be inserted at a position to be originally inserted.
10 端末装置
11 CPU
12 メモリ
13 記憶装置
14 通信IF
15 UI装置
16 制御バス
20 画像形成装置
30、30a、30b 文書処理サーバ
40 ネットワーク
101〜105 文字列
301 文書データ受付部
302 文字列取得部
303 標準偏差算出部
304 空白挿入判定部
305 文字間隔リスト作成部
306 一次微分リスト作成部
307 閾値決定部
308 空白挿入部
309 文字列分割部
310 記憶部
311 単語判定部
312 判別分析部
313 過挿入判定部
10
12
15
Claims (7)
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置。 Reception means for receiving document data;
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
If the character spacing of the character spacing list corresponding to the maximum value in the variation amount list is less than the average value of the character spacing in the character spacing list or less than the character spacing located at the center of the character spacing list A character spacing of the character spacing list corresponding to the second largest value of the excluded character spacing excluded from the first threshold candidate and the value in the variation list of the excluded character spacing, or a character spacing corresponding to the maximum value of the variation amount list Determining means for determining the character spacing as a first threshold when the character spacing of the list is greater than or equal to the average value of the character spacing in the character spacing list or greater than the character spacing located at the center of the character spacing list ;
Inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
A document processing device having:
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記取得手段により取得された文字列の文字間隔の標準偏差が、第1の予め定められた値以下である場合に、当該文字列には空白の文字コードを挿入する必要がないと判定する判定手段と、を有し、
前記挿入手段は、前記判定手段により空白の文字コードを挿入する必要がないと判定された文字列に対しては、空白の文字コードの挿入を行わない文書処理装置。 Reception means for receiving document data;
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
A determination unit configured to determine, as a first threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation amount list;
Inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
When the standard deviation of the character spacing of the character string acquired by the acquisition means is less than or equal to a first predetermined value, it is determined that it is not necessary to insert a blank character code in the character string Means, and
The insertion means, wherein for the determined character string as there is no need to insert the character code space by determining means, Ibn document processing apparatus to perform the insertion of blank character codes.
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記文書データの文字列は分かち書きの言語により構成され、
前記言語の単語を記憶する記憶手段と、
前記取得手段により取得された文字列を、前記挿入手段により挿入された空白の文字コードを境に分割する分割手段と、を有し、
前記第1の作成手段は、前記分割手段により分割された文字列が前記記憶手段に記憶された単語と一致しない場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成し、
前記第2の作成手段は、前記分割された文字列の文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成し、
前記決定手段は、前記分割された文字列の変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定し、
前記挿入手段は、前記分割された文字列に対して、前記決定手段により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する文書処理装置。 Reception means for receiving document data;
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
A determination unit configured to determine, as a first threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation amount list;
Inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
The character string of the document data is composed of a split language,
Storage means for storing words of the language;
A character string acquired by the acquisition unit, has a dividing means for dividing the boundary of character codes inserted blank by said inserting means,
When the character string divided by the dividing unit does not match the word stored in the storage unit, the first creating unit is a character in which the character intervals of the divided character string are arranged in order of size Create an interval list,
The second creation means creates a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list of the divided character strings;
The determining means determines, as a second threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation list of the divided character strings.
It said insertion means, the divided on strings, inserted to Rubun document processing device character code spaces between characters of the second threshold value or more character spacing determined by the determining means.
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、を有し、
前記第1の作成手段は、取得された文字列に既に空白の文字コードが含まれている場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるとき、当該文字列に含まれる空白の文字コードを全て削除した後、前記文字間隔リストを作成する文書処理装置。 Reception means for receiving document data;
An acquisition unit configured to acquire a character string based on a character code included in the document data accepted by the acceptance unit;
A first creation unit configured to create a character interval list in which character intervals, which are distances between two adjacent characters in the character string acquired by the acquisition unit, are arranged in order of size;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
A determination unit configured to determine, as a first threshold, the character spacing of the character spacing list corresponding to the maximum value in the variation amount list;
And inserting means for inserting a character code of a space between characters of the character spacing equal to or more than the first threshold with respect to the character string;
When the acquired character string already includes a blank character code, the first creating means determines that the number of blank character codes is a predetermined number of character intervals of the acquired character string. when it is proportion or more, after deleting all blank character codes included in the character string, Rubun document to create the character spacing list processing apparatus.
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置。 First creation means for creating a character interval list by rearranging character intervals, which is the distance between two adjacent characters in the accepted character string, in order of magnitude;
Second creation means for creating a variation amount list indicating variation amounts with respect to character spacing before and after each character spacing in the character spacing list;
If the character spacing of the character spacing list corresponding to the maximum value in the variation amount list is less than the average value of the character spacing in the character spacing list or less than the character spacing located at the center of the character spacing list A character spacing of the character spacing list corresponding to the second largest value of the excluded character spacing excluded from the first threshold candidate and the value in the variation list of the excluded character spacing, or a character spacing corresponding to the maximum value of the variation amount list Inserting means for inserting a blank character code between characters of the character spacing list if the character spacing of the list is greater than or equal to the average value of the character spacing in the character spacing list or the character spacing located at the center of the character spacing list When,
A document processing device having:
受け付けられた文書データに含まれる文字コードに基づいて文字列を取得するステップと、
取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成するステップと、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成するステップと、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を閾値として決定するステップと、
前記文字列に対して、前記閾値以上の文字間隔の文字間に空白の文字コードを挿入するステップと、
をコンピュータに実行させるためのプログラム。 Accepting document data;
Acquiring a character string based on a character code included in the accepted document data;
Creating a character interval list in which character intervals, which are distances between two adjacent characters in the acquired character string, are arranged in order of magnitude;
Creating a variation amount list indicating variation amounts for character spacing before and after each character spacing in the character spacing list;
If the character spacing of the character spacing list corresponding to the maximum value in the variation amount list is less than the average value of the character spacing in the character spacing list or less than the character spacing located at the center of the character spacing list Character spacing of the character spacing list corresponding to the second largest value in the variation amount list of excluded character spacings excluded from threshold candidates, or character spacing list character corresponding to the maximum value of the variation amount list Determining the character spacing as a threshold if the spacing is greater than or equal to the average value of the character spacing in the character spacing list or greater than the character spacing located at the center of the character spacing list ;
Inserting a character code of a space between characters of the character space equal to or more than the threshold value for the character string;
A program to make a computer run.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167569A JP6528927B2 (en) | 2014-08-20 | 2014-08-20 | Document processing apparatus and program |
PCT/JP2015/050712 WO2016027476A1 (en) | 2014-08-20 | 2015-01-14 | Document processing device, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167569A JP6528927B2 (en) | 2014-08-20 | 2014-08-20 | Document processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016045566A JP2016045566A (en) | 2016-04-04 |
JP6528927B2 true JP6528927B2 (en) | 2019-06-12 |
Family
ID=55350436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014167569A Expired - Fee Related JP6528927B2 (en) | 2014-08-20 | 2014-08-20 | Document processing apparatus and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6528927B2 (en) |
WO (1) | WO2016027476A1 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5248845B2 (en) * | 2006-12-13 | 2013-07-31 | キヤノン株式会社 | Document processing apparatus, document processing method, program, and storage medium |
US8443278B2 (en) * | 2009-01-02 | 2013-05-14 | Apple Inc. | Identification of tables in an unstructured document |
JP5821648B2 (en) * | 2012-01-18 | 2015-11-24 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
JP5949248B2 (en) * | 2012-07-12 | 2016-07-06 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
-
2014
- 2014-08-20 JP JP2014167569A patent/JP6528927B2/en not_active Expired - Fee Related
-
2015
- 2015-01-14 WO PCT/JP2015/050712 patent/WO2016027476A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016027476A1 (en) | 2016-02-25 |
JP2016045566A (en) | 2016-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885325B2 (en) | Information processing apparatus, control method, and storage medium | |
JP3919617B2 (en) | Character recognition device, character recognition method, program, and storage medium | |
JP5663866B2 (en) | Information processing apparatus and information processing program | |
JP5508359B2 (en) | Character recognition device, character recognition method and program | |
CN102592299B (en) | Document generating apparatus and document generating method | |
EA001689B1 (en) | Automatic language identification system for multilingual optical character recognition | |
US9280725B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2018055255A (en) | Information processing apparatus, information processing method, and program | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
CN115828874A (en) | Industry table digital processing method based on image recognition technology | |
US10579707B2 (en) | Method for inferring blocks of text in electronic documents | |
JP5412916B2 (en) | Document image processing apparatus, document image processing method, and document image processing program | |
JP2007310501A (en) | Information processor, its control method, and program | |
JP6528927B2 (en) | Document processing apparatus and program | |
JP7027757B2 (en) | Information processing equipment and information processing programs | |
CN112541505B (en) | Text recognition method, text recognition device and computer-readable storage medium | |
EP3985556A1 (en) | Apparatus and method for document recognition | |
JP6131765B2 (en) | Information processing apparatus and information processing program | |
JP7383882B2 (en) | Information processing device and information processing program | |
JP6007720B2 (en) | Information processing apparatus and information processing program | |
CN111860513A (en) | Optical character recognition support system | |
JP2017010187A (en) | Image processing device and image processing program | |
García-Calderón et al. | Unsupervised multi-language handwritten text line segmentation | |
JP7358838B2 (en) | Information processing device and information processing program | |
JP2004078531A (en) | Character recognition device, character recognition method, and program for executing method in computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190430 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6528927 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |