JP6528927B2 - 文書処理装置及びプログラム - Google Patents

文書処理装置及びプログラム Download PDF

Info

Publication number
JP6528927B2
JP6528927B2 JP2014167569A JP2014167569A JP6528927B2 JP 6528927 B2 JP6528927 B2 JP 6528927B2 JP 2014167569 A JP2014167569 A JP 2014167569A JP 2014167569 A JP2014167569 A JP 2014167569A JP 6528927 B2 JP6528927 B2 JP 6528927B2
Authority
JP
Japan
Prior art keywords
character
list
spacing
character spacing
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014167569A
Other languages
English (en)
Other versions
JP2016045566A (ja
Inventor
鶴慶 銭
鶴慶 銭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2014167569A priority Critical patent/JP6528927B2/ja
Priority to PCT/JP2015/050712 priority patent/WO2016027476A1/ja
Publication of JP2016045566A publication Critical patent/JP2016045566A/ja
Application granted granted Critical
Publication of JP6528927B2 publication Critical patent/JP6528927B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Record Information Processing For Printing (AREA)

Description

本発明は、文書処理装置及びプログラムに関する。
特許文献1には、互いに隣接する文字領域間の間隔の第1の分布及び文字領域の重心間距離の第2の分布をそれぞれ二分割したときに第1及び第2の分離度を判別分析により求め、第1の分離度と第2の分離度とを比較することで文字列の表記に用いられているフォントを判定して、判定されたフォントに従って単語間の空白を検出するための閾値を設定し、文字領域間の間隔または重心間の距離が閾値以上である場合、対応する二つの文字の間に単語間の空白を検出する技術が開示されている。
また、特許文献2には、均等割付けされた文字であるか、見出し文字列であるか、和文・欧文などの文字種判断などの結果に基づいて、空白文字を挿入するか否かの判断を行う技術が開示されている。
また、特許文献3には、英語表記ルールによる判断、元文書データに含まれる空白文字の有無の情報による判断、隣接する文字同士が含まれる文字列オブジェクトの同一性による判断、隣接する文字同士が含まれる文字列オブジェクトの間隔による判断を用いて隣接する文字が同じ単語に含まれるかどうかについて判断する技術が開示されている。
特開2013−097561号公報 特開2008−171400号公報 特開2012−008965号公報
単語間に空白の文字コードが挿入されていない分かち書き言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入が発生するという問題点があった。
本発明の目的は、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置及びプログラムを提供することである。
請求項1に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置である。
請求項に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記取得手段により取得された文字列の文字間隔の標準偏差が、第1の予め定められた値以下である場合に、当該文字列には空白の文字コードを挿入する必要がないと判定する判定手段と、を有し、
前記挿入手段は、前記判定手段により空白の文字コードを挿入する必要がないと判定された文字列に対しては、空白の文字コードの挿入を行わない文書処理装置である。
請求項に係る本発明は、前記判定手段は、前記取得手段により取得された文字列において、偏差が第2の予め定められた値以下の文字間隔が含まれる場合、当該文字間隔の偏差を0として当該文字列の標準偏差を再計算し、再計算後の標準偏差が、第1の予め定められた値以下であるとき、当該文字列には空白の文字コードを挿入する必要がないと判定する請求項記載の文書処理装置である。
請求項に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
前記文書データの文字列は分かち書きの言語により構成され、
前記言語の単語を記憶する記憶手段と、
前記取得手段により取得された文字列を、前記挿入手段により挿入された空白の文字コードを境に分割する分割手段と、を有し、
前記第1の作成手段は、前記分割手段により分割された文字列が前記記憶手段に記憶された単語と一致しない場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成し、
前記第2の作成手段は、前記分割された文字列の文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成し、
前記決定手段は、前記分割された文字列の変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定し、
前記挿入手段は、前記分割された文字列に対して、前記決定手段により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する文書処理装置である。
請求項に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、を有し、
前記第1の作成手段は、取得された文字列に既に空白の文字コードが含まれている場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるとき、当該文字列に含まれる空白の文字コードを全て削除した後、前記文字間隔リストを作成する文書処理装置である。
請求項に係る本発明は、受け付けた文字列の中の隣接する2つの文字間の距離である文字間隔を大きさの順に並べ替えて文字間隔リストを作成する第1の作成手段と、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
を有する文書処理装置である。
請求項に係る本発明は、文書データを受け付けるステップと、
受け付けられた文書データに含まれる文字コードに基づいて文字列を取得するステップと、
取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成するステップと、
前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成するステップと、
前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を閾値として決定するステップと、
前記文字列に対して、前記閾値以上の文字間隔の文字間に空白の文字コードを挿入するステップと、
をコンピュータに実行させるためのプログラムである。
請求項1又は請求項に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。また、請求項1又は請求項6に係る本発明によれば、単語間に空白の文字コードが挿入されていない文書データの単語間に空白の文字コードを挿入する際に、判別分析法等を用いて空白の文字コードの挿入位置を検出する場合と比較して、空白の文字コードの挿入位置を高い精度で検出することが可能な文書処理装置を提供することができる。
請求項に係る本発明によれば、文字列の文字間隔の標準偏差に基づいて、空白の文字コードを挿入する必要がある文字列であるか否かを判定することが可能な文書処理装置を提供することができる。また、請求項2に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。
請求項に係る本発明によれば、文字列の標準偏差に基づいて、空白の文字コードを挿入する必要がある文字列であるか否かを判定することが可能な文書処理装置を提供することができる。
請求項に係る発明によれば、分かち書きの言語で構成された文書データにおいて、文字列が単語ごとに区切られる位置に空白の文字コードを挿入することが可能な文書処理装置を提供することができる。また、請求項4に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。
請求項に係る本発明によれば、文字列の文字間隔数の予め定められた割合以上の空白の文字コードが既に含まれている文字列において、判別分析法等を用いて空白の挿入位置を検出する場合と比較して、空白の挿入位置を高い精度で検出することが可能な文書処理装置を提供することができる。また、請求項5に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能な文書処理装置を提供することができる。
請求項に係る本発明によれば、単語間に空白の文字コードが挿入されていない分かち書きの言語の文書データに対して、判別分析法等により単語間の位置を検出して空白の文字コードを挿入した場合と比べ、本来挿入すべきでない位置に空白の文字コードを挿入してしまう過挿入を抑制することが可能なプログラムを提供することができる。また、請求項7に係る本発明によれば、単語間に空白の文字コードが挿入されていない文書データの単語間に空白の文字コードを挿入する際に、判別分析法等を用いて空白の文字コードの挿入位置を検出する場合と比較して、空白の文字コードの挿入位置を高い精度で検出することが可能なプログラムを提供することができる。

本発明の第1の実施形態における文書処理システムの構成を示す図である。 本発明の第1の実施形態における文書処理サーバ30のハードウェア構成を示すブロック図である。 本発明の第1の実施形態における文書処理サーバ30の機能構成を示すブロック図である。 本発明の第1の実施形態における文書データ及び文字列の文字間隔の一例を示す図である。 本発明の第1の実施形態における標準偏差の算出方法の一例を示す図である。 本発明の第1の実施形態における文字間隔リスト、一次微分リスト及び空白の文字コードの挿入位置の一例を示す図である。 本発明の第1の実施形態における文字間隔リスト、一次微分リスト及び空白の文字コードの挿入位置の一例を示す図である。 本発明の第1の実施形態における文書処理サーバ30の処理を示すフローチャートである。 本発明の第2の実施形態における文書処理サーバ30aの機能構成を示す図である。 本発明の第2の実施形態における文書処理の一例を示す図である。 本発明の第2の実施形態における文書処理サーバ30aの処理を示すフローチャートである。 本発明の第3の実施形態における文書処理サーバ30bの機能構成を示す図である。 本発明の第3の実施形態における文書データ、及び判別分析法の一例を示す図である。 本発明の第3の実施形態における文書処理の一例を示す図である。 本発明の第3の実施形態における文書処理サーバ30bの処理を示すフローチャートである。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の一実施形態の文書処理システムのシステム構成を示す図である。
本発明の第1の実施形態の文書処理システムは、図1に示されるように、端末装置10と、画像形成装置20と、文書処理サーバ(文書処理装置)30がネットワーク40を介して相互に接続されている。端末装置10は、文書データを生成して、ネットワーク40経由にて生成した文書データを文書処理サーバ30に対して送信する。文書処理サーバ30は、端末装置10から送信された文書データを受け付けて、文書データに対して後述する処理を行う。なお、画像形成装置20は、印刷(プリント)機能、スキャン機能、複写(コピー)機能、ファクシミリ機能等の複数の機能を有するいわゆる複合機と呼ばれる装置である。
また、本実施形態における文書データは、文字コードを含むPDF(Portable Document Format)等の形式により作成され、分かち書きの言語である英語で構成されたものを対象として説明する。なお、分かち書きとは、文章を書くとき、一定の方針で語句の単位を切り、その切れ目ごとに間隔をおく書き方のこと、換言すれば、文書において語の区切りに空白を挟んで記述することである。
また、本実施形態における文書データは、文字コードと座標情報に基づいて文字を配置することにより、空白の文字コードを含まずに文字間の空白を表現している。
次に、本実施形態の文書処理システムにおける文書処理サーバ30のハードウェア構成を図2に示す。
文書処理サーバ30は、図2に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワーク40を介してデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。
CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、文書処理サーバ30の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明したが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU11に提供することも可能である。
図3は、CPU11によりメモリ12または記憶装置13に格納された制御プログラムが実行されることにより実現される文書処理サーバ30の機能構成を示す図である。
図3に示されるように、本実施形態における文書処理サーバ30は、文書データ受付部301と、文字列取得部302と、標準偏差算出部303と、空白挿入判定部304と、文字間隔リスト作成部305と、一次微分リスト作成部306と、閾値決定部307と、空白挿入部308とによって構成される。
文書データ受付部301は、端末装置10または画像形成装置20からネットワーク40を介して送信された文書データを受け付ける。
例えば、図4(A)に示されるように、文字列101〜103を含む文書データを受け付ける。
文字列取得部302は、文書データ受付部301により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する。このとき、文字列取得部302は、文書データにおける各行ごとに文字列を取得する。
例えば、図4(A)に示されるように、文字列取得部302は、文書データに含まれる文字列102の「this is a pen」という文字列において、それぞれの文字の文字コード及び座標情報を抽出することによって、文字列102を取得する。
また、文字列取得部302は、前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する。また、文字列取得部302は、取得した文字列に含まれる隣接する2つの文字の距離である文字間隔を取得する。具体的には、図4(B)に示されるように、文字列取得部302において抽出された座標情報から各文字の外接矩形を求め、隣接する文字間において、左側の文字の外接矩形の右端のx座標と、右側の文字の外接矩形の左端のx座標との距離を、当該隣接する文字間の文字間隔とする。例えば、文字列102においては、文字列取得部302は、図4(B)に示されるように、「t」の外接矩形の右端と、「h」の外接矩形の左端との距離を「t」と「h」の文字間隔として検出する。また、文字列取得部302は、文字列102における他の文字間に対しても同様にして、図4(C)に示されるように、文字列102のそれぞれの文字において隣接する文字間の文字間隔を検出する。
標準偏差算出部303は、文字列取得部302により取得された文字列の文字間隔の標準偏差を算出する。
また、標準偏差算出部303は、文字列取得部302により取得された文字列の文字間隔において、偏差が設定値B(第2の予め定められた値)以下の文字間隔が含まれる場合、この文字間隔の偏差を0として当該文字列の標準偏差を再計算する。
例えば、図5(A)に示されるように、文字列101の「Example」という文字それぞれにおいて、隣接する文字の文字間隔がそれぞれ「0、0、6、6、6、6(ピクセル)」である場合、文字列101の文字間隔の平均値は「4(ピクセル)」である。
ここで、「E」と「x」の文字間隔「0(ピクセル)」及び「x」と「a」の文字間隔は「0(ピクセル)」であり、文字列101の平均値は「4(ピクセル)」であるため、「E」と「x」の文字間隔及び「x」と「a」の文字間隔の偏差は「−4」である。そして、「E」と「x」の文字間隔及び「x」と「a」の文字間隔の偏差は設定値Bである「−2」以下であるため、標準偏差算出部303は、「E」と「x」の文字間隔及び「x」と「a」の文字間隔の偏差が0であるものとして扱う。具体的には、「E」と「x」との文字間隔及び「x」と「a」との文字間隔を「4(ピクセル)」に変更して、文字列101の文字間隔を「4、4、6、6、6、6」に変換する。
そして、標準偏差算出部303は、変換された文字列101の文字間隔の偏差に基づいて標準偏差を算出する。具体的には、図5(B)に示されるように、標準偏差算出部303は、変換された後の文字列101の各文字の文字間隔を、変換される前の文字列101の文字間隔の平均値により減算することで偏差を求め、各文字間隔の偏差の二乗の和を、文字列101の文字間隔数で除算して平方根を求めることによって標準偏差を算出する。これにより、分かち書き言語において単語の区切りである可能性が低い「E」と「x」間及び「x」と「a」間の偏差の影響が排除された標準偏差が算出される。
空白挿入判定部304は、標準偏差算出部303により算出された標準偏差に基づいて、取得された文字列が、空白の文字コードを挿入する必要があるか否かを判定する。
具体的には、空白挿入判定部304は、標準偏差算出部303により算出された標準偏差が、設定値A(第1の予め定められた値)よりも大きい場合には、文字列に空白の文字コードを挿入する必要があると判定し、標準偏差が設定値A以下である場合には、文字列に空白の文字コードを挿入する必要がないと判定する。例えば、図5(B)に示されるように、文字列101の標準偏差が1.63であり、設定値Aの2以下であるため、空白挿入判定部304は、文字列101には空白の文字コードを挿入する必要がないと判定する。
文字間隔リスト作成部305は、文字列取得部302により取得された文字列に空白の文字コードを挿入する必要があると空白挿入判定部304によって判定された場合に、当該文字列において隣接する2つの文字の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する。本実施形態においては、文字間隔リスト作成部305は、文字列において隣接する2つの文字の文字間隔を小さい順に並べた文字間隔リストを作成する。
一次微分リスト作成部306は、文字間隔リスト作成部305により作成された文字間隔リストにおける各文字間隔を一次微分することにより、一次微分リスト(変化量リスト)を作成する。ここで、一次微分リストとは、文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示すリストである。
閾値決定部307は、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストにおける文字間隔の平均値以上である場合に、当該文字間隔を閾値として決定する。
空白挿入部308は、取得された文字列に対して、閾値決定部307により決定された閾値以上の文字間隔の文字間に空白の文字コードを挿入する。また、空白挿入部308は、空白の文字コードを挿入する必要がないと空白挿入判定部304により判定された文字列に対しては、空白の文字コードを挿入する処理を行わない。さらに、空白挿入部308は、文字列に空白の文字コードを挿入した場合には、文字列に空白の文字コードが挿入された文書データをネットワーク40を介して端末装置10または画像形成装置20に送信する。
以下、文字間隔リスト作成部305、一次微分リスト作成部306、閾値決定部307及び空白挿入部308における処理の具体例について、図6及び図7を参照して詳細に説明する。
まず、文字列102に対する処理について、図6を参照して詳細に説明する。
まず、図6(A)に示されるように、文字間隔リスト作成部305は、文字列102における各文字の文字間隔「2、3、3、7、3、6、7、4、3(ピクセル)」を、左から小さい順に並べ替えて、文字間隔リスト「2、3、3、3、3、4、6、7、7(ピクセル)」を作成する。
そして、図6(B)に示されるように、一次微分リスト作成部306は、文字列102の文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。具体的には、一次微分リスト作成部306は、文字列102の文字間隔リスト「2、3、3、3、3、4、6、7、7(ピクセル)」において、それぞれの文字間隔ごとに、前後の文字間隔との差を算出して、これらの差を各文字間隔の前後の変化量とすることによって、一次微分リスト「1、0、0、0、1、2、1、0」を作成する。ここで、図6(B)に示されるように、一次微分リスト作成部306は、一次微分リストの値を、それぞれの算出元となった文字間隔リストにおける2つの文字間隔うち、右側(大きい側)の文字間隔と対応するよう作成する。
次に、図6(B)に示されるように、閾値決定部307は、文字列102の一次微分リストを参照して、一次微分リストにおける最大値として「2」を検出する。そして、閾値決定部307は、文字列102の文字間隔リストを参照して、一次微分リストの「2」に対応する文字間隔として「6(ピクセル)」を検出する。そして、文字列102の文字間隔リストの平均値は約「4.22(ピクセル)」であるため、閾値決定部307は、検出された文字間隔「6(ピクセル)」を閾値として決定する。
そして、図6(C)に示されるように、空白挿入部308は、文字列102に対して、閾値決定部307により決定された閾値である「6(ピクセル)」以上の文字間隔である文字間に空白の文字コードを挿入する。具体的には、文字列102における「this」の「s」と「is」の「i」との間、「is」の「s」と「a」との間、「a」と「pen」の「p」との間にそれぞれ空白の文字コードを挿入する。
次に、文字列103に対する処理について、図7を参照して詳細に説明する。
まず、図7(A)に示されるように、文字間隔リスト作成部305は、文字列103における各文字の文字間隔「0、0、0、7、3、6、7、4、3(ピクセル)」を小さい順に並べ替えて、文字間隔リスト「0、0、0、3、3、4、6、7、7」を作成する。
そして、図7(A)に示されるように、一次微分リスト作成部306は、文字列103の文字間隔リスト「0、0、0、3、3、4、6、7、7(ピクセル)」の一次微分リスト「0、0、3、0、1、2、1、0」を作成する。
次に、閾値決定部307は、文字列103の一次微分リストを参照して、一次微分リストにおける最大値として「3」を検出する。そして、閾値決定部307は、文字列103の文字間隔リストを参照して、一次微分リストの「3」と対応する文字間隔として「3(ピクセル)」を検出する。ここで、図7(A)に示されるように、文字列103の文字間隔リストの平均値は「約3.33(ピクセル)」であり、検出された「3(ピクセル)」は文字間隔リストの平均値未満であるため、閾値決定部307は、一次微分リストの「3」と、検出された文字間隔「3(ピクセル)」を閾値の候補から除外する。
次に、閾値決定部307は、図7(B)に示されるように、一次微分リストにおいて「3」の次に大きい値である「2」を検出する。次に、閾値決定部307は、一次微分リストの「2」に対応する文字間隔リストの文字間隔として「6(ピクセル)」を検出する。そして、検出された文字間隔「6(ピクセル)」は文字列103の文字間隔リストの平均値「3.33(ピクセル)」以上であるため、閾値決定部307は、閾値として「6(ピクセル)」を決定する。
そして、図7(C)に示されるように、空白挿入部308は、文字列103に対して、閾値決定部307により決定された閾値である「6(ピクセル)」以上の文字間隔である文字間に空白の文字コードを挿入する。具体的には、文字列103における「this」の「s」と「is」の「i」との間、「is」の「s」と「a」との間、「a」と「pen」の「p」との間にそれぞれ空白の文字コードを挿入する。
なお、本実施形態においては、閾値決定部307は、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストにおける文字間隔の平均値以上である場合に当該文字間隔を閾値として決定するものとして説明しているが、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストの中央に位置する文字間隔より大きい場合に当該文字間隔を閾値として決定するようにしてもよい。
次に、第1の実施形態における文書処理サーバ30の処理を、図8のフローチャートを参照して説明する。
まず、文書データ受付部301は、端末装置10または画像形成装置20からネットワーク40を介して文書データを受け付ける(ステップS101)。
次に、文字列取得部302は、受け付けた文書データの文字コード及び文字の座標情報に基づいて文字列を取得する(ステップS102)。この時、文字列取得部302は、取得された文字列の文字間隔を取得する。
また、標準偏差算出部303は、取得された文字列における文字間隔の標準偏差を算出する(ステップS103)。
そして、空白挿入判定部304は、算出された標準偏差が設定値A以下であるか否かを判定する(ステップS104)。算出された標準偏差が設定値A以下である場合には(ステップS104においてyes)、処理を終了する。
また、算出された標準偏差が設定値Aより大きい場合には(ステップS104においてno)、文字間隔リスト作成部305は、取得された文字列の文字間隔を小さい順に並べた文字間隔リストを作成する(ステップS105)。
次に、一次微分リスト作成部306は、作成された文字間隔リストの各文字間隔を一次微分することにより一次微分リストを作成する(ステップS106)。
そして、閾値決定部307は、一次微分リストにおける最大値に対応する文字間隔リストの文字間隔が、文字間隔リストにおける文字間隔の平均値以上である場合に当該文字間隔を閾値として決定する(ステップS107)。
そして、空白挿入部308は、決定された閾値以上の文字間隔である2つの文字間に空白の文字コードを挿入する(ステップS108)。
[第2の実施形態]
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。
第2の実施形態においては、第1の実施形態における処理が行われた後、空白挿入部308により空白の文字コードが挿入された文字列に対して、文書データを構成する言語の単語であるか否かを判定し、当該文字列が単語ではない場合に、再度、空白の文字コードを挿入する処理を行う。なお、第1の実施形態と同じ構成については、同一の符号を付して説明を省略する。
第2の実施形態における文書処理システムは、図1に示される第1の実施形態の文書処理システムにおいて、文書処理サーバ30が文書処理サーバ30aに置き換えられている。なお、文書処理サーバ30aのハードウェア構成は、第1の実施形態と同じ構成であるため説明を省略する。
次に、文書処理サーバ30aの機能構成について、図9を参照して詳細に説明する。
図9に示されるように、第2の実施形態における文書処理サーバ30aは、第1の実施形態における文書処理サーバ30に対して、文字列分割部309と、記憶部310と、単語判定部311とが追加されている。
文字列分割部309は、第1の実施形態と同様に処理によって、文字列取得部302により取得された文字列に対して空白の文字コードが挿入された後、この文字列を、空白挿入部308により挿入された空白の文字コードを境に分割する。
記憶部310は、文書データを構成する分かち書きの言語の単語を記憶する。本実施形態においては、記憶部310は、英単語辞書のデータを登録することにより英単語のデータを予め記憶しておく。
単語判定部311は、文字列分割部309により分割された文字列が記憶部310に記憶された単語と一致するか否かを判定する。本実施形態においては、単語判定部311は、文字列取得部302により取得された文字コードと座標情報とに基づいて、当該文字コードの並び順と、記憶部310に記憶された単語における文字の並び順とを比較することにより一致するか否かを判定する。また、単語判定部311は、文字列分割部309により分割された文字列が記憶部310に記憶された単語と一致すると判定した場合には、文字列に空白の文字コードが挿入された文書データを、ネットワーク40を介して端末装置10または画像形成装置20に送信する。
また、文字間隔リスト作成部305は、文字列分割部309によって分割された文字列が、記憶部310に記憶された単語と一致しないと単語判定部311により判定された場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成する。
一次微分リスト作成部306は、文字列分割部309により分割された文字列の文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。
閾値決定部307は、文字列分割部309により分割された文字列の一次微分リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定する。
空白挿入部308は、文字列分割部309により分割された文字列に対して、閾値決定部307により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する
例えば、図10(A)に示されるような文書データにおいて、文字列取得部302により、「this is a pen」という文字列104が取得された場合、文書処理サーバ30は、まず、第1の実施形態と同様の処理を行う。
具体的には、図10(B)に示されるように、文字間隔リスト作成部305は、文字列104の文字間隔を小さい順に並べることにより、文字間隔リスト「2、2、3、3、3、4、8、8、18(ピクセル)」を作成する。
そして、一次微分リスト作成部306は、図10(B)に示されるように、文字間隔リスト「2、2、3、3、3、4、8、8、18(ピクセル)」の一次微分リスト「0、1、0、0、1、4、0、10」を作成する。
そして、閾値決定部307は、一次微分リストにおける最大値「10」を検出し、これに対応する文字間隔「18(ピクセル)」を検出する。そして、文字間隔リストの平均値は「約5.67(ピクセル)」であるため、文字間隔「18(ピクセル)」を第1の閾値として決定する。
次に、空白挿入部308は、図10(B)に示されるように、文字列104に対して、第1の閾値として決定された文字間隔「18(ピクセル)」以上の文字間隔である「is」の「s」と「a」との間に空白の文字コードを挿入する。
次に、文字列分割部309は、文字列に空白の文字コードが挿入された文字列104を、図10(C)に示されるように、文字列104aとして「this is」、及び文字列104bとして「a pen」に分割する。そして、単語判定部311は、記憶部310に記憶された英単語辞書のデータを参照して、「this is」及び「a pen」という単語が存在するか否かを判定する。
そして、英単語辞書には「this is」という単語及び「a pen」という単語は存在しないため、文字間隔リスト作成部305は、図10(C)に示されるように、文字列104a及び文字列104bそれぞれの文字間隔リストを作成する。
次に、一次微分リスト作成部306は、図10(C)に示されるように、文字列104a及び文字列104bそれぞれの文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。
そして、閾値決定部307は、文字列104a及び文字列104bそれぞれの一次微分リストにおける最大値に対応する文字間隔リストの文字間隔をそれぞれの文字列の第2の閾値として決定する。
例えば、図10(C)に示されるように、閾値決定部307は、文字列104aの一次微分リストにおける最大値「5」を検出し、これに対応する文字間隔リストの文字間隔「8」を文字列104aの第2の閾値として決定する。また、閾値決定部307は、図10(C)に示されるように、文字列104bの一次微分リストにおける最大値「4」を検出し、これに対応する文字間隔リストの文字間隔「8」を文字列104bの第2の閾値として決定する。
そして、空白挿入部308は、文字列104a及び文字列104bに対して、閾値決定部307により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する。例えば、図10(C)に示されるように、空白挿入部308は、文字列104aにおいては、「this」の「s」と「is」の「i」との間に空白の文字コードを挿入する。また、空白挿入部308は、図10(C)に示されるように、文字列104bにおいては、「a」と「p」との間に空白の文字コードを挿入する。
次に、第2の実施形態における文書処理サーバ30aの処理を図11のフローチャートを参照して説明する。なお、第1の実施形態と同じ処理については説明を省略する。
まず、文字列分割部309は、空白挿入部308により第1の閾値以上の文字間隔である文字間に空白の文字コードが挿入された文字列を、挿入された空白コードごとに分割する(ステップS201)。
次に、単語判定部311は、文字列分割部309により分割された文字列が、記憶部310に記憶された単語と一致するか否かを判定する(ステップS202)。文字列分割部309により分割された文字列が、記憶部310に記憶された単語と一致する場合(ステップS202においてno)、処理を終了する。
また、文字列分割部309により分割された文字列が、記憶部310に記憶された単語と一致しないと判定された場合(ステップS202においてyes)、文字間隔リスト作成部305は、分割された文字列の文字間隔を小さい順に並べた文字間隔リストを作成する(ステップS203)。
そして、一次微分リスト作成部306は、ステップS203において作成された文字間隔リストの文字間隔の各文字間隔を一次微分することにより一次微分リストを作成する(ステップS204)。
次に、閾値決定部307は、ステップS204において作成された一次微分リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定する(ステップS205)。
そして、空白挿入部308は、分割された文字列に対して、ステップS205において決定された閾値以上の文字間隔の文字間に空白の文字コードを挿入する(ステップS206)。そして、ステップS201に戻り、ステップS201〜ステップS206の処理を繰り返す。
なお、第2の実施形態においては、空白の文字コードを挿入する処理を2回行うものとして説明しているが、空白挿入部308により文字列に対して空白の文字コードが挿入されるごとに、当該文字列が文書データを構成する言語の単語であるか否かを判定し、当該文字列が単語ではない場合には、第2の実施形態と同様の方法により空白の文字コードを挿入する処理を再帰的に繰り返すようにしてもよい。
また、第2の実施形態においては、記憶部310に記憶される言語の単語が英語であるものとして説明したが、文書データを構成する言語が他の分かち書きの言語である場合には、当該言語の単語を記憶するようにしてもよい。また、文書データが複数の言語により構成されている場合には、記憶部310は、複数の言語の単語を記憶するようにしてもよい。
[第3の実施形態]
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。
第3の実施形態においては、第1の実施形態における空白の文字コードを挿入する処理が行われる前に、既に空白の文字コードが挿入されている場合に、この空白の文字コードが過挿入であるか否かを判定する場合について説明する。なお、第3の実施形態においても、第1の実施形態と同じ構成については説明を省略する。
第3の実施形態における文書処理システムは、図1に示される第1の実施形態における文書処理システムにおいて、文書処理サーバ30が文書処理サーバ30bに置き換えられている。なお、文書処理サーバ30bのハードウェア構成は、第1の実施形態と同じ構成であるため説明を省略する。
次に、図12を参照して、第3の実施形態における文書処理サーバ30bの機能構成を詳細に説明する。なお、第1の実施形態と同じ構成については、同じ符号を付して説明を省略する。
図12に示されるように、第3の実施形態における文書処理サーバ30bは、第1の実施形態における文書処理サーバ30に対して、判別分析部312と、過挿入判定部313が追加されている。
判別分析部312は、文字列取得部302により取得された文字列に空白の文字コードを挿入する必要があると空白挿入判定部304により判定された場合に、判別分析法を用いて判別分析の閾値を決定する。
過挿入判定部313は、取得された文字列に対して、空白挿入部308により判別分析の閾値に基づいて空白の文字コードが挿入された場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるか否かを判定する。本実施形態においては、予め定められた割合を40%として予め設定されている。
また、過挿入判定部313は、空白の文字コードの数が、取得された文字列の文字間隔数の40%以上である場合には、文字間隔リスト作成部305に対して、当該文字列に既に含まれている空白の文字コードを全て削除した後、文字間隔リストを作成するよう指示する。
以下、第3の実施形態における処理の具体例を図13、図14を参照して詳細に説明する。
例えば、文書データ受付部301によって、図13(A)に示されるような文書データを受け付けて、図13(B)に示されるように、文字列取得部302によって文字列105を取得される。次に、判別分析部312は、図13(C)に示されるように、文字列105の文字間隔のヒストグラムを作成する。
そして、判別分析部312は、作成したヒストグラムに対して判別分析法を用いることにより、判別分析の閾値を境界として、ヒストグラムの値を2つのグループに分類する。例えば、図13(C)に示されるように、「3(ピクセル)」を判別分析の閾値として算出し、ヒストグラムの値を「3(ピクセル)」より大きい文字間隔と、「3(ピクセル)」以下の文字間隔との2つのグループに分類する。
そして、空白挿入部308は、判別分析部312により決定された判別分析の閾値より大きい文字間隔の文字間に空白の文字コードを挿入する。例えば、図14(A)に示されるように、文字列105において、「Failed」の「a」と「i」との間、「Failed」の「l」と「e」との間、「Failed」の「d」と「example」の「e」との間、「example」の「x」と「a」との間、「example」の「a」と「m」との間にそれぞれ空白の文字コードを挿入する。
次に、図14(B)に示されるように、文字列105の文字間隔数が12個、判別分析の閾値より大きい文字間隔に挿入された空白の文字コード数が5個である場合、空白コードの数は、文字列105の文字間隔数の約41.67%であるため、過挿入判定部313は、文字列105に対して挿入された空白の文字コードの数が、文字列105の文字間隔数の予め定められた割合以上であると判定する。
また、過挿入判定部313は、文字列に対して挿入された空白コードが、文字列105の文字間隔数の予め定められた割合以上であると判定した場合には、文字間隔リスト作成部305に対して、文字列105に含まれる空白の文字コードを全て削除した後、文字列105の文字間隔リストを作成するよう指示する。
そして、文字間隔リスト作成部305は、文字列105に含まれる空白の文字コードを全て削除した後、第1の実施形態と同様に、文字列105の文字間隔リストを作成する。例えば、図14(C)に示されるように、文字列105の文字間隔リストとして「1、1、2、2、2、2、3、4、4、4、4、6」を作成する。
また、一次微分リスト作成部306は、第1の実施形態と同様に、文字列105の文字間隔リストにおける各文字間隔を一次微分することにより一次微分リストを作成する。例えば、図14(C)に示されるように、文字列105の一次微分リストとして「0、1、0、0、0、1、1、0、0、0、2」を作成する。
次に、閾値決定部307は、文字列105の一次微分リストにおける最大値として「2」を検出し、これに対応する文字間隔リストの「6(ピクセル)」を閾値として決定する。
そして、空白挿入部308は、図14(D)に示されるように、「6(ピクセル」以上の文字間隔の文字間に空白の文字コードを挿入する。具体的には、「Failed」の「d」と「example」のうち先頭の「e」との間に空白の文字コードを挿入する。
次に、第3の実施形態における文書処理サーバ30bの処理について、図15のフローチャートを参照して説明する。なお、第1の実施形態と同様の処理については同じ符号を付して説明を省略する。
まず、文書データ受付部301により文書データが受け付けられ、文字列取得部302により取得された文字列の標準偏差が設定値Aより大きいと空白挿入判定部304により判定された場合に、判別分析部312は、判別分析法を用いて判別分析の閾値を決定する(ステップS301)。
次に、空白挿入部308は、ステップS301において決定された閾値より大きい文字間隔である文字間に空白の文字コードを挿入する(ステップS302)。
そして、過挿入判定部313は、ステップS302において挿入された空白の文字コードの数が、取得された文字列の文字間隔数の40%以上であるか否かを判定する(ステップS303)。挿入された空白の文字コードの数が、取得された文字列の40%未満である場合(ステップS303においてno)、処理を終了する。
また、ステップS302において挿入された空白の文字コードの数が、取得された文字列の文字間隔数の40%以上である場合(ステップS303においてyes)、過挿入判定部313は、文字間隔リスト作成部305に対して、挿入された空白の文字コードを全て削除して、文字間隔リストを作成するよう指示する(ステップS304)。
そして、過挿入判定部313が文字間隔リストを作成するよう指示した場合には、文書処理サーバ30bは、空白の文字コードが全て削除された文字列に対して、第1の実施形態と同様の処理により空白の文字コードを挿入する処理を行う(ステップS105〜ステップS108)。
[変形例]
なお、第3の実施形態においては、判別分析の閾値に基づいて挿入された空白の文字コードの数が、文字列の文字間隔数の予め定められた割合以上であるか否かを判定するものとして説明した。しかし、文書データ受付部301において受け付けられた文書データの文字列に既に空白の文字コードが含まれている場合には、判別分析の閾値に基づく空白の文字コードの挿入処理を行わずに、取得された文字列における空白の文字コードの数が、文字列の文字間隔数の予め定められた割合以上であるか否かを判定するようにしてもよい。
なお、上記の説明では、第1、第2及び第3の実施形態においてそれぞれ異なる構成を有する文書サーバ30について説明したが、文書サーバ30は、第1、第2及び第3の実施形態の構成を一部または全て含むようにしてもよい。
また、上記第1から第3の実施形態では、文書データが英語により構成された場合を用いて説明しているが、ドイツ語、フランス語、韓国語、ベトナム語等のように、単語間の区切りに空白を挿入して記述する分かち書きの言語により文書データが構成されている場合であれば同様に本発明を適用可能である。また、一般的に日本語は分かち書きの言語ではないが、ひらがな文を分かち書きにより記述したような文書データであれば本発明を同様に適用可能である。
さらに、上記第1から第3の実施形態では、文字コードと座標情報とが含まれている文書データに対して空白を挿入する場合を用いて説明しているが、書類をスキャンして読み取ったデータをOCR(optical character recognition)処理して得られた文書データに対して空白を挿入するような場合にも本発明は適用可能である。
本発明の構成を採用することで文書データの適切な位置に空白の文字コードを挿入することが可能となり、その後の翻訳処理などの精度の向上に寄与する。なお、過挿入を抑制することに加え、場合によっては、本来挿入すべき位置に空白の文字コードを挿入できない未挿入を抑制することも可能である。
10 端末装置
11 CPU
12 メモリ
13 記憶装置
14 通信IF
15 UI装置
16 制御バス
20 画像形成装置
30、30a、30b 文書処理サーバ
40 ネットワーク
101〜105 文字列
301 文書データ受付部
302 文字列取得部
303 標準偏差算出部
304 空白挿入判定部
305 文字間隔リスト作成部
306 一次微分リスト作成部
307 閾値決定部
308 空白挿入部
309 文字列分割部
310 記憶部
311 単語判定部
312 判別分析部
313 過挿入判定部

Claims (7)

  1. 文書データを受け付ける受付手段と、
    前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
    前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
    前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
    前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を第1の閾値として決定する決定手段と、
    前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
    を有する文書処理装置。
  2. 文書データを受け付ける受付手段と、
    前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
    前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
    前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
    前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
    前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
    前記取得手段により取得された文字列の文字間隔の標準偏差が、第1の予め定められた値以下である場合に、当該文字列には空白の文字コードを挿入する必要がないと判定する判定手段と、を有し、
    前記挿入手段は、前記判定手段により空白の文字コードを挿入する必要がないと判定された文字列に対しては、空白の文字コードの挿入を行わない文書処理装置。
  3. 前記判定手段は、前記取得手段により取得された文字列において、偏差が第2の予め定められた値以下の文字間隔が含まれる場合、当該文字間隔の偏差を0として当該文字列の標準偏差を再計算し、再計算後の標準偏差が、第1の予め定められた値以下であるとき、当該文字列には空白の文字コードを挿入する必要がないと判定する請求項記載の文書処理装置。
  4. 文書データを受け付ける受付手段と、
    前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
    前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
    前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
    前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
    前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
    前記文書データの文字列は分かち書きの言語により構成され、
    前記言語の単語を記憶する記憶手段と、
    前記取得手段により取得された文字列を、前記挿入手段により挿入された空白の文字コードを境に分割する分割手段と、を有し、
    前記第1の作成手段は、前記分割手段により分割された文字列が前記記憶手段に記憶された単語と一致しない場合に、当該分割された文字列の文字間隔を、大きさの順に並べた文字間隔リストを作成し、
    前記第2の作成手段は、前記分割された文字列の文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成し、
    前記決定手段は、前記分割された文字列の変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第2の閾値として決定し、
    前記挿入手段は、前記分割された文字列に対して、前記決定手段により決定された第2の閾値以上の文字間隔の文字間に空白の文字コードを挿入する文書処理装置。
  5. 文書データを受け付ける受付手段と、
    前記受付手段により受け付けられた文書データに含まれる文字コードに基づいて文字列を取得する取得手段と、
    前記取得手段により取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成する第1の作成手段と、
    前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
    前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔を第1の閾値として決定する決定手段と、
    前記文字列に対して、前記第1の閾値以上の文字間隔の文字間に空白の文字コードを挿入する挿入手段と、を有し、
    前記第1の作成手段は、取得された文字列に既に空白の文字コードが含まれている場合に、当該空白の文字コードの数が、取得された文字列の文字間隔数の予め定められた割合以上であるとき、当該文字列に含まれる空白の文字コードを全て削除した後、前記文字間隔リストを作成する文書処理装置。
  6. 受け付けた文字列の中の隣接する2つの文字間の距離である文字間隔を大きさの順に並べ替えて文字間隔リストを作成する第1の作成手段と、
    前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成する第2の作成手段と、
    前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を第1の閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔の文字間に空白の文字コードを挿入する挿入手段と、
    を有する文書処理装置。
  7. 文書データを受け付けるステップと、
    受け付けられた文書データに含まれる文字コードに基づいて文字列を取得するステップと、
    取得された文字列において、隣接する2つの文字間の距離である文字間隔を、大きさの順に並べた文字間隔リストを作成するステップと、
    前記文字間隔リストにおける各文字間隔の前後の文字間隔に対する変化量を示す変化量リストを作成するステップと、
    前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値未満または前記文字間隔リストの中央に位置する文字間隔以下の場合に、当該文字間隔を閾値の候補から除外し、除外された文字間隔の前記変化量リストにおける値の次に大きい値に対応する文字間隔リストの文字間隔、又は前記変化量リストにおける最大値に対応する文字間隔リストの文字間隔が、前記文字間隔リストにおける文字間隔の平均値以上または前記文字間隔リストの中央に位置する文字間隔より大きい場合に、当該文字間隔を閾値として決定するステップと、
    前記文字列に対して、前記閾値以上の文字間隔の文字間に空白の文字コードを挿入するステップと、
    をコンピュータに実行させるためのプログラム。
JP2014167569A 2014-08-20 2014-08-20 文書処理装置及びプログラム Expired - Fee Related JP6528927B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014167569A JP6528927B2 (ja) 2014-08-20 2014-08-20 文書処理装置及びプログラム
PCT/JP2015/050712 WO2016027476A1 (ja) 2014-08-20 2015-01-14 文書処理装置、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014167569A JP6528927B2 (ja) 2014-08-20 2014-08-20 文書処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016045566A JP2016045566A (ja) 2016-04-04
JP6528927B2 true JP6528927B2 (ja) 2019-06-12

Family

ID=55350436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014167569A Expired - Fee Related JP6528927B2 (ja) 2014-08-20 2014-08-20 文書処理装置及びプログラム

Country Status (2)

Country Link
JP (1) JP6528927B2 (ja)
WO (1) WO2016027476A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5248845B2 (ja) * 2006-12-13 2013-07-31 キヤノン株式会社 文書処理装置、文書処理方法、プログラムおよび記憶媒体
US8443278B2 (en) * 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document
JP5821648B2 (ja) * 2012-01-18 2015-11-24 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5949248B2 (ja) * 2012-07-12 2016-07-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP2016045566A (ja) 2016-04-04
WO2016027476A1 (ja) 2016-02-25

Similar Documents

Publication Publication Date Title
US10885325B2 (en) Information processing apparatus, control method, and storage medium
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP5508359B2 (ja) 文字認識装置、文字認識方法及びプログラム
CN102592299B (zh) 文件生成装置和文件生成方法
EA001689B1 (ru) Система автоматической идентификации языка для многоязычного оптического распознавания символов
US9280725B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
JP7186075B2 (ja) 電子文書中の文字列塊を推測する方法
JP5412916B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
CN111860513A (zh) 光学字符识别支持***
JP6528927B2 (ja) 文書処理装置及びプログラム
JP7027757B2 (ja) 情報処理装置及び情報処理プログラム
CN112541505B (zh) 文本识别方法、装置以及计算机可读存储介质
EP3985556A1 (en) Apparatus and method for document recognition
JP6131765B2 (ja) 情報処理装置及び情報処理プログラム
JP7383882B2 (ja) 情報処理装置、及び情報処理プログラム
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
JP2017010187A (ja) 画像処理装置及び画像処理プログラム
García-Calderón et al. Unsupervised multi-language handwritten text line segmentation
CN117391045B (zh) 可复制蒙文的可携带文件格式文件输出方法
JP7358838B2 (ja) 情報処理装置、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190430

R150 Certificate of patent or registration of utility model

Ref document number: 6528927

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees