JP5508953B2 - 文書処理装置及びプログラム - Google Patents

文書処理装置及びプログラム Download PDF

Info

Publication number
JP5508953B2
JP5508953B2 JP2010146739A JP2010146739A JP5508953B2 JP 5508953 B2 JP5508953 B2 JP 5508953B2 JP 2010146739 A JP2010146739 A JP 2010146739A JP 2010146739 A JP2010146739 A JP 2010146739A JP 5508953 B2 JP5508953 B2 JP 5508953B2
Authority
JP
Japan
Prior art keywords
character
character string
word
information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010146739A
Other languages
English (en)
Other versions
JP2012008965A (ja
Inventor
俊子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2010146739A priority Critical patent/JP5508953B2/ja
Priority to PCT/JP2011/064749 priority patent/WO2012002357A1/ja
Priority to US13/696,881 priority patent/US8959049B2/en
Priority to EP11800821.8A priority patent/EP2565798A4/en
Publication of JP2012008965A publication Critical patent/JP2012008965A/ja
Application granted granted Critical
Publication of JP5508953B2 publication Critical patent/JP5508953B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、文書処理装置及びプログラムに関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
近年、組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版SOX法(金融商品取引法)の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また例えば、企業内の情報、その中でも特にリレーショナルデータベースに格納されない(定型でない)文書データが急激に増大しており、情報爆発と呼ばれる現象が起きている。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば営業文書であれば、文書名・顧客名・作成日・注文番号などの業務IDで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また、設計文書であれば、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。さらに、クレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また、業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
定型でない文書を解析してメタデータを自動的に取得する技術は多く提案されている(下記特許文献及び非特許文献参照)。これらの技術では、文書中に記載されている内容を読み込む際、空白文字を無視した処理を行うことが効果的である。なぜなら、文字の配置を整えるための空白文字の影響を受けずにメタデータを抽出できるためである。例えば図1Aに示すように、センタリングを実現するために空白文字を挿入したり、図1Bに示すように、空白文字やタブ文字を挿入することで配置を整えたりといったことが行われる。図1Aおよび図1Bにおいて、100に示すような「□(四角)」は全角空白文字を、101に示すような「・(ドット)」は半角空白文字を、102に示すような「→(矢印)」はタブ文字を示す。このような空白文字の影響を受けずにメタデータを抽出するためには、文字データの読み込みの時点で空白文字を読み飛ばすことが有効である。
特開平11−184894号公報 特許第3425834号公報 特許第3425408号公報
勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09) Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003)
既存技術を用いて、英語等の言語による文書であって、各単語の区切りに空白文字が存在する文書からメタデータを抽出する場合、単語ごとに空白文字が挿入された形での出力を行う必要がある。
しかしながら、上述したように、文字データの読み込みの時点では空白文字を読み飛ばしているため、図2に示すように、全ての単語がつながった形での出力となってしまう。日本語の場合と異なり、英語等の場合では、全ての単語がつながった形での出力は著しく可読性を欠く。このことの解決策としては、まず、メタデータの単語がつながった状態での抽出を行い、その後で、メタデータ抽出元の文書(以下、「元文書」と呼ぶことがある)を参照して「単語の区切り」を調べ、抽出されたメタデータに空白文字を再挿入することが考えられる。
ところが、英語等の文書の場合に、各単語の区切りを確実に検出し、空白文字を確実に再挿入することは困難である。
本発明はこのような状況に鑑みてなされたものであり、文章を構成する単語の区切りに空白文字が存在する言語によって作成された文書において、各単語の区切りを確実に検出し、空白文字を区切りに確実に再挿入することができる技術を提供するものである。
上記課題を解決するために、本発明は、単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置を提供する。当該文書処理装置では、言語における文字或いは単語と記号との間の表記ルールに基づいて、文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定(単語区切り判定処理)する。そして、単語区切り判定処理による処理結果を表示装置に表示すると共に、入力指示に応答して、単語区切り判定処理部による処理結果を登録用データベースに登録する。
さらに、単語区切り判定処理の前に、文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースの文章から空白文字を無視してメタデータを抽出する処理を行う。そして、単語区切り判定処理では、隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、抽出したメタデータに前記空白文字を再挿入し、空白文字が再挿入されたメタデータを、単語区切り判定処理の結果として登録用データベースに登録する。
単語区切り判定処理では、表記ルールに基づいた判定処理によって隣接する二つの文字が同一の単語に含まれると断定できないときに、元文書情報を参照して、隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。
本発明による文書処理装置は、メモリに、文字列の識別子と文字列オブジェクトの特徴を含む文字列オブジェクト情報と、文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納している。そして、単語区切り判定処理部では、元文書情報を参照しても隣接する二つの文字が同一の単語に含まれると断定できないときに、文字列オブジェクト情報及び文字情報を参照して、隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。
文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含んでいる。そして、単語区切り判定処理部では、文字列オブジェクト情報及び文字情報を参照しも隣接する二つの文字が同一の単語に含まれると断定できないときに、それぞれの文字列の位置情報を参照して、文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。
さらなる本発明の特徴は、以下本発明を実施するための形態および添付図面によって明らかになるものである。
本発明によれば、定型でない言語(英語等)の文書からメタデータを抽出する際、単語ごとに空白文字で区切られた形で出力することができるようになる。
空白文字を無視した読み込み処理が適切である文書の例を示す図である。 英語の文書からメタデータを抽出する際、全ての単語がつながった形での出力となってしまう例を示す図である。 「単語の区切り」を調べるための直感的な方法を示す図である。 図3に示す直感的な方法では「単語の区切り」を正確に調べられない文書の例を示す図である。 本発明の実施形態による業務文書処理装置の概略構成を示す機能ブロック図である。 文書情報、文字情報および文字列オブジェクト情報のデータ構造例を示す図である。 線画情報、画像情報およびメタデータ情報のデータ構造例を示す図である。 業務文書処理装置において実行される処理の全体を説明するためのフローチャートである。 空白文字再挿入処理部において実行される詳細動作を説明するためのフローチャートである。 単語区切り判定処理部において実行される詳細動作を説明するためのフローチャートである。 結果表示処理部で表示される確認画面例を示す図である。 結果表示処理部で表示される確認画面例を示す図である。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。なお、以下では、英語で作成された文書を例にして本発明の実施形態を説明するが、英語以外の、文書を構成する単語の区切りに空白文字が存在する言語(例えば、日本語、中国語、韓国語等以外の言語であって、フランス語、ドイツ語、イタリア語、ロシア語等の言語が含まれる)で作成された文書にも適用可能である。
<序論>
(1)抽出されたメタデータに空白文字を再挿入する際に、直感的には、下記の方法により元文書から「単語の区切り」を調べられるように思われる。
i)元文書から「単語の区切り」を調べるための直感的な方法1
プレーンテキストやワード等の編集用アプリケーションで作成した元文書には空白文字があるため、空白文字の箇所をデータとして保持しておき、図3Aに示すように、元文書で空白文字があった場所を「単語の区切り」とする。
ii)元文書から「単語の区切り」を調べるための直感的な方法2
オフィス文書作成ソフトウェアの保存形式、閲覧ソフトウェアの保存形式、印刷用データファイルなどでは、文字列オブジェクトの形で文書記載内容を保持している(文字列オブジェクトは、一つまたは複数の文字を含む)。そこで、元文書のデータ構造を参照し、図3Bに示すように、文字が保持されるオブジェクトが切り替わる時点を「単語の区切り」とする。
iii)元文書から「単語の区切り」を調べるための直感的な方法3
図3Cに示すように、文字の位置が離れている場所を「単語の区切り」とする。
iv)元文書から「単語の区切り」を調べるための直感的な方法4
図3D及びEに示すように、単語辞書を用意して文字列とのマッチングを行い、辞書登録語の境界を「単語の区切り」とする。
しかし、実際には、上記いずれの方法によっても、単語の区切りを正しく調べることができない。
例えば、閲覧・保存の目的に特化したソフトウェアの保存形式、PDFの変換後のデータや、印刷用データファイルのようなファイルフォーマットでは、文書の外観のみ再現できれば十分である。このため、英単語の区切りを表現することは、文字の位置を離して描画するだけでも可能であり、必ずしも空白文字をデータとして保持する必要はない。図4Aに示すように単語の区切りでも文書ファイル上は空白文字が保持されていないことがあるため、上記の方法1では正しく調べられない場合がある。
また、図4Bに示すようにオブジェクトが単語単位ではないことがあるため、上記の方法2では正しく調べられない場合がある。
さらに、図4Cに示すようにプロポーショナルフォントが利用されて文字が等間隔で並んでいなかったり、図4Dに示すようにカーニングが行われて文字間隔が変動したりすることがあるため、上記の方法3では正しく調べられない場合がある。
また、図4Eに示すように辞書に登録されていない単語があったり、図4F及びGに示すように複数のマッチング可能性があったりすることがあるため、上記の方法4では正しく調べられない場合がある。
(2)そこで、発明者は、英語の表記ルール上、表1に示すような隣接する文字同士については、同じ単語に含まれるかどうか判断できることに着目した。この表記ルールに従って同じ単語に含まれるかどうか判断する処理を最初に実行することが重要である。そして、表記ルールに従って処理しても同じ単語に含まれるものか判断できない場合に、後述のように、元文書データに空白文字を挟んでいるか、同じ文字列オブジェクトに含まれるか、文字列オブジェクトの間隔が空いているかについて判断する。ここで、表記ルールとは、オックスフォードルールやシカゴマニュアル等、文章を作成する上で規範的なスタイルを規定したルールをいうものである。
Figure 0005508953
また、発明者は、サンプルファイルを調査した結果、英語の表記ルールからは同じ単語に含まれるかどうか判断できない場合には、間に空白文字を挟んでいるような文字同士については、異なる単語に含まれていると判断できることに着目した。
さらに、発明者は、サンプルファイルを調査した結果、英語の表記ルールからは同じ単語に含まれるかどうか判断できず、間に空白文字を挟んでいない場合には、同じ文字列オブジェクトに含まれる文字同士については、同じ単語に含まれていると判断できることに着目した。
また、発明者は、サンプルファイルを調査した結果、英語の表記ルールからは同じ単語に含まれるかどうか判断できず、間に空白文字を挟んでおらず、異なる文字列オブジェクトに含まれる場合には、文字列オブジェクトの間隔が空いているならば異なる単語に含まれており、近接しているならば同じ単語に含まれていると判断できることに着目した。
以上の着目点に従った処理を実行する、本発明の実施形態による業務文書処理装置について説明する。
<装置構成>
図5は、本実施形態による業務文書処理装置(文書処理装置)の概略的構成を示す機能ブロック図である。業務文書処理装置50は、データを表示するための表示装置500と、文書DB501と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード502と、マウスなどのポインティングデバイス503と、必要な演算処理及び制御処理などを行う中央処理装置504と、中央処理装置504での処理に必要なプログラムを格納するプログラムメモリ505と、中央処理装置504での処理に必要なデータを格納するデータメモリ506と、文字列オブジェクトを処理した結果であるメタデータを格納するメタデータDB530と、を有している。
中央処理装置504は、空白文字を無視してメタデータを文書から抽出する処理を行う空白文字無視メタデータ抽出処理部507と、空白文字が無視されて抽出されたメタデータに空白文字を再度挿入する処理を行う空白文字再挿入処理部508と、空白挿入処理されたメタデータを表示する結果表示処理部509と、を含んでいる。本実施形態では、各処理部はコンピュータ構成の少なくとも一部によって実現される。つまり、空白文字無視メタデータ抽出処理部507と、空白文字再挿入処理部508と、結果表示処理部509は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。従って、各処理部は各処理プログラムと読み替えることが可能である。これらのプログラムは、プログラムメモリ505に格納されている。なお、各処理部は、モジュール化することにより実現しても良い。
空白文字再挿入処理部508は、単語区切り判定処理部510を有している。また、単語区切り判定処理部510は、表1の表記ルールを参照しながら文字列に空白文字が存在するか確認する処理を実行する英語表記ルール確認処理部511と、文書情報515、文字情報516、及び文字列オブジェクト情報517を参照しながら空白文字列が存在するか確認する処理を実行する空白文字有無確認処理部512と、文字列オブジェクト情報517を参照してオブジェクトとして同一のものが含まれているか確認する処理を行う文字列オブジェクト同一性確認処理部513と、文字列オブジェクトの座標情報から2つの文字列オブジェクトの間隔(ピクセル数)を確認する処理を実行する文字列オブジェクト間隔確認処理部514と、を含んでいる。
データメモリ506は、文書情報515と、文字情報516と、文字列オブジェクト情報517と、線画情報518と、画像情報519と、メタデータ情報520と、を格納している。
<データメモリ内の情報のデータ構造例>
図6は、データメモリ506に含まれる文書情報515、文字情報516、及び文字列オブジェクト情報517のデータ構造を示す図である。
文書情報515は、構成項目として、文書ID600、文字データ601、文字列オブジェクトデータ602、線画データ603、及び画像データ604を含んでいる。ここで、文字データ601は、文書内に記載された文字の情報であり、文字情報構造体の配列の形で保持される。文字列オブジェクトデータ602は、文書内に記載された文字が含まれる文字列オブジェクトの情報であり、文字列オブジェクト情報構造体の配列の形で保持される。線画データ603は、ページ内に記載された線画(線分)の情報であり、線画情報構造体の配列の形で保持される。画像データ604は、ページ内に記載された画像の情報であり、画像情報構造体の配列の形で保持される。
文字情報516は、構成項目として、文字ID605、文字コード606、文字列オブジェクトID607、左下座標608、右上座標609、フォントサイズ610、フォント種類611を含んでいる。ここで、文字ID605は、各文字に一意に割り当てられたIDである。文字コード606は、その文字の内容を示す。文字列オブジェクトID607は、その文字が含まれる文字列オブジェクトのID612である。左下座標608は、文字の外接矩形の左下の頂点がページのどこに位置するかを示す座標である。右上座標609は、文字の外接矩形の右上の頂点がページのどこに位置するかを示す座標である。フォントサイズ610は、その文字の大きさである。フォント種類611はその文字のフォントの種類である。
文字列オブジェクト情報517は、構成項目として、文字列ID612、左下座標613、右上座標614を含んでいる。ここで、文字列ID612は、各文字列オブジェクトに一意に割り当てられたIDである。左下座標613は、文字列の外接矩形の左下の頂点がページのどこに位置するかを示す座標である。右上座標614は、文字の外接矩形の右上の頂点がページのどこに位置するかを示す座標である。
図7は、データメモリ506に含まれる線画情報158、画像情報519、及びメタデータ情報520のデータ構造を示す図である。
線画情報518は、例えば罫線等に関する情報であり、構成項目として、線画ID700、始点座標701、終点座標702を含んでいる。ここで、線画ID700は、各線画に一意に割り当てられたIDである。始点座標701は、直線の一方の端がページのどこに位置するかを示す座標である。終点座標702は、直線のもう一方の端がページのどこに位置するかを示す座標である。
画像情報519は、例えば印鑑の印面画像や挿絵等に関する情報であり、構成項目として、画像ID703、左下座標704、右上座標705、ピクセルデータ706を含んでいる。ここで、画像ID703は、各画像に一意に割り当てられたIDである。左下座標704は、画像の外接矩形の左下の頂点がページのどこに位置するかを示す座標である。右上座標705は、画像の外接矩形の右上の頂点がページのどこに位置するかを示す座標である。ピクセルデータ706は、画像のイメージを画像形式で保持する。
メタデータ情報520は、文書のメタデータを保持するためのデータ構造であり、構成項目として、メタデータID707、メタデータ種別708、文字データ709、空白文字再挿入フラグ710を含んでいる。ここで、メタデータID707は、各メタデータに一意に割り当てられたIDである。メタデータ種類708は、どの種類のメタデータであるかを保持する。文字データ709は、そのメタデータに含まれる文字それぞれについての文字ID605を配列の形で保持する。空白文字再挿入フラグ710は、再挿入処理の結果に対応して、文字データ709の間に空白文字が再挿入されるべきかどうかを配列の形で保持する。
<メタデータ抽出処理の概要>
続いて、以上のように構成された本実施形態の業務文書処理装置において行われる処理について説明する。図8は、業務文書処理装置において行われるメタデータ抽出・登録処理の概要を説明するためのフローチャートである。
図8において、まず、OCR等を用いて、文書情報の読み込み処理が行われる(ステップ800)。読み込んだ結果は文書情報515に保持される。この段階ではまだメタデータは抽出されておらず、従ってメタデータ情報520は1要素も存在しない。
次に、空白文字無視メタデータ抽出処理部507は、空白文字を無視したメタデータ抽出を行う(ステップ801)。ここでの処理については、空白文字無視メタデータ抽出処理部507を用いて行われるものであり、非特許文献1、非特許文献2、特許文献1、特許文献2、特許文献3等に記載されている既存技術で行うことができる。よって、詳しい説明は割愛する。当該処理の結果は、メタデータ情報520に格納される。この時点では空白文字の再挿入処理は行われていないため、空白文字再挿入処理部508は、空白文字再挿入フラグ710(図7参照)の全ての配列要素についてfalseで初期化する。
続いて、空白文字再挿入処理部508は、空白文字をメタデータへ再挿入する処理を行う(ステップ802)。この処理の詳細については、図9を用いて詳細に説明する。
その後、結果表示部509は、処理結果を表示装置500に表示する(ステップ803)。ここで表示される画面例については、図11及び12を用いて詳細に説明する。
そして、最後に、メタデータ登録処理部(図示せず)が、利用者の指示に応答して、空白文字が再挿入されたメタデータを処理結果としてメタデータDB530に登録する。
<空白文字の再挿入処理の詳細>
図9は、図8の空白文字をメタデータへ再挿入する処理(ステップ802)の詳細について説明するためのフローチャートである。
まず、空白文字再挿入処理部508は、メタデータのインデックスm_idxを1で初期化し(ステップ900)、メタデータ情報の数がm_idx以上であるか調べる(ステップ901)。m_idx未満である場合は処理を終了させる。一方、m_idx以上である場合は、空白文字再挿入処理部508は、文字のインデックスc_idxを1で初期化し(ステップ902)、m_idx番目のメタデータ情報は文字データ709としてc_idx+1以上の文字を持つか調べる(ステップ903)。c_idx未満である場合は、空白文字再挿入処理部508は、そのメタデータに含まれる全ての隣接する文字同士についての処理を終えているため、m_idxを1だけインクリメントして(ステップ904)、ステップ901に処理を戻す。
ステップ903でc_idx+1以上である場合は、空白文字再挿入処理部508は、c_idx番目とc_idx+1番目の文字は同じ単語に含まれるかどうか調べる(ステップ905)。この処理は、単語区切り判定処理部510で行われるものであり、図10において詳細に説明する。
ステップ905の結果、違う単語であると判定された場合には、空白文字再挿入処理部508は、メタデータ情報の空白文字再挿入フラグ710のc_idx番目の要素にtrueを設定する(ステップ906)。その後、空白文字再挿入処理部508は、c_idxを1だけインクリメントして(ステップ907)、処理をステップ903に戻す。
<同一単語に含まれるか否かについての判定処理>
図10は、図9の二つの文字が同じ単語に含まれるかどうか判定する処理(ステップ905)の詳細について説明するためのフローチャートである。
まず、空白文字再挿入処理部508は、英語表記ルール確認処理部511を用いて、英語表記ルールから二つの文字が同一単語に含まれるか判断を行う(ステップ1000)。より具体的には、英語表記ルール確認処理部511が、二つの文字の関係として表1の中に該当する項目(ルール)があればそれに従って判断し、該当する項目がなければ断定できないとする。
断定できないと判断された場合(ステップ1001)、空白文字再挿入処理部508は、空白文字有無確認処理部512を用いて、空白の有無からの判断を行う(ステップ1002)。具体的には、空白文字有無確認処理部512が、文書情報に含まれる文字データ601それぞれについて、文字コード606から空白文字かどうかを調べ、左下座標608と右上座標609から二つの文字の間に挟まれているかどうかを調べる。空白文字で間に挟まれているものが見付かったら、二つの文字は異なる文字列に含まれると判断し、そのような文字がなければ断定できないとする。
断定できないと判断された場合(ステップ1003)、空白文字再挿入処理部508は、文字列オブジェクト同一性確認処理部513を用いて、文字列オブジェクトの同一性からの判断を行う(ステップ1004)。具体的には、文字列オブジェクト同一性確認処理部513が、二つの文字の文字列オブジェクトID607が同一であるかどうかを調べる。同一であれば二つの文字は同じ文字列に含まれると判断し、異なれば断定できないとする。
断定できないと判断された場合(ステップ1005)、空白文字再挿入処理部508は、文字列オブジェクト間隔確認処理部514を用いて、文字列オブジェクトの間隔からの判断を行う(ステップ1006)。具体的には、文字列オブジェクト間隔確認処理部514が、二つの文字の文字列オブジェクトID607と同じ値の文字列ID612を持つ文字列オブジェクト情報を探し、それらの左下座標613と右上座標614から間隔を調べる。例えば、間隔が所定値以上空いていれば異なる文字列、近接していれば(所定値未満であれば)同じ文字列と判断するようにすれば良い。
以上のように、表記ルールに従った処理を最初に実行し、それでも判断できない場合に、空白文字有無確認処理、文字列オブジェクト同一性確認処理、文字列オブジェクト間隔確認処理を順番に行うようにする。表記ルールによる判断を最初に実行するのは、様々な文書から英単語の区切りを正確に判断することができるからである。例えば、図4Bに示したような文書の記載内容の場合、最初に「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」(文字列オブジェクト同一性確認処理を用いて)判断してしまうと、単語「Characters」の最後の「s」と単語「are」の最初の「a」は同じ文字列オブジェクトに含まれることから、同じ単語に含まれると誤判断してしまう。また、先に「間に空白文字を挟むかどうか」(空白文字有無確認処理を用いて)判断を行い、間に空白文字を挟まない場合についてのみ「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」(文字列オブジェクト同一性確認処理を用いて)判断を行うという順番にすることで、このような誤判断を防いで正確に判断することができる。
<結果表示画面例>
図11及び12は、図8の結果の表示処理(ステップ803)において結果が表示される画面例を示す図である。
図11では、メタデータ情報520に保持している内容について並べて表示が行われる(1100)。ここでは、空白文字再挿入フラグ710の結果に基づき、文字データ709の内容を近接させたり空白文字を挟んだりして、単語ごとに空白文字で区切られた形で並べて表示する。このうち、選択したメタデータ(1101)について、単語区切りについての詳細な情報の表示を要求するユーザ操作(ボタン1102押下)されると、図12に示す画面が表示される。
図12では、メタデータ文字列が表示されると共に、着目している隣接する文字同士について下線による強調表示が行われる(1200)。また、着目している隣接する文字同士のみを取り出して表示される(1201)。この文字同士について、図10のフローチャートの処理で判断した結果が示される(1202)。図10の処理では判断に成功したらその後の処理は行われないため、行われなかった部分についてはその旨(図中では、「−−−」)表示される(1203)。また、図10の処理での最終的な判断結果が示される(1204)。着目している隣接する文字の変更を要求するユーザ操作を受付け(1205)、表示1200〜1204が更新される。なお、閉じるボタン1206が押下されると、図12の画面は図11の画面に切り替わる。
<変形例>
なお、本明細書では、文書のメタデータを単語ごとに空白文字で区切られた形で出力するための場合について述べた。英語の文書から全文データを単語ごとに空白で区切られた形で出力するための処理についても同様である。
また、文字情報については、図6で挙げた他にも、文字の外周の色(RGB成分)、文字の塗りつぶしの色(RGB成分)、斜体であるかどうか、太字であるかどうか、文字の背景色(RGB成分)など様々な書式指定情報を持つことが考えられる。この場合も、非特許文献1、非特許文献2、特許文献1、特許文献2、特許文献3に記載されている既存技術で、空白文字を無視したメタデータ抽出処理を行うことができるので、本明細書で述べた場合と同様に取扱えば良い。
また、線画について本明細書では線分の場合について述べたが、矩形・多角形・ベジエ曲線・円弧などやその組み合わせが文書に含まれていることが考えられる。さらに、線の色、太さ、パターン(実線や点線など)、塗りつぶしの色など様々な書式指定情報を持つことが考えられる。この場合も、非特許文献1、非特許文献2、特許文献1、特許文献2、特許文献3に記載されている既存技術で、空白文字を無視したメタデータ抽出処理を行うことができるので、本明細書で述べた場合と同様に取扱えば良い。
また、本明細書では図12で下線表示による強調表示を行う例について述べたが、強調表示の形態はこれに限らない。太字、文字色による強調表示なども可能である。
<まとめ>
本発明の実施形態では、英語の表記ルールを用いて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする。ここで、表記ルールとは、オックスフォードルールやシカゴマニュアル等、文章を作成する上で規範的なスタイルを規定したルールをいうものである。このようにすることにより、英語特有の表記方法に則った空白の有無を判断することができるようになる。なお、実施形態では、英語を例にして説明しているが、表記方法が特殊で、単語と単語の間に空白文字が存在する言語であればどのような言語にも本発明は適用することが可能である。
そして、表記ルールに従って判断しても空白の有無について断定できない場合に、二つの文字の間に空白文字を挟むかどうかという元文書の情報(読み込む文書データに含まれる空白文字についての情報)に基づいて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。また、元文書も情報に基づいて判断しても空白の有無について断定的な判断ができない場合に、同じ文字列オブジェクトに含まれるかどうかという文字列オブジェクトの情報に基づいて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。さらに、文字列オブジェクトの情報に基づいて判断しても空白の有無について断定的な判断が出来ない場合に、文字列オブジェクトの間隔が空いているか近接しているかの情報(各文字情報が有する座標情報から文字間の距離がどの位離れているかの情報)に基づいて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。このように、表記ルールを用いても空白の有無について断定できない場合に初めて、他の方法によって空白文字の有無について判断することにより、また、このような順番で空白の判断することにより、より正確に空白の有無を判断することが可能となる。つまり、上述したように、最初に「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」を用いて判断してしまうと、例えば、単語「Characters」の最後の「s」と単語「are」の最初の「a」は同じ文字列オブジェクトに含まれることから、同じ単語に含まれると誤判断してしまう。よって、先に「間に空白文字を挟むかどうか」を用いて判断を行い、間に空白文字を挟まない場合についてのみ「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」を用いて判断を行うという順番にすることで、このような誤判断を防いで正確に判断することができるようになる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
500・・・表示装置
501・・・文書DB
502・・・キーボード
503・・・ポインティングデバイス
504・・・中央処理装置
505・・・プログラムメモリ
506・・・データメモリ
530・・・メタデータDB

Claims (8)

  1. 単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置であって、
    前記処理結果を登録するための登録用データベースと、
    前記文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースと、
    前記言語における文字或いは単語と記号との間の表記ルールに基づいて、前記文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定する単語区切り判定処理部と、
    前記単語区切り判定処理部による処理結果を表示装置に表示する表示処理部と、
    入力指示に応答して、前記単語区切り判定処理部による処理結果を前記登録用データベースに登録する登録処理部と、
    前記文章から前記空白文字を無視してメタデータを抽出する処理を行うメタデータ抽出処理部と、を有し、
    前記単語区切り判定処理部は、前記隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、前記抽出したメタデータに前記空白文字を再挿入し、
    前記登録処理部は、前記空白文字が再挿入されたメタデータを、前記単語区切り判定処理部による処理結果として前記登録用データベースに登録することを特徴とする文書処理装置。
  2. 請求項において、
    前記単語区切り判定処理部は、前記表記ルールに基づいた判定処理によって前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記元文書情報を参照して、前記隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。
  3. 請求項において、
    さらに、文字列の識別子と文字列オブジェクトの特徴を含む文字列オブジェクト情報と、前記文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納するメモリを含み、
    前記単語区切り判定処理部は、前記元文書情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記文字列オブジェクト情報及び前記文字情報を参照して、前記隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。
  4. 請求項において、
    前記文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含み、
    前記単語区切り判定処理部は、前記文字列オブジェクト情報及び前記文字情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記それぞれの文字列の位置情報を参照して、前記文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。
  5. コンピュータを、単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置として機能させるためのプログラムであって、
    前記コンピュータには、前記文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースが接続されており、
    前記コンピュータに、前記言語における文字或いは単語と記号との間の表記ルールに基づいて、前記文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定する単語区切り判定処理を実行させるためのプログラムコードと、
    前記単語区切り判定処理の結果を表示装置に表示させるためのプログラムコードと、
    前記コンピュータに、入力指示に応答して、前記単語区切り判定処理の結果を登録用データベースに登録させるためのプログラムコードと、
    前記コンピュータに、前記文章から前記空白文字を無視してメタデータを抽出するメタデータ抽出処理を実行させるプログラムコードと、を有し、
    前記単語区切り判定処理を実行するためのプログラムコードは、前記コンピュータに、前記隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、前記抽出したメタデータに前記空白文字を再挿入する処理を実行させるためのプログラムコードを含み、
    前記登録用データベースに登録させるためのプログラムコードは、前記コンピュータに、前記空白文字が再挿入されたメタデータを、前記単語区切り判定処理部による処理結果として前記登録用データベースに登録させるためのプログラムコードを含むことを特徴とするプログラム。
  6. 請求項において、
    前記単語区切り判定処理を実行するためのプログラムコードは、前記表記ルールに基づいた判定処理によって前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記元文書情報を参照して、前記隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させるためのプログラムコードを含むことを特徴とするプログラム。
  7. 請求項において、
    前記コンピュータは、さらに、文字列の識別子と文字列オブジェクトの特徴を含む文字列オブジェクト情報と、前記文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納するメモリを含み、
    前記単語区切り判定処理を実行するためのプログラムコードは、前記元文書情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記文字列オブジェクト情報及び前記文字情報を参照して、前記隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させるためのプログラムコードを含むことを特徴とするプログラム。
  8. 請求項において、
    前記文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含み、
    前記単語区切り判定処理を実行するためのプログラムコードは、前記文字列オブジェクト情報及び前記文字情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記それぞれの文字列の位置情報を参照して、前記文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させることを特徴とするプログラム。
JP2010146739A 2010-06-28 2010-06-28 文書処理装置及びプログラム Active JP5508953B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010146739A JP5508953B2 (ja) 2010-06-28 2010-06-28 文書処理装置及びプログラム
PCT/JP2011/064749 WO2012002357A1 (ja) 2010-06-28 2011-06-28 文書処理装置及びプログラム
US13/696,881 US8959049B2 (en) 2010-06-28 2011-06-28 Document processing device and program
EP11800821.8A EP2565798A4 (en) 2010-06-28 2011-06-28 Document processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010146739A JP5508953B2 (ja) 2010-06-28 2010-06-28 文書処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012008965A JP2012008965A (ja) 2012-01-12
JP5508953B2 true JP5508953B2 (ja) 2014-06-04

Family

ID=45402064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010146739A Active JP5508953B2 (ja) 2010-06-28 2010-06-28 文書処理装置及びプログラム

Country Status (4)

Country Link
US (1) US8959049B2 (ja)
EP (1) EP2565798A4 (ja)
JP (1) JP5508953B2 (ja)
WO (1) WO2012002357A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009060800A1 (de) 2009-06-18 2011-06-09 Varta Microbattery Gmbh Knopfzelle mit Wickelelektrode und Verfahren zu ihrer Herstellung
USD715818S1 (en) * 2011-12-28 2014-10-21 Target Brands, Inc. Display screen with graphical user interface
USD705790S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD705792S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
JP2015207134A (ja) * 2014-04-21 2015-11-19 村田機械株式会社 工作機械、プログラム編集方法、及び制御プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4991094A (en) * 1989-04-26 1991-02-05 International Business Machines Corporation Method for language-independent text tokenization using a character categorization
JPH07117961B2 (ja) * 1990-01-12 1995-12-18 株式会社日立製作所 文献データ登録方法
JPH06348911A (ja) * 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
JP3425834B2 (ja) 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
JPH09237320A (ja) * 1996-03-04 1997-09-09 Fuji Electric Co Ltd 文書フォーマットの復元方法
JPH11184894A (ja) 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
JP3636941B2 (ja) * 1999-07-19 2005-04-06 松下電器産業株式会社 情報検索方法と情報検索装置
JP3425408B2 (ja) 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
JP5248845B2 (ja) * 2006-12-13 2013-07-31 キヤノン株式会社 文書処理装置、文書処理方法、プログラムおよび記憶媒体

Also Published As

Publication number Publication date
JP2012008965A (ja) 2012-01-12
EP2565798A4 (en) 2018-01-03
EP2565798A1 (en) 2013-03-06
US8959049B2 (en) 2015-02-17
US20130091091A1 (en) 2013-04-11
WO2012002357A1 (ja) 2012-01-05

Similar Documents

Publication Publication Date Title
Bansal et al. Segmentation of touching and fused Devanagari characters
US5960448A (en) System and method for displaying a graphically enhanced view of a region of a document image in which the enhanced view is correlated with text derived from the document image
CN102117269B (zh) 对文档进行数字化的装置及方法
US9256798B2 (en) Document alteration based on native text analysis and OCR
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US20060285746A1 (en) Computer assisted document analysis
EP2354966A2 (en) System and method for visual document comparison using localized two-dimensional visual fingerprints
US20100303356A1 (en) Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
JP5508953B2 (ja) 文書処理装置及びプログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20060190684A1 (en) Reverse value attribute extraction
JP2007058605A (ja) 文書管理システム
US20060290964A1 (en) Image processing system and image processing method, and computer program
US9049400B2 (en) Image processing apparatus, and image processing method and program
US20070071278A1 (en) Method and computer-readable medium for shuffling an asian document image
US8116567B2 (en) Digitizing documents
CN116127916B (zh) 一种动态添加水印的方法和装置
JP2011028568A (ja) 文書データ処理装置
CN114579796A (zh) 机器阅读理解方法及装置
CN112287742B (zh) 文件中的流程图解析方法及装置、计算设备、存储介质
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
KR20100115048A (ko) 복사 문서 판별 시스템 및 그 방법
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
CN113449763A (zh) 信息处理装置以及记录媒体
Lacasta et al. Tracing the origins of incunabula through the automatic identification of fonts in digitised documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140324

R150 Certificate of patent or registration of utility model

Ref document number: 5508953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250