JP3647518B2 - コード化したワードトークンを使用して文書画像をハイライトで強調する装置 - Google Patents

コード化したワードトークンを使用して文書画像をハイライトで強調する装置 Download PDF

Info

Publication number
JP3647518B2
JP3647518B2 JP24911495A JP24911495A JP3647518B2 JP 3647518 B2 JP3647518 B2 JP 3647518B2 JP 24911495 A JP24911495 A JP 24911495A JP 24911495 A JP24911495 A JP 24911495A JP 3647518 B2 JP3647518 B2 JP 3647518B2
Authority
JP
Japan
Prior art keywords
word
token
document
character
word token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24911495A
Other languages
English (en)
Other versions
JPH08166970A (ja
Inventor
タケヒロ ナカヤマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH08166970A publication Critical patent/JPH08166970A/ja
Application granted granted Critical
Publication of JP3647518B2 publication Critical patent/JP3647518B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書をハイライトで強調する装置に関し、特に、コード化したワードトークン(一連の文字からなる識別できる単語単位)を使用して文書の論題に関する分類上の単語にハイライトで強調する装置に関する。
【0002】
【従来の技術】
走査画像をデジタルコンピュータで使用できる文書データに変換する技術は周知である。
【0003】
【発明が解決しようとする課題】
しかし、今日迄、文書の検索単語(キーワード)もしくは熟語(フレーズ)を自動的にハイライトで強調し、あるいは「マークアップ」する技法あるいはシステムは実現されていない上に、文書を特定の論題分類(トピックのカテゴリー)に自動的に分類することも不可能である。文書がこのシステムにまわされる度に、当該文書固有の論題に対応する何らかの検索単語を付与しなければならない。この検索単語の付与は、オペレータが文書の検索単語に関するデータをシステムに入力することによって行われなければならない。
【0004】
本発明は、文書をハイライトで強調する方法を提供することを目的とするものである。
【0005】
本発明の他の目的は、文書内のハイライトで強調された特定単語によってその文書の論題を読者が容易に認識することができるようにした方法及び装置を提供することである。
【0006】
本発明の他の目的は、前置詞、接続詞、助動詞、関係詞などの一般機能語(コモンファンクション)及び数字に対応するワードトークンを削除するために使用する削除トークンリストを提供することである。
【0007】
本発明は更に、語形トークンと記憶された訓練(トレーニング)用もしくは照合用データ間の「距離」を比較することによって文書を自動的に分類する方法及び装置を提供することを目的とするものである。
【0008】
【課題を解決するための手段】
上記目的を達成するために、本発明にかかる装置は、文書内の単語を表わす文字形状コード種より構成されるワードトークン列を用いて、前記文書からの文書画像をハイライトで強調する装置であって、前記文書の各単語はそれぞれ1つのワードトークンのみによって表される、装置において、前記ワードトークン列から予め定められた文字形状コード種を除去する手段と、前記ワードトークン列から、パターン調和法及び削除トークンリストを使用して、予め定められた一般機能ワードトークンを削除して短縮されたワードトークン列を作成する手段と、前記短縮ワードトークン列の各ワードトークンの繰返出現率を判定する手段と、前記繰返出現率に順位を付け、前記順位化された繰返出現率に基づいて、n番目もしくはそれ以上の高い繰返出現率で出現するワードトークンを判断する手段と、n番目もしくはそれ以上の高い繰返出現率で出現するワードトークンをハイライトで強調する手段と、を備えることを特徴とする。
【0009】
本発明では、例えばそれぞれが多数の異なる文字字体(キャラクターシェイプ)コードもしくはコード化された抽象的(アブストラクト)文字種(キャラクタークラス)よりなるワードトークン列が文書画像から取り出される。ある種の文字字体コードは、このワードトークン列から除去もしくは削除される。除去される文字字体コードは、言語学的に重要な情報に関連しないものである。得られたワードトークン列は、統計的に構築された削除(ストップ)トークンリストによって分析される。この分析は、従来のパターン調和(パターンマッチング)法を用いて、「一般機能(コモンファンクション)」語から得られトークンを更に除去することを可能にする。
【0010】
短縮されたワードトークン列は、各トークンの出現頻度、即ち繰返出現率を計算するために分析される。これらの率は、最も高い繰返出現率からn番目に高い繰返出現率まで順位化され、文書をハイライトで強調したりマークアップするために使用される。
【0011】
ここに使用される用語「ハイライト」は、読者に文書の論題(トピック)、主題(サブジェクト)等を迅速に伝えることを可能にするような文書をマークアップするのに可能な種々のやり方をいう。文書の論題に関連するある種の検索用単語は、それに対応する高い繰返出現率をもつものである。
【0012】
また、付加的なトークンリストを使用すれば、ある種の数字単語を削除することを可能となる。
【0013】
更に、短縮ワードトークン列を、文書や記事を自動的に分類するために使用される文書あるいはトークンのプローフィールを作成するために使用することをも可能である。
【0014】
【発明の実施の形態】
図1には、本出願人によって出願された米国特許出願第08/047,514号及び08/047,540号にその詳細が開示されたものと同一ではないが、類似の走査装置が示されており、この走査装置は、電荷蓄積装置(CCD)等を備えたスキャナー110より構成される。このスキャナー110は、活字タイプの文章列よりなる画像102を有する、例えば図3に示されるような文書100を走査し、その原稿文書100の画像を構成する複数の画素に関する位置と画像濃度を表わすデジタルデータ信号を出力する。このデジタルデータ信号は、メモリー112に転送され、一時的に又は永久に記憶される。デジタルデータ信号は、このメモリー112から出力されると、汎用型デジタルコンピュータ114に入力される。一旦このデジタルコンピュータ114に入力されると、デジタルデータ信号は、まず最初に画像102の非文章部分を除去して文章部分を残すことによって整理される。更に、スキャナー自体により形成された、歪み等のような、疑似デジタルデータ信号を補正する。整理されたデジタルデータ信号は、メモリー112に記憶するか、あるいは汎用コンピュータ114のメモリーに記憶する。あるいは、スキャナーはスキャナー疑似信号(アーティファクト)を除去するような前処理を行うこともできる。
【0015】
図1に示されるように、本発明で使用する汎用デジタルコンピュータ114は、制御プログラムを記憶するメモリー22と、メモリー112からデジタルデータ信号を入力し、文章部分に関する、あるワードトークン(一連の文字からなる識別できる単語単位)を表わす信号を、文書をハイライトで強調しあるいは分類するための信号と共に出力する入出力回路24とにより構成されている。汎用デジタルコンピュータ114は又、デジタルデータ信号を記憶する画像メモリー26、デジタルデータ信号から結合構成要素(文字を構成する線分などの要素)を生成する結合構成要素生成手段28、文章の部分の行、単語及び文字区画の座標と各文字区画内の各結合構成要素の場所とを判定する空間的特徴判定手段30、文字区画を抽象的な文字コード種へ変換する文字形態種別化(キャラクタタイプシィフィケーション)手段32、ハイライト強調部34及び分類付与部36より構成されている。制御プログラムメモリー22は、ロム(ROM)22aあるいはラム(RAM)22bのいずれでもよい。
【0016】
種別化手段32は、現在対象の文字区画内の結合構成要素の数を判定する計数手段320、現在対象の文字区画内の少なくとも1以上の結合構成要素の上端位置を位置決定する上端位置決定手段322、現在対象の文字区画内の少なくとも1以上の結合構成要素の下端位置を位置決定する下端位置決定手段324、現在対象の文字区画内の少なくとも1以上の結合構成要素の高さと幅を判定する結合構成要素寸法判定手段326、現在対象の文字区画に対応する行の基線(ベースライン)及びXラインの位置の少なくとも一方を記憶する行位置記憶手段328、及び構成要素の上端位置、下端位置及び高さの少なくとも1つを、基線位置、Xライン位置及び構成要素幅の少なくとも1つと比較する比較手段330より構成される。勿論、結合構成要素生成手段28、空間的特徴判定手段30及び文字形態種別化手段32の各機能及びその対応手段は、その構成が前記実施形態と等価であれば、独立した手段で実行することができる。汎用コンピュータで実行されるこれらの手段は、特定目的のコンピュータ又は対応する配線連結された別設の要素回路でも一体化された回路であってもよい。
【0017】
結合構成要素生成手段28、空間的特徴判定手段30、及び文字形態種別化手段32は、一緒に作用して、文書画像102の文章部分104を、米国特許第08/047,540に説明されたように、ワードトークン列に変換する。各ワードトークンは、少なくとも1つ(通常1つ以上)の、図4に示されるような、抽象的にコード化された文字種より構成される。各抽象コード化文字種は、活字形態の文字の種類を表わしている。英語、フランス語、及びドイツ語で使用される書体のようなヨーロッパ型書体に対して、抽象コード化文字と、この抽象コード化文字が表わす活字文字が図5に示されている。文書画像102の文章部がすでにワードトークンに変換されている場合、汎用コンピュータ114は、メモリー22、入出力回路24、画像メモリー26、ハイライト強調部34及び分類付与部36のみで構成されればなお望ましい。
【0018】
図2に示されているように、ハイライト強調部34は、或種の文字形態コードあるいは抽象化コード文字種(意味のない記号など)をワードトークン列から除去する除去手段220、図7に示されたリストに類似した削除トークンリストを使用して、ある種の一般機能ワードトークン(ファンクションワード)をワードトークン列から削除して短縮したワードトークン列を形成する削除手段230より構成される。このハイライト強調部34、更にワードトークン繰返出現率判定手段240、短縮ワードトークン列の最大頻出度のワードトークンから得られる繰返出現率を順位化する順位化手段250、及び「n番目」もしくはそれ以上に高い繰返出現率をもつワードトークンをハイライト、下線によって強調し、さもなければマークアップするハイライト手段260より構成される。分類付与部36は、文書を既存の分類に類別する分類付与手段265を含む。順位化手段250は、順位化された繰返出現率に基づいて、n番目もしくはそれ以上に頻繁に出現するワードトークンを判定する手段を含む。
【0019】
操作では、画像102を有する文書100をスキャナー110にかけて読み取り、シリアル又はパラレルデジタルデータ信号を取り込む。デジタルデータ信号は、原画像102の各画素に対応する複数の信号部分により構成されている。画像102の各画素は、画像102に関する位置と画像濃度を有する。従って、デジタルデータ信号の各信号部分は、対応する画素の位置と画像濃度を表わすデータを含んでいる。
【0020】
スキャナーからのデジタルデータ信号出力は、メモリー112に記憶される。メモリー112は、RAM、フラッシュメモリー、ディスクメモリー等でも良い。メモリーの形式にかかわらず、デジタルデータ信号は、各信号部分に含まれた位置と画像濃度に応じてメモリー112に記憶される。勿論、デジタルデータ信号は、中間に配置されるメモリー112ではなく汎用デジタルコンピュータ114に直接入力することもできる。あるいは、メモリー112を汎用デジタルコンピュータ114に内蔵させてもよい。いずれにしても、メモリー112は、画像102を長期間保存するために利用されるものである。
【0021】
オペレーターが文書のスキャナー110への入力が終了した場合又はこのシステムが、画像102のデジタルデータ信号が文章データに変換しなければならないと判断した場合、画像102のデジタルデータ信号は、メモリー112から汎用デジタルコンピュータ114へ出力される。
【0022】
メモリー112に記憶されているデジタル画像データ信号は、汎用デジタルコンピュータ114へ出力され、そこで入出力手段24を通して画像メモリーに入力される。ここでは、文章部分104の全体の字体形式がヨーロッパ活字体であるとする。勿論、文章部分104の全体の書体形式がヨーロッパ活字体であることが解からなくても、本発明は、本明細書において引用する米国特許出願番号08/047,515に記載された全体の書体形式を判定する方法及びその装置と組み合わせることができる。
【0023】
一旦デジタルデータ信号が画像メモリー26に全部記憶されてしまうと、このデジタルデータ信号は、結合構成要素生成手段28によって処理可能となる。結合構成要素生成手段28は、画像102のデジタルデータ信号を複数の結合構成要素に分割する。ここで、各結合構成要素は、1もしくは1以上の信号部分より構成されるものである。各結合構成要素は、原画像102の或最低画像濃度を有し、連続した経路を構成している画素に対応する信号部分よりなるものである。各字体の文字は、一般に「Fuji」の「F」の場合のように、1つの結合構成要素、もしくは、「Fuji」の「j」あるいは「i」の場合のように、1つ以上の結合構成要素に対応している。
【0024】
一旦結合構成要素生成手段28がデジタルデータ信号から画像102の複数の結合構成要素を生成すると、画像102に対応するデジタルデータ信号及び結合構成要素生成手段28によって形成された結合要素のリストは、画像メモリー26に記憶されると共に空間的特徴判定手段30に入力される。
【0025】
空間的特徴判定手段30は、行位置、単語間隔(スペース)、文字区画(キャラクタセル)等の文章(テキスト)部分の空間的特徴を決定する。各文字区画は、隣接する空白間の行内で垂直方向に整列した結合構成要素を含んでいる。例えば、「Fuji」の「i」及び「j」の文字は、それぞれ二つの独立する結合構成要素である。空間的特徴判定手段30は、一行の全垂直整列結合構成要素を1つの文字区画へ分類する。文章部分104の結合構成要素リストから文章部分104の空間的特徴を決定する1つの方法および装置は、米国特許出願08/047,514に開示されている。
【0026】
結合構成要素及び文字区画のリストは、空間的特徴判定手段30から文字形態種別化手段32へ出力される。文字形態種別化手段32は、文字区画内の1つまたは複数の結合構成要素を、文字区画内の結合構成要素種の数および場所に基づいて、複数の抽象化文字コード種の1つへ変換する。抽象化文字コード種及び各抽象的文字コード種に対応する活字書体文字のリストが図5に示されている。図5に示されるように、抽象的文字コード種が使用されている。各抽象的文字コード種は、文字区画内の独立する結合構成要素の数、各文字区画の独立する結合構成要素間の相対位置、文字区画内の結合構成要素の位置に基づいて、1つないし1つ以上の文字を代表している。
【0027】
上述の字体判定システムの動作手順は米国特許出願08/047,540に開示されている。
【0028】
本発明の方法及び装置は、統計的基盤に基づくものであるから、非常にしっかりしており、非常に薄い印刷の文書及び/あるいは走査が不十分な文書にさえ耐えうるものである。すなわち、デジタルデータ信号あるいは該デジタルデータ信号から形成された結合構成要素は、文書の全ての文字を完全に表す必要がない。むしろ、本発明は、単一の結合構成要素を2つあるいはそれ以上の結合構成要素に分離してしまうようなエラー、2つあるいはそれ以上の結合構成要素を単一の結合構成要素へ併合してしまうようなエラー、あるいは、同一行上の結合構成要素を置き違えるといったエラーのような通常の走査上起るエラーに耐えることが出来る。
【0029】
要約すれば、本システムは、1つないし1つ以上の抽象的文字コード種よりなるワードドークン列を形成するものである。これらのワードトークンは、それぞれ文書をハイライトで強調し、文書を分類するハイライト強調部34と分類付与部36に供給される。これらの二つの部分を以下に説明する。
【0030】
本発明の一実施形態であるフローチャートである図9を参照すると、ワードトークン列は、ステップS1100で、除去手段220に入力され、ステップS1200で処理されて、一般的に殆ど重要な言語情報を含まない「.」、「!」、「−」、「,」、及び「:」等の、さ程重要でない抽象的文字コード種、即ち、文字形状コードがワードトークン列から除去される。一旦これらの形状コードが除去されると、ワードトークン列は、削除手段230へ転送され、ステップS1300で図7に示されるような削除(ストップ)トークンリストとパターンマッチングを使用して、図6に示されるような対応する所定の「一般機能」語が削除される。一般に、「一般機能」語は前置詞、限定詞、接続詞、代名詞、叙述詞を取りまとめたものであり、名詞、動詞、目的語等の「有意語」とは区別される。両単語形態(タイプ)にまたがる単語は、機能語と考えられ、それなりに処理される。
【0031】
図6に示された一般機能語は統計データに基づけば、0.0005以上の繰返出現率を有する。その結果として、これら一般機能語から図7に示されるような削除トークンリストが作成される。このリストでは、繰返し出てくるワードトークンは、全て除去されている。このようにして、最初に文章部分104から作られた図4のワードトークン列に残存しているワードトークンは、削除手段230によって削除トークンリストと比較され、削除トークンリストに現われたワードトークンを削除して「有意語」のみからなる短縮ワードトークンリスト列を作成する。
【0032】
この時点で、短縮ワードトークン列をステップS1400で短縮ワードトークン列に現われる各異なるワードトークンの繰返出現率を判定する判定手段240へ転送してもよい。本発明の他の実施形態では、ワードトークン列を、ステップS1305で、最初にオプションの削除手段235へ転送して図4の削除トークンリストのもう1つの、あるいは別途用意されたリストを使用して数字で表わした語を削除する。このオプションの削除トークンリストは連鎖A*(この*印はA、AA、AAA、AAAA等である)を含む。
【0033】
いずれの場合も、新しい短縮ワードトークン列は、繰返出現率判定手段240へ転送され、その繰返出現率が判定される。一旦繰返出現率が判定されると、ステップS1500で、順位化(ランク付け)手段250によって順位化される。順位化手段250は、ワードトークンを順位化し最大出現頻度のものから出現頻度がn番目(nは整数)までのワードトークンを判定する。
【0034】
本発明の実施形態において、これらの順位のワードトークンに対応する文章部分104の単語は、図8に示されるように、ステップS1600でハイライトや下線、そうでなければマークアップにより強調される。この強調付与後の文章部分104は、表示装置200に表示される。この表示装置はCRT、複写印刷物、LCD表示装置等、種々の表示装置のうちどれでもよい。これらの単語は、「n番目」もしくはそれ以上の順位のものがハイライトで強調される。ここで、nは、例えば、10のように順位を表わす。この場合、順位10、9、8、7等の、即ち、繰返出現率が10番目の単語、繰返出現率が9番目の単語等がハイライトで強調される。
【0035】
例えば、図8に示されるように、建設業界に関する経済記事は、「construction」という単語を何度も使用している。単語「construction」は、ワードトークンとして表わすことができる。本発明は、単語「construction」に関係づけられたワードトークンの出現率を計算し、該記事から作成された短縮ワードトークン列に残存する全ての他の単語の出現率に対して計算された出現率に順位をつける。例えば、単語「construction」は、この記事中では10番目に高い繰返出現率で使用されている。本発明は、その後このワードトークンに対応する単語をハイライトまたは下線で強調し、あるいは他の方法でマークアップし、読者が単語「construction」が記事全体の何処に位置するかを容易に見極めることができるようにしている。同様に、単語「construcition」と同じ位頻繁に、例えば、10番目に高いトークン出現率もしくはそれ以上、即ち、9番目、8番目、7番目…の出現率で現れるワードトークンに対応する記事中の全ての単語も、同様にハイライトまたは下線で強調し、あるいは他の方法でマークアップし、読者がそれらの単語を容易に識別できるようにしている。
【0036】
本発明の他の実施形態は、図8に示される文書をワードトークンを使って分類ステップS1605を付加的に含んでいる。ワードトークンは、特定の文書のプロフィールを見出すために使用される。信頼出来る検索データと統計的分析により、検索プロフィールを計算し、分類手段265を使って大量の参考文書を大量の既存分類へ類別することができる。特定の文書プロフィールは、少くとも一つの照合プロフィールと比較してその分類を判定する。
【0037】
分類ステップS1605は、ハイライトで強調ステップS1600に付加的に使用してもよいし、あるいは、ハイライトで強調ステップS1600から分離して使用してもよい。即ち、分類ステップS1605は、ハイライトで強調ステップS1600に置き換えて使用してもよい。
【0038】
このようなシステム及びその方法の作用の概要が図10に示されている。
【0039】
図10の右側のステップS3000に描かれているのは、その論題によって採られた複数の照合用分類(リファレンス・カテゴリー)文書である。これらの文書は、訓練用データとして、あるいは検索用(リファレンス)データとして使用できる。照合用データは、照合用プロフィールを見出すために使用される。ステップS3050において、システムは、プロフィール生成を初期化(起動)し、ステップS3100でこれら文書トークン画像に変換する。その後は、既に説明したステップS3200〜3400を実行し、形成されたトークンの繰返出現率を順位化する。引き続いて、ステップS3500で、順位(ランク)をある数値に制限することによって、例えば、1から100迄の順位のみを照合用分類順位化しトーマライズする。その結果の照合用プロフィールは、複数の照合用文書の分類(カテゴリー)を表わしている。なお、照合用文書は基準となるサンプル文書であり、これを利用して、基準となる照合用プロフィールが作成される。
【0040】
このような照合用文書による学習を多数行い、多数の照合用プロフィールを持てば、それだけ細かい分類を行うことができる。
【0041】
図10の左側にあるのは分類を決定すべき新しい文書である。この文書のプロフィールは、ステップS2050〜2500で作成される。作成されたプロフィールは、文書のすべての識別が出来るトークンを順位化する。
【0042】
ステップS2600で、システムはプロフィールの「距離」を計算する。プロフィールの「距離」は、分類が未知の新しい文書のプロフィールと照合分類プロフィールとの間の距離であって、カフナー及びトレンケル(カフナー及びトレンケル、1994年)によって提案された「置き違え(アウト・オブ・プレース)評価法」によって得られる。この「評価」は、新プロフィール内のトークンが既知プロフィールの内の、そのトークン位置、即ち、既知の照合分類のプロフィールからどの位離れているかを判定する。新文書プロフィール内の各トークンに関して、本システムは、既知の照合分類プロフィール内の対応トークンを見出し、それが場所的にどの位離れているかを計算する。この場所ずれ値を全て合計すると当該分類に関する新文書の距離が得られる。ステップS2700では、距離を比較して新文書に対し「最も近い」分類を付与する。
【0043】
距離の測定は、例えば次のような方法によっても可能である。順位の1つの違いを距離1とし、対応あるトークンが照合用プロフィールに存在しなかった場合は「100」とする。
【0044】
また、そのほか類似度の検出方法が直接採用できる。
【0045】
図2に示された分類付与手段265は、形成されたトークンにより特定文書のトークンプロフィールを判定する手段、特定文書のトークンプロフィールと少なくとも1つの照合プロフィールとの間の少くとも一つの距離を測定する手段、及びこの少くとも1つの測定距離に基づいて当該特定文書を分類する手段より構成してもよい。
【図面の簡単な説明】
【図1】 走査装置のブロック図である。
【図2】 ハイライト強調部及び分類部の詳細を示す図である。
【図3】 文書の実際の文章部分を示す図である。
【図4】 抽象コード文字種によりワードトークン列に変換された図3の文章部分を示す図である。
【図5】 実際の字体の文字種に対応するワードトークンを得るために使用する文字抽象コード文字種あるいは文字字体コードを示す図である。
【図6】 統計的発生率が0.0005以上の一般機能語のリストを示す図である。
【図7】 図6の一般機能語に対応するワードトークンの関連削除トークンのリストを示す図である。
【図8】 本発明の一実施形態によるハイライト強調あるいはマークアップされた文書の一例を示す図である。
【図9】 本発明に示す実施形態に対応するフローチャートである。
【図10】 本発明の他の実施形態フローチャートである。
【符号の説明】
28 結合構成要素生成手段、30 空間的特徴判定手段、32 文字形態種別化手段、34 ハイライト強調部、36 分類付与部、100 文書、102文書画像、110 スキャナー。

Claims (1)

  1. 文書内の単語を表わす文字形状コード種より構成されるワードトークン列を用いて、前記文書からの文書画像をハイライトで強調する装置であって、前記文書の各単語はそれぞれ1つのワードトークンのみによって表される、装置において、
    前記ワードトークン列から予め定められた文字形状コード種を除去する手段と、
    前記ワードトークン列から、パターン調和法及び削除トークンリストを使用して、予め定められた一般機能ワードトークンを削除して短縮されたワードトークン列を作成する手段と、
    前記短縮ワードトークン列の各ワードトークンの繰返出現率を判定する手段と、
    前記繰返出現率に順位を付け、前記順位化された繰返出現率に基づいて、n番目もしくはそれ以上の高い繰返出現率で出現するワードトークンを判断する手段と、
    n番目もしくはそれ以上の高い繰返出現率で出現するワードトークンをハイライトで強調する手段と、
    を備えることを特徴とする文書画像をハイライトで強調する装置。
JP24911495A 1994-10-06 1995-09-27 コード化したワードトークンを使用して文書画像をハイライトで強調する装置 Expired - Fee Related JP3647518B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31903794A 1994-10-06 1994-10-06
US319037 1994-10-06

Publications (2)

Publication Number Publication Date
JPH08166970A JPH08166970A (ja) 1996-06-25
JP3647518B2 true JP3647518B2 (ja) 2005-05-11

Family

ID=23240611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24911495A Expired - Fee Related JP3647518B2 (ja) 1994-10-06 1995-09-27 コード化したワードトークンを使用して文書画像をハイライトで強調する装置

Country Status (2)

Country Link
US (1) US5526443A (ja)
JP (1) JP3647518B2 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5694523A (en) * 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5754840A (en) * 1996-01-23 1998-05-19 Smartpatents, Inc. System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims
US5983170A (en) * 1996-06-25 1999-11-09 Continuum Software, Inc System and method for generating semantic analysis of textual information
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US5960080A (en) * 1997-11-07 1999-09-28 Justsystem Pittsburgh Research Center Method for transforming message containing sensitive information
US6542888B2 (en) * 1997-11-26 2003-04-01 International Business Machines Corporation Content filtering for electronic documents generated in multiple foreign languages
US6128634A (en) * 1998-01-06 2000-10-03 Fuji Xerox Co., Ltd. Method and apparatus for facilitating skimming of text
US6533822B2 (en) 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US5991714A (en) * 1998-04-22 1999-11-23 The United States Of America As Represented By The National Security Agency Method of identifying data type and locating in a file
US6243501B1 (en) 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
JP3849318B2 (ja) 1998-09-10 2006-11-22 富士ゼロックス株式会社 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
EP1141811A2 (en) * 1998-12-08 2001-10-10 Mediadna, Inc. A system and method of obfuscating data
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6349295B1 (en) * 1998-12-31 2002-02-19 Walker Digital, Llc Method and apparatus for performing supplemental searches over a network
US8095581B2 (en) 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US6493702B1 (en) 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
FR2797067B1 (fr) * 1999-06-09 2005-07-29 Ricoh Kk Procede, dispositif et support lisible par ordinateur pour effectuer une recherche de document
US6950982B1 (en) 1999-11-19 2005-09-27 Xerox Corporation Active annotation mechanism for document management systems
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
AU2002258901B2 (en) 2001-04-20 2007-03-29 American Express Travel Related Services Company, Inc. System and method for travel carrier contract management and optimization
US20060253784A1 (en) * 2001-05-03 2006-11-09 Bower James M Multi-tiered safety control system and methods for online communities
US7856359B2 (en) * 2001-07-02 2010-12-21 American Express Travel Related Services Company, Inc. System and method for airline purchasing program management
US6883138B2 (en) * 2001-08-08 2005-04-19 Xerox Corporation Methods and systems for generating enhanced thumbnails usable for document navigation
US6993726B2 (en) * 2001-08-08 2006-01-31 Xerox Corporation Methods and systems for document navigation using enhanced thumbnails
US7337396B2 (en) 2001-08-08 2008-02-26 Xerox Corporation Methods and systems for transitioning between thumbnails and documents based upon thumbnail appearance
US7069506B2 (en) * 2001-08-08 2006-06-27 Xerox Corporation Methods and systems for generating enhanced thumbnails
US20050288974A1 (en) * 2001-08-23 2005-12-29 American Express Travel Related Services Company, Inc. Travel service broker system and method
US20040260581A1 (en) * 2001-08-23 2004-12-23 American Express Travel Related Services Company, Inc. Travel market broker system
US7499864B2 (en) * 2002-01-25 2009-03-03 American Express Travel Related Services Company, Inc. Integrated travel industry system
US7539620B2 (en) * 2002-07-02 2009-05-26 American Express Travel Related Services Company, Inc. System and method for facilitating transactions among consumers and providers of travel services
AUPR824601A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and system (npw004)
US7805323B2 (en) 2002-01-25 2010-09-28 American Express Travel Related Services Company, Inc. System and method for processing trip requests
US20040225640A1 (en) * 2002-06-27 2004-11-11 International Business Machines Corporation Context searchable communications
US8495503B2 (en) * 2002-06-27 2013-07-23 International Business Machines Corporation Indicating the context of a communication
AU2003900865A0 (en) * 2003-02-26 2003-03-13 Silverbrook Research Pty Ltd Methods, systems and apparatus (NPW010)
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
US20050005239A1 (en) * 2003-07-03 2005-01-06 Richards James L. System and method for automatic insertion of cross references in a document
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
CA2498728A1 (en) * 2004-02-27 2005-08-27 Dictaphone Corporation A system and method for normalization of a string of words
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US8166412B2 (en) * 2006-01-13 2012-04-24 Adobe Systems Incorporated Visual cue discernment on scattered data
US20090138296A1 (en) * 2007-11-27 2009-05-28 Ebay Inc. Context-based realtime advertising
US20090196504A1 (en) * 2008-02-04 2009-08-06 Craig Sullender Modified propagated last labeling system and method for connected components
JP5200762B2 (ja) * 2008-08-25 2013-06-05 富士通株式会社 検索方法および検索プログラム
US8301619B2 (en) * 2009-02-18 2012-10-30 Avaya Inc. System and method for generating queries
US8260062B2 (en) * 2009-05-07 2012-09-04 Fuji Xerox Co., Ltd. System and method for identifying document genres
US8954434B2 (en) * 2010-01-08 2015-02-10 Microsoft Corporation Enhancing a document with supplemental information from another document
JP5642037B2 (ja) * 2011-09-22 2014-12-17 株式会社東芝 検索装置、検索方法およびプログラム
IN2013MU02217A (ja) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
US9607009B2 (en) * 2013-12-20 2017-03-28 Google Inc. Automatically branding topics using color
US20170126605A1 (en) * 2015-11-02 2017-05-04 International Business Machines Corporation Identifying and merging duplicate messages
US10552539B2 (en) * 2015-12-17 2020-02-04 Sap Se Dynamic highlighting of text in electronic documents
EP3255556A1 (de) * 2016-06-10 2017-12-13 Renato Casutt Schnell-lese-verfahren und -system für text
US11074517B2 (en) * 2018-05-25 2021-07-27 International Business Machines Corporation Predicting keywords in an application
US11163833B2 (en) 2018-09-06 2021-11-02 International Business Machines Corporation Discovering and displaying business artifact and term relationships

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4907283A (en) * 1987-03-13 1990-03-06 Canon Kabushiki Kaisha Image processing apparatus
US5384863A (en) * 1991-11-19 1995-01-24 Xerox Corporation Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
US5375176A (en) * 1993-04-19 1994-12-20 Xerox Corporation Method and apparatus for automatic character type classification of European script documents

Also Published As

Publication number Publication date
JPH08166970A (ja) 1996-06-25
US5526443A (en) 1996-06-11

Similar Documents

Publication Publication Date Title
JP3647518B2 (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する装置
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US5923792A (en) Screen display methods for computer-aided data entry
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
CA2078423C (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US5848191A (en) Automatic method of generating thematic summaries from a document image without performing character recognition
Davis et al. Deep visual template-free form parsing
US5892842A (en) Automatic method of identifying sentence boundaries in a document image
Shen et al. A large dataset of historical japanese documents with complex layouts
EP0779592B1 (en) Automatic method of identifying drop words in a document image without performing OCR
US5444797A (en) Method and apparatus for automatic character script determination
Lovegrove et al. Document analysis of PDF files: methods, results and implications
JPH0721319A (ja) 自動アジア言語決定装置
JPH0713995A (ja) 自動テキスト特徴決定装置
US6728403B1 (en) Method for analyzing structure of a treatise type of document image
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
JP3598711B2 (ja) 文書ファイリング装置
JP4678712B2 (ja) 言語識別装置、プログラム及び記録媒体
Govindaraju et al. Newspaper image understanding
Kanai et al. A preliminary evaluation of automatic zoning
JPH0350692A (ja) 文字認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040628

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120218

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120218

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130218

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees