JP3232144B2 - 文章中の単語文節の出現頻度を求めるための装置 - Google Patents

文章中の単語文節の出現頻度を求めるための装置

Info

Publication number
JP3232144B2
JP3232144B2 JP30272492A JP30272492A JP3232144B2 JP 3232144 B2 JP3232144 B2 JP 3232144B2 JP 30272492 A JP30272492 A JP 30272492A JP 30272492 A JP30272492 A JP 30272492A JP 3232144 B2 JP3232144 B2 JP 3232144B2
Authority
JP
Japan
Prior art keywords
image
document
word
frequency
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP30272492A
Other languages
English (en)
Other versions
JPH05307595A (ja
Inventor
エム・マーガレット・ウイズゴット
ラマーナ・ビー・ラオ
Original Assignee
ゼロックス・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゼロックス・コーポレーション filed Critical ゼロックス・コーポレーション
Publication of JPH05307595A publication Critical patent/JPH05307595A/ja
Application granted granted Critical
Publication of JP3232144B2 publication Critical patent/JP3232144B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】本発明は文書画像処理のための方法ならび
に装置の改良に関するもので、より特定すれば、単語ま
たは画像を第1に復号することなくまたは外部の参考辞
書を参照することなく、文書中の文の出現頻度を識別し
調べるための改良に関する。
【0002】コンピュータを使用した従前の文書処理に
おいて、処理する文書の属性でオペレータがしばしば知
ることを所望しているのは単語の一部または全部の出現
する頻度である。例えば、ソルトンとマクギル(Salton
and McGill )の「現代情報収集入門 (Introduction t
o Modern Information Retrieval) 」(マグロウヒル出
版(McGraw-Hill) 、1983年)、第2章、30ペー
ジ、36ページでは情報収集の内容には所定の術語の使
用頻度が文書の情報内容に相対するその術語の重要性と
相関しうることが示されている。単語の頻度情報はその
ため文書の自動要約および/または注釈に有用でありう
る。単語の頻度情報はまた位置の特定、目次作成、ファ
イル作成、並べ変え、または文書取り込みに有用でもあ
る。
【0003】単語の出現頻度の知識の別の用途は文章の
編集である。例えば、ひとつの文章編集装置は文書内で
頻繁に出現する単語を分類し表示することによって文章
中に同一単語を頻繁に使用することを防止するように提
示している。選択した単語のリストとそれぞれの単語の
出現頻度数が文章の一部内で所定の文章位置について公
式化され、指定された単語とその位置がCRT画面上に
表示される。
【0004】この議論の延長は文書中の読み取りの順序
での単語列すなわち文の頻度の知見が、自動文書要約に
も有用であると言う事である。文の頻度情報はまた文書
の位置特定、目次作成、ファイル作成、並べ変え、また
は取り込みに使用することができる。
【0005】これまでに単語頻度の決定は、内容を機械
が読み取り可能な形式へ変換する、例えば何らかの形態
の光学的文字認識(OCR)を使用して復号することに
よるなどして、ビットマップ化された単語単位の画像ま
たは場合によっては単語単位画像内の多数の文字が解読
され外部の文字ライブラリを参照する画像の符号表現へ
変換することによる電子化文章について実施されてき
た。復号された単語または文字列はこのあと付属する辞
書内部にある辞書の術語と比較される。こうした光学的
文字認識技術の欠点は、中間的な光学式文字認識段階で
計算エラーの大きな可能性が導入されることと実質的な
処理時間が必要となることで、単語単位の識別処理全体
の速度が低下することである。
【0006】よって、本発明の目的は復号されていない
文書画像中の同様の文の出現頻度を文書画像を復号する
ことなく調べるための方法およびその装置を提供するこ
とである。
【0007】本発明の別の目的は中間的な解釈処理によ
り導入される可能性がある不必要なエラーを減少または
排除し、光学的文字認識アルゴリズムまたはビットマッ
プ相関法より効率的であると記述される形式の方法およ
びその装置を提供することである。
【0008】本発明の別の目的は線形時間において実行
しうる、また並列化が可能と記述される形式の方法およ
びその装置を提供することである。
【0009】本発明のひとつの態様では、復号していな
い文書画像中の文の出現頻度を調べるための方法が提示
される。本法によれば、文書画像は復号されていない情
報内容を有する画像単位内に入力されまた断片化され
る。画像単位のうちの選択したもののそれぞれについて
少なくともひとつの重要な形態的構造の画像特性が求め
られ、選択した画像単位と等価なクラスが同様な形態的
画像特性を有する画像単位を集合することにより識別さ
れる。選択した画像単位が文書画像中に出現する順序で
配置された選択された単位で考えうる全ての順序に対応
する等価クラスのラベルの順序が調べられ、また等価ク
ラスのラベルの順列がそのあと評価されて反復する下位
の順列の数が識別され、これによって等価クラスのラベ
ルの順列それぞれの頻度が決定される。
【0010】本発明の別の態様では、画像単位は文字を
含む文書中の単語単位のことがあり、単語単位は、その
単語単位の形状の特徴を表わすような少なくともひとつ
の1次元信号、または、その単語単位を包囲する境界を
定義する画像関数であって境界内で検出された文字列の
端部を表わす端部関数が閉じた境界内の単一の独立変数
によってこれの全体領域にわたり定義されその単語単位
を構成する文字または文字列を個別に検出および/また
は識別がなされないように増加された画像関数のいずれ
かであるような、単語単位の単語形状表現を導出するこ
とによって評価されるのが望ましい。
【0011】等価クラスは選択した形態的特性または特
性の組み合わせ、または導出した画像単位の形状の表現
を相互に比較することで決定されるのが望ましい。形態
的特性は画像単位の長さ、幅、字体、字種、字体の断
面、アセンダの数、デセンダの数、または同様なものを
含むことが出来る。本発明による特に有効な比較におい
て、上述の単語形状の表現の高さおよび幅の寸法だけが
比較される。それぞれの等価クラス内の単語単位は相互
にリンクされ、それぞれの出現頻度が決定されうるよう
に割り当てられる。
【0012】本発明のさらに別の態様において、復号さ
れていない走査文書画像を処理して文書画像中の文章の
頻度を調べるための装置が提示される。本装置は単語単
位の内容に基づかない形態的画像特性を用いることで文
章の頻度を計算するための文章頻度測定手段と、出力装
置を含む。単語および文章頻度測定手段はプログラム可
能なデジタル式コンピュータのこともある。
【0013】本発明は第1に文書を光学的文字符号に変
換することなしに、保存した文書画像から直接文書中の
文章の頻度を測定するための方法ならびにその装置を提
供する。本発明では、ビットマップを相関する必要のな
い、単語の画像単位の形態的画像特性を比較する内容に
依存しない画像認識技術を使用する。
【0014】本発明は文書走査を使用するシステムに限
定されるものではない。むしろ、例えばビットマップ・
ワークステーション(すなわちビットマップ式ディスプ
レイを装備したワークステーション)またはビットマッ
プおよび走査の双方を使用するシステムにおいて本開示
に詳述する方法ならびに装置の実現が等しく良好に動作
するものである。
【0015】本発明の請求の主要な利点には、並列化が
可能であること、線形時間内の実行が可能であること、
およびASCIIコードなどの文字符号に文書を第一に
変換することなく単語のシーケンスの出現頻度情報を抽
出するために提供することが含まれる。また、本発明は
中間的な解釈処理、例えば光学的文字認識などによる潜
在的なエラーの導入を排除する。本法はOCRアルゴリ
ズムまたはビットマップ相関に基づく方法に比べ時間お
よび経費の点で有効である。
【0016】本発明の上記のおよびその他の目的、特
徴、利点は添付の図面ならびに請求の範囲を参照しつつ
以下の詳細な説明を読み進にしたがって当業者には明ら
かになろう。
【0017】本発明は添付の図面に図示されている。
【0018】図1は本発明の好適実施例による、第1に
文書の文字を文字符号に変換することなく、文書の文字
中の文節の出現頻度を調べるための方法の流れ図であ
る。
【0019】図2は本発明の好適実施例による、第1に
画像単位または文字を復号することなくまたは文書中の
画像単位または文字を文字符号に変換することなく文書
の文字中の文節の出現頻度を調べるための装置を示す。
【0020】本発明の方法の好適実施例は図1の流れ図
に図示してあり、図1の方法を実行するための装置を図
2に示す。明確になすため、本発明は単一の文書の処理
を参照して詳述することとする。しかし、本発明は複数
の文書を含む文書の複合体の処理に適用可能であること
は理解されよう。
【0021】第1に図2を参照すると、一枚またはそれ
以上のシートまたは紙のページ10またはその他の触知
可能な形態に含まれる文章の行7、表題、図面、図8、
または同様のものを含むことがある原本文書5の電子化
画像上で本法が実行される。処理すべき電子化文書画像
は何らかの在来の方法、例えば、図示した光学式スキャ
ナ12および検出装置13、複写装置のスキャナ、点字
読み取り装置のスキャナ、ビットマップワークステーシ
ョン、電子ビームスキャナまたは同様なものなどの入力
手段によって生成される。このような手段は従来技術に
おいて公知であるからここでは詳細な説明を行なわな
い。例えばスキャナの検出装置13に由来する出力はデ
ジタル化されて文書の各ページについての文書画像を表
わすビットマップ画像データを生成し、このデータは例
えば専用または汎用のデジタル式コンピュータ16のメ
モリ15内に保存される。デジタルコンピュータ16は
プログラム命令を所定の手順で実行することにより機能
を実現するための実行処理手段を含む、例えば現在では
従来技術において公知のコンピュータなど、データ処理
システム内においてデータ駆動型処理を実行する形式の
ことがある。コンピュータ16からの出力は、例えばメ
モリまたは他の形態の保存装置、または図示したような
出力ディスプレイ17などの、例えば複写装置、CRT
ディスプレイ装置、印刷装置、ファクシミリ装置、また
は同様のものでありうる出力装置へ供給される。
【0022】本発明の画像処理技術の第1の様相は、各
ページについて文書画像が在来の画像分析技術を用いる
かまたは文字文書の場合には境界ボックス法を使用する
ことが望ましい画像単位を含む復号されていない情報に
分割される(段階20)低レベルの文書画像分析よりな
る。あるページ上の画像単位の位置およびこれらの間の
空間的関連性が次に調べられる(段階25)。例えば、
英語の文書画像は単語内の文字間の間隔と単語間の間隔
の相対的な差に基づいて単語画像単位に分割される。文
章と段落の境界も同様に確定できる。さらなる領域分割
画像分析を実施して、ページの画像を図、表、脚注およ
び同様なものなどの補助的な文書の要素に対応するラベ
ルのついた領域に分割する物理的文書構造記述子を生成
することが出来る。図面の領域は例えば領域内の行に配
置された画像単位の相対的な欠如に基づいて文章領域と
区別することが出来る。この分割方法を使用すること
で、処理している文書がどのように構成されているかの
知識(例えば左から右へ、上から下へ)および任意で、
文書の様式、単語画像について「読み取る順番」の順列
などその他の入力された情報も生成することが出来る。
術語「画像単位」は数字、文字、表意記号、シンボル、
単語、文節またはその他の単位など確実に抽出できるも
のの画像から識別可能な断片を定義するものとしてここ
では使用することとする。有利なことに、文書の参照お
よび評価の目的で、文書画像が文字、シンボル、または
その他の要素例えば単語などの意味上の最小単位を形成
する組に分割される。こうした意味をなす単一の単位は
ひとつの単位を構成する要素を分割する間隔よりも広い
間隔で分割されていることが画像上の特徴をなしてい
る。こうした意味上の単一の単位を表わす画像単位は本
論では今後「単語単位」と称することにする。
【0023】有利なことに、識別段階30が次ぎに実行
されて、処理している文書の主たる内容の評価に有用で
あるためには不十分な情報内容を有する画像単位を識別
する。こうした画像単位には停止または機能語、すなわ
ち前置詞、冠詞、およびその他の広く文法規則上の役割
を演じ、情報の主題を担う名詞および動詞に対向する単
語が含まれる。好適な方法のひとつは形態的機能語検出
技術を使用することである。
【0024】次に、段階40では、選択された画像単
位、例えば段階30において弁別されなかった画像単位
が、分類している画像単位を復号することなくまたは復
号した画像データを参照することなく、画像単位の所定
の画像特性の評価に基づいて評価される。評価は画像特
性の決定(段階41)および他の画像単位の決定された
画像特性とそれぞれの画像単位について決定された画像
特性の比較(段階42)が必須である。
【0025】評価する画像単位の画像特性を決定するた
めの好適な方法のひとつは、単語形状導出技術を使用す
ることである。少なくともひとつの、単語単位の形状の
特徴を示す1次元信号が誘導されるか、または単語単位
を包囲する境界を定義する画像関数が導出されて、単語
単位を構成する文字または文字列を個別に検出および/
または識別することなく閉じた境界内で単一の独立変数
により領域全体にわたって境界内で検出された文字列の
端部を表わす端部関数が定義されるように先の画像関数
が増加される。この処理の一環として、ページ上の文章
の基線(基線は文章行の上のデセンダを有さない文字の
下に延在する線である)が求められる。基線に沿った単
語単位の順位付けおよびそれぞれの文書画像のページ上
の基線の順位付けが文書画像中の単語単位の読み取り順
序を提供することは理解されよう。
【0026】画像単位の等価クラスを識別する目的で
(段階50)、それぞれの等価クラスが文書中の所定の
単語の例の大半または全てを含むように、それぞれの選
択した画像単位で求められた形態的特性または導出した
画像単位の形状表現が、上述したように(段階41)、
他の選択した画像単位の所定の形態的特性または導出し
た画像単位の形状表現と比較される。等価クラスは画像
単位識別子の類似性に基づいて文書中の画像単位を集合
させることにより、例えば単語画像を文字符号へ変換す
るかまたは他のもっと高いレベルでの解釈によるなどの
画像単位の内容の実際の復号を行なうことなく、形成さ
れる。多数の異なる比較方法のどれであっても使用する
ことが出来る。使用可能な技術のひとつは決断ネットワ
ークを使用して抽出した画像単位のラスタ画像を相関す
ることによるもので、こうした技術は本明細書で参考文
献に含めているケーシーら(Casey et al.)の「パター
ン分類のための決定ネットワークの監督されない構造
(Unsupervised Construction of Decision Networks for Pattern Classification
)」、IBM研究報告、1984年、と題する研究報
告に特徴が詳述されている。
【0027】単語単位の等価なクラスを識別するために
使用しうる好適な技術は、単語形状比較技術である。
【0028】特定の用途および処理速度に対する正確度
により異なるが、例えば異なる精密度の評価の相対的重
要性が実行可能である。例えば、有用な評価は、画像単
位の長さ、幅(高さ)または何らかのその他の測定寸法
(または導出した画像単位の形状表現、例えば文書画像
で最大の図面)や、文書中の画像単位の位置(文書画像
の選択された図面または文章を含む、例えば表題、冒頭
の図面、ひとつまたはそれ以上の文章または図面な
ど)、字体、字種、ひとつの画像単位中の同様な状態の
画素の続きである断面や、アセンダの数や、デセンダの
数や、平均画素密度や、凸部および凹部を含む上部線の
輪郭の長さや、凸部および凹部を含む基線輪郭の長さ
や、上述の分類要素の組み合わせを基準にとることがで
きる。文の出現頻度を決定する目的の充分な比較が導出
された画像単位の形状表現の長さと高さだけの比較によ
るものであることが解っている。こうした比較はとりわ
け高速で、高効率の文章出現頻度が得られ、多くの文章
文書用途において高信頼性で重要な文を抽出するのに充
分強力であることが証明されている。
【0029】複数ページにわたる文書が処理される場合
について、それぞれのページが処理され、上述のように
データはメモリ15(図1参照)に保持される。データ
の全体性はこの後で処理することができる。
【0030】画像単位を便利に比較しまた等価クラスへ
分類しうるひとつの方法は、直前に処理した画像単位/
形状表現と形成される場合にそれぞれの画像単位または
画像単位の形状表現を比較することによるもので、適合
が得られた場合、関連する画像単位が適合等価クラスで
識別される。これは、例えば、適合を示し適合等価クラ
スに付随するカウンターまたはレジスタを増加させる信
号を提供することで実行しうる。現在の画像単位がそれ
までに処理したどの画像単位とも適合しない場合、現在
の画像単位について新しい等価クラスが生成される。
【0031】これ以外に、図示したように(段階5
0)、それぞれの等価クラス内の画像単位を相互に連結
でき、また夫々の等価クラスについて求める等価クラス
のラベルに割り当てることが出来る。それぞれの等価ク
ラスの寸法はそのクラス内の画像単位が文書画像中に出
現する頻度を表わす。
【0032】次に(段階60)、読み取りの順序に割り
当てた画像単位(文節)の可能な順列(sequence)の全
てに対応する等価クラスのラベルの順列が分析され、特
定の等価クラスのラベルの順列が出現する頻度が求めら
れて、対応する単語単位の文節が文書中に出現する頻度
が求められることになる。文節(phrase)は、文書中の
読み取り順序で評価された隣接する単語単位の何らかの
順列(sequence)として用いられる。(文節頻度の分析
を導入する以前に停止または機能語が弁別される必要は
ない。)したがって、文節には文書画像中に含まれる単
語単位の(すなわち分析のために選択された部分)全体
の順列(entire sequence)よりなる主文節(master ph
rase)と主文節内に含まれる副文節( subphrases)
全てが含まれる。
【0033】シンボル列または順序を並べ変えることと
反復する下位順列を求めるための従来の方法はどれも等
価ラベルの順序を評価するために使用可能である。代表
的な方法はクヌース(Knuth)による「コンピュータ・プ
ログラミング技法(The Art of Computer Programming)
」、第3巻に詳述されている。有利にも、文節内の単
語単位の出現頻度は、その文節の出現頻度と少なくとも
同じ大きさの出現頻度を有することになり、等価ラベル
順列の有用な予備的並べ換えは一度または二度しか出現
しない単語単位を含むあらゆる順列を排除することにな
る。同様に、当初の並べ換えは順列中の単語単位のそれ
ぞれが高い頻度の単語であるような順列を有利に検索す
る。
【0034】さらなる文書処理の目的で、例えば文書の
要約または分類などで意味的に重要な文節をどの頻繁な
文節から識別するかの決定は、例えば文書の長さおよび
様式などの変数と主題の種別(例えば技術文献対物語)
によって変化する。特定状況で存在する変数のすべてに
依存することで、比較的高い出現頻度を有する長さの短
い文節を選択するためまたは低い出現頻度を有する長さ
の長い文節を選択するためのいずれかに有利となること
がある。例えば、技術文献では、2または3語の文節で
少なくとも5回出現するものは文書の主題を表わす技術
的文節の傾向にあると求められた。最も有利な組合わせ
で頻繁な文節を選定するパラメータの選択が所定の用途
について経験的に有利に求められ、また選択パラメータ
は異なる用途のために調整しうるように設定可能となさ
れることは理解されよう。
【0035】本発明の技術により提供される顕著な特徴
は、出力のためであっても画像単位の内容が復号される
付帯要件のない画像単位の順列の処理、識別、比較、ま
たは操作である。より特定すれば、文節は復号すること
なく測定、処理され、また出力へ提供されて、基本的に
実際の画像単位の内容または文節の識別内容が決定され
る必要がない。よって、例えば、複写装置または電子印
刷装置などひとつの文書から別の文書へとASCIIま
たはその他の符号化/復号化の要件を考慮することな
く、直接画像を印刷または複製しうるような用途におい
て、画像単位文節が識別され、ひとつまたはそれ以上の
その画像単位の形態的画像特性を使用して処理される。
上述した比較処理においては、例えば、未定義の内容
で、注目する文書画像領域内にある選択された画像単位
が未定義の内容のこれも同一の文書内にある別の画像単
位と比較されている。これも内容を調べていない文節全
体が、例えば文書画像内の出現頻度の順番に重要な文節
のリストを生成することにおいて、光学的にまたは電子
的に、例えば複写装置の画像複製装置、電子的メモリ、
視覚的ディスプレイ、または同様なものなどへ出力とし
て供給されうる。
【0036】上述の技術は特定の文の出現頻度の基準に
基づいて文書中の文の重要性を調べるために使用でき
る。よって、ある文節が出現する回数を用いて文節の階
層を構築でき、こうした階層は多くの用途で有用であ
る。しかし記述子は画像単位の内容を実際に復号するこ
となく求められていること、画像単位自体の選択された
画像記述子だけが使用されていることは特筆しうるもの
である。本法は当然のこととして上述の方法と同様の方
法で複数のページ長さの文書にも適用し得るものであ
る。
【0037】本発明はある程度の精密さで詳述し図示し
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
本発明の後述の請求の範囲を逸脱することなく当業者に
よってもたらされうることは理解されよう。
【図面の簡単な説明】
【図1】 本発明の好適実施例による、第1に文書の文
字を文字符号に変換することなく、文書文字中の文章の
出現頻度を調べるための方法の流れ図である。
【図2】 本発明の好適実施例による、第1に画像単位
または文字を復号することなくまたは文書中の画像単位
または文字を文字符号に変換することなく文書の文字中
の文節の出現頻度を調べるための装置を示す。
【符号の説明】
5 原稿文書、7 線、8 表題,図面,図、10 ペ
ージ、12 スキャナ、13 検出装置、15 メモ
リ、16 デジタルコンピュータ、17 出力ディスプ
レイ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−278290(JP,A) 特開 平1−113887(JP,A) 特開 昭57−139866(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06T 1/00 - 1/60 G06T 11/60 - 17/50 H04N 1/38 - 1/393 G06K 9/18 - 9/44 G06K 9/54 - 9/60 G06F 17/20 - 17/26

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書上の文章のデジタル画像を処理し
    て、文章中の文節の単語の出現頻度を求めるための装置
    であって、 デジタル画像を単語単位に断片化するための手段と、 断片化した単語単位から選択した単語単位の形態的画像
    特性を少なくとも一つ求めるための手段と、 文書画像中の選択した単語単位の等価クラスを、同様な
    形態的画像特性を有する上記選択した画像単位の等価ク
    ラスに集約してそれぞれの等価クラスがラベルを割り当
    てられるように識別するための手段と、 選択した単語単位が文書画像中に出現する順序に配置し
    た文書画像中の選択した単語単位の等価クラスラベル
    と、副文節を有する等価クラスラベルの主文節を形成す
    るために、選択した単語単位文書画像中に出現する順序
    に配置した等価クラスラベルを等しくするための手段
    と、 それぞれの等価クラスラベルの副文節の頻度を求めるた
    めに副文節を分類するための手段と、 文節に対応する選択した等価クラスラベルの副文節の相
    対的出現頻度に応じて出力するための出力装置とを有
    し、 選択した等価クラスラベルの副文節の情報内容は、少な
    くとも一つの形態的画像特性以上のものではない文章中
    の単語文節の出現頻度を求めるための装置。
JP30272492A 1991-11-19 1992-11-12 文章中の単語文節の出現頻度を求めるための装置 Expired - Lifetime JP3232144B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US794555 1991-11-19
US07/794,555 US5369714A (en) 1991-11-19 1991-11-19 Method and apparatus for determining the frequency of phrases in a document without document image decoding

Publications (2)

Publication Number Publication Date
JPH05307595A JPH05307595A (ja) 1993-11-19
JP3232144B2 true JP3232144B2 (ja) 2001-11-26

Family

ID=25162983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30272492A Expired - Lifetime JP3232144B2 (ja) 1991-11-19 1992-11-12 文章中の単語文節の出現頻度を求めるための装置

Country Status (4)

Country Link
US (1) US5369714A (ja)
EP (1) EP0544433B1 (ja)
JP (1) JP3232144B2 (ja)
DE (1) DE69225678T2 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems Inc Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
US5887081A (en) * 1995-12-07 1999-03-23 Ncr Corporation Method for fast image identification and categorization of multimedia data
KR100209411B1 (ko) * 1996-05-10 1999-07-15 전주범 윤곽선 정보를 이용한 영상신호 처리 방법
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
JP3008908B2 (ja) * 1997-11-10 2000-02-14 日本電気株式会社 文字切り出し装置および文字切り出し方式
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7027976B1 (en) * 2001-01-29 2006-04-11 Adobe Systems Incorporated Document based character ambiguity resolution
WO2002099739A1 (en) * 2001-06-05 2002-12-12 Matrox Electronic Systems Ltd. Model-based recognition of objects using a calibrated image system
US7239747B2 (en) * 2002-01-24 2007-07-03 Chatterbox Systems, Inc. Method and system for locating position in printed texts and delivering multimedia information
US7561734B1 (en) * 2002-03-02 2009-07-14 Science Applications International Corporation Machine learning of document templates for data extraction
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US8620083B2 (en) * 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
US7809215B2 (en) 2006-10-11 2010-10-05 The Invention Science Fund I, Llc Contextual information encoded in a formed expression
US8229252B2 (en) 2005-03-18 2012-07-24 The Invention Science Fund I, Llc Electronic association of a user expression and a context of the expression
US7672512B2 (en) 2005-03-18 2010-03-02 Searete Llc Forms for completion with an electronic writing device
US8787706B2 (en) 2005-03-18 2014-07-22 The Invention Science Fund I, Llc Acquisition of a user expression and an environment of the expression
US7873243B2 (en) 2005-03-18 2011-01-18 The Invention Science Fund I, Llc Decoding digital information included in a hand-formed expression
US8340476B2 (en) 2005-03-18 2012-12-25 The Invention Science Fund I, Llc Electronic acquisition of a hand formed expression and a context of the expression
US20060212430A1 (en) 2005-03-18 2006-09-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Outputting a saved hand-formed expression
US8599174B2 (en) 2005-03-18 2013-12-03 The Invention Science Fund I, Llc Verifying a written expression
AU2005201758B2 (en) * 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US20080311551A1 (en) * 2005-08-23 2008-12-18 Mazer Corporation, The Testing Scoring System and Method
US7609891B2 (en) * 2005-08-31 2009-10-27 Sony Corporation Evaluation of element distribution within a collection of images based on pixel scatterness
JP4305431B2 (ja) * 2005-09-06 2009-07-29 ソニー株式会社 画像処理装置、マスク作成方法及びプログラム
US7711192B1 (en) * 2007-08-23 2010-05-04 Kaspersky Lab, Zao System and method for identifying text-based SPAM in images using grey-scale transformation
US7706613B2 (en) * 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US8111918B2 (en) * 2008-10-20 2012-02-07 Xerox Corporation Segmentation for three-layer mixed raster content images
US8442319B2 (en) * 2009-07-10 2013-05-14 Palo Alto Research Center Incorporated System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US8649600B2 (en) 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US8452086B2 (en) * 2009-07-10 2013-05-28 Palo Alto Research Center Incorporated System and user interface for machine-assisted human labeling of pixels in an image
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
JP5884560B2 (ja) * 2012-03-05 2016-03-15 オムロン株式会社 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
US9472037B2 (en) * 2014-01-31 2016-10-18 Ncr Corporation Media item re-orientation
US11200412B2 (en) * 2017-01-14 2021-12-14 Innoplexus Ag Method and system for generating parsed document from digital document
RU2685044C1 (ru) * 2018-07-03 2019-04-16 Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) Способ определения контекста слова и текстового файла

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
EP0120334B1 (en) * 1983-03-01 1989-12-06 Nec Corporation Letter pitch detection system
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPH0816918B2 (ja) * 1989-04-18 1996-02-21 シャープ株式会社 行抽出方法
JPH036659A (ja) * 1989-06-03 1991-01-14 Brother Ind Ltd 文書処理装置
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information

Also Published As

Publication number Publication date
JPH05307595A (ja) 1993-11-19
EP0544433A2 (en) 1993-06-02
DE69225678T2 (de) 1998-12-03
EP0544433A3 (en) 1993-12-22
EP0544433B1 (en) 1998-05-27
DE69225678D1 (de) 1998-07-02
US5369714A (en) 1994-11-29

Similar Documents

Publication Publication Date Title
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
JP3289968B2 (ja) 電子的文書処理のための装置および方法
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JP2973944B2 (ja) 文書処理装置および文書処理方法
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
Lu et al. Information retrieval in document image databases
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
KR100319756B1 (ko) 논문 문서영상 구조 분석 방법
US5455871A (en) Detecting function words without converting a scanned document to character codes
WO2007070010A1 (en) Improvements in electronic document analysis
JPH08180068A (ja) 電子ファイリング装置
JP2559356B2 (ja) 文書画像処理方法
Andreev et al. Hausdorff distances for searching in binary text images
JPH10198705A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
JPH03224079A (ja) 文字認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010810

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 12