JP2006190235A - 文書分類方法、文書分類プログラム及び文書分類装置 - Google Patents
文書分類方法、文書分類プログラム及び文書分類装置 Download PDFInfo
- Publication number
- JP2006190235A JP2006190235A JP2005058100A JP2005058100A JP2006190235A JP 2006190235 A JP2006190235 A JP 2006190235A JP 2005058100 A JP2005058100 A JP 2005058100A JP 2005058100 A JP2005058100 A JP 2005058100A JP 2006190235 A JP2006190235 A JP 2006190235A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- inter
- classification
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 分類対象文書のうちの各2文書間の安定文書間距離を両文書が類似する程度に応じて算出し、分類対象文書から初期配置文書を選択して位置座標を初期設定する。各初期配置文書について、他の初期配置文書への離間ベクトルの長さと安定文書間距離との差及び離間ベクトルの方向に基づいて、他の初期配置文書から受ける文書間力ベクトルを算出するステップと、文書間力ベクトルに応じて次回処理時点における位置座標を算出するステップとを収束するまで繰り返し、仮決め位置座標を求める。その後、複数回に分けて配置文書を追加して仮決め位置座標の算出を行い、最後に全分類対象文書について収束するまで文書間力ベクトル算出ステップと位置座標更新ステップとを繰り返す。
【選択図】 図11
Description
特許文献3に記載されたスプリングモデルには配置が収束するまでの計算量が膨大になるという問題点があった。また、特許文献4にはディスプレイ空間にノードを順次追加しながら配置する方法が開示されている。しかし、特許文献4のグラフィックス作成方法は、ノード間の相互関係をノード間の距離として表すものではなく、本発明におけるように新規の配置点(ノード、文書)を追加することにより既存の全ての配置点の位置を再構成しなければならないものではない。特許文献4で開示されているノードの追加方法は、基本的には既存のノードを固定しつつ新規のノードを追加していくものであり、追加の際、近傍の既存ノードの位置のみが再構成されるというものである。特許文献4のグラフィックス作成方法には、これを文書分類に適用すると配置点を一つ加えるごとに全ての配置点の位置を再構成しなければならないのでかえって計算量が増大するという問題点があった。
本発明は、上記課題に鑑みてなされたものであり、複数の分類対象文書内における文書間の位置関係を詳細に知ることを可能ならしめ、加えて分類対象文書の数が多くなっても計算量の増大を抑制することを可能ならしめる文書分類方法、文書分類プログラム及び文書分類装置を提供することを目的とする。
本発明の文書分類方法の別の側面は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、前記分類対象文書から初期配置文書を選択する第2のステップと、各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップと、前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、前記分類対象文書から新たに前記表示座標系に組み入れる複数の次期配置文書を選択する第8のステップと、前記次期配置文書中の一つについて前記表示座標系において当初配置される位置座標を算出してこれを配置する第9のステップと、前記第9のステップで配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、前記第9のステップで配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、前記第10及び11のステップの繰返処理の実行中に前記第9のステップで配置された前記次期配置文書の位置座標の収束を判断し、この時点での位置を前記第9のステップで配置された前記次期配置文書の仮決め位置とする第12のステップと、前記第9ないし12のステップを前記第8のステップで選択された次期配置文書の全てについて実行した後、全ての配置文書について前記第4ないし7のステップにおける繰返処理を実行する第13のステップと、残存している前記分類対象文書について、前記第8ないし13のステップを実行する第14のステップとを備えることを特徴とする。
本発明の文書分類方法の別の側面によれば、新規の分類対象文書が追加されるごとに行われるのは当該追加文書の位置の仮決めであり、第8のステップで選択された複数の次期配置文書が配置されるごとに全ての配置済み文書の位置の再構成が実行されるので、逆に計算量が増大するのを防止することができる。
本発明の文書分類方法は、各前記分類対象文書が自文書を識別する文書番号を有し、前記第1のステップにおける両文書が類似する程度を当該両文書が引用する前記分類対象文書の文書番号を用いて算出することが好適である。この文書分類方法によると、異なる言語で記載された分類対象文書を対象にすることができる。また、この文書分類方法において自文書を自文書が引用する前記分類対象文書の一つとみなすのが好適である。これにより、類似度の評価対象である2文書のうちの片方が他方を引用している事実を類似度の算出に反映させることができる。
Xi=Lavg×rnd
Yi=Lavg×rnd
から求める。ここで、rndは乱数を表している。これにより、各文書の位置座標の初期値が設定される。なお、安定文書間距離L0(i,j)は平均値Lavgで除されることにより、正規化される。
L(i,j)={(Xi−Yi)2+(Xj−Yj)2}0.5
から求める。なお、「その処理時点における両者の位置座標に基づいて」とあるのは、後述するように、各文書Tiの位置座標は必要に応じて更新されるため、常に同じ値をとるとは限らないからである。次に、文書Tiと文書Tjの文書間力f(i,j)を下記式、
f(i,j)=(L0(i,j)−L(i,j))/(L0(i,j)+ε1)α
から求める。ここで、ε1は、L0(i,j)が0のときに対応するための定数であり、例えば1×10−12とされる。αは、安定文書間距離L0(i,j)が小さくなるに連れて文書間力f(i,j)が指数関数的に大きくように設定される。こうすることにより、文書間の類似度が高いときにより大きな文書間力が働くようになる。その結果、類似する文書の集団を形成するのが容易になると共に集団が配置される位置が人間の感覚に近いものになり、また分類対象文書数Nが多くなっても容易に収束させることができる。分類対象文書数が比較的少数である場合(Nが50未満の場合)にはα=0.8〜2.3の何れかの値に設定される。Nが100を超える場合にはα=1.8〜2.2の何れかの値に設定することにより容易に収束させることができる。特に、N=101〜3000の場合にはα=2とするのが好適である。特に、分類対象文書を2次元空間にマッピングする場合、αが上記範囲より小さい場合は、移動処理の繰返処理の過程で一部文書の座標が収束せず発散するケースが多くなり、上記範囲より大きい場合は、個々の文書の内容を反映しない均一な文書の集団を形成しやすくなる。αは、例えば0.8〜2.3の何れかの値に設定され、好ましくは2である。次に、文書Tiが文書Tjから受ける文書間力のX成分fX(i,j)及びY成分fY(i,j)を下記式、
fX(i,j)=f(i,j)×(Xi−Xj)/(L(i,j)+ε2)β
fY(i,j)=f(i,j)×(Yi−Yj)/(L(i,j)+ε2)β
から求める。ここで、ε2は、L(i,j)が0のときに対応するための定数であり、例えば1×10−12とされる。また、βは、例えば0.5に設定される。最後に、各文書Tiに働く文書間力の総和のX成分FXi及びY成分FYiを下記式、
FXi=ΣjfX(i,j)
FYi=ΣjfY(i,j)
から求める。ここで、Σjは、全ての配置済み文書についての和をとることを意味する。このようにして算出されたFXi及びFYiを成分とするベクトルが上述の総和文書間力ベクトルである。
Xi’=Xi−k×FXi
Yi’=Yi−k×FYi
により更新される。ここで、(Xi’,Yi’)は、更新後の位置座標を表す。また、kは移動係数であり、例えば1×10−23以上1×10−22以下の定数とされる。上記式は、各文書Tiを、文書間力ベクトルの向きに、そのベクトルの絶対値の大きさに比例した距離だけ移動させることを意味している。更新された位置座標は、位置座標DB16に格納され、それまで格納されていた位置座標に対して上書きされる。本実施形態において位置座標更新部28は、位置座標の更新と併せて、各文書Tiの移動距離の平均値MLを下記式、
ML=Σ{(k×FXi)2+(k×FYi)2}0.5
から求める。この平均値MLは、後述する収束条件判定部30による収束条件の判定の際に用いられる。
L0(i,j)=2/(Sij+Sji)
から求められる。ここで、Sijは、文書Tiをキー文書とし、文書Tjを検索文書としたときの類似度を表し、Sjiは、文書Tjをキー文書とし、文書Tiを検索文書としたときの類似度を表す。つまり、上記式は、文書Tiと文書Tjとの間で、キー文書と検索文書の関係を入れ替えて算出された類似度の平均値をとり、さらにその平均値の逆数をとることを意味している。キー文書と検索文書の関係を入れ替えて算出された類似度の平均値を用いるのは、上記のSijとSjiとは必ずしも一致しないからである。このようにして算出される安定文書間距離L0(i,j)は、両文書間の類似度が高いほど小さくなり、類似度が低いほど大きくなる。
本発明が特許文献の分類表示に適用される場合における安定文書間距離を算出する処理の別の実施形態として、重複引用文献を利用する方法が考えられる。図19は、重複引用文献を利用する実施形態の説明を補助するための図である。図20は、この実施形態における処理を示すフローチャートである。まず、文書Tiと文書Tjとが重複して引用する文献を検出する(S201)。例えば、図19に示されるように、US6713520B2を文書Tiとし、US6433090B1を文書Tjとする。文書Tiには、3つの文献が引用されている(ただし、自文書も引用文献として扱われている。)。文書Tjには、23の文献が引用されている(ただし、自文書も引用文献として扱われている。)。これらのうちUS6433090(文書Tj)のみが重複引用文献として検出される。次に、重複引用文献US6433090の評価値を算出する(S202)。具体的には、他の分類対象文書で当該文献を引用しているものの数の逆数を評価値とする。例えば、重複引用文献US6433090を引用している分類対象文書が文書Tiに加えて一つだけ存在すると仮定すると、重複引用文献US6433090の評価値は1/2=0.5となる。次に、こうして算出された重複引用文献の評価値に基づいて文書Tiと文書Tjとの類似度を算出する(S203)。具体的には、重複引用文献の評価値を合算して得られる値を文書Tiの引用文献数と文書Tjの引用文献数との和で除した値を類似度とする。本例では、重複引用文献はUS6433090のみであり、その評価値は0.5である。したがって、重複引用文献の評価値を合算して得られる値は0.5である。文書Tiの引用文献数と文書Tjの引用文献数との和は、3+23=26である。したがって、文書Tiと文書Tjとの類似度は0.5/26≒0.019となる。最後に、類似度に基づいて文書Tiと文書Tjとの間の安定文書間距離を算出する(S204)。具体的には、類似度の逆数(26/0.5=52)を安定文書間距離とする。なお、この実施形態では、重複引用文献を引用している他の分類対象文書の数の逆数を評価値としたが、この方法は分類対象文書の件数が100件未満(好ましくは50件未満)の場合に特に有用である。これに代えて、分類対象文書の件数が2000件未満の場合には、重複引用文献を引用している他の分類対象文書の数の平方根の逆数を評価値とすることもできる。また、100件を超える場合は評価値を1に固定するのが望ましい。S201において処理時間を短縮するために、予め分類対象文書ごとに自文書の文献番号とこれを引用する他の分類対象文書の文献番号とを示すテーブルを用意しておくことが考えられる。
Claims (20)
- 複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、
前記分類対象文書から初期配置文書を選択する第2のステップと、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、
配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップと、
前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、
前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第8のステップと、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第9のステップと、
新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、
新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、
前記第10及び11のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第12のステップとを備えることを特徴とする文書分類方法。 - 前記第4のステップにおいて、
前記文書間力ベクトルの長さは、前記離間ベクトルの長さと前記安定文書間距離との差の絶対値の大きさに応じ、
前記文書間力ベクトルの方向は、前記離間ベクトルと同一方向又はその反対方向であり、前記離間ベクトルの長さが前記安定文書間距離よりも大きい場合に前記他のある初期配置文書に引き寄せられる方向となり、前記離間ベクトルの長さが前記安定文書間距離よりも小さい場合に前記他のある初期配置文書に反発する方向となることを特徴とする請求項1記載の文書分類方法。 - 前記第7のステップにおいて、
前記分類対象文書の数をNとしたとき、
√N回前記第4ないし6のステップの繰返処理が行われたことをもって収束が判断されることを特徴とする請求項1記載の文書分類方法。 - 更に次期の配置文書について前記第8ないし12のステップが繰り返されることを特徴とする請求項1記載の文書分類方法。
- 前記分類対象文書の数をNとしたとき、前記初期配置文書の数は√N以上(√N+100)以下であり、
従前に前記表示座標系に配置された前記分類対象文書の数をNkとしたとき、次期の配置文書の数をNkの0.01倍以上1倍以下とすることを特徴とする請求項4記載の文書分類方法。 - 前記次期配置文書について、一つずつ順次前記第10ないし12のステップを行い、
前記第12のステップにおいて、
処理中の前記時期配置文書について前記第11のステップで算出された総和文書間力ベクトルが閾値以下であったときに収束が判断されることを特徴とする請求項1記載の文書分類方法。 - 前記第9のステップにおいて、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を乱数で決定することを特徴とする請求項6記載の文書分類方法。 - 前記第9のステップにおいて、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を、最も前記安定文書間距離が小さい従前に配置された文書の近傍とすることを特徴とする請求項6記載の文書分類方法。 - 前記次期配置文書について、一つずつ順次前記第10ないし12のステップを行い、その後前記次期配置文書を含む全ての配置文書について前記第4ないし7のステップにおけるの繰返処理を一定回数実行することを特徴とする請求項1記載の文書分類方法。
- 前記初期配置文書が前記分類対象文書の中から無作為に選択されることを特徴とする請求項1記載の文書分類方法。
- 表示手段の表示エリア中のプロットエリアに前記表示座標系上の前記分類対象文書の収束した位置座標のマークをプロットし、プロットされた各前記分類対象文書の標示を含むテキストボックスを前記マークと関連付けて表示エリアに表示するステップを備え、
前記プロットエリアが、前記表示エリアの枠から前記テキストボックスのサイズ分だけ内側に縮小されることを特徴とする請求項1記載の文書分類方法。 - 複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、
前記分類対象文書から初期配置文書を選択する第2のステップと、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、
配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップと、
前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、
前記分類対象文書から新たに前記表示座標系に組み入れる複数の次期配置文書を選択する第8のステップと、
各前記次期配置文書中の一つについてが前記表示座標系において当初配置される位置座標を算出してこれを配置する第9のステップと、
新たに前記第9のステップで配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、
新たに前記第9のステップで配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、
前記第10及び11のステップの繰返処理の実行中に前記次期配置文書前記第9のステップで配置された前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させこの時点での位置を前記第9のステップで配置された前記次期配置文書の仮決め位置とする第12のステップと、
前記第9ないし12のステップを前記第8のステップで選択された次期配置文書の全てについて実行した後、全ての配置文書について前記第4ないし7のステップにおける繰返処理を実行する第13のステップと、
残存している前記分類対象文書について、前記第8ないし13のステップを実行する第14のステップとを備えることを特徴とする文書分類方法。 - 各前記分類対象文書が自文書を識別する文書番号を有し、
前記第1のステップにおける両文書が類似する程度を当該両文書が引用する前記分類対象文書の文書番号を用いて算出することを特徴とする請求項1ないし12のいずれか1項に記載の文書分類方法。 - 前記第1のステップにおける両文書が重複して引用する前記分類対象文書の数を当該両文書のそれぞれにおける引用数の和で除した値を当該両文書が類似する程度を表す値とすることを特徴とする請求項13に記載の文書分類方法。
- ある前記分類対象文書を引用する前記分類対象文書の数の逆数を当該前記分類対象文書の評価値とし、
前記第1のステップにおける両文書が重複して引用する前記分類対象文書の評価値の和を当該両文書のそれぞれにおける引用数の和で除した値を当該両文書が類似する程度を表す値とすることを特徴とする請求項13に記載の文書分類方法。 - 自文書を自文書が引用する前記分類対象文書の一つとみなすことを特徴とする請求項13ないし15のいずれか1項に記載の文書分類方法。
- 前記分類対象文書が特許文献であり、
自文書を基礎とする優先権が主張された外国特許出願に係る外国特許文献で引用されている前記分類対象文書を自文書が引用する前記分類対象文書の一つとみなすことを特徴とする請求項13ないし15のいずれか1項に記載の文書分類方法。 - 指定された前記分類対象文書から前記表示座標系上で閾値距離の範囲内に位置する前記分類対象文書のみを表示手段に表示することを特徴とする請求項1ないし17のいずれか1項に記載の文書分類方法。
- コンピュータシステムに、請求項1ないし181のいずれか1項に記載の各ステップを実行させることを特徴とする文書分類プログラム。
- 複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップを実行する手段と、
前記分類対象文書から初期配置文書を選択する第2のステップを実行する手段と、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップを実行する手段と、
配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップを実行する手段と、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップを実行する手段と、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップを実行する手段と、
前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップを実行する手段と、
前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第8のステップを実行する手段と、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第9のステップを実行する手段と、
新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップを実行する手段と、
新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップを実行する手段と、
前記第10及び11のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第12のステップを実行する手段とを備えることを特徴とする文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005058100A JP4545614B2 (ja) | 2004-12-09 | 2005-03-02 | 文書分類プログラム及び文書分類装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004357206 | 2004-12-09 | ||
JP2005058100A JP4545614B2 (ja) | 2004-12-09 | 2005-03-02 | 文書分類プログラム及び文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006190235A true JP2006190235A (ja) | 2006-07-20 |
JP4545614B2 JP4545614B2 (ja) | 2010-09-15 |
Family
ID=36797364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005058100A Expired - Fee Related JP4545614B2 (ja) | 2004-12-09 | 2005-03-02 | 文書分類プログラム及び文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4545614B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090510A (ja) * | 2006-09-29 | 2008-04-17 | Shin Etsu Polymer Co Ltd | 文書分類装置及び文書分類方法 |
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08255173A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | クラスタリング装置 |
JPH11219369A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ltd | 情報提示装置 |
JP2000082068A (ja) * | 1998-09-07 | 2000-03-21 | Hitachi Ltd | 文書検索システム |
-
2005
- 2005-03-02 JP JP2005058100A patent/JP4545614B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08255173A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | クラスタリング装置 |
JPH11219369A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ltd | 情報提示装置 |
JP2000082068A (ja) * | 1998-09-07 | 2000-03-21 | Hitachi Ltd | 文書検索システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090510A (ja) * | 2006-09-29 | 2008-04-17 | Shin Etsu Polymer Co Ltd | 文書分類装置及び文書分類方法 |
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN112818823B (zh) * | 2021-01-28 | 2024-04-12 | 金科览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4545614B2 (ja) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5079367B2 (ja) | リアルタイムアップデートを行う階層的クラスタリング | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US9916304B2 (en) | Method of creating translation corpus | |
JP4467583B2 (ja) | 設計支援プログラム、設計支援方法および設計支援装置 | |
JP2007133516A (ja) | 文書分類方法、文書分類プログラム及び文書分類装置 | |
JP6888484B2 (ja) | 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置 | |
US11023721B2 (en) | Document information evaluating device, document information evaluating method, and document information evaluating program | |
AU2018205185A1 (en) | Scalable font pairing with asymmetric metric learning | |
US20120054601A1 (en) | Methods and systems for automated creation, recognition and display of icons | |
US20040070624A1 (en) | Program and method for displaying a radar chart | |
CN114287000A (zh) | 信息检索和/或可视化方法 | |
WO2011134141A1 (en) | Method of extracting named entity | |
US20170132484A1 (en) | Two Step Mathematical Expression Search | |
JP3356519B2 (ja) | 文書情報検索装置 | |
JP2021064132A (ja) | 質問文出力方法、コンピュータプログラム及び情報処理装置 | |
JP4545614B2 (ja) | 文書分類プログラム及び文書分類装置 | |
JP5141152B2 (ja) | テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置 | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
JP6303669B2 (ja) | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
JP4994199B2 (ja) | 機械学習装置及び機械学習方法 | |
Yousif et al. | Shape clustering using k-medoids in architectural form finding | |
JP2008090510A (ja) | 文書分類装置及び文書分類方法 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100413 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100629 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100630 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |