JP4362492B2 - 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム - Google Patents
文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム Download PDFInfo
- Publication number
- JP4362492B2 JP4362492B2 JP2006099401A JP2006099401A JP4362492B2 JP 4362492 B2 JP4362492 B2 JP 4362492B2 JP 2006099401 A JP2006099401 A JP 2006099401A JP 2006099401 A JP2006099401 A JP 2006099401A JP 4362492 B2 JP4362492 B2 JP 4362492B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- text
- japanese
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記一致度は、前記日本語文書テキスト内での前記重み付きキーワードの出現頻度のみに基づいて、算出されることを特徴とする文書インデキシングプログラムが提供される。
<第1の実施形態の構成>
図1は、本発明の第1の実施形態に係る文書管理サーバ1及びクライアントコンピュータ2を具備する、文書テキストに自動的に重み付きキーワードを付与する文書インデキシングシステムの一構成例を示す。
1.キーワード抽出処理詳細
図1を参照し、文書管理サーバ1により管理されるべき文書テキストデータは、好適には文書テキストデータの登録時に、まず文書管理サーバ1の文書入力部12に入力され、キーワード自動抽出部13に受け渡される。キーワード自動抽出部13内のコード別文字分類部131において、まず入力文書中の漢字のみが、漢字の連続性を維持したまま抽出される。
Ci∈{K,H,R} (1)
であり、各ランの文字数をラン長と呼ぶ。漢字ランは単純に連続する漢字列であるが、カタカナランではスペース、なか点「・」、−(長音記号)、半角・全角の区別は無視してラン長を得る。アルファベットランも同様に、なか点、スペース、大文字・小文字の区別、半角・全角の区別を無視する。好適には、これらのランのうち、漢字とカタカナランはラン長2以上のもの、アルファベットランはラン長3以上のもののみの出現頻度がカウントされる。
第1の実施形態においては、抽出されたキーワードについてカウントされた出現頻度が、当該キーワードの重要度の指標となり得るとの知見に基づき、キーワード抽出後に、当該キーワードの「重み」を算出する。抽出されたキーワードkw直後に、括弧付きで頻度(n)データを付加し、kw(n)とする。この(n)データは、同じ文字種別のキーワードとして抽出されたもののうち、最も出現頻度が低いものをkw(1)と表現し、これより出現頻度が高いキーワードには、括弧内に、実際の出現頻度−(最小の出現頻度−1)を付加する。このキーワードkw(n)を、重み付きキーワードといい、特に断らない限り、本明細書において単に「キーワード」と言った場合には、「重み付きキーワード」を示すものとする。
1.自由キーワード送信処理
図1を参照し、文書を検索しようとする利用者は、クライアントコンピュータ2のキーワード入力部23に、自由キーワードを入力する。このキーワード入力は、例えばキーボード或いはマウス等の任意のポインティングデバイスを使用して行なわれてよい。この入力されるキーワードは、重み付きキーワードであってもよく、代替的に重みが付加されないキーワードであってもよい。入力された自由キーワードは、ディスプレイ部26を介してディスプレイモニター上に表示出力されると共に、キーワード送付管理部24に受け渡される。文書管理サーバ1において、キーワード送付管理部24は、受け渡された自由キーワードを、ネットワーク3を介して文書管理サーバ1のキーワード一致算出部17に送出する。キーワード一致算出部17は、クライアントコンピュータ2から受信されたキーワードと、重み付きキーワード管理部14が管理する重み付きキーワードとの一致度を後述のとおり順次算出し、一致度が高い重み付きキーワードを選別する。選別された重み付きキーワードに対応付けられた文書テキストは、文書格納部15を介してキーワード付与データベース16から読み出され、文書送信管理部18により、クライアントコンピュータ2の文書受信管理部25に送出される。クライアントコンピュータ2において、文書受信管理部25により受信されたフリーワード検索結果である1つ又は複数の文書テキストは、ディスプレイ部26を介して利用者に提示出力される。
図4において、例示的に、新聞社説を入力文書テキストとした場合に、出現頻度2以上の漢字ラン、出現頻度1以上のカタカナラン及びアルファベットランが、重み付きキーワードとして抽出されている。図4の括弧内の数値は、漢字キーワードの重みは、出現頻度2の漢字ラン(抽出されるキーワードのうち最小の出現頻度の漢字ラン)を重み1とし、出現頻度3以上の漢字ランをその出現頻度から1を減じた値を重みとして、示されている。カタカナラン及びアルファベットランの重みは、出現頻度そのままを重みとして示されている。
a)Xに完全一致するキーワード、又は、
b)Xを含むキーワードか或いはXが相手のキーワードの1つを包含している場合の当該キーワード、又は
c)Xの長さ2以上の連続するランを含むキーワード、のいずれかである。
b)文書AのキーワードAkwX(nk)を含むキーワードが文書BのキーワードBw1kwXw2にあるか、又は文書AのキーワードAw1kwXw2(nk)Xが、BkwX(nk)のキーワードの1つを包含している。ここで、w1及びw2は、1以上のラン長を持つ文字列である。前者の場合、AkwX(nk)を含む最も短いBのキーワードを、後者の場合、Aw1kwXw2(nk)が包含する最も長いBのキーワードを、AkwX(nk)に一致するBのキーワードとする。候補が複数あるときは、重みが最も高いものとする。
Aw1kwXw2(nk)∋BkwX(nk) (4)
c)A文書のキーワードkwの長さ2(アルファベットの場合は3)以上の連続する部分w1kwXw2を含むキーワードが文書Bにある。このとき文書AのAw1kwXw2の最も長い部分を共有する文書BのキーワードBw1kwXw2を、kwXに一致するキーワードとする。w1及びw2は、1以上のラン長を持つ。
これらのいずれかに該当するキーワードが文書Bにない場合、Xに一致するキーワードは文書Bにないものとする。
a)通常の一致度:文書Bに一致するキーワードを有する文書Aのキーワード数、又は、
b)重み付き一致度cn:文書Bの一致するキーワードの重みnkmと対応する文書Aの重みnkmの積を、文書Aのキーワード全てで総和して得られる数、のいずれかである。
図13は、第1の実施形態に係る文書管理サーバ1及び/又はクライアントコンピュータ2のハードウエア構成の一例を示すブロック図である。図11に示されるコンピュータ装置110である文書管理サーバ1及び/又はクライアントコンピュータ2において、CPU111は、ROM114および/またはハードディスクドライブ116に格納されたプログラムに従い、RAM115を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、CPU111は、マウス112aまたはキーボード112を介して入力される利用者の指示に従い、ハードディスクドライブ116に格納されたプログラムに基づき、第1の実施形態に係る文書インデキシング処理、フリーワード文書検索処理を実行する。ディスプレイインタフェイス113には、CRTやLCDなどのディスプレイが接続され、CPU111が実行する文書インデキシング処理、フリーワード文書検索処理の入力待ち受け画面、処理経過や処理結果、検索結果である文章テキストデータなどが表示される。リムーバブルメディアドライブ117は、主に、リムーバブルメディアからハードディスクドライブ116へファイルを書き込んだり、ハードディスクドライブ116から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(FD)、CD−ROM、CD−R、CD−R/W、DVD−ROM、DVD−R、DVD−R/W、DVD−RAMやMO、あるいはメモリカード、CFカード、スマートメディア、SDカード、メモリスティックなどが利用可能である。
図5ないし図12を参照して、本発明の第2の実施形態を、第1の実施形態と相違する点についてのみ説明する。第2の実施形態は、第1の実施形態により自動抽出された重み付きキーワードに基づいて、文書テキストを自動分類する。
図6は、本発明の第2の実施形態に係る文書管理サーバ1を具備する文書分類システムの一構成例を示す。
1.有向グラフの形成
図5は、例示的に、一致度マトリクス生成部63が生成する一致度マトリクスを示す。図5において、新聞社説でビジネスのカテゴリーに分類される社説15件(「ビ1」、「ビ2」、・・・、「ビ15」)と、スポーツのカテゴリーに分類される社説8件(「ス1」、「ス2」、・・・「ス8」)とのすべての組み合わせについて、文書間一致度算出部62が、上記のとおりに算出するキーワードの一致度が表により示される。キーワード自動抽出部13により、第1の実施形態において説明された方法で、それぞれの社説の重み付きキーワードが抽出され、図5の「数」の欄には、各社説が保有している自動抽出されたキーワード数が記述され、図5のマトリクスの交点には、X軸上の社説に属するキーワードが、Y軸上の社説に対して有する一致度が、記述される。
図8は、双方向連結成分検出部65が実行する双方向連結成分の検出処理の詳細を示すフローチャートである。双方向連結成分は、図7に示される処理により検出された有向ループに属するノードを、1つのノードに縮退させることにより、検出される。図8において、まず、図7に示される処理により検出されたループ中の、ノードNに対して、マークmが付けられたノードを、次々に縮退させ、この縮退したノードにマークSを付ける(ステップS801)。縮退により、縮退されるノード間のリンクは、見かけ上なくなり、それ以外のノードとの間のリンクの重みは、縮退されたノードとそれ以外の外部のノードとの間のリンクの重み(一致度)を加算して得られる。図8において、ノードの縮退後、再度図7に示す処理を適用して、縮退されたノードを含むグラフに対して、有向ループの検出操作を繰り返すが、このとき最初に選択するノードは、マークS又はマークPが付けられていないノードを優先して選択する。マークS或いはマークPが付けられていないノードがなくなると、次にマークSが付けられたノード間のループを検出し、そのループに属するマークSのノードを縮退させる。すなわち、マークS又はマークPが付いていないノードがある場合には(ステップS802Y)、その1つのノードをとり、ノードNとし(ステップS803)、図7のステップS702に戻る(ステップS804)。一方、マークS又はマークPが付いていないノードがない場合には(ステップS802N)、マークSの付けられたノードと、これらのノード間のリンクからなる部分グラフで、ループを検出する(ステップS805)。ループが検出された場合、このループに属するノードを縮退させ、縮退されたノードにマークSを付ける(ステップS806)。ループがなくなった場合、ループを包含しないグラフにまで縮退されたことになり、このときに、最終的に、マークSが付けられたノードが、双方向連結成分に相当する。それぞれのノードを、縮退前のノード群に復元する。(ステップS807)。マークSが付けられた部分だけを部分グラフとして縮退前に復元することにより、1つの双方向連結成分が取り出せる。マークPが付けられたノードは、孤立ノードである。
第2の実施形態においては、図7及び図8の処理により得られた双方向連結成分におけるチェイン状連結(以下に説明される)を回避して、相互により関連性の高い文書テキスト群のみを1分類とする再分類を実現するため、以下のとおり、パスの検出と制限付き連結成分検出とを実行する。
2 クライアントコンピュータ
3 ネットワーク
11 文書データベース
12 文書入力部
13 キーワード自動抽出部
14 重み付きキーワード管理部
15 文書格納部
16 キーワード付与文書データベース
17 キーワード一致度算出部
18 文書送信管理部
23 キーワード入力部
24 キーワード送付管理部
25 文書受信管理部
26 ディスプレイ部
131 コード別文字分類部
132 漢字ラン出現頻度カウンタ
133 漢字キーワード抽出部
134 カタカナラン出現頻度カウンタ
135 カタカナキーワード抽出部
136 文書・キーワード群対応付け部
137 アルファベットラン出現頻度カウンタ
138 アルファベットキーワード抽出部
Claims (12)
- 入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントする文字列出現回数カウント部と、
前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出するキーワード生成部と、
前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出する重み算出部と、
前記重みを前記キーワードに付加して得られる重み付きキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、
前記対応付けられた重み付きキーワード及び前記日本語文書テキストとを格納する文書格納部と、
入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出するキーワード一致度算出部とを具備する
ことを特徴とする文書インデキシングサーバ装置。 - 前記文字コード識別部は、さらに、前記入力された日本語テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、アルファベット文字列を抽出し、
前記文字列出現回数カウント部は、さらに、抽出された前記アルファベット文字列のうち、2文字以上連続する文字列の出現回数をカウントし、
前記キーワード生成部は、さらに、前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、前記第1の所定比率より大きい第3の所定比率或いは前記第1の所定出現回数より小さい第3の所定出現回数以上の出現頻度を有するアルファベット文字列をキーワードとして得る
ことを特徴とする請求項1に記載の文書インデキシングサーバ装置。 - 上記文書インデキシングサーバ装置は、さらに、
クライアント装置から前記重みが付加されたキーワードを受信する受信部を具備し、
前記キーワード一致度算出部は、前記日本語文書テキストについて、前記受信されたキーワードに付加された第1の重みと前記一致するキーワードに付加された第2の重みとの積を総和して一致度として得る
ことを特徴とする請求項2に記載の文書インデキシングサーバ装置。 - 上記文書インデキシングサーバ装置は、さらに、
前記一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストから、前記受信されたキーワードを含む文章のみを抽出して要約を作成し、前記クライアント装置に送出する要約生成部を具備する
ことを特徴とする請求項1又は2に記載の文書インデキシングサーバ装置。 - 上記文書インデキシングサーバ装置は、さらに、
当該日本語文書テキストに対応付けられた重み付きキーワードと、文書格納部に格納される他の日本語文書テキストに対応付けられた重み付きキーワードとを比較することにより、当該日本語文書テキストのキーワードに付加された第1の重みと他の日本語文書テキストのキーワードに付加された第2の重みとの積を総和して文書間一致度を算出し、算出された文書間一致度のうち所定の閾値以上の文書間一致度を、すべての日本語文書テキストの組み合わせについて記述する一致度マトリクスを生成する一致度マトリクス生成部と、
この一致度マトリクスを参照することにより、当該日本語文書テキストから他の日本語文書テキストへの前記所定の閾値以上の文書間一致度を示す有向グラフを形成する有向グラフ形成部と、
形成された有向グラフを順次辿って相互に到達可能な関係を有する複数の日本語文書テキストを、1つの日本語文書テキスト群に分類する分類部とを具備する
ことを特徴とする請求項1ないし4のいずれか記載の文書インデキシングサーバ装置。 - キーワードを入力するキーワード入力部と、
入力されたキーワードをサーバ装置に送信するキーワード送信部と、
入力されたキーワードの送信に応答して、前記サーバ装置から、検索結果として日本語文書テキストを受信して表示出力する文書表示部とを具備し、
受信される前記日本語文書テキストは、入力されたキーワードと、前記サーバ装置の文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストであり、
前記日本語文書テキストのキーワードに付加される重みは、前記日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントし、前記出現回数がカウントされた文字列のうち、前記日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得、前記キーワードのそれぞれについて、前記日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出することにより得られるものである
ことを特徴とする文書インデキシングクライアント装置。 - 上記文書インデキシングクライアント装置は、さらに、
前記キーワードの送信に応答して、前記サーバ装置から、検索結果である日本語文書テキストの要約テキストを受信すると共に提示する要約提示部を具備し、
前記要約テキストは、前記送信されたキーワードを含む文章のみからなる
ことを特徴とする請求項6に記載の文書インデキシングクライアント装置。 - 上記文書インデキシングクライアント装置は、さらに、
前記キーワードの送信に応答して、前記サーバ装置から、複数の日本語文書テキストの分類を受信する受信部と、
受信された複数の分類から、1又は複数の分類の選択入力を促す分類選択入力部とを具備する
ことを特徴とする請求項6又は7に記載の文書インデキシングクライアント装置。 - 文字コード識別部と、文字列出現回数カウント部と、キーワード生成部と、重み算出部と、キーワード管理部と、文書格納部と、キーワード一致度算出部を備える文書インデキシングサーバ装置により実行される文書インデキシング方法であって、
前記文字コード識別部により、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出するステップと、
前記文字列出現回数カウント部により、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントするステップと、
前記キーワード生成部により、前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出するステップと、
前記重み算出部により、前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出するステップと、
前記キーワード管理部により、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるステップと、
前記文書格納部により、前記対応付けられたキーワード及び前記日本語文書テキストとを格納するステップと、
前記キーワード一致度算出部により、入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前期入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出するステップとを含む
ことを特徴とする文書インデキシング方法。 - キーワード入力部と、キーワード送信部と、文書表示部とを備える文書インデキシングクライアント装置により実行される文書インデキシング方法であって、
前記キーワード入力部により、キーワードを入力するステップと、
前記キーワード送信部により、入力されたキーワードをサーバ装置に送信するステップと、
前記文書表示部により、入力されたキーワードの送信に応答して、前記サーバ装置から、検索結果として日本語文書テキストを受信して表示出力するステップとを含み、
受信される前記日本語文書テキストは、入力されたキーワードと、前記サーバ装置の文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストであり、
前記日本語文書テキストのキーワードに付加される重みは、前記日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントし、前記出現回数がカウントされた文字列のうち、前記日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得、前記キーワードのそれぞれについて、前記日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出することにより得られるものである
ことを特徴とする文書インデキシング方法。 - 文書インデキシング処理を、文字コード識別部と、文字列出現回数カウント部と、キーワード生成部と、重み算出部と、キーワード管理部と、文書格納部と、キーワード一致度算出部を備える文書インデキシングサーバ装置として動作するコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
前記文字コード識別部により、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する処理と、
前記文字列出現回数カウント部により、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントする処理と、
前記キーワード生成部により、前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出する処理と、
前記重み算出部により、前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出する処理と、
前記キーワード管理部により、前記得られたキーワードと前記入力された日本語文書テキストとを対応付ける処理と、
前記文書格納部により、前記対応付けられたキーワード及び前記日本語文書テキストとを格納する処理と、
前記キーワード一致度算出部により、入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前期入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出する処理とを含む処理を実行させるためのものである
ことを特徴とする文書インデキシングプログラム。 - 文書インデキシング処理を、キーワード入力部と、キーワード送信部と、文書表示部とを備える文書インデキシングクライアント装置として動作するコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
前記キーワード入力部により、キーワードを入力する処理と、
前記キーワード送信部により、入力されたキーワードをサーバ装置に送信する処理と、
前記文書表示部により、入力されたキーワードの送信に応答して、前記サーバ装置から、検索結果として日本語文書テキストを受信して表示出力する処理とを含む処理を実行させるためのものであり、
受信される前記日本語文書テキストは、入力されたキーワードと、前記サーバ装置の文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストであり、
前記日本語文書テキストのキーワードに付加される重みは、前記日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントし、前記出現回数がカウントされた文字列のうち、前記日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得、前記キーワードのそれぞれについて、前記日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出することにより得られるものである
ことを特徴とする文書インデキシングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006099401A JP4362492B2 (ja) | 2006-03-31 | 2006-03-31 | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006099401A JP4362492B2 (ja) | 2006-03-31 | 2006-03-31 | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007272699A JP2007272699A (ja) | 2007-10-18 |
JP4362492B2 true JP4362492B2 (ja) | 2009-11-11 |
Family
ID=38675420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006099401A Active JP4362492B2 (ja) | 2006-03-31 | 2006-03-31 | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4362492B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103299304B (zh) | 2011-01-13 | 2016-09-28 | 三菱电机株式会社 | 分类规则生成装置和分类规则生成方法 |
JP5836893B2 (ja) * | 2012-07-02 | 2015-12-24 | 株式会社日立ソリューションズ | ファイル管理装置、ファイル管理方法、及びプログラム |
CN110955806B (zh) * | 2019-11-29 | 2022-11-18 | 国家电网有限公司客户服务中心 | 一种针对中文文本的字符串匹配方法 |
-
2006
- 2006-03-31 JP JP2006099401A patent/JP4362492B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007272699A (ja) | 2007-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5008024B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
El et al. | Authorship analysis studies: A survey | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
US20080147642A1 (en) | System for discovering data artifacts in an on-line data object | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
JP6107513B2 (ja) | 情報処理システム、情報処理方法、および情報処理プログラム | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
US20080147588A1 (en) | Method for discovering data artifacts in an on-line data object | |
WO2009158492A1 (en) | Methods and systems for social networking | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
Lee et al. | InfoShield: Generalizable information-theoretic human-trafficking detection | |
JP5098631B2 (ja) | メール分類システム、メール検索システム | |
Scharkow | Content analysis, automatic | |
Xu et al. | Using SVM to extract acronyms from text | |
JPWO2010150910A1 (ja) | 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 | |
JP4362492B2 (ja) | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム | |
JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
JP2009086903A (ja) | 検索サービス装置 | |
JP4711556B2 (ja) | 文章自動分類装置、文章自動分類プログラム、文章自動分類方法及び文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP2007128224A (ja) | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090721 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090817 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130821 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |