JP3928351B2 - 確率を用いた特徴単語の選択方法 - Google Patents
確率を用いた特徴単語の選択方法 Download PDFInfo
- Publication number
- JP3928351B2 JP3928351B2 JP2000354407A JP2000354407A JP3928351B2 JP 3928351 B2 JP3928351 B2 JP 3928351B2 JP 2000354407 A JP2000354407 A JP 2000354407A JP 2000354407 A JP2000354407 A JP 2000354407A JP 3928351 B2 JP3928351 B2 JP 3928351B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document data
- words
- document
- balls
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、与えられた文書群中の単語の重要性を測る技術に係り,文献検索の支援,単語辞書の自動作成等に利用される.
【0002】
【従来の技術】
図1は,検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例である。右側のウィンドウには左側に示されている文書中の単語が選択され,表示されている.このような検索システムの例として,例えば、特開平10-74210「文献検索支援方法及び装置およびこれを用いた文献検索サービス」(文献1)があげられる。
【0003】
また、影浦峡(他),"Methods of automatic term recognition: A review", Terminology, 1996)(文献2)には、単語の重要度を計算する方法が記載されている。単語の重要度を計算する方法は,専門用語の自動抽出や,文献検索の際に文書を特徴付ける単語に重みをつけることを目的として,長い間研究されてきた.
単語の重み付けに関して,特定の文書集合内から重要語を抽出することを目的とするものでもっとも有名なものは,tf-idfである.idfは,全文書数Nallをある単語wが現れる文書数N(w)で割ったものの対数,tf,より詳しく書くとtf(w,D)は,単語の文書集合D内での出現頻度であり,tf-idfは,これらの積として, tf(w,d)×log2(Nall/N(w)) で表される.ここで,Nallは,全文書数, N(w) はwの出現する文書数である。tf-idfの基本的な性質として,単語がより多く,より少ない文書に偏って出現するほど大きくなる.tf-idfは,定義が簡便なため,少ない計算で単語の重みが計算できる。
【0004】
情報検索の分野では,近年になって,後述するSMARTと呼ばれる重み付け方法(A. Singhal et al. Pivoted Document Length Normalization, Proc. of ACM SIGIR96, pp126-133, 1996; 文献3)が開発され,現時点では最も高精度とされている。
【0005】
【発明が解決しようとする課題】
しかし,上記のtf-idfは,単語の頻度の影響を受けすぎるため,頻度の非常に高い,「する」,「いる」等の不要語を排除できないという問題があった。
【0006】
他に,直感的に妥当と思われるものに,tf(w,d)を,wの全文書集合中の出現頻度TF(w)で割った値がある。しかし,この値は,頻度が1回しかない単語の重みを最大(=1)にしてしまうため,低頻度語に偏りすぎる問題があった。
【0007】
また、SMARTと呼ばれる重み付け方法は、SMART値は後述の定義式から分かる通り,かなり多くの計算を必要とする問題があった。
【0008】
本発明は,高頻度語にも,低頻度語にも偏らず,部分文書集合が与えられたときに,それに応じてリアルタイムで単語の重みを計算でき,既存の手法より高精度な単語の重み付け方法を提案することである.
【0009】
【課題を解決するための手段】
本発明では,全語数がNの文書集合中に全部でK回現れる単語が,n語を含む部分文書集合中にk回あらわれるとき,これに,「N個の玉の中に印のついたK個の玉が入っているとき,これから任意にn個の玉を取り出したときに印のついた玉がk個以上含まれる確率」(これをhgs(N, K, n, k)と書く)の対数値の符号を反転させた重みW(N, K, n, k)を与え,この重みを用いて前記部分文書集合中の特徴単語を選択する。ここで,「N個の玉の中に印のついたK個の玉が入っているとき,これから任意にn個の玉を取り出したときに印のついた玉がちょうどk個含まれる確率(超幾何分布)」をhg (N, K, n, k)と書くとき,W(N, K, n, k), hgs(N, K, n, k),hg(N, K, n, k)は,次の式で定義される:
【0010】
【数1】
【0011】
ここで,C(t,u)は, t個のことなるものの中からu個を選ぶ組み合わせの数を表わす。上述の確率は,「個々の単語の出現が独立である」と仮定したとき(独立性の仮定),n語を含む部分文書集合中に特定の単語がk回あらわれることがどのくらい珍しいかを示すものである。
【0012】
ここで,「k個以上」である場合の和をとるのは,「特定の単語がk個現れる」という事象が,同単語が可能な限り最大個数現れる(すなわち,min{n,K }個現れる)という事象からどの程度離れているかを測るためである。このように和を取ることにより,「出現が少なすぎる方向にめずらしい」場合と,「出現が多すぎる方向に珍しい」場合を区別できる。すなわち,k1<k2であって,hg(N, K, n, k1)= hg(N, K, n, k2)の場合,hgs(N, K, n, k1)> hgs(N, K, n, k2),したがってW(N, K, n, k1)< W(N, K, n, k2) となる。(図2)
上述の確率的解釈により, Nや Kと比較してnやkが大きな場合も小さな場合も,一貫した意味付けをもつ公平な重み付けができる。言葉を替えれば,SMARTで行われるような文書サイズによる正規化が,確率を使うことにより自動的に行われている。
【0013】
本発明の重み付けの精度上の優位性は,以下の実験によって確認された。まず,本発明の方式を含む, wを含む文書集合D(w)中の任意の語v重み付けの指標を選び,これら指標の集合をMとする:
tf:詳しくはtf(v|D(w))。もっとも単純な重みで vのD(w)での頻度そのものを用いる。
tf-idf: Saltonらによって提案された方法で(文献2参照),
tf-idf(v|D(w))=tf(v|D(w))×log(Nall/N(v))
で定義する。ここで, Nallは全文書数, N(v)はvが現れる文書数。
【0014】
tf/TF:vのD(w)中での出現確率と,全文書中での出現確率とを比較したもので,
tf/TF = tf(v|D(w))/TF(v),
で定義する。但し,TF(v)はvの全文書集合中での頻度。
【0015】
SMART
情報検索の分野で近年提案されたもので(文献3),この重みに対して最適化された文書
類似度計算方法とともに用いると,最も高精度な類似文書検索ができるとされている。
【0016】
【数2】
【0017】
ここで, Ave{}は,{}内の要素の平均を取るオペレータ。
【0018】
HGS:数1のW(N,K,n,k)による重み付け。但し,N= Nall,Kはvの全文書での頻度, nはD(w)の単語数,kはvのD(w)での頻度。
【0019】
次に,日経新聞1998年版より,D(w)の含む文書数が似通ったwを2語ずつ計8単語選んだ。8単語と各々に対するD(w)が含む文書数は次の通り(括弧内の数字がD(w)の文書数):
{エリツィン(947), オリンピック(934),オウム (265),エイズ(202),イントラネット(152),
プリペイドカード(126),オゾン(52),テポドン(50)}
Mの各要素mにより,各D(w)に含まれる全ての単語を重み付けし,それぞれの上位50位までとった単語の集合をw(m, 50)とし,これらをマージした単語集合をw(M, 50)とする。w(M, 50)の各要素に対し,各単語があらわれるコンテクストを参照し,D(w)の内容を概観するうえで有用と思われるもの(検索内容の確認に有効or内容の絞込みに有効or関連トピックへの手がかりとして有効)にP粕,概観に現れるのにふさわしくないものにN粕,どちらともいえないものにU粕を付与し,各 w(m, 50)中に,w(M, 50)でP粕,N粕と分類される単語がそれぞれ何個含まれるかを数えた。
【0020】
その結果を示したのが図3,図4である。上記8単語すべてについて, HGSの優位性が示された。
【0021】
【発明の実施の形態】
以下では,上で与えた文書集合中の単語への重み付けを実現する方法と,その情報検索システムへの応用を示す.
重みを計算するためのシステム構成例を図5に示す.以下図5,6を用いて重み付けの計算について述べる.401は記憶装置であり,ハードディスク等を用いて文書データ,各種のプログラムモジュール等を格納する.また,プログラムの作業用領域としても利用される.以下,4011は,文書データ.以下の例では日本語を用いるが,言語にはよらない.4012は,形態素解析プログラム,文書を構成する単語を同定する.日本語の場合は分かち書き+品詞付け,英語の場合は原型還元等の処理を行う.この手法については特定しない.両言語とも,商用・研究用をとわずさまざまなシステムが公開されている.4013は,単語・文書対応付けモジュール。形態素解析の結果から,どの単語がどの文書に何回あらわれているか,逆にどの文書にどのような単語が何回あらわれているかを調べる.基本的には単語と文書をそれぞれ行・列とする行列の要素を計数により埋める作業であり,この手法については特定しない.4014は,単語・文書対応データベース(DB)。上記で計算された単語・文書対応データを記録するDB.4015は,単語ベクトル計算モジュールであって,語wが与えられたとき,4014の単語・文書対応DBにより, D(w)中の各単語とその出現回数を求め,それらを記憶した単語ベクトルV(D(w)) を生成すると同時に, D(w)中の全単語数#D(w)を求め,4017の作業用領域内に記録する。4015が最初に起動された時は,併せて,対象とするDB内の全文書中の単語頻度ベクトルV(D)と全単語数Nallを計算し,4017の作業用領域内に記録する。V(D(w))はD(w)中の単語の集合(D(w)の部分でも全体でも)の重み付けがされている間保持され,V(D)とNallは,全文書集合を変えない限り保持される。これらのデータは,4016の語の重み付けモジュールで必要に応じて参照される。図6に4016の構成を示す。4017は,上に述べた作業用の領域で,複数のプログラム間で共通に参照するデータを記録する.402は,入力装置,403は,通信装置,404は,メインメモリ,405は,CPU、406は,ディスプレイ,キーボード等より構成される端末装置,である.
4016の語の重み付け計算モジュールが, D(w)中の語vの重み付けを求める手法を説明する. D(w)中の語vに対し,4017に記録された全文書数Nall, V(D)中に記録されたvのD中の頻度TF(v),# D(w), V(D(w)) 中に記録されたvのD中の頻度tf(v|D(w))を求め,N=Nall,K= TF(v), n=# D(w),k= tf(v|D(w))として,数の組(N, K, n, k)を生成する。そして,数式1に従って,重みW(N,K,n,k)を求める。ここで,数式1の定義式におけるhg(N, K, n, l)の計算に際しては,まず対数を取り積和変換する。階乗t!の計算は,t<150のとき表を引き,そうでないときはStirlingの公式で近似する。こうすることにより,二項分布近似を行うことなく,任意の(N, K, n, l)に対して高精度に直接計算可能である。hgs(N, K, n, k)を求める際は,和の収束性を調べ,収束が早い場合は少ない項数で切り上げる等の工夫をする。また,「特異的に多い」ものを求めるのが目的なので,hg (N, K, n, k+1) >hg (N, K, n, k)のときは,直ちに計算をやめて, W(N, K, n, k)としてlog(hg (N, K, n, k))を返す(これは負値)等の工夫をすることにより,十分な高速計算が可能である。
図6は,本発明を文献検索支援のための検索内容表示に応用する場合の構成例である.本図は,(文献1)の文献検索支援方法において,ナヴィゲーションウィンドウにおける特徴語表示に本発明を適用する場合の検索装置の構成を示したものである.ここで,544の特徴単語表示手段作動ルーチンは,5441特徴語抽出ルーチン,5442共起関係解析ルーチン,5443グラフ配置ルーチン,5444グラフ表示ルーチンからなる.5441の特徴語抽出ルーチンにおいて,図5に示した語の重み付けモジュールを使って語に重みを付け,この重みを利用して(文献1)の方法で単語を選出する.544以外の説明は省略する。
【0022】
【発明の効果】
本発明で提案する語の重み付けを用いる事により,文書集合中の語について,語の頻度の影響を受けない,高精度な語の重み付け方法が実現でき,単語情報検索インタフェースに役立てることができる.
【図面の簡単な説明】
【図1】検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例。
【図2】 hgs(N,K,n,k)の模式図。
【図3】五つの重み付けについて,検索結果の要約としてふさわしい単語を上位50位に選出する数を比較したグラフ。
【図4】五つの重み付けについて,検索結果の要約としてふさわしくない単語が上位50位に現れる数を比較したグラフ。
【図5】提案する単語の重要度計算方法を実現するための装置構成。
【図6】文献検索支援のための検索内容表示に本願の重み付けを応用する場合の構成例。
【符号の説明】
401:記憶装置
4011:文書データ
4012:形態素解析プログラム
4013:単語・文書対応付けプログラム
4014:単語・文書対応データベース(DB)
4015:単語ベクトル計算モジュール
4016:語の重み付け計算モジュール
4017:作業用の領域
402:入力装置
403:通信装置
404:メインメモリ,
405:CPU
406:端末装置,
5441:特徴語抽出ルーチン
5442:共起関係解析ルーチン
5443:グラフ配置ルーチン
5444:グラフ表示ルーチン。
Claims (1)
- 記憶装置に格納された全体の単語数がNである文書データと、前記文書データから抽出された部分文書データとから、前記文書データの特徴語を選出して表示する単語選択表示方法であって、
演算手段が、前記記憶装置に格納された第一の計算モジュールによって、前記文書データに含まれる任意の単語Xの出現頻度Kを求め、前記記憶装置の記憶領域に記録するステップと、
前記演算手段が、前記部分文書データについて、前記第一の計算モジュールもしくは前記記憶装置に格納された第二の計算モジュールによって、前記部分文書データの全単語数nおよび前記部分文書データに含まれる前記任意の単語Xの出現頻度kを求め、前記記憶領域に記録するステップと、
前記記憶装置に格納された第三の計算モジュールによって、前記演算手段が、前記記憶領域のデータを参照して前記N、前記n、前記K、および前記kを用い、前記任意の単語Xの重みを、全体でN個の玉の中に赤玉がKあるとき、全体から無作為にn個取り出したときに赤玉がk個以上含まれる確率に対応付け、かつ前記確率が低いほど大きくなるように定めるステップと、
前記演算手段が、前記重みにより、前記文書データを特徴付ける特徴語を選出するするステップと、
前記演算手段が、表示手段に、前記特徴語を表示させるステップとを有することを特徴とする単語選択表示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000354407A JP3928351B2 (ja) | 2000-11-16 | 2000-11-16 | 確率を用いた特徴単語の選択方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000354407A JP3928351B2 (ja) | 2000-11-16 | 2000-11-16 | 確率を用いた特徴単語の選択方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002157273A JP2002157273A (ja) | 2002-05-31 |
JP2002157273A5 JP2002157273A5 (ja) | 2004-10-28 |
JP3928351B2 true JP3928351B2 (ja) | 2007-06-13 |
Family
ID=18826994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000354407A Expired - Fee Related JP3928351B2 (ja) | 2000-11-16 | 2000-11-16 | 確率を用いた特徴単語の選択方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3928351B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720783B2 (en) * | 2007-03-28 | 2010-05-18 | Palo Alto Research Center Incorporated | Method and system for detecting undesired inferences from documents |
JP5131565B2 (ja) * | 2010-03-04 | 2013-01-30 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP5379749B2 (ja) * | 2010-06-14 | 2013-12-25 | 日本電信電話株式会社 | 文書分類装置、文書分類方法、そのプログラムおよび記録媒体 |
JP5732441B2 (ja) * | 2011-10-06 | 2015-06-10 | 日本電信電話株式会社 | 情報推薦方法、装置及びプログラム |
-
2000
- 2000-11-16 JP JP2000354407A patent/JP3928351B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002157273A (ja) | 2002-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3855551B2 (ja) | 検索方法及び検索システム | |
US9519634B2 (en) | Systems and methods for determining lexical associations among words in a corpus | |
US9501475B2 (en) | Scalable lookup-driven entity extraction from indexed document collections | |
US7783629B2 (en) | Training a ranking component | |
US7861149B2 (en) | Key phrase navigation map for document navigation | |
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
US7895205B2 (en) | Using core words to extract key phrases from documents | |
US20090157656A1 (en) | Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions | |
EP1429258A1 (en) | DATA PROCESSING METHOD&comma; DATA PROCESSING SYSTEM&comma; AND PROGRAM | |
US20110295856A1 (en) | Identifying related objects using quantum clustering | |
US20060123036A1 (en) | System and method for identifying relationships between database records | |
US20090024610A1 (en) | Computer aided authoring, electronic document browsing, retrieving, and subscribing and publishing | |
US20040098385A1 (en) | Method for indentifying term importance to sample text using reference text | |
US20080183665A1 (en) | Method and apparatus for incorprating metadata in datas clustering | |
JP4778474B2 (ja) | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 | |
JP2005122533A (ja) | 質問応答システムおよび質問応答処理方法 | |
US20050138079A1 (en) | Processing, browsing and classifying an electronic document | |
US20040158558A1 (en) | Information processor and program for implementing information processor | |
CN112307190B (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
Wijewickrema et al. | Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora | |
US20090083621A1 (en) | Method and system for abstracting electronic documents | |
JP3928351B2 (ja) | 確率を用いた特徴単語の選択方法 | |
JP3373086B2 (ja) | 情報検索装置 | |
JPH064584A (ja) | 文章検索装置 | |
JP3081093B2 (ja) | 索引作成方法およびその装置と文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060829 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070226 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140316 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |