JP5305241B2 - 分類パラメータ生成装置、生成方法及び生成プログラム - Google Patents

分類パラメータ生成装置、生成方法及び生成プログラム Download PDF

Info

Publication number
JP5305241B2
JP5305241B2 JP2009136521A JP2009136521A JP5305241B2 JP 5305241 B2 JP5305241 B2 JP 5305241B2 JP 2009136521 A JP2009136521 A JP 2009136521A JP 2009136521 A JP2009136521 A JP 2009136521A JP 5305241 B2 JP5305241 B2 JP 5305241B2
Authority
JP
Japan
Prior art keywords
classification parameter
classification
learning data
category
thresh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009136521A
Other languages
English (en)
Other versions
JP2010282502A (ja
Inventor
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009136521A priority Critical patent/JP5305241B2/ja
Publication of JP2010282502A publication Critical patent/JP2010282502A/ja
Application granted granted Critical
Publication of JP5305241B2 publication Critical patent/JP5305241B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、分類パラメータ生成装置、生成方法及び生成プログラムに関し、さらに詳しくは、Multinomial Bayesによる教師付きデータ分類法において、出来るだけ少ない分類パラメータで良好な分類精度を実現できるようにした分類パラメータ生成装置、生成方法及び生成プログラムに関する。
インターネットの急速な普及に伴って、Webページには電子化された書類などのテキストデータが急速に増加したために、目的とするテキストデータを探し出す場合には、大量のテキストデータの中から探し出す必要がある。
大量のテキストデータの中から目的とするテキストデータを探し出すための技術として、テキストデータを予め幾つかのカテゴリに分類しておくことにより、検索対象に関連する特定のカテゴリに属するテキストデータのみを検索する方法がある。例えば、特許文献1には、入力テキストについて形態素解析を行ってテキストを単語に分割し、各単語に品詞を割り当て、入力テキストの内容をよく表す名詞を特徴語として取り出し、取り出した特徴語の出現頻度をカウントし、特徴語とその出現頻度を用いてテキストベクトルを生成し、生成したテキストベクトルと分類パラメータの内積を算出し、算出した内積が閾値に達しているか否かによりカテゴリに属するか否かを判定するテキスト」分類方法が開示されている。
ここで、入力テキストのカテゴリを正確に判定するためには、分類パラメータが適切であることが必要である。従来、分類パラメータを作成する方法として、Multinomial Bayesによる教師付きデータ分類法がある。
図4は、教師付きデータ分類法のアルゴリズムのフローチャートである。図示のように、特徴抽出フェーズ(ステップS1)で、入力されたカテゴリラベル付き学習用データの特徴抽出を行い、特徴選択フェーズ(ステップS2)で、先に抽出された特徴を絞り込んで分類パラメータ候補とする。次いで、機械学習フェーズ(ステップS3)で、Multinomial Bayesによる機械学習アルゴリズムを用いて各分類パラメータ候補に対して重みを付与し、分類パラメータ候補とその重みの組を分類パラメータとする。
Multinomial Bayesでは、分類パラメータが多い程分類精度が高くなると言われている。しかし、分類パラメータが多いと分類時間が長くなるため、出来るだけ少ない分類パラメータで良好な分類精度を実現することが望ましい。
本発明は、このような問題を解決するためになされたものであり、その目的は、Multinomial Bayesによる教師付きデータ分類法により分類パラメータを生成するときに、出来るだけ少ない分類パラメータで良好な分類精度を実現できるようにすることである。
本発明の分類パラメータ生成方法は、コンピュータにより、カテゴリラベル付き学習データから、分類パラメータを生成する方法であって、カテゴリラベル付き学習データから特徴を抽出するステップと、その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得するステップと、その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出するステップと、その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとするステップとを有することを特徴とする分類パラメータ生成方法である。
本発明の分類パラメータ生成装置は、カテゴリラベル付き学習データから特徴を抽出する手段と、その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得する手段と、その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出する手段と、その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとする手段とを有することを特徴とする分類パラメータ生成装置である。
本発明の分類パラメータ生成プログラムは、コンピュータに、本発明の分類パラメータ生成方法の各ステップを実行させるためのプログラムである。
[作用]
本発明によれば、カテゴリ毎の分類パラメータ候補の内、Multinomial Bayesの重みの計算式を基に算出した重みが所定の閾値を超える分類パラメータ候補とその重みの組を分類パラメータとする。換言すれば、重みが所定の閾値以下の分類パラメータ候補及びその重みの組を分類に寄与しない無効な分類パラメータであると判断して除去する。
本発明によれば、Multinomial Bayesによる教師付きデータ分類法により分類パラメータを生成するときに、出来るだけ少ない分類パラメータで良好な分類精度を実現することが出来る。
本発明の実施形態の分類パラメータ生成装置のブロック図である。 本発明の実施形態の分類パラメータ生成装置における分類パラメータ選択処理のフローチャートの一部である。 本発明の実施形態の分類パラメータ生成装置における分類パラメータ選択処理の残りの部分である。 教師付きデータ分類法のアルゴリズムのフローチャートである。
以下、本発明を実施するための形態について、図面を参照して説明する。
〈分類パラメータ生成装置のブロック図〉
図1は、本発明の実施形態の分類パラメータ生成装置のブロック図である。この分類パラメータ生成装置1は入出力装置2に接続されており、入出力装置2を介して外部から入力される学習テキストから分類パラメータを生成し、入出力装置2を介して外部へ出力する。
分類パラメータ生成装置1は、特徴生成部11、特徴選択部12、及び分類パラメータ選択部131を内蔵する機械学習部13を備えており、各部は、コンピュータのROMに格納された分類パラメータ生成プログラムをCPUが実行することにより実現される機能ブロックであり、入出力装置2は、そのコンピュータの入出力装置である。
特徴生成部11は、入出力装置2を通して入力された学習テキストから特徴を生成する。生成する特徴は、例えば、形態素解析を使用したBOW(Bag of Words)、ある規則に基づいて生成する可変長n-gram、suffix arrayを使用したlcp文字列群である。また、特徴生成部11では、生成した特徴の統計値を計測する。計測する統計値は、TF(文書内出現頻度)、DF(文書頻度)あるいは特徴の長さなどである。
特徴選択部12では、特徴生成部11で生成した特徴群を入力として、分類に有効と思われる特徴を特徴群から選択することで、分類パラメータ候補群を生成する。例えば各特徴に対して、特徴生成部11で計測した値(TF,DF)を基に重みを付与し、重みをキーとして整列させ、上位から条件に合う特徴を選択する。重み計算法にはいくつかあり、例えば、情報利得、相関係数等を重みとして用いる。
機械学習部13では、分類パラメータ選択部131により分類パラメータ候補群を分類パラメータに変換する。分類パラメータ選択部131では、分類パラメータ候補群に対して、Multinomial Bayesによる機械学習アルゴリズムに基づいて重みを算出し、算出した重みから、分類パラメータ候補が分類パラメータとして有効かどうか判断する。そして、有効であると判断した分類パラメータ候補及びその重みの組を分類パラメータとして出力する。
〈分類パラメータ選択部の処理〉
以上説明した分類パラメータ選択部131の処理の詳細について、図2及び図3のフローチャートを参照しながら説明する。
まず入力されたカテゴリ毎(カテゴリ数nは2以上の整数)の分類パラメータ候補群に対し、i=1に設定し(ステップS31)、2つの閾値Thresh(i)+,Thresh(i)-を計算する(ステップS31)。
Thresh(i)+は、次のように導出する。
“『Improving Multi-class Text Classification with Naive Bayes』Jason D.M.Rennie,AI Technical Report 2001-004,September 2001,MIT-artificial intelligence laboratory”(以下、非特許文献1)によると、Multinomial BayesにおけるカテゴリCiの分類パラメータ候補Cand(i,j)の重みθijの計算式は下記の式[1]である。
log(((N(i,j)+1)/(N(i)+V)))/(((~N(i,j))+1)/((ΣiN(i)-N(i))+V)) …式[1]
ただし、
N(i):各学習データ内の重複もカウントしたカテゴリCiに属する特徴数
N(i,j):各学習データ内の重複もカウントしたカテゴリCiにおける分類パラメータ候補Cand(i,j)の出現数(count (Cand(i,j)))
V: 全学習データに含まれる特徴の種類数
M:各学習データ内の重複を無視し、各学習データ間の重複をカウントした全学習データに含まれる重複もカウントした特徴数
M(i):各学習データ内の重複を無視し、各学習データ間の重複をカウントしたカテゴリCiに属する特徴数
~N(i,j):Σicount (cand(i,j))-N(i,j)
である。
式[1]のlog内を変形すると、下記の式[2]となる。
(((ΣiN(i)-N(i))+V))/(N(i)+V))×((N(i,j)+1)/(~N(i,j)+1)) …式[2]
式[2]の中で分類パラメータ候補Candjと関係する項である下記の式[3]に注目する。
((N(i,j)+1)/(~N(i,j)+1)) …式[3]
式[3]において分類パラメータ候補CandjがカテゴリCiだけに存在すると仮定すると、「~N(i,j)=0」になるから、式[3]は下記の式[4]となる。
N(i,j)+1 …式[4]
N(i,j)は、count (Cand(i,j))であり、この値をカテゴリCiにおける特徴1個あたりの平均出現頻度とすると、式[4]は下記の式[5]となる。
N(i)/M(i)+1 …式[5]
従って、カテゴリCiだけに存在する特徴で、その数が平均出現頻度に等しいCand(i,j)の重みは、次の式[6]になる。
log((((N-N(i))+V)/(N(i)+V))*(N(i)/M(i)+1)) …式[6]
Thresh(i)-は、次のように導出する。
式[3]において、分類パラメータ候補CandjがカテゴリCi以外だけに存在すると仮定すると、「(N(i,j)=0」になるから、式[3]は下記の式[4’]となる。
1/(~N(i,j)+1) …式[4’]
~N(i,j)をカテゴリCi以外の特徴の平均出現頻度とすると、N-N(i)はカテゴリCi以外の特徴の出現頻度であり、M-M(i)はカテゴリCi以外の特徴数であるから、~N(i,j)は下記の式[5’]となる。
(N-N(i))/(M-M(i))…式[5’]
これを式[1]に適用すると、カテゴリCi以外だけに存在する特徴で、その数が平均出現頻度に等しいCand(i,j)の重みは、下記の式[6’]になる。
Thresh(i)- = log((((N-N(i))+V)/(N(i)+V))/((N-N(i))/(M-M(i))+1)) …式[6’]
次にカテゴリCiの分類パラメータ候補Cand(i,j)(j=1〜M(i))を抽出し(ステップS33)、j=1とした後(ステップS34)、式[1]を用いてCand(i,j)の重みθijを算出する(ステップS35)。
次いで、重みがθijがThresh(i)+より大きいかどうか、またはThresh(i)-より小さい(絶対値は大きい)かどうか判断する(ステップS36)。
判断の結果、θijがThresh(i)+より大きいか、またはThresh(i)-より小さい場合(S36:Yes)は、分類パラメータ候補Cand(i,j)を分類パラメータとし(ステップS37)、jをインクリメントする(ステップS38)。一方、θijがThresh(i)+以下、又はThresh(i)-の場合(S36:No)は、そのままjをインクリメントする(ステップS38)。
jがM(i)と等しくなる(ステップS39:No)まで、S35〜S38を繰り返し、jがM(i)と等しくなったら、カテゴリCiの分類パラメータ(Cand(i’,j’)θi’,j’)を出力(ステップS40)した後にiをインクリメントする(ステップS41)。iがnに等しくなる(ステップS42:No)まで、S32〜S41を繰り返す。
〈分類パラメータ生成の具体例〉
ロイター(Reuters)の記事でコットン(cotton)のカテゴリ(以下、カテゴリC)に属するテキストと、カテゴリCに属さない(カテゴリC以外のあるカテゴリCに属する)テキストについて、Thresh(i)+、およびThresh(i)-を計算するとともに、分類パラメータセ生成の様子を説明する。なお、ここではカテゴリCはwpi(wholesale price index:卸売物価指数)である。
の分類パラメータ候補と各観測値は下記のとおりである。
uary,N(A,uary)=5,~N(A,uary)=78
pct,N(A,pct)=21,~N(A,pct)=96
ry,N(A,ry)=15,~N(A,ry)=84
ot,N(A,ot)=91,~N(A,ot)=0
ar,N(A,ar)=117,~N(A,ar)=171
ct,N(A,ct)=51,~N(A,ct)=109
ro,N(A,ro)=85,~N(A,ro)=0
ton,N(A,ton)=82,~N(A,ton)=0
ice,N(A,ice)=14,~N(A,ice)=63
January,N(A, January)=2,~N(A, January)=42
tt,N(A,tt)=77,~N(A,tt)=0
N(A)=12442
N(B)=6667
V=1374
M(A)=4859
また、Cの分類パラメータ候補と各観測値は下記のとおりである。
uary, N(B,uary)=78,~N(B,uary)=5
pct, N(B,pct)=96, ~N(B,pct)=21
N(B)=6667
N(A)=12442
M(B)=2407
V=1374
以上の観測値から、Thresh+,Thresh-と、分類パラメータ候補の重みを計算すると、
Thresh(A)+= 0.728658
Thresh(A)-= -1.868306
uary,-3.237930
pct,-2.081069
ry,-2.275491
ot,4.629907
*ar,-0.957724
*ct,-1.333922
ro,4.562085
ton,4.526366
ice,-2.056470
January,-3.412792
tt,4.463846
Thresh(B)+= 1.868306
Thresh(B)-= -0.728658
uary,3.237930
pct,2.081069
となる。
ここで、*がついている分類パラメータ候補の重みはThresh(A)-より大きい(絶対値が小さい)ので、分類パラメータに採用されない。なお、ここでは分類パラメータの重みの計算式は式[1]ではなく、Jeffreys-Perks law smoothing を施した下記の式[1’]を使用した。
log(((N(i,j)+1/2)/(N(i)+V/2)))/(((~N(i,j))+1/2)/((ΣiN(i)-N(i))+V/2)) …式[1’]
〈分類精度の実測例〉
図4に示す従来の方法と、本実施形態とにより、94年度の毎日新聞のある記事を各種カテゴリ(演劇,スポーツ,農業,・・・)に分類したところ、従来方法では分類パラメータ数3988、F値0.725であったのに対し、本実施形態では分類パラメータ数3472、F値0.735となり、本実施形態の方が少ない分類パラメータ数で高い分類精度を達成した。
本実施形態の分類パラメータ生成装置1は下記(1)〜(3)の特徴を有する。
(1)分類パラメータ候補群に対して、Multinomial Bayesによる機械学習アルゴリズムに基づいて重みを計算しつつ、計算した重みから分類パラメータとして有効かどうか判断し、無効と判断される分類パラメータ候補を除去するので、出来るだけ少ない分類パラメータで良好な分類精度を実現することが出来る。
(2)Multinomial Bayesでは、重みの計算式(式[1])が予め分かっているので、SVM、Log Linear Modelなどの機械学習アルゴリズムよりも学習速度が速い。
(3)ベイズの仮定(特徴が互いに独立して各カテゴリのテキストに出現する)が成立する限り、他の機械学習アルゴリズムより分類精度が高くなる。
1・・・分類パラメータ生成装置、11・・・特徴生成部、12・・・特徴選択部、13・・・機械学習部、131・・・分類パラメータ選択部。
特開2008−71283号公報(段落0006)

Claims (5)

  1. コンピュータにより、カテゴリラベル付き学習データから、分類パラメータを生成する方法であって、
    カテゴリラベル付き学習データから特徴を抽出するステップと、
    その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得するステップと、
    その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出するステップと、
    その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとするステップと
    を有することを特徴とする分類パラメータ生成方法。
  2. 請求項1に記載された分類パラメータ生成方法において、
    前記所定の閾値は、カテゴリCi毎の学習データから計算された2つの閾値Thresh(i)+,Thresh(i)-であり、前記分類パラメータとするステップは、前記重みがThresh(i)+より大きいか、またはThresh(i)-より小さい分類パラメータ候補を分類パラメータとすることを特徴とする分類パラメータ生成方法。
  3. 請求項2に記載された分類パラメータ生成方法において、
    前記Thresh(i)+,Thresh(i)- を下記の式により計算することを特徴とする分類パラメータ生成方法。
    Thresh(i)+ = log((((N-N(i))+V)/(N(i)+V))*(N(i)/M(i)+1))
    Thresh(i)- = log((((N-N(i))+V)/(N(i)+V))/((N-N(i))/(M-M(i))+1))
    ただし、
    N:各学習データ内の重複もカウントした全学習データに含まれる特徴数
    N(i):各学習データ内の重複もカウントしたカテゴリCiに属する特徴数
    V:全学習データに含まれる特徴の種類数
    M:各学習データ内の重複を無視し、各学習データ間の重複をカウントした全学習データに含まれる重複もカウントした特徴数
    M(i):各学習データ内の重複を無視し、各学習データ間の重複をカウントしたカテゴリCiに属する特徴数
  4. カテゴリラベル付き学習データから特徴を抽出する手段と、
    その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得する手段と、
    その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出する手段と、
    その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとする手段と
    を有することを特徴とする分類パラメータ生成装置。
  5. コンピュータに、請求項1〜3のいずれかに記載された分類パラメータ生成方法の各ステップを実行させるためのプログラム。
JP2009136521A 2009-06-05 2009-06-05 分類パラメータ生成装置、生成方法及び生成プログラム Expired - Fee Related JP5305241B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009136521A JP5305241B2 (ja) 2009-06-05 2009-06-05 分類パラメータ生成装置、生成方法及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009136521A JP5305241B2 (ja) 2009-06-05 2009-06-05 分類パラメータ生成装置、生成方法及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2010282502A JP2010282502A (ja) 2010-12-16
JP5305241B2 true JP5305241B2 (ja) 2013-10-02

Family

ID=43539161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009136521A Expired - Fee Related JP5305241B2 (ja) 2009-06-05 2009-06-05 分類パラメータ生成装置、生成方法及び生成プログラム

Country Status (1)

Country Link
JP (1) JP5305241B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
JP2008071283A (ja) * 2006-09-15 2008-03-27 Ricoh Co Ltd テキスト分類方法、およびテキスト分類システム
JP5075566B2 (ja) * 2007-10-15 2012-11-21 株式会社東芝 文書分類装置およびプログラム

Also Published As

Publication number Publication date
JP2010282502A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
Chakraborty et al. Towards a stratified learning approach to predict future citation counts
JP6398510B2 (ja) 実体のリンク付け方法及び実体のリンク付け装置
Cho et al. Reweighted random walks for graph matching
CN105488077B (zh) 生成内容标签的方法和装置
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
CN111125495A (zh) 一种信息推荐方法、设备及存储介质
CN109948125B (zh) 改进的Simhash算法在文本去重中的方法及***
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
JP5503633B2 (ja) トピックモデル学習方法、装置、及びプログラム
CN108170467B (zh) 约束限定聚类和信息度量软件胎记特征选择方法、计算机
CN108133224B (zh) 用于评估分类任务复杂度的方法
JP6468364B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Guo et al. Snoc: streaming network node classification
JP6531025B2 (ja) 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム
JP5305241B2 (ja) 分類パラメータ生成装置、生成方法及び生成プログラム
JP5331723B2 (ja) 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
JP5764094B2 (ja) 画像検索装置、画像検索方法、及び画像検索プログラム
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
JP5345918B2 (ja) 文書検索方法、文書検索装置、文書検索プログラム
Siddikk et al. FakeTouch: machine learning based framework for detecting fake news
JP5206196B2 (ja) 規則学習方法、プログラム及び装置
Watanabe et al. A statistical associative classifier with automatic estimation of parameters on computer aided diagnosis
Gomes et al. Pairwise combination of classifiers for ensemble learning on data streams
Zhu et al. Inferring users’ gender from interests: A tag embedding approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130603

R151 Written notification of patent or utility model registration

Ref document number: 5305241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130801

LAPS Cancellation because of no payment of annual fees