JP5305241B2 - 分類パラメータ生成装置、生成方法及び生成プログラム - Google Patents
分類パラメータ生成装置、生成方法及び生成プログラム Download PDFInfo
- Publication number
- JP5305241B2 JP5305241B2 JP2009136521A JP2009136521A JP5305241B2 JP 5305241 B2 JP5305241 B2 JP 5305241B2 JP 2009136521 A JP2009136521 A JP 2009136521A JP 2009136521 A JP2009136521 A JP 2009136521A JP 5305241 B2 JP5305241 B2 JP 5305241B2
- Authority
- JP
- Japan
- Prior art keywords
- classification parameter
- classification
- learning data
- category
- thresh
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の分類パラメータ生成装置は、カテゴリラベル付き学習データから特徴を抽出する手段と、その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得する手段と、その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出する手段と、その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとする手段とを有することを特徴とする分類パラメータ生成装置である。
本発明の分類パラメータ生成プログラムは、コンピュータに、本発明の分類パラメータ生成方法の各ステップを実行させるためのプログラムである。
本発明によれば、カテゴリ毎の分類パラメータ候補の内、Multinomial Bayesの重みの計算式を基に算出した重みが所定の閾値を超える分類パラメータ候補とその重みの組を分類パラメータとする。換言すれば、重みが所定の閾値以下の分類パラメータ候補及びその重みの組を分類に寄与しない無効な分類パラメータであると判断して除去する。
〈分類パラメータ生成装置のブロック図〉
図1は、本発明の実施形態の分類パラメータ生成装置のブロック図である。この分類パラメータ生成装置1は入出力装置2に接続されており、入出力装置2を介して外部から入力される学習テキストから分類パラメータを生成し、入出力装置2を介して外部へ出力する。
以上説明した分類パラメータ選択部131の処理の詳細について、図2及び図3のフローチャートを参照しながら説明する。
まず入力されたカテゴリ毎(カテゴリ数nは2以上の整数)の分類パラメータ候補群に対し、i=1に設定し(ステップS31)、2つの閾値Thresh(i)+,Thresh(i)-を計算する(ステップS31)。
“『Improving Multi-class Text Classification with Naive Bayes』Jason D.M.Rennie,AI Technical Report 2001-004,September 2001,MIT-artificial intelligence laboratory”(以下、非特許文献1)によると、Multinomial BayesにおけるカテゴリCiの分類パラメータ候補Cand(i,j)の重みθijの計算式は下記の式[1]である。
log(((N(i,j)+1)/(N(i)+V)))/(((~N(i,j))+1)/((ΣiN(i)-N(i))+V)) …式[1]
N(i):各学習データ内の重複もカウントしたカテゴリCiに属する特徴数
N(i,j):各学習データ内の重複もカウントしたカテゴリCiにおける分類パラメータ候補Cand(i,j)の出現数(count (Cand(i,j)))
V: 全学習データに含まれる特徴の種類数
M:各学習データ内の重複を無視し、各学習データ間の重複をカウントした全学習データに含まれる重複もカウントした特徴数
M(i):各学習データ内の重複を無視し、各学習データ間の重複をカウントしたカテゴリCiに属する特徴数
~N(i,j):Σicount (cand(i,j))-N(i,j)
である。
(((ΣiN(i)-N(i))+V))/(N(i)+V))×((N(i,j)+1)/(~N(i,j)+1)) …式[2]
((N(i,j)+1)/(~N(i,j)+1)) …式[3]
N(i,j)+1 …式[4]
N(i)/M(i)+1 …式[5]
log((((N-N(i))+V)/(N(i)+V))*(N(i)/M(i)+1)) …式[6]
式[3]において、分類パラメータ候補CandjがカテゴリCi以外だけに存在すると仮定すると、「(N(i,j)=0」になるから、式[3]は下記の式[4’]となる。
1/(~N(i,j)+1) …式[4’]
(N-N(i))/(M-M(i))…式[5’]
Thresh(i)- = log((((N-N(i))+V)/(N(i)+V))/((N-N(i))/(M-M(i))+1)) …式[6’]
ロイター(Reuters)の記事でコットン(cotton)のカテゴリ(以下、カテゴリCA)に属するテキストと、カテゴリCAに属さない(カテゴリCA以外のあるカテゴリCBに属する)テキストについて、Thresh(i)+、およびThresh(i)-を計算するとともに、分類パラメータセ生成の様子を説明する。なお、ここではカテゴリCBはwpi(wholesale price index:卸売物価指数)である。
uary,N(A,uary)=5,~N(A,uary)=78
pct,N(A,pct)=21,~N(A,pct)=96
ry,N(A,ry)=15,~N(A,ry)=84
ot,N(A,ot)=91,~N(A,ot)=0
ar,N(A,ar)=117,~N(A,ar)=171
ct,N(A,ct)=51,~N(A,ct)=109
ro,N(A,ro)=85,~N(A,ro)=0
ton,N(A,ton)=82,~N(A,ton)=0
ice,N(A,ice)=14,~N(A,ice)=63
January,N(A, January)=2,~N(A, January)=42
tt,N(A,tt)=77,~N(A,tt)=0
N(A)=12442
N(B)=6667
V=1374
M(A)=4859
uary, N(B,uary)=78,~N(B,uary)=5
pct, N(B,pct)=96, ~N(B,pct)=21
N(B)=6667
N(A)=12442
M(B)=2407
V=1374
Thresh(A)+= 0.728658
Thresh(A)-= -1.868306
uary,-3.237930
pct,-2.081069
ry,-2.275491
ot,4.629907
*ar,-0.957724
*ct,-1.333922
ro,4.562085
ton,4.526366
ice,-2.056470
January,-3.412792
tt,4.463846
Thresh(B)+= 1.868306
Thresh(B)-= -0.728658
uary,3.237930
pct,2.081069
となる。
log(((N(i,j)+1/2)/(N(i)+V/2)))/(((~N(i,j))+1/2)/((ΣiN(i)-N(i))+V/2)) …式[1’]
図4に示す従来の方法と、本実施形態とにより、94年度の毎日新聞のある記事を各種カテゴリ(演劇,スポーツ,農業,・・・)に分類したところ、従来方法では分類パラメータ数3988、F値0.725であったのに対し、本実施形態では分類パラメータ数3472、F値0.735となり、本実施形態の方が少ない分類パラメータ数で高い分類精度を達成した。
(1)分類パラメータ候補群に対して、Multinomial Bayesによる機械学習アルゴリズムに基づいて重みを計算しつつ、計算した重みから分類パラメータとして有効かどうか判断し、無効と判断される分類パラメータ候補を除去するので、出来るだけ少ない分類パラメータで良好な分類精度を実現することが出来る。
(2)Multinomial Bayesでは、重みの計算式(式[1])が予め分かっているので、SVM、Log Linear Modelなどの機械学習アルゴリズムよりも学習速度が速い。
(3)ベイズの仮定(特徴が互いに独立して各カテゴリのテキストに出現する)が成立する限り、他の機械学習アルゴリズムより分類精度が高くなる。
Claims (5)
- コンピュータにより、カテゴリラベル付き学習データから、分類パラメータを生成する方法であって、
カテゴリラベル付き学習データから特徴を抽出するステップと、
その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得するステップと、
その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出するステップと、
その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとするステップと
を有することを特徴とする分類パラメータ生成方法。 - 請求項1に記載された分類パラメータ生成方法において、
前記所定の閾値は、カテゴリCi毎の学習データから計算された2つの閾値Thresh(i)+,Thresh(i)-であり、前記分類パラメータとするステップは、前記重みがThresh(i)+より大きいか、またはThresh(i)-より小さい分類パラメータ候補を分類パラメータとすることを特徴とする分類パラメータ生成方法。 - 請求項2に記載された分類パラメータ生成方法において、
前記Thresh(i)+,Thresh(i)- を下記の式により計算することを特徴とする分類パラメータ生成方法。
Thresh(i)+ = log((((N-N(i))+V)/(N(i)+V))*(N(i)/M(i)+1))
Thresh(i)- = log((((N-N(i))+V)/(N(i)+V))/((N-N(i))/(M-M(i))+1))
ただし、
N:各学習データ内の重複もカウントした全学習データに含まれる特徴数
N(i):各学習データ内の重複もカウントしたカテゴリCiに属する特徴数
V:全学習データに含まれる特徴の種類数
M:各学習データ内の重複を無視し、各学習データ間の重複をカウントした全学習データに含まれる重複もカウントした特徴数
M(i):各学習データ内の重複を無視し、各学習データ間の重複をカウントしたカテゴリCiに属する特徴数 - カテゴリラベル付き学習データから特徴を抽出する手段と、
その抽出された特徴を所定の条件に基づいて選択してカテゴリ毎の分類パラメータ候補を取得する手段と、
その分類パラメータ候補に対して、Multinomial Bayesの重みの計算式を基に重みを算出する手段と、
その算出した重みが所定の閾値を超える分類パラメータ候補及びその重みの組を分類パラメータとする手段と
を有することを特徴とする分類パラメータ生成装置。 - コンピュータに、請求項1〜3のいずれかに記載された分類パラメータ生成方法の各ステップを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009136521A JP5305241B2 (ja) | 2009-06-05 | 2009-06-05 | 分類パラメータ生成装置、生成方法及び生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009136521A JP5305241B2 (ja) | 2009-06-05 | 2009-06-05 | 分類パラメータ生成装置、生成方法及び生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010282502A JP2010282502A (ja) | 2010-12-16 |
JP5305241B2 true JP5305241B2 (ja) | 2013-10-02 |
Family
ID=43539161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009136521A Expired - Fee Related JP5305241B2 (ja) | 2009-06-05 | 2009-06-05 | 分類パラメータ生成装置、生成方法及び生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5305241B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
JP4349875B2 (ja) * | 2003-09-19 | 2009-10-21 | 株式会社リコー | 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム |
JP2008071283A (ja) * | 2006-09-15 | 2008-03-27 | Ricoh Co Ltd | テキスト分類方法、およびテキスト分類システム |
JP5075566B2 (ja) * | 2007-10-15 | 2012-11-21 | 株式会社東芝 | 文書分類装置およびプログラム |
-
2009
- 2009-06-05 JP JP2009136521A patent/JP5305241B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010282502A (ja) | 2010-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chakraborty et al. | Towards a stratified learning approach to predict future citation counts | |
JP6398510B2 (ja) | 実体のリンク付け方法及び実体のリンク付け装置 | |
Cho et al. | Reweighted random walks for graph matching | |
CN105488077B (zh) | 生成内容标签的方法和装置 | |
WO2016180270A1 (zh) | 网页分类方法和装置、计算设备以及机器可读存储介质 | |
CN111125495A (zh) | 一种信息推荐方法、设备及存储介质 | |
CN109948125B (zh) | 改进的Simhash算法在文本去重中的方法及*** | |
JP5012078B2 (ja) | カテゴリ作成方法、カテゴリ作成装置、およびプログラム | |
JP5503633B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
CN108170467B (zh) | 约束限定聚类和信息度量软件胎记特征选择方法、计算机 | |
CN108133224B (zh) | 用于评估分类任务复杂度的方法 | |
JP6468364B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
Guo et al. | Snoc: streaming network node classification | |
JP6531025B2 (ja) | 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム | |
JP5305241B2 (ja) | 分類パラメータ生成装置、生成方法及び生成プログラム | |
JP5331723B2 (ja) | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム | |
JP6004014B2 (ja) | 学習方法、情報変換装置および学習プログラム | |
JP5764094B2 (ja) | 画像検索装置、画像検索方法、及び画像検索プログラム | |
CN112836491B (zh) | 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 | |
JP5345918B2 (ja) | 文書検索方法、文書検索装置、文書検索プログラム | |
Siddikk et al. | FakeTouch: machine learning based framework for detecting fake news | |
JP5206196B2 (ja) | 規則学習方法、プログラム及び装置 | |
Watanabe et al. | A statistical associative classifier with automatic estimation of parameters on computer aided diagnosis | |
Gomes et al. | Pairwise combination of classifiers for ensemble learning on data streams | |
Zhu et al. | Inferring users’ gender from interests: A tag embedding approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130603 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5305241 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130801 |
|
LAPS | Cancellation because of no payment of annual fees |