JP2009301433A - カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2009301433A
JP2009301433A JP2008157104A JP2008157104A JP2009301433A JP 2009301433 A JP2009301433 A JP 2009301433A JP 2008157104 A JP2008157104 A JP 2008157104A JP 2008157104 A JP2008157104 A JP 2008157104A JP 2009301433 A JP2009301433 A JP 2009301433A
Authority
JP
Japan
Prior art keywords
category
word
text
relevance
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008157104A
Other languages
English (en)
Other versions
JP4918067B2 (ja
Inventor
Katsuto Bessho
克人 別所
Toshiro Uchiyama
俊郎 内山
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008157104A priority Critical patent/JP4918067B2/ja
Publication of JP2009301433A publication Critical patent/JP2009301433A/ja
Application granted granted Critical
Publication of JP4918067B2 publication Critical patent/JP4918067B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 テキストを所定のカテゴリ集合の内のいずれかのカテゴリに分類するタスクの精度を向上させる。
【解決手段】 カテゴリ毎に該カテゴリに該当するテキストの集合が対応付けられているカテゴリの集合が入力されると、任意の単語Aに対し、任意のカテゴリにおける任意のテキストと該単語Aとのテキスト・単語間関連度を、該テキスト中の単語と該単語Aとの間の単語間関連度データベース中の単語間関連度をもとに算出し、該カテゴリと該単語Aとのカテゴリ・単語間関連度を該テキスト・単語間関連度をもとに算出し、任意のカテゴリに対し、前記カテゴリ・単語間関連度記憶手段から取得した該カテゴリについてのカテゴリ・単語間関連度から、他のカテゴリについてのカテゴリ・単語間関連度を引いた差が大きい単語を、該カテゴリの代表単語と認定する。
【選択図】 図1

Description

本発明は、カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、テキストを所定のカテゴリ集合の内のいずれかのカテゴリに分類するためのカテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
テキストを所定のカテゴリ集合の内のいずれかのカテゴリに分類するテキスト分類の技術として、以下のような方法がある。
まず、単語間の関連度を算出する。当該単語間関連度算出は以下のようにして行う。
単語に意味属性が付随した辞書を用いて、コーパス中の単語・意味属性間の共起頻度を算出し、単語・意味属性間共起行列を作成する。該行列の各行ベクトルは、対応する単語の、意味属性と共起するパターンを表している。意味の似た単語は、共通の意味属性と共起する傾向があるので、対応するパターンも似る傾向がある。
単語間関連度を、対応するベクトル間のコサインに基づき算出する。単語・意味属性間共起行列を、特異値分解により列数の縮退した行列に変換し、単語間関連度を、変換後の対応するベクトルの間のコサインに基づき算出してもよい。
単語間関連度算出の別の方法として、単語・意味属性間共起行列の各行ベクトルに対し、各成分値を、全成分値の和に対する相対値に変換する。単語Bに対し、任意の単語Cとのカルバック・ライブラ距離を算出し、該距離の昇順に単語Cをランキングし、該ランキングにおける順位により、単語Bと単語Cとの関連度を算出する。
単語間関連度を、上述のコサインに基づく関連度と、カルバック・ライブラ距離に基づく関連度との線形結合として算出してもよい。
算出した単語間関連度をもとに、以下のようにテキスト分類を行う。
各カテゴリに対し、「テレビ番組 OR ラジオ番組」のような、そのカテゴリを表す文字列のOR結合を対応付けておく。次に、任意の単語と、OR結合された一文字列との関連度を、該単語と、該文字列中の単語との関連度をもとに算出しておく。
被分類テキストが入力されると、当該テキストと一カテゴリとの関連度を以下のようにして算出する。該テキストと、該カテゴリのOR結合された一文字列との関連度を、該テキスト中の単語と、該文字列との関連度をもとに算出する。該テキストと、該カテゴリのOR結合された一文字列との関連度の最大値を、該テキストと該カテゴリとの関連度として算出する。関連度の高い順にカテゴリをランキングし、上位にランクされたカテゴリを分類結果とする(例えば、非特許文献1参照)。
別所克人、内山俊郎、片岡良治:単語間の階層関係に基づくテキスト分類方式、信学技報、Vol. PRMU2007-15, pp. 79-84, May. 2007.
上記従来技術においては、各カテゴリに対し、該カテゴリを表す文字列のOR結合を人手で作成している。
このため、この文字列のOR結合が、該カテゴリの内容の全てをカバーしていない場合がある。この場合、この文字列のOR結合がカバーしていない該カテゴリの内容のテキストに対し、該カテゴリとの関連度が別のカテゴリとの関連度より低くなり、別カテゴリが分類結果となる問題がある。
また、この文字列のOR結合が、別カテゴリの内容も表している場合がある。この場合、該別カテゴリの内容のテキストに対し、該カテゴリとの関連度が、該別カテゴリとの関連度より高くなり、該カテゴリが分類結果となる問題がある。
このように、人手で作成した文字列のOR結合が、対応するカテゴリの内容を適確に表し、かつ、他のカテゴリと差異化できるようなものになっていないため、分類精度に問題がある。
本発明は、上記の点に鑑みなされたもので、テキストを所定のカテゴリ集合の内のいずれかのカテゴリに分類するタスクの精度を向上させるためのカテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、テキストを、所定のカテゴリ集合の内のいずれかのカテゴリに分類するためのカテゴリ関連度算出装置であって、
単語間関連度を格納した単語間関連度データベース40と、
カテゴリ毎に該カテゴリに該当するテキストの集合が対応付けられているカテゴリの集合が入力されると、任意の単語Aに対し、任意のカテゴリにおける任意のテキストと該単語Aとのテキスト・単語間関連度を、該テキスト中の単語と該単語Aとの間の単語間関連度データベース40中の単語間関連度をもとに算出し、該カテゴリと該単語Aとのカテゴリ・単語間関連度を該テキスト・単語間関連度をもとに算出し、カテゴリ・単語間関連度記憶手段50に格納するカテゴリ・単語間関連度算出手段10と、
任意のカテゴリに対し、カテゴリ・単語間関連度記憶手段50から取得した該カテゴリについてのカテゴリ・単語間関連度から、他のカテゴリについてのカテゴリ・単語間関連度を引いた差が大きい単語を、該カテゴリの代表単語と認定し、代表単語記憶手段60に格納する代表単語認定手段20と、を有する。
また、本発明(請求項2)は、任意のテキストを入力とし、各カテゴリに対し、該テキスト中の単語と、代表単語記憶手段60から取得した該カテゴリの代表単語との間の単語間関連度データベース40中の単語間関連度をもとに、該テキストと該カテゴリとのテキスト・カテゴリ間関連度を算出し、テキスト・カテゴリ間関連度記憶手段70に格納するテキスト・カテゴリ間関連度算出手段30を更に有する。
図2は、本発明の原理を説明するための図である。
本発明(請求項3)は、テキストを、所定のカテゴリ集合の内のいずれかのカテゴリに分類するためのカテゴリ関連度算出方法であって、
カテゴリ・単語間関連度算出手段が、カテゴリ毎に該カテゴリに該当するテキストの集合が対応付けられているカテゴリの集合が入力される(ステップ1)と、任意の単語Aに対し、任意のカテゴリにおける任意のテキストと該単語Aとのテキスト・単語間関連度を、該テキスト中の単語と該単語Aとの間の単語間関連度データベース中の単語間関連度をもとに算出し(ステップ2)、該カテゴリと該単語Aとのカテゴリ・単語間関連度を該テキスト・単語間関連度をもとに算出し、カテゴリ・単語間関連度記憶手段に格納する(ステップ3)カテゴリ・単語間関連度算出ステップと、
代表単語認定手段が、任意のカテゴリに対し、カテゴリ・単語間関連度記憶手段から取得した該カテゴリについてのカテゴリ・単語間関連度から、他のカテゴリについてのカテゴリ・単語間関連度を引いた差が大きい単語を、該カテゴリの代表単語と認定し、代表単語記憶手段に格納する代表単語認定ステップ(ステップ4)と、を行う。
また、本発明(請求項4)は、テキスト・カテゴリ間関連度算出手段が、任意のテキストを入力とし、各カテゴリに対し、該テキスト中の単語と、代表単語記憶手段から取得した該カテゴリの代表単語との間の単語間関連度データベース中の単語間関連度をもとに、該テキストと該カテゴリとのテキスト・カテゴリ間関連度を算出するテキスト・カテゴリ間関連度算出ステップを更に行う。
本発明(請求項5)は、請求項1または2のいずれか1項に記載のカテゴリ関連度算出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ関連度算出プログラムである。
本発明(請求項6)は、請求項5記載のカテゴリ関連度算出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
請求項1記載の装置の入力となるカテゴリ集合の各カテゴリに対応付けられたテキスト集合の各テキストを、該カテゴリの正例テキストと呼ぶ。
各カテゴリに対し、カテゴリ・単語間関連度算出手段と代表単語認定手段とで認定された代表単語は、該カテゴリの正例テキストに対し関連度が高く、別カテゴリの正例テキストに対し関連度が低い。
そこで、任意のカテゴリに対し、該カテゴリに該当するテキストが、テキスト・カテゴリ間関連度算出手段に入力されたとき、該カテゴリの代表単語との関連度は高くなり、別カテゴリの代表単語との関連度は低くなるため、該カテゴリが分類結果となる。
このように、各カテゴリに対し、該カテゴリの内容を的確に表し、かつ、他のカテゴリと差異化できる最適な代表単語が選択されているため、分類精度が向上する。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態におけるカテゴリ関連度算出装置の構成を示す。
同図に示すカテゴリ関連度算出装置は、カテゴリ・単語間関連度算出部10、代表単語認定部20、テキスト・カテゴリ間関連度算出部30、単語間関連度データベース40、カテゴリ・単語間関連度記憶部50、代表単語記憶部60、テキスト・カテゴリ間関連度記憶部70から構成される。
図4は、本発明の第1の実施の形態における単語間関連度データベース40の例を示す。同図に示す単語間関連度データベース40内の{V,…,V},{Y,…,Y}は、それぞれ、名詞、動詞、形容詞等の、本発明の処理に必要な必要語の異なりの集合である。用言は終止形とする。{Y,…,Y}は、高頻度語の集合に限定してあってもよい。任意の単語V,Y間の成分に、V,Y間の関連度E(V,Y)が格納されている。この単語間関連度は、例えば、背景技術で述べたような手順により生成される。
次に、上記の構成における動作を説明する。
<カテゴリ・単語間関連度算出部10>
まず、カテゴリ・単語間関連度算出部10の処理について説明する。
図5は、本発明の第1の実施の形態におけるカテゴリ・単語間関連度算出部10の処理のフローチャートである。
(1≦p≦h)を、入力となるカテゴリの集合とする。各Cに対応付けられたテキスト集合をKpu(1≦u≦s)とし、各Kpuを、Cの正例テキストと呼ぶ。
ステップ501) カテゴリ・単語間関連度算出部10は、各Cの正例テキストKpuを形態素解析し、Kpuを以下のような必要語の終止形の異なりXpugと、XpugのKpu内での出現頻度TFpugの組の集合で表す。
Kpu;Xpug:TFpug(1≦g≦tpu
上記で、TFpugの代わりに、以下の式で表されるXpugのTFIDFpugを用いて、以降の処理を行ってもよい。
Figure 2009301433
ここで、DNは、あるコーパスにおける文書数であり、ONpugは、Xpugの該コーパスにおける出現文書数である。TFIDFpugが存在しない場合は、TFIDFpug=0とする。
ステップ502) 次に、単語間関連度データベース40中の各列に対応する単語の集合の中から、処理対象の単語Yを決定する。処理対象の単語Yiがあれば、ステップ503に移行し、なければ、図5のフローチャートの処理を終了する。
ステップ503) 処理対象のカテゴリCを決定する。処理対象のカテゴリCがあれば、ステップ504に移行し、なければ、ステップ502に移行する。
ステップ504) Cの正例テキストの中から、処理対象のテキストKpuを決定する。処理対象のテキストKpuがあれば、ステップ505に移行し、なければステップ506に移行する。
ステップ505) KpuとYの関連度E(Kpu,Y)を以下の式により算出する。以下の式で、E(Xpug,Y)は、単語間関連度データベース40から取得したものである。
Figure 2009301433
また、E(Kpu,Y)を以下の式により算出してもよい。
Figure 2009301433
ステップ506) CとYの関連度E(C,Y)を、以下の式により算出する。ここで、sは、Cの正例テキストの個数である。このように、E(C,Y)は、E(Kpu,Y)の平均として算出する。
Figure 2009301433
ステップ506の処理が終了した後、ステップ503に移行する。
図5のフローチャートの処理が終了した後、任意のYに対し、各CとE(C,Y)の組の集合を出力結果として、カテゴリ・単語間関連度記憶部50に出力する。
<代表単語認定部20>
次に、代表単語認定部20の処理について説明する。
図6は、本発明の第1の実施の形態における代表単語認定部20の処理のフローチャートである。
ステップ601) 単語間関連度データベース40中の各列に対応する単語の集合の中から、処理対象の単語Yを決定する。処理対象の単語Yがあれば、ステップ602に移行し、なければ、当該図6のフローチャートの処理を終了する。
ステップ602) カテゴリ・単語間関連度記憶部50から各CとE(C,Y)の組の集合を読み込み、E(C,Y)の降順にソートし、その結果、
Figure 2009301433
となったとする。
ステップ602に初めて入った場合は、任意のカテゴリCに対し、Cの代表単語候補
Figure 2009301433
としてYをとり、他のカテゴリとの関連度の差の最小値Hとして、E(C,Y)から、C以外のカテゴリとYとの関連度の最大値E(C,Y)を引いた値E(C,Y)−E(C,Y)をとる。
当該ステップ602に2番目以降に入った場合は、任意のカテゴリCに対し、
Figure 2009301433
があり、E(C,Y)から、C以外のカテゴリとYとの関連度の最大値E(C,Y)を引いた値E(C,Y)−E(C,Y)について、E(C,Y)−E(C,Y)>Hならば、
Figure 2009301433
を(Y,E(C,Y)−E(C,Y))で置き換える。
ここで、q=fならばr=fであり、E(E,Y)−E(C,Y)≧0となる。q≠fならばr=fであり、E(E,Y)−E(C,Y)≦0となる。
当該ステップ602の処理が終了した後、ステップ601に移行する。
上記の図6のフローチャートの処理が終了した時点で、各カテゴリCに対し、Hが最も大きくなる
Figure 2009301433
が定まる。
Figure 2009301433
は、C以外のカテゴリと最も差異化できる単語である。
Figure 2009301433
をCの代表単語とし、代表単語記憶部60に格納する。
また、本実施の形態の別の方法として、上記のカテゴリ・単語間関連度算出部10と代表単語認定部20の処理を図7のフローチャートに示す処理で実現してもよい。
図7のステップ701〜706は、それぞれ、図5に示すステップ501〜ステップ506と同一の処理である。また、ステップ707は、図6に示すステップ602と同一の処理である。ステップ701〜706は、カテゴリ・単語間関連度算出部10の処理に該当し、また、ステップ702,707は、代表単語認定部20の処理に該当する。
<テキスト・カテゴリ間関連度算出部30>
次に、テキスト・カテゴリ間関連度算出部30の処理について説明する。
図8は、本発明の第1の実施の形態におけるテキスト・カテゴリ間関連度算出部30の処理のフローチャートである。
ステップ801) テキストLが入力されると、当該テキストLを形態素解析し、Lを以下のような必要語の終止形の異なり
Figure 2009301433
と、
Figure 2009301433
のL内での出現頻度
Figure 2009301433
の組の集合で表す。
Figure 2009301433
上記で、
Figure 2009301433
の代わりに、以下の式で表される
Figure 2009301433
Figure 2009301433
を用いて、以降の処理を行ってもよい。
Figure 2009301433
ここで、DNは、あるコーパスにおける文書数であり、
Figure 2009301433
は、
Figure 2009301433
の該コーパスにおける出現文書数である。
Figure 2009301433
が存在しない場合は、
Figure 2009301433
とする。
ステップ802) 代表単語記憶部60から代表単語を読み込む。Lと各カテゴリCとの関連度E(L,C)を、以下の式のように、LとCの代表単語
Figure 2009301433
との関連度
Figure 2009301433
として算出する。以下の式で、
Figure 2009301433
は、単語間関連度データベース40から取得したものである。
Figure 2009301433
また、E(L,Cq)を以下の式により算出してもよい。
Figure 2009301433
カテゴリCの代表単語を
Figure 2009301433
としたとき、
Figure 2009301433
は大きく、従って、Cの正例テキストKpuに対する
Figure 2009301433
も大きい。一方、別カテゴリCp'(p'≠p)の代表単語を
Figure 2009301433
としたとき、
Figure 2009301433
は小さく、従って、Cの正例テキストKpuに対する
Figure 2009301433
も小さい。
そこで、入力テキストLがカテゴリCに該当するならば、Cとの関連度
Figure 2009301433
は大きくなり、別カテゴリCp'(p'≠p)との関連度
Figure 2009301433
は小さくなる。
カテゴリCを(L,C)の大きい順にランキングし、上位にランクされたカテゴリを分類結果とし、テキスト・カテゴリ間関連度記憶部70に格納する。このようにして、入力テキストLがカテゴリCに該当するならば、Cが分類結果となる。
[第2の実施の形態]
上記の第1の実施の形態以外に、以下のように構成することも可能である。
図9は、本発明の第2の実施の形態におけるカテゴリ関連度算出装置の構成を示す。
本実施の形態では、大カテゴリの集合D(1≦b≦e)が入力される。一つの大カテゴリDはいくつかのカテゴリCの集合とする。カテゴリCには、正例テキスト集合Kpu(1≦u≦s)が対応付けられているものとする。
このような大カテゴリ及びカテゴリの構成を、全て人手で作成する場合もある。また、各大カテゴリにその正例テキスト集合が対応付けられており、各大カテゴリ毎に、その正例テキスト集合をクラスタリングし、得られた各クラスタを、該大カテゴリに属するカテゴリとする場合もある。このクラスタリングの方法の一つとして、背景技術で述べた単語ベクトル(共起行列またはその特異値分解後の行列における、行ベクトルのこと)を用い、各正例テキストのベクトルを、該テキスト中の単語のベクトルの重心として算出し、正例テキストのベクトルの集合をクラスタリングするという方法があげられる。
入力テキストをこのような大カテゴリ集合の内のいずれかの大カテゴリに分類するためのカテゴリ関連度算出装置を以下のように構成する。
各大カテゴリに属するカテゴリの集合の和集合を{C;≦p≦h}として、前述の第1の実施の形態における図5及び図6、または、図7の処理を行う。但し、ステップ602、ステップ707の処理を以下のようにすることもできる。
ステップ602(または、ステップ707)において、各CとE(C,Y)の組の集合を、E(C,Y)の降順にソートし、その結果、
Figure 2009301433
となったとする。
ステップ602(またはステップ707)の処理に初めて入った場合は、任意のカテゴリCに対し、Cの代表単語候補
Figure 2009301433
としてYをとり、他のカテゴリとの関連度の差の最小値Hとして、E(C,Y)から、Cの属する大カテゴリ以外の大カテゴリに属するカテゴリとYとの関連度の最大値E(C,Y)を引いた値E(C,Y)−E(C,Y)をとる。
ステップ602(またはステップ707)の処理に2番目以降に入った場合は、任意のカテゴリCに対し、
Figure 2009301433
があり、E(C,Y)から、Cの属する大カテゴリ以外の大カテゴリに属するカテゴリとYとの関連度の最大値E(C,Y)を引いた値E(C,Y)−E(C,Y)について、E(C,Y)−E(C,Y)>Hならば、
Figure 2009301433
を、(Y,E(C,Y)−E(C,Y))で置き換える。
これは、同じ大カテゴリに属しているカテゴリとの差異を考慮しないやり方である。考慮するやり方では、同じ大カテゴリに属している二つのカテゴリの内容が近くても、互いに差異化を図ることにより、内容に即した共通の単語が代表単語から排除され、内容から遠い単語が代表単語とされてしまう状況が生じる。考慮しないやり方により、こうした状況が回避され、内容に則した単語が代表単語として認定される。
図6または図7のフローチャートの処理が終了した時点で、各カテゴリCに対し、Hが最も大きくなる
Figure 2009301433
が定まる。
Figure 2009301433
をCの代表単語とする。大カテゴリDに対し、Dに属するCの代表単語
Figure 2009301433
の異なりの集合
Figure 2009301433
をとり、Dの代表単語集合とする。Dをその代表単語のOR結合
Figure 2009301433
として表す。
テキスト・カテゴリ間関連度算出部30における処理は、以下のように行う。
図10は、本発明の第2の実施の形態におけるテキスト・カテゴリ間関連度算出部30の処理のフローチャートである。
ステップ1001) 図8におけるステップ801と同一の処理である。
ステップ1002) 入力テキストLと各大カテゴリDとの関連度E(L,D)を、以下の式のように、LとDの各代表単語
Figure 2009301433
との関連度
Figure 2009301433
の最大値として算出する。以下の式で、
Figure 2009301433
は、単語間関連度データベース40から取得したものである。
Figure 2009301433
また、E(L,D)を、以下の式により算出してもよい。
Figure 2009301433
大カテゴリDに属するカテゴリCの代表単語を
Figure 2009301433
としたとき、
Figure 2009301433
は大きく、従って、Cの正例テキストKpuに対する
Figure 2009301433
も大きい。一方、別大カテゴリに属するカテゴリCp'(p'≠p)の代表単語を
Figure 2009301433
としたとき、
Figure 2009301433
は小さく、従って、Cの正例テキストKpuに対する
Figure 2009301433
も小さい。
そこで、入力テキストLがカテゴリCに該当するならば、
Figure 2009301433
は大きくなり、Dとの関連度E(L,D)も大きくなる。別大カテゴリに属する任意のカテゴリCp'(p'≠p)に対し、
Figure 2009301433
は小さくなり、該別大カテゴリとの関連度も小さくなる。
大カテゴリDをE(L,D)の大きい順にランキングし、上位にランクされた大カテゴリを分類結果とし、テキスト・カテゴリ間関連度記憶部70に格納する。
このようにして入力テキストLがカテゴリCに該当するならば、Dが分類結果となる。
なお、上記の図3、図9に示すカテゴリ関連度算出装置の構成要素の動作をプログラムとして構築し、カテゴリ関連度算出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、言語処理技術に適用可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の第1の実施の形態におけるカテゴリ関連度算出装置の構成図である。 本発明の第1の実施の形態における単語間関連度データベースの例である。 本発明の第1の実施の形態におけるカテゴリ・単語間関連度算出部の処理のフローチャートである。 本発明の第1の実施の形態における代表単語認定部の処理のフローチャートである。 本発明の第1の実施の形態におけるカテゴリ・単語間関連度算出部と代表単語認定部の処理のフローチャートである。 本発明の第1の実施の形態におけるテキスト・カテゴリ間関連度算出部の処理のフローチャートである。 本発明の第2の実施の形態におけるカテゴリ関連度算出装置の構成図である。 本発明の第2の実施の形態におけるテキスト・カテゴリ間関連度算出部の処理のフローチャートである。
符号の説明
10 カテゴリ・単語間関連度算出手段、カテゴリ・単語間関連度算出部
20 代表単語認定手段、代表単語認定部
30 テキスト・カテゴリ間関連度算出手段、テキスト・カテゴリ間関連度算出部
40 単語間関連度データベース
50 カテゴリ・単語間関連度記憶手段、カテゴリ・単語間関連度記憶部
60 代表単語記憶手段、代表単語記憶部
70 テキスト・カテゴリ間関連度記憶手段、テキスト・カテゴリ間関連度記憶部

Claims (6)

  1. テキストを、所定のカテゴリ集合の内のいずれかのカテゴリに分類するためのカテゴリ関連度算出装置であって、
    単語間関連度を格納した単語間関連度データベースと、
    カテゴリ毎に該カテゴリに該当するテキストの集合が対応付けられているカテゴリの集合が入力されると、任意の単語Aに対し、任意のカテゴリにおける任意のテキストと該単語Aとのテキスト・単語間関連度を、該テキスト中の単語と該単語Aとの間の前記単語間関連度データベース中の前記単語間関連度をもとに算出し、該カテゴリと該単語Aとのカテゴリ・単語間関連度を該テキスト・単語間関連度をもとに算出し、カテゴリ・単語間関連度記憶手段に格納するカテゴリ・単語間関連度算出手段と、
    任意のカテゴリに対し、前記カテゴリ・単語間関連度記憶手段から取得した該カテゴリについてのカテゴリ・単語間関連度から、他のカテゴリについてのカテゴリ・単語間関連度を引いた差が大きい単語を、該カテゴリの代表単語と認定し、代表単語記憶手段に格納する代表単語認定手段と、
    を有することを特徴とするカテゴリ関連度算出装置。
  2. 任意のテキストを入力とし、各カテゴリに対し、該テキスト中の単語と、前記代表単語記憶手段から取得した該カテゴリの代表単語との間の前記単語間関連度データベース中の前記単語間関連度をもとに、該テキストと該カテゴリとのテキスト・カテゴリ間関連度を算出し、テキスト・カテゴリ間関連度記憶手段に格納するテキスト・カテゴリ間関連度算出手段を更に有する請求項1記載のカテゴリ関連度算出装置。
  3. テキストを、所定のカテゴリ集合の内のいずれかのカテゴリに分類するためのカテゴリ関連度算出方法であって、
    カテゴリ・単語間関連度算出手段が、カテゴリ毎に該カテゴリに該当するテキストの集合が対応付けられているカテゴリの集合が入力されると、任意の単語Aに対し、任意のカテゴリにおける任意のテキストと該単語Aとのテキスト・単語間関連度を、該テキスト中の単語と該単語Aとの間の単語間関連度データベース中の単語間関連度をもとに算出し、該カテゴリと該単語Aとのカテゴリ・単語間関連度を該テキスト・単語間関連度をもとに算出し、カテゴリ・単語間関連度記憶手段に格納するカテゴリ・単語間関連度算出ステップと、
    代表単語認定手段が、任意のカテゴリに対し、前記カテゴリ・単語間関連度記憶手段から取得した該カテゴリについてのカテゴリ・単語間関連度から、他のカテゴリについてのカテゴリ・単語間関連度を引いた差が大きい単語を、該カテゴリの代表単語と認定し、代表単語記憶手段に格納する代表単語認定ステップと、
    を行うことを特徴とするカテゴリ関連度算出方法。
  4. テキスト・カテゴリ間関連度算出手段が、任意のテキストを入力とし、各カテゴリに対し、該テキスト中の単語と、前記代表単語記憶手段から取得した該カテゴリの代表単語との間の前記単語間関連度データベース中の前記単語間関連度をもとに、該テキストと該カテゴリとのテキスト・カテゴリ間関連度を算出し、テキスト・カテゴリ間関連度記憶手段に格納するテキスト・カテゴリ間関連度算出ステップを更に行う請求項3記載のカテゴリ関連度算出方法。
  5. 請求項1または2のいずれか1項に記載のカテゴリ関連度算出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ関連度算出プログラム。
  6. 請求項5記載のカテゴリ関連度算出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2008157104A 2008-06-16 2008-06-16 カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Active JP4918067B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008157104A JP4918067B2 (ja) 2008-06-16 2008-06-16 カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008157104A JP4918067B2 (ja) 2008-06-16 2008-06-16 カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2009301433A true JP2009301433A (ja) 2009-12-24
JP4918067B2 JP4918067B2 (ja) 2012-04-18

Family

ID=41548239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008157104A Active JP4918067B2 (ja) 2008-06-16 2008-06-16 カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4918067B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2005267397A (ja) * 2004-03-19 2005-09-29 Oki Electric Ind Co Ltd 語句分類システム、語句分類方法、および語句分類プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2005267397A (ja) * 2004-03-19 2005-09-29 Oki Electric Ind Co Ltd 語句分類システム、語句分類方法、および語句分類プログラム

Also Published As

Publication number Publication date
JP4918067B2 (ja) 2012-04-18

Similar Documents

Publication Publication Date Title
Yang et al. Joint relational embeddings for knowledge-based question answering
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US9483460B2 (en) Automated formation of specialized dictionaries
CN101470732B (zh) 一种辅助词库的生成方法和装置
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
US20160098645A1 (en) High-precision limited supervision relationship extractor
CN106708929B (zh) 视频节目的搜索方法和装置
CN103154936A (zh) 用于自动化文本校正的方法和***
CN112818093A (zh) 基于语义匹配的证据文档检索方法、***及存储介质
US11755668B1 (en) Apparatus and method of performance matching
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
Liu et al. Extract Product Features in Chinese Web for Opinion Mining.
CN113408307A (zh) 一种基于翻译模板的神经机器翻译方法
Nazir et al. Authorship attribution for a resource poor language—Urdu
US11854537B2 (en) Systems and methods for parsing and correlating solicitation video content
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP4918067B2 (ja) カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
CN112949287A (zh) 热词挖掘方法、***、计算机设备和存储介质
KR102341563B1 (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120127

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4918067

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350