JP2005158010A - 分類評価装置・方法及びプログラム - Google Patents

分類評価装置・方法及びプログラム Download PDF

Info

Publication number
JP2005158010A
JP2005158010A JP2004034729A JP2004034729A JP2005158010A JP 2005158010 A JP2005158010 A JP 2005158010A JP 2004034729 A JP2004034729 A JP 2004034729A JP 2004034729 A JP2004034729 A JP 2004034729A JP 2005158010 A JP2005158010 A JP 2005158010A
Authority
JP
Japan
Prior art keywords
document
class
training
similarity
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004034729A
Other languages
English (en)
Other versions
JP2005158010A5 (ja
Inventor
Takahiko Kawatani
隆彦 川谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Priority to JP2004034729A priority Critical patent/JP2005158010A/ja
Priority to EP04256655A priority patent/EP1528486A3/en
Priority to KR1020040087035A priority patent/KR20050041944A/ko
Priority to US10/975,535 priority patent/US20050097436A1/en
Priority to CNA2004100981935A priority patent/CN1612134A/zh
Publication of JP2005158010A publication Critical patent/JP2005158010A/ja
Publication of JP2005158010A5 publication Critical patent/JP2005158010A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
入力文書をクラスモデルと照合することにより予め決められた文書クラスに振り分ける文書分類システムの実施時において、入力文書の内容は時間の経過とともに変化し、クラスモデルが陳腐化することがある。ところが、クラスモデル更新には多大の労力を必要とする。
【解決手段】
本願発明では、文書分類システムの実施時に各クラスに分類された実文書集合と訓練文書集合との間の類似度を全てのクラスについて求め、その類似度の低いクラスを選択する。或いは各クラスの訓練文書集合と他の全てのクラスの実文書集合間の類似度を求め、その類似度の低いクラス対を選択することにより、陳腐化を起こしたクラスを検出する。また、全てのクラス対に対して訓練文書集合間の類似度を求め、類似度の低いクラス対を選択することにより、話題の接近したクラス対を検出する。
【選択図】図2

Description

本発明は文書をはじめとするパターンの分類技術に関するものであり、特にその時々のクラスモデルの妥当性を適確に評価できるようにすることによってその運用の効率性を高めることを目的とする。
文書分類は文書を予め決められたグループに振り分ける技術であり、情報の流通が増すにつれ、重要性が高まってきている。文書分類としてはこれまでに、ベクトル空間法、k-最近隣法(kNN法)、ナイーブベイズ法、決定木法、サポートベクターマシン法、ブースティング法など実に様々な方法が研究開発されてきた。文書の文書分類処理に関する最近の動向については、情報処理学会誌第42巻第1号(2001年1月)に掲載されている「テキスト分類‐学習理論の見本市‐」(著者:永田昌明、平博順)に詳しい。どのような分類法も、文書クラスに関する情報を何らかの形で記述し、入力文書と照合している。以下これをクラスモデルと呼ぶ。
このクラスモデルは、例えば、ベクトル空間法では各クラスに属する文書の平均ベクトルにより表現され、k-最近隣法では各クラスに属する文書のベクトルの集合により表現され、ブースティング法では単純な仮説の集合により表現されている。正確な分類を図るにはクラスモデルは各クラスを正確に記述したものでなければならない。クラスモデルは通常各クラスに訓練データとして用意された大量の文書を用いて作成される。
情報処理学会誌第42巻第1号(2001年1月)「テキスト分類‐学習理論の見本市‐」(著者:永田昌明、平博順)
文書の分類は文字や音声と同じように認識技術をベースとするものであるが、文字認識や音声認識と比べた場合、次のような特質がある。
(1)文字認識や音声認識の場合、同じクラスに属するパターンが時々刻々変化することは考えられない。クラス“2”に属する文字パターンは現在も1年前も同じ筈である。ところが、文書の場合には同じクラスであっても文書の内容が刻々変化する場合がよくある。例えば、“国際政治”というクラスを想定したとき、このクラスに属する文書の話題は、“イラク戦争”の前後でかなり異なっているものと考えられる。従って、“国際政治”のクラスモデルは、時間の経過と共に更新される必要がある。
(2)文字や音声の場合には、入力された文字や音声がどのクラスに属するかは人間は直ちに判断できるので、クラスモデルを構築するための訓練データを収集することは難しい問題ではない。しかし、文書の場合には、入力された文書を読まなければその文書の属するクラスを判断することができない。たとえ飛ばし読みにしても文書を人間が読む限り少なからぬ時間を必要とする。従って、文書の場合には大量の信頼の置ける訓練データを収集することの負担は極めて大きい。
(3)(2)と同じ理由で、文書分類の場合、大量の未知文書に対してどの程度の正確さで分類が行われているか性能を把握することは容易ではない。
(4)文字や音声の場合には、入力される文字や音声にどのようなクラスが存在するかはほぼ自明である。例えば文字認識で数字を認識する場合クラス数は10である。しかし、文書分類ではクラスの設定には任意性があり、どのようなクラスを用意するかは利用者の要望やシステム設計者の意図などによって決まる。
従って、文書分類では、(1)の特質の故に、実際の運用においてその時々の文書を正しく分類するにはクラスモデルの頻繁な更新が必須である。しかしながら、クラスモデルの更新は(2)に述べた理由で決して容易なものではない。クラスモデルの更新の負担の軽減を図るには、全クラスを更新するのではなく、クラスモデルの陳腐化したクラスのみ更新するようにすればよいが、(3)に述べた理由で陳腐化したクラスを検出することも容易でない。このように文書分類を実際に運用するためのコストは決して安価なものではない。
さらに、文書分類の場合、人為的に設定された各クラスの話題が互いに離れていれば問題はないが、話題が接近するクラス対が存在してしまう場合がある。このようなクラス対は互いの間で誤分類を招き、システムの性能を劣化させる。従って文書分類システムの設計においては話題が接近するクラス対をいち早く検出し、クラスを再設定する必要がある。このとき文書分類システムを再設計した後、テストデータで評価して問題クラス対を検出するようにしてもよいが、これには労力と時間を必要とする。このような話題の接近が問題となるクラス対は、訓練データの準備が終了した時点、即ち訓練データの収集及び各文書に対するラベル付けが終わった段階で直ちに検出できるのが望ましい。
本発明の目的は、話題が接近するクラス対やクラスモデルの陳腐化したクラスを容易に検出出来るようにすることにより、文書分類システム設計の負担やクラスモデルの更新の負担を軽減することにある。
先ずクラスモデルの陳腐化について考える。クラスAのクラスモデルが陳腐化した場合の影響としては次の2通りが考えられる。即ち、入力文書がクラスAに属していてもクラスAに属すると判定できなくなる場合と、クラスAとは別のクラスBに誤分類される場合とである。従って、クラスAの場合、「再現率」をクラスAに属する文書数に対するクラスAに属すると判定された文書数の割合と定義し、「精度」をクラスAに属すると判定された文書の中で実際にクラスAに属している文書数の割合と定義すると、クラスモデルの陳腐化の影響は、再現率や精度の低下となって現れる。従って、問題は再現率や精度の低下したクラスを如何にして検出するかである。本願発明では以下のようなアプローチを採用する。ここでは、再現率や精度の低下したクラスであっても正しくそのクラスに分類される文書は少なからず存在することを前提とする。
クラスAの再現率が低下した場合、クラスAに属する入力文書の話題とクラスモデルが想定するクラスAの話題との間にミスマッチが生じていると考えられる。クラスモデルが想定するクラスAの話題はそのクラスモデルを構築したときのクラスAの訓練データによって決まる。文書分類システムの実際の運用時において、クラスAに分類された文書集合を「クラスAの実文書集合」と呼ぶこととする。上記ミスマッチを起こしているかどうかは、クラスAの実文書集合とクラスAのクラスモデル構築に用いた訓練文書集合との近さ、即ち「類似度」によって判定できる。この類似度が大きければ、クラスAの実文書集合はクラスモデル構築時の訓練文書集合と内容が近く、陳腐化は起こしていないと判断できる。反対に類似度が小さければ、クラスAに属する入力文書の話題はシフトし、クラスモデルは陳腐化を起こしていると判断できる。陳腐化していると判断されたクラスはクラスモデルの再構築が必要である。
また、クラスAに属する入力文書がクラスBに誤分類されるケースが多い場合には、クラスAに属する文書の話題がシフトし、クラスBのクラスモデルと非常に近くなっていると考えられる。従って、クラスAの実文書集合とクラスBのクラスモデル構築に用いた訓練文書集合との近さ、即ち類似度は大きくなっていると考えられる。従って、この類似度が大きいようであれば、これはクラスAに属する文書の話題がクラスBに接近していることの証拠となる。このときクラスA、Bの両方のクラスモデルが陳腐化を起こしていると判断できるので、クラスA、Bの両方のクラスモデルの再構築が必要となる。
次に、話題が接近するクラス対について述べる。話題が接近するクラス対ではそれぞれの文書集合間の類似性も高くなっていると考えられる。従って、全てのクラス対間の類似度、即ち、各クラスの訓練文書集合間の類似度を求め、類似度が一定値より高いクラス対を選択するとこれらのクラス対は話題が接近するクラス対とみなすことができる。このようなクラス対はクラスを設定することの是非やクラスの定義を含めて再検討する必要がある。
以上述べたように、本発明においては各クラスの訓練文書集合以外に、各クラスの実文書集合を求めておき、全てのクラス対の訓練文書集合間の類似度、各クラスの訓練文書集合と実文書集合の間の類似度、全てのクラス対の訓練文書集合と実文書集合間の類似度を求めることにより、更新あるいは見直しの必要のあるクラスを検出できるので、極めて容易に文書分類システム設計の変更やクラスモデルの更新を行うことができる。
図1は、本願発明を実施する装置を示している。筐体100の中には、記憶装置110、メインメモリ120、出力装置130、処理装置(CPU)140、操作部150、入力装置160が含まれている。処理装置(CPU)140は、メインメモリ120から制御するプログラムを読み込み、操作部150から入力された命令に従い、入力装置160から入力される文書データ、及び、記憶装置110に格納されている訓練文書や実文書の情報を使用して情報処理を行い、話題接近クラス対、及び、陳腐化した文書クラスなどを検出し出力装置130に出力する。
図2は、本発明の概要を示すブロック図である。210は文書入力ブロック、220は文書前処理ブロック、230は文書情報処理ブロック、240は訓練文書情報格納ブロック、250は実文書情報格納ブロック、260は不適格文書クラス出力ブロックを示す。文書入力ブロック210には、処理したい文書集合が入力される。文書前処理ブロック220では、入力された文書の用語検出、形態素解析、文書ベクトル作成等が行われる。文書ベクトルの各成分の値は対応する単語の文書内の頻度などをもとに求められる。訓練文書情報格納ブロック240には、作成されたクラス別訓練文書情報が格納される。実文書情報格納ブロック250には、分類結果に基づくクラス別実文書情報が格納される。文書情報処理ブロック230は、訓練文書集合の全クラス対の類似度算出、各クラスの訓練文書集合と同一クラスの実文書集合の間の類似度算出、各クラスの訓練文書集合と他の全てのクラスの実文書集合の間の類似度算出などを行って、話題接近クラス対、及び、陳腐化クラスを求める。不適格文書クラス出力ブロック260は文書情報処理ブロック230で得られた結果を、ディスプレー等の出力装置に出力する。
図3は与えられた訓練文書集合に対して、話題接近クラス対を検出する本発明の第1の実施例のフローチャートを示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図3は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。
ブロック21は訓練文書集合入力、ブロック22はクラスラベル付与、ブロック23は文書前処理、ブロック24はクラス別訓練文書データベース作成、ブロック25は訓練文書集合のクラス対の類似度算出、ブロック26は類似度と閾値との比較、ブロック27は、閾値を超える類似度を有するクラス対の出力を行う。ブロック28は終了チェック処理である。以下、英文文書を例にとって実施例1について説明する。
先ず、訓練文書集合入力21において文書分類システム構築に用いる文書集合が入力される。クラスラベル付与22では、予め各クラスに対してなされていた定義に従って帰属するクラス名を各文書に付与する。ひとつの文書に対して2つ以上のクラス名が付与されることもありうる。文書前処理23においては各入力文書に対して、用語検出、形態素解析、文書ベクトル作成などの前処理が行われる。場合によっては、文書セグメント区分け、文書セグメントベクトル作成を行い、文書セグメントベクトルの集合として文書を表すこともある。用語検出としては、各入力文書から単語、数式、記号系列などを検出する。ここでは、単語や記号系列などを総称して「用語」と呼ぶ。英文の場合、用語同士を分けて書く正書法が確立しているので用語の検出は容易である。
次に、形態素解析では、各入力文書に対して用語の品詞付けなどの形態素解析を行う。文書ベクトル作成では、先ず文書全体に出現する用語から作成すべきベクトルの次元数および各次元と各用語との対応を決定する。この際に出現する全ての用語の種類にベクトルの成分を対応させなければならないということはなく、品詞付け処理の結果を用い、例えば名詞と動詞と判定された用語のみを用いてベクトルを作成するようにしてもよい。次いで各文書に出現する単語の頻度値、もしくは頻度値を加工して得られる値を対応する文書ベクトルの成分に与える。文書セグメント区分けが行われる場合は各入力文書は文書セグメントに分解される。文書セグメントは文書を構成する要素であり、その最も基本的な単位は文である。英文の場合、文はピリオドで終わり、その後ろにスペースが続くので文の切出しは容易に行うことができる。その他の文書セグメントへの分解法としては、ひとつの文が複文からなる場合主節と従属節に分けておく方法、用語の数がほぼ同じになるように複数の文をまとめて文書セグメントとする方法、文書の先頭から含まれる用語の数が同じになるように文とは関係なく区分けする方法などがある。
文書セグメントベクトル作成では、文書ベクトル作成と同じように、各文書セグメントに出現する単語の頻度値、もしくは頻度値を加工して得られる値を対応する文書セグメントベクトルの成分に与える。一例として、分類に用いられる用語の種類数をMとし、M次元のベクトルで文書ベクトルが表される場合を考える。当該文書ベクトルをdr とすると、用語が用いられている場合を「0」と、用いられていない場合を「1」としてその成分を与えると、dr = (1,0,0,..,1)のように、あるいは用語の出現頻度をその成分値として与えると、dr = (2,0,1,..,4)のように表すことが出来る。ここでTはベクトルの転置を表す。クラス別訓練文書データベース作成24では、ブロック22の結果に基づき、各文書の前処理結果をクラス別にソートし、データベースに格納する。訓練文書集合のクラス対の類似度算出25では、訓練文書集合を用いて指定されたクラス対に対して類似度を算出する。クラス対の指定は、最初の繰り返しでは予め決められたクラス対に基づいて、2回目以降の繰り返しではブロック28からの指令により行う。
文書集合間の類似度を求める方法としては種々の方法が知られている。例えば、クラスA、Bの文書集合をΩA、ΩBとする。また、文書rの文書ベクトルをdrとして、次式によりクラスA、Bの平均文書ベクトルdA、dBを定義する。
Figure 2005158010
Figure 2005158010
ここで、|ΩA|、|ΩB|は文書集合ΩA、ΩBの文書数を表す。クラスA、Bの訓練文書集合間の類似度をsim(ΩAB)とすると、これは余弦類似度により次のように求めることができる。
Figure 2005158010
ここで、||dA ||はベクトルdAのノルムを表す。式(1)で定義される類似度の例では、単語間の共起の情報は反映されない。そこで、以下の計算方法を用いると文書セグメントにおける単語共起の情報を反映した類似度を求めることが出来る。クラスAには複数の文書が含まれておりその集合をΩAと表す。集合をΩAのr番目の文書rはY個の文書セグメントから成るとし、y番目の文書セグメントベクトルをdryにより表す。図4(a)では、文書集合ΩAが文書1から文書Rまでの文書群で構成されていることを示している。図4(b)は文書集合ΩAのr番目の文書rがさらにY個の文書セグメントから構成されており、その中のy番目の文書セグメントから、文書セグメントベクトルdryを生成することをイメージ的に示している。ここで、文書rに対し次式で定義される行列を共起行列と呼ぶこととする。
Figure 2005158010
さらに、クラスBの集合をΩBとし、クラスA、Bの各文書の共起行列の総和をSA、SBとすると、これらは以下により求められる。
Figure 2005158010
Figure 2005158010
この場合、クラスA、Bの訓練文書集合間の類似度sim(ΩAB)は行列SA、SBの各成分を用いて以下のように定義することができる。
Figure 2005158010
ここで、SA mn はSAのm行n列の成分値であり、Mは文書セグメントベクトルの次元、即ち出現単語の種類数である。もし、文書セグメントベクトルの各成分をバイナリーで、即ちm番目の単語が出現すれば1、現れなければ0として表現した場合、SA mn、SB mnは式(2)(3)から明らかなようにクラスA、Bの訓練文書集合において単語mとnとが共起する文書セグメントの数となるので、式(4)には単語共起の情報が与えられていることが分かる。単語共起の情報を与えることでより的確な類似度を求めることができる。なお、式(4)において行列SA、SBの非対角成分を用いないようにすると式(1)で定義される類似度とほぼ等価になる。
ブロック26で、類似度(第1の類似度)が所定の閾値(第1の閾値)を超えるか否かを判断している。ブロック27では、指定されたクラス間の訓練文書集合の類似度が予め指定された閾値を超えている場合には、話題が接近しているクラス対として検出する。具体的には、αを閾値としたとき、
Figure 2005158010
を満たす場合にクラスA、Bは話題が接近しているとみなす。αは話題内容のよく分かっている訓練文書集合を用いれば実験的に決めることは容易である。検出された話題接近クラス対に対しては、クラスの定義の見直しやそれらのクラスを設定すること自体の再検討、訓練文書のラベル付けの妥当性の確認を行うことになる。ブロック28では、ブロック25、26、27の処置を全てのクラス対に対して行ったかどうかのチェックを行い、未処理のクラスがなければ終了し、あれば次のクラス対を指定して次の処理をブロック25に戻す。
図5(a)及び図5(b)は実際の文書分類システム上において、陳腐化クラスを検出する本発明の第2及び第3の実施例を示す。この発明の方法は、汎用コンピュータ上でこの発明を組み込んだプログラムを走らせることによって実施することができる。図5(a)及び図5(b)は、そのようなプログラムを走らせている状態でのコンピュータのフローチャートである。先ず、図5(a)で示される第2の実施例について説明する。ブロック31は文書入力、ブロック32は文書前処理、ブロック33は文書分類処理、ブロック34はクラス別実文書データベース作成、ブロック35は各クラスの訓練文書集合と同一クラスの実文書集合の間の類似度算出、ブロック36は類似度と閾値との比較、ブロック37は各クラスの訓練文書集合と同一クラスの実文書集合の間の類似度が閾値より大きい場合の処置、ブロック38は終了チェック処理である。
以下、図5(a)のフローチャートについて詳細に説明する。 先ず、ブロック31において運用状態の文書分類システムに実際に分類すべき文書が入力される。ブロック32では図2のブロック23と同様な文書前処理が行われ、ブロック33では入力文書に対して文書分類処理が行われる。文書分類の方法としては、これまでに、ベクトル空間法、k-最近隣法(kNN)、ナイーブベイズ法、決定木法、サポートベクターマシン法、ブースティング法など実に様々な方法が開発されてきており、本発明ではどの方法も用いることができる。ブロック34では、ブロック33の文書分類処理の結果を用いて、クラス毎に実文書データベース作成を作成する。ここではクラスA、Bに分類された実文書集合をΩ'A、Ω'Bにより表す。
ブロック35では指定されたクラスの訓練文書集合と同一クラスの実文書集合の間の類似度の算出を行う。クラスの指定は最初の繰り返しでは予め指定されたクラスに基づいて、2回目以降はブロック38からの指令により行う。クラスAの訓練文書集合ΩAと同一クラスの実文書集合Ω'Aの間の類似度sim(ΩA,Ω'A) (第2の類似度)、は式(1)及び(4)と同様に求めることができる。
次いでブロック36では類似度と閾値との比較を行い、ブロック37において陳腐化を起こしたクラスモデルの検出を行う。その時の閾値をβとしたとき、
Figure 2005158010
を満たす場合にクラスAに属すべき実文書の話題はシフトしており、クラスAのクラスモデルは陳腐化していると判断される。ブロック38は、ブロック35、36、37の処理を、全てのクラスに対して行ったかどうかのチェックをおこない、未処理のクラスが無ければ終了し、あれば次のクラスを指定してブロック35に処理を戻す。
次に、図5(b)を用いて、第3の実施例について説明する。ブロック31からブロック34までは、図5(a)と同様であるので説明は割愛する。ブロック39は各クラスの訓練文書集合と他の全てのクラスの実文書集合の間の類似度を算出する。ブロック40及びブロック41は、各クラスの訓練文書集合と他のクラスの実文書集合の間の類似度が閾値を超えている場合の処置を示している。ブロック42は終了チェック処理である。
以下、図5(b)のフローチャートについて詳細に説明する。 図5(a)と同様であるブロック31からブロック34に関する説明は割愛する。ブロック39では各クラスの訓練文書集合と他の全てのクラスの実文書集合の間の類似度の算出を行う。ブロック40及びブロック41は、指定されたクラスの訓練文書集合と指定された他のクラスの実文書集合の間の類似度が閾値を超えている場合の処置を示している。クラスAの訓練文書集合をΩAとクラスBの実文書集合Ω'Bと間の類似度sim(ΩA,Ω'B) (第3の類似度)は式(1)及び(4)と同様に求めることができる。クラス対の指定は、最初の繰り返しでは予め指定されたクラスに基づいて、2回目以降はブロック42からの指令により行う。ブロック40及びブロック41において、γを閾値としたとき、
Figure 2005158010
を満たす場合にはクラスBに属する文書の話題がクラスAに接近し、クラスA、B共クラスモデルは陳腐化していると判断される。ブロック42は終了処理であり、ブロック39、40、41の処置を全てのクラス対に対して行ったかどうかのチェックを行い、未処理のクラス対がなければ終了し、あれば次のクラス対を指定して次の処理をブロック39に戻す。
なお、実施例2及び実施例3で用いたβ、γは話題内容のよく分かっている訓練文書集合を用いて予め実験的に決めておく必要がある。
以上述べたように本発明によれば、話題の接近するクラス対、及び、陳腐化を起こしたクラス対を不適格クラスとして容易に検出することができる。文書分類の研究用に多く用いられている文書コーパスReuters-21578に対する実験結果を示す。文書分類法としてはkNN法を採用している。図4は各クラス対の話題の接近の程度とエラー率の関係を示す図であり、各点が特定のクラス対に対応している。
また、横軸は訓練文書集合のクラス間類似度(similarity)を百分率で示し、縦軸はテスト文書集合に対するクラス間エラー率(error rate)を百分率で示している。訓練文書集合とテスト文書集合はReuters-21578において指定されているもので、テスト文書集合は実文書集合に対応するものと見なされる。クラスA、Bのクラス間エラー率はクラスAでありながらクラスBに誤った文書数とクラスBでありながらクラスAに誤った文書数との和をクラスA、Bの文書数の和で除した値で与えられる。図4は訓練文書に対してクラス間類似度の高いクラス対、即ち、話題の接近するクラス対はテスト文書集合に対してエラー率が高いことを示している。従って、クラス間類似度が閾値より高いクラス対を検出して、クラスの定義の見直しやそれらのクラスを設定すること自体の再検討、訓練文書のラベル付けの妥当性の確認を行い、話題の接近するクラス対をなくすようにすれば文書分類システムの性能を向上させることができる。
図5は陳腐化したクラスを検出する例として、横軸は同じクラスの訓練文書集合とテスト文書集合の類似度(similarity)を百分率で示し、縦軸はテスト文書集合に対する再現率(recall)を百分率で示し、それらの関係を示すものであり、各点がひとつのクラスに対応している。図5から分かるように再現率が低いクラスでは訓練文書集合とテスト文書集合の類似度が小さい。従って、訓練文書集合とテスト文書集合の類似度が小さいクラスを選択することにより陳腐化を起こしたクラスを効率的に見出すことができる。クラスモデルの更新は上記類似度の小さいクラスのみ行えばよいことになるので、全てのクラスのクラスモデルの更新を行う場合に比べて著しいコストの低減が期待できる。
なお、上記実施例は文書を例にとって説明したが、実施例で示した文書と同じ様に表現でき、かつ、同様の性質を有するパターンについても適用できる。すなわち、実施例で示した、文書をパターン、用語を構成要素、訓練文書を訓練パターン、文書セグメントをパターンセグメント、文書セグメントベクトルをパターンセグメントベクトル等のように置き換えれば、本願発明が同様に適用できる。
本願発明を実行する装置の構成図を示す図である。 本願発明のブロック図を示す図である。 与えられた訓練文書集合に対して、話題接近クラス対を検出する本発明の手順を示すフローチャートである。 文書集合、文書、文ベクトルの関係を示す図である。 本願発明において、クラスモデルの陳腐化したクラスを検出する本発明の実施例2の手順を示すフローチャートである。 本願発明において、クラスモデルの陳腐化したクラスを検出する本発明の実施例3の手順を示すフローチャートである。 訓練文書集合のクラス間類似度(横軸)とテスト文書集合に対するクラス間エラー率(縦軸)の関係を示すグラフである。 同じクラスの訓練文書集合とテスト文書集合との間の類似度(横軸)とテスト文書集合に対する再現率(縦軸)の関係を示すグラフである。
符号の説明
100:筐体
110:記憶装置
120:メインメモリー
130:出力装置
140:処理装置(CPU)
150:操作部
160:入力
210:文書入力ブロック
220:文書前処理ブロック
230:文書情報処理ブロック
240:訓練文書情報格納ブロック
250:実文書情報格納ブロック
260:不適格文書クラス出力ブロック

Claims (23)

  1. 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合して前記入力文書の分類を行う手段を有し、さらに、以下の(a)及び(b)の手段を含む文書分類評価装置、
    (a)クラス毎の訓練文書集合を用いて全てのクラス対に対して第1の類似度を求める手段、及び
    (b)前記第1の類似度が第1の閾値より大きいクラス対を検出する手段。
  2. 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項1に記載の文書分類評価装置、
    (a)前記クラス対の検出に用いる用語を各訓練文書から検出して選択する手段と、
    (b)前記各訓練文書を文書セグメントに分解する手段と、
    (c)前記各訓練文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
    (d)前記各訓練文書の前記文書セグメントベクトルを基に、全てのクラス対に対して訓練文書集合間の類似度を求める手段。
  3. 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行う手段を有し、さらに、以下の(a)から(d)の手段を含む文書分類評価装置、
    (a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
    (b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
    (c)全文書クラスに対して、前記訓練文書集合と同じクラスの前記実文書集合の間の第2の類似度を求める手段と、
    (d)前記第2の類似度が第2の閾値より小さいクラスを検出する手段。
  4. 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行う手段を有し、さらに、以下の(a)から(d)の手段を含む文書分類評価装置、
    (a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
    (b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
    (c)各文書クラスの前記訓練文書集合と他の全ての文書クラスの前記実文書集合との間の第3の類似度を求める手段と、
    (d)前記第3の類似度が第3の閾値より大きいクラス対を検出する手段。
  5. 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項3及び請求項4に記載の装置、
    (a)前記クラスまたはクラス対の検出に用いる用語を前記各訓練文書と前記各実文書からから検出して選択する手段と、
    (b)前記各訓練文書と前記各実文書を文書セグメントに分解する手段と、
    (c)前記各訓練文書と前記各実文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
    (d)前記各訓練文書と前記実文書の前記文書セグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求める手段。
  6. 前記出現する用語の種類数がMで与えられ、Y個の文書セグメントを有し、y番目の文書セグメントベクトルをdy=(dy1,.., dyM)Tとし(Tはベクトルの転置を表す)、文書の共起行列S を、
    Figure 2005158010
    とするとき、全文書の共起行列の総和行列を文書集合毎に求めたうえで、2つの前記総和行列の対応する成分同士の積和をもとに前記第1、第2、若しくは第3の類似度を求める手段を有する請求項1から請求項5に記載の装置。
  7. コンピュータにより、入力文書をクラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合して前記入力文書の分類を行う手段を動作させ、さらに、以下の(a)及び(b)の手段を動作させる文書分類評価プログラム、
    (a)前記クラス毎の訓練文書集合を用いて全てのクラス対に対して第1の類似度を求める手段、及び
    (b)前記第1の類似度が第1の閾値より大きいクラス対を検出する手段。
  8. 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項7に記載の文書分類評価プログラム、
    (a)前記クラス対の検出に用いる用語を各訓練文書から検出して選択する手段と、
    (b)前記各訓練文書を文書セグメントに分解する手段と、
    (c)前記各訓練文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
    (d)前記各訓練文書の前記文書セグメントベクトルを基に、全てのクラス対に対して訓練文書集合間の類似度を求める手段。
  9. コンピュータにより、入力文書をクラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し前記入力文書の分類を行う手段を、動作させ、さらに、以下の(a)から(d)の手段を動作させる文書分類評価プログラム、
    (a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
    (b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
    (c)全文書クラスに対して、前記訓練文書集合と同じクラスの前記実文書集合の間の第2の類似度を求める手段と、
    (d)前記第2の類似度が第2の閾値より小さいクラスを検出する手段。
  10. コンピュータにより、入力文書をクラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し前記入力文書の分類を行う手段を動作させ、さらに、以下の(a)から(d)の手段を動作させる文書分類評価プログラム、
    (a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
    (b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
    (c)各文書クラスの前記訓練文書集合と他の全ての文書クラスの前記実文書集合との間の第3の類似度を求める手段と、
    (d)前記第3の類似度が第3の閾値より大きいクラス対を検出する手段。
  11. 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項9及び請求項10に記載のプログラム、
    (a)前記クラスまたはクラス対の検出に用いる用語を前記各訓練文書と前記各実文書からから検出して選択する手段と、
    (b)前記各訓練文書と前記各実文書を文書セグメントに分解する手段と、
    (c)前記各訓練文書と前記各実文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
    (d)前記各訓練文書と前記実文書の前記文書セグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求める手段。
  12. 前記出現する用語の種類数がMで与えられ、Y個の文書セグメントを有し、y番目の文書セグメントベクトルをdy=(dy1,.., dyM)Tとし(ここでTはベクトルの転置を表す)、文書の共起行列S を、
    Figure 2005158010
    とするとき、全文書の共起行列の総和行列を文書集合毎に求めたうえで、2つの前記総和行列の対応する成分同士の積和をもとに前記第1、第2、若しくは第3の類似度を求める手段を動作させる請求項7から請求項11に記載のプログラム。
  13. 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合して前記入力文書の分類を行うステップを有し、さらに、以下の(a)及び(b)のステップを有する文書分類評価方法、
    (a)クラス毎の訓練文書集合を用いて全てのクラス対に対して第1の類似度を求めるステップ、及び
    (b)前記第1の類似度が第1の閾値より大きいクラス対を検出するステップ。
  14. 前記類似度を求めるステップは、以下の(a)から(d)の手段を含む請求項13に記載の文書分類評価方法、
    (a)前記クラス対の検出に用いる用語を各訓練文書から検出して選択するステップと、
    (b)前記各訓練文書を文書セグメントに分解するステップと、
    (c)前記各訓練文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成するステップと、
    (d)前記各訓練文書の前記文書セグメントベクトルを基に、全てのクラス対に対して訓練文書集合間の類似度を求めるステップ。
  15. 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行うステップを有し、さらに、以下の(a)から(d)のステップを含む文書分類評価方法、
    (a)訓練文書集合をもとに各文書クラスのクラスモデルを作成するステップと、
    (b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成するステップと、
    (c)全文書クラスに対して、前記訓練文書集合と同じクラスの前記実文書集合の間の第2の類似度を求めるステップと、
    (d)前記第2の類似度が第2の閾値より小さいクラスを検出するステップ。
  16. 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行うステップを有し、さらに、以下の(a)から(d)の手段を含む文書分類評価方法、
    (a)訓練文書集合をもとに各文書クラスのクラスモデルを作成するステップと、
    (b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成するステップと、
    (c)各文書クラスの前記訓練文書集合と他の全ての文書クラスの前記実文書集合との間の第3の類似度を求めるステップと、
    (d)前記第3の類似度が第3の閾値より大きいクラス対を検出するステップ。
  17. 前記類似度を求めるステップは、以下の(a)から(d)のステップを含む請求項15及び請求項16に記載の方法、
    (a)前記クラスまたはクラス対の検出に用いる用語を前記各訓練文書と前記各実文書からから検出して選択するステップと、
    (b)前記各訓練文書と前記各実文書を文書セグメントに分解するステップと、
    (c)前記各訓練文書と前記各実文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成するステップと、
    (d)前記各訓練文書と前記実文書の前記文書セグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求めるステップ。
  18. 前記出現する用語の種類数がMで与えられ、Y個の文書セグメントを有し、y番目の文書セグメントベクトルをdy=(dy1,.., dyM)Tとし(ここでTはベクトルの転置を表す)、文書の共起行列S を、
    Figure 2005158010
    とするとき、全文書の共起行列の総和行列を文書集合毎に求めたうえで、2つの前記総和行列の対応する成分同士の積和をもとに前記第1、第2、若しくは第3の類似度を求めるステップを有する請求項13から請求項17に記載の方法。
  19. コンピュータにより、入力パターンをクラス毎の訓練パターン情報を基に作成されたクラス毎のクラスモデルと照合して前記入力パターンの分類を行う手段を動作させ、さらに、以下の(a)及び(b)の手段を動作させるパターン分類評価プログラム、
    (a)前記クラス毎の訓練パターン集合を用いて全てのクラス対に対して第1の類似度を求める手段、及び
    (b)前記第1の類似度が第1の閾値より大きいクラス対を検出する手段。
  20. 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項19に記載のパターン分類評価プログラム、
    (a)前記クラス対の検出に用いる構成要素を各訓練パターンから検出して選択する手段と、
    (b)前記各訓練パターンをパターンセグメントに分解する手段と、
    (c)前記各訓練パターンに対して前記パターンセグメントに出現する構成要素の出現頻度に関連した値を対応する成分の値とするパターンセグメントベクトルを生成する手段と、
    (d)前記各訓練パターンの前記パターンセグメントベクトルを基に、全てのクラス対に対して訓練パターン集合間の類似度を求める手段。
  21. コンピュータにより、入力パターンをクラス毎の訓練パターン情報を基に作成されたクラス毎のクラスモデルと照合し前記入力パターンの分類を行う手段を、動作させ、さらに、以下の(a)から(d)の手段を動作させるパターン分類評価プログラム、
    (a)訓練パターン集合をもとに各パターンクラスのクラスモデルを作成する手段と、
    (b)前記入力パターンを前記クラスモデルとを照合して分類を行ない、前記入力パターンを帰属するパターンクラスに振り分けて実パターン集合を作成する手段と、
    (c)全パターンクラスに対して、前記訓練パターン集合と同じクラスの前記実パターン集合の間の第2の類似度を求める手段と、
    (d)前記第2の類似度が第2の閾値より小さいクラスを検出する手段。
  22. コンピュータにより、入力パターンをクラス毎の訓練パターン情報を基に作成されたクラス毎のクラスモデルと照合し前記入力パターンの分類を行う手段を動作させ、さらに、以下の(a)から(d)の手段を動作させるパターン分類評価プログラム、
    (a)訓練パターン集合をもとに各パターンクラスのクラスモデルを作成する手段と、
    (b)前記入力パターンを前記クラスモデルとを照合して分類を行ない、前記入力パターンを帰属するパターンクラスに振り分けて実パターン集合を作成する手段と、
    (c)各パターンクラスの前記訓練パターン集合と他の全てのパターンクラスの前記実パターン集合との間の第3の類似度を求める手段と、
    (d)前記第3の類似度が第3の閾値より大きいクラス対を検出する手段。
  23. 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項21及び請求項22に記載のプログラム、
    (a)前記クラスまたはクラス対の検出に用いる構成要素を前記各訓練パターンと前記各実パターンからから検出して選択する手段と、
    (b)前記各訓練パターンと前記各実パターンをパターンセグメントに分解する手段と、
    (c)前記各訓練パターンと前記各実パターンに対して前記パターンセグメントに出現する構成要素の出現頻度に関連した値を対応する成分の値とするパターンセグメントベクトルを生成する手段と、
    (d)前記各訓練パターンと前記実パターンの前記パターンセグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求める手段。


JP2004034729A 2003-10-31 2004-02-12 分類評価装置・方法及びプログラム Pending JP2005158010A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004034729A JP2005158010A (ja) 2003-10-31 2004-02-12 分類評価装置・方法及びプログラム
EP04256655A EP1528486A3 (en) 2003-10-31 2004-10-28 Classification evaluation system, method, and program
KR1020040087035A KR20050041944A (ko) 2003-10-31 2004-10-29 문서 분류 평가 시스템, 문서 분류 평가 방법, 패턴 분류평가 프로그램, 및 저장 매체 또는 저장 장치
US10/975,535 US20050097436A1 (en) 2003-10-31 2004-10-29 Classification evaluation system, method, and program
CNA2004100981935A CN1612134A (zh) 2003-10-31 2004-10-29 分类评估***、方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003371881 2003-10-31
JP2004034729A JP2005158010A (ja) 2003-10-31 2004-02-12 分類評価装置・方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005158010A true JP2005158010A (ja) 2005-06-16
JP2005158010A5 JP2005158010A5 (ja) 2007-11-29

Family

ID=34425419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004034729A Pending JP2005158010A (ja) 2003-10-31 2004-02-12 分類評価装置・方法及びプログラム

Country Status (5)

Country Link
US (1) US20050097436A1 (ja)
EP (1) EP1528486A3 (ja)
JP (1) JP2005158010A (ja)
KR (1) KR20050041944A (ja)
CN (1) CN1612134A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203933A (ja) * 2007-02-16 2008-09-04 Dainippon Printing Co Ltd カテゴリ作成方法および装置、文書分類方法および装置
JP2009098810A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
WO2017138549A1 (ja) * 2016-02-12 2017-08-17 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475335B2 (en) * 2004-11-03 2009-01-06 International Business Machines Corporation Method for automatically and dynamically composing document management applications
EP1796009A3 (en) * 2005-12-08 2007-08-22 Electronics and Telecommunications Research Institute System for and method of extracting and clustering information
KR100822376B1 (ko) 2006-02-23 2008-04-17 삼성전자주식회사 곡명을 이용한 음악 주제 분류 방법 및 시스템
US9015569B2 (en) * 2006-08-31 2015-04-21 International Business Machines Corporation System and method for resource-adaptive, real-time new event detection
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
US8671104B2 (en) 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US7996390B2 (en) * 2008-02-15 2011-08-09 The University Of Utah Research Foundation Method and system for clustering identified forms
US8965865B2 (en) * 2008-02-15 2015-02-24 The University Of Utah Research Foundation Method and system for adaptive discovery of content on a network
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
CN102214246B (zh) * 2011-07-18 2013-01-23 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN103577462B (zh) * 2012-08-02 2018-10-16 北京百度网讯科技有限公司 一种文档分类方法及装置
CN110147443B (zh) * 2017-08-03 2021-04-27 北京国双科技有限公司 话题分类评判方法及装置
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和***
KR102410239B1 (ko) * 2019-02-12 2022-06-20 주식회사 자이냅스 가변 분류기를 이용한 문서 학습 프로그램을 기록한 기록매체
KR102410238B1 (ko) * 2019-02-12 2022-06-20 주식회사 자이냅스 가변 분류기를 이용한 문서 학습 프로그램
KR102408628B1 (ko) * 2019-02-12 2022-06-15 주식회사 자이냅스 인공지능 기술이 접목된 가변 분류기를 사용하여 문서를 학습하는 방법
KR102375877B1 (ko) * 2019-02-12 2022-03-18 주식회사 자이냅스 빅데이터 및 딥러닝 기술에 기반하여 효율적으로 문서를 학습하는 장치
KR102408637B1 (ko) * 2019-02-12 2022-06-15 주식회사 자이냅스 인공지능 대화 서비스를 제공하기 위한 프로그램이 기록된 기록매체
KR102408636B1 (ko) * 2019-02-12 2022-06-15 주식회사 자이냅스 인공지능 기술이 접목된 가변 분류기를 사용하여 문서를 학습하는 프로그램
KR102410237B1 (ko) * 2019-02-12 2022-06-20 주식회사 자이냅스 가변 분류기를 이용하여 효율적인 학습 프로세스를 제공하는 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6734880B2 (en) * 1999-11-24 2004-05-11 Stentor, Inc. User interface for a medical informatics systems
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
JP2004519047A (ja) * 2001-02-15 2004-06-24 スフィッス メール インコーポレーテッド 電子メール・メッセージ・システム
US7359936B2 (en) * 2001-11-27 2008-04-15 International Business Machines Corporation Method and apparatus for electronic mail interaction with grouped message types
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203933A (ja) * 2007-02-16 2008-09-04 Dainippon Printing Co Ltd カテゴリ作成方法および装置、文書分類方法および装置
JP2009098810A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
WO2017138549A1 (ja) * 2016-02-12 2017-08-17 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
US10803358B2 (en) 2016-02-12 2020-10-13 Nec Corporation Information processing device, information processing method, and recording medium
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN112579729B (zh) * 2020-12-25 2024-05-21 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN1612134A (zh) 2005-05-04
US20050097436A1 (en) 2005-05-05
EP1528486A2 (en) 2005-05-04
EP1528486A3 (en) 2006-12-20
KR20050041944A (ko) 2005-05-04

Similar Documents

Publication Publication Date Title
JP2005158010A (ja) 分類評価装置・方法及びプログラム
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
Yasen et al. Movies reviews sentiment analysis and classification
CN107085581B (zh) 短文本分类方法和装置
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN109933780B (zh) 使用深度学习技术确定文档中的上下文阅读顺序
CN109933656B (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN110532353B (zh) 基于深度学习的文本实体匹配方法、***、装置
CN111897970A (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
WO2020198855A1 (en) Method and system for mapping text phrases to a taxonomy
EP1687738A2 (en) Clustering of text for structuring of text documents and training of language models
CN111368130A (zh) 客服录音的质检方法、装置、设备及存储介质
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
Khan et al. A clustering framework for lexical normalization of Roman Urdu
Selamat Improved N-grams approach for web page language identification
Khomytska et al. Automated Identification of Authorial Styles.
KR102517983B1 (ko) 생성적 적대 신경망을 이용한 문맥의존 철자오류 교정 장치 및 방법
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
JP2005115628A (ja) 定型表現を用いた文書分類装置・方法・プログラム
CN114462378A (zh) 科技项目查重方法、***、计算机设备及存储介质
CN111368068A (zh) 一种基于词性特征和语义增强的短文本主题建模方法
CN112949287B (zh) 热词挖掘方法、***、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071016

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090924

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091127

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100308