JP2005158010A - 分類評価装置・方法及びプログラム - Google Patents
分類評価装置・方法及びプログラム Download PDFInfo
- Publication number
- JP2005158010A JP2005158010A JP2004034729A JP2004034729A JP2005158010A JP 2005158010 A JP2005158010 A JP 2005158010A JP 2004034729 A JP2004034729 A JP 2004034729A JP 2004034729 A JP2004034729 A JP 2004034729A JP 2005158010 A JP2005158010 A JP 2005158010A
- Authority
- JP
- Japan
- Prior art keywords
- document
- class
- training
- similarity
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000011156 evaluation Methods 0.000 title claims 9
- 238000012549 training Methods 0.000 claims abstract description 129
- 239000013598 vector Substances 0.000 claims description 54
- 238000001514 detection method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 9
- 230000010365 information processing Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
入力文書をクラスモデルと照合することにより予め決められた文書クラスに振り分ける文書分類システムの実施時において、入力文書の内容は時間の経過とともに変化し、クラスモデルが陳腐化することがある。ところが、クラスモデル更新には多大の労力を必要とする。
【解決手段】
本願発明では、文書分類システムの実施時に各クラスに分類された実文書集合と訓練文書集合との間の類似度を全てのクラスについて求め、その類似度の低いクラスを選択する。或いは各クラスの訓練文書集合と他の全てのクラスの実文書集合間の類似度を求め、その類似度の低いクラス対を選択することにより、陳腐化を起こしたクラスを検出する。また、全てのクラス対に対して訓練文書集合間の類似度を求め、類似度の低いクラス対を選択することにより、話題の接近したクラス対を検出する。
【選択図】図2
Description
情報処理学会誌第42巻第1号(2001年1月)「テキスト分類‐学習理論の見本市‐」(著者:永田昌明、平博順)
(1)文字認識や音声認識の場合、同じクラスに属するパターンが時々刻々変化することは考えられない。クラス“2”に属する文字パターンは現在も1年前も同じ筈である。ところが、文書の場合には同じクラスであっても文書の内容が刻々変化する場合がよくある。例えば、“国際政治”というクラスを想定したとき、このクラスに属する文書の話題は、“イラク戦争”の前後でかなり異なっているものと考えられる。従って、“国際政治”のクラスモデルは、時間の経過と共に更新される必要がある。
(4)文字や音声の場合には、入力される文字や音声にどのようなクラスが存在するかはほぼ自明である。例えば文字認識で数字を認識する場合クラス数は10である。しかし、文書分類ではクラスの設定には任意性があり、どのようなクラスを用意するかは利用者の要望やシステム設計者の意図などによって決まる。
ブロック21は訓練文書集合入力、ブロック22はクラスラベル付与、ブロック23は文書前処理、ブロック24はクラス別訓練文書データベース作成、ブロック25は訓練文書集合のクラス対の類似度算出、ブロック26は類似度と閾値との比較、ブロック27は、閾値を超える類似度を有するクラス対の出力を行う。ブロック28は終了チェック処理である。以下、英文文書を例にとって実施例1について説明する。
次いでブロック36では類似度と閾値との比較を行い、ブロック37において陳腐化を起こしたクラスモデルの検出を行う。その時の閾値をβとしたとき、
次に、図5(b)を用いて、第3の実施例について説明する。ブロック31からブロック34までは、図5(a)と同様であるので説明は割愛する。ブロック39は各クラスの訓練文書集合と他の全てのクラスの実文書集合の間の類似度を算出する。ブロック40及びブロック41は、各クラスの訓練文書集合と他のクラスの実文書集合の間の類似度が閾値を超えている場合の処置を示している。ブロック42は終了チェック処理である。
なお、実施例2及び実施例3で用いたβ、γは話題内容のよく分かっている訓練文書集合を用いて予め実験的に決めておく必要がある。
110:記憶装置
120:メインメモリー
130:出力装置
140:処理装置(CPU)
150:操作部
160:入力
210:文書入力ブロック
220:文書前処理ブロック
230:文書情報処理ブロック
240:訓練文書情報格納ブロック
250:実文書情報格納ブロック
260:不適格文書クラス出力ブロック
Claims (23)
- 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合して前記入力文書の分類を行う手段を有し、さらに、以下の(a)及び(b)の手段を含む文書分類評価装置、
(a)クラス毎の訓練文書集合を用いて全てのクラス対に対して第1の類似度を求める手段、及び
(b)前記第1の類似度が第1の閾値より大きいクラス対を検出する手段。 - 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項1に記載の文書分類評価装置、
(a)前記クラス対の検出に用いる用語を各訓練文書から検出して選択する手段と、
(b)前記各訓練文書を文書セグメントに分解する手段と、
(c)前記各訓練文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
(d)前記各訓練文書の前記文書セグメントベクトルを基に、全てのクラス対に対して訓練文書集合間の類似度を求める手段。 - 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行う手段を有し、さらに、以下の(a)から(d)の手段を含む文書分類評価装置、
(a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
(b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
(c)全文書クラスに対して、前記訓練文書集合と同じクラスの前記実文書集合の間の第2の類似度を求める手段と、
(d)前記第2の類似度が第2の閾値より小さいクラスを検出する手段。 - 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行う手段を有し、さらに、以下の(a)から(d)の手段を含む文書分類評価装置、
(a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
(b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
(c)各文書クラスの前記訓練文書集合と他の全ての文書クラスの前記実文書集合との間の第3の類似度を求める手段と、
(d)前記第3の類似度が第3の閾値より大きいクラス対を検出する手段。 - 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項3及び請求項4に記載の装置、
(a)前記クラスまたはクラス対の検出に用いる用語を前記各訓練文書と前記各実文書からから検出して選択する手段と、
(b)前記各訓練文書と前記各実文書を文書セグメントに分解する手段と、
(c)前記各訓練文書と前記各実文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
(d)前記各訓練文書と前記実文書の前記文書セグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求める手段。 - コンピュータにより、入力文書をクラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合して前記入力文書の分類を行う手段を動作させ、さらに、以下の(a)及び(b)の手段を動作させる文書分類評価プログラム、
(a)前記クラス毎の訓練文書集合を用いて全てのクラス対に対して第1の類似度を求める手段、及び
(b)前記第1の類似度が第1の閾値より大きいクラス対を検出する手段。 - 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項7に記載の文書分類評価プログラム、
(a)前記クラス対の検出に用いる用語を各訓練文書から検出して選択する手段と、
(b)前記各訓練文書を文書セグメントに分解する手段と、
(c)前記各訓練文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
(d)前記各訓練文書の前記文書セグメントベクトルを基に、全てのクラス対に対して訓練文書集合間の類似度を求める手段。 - コンピュータにより、入力文書をクラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し前記入力文書の分類を行う手段を、動作させ、さらに、以下の(a)から(d)の手段を動作させる文書分類評価プログラム、
(a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
(b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
(c)全文書クラスに対して、前記訓練文書集合と同じクラスの前記実文書集合の間の第2の類似度を求める手段と、
(d)前記第2の類似度が第2の閾値より小さいクラスを検出する手段。 - コンピュータにより、入力文書をクラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し前記入力文書の分類を行う手段を動作させ、さらに、以下の(a)から(d)の手段を動作させる文書分類評価プログラム、
(a)訓練文書集合をもとに各文書クラスのクラスモデルを作成する手段と、
(b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成する手段と、
(c)各文書クラスの前記訓練文書集合と他の全ての文書クラスの前記実文書集合との間の第3の類似度を求める手段と、
(d)前記第3の類似度が第3の閾値より大きいクラス対を検出する手段。 - 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項9及び請求項10に記載のプログラム、
(a)前記クラスまたはクラス対の検出に用いる用語を前記各訓練文書と前記各実文書からから検出して選択する手段と、
(b)前記各訓練文書と前記各実文書を文書セグメントに分解する手段と、
(c)前記各訓練文書と前記各実文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成する手段と、
(d)前記各訓練文書と前記実文書の前記文書セグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求める手段。 - 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合して前記入力文書の分類を行うステップを有し、さらに、以下の(a)及び(b)のステップを有する文書分類評価方法、
(a)クラス毎の訓練文書集合を用いて全てのクラス対に対して第1の類似度を求めるステップ、及び
(b)前記第1の類似度が第1の閾値より大きいクラス対を検出するステップ。 - 前記類似度を求めるステップは、以下の(a)から(d)の手段を含む請求項13に記載の文書分類評価方法、
(a)前記クラス対の検出に用いる用語を各訓練文書から検出して選択するステップと、
(b)前記各訓練文書を文書セグメントに分解するステップと、
(c)前記各訓練文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成するステップと、
(d)前記各訓練文書の前記文書セグメントベクトルを基に、全てのクラス対に対して訓練文書集合間の類似度を求めるステップ。 - 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行うステップを有し、さらに、以下の(a)から(d)のステップを含む文書分類評価方法、
(a)訓練文書集合をもとに各文書クラスのクラスモデルを作成するステップと、
(b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成するステップと、
(c)全文書クラスに対して、前記訓練文書集合と同じクラスの前記実文書集合の間の第2の類似度を求めるステップと、
(d)前記第2の類似度が第2の閾値より小さいクラスを検出するステップ。 - 入力文書を、クラス毎の訓練文書情報を基に作成されたクラス毎のクラスモデルと照合し、前記入力文書の分類を行うステップを有し、さらに、以下の(a)から(d)の手段を含む文書分類評価方法、
(a)訓練文書集合をもとに各文書クラスのクラスモデルを作成するステップと、
(b)前記入力文書を前記クラスモデルとを照合して分類を行ない、前記入力文書を帰属する文書クラスに振り分けて実文書集合を作成するステップと、
(c)各文書クラスの前記訓練文書集合と他の全ての文書クラスの前記実文書集合との間の第3の類似度を求めるステップと、
(d)前記第3の類似度が第3の閾値より大きいクラス対を検出するステップ。 - 前記類似度を求めるステップは、以下の(a)から(d)のステップを含む請求項15及び請求項16に記載の方法、
(a)前記クラスまたはクラス対の検出に用いる用語を前記各訓練文書と前記各実文書からから検出して選択するステップと、
(b)前記各訓練文書と前記各実文書を文書セグメントに分解するステップと、
(c)前記各訓練文書と前記各実文書に対して前記文書セグメントに出現する用語の出現頻度に関連した値を対応する成分の値とする文書セグメントベクトルを生成するステップと、
(d)前記各訓練文書と前記実文書の前記文書セグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求めるステップ。 - コンピュータにより、入力パターンをクラス毎の訓練パターン情報を基に作成されたクラス毎のクラスモデルと照合して前記入力パターンの分類を行う手段を動作させ、さらに、以下の(a)及び(b)の手段を動作させるパターン分類評価プログラム、
(a)前記クラス毎の訓練パターン集合を用いて全てのクラス対に対して第1の類似度を求める手段、及び
(b)前記第1の類似度が第1の閾値より大きいクラス対を検出する手段。 - 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項19に記載のパターン分類評価プログラム、
(a)前記クラス対の検出に用いる構成要素を各訓練パターンから検出して選択する手段と、
(b)前記各訓練パターンをパターンセグメントに分解する手段と、
(c)前記各訓練パターンに対して前記パターンセグメントに出現する構成要素の出現頻度に関連した値を対応する成分の値とするパターンセグメントベクトルを生成する手段と、
(d)前記各訓練パターンの前記パターンセグメントベクトルを基に、全てのクラス対に対して訓練パターン集合間の類似度を求める手段。 - コンピュータにより、入力パターンをクラス毎の訓練パターン情報を基に作成されたクラス毎のクラスモデルと照合し前記入力パターンの分類を行う手段を、動作させ、さらに、以下の(a)から(d)の手段を動作させるパターン分類評価プログラム、
(a)訓練パターン集合をもとに各パターンクラスのクラスモデルを作成する手段と、
(b)前記入力パターンを前記クラスモデルとを照合して分類を行ない、前記入力パターンを帰属するパターンクラスに振り分けて実パターン集合を作成する手段と、
(c)全パターンクラスに対して、前記訓練パターン集合と同じクラスの前記実パターン集合の間の第2の類似度を求める手段と、
(d)前記第2の類似度が第2の閾値より小さいクラスを検出する手段。 - コンピュータにより、入力パターンをクラス毎の訓練パターン情報を基に作成されたクラス毎のクラスモデルと照合し前記入力パターンの分類を行う手段を動作させ、さらに、以下の(a)から(d)の手段を動作させるパターン分類評価プログラム、
(a)訓練パターン集合をもとに各パターンクラスのクラスモデルを作成する手段と、
(b)前記入力パターンを前記クラスモデルとを照合して分類を行ない、前記入力パターンを帰属するパターンクラスに振り分けて実パターン集合を作成する手段と、
(c)各パターンクラスの前記訓練パターン集合と他の全てのパターンクラスの前記実パターン集合との間の第3の類似度を求める手段と、
(d)前記第3の類似度が第3の閾値より大きいクラス対を検出する手段。 - 前記類似度を求める手段は、以下の(a)から(d)の手段を含む請求項21及び請求項22に記載のプログラム、
(a)前記クラスまたはクラス対の検出に用いる構成要素を前記各訓練パターンと前記各実パターンからから検出して選択する手段と、
(b)前記各訓練パターンと前記各実パターンをパターンセグメントに分解する手段と、
(c)前記各訓練パターンと前記各実パターンに対して前記パターンセグメントに出現する構成要素の出現頻度に関連した値を対応する成分の値とするパターンセグメントベクトルを生成する手段と、
(d)前記各訓練パターンと前記実パターンの前記パターンセグメントベクトルを基に、前記第2の類似度、若しくは前記第3の類似度を求める手段。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004034729A JP2005158010A (ja) | 2003-10-31 | 2004-02-12 | 分類評価装置・方法及びプログラム |
EP04256655A EP1528486A3 (en) | 2003-10-31 | 2004-10-28 | Classification evaluation system, method, and program |
KR1020040087035A KR20050041944A (ko) | 2003-10-31 | 2004-10-29 | 문서 분류 평가 시스템, 문서 분류 평가 방법, 패턴 분류평가 프로그램, 및 저장 매체 또는 저장 장치 |
US10/975,535 US20050097436A1 (en) | 2003-10-31 | 2004-10-29 | Classification evaluation system, method, and program |
CNA2004100981935A CN1612134A (zh) | 2003-10-31 | 2004-10-29 | 分类评估***、方法和程序 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003371881 | 2003-10-31 | ||
JP2004034729A JP2005158010A (ja) | 2003-10-31 | 2004-02-12 | 分類評価装置・方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005158010A true JP2005158010A (ja) | 2005-06-16 |
JP2005158010A5 JP2005158010A5 (ja) | 2007-11-29 |
Family
ID=34425419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004034729A Pending JP2005158010A (ja) | 2003-10-31 | 2004-02-12 | 分類評価装置・方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20050097436A1 (ja) |
EP (1) | EP1528486A3 (ja) |
JP (1) | JP2005158010A (ja) |
KR (1) | KR20050041944A (ja) |
CN (1) | CN1612134A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203933A (ja) * | 2007-02-16 | 2008-09-04 | Dainippon Printing Co Ltd | カテゴリ作成方法および装置、文書分類方法および装置 |
JP2009098810A (ja) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | 文書分類装置およびプログラム |
WO2017138549A1 (ja) * | 2016-02-12 | 2017-08-17 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
CN112579729A (zh) * | 2020-12-25 | 2021-03-30 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475335B2 (en) * | 2004-11-03 | 2009-01-06 | International Business Machines Corporation | Method for automatically and dynamically composing document management applications |
EP1796009A3 (en) * | 2005-12-08 | 2007-08-22 | Electronics and Telecommunications Research Institute | System for and method of extracting and clustering information |
KR100822376B1 (ko) | 2006-02-23 | 2008-04-17 | 삼성전자주식회사 | 곡명을 이용한 음악 주제 분류 방법 및 시스템 |
US9015569B2 (en) * | 2006-08-31 | 2015-04-21 | International Business Machines Corporation | System and method for resource-adaptive, real-time new event detection |
JP5011947B2 (ja) * | 2006-10-19 | 2012-08-29 | オムロン株式会社 | Fmeaシートの作成方法およびfmeaシート自動作成装置 |
US8671104B2 (en) | 2007-10-12 | 2014-03-11 | Palo Alto Research Center Incorporated | System and method for providing orientation into digital information |
US8165985B2 (en) | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
US8073682B2 (en) * | 2007-10-12 | 2011-12-06 | Palo Alto Research Center Incorporated | System and method for prospecting digital information |
US7996390B2 (en) * | 2008-02-15 | 2011-08-09 | The University Of Utah Research Foundation | Method and system for clustering identified forms |
US8965865B2 (en) * | 2008-02-15 | 2015-02-24 | The University Of Utah Research Foundation | Method and system for adaptive discovery of content on a network |
US20100057577A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing |
US8010545B2 (en) * | 2008-08-28 | 2011-08-30 | Palo Alto Research Center Incorporated | System and method for providing a topic-directed search |
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
US8868402B2 (en) * | 2009-12-30 | 2014-10-21 | Google Inc. | Construction of text classifiers |
US9031944B2 (en) | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
CN102214246B (zh) * | 2011-07-18 | 2013-01-23 | 南京大学 | 一种互联网上汉语电子文档阅读分级的方法 |
CN103577462B (zh) * | 2012-08-02 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种文档分类方法及装置 |
CN110147443B (zh) * | 2017-08-03 | 2021-04-27 | 北京国双科技有限公司 | 话题分类评判方法及装置 |
CN108573031A (zh) * | 2018-03-26 | 2018-09-25 | 上海万行信息科技有限公司 | 一种基于内容的投诉分类方法和*** |
KR102410239B1 (ko) * | 2019-02-12 | 2022-06-20 | 주식회사 자이냅스 | 가변 분류기를 이용한 문서 학습 프로그램을 기록한 기록매체 |
KR102410238B1 (ko) * | 2019-02-12 | 2022-06-20 | 주식회사 자이냅스 | 가변 분류기를 이용한 문서 학습 프로그램 |
KR102408628B1 (ko) * | 2019-02-12 | 2022-06-15 | 주식회사 자이냅스 | 인공지능 기술이 접목된 가변 분류기를 사용하여 문서를 학습하는 방법 |
KR102375877B1 (ko) * | 2019-02-12 | 2022-03-18 | 주식회사 자이냅스 | 빅데이터 및 딥러닝 기술에 기반하여 효율적으로 문서를 학습하는 장치 |
KR102408637B1 (ko) * | 2019-02-12 | 2022-06-15 | 주식회사 자이냅스 | 인공지능 대화 서비스를 제공하기 위한 프로그램이 기록된 기록매체 |
KR102408636B1 (ko) * | 2019-02-12 | 2022-06-15 | 주식회사 자이냅스 | 인공지능 기술이 접목된 가변 분류기를 사용하여 문서를 학습하는 프로그램 |
KR102410237B1 (ko) * | 2019-02-12 | 2022-06-20 | 주식회사 자이냅스 | 가변 분류기를 이용하여 효율적인 학습 프로세스를 제공하는 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6734880B2 (en) * | 1999-11-24 | 2004-05-11 | Stentor, Inc. | User interface for a medical informatics systems |
JP2002169834A (ja) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
JP2004519047A (ja) * | 2001-02-15 | 2004-06-24 | スフィッス メール インコーポレーテッド | 電子メール・メッセージ・システム |
US7359936B2 (en) * | 2001-11-27 | 2008-04-15 | International Business Machines Corporation | Method and apparatus for electronic mail interaction with grouped message types |
JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
-
2004
- 2004-02-12 JP JP2004034729A patent/JP2005158010A/ja active Pending
- 2004-10-28 EP EP04256655A patent/EP1528486A3/en not_active Withdrawn
- 2004-10-29 KR KR1020040087035A patent/KR20050041944A/ko not_active Application Discontinuation
- 2004-10-29 US US10/975,535 patent/US20050097436A1/en not_active Abandoned
- 2004-10-29 CN CNA2004100981935A patent/CN1612134A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203933A (ja) * | 2007-02-16 | 2008-09-04 | Dainippon Printing Co Ltd | カテゴリ作成方法および装置、文書分類方法および装置 |
JP2009098810A (ja) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | 文書分類装置およびプログラム |
WO2017138549A1 (ja) * | 2016-02-12 | 2017-08-17 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
US10803358B2 (en) | 2016-02-12 | 2020-10-13 | Nec Corporation | Information processing device, information processing method, and recording medium |
CN112579729A (zh) * | 2020-12-25 | 2021-03-30 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
CN112579729B (zh) * | 2020-12-25 | 2024-05-21 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN1612134A (zh) | 2005-05-04 |
US20050097436A1 (en) | 2005-05-05 |
EP1528486A2 (en) | 2005-05-04 |
EP1528486A3 (en) | 2006-12-20 |
KR20050041944A (ko) | 2005-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
Yasen et al. | Movies reviews sentiment analysis and classification | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN109933780B (zh) | 使用深度学习技术确定文档中的上下文阅读顺序 | |
CN109933656B (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
CN110532353B (zh) | 基于深度学习的文本实体匹配方法、***、装置 | |
CN111897970A (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
WO2020198855A1 (en) | Method and system for mapping text phrases to a taxonomy | |
EP1687738A2 (en) | Clustering of text for structuring of text documents and training of language models | |
CN111368130A (zh) | 客服录音的质检方法、装置、设备及存储介质 | |
CN113806493A (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
CN113935314A (zh) | 基于异构图网络的摘要抽取方法、装置、终端设备及介质 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Selamat | Improved N-grams approach for web page language identification | |
Khomytska et al. | Automated Identification of Authorial Styles. | |
KR102517983B1 (ko) | 생성적 적대 신경망을 이용한 문맥의존 철자오류 교정 장치 및 방법 | |
US11580499B2 (en) | Method, system and computer-readable medium for information retrieval | |
JP2005115628A (ja) | 定型表現を用いた文書分類装置・方法・プログラム | |
CN114462378A (zh) | 科技项目查重方法、***、计算机设备及存储介质 | |
CN111368068A (zh) | 一种基于词性特征和语义增强的短文本主题建模方法 | |
CN112949287B (zh) | 热词挖掘方法、***、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071016 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090924 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20091127 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20091130 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100308 |