JPH0916627A - 情報フィルタ装置及び情報フィルタ方法 - Google Patents

情報フィルタ装置及び情報フィルタ方法

Info

Publication number
JPH0916627A
JPH0916627A JP8102655A JP10265596A JPH0916627A JP H0916627 A JPH0916627 A JP H0916627A JP 8102655 A JP8102655 A JP 8102655A JP 10265596 A JP10265596 A JP 10265596A JP H0916627 A JPH0916627 A JP H0916627A
Authority
JP
Japan
Prior art keywords
keyword
document
keywords
learning
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8102655A
Other languages
English (en)
Other versions
JP3472032B2 (ja
Inventor
Nobuhiro Shimogoori
信宏 下郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10265596A priority Critical patent/JP3472032B2/ja
Publication of JPH0916627A publication Critical patent/JPH0916627A/ja
Application granted granted Critical
Publication of JP3472032B2 publication Critical patent/JP3472032B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】推定精度が良好であり、計算量が少く高速に推
論/学習を行なうことができる情報フィルタ装置を提供
すること。 【解決手段】文書を入力する文書入力手段1と、この文
書入力手段より入力された前記文書からキーワードを抽
出するキーワード抽出手段3と、予め定められたキーワ
ードの組合せと評価値の関係を記憶する記憶手段4と、
この記憶手段に記憶された前記関係と前記文書から抽出
された前記キーワードのうちの所定のキーワードに基い
て、入力された前記文書の重要度を推論する推論手段5
と、この推論手段により重要と判定された文書を利用者
に表示する表示手段6と、この表示された文書の重要性
に関する評価値を得るための評価データ入力手段7と、
前記文書から抽出されたキーワードと得られた評価値を
用いて、前記キーワードの組合せと評価値の関係を学習
する学習手段8とを具備したことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入手した文書に読
む価値があるか否かを利用者に代わって判定し、読む価
値があると判定された文書のみを利用者に提示する情報
フィルタ装置及び情報フィルタ方法に関する。
【0002】
【従来の技術】近年、情報機器や情報記憶媒体等の大容
量化・低価格化に伴い、膨大な量の電子化情報が種々の
媒体で流通されるようになった。このように情報量が増
大してくると、利用者が全ての情報に目を通すことは不
可能であり、読む価値のある情報を選択する必要がでて
くる。しかし、大量の情報のうちから、必要な情報だけ
を選択すること自体が一般ユーザの限られた能力や時間
では困難になっている。
【0003】そこで、利用者に代わって新着の文書の内
容を前もって評価し、読む価値があると思われるものだ
けを利用者に提示するような情報フィルタが種々提案さ
れている。このような従来の情報フィルタは、文書の内
容に関するキーワードを用いて文書の選択或いは評価を
行うものであって、(1)検索式のようなルールを予め
登録しておくもの、(2)ニューラルネットを用いるも
の、などが知られている。
【0004】しかしながら、従来のルール記述型の情報
フィルタでは、利用者側においてキーワードを用いて検
索式のようなルールを明示的に記述したものを用意する
必要がある。ここで、利用者の興味等が変化した場合に
はその都度、利用者自身がルールを再定義しなければ対
応できないので、不便である。また、利用者の要求を十
分に満たすようにルールを記述するためには、ある程度
の経験や試行錯誤が必要とされ、簡易に適切なルールを
記述できるといったようなものではない。
【0005】また、従来のニューラルネットを用いた情
報フィルタでは、ニューラルネットが利用者の好みを学
習してそれに基づき、情報を選択するので利用者側にお
いてルール記述の手間や経験が不要というメリットがあ
るが、その反面、ニューラルネット側では利用者の好み
を学習するために膨大な計算量が必要となり、計算量を
抑えるようにすると、充分な学習効果が得られない。
【0006】以上のように、大量の情報の中から、利用
者の必要とする情報を選択して、その利用者に提示する
ようにした従来の情報フィルタは、ルール記述型の情報
フィルタの場合には、利用者がルールを明示的に記述す
るひつようがあり、利用者の興味が変化した場合には、
再び利用者がルールを定義し直す必要があるので、使用
に際して不便であった。
【0007】また、一方、ニューラルネットを用いた従
来の情報フィルタは、利用者の好みを学習するのに膨大
な計算量を必要とし、計算量を抑えようとすると充分な
学習効果が得られず、必要な情報を適確に選択できな
い。
【0008】
【発明が解決しようとする課題】以上のように、大量の
情報の中から、利用者の必要とする情報を選択してその
利用者に提示するようにした従来の情報フィルタにおい
ては、ルール記述型の情報フィルタの場合、利用者がル
ールを明示的に記述せねばらず、利用者の興味が変化し
た場合には再び利用者がルールを定義し直さねばならず
不便であった。
【0009】また、一方、ニューラルネットを用いた従
来の情報フィルタにおいては、利用者の好みを学習する
のに膨大な計算量を必要としており、計算量を抑えよう
とすると充分な学習効果が得られず、必要な情報を適確
に選択できないという問題があった。
【0010】従って、いずれの方式の情報フィルタにお
いても使い勝手の良いものではなく、大幅な改善が必要
であり、実用性に乏しいものであった。そのため、もっ
と実用的な情報フィルタの開発が嘱望されている。
【0011】そこで、この発明の目的とするところは、
大量の情報の中から、ユーザの必要とする情報を選択す
るにあたり、無用に手間をかけることなく利用者の好み
の変化を反映できて、しかも、推定精度が良好であり、
かつ計算量が少く高速に推論/学習を行なうことができ
るようにした実用性の高い情報フィルタ装置および情報
フィルタ方法を提供することにある。
【0012】
【課題を解決するための手段】本発明は、大量の情報の
中から、ユーザの必要とする情報を選択するにあたり、
実用性の高い情報フィルタ装置を提供するものであっ
て、特に、次のような情報フィルタを提供することを目
的としている。
【0013】(1) 無用に手間をかけることなく利用
者の好みの変化を反映できること。 (2) 推定精度が良好であること。 (3) 計算量が少なく高速に推論/学習を行うことが
できること。 そして、上記目的を達成するため、本発明はつぎのよう
にする。すなわち、文書を入力する文書入力手段と、こ
の文書入力手段より入力された前記文書からキーワード
を抽出するキーワード抽出手段と、予め定められたキー
ワードの組合せと文書の重要性に関する評価値の関係を
記憶する記憶手段と、この記憶手段に記憶された前記関
係と前記入力された文書から抽出された前記キーワード
のうちの所定のキーワードに基いて、前記入力された文
書の重要度を推論する推論手段と、この推論手段により
重要度が高いと判定された場合に、前記入力された文書
を利用者に表示する表示手段とを具備したことを特徴と
する。
【0014】また、本発明は、入力された文書から抽出
されたキーワードに基いて該文書の重要度を推論し、該
文書が重要と判定された場合に提示を行なう情報フィル
タ装置において、前記推論に用いるための予め定められ
たキーワードの組合せと文書の重要度に関する評価値の
関係の情報を保持する記憶手段と、学習対象となる文書
からキーワードを抽出するキーワード抽出手段と、前記
学習対象となる文書の評価値を入力するための評価デー
タ入力手段と、前記文書から抽出されたキーワードのう
ちの所定のキーワードと得られた前記評価値を用いて、
前記記憶手段の保持する前記キーワードの組合せと評価
値の関係の情報を学習する学習手段とを具備したことを
特徴とする。
【0015】また、本発明は、文書を入力する文書入力
手段と、この文書入力手段より入力された前記文書から
キーワードを抽出するキーワード抽出手段と、予め定め
られたキーワードの組合せと評価値の関係の情報を保持
する記憶手段と、この記憶手段に記憶された前記関係と
前記文書から抽出された前記キーワードのうちの所定の
キーワードに基いて、前記入力された文書の重要度を推
論する推論手段と、この推論手段により重要と判定され
た文書を利用者に提示する表示手段と、この表示された
文書の重要性に関する前記利用者の評価値を入力するた
めの評価データ入力手段と、前記文書から抽出されたキ
ーワードと得られた前記評価値を用いて、前記記憶手段
に保持させる前記キーワードの組合せと評価値の関係の
情報を学習させる学習手段とを具備したことを特徴とす
る。
【0016】また、好ましくは、前記学習手段は、前記
キーワード抽出手段により前記所定のキーワード以外の
新規のキーワードが抽出された場合に、過去の前記関係
の学習結果に該新規キーワードを追加するキーワード追
加手段をさらに具備したことを特徴とする。
【0017】また、好ましくは、前記学習手段は、前記
キーワードの組合せと評価値の関係を学習する際、前記
文書から抽出されたキーワードが影響を及ぼす範囲につ
いてのみ学習するものであり、前記推論手段は、文書か
ら抽出されたキーワードに所定のキーワードが存在しな
いとした場合の該文書の重要度を予め保持しておき、入
力された前記文書の重要度を推論する際、前記文書から
抽出されたキーワードに所定のキーワードが存在する場
合に該キーワードが該保持しておいた重要度を変動させ
る値を求め、この値に基いて該保持しておいた重要度を
修正することにより、入力された前記の重要度を求める
ものであることを特徴とする。
【0018】また、好ましくは、前記推論手段は、入力
された前記文書の重要度をスペクトル理論に基づいて推
論するものであることを特徴とする。
【0019】また、好ましくは、前記学習手段は、前記
キーワードの組合せと評価値の関係をスペクトル理論に
基づいて学習するものであることを特徴とする。また、
好ましくは、前記文書から抽出されたキーワードのうち
の前記所定のキーワードの、抽出された全キーワードに
占める割合が、予め定められた値に満たない場合は、前
記推論手段による推論を行なわずに利用者に表示するよ
うにしたことを特徴とする。
【0020】本発明では、入力された文書からキーワー
ドを抽出し、記憶手段に記憶している予め定められたキ
ーワードの組合せと文書の重要性に関する評価値の関係
の情報と前記入力文書から抽出されたキーワードのうち
の所定のキーワード(例えばテーブルに登録してあるキ
ーワード)に基いて、その入力された文書の重要度を推
論する。そして、推論手段により重要と判定された文書
を利用者に提示する。
【0021】この推論は、好ましくは、スペクトル理論
(高速スペクトル理論)に基づいて行なわれる。また、
本発明では、入力文書から抽出されたキーワードに基い
て該文書の重要度を推論し、該文書が重要と判定された
場合に表示を行なうような情報フィルタにおいて、記憶
手段に保持させる推論に用いるための予め定められたキ
ーワードの組合せと文書の重要性に関する評価値の関係
の情報を学習する際、学習対象となる文書から抽出され
たキーワードのうちの所定のキーワード(例えばテーブ
ルに登録してあるキーワード)と、得られた評価値を用
いて、キーワードの組合せと評価値の関係を学習する。
この学習は、好ましくは、スペクトル理論に基づいて行
なわれる。
【0022】本発明によれば、評価対象の文書から抽出
されるキーワードの組合せと、このキーワードの組み合
わせで決まる文書の重要度に関する評価値の関係だけに
基いて推論/学習を行なうので、良好な推定精度を維持
しつつ、しかも、計算量を少くし、高速に判定/学習を
行なうことが可能な情報フィルタ装置を得ることができ
るようになる。従って、本発明によれば、利用者は明ら
かに興味のない文書を読む必要がなくなる。
【0023】尚、本発明はコンピュータで読取り、実行
できるアプリケーションソフトウエアとして可搬可能な
記憶媒体に格納するなどして頒布可能であることから、
次のような形態も発明の範疇に含まれる。
【0024】[1] コンピュータなどのような情報表
示装置と共に用いられ、入力した文書から情報をフィル
タすることにより所定の文書を表示する処理プログラム
を媒体内に記憶したコンピュータ読み取り実行可能な記
憶媒体であって、入力された文書からキーワードを抽出
するプログラムコード手段と、予め定められたキーワー
ドの組合せと文書に与えられる評価値との関係を記憶す
るプログラムコード手段と、記憶された前記関係と前記
入力された文書から抽出された前記キーワードのうちの
所定のキーワードとに基づいて、前記入力された文書の
重要度を推論するプログラムコード手段と、からなる処
理プログラムを媒体内に記憶した読み取り可能な記憶媒
体。
【0025】[2] 前記推論により得られた重要度
が、所定の条件を満たしているか否かを判定するプログ
ラムコード手段と、前記判定により所定の条件を満たし
ていると判定された場合に、前記入力された文書に関す
る所定の情報を利用者に表示するプログラムコード手段
と、を更に具備してなる処理プログラムを媒体内に記憶
した前記[1]記載の読み取り可能な記憶媒体。
【0026】[3] 表示された前記所定の情報に基づ
いて、前記利用者に対する評価値を入力するプログラム
コード手段と、前記文書から抽出されたキーワードと、
前記入力された評価値とに基づいて、前記キーワードの
組合せと前記評価値との関係の情報を学習するプログラ
ムコード手段と、を更に具備してなる処理プログラムを
媒体内に記憶した前記[2]記載の読み取り可能な記憶
媒体。
【0027】[4] 前記学習させるプログラムコード
手段は、前記所定のキーワード以外の新規のキーワード
が抽出された場合に、前記新規のキーワードを追加する
プログラムコード手段を更に有してなる処理プログラム
を媒体内に記憶した前記[3]記載の読み取り可能な記
憶媒体。
【0028】[5] 前記学習させるプログラムコード
手段は、前記キーワードの組合せと評価値の関係を学習
する際、前記文書から抽出されたキーワードが影響を及
ぼす範囲について学習するプログラムコード手段を含
み、前記推論するプログラムコード手段は、文書から抽
出されたキーワードに所定のキーワードが存在しないと
した場合の当該文書の重要度を予め保持しておき、入力
された前記文書の重要度を推論する際に、前記文書から
抽出されたキーワードに所定のキーワードが存在する場
合に当該キーワードが保持しておいた重要度を変動させ
る値を求め、この値に基づいて該保持しておいた重要度
を修正することにより、入力された前記の重要度を求め
るプログラムコード手段を含んでなる処理プログラムを
媒体内に記憶した前記[3]記載の読み取り可能な記憶
媒体。
【0029】
【発明の実施の形態】以下、図面を参照しながら本発明
の具体例を説明する。
【0030】(第1の具体例)図1は、本発明の第1の
具体例に係る情報フィルタ装置の構成を示す図である。
本発明の第1の具体例における情報フィルタ装置は、文
書入力部1、文書記憶部2、キーワード抽出部3、デー
タ記憶部4、推論部5、表示部6、評価データ入力部7
及び学習部8を備えている。
【0031】文書入力部1は、外部から電子化された文
書のデータ(以下、単に文書と呼ぶ)を入力するための
ものであり、文書の伝達形態に応じて、ネットワーク接
続装置、無線受信装置、磁気デイスク/テープ読取り装
置、CD‐ROM読取り装置等の所望の装置を用いるこ
とができる。
【0032】文書記憶部2は、外部から入力した文書を
一時的に蓄えるためのものであり、磁気ディスク装置、
磁気テープ装置、光ディスク装置、半導体メモリ等、所
望の装置を用いることができる。
【0033】キーワード抽出部3は、文書記憶部2に一
時的に蓄えられた新たな文書から、所定のキーワードを
抽出する。文書からのキーワード抽出にあたってどのよ
うなキーワードを抽出の対象とするかは、次のようにし
て決める。
【0034】キーワードは予め文書に付加して送る形態
と、付加しない形態とがあるので、キーワードの抽出に
は、例えば次のような方法を適用すればよい。
【0035】予め文書にキーワードが付加されていない
場合には、(1) 公知のキーワード抽出手段(例えば、石
川巌他:「文書解析処理に基づく主題索引作成支援シス
テム」、情報処理学会論文誌Vol.132,1991
にて開示されているキーワード抽出手段等)を用いて文
書中からキーワードを抽出する。
【0036】また、英文の場合には、単語の語幹を抽出
する。
【0037】予め文書にキーワードが付加されている場
合には、次のような手段が用いられる。
【0038】[1] 上記(1) のキーワード抽出手段を
用いる、 [2] 文書に付加されているキーワードを取り出す。
そして、この取り出したものをキーワードとする。
【0039】[3] 上記[1]、[2]の両者を併用
する。
【0040】このようにすることにより、所要とするキ
ーワードを定めてそのキーワードに該当するキーワード
を文書中から検索抽出する。
【0041】データ記憶部4は、データを記憶保持する
ものであって、詳細は後述するスペクトル理論に基づい
た推論に用いる係数(後述するαs)、入力ベクトル及
び事例ベクトルの作成に用いる図2に示すようなキーワ
ードテーブル、及び/又は、学習部8の学習結果などを
記憶する。
【0042】図2に示すようなキーワードテーブルは、
例えば、キーワードとして“ワープロ”、“辞書”、
“帰納”、“学習”、“情報”、“フィルタ”、“光
学”…といった言葉(キーワード)をキーワード番号と
共に登録する。具体的には、例えば、“ワープロ”とい
う言葉は“1”というキーワード番号と共に登録されて
おり、“辞書”という言葉は“2”というキーワード番
号と共に登録されており、“帰納”という言葉は“3”
というキーワード番号と共に登録されている。
【0043】推論部5は、入力文書中からキーワード抽
出部3で抽出されたキーワード群をキーワード抽出部3
から受取り、データ記憶部4に記憶されているキーワー
ドテーブルを用いて、キーワード抽出部3から受け取っ
たキーワードのキーワード番号を求め、入力ベクトルを
生成した後に、データ記憶部4に記憶されている現時点
での係数αsを用いてスペクトル理論に基づく推論を行
う。この推論における出力は、文書を利用者に提示すべ
きであるか否かを示す情報である。例えば、文書を利用
者に提示すべきであると判定された場合は“1”を、そ
うでない場合は“−1”を出力する。
【0044】表示部6は制御機能部6aと出力部6bと
を有する。制御機能部6aは推論部5による上記の推論
の結果、利用者に提示すべきであると判定された文書の
内容を利用者に提示するためのものであって、推論部5
から指示された文書を文書記憶部2から読み出して出力
制御する。出力部6bは、この制御機能部6aによる出
力制御に基づき、その文書を表示もしくは印字出力する
ものであって、デイスプレイ装置やプリンタ装置、或い
は音声出力装置などがあげられる。
【0045】評価データ入力部7は、提示された文書に
対する評価データを入力する。評価データとは、例え
ば、文書が読む価値のあるか否かを示す情報である。実
際に入力する評価データとしては、文書が読む価値のあ
るものであった場合は評価値“1”を、そうでなかった
場合は評価値“−1”を入力しても良いし、他の形態
(例えば“O(マル),×(バツ)”又は“true,
false”等)の情報をキー入力或いは選択入力し、
評価データ入力部7内部で評価値“1”や“−1”に変
換するようにしても良い。
【0046】学習部8は、評価データ入力部7への入力
から得られた評価値(“+1”又は“−1”)に基づい
て係数αsの学習を行う。
【0047】本具体例の情報フィルタ装置の概略動作を
説明する。本具体例の情報フィルタ装置の動作は、大き
く分けると実際の情報フィルタリング処理とその結果の
選択提示動作を含めた推論のプロセスと、良好な推論結
果を得るための学習のプロセスの2つからなる。
【0048】推論のプロセスにおいては、文書入力部1
から新たに入力された文書は文書記憶部2に一時的に蓄
えられる。そして、この文書からキーワード抽出部3に
よりキーワードが抽出される。推論部5は、当該文書に
関して抽出されたキーワード群を受取り、図2に示した
ようなキーワードテーブルを用いて、出現したキーワー
ドのキーワード番号を求め、入力ベクトルを生成し、現
時点での係数αsを用いてスペクトル理論による推論を
行う。
【0049】そして、推論部5はスペクトル理論による
推論の結果、利用者に提示すべきであると判定した場合
には、表示部6に文書を表示することを指示する。この
指示を推論部5から受けると、表示部6は文書記憶部2
に記憶されている当該提示すべきと判定した文書の内容
を読み出して出力部6bに出力し、利用者に提示する。
利用者は出力部6bから出力された文書を読むことにな
る。
【0050】学習プロセスは次のように行われる。
【0051】利用者は、推論のプロセスによって表示部
6において提示された文書に対する評価を評価データ入
力部7より入力する。この入力された評価のデータは学
習部8に与えられ、学習部8はこの与えられた評価値を
もとにスペクトル理論に基づいて係数αsの学習を行
う。
【0052】この学習プロセスは、予め与えられた教示
データに基づく初期学習および推論のプロセスに伴う学
習の際に行われる。すなわち、良好な予測結果を得るた
めに、教示データを与え、後述する係数αsを計算す
る。また、推論のプロセスにおいて教示された文書に対
して、利用者が評価を与えることにより、さらに係数α
sが計算され、学習が進むこととなる。
【0053】推論部5、学習部8にて行うスペクトル理
論に基づく推論・学習について説明する。ここで、スペ
クトル理論は、例えば、Nathan Linial 等による"Const
antDepth Circuits, Fourier Transform, and Learnabi
lty", Jouranl of the Association for Computing Mac
hinery, Vol. 40, No. 3, July 1993, pp. 607-620)等
に詳しく述べられている。
【0054】スペクトル理論では、入力(問題)と出力
(正解)の組みを与えて、評価関数のパラメータの学習
を行い、今までに入力されたことのない新たな問題が与
えられた場合に、その時点でのパラメータを用いて正解
を推論する。もちろん、入力されたことのある問題が与
えられた場合も正解を得ることができる。
【0055】このようなスペクトル理論を情報フィルタ
装置に適用する場合、キーワードの集合又はその要素の
組合わせを入力(問題)とし、これに対応する評価値を
出力(正解)とし、新着文書から抽出したキーワードの
組合わせを入力として与えて、これに対応する評価値を
推論する。
【0056】すなわち、本発明の推論及び学習は、予め
内容と評価のわかっている複数の事例を与えてどのよう
な入力の場合にどのような出力(評価値)となるかを予
め学習させ、学習終了後に、ある入力の答えが、どのよ
うな評価値をとるかを予測するものである。このような
推論及び学習に対し、本発明ではスペクトル理論を用い
ている。
【0057】もう少し具体的にスペクトル理論について
説明する。例えば、学習事例として以下のような入力ベ
クトル(入力)及び出力(評価値)からなる事例を与え
て学習を行う。
【0058】 入力(0,1,1,1,1) 出力“+1” 入力(1,0,1,1,1) 出力“−1” 入力(1,1,0,1,1) 出力“+1” 入力(1,1,1,0,1) 出力“−1” 入力(1,1,1,1,0) 出力“+1” すなわち、スペクトル理論の手法とは、所定の入力ベク
トルを入力した場合にその入力に対応して、どのような
出力(評価値)が得られるかを学習させ、その学習が終
了した後に、例えば、入力ベクトルが“入力(1,1,
1,1,1)”である場合の答えが、“+1”である
か、或いは“−1”であるかを予測するような推論を行
う手法である。
【0059】このようなスペクトル理論の手法を情報フ
ィルタに応用するために、本発明システムにおける推論
部5では、推論を行おうとする対象である文書からキー
ワード抽出部3によって抽出されたキーワード(抽出キ
ーワード)について統一的な順番を付けて並べる。この
統一的な順番とは、例えば、キーワードテーブルのキー
ワードの並び順を意味するが、この並び順をユーザが適
宜編集して、変更できるようにしても良い。そして、抽
出したキーワードを順に、興味を引く対象として登録さ
れた語句(キーワード)に対応するキーワードであるか
図2に示すようなキーワードテーブルを参照して調べ、
登録されたものに該当していれば“1”に、該当してい
なければ“0”に置き換えることによって入力ベクトル
を作成する。具体的には、抽出キーワード群を順に1つ
づつ、登録キーワードと比較して登録キーワードに一致
するものがあれば“1”と置き、一致するものがなけれ
ば“0”と置くことで、入力ベクトルを生成する。
【0060】また、学習にあたっては、本具体例におい
ては、利用者が興味を持つ内容の文書の場合は出力(評
価値)を“1”、興味のない内容の文書の場合は出力
(評価値)を“0”とし、これを用いて入力・出力の組
(入力ベクトルと評価値の組)による事例を構成し、幾
つかの事例を学習文書として与えることによって、推論
に用いるパラメータの学習を行う。
【0061】例えば、利用者の興味のある分野のキーワ
ードとして、図2のようなキーワードが予めシステムに
登録されており、学習のための事例文書に「“情報”、
“フィルタ”、“学習”、“利用者”、“アルゴリズ
ム”」の5つのキーワードが、「“…”,“…”,
“…”,“情報”,“フィルタ”,“学習”,“…”,
“利用者”,“…”,“…”,“…”,“アルゴリズ
ム”,“…”,“…”,“…”」(但し、“…”はキー
ワードテーブルにキーワードとして登録されていない語
句であるが、キーワード抽出部3が抽出キーワードとし
て抽出したものを示す)のように他の語句に混って出現
していたとすると、この場合、この文書に対して推論部
5にて生成される入力ベクトルは、 (0,0,0,1,1,1,0,1,0,0,0,1,
0,0,0) となる。
【0062】そして、学習を行う場合に、利用者が、こ
の提示された文書を読んでみて、読むに値するか否かを
判断して、利用者が評価データ入力部7よりその旨の評
価を入力する。評価データ入力部7から、その評価対応
に評価値“+1”(読むに値する)、評価値“−1”
(読むに値しない)が、学習部8に与えられることによ
って、学習部8はこの与えられた評価値“+1”、“−
1”に基づいて係数αsを計算し、この係数αsに基づ
いて学習が行われる。
【0063】このようにして利用者が、表示された文書
を読んだ結果、読むに値するか否かの評価をデータ入力
部7で入力することで学習部8は当該データ入力部7か
ら評価対応に出力される評価値(“+1”又は“−
1”)に基づいて係数αsの学習を行う。
【0064】次に、スペクトル理論に基づく学習方法と
推論方法を具体的に示す。
【0065】まず、学習や推論で使用する要素について
定義とその説明を行う。ここで使用する要素には、X,
Xi,S,s,χs(Xi),αs,f(Χi)といっ
たものがある。
【0066】これらのうち、入力ベクトル全体集合
“X”は入力事例の全体を表す。例えば、以下のような
入力ベクトルがその並び順に入ってきたとする。
【0067】(0,1,1,1,1) (1,0,1,1,1) (1,1,0,1,1) (1,1,1,0,1) (1,1,1,1,0) この例の場合、入力事例の全体を示す入力ベクトル全体
集合Xは、X=((0,1,1,1,1)、(1,0,
1,1,1)、(1,1,0,1,1)、(1,l,
1,0,1)、(1,1,1,1,0))と書ける。
【0068】入力ベクトル要素“Xi”はi番目の入力
事例の入力ベクトルを表す。例えば、上記の場合、1番
目の入力事例は、“(0,1,1,1,1)”であり、
2番目の入力事例は“(1,0,1,1,1)”であ
り、3番目の入力事例は“(1,1,0,1,1)”と
いった具合である。
【0069】属性集合“S”は、属性sの組み合わせの
全体を表す。
【0070】キーワード属性集合sとは、本具体例にお
いては、キーワードの番号の組合せからなるものをい
う。例えば、属性sが1〜3まで存在する場合(キーワ
ードの番号が1〜3までの3種がある場合)、実質的に
同じ組み合わせとなるものを除くと、キーワード属性集
合sの組み合わせの全体Sは、S=((1),(2),
(3),(1,2),(1,3),(2,3),(1,
2,3))となる。ただし、キーワード属性集合sの組
合わせを所定の次数で打ち切る場合は、Sは当該所定の
次数内での属性の組み合わせの全体とする。なお、ここ
で言う次数は、Sの中の1つの値を表すキーワード属性
集合sに含まれる属性の数を指す。
【0071】すなわち、s=(1,3)の場合、次数は
“2”であり、s=(2)の場合、次数は“1”であ
り、s=(1,2,3)の場合、次数は“3”である。
従って、例えば、次数“2”で打ち切る場合のSは、上
述の例の場合、S=((1),(2),(3),(1,
2),(1,3),(2,3))となる。
【0072】要素“s”は属性の組み合わせの属性集合
Sの中の1つの値を表す。例えば、(1,2,3)や
(3)或いは(1,2)の如く、“()”で括られた属
性を指している。
【0073】要素“χs(Xi)”はi番目の事例の入
力ベクトルXiにおいて、キーワード属性集合sに対応
する要素の値が“1”であるものの数が奇数個ならば
“−1”を、偶数個(偶数個には0個の場合も含む)な
らば“1”を係数として返すような関数を表す。
【0074】例えば、i番目の入力事例であるXiの入
力ベクトルがXi=(1,0,0)で、s=(1,3)
ならば、入力ベクトルXi中の1番目の値は“1”、3
番目の値は“0”であるので、“1”であるものの数は
1個であってこれは奇数個であり、この場合、“−1”
を返すことになるから、関数χs(Xi)として表すと χs(Xi)=χ1,3 (1,0,0)=−1 となる。また、Xi=(1,0,0)、s=(2,3)
ならば、Xi中の2番目の値は“0”、3番目の値は
“0”であるので、“1”であるものの数は0個であ
り、これは偶数個であるから、この場合、“1”を返す
ことになるので、関数χs(Xi)は、 χs(Xi)=χ2,3 (1,0,0)=1 となる。
【0075】この“−1”及び“1”が次に説明する係
数αとなる。
【0076】つまり、α1 の内容が“−1”であったと
すると、i番目の入力事例であるXi=(1,0,
0)、s=(1)は、入力ベクトルXiにおけるキーワ
ード並び順での1番目のキーワードに、登録キーワード
が出現した数が奇数個あったことを示し、“1”であっ
たならばそれが0個であったことを示し、α2 の内容が
“−1”であったとすると、i番目の入力事例であるX
i=(1,0,0)、s=(2)は、入力ベクトルXi
におけるキーワード並び順での2番目のキーワードに、
登録キーワードが出現した数が奇数個あったことを示
し、“1”であったならばそれが0個であったことを示
し、α1,2 の内容が“−1”であったとすると、i番目
の入力事例であるXi=(1,0,0)、s=(1,
2)は、入力ベクトルXiにおけるキーワード並び順で
の1番目と2番目のキーワードに、登録キーワードが出
現した数が奇数個あったことを示し、“1”であったな
らばそれが0個であった場合を含めて偶数個あったこと
を示し、α1,2,3 の内容が“−1”であったとすると、
i番目の入力事例であるXi=(1,0,0)、s=
(1,2,3)は、入力ベクトルXiにおけるキーワー
ド並び順での1番目と2番目と3番目のキーワードに、
登録キーワードが出現した数が奇数個あったことを示
し、“1”であったならばそれが0個であった場合を含
めて偶数個あったことを示しているといった具合であ
る。
【0077】これを学習対象の事例における入力ベクト
ル毎に、属性の組み合わせ別の登録キーワード出現数を
奇数、偶数の表示で並べたものがαsである。
【0078】要素“f(Χi)”は、入力事例Xiに対
する評価の推論出力(予測値)を表す。
【0079】
【数1】
【0080】sign(x):x≧0ならばsign
(x)=1、x<0ならばsign(x)=−1となる
ような関数を表す。
【0081】スペクトル理論に基づく学習は、次の数式
(1)によって行われる。
【0082】
【数2】
【0083】全てのsに関してαを求める。mは事例の
総数である。スペクトル理論に基づく推論は、次の数式
(2)によって行われる。
【0084】
【数3】
【0085】与えられた問題事例xに対して式(2)を
用いると、f(x)の予測値が得られる。なお、推論
に、式(2)を使う限りは、右辺の値の正負が問題であ
るので、式(1)において分子をmで割らなくても同じ
結果が得られることから、学習を次の式(3)で行うよ
うにしても構わない。本具体例では、式(3)を使用し
て説明している。
【0086】
【数4】
【0087】ところで、属性sの全ての組合わせを用い
て上記の推論・学習を行うようにする方が、より高い予
測精度が得られるようになるが、属性の数(キーワード
の数)の増加にともない、べき乗のオーダで計算量が増
えてしまう。前述の"NathanLinial" 等による文献によ
れば、一定の次数で学習を終了しても、おおまかな学習
は終了しており、予測精度にそれほどの差がないものと
考えられる。
【0088】そこで、上記の学習と推論(予測)で用い
るSの次数を同じ値で制限することにより、全体の次数
を制限し、計算量を削減することができる。
【0089】以上がスペクトル理論を用いた推論・学習
の説明である。
【0090】次に、図3を参照しながら推論部5の働き
を説明する。図3は、推論部5における処理の流れを示
すフローチャートである。
【0091】推論部5は起動されると、キーワード抽出
部3から文書に現れたキーワードの一覧を読み込む(ス
テップS101)。すなわち、キーワード抽出部3は文
書が入力されると当該文書に現れたキーワードを抽出し
て一覧を形成し、保持しているので推論部5はこれを読
み込む。
【0092】キーワードの一覧が読み込まれたならば、
次にこの読み込まれた各キーワードそれぞれについての
そのキーワード番号を、データ記憶部4に保存されてい
る図2の如きキーワードテーブルを参照しながら求め、
入力ベクトルを生成する(ステップS102)。
【0093】その際、キーワードテーブルを参照しても
見付からないキーワード、つまり、キーワードテーブル
に登録されていないキーワードは、無視される。
【0094】次に、キーワード同士の組み合わせ(前述
のS)の存在の有無を調べ(ステップS103)、その
結果、キーワード同士の組み合わせ(前述のS)が、ま
だ存在している場合には、次の組み合わせを生成し(ス
テップS104)、生成された組み合わせに関して予測
値の計算を行い(ステップS105)、ステップ103
に戻る。
【0095】ステップS103での判定の結果、キーワ
ード同士の組み合わせがこれ以上存在しない場合には、
予測値の計算は終了する。ここで、式(2)のsign
関数に代入する値、すなわち次の式(4)のh(x)が
得られる。
【0096】
【数5】
【0097】入力された文書に対する評価の推論出力
(予測値)は、sign(x)に代入すると、h(x)
が“0”未満であった場合(ステップS107)には、
予測値は“−1”となり、この場合はシステムは利用者
に当該評価対象となった入力された文書の提示を、実施
しないで終了する。しかし、h(x)が“0”以上であ
った場合(ステップS106)には、予測値は“−1”
となり、このときは推論部5は表示部6に文書を提示す
ることを指示し(ステップS107)、処理を終了す
る。そして、この提示の指示を受けた表示部6は、当該
評価対象となった文書を文書記憶部2より読み出して表
示出力或いはプリント出力する。
【0098】図4を参照しながら学習部8の働きを説明
する。図4は、学習部8による処理の流れを示すフロー
チャートである。学習部8は、例えば、ユーザによる評
価データ入力部7から入力操作などによって起動され
る。
【0099】学習部8は起動されると、キーワード抽出
部3から文書に現れたキーワードの一覧を読み込む(ス
テップS201)。読み込まれたキーワードのキーワー
ド番号をデータ記憶部4に保存されている図2のような
キーワードテーブルを参照しながら求め、事例ベクトル
を生成する(ステップS202)。この時、キーワード
テーブルに登録されていないキーワードは無視する。
【0100】次に学習部8は、使用者が評価データ入力
部7の操作によって与えた評価を読み込む(ステップS
203)。この評価は、推論部5が表示指示した文書を
読んで使用者が自己にとって有用か、或いは興味がある
か否かの率直な判断評価である。
【0101】この評価が読み込まれると、次にキーワー
ド同士の組み合わせ(前述のS)の有無を調べる(ステ
ップS204)。その結果、キーワード同士の組み合わ
せ(前述のS)が存在している場合には、キーワード同
士の組み合わせを1つ生成し(ステップS205)、生
成された組み合わせに関して係数(前述のα)の計算を
行い(ステップS206)、ステップS204に戻る。
なお、ステップS206において、f(X)はステップ
S203において読み込んだ、評価値のことである。
【0102】次にステップS204において再びキーワ
ード同士の組み合わせ(前述のS)の有無を調べる。そ
の結果、キーワード同士の組み合わせ(前述のS)がま
だ存在している場合には、次の組み合わせを生成し(ス
テップS205)、生成された組み合わせに関して係数
(前述のα)の計算を行い(ステップS206)、ステ
ップS204に戻る。
【0103】このような処理をキーワード同士の組み合
わせが存在する限り繰り返すが、ステップS204での
判断の結果、キーワード同士の組み合わせがもう存在し
ない場合には、係数の計算は終了し、求めた係数αをデ
ータ記憶部4に保存し(ステップS207)、終了す
る。
【0104】上記の動作を、キーワードテーブルに登録
するキーワード数を“6”、扱う係数αの次数を“2”
までとして、フィルタリングを行う例を示して、本具体
例をより具体的に説明する。
【0105】まず、学習による係数αの初期設定につい
て説明する。登録されているキーワードは図5に示すよ
うなものであるとする。図5の例は、キーワード番号1
番として“keyword*1 ”が、キーワード番号2番として
“keyword*3 ”が、キーワード番号3番として“keywor
d*3 ”が、キーワード番号4番として“keyword*4 ”
が、そして、キーワード番号5番として“keyword*5 ”
が登録されていることを示している。
【0106】ここで、(keyword*1 、keyword*3 )が必
要なキーワードの組、(keyword*3、keyword*4 )が不
要なキーワードの組であったとすると、次に、これらの
キーワードの組を用いて、仮想的に文書群を生成する。
仮想的な文書群の生成は、1文書あたり、上記6つのキ
ーワード中の3つのキーワードを含む構成として、それ
らの組み合わせ別のものをそれぞれ別の種類の文書とし
て考えた場合、例えば、各文書は(keyword*1 、keywor
d*3 )又は(keyword*3 、keyword*4 )のいずれかを主
体としてこれに更に別の1つのキーワードを加えた3つ
のキーワードを持つバリエーションとして生成する。
【0107】この結果、 (keyword*1、keyword*3 、keyword*3) (keyword*1、keyword*3 、keyword*4) (keyword*1、keyword*3 、keyword*5) (keyword*3、keyword*3 、keyword*4) (keyword*3、keyword*4 、keyword*5) (keyword*3、keyword*4 、keyword*6) の6種類の仮想文書が得られることになる。
【0108】これらの全ての仮想文書は上述のようなそ
れぞれ異なる組み合わせのキーワード3つを含む文書と
いうことになるが、これらのうち、必要なキーワードの
組が出現する仮想文書が必要な文書、不必要なキーワー
ドの組が出現する仮想文書が不必要な文書であるとし
て、それぞれに得点付けを行う。
【0109】更に、ノイズとして、“keyword*5 ”、
“keyword*6 ”を持つ仮想文書が存在する。ここでは、
以下の文書を学習させる。
【0110】「必要な文書」 (keyword*1、keyword*3 、keyword*3) 評価値…+1 (keyword*1、keyword*3 、keyword*4) 評価値…+1 (keyword*1、keyword*3 、keyword*5) 評価値…+1 「不必要な文書」 (keyword*3、keyword*3 、keyword*4) 評価値…−1 (keyword*3、keyword*4 、keyword*5) 評価値…−1 (keyword*3、keyword*4 、keyword*6) 評価値…−1 「ノイズ」 (keyword*1、keyword*5 、keyword*6) 評価値…+1 (keyword*3、keyword*5 、keyword*6) 評価値…−1 以上のような文書群を学習させた結果、各αの値は図6
(a)のようになったとする。ただし、図6(a)にお
いて、αiはkeyword*i に関するαの値を、そして、α
i,jはkeyword*i とkeyword*j の組に関するαの値を
意味する。
【0111】次に、推論するプロセスを説明する。
【0112】(keyword*1 ,keyword*3 ,keyword*6 )
をキーワードとして有し、“keyword*1 ”,“keyword*
3 ”,“…”,“…”,“…”,“keyword*6 ”なる配
列をとる文書(この文書はキーワード番号を取り出して
入力ベクトルにすると、(1、1、0、0、0、1)と
なる。)を次数2までに関し、処理したとする。する
と、図3におけるステップS103〜S105の処理ル
ープにおいて、各回周毎に順次以下の組合わせが生成さ
れる。 つまり、 1回目・・・keyword*1 のみ、 2回目・・・keyword*3 のみ、 3回目・・・keyword*3 のみ、 4回目・・・keyword*4 のみ、 5回目・・・keyword*5 のみ、 6回目・・・keyword*6 のみ、 7回目・・・keyword*1 とkeyword*3 、 8回目・・・keyword*1 とkeyword*3 、 9回目・・・keyword*1 とkeyword*4 、 10回目・・・keyword*1 とkeyword*5 、 11回目・・・keyword*1 とkeyword*6 、 12回目・・・keyword*3 とkeyword*3 、 13回目・・・keyword*3 とkeyword*4 、 14回目・・・keyword*3 とkeyword*5 、 15回目・・・keyword*3 とkeyword*6 、 16回目・・・keyword*3 とkeyword*4 、 17回目・・・keyword*3 とkeyword*5 、 18回目・・・keyword*3 とkeyword*6 、 19回目・・・keyword*4 とkeyword*5 、 20回目・・・keyword*4 とkeyword*6 、 21回目・・・keyword*5 とkeyword*6 の各組み合わせである。
【0113】この組合わせを用いて、始めにステップS
105を通過するときは、s=1であるため、図6
(a)からα1=−8であり、また、関数χs(Xi)
として表すと、 χ1 (1,1,0,0,0,1)=−1 であるため、 予測値=予測値(=0)+(−8×(−1))=8 となる。
【0114】また、7回目にステップS105を通過す
るときは、s=1,2であるため、図6(a)からα
1,2=0であり、また、 χ1,2 (1、1、0、0,0、1)=1 であるため、 予測値=予測値(=0)+(0×1)=0 となる。
【0115】最後にステップS105を通過するとき
は、s=5,6であるため、図6(a)からα5,6=
2であり、また、 χ5,6 (1、1、0、0、0、1)=−1 であるため、 予測値=予測値(=0)+(2×(−1))=−2 となる。
【0116】ここで、これら予測値を合計すると最終的
には、予測値は“12”となる。この例では、組合わせ
が存在しないので、図3のステップS103からステッ
プS106に移り、ここで、最終的な上記予測値“1
2”をしきい値と比較してその大小に応じ、提示の判断
をする。しきい値は“0”とすると、上記予測値“1
2”はしきい値よりも大きいので、利用者に提示すると
判定する。そして、この判定に従い、出力部6bでは当
該評価対象となった入力文書を表示することになる。な
お、この場合、しきい値との差がどのくらいであったか
否かの情報を利用者に提示するようにしても良い。
【0117】次に、学習するプロセスを説明する。図4
のステップS201において読み込まれたキーワードは
上記と同様に、(keyword*1 、keyword*3 、keyword*6
)である。上述の“keyword*1 ”,“keyword*3 ”,
“…”,“…”,“…”,“keyword*6 ”なる配列をと
る文書について、ステップS202においてキーワード
番号を取り出すと、(1、1、0、0、0、1)なる入
力ベクトルが得られる。
【0118】この文書は利用者にとって必要な文書であ
ったとすると利用者が与える評価は“O(マル)”或い
は“good”或いは“1”などであるから、ステップ
S203において読み込まれる評価値は“1”となる。
ステップS205において生成される組合わせは、予測
において生成されたものと同様である。最初にステップ
S206を通過するときの組合わせにおける属性sはs
=1であり、 χ1 (1,1,0,0,0,1)=−1 であるため、予測値は α1=−8+(1×(−1))=−9 となる。また、7回目にステップ206を通過するとき
の組合わせにおけるsはs=1,2であり、 χ1,2 (1,1,0,0,0,1)=1 であるため、 α1,2=0+(1×1)=1 となる。
【0119】そして、最後にステップ206を通過する
ときの組合わせにおけるsはs=“5,6”であり、 χ5,6 (1,1,0,0,0,1)=−1 であるため、 α5,6=2+(1×(−1))=1 となる。
【0120】s=“5,6”までの組合わせに対して処
理が終わると次のステップS204での組合わせ存在判
断においては、もう組合わせが存在しないくなる。その
ために、処理はステップS207に移り、各αを保存
し、終了する。
【0121】このような学習の結果、各αの値は図6
(b)のようになる。
【0122】各要素の機能は以上の説明の通りである。
従って、本システムは、文書入力部1から、例えば、新
しい文書が入力されたとすると、キーワード抽出部3に
てこの文書からキーワードが抽出され、推論部5はこの
抽出されたキーワードをデータ記憶部4に記憶されてい
る利用者本人の興味ある分野のワード群であるキーワー
ドテーブルのキーワードと照らし合わせて、スペクトル
理論に基づき、読むに値する文書であるか否かを評価
し、読むに値すると評価した文書に対しては提示の指示
を表示部6に与えることにより、表示部6はその文書を
出力して利用者に提示するといった処理を行うことがで
きる。そのため、本システムにより、多数の文書から、
利用者の興味のそそる文書を自動的に選定することがで
きる。
【0123】以上のように、本具体例は、入力された文
書からキーワードを抽出し、この抽出キーワードを登録
キーワード(キーワードテーブルに登録してあるキーワ
ードで、利用者の興味のある分野のキーワード)と照合
して該当の有無を反映した入力ベクトルに変換し、この
入力ベクトルからスペクトル理論による推論を行い、読
むに値するか否かを判定し、読むに値すると判定した場
合にその文書を提示するようにし、また、提示された文
書を利用者が評価した結果を学習させて推論に反映させ
るようにしたので、推定精度が良好であり、また、推論
はスペクトル理論に基づき行うので、ニューラルネット
ワークを使用する場合に比べて計算量が少なく、高速に
判定/学習を行うことが可能となるなどの特徴を有する
情報フィルタを得ることができる。
【0124】上述の具体例は、登録キーワードの有無を
中心として評価するものであったが、この場合、未登録
のキーワードは無視するようになっている。そこで、こ
れに対処する例を、第2の具体例として説明する。
【0125】(第2の具体例)本具体例は、判定対象と
なる文書において、第1の具体例のキーワードテーブル
に登録していない新しいキーワードが出現した場合にも
対応できるようにしている。
【0126】本具体例の情報フィルタは図7に示すよう
に構成されており、基本的には第1の具体例(図1)と
同様であり、また、推論部5の処理の流れも第1の具体
例(図3)と同様であるので、ここでの重複した説明は
省略し、第1の具体例と相違する点を主として説明す
る。
【0127】この具体例では、第1の具体例での学習部
8の機能に加えて、更に新規のキーワードを学習できる
機能を付加した学習部8aを先の学習部8の代わりに用
いるようにした点が異なる。
【0128】以下、図7及び図8を参照しながら、新規
のキーワードを学習可能とした学習部8aの働きを説明
する。
【0129】図8は、学習部8aによる処理の流れを示
すフローチャートである。
【0130】学習部8aが起動されると、キーワード抽
出部3から文書に現れたキーワードの一覧を読み込む
(ステップS301)。次に学習部8aは、読み込まれ
たキーワード群中に、キーワードテーブル未登録の新規
キーワードが存在するか否かをチェックする(ステップ
S302)。すなわち、データ記憶部4において保存さ
れている図2のようなキーワードテーブルを参照し、当
該キーワードテーブルにない新規キーワードが存在する
か否かをチェックする。その結果、新規キーワードが存
在する場合には、前記キーワードテーブルの最後に当該
新規キーワードを追加登録する(ステップS303)。
そして、新しくキーワードが加わったことにより、属性
sの組み合わせの全体であるSの要素が増加しているの
で、必要なαsを追加する(ステップS304)。
【0131】以上の処理をキーワード抽出部3の抽出し
たキーワード群中の各新規のキーワードについて繰返し
行う。そして、これ以上新規のキーワードが存在しない
場合(ステップS302)には、読み込まれたキーワー
ドのキーワード番号をキーワードテーブルから求め、事
例ベクトルを生成する(ステップS305)。
【0132】次に利用者の操作による評価データ入力部
7からの評価値を待ち、読み込む(ステップS30
6)。提示した文書への評価値を読み込むと、次に、現
在までの全ての評価値の合計をα0とし、これをαの一
要素として保存する(ステップS307)。
【0133】次に、キーワード同士の組み合わせ(前述
のS)が存在しているか否かを調べ(ステップS30
8)、その結果、まだ存在している場合には、次の組み
合わせを生成し(ステップS309)、生成された組み
合わせに関して係数(前述のα)の計算を行い(ステッ
プS310)、ステップS308に戻る。なお、ステッ
プS310においてf(x)はステップS306におい
て読み込んだ、評価値のことである。
【0134】ステップS308での判定の結果、キーワ
ード同士の組み合わせがもう存在しない場合、係数αを
データ記憶部4に保存し(ステップS311)、処理を
終了する。
【0135】ステップS304においてαsを追加する
方法を、具体的に説明する。例えば、図2のような16
個のキーワードが既に登録されたキーワードテーブルが
あり、ここに新たに“データベース”というキーワード
が登録される場合を考える。この場合、キーワードテー
ブルには新しく“データベース”というキーワードが1
6番目のキーワードとして追加登録されることになる。
【0136】この時点では、s=(16)を要素として
持つαsはデータとして存在しない。ところが、ここで
“データベース”なる語句は新規に登録されるキーワー
ドであるため、現在までにフィルタリングした文章の中
には存在していなかったことが分かる。
【0137】すなわち、仮にキーワードテーブルに登録
されていたとしても、出現した回数は“0”である。従
って、学習式は α(16)=α(16)+f(x)χ(16)(x) であるため、学習開始から現在までのχ(16)は常に
“1”(出現数偶数回;偶数には0も含まれる)を返し
ていた筈であり、α(16)はΣf(x)である。
【0138】従って、α(16)=α0により与えられ
る。つまり、現在までの全ての評価値の合計をα0と
し、これをαの一要素として保存しておくと共に、新規
登録の“keyword*16 ”については、α(16)として
α0を用いれば良いことになる。
【0139】また、α(a,16)は、キーワード番号
16のキーワード(つまり、“データベース”という語
句)が出現していないので、α(a)と同じである。こ
こで、aは1〜15までのキーワード番号である。
【0140】同様に、次数Nのαは次数(N−1)のα
から求めることが可能である。
【0141】以上により、キーワードテーブルに登録し
ていない新しいキーワードが出現した場合にも、現在ま
での全ての評価値の合計をα0とし、これをαの一要素
として保存しておくと共に、新規登録のキーワードにつ
いては、そのキーワードのαとしてα0を用い、他の次
数のαとしては次数1での他のキーワードのものから流
用することで、新規登録に対応できるようになる情報フ
ィルタが得られる。
【0142】第2の具体例の変形例について説明する。
【0143】第2の具体例においては、その推論部5部
分は、第1の具体例(図3)と同様の処理内容で実現で
きる。しかし、図3の処理の流れを若干修正して、図9
のようにしても良い。すなわち、文書から抽出されたキ
ーワードのうち、キーワードテーブルに登録されている
キーワード(登録キーワード)に対応するキーワードの
種類数をR、抽出された全キーワードの種類数をA、値
“0”〜“1”の間における所望の値に設定した閾値を
COとした場合、ステップS108で、 R/A<CO
のときは、ステップS103〜ステップS105の推
論をせずに、文書を表示するように指示を出す。
【0144】このようにすると、評価対象の文書から抽
出されたキーワードに含まれる登録キーワード対応のキ
ーワード種類数と文書から抽出されたキーワードの種類
数の比に応じて無条件に文書を提示するといった処理が
でき、抽出されたキーワードの種類数に占める登録キー
ワード数が設定した値に満たない時には、その文書を提
示することで、新分野の文書や、新技術の文書の見落と
しといった弊害発生の阻止を図ることが可能になる。
【0145】もちろん、抽出したキーワードのうちキー
ワードテーブルに存在しなかったものについて、第2の
具体例(図8)で説明したように、キーワードテーブル
に登録し、必要なαを追加し、αを学習して以後の推論
に反映させるようにすることもできる。
【0146】(第3の具体例)第3の具体例について説
明する。本具体例は、前述したスペクトル理論に基づい
た推論と学習をそれぞれ高速化するよう工夫した。以下
に説明するスペクトル理論をこれ以降「高速スペクトル
理論」と称する。
【0147】本具体例に係る情報フィルタの構成は図1
0に示すとおりであり、推論部5を推論部5Aに学習部
8を学習部8Aに置き換えてあるが、これらを含めその
他の要素の機能は基本的には第1の具体例(図1)と同
様であるので、同一部分についてのここでの説明は省略
し、第1の具体例と相違する点を主として説明する。
【0148】さて、情報フィルタに入力される問題べク
トル(つまり、評価しようとする文書から生成した評価
対象の入力ベクトル)の特性として、ほとんどの属性値
が“0”であることが挙げられる。すなわち、1つの文
書の中に出現するキーワードは通常、20〜30個であ
り、文書を構成している語句の多くは登録キーワード以
外のことが実験等によりわかっている。
【0149】これに対して、全体の属性の数、すなわ
ち、情報フィルタに登録されているキーワードの数は数
千〜1万個にも及ぶ。ここに着目すると、予測値の計算
式である式(2)において、殆どのχs(x)は“1”
を値とすることが分かる。
【0150】そこで、予め全ての属性値が“0”であっ
た場合の予測値f(0)を求めておき、ここから、
“0”でなかった属性値が影響を及ぼす部分だけを修正
する方が計算量が少なくて済む。
【0151】例えば、1000個のキーワードが登録さ
れているシステムで、10個のキーワードを含む文書を
次数2までフィルタリングする場合、第1の具体例の方
式では、1000+1000×1000回もαsχs
(x)を求めなければならないところを、本具体例のよ
うにすると、10+10×990回の計算で済むことに
なり、計算量が大幅に減ることが分かる。ゆえに、その
計算量が減った分、高速処理となる。
【0152】これを実現するためには推論部5をこの具
体例では次のようにした推論部5Aに置き換えてある。
【0153】以下、図11を参照しながら推論部5Aの
働きを説明する。
【0154】図11は、推論部5Aによる処理の流れを
示すフローチャートである。推論部5Aは起動される
と、キーワード抽出部3から文書に現れたキーワードの
一覧を読み込む(ステップS401)。読み込まれたキ
ーワードのキーワード番号をデータ記憶部4に保存され
ている図2のようなキーワードテーブルを参照すること
により求める(ステップS402)。その際、キーワー
ド番号を求めようとしている対象のキーワードが、キー
ワードテーブルに登録されていない場合には無視する。
【0155】次に、予測値に取り敢えずf(0)を代入
する(ステップS403)。そして、キーワード同士の
組み合わせが他に存在するか否かを調べ(ステップS4
04)その結果、キーワード同士の組み合わせ(前述の
s)がまだ存在している場合には、文書内に出現したキ
ーワードから奇数個、残りを出現しなかったキーワード
から選び、組合せを生成する(ステップS405)。こ
れにより生成された組み合わせは、f(0)とf(x)
が異なる部分であるため、次にこれを 予測値=予測値−2α0−2αs なる演算を施すことにより、修正する(ステップS40
6)。
【0156】なお、ここでのα0とは、現在までの評価
値の総和であり、αsは第1の具体例と異なり、総和と
の差分を記憶していることになる。
【0157】ステップS406におけるこの修正処理を
終えると、ステップS404に戻る。そして、ステップ
S404での判定の結果、キーワード同士の組み合わせ
がまだ存在すれば上述の処理を繰り返すが、もう存在し
ない場合には、予測値の計算は終了し、予測の結果によ
り文書を利用者に提示するか否かを判断する(ステップ
S407)。この判定は、予測の結果が“0未満”であ
るか否かにより決める。
【0158】すなわち、予測の結果が“0未満”であっ
た場合、推論部5Aは提示の指示を出さず、従って、シ
ステムは利用者に文書を提示しないで終了することにな
る。しかし、予測の結果が“0以上”であった場合には
(ステップS407)、推論部5Aは提示の指示を表示
部6に出し(ステップS408)、処理を終了する。
【0159】この指示を受けて表示部6は文書記憶部2
から当該評価の対象とした文書を読み出して出力部6b
に出力し、当該文書を提示することになる。
【0160】図12を参照しながら学習部8Aの働きを
説明する。図12は、学習部8Aによる処理の流れを示
すフローチャートである。学習部8Aが起動されると、
キーワード抽出部3から文書に現れたキーワードの一覧
を読み込む(ステップS501)。読み込まれたキーワ
ードのキーワード番号をデータ記憶部4に保存されてい
る図2のようなキーワードテーブルを参照しながら求め
る(ステップS502)。この時に、キーワードがキー
ワードテーブルに登録されていない場合には無視する。
【0161】次に、α0に評価値を加え(ステップS5
05)、そして、キーワード同士の組み合わせの有無を
調べる(ステップS506)。このステップS506で
調べた結果、キーワード同士の組み合わせ(前述のS)
がまだ存在している場合、文書内に出現したキーワード
から奇数個、そして、残りを文書内に出現しなかった登
録キーワードから選び、組合せを生成する(ステップS
507)。これにより、生成された組合わせは、χs
(x)が“−1”である部分であるため、αsを修正す
る(ステップS508)。
【0162】更に、f(0)もこれに合わせて修正する
(f(0)=f(0)−2f(X))(ステップS50
9)。そして、ステップS506に戻ってキーワード同
士の組み合わせの有無を調べる。その結果、更に、組合
せが存在すればステップS507以降の処理を繰り返す
が、ステップS506での結果、存在しない場合には係
数の計算は終了し、αをデータ記憶部4に保存し(ステ
ップS510)、f(0)もデータ記憶部4に保存し
(ステップS511)、終了する。
【0163】以上、本具体例は、文書から抽出したキー
ワードについて、登録キーワードと照合し、登録キーワ
ード該当のキーワードであれば、そのキーワード単体及
びキーワード同士の次数別組み合わせを調べて、それぞ
れの予測値を求め、予測値の値からその文書の提示、非
提示を決めるようにした。
【0164】これにより、処理内容が単純化されること
から、本具体例により、スペクトル理論に基づいた推論
と学習をそれぞれ高速化することが可能になる。
【0165】(第4の具体例)第4の具体例について説
明する。上述した第1〜第3の具体例は、いずれも1つ
の文書について、推論・表示を行うような逐次処理のシ
ステム構成例であった。第4の具体例では、複数の文書
について、一括して、推論・表示を行うようにした例を
説明する。
【0166】本具体例に係る情報フィルタの構成は図1
3に示す如きであり、複数の文書について、一括して、
推論できるようにした推論部5Bを用いるようにしたも
のであって、この推論部5Bをはじめ、各機能要素は基
本的には前述の具体例(図1)と同様であるから、ここ
での説明は省略し、異なる部分について説明する。
【0167】本具体例では、推論部5Bは推論処理に関
して、図3や図11で説明したものに若干の修正を加え
た内容とした。ここでは、推論部5Bの機能として図3
で説明したものに、若干の修正を加えて実現するように
した例を図14に示す。
【0168】この具体例では、複数の文書それぞれにつ
いて推論処理のみを先に実施し、その後に、評価の高い
文書から順に表示する。つまり、本具体例は複数の文書
をそれぞれ評価した後に、必要性の高いものを選んで提
示させるようにする例である。
【0169】従って、評価対象となる文書は複数文書
分、入力されており、それぞれの文書単位でキーワード
抽出部3はそれぞれその文書に現れたキーワードを抽出
する。
【0170】推論部B5が起動されると、キーワード抽
出部3から第1の文書に現れたキーワードの一覧を読み
込む(ステップS101)。キーワードの一覧が読み込
まれたならば、次にこの読み込まれた各キーワードそれ
ぞれについてのそのキーワード番号を、データ記憶部4
に保存されている図2のようなキーワードテーブルを参
照しながら求め、入力ベクトルを生成する(ステップS
102)。この時に、参照しても見付からないキーワー
ド、つまり、キーワードテーブルに登録されていないキ
ーワードであったならばそれは無視する。
【0171】次にキーワード同士の組み合わせ(前述の
S)の存在の有無を調べ(ステップS103)、その結
果、キーワード同士の組み合わせ(前述のS)が、まだ
存在している場合には、次の組み合わせを生成し(ステ
ップS104)、生成された組み合わせに関して予測値
の計算を行い(ステップS105)、ステップ103に
戻る。
【0172】ステップS103での判定の結果、キーワ
ード同士の組み合わせがもう存在しない場合には、予測
値の計算は終了する。ここで、式(2)のsign関数
に代入する値、式(4)のh(x)が得られる。
【0173】そして、ステップS111移り、このステ
ップS111以下の処理ループにより、各文書につい
て、推論を一括して行う。ここでは、式(2)により表
示すべきと判断されたものについて、式(4)のh
(x)を当該文書の必要性の度合いを示す指標として保
存しておく。
【0174】このような処理を、第2の文書、第3の文
書…それぞれに行い、式(2)により表示すべきと判断
されたものについては、式(4)のh(x)を当該文書
の必要性の度合いを示す指標として保存しておく。
【0175】このような処理が終了後、ステップS11
2に移り、表示すべきと判断された文書を、必要性の度
合いを示す指標h(x)の大きい順にソートする。そし
て、ステップS113に移り、ソートされた順に対象の
文書を表示するように、表示部6に指示し、当該ソート
順に文書を表示させる。
【0176】この結果、複数の文書をそれぞれについて
まず評価して、文書の必要性の度合いを示す指標で保存
し、複数の文書をそれぞれについての当該評価を全て終
えた後に指標の高いものを順に表示指示して表示させる
ことができる。
【0177】従って、複数の文書が高頻度で入力される
ような場合に、事前に纏めて評価の後、必要性の高いも
のを選んで提示させることができるので、例えば、毎
日、要不要にかかわりなく、多数のメールが飛び込むネ
ットワークの各端末ユーザのように、取捨選択を必要と
する場合などに、緊急度の高いものや、重要度の高いも
の、或いは興味の高いと評価されるものを、指標の高い
ものから順に読むことができるようになり、便利とな
る。
【0178】(第1〜第4の具体例の変形例1)第1〜
第4の具体例では、推論結果を得るためのsign関数
は、sign(x):x≧0ならばsign(x)=
1、x<0ならばsign(x)=−1となるような関
数であった。ここで、次のような関数を考える。
【0179】sign′(x): x≧c ならば sign(x)=1、 x<c ならば sign(x)=−1 この関数において、推論のしきい値c=0とした場合
が、上記のsign(x)である。ここで、上記推論の
しきい値cは、任意に設定しても構わない。cの値を正
側に大きくする程、表示条件が厳しくなり、cの値を負
側に大きくする程、表示条件が緩くなる。
【0180】(第1〜第4の具体例の変形例2)重要と
判定された文書を表示する場合の他の例として、ここで
は推論部5が、文書を利用者に提示すべきであるとの判
断をしたときに、表示部6は文書記憶部2の文書のう
ち、まず、当該文書の目次や要約の部分を読み出してこ
れを出力部6bに表示するように制御し、更にこれを見
たユーザが本文を読みたいと判断してその指示を図示し
ない入力操作部から与えたときに、その表示要求に応じ
て、表示部6は文書記憶部2の文書から当該文書の本文
を読み出して出力部6bに表示するように制御する機能
を持たせるようにする。
【0181】このような構成のシステムでは、推論部5
が文書を利用者に提示すべきであるとの判断をしたと
き、表示部6は文書記憶部2の文書のうち、まず、当該
文書の目次や要約の部分を読み出してこれを出力(表
示)するように制御する。
【0182】そして、この出力内容を見たユーザが本文
を読みたいと判断してその指示を、図示しない入力操作
部から与えたとすると、その表示要求に応じて、表示部
6は文書記憶部2の文書から当該文書の本文を読み出し
て出力(表示)する。
【0183】このように重要と判定された文書を表示す
る場合、まず、当該文書の目次や要約を表示し、更にユ
ーザが本文を読みたいと判断したときに、ユーザからの
表示要求に応じて、文書の本文を表示するようにする
と、情報フィルタがユーザのために選択した文書の中か
ら、ユーザはより興味のある文書のみを選択して読むこ
とができるようになる。
【0184】また、推論にあたり、第1段階として、図
01の文書入力部1から入力された文書を特定する情報
(文書名や文書コードなど)とキーワード群の組を利用
し、該キーワード群に対して推論を行い、第2段階とし
て、必要と判定されたものについてのみ、文書の本文を
入力してキーワードを抽出し、推論をするようにしても
良い。
【0185】なお、以上の具体例において、キーワード
自体については言及しなかったが、通常の文書を良く表
す単語以外にも、その文書に予め分類がなされている場
合(例えば、特許関係書類におけるIPC分類(国際特
許分類)など)には、この分野や、著者名、著者所属な
どもキーワードの一部として利用することも可能であ
る。また、本発明は上述した各具体例に限定されるもの
ではなく、その要旨を逸脱しない範囲で、種々変形して
実施することができる。
【0186】以上により、複数の文書について、一括し
て、推論・表示を行うようにした情報フィルタ装置が得
られる。
【0187】(第5の具体例)上記の具体例ではキーワ
ードは増加して行く一方であったが、時間の経過ととも
に、利用者の興味が変化してゆくことも多く、その場
合、必要でないキーワードが発生する。そして、必要で
ないキーワードを残したままにしておくと、処理にその
分、無駄が生じるばかりでなく、使用者の必要とする文
書の評価に誤りが発生するようになってしまう。そこ
で、必要でないキーワードの除去が重要となるので、当
該必要でないキーワードの除去方法について第5の具体
例として説明する。
【0188】ここでは、不要キーワード検出を行うと共
に、不要キーワードが検出された場合に、過去の前記関
係の学習結果から該不要キーワードを削除するキーワー
ド削除機能を有する不要キーワード検出部9を設け、こ
の不要キーワード検出部9が不要キーワードを検出した
場合に、データ記憶部4における過去の前記関係の学習
結果から該データ記憶部4における該不要キーワードを
削除する構成とする。
【0189】すなわち、この第5の具体例では、図15
に示すように、図01、図07、図10、図13いずれ
かの構成に、不要キーワード検出機能とキーワードテー
ブルの内容の更新処理機能を有する不要キーワード検出
処理部9を更に設け、不要キーワード検出してそれに基
づき、データ記憶部4におけるキーワードテーブルの内
容の更新を行うようにする。
【0190】この更新を行えるようにするために、キー
ワードテーブルは図02のキーワードテーブルに登録日
時と使用回数を記入する覧を追加した図16に示すよう
なものとし、また、学習部8,8a,8Aはキーワード
テーブルへの登録時に登録時刻を記入し、キーワードの
使用毎にその該当のキーワードの使用回数を累積した数
を更新記録してゆく機能を持たせた構成とした点が先の
各具体例と少し異なるが、その他の点は先の各具体例の
動作を踏襲するので、同一部分の動作説明は省略し、以
下の説明は異なる部分についてのみ行う。
【0191】この具体例での特徴は、不要キーワード検
出処理部9の機能にあるが、この不要キーワード検出処
理部9の持つ機能のうち、不要キーワード検出機能は、
利用者からの指示で、或いは一定時間間隔で、又はフィ
ルタリング速度が一定以下に遅くなった時に起動され
る。
【0192】不要キーワード検出処理部9は起動される
と、図16のキーワードテーブルを参照し、一定期間以
上登録されて、しかも、あまり使われていないキーワー
ドを探す。その探索のために、図16は図02のキーワ
ードテーブルに登録時刻と使用回数を記入する覧を追加
した構成としている。
【0193】この例では、1番(キーワード番号が1)
の“ワープロ”という語については“1994年11月
10日”に登録され、使用回数は“53”回であること
を示しており、2番(キーワード番号が2)の“辞書”
という語については“1994年11月11日”に登録
され、使用回数は“21”回であることを示しており、
3番(キーワード番号が3)の“帰納”という語につい
ては“1994年12月10日”に登録され、使用回数
は“9”回であることを示しており、4番(キーワード
番号が4)の“学習”という語については“1994年
12月10日”に登録され、使用回数は“6”回である
ことを示しており、といった具合である。
【0194】上記のように構成された本具体例装置の概
略動作を図17を参照して説明する。図17は、第4の
具体例の動作を示すフローチャートである。
【0195】削除の対象となっているキーワードがまだ
存在するかを確認し、存在する場合には、次のキーワー
ドを得る(ステップ601)。得たキーワードが登録さ
れてから一定以上の日数が経過していない場合(ステッ
プ602)、ステップ601に戻り次のキーワードを探
す。登録されてから一定以上の日数が経過している場合
(ステップ602)、そのキーワードの使用回数が定数
B以上である場合には、削除せずにステップ601に戻
る(ステップ603)。そのキーワードの使用回数が定
数B以下である場合には(ステップ603)、更に、そ
のキーワードの使用回数が定数Bよりも小さな定数C以
下である場合には、(ステップ604)、キーワードを
削除する(ステップ606)。そのキーワードの使用回
数が定数C以上である場合には(ステップ604)、キ
ーワードを削除する(ステップ606)。そのキーワー
ドの使用回数が定数C以上である場合には(ステップ6
04)、そのキーワードの学習係数の一次の値αの絶対
値が定数D以下の場合(ステップ605)、キーワード
を削除する(ステップ606)。そのキーワードの学習
係数の一次の値αの絶対値が定数D以下でない場合(ス
テップ605)、キーワードは削除せずに次のキーワー
ドを探す(ステップ601)。
【0196】以下、具体例を用いて、キーワードの削除
処理を説明する。
【0197】データ学習部8はキーワードを登録する時
には、その登録日時を記録し、また使用する度に、キー
ワードテーブルにあるキーワードの使用回数を増やす
(インクリメントする)。そして、不要キーワード検出
部9はキーワードテーブルの登録時刻と使用回数を参照
し、初期登録から一定期間経過して、しかも、使用頻度
が一定回数以下のものを削除対象とし、該当のものを削
除する。
【0198】例えば、3ケ月以上前に登録されていて、
今までの使用回数は10回以下であったキーワードを削
除対象とするといった処理を行う。従って、今日の日付
が1995年6月1日であったとすると、この場合、図
16のキーワードテーブルでは、番号1〜7迄のキーワ
ード(“ワープロ”から“光学”迄のキーワード)が期
間的に削除対象候補となる。
【0199】次に、使用された回数を見ると、キーワー
ド番号3のキーワード(“帰納”)、キーワード番号4
のキーワード(“学習”)、キーワード番号7のキーワ
ード(“光学”)がそれぞれ削除対象となっている。こ
こで、使用回数が5以下のキーワードは削除するとすれ
ば、図16の例の場合には、キーワード番号7のキーワ
ード(“光学”)は削除する。なお、使用回数が6回以
上10回以下のキーワードは係数αの一次の値を参考に
して、削除するか否かを決める。
【0200】係数αの例を示すと図18のようになって
おり、この係数αの一次の値は、各キーワードが直接、
どの程度有用性に貢献しているかの指標である。従っ
て、αの一次の値が、“0”に近い場合には、あまり貢
献していないことを意味しており、削除して良いことに
なる。αの閾値を“10”とした場合、αs≦10を削
除対象とする。
【0201】キーワード番号3のキーワードに対応する
α(3)と、キーワード番号4のキーワードに対応する
α(4)が、α(3)=2、α(4)=100であった
場合には、キーワード番号3のキーワード(“帰納”)
は削除対象に決定するが、キーワード番号4のキーワー
ドは削除対象にしない。
【0202】削除するキーワードが決定したならば、α
の値から、削除するキーワードに関係する項目を取り除
く。即ち、キーワード番号3とキーワード番号7の各キ
ーワードを削除する場合には、“α3”、“α1,
3”、“α2,3”、“α3,4”、“α3,5”…
…“α7”、“α1,7”、“α2,7”、“α3,
7”、“α4,7”…を削除する。これらは、いずれも
キーワード番号3のキーワードかキーワード番号7のキ
ーワードのいずれかが関与している要素であるためであ
る。
【0203】次に、キーワードテーブルからキーワード
番号3のキーワードと、キーワード番号7のキーワード
を削除する。次にキーワードテーブルからキーワード番
号3、とキーワード番号7を削除し、テーブルが虫食い
状態になっているので、整えて番号を1から順に付け直
す。
【0204】次に、キーワードテーブルに現在登録され
ている全てのキーワードの使用回数を一定の割合で減ら
す。例えば、ここでは、1/2にする。
【0205】以上のように、この具体例では、キーワー
ドテーブルにおける初期登録の時点と、使用頻度をキー
ワード毎に管理をするようにし、また、不要キーワード
検出処理部を設けて、初期登録から一定期間を経過し、
かつ、使用頻度の低いキーワードを対象に削除できるよ
うにしたので、不要なキーワードを学習結果を反映した
かたちで削除できるようになり、常に使用者の最新の興
味対象をターゲットにしたキーワード管理ができて、興
味のある文書を適確に選択できるようになる。なお、こ
こで用いた、閾値や係数などの具体的な数値は必要とさ
れるシステムの特性に応じて変更するものであり、数値
自体にはとくに意味はない。
【0206】(第6の具体例)1つの情報フィルタ装置
で取り扱う利用者の興味の範囲が、広範であった場合、
必要なキーワード数が爆発的に増加する危険性がある。
そして、キーワード数が増加すると、その計算量は指数
的に増加してしまうために、キーワードを分割して、複
数の情報フィルタでテーマ別にフィルタリングを行った
方が有利である。このような場合に、キーワードを分割
して利用する方法について説明する。
【0207】この具体例では、第5の具体例の構成に加
え、更にキーワードを分割するキーワード分割処理部1
0を設けた図19の如きの構成とした。キーワード分割
処理部10は所定のキーワードの数が一定の大きさ以上
になった場合に、過去の前記関係の学習結果を分割する
機能を有する。
【0208】キーワード分割処理部10は、利用者から
の指示により、又はフィルタリング速度が一定以下にな
った時に起動される。キーワード分割処理部10は起動
されると、2次のαの値を参考にキーワードの分類を開
始する。
【0209】2次のαの値(例えば、α(1,2))は
その値の示す2つのキーワード(α(1,2)の場合、
キーワード番号1のキーワードとキーワード番号2のキ
ーワード)が文書全体の有効性にどれだけ寄与している
かを示しており、二つのキーワードが同一の文書内に出
現しない限り、その値は“0”である。
【0210】従って、α(1,2)の値が“0”に近け
れば、キーワード番号1のキーワードとキーワード番号
2のキーワードは同時に出現しなかったか、もしくは、
あまり文書の有効性の判定には寄与しないことを意味す
る。ある一定の閾値、例えば、5を閾値とした場合、α
(i,j)≧5ならば、二つのキーワードiとj (キ
ーワード番号iとjのキーワード)にはリンク(つなが
り)があると考える。
【0211】そこで、リンクのある二つのキーワード間
にラインを張ったかたちで図示すると、たとえば、図1
8のキーワードは図20のように表現される。
【0212】このような場合、キーワード番号1のキー
ワード、キーワード番号2のキーワード、キーワード番
号5のキーワードを1つのグループとし、キーワード番
号3のキーワード、キーワード番号4のキーワード、キ
ーワード番号6のキーワードを別のグループに分けるよ
うにするといった手法により、キーワードを分割する。
【0213】上記の動作を図21に示すフローチャート
を参照して具体的に説明する。
【0214】キーワード分割処理部10が起動される
と、まだ分割が必要であるかを判定する(ステップ70
1)。判定は分割されたキーワード群の大きさの比が一
定以下になっているかにより行う。起動されてすぐには
分割は行われていないので、大きさはMi0であり、分割
がまだ必要である。キーワードの中からランダムに起点
を選ぶ(ステップ702)。選んだ起点からリンクをた
どって到達できるキーワードが存在するかを確認する。
2つのキーワード(a、b)間のリンクとは、2次元の
α(ab)の絶対値を用いる。絶対値が予め定められた
値よりも大きい場合にはリンクがあると判定する(ステ
ップ703)。まだたどれるキーワードがある場合に
は、このキーワードに印を付ける(ステップ704)。
もうたどれるリンクがなくなってしまったら(ステップ
703)、印のついたキーワードを古いキーワードリス
トから取り出す。ステップ701に戻り、更に分割の必
要があるかを調べる。
【0215】更に具体的に、分割処理の手順を示す。ま
ず、キーワード番号1のキーワードから始め、リンクの
あるキーワードを順に探す。例えば、キーワード番号1
のキーワードとキーワード番号2のキーワードはリンク
があるので、キーワード番号2のキーワードは同じグル
ープに入る。キーワード番号3,4,5,6の各キーワ
ードはキーワード番号1のキーワードとは直接のリンク
が無い。
【0216】次に、新たにキーワード番号1のキーワー
ドと同じグループに入ったキーワード番号2のキーワー
ドとリンクのあるキーワードを探すと、キーワード番号
5のキーワードが見つかる。そこで、キーワード番号5
のキーワードを同じグループに入れる。
【0217】次にキーワード番号5のキーワードとリン
クのあるキーワードを探すが、新しく同じグループに加
えるキーワードは存在しないために、ここで一旦終了す
る。ここで、今回の例のように運良く、キーワードの数
が同程度の二つの集合が出来た場合は良いが、取り出さ
れたグループに含まれるキーワードの数が一定の割合以
下の場合には、このグループに含まれていないキーワー
ドをランダムに選び、そこを始点に新たなグループを探
し、既に取り出されているグループに加える。
【0218】このようにして、一定の割合に到達するま
で繰り返す。二つのグループにキーワードを分割したな
らば、データ記憶部6に含まれるキーワードテーブルと
αの値を複写し、第6の具体例で説明した削除手法によ
り、互いのグループに含まれないキーワードを削除す
る。このようにして学習結果を二つに分割することが可
能となる。そして、このキーワード分割により、キーワ
ード数の増加の抑制と、計算量の低減を図ることができ
るようになる。
【0219】(第7の具体例)本具体例では、推論部5
とデータ学習部8を改良し、少ない記憶容量で、高次の
αを求めることができるようにした方法について説明す
る。
【0220】n次のαの値はn個のキーワードが同時に
出現する場合にのみ有効である。ところが、情報フィル
タが扱う数千種のキーワードのうち、同時にn個のキー
ワードが出現する可能性は極めて低い。特にnの値が高
くなればなるほど、その組合せは膨張するが、実際に有
効なαは少ない。
【0221】そこで、有効なαのみを記憶しておき、そ
れ以外のものは、より低次のαから求めるようにする。
【0222】例えば、α(a1 ,a2 ,a3 ,...,
an-1 ,an )を求める場合、ここに出現するキーワー
ド“a1 ”、“a2 ”、“a3 ”,… ,“an-1 ”,
“an ”の全てが同時に出現したことが無かった場合に
は、α(a1 ,a2 ,a3 ,…,an-1 ,an )は、こ
れよりも、n−1次までのαにより表現されることが知
られている。
【0223】例えば、三次のαを求める場合、α(a1
,a2 ,a3 )で、キーワード“a1 ”、“a2 ”、
“a3 ”が同時に出現したことが無かった場合を想定す
ると、α(a1 ,a2 ,a3 )は、第1の具体例でのχ
の計算により、a1 ,a2 ,a3 のうち、奇数個のキー
ワードが同時に出現した回数を数えていることと同値で
ある。
【0224】従って、a1 ,a2 ,a3 のそれぞれの値
を1/0の値のべクトルで表せば(全てのキーワードが
出現した場合は(1,1,1)となる。)、“α(a1
,a2 ,a3 )”は、“(1,0,0)”又は
“(0,1,0)”又は“(0,0,1)”又は
“(1,1,1)”が起こった回数を数えていることに
なる。
【0225】一方、“α(a1 ,a2 )”は、“(1,
0,0)”,“(0,1,0)”,“(1,0,
1)”,“(0,1,1)”が起こった回数を、“α
(a1 ,a3)”は、“(1,0,0)”,“(1,
1,0)”,“(0,0,1)”,“(0,1,1)”
が起こった回数を、“α(a2 ,a3 )”は、“(1,
1,0)”,“(0,1,0)”,“(1,0,
1)”,“(0,0,1)”が起こった回数を、“α
(a1 )”は、“(1,0,0)”,“(1,0,
1)”,“(1,1,0)”,“(1,1,1)”が起
こった回数を、α(a2 )は、“(0,1,0)”,
“(0,1,1)”,“(1,1,0)”,“(1,
1,1)”が起こった回数を、そして、“α(a3 )”
は、“(0,0,1)”,“(1,0,1)”,
“(1,1,0)”,“(1,1,1)”が起こった回
数をそれぞれ数えている。
【0226】ゆえに、 α(a1 )+α(a2 )+α(a3 )−α(a1 ,a2
)−α(a2 ,a3 )−α(a1 −a3 )=g(0,
0,1)+g(0,1,0)+g(1,0,0)+g
(1,1,1)−4g(1,1,1)=α(a1 ,a2
,a3 )−4g(1,1,1)=α(a1 ,a2 ,a3
) ただし、g(a,b,c)(a,b,cは1又は0)は
関数であり、ここでの関数g(a,b,c)は、(a,
b,c)が起こった回数を表す。
【0227】つまり、g(1,1,1)=0の場合に
は、α(a1,a2,a3)は1次と2次のαで表現出
来ることが分る。この仕組みを利用して、3つのキーワ
ードが同時に出現した場合のみ、キーワードの組合せと
αの値を保持し、それ以外の場合は、上記の方法により
αを求める。
【0228】このようにすると、膨大な数のαの値を記
憶する必要がなく、少ない記憶容量で精度の高い予測を
行うことが可能となる。
【0229】なお、本発明は情報フィルタ処理を行なう
システムや情報フィルタ処理のための方法としての適用
ばかりでなく、プログラムパッケージ化し、パソコンや
ワークステーション等、コンピュータシステムに対して
アプリケーションパッケージとして提供して、情報フィ
ルタ処理を行なわせることもでき、コンピュータプログ
ラムパッケージとしての頒布の形態を採用した実施形態
も実現可能である。
【0230】
【発明の効果】以上、詳述したように本発明によれば、
文書から抽出されるキーワードの組合せと文書の重要性
に関する評価値の関係だけに基いて推論/学習を行なう
ので、良好な推定精度を維持しつつ、計算量を少くし、
高速に判定/学習を行なうことが可能な情報フィルタを
得ることができる。
【0231】従って、本発明によれば、利用者は明らか
に興味のない文書を読む必要がなくなる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、本発明の
第1〜第3の具体例に係る情報フィルタの構成を示すブ
ロック図。
【図2】本発明を説明するための図であって、本発明に
用いるキーワードテーブルの一例を示す図。
【図3】本発明を説明するための図であって、本発明の
第1および第2の具体例における推論の流れを示すフロ
ーチャート。
【図4】本発明を説明するための図であって、本発明の
第1の具体例における学習の流れを示すフローチャー
ト。
【図5】本発明を説明するための図であって、本発明に
用いるキーワードテーブルの他の例を示す図。
【図6】本発明を説明するための図であって、本発明に
用いる各係数αの学習前後の値を示す図。
【図7】本発明を説明するための図であって、本発明の
第2の具体例における情報フィルタの構成例を示すブロ
ック図。
【図8】本発明を説明するための図であって、本発明の
第2の具体例における学習の流れを示すフローチャー
ト。
【図9】本発明を説明するための図であって、本発明の
第2の具体例の変形例における推論の流れを示すフロー
チャート。
【図10】本発明を説明するための図であって、本発明
の第3の具体例における情報フィルタの構成を示すブロ
ック図。
【図11】本発明を説明するための図であって、本発明
の第3の具体例における推論の流れを示すフローチャー
ト。
【図12】本発明を説明するための図であって、本発明
の第3の具体例における学習の流れを示すフローチャー
ト。
【図13】本発明を説明するための図であって、本発明
の第4の実施形態における情報フィルタの構成を示すブ
ロック図。
【図14】本発明を説明するための図であって、本発明
の第4の具体例における推論の流れを示すフローチャー
ト。
【図15】本発明を説明するための図であって、本発明
の第5の具体例に係る情報フィルタの構成を示すブロッ
ク図。
【図16】本発明を説明するための図であって、本発明
の第5の具体例において用いるキーワードテーブルの一
例を示す図。
【図17】本発明を説明するための図であって、本発明
の第5の具体例における削除処理の流れを示すフローチ
ャート。
【図18】本発明を説明するための図であって、本発明
の第5の具体例において用いる各係数αの例を示す図。
【図19】本発明を説明するための図であって、本発明
の第6の具体例を説明するための図。
【図20】本発明を説明するための図であって、本発明
の第6の具体例を説明するためのブロック図。
【図21】本発明を説明するための図であって、本発明
の第6の具体例に係る分割処理の流れを示すフローチャ
ート。
【符号の説明】
1…文書入力部 2…文書記憶部 3…キーワード抽出部 4…データ記憶部 5,5A,5B…推論部 6…表示部 6a…制御機能部 6b…出力部 7…評価データ入力部 8,8a,8A…学習部 9…不要キーワード検出処理部。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書からキーワードを抽出す
    るキーワード抽出手段と、 予め定められたキーワードの組合せと文書の重要性に関
    する評価値の関係を記憶する記憶手段と、 この記憶手段に記憶された前記関係と前記入力された文
    書から抽出された前記キーワードのうちの所定のキーワ
    ードとに基いて、前記入力された文書の重要度を推論す
    る推論手段と、 この推論手段により重要度が高いと判定された場合に、
    前記入力された文書を利用者に表示する表示手段と、を
    具備したことを特徴とする情報フィルタ装置。
  2. 【請求項2】 入力された文書から抽出されたキーワー
    ドに基いて該文書の重要度を推論し、該文書が重要と判
    定された場合に提示を行なう情報フィルタ装置におい
    て、 前記推論に用いるための予め定められたキーワードの組
    合せと文書の重要度に関する評価値の関係の情報を保持
    する記憶手段と、 学習対象となる文書からキーワードを抽出するキーワー
    ド抽出手段と、 前記学習対象となる文書の評価値を入力するための評価
    データ入力手段と、 前記文書から抽出されたキーワードのうちの所定のキー
    ワードと得られた前記評価値を用いて、前記記憶手段の
    保持する前記キーワードの組合せと評価値の関係の情報
    を学習する学習手段と、を具備したことを特徴とする情
    報フィルタ装置。
  3. 【請求項3】 文書を入力する文書入力手段と、 この文書入力手段より入力された前記文書からキーワー
    ドを抽出するキーワード抽出手段と、 予め定められたキーワードの組合せと評価値の関係の情
    報を保持する記憶手段と、 この記憶手段に記憶された前記関係と前記文書から抽出
    された前記キーワードのうちの所定のキーワードに基い
    て、前記入力された文書の重要度を推論する推論手段
    と、 この推論手段により重要と判定された文書を利用者に提
    示する表示手段と、 この表示された文書の重要性に関する前記利用者の評価
    値を入力するための評価データ入力手段と、 前記文書から抽出されたキーワードと得られた前記評価
    値を用いて、前記記憶手段に保持させる前記キーワード
    の組合せと評価値の関係の情報を学習させる学習手段
    と、を具備したことを特徴とする情報フィルタ装置。
  4. 【請求項4】 前記学習手段は、前記キーワード抽出手
    段により前記所定のキーワード以外の新規のキーワード
    が抽出された場合に、過去の前記関係の学習結果に該新
    規キーワードを追加するキーワード追加手段をさらに具
    備したことを特徴とする請求項2または3に記載の情報
    フィルタ装置。
  5. 【請求項5】 前記学習手段は、前記キーワードの組合
    せと評価値の関係を学習する際、前記文書から抽出され
    たキーワードが影響を及ぼす範囲についてのみ学習する
    ものであり、前記推論手段は、文書から抽出されたキー
    ワードに所定のキーワードが存在しないとした場合の該
    文書の重要度を予め保持しておき、入力された前記文書
    の重要度を推論する際、前記文書から抽出されたキーワ
    ードに所定のキーワードが存在する場合に該キーワード
    が該保持しておいた重要度を変動させる値を求め、この
    値に基いて該保持しておいた重要度を修正することによ
    り、入力された前記の重要度を求めるものであることを
    特徴とする請求項3に記載の情報フィルタ装置。
  6. 【請求項6】 前記推論手段は、入力された前記文書の
    重要度をスペクトル理論に基づいて推論するものである
    ことを特徴とする請求項1または2または5いずれか記
    載の情報フィルタ装置。
  7. 【請求項7】 前記学習手段は、前記キーワードの組合
    せと評価値の関係をスペクトル理論に基づいて学習する
    ものであることを特徴とする請求項2乃至5いずれか記
    載の情報フィルタ装置。
  8. 【請求項8】 前記文書から抽出された全キーワード中
    における前記所定のキーワードの、前記抽出された全キ
    ーワード中に占める割合が、予め定められた値に満たな
    いときは、前記推論手段による推論を行なわずに利用者
    に提示する構成としたことを特徴とする請求項1または
    2または4いずれか記載の情報フィルタ装置。
  9. 【請求項9】 前記学習情報中の不要キーワードを検出
    すると共に不要キーワードを削除する機能を持ち、不要
    キーワードが検出された場合に、過去の前記関係の学習
    結果から該不要キーワードを削除する不要キーワード検
    出手段をさらに具備したことを特徴とする請求項2また
    は3に記載の情報フィルタ装置。
  10. 【請求項10】 前記所定のキーワードの数が一定の大
    きさ以上になった場合に、過去の前記関係の学習結果を
    分割するキーワード分割手段をさらに具備したことを特
    徴とする請求項2または3に記載の情報フィルタ装置。
  11. 【請求項11】 入力された文書からキーワードを抽出
    するステップと、 予め定められたキーワードの組合せと文書に与えられる
    評価値との関係を記憶するステップと、 記憶された前記関係と前記入力された文書から抽出され
    た前記キーワードのうちの所定のキーワードとに基づい
    て、前記入力された文書の重要度を推論するステップ
    と、を具備することを特徴とする情報フィルタ方法。
  12. 【請求項12】 前記推論するステップにより得られた
    重要度が、所定の条件を満たしているか否かを判定する
    ステップと、 前記判定ステップにより所定の条件を満たしていると判
    定された場合に、前記入力された文書に関する所定の情
    報を利用者に表示するステップと、を更に具備すること
    を特徴とする請求項11記載の情報フィルタ方法。
  13. 【請求項13】 前記表示ステップにより表示された前
    記所定の情報に基づいて、前記利用者に対する評価値を
    入力するステップと、 前記文書から抽出されたキーワードと、前記入力された
    評価値とに基づいて、前記キーワードの組合せと前記評
    価値との関係の情報を学習するステップと、を更に具備
    することを特徴とする請求項12記載の情報フィルタ方
    法。
  14. 【請求項14】 前記学習させるステップは、前記所定
    のキーワード以外の新規のキーワードが抽出された場合
    に、前記新規のキーワードを追加するステップを更に有
    することを特徴とする請求項13記載の情報フィルタ方
    法。
  15. 【請求項15】 前記学習するステップは、前記キーワ
    ードの組合せと評価値の関係を学習する際、前記文書か
    ら抽出されたキーワードが影響を及ぼす範囲について学
    習するステップを含み、前記推論するステップは、文書
    から抽出されたキーワードに所定のキーワードが存在し
    ないとした場合の当該文書の重要度を予め保持してお
    き、入力された前記文書の重要度を推論する際に、前記
    文書から抽出されたキーワードに所定のキーワードが存
    在する場合に当該キーワードが保持しておいた重要度を
    変動させる値を求め、この値に基づいて該保持しておい
    た重要度を修正することにより、入力された前記の重要
    度を求めるステップを含むことを特徴とする請求項13
    記載の情報フィルタ方法。
JP10265596A 1995-04-24 1996-04-24 情報フィルタ装置及び情報フィルタ方法 Expired - Fee Related JP3472032B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10265596A JP3472032B2 (ja) 1995-04-24 1996-04-24 情報フィルタ装置及び情報フィルタ方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9879295 1995-04-24
JP7-98792 1995-04-24
JP10265596A JP3472032B2 (ja) 1995-04-24 1996-04-24 情報フィルタ装置及び情報フィルタ方法

Publications (2)

Publication Number Publication Date
JPH0916627A true JPH0916627A (ja) 1997-01-17
JP3472032B2 JP3472032B2 (ja) 2003-12-02

Family

ID=26439902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10265596A Expired - Fee Related JP3472032B2 (ja) 1995-04-24 1996-04-24 情報フィルタ装置及び情報フィルタ方法

Country Status (1)

Country Link
JP (1) JP3472032B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240762A (ja) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法
JP2000067077A (ja) * 1998-08-26 2000-03-03 Hitachi Information Systems Ltd データベースシステム及び表分割指定の処理を行うプログラムを格納した記録媒体
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JP2007066096A (ja) * 2005-08-31 2007-03-15 Kazuteru Ono 自動評価を有した電子文書承認システムおよび方法
JP2009282795A (ja) * 2008-05-23 2009-12-03 National Institute Of Information & Communication Technology 情報の重要度推定システム及び方法及びプログラム
JP2010146532A (ja) * 2008-12-16 2010-07-01 Yahoo Japan Corp 音声検索装置、音声検索方法及び音声検索プログラム
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
JP2015022466A (ja) * 2013-07-18 2015-02-02 ヤフー株式会社 ビジュアルキーワードの動的生成装置
WO2018087863A1 (ja) * 2016-11-10 2018-05-17 株式会社オプティム 情報処理装置、情報処理システムおよびプログラム
CN110276065A (zh) * 2018-03-15 2019-09-24 北京京东尚科信息技术有限公司 一种处理物品评论的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204975A (ja) * 1992-01-30 1993-08-13 Hitachi Ltd 情報フィルタリング装置及びそのフィルタリング方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204975A (ja) * 1992-01-30 1993-08-13 Hitachi Ltd 情報フィルタリング装置及びそのフィルタリング方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240762A (ja) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法
JP2000067077A (ja) * 1998-08-26 2000-03-03 Hitachi Information Systems Ltd データベースシステム及び表分割指定の処理を行うプログラムを格納した記録媒体
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JP2007066096A (ja) * 2005-08-31 2007-03-15 Kazuteru Ono 自動評価を有した電子文書承認システムおよび方法
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
JP2009282795A (ja) * 2008-05-23 2009-12-03 National Institute Of Information & Communication Technology 情報の重要度推定システム及び方法及びプログラム
JP2010146532A (ja) * 2008-12-16 2010-07-01 Yahoo Japan Corp 音声検索装置、音声検索方法及び音声検索プログラム
JP2015022466A (ja) * 2013-07-18 2015-02-02 ヤフー株式会社 ビジュアルキーワードの動的生成装置
WO2018087863A1 (ja) * 2016-11-10 2018-05-17 株式会社オプティム 情報処理装置、情報処理システムおよびプログラム
US10755094B2 (en) 2016-11-10 2020-08-25 Optim Corporation Information processing apparatus, system and program for evaluating contract
CN110276065A (zh) * 2018-03-15 2019-09-24 北京京东尚科信息技术有限公司 一种处理物品评论的方法和装置

Also Published As

Publication number Publication date
JP3472032B2 (ja) 2003-12-02

Similar Documents

Publication Publication Date Title
US20210109958A1 (en) Conceptual, contextual, and semantic-based research system and method
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
JP3682529B2 (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
CN113360780A (zh) 一种基于大数据的信息推荐方法及***
JP3472032B2 (ja) 情報フィルタ装置及び情報フィルタ方法
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN115470313A (zh) 信息检索及模型训练方法、装置、设备和存储介质
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0554037A (ja) 文書分類方式
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
Joung et al. Importance-performance analysis of product attributes using explainable deep neural network from online reviews
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
CN111382265A (zh) 搜索方法、装置、设备和介质
Wongchaisuwat Automatic keyword extraction using textrank
CN115048483A (zh) 信息管理***
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
JP2000105769A (ja) 文書表示方法
Hawladar et al. Amazon product reviews sentiment analysis using supervised learning algorithms
CN111695334A (zh) 一种文本相关性识别模型的训练方法及装置
JP5131565B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100912

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees