JP2001028006A - 情報自動フィルタリング方法および装置 - Google Patents

情報自動フィルタリング方法および装置

Info

Publication number
JP2001028006A
JP2001028006A JP11201988A JP20198899A JP2001028006A JP 2001028006 A JP2001028006 A JP 2001028006A JP 11201988 A JP11201988 A JP 11201988A JP 20198899 A JP20198899 A JP 20198899A JP 2001028006 A JP2001028006 A JP 2001028006A
Authority
JP
Japan
Prior art keywords
information
word
weight
automatic
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11201988A
Other languages
English (en)
Inventor
Naoki Inoue
直己 井ノ上
Keiichiro Hoashi
啓一郎 帆足
Kazuo Hashimoto
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDD Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDD Corp filed Critical KDD Corp
Priority to JP11201988A priority Critical patent/JP2001028006A/ja
Priority to US09/503,757 priority patent/US6976070B1/en
Publication of JP2001028006A publication Critical patent/JP2001028006A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語の重みを容易かつ適確に設定し、この単
語の重みを利用して情報が不適切であるか否かを適確に
判定する情報自動フィルタリング方法および装置を提供
する。 【解決手段】 重み付き単語リスト学習部60に学習デ
ータとして提供の阻止を必要とする不適切な情報と提供
の阻止を必要としない適切な情報を入力し、不適切な情
報と適切な情報をベクトル空間上で弁別する線形識別関
数から単語の重みを取得して重み付き単語リストとして
重み付き単語リスト格納部50に格納し、入力部1から
の情報から単語抽出部3で単語を抽出し、この単語の重
みwを重み付き単語リスト格納部50から取得して自動
フィルタリング部30に入力し、これらの単語の重みw
の総和を算出し、総和が閾値よりも大きい場合不適切な
情報と判定し、総和が閾値よりも小さい場合、適切な情
報と判定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、インターネットを
介して提供されるメールを含む各種情報に対して、情報
に出現する単語を抽出し、この単語に基づいて前記情報
が不適切であるか否かを判定し、不適切な情報の提供を
阻止する情報自動フィルタリング方法および装置に関す
る。
【0002】
【従来の技術】インターネットの急速な広がりに伴い、
限られた専門家の道具でしかなかったコンピュータはご
く一般の家庭や学校などにも導入され始めている。この
ため、これまでコンピュータに触れることすらなかった
多くの一般人でも気軽にインターネットにアクセスする
ことが可能になった。こうした背景の中、近年深刻な問
題となっているのがインターネット上に氾濫するポルノ
画像などの有害情報に対する子供のアクセスである。こ
の問題に対処するため、アメリカでは政府機関がインタ
ーネット上の情報を検閲することを可能にした「通信品
位法」という法律が提案されたが、裁判の結果、表現の
自由を保証する憲法に違反すると判決され、立法するこ
とができなかった。
【0003】そこで最近注目されているのが「情報フィ
ルタリング」という技術である。情報フィルタリングと
は、ユーザがインターネット上の情報にアクセスする際
にその情報の有害性をチェックし、有害と判定された場
合は何らかの手段によりその情報へのアクセスをブロッ
クするという技術である。
【0004】現在市販されている有害情報フィルタリン
グソフトで取り入れられている手法は大きく以下の4つ
に分類される。
【0005】(1)自己判定によるフィルタリング (2)第三者の判定によるフィルタリング (3)自動フィルタリング (4)単語に対するスコア(得点)を利用する方式 ここではこの4つの手法について簡単に解説する。ま
ず、自己判定によるフィルタリング手法ではWWW情報
の提供者が自らのコンテンツの有害性について判定を行
い、その結果をHTMLファイル内に記述する。フィル
タリングソフトはこの記述された結果を参照し、有害と
判断された場合にアクセスをブロックする。この手法に
よるフィルタリングを図4に示す。
【0006】図4に示す自己判定に基づくフィルタリン
グでは、米国マサチューセッツ工科大学のWorld Wide W
eb Consortium が作成したPICS(Platform for Int
ernet Content Selection )と呼ばれるインターネット
コンテンツの評価を記述するための基準を使用してい
る。PICSを使用することにより、コンテンツ提供者
は簡単に自分の提供している情報を描写し、開示するこ
とができる。
【0007】多くの場合、コンテンツ提供者がこのよう
な評価結果を公開する際には、PICSによる評価結果
を出力する評価機関のサービスを利用する。このような
評価機関の代表として、Recreational Software Adviso
ry Council(RSAC)やSafeSurfといった団体があげ
られ、それぞれ独自に設定した基準による評価結果を提
供している。コンテンツ提供者はこれらの機関からの評
価結果をHTMLファイルのヘッダに記述する。図5に
この評価結果の記述例を示す。
【0008】この自己判定はコンテンツ提供者の自主性
に任せられるというのが現状である。そのため、多くの
コンテンツ提供者がこの判定を受けようという意志を持
たない限りは本手法による有効な有害情報フィルタリン
グは不可能であるといえる。
【0009】次に第三者による判定に基づくフィルタリ
ングについて説明する。有害情報フィルタリングソフト
を作成している業者の中には、WWW上のホームページ
の有害性を独自に判定し、その結果をフィルタリングソ
フトの判断基準とする手法を取り入れている。一般的に
は、この評価の結果として有害なホームページのURL
一覧が構築されている。このURLのリストはフィルタ
リングソフトと共にユーザに分配され、フィルタリング
ソフトの判断基準となる。多くの場合、フィルタリング
ソフトはこの有害URL一覧を定期的にダウンロードす
る仕組みになっている。第三者による判定に基づく有害
情報フィルタリングの仕組みを図6に示す。
【0010】このような仕組みを持つソフトウェアの代
表的なものとしてCyberPatrolがあげられる。CyberPatr
olは「暴力」「性行為」など13個のジャンルに対し、
それぞれ有害URL一覧を持っており、これらのシステ
ムに従って有害情報フィルタリングを行う。
【0011】この手法で使用される有害URL一覧はそ
れぞれソフトウェア業者でホームページをアクセスし、
判定を行うことによって作成・拡張されているため、新
しく設立されたホームページや従来のURLから別のU
RLに移動したホームページには対処することは不可能
である。従って、こうした評価対象外のページに対する
フィルタリングには対処できないのが現状である。
【0012】次に、自動フィルタリングについて説明す
る。有害情報フィルタリングソフトの中にはアクセスさ
れたホームページの中身をチェックし、有害性の判断を
行うものもある。
【0013】具体的には、有害な情報、すなわち不適切
な情報内に含まれるであろう単語を予め登録しておき、
この登録した単語が情報内に出現するか否かをチェック
し、前記登録した単語が含まれていた場合に情報の提供
を阻止する方式である。例えば、ポルノ情報の提供を阻
止する場合、情報内に”sex”や“xxx”といった
文字列が含まれていた場合、その情報の提供を阻止す
る。この手法の応用として、登録した単語が情報内に含
まれている割合が所定の閾値を上回った場合に情報の提
供を阻止する方式もある。
【0014】次に、単語に対するスコア(得点)を利用
する方式について説明する。この方式は、不適切な情報
内に含まれるであろう単語およびこの単語に対するスコ
アを予め登録しておき、この登録した単語が情報内に出
現するか否かをチェックし、登録した単語が含まれてい
た場合に単語のスコアを合計し、この合計が所定の閾値
を上回った場合に該情報の提供を阻止するものである。
【0015】
【発明が解決しようとする課題】情報自動フィルタリン
グの大きな目的は不適切な情報を阻止する割合を増やす
とともに、適切な情報が誤って阻止される割合を減らす
ことであるが、上述した各手法はそれぞれ一長一短があ
り、従来の情報自動フィルタリングでは十分なフィルタ
リング性能を得ることができないという問題がある。
【0016】具体的には、従来の自動フィルタリング手
法では、例えば”Susex”というイギリスの町に関
するホームページがブロックされるという悪例が報告さ
れている。また、単語に対するスコアを利用する従来の
方式では、単語および単語のスコアの設定がアドホック
となり、ユーザにとってどのように設定すれば最も有効
であるかに関して全く指針がなかった。そのため、提供
を阻止すべき情報を阻止できなかったり、本来提供を阻
止する必要のない情報が阻止されるなど、性能の点で問
題があった。
【0017】例えば、「女子高生」という単語は一般的
にポルノ情報に頻出すると考え、「女子高生」という単
語とそのスコアを40として登録したとする。その結
果、「女子高生のサンプル画像、無料」という表現中に
「女子高生」が含まれているため、この表現全体のスコ
アは40となる。また、同様に「女子高生の乗ったバス
が北海道で事故」という表現についてもこの表現全体の
スコアは40となり、これらの表現のスコアは同じにな
る。このため、閾値を20としたとすると、本来阻止す
る必要のない後者の表現が阻止されてしまうという問題
があり、また閾値を50としたとすると、本来阻止すべ
き前者の表現が阻止されないという問題がある。これら
2つの表現を区別するためには、「サンプル」「画像」
「無料」などの単語や「バス」「北海道」「事故」とい
った単語にもスコアを設定する必要があることになる
が、これらの単語は一般的にも良く利用される単語であ
り、スコアをどのように設定すれば良いかが明確でな
く、スコアの設定により性能が大きく変動し、不適切な
表現か否かの判定性能が十分に得られないという問題が
ある。
【0018】本発明は、上記に鑑みてなされたもので、
その目的とするところは、単語の重みを容易かつ適確に
設定し、この単語の重みを利用して情報が不適切である
か否かを適確に判定する情報自動フィルタリング方法お
よび装置を提供することにある。
【0019】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、インターネットを介して
提供される情報のうち不適切情報を識別し、この識別し
た不適切情報の提供を阻止する情報自動フィルタリング
方法であって、提供の阻止を必要とする不適切な情報お
よび提供の阻止を必要としない適切な情報を学習データ
とした自動学習により前記情報に含まれる単語に対して
情報の提供を阻止する必要があるか否かを判定するため
に使用される単語の重みを求め、この求めた単語の重み
を各単語に対応して重み付き単語リストとして記憶管理
しておき、インターネットを介して提供される情報を入
力し、この情報に含まれる単語を抽出し、この抽出した
単語の各々に対する重みを前記重み付き単語リストから
読み出し、この読み出した各単語の重みの総和を算出
し、この算出した総和に基づき前記情報の提供を阻止す
べきか否かを判定することを要旨とする。
【0020】請求項1記載の本発明にあっては、提供の
阻止を必要とする不適切な情報および提供の阻止を必要
としない適切な情報を学習データとした自動学習により
単語の重みを求め、この求めた単語の重みを各単語に対
応して重み付き単語リストとして記憶管理しておき、イ
ンターネットを介して提供される情報に含まれる単語を
抽出し、この抽出した単語の各々に対する重みを重み付
き単語リストから読み出し、この読み出した各単語の重
みの総和を算出し、この総和に基づき前記情報の提供を
阻止すべきか否かを判定するため、従来アドホックに設
定しなければならなかった単語の重みを自動学習により
適確に求め、この適確に求めた単語の重みを利用して情
報が不適切な情報であるか否かを適確に判定し、不適切
な情報の提供を阻止することができる。
【0021】また、請求項2記載の本発明は、請求項1
記載の発明において、前記単語の重みを求める処理が、
前記不適切な文書と適切な文書に対してベクトル空間上
で弁別できる線形識別関数に基づく自動学習により単語
の重みを求めることを要旨とする。
【0022】請求項2記載の本発明にあっては、不適切
な文書と適切な文書に対してベクトル空間上で弁別でき
る線形識別関数に基づく自動学習により単語の重みを求
めるため、単語の重みを適確に設定することができる。
【0023】更に、請求項3記載の本発明は、インター
ネットを介して提供される情報のうち不適切情報を識別
し、この識別した不適切情報の提供を阻止する情報自動
フィルタリング装置であって、提供の阻止を必要とする
不適切な文書および提供の阻止を必要としない適切な文
書を学習データとした自動学習により前記文書に含まれ
る単語に対して情報の提供を阻止する必要があるか否か
を判定するために使用される単語の重みを求める単語重
み学習手段と、この求めた単語の重みを各単語に対応し
て重み付き単語リストとして記憶管理する重み付き単語
リスト格納手段と、インターネットを介して提供される
情報を入力する入力手段と、この入力された情報に含ま
れる単語を抽出する単語抽出手段と、この抽出した単語
の各々に対する重みを前記重み付き単語リストから読み
出し、この読み出した各単語の重みの総和を算出し、こ
の算出した総和に基づき前記情報の提供を阻止すべきか
否かを判定する判定手段とを有することを要旨とする。
【0024】請求項3記載の本発明にあっては、提供の
阻止を必要とする不適切な文書および提供の阻止を必要
としない適切な文書を学習データとした自動学習により
単語の重みを求め、この求めた単語の重みを各単語に対
応して重み付き単語リストとして記憶管理しておき、イ
ンターネットを介して提供される情報に含まれる単語を
抽出し、この抽出した単語の各々に対する重みを重み付
き単語リストから読み出し、この読み出した各単語の重
みの総和を算出し、この総和に基づき前記情報の提供を
阻止すべきか否かを判定するため、従来アドホックに設
定しなければならなかった単語の重みを自動学習により
適確に求め、この適確に求めた単語の重みを利用して情
報が不適切な情報であるか否かを適確に判定し、不適切
な情報の提供を阻止することができる。
【0025】請求項4記載の本発明は、請求項3記載の
発明において、前記単語重み学習手段が、前記不適切な
文書と適切な文書に対してベクトル空間上で弁別できる
線形識別関数に基づく自動学習により単語の重みを求め
る手段を有することを要旨とする。
【0026】請求項4記載の本発明にあっては、不適切
な文書と適切な文書に対してベクトル空間上で弁別でき
る線形識別関数に基づく自動学習により単語の重みを求
めるため、単語の重みを適確に設定することができる。
【0027】
【発明の実施の形態】次に、図1を参照して、本発明の
実施形態に係る情報自動フィルタリング装置について説
明する。同図に示す情報自動フィルタリング装置は、単
語の重みを自動学習により求め、この自動学習で求めた
単語の重みを利用して情報が不適切であるか否かを判定
し、不適切な情報の提供を阻止するものであり、インタ
ーネットを介して提供されるHTML情報を入力する入
力部1、この入力部1を介して入力された情報に出現す
る単語抽出部3、提供の阻止を必要とする不適切な情報
である文書および提供の阻止を必要としない適切な情報
である文書を学習データとした自動学習により前記文書
に含まれる単語に対して情報の提供を阻止する必要があ
るか否かを判定するために使用される単語の重みを求め
る重み付き単語リスト学習部60、この重み付き単語リ
スト学習部60で求めた単語の重みを各単語に対応して
重み付き単語リストとして記憶管理する重み付き単語リ
スト格納部50、単語抽出部3で抽出された単語および
該単語に対して重み付き単語リスト格納部50から得ら
れた単語の重みwに基づき入力部1から入力された情報
の提供を阻止すべきか否かを判定する自動フィルタリン
グ部30、および該自動フィルタリング部30で得られ
た判定結果を出力する出力部40から構成されている。
【0028】本実施形態の情報自動フィルタリング装置
は、重み付き単語リスト学習部60において単語の重み
を自動学習により予め取得し、この自動学習で得た単語
の重みを利用することを特徴とする。この単語の重みの
自動学習の方法を図2のフローチャートに示す単語重み
の学習アルゴリズムで行われるものである。すなわち、
図2に示す学習アルゴリズムでは、学習データの集合E
={d1 ,…,dn }として提供の阻止を必要とする不
適切な情報および提供の阻止を必要としない適切な情報
を重み付き単語リスト学習部60に入力し、この入力さ
れた不適切な情報と適切な情報をベクトル空間上で弁別
する線形識別関数から単語の重みを取得する。具体的に
は次ぎの手順で行う。
【0029】まず、入力部1から入力されたHTML文
書をベクトル空間モデルによって表現する。すなわち、
すべての文書を表現するn個の単語を選択し、それぞれ
の文書をn次元のベクトルで次式のように表現する。
【0030】
【数1】 このベクトルの各要素は、各々単語の文書dでの出現頻
度を正規化したものである。単語の出現頻度の正規化に
は次に示す数式で表されるTF*IDFという手法を用
いている。
【0031】
【数2】 ここで、tfdiは単語iが文書dに出現する頻度、Nは
すべての文書の数、dfi は単語iが出現する文書の数
である。
【0032】自動フィルタリングは、次に示す数式で表
される線形識別関数によって行われ、この関数によって
単語の重みの総和Dis(d)が計算される。
【0033】
【数3】 ここで、wi は各単語iに対する重みであり、fdiは上
式(2)の値であり、文書における各単語のfdi値であ
る。
【0034】上述した式(3)から、総和Dis(d)
が0より大きい場合、前記文書は有害であり、0以下で
ある場合、無害であると判定される。
【0035】なお、上述した各単語iに対する重みは文
書dが有害な場合、総和Dis(d)>0となり、無害
な場合、総和Dis(d)≦0となるように設定され
る。
【0036】次に、この単語の重みの学習アルゴリズム
について図2に示すフローチャートを参照して説明す
る。なお、この単語の重みの学習には perceptron lear
ning algorithm(PLA)を使用している。
【0037】図2においては、まず各種パラメータを設
定する(ステップS51)。このパラメータとしては、
各単語の重みの集合W=(w1 ,…,wn )、N個の学
習データE={d1 ,…,dn }、定数η、最大学習回
数Max、図2に示す学習処理を繰り返し行う学習回数
mがある。
【0038】それから、全ての文書を表現する単語のう
ち頻度の高いn個の単語を選択する(ステップS5
2)。
【0039】次に、単語の重みの集合Wを初期化する
(ステップS53)。この初期化では、各単語の重みに
乱数を入力する。それから、すべての学習データに対し
て前記単語重みの総和Dis(d)を上式(3)により
計算する(ステップS55)。
【0040】そして、この計算の結果、すべての無害な
文書dについて総和Dis(d)≦0であり、かつすべ
ての有害な文書dについて総和Dis(d)>0である
か否かをチェックし(ステップS57)、そうである場
合には、処理を終了するが、そうでない場合には、この
ように誤って分類されたすべての文書dについて次のス
テップS61,S63で示すように重みの変化度合Sを
補正する(ステップS59)。
【0041】すなわち、ステップS61では、文書di
が有害であって、かつ総和Dis(d)≦0の場合に
は、重み変化度合Sを増加するように補正し、またステ
ップS63では、文書di が無害であって、かつ総和D
is(d)>0の場合には、重み変化度合Sを低減する
ように補正する。
【0042】そして、このように補正された重み変化度
合Sを使用して単語重みの集合WをステップS65で示
す式のように補正する。それから、学習回数mを+1イ
ンクリメントし(ステップS67)、この学習回数mが
最大学習回数Maxより小さいか否かをチェックし(ス
テップS69)、また最大学習回数Maxより小さい場
合には、ステップS55に戻り、ステップS57に示し
た条件が満たされるまで、ステップS55以降の処理を
繰り返し行う。そして、最終的にn個の単語に対する単
語重みの集合が求まる。
【0043】重み付き単語リスト学習部60で取得され
た各単語の重みは、各単語に対応して重み付き単語リス
トとして重み付き単語リスト格納部50に格納される。
次に示す表7は、重み付き単語リスト格納部50に格納
されている重み付き単語リストを示す表であり、各単語
に対応して単語重みwが格納されている。
【0044】
【表1】 次に、このように重み付き単語リスト学習部60で得ら
れ、重み付き単語リスト格納部50に格納された単語重
みに基づきインターネットから提供された情報が不適切
な情報であるか否かを判定する処理について説明する。
【0045】図1において、入力部1から入力されたイ
ンターネットからの情報は、単語抽出部3で、重み付き
単語リスト格納部50に格納されている単語リストと照
合し、入力情報中に出現する単語とその出現頻度を求め
る。また、同時に出現した単語の重みwも重み付き単語
リスト格納部50から求め、出現単語とその頻度および
重みを自動フィルタリング部30に供給する。自動フィ
ルタリング部30は、この入力された単語に対する重み
wと出現頻度から、入力情報中に出現した全ての単語に
対する重みwの総和を算出し、この総和を所定の閾値と
比較し、総和が閾値よりも大きい場合不適切な情報と判
定し、総和が閾値よりも小さい場合、適切な情報と判定
し、この判定結果を出力部40から出力する。
【0046】具体的に説明する。表1に示すように、重
み付き単語リスト学習部60では、予め入力された学習
データから「画像」の重みは10.9、「サンプル」の
重みは18.7、「事故」の重みは−16.6、「女子
高生」の重みは82.2、「バス」の重みは−101.
9、「北海道」の重みは−112.5、「無料」の重み
は−6.3と求まり、重み付き単語リスト格納部50に
格納しているので、この結果を利用すると、例えば「女
子高生の乗ったバスが北海道で事故」という表現全体に
対しては、自動フィルタリング部30で各単語の重みの
総和を求め、82.2−101.9−112.5−1
6.6=−148.8となる。また、「女子高生のサン
プル画像、無料」の表現全体に対しては、自動フィルタ
リング部30で各単語の総和を求め、82.2+18.
7+10.9−6.3=105.5となる。そして、図
2の処理と同様に閾値を0とすると、「女子高生の乗っ
たバスが北海道で事故」という表現は閾値を下回るの
で、情報の提供は阻止されず、また「女子高生のサンプ
ル画像、無料」という表現は閾値を上回るので、情報の
提供は阻止されるというように正しく判定することがで
きる。
【0047】次に、図4および図6を参照して、本発明
の他の実施形態に係る自動フィルタリング装置について
説明する。図4に示す自動フィルタリング装置は、図6
で説明した学習により単語リストを作成する情報自動フ
ィルタリング装置25に対して第三者判定フィルタリン
グ処理部23および該第三者判定フィルタリング処理部
23で有害URLを参照するために使用される有害UR
L一覧テーブル格納部17が付加されている。
【0048】有害URL一覧テーブル格納部17は、有
害情報を提供するURLを有害URL一覧テーブルとし
て格納しているものであり、第三者判定フィルタリング
処理部23は、前記入力部1から入力されたHTML文
書のURLを有害URL一覧テーブル格納部17の有害
URL一覧テーブルに登録されている各URLと照合
し、一致するURLがあるか否かを判定するものであ
る。
【0049】図6は、図4に示す自動フィルタリング装
置の更に詳細な構成を示すブロック図である。図6に示
す自動フィルタリング装置は、図6に示した学習により
作成した重み付き単語リストを用いた情報自動フィルタ
リング装置を構成する入力部1、単語抽出部3、重み付
き単語リスト格納部50、自動フィルタリング部30、
出力部40に加えて、図4の第三者判定フィルタリング
処理部23に対応するURLリストに基づくフィルタリ
ング部15および有害URL一覧テーブル格納部17を
有している。
【0050】このように構成される自動フィルタリング
装置、すなわち第三者判定フィルタリング処理部による
URLリスト一覧と学習により作成した重み付き単語リ
ストを用いた情報自動フィルタリング装置によるフィル
タリング処理では、まずインターネット21を介して入
力されたHTML文書は、そのURLが有害URL一覧
テーブル格納部17の有害URL一覧テーブルに登録さ
れている各URLと照合され、一致するURLがあるか
否かが判定される。そして、有害URL一覧テーブル格
納部17の有害URL一覧テーブルに登録されたURL
と一致する場合には、このURLが示す情報の提示は阻
止される。
【0051】URLリストに基づくフィルタリング部1
5による有害URL一覧テーブルを参照した判定の結
果、有害URL一覧テーブル格納部17の有害URL一
覧テーブルに登録されているURLと一致するものがな
い場合には、学習により作成した重み付き単語リストを
用いた情報自動フィルタリング装置25によるフィルタ
リングが図6で説明したように行われる。
【0052】このように本実施形態では、第三者による
判定に基づくフィルタリングと学習により作成した重み
付き単語リストを用いたフィルタリングの両方が行われ
るため、有害情報を適確に検出して阻止することができ
る。
【0053】
【発明の効果】以上説明したように、本発明によれば、
提供の阻止を必要とする不適切な情報および提供の阻止
を必要としない適切な情報を学習データとした自動学習
により単語の重みを求め、この単語の重みを各単語に対
応して重み付き単語リストとして記憶管理し、インター
ネットを介して提供される情報に含まれる単語を抽出
し、この抽出した単語の各々に対する重みを重み付き単
語リストから読み出し、各単語の重みの総和を算出し、
この総和に基づき情報の提供を阻止すべきか否かを判定
するので、従来アドホックに設定しなければならなかっ
た単語の重みを自動学習により適確に求め、この適確に
求めた単語の重みを利用して情報が不適切な情報である
か否かを適確に高い性能で判定し、不適切な情報の提供
を阻止することができる。
【図面の簡単な説明】
【図1】本発明の別の実施形態に係る情報自動フィルタ
リング装置の構成を示すブロック図である。
【図2】図1に示すフローチャートに使用されている単
語重みの設定手順を示すフローチャートである。
【図3】本発明の他の実施形態に係る自動フィルタリン
グ装置の概要構成を示す説明図である。
【図4】従来の自己判定に基づくフィルタリングを説明
するための図である。
【図5】図4に示した自己判定に基づくフィルタリング
の一例としてRSACi とSafeSurfによる評価結果の記述例
を示す図である。
【図6】従来の第三者による判定に基づく有害情報フィ
ルタリングを説明するための図である。
【符号の説明】
1 入力部 3 単語抽出部 30 自動フィルタリング部 50 重み付き単語リスト格納部 60 重み付き単語リスト学習部
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年8月18日(1999.8.1
8)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0027
【補正方法】変更
【補正内容】
【0027】
【発明の実施の形態】次に、図1を参照して、本発明の
実施形態に係る情報自動フィルタリング装置について説
明する。同図に示す情報自動フィルタリング装置は、単
語の重みを自動学習により求め、この自動学習で求めた
単語の重みを利用して情報が不適切であるか否かを判定
し、不適切な情報の提供を阻止するものであり、インタ
ーネットを介して提供されるHTML情報を入力する入
力部1、この入力部1を介して入力された情報に出現す
る単語を抽出する単語抽出部3、提供の阻止を必要とす
る不適切な情報である文書および提供の阻止を必要とし
ない適切な情報である文書を学習データとした自動学習
により前記文書に含まれる単語に対して情報の提供を阻
止する必要があるか否かを判定するために使用される単
語の重みを求める重み付き単語リスト学習部60、この
重み付き単語リスト学習部60で求めた単語の重みを各
単語に対応して重み付き単語リストとして記憶管理する
重み付き単語リスト格納部50、単語抽出部3で抽出さ
れた単語および該単語に対して重み付き単語リスト格納
部50から得られた単語の重みwに基づき入力部1から
入力された情報の提供を阻止すべきか否かを判定する自
動フィルタリング部30、および該自動フィルタリング
部30で得られた判定結果を出力する出力部40から構
成されている。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0047
【補正方法】変更
【補正内容】
【0047】次に、図3を参照して、本発明の他の実施
形態に係る情報自動フィルタリング装置について説明す
る。図3に示す情報自動フィルタリング装置は、図1で
説明した学習により単語リストを作成する情報自動フィ
ルタリング装置に対して第三者判定フィルタリング処理
部23および該第三者判定フィルタリング処理部23で
有害URLを参照するために使用される有害URL一覧
テーブル格納部17が付加されている点が異なる。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0048
【補正方法】変更
【補正内容】
【0048】図3において、有害URL一覧テーブル格
納部17は、有害情報を提供するURLを有害URL一
覧テーブルとして格納しているものであり、第三者判定
フィルタリング処理部23は、図1に示す入力部1を介
して入力されたHTML文書のURLを有害URL一覧
テーブル格納部17の有害URL一覧テーブルに登録さ
れている各URLと照合し、一致するURLがあるか否
かを判定するものである。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0049
【補正方法】変更
【補正内容】
【0049】すなわち、図3に示す情報自動フィルタリ
ング装置は、図1に示す入力部1、単語抽出部3、重み
付き単語リスト格納部50、自動フィルタリング部30
および出力部40による構成により、学習により作成し
た重み付き単語リストを用いてフィルタリングを行う機
能に、図3に示す第三者判定フィルタリング処理部23
及び有害URL一覧テーブル格納部17を付加してUR
Lによるフィルタリングを行う機能を有している。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0050
【補正方法】変更
【補正内容】
【0050】このように構成される情報自動フィルタリ
ング装置、すなわち第三者判定フィルタリング処理部2
3の有害URL一覧テーブル格納部17に蓄積される有
害URLリストと学習により作成した重み付き単語リス
トを用いた情報自動フィルタリング処理では、まずイン
ターネット21を介して入力されたHTML文書は、そ
のURLが有害URL一覧テーブル格納部17の有害U
RL一覧テーブルに登録されている各URLと照合さ
れ、一致するURLがあるか否かが判定される。そし
て、有害URL一覧テーブル格納部17の有害URL一
覧テーブルに登録されたURLと一致する場合には、こ
のURLが示す情報の提示は阻止される。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0051
【補正方法】変更
【補正内容】
【0051】URLリストに基づくフィルタリング部1
5による有害URL一覧テーブルを参照した判定の結
果、有害URL一覧テーブル格納部17の有害URL一
覧テーブルに登録されているURLと一致するものがな
い場合には、学習により作成した重み付き単語リストを
用いた情報自動フィルタリング装置25によるフィルタ
リングが行われる。
【手続補正7】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正内容】
【図1】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 橋本 和夫 埼玉県上福岡市大原2−1−15 株式会社 ケイディディ研究所内 Fターム(参考) 5B075 KK07 KK13 KK33 KK54 KK70 ND03 NR02 NR12 QM10 UU40

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 インターネットを介して提供される情報
    のうち不適切情報を識別し、この識別した不適切情報の
    提供を阻止する情報自動フィルタリング方法であって、 提供の阻止を必要とする不適切な情報および提供の阻止
    を必要としない適切な情報を学習データとした自動学習
    により前記情報に含まれる単語に対して情報の提供を阻
    止する必要があるか否かを判定するために使用される単
    語の重みを求め、 この求めた単語の重みを各単語に対応して重み付き単語
    リストとして記憶管理しておき、 インターネットを介して提供される情報を入力し、この
    情報に含まれる単語を抽出し、 この抽出した単語の各々に対する重みを前記重み付き単
    語リストから読み出し、 この読み出した各単語の重みの総和を算出し、この算出
    した総和に基づき前記情報の提供を阻止すべきか否かを
    判定することを特徴とする情報自動フィルタリング方
    法。
  2. 【請求項2】 前記単語の重みを求める処理は、前記不
    適切な情報と適切な情報に対してベクトル空間上で弁別
    できる線形識別関数に基づく自動学習により単語の重み
    を求めることを特徴とする請求項1記載の情報自動フィ
    ルタリング方法。
  3. 【請求項3】 インターネットを介して提供される情報
    のうち不適切情報を識別し、この識別した不適切情報の
    提供を阻止する情報自動フィルタリング装置であって、 提供の阻止を必要とする不適切な情報および提供の阻止
    を必要としない適切な情報を学習データとした自動学習
    により前記情報に含まれる単語に対して情報の提供を阻
    止する必要があるか否かを判定するために使用される単
    語の重みを求める単語重み学習手段と、 この求めた単語の重みを各単語に対応して重み付き単語
    リストとして記憶管理する重み付き単語リスト格納手段
    と、 インターネットを介して提供される情報を入力する入力
    手段と、 この入力された情報に含まれる単語を抽出する単語抽出
    手段と、 この抽出した単語の各々に対する重みを前記重み付き単
    語リストから読み出し、この読み出した各単語の重みの
    総和を算出し、この算出した総和に基づき前記情報の提
    供を阻止すべきか否かを判定する判定手段とを有するこ
    とを特徴とする情報自動フィルタリング装置。
  4. 【請求項4】 前記単語重み学習手段は、前記不適切な
    情報と適切な情報に対してベクトル空間上で弁別できる
    線形識別関数に基づく自動学習により単語の重みを求め
    る手段を有することを特徴とする請求項3記載の情報自
    動フィルタリング装置。
JP11201988A 1999-02-16 1999-07-15 情報自動フィルタリング方法および装置 Pending JP2001028006A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11201988A JP2001028006A (ja) 1999-07-15 1999-07-15 情報自動フィルタリング方法および装置
US09/503,757 US6976070B1 (en) 1999-02-16 2000-02-14 Method and apparatus for automatic information filtering using URL hierarchical structure and automatic word weight learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11201988A JP2001028006A (ja) 1999-07-15 1999-07-15 情報自動フィルタリング方法および装置

Publications (1)

Publication Number Publication Date
JP2001028006A true JP2001028006A (ja) 2001-01-30

Family

ID=16450090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11201988A Pending JP2001028006A (ja) 1999-02-16 1999-07-15 情報自動フィルタリング方法および装置

Country Status (1)

Country Link
JP (1) JP2001028006A (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282797A (ja) * 2000-03-31 2001-10-12 Digital Arts Inc インターネット閲覧制御方法、その方法を実施するプログラムを記録した媒体およびインターネット閲覧制御装置
JP2002251576A (ja) * 2001-02-26 2002-09-06 Nec Nexsolutions Ltd インターネットフィルタリング方法
JP2005520230A (ja) * 2002-03-08 2005-07-07 サイファートラスト, インコーポレイテッド 電子セキュリティを強化するシステムおよび方法
JP2005531072A (ja) * 2002-06-25 2005-10-13 エイビーエス ソフトウェア パートナーズ エルエルシー チャット及びインスタントメッセージの参加者を監視し、参加者と相互作用するためのシステム及び方法
JP2009037420A (ja) * 2007-08-01 2009-02-19 Yahoo Japan Corp 有害コンテンツの評価付与装置、プログラム及び方法
JP2009122931A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
JP2009140437A (ja) * 2007-12-10 2009-06-25 Just Syst Corp フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
US7694128B2 (en) 2002-03-08 2010-04-06 Mcafee, Inc. Systems and methods for secure communication delivery
US8179798B2 (en) 2007-01-24 2012-05-15 Mcafee, Inc. Reputation based connection throttling
US8214497B2 (en) 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
JP2013502000A (ja) * 2009-08-13 2013-01-17 アリババ グループ ホールディング リミテッド ウェブページコンテンツフィルタリングのための方法およびシステム
US8549611B2 (en) 2002-03-08 2013-10-01 Mcafee, Inc. Systems and methods for classification of messaging entities
US8561167B2 (en) 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
US8578480B2 (en) 2002-03-08 2013-11-05 Mcafee, Inc. Systems and methods for identifying potentially malicious messages
US8578051B2 (en) 2007-01-24 2013-11-05 Mcafee, Inc. Reputation based load balancing
US8589503B2 (en) 2008-04-04 2013-11-19 Mcafee, Inc. Prioritizing network traffic
US8621638B2 (en) 2010-05-14 2013-12-31 Mcafee, Inc. Systems and methods for classification of messaging entities
US8621559B2 (en) 2007-11-06 2013-12-31 Mcafee, Inc. Adjusting filter or classification control settings
US8635690B2 (en) 2004-11-05 2014-01-21 Mcafee, Inc. Reputation based message processing
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US10055487B2 (en) 2011-04-08 2018-08-21 Universal Entertainment Corporation Preference visualization system and censorship system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040156A (ja) * 1996-07-19 1998-02-13 Nec Corp Wwwブラウザにおける表示ページ制御方式
JPH10275157A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd データ処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040156A (ja) * 1996-07-19 1998-02-13 Nec Corp Wwwブラウザにおける表示ページ制御方式
JPH10275157A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd データ処理装置

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928455B2 (en) 2000-03-31 2005-08-09 Digital Arts Inc. Method of and apparatus for controlling access to the internet in a computer system and computer readable medium storing a computer program
JP2001282797A (ja) * 2000-03-31 2001-10-12 Digital Arts Inc インターネット閲覧制御方法、その方法を実施するプログラムを記録した媒体およびインターネット閲覧制御装置
JP2002251576A (ja) * 2001-02-26 2002-09-06 Nec Nexsolutions Ltd インターネットフィルタリング方法
US8549611B2 (en) 2002-03-08 2013-10-01 Mcafee, Inc. Systems and methods for classification of messaging entities
JP2005520230A (ja) * 2002-03-08 2005-07-07 サイファートラスト, インコーポレイテッド 電子セキュリティを強化するシステムおよび方法
US8561167B2 (en) 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
US8578480B2 (en) 2002-03-08 2013-11-05 Mcafee, Inc. Systems and methods for identifying potentially malicious messages
US7694128B2 (en) 2002-03-08 2010-04-06 Mcafee, Inc. Systems and methods for secure communication delivery
JP4688420B2 (ja) * 2002-03-08 2011-05-25 セキュアー コンピューティング コーポレイション 電子セキュリティを強化するシステムおよび方法
US8042181B2 (en) 2002-03-08 2011-10-18 Mcafee, Inc. Systems and methods for message threat management
US8042149B2 (en) 2002-03-08 2011-10-18 Mcafee, Inc. Systems and methods for message threat management
US8069481B2 (en) 2002-03-08 2011-11-29 Mcafee, Inc. Systems and methods for message threat management
US8631495B2 (en) 2002-03-08 2014-01-14 Mcafee, Inc. Systems and methods for message threat management
JP2005531072A (ja) * 2002-06-25 2005-10-13 エイビーエス ソフトウェア パートナーズ エルエルシー チャット及びインスタントメッセージの参加者を監視し、参加者と相互作用するためのシステム及び方法
US8635690B2 (en) 2004-11-05 2014-01-21 Mcafee, Inc. Reputation based message processing
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US9009321B2 (en) 2007-01-24 2015-04-14 Mcafee, Inc. Multi-dimensional reputation scoring
US10050917B2 (en) 2007-01-24 2018-08-14 Mcafee, Llc Multi-dimensional reputation scoring
US9544272B2 (en) 2007-01-24 2017-01-10 Intel Corporation Detecting image spam
US8179798B2 (en) 2007-01-24 2012-05-15 Mcafee, Inc. Reputation based connection throttling
US8578051B2 (en) 2007-01-24 2013-11-05 Mcafee, Inc. Reputation based load balancing
US8762537B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Multi-dimensional reputation scoring
US8214497B2 (en) 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
JP2009037420A (ja) * 2007-08-01 2009-02-19 Yahoo Japan Corp 有害コンテンツの評価付与装置、プログラム及び方法
US8621559B2 (en) 2007-11-06 2013-12-31 Mcafee, Inc. Adjusting filter or classification control settings
JP2009122931A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
JP2009140437A (ja) * 2007-12-10 2009-06-25 Just Syst Corp フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
US8606910B2 (en) 2008-04-04 2013-12-10 Mcafee, Inc. Prioritizing network traffic
US8589503B2 (en) 2008-04-04 2013-11-19 Mcafee, Inc. Prioritizing network traffic
JP2013502000A (ja) * 2009-08-13 2013-01-17 アリババ グループ ホールディング リミテッド ウェブページコンテンツフィルタリングのための方法およびシステム
US8621638B2 (en) 2010-05-14 2013-12-31 Mcafee, Inc. Systems and methods for classification of messaging entities
US10055487B2 (en) 2011-04-08 2018-08-21 Universal Entertainment Corporation Preference visualization system and censorship system

Similar Documents

Publication Publication Date Title
JP2001028006A (ja) 情報自動フィルタリング方法および装置
JP3220104B2 (ja) Url階層構造を利用した情報自動フィルタリング方法および装置
US8554540B2 (en) Topic map based indexing and searching apparatus
KR100849272B1 (ko) 마크업 문서 자동 요약 방법
US10839029B2 (en) Personalization of web search results using term, category, and link-based user profiles
US7096214B1 (en) System and method for supporting editorial opinion in the ranking of search results
US7917522B1 (en) Training procedure for N-gram-based statistical content classification
US20180212918A1 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
US6601059B1 (en) Computerized searching tool with spell checking
US20200364506A1 (en) Article Recommendation Method and Apparatus, Computer Device, and Storage Medium
US6618715B1 (en) Categorization based text processing
US6460029B1 (en) System for improving search text
US6513031B1 (en) System for improving search area selection
US20100058204A1 (en) Methods and systems for web site categorisation and filtering
US8611651B1 (en) Scoring items
US8825672B1 (en) System and method for determining originality of data content
CA2727537C (en) System and method for compending blogs
US20160070803A1 (en) Conceptual product recommendation
US20050216516A1 (en) Advertisement placement method and system using semantic analysis
WO2002010957A2 (en) Computer method and apparatus for determining content types of web pages
WO2007069244A2 (en) Method for assigning one or more categorized scores to each document over a data network
KR20070102033A (ko) 문서검색 시스템 및 그 방법
WO2006117575A1 (en) Method for probabilistic information fusion to filter multi-lingual, semi-structured and multimedia electronic content
KR100393176B1 (ko) 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
US7617182B2 (en) Document clustering based on entity association rules