JP2001028006A

JP2001028006A - 情報自動フィルタリング方法および装置

Info

Publication number: JP2001028006A
Application number: JP11201988A
Authority: JP
Inventors: Naoki Inoue; 直己井ノ上; Keiichiro Hoashi; 啓一郎帆足; Kazuo Hashimoto; 和夫橋本
Original assignee: KDD Corp
Current assignee: KDDI Corp
Priority date: 1999-07-15
Filing date: 1999-07-15
Publication date: 2001-01-30

Abstract

(57)【要約】【課題】単語の重みを容易かつ適確に設定し、この単
語の重みを利用して情報が不適切であるか否かを適確に
判定する情報自動フィルタリング方法および装置を提供
する。【解決手段】重み付き単語リスト学習部６０に学習デ
ータとして提供の阻止を必要とする不適切な情報と提供
の阻止を必要としない適切な情報を入力し、不適切な情
報と適切な情報をベクトル空間上で弁別する線形識別関
数から単語の重みを取得して重み付き単語リストとして
重み付き単語リスト格納部５０に格納し、入力部１から
の情報から単語抽出部３で単語を抽出し、この単語の重
みｗを重み付き単語リスト格納部５０から取得して自動
フィルタリング部３０に入力し、これらの単語の重みｗ
の総和を算出し、総和が閾値よりも大きい場合不適切な
情報と判定し、総和が閾値よりも小さい場合、適切な情
報と判定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、インターネットを
介して提供されるメールを含む各種情報に対して、情報
に出現する単語を抽出し、この単語に基づいて前記情報
が不適切であるか否かを判定し、不適切な情報の提供を
阻止する情報自動フィルタリング方法および装置に関す
る。

【０００２】

【従来の技術】インターネットの急速な広がりに伴い、
限られた専門家の道具でしかなかったコンピュータはご
く一般の家庭や学校などにも導入され始めている。この
ため、これまでコンピュータに触れることすらなかった
多くの一般人でも気軽にインターネットにアクセスする
ことが可能になった。こうした背景の中、近年深刻な問
題となっているのがインターネット上に氾濫するポルノ
画像などの有害情報に対する子供のアクセスである。こ
の問題に対処するため、アメリカでは政府機関がインタ
ーネット上の情報を検閲することを可能にした「通信品
位法」という法律が提案されたが、裁判の結果、表現の
自由を保証する憲法に違反すると判決され、立法するこ
とができなかった。

【０００３】そこで最近注目されているのが「情報フィ
ルタリング」という技術である。情報フィルタリングと
は、ユーザがインターネット上の情報にアクセスする際
にその情報の有害性をチェックし、有害と判定された場
合は何らかの手段によりその情報へのアクセスをブロッ
クするという技術である。

【０００４】現在市販されている有害情報フィルタリン
グソフトで取り入れられている手法は大きく以下の４つ
に分類される。

【０００５】（１）自己判定によるフィルタリング（２）第三者の判定によるフィルタリング（３）自動フィルタリング（４）単語に対するスコア（得点）を利用する方式ここではこの４つの手法について簡単に解説する。ま
ず、自己判定によるフィルタリング手法ではＷＷＷ情報
の提供者が自らのコンテンツの有害性について判定を行
い、その結果をＨＴＭＬファイル内に記述する。フィル
タリングソフトはこの記述された結果を参照し、有害と
判断された場合にアクセスをブロックする。この手法に
よるフィルタリングを図４に示す。

【０００６】図４に示す自己判定に基づくフィルタリン
グでは、米国マサチューセッツ工科大学のWorld Wide W
eb Consortium が作成したＰＩＣＳ（Platform for Int
ernet Content Selection ）と呼ばれるインターネット
コンテンツの評価を記述するための基準を使用してい
る。ＰＩＣＳを使用することにより、コンテンツ提供者
は簡単に自分の提供している情報を描写し、開示するこ
とができる。

【０００７】多くの場合、コンテンツ提供者がこのよう
な評価結果を公開する際には、ＰＩＣＳによる評価結果
を出力する評価機関のサービスを利用する。このような
評価機関の代表として、Recreational Software Adviso
ry Council（ＲＳＡＣ）やSafeSurfといった団体があげ
られ、それぞれ独自に設定した基準による評価結果を提
供している。コンテンツ提供者はこれらの機関からの評
価結果をＨＴＭＬファイルのヘッダに記述する。図５に
この評価結果の記述例を示す。

【０００８】この自己判定はコンテンツ提供者の自主性
に任せられるというのが現状である。そのため、多くの
コンテンツ提供者がこの判定を受けようという意志を持
たない限りは本手法による有効な有害情報フィルタリン
グは不可能であるといえる。

【０００９】次に第三者による判定に基づくフィルタリ
ングについて説明する。有害情報フィルタリングソフト
を作成している業者の中には、ＷＷＷ上のホームページ
の有害性を独自に判定し、その結果をフィルタリングソ
フトの判断基準とする手法を取り入れている。一般的に
は、この評価の結果として有害なホームページのＵＲＬ
一覧が構築されている。このＵＲＬのリストはフィルタ
リングソフトと共にユーザに分配され、フィルタリング
ソフトの判断基準となる。多くの場合、フィルタリング
ソフトはこの有害ＵＲＬ一覧を定期的にダウンロードす
る仕組みになっている。第三者による判定に基づく有害
情報フィルタリングの仕組みを図６に示す。

【００１０】このような仕組みを持つソフトウェアの代
表的なものとしてCyberPatrolがあげられる。CyberPatr
olは「暴力」「性行為」など１３個のジャンルに対し、
それぞれ有害ＵＲＬ一覧を持っており、これらのシステ
ムに従って有害情報フィルタリングを行う。

【００１１】この手法で使用される有害ＵＲＬ一覧はそ
れぞれソフトウェア業者でホームページをアクセスし、
判定を行うことによって作成・拡張されているため、新
しく設立されたホームページや従来のＵＲＬから別のＵ
ＲＬに移動したホームページには対処することは不可能
である。従って、こうした評価対象外のページに対する
フィルタリングには対処できないのが現状である。

【００１２】次に、自動フィルタリングについて説明す
る。有害情報フィルタリングソフトの中にはアクセスさ
れたホームページの中身をチェックし、有害性の判断を
行うものもある。

【００１３】具体的には、有害な情報、すなわち不適切
な情報内に含まれるであろう単語を予め登録しておき、
この登録した単語が情報内に出現するか否かをチェック
し、前記登録した単語が含まれていた場合に情報の提供
を阻止する方式である。例えば、ポルノ情報の提供を阻
止する場合、情報内に”ｓｅｘ”や“ｘｘｘ”といった
文字列が含まれていた場合、その情報の提供を阻止す
る。この手法の応用として、登録した単語が情報内に含
まれている割合が所定の閾値を上回った場合に情報の提
供を阻止する方式もある。

【００１４】次に、単語に対するスコア（得点）を利用
する方式について説明する。この方式は、不適切な情報
内に含まれるであろう単語およびこの単語に対するスコ
アを予め登録しておき、この登録した単語が情報内に出
現するか否かをチェックし、登録した単語が含まれてい
た場合に単語のスコアを合計し、この合計が所定の閾値
を上回った場合に該情報の提供を阻止するものである。

【００１５】

【発明が解決しようとする課題】情報自動フィルタリン
グの大きな目的は不適切な情報を阻止する割合を増やす
とともに、適切な情報が誤って阻止される割合を減らす
ことであるが、上述した各手法はそれぞれ一長一短があ
り、従来の情報自動フィルタリングでは十分なフィルタ
リング性能を得ることができないという問題がある。

【００１６】具体的には、従来の自動フィルタリング手
法では、例えば”Ｓｕｓｅｘ”というイギリスの町に関
するホームページがブロックされるという悪例が報告さ
れている。また、単語に対するスコアを利用する従来の
方式では、単語および単語のスコアの設定がアドホック
となり、ユーザにとってどのように設定すれば最も有効
であるかに関して全く指針がなかった。そのため、提供
を阻止すべき情報を阻止できなかったり、本来提供を阻
止する必要のない情報が阻止されるなど、性能の点で問
題があった。

【００１７】例えば、「女子高生」という単語は一般的
にポルノ情報に頻出すると考え、「女子高生」という単
語とそのスコアを４０として登録したとする。その結
果、「女子高生のサンプル画像、無料」という表現中に
「女子高生」が含まれているため、この表現全体のスコ
アは４０となる。また、同様に「女子高生の乗ったバス
が北海道で事故」という表現についてもこの表現全体の
スコアは４０となり、これらの表現のスコアは同じにな
る。このため、閾値を２０としたとすると、本来阻止す
る必要のない後者の表現が阻止されてしまうという問題
があり、また閾値を５０としたとすると、本来阻止すべ
き前者の表現が阻止されないという問題がある。これら
２つの表現を区別するためには、「サンプル」「画像」
「無料」などの単語や「バス」「北海道」「事故」とい
った単語にもスコアを設定する必要があることになる
が、これらの単語は一般的にも良く利用される単語であ
り、スコアをどのように設定すれば良いかが明確でな
く、スコアの設定により性能が大きく変動し、不適切な
表現か否かの判定性能が十分に得られないという問題が
ある。

【００１８】本発明は、上記に鑑みてなされたもので、
その目的とするところは、単語の重みを容易かつ適確に
設定し、この単語の重みを利用して情報が不適切である
か否かを適確に判定する情報自動フィルタリング方法お
よび装置を提供することにある。

【００１９】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、インターネットを介して
提供される情報のうち不適切情報を識別し、この識別し
た不適切情報の提供を阻止する情報自動フィルタリング
方法であって、提供の阻止を必要とする不適切な情報お
よび提供の阻止を必要としない適切な情報を学習データ
とした自動学習により前記情報に含まれる単語に対して
情報の提供を阻止する必要があるか否かを判定するため
に使用される単語の重みを求め、この求めた単語の重み
を各単語に対応して重み付き単語リストとして記憶管理
しておき、インターネットを介して提供される情報を入
力し、この情報に含まれる単語を抽出し、この抽出した
単語の各々に対する重みを前記重み付き単語リストから
読み出し、この読み出した各単語の重みの総和を算出
し、この算出した総和に基づき前記情報の提供を阻止す
べきか否かを判定することを要旨とする。

【００２０】請求項１記載の本発明にあっては、提供の
阻止を必要とする不適切な情報および提供の阻止を必要
としない適切な情報を学習データとした自動学習により
単語の重みを求め、この求めた単語の重みを各単語に対
応して重み付き単語リストとして記憶管理しておき、イ
ンターネットを介して提供される情報に含まれる単語を
抽出し、この抽出した単語の各々に対する重みを重み付
き単語リストから読み出し、この読み出した各単語の重
みの総和を算出し、この総和に基づき前記情報の提供を
阻止すべきか否かを判定するため、従来アドホックに設
定しなければならなかった単語の重みを自動学習により
適確に求め、この適確に求めた単語の重みを利用して情
報が不適切な情報であるか否かを適確に判定し、不適切
な情報の提供を阻止することができる。

【００２１】また、請求項２記載の本発明は、請求項１
記載の発明において、前記単語の重みを求める処理が、
前記不適切な文書と適切な文書に対してベクトル空間上
で弁別できる線形識別関数に基づく自動学習により単語
の重みを求めることを要旨とする。

【００２２】請求項２記載の本発明にあっては、不適切
な文書と適切な文書に対してベクトル空間上で弁別でき
る線形識別関数に基づく自動学習により単語の重みを求
めるため、単語の重みを適確に設定することができる。

【００２３】更に、請求項３記載の本発明は、インター
ネットを介して提供される情報のうち不適切情報を識別
し、この識別した不適切情報の提供を阻止する情報自動
フィルタリング装置であって、提供の阻止を必要とする
不適切な文書および提供の阻止を必要としない適切な文
書を学習データとした自動学習により前記文書に含まれ
る単語に対して情報の提供を阻止する必要があるか否か
を判定するために使用される単語の重みを求める単語重
み学習手段と、この求めた単語の重みを各単語に対応し
て重み付き単語リストとして記憶管理する重み付き単語
リスト格納手段と、インターネットを介して提供される
情報を入力する入力手段と、この入力された情報に含ま
れる単語を抽出する単語抽出手段と、この抽出した単語
の各々に対する重みを前記重み付き単語リストから読み
出し、この読み出した各単語の重みの総和を算出し、こ
の算出した総和に基づき前記情報の提供を阻止すべきか
否かを判定する判定手段とを有することを要旨とする。

【００２４】請求項３記載の本発明にあっては、提供の
阻止を必要とする不適切な文書および提供の阻止を必要
としない適切な文書を学習データとした自動学習により
単語の重みを求め、この求めた単語の重みを各単語に対
応して重み付き単語リストとして記憶管理しておき、イ
ンターネットを介して提供される情報に含まれる単語を
抽出し、この抽出した単語の各々に対する重みを重み付
き単語リストから読み出し、この読み出した各単語の重
みの総和を算出し、この総和に基づき前記情報の提供を
阻止すべきか否かを判定するため、従来アドホックに設
定しなければならなかった単語の重みを自動学習により
適確に求め、この適確に求めた単語の重みを利用して情
報が不適切な情報であるか否かを適確に判定し、不適切
な情報の提供を阻止することができる。

【００２５】請求項４記載の本発明は、請求項３記載の
発明において、前記単語重み学習手段が、前記不適切な
文書と適切な文書に対してベクトル空間上で弁別できる
線形識別関数に基づく自動学習により単語の重みを求め
る手段を有することを要旨とする。

【００２６】請求項４記載の本発明にあっては、不適切
な文書と適切な文書に対してベクトル空間上で弁別でき
る線形識別関数に基づく自動学習により単語の重みを求
めるため、単語の重みを適確に設定することができる。

【００２７】

【発明の実施の形態】次に、図１を参照して、本発明の
実施形態に係る情報自動フィルタリング装置について説
明する。同図に示す情報自動フィルタリング装置は、単
語の重みを自動学習により求め、この自動学習で求めた
単語の重みを利用して情報が不適切であるか否かを判定
し、不適切な情報の提供を阻止するものであり、インタ
ーネットを介して提供されるＨＴＭＬ情報を入力する入
力部１、この入力部１を介して入力された情報に出現す
る単語抽出部３、提供の阻止を必要とする不適切な情報
である文書および提供の阻止を必要としない適切な情報
である文書を学習データとした自動学習により前記文書
に含まれる単語に対して情報の提供を阻止する必要があ
るか否かを判定するために使用される単語の重みを求め
る重み付き単語リスト学習部６０、この重み付き単語リ
スト学習部６０で求めた単語の重みを各単語に対応して
重み付き単語リストとして記憶管理する重み付き単語リ
スト格納部５０、単語抽出部３で抽出された単語および
該単語に対して重み付き単語リスト格納部５０から得ら
れた単語の重みｗに基づき入力部１から入力された情報
の提供を阻止すべきか否かを判定する自動フィルタリン
グ部３０、および該自動フィルタリング部３０で得られ
た判定結果を出力する出力部４０から構成されている。

【００２８】本実施形態の情報自動フィルタリング装置
は、重み付き単語リスト学習部６０において単語の重み
を自動学習により予め取得し、この自動学習で得た単語
の重みを利用することを特徴とする。この単語の重みの
自動学習の方法を図２のフローチャートに示す単語重み
の学習アルゴリズムで行われるものである。すなわち、
図２に示す学習アルゴリズムでは、学習データの集合Ｅ
＝｛ｄ1 ，…，ｄn ｝として提供の阻止を必要とする不
適切な情報および提供の阻止を必要としない適切な情報
を重み付き単語リスト学習部６０に入力し、この入力さ
れた不適切な情報と適切な情報をベクトル空間上で弁別
する線形識別関数から単語の重みを取得する。具体的に
は次ぎの手順で行う。

【００２９】まず、入力部１から入力されたＨＴＭＬ文
書をベクトル空間モデルによって表現する。すなわち、
すべての文書を表現するｎ個の単語を選択し、それぞれ
の文書をｎ次元のベクトルで次式のように表現する。

【００３０】

【数１】このベクトルの各要素は、各々単語の文書ｄでの出現頻
度を正規化したものである。単語の出現頻度の正規化に
は次に示す数式で表されるＴＦ＊ＩＤＦという手法を用
いている。

【００３１】

【数２】ここで、ｔｆdiは単語ｉが文書ｄに出現する頻度、Ｎは
すべての文書の数、ｄｆi は単語ｉが出現する文書の数
である。

【００３２】自動フィルタリングは、次に示す数式で表
される線形識別関数によって行われ、この関数によって
単語の重みの総和Ｄｉｓ（ｄ）が計算される。

【００３３】

【数３】ここで、ｗi は各単語ｉに対する重みであり、ｆdiは上
式（２）の値であり、文書における各単語のｆdi値であ
る。

【００３４】上述した式（３）から、総和Ｄｉｓ（ｄ）
が０より大きい場合、前記文書は有害であり、０以下で
ある場合、無害であると判定される。

【００３５】なお、上述した各単語ｉに対する重みは文
書ｄが有害な場合、総和Ｄｉｓ（ｄ）＞０となり、無害
な場合、総和Ｄｉｓ（ｄ）≦０となるように設定され
る。

【００３６】次に、この単語の重みの学習アルゴリズム
について図２に示すフローチャートを参照して説明す
る。なお、この単語の重みの学習には perceptron lear
ning algorithm（ＰＬＡ）を使用している。

【００３７】図２においては、まず各種パラメータを設
定する（ステップＳ５１）。このパラメータとしては、
各単語の重みの集合Ｗ＝（ｗ1 ，…，ｗn ）、Ｎ個の学
習データＥ＝｛ｄ1 ，…，ｄn ｝、定数η、最大学習回
数Ｍａｘ、図２に示す学習処理を繰り返し行う学習回数
ｍがある。

【００３８】それから、全ての文書を表現する単語のう
ち頻度の高いｎ個の単語を選択する（ステップＳ５
２）。

【００３９】次に、単語の重みの集合Ｗを初期化する
（ステップＳ５３）。この初期化では、各単語の重みに
乱数を入力する。それから、すべての学習データに対し
て前記単語重みの総和Ｄｉｓ（ｄ）を上式（３）により
計算する（ステップＳ５５）。

【００４０】そして、この計算の結果、すべての無害な
文書ｄについて総和Ｄｉｓ（ｄ）≦０であり、かつすべ
ての有害な文書ｄについて総和Ｄｉｓ（ｄ）＞０である
か否かをチェックし（ステップＳ５７）、そうである場
合には、処理を終了するが、そうでない場合には、この
ように誤って分類されたすべての文書ｄについて次のス
テップＳ６１，Ｓ６３で示すように重みの変化度合Ｓを
補正する（ステップＳ５９）。

【００４１】すなわち、ステップＳ６１では、文書ｄi
が有害であって、かつ総和Ｄｉｓ（ｄ）≦０の場合に
は、重み変化度合Ｓを増加するように補正し、またステ
ップＳ６３では、文書ｄi が無害であって、かつ総和Ｄ
ｉｓ（ｄ）＞０の場合には、重み変化度合Ｓを低減する
ように補正する。

【００４２】そして、このように補正された重み変化度
合Ｓを使用して単語重みの集合ＷをステップＳ６５で示
す式のように補正する。それから、学習回数ｍを＋１イ
ンクリメントし（ステップＳ６７）、この学習回数ｍが
最大学習回数Ｍａｘより小さいか否かをチェックし（ス
テップＳ６９）、また最大学習回数Ｍａｘより小さい場
合には、ステップＳ５５に戻り、ステップＳ５７に示し
た条件が満たされるまで、ステップＳ５５以降の処理を
繰り返し行う。そして、最終的にｎ個の単語に対する単
語重みの集合が求まる。

【００４３】重み付き単語リスト学習部６０で取得され
た各単語の重みは、各単語に対応して重み付き単語リス
トとして重み付き単語リスト格納部５０に格納される。
次に示す表７は、重み付き単語リスト格納部５０に格納
されている重み付き単語リストを示す表であり、各単語
に対応して単語重みｗが格納されている。

【００４４】

【表１】次に、このように重み付き単語リスト学習部６０で得ら
れ、重み付き単語リスト格納部５０に格納された単語重
みに基づきインターネットから提供された情報が不適切
な情報であるか否かを判定する処理について説明する。

【００４５】図１において、入力部１から入力されたイ
ンターネットからの情報は、単語抽出部３で、重み付き
単語リスト格納部５０に格納されている単語リストと照
合し、入力情報中に出現する単語とその出現頻度を求め
る。また、同時に出現した単語の重みwも重み付き単語
リスト格納部５０から求め、出現単語とその頻度および
重みを自動フィルタリング部３０に供給する。自動フィ
ルタリング部３０は、この入力された単語に対する重み
ｗと出現頻度から、入力情報中に出現した全ての単語に
対する重みｗの総和を算出し、この総和を所定の閾値と
比較し、総和が閾値よりも大きい場合不適切な情報と判
定し、総和が閾値よりも小さい場合、適切な情報と判定
し、この判定結果を出力部４０から出力する。

【００４６】具体的に説明する。表１に示すように、重
み付き単語リスト学習部６０では、予め入力された学習
データから「画像」の重みは１０．９、「サンプル」の
重みは１８．７、「事故」の重みは−１６．６、「女子
高生」の重みは８２．２、「バス」の重みは−１０１．
９、「北海道」の重みは−１１２．５、「無料」の重み
は−６．３と求まり、重み付き単語リスト格納部５０に
格納しているので、この結果を利用すると、例えば「女
子高生の乗ったバスが北海道で事故」という表現全体に
対しては、自動フィルタリング部３０で各単語の重みの
総和を求め、８２．２−１０１．９−１１２．５−１
６．６＝−１４８．８となる。また、「女子高生のサン
プル画像、無料」の表現全体に対しては、自動フィルタ
リング部３０で各単語の総和を求め、８２．２＋１８．
７＋１０．９−６．３＝１０５．５となる。そして、図
２の処理と同様に閾値を０とすると、「女子高生の乗っ
たバスが北海道で事故」という表現は閾値を下回るの
で、情報の提供は阻止されず、また「女子高生のサンプ
ル画像、無料」という表現は閾値を上回るので、情報の
提供は阻止されるというように正しく判定することがで
きる。

【００４７】次に、図４および図６を参照して、本発明
の他の実施形態に係る自動フィルタリング装置について
説明する。図４に示す自動フィルタリング装置は、図６
で説明した学習により単語リストを作成する情報自動フ
ィルタリング装置２５に対して第三者判定フィルタリン
グ処理部２３および該第三者判定フィルタリング処理部
２３で有害ＵＲＬを参照するために使用される有害ＵＲ
Ｌ一覧テーブル格納部１７が付加されている。

【００４８】有害ＵＲＬ一覧テーブル格納部１７は、有
害情報を提供するＵＲＬを有害ＵＲＬ一覧テーブルとし
て格納しているものであり、第三者判定フィルタリング
処理部２３は、前記入力部１から入力されたＨＴＭＬ文
書のＵＲＬを有害ＵＲＬ一覧テーブル格納部１７の有害
ＵＲＬ一覧テーブルに登録されている各ＵＲＬと照合
し、一致するＵＲＬがあるか否かを判定するものであ
る。

【００４９】図６は、図４に示す自動フィルタリング装
置の更に詳細な構成を示すブロック図である。図６に示
す自動フィルタリング装置は、図６に示した学習により
作成した重み付き単語リストを用いた情報自動フィルタ
リング装置を構成する入力部１、単語抽出部３、重み付
き単語リスト格納部５０、自動フィルタリング部３０、
出力部４０に加えて、図４の第三者判定フィルタリング
処理部２３に対応するＵＲＬリストに基づくフィルタリ
ング部１５および有害ＵＲＬ一覧テーブル格納部１７を
有している。

【００５０】このように構成される自動フィルタリング
装置、すなわち第三者判定フィルタリング処理部による
ＵＲＬリスト一覧と学習により作成した重み付き単語リ
ストを用いた情報自動フィルタリング装置によるフィル
タリング処理では、まずインターネット２１を介して入
力されたＨＴＭＬ文書は、そのＵＲＬが有害ＵＲＬ一覧
テーブル格納部１７の有害ＵＲＬ一覧テーブルに登録さ
れている各ＵＲＬと照合され、一致するＵＲＬがあるか
否かが判定される。そして、有害ＵＲＬ一覧テーブル格
納部１７の有害ＵＲＬ一覧テーブルに登録されたＵＲＬ
と一致する場合には、このＵＲＬが示す情報の提示は阻
止される。

【００５１】ＵＲＬリストに基づくフィルタリング部１
５による有害ＵＲＬ一覧テーブルを参照した判定の結
果、有害ＵＲＬ一覧テーブル格納部１７の有害ＵＲＬ一
覧テーブルに登録されているＵＲＬと一致するものがな
い場合には、学習により作成した重み付き単語リストを
用いた情報自動フィルタリング装置２５によるフィルタ
リングが図６で説明したように行われる。

【００５２】このように本実施形態では、第三者による
判定に基づくフィルタリングと学習により作成した重み
付き単語リストを用いたフィルタリングの両方が行われ
るため、有害情報を適確に検出して阻止することができ
る。

【００５３】

【発明の効果】以上説明したように、本発明によれば、
提供の阻止を必要とする不適切な情報および提供の阻止
を必要としない適切な情報を学習データとした自動学習
により単語の重みを求め、この単語の重みを各単語に対
応して重み付き単語リストとして記憶管理し、インター
ネットを介して提供される情報に含まれる単語を抽出
し、この抽出した単語の各々に対する重みを重み付き単
語リストから読み出し、各単語の重みの総和を算出し、
この総和に基づき情報の提供を阻止すべきか否かを判定
するので、従来アドホックに設定しなければならなかっ
た単語の重みを自動学習により適確に求め、この適確に
求めた単語の重みを利用して情報が不適切な情報である
か否かを適確に高い性能で判定し、不適切な情報の提供
を阻止することができる。

【図面の簡単な説明】

【図１】本発明の別の実施形態に係る情報自動フィルタ
リング装置の構成を示すブロック図である。

【図２】図１に示すフローチャートに使用されている単
語重みの設定手順を示すフローチャートである。

【図３】本発明の他の実施形態に係る自動フィルタリン
グ装置の概要構成を示す説明図である。

【図４】従来の自己判定に基づくフィルタリングを説明
するための図である。

【図５】図４に示した自己判定に基づくフィルタリング
の一例としてRSACi とSafeSurfによる評価結果の記述例
を示す図である。

【図６】従来の第三者による判定に基づく有害情報フィ
ルタリングを説明するための図である。

【符号の説明】

１入力部３単語抽出部３０自動フィルタリング部５０重み付き単語リスト格納部６０重み付き単語リスト学習部

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１１年８月１８日（１９９９．８．１
８）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００２７

【補正方法】変更

【補正内容】

【００２７】

【発明の実施の形態】次に、図１を参照して、本発明の
実施形態に係る情報自動フィルタリング装置について説
明する。同図に示す情報自動フィルタリング装置は、単
語の重みを自動学習により求め、この自動学習で求めた
単語の重みを利用して情報が不適切であるか否かを判定
し、不適切な情報の提供を阻止するものであり、インタ
ーネットを介して提供されるＨＴＭＬ情報を入力する入
力部１、この入力部１を介して入力された情報に出現す
る単語を抽出する単語抽出部３、提供の阻止を必要とす
る不適切な情報である文書および提供の阻止を必要とし
ない適切な情報である文書を学習データとした自動学習
により前記文書に含まれる単語に対して情報の提供を阻
止する必要があるか否かを判定するために使用される単
語の重みを求める重み付き単語リスト学習部６０、この
重み付き単語リスト学習部６０で求めた単語の重みを各
単語に対応して重み付き単語リストとして記憶管理する
重み付き単語リスト格納部５０、単語抽出部３で抽出さ
れた単語および該単語に対して重み付き単語リスト格納
部５０から得られた単語の重みｗに基づき入力部１から
入力された情報の提供を阻止すべきか否かを判定する自
動フィルタリング部３０、および該自動フィルタリング
部３０で得られた判定結果を出力する出力部４０から構
成されている。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００４７

【補正方法】変更

【補正内容】

【００４７】次に、図３を参照して、本発明の他の実施
形態に係る情報自動フィルタリング装置について説明す
る。図３に示す情報自動フィルタリング装置は、図１で
説明した学習により単語リストを作成する情報自動フィ
ルタリング装置に対して第三者判定フィルタリング処理
部２３および該第三者判定フィルタリング処理部２３で
有害ＵＲＬを参照するために使用される有害ＵＲＬ一覧
テーブル格納部１７が付加されている点が異なる。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００４８

【補正方法】変更

【補正内容】

【００４８】図３において、有害ＵＲＬ一覧テーブル格
納部１７は、有害情報を提供するＵＲＬを有害ＵＲＬ一
覧テーブルとして格納しているものであり、第三者判定
フィルタリング処理部２３は、図１に示す入力部１を介
して入力されたＨＴＭＬ文書のＵＲＬを有害ＵＲＬ一覧
テーブル格納部１７の有害ＵＲＬ一覧テーブルに登録さ
れている各ＵＲＬと照合し、一致するＵＲＬがあるか否
かを判定するものである。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００４９

【補正方法】変更

【補正内容】

【００４９】すなわち、図３に示す情報自動フィルタリ
ング装置は、図１に示す入力部１、単語抽出部３、重み
付き単語リスト格納部５０、自動フィルタリング部３０
および出力部４０による構成により、学習により作成し
た重み付き単語リストを用いてフィルタリングを行う機
能に、図３に示す第三者判定フィルタリング処理部２３
及び有害ＵＲＬ一覧テーブル格納部１７を付加してＵＲ
Ｌによるフィルタリングを行う機能を有している。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００５０

【補正方法】変更

【補正内容】

【００５０】このように構成される情報自動フィルタリ
ング装置、すなわち第三者判定フィルタリング処理部２
３の有害ＵＲＬ一覧テーブル格納部１７に蓄積される有
害ＵＲＬリストと学習により作成した重み付き単語リス
トを用いた情報自動フィルタリング処理では、まずイン
ターネット２１を介して入力されたＨＴＭＬ文書は、そ
のＵＲＬが有害ＵＲＬ一覧テーブル格納部１７の有害Ｕ
ＲＬ一覧テーブルに登録されている各ＵＲＬと照合さ
れ、一致するＵＲＬがあるか否かが判定される。そし
て、有害ＵＲＬ一覧テーブル格納部１７の有害ＵＲＬ一
覧テーブルに登録されたＵＲＬと一致する場合には、こ
のＵＲＬが示す情報の提示は阻止される。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００５１

【補正方法】変更

【補正内容】

【００５１】ＵＲＬリストに基づくフィルタリング部１
５による有害ＵＲＬ一覧テーブルを参照した判定の結
果、有害ＵＲＬ一覧テーブル格納部１７の有害ＵＲＬ一
覧テーブルに登録されているＵＲＬと一致するものがな
い場合には、学習により作成した重み付き単語リストを
用いた情報自動フィルタリング装置２５によるフィルタ
リングが行われる。

【手続補正７】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正内容】

【図１】

───────────────────────────────────────────────────── フロントページの続き (72)発明者橋本和夫埼玉県上福岡市大原２−１−15 株式会社ケイディディ研究所内Ｆターム(参考） 5B075 KK07 KK13 KK33 KK54 KK70 ND03 NR02 NR12 QM10 UU40

Claims

【特許請求の範囲】

【請求項１】インターネットを介して提供される情報
のうち不適切情報を識別し、この識別した不適切情報の
提供を阻止する情報自動フィルタリング方法であって、提供の阻止を必要とする不適切な情報および提供の阻止
を必要としない適切な情報を学習データとした自動学習
により前記情報に含まれる単語に対して情報の提供を阻
止する必要があるか否かを判定するために使用される単
語の重みを求め、この求めた単語の重みを各単語に対応して重み付き単語
リストとして記憶管理しておき、インターネットを介して提供される情報を入力し、この
情報に含まれる単語を抽出し、この抽出した単語の各々に対する重みを前記重み付き単
語リストから読み出し、この読み出した各単語の重みの総和を算出し、この算出
した総和に基づき前記情報の提供を阻止すべきか否かを
判定することを特徴とする情報自動フィルタリング方
法。
【請求項２】前記単語の重みを求める処理は、前記不
適切な情報と適切な情報に対してベクトル空間上で弁別
できる線形識別関数に基づく自動学習により単語の重み
を求めることを特徴とする請求項１記載の情報自動フィ
ルタリング方法。
【請求項３】インターネットを介して提供される情報
のうち不適切情報を識別し、この識別した不適切情報の
提供を阻止する情報自動フィルタリング装置であって、提供の阻止を必要とする不適切な情報および提供の阻止
を必要としない適切な情報を学習データとした自動学習
により前記情報に含まれる単語に対して情報の提供を阻
止する必要があるか否かを判定するために使用される単
語の重みを求める単語重み学習手段と、この求めた単語の重みを各単語に対応して重み付き単語
リストとして記憶管理する重み付き単語リスト格納手段
と、インターネットを介して提供される情報を入力する入力
手段と、この入力された情報に含まれる単語を抽出する単語抽出
手段と、この抽出した単語の各々に対する重みを前記重み付き単
語リストから読み出し、この読み出した各単語の重みの
総和を算出し、この算出した総和に基づき前記情報の提
供を阻止すべきか否かを判定する判定手段とを有するこ
とを特徴とする情報自動フィルタリング装置。
【請求項４】前記単語重み学習手段は、前記不適切な
情報と適切な情報に対してベクトル空間上で弁別できる
線形識別関数に基づく自動学習により単語の重みを求め
る手段を有することを特徴とする請求項３記載の情報自
動フィルタリング装置。