JP2001524717A

JP2001524717A - 情報管理及び検索

Info

Publication number: JP2001524717A
Application number: JP2000522537A
Authority: JP
Inventors: ウイークス、リチャード
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1997-11-24
Filing date: 1998-11-18
Publication date: 2001-12-04
Anticipated expiration: 2018-11-18
Also published as: AU746743B2; CA2309499A1; EP1032896A1; ES2175813T3; EP1032896B1; WO1999027469A1; NZ504304A; JP4467791B2; DE69804495D1; AU1167899A; CA2309499C; DE69804495T2; US6338057B1

Abstract

(57)【要約】データ組からキータームを抽出するための方法と装置が提供されている。この方法はデータ組の中で複数回発生したいくつかの単語でなるいくつかの単語群の第１の組を識別し、この第１の組から第１の組の中のより長い単語群のサブストリングである単語群の第２の組を取り除く段階を含む。残った単語群がキータームである。各単語群はデータ組内部で発生の頻度により重み付けされている。いずれも単語群の重み付けは第２の組の中で発生するいずれかの単語のサブストリングの頻度によって増大されてよく、次に各重み付けをその単語群内の単語数によって除算する。この重み付けプロセスは単語群の発生順序を決めるように働く。プレフィックス（接頭辞）とサフィックス（接尾辞）ともまたデータ組内の各単語から取り除かれる。これが各単語の中立（ニュートラル）形式を作って、重み付け値がプレフィックスとサフィックスから独立したものとなっている。

Description

【発明の詳細な説明】

【０００１】発明の属する技術分野この発明は、データ管理と検索用の方法と装置との分野に属し、特別な応用が
データ組内部でのキーデータアイテム（主要データ項目）を識別するための方法
と装置との分野で見出されるものに関する。

【０００２】従来の技術近年の技術の進歩、なかでもCD-ROM、イントラネット、及びワールドワイドウ
ェブ（ＷＷＷ）は電子形式で利用可能とされる情報資源の量を著しく増大させて
しまった。

【０００３】発明が解決しようとする課題こういった増大する情報資源が関係する一つの問題はこういったシステムの個
個のユーザに対して関心のあるデータ組（例えば雑誌記事、ニュース記事、技術
開示及び他の情報）を位置決めとその識別とである。

【０００４】情報検索ツールで探索エンジンとかウェブ案内といったものはユーザが関心を
もつデータ組を位置決めすることを助ける一つの手段となっている。先を見越し
たツールとかサービスで次にあげる例もまた個個のユーザにとって関心がもたれ
る可能性のある情報を識別するために使用することができる。例は、ニュース群
や、インターネットのwww.pointcast.comで利用可能なPOINTCAST^TMシステムとか
JASPERエージェントのようなツール（出願人の未決国際特許出願）PCT/GB96/001
32に詳細されており、この主題は本願でも参考に供するものとする）である。

【０００５】この様な情報検索兼管理ツールが実効をあげるためには、要約が一組のキーワ
ードかがこのツールによって位置決めされたいずれものデータ組用にしばしば同
定されて、それによりユーザがこのキーワードの組を調べたり、要約を調べたり
することによりデータ組の主題についての印象を形成できる。

【０００６】要約を生成する手段としてデータ組内部で発生するキーワードを要約用ツール
は一般に使用する。キーワードは一般に“and”とか“with”等といった接続詞及び他のいわゆる低い値の単語、例えば“it”，“are”，“they”など要約用ツールによって調べられているデータ組の主題の指示になりそうもないすべてを
はぎとって一般に識別されている。

【０００７】また、キーワード（単語）とキーフレーズ（語句）とはまた情報検索と管理ツ
ールによって異なる形式の情報についてのユーザの好みを示す手段としてだんだ
んと、使用されるようになっている。このような技術は“プロフィル形式（prof
iling）”として知られ、このプロフィルはユーザが関心のあるものとしてデータ組を表示するのに応答してツールにより自動的に生成でき、ユーザは例えばウ
ェブページにブックマーク（しおりをつける）かウェブページからデータをダウ
ンロードして表示を行なう。

【０００８】最新のプロフィル形成用ツールもまた類似性マトリックスとクラスタ化技法を
用いてユーザのプロフィルに関連性があるデータ組を識別する。JASPERツールで
上記参照済のものはこの目的のためのプロフィル形成用技術を用いるこの種のツ
ールの例である。

【０００９】出願人の未決欧州特許出願、番号EP97306878.6には、ここで参照している主題
のものであり、いくつかの継続している単語で成るキータームを識別するための
手段を開示している。こういったキータームは類似性マトリックス内部で個別の
キーワードとしても使用される。このことが“Information Technology（情報技
術）”とか“World Wide Web（www）”といったターム（用語）を２つもしくは３つの別個のキーワードとしてではなく、それ自体が正しいものであるタームと
して認識可能としている。

【００１０】しかし、こういったキーワードとフレーズを識別するための技術は最適とは言
えず、その理由に特定のデータ組についてのキーワードとフレーズを識別するた
めに接続用単語と他の低い値の単語を除去してしまうことがあげられる。この技
術は高い値だけを含む“information technology”のようなフレーズを識別する
にすぎない。しかし、接続語もしばしば文脈情報の大きな役割を与えている。

【００１１】例えば英語では、“bread and butter（パンとバター）”というフレーズは２
つの意味をもっている。第１は食物に関係し、第２は人の生命もしくは人の生存
の意味である。同じように、英語では、ターム“bread and water（パンと水） ”もまた食品と関係するとともに、第２の意味として、困難を含意するためによ
く用いられる。

【００１２】情報検索もしくは管理ツールですべての接続単語をテキストのブロック内でキ
ーワードとフレーズを識別するプロセスの際に除去してしまうものはフレーズ“
bread and butter”と“bread and water”を“bread”，“butter”，“water ”を含むキーワードのリストに減縮してしまう。このようなリストでは困難とか
人の生命という第２の意味は失なわれている。

【００１３】別な問題は“Bank of England（英蘭銀行）”，“Stratford on Avon（ストラ
ットフォードオンエイボン）”といった名称とか、“black and white（黒と白）”，“on and off（オンとオフ）”といった用語がそれらの構成要素である高
い値の単語に減縮されて、したがってツールにより戻される情報を変更すること
である。

【００１４】課題を解決するための手段この発明の第１の特徴によると、データ組を管理するための装置が提供されて
いて、入力としてデータ組を受領するための入力手段と、前記データ組内部で、
いくつかの単語でなるいくつかの単語群を含み、前記データ組内部で第１の予め
定めた分布パターンと適合する第１の組の単語を識別するのに適応された手段と
があり、ここで前記単語群内の前記単語は該データ組内で継続して発生するもの
であって、さらに前記第１の組内部で、いくつかの前記単語群を含み、前記デー
タ組内部で第１の予め定めた分布パターンと適合する単語のサブセットを識別す
るのに適応された手段と、前記第１の組から単語の前記サブセットを除去し、そ
れによって前記データ組の１組のキータームを形成するように適応されている手
段と、少くとも１つの前記キータームを出力する出力手段とを有する装置となっ
ている。

【００１５】この発明の第２の特徴によると、データ組を管理する方法が提供されていて、
そこには次の段階が含まれている：１）データ組を入力として受領する段階と；２）前記データ組内部の第１の分布パターンと適合する第１の組の単語を識別
する段階、ただしこの第１の組はいくつかの単語のいくつかの単語群を含んでい
て、前記単語群内の前記単語は該データ組内で継続して発生するものである、と
；３）前記第１の組で単語群のサブセットを識別する段階、ただしこのサブセッ
トは前記データ組内部で第二の分布パターンに適合するものである、と；４）前記第１の組から前記サブセットを除去してそれによりキータームの組を
識別する段階と；５）前記キータームを出力する段階とを含むデータ組を管理する方法である。

【００１６】発明の実施の形態このように、この発明の実施の形態は、受領したデータ組内部で、そのデータ
組内部で第１のパターンによりいくつかの単語の単語群の第１の組を識別し、次
にこの第１の組内部から単語群の第２のパターンを識別する。キータームは第２
のパターンとは適合しない第１の組内部のいくつかの単語の群である。

【００１７】データ組内部で、単語群のパターンを識別するというやり方は低い値の単語を
取除かずにキータームが抽出できるようにする。これは接続語や他の値の低い単
語がデータ組内部に保存できて、それにより“on and off”，“bread and wate
r”及び“chief of staff（用員の主任）”といった用語（ターム）がそれ自体としてキータームとして識別できるようにする。

【００１８】これが抽出されたキータームの品質を改善し、また任意の長さのキータームが
識別されるようにする。

【００１９】好ましいのは前記第１の分布パターンは前記第１の組内の各単語群が前記デー
タ組内で少くとも２度発生することを求めており、また前記第２の分布パターン
は前記サブセット内の各単語群が第１の組の内のより大きな単語群内部で発生す
る単語もしくは単語のストリングを含むことを求めているのがよい。

【００２０】こうしてこの発明の実施態様はいずれもの繰返された単語と語句とを拾い出し
て、より長いものの中にすでに含まれていたいずれもの単語もしくは語句を取り
除く。例えば、もし文書が“Internet search engines”を１度ならず参照しているとすると、全体の語句はキータームとなるが、しかし“Internet”と“sear
ch engine”とはそれ自体として取り除かれることになり、単一の語句のように “search”と“engine”であったのと同じになる。

【００２１】好ましいのは、前記第１の特徴が前記単語群を修正するための手段を含み、そ
れがある単語群内の第１の高い値の単語の前に発生する低い値の単語を取り除く
ように適用され、かつある単語群内の最後の高い値の単語の後に発生する低い値
の単語を取り除くように適用されていることである。単一の、低い値の単語で成
る単語群というささいな場合は、単語群自体が取り除かれる。

【００２２】好ましいのは第２の特徴が次の段階を含むことである：６）ある単語群内の第１の高い値の単語の前に発生する低い値の単語を取り除
き、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り
除く段階を含む。

【００２３】単語群の前後から低い値の単語を取り除くことは、キーターム抽出器によって
戻されて来る単語群の品質を改善する。

【００２４】好ましいのは第１の特徴が前記第１の組内の前記単語群の各々をどのくらいの
頻度で前記単語群の各々が前記第１の組で発生するかに従って重み付けをするた
めの手段と、前記第１の組の中の少くとも第１の単語群についての前記重み付け
を前記サブセット内の第２の単語群の重み付けに比例して修正するための手段と
、前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含むことで
ある。

【００２５】好ましいのは、第２の特徴が次の段階を含むことである：９）前記第１の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各
々が前記第１の組で発生するかに従って重み付けをする段階と；１０）少くとも第１の単語群の前記重み付けを前記サブセット内の第２の単語
群の重み付けに比例して修正する段階と；１１）前記両重み付けに依存して出力用の前記キータームを選ぶ段階を含むこ
とである。

【００２６】この発生頻度による単語群の重み付けは識別されたキータームの順序付け機構
を与えている。

【００２７】サブセット内の用語（ターム）の重み付けによる重み付けを修正することは第
１の組から除去された用語が残っている用語の重み付けに影響を与えられるよう
にし、このことで除去された用語がサブストリングを形成する。このようにして
データ組内部でしばしば発生するサブストリングはキータームの識別に適切な影
響を与えることができる。

【００２８】こういった最も頻繁に発生するキータームがそのデータ組の情報内容に最も関
連をもつとの仮定がされる。

【００２９】好ましいのは第１の特徴がいずれかの単語群内のいずれかの単語を修正するた
めの手段を含み、それがある単語からステムされた単語を作るためにいずれもの
プレフィックスを取り除くように適用され、かついずれものサフィックスを取り
除くように適用されていることである。

【００３０】好ましいのは第二の特徴が次の段階を含むことである：７）いずれかの前記単語群内のいずれかの単語をその単語のプレフィックスも
しくはサフィックスを取り除くことにより修正してステムされた単語を形成する
段階。

【００３１】プレフィックスとサフィックスとを取り除くことは各単語が中立形式に減縮さ
れるようにし、それによってプレフィックスとサフィックスに依存しない重み付
けが計算できる。

【００３２】こうして繰返しはされるが異なるプレフィックス及び／又はサフィックスをも
つものが同じ単語の繰返し発生として勘定できる。

【００３３】好ましいのは第１の特徴が、前記ステムされた単語と関係する前記プレフィッ
クスもしくはサフィックスを記憶するための手段を含み、それによって前記プレ
フィックスもしくはサフィックスを前記ステムされた単語に回復可能とすること
である。

【００３４】好ましいのは、第２の段階が次の段階を含むことである：８）前記ステムされた単語と関係する前記プレフィックスもしくはサフィック
スを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステ
ムされた単語に回復可能とする段階。

【００３５】ステムされた単語に対してプレフィックスとサフィックスを回復することはこ
の発明の実施形態の出力を形成するキータームの品質を改善する。

【００３６】実施例この発明の実施例を添付図面を参照して例として記述して行く。

【００３７】この発明はデータ管理及び検索ツールの分野で特に価値があるものと思われる
。ことに、データ組からキータームを抽出しかつこのようなキータームを使用す
ることが求められているいずれものデータ管理兼検索ツールもこの発明から恩恵
を受けることになる。例えばキータームがデータ管理ツール内部で使用できて、
このツールには文書要約器、プロフィル形成用ツール、探索エンジン及び上述し
たJASPERツールのような予見的なデータ管理ツールがある。

【００３８】一つの特殊応用では、この発明はキータームをデータ組から抽出するのに接続
語とか他のいわゆる“低い値の単語（低値語）”をデータ組からはきとらずにで
きる。接続語と低値語とはキータームとフレーズの意味に対して細かい区別立て
（subtlety、微妙なこと）をしばしばもたらす。接続語と低値語とを保持するこ
とにより、こういった細かい区別立ては維持される。これが先行技術のシステム
と比較して抽出されたキータームとフレーズの品質を改善しており、それはキー
タームそれ自体のユーザの認識からもまたこのようなキータームを入力として用
いる他のデータ管理ツールの動作の改良に関係しても言えることである。

【００３９】一般に、自動的に抽出されたキータームは２つの主なやり方で使用できる。こ
のキータームはデータ管理ツールにより使用されるかユーザに直接呈示される。
データ管理ツールはキータームの呈示の品質については時にあまり関心を示さな
い。データ管理ツールは単語の一部を切り落した（ステムした）状態の単語を含
んでいるキータームを、あるいは怪しげな大文字使用（dubious capitalisation
）を有する単語を、ツールの出力にほとんど影響を与えずに受理することができ
る。（注：英語ではBank of England（英蘭銀行）は唯一の機関だが、bank of e
nglandはイングランドのどの銀行でもよい。）しかし、結果がユーザに直接呈示されることになるときには、大きな呈示値（
文書の真の情報内容を示唆している高い値のユーザにとって明白な表現の用語を
意味する）をもつキータームが必要とされる。例えば１つの癖の悪い（rogue）用語でも、例えば怪しげな大文字使用をしているものも、ツールの出力について
の認識される品質に大きなインパクトを与えることができる。フレーズ（これは
各種の大文字使用と単語の終り方をもって文書内に出現していてよい）がよくフ
ォーマットを整えたものであることが好い。キータームは数が制限されているの
が好く、呈示されているものが確かにユーザにとってより大きな値となるように
する。

【００４０】図１を参照すると、情報管理兼検索ツールセットの模式的な表現が示されてい
て、この主な構成要素はファィルサーバ１３０上に置かれている。ツールセット
はキーターム抽出器部品１００，JASPERエージェント１０５，ページメモリ１１
０，プロフィルメモリ１１５，テキスト要約器１２０，網インターフェース１２
２及び低値語と省略データベース１２５を備えている。

【００４１】ファイルサーバ１３０は網インターフェース１２２を経由して経１４５と通信
する。網１４５は例えば私的団体の網で例えばインターネットプロトコルを使用
するもの、公衆交換電話網（ＰＳＴＮ）、あるいは公衆データ網であってよい。
網１４５はルータ１４８を含んでいてインターネット１６０へのゲートウェイア
クセスを提供できる。サーバ１３０上にある情報管理ツールのユーザは網１４５
上のアクセスを得るのに適当なインターネットビューワ１３５を用いてそれがで
き、パーソナルコンピュータ上で実行している通常のインターネットブラウザ製
品のように網１４５に、パーソナルコンピュータ自体もしくはワークステーショ
ンによって用意されているインターフェースで、リンクされる。

【００４２】サーバ１３０内部に組込まれている情報管理ツールはインターネット１６０に
網１４５と、そのルータ１４８と、インターネットルータ１５０とを経由してア
クセスを取得できる。インターネットサービスプロバイダサーバ１５５はインタ
ーネット１６０上で必要に応じて適当なルータ１６５を経由してアクセスされる
。

【００４３】情報管理兼検索ツールセットは上述の図１の構成要素を使用してユーザインタ
ーフェース１４０のオペレータがインターネット１６０を経て情報の位置を決め
られるようにすることもあろう。

【００４４】例えば、JASPERエージェント１０５はプロフィルメモリ１１５内に記憶されて
いるユーザプロフィルにアクセスして、ユーザにとって関心がありそうなインタ
ーネット１６０上でアクセス可能な、文書についての夜通しの探索を実行するよ
うにできる。JASPERエージェント１０５はページメモリ１１０内に検索した文書
についての情報を記憶する。特定のユーザのプロフィルでプロフィルメモリ１１
５から検索したものを用いて、JASPERエージェント１０５は次にページメモリ１
１５をアクセスしてユーザのプロフィルにあるキータームとページメモリ１１０
内に保存されている文書情報とを比較する。この発明のキーターム抽出器１００
は、ユーザプロフィル内で使用するための用語の生成と、文書の関連を測るのに
使用するための検索された文書からのキータームの抽出との両方に応用される。
この実施例のJASPERエージェント１０５についての詳細は国際特許番号PCT GB96
/00132を参照することとする。

【００４５】キーターム抽出器１００は能動ツールであってよく、これがインターネットサ
ービスプロバイダのファイルサーバ１５５からダウンロードされたページを連続
して監視する。キーターム抽出器１００はそこでこういったキータームをJASPER
エージェント１０５のような他のツールに送り、そこでは別な処理が別な動作が
情報管理兼探索ツールセットによりダウンロードされたページに関してとられな
ければならないかどうかを判断する。

【００４６】これに代わって、キーターム抽出器１００はJASPERエージェント１０５による
かあるいは要約用ツール１２０によってページメモリ１１０内で記憶のために選
ばれているページに応答して呼び出されるようにしてよい。

【００４７】いずれの場合もキーターム抽出器１００はそのページを解析してそこからキー
タームを抽出することになるが、これはオペレータの入力とは独立しているのが
よい。

【００４８】キータームは情報管理兼検索ツールにより特定の文書のヘッドライン要約とし
て単純に記憶されて後日ユーザにより使用するようにすることもできる。

【００４９】代りに、キータームはプロフィルツール（JASPERエージェント１０５内部にあ
る）に送られて、このツールはこういったキータームを使用してユーザのプロフ
ィルもしくは特定の文書用語（ターム）マトリックスあるいはその両方を更新す
ることができるようにしてよい（このプロフィルツールもしくは文書用語マトリ
ックスについての別な情報は国際特許出願番号PCT GB96/00132を参照できる）。

【００５０】このキーターム（及びキーターム抽出器１００からの恐らくは何がしかの関係
する処理結果）は要約を作成するツール１２０に送られ、そこには生成された要
約内の一部もしくは全部が含まれることになる。

【００５１】図２を見ると、キーターム抽出器装置１００の好ましい実施例における主要機
能ブロックが示されている図である。各機能ブロックは処理の適当な部分を実施
できるもので、この処理は以下に記述する。全体像を見ると、入力２００はテキ
ストの部分を含んでいるデータ組を受領して、各データ組に識別器（ＩＤ）を割
当て、各データ組をデータメモリ２０５内に記憶する。文（センテンス）識別器
（ＩＤ）２１０は記憶されたデータ組に作用して含まれているテキストを文（複
数）に分けてこの文を適切にデータメモリ２０５内に記憶する。第１の組識別器
（ＩＤ）２１５は特定のデータ組と関係している記憶された文から第１の組の単
語群を識別するように働く。第１の組ＩＤは適切な選択規準を第１の組の中へ包
含するための単語群を選ぶために適用する。サブセット識別器（ＩＤ）２２０は
いずれか適切な選択規準を用いて第１の組から単語群のサブセットを識別するよ
うに動作する。文ＩＤ２１０、第１の組ＩＤ２１５、及びサブセットＩＤ２２０
は文カウンタ２２５と一緒に動作して、特定のデータ組内部で識別された文が必
要に応じて走査できるようにする。減算器２３０は第１の組ＩＤ２１５から“＋
”入力で第１の組を受けまたサブセットＩＤ２２０から対応するサブセットを“
−”入力で受けるようにされている。減算器２３０は“減算”を実行して受けた
第１の組の単語群から受けたサブセットの単語群を取り除いて一組のキーターム
を作り出して、出力２３５により出力されるようにすることができる。

【００５２】この発明の実施例はテキスト情報を含んでいるデータ組の管理用ツールに応用
することができ、ここでこの管理は少くともその一部があるデータ組内で１度な
らず発生する単語シーケンスに頼っているものであり、またこの単語シーケンス
は１度ならず発生する他のいずれかの単語シーケンスのサブストリングではない
ものとする。このような選択規準は次の例で示すことができる。例えば、大文字
Ａ，Ｂ，Ｐ，Ｑなどは単語を表わすために使用され、これらの文字のストリング
で文を表わすために使用されているとする。この例は以下の“文”を使用してお
り、受けたデータ組内部で識別されたものである：ＡＢＣＤＥＦ−１ＰＱＢＣＤＥ−２ＢＥＦＣＤＰ−３ＣＤＥＢＥＦ−４これらの文から、単語群の第１の組は上のデータ組の中で複数回発生するとい
う規準に従って選ぶことができる（このプロセスとその実施についてのより詳細
は次に示す）：ＢＣＤＥ（文１と２で２度発生している）ＢＥＦ（文３と４で２度発生している）ＣＤＥ（文１，２，４で３度発生している）ＣＤ（文１，２，３，４で４度発生している）ＥＦ（文１，３，４で３度発生している）Ｐ（文２と３で２度発生している）これらの組から、次のキータームが上述の第２の規準により第１の組から選ぶ
ことができ、第２の規準は単語群が第１の組内のより長い単語群のサブストリン
グを形成しないというものである：ＢＣＤＥＢＥＦＰしかしここで注意したいのは、サブストリング‘ＣＤ’‘ＣＤＥ’及び‘ＥＦ
’はキータームとして含まれてはいないことである。この理由はすべてがより大
きなターム‘ＢＣＤＥ’もしくは‘ＢＥＦ’のサブストリングであることによる
。しかしながら、もし例えばこのより大きなターム‘ＢＣＤＥ’が１度しか発生
しないとすると、そのときは‘ＣＤＥ’はキータームとして特徴をもつことにな
る。

【００５３】上で概説した２段プロセスの結果は、もしデータ組が次のシーケンスの中で次
の用語を含んでいるとすると： …Jasper agent… …Jasper… …agent… …Jasper agent… …Jasper… …agent… …Jasper… …agent… そのときは‘Jasperエージェント’がキータームとなり（‘tool set including
a Jasper agent’のようなもっと長い用語にサブサム（部分の和）が作られないことを条件とする）、がしかし、‘Jasper’も‘agent’も単独ではキータームとなることはなく、これはどんなに多くの回数これらの用語が出現しても関係
がないとされる。これが３つ全部をキータームとして代表させるのを避けていて
、‘Jasper agent’だけを代表させることによって全部もしくは大部分の情報が
保たれるという仮定に頼るものとなっている。

【００５４】加えて、構成要素部分がデータ組内で発生する頻度を勘定に入れることによっ
て、用語‘Jasper agent’についての代表的な重み付けが計算できる。例えば、
もし‘Jasper agent’が頻繁にではなく出現し、また‘agent’が‘Jasper agen
t’と同じような頻度ではあるが用語‘Jasper agent’の方がより大きな頻度であるとすると、そのときは複合用語‘Jasper agent’はこの認識にあたりデータ
組の他のキータームに対して重み付けをすることができる。

【００５５】好ましい実施例では、情報管理ツールはユーザに呈示されたキータームに応答
して、それらを例えば受入れるか拒否するか動作するように求めてよく、またイ
ンターフェースがキータームの部分要素を選ぶという機能を提供してもよい。こ
のようなツールは例えばプロフィル形成用ツールであってよく、これが入力した
用語を変更することによるユーザの個人的プロフィルユーザに精製できるように
する。

【００５６】好ましい実施例はまたフルストップ（終止符）と他の句読点マークを使用して
単語シーケンスに分け目を付けるようにできる。これが可能性のあるキーターム
の長さを制限するのに役立つ。

【００５７】実施例はさらにサブセットの第１の組についての単語群の選択について別の規
準を実施してもよいし両方を実施してもよい。好ましいのは単語群が先行するか
後に続く低値語をもたないように選ばれることである。“低値語”には接続詞、
副詞及び何らかの一般的な単語であり、例えばthey，are，it，has，of，in等々
である。

【００５８】ここで上の例に戻り、低値語を小文字で表わすとすると、文は次のようになる
：ａｂＣｄＥＦ−１ＰＱｂＣｄＥ−２ｂＥＦＣｄＰ−３ＣｄＥｂＥＦ−４ここで、これらの文から、頭と尾とに低値語をもたないキータームは：ＣｄＥ文１と２ＥＦ文１と３と４Ｐ文２と３ここで注意したいのは、‘ｂ’が用語“ｂＣｄＥ”の前から失なわれているが
、中間の‘ｄ’は保存されていることである。したがって“bread and butter”
といった用語と他の接続詞と低値語とを含んでいる用語とはキータームとしてリ
ストされることになる。

【００５９】全体の文がキータームとしてリストされないのが好い。しかしデータ組内であ
る文が２度発生する場合には、上述の方法はキータームとしてそれを含むことに
なるが、文を分割するセンテンススプリッテングとキーターム制限技術が採用さ
れないことを条件としている。

【００６０】図３を参照すると、流れ図が示されいて、キーターム抽出器１００によって実
施される段階の好ましいシーケンスを示している。これらの段階は以下に掲示さ
れていて、それらの動作について補足説明が付けてある。段階３００：テキストを入力する。段階３０５：データ組を文に分ける。段階３１０：各文を１又は複数の単語で成る単語群に分ける。段階３１５：各単語群をとって頭と尾にある低値語を取り除く。段階３２０：最長単語群を最初にして最短単語群に至る順序で記憶し、次に各単
語のステム（茎切り）をしてケース（大文字か小文字か）を無視する（ステミン
グはプレフィックスとサフィックスを取り除くことを含む既知の技術である）。
各ステムした単語とその取り除かれたプレフィックスとサフィックスとの間の関
係を保存して、後で必要となるときにもとの単語の再生回復を可能とする。段階３２５：各単語群に入力テキスト内での発生頻度と等しい初期重み付けを与
えて、重み付け１の全単語群を無視する（換言すれば繰返されない単語群を無視
する）。段階３３０：単語群を上方に伝搬する：長さ（すなわち１単語のみの）のターム
で始まり、上方に作用して、候補単語群を含む次に短いタームを見付ける。候補
単語群の重み付けによりこの単語群の重み付けを増し、候補単語群を取り除く。
候補単語群がより長い単語群のサブストリングであることがなくなるまで繰返す
。段階３３５：予め選んだ（すなわち構成可能な）最大許容長より長い単語群が残
っていないことをチェックする。このようなより長い単語群が残っていれば、こ
ういった単語群を‘分けられることになっている’リストに加えて、この‘分け
られることになっている’リスト内の単語群に対して上の段階３１０から繰返す
。この段階の条件が満足されるまで、あるいは最大単語群長がこれ以上減らなく
なるまで繰返す。段階３４０：各単語の重み付けをそれが含んでいる単語の数により除算すること
によりスケール合せをし、この単語群を減って行くスケールされた重み付け順序
に従って種分けする。段階３４５：これらの単語群から得られたキータームの数を制限する戦略を適用
するとし、とくに最大重み付けをもつものから単語群の適切な数を一般に選ぶよ
うにする。段階３５０：単語群がユーザに呈示されることになる場合は、この単語群を‘実
世界（real world）’に戻す写像をする。段階３２０で、可能性のある単語群が
ステムされ、ケース（大文字か小文字かを示す）情報が無視されて一番広幅の可
能な概念上同等の単語群の組を一つの中立な代表形式に写像する。逆写像は大文
字化と単語の終結部とを再生回復する。

【００６１】ここで注意したいのは、段階３３０で候補単語群がより長い単語群のサブスト
リングとして識別される第１のインスタンスでのリストから取り除かれることで
ある。リストの最頂部に向う全体で各サブストリングを伝搬し、かつ候補ターム
がサブストリングとなっている各単語群の重み付けを増加することは可能である
。このプロセスはキータームを重み付けする代替手段として使用されるのが好ま
しい。しかし、保存されるタームの結果を変更はしない。アルゴリズム詳細図３と図４とを参照するとして、上のアルゴリズムでの選ばれた段階が図４に
示したようなテキストを用いる特定の例を参照して記述されることになる。段階３０５：フルストップでの文の分割−省略での分割をしないように注意する
。段階３００での受理に続いて、入力テキストが次の文に分けられる（４００）
：（省略データベース１２５がこの目的で使用できる） This is wholemeal bread and butter. It uses salted butter. Salted butter is good. Bread and butter is mainly bread.段階３１０：単語群を識別する−ステージ１処理４１０はキータームエンジン４
７０の制御下にあり、エンジン４７０はキーターム抽出器１００の機能部品とし
て実現されているのがよく、この処理４１０は入力テキスト４００内で識別され
た文から１つまたは複数の単語で成る単語群を識別することにより始められる。
ステミングをする前に単語群（４２０）は次のように識別される。

【００６２】 bread and butter is mainly bread wholemeal bread and butter butter is mainly bread bread and butter wholemeal bread salted butter bread wholemeal butter salted （単語群を識別する仕組みについては以下でさらに記述する。）段階３２０：ステミングと大文字使用−現在の例では必要とされないがステージ
１処理４１０はステミングを含むことができて、プレフィックスとサフィックス
とをある単語群内の単語から取り除き、それによって各単語を中立の表現形式に
減縮するようにできる。例えば、ステミングは“surfing the net”，“surf th
e net”及び“surfs the net”というフレーズを１つの代表的なフレーズ“surf
the net”と減縮する。好ましいのは、プレフィックスとサフィックスとがこの
中立形式と関係付けて記憶されて、段階３５０で再構築できるようにすることで
ある。

【００６３】ステージ１処理４１０はまた大文字使用化を含むことができ、（人物名のよう
に）大文字で始まる必要がある単語と、それを必要としない単語（例えば文の始
めにある単語）とを識別する。大部分のアクロニム（頭文字）は他の省略と同じ
ように大文字を含んでいる。こういった大文字使用を必要とする単語を識別する
ことはこういった単語を段階３５０によりこの形式で呈示されるようにする。段階３２５：ステージ１処理４１０はまた初期重み付けを識別された単語群に割
当ててステージ１出力を完成させて、次のようにする： 1 bread and butter is mainly bread 1 wholemeal bread and butter 1 butter is mainly bread 2 bread and butter 1 wholemeal bread 2 salted butter 2 bread 1 wholemeal 4 butter 2 salted ステージ２処理４３０はキータームエンジン４７０の制御の下にあって、重み
付け１のすべての単語群をステージ１出力４２０から取り除いて、ステージ２出
力４４０として単語群の次の組を残す： 2 bread and butter 2 salted butter 2 bread 4 butter 2 salted段階３３０：ステージ処理４５０もまたキータームエンジン４７０の制御下にあ
って、単語群を上方に伝搬し、サブストリングタームを取り除いて、次のような
キータームの出力４６０を結果する： 4 bread and butter （もとの２＋‘bread’からの２） 8 salted butter （もとの２＋‘salted’からの２と’bread’からの
４）用語‘bread and butter’からの値は‘butter’からの値‘４’だけ増えてい
ないが、その理由は現在の方法が言うところは‘butter’が上方へ伝搬するのは
２単語用語である‘salted butter’までであり、以後はそれが無視されるからであり、言い換えると、より長い単語群のサブストリングとして識別される最初
の瞬間に単一用語‘butter’が無視されることによる。

【００６４】別な立場からこれを見ると、長い方の単語郡内に含まれていると見付けられた
単語群の重み付けはこのような長い方の単語群の１つについての重み付けに加え
ることだけができるのであり、短い方の単語群を含むこのような長い方の単語群
の全ての単語群の重み付けに加えられない。ここで記述した方法では一番短い長
い方の単語群の重み付けだけをそこに含まれている単語群の重み付けに比例して
修正している。これが段落３２５の例であり、ステージ２で残っている単語群が
長さが短くなる順序とされている。単語“butter”（重み付け４）を採り、リス
トを上へ見ていくと第１のすなわち一番短い単語群で“butter”を含むものは“
salted butter”である。一度“butter”からの重み付けが“salted butter”内
に吸収されてしまうと、もうリストの上には続いて行けず、また“bread and bu
tter”に加えられることもできない。しかし、もし、例えば“bread and butter
”の代わりに一番上位の単語群が“bread and salted butter”であるとするとそのときは“salted”（２）と“butter”（４）の重み付けを“salted butter ”の重み付け（２）に加えて合計で８とした後に、“salted butter”（８）の合計の重み付けが、次に“bread and salted butter”の重み付けに（“bread”
の重み付け（２）と一緒に）加えられて、“salted butter”もまた取除かれて２つではなく、１つの単語群だけが残ることになる。段階３３５：長い単語群についての可能な分割。この例では必要としないが、通
常の最大単語群長は約５もしくは約６語となる。しかし、この例では、もし最大
受理可能単語群長が２と設定されていたとすると、“bread and butter”を分割
するために段階３１０に戻る必要があることになる。

【００６５】上述した図４の例については、単語分割は次の表１の別の段階で示されること
になり、ステージ３処理４５０で始まる：

【表１】

【００６６】長い単語群を分割する好い方法はより長い用語のサブストリング内部に含まれ
ることにはなりそうもない群の中心に向っている単語を見付けることである。好
ましい戦略は最初に（接続詞が）離節的な（disjunctive）性質をもつ単語を探すことである：例えば‘but’と‘or’を‘and’とか‘of’のような接続的用語
を考慮する前に探す。

【００６７】しかし、離節的な用語が存在せず、接続的用語だけが単語群内にある場合には
、長い単語群と接続語で単語群の分割をすることという妥協を採用することが可
能である。例えば、接続語をそのままとしておくことは１つもしくは２つの単語
により単語群の長さを増大させるだけであり、この場合には長い単語群を保存す
るのが価値があることになる。段階３４０：（上述の“非分割”単語群すなわち最大長６の単語群に立ち戻り）
、単語群はその長さ、すなわち単語群内の単語群の数によってスケール合せがさ
れる。これは次の結果を生む： 1.33 bread and butter （４割る３） 4.0 salted butter （８割る２）これらの用語をスケールを合わせた重み付けで種分けすると結果は： 4.0 salted butter 1.33 bread and butter この段階が含まれるのは、作られたキータームの信頼性を強化するために観測
を介して見付けられたことであるによる。より長い用語が受取られてよいとする
追加の重み付けに対する補償をするために、正規化が作用していると信じられて
いる。この妥協は好ましいものとされ、全部ではないにしても若干のより長い用
語は短い用語よりもデータ組の主題についてのより集中した情報を含んでいてよ
いからである。また、逆に、全部ではないとしても若干の短い用語は若干の長い
用語よりもデータ組の主題についてもっと集中した情報を含んでいてよい。段階３４５：キータームとして呈示される単語群の数を制限すること。この段階
に対しては、広範囲の文書に対するキータームについての制限された数を作ると
いう一組の戦略を備えることが好ましい。次のような戦略が単独であるいは何ら
かの組合せで使用できる。

【００６８】・現在の用語についての組合せた合計の重み付けが全キーワードの組合せた合
計の重み付けのうちの構成可能な割合に上昇するまで、継続する用語を表示する
。この場合には次のような式となり： Σ（表示された重み付け）＜＝Σ（全重み付け）／１．５例えば次のような得点：４３３２１１１で最初の３つの用語だけが表示される。ここで式の中で第２のタームについての
分母１．５は良い結果をもたらすことが見付かっている。１よりも大きな他の値
を使うこともできる。

【００６９】・隣りの用語の重み付けの比が構成可能な値以下となるまで継続する用語を表
示する。この終結式は例えば：（重み付け）（ｉ＋１）＜＝（重み付け）（ｉ）／２例えば次のような得点：４３３１１１１で最初の３つの用語だけが表示される。この式の中で第２のタームについての分
母２は良い結果をもたらすことが見付かっている。

【００７０】・最初の用語の重み付けに対する用語重み付けの比が構成可能な値以下に落ち
るまで継続する用語を表示する。この終結式は例えば：（重み付け）（ｉ）＜＝（重み付け）（１）／３例えば次の得点：４３３１１１１で最初の３つの用語だけが表示されることになる。

【００７１】上の規則により許される継続する用語の表示を構成可能な最大に制限するが、
等しい重み付けの用語の完全なブロックを含めるために必要な場合にはその数を
越えられるとする。値７が有用であると見付けられていて、その理由はあるデー
タ組に対して７つのキータームを用意することによる。例えば次のような得点で
最初の７つの用語が表示される： 10 ８７６６５５５５４４・単一単語の用語をとくに取扱い、単一単語の用語が構成可能な位置にあるい
はその後で出て来るときには継続する用語の表示を中継する。値３が有用である
と見付けられている。次の例では複数の数がいずれもの用語の中で単語の数を表
している。用語は重み付けによりランク付けされている。例えば次の組では最初
の４つの用語だけがその重み付けとは無関係に表示されることになる：１３４３１２４・上記の制限とは無関係に最小数を表示するが、等しい重み付けの用語につい
ての完全なブロックを含む必要があるときはその数を越えてもよい。値２が有用
であることが見付かっている。例えば、次の得点では最初の４つの用語が表示さ
れる：５２２２１１段階３５０：もとの形式に用語を戻す写像−これは段階３２０から続くもので、
単語を単語のステムした状態もしくはオペレータに呈示できる形式に戻す変更し
た大文字使用とするプロセスである。

【００７２】例えば次のフレーズを含む文書を考える Surfing the net （分の始めにある） Surf the net Surfs the nets 段階３２０でステミングをし、大文字、小文字を無視することは一般にこうい
った用語を次のように写像させることになる： Surf the net 適当な記録が取り除かれたプレフィックスとサフィックスについて保存された
とすると、段階３５０はステムしたフレーズを表示用の単一の代表的なフレーズ
に戻す写像をしてよく、この表示には大文字小文字の差を解決することとどの終
りを適用するかを選ぶこととを含んでいる。ここでセンスのある（賢い）選択は
次のようになってよい： Surfing the net 一般的な場合では、これは２段階で達成され、大文字，小文字の解決すること
とプレフィックス／サフィックス再構築とである。大文字小文字の解決（case resolution）：一般に、小文字が好ましいが文の最初の文字が大文字である場合を除く。この場合はケース情報が信頼性がないと考
えられる（これ以外の単語もまた何がしかの大文字を有していないことを条件と
する）。サフィックス再構築：一組の経験的に決められた規則が適用される。最初にリス
トが作られ、テキスト内で発生している特定の単語の終結部のすべてについてリ
ストされる。この情報は前もって段階３２０で記憶されるようにできる。もし複
数の終結部が存在すると、次の表２にリストした規則が整合が見付かるまで継続
して適用される。

【００７３】

【表２】

【００７４】ここで、^*-は裸の単語（なにもない単語bare word）も−ｓもともに存在しないことを条件とする。

【００７５】整合が見付からないとすると、単語の一番長い形式（もしくは一番長い形式の
一つ）が取上げられてよい。

【００７６】図３の流れ図に概略を示した好ましいキーターム抽出プロセスをここで記述し
て、上述の要約例を用いて詳細を示すこととするが、ここでは文字が単語を表わ
しているとする。図３のプロセスの中の主要段階についての好ましい実施が詳細
に記述され、こういった段階を応用することの効果を示すために要約例を用いて
いる。

【００７７】図３を見ると、段階３０５は困難なしに既知のテキスト走査技術を用いて省略
データベース１２５を参照しかつ必要に応じて句読点についての標準的な規則を
用いて分を識別している。段階３０５からの出力はこの例示では次の識別された
文を上のように与えている：ａｂＣｄＥＦＰＱｂＣｄＥｂＥＦＣｄＰＣｄＥｂＥＦこの例で使用された文はも、簡単のために同じ長さとしているが、図３の方法
と以下に記述する特定の実施とは一般的な場合であって文が異なる長さのもので
もよい場合に動作するように設計されている。

【００７８】最初の文“ａｂＣｄＥＦ”が段階３１０で分割されて次のような単語群となる
：ａｂＣｄＥＦｂＣｄＥＦＣｄＥＦｄＥＦＥＦＦａｂＣｄＥｂＣｄＥＣｄＥｄＥＥａｂＣｄｂＣｄＣｄｄａｂＣｂＣＣａｂｂａｂ単語群の長さが減って行く順序に編成すると次のリストとなる：ａｂＣｄＥＦａｂＣｄＥｂＣｄＥＦａｂＣｄｂＣｄＥＣｄＥＦａｂＣｂＣｄＣｄＥｄＥＦａｂｂＣＣｄｄＥＥＦａｂＣｄＥＦ加えて図５を参照すると、流れ図が与えられていて、識別された文を単語群に
分割する好ましいアルゴリズムを示していて、これは図３の段階３１０を実施し
ている。この文分割アルゴリズムは上に示したのと同じような単語群のアレイを
生成し、各単語群はアレイ変数“ＷＧ［Ｓ，ｋ，ｉ］”の要素の中に含まれてい
て、ここで“Ｓ”はある文を識別する数であり、“ｋ”は文Ｓ内部の単語の位置
であってこの位置で単語群が始まるところであり、また“ｉ”は単語群の長さで
ある。上の例では、文１“ａｂＣｄＥＦ”については、Ｓ＝１とＷＧ［１，１，
１］＝‘ａ’，ＷＧ［１，１，２］＝‘ａｂ’，ＷＧ［１，２，１］＝‘ｂ’，
ＷＧ［１，２，２］＝‘ｂｃ’，及びＷＧ［１，２，３］＝‘ｂＣｄ’である。
図５のアルゴリズムはまた関数“ＷＳ（Ｓ，ｉ）”を用いて文Ｓのｉ番目の単語
を戻している。上の例の文１についてはＷＳ（１，１）＝‘ａ’，でＷＳ（１，
４）＝‘ｄ’である。

【００７９】最初は、段階５００で、単語群アレイの各要素をナル（零）に設定し、文カウ
ンタＳを零に初期化する。このアレイは予期される最大入力テキストを収容でき
る大きさであると仮定されている。

【００８０】段階５０５で、文カウンタＳはインクレメントされ、最初に、図３の段階３０
５から識別された第一の文を選び、単語位置カウンタｋを零に初期化する。段階
５１０で、文Ｓが入力される。段階５１５で単語位置カウンタがインクレメント
され、最初は文Ｓの第一の単語の点にであり、そして単語群長“ｉ”が零に初期
化される。単語群長“ｉ”が段階５２０でインクレメントされ、そして段階５２
５では長さｉ−１の先に構築された単語群を用い、文Ｓの単語位置ｋで始まって
新しい単語群が構築され、（ＷＧ［Ｓ，ｋ，０］はＳとｋとのすべての値に対し
てナル（零）であると仮定されている）。そこには次に続く単語が文中でその文
に添付されていて単語位置ｉ＋ｋ−１で始まっている。関数“ＷＳ（Ｓ，ｉ）”
は文Ｓ内で単語位置ｉに単語を戻す。段階５３０では、試験が実行されて、文Ｓ
からもっと長い単語群を構築するのに使用するためにいずれかの単語が残ってい
るかどうかの検出が実行され、単語位置ｋから始まって、文Ｓの長さの知識を用
いてそれが行われる。文の終りに到達していなければ、処理は段階５２０に戻り
、単語群長ｉをインクレメントする。しかし、文の終りに到達していれば、段階
５３５で単語位置カウンタｋが文Ｓの最終単語を指しているかどうかを試験が判
断する。否であれば処理は段階５１５に戻り、文Ｓ内の新しい単語群についての
単語位置が１つだけ進んで、長さ変数ｉが上のように零にリセットされる。しか
しもし、文の終りが段階５３５で到達していなければ、段階５４０で最終文が処
理されたかどうかを試験が判断する。否であれば処理は段階５０５に戻り、次の
識別された文が選ばれる。もし段階５４０で全ての文が処理されていれば、この
アルゴリズムと、したがって図３の段階３１０とは完了し、全ての可能性のある
単語群についてのアレイＷＧ［］は段階３０５から識別された文から構築され
たことになる。

【００８１】図５のアルゴリズムをここで示した例での識別された文に適用することは次に
示すように表３内の文の順序で配列された以下の単語群を作り出す。

【００８２】

【表３】

【００８３】段階３１０の完了で、入力されたテキストの各文についての可能な単語群のす
べてが識別されて、単語群アレイＷＧ［］内に読取られている。次の段階は図
３の方法の段階３１５であり、これは“低い値”の単語を各単語群の始めと終り
から取り除くことであり、低い値の単語（低値語）は‘is’，‘it’，‘are’ ，‘they’，‘and’などのような単語であり、キータームが抽出される対象のデータ組（例えばテキスト）の主題を反映する傾向をもたないものであり、とく
にこういった単語が単語群内の先頭と後尾の位置で出現する場合に行なわれる。
低値語は定値語と省略のデータベース１２５を参照して識別されてよい。

【００８４】図６を参照すると、低値語を取り除くための好ましいアルゴリズムを示すよう
にした流れ図が用意されている。このアルゴリズムは次のような基礎の上にあっ
て動作する。すなわち、単語群アレイの中に含まれているようになっている可能
性のあるすべての単語群について、先頭もしくは後尾の低値語を備えたものも備
えていないものもある単語群を含めて、低値語を取り除くことが他の単語群の１
つで誤りを生じさせ易い複製物を単に生じさせるだけであるということである。
したがって、単語群から先頭と後尾の低値語を実際に取り除くのではなく、図６
のアルゴリズムはＷＧ［］アレイから先頭もしくは後尾の単語をもつすべての
単語群を適当なアレイ要素をナル（零）に設定することによって単に除去するこ
ととする。この結果は先頭と後尾の低値語なしに可能とされる単語群のすべてを
含んでいるようなアレイとなる。

【００８５】図６を参照すると、アルゴリズムは段階６００で始まり、図５のアルゴリズム
（段階３１０）から生じた単語群アレイを輸入することによって始まる。段階６
０５で文カウンタＳを初期化した後に、このアルゴリズムは３つのネストされた
解析ループを実行してＷＧ［］アレイの全部の要素を走査する。外側のループ
は段階６１０で始まり文カウンタをインクレメントし、最初は第一の識別された
文を選び、単語群長ｉを初期化する。段階６１５では、中間ループの開始があり
、単語群長がインクレメントされ、最初に長さ１をもつ単語群アレイ要素を選び
、また単語位置カウンタｋが初期化される。段階６２０では、内側ループが開始
され、単語位置カウンタｋがインクレメントされ、最初に文Ｓ内で第１の単語で
始まる長さｉの単語群を選ぶ。段階６２５は選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］
内のいずれかの先頭の低値語を求めて試験を行なう。なにも見付からなければ段
階６３０でいずれかの後尾の低値語が探される。もしなにも見付からなければそ
の単語群が保存されて、処理は次の単語群要素に移動して、上述の段階５３０と
同じやり方で段階６４０により処理される。もし先頭もしくは後尾のどちらかの
低値語が選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］の中で段階６２５または６３０でそ
れぞれ見付かるときには、段階６３５でその単語群要素がナル（零）に設定され
て、このアレイから特定の単語群が除去されて、処理は段階６４０に進む。図５
の段階５３０のように、段階６４０は長さｉの別な単語群が単語位置ｋで始まる
文Ｓから文Ｓの長さの知識を用いて出て行ったかどうかを判断する。もしいずれ
かが残っていれば、そのときは内側ループ上の処理が段階６２０へ戻り、そこで
は単語位置カウンタｋがインクレメントされる。段階６４０で何も残っていなけ
れば、次に段階６４５が単語群長ｉが今では現在の文Ｓの長さに等しいかどうか
、すなわちｉよりも大きい長さの単語群が存在しえないことを判断する。文Ｓの
長さに等しくなければ中間ループ上の処理は段階６１５に戻り、そこで長さ変数
ｉがインクレメントされて、次に長い単語群が解析できるようになる。一番長い
単語群が段階６４５で今度は解析されてから、段階６５０では最終文についての
試験がされる。もし文Ｓが最終でなければ、外側ループ上の処理は段階６１０に
戻り、そうでなければアルゴリズムは段階６５５で終り、先頭と後尾の低値語を
もつ単語群が単語群アレイから除去されてしまう。

【００８６】図６のアルゴリズムを表３の単語群に適用すると次の表４が作られる。

【００８７】

【表４】

【００８８】表４では先頭もしくは後尾に低値語をもち、１もしくは複数の低値語だけで成
る単語群を重要でもないのに含んでいるものは除去されていて、表中ではブラン
クの空間として示されている。

【００８９】図３のアルゴリズムにおける次の段階である段階３２０は長さに従って単語群
を並べまた単語ステミング（stemming）を実施することである。記述されている
特殊例では、長さによる単語群の順序付けは単語群アレイＷＧ［］の本質が与
えられると、表示目的で必要とされる場合を除いて、特に必要とはされない。単
語ステミングは単語からのプレフィックスとサフィックスとの取り除きである。
例えば、ステミングのプロセスは単語群“surfing the net”と“surfs the net
”を同じ単語群すなわち“surf the net”に減縮することである。これは両サフ
ィックス“ing”と“s”とをそれぞれ単語“surf”の２つの発生から取り除くこ
とである。

【００９０】図７を参照すると、単語をステミングしかつステムされた単語といずれかのプ
レフィックスもしくはサフィックスで取り除かれたものとの間の関係を記録する
ための好ましいアルゴリズムを示すために用意された流れ図である。好ましいの
は、実際に、図６と図７のアルゴリズムが組合せされることである。単語群のア
レイを走査する方法は２つのアルゴリズムの間で同一である。図７のアルゴリズ
ムは図６のアルゴリズム（段階３１５）の動作から生じた単語群アレイを輸入す
ることにより段階７００で始まる。段階７０５で文カウンタＳを初期化すること
により、アルゴリズムは３つのネストされた解析ループを実行してＷＧ［］ア
レイの要素のすべてを走査することは図６と同じであり、それぞれ段階７１０，
７１５，７２０で始まり対応しているループの終り試験はそれぞれ段階７６５，
７６０，７５５である。図７のアルゴリズムの内側走査ループ内部での処理は、
単語カウンタｘを初期化した後、段階７２５で始まり、選ばれた単語群アレイ要
素ＷＧ［Ｓ，ｋ，ｉ］がナル（零）に設定されていないことをチェックすること
を伴う。もしそれがナルであると、処理は段階７５５での内側ループの終り試験
まで直ちにとばして、単語群要素の別の処理はしない。もし段階７２５で、選ば
れた単語群がナルでなければ、そのときには、段階７３０で単語カウンタｘがイ
ンクレメントされ、最初に選ばれた単語群の第１の単語を指すようにする。段階
７３５は選ばれた単語ｘ内のプレフィックスとサフィックスの一方または両方に
ついての試験がされる。もし何も検出されなければ、段階７５０で単語カウンタ
が選ばれた単語群長ｉと比較されて、その単語群の最終の単語が処理されている
かどうか判断する。もし単語が文Ｓ内で処理されずに残っていると、そのときは
処理は段階７３０に戻って単語ポインタｘをインクレメントして単語群の次の単
語を選ぶようにする。もし段階７３５でいずれかのプレフィックスもしくはサフ
ィックスが見付かると、そのときは段階７４０でそれが取り除かれて、段階７４
５では記録が作られて、取り除かれたプレフィックスもしくはサフィックスを結
果として生じたステムした単語と関係付けがされ、後の回復を可能とする。そこ
で処理は上述のように段階７５０に続く。

【００９１】もし、段階７５０で、選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］のすべての単語が処
理されているときは、内側のアレイ走査ループ試験が段階７５５に到達して、単
語群アレイの残りのものが図６のアルゴリズムと同じように走査される。

【００９２】全体の単語を表わすために単一の文字を用いて今の例示では、単語ステミング
の結果を示すようにすることは不可能である。

【００９３】図３の段階である次の段階は、残っている単語群の各々に重み付けを指定して
、入力データ組のテキスト内に一度だけしか発生しない単語群を除去することで
ある。この段階で指定される重み付けはそのデータ組内での単語群の発生の頻度
に等しいのが好い。しかし他の尺度をこの段階で適用して単語群を重み付けし、
単語群の除去のためのしきい値を設定するようにしてもよい。段階３２５と図８
の以下のアルゴリズムとは好ましいキーターム抽出器１００の第１組識別器２１
５の動作における段階を完結することができる。

【００９４】図８を見ると、頻度により単語群に重み付けをし、入力データ組で１度しか発
生しない単語群を除去するための好ましいアルゴリズムを示すために流れ図が呈
示されている。図８のアルゴリズムは進行の際に、アレイからの特定の単語群の
二重発生を除去して、完了の際に各個別の単語群の単一発生がアレイ内に残り、
その重み付けの関係する記録を伴うようにしている。重み付けはアレイｆ［Ｓ，
ｋ，ｉ］内に記録されていて、単語群アレイＷＧ［Ｓ，ｋ，ｉ］の各可能な対応
する要素について一要素となっている。図８のアルゴリズムはまた、後の使用の
ために、一番長い残っている単語群を変数“ｍ”を用いて識別する。概略を述べ
ると、図８のアルゴリズムは単語群アレイＷＧ［］を図６，７のアルゴリズム
と同じやり方で走査することにより動作する。図5の走査は他と少し違っている。内側の走査用ループで特定の単語群要素ＷＧ［Ｓ，ｋ，ｉ］を選び、かつナル
でないように設定したものの内部で、同じ長さｉをもつ残っている単語群、すな
わち同じ文内でより大きなｋの値をもち、かつ後の文だけの中にあるものが整合
する単語群についてチェックされる。整合が見付かった各々について、単語群Ｗ
Ｇ［Ｓ，ｋ，ｉ］の重み付けがインクレメントされて、整合用単語群がナルに設
定されて、重複するものが取り除かれる。

【００９５】ここで走査する(scanning)は処理のために単語群アレイＷＧ［］の要素を選
ぶ技術を意味している。図６ないし８の各流れ図では、３つのネストされたルー
プがあって、内側ループ、中間ループ、および外側ループがある。図６について
は、内側ループが段階６２０ないし６４０で成り、中間ループが段階６１５ない
し６４５、また外側ループが段階６１０ないし６５０で成る。同じようなネスト
されたループが図７と図８の各図中のアルゴリズムに対して使用されている。解
くに図８では対応するループは内側が段階８０８ないし８３６、中間が段階８０
６ないし８３８、または外側が段階８０４ないし８４０である。

【００９６】各図では外側ループが処理すべき文を選んでいる。各選んだ文（Ｓ）について
は中間ループが解析されている単語群で長さ（ｉ）のものを設定し、内側ループ
は文Ｓ内部の異なる可能な単語位置（ｋ）の全てで始まる組の長さ（ｉ）の単語
群を処理するように働く。単語長（ｉ）は次に中間ループにより進み（ｉ＋１）
、文（Ｓ）の処理がその異なる可能な長さの全ての文内で可能とされる単語群が
解析されてしまうまで進行する。外側ループは次に次の文を選んで同じ解析をそ
の文について実行する。

【００９７】図６ないし８の各アルゴリズムでは、単語群の選択に同じ基本的な方法を使っ
ており、内側ループ内部で選ばれた単語群について実行される処理段階が違って
いてもそうしている。

【００９８】図８のアルゴリズムは段階８００で図７の処理から生じた単語群アレイＷＧ［
］を輸入する事によって始まる。段階８０２では、重み付けアレイｆ［］の各要素が零に初期化され、最大単語群長変数ｍと文カウンタＳとについても
同様である。図５ないし７と同様にＷＧ［］は３つのループで走査され、図８
の段階８０４，８０６，８０８でそれぞれ始まり、対応するループの終り試験を
段階８４０，８３８，８３６にそれぞれ備えている。段階８０８で特定の単語群
要素ＷＧ［Ｓ，ｋ，ｉ］を選ぶと、ナルについてのチェックが段階８１０で行な
われる。選ばれた要素がナルであれば、次の単語群要素が、もしあれば、ループ
の終り（エンドオブループ）段階８３６を経て選ばれる。

【００９９】ナル（零）でない単語群要素ＷＧ［Ｓ，ｋ，ｉ］を段階８１０で選ぶと、段階
８１２はこの要素に対する対応した重み付けを単位値に設定して２つの別な走査
用変数ｘ，ｙを初期化する。変数ｘは文カウンタであり、現在及び後の文中の同
じ長さの単語群がＷＧ［Ｓ，ｋ，ｉ］と整合するかについてチェックできるよう
にする。変数ｙは単語位置カウンタであり、ｋと等価なものである。変数ｘとｙ
とが初期化されて、Ｓとｋとの現在値がそれぞれ段階８１２により初期化される
。段階８１４では、チェックがされて、長さｉの別な可能な単語群を求めて現在
の文ｘ内で行なわれ、位置ｙよりも後の単語位置で始まる。もし何か残っていれ
ば、そのときは段階８１６でｙが次の単語群のポイントまでインクレメントされ
る。もし段階８１８で、次の単語群がナルであれば、そのときは処理は段階８１
４に戻って、同じ長さの別な単語群を探す。

【０１００】段階８１８で、もし次の単語群がナルでないと、段階８２０では比較が選ばれ
た単語群ＷＧ［Ｓ，ｋ，ｉ］とされる。もし整合が見付からないと、処理は段階
８１４に戻って、上のように、別の単語群を探す。しかし、段階８２０で整合が
見付かると、段階８２２で単語群ＷＧ［Ｓ，ｋ，ｉ］の重み付けがインクレメン
トされて、整合用単語群要素ＷＧ［ｘ，ｙ，ｉ］がナルに設定され、カウントが
されて、重複を除去するようにする。処理はそこで段階８１４に戻り、上のよう
に同じ長さの別な単語群を探す。

【０１０１】段階８１４で同じ長さｉの別な単語群が現在の文ｘ内に何も残っていなければ
、そのときは段階８２４で判断がされて、最後の文が整合用単語群について探さ
れたか、探されていないかについて決められる。もし探されることになる文が残
っていれば、段階８２６で文カウンタｘがインクレメントされて、単語位置カウ
ンタｙがリセットされ、次の文内で長さｉのすべての単語群が探索される。もし
段階８２４で最後の文が探索されたときには、段階８２８で累積された重み付け
ｆ［ｘ，ｙ，ｉ］で単語群ＷＧ［ｘ，ｙ，ｉ］についてのものがチェックされる
。これが単位値（１）よりも大きいときには、単語群は保存されて、段階８３２
と８３４とがｍという値がこれまでに見付かった保存されている最長単語群を記
録することを確実としてから段階８３６に進む。もし段階８２８で、単語群ＷＧ
［ｘ，ｙ，ｉ］がデータ組内で１度だけしか発生していなければ、そのときはナ
ルに設定され、それと関係する重み付けが零に設定される。処理は段階８３６に
進んで、図６のアルゴリズムに関して上述したところにより、単語群アレイの走
査を続ける。

【０１０２】図８のアルゴリズムが完了すると、すなわち図３の段階３２５が完了すると、
単語群アレイＷＧ［］は入力データ組内で１度ならず発生した各個別の単語群
についての単一エントリィを含んでいて、各々は重み付けアレイｆ［］内に記
録された対応する重み付けを備えている。単語群アレイと対応する重み付けアレ
イとは第１の組識別器２１５により生成された第１の組を構成できる。この好ま
しいアルゴリズムはまた一番長い生き延びている単語群の長さの記録を変数ｍと
して生み出してもいて、これが主として次のアルゴリズムでプロセスの効率を高
めるために使用される。

【０１０３】この例を示すために、図８のアルゴリズムによる処理を完了すると表４が次の
ように生まれていて、対応する重み付けで“Ｗ”と示した欄に示したものを備え
ている。

【０１０４】

【表５】

【０１０５】図３の次の段階である段階３３０は、より長い残っている単語群のサブストリ
ングを形成する残っている単語群を除去し、こういったより長い単語群の対応す
る重み付けを含んでいた除去されたサブストリングの重み付けだけ増す。この段
階はサブセット識別器２２０の選択規準の一部として実施することができる。こ
の段階を達成するための処理は段階３２５からの残っている一番短い単語群によ
って始めて、単語群階層構造を通って上方に進み、すべてのより短いサブストリ
ング単語群が除去されるまで進んで達成される。

【０１０６】図９を見るとサブストリング単語群を除去し、それによって対応するより長い
単語群の重み付けを増すための好ましいアルゴリズムを示す流れ図が示されてい
る。概観すると、このアルゴリズムは一度に１単語長ｉで作業をし、長さｉ＝１
のものから始まって１つインクレメントして作業をして行き長さｉ＝ｍとなるま
で進む。長さｍよりも長い単語群については、何も残っていないので、面倒を見
る必要がない。一番短かい残っている単語群ＷＧ［Ｓ，ｋ，ｉ］を見付けると、
このアルゴリズムは次に長い長さで残っている単語群の全部を探索し、それを続
けて、サブストリングとして単語群ＷＧ［Ｓ，ｋ，ｉ］を含んでいる単語群を見
付けるまで進める。この点で、単語群ＷＧ［Ｓ，ｋ，ｉ］の重み付けを対応する
より長い単語群の重み付けに加えてから、ＷＧ［Ｓ，ｋ，ｉ］をナルに設定する
。処理は次の、最短の残っている単語群ＷＧ［Ｓ，ｋ，ｉ］で進行し、処理が長
さｍの単語群に達するまで進み、その点でアルゴリズムが終り、処理すべき残さ
れたより長い単語群がなにもないことになる。

【０１０７】図９および図１０のアルゴリズムは段階９００で始まり、図８のアルゴリズム
（図３の段階３２５）の完了で出力された単語群アレイＷＧ［］と、重み付け
アレイｆ［］と値ｍを輸入する。段階９０２で単語群長変数ｉを初期化した後
に、外側のループが段階９０４で始まって一度に１つの長さｉの単語群を処理し
、それがｉの値をインクレメントすることにより始まり、最初は長さ１の単語群
を解析する。試験が段階９０６で実行されて、現在の長さｉが図８から識別され
た一番長い残っている単語群の長さかどうか判断される。もしそうであれば、も
っと長い単語群は何も残っておらず処理は段階９０８で終る。

【０１０８】段階９０６で、もしもっと長い単語群が残っているとすると、文カウンタＳは
段階９１０で初期化され、また段階９１２では２つのループの第１のものが長さ
ｉの残っている単語群のすべての走査し始め、文カウンタＳをインクレメントす
る。段階９１４では、これが増大した処理効率のために含まれていて、チェック
がされて現在の単語群長ｉが現在選ばれた文Ｓの長さよりも大きいかどうか判断
される。単語群が文Ｓから長さｉで何も見付かりそうもないとすると、この文の
処理は続ける必要はなく、その代りに段階９４６へとんで、次の文がもしあれば
それを選ぶことにする。

【０１０９】段階９１４でもしより長い単語群が文Ｓから可能であるとすると、そのときは
段階９１６で単語位置カウンタｋが初期化されて、段階９１８で走査ループの第
２のものが単語群位置カウンタｋをインクレメントすることにより開始される。
段階９１８に続き特定の単語群要素ＷＧ［Ｓ，ｋ，ｉ］を選ぶと、その要素がナ
ルかどうかチェックがされ（段階９２０）、段階９４４へとんだ処理ではもし要
素がナルであると見付かるときには長さｉの次の単語群アレイ要素を選ぶことに
なる。

【０１１０】もし段階９２０で現在選ばれた単語群がナルでなければ、処理は段階９２２で
始まりサブストリングとしてＷＧ［Ｓ，ｋ，ｉ］を含んでいるものについてのよ
り長い単語群が探査される。段階９２２は単語群長カウンタｊを初期化してＷＧ
［Ｓ，ｋ，ｉ］の長さｉに等しくする。段階９２４では、ｊはインクレメントさ
れて、次のより長い単語群を走査し始め、文カウンタｘが零に初期化される。各
ｊの設定に対して、２つのループがここでは各文ｘから残っている単語群を探索
し、段階９２６で始まって文カウンタｘをインクレメントし、最初は第１の文か
らＷＧ［］アレイ要素を探索し、また単語ポインタｙを初期化する。第２の探
索ループは段階９２８で始まり、単語ポインタｙをインクレメントする。段階９
３０では、現在探索されている単語群要素ＷＧ［ｘ，ｙ，ｊ］がナルについて試
験される。ナルでなければ、段階９３２で単語群ＷＧ［ｘ，ｙ，ｊ］がサブスト
リングとして単語群ＷＧ［Ｓ，Ｋ，ｉ］を含むか否かを判断する。含んでいれば
段階９３４でＷＧ［ｘ，ｙ，ｊ］についての重み付け頻度ｆ［ｘ，ｙ，ｊ］がＷ
Ｇ［Ｓ，ｋ，ｉ］の重み付けｆ［Ｓ，ｋ，ｉ］だけ増加されて、段階９３６では
、単語群ＷＧ［Ｓ，ｋ，ｉ］がそれをナルに設定することにより除去されて、そ
の重み付けが零に減る。処理は次に段階９４４に進んで、もし何か残っていれば
、長さｉの次の単語群を選ぶことになる。

【０１１１】もし段階９３０で現在探索された単語群要素ＷＧ［ｘ，ｙ，ｊ］がナルである
か、もし段階９３２で単語群要素ＷＧ［ｘ，ｙ，ｊ］がサブストリングとしてＷ
Ｇ［Ｓ，Ｋ，ｉ］を含んでいなければ、そのときは探索は長さｊの次の単語群に
、もし何か残っているときには、移動することが段階９３８と９４０を介して行
なわれ、これは上述の図５ないし８のアレイ走査段階と同様のやり方となってい
る。しかし、もし段階９４０に従って長さｊの残っている単語群のすべてが探索
されてしまっているとし、さらに何れもサブストリングとして単語群ＷＧ［Ｓ，
Ｋ，ｉ］を含んでいないことが見付かると、そのときは段階９４２で、試験が行
なわれて、既知の最大単語群長ｍとｊを比較して、より長い単語群が探索されず
に残っているかどうか判断がされる。もしｊがｍに等しければ、そのときはより
長い単語群は探索対象として残ってはおらず、処理は段階９４４に進んで長さｉ
の次の単語群がもし残っていれば上述のように選ぶことになる。もし段階９４２
で別のより長い単語群が探索のために残っていそうであれば、そのときは処理は
段階９２４に戻って上述のように長さ変数ｊをインクレメントする。

【０１１２】段階９４４と９４６は長さｉの各値について単語群アレイの走査を制御するが
これは上述した図５ないし８からの等しいアレイ走査と同じやり方である。図９
および図１０のアルゴリズムが完了すると、キータームの最終組が単語群アレイ
ＷＧ［］内に残り、重み付けアレイｆ［］内の対応する重み付けを備えてい
る。これらのアレイは減算器２３０からの出力を構成できる。

【０１１３】ここでとりあげた例示では、表５の内容について図９および図１０のアルゴリ
ズムを実行した結果は次のようになる。

【０１１４】

【表６】

【０１１５】単語群“ＣｄＥ”，“ＥＦ”及び“Ｐ”は今ではもとの文のキータームとして
識別されていて、図３のキーターム抽出アルゴリズムの段階３３５及び３４５で
適用されることになるオプションの別の規準の対象となる。

【０１１６】図３の残りの段階３３５ないし３５５の実施は詳細には記述しないことにする
が、直截的なやり方で実施できるものである。今とりあげている例でこれらの段
階が実際にどのように適用されるかを示すことに徹すれば十分と思われる。

【０１１７】上の表６の内容で始めると、図３の段階３００ないし３３０の動作の結果から
、段階３３５は予め定めたしきい値を越える長さをもつ残っている単語群を除去
するための拒絶規準を適用する。残っている単語群のうちのいずれもが現在の例
ではこれを基に除去されないことになる。しかし実際には、例えば長さ６以上の
単語群はこの段階で除去されることになる。

【０１１８】段階３４０では、単語群の重み付けは、例えば単語群長によりスケール合せが
されて、重み付けに従って呈示用に種分けされる。今の例示では、ＣｄＥの重み
付けは３により除算され、ＥＦの重み付けは２で除算され、Ｐの重みつけは１で
除算されて、次の順序のキータームのリストとなる： 5.5 ＥＦ 2.33 ＣｄＥ 2 Ｐ段階３４５では、キータームの数が予め定めた規準に従って制限されてよく、
例えばキータームによって行なわれる使用に依存するようにする。好ましいのは
、この段階で除去されることになる何らかの用語があるとすると、そういった用
語が低い方の全体の重み付けから選ぶようにできる。

【０１１９】今の例ではキータームの数を制限する表はなく、３つが一般にオペレータによ
ってもまたデータ管理ツールセットによっても管理されることになる用語の組は
十分に小さいものとなっている。

【０１２０】しかし、キータームのもっと長い組が識別されるときには、何らかの戦略で上
述したものが、単独もしくは組合せて、適用できる。

【０１２１】いったん、キータームの組が選ばれると、同じ用語を除去するためにシソーラ
スもしくは辞書あるいは同様の手段によってそれらが調べられるのが好ましい。

【０１２２】例えば、キータームとして“during the premier’s visit（主演女優の訪問期間中に）”とduring the premier’s trip（主演女優の旅行期間中に）”が戻
ってきたとして、シソーラスはこれらが相等の用語であるとシノニム（同義語）
としてそれらの最終単語の相等性を基に認識することになる。

【０１２３】したがって、キータームのリストが図３の段階３４５により制限されている場
合には、同じようなキータームを識別して拒絶するというこのプロセスは段階３
４５で拒絶された用語が好ましいのは、次の最高重み付けをもつ用語として再び
任に当たることができるようにされるが、反復プロセスは次の用語がリストの内
にすでに含まれているいずれかのキータームに似てはいないことを確保すること
が必要とはされる。

【０１２４】データ組からキーフレーズを抽出する上述の方法は多数の情報管理及び検索ツ
ールにより使用できる。

【０１２５】上述のように、こういったものには、要約、Jasperエージェント及び予見的作
用をもつツールでプロフィル作成技術を使用する他の形態のものを含んでいる。
ツールの他の形態として検索（サーチ）エンジンがある。

【０１２６】現在では、典型的なサーチエンジンはそこに登録されたサイトをサイトオペレ
ータにより調査することによって動作する。

【０１２７】このサーチエンジンは要約もしくはサイトについてのキーワードの組をそのデ
ータベース内に記憶している。ユーザがサーチエンジンにアクセスして材料を探
すときには、サーチエンジンは入力されたサーチ単語をデータベースに対して比
較して、関連のサイトの位置決めをするようにする。

【０１２８】この発明の一つの応用はキーフレーズ（語句）抽出器を使用してサーチエンジ
ンにより調べられるサイトに関するキーワードについてのサーチエンジンデータ
ベースを生成することである。

【０１２９】別の応用は、テキスト要約器での使用である。ここでは、キーフレーズの組が
上述のプロセスにより識別できる。こういったキーフレーズが一度識別されると
、これらのキーフレーズを含んでいる文とパラグラフとがテキストから抽出でき
る。次にこれらの文／パラグラフがそこに含んでいるキーフレーズの数により重
み付けできる。

【０１３０】要約をそこで生成できるが、それはこういった文／パラグラフでしきい値重み
付けを越えるものを再生するか、あるいは最高重み付けの順序で再生して、デー
タ組の予め定めた百分率もしくは単語の順序で予め定めた数が要約内に含まれる
ようになるまで再生をすることによって生成される。

【０１３１】情報管理もしくは検索ツールが、上述したJasperエージエントのような、プロ
フィル形成用技術を使用する場合には、ユーザプロフィルについてのキーターム
、ドキュメントタームマトリックスもしくはキーワード類似性マトリックスが上
述の方法により生成できる。

【図面の簡単な説明】

【図１】この発明の実施例によるキーターム抽出装置を組込んだ情報管理兼検索ツール
セットの模式図。

【図２】好ましいキーターム抽出装置の主要基本部品を示す図。

【図３】この発明の好ましい実施形態によるキーターム抽出方法を示す流れ図。

【図４】特定例に対するキーターム抽出の好ましい方法の応用を示す図。

【図５】図３の段階３１０を実施するための好ましい処理段階を、より詳細に示す流れ
図。

【図６】図３の段階３１５を実施するための好ましい処理段階を、より詳細に示す流れ
図。

【図７】図３の段階３２０を実施するための好ましい処理段階を、より詳細に示す流れ
図。

【図８】図３の段階３２５を実施するための好ましい処理段階を、より詳細に示す流れ
図。

【図９】図３の段階３３０を実施するための好ましい処理段階を、より詳細に示す流れ
図。

【図１０】図９とともに図３の段階３３０を実施するための好ましい処理段階を、より詳
細に示す流れ図。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷＦターム(参考） 5B075 ND03 NK31 PR04 5B091 AA11 CA02

Claims

【特許請求の範囲】

【請求項１】データ組を管理するための装置であって：入力としてデータ組を受領するための入力手段と；前記データ組内部で、いくつかの単語でなるいくつかの単語群を含み、前記デ
ータ組内部で第１の予め定めた分布パターンと適合する第１の組の単語を識別す
るのに適応された手段と、ここで前記単語群内の前記単語は該データ組内で継続
して発生するものであり；いくつかの前記単語群を含み、前記データ組内部で第１の予め定めた分布パタ
ーンと適合する単語のサブセットを、前記第１の組内部で、識別するのに適応さ
れた手段と；前記第１の組から単語の前記サブセットを除去し、それによって前記データ組
の１組のキータームを形成するように適応されている手段と；少くとも１つの前記キータームを出力する出力手段とを有する装置。
【請求項２】前記第１の分布パターンは前記第１の組内の各単語群が前記
データ組内で少くとも２度発生することを求めている請求項１記載の装置。
【請求項３】前記第２の分布パターンは前記サブセット内の各単語群が第
１の組の内のより長い単語群内部で発生する単語もしくは単語のストリングを含
むことを求めている請求項１又は２記載の装置。
【請求項４】前記単語群を修正するための手段を含み、それがある単語群
内の第１の高い値の単語の前に発生する低い値の単語を取り除くように適用され
、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除
くように適用されている請求項１ないし３のいずれか１項記載の装置。
【請求項５】いずれかの単語群内のいずれかの単語を修正するための手段
を含み、それがある単語からステムされた単語を作るためにいずれものプレフィ
ックスを取り除くように適用され、かついずれものサフィックスを取り除くよう
に適用されている請求項１ないし４のいずれか１項記載の装置。
【請求項６】前記ステムされた単語と関係する前記プレフィックスもしく
はサフィックスを記憶するための手段を含み、それによって前記プレフィックス
もしくはサフィックスを前記ステムされた単語に回復可能とする請求項５記載の
装置。
【請求項７】前記第１の組内の前記単語群の各々をどのくらいの頻度で前
記単語群の各々が前記第１の組で発生するかに従って重み付けをするための手段
と、前記第１の組の中の少くとも第１の単語群についての前記重み付けを前記サブ
セット内の第２の単語群の重み付けに比例して修正するための手段と、前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含む請求項
１ないし６のいずれか１項記載の装置。
【請求項８】さらに前記重み付けと少くとも１つの予め定めた規則とに依
り出力用のキータームを選ぶ手段を含む請求項７記載の装置。
【請求項９】１）データ組を入力として受領する段階と；２）前記データ組内部の第１の分布パターンと適合する第１の組の単語を識別
する段階、ただしこの第１の組はいくつかの単語のいくつかの単語群を含んでい
て、前記単語群内の前記単語は該データ組内で継続して発生するものである、と
；３）前記第１の組で単語群のサブセットを識別する段階、ただしこのサブセッ
トは前記データ組内部で第二の分布パターンに適合するものである、と；４）前記第１の組から前記サブセットを除去してそれによりキータームの組を
識別する段階と；５）前記キータームを出力する段階とを含むデータ組を管理する方法。
【請求項１０】前記第１の分布パターンは前記第１の組内の各単語群が前
記データ組内で２度以上発生することを求めている請求項９記載の方法。
【請求項１１】前記第２の分布パターンは前記サブセット内の各単語群が
第１の組の内のより長い単語群内部で発生する単語もしくは単語のストリングを
含むことを求めている請求項９又は１０記載の方法。
【請求項１２】６）ある単語群内の第１の高い値の単語の前に発生する低
い値の単語を取り除き、かつある単語群内の最後の高い値の単語の後に発生する
低い値の単語を取り除く段階を含む請求項９ないし１１のいずれか１項記載の方
法。
【請求項１３】７）いずれかの前記単語群内のいずれかの単語をその単語
のプレフィックスもしくはサフィックスを取り除くことにより修正してステムさ
れた単語を形成する段階を含む請求項９ないし１２のいずれか１項記載の方法。
【請求項１４】８）前記ステムされた単語と関係する前記プレフィックス
もしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフ
ィックスを前記ステムされた単語に回復可能とする段階を含む請求項１３記載の
方法。
【請求項１５】９）前記第１の組内の前記単語群の各々をどのくらいの頻
度で前記単語群の各々が前記第１の組で発生するかに従って重み付けをする段階
と；１０）少くとも第１の単語群の前記重み付けを前記サブセット内の第２の単語
群の重み付けに比例して修正する段階と；１１）前記両重み付けに依存して出力用の前記キータームを選ぶ段階と；を含む請求項９ないし１４のいずれか１項記載の方法。