JP2001524717A - 情報管理及び検索 - Google Patents
情報管理及び検索Info
- Publication number
- JP2001524717A JP2001524717A JP2000522537A JP2000522537A JP2001524717A JP 2001524717 A JP2001524717 A JP 2001524717A JP 2000522537 A JP2000522537 A JP 2000522537A JP 2000522537 A JP2000522537 A JP 2000522537A JP 2001524717 A JP2001524717 A JP 2001524717A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- group
- data set
- terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Communication Control (AREA)
Abstract
Description
データ組内部でのキーデータアイテム(主要データ項目)を識別するための方法
と装置との分野で見出されるものに関する。
ェブ(WWW)は電子形式で利用可能とされる情報資源の量を著しく増大させて
しまった。
個のユーザに対して関心のあるデータ組(例えば雑誌記事、ニュース記事、技術
開示及び他の情報)を位置決めとその識別とである。
もつデータ組を位置決めすることを助ける一つの手段となっている。先を見越し
たツールとかサービスで次にあげる例もまた個個のユーザにとって関心がもたれ
る可能性のある情報を識別するために使用することができる。例は、ニュース群
や、インターネットのwww.pointcast.comで利用可能なPOINTCASTTMシステムとか
JASPERエージェントのようなツール(出願人の未決国際特許出願)PCT/GB96/001
32に詳細されており、この主題は本願でも参考に供するものとする)である。
ードかがこのツールによって位置決めされたいずれものデータ組用にしばしば同
定されて、それによりユーザがこのキーワードの組を調べたり、要約を調べたり
することによりデータ組の主題についての印象を形成できる。
は一般に使用する。キーワードは一般に“and”とか“with”等といった接続詞 及び他のいわゆる低い値の単語、例えば“it”,“are”,“they”など要約用 ツールによって調べられているデータ組の主題の指示になりそうもないすべてを
はぎとって一般に識別されている。
ールによって異なる形式の情報についてのユーザの好みを示す手段としてだんだ
んと、使用されるようになっている。このような技術は“プロフィル形式(prof
iling)”として知られ、このプロフィルはユーザが関心のあるものとしてデー タ組を表示するのに応答してツールにより自動的に生成でき、ユーザは例えばウ
ェブページにブックマーク(しおりをつける)かウェブページからデータをダウ
ンロードして表示を行なう。
用いてユーザのプロフィルに関連性があるデータ組を識別する。JASPERツールで
上記参照済のものはこの目的のためのプロフィル形成用技術を用いるこの種のツ
ールの例である。
のものであり、いくつかの継続している単語で成るキータームを識別するための
手段を開示している。こういったキータームは類似性マトリックス内部で個別の
キーワードとしても使用される。このことが“Information Technology(情報技
術)”とか“World Wide Web(www)”といったターム(用語)を2つもしくは 3つの別個のキーワードとしてではなく、それ自体が正しいものであるタームと
して認識可能としている。
えず、その理由に特定のデータ組についてのキーワードとフレーズを識別するた
めに接続用単語と他の低い値の単語を除去してしまうことがあげられる。この技
術は高い値だけを含む“information technology”のようなフレーズを識別する
にすぎない。しかし、接続語もしばしば文脈情報の大きな役割を与えている。
つの意味をもっている。第1は食物に関係し、第2は人の生命もしくは人の生存
の意味である。同じように、英語では、ターム“bread and water(パンと水) ”もまた食品と関係するとともに、第2の意味として、困難を含意するためによ
く用いられる。
ーワードとフレーズを識別するプロセスの際に除去してしまうものはフレーズ“
bread and butter”と“bread and water”を“bread”,“butter”,“water ”を含むキーワードのリストに減縮してしまう。このようなリストでは困難とか
人の生命という第2の意味は失なわれている。
ットフォードオンエイボン)”といった名称とか、“black and white(黒と白 )”,“on and off(オンとオフ)”といった用語がそれらの構成要素である高
い値の単語に減縮されて、したがってツールにより戻される情報を変更すること
である。
いて、入力としてデータ組を受領するための入力手段と、前記データ組内部で、
いくつかの単語でなるいくつかの単語群を含み、前記データ組内部で第1の予め
定めた分布パターンと適合する第1の組の単語を識別するのに適応された手段と
があり、ここで前記単語群内の前記単語は該データ組内で継続して発生するもの
であって、さらに前記第1の組内部で、いくつかの前記単語群を含み、前記デー
タ組内部で第1の予め定めた分布パターンと適合する単語のサブセットを識別す
るのに適応された手段と、前記第1の組から単語の前記サブセットを除去し、そ
れによって前記データ組の1組のキータームを形成するように適応されている手
段と、少くとも1つの前記キータームを出力する出力手段とを有する装置となっ
ている。
そこには次の段階が含まれている: 1)データ組を入力として受領する段階と; 2)前記データ組内部の第1の分布パターンと適合する第1の組の単語を識別
する段階、ただしこの第1の組はいくつかの単語のいくつかの単語群を含んでい
て、前記単語群内の前記単語は該データ組内で継続して発生するものである、と
; 3)前記第1の組で単語群のサブセットを識別する段階、ただしこのサブセッ
トは前記データ組内部で第二の分布パターンに適合するものである、と; 4)前記第1の組から前記サブセットを除去してそれによりキータームの組を
識別する段階と; 5)前記キータームを出力する段階とを含むデータ組を管理する方法である。
組内部で第1のパターンによりいくつかの単語の単語群の第1の組を識別し、次
にこの第1の組内部から単語群の第2のパターンを識別する。キータームは第2
のパターンとは適合しない第1の組内部のいくつかの単語の群である。
取除かずにキータームが抽出できるようにする。これは接続語や他の値の低い単
語がデータ組内部に保存できて、それにより“on and off”,“bread and wate
r”及び“chief of staff(用員の主任)”といった用語(ターム)がそれ自体 としてキータームとして識別できるようにする。
識別されるようにする。
タ組内で少くとも2度発生することを求めており、また前記第2の分布パターン
は前記サブセット内の各単語群が第1の組の内のより大きな単語群内部で発生す
る単語もしくは単語のストリングを含むことを求めているのがよい。
て、より長いものの中にすでに含まれていたいずれもの単語もしくは語句を取り
除く。例えば、もし文書が“Internet search engines”を1度ならず参照して いるとすると、全体の語句はキータームとなるが、しかし“Internet”と“sear
ch engine”とはそれ自体として取り除かれることになり、単一の語句のように “search”と“engine”であったのと同じになる。
れがある単語群内の第1の高い値の単語の前に発生する低い値の単語を取り除く
ように適用され、かつある単語群内の最後の高い値の単語の後に発生する低い値
の単語を取り除くように適用されていることである。単一の、低い値の単語で成
る単語群というささいな場合は、単語群自体が取り除かれる。
き、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り
除く段階を含む。
戻されて来る単語群の品質を改善する。
頻度で前記単語群の各々が前記第1の組で発生するかに従って重み付けをするた
めの手段と、前記第1の組の中の少くとも第1の単語群についての前記重み付け
を前記サブセット内の第2の単語群の重み付けに比例して修正するための手段と
、前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含むことで
ある。
々が前記第1の組で発生するかに従って重み付けをする段階と; 10)少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語
群の重み付けに比例して修正する段階と; 11)前記両重み付けに依存して出力用の前記キータームを選ぶ段階を含むこ
とである。
を与えている。
1の組から除去された用語が残っている用語の重み付けに影響を与えられるよう
にし、このことで除去された用語がサブストリングを形成する。このようにして
データ組内部でしばしば発生するサブストリングはキータームの識別に適切な影
響を与えることができる。
連をもつとの仮定がされる。
めの手段を含み、それがある単語からステムされた単語を作るためにいずれもの
プレフィックスを取り除くように適用され、かついずれものサフィックスを取り
除くように適用されていることである。
しくはサフィックスを取り除くことにより修正してステムされた単語を形成する
段階。
れるようにし、それによってプレフィックスとサフィックスに依存しない重み付
けが計算できる。
つものが同じ単語の繰返し発生として勘定できる。
クスもしくはサフィックスを記憶するための手段を含み、それによって前記プレ
フィックスもしくはサフィックスを前記ステムされた単語に回復可能とすること
である。
スを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステ
ムされた単語に回復可能とする段階。
の発明の実施形態の出力を形成するキータームの品質を改善する。
。ことに、データ組からキータームを抽出しかつこのようなキータームを使用す
ることが求められているいずれものデータ管理兼検索ツールもこの発明から恩恵
を受けることになる。例えばキータームがデータ管理ツール内部で使用できて、
このツールには文書要約器、プロフィル形成用ツール、探索エンジン及び上述し
たJASPERツールのような予見的なデータ管理ツールがある。
語とか他のいわゆる“低い値の単語(低値語)”をデータ組からはきとらずにで
きる。接続語と低値語とはキータームとフレーズの意味に対して細かい区別立て
(subtlety、微妙なこと)をしばしばもたらす。接続語と低値語とを保持するこ
とにより、こういった細かい区別立ては維持される。これが先行技術のシステム
と比較して抽出されたキータームとフレーズの品質を改善しており、それはキー
タームそれ自体のユーザの認識からもまたこのようなキータームを入力として用
いる他のデータ管理ツールの動作の改良に関係しても言えることである。
のキータームはデータ管理ツールにより使用されるかユーザに直接呈示される。
データ管理ツールはキータームの呈示の品質については時にあまり関心を示さな
い。データ管理ツールは単語の一部を切り落した(ステムした)状態の単語を含
んでいるキータームを、あるいは怪しげな大文字使用(dubious capitalisation
)を有する単語を、ツールの出力にほとんど影響を与えずに受理することができ
る。(注:英語ではBank of England(英蘭銀行)は唯一の機関だが、bank of e
nglandはイングランドのどの銀行でもよい。) しかし、結果がユーザに直接呈示されることになるときには、大きな呈示値(
文書の真の情報内容を示唆している高い値のユーザにとって明白な表現の用語を
意味する)をもつキータームが必要とされる。例えば1つの癖の悪い(rogue) 用語でも、例えば怪しげな大文字使用をしているものも、ツールの出力について
の認識される品質に大きなインパクトを与えることができる。フレーズ(これは
各種の大文字使用と単語の終り方をもって文書内に出現していてよい)がよくフ
ォーマットを整えたものであることが好い。キータームは数が制限されているの
が好く、呈示されているものが確かにユーザにとってより大きな値となるように
する。
て、この主な構成要素はファィルサーバ130上に置かれている。ツールセット
はキーターム抽出器部品100,JASPERエージェント105,ページメモリ11
0,プロフィルメモリ115,テキスト要約器120,網インターフェース12
2及び低値語と省略データベース125を備えている。
する。網145は例えば私的団体の網で例えばインターネットプロトコルを使用
するもの、公衆交換電話網(PSTN)、あるいは公衆データ網であってよい。
網145はルータ148を含んでいてインターネット160へのゲートウェイア
クセスを提供できる。サーバ130上にある情報管理ツールのユーザは網145
上のアクセスを得るのに適当なインターネットビューワ135を用いてそれがで
き、パーソナルコンピュータ上で実行している通常のインターネットブラウザ製
品のように網145に、パーソナルコンピュータ自体もしくはワークステーショ
ンによって用意されているインターフェースで、リンクされる。
網145と、そのルータ148と、インターネットルータ150とを経由してア
クセスを取得できる。インターネットサービスプロバイダサーバ155はインタ
ーネット160上で必要に応じて適当なルータ165を経由してアクセスされる
。
ーフェース140のオペレータがインターネット160を経て情報の位置を決め
られるようにすることもあろう。
いるユーザプロフィルにアクセスして、ユーザにとって関心がありそうなインタ
ーネット160上でアクセス可能な、文書についての夜通しの探索を実行するよ
うにできる。JASPERエージェント105はページメモリ110内に検索した文書
についての情報を記憶する。特定のユーザのプロフィルでプロフィルメモリ11
5から検索したものを用いて、JASPERエージェント105は次にページメモリ1
15をアクセスしてユーザのプロフィルにあるキータームとページメモリ110
内に保存されている文書情報とを比較する。この発明のキーターム抽出器100
は、ユーザプロフィル内で使用するための用語の生成と、文書の関連を測るのに
使用するための検索された文書からのキータームの抽出との両方に応用される。
この実施例のJASPERエージェント105についての詳細は国際特許番号PCT GB96
/00132を参照することとする。
ービスプロバイダのファイルサーバ155からダウンロードされたページを連続
して監視する。キーターム抽出器100はそこでこういったキータームをJASPER
エージェント105のような他のツールに送り、そこでは別な処理が別な動作が
情報管理兼探索ツールセットによりダウンロードされたページに関してとられな
ければならないかどうかを判断する。
かあるいは要約用ツール120によってページメモリ110内で記憶のために選
ばれているページに応答して呼び出されるようにしてよい。
タームを抽出することになるが、これはオペレータの入力とは独立しているのが
よい。
て単純に記憶されて後日ユーザにより使用するようにすることもできる。
る)に送られて、このツールはこういったキータームを使用してユーザのプロフ
ィルもしくは特定の文書用語(ターム)マトリックスあるいはその両方を更新す
ることができるようにしてよい(このプロフィルツールもしくは文書用語マトリ
ックスについての別な情報は国際特許出願番号PCT GB96/00132を参照できる)。
する処理結果)は要約を作成するツール120に送られ、そこには生成された要
約内の一部もしくは全部が含まれることになる。
能ブロックが示されている図である。各機能ブロックは処理の適当な部分を実施
できるもので、この処理は以下に記述する。全体像を見ると、入力200はテキ
ストの部分を含んでいるデータ組を受領して、各データ組に識別器(ID)を割
当て、各データ組をデータメモリ205内に記憶する。文(センテンス)識別器
(ID)210は記憶されたデータ組に作用して含まれているテキストを文(複
数)に分けてこの文を適切にデータメモリ205内に記憶する。第1の組識別器
(ID)215は特定のデータ組と関係している記憶された文から第1の組の単
語群を識別するように働く。第1の組IDは適切な選択規準を第1の組の中へ包
含するための単語群を選ぶために適用する。サブセット識別器(ID)220は
いずれか適切な選択規準を用いて第1の組から単語群のサブセットを識別するよ
うに動作する。文ID210、第1の組ID215、及びサブセットID220
は文カウンタ225と一緒に動作して、特定のデータ組内部で識別された文が必
要に応じて走査できるようにする。減算器230は第1の組ID215から“+
”入力で第1の組を受けまたサブセットID220から対応するサブセットを“
−”入力で受けるようにされている。減算器230は“減算”を実行して受けた
第1の組の単語群から受けたサブセットの単語群を取り除いて一組のキーターム
を作り出して、出力235により出力されるようにすることができる。
することができ、ここでこの管理は少くともその一部があるデータ組内で1度な
らず発生する単語シーケンスに頼っているものであり、またこの単語シーケンス
は1度ならず発生する他のいずれかの単語シーケンスのサブストリングではない
ものとする。このような選択規準は次の例で示すことができる。例えば、大文字
A,B,P,Qなどは単語を表わすために使用され、これらの文字のストリング
で文を表わすために使用されているとする。この例は以下の“文”を使用してお
り、受けたデータ組内部で識別されたものである: ABCDEF−1 PQBCDE−2 BEFCDP−3 CDEBEF−4 これらの文から、単語群の第1の組は上のデータ組の中で複数回発生するとい
う規準に従って選ぶことができる(このプロセスとその実施についてのより詳細
は次に示す): BCDE (文1と2で2度発生している) BEF (文3と4で2度発生している) CDE (文1,2,4で3度発生している) CD (文1,2,3,4で4度発生している) EF (文1,3,4で3度発生している) P (文2と3で2度発生している) これらの組から、次のキータームが上述の第2の規準により第1の組から選ぶ
ことができ、第2の規準は単語群が第1の組内のより長い単語群のサブストリン
グを形成しないというものである: BCDE BEF P しかしここで注意したいのは、サブストリング‘CD’‘CDE’及び‘EF
’はキータームとして含まれてはいないことである。この理由はすべてがより大
きなターム‘BCDE’もしくは‘BEF’のサブストリングであることによる
。しかしながら、もし例えばこのより大きなターム‘BCDE’が1度しか発生
しないとすると、そのときは‘CDE’はキータームとして特徴をもつことにな
る。
の用語を含んでいるとすると: …Jasper agent… …Jasper… …agent… …Jasper agent… …Jasper… …agent… …Jasper… …agent… そのときは‘Jasperエージェント’がキータームとなり(‘tool set including
a Jasper agent’のようなもっと長い用語にサブサム(部分の和)が作られな いことを条件とする)、がしかし、‘Jasper’も‘agent’も単独ではキーター ムとなることはなく、これはどんなに多くの回数これらの用語が出現しても関係
がないとされる。これが3つ全部をキータームとして代表させるのを避けていて
、‘Jasper agent’だけを代表させることによって全部もしくは大部分の情報が
保たれるという仮定に頼るものとなっている。
て、用語‘Jasper agent’についての代表的な重み付けが計算できる。例えば、
もし‘Jasper agent’が頻繁にではなく出現し、また‘agent’が‘Jasper agen
t’と同じような頻度ではあるが用語‘Jasper agent’の方がより大きな頻度で あるとすると、そのときは複合用語‘Jasper agent’はこの認識にあたりデータ
組の他のキータームに対して重み付けをすることができる。
して、それらを例えば受入れるか拒否するか動作するように求めてよく、またイ
ンターフェースがキータームの部分要素を選ぶという機能を提供してもよい。こ
のようなツールは例えばプロフィル形成用ツールであってよく、これが入力した
用語を変更することによるユーザの個人的プロフィルユーザに精製できるように
する。
単語シーケンスに分け目を付けるようにできる。これが可能性のあるキーターム
の長さを制限するのに役立つ。
準を実施してもよいし両方を実施してもよい。好ましいのは単語群が先行するか
後に続く低値語をもたないように選ばれることである。“低値語”には接続詞、
副詞及び何らかの一般的な単語であり、例えばthey,are,it,has,of,in等々
である。
: abCdEF−1 PQbCdE−2 bEFCdP−3 CdEbEF−4 ここで、これらの文から、頭と尾とに低値語をもたないキータームは: CdE 文1と2 EF 文1と3と4 P 文2と3 ここで注意したいのは、‘b’が用語“bCdE”の前から失なわれているが
、中間の‘d’は保存されていることである。したがって“bread and butter”
といった用語と他の接続詞と低値語とを含んでいる用語とはキータームとしてリ
ストされることになる。
る文が2度発生する場合には、上述の方法はキータームとしてそれを含むことに
なるが、文を分割するセンテンススプリッテングとキーターム制限技術が採用さ
れないことを条件としている。
施される段階の好ましいシーケンスを示している。これらの段階は以下に掲示さ
れていて、それらの動作について補足説明が付けてある。 段階300:テキストを入力する。 段階305:データ組を文に分ける。 段階310:各文を1又は複数の単語で成る単語群に分ける。 段階315:各単語群をとって頭と尾にある低値語を取り除く。 段階320:最長単語群を最初にして最短単語群に至る順序で記憶し、次に各単
語のステム(茎切り)をしてケース(大文字か小文字か)を無視する(ステミン
グはプレフィックスとサフィックスを取り除くことを含む既知の技術である)。
各ステムした単語とその取り除かれたプレフィックスとサフィックスとの間の関
係を保存して、後で必要となるときにもとの単語の再生回復を可能とする。 段階325:各単語群に入力テキスト内での発生頻度と等しい初期重み付けを与
えて、重み付け1の全単語群を無視する(換言すれば繰返されない単語群を無視
する)。 段階330:単語群を上方に伝搬する:長さ(すなわち1単語のみの)のターム
で始まり、上方に作用して、候補単語群を含む次に短いタームを見付ける。候補
単語群の重み付けによりこの単語群の重み付けを増し、候補単語群を取り除く。
候補単語群がより長い単語群のサブストリングであることがなくなるまで繰返す
。 段階335:予め選んだ(すなわち構成可能な)最大許容長より長い単語群が残
っていないことをチェックする。このようなより長い単語群が残っていれば、こ
ういった単語群を‘分けられることになっている’リストに加えて、この‘分け
られることになっている’リスト内の単語群に対して上の段階310から繰返す
。この段階の条件が満足されるまで、あるいは最大単語群長がこれ以上減らなく
なるまで繰返す。 段階340:各単語の重み付けをそれが含んでいる単語の数により除算すること
によりスケール合せをし、この単語群を減って行くスケールされた重み付け順序
に従って種分けする。 段階345:これらの単語群から得られたキータームの数を制限する戦略を適用
するとし、とくに最大重み付けをもつものから単語群の適切な数を一般に選ぶよ
うにする。 段階350:単語群がユーザに呈示されることになる場合は、この単語群を‘実
世界(real world)’に戻す写像をする。段階320で、可能性のある単語群が
ステムされ、ケース(大文字か小文字かを示す)情報が無視されて一番広幅の可
能な概念上同等の単語群の組を一つの中立な代表形式に写像する。逆写像は大文
字化と単語の終結部とを再生回復する。
リングとして識別される第1のインスタンスでのリストから取り除かれることで
ある。リストの最頂部に向う全体で各サブストリングを伝搬し、かつ候補ターム
がサブストリングとなっている各単語群の重み付けを増加することは可能である
。このプロセスはキータームを重み付けする代替手段として使用されるのが好ま
しい。しかし、保存されるタームの結果を変更はしない。アルゴリズム詳細 図3と図4とを参照するとして、上のアルゴリズムでの選ばれた段階が図4に
示したようなテキストを用いる特定の例を参照して記述されることになる。段階305 :フルストップでの文の分割−省略での分割をしないように注意する
。段階300での受理に続いて、入力テキストが次の文に分けられる(400)
:(省略データベース125がこの目的で使用できる) This is wholemeal bread and butter. It uses salted butter. Salted butter is good. Bread and butter is mainly bread.段階310 :単語群を識別する−ステージ1処理410はキータームエンジン4
70の制御下にあり、エンジン470はキーターム抽出器100の機能部品とし
て実現されているのがよく、この処理410は入力テキスト400内で識別され
た文から1つまたは複数の単語で成る単語群を識別することにより始められる。
ステミングをする前に単語群(420)は次のように識別される。
1処理410はステミングを含むことができて、プレフィックスとサフィックス
とをある単語群内の単語から取り除き、それによって各単語を中立の表現形式に
減縮するようにできる。例えば、ステミングは“surfing the net”,“surf th
e net”及び“surfs the net”というフレーズを1つの代表的なフレーズ“surf
the net”と減縮する。好ましいのは、プレフィックスとサフィックスとがこの
中立形式と関係付けて記憶されて、段階350で再構築できるようにすることで
ある。
に)大文字で始まる必要がある単語と、それを必要としない単語(例えば文の始
めにある単語)とを識別する。大部分のアクロニム(頭文字)は他の省略と同じ
ように大文字を含んでいる。こういった大文字使用を必要とする単語を識別する
ことはこういった単語を段階350によりこの形式で呈示されるようにする。 段階325:ステージ1処理410はまた初期重み付けを識別された単語群に割
当ててステージ1出力を完成させて、次のようにする: 1 bread and butter is mainly bread 1 wholemeal bread and butter 1 butter is mainly bread 2 bread and butter 1 wholemeal bread 2 salted butter 2 bread 1 wholemeal 4 butter 2 salted ステージ2処理430はキータームエンジン470の制御の下にあって、重み
付け1のすべての単語群をステージ1出力420から取り除いて、ステージ2出
力440として単語群の次の組を残す: 2 bread and butter 2 salted butter 2 bread 4 butter 2 salted段階330 :ステージ処理450もまたキータームエンジン470の制御下にあ
って、単語群を上方に伝搬し、サブストリングタームを取り除いて、次のような
キータームの出力460を結果する: 4 bread and butter (もとの2+‘bread’からの2) 8 salted butter (もとの2+‘salted’からの2と’bread’からの
4) 用語‘bread and butter’からの値は‘butter’からの値‘4’だけ増えてい
ないが、その理由は現在の方法が言うところは‘butter’が上方へ伝搬するのは
2単語用語である‘salted butter’までであり、以後はそれが無視されるから であり、言い換えると、より長い単語群のサブストリングとして識別される最初
の瞬間に単一用語‘butter’が無視されることによる。
単語群の重み付けはこのような長い方の単語群の1つについての重み付けに加え
ることだけができるのであり、短い方の単語群を含むこのような長い方の単語群
の全ての単語群の重み付けに加えられない。ここで記述した方法では一番短い長
い方の単語群の重み付けだけをそこに含まれている単語群の重み付けに比例して
修正している。これが段落325の例であり、ステージ2で残っている単語群が
長さが短くなる順序とされている。単語“butter”(重み付け4)を採り、リス
トを上へ見ていくと第1のすなわち一番短い単語群で“butter”を含むものは“
salted butter”である。一度“butter”からの重み付けが“salted butter”内
に吸収されてしまうと、もうリストの上には続いて行けず、また“bread and bu
tter”に加えられることもできない。しかし、もし、例えば“bread and butter
”の代わりに一番上位の単語群が“bread and salted butter”であるとすると そのときは“salted”(2)と“butter”(4)の重み付けを“salted butter ”の重み付け(2)に加えて合計で8とした後に、“salted butter”(8)の 合計の重み付けが、次に“bread and salted butter”の重み付けに(“bread”
の重み付け(2)と一緒に)加えられて、“salted butter”もまた取除かれて 2つではなく、1つの単語群だけが残ることになる。段階335 :長い単語群についての可能な分割。この例では必要としないが、通
常の最大単語群長は約5もしくは約6語となる。しかし、この例では、もし最大
受理可能単語群長が2と設定されていたとすると、“bread and butter”を分割
するために段階310に戻る必要があることになる。
になり、ステージ3処理450で始まる:
ることにはなりそうもない群の中心に向っている単語を見付けることである。好
ましい戦略は最初に(接続詞が)離節的な(disjunctive)性質をもつ単語を探 すことである:例えば‘but’と‘or’を‘and’とか‘of’のような接続的用語
を考慮する前に探す。
、長い単語群と接続語で単語群の分割をすることという妥協を採用することが可
能である。例えば、接続語をそのままとしておくことは1つもしくは2つの単語
により単語群の長さを増大させるだけであり、この場合には長い単語群を保存す
るのが価値があることになる。段階340 :(上述の“非分割”単語群すなわち最大長6の単語群に立ち戻り)
、単語群はその長さ、すなわち単語群内の単語群の数によってスケール合せがさ
れる。これは次の結果を生む: 1.33 bread and butter (4割る3) 4.0 salted butter (8割る2) これらの用語をスケールを合わせた重み付けで種分けすると結果は: 4.0 salted butter 1.33 bread and butter この段階が含まれるのは、作られたキータームの信頼性を強化するために観測
を介して見付けられたことであるによる。より長い用語が受取られてよいとする
追加の重み付けに対する補償をするために、正規化が作用していると信じられて
いる。この妥協は好ましいものとされ、全部ではないにしても若干のより長い用
語は短い用語よりもデータ組の主題についてのより集中した情報を含んでいてよ
いからである。また、逆に、全部ではないとしても若干の短い用語は若干の長い
用語よりもデータ組の主題についてもっと集中した情報を含んでいてよい。段階345 :キータームとして呈示される単語群の数を制限すること。この段階
に対しては、広範囲の文書に対するキータームについての制限された数を作ると
いう一組の戦略を備えることが好ましい。次のような戦略が単独であるいは何ら
かの組合せで使用できる。
計の重み付けのうちの構成可能な割合に上昇するまで、継続する用語を表示する
。この場合には次のような式となり: Σ(表示された重み付け)<=Σ(全重み付け)/1.5 例えば次のような得点: 4 3 3 2 1 1 1 で最初の3つの用語だけが表示される。ここで式の中で第2のタームについての
分母1.5は良い結果をもたらすことが見付かっている。1よりも大きな他の値
を使うこともできる。
示する。この終結式は例えば: (重み付け)(i+1)<=(重み付け)(i)/2 例えば次のような得点: 4 3 3 1 1 1 1 で最初の3つの用語だけが表示される。この式の中で第2のタームについての分
母2は良い結果をもたらすことが見付かっている。
るまで継続する用語を表示する。この終結式は例えば: (重み付け)(i)<=(重み付け)(1)/3 例えば次の得点: 4 3 3 1 1 1 1 で最初の3つの用語だけが表示されることになる。
等しい重み付けの用語の完全なブロックを含めるために必要な場合にはその数を
越えられるとする。値7が有用であると見付けられていて、その理由はあるデー
タ組に対して7つのキータームを用意することによる。例えば次のような得点で
最初の7つの用語が表示される: 10 8 7 6 6 5 5 5 5 4 4 ・単一単語の用語をとくに取扱い、単一単語の用語が構成可能な位置にあるい
はその後で出て来るときには継続する用語の表示を中継する。値3が有用である
と見付けられている。次の例では複数の数がいずれもの用語の中で単語の数を表
している。用語は重み付けによりランク付けされている。例えば次の組では最初
の4つの用語だけがその重み付けとは無関係に表示されることになる: 1 3 4 3 1 2 4 ・上記の制限とは無関係に最小数を表示するが、等しい重み付けの用語につい
ての完全なブロックを含む必要があるときはその数を越えてもよい。値2が有用
であることが見付かっている。例えば、次の得点では最初の4つの用語が表示さ
れる: 5 2 2 2 1 1段階350 :もとの形式に用語を戻す写像−これは段階320から続くもので、
単語を単語のステムした状態もしくはオペレータに呈示できる形式に戻す変更し
た大文字使用とするプロセスである。
った用語を次のように写像させることになる: Surf the net 適当な記録が取り除かれたプレフィックスとサフィックスについて保存された
とすると、段階350はステムしたフレーズを表示用の単一の代表的なフレーズ
に戻す写像をしてよく、この表示には大文字小文字の差を解決することとどの終
りを適用するかを選ぶこととを含んでいる。ここでセンスのある(賢い)選択は
次のようになってよい: Surfing the net 一般的な場合では、これは2段階で達成され、大文字,小文字の解決すること
とプレフィックス/サフィックス再構築とである。大文字小文字の解決(case resolution) :一般に、小文字が好ましいが文の最 初の文字が大文字である場合を除く。この場合はケース情報が信頼性がないと考
えられる(これ以外の単語もまた何がしかの大文字を有していないことを条件と
する)。サフィックス再構築 :一組の経験的に決められた規則が適用される。最初にリス
トが作られ、テキスト内で発生している特定の単語の終結部のすべてについてリ
ストされる。この情報は前もって段階320で記憶されるようにできる。もし複
数の終結部が存在すると、次の表2にリストした規則が整合が見付かるまで継続
して適用される。
一つ)が取上げられてよい。
て、上述の要約例を用いて詳細を示すこととするが、ここでは文字が単語を表わ
しているとする。図3のプロセスの中の主要段階についての好ましい実施が詳細
に記述され、こういった段階を応用することの効果を示すために要約例を用いて
いる。
データベース125を参照しかつ必要に応じて句読点についての標準的な規則を
用いて分を識別している。段階305からの出力はこの例示では次の識別された
文を上のように与えている: abCdEF PQbCdE bEFCdP CdEbEF この例で使用された文はも、簡単のために同じ長さとしているが、図3の方法
と以下に記述する特定の実施とは一般的な場合であって文が異なる長さのもので
もよい場合に動作するように設計されている。
: abCdEF bCdEF CdEF dEF EF F abCdE bCdE CdE dE E abCd bCd Cd d abC bC C ab b ab 単語群の長さが減って行く順序に編成すると次のリストとなる: abCdEF abCdE bCdEF abCd bCdE CdEF abC bCd CdE dEF ab bC Cd dE EF a b C d E F 加えて図5を参照すると、流れ図が与えられていて、識別された文を単語群に
分割する好ましいアルゴリズムを示していて、これは図3の段階310を実施し
ている。この文分割アルゴリズムは上に示したのと同じような単語群のアレイを
生成し、各単語群はアレイ変数“WG[S,k,i]”の要素の中に含まれてい
て、ここで“S”はある文を識別する数であり、“k”は文S内部の単語の位置
であってこの位置で単語群が始まるところであり、また“i”は単語群の長さで
ある。上の例では、文1“abCdEF”については、S=1とWG[1,1,
1]=‘a’,WG[1,1,2]=‘ab’,WG[1,2,1]=‘b’,
WG[1,2,2]=‘bc’,及びWG[1,2,3]=‘bCd’である。
図5のアルゴリズムはまた関数“WS(S,i)”を用いて文Sのi番目の単語
を戻している。上の例の文1についてはWS(1,1)=‘a’,でWS(1,
4)=‘d’である。
ンタSを零に初期化する。このアレイは予期される最大入力テキストを収容でき
る大きさであると仮定されている。
5から識別された第一の文を選び、単語位置カウンタkを零に初期化する。段階
510で、文Sが入力される。段階515で単語位置カウンタがインクレメント
され、最初は文Sの第一の単語の点にであり、そして単語群長“i”が零に初期
化される。単語群長“i”が段階520でインクレメントされ、そして段階52
5では長さi−1の先に構築された単語群を用い、文Sの単語位置kで始まって
新しい単語群が構築され、(WG[S,k,0]はSとkとのすべての値に対し
てナル(零)であると仮定されている)。そこには次に続く単語が文中でその文
に添付されていて単語位置i+k−1で始まっている。関数“WS(S,i)”
は文S内で単語位置iに単語を戻す。段階530では、試験が実行されて、文S
からもっと長い単語群を構築するのに使用するためにいずれかの単語が残ってい
るかどうかの検出が実行され、単語位置kから始まって、文Sの長さの知識を用
いてそれが行われる。文の終りに到達していなければ、処理は段階520に戻り
、単語群長iをインクレメントする。しかし、文の終りに到達していれば、段階
535で単語位置カウンタkが文Sの最終単語を指しているかどうかを試験が判
断する。否であれば処理は段階515に戻り、文S内の新しい単語群についての
単語位置が1つだけ進んで、長さ変数iが上のように零にリセットされる。しか
しもし、文の終りが段階535で到達していなければ、段階540で最終文が処
理されたかどうかを試験が判断する。否であれば処理は段階505に戻り、次の
識別された文が選ばれる。もし段階540で全ての文が処理されていれば、この
アルゴリズムと、したがって図3の段階310とは完了し、全ての可能性のある
単語群についてのアレイWG[ ]は段階305から識別された文から構築され
たことになる。
示すように表3内の文の順序で配列された以下の単語群を作り出す。
べてが識別されて、単語群アレイWG[ ]内に読取られている。次の段階は図
3の方法の段階315であり、これは“低い値”の単語を各単語群の始めと終り
から取り除くことであり、低い値の単語(低値語)は‘is’,‘it’,‘are’ ,‘they’,‘and’などのような単語であり、キータームが抽出される対象の データ組(例えばテキスト)の主題を反映する傾向をもたないものであり、とく
にこういった単語が単語群内の先頭と後尾の位置で出現する場合に行なわれる。
低値語は定値語と省略のデータベース125を参照して識別されてよい。
にした流れ図が用意されている。このアルゴリズムは次のような基礎の上にあっ
て動作する。すなわち、単語群アレイの中に含まれているようになっている可能
性のあるすべての単語群について、先頭もしくは後尾の低値語を備えたものも備
えていないものもある単語群を含めて、低値語を取り除くことが他の単語群の1
つで誤りを生じさせ易い複製物を単に生じさせるだけであるということである。
したがって、単語群から先頭と後尾の低値語を実際に取り除くのではなく、図6
のアルゴリズムはWG[ ]アレイから先頭もしくは後尾の単語をもつすべての
単語群を適当なアレイ要素をナル(零)に設定することによって単に除去するこ
ととする。この結果は先頭と後尾の低値語なしに可能とされる単語群のすべてを
含んでいるようなアレイとなる。
(段階310)から生じた単語群アレイを輸入することによって始まる。段階6
05で文カウンタSを初期化した後に、このアルゴリズムは3つのネストされた
解析ループを実行してWG[ ]アレイの全部の要素を走査する。外側のループ
は段階610で始まり文カウンタをインクレメントし、最初は第一の識別された
文を選び、単語群長iを初期化する。段階615では、中間ループの開始があり
、単語群長がインクレメントされ、最初に長さ1をもつ単語群アレイ要素を選び
、また単語位置カウンタkが初期化される。段階620では、内側ループが開始
され、単語位置カウンタkがインクレメントされ、最初に文S内で第1の単語で
始まる長さiの単語群を選ぶ。段階625は選ばれた単語群WG[S,k,i]
内のいずれかの先頭の低値語を求めて試験を行なう。なにも見付からなければ段
階630でいずれかの後尾の低値語が探される。もしなにも見付からなければそ
の単語群が保存されて、処理は次の単語群要素に移動して、上述の段階530と
同じやり方で段階640により処理される。もし先頭もしくは後尾のどちらかの
低値語が選ばれた単語群WG[S,k,i]の中で段階625または630でそ
れぞれ見付かるときには、段階635でその単語群要素がナル(零)に設定され
て、このアレイから特定の単語群が除去されて、処理は段階640に進む。図5
の段階530のように、段階640は長さiの別な単語群が単語位置kで始まる
文Sから文Sの長さの知識を用いて出て行ったかどうかを判断する。もしいずれ
かが残っていれば、そのときは内側ループ上の処理が段階620へ戻り、そこで
は単語位置カウンタkがインクレメントされる。段階640で何も残っていなけ
れば、次に段階645が単語群長iが今では現在の文Sの長さに等しいかどうか
、すなわちiよりも大きい長さの単語群が存在しえないことを判断する。文Sの
長さに等しくなければ中間ループ上の処理は段階615に戻り、そこで長さ変数
iがインクレメントされて、次に長い単語群が解析できるようになる。一番長い
単語群が段階645で今度は解析されてから、段階650では最終文についての
試験がされる。もし文Sが最終でなければ、外側ループ上の処理は段階610に
戻り、そうでなければアルゴリズムは段階655で終り、先頭と後尾の低値語を
もつ単語群が単語群アレイから除去されてしまう。
る単語群を重要でもないのに含んでいるものは除去されていて、表中ではブラン
クの空間として示されている。
を並べまた単語ステミング(stemming)を実施することである。記述されている
特殊例では、長さによる単語群の順序付けは単語群アレイWG[ ]の本質が与
えられると、表示目的で必要とされる場合を除いて、特に必要とはされない。単
語ステミングは単語からのプレフィックスとサフィックスとの取り除きである。
例えば、ステミングのプロセスは単語群“surfing the net”と“surfs the net
”を同じ単語群すなわち“surf the net”に減縮することである。これは両サフ
ィックス“ing”と“s”とをそれぞれ単語“surf”の2つの発生から取り除くこ
とである。
レフィックスもしくはサフィックスで取り除かれたものとの間の関係を記録する
ための好ましいアルゴリズムを示すために用意された流れ図である。好ましいの
は、実際に、図6と図7のアルゴリズムが組合せされることである。単語群のア
レイを走査する方法は2つのアルゴリズムの間で同一である。図7のアルゴリズ
ムは図6のアルゴリズム(段階315)の動作から生じた単語群アレイを輸入す
ることにより段階700で始まる。段階705で文カウンタSを初期化すること
により、アルゴリズムは3つのネストされた解析ループを実行してWG[ ]ア
レイの要素のすべてを走査することは図6と同じであり、それぞれ段階710,
715,720で始まり対応しているループの終り試験はそれぞれ段階765,
760,755である。図7のアルゴリズムの内側走査ループ内部での処理は、
単語カウンタxを初期化した後、段階725で始まり、選ばれた単語群アレイ要
素WG[S,k,i]がナル(零)に設定されていないことをチェックすること
を伴う。もしそれがナルであると、処理は段階755での内側ループの終り試験
まで直ちにとばして、単語群要素の別の処理はしない。もし段階725で、選ば
れた単語群がナルでなければ、そのときには、段階730で単語カウンタxがイ
ンクレメントされ、最初に選ばれた単語群の第1の単語を指すようにする。段階
735は選ばれた単語x内のプレフィックスとサフィックスの一方または両方に
ついての試験がされる。もし何も検出されなければ、段階750で単語カウンタ
が選ばれた単語群長iと比較されて、その単語群の最終の単語が処理されている
かどうか判断する。もし単語が文S内で処理されずに残っていると、そのときは
処理は段階730に戻って単語ポインタxをインクレメントして単語群の次の単
語を選ぶようにする。もし段階735でいずれかのプレフィックスもしくはサフ
ィックスが見付かると、そのときは段階740でそれが取り除かれて、段階74
5では記録が作られて、取り除かれたプレフィックスもしくはサフィックスを結
果として生じたステムした単語と関係付けがされ、後の回復を可能とする。そこ
で処理は上述のように段階750に続く。
理されているときは、内側のアレイ走査ループ試験が段階755に到達して、単
語群アレイの残りのものが図6のアルゴリズムと同じように走査される。
の結果を示すようにすることは不可能である。
、入力データ組のテキスト内に一度だけしか発生しない単語群を除去することで
ある。この段階で指定される重み付けはそのデータ組内での単語群の発生の頻度
に等しいのが好い。しかし他の尺度をこの段階で適用して単語群を重み付けし、
単語群の除去のためのしきい値を設定するようにしてもよい。段階325と図8
の以下のアルゴリズムとは好ましいキーターム抽出器100の第1組識別器21
5の動作における段階を完結することができる。
生しない単語群を除去するための好ましいアルゴリズムを示すために流れ図が呈
示されている。図8のアルゴリズムは進行の際に、アレイからの特定の単語群の
二重発生を除去して、完了の際に各個別の単語群の単一発生がアレイ内に残り、
その重み付けの関係する記録を伴うようにしている。重み付けはアレイf[S,
k,i]内に記録されていて、単語群アレイWG[S,k,i]の各可能な対応
する要素について一要素となっている。図8のアルゴリズムはまた、後の使用の
ために、一番長い残っている単語群を変数“m”を用いて識別する。概略を述べ
ると、図8のアルゴリズムは単語群アレイWG[ ]を図6,7のアルゴリズム
と同じやり方で走査することにより動作する。図5の走査は他と少し違っている 。内側の走査用ループで特定の単語群要素WG[S,k,i]を選び、かつナル
でないように設定したものの内部で、同じ長さiをもつ残っている単語群、すな
わち同じ文内でより大きなkの値をもち、かつ後の文だけの中にあるものが整合
する単語群についてチェックされる。整合が見付かった各々について、単語群W
G[S,k,i]の重み付けがインクレメントされて、整合用単語群がナルに設
定されて、重複するものが取り除かれる。
ぶ技術を意味している。図6ないし8の各流れ図では、3つのネストされたルー
プがあって、内側ループ、中間ループ、および外側ループがある。図6について
は、内側ループが段階620ないし640で成り、中間ループが段階615ない
し645、また外側ループが段階610ないし650で成る。同じようなネスト
されたループが図7と図8の各図中のアルゴリズムに対して使用されている。解
くに図8では対応するループは内側が段階808ないし836、中間が段階80
6ないし838、または外側が段階804ないし840である。
は中間ループが解析されている単語群で長さ(i)のものを設定し、内側ループ
は文S内部の異なる可能な単語位置(k)の全てで始まる組の長さ(i)の単語
群を処理するように働く。単語長(i)は次に中間ループにより進み(i+1)
、文(S)の処理がその異なる可能な長さの全ての文内で可能とされる単語群が
解析されてしまうまで進行する。外側ループは次に次の文を選んで同じ解析をそ
の文について実行する。
ており、内側ループ内部で選ばれた単語群について実行される処理段階が違って
いてもそうしている。
]を輸入する事によって始まる。段階802では、重み付けアレイf[ ]の各要素が零に初期化され、最大単語群長変数mと文カウンタSとについても
同様である。図5ないし7と同様にWG[ ]は3つのループで走査され、図8
の段階804,806,808でそれぞれ始まり、対応するループの終り試験を
段階840,838,836にそれぞれ備えている。段階808で特定の単語群
要素WG[S,k,i]を選ぶと、ナルについてのチェックが段階810で行な
われる。選ばれた要素がナルであれば、次の単語群要素が、もしあれば、ループ
の終り(エンドオブループ)段階836を経て選ばれる。
812はこの要素に対する対応した重み付けを単位値に設定して2つの別な走査
用変数x,yを初期化する。変数xは文カウンタであり、現在及び後の文中の同
じ長さの単語群がWG[S,k,i]と整合するかについてチェックできるよう
にする。変数yは単語位置カウンタであり、kと等価なものである。変数xとy
とが初期化されて、Sとkとの現在値がそれぞれ段階812により初期化される
。段階814では、チェックがされて、長さiの別な可能な単語群を求めて現在
の文x内で行なわれ、位置yよりも後の単語位置で始まる。もし何か残っていれ
ば、そのときは段階816でyが次の単語群のポイントまでインクレメントされ
る。もし段階818で、次の単語群がナルであれば、そのときは処理は段階81
4に戻って、同じ長さの別な単語群を探す。
た単語群WG[S,k,i]とされる。もし整合が見付からないと、処理は段階
814に戻って、上のように、別の単語群を探す。しかし、段階820で整合が
見付かると、段階822で単語群WG[S,k,i]の重み付けがインクレメン
トされて、整合用単語群要素WG[x,y,i]がナルに設定され、カウントが
されて、重複を除去するようにする。処理はそこで段階814に戻り、上のよう
に同じ長さの別な単語群を探す。
、そのときは段階824で判断がされて、最後の文が整合用単語群について探さ
れたか、探されていないかについて決められる。もし探されることになる文が残
っていれば、段階826で文カウンタxがインクレメントされて、単語位置カウ
ンタyがリセットされ、次の文内で長さiのすべての単語群が探索される。もし
段階824で最後の文が探索されたときには、段階828で累積された重み付け
f[x,y,i]で単語群WG[x,y,i]についてのものがチェックされる
。これが単位値(1)よりも大きいときには、単語群は保存されて、段階832
と834とがmという値がこれまでに見付かった保存されている最長単語群を記
録することを確実としてから段階836に進む。もし段階828で、単語群WG
[x,y,i]がデータ組内で1度だけしか発生していなければ、そのときはナ
ルに設定され、それと関係する重み付けが零に設定される。処理は段階836に
進んで、図6のアルゴリズムに関して上述したところにより、単語群アレイの走
査を続ける。
単語群アレイWG[ ]は入力データ組内で1度ならず発生した各個別の単語群
についての単一エントリィを含んでいて、各々は重み付けアレイf[ ]内に記
録された対応する重み付けを備えている。単語群アレイと対応する重み付けアレ
イとは第1の組識別器215により生成された第1の組を構成できる。この好ま
しいアルゴリズムはまた一番長い生き延びている単語群の長さの記録を変数mと
して生み出してもいて、これが主として次のアルゴリズムでプロセスの効率を高
めるために使用される。
ように生まれていて、対応する重み付けで“W”と示した欄に示したものを備え
ている。
ングを形成する残っている単語群を除去し、こういったより長い単語群の対応す
る重み付けを含んでいた除去されたサブストリングの重み付けだけ増す。この段
階はサブセット識別器220の選択規準の一部として実施することができる。こ
の段階を達成するための処理は段階325からの残っている一番短い単語群によ
って始めて、単語群階層構造を通って上方に進み、すべてのより短いサブストリ
ング単語群が除去されるまで進んで達成される。
単語群の重み付けを増すための好ましいアルゴリズムを示す流れ図が示されてい
る。概観すると、このアルゴリズムは一度に1単語長iで作業をし、長さi=1
のものから始まって1つインクレメントして作業をして行き長さi=mとなるま
で進む。長さmよりも長い単語群については、何も残っていないので、面倒を見
る必要がない。一番短かい残っている単語群WG[S,k,i]を見付けると、
このアルゴリズムは次に長い長さで残っている単語群の全部を探索し、それを続
けて、サブストリングとして単語群WG[S,k,i]を含んでいる単語群を見
付けるまで進める。この点で、単語群WG[S,k,i]の重み付けを対応する
より長い単語群の重み付けに加えてから、WG[S,k,i]をナルに設定する
。処理は次の、最短の残っている単語群WG[S,k,i]で進行し、処理が長
さmの単語群に達するまで進み、その点でアルゴリズムが終り、処理すべき残さ
れたより長い単語群がなにもないことになる。
(図3の段階325)の完了で出力された単語群アレイWG[ ]と、重み付け
アレイf[ ]と値mを輸入する。段階902で単語群長変数iを初期化した後
に、外側のループが段階904で始まって一度に1つの長さiの単語群を処理し
、それがiの値をインクレメントすることにより始まり、最初は長さ1の単語群
を解析する。試験が段階906で実行されて、現在の長さiが図8から識別され
た一番長い残っている単語群の長さかどうか判断される。もしそうであれば、も
っと長い単語群は何も残っておらず処理は段階908で終る。
段階910で初期化され、また段階912では2つのループの第1のものが長さ
iの残っている単語群のすべての走査し始め、文カウンタSをインクレメントす
る。段階914では、これが増大した処理効率のために含まれていて、チェック
がされて現在の単語群長iが現在選ばれた文Sの長さよりも大きいかどうか判断
される。単語群が文Sから長さiで何も見付かりそうもないとすると、この文の
処理は続ける必要はなく、その代りに段階946へとんで、次の文がもしあれば
それを選ぶことにする。
段階916で単語位置カウンタkが初期化されて、段階918で走査ループの第
2のものが単語群位置カウンタkをインクレメントすることにより開始される。
段階918に続き特定の単語群要素WG[S,k,i]を選ぶと、その要素がナ
ルかどうかチェックがされ(段階920)、段階944へとんだ処理ではもし要
素がナルであると見付かるときには長さiの次の単語群アレイ要素を選ぶことに
なる。
始まりサブストリングとしてWG[S,k,i]を含んでいるものについてのよ
り長い単語群が探査される。段階922は単語群長カウンタjを初期化してWG
[S,k,i]の長さiに等しくする。段階924では、jはインクレメントさ
れて、次のより長い単語群を走査し始め、文カウンタxが零に初期化される。各
jの設定に対して、2つのループがここでは各文xから残っている単語群を探索
し、段階926で始まって文カウンタxをインクレメントし、最初は第1の文か
らWG[ ]アレイ要素を探索し、また単語ポインタyを初期化する。第2の探
索ループは段階928で始まり、単語ポインタyをインクレメントする。段階9
30では、現在探索されている単語群要素WG[x,y,j]がナルについて試
験される。ナルでなければ、段階932で単語群WG[x,y,j]がサブスト
リングとして単語群WG[S,K,i]を含むか否かを判断する。含んでいれば
段階934でWG[x,y,j]についての重み付け頻度f[x,y,j]がW
G[S,k,i]の重み付けf[S,k,i]だけ増加されて、段階936では
、単語群WG[S,k,i]がそれをナルに設定することにより除去されて、そ
の重み付けが零に減る。処理は次に段階944に進んで、もし何か残っていれば
、長さiの次の単語群を選ぶことになる。
か、もし段階932で単語群要素WG[x,y,j]がサブストリングとしてW
G[S,K,i]を含んでいなければ、そのときは探索は長さjの次の単語群に
、もし何か残っているときには、移動することが段階938と940を介して行
なわれ、これは上述の図5ないし8のアレイ走査段階と同様のやり方となってい
る。しかし、もし段階940に従って長さjの残っている単語群のすべてが探索
されてしまっているとし、さらに何れもサブストリングとして単語群WG[S,
K,i]を含んでいないことが見付かると、そのときは段階942で、試験が行
なわれて、既知の最大単語群長mとjを比較して、より長い単語群が探索されず
に残っているかどうか判断がされる。もしjがmに等しければ、そのときはより
長い単語群は探索対象として残ってはおらず、処理は段階944に進んで長さi
の次の単語群がもし残っていれば上述のように選ぶことになる。もし段階942
で別のより長い単語群が探索のために残っていそうであれば、そのときは処理は
段階924に戻って上述のように長さ変数jをインクレメントする。
これは上述した図5ないし8からの等しいアレイ走査と同じやり方である。図9
および図10のアルゴリズムが完了すると、キータームの最終組が単語群アレイ
WG[ ]内に残り、重み付けアレイf[ ]内の対応する重み付けを備えてい
る。これらのアレイは減算器230からの出力を構成できる。
ズムを実行した結果は次のようになる。
識別されていて、図3のキーターム抽出アルゴリズムの段階335及び345で
適用されることになるオプションの別の規準の対象となる。
が、直截的なやり方で実施できるものである。今とりあげている例でこれらの段
階が実際にどのように適用されるかを示すことに徹すれば十分と思われる。
、段階335は予め定めたしきい値を越える長さをもつ残っている単語群を除去
するための拒絶規準を適用する。残っている単語群のうちのいずれもが現在の例
ではこれを基に除去されないことになる。しかし実際には、例えば長さ6以上の
単語群はこの段階で除去されることになる。
されて、重み付けに従って呈示用に種分けされる。今の例示では、CdEの重み
付けは3により除算され、EFの重み付けは2で除算され、Pの重みつけは1で
除算されて、次の順序のキータームのリストとなる: 5.5 EF 2.33 CdE 2 P 段階345では、キータームの数が予め定めた規準に従って制限されてよく、
例えばキータームによって行なわれる使用に依存するようにする。好ましいのは
、この段階で除去されることになる何らかの用語があるとすると、そういった用
語が低い方の全体の重み付けから選ぶようにできる。
ってもまたデータ管理ツールセットによっても管理されることになる用語の組は
十分に小さいものとなっている。
述したものが、単独もしくは組合せて、適用できる。
スもしくは辞書あるいは同様の手段によってそれらが調べられるのが好ましい。
ってきたとして、シソーラスはこれらが相等の用語であるとシノニム(同義語)
としてそれらの最終単語の相等性を基に認識することになる。
合には、同じようなキータームを識別して拒絶するというこのプロセスは段階3
45で拒絶された用語が好ましいのは、次の最高重み付けをもつ用語として再び
任に当たることができるようにされるが、反復プロセスは次の用語がリストの内
にすでに含まれているいずれかのキータームに似てはいないことを確保すること
が必要とはされる。
ールにより使用できる。
用をもつツールでプロフィル作成技術を使用する他の形態のものを含んでいる。
ツールの他の形態として検索(サーチ)エンジンがある。
ータにより調査することによって動作する。
ータベース内に記憶している。ユーザがサーチエンジンにアクセスして材料を探
すときには、サーチエンジンは入力されたサーチ単語をデータベースに対して比
較して、関連のサイトの位置決めをするようにする。
ンにより調べられるサイトに関するキーワードについてのサーチエンジンデータ
ベースを生成することである。
上述のプロセスにより識別できる。こういったキーフレーズが一度識別されると
、これらのキーフレーズを含んでいる文とパラグラフとがテキストから抽出でき
る。次にこれらの文/パラグラフがそこに含んでいるキーフレーズの数により重
み付けできる。
付けを越えるものを再生するか、あるいは最高重み付けの順序で再生して、デー
タ組の予め定めた百分率もしくは単語の順序で予め定めた数が要約内に含まれる
ようになるまで再生をすることによって生成される。
フィル形成用技術を使用する場合には、ユーザプロフィルについてのキーターム
、ドキュメントタームマトリックスもしくはキーワード類似性マトリックスが上
述の方法により生成できる。
セットの模式図。
図。
図。
図。
図。
図。
細に示す流れ図。
Claims (15)
- 【請求項1】 データ組を管理するための装置であって: 入力としてデータ組を受領するための入力手段と; 前記データ組内部で、いくつかの単語でなるいくつかの単語群を含み、前記デ
ータ組内部で第1の予め定めた分布パターンと適合する第1の組の単語を識別す
るのに適応された手段と、ここで前記単語群内の前記単語は該データ組内で継続
して発生するものであり; いくつかの前記単語群を含み、前記データ組内部で第1の予め定めた分布パタ
ーンと適合する単語のサブセットを、前記第1の組内部で、識別するのに適応さ
れた手段と; 前記第1の組から単語の前記サブセットを除去し、それによって前記データ組
の1組のキータームを形成するように適応されている手段と; 少くとも1つの前記キータームを出力する出力手段とを有する装置。 - 【請求項2】 前記第1の分布パターンは前記第1の組内の各単語群が前記
データ組内で少くとも2度発生することを求めている請求項1記載の装置。 - 【請求項3】 前記第2の分布パターンは前記サブセット内の各単語群が第
1の組の内のより長い単語群内部で発生する単語もしくは単語のストリングを含
むことを求めている請求項1又は2記載の装置。 - 【請求項4】 前記単語群を修正するための手段を含み、それがある単語群
内の第1の高い値の単語の前に発生する低い値の単語を取り除くように適用され
、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除
くように適用されている請求項1ないし3のいずれか1項記載の装置。 - 【請求項5】 いずれかの単語群内のいずれかの単語を修正するための手段
を含み、それがある単語からステムされた単語を作るためにいずれものプレフィ
ックスを取り除くように適用され、かついずれものサフィックスを取り除くよう
に適用されている請求項1ないし4のいずれか1項記載の装置。 - 【請求項6】 前記ステムされた単語と関係する前記プレフィックスもしく
はサフィックスを記憶するための手段を含み、それによって前記プレフィックス
もしくはサフィックスを前記ステムされた単語に回復可能とする請求項5記載の
装置。 - 【請求項7】 前記第1の組内の前記単語群の各々をどのくらいの頻度で前
記単語群の各々が前記第1の組で発生するかに従って重み付けをするための手段
と、 前記第1の組の中の少くとも第1の単語群についての前記重み付けを前記サブ
セット内の第2の単語群の重み付けに比例して修正するための手段と、 前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含む請求項
1ないし6のいずれか1項記載の装置。 - 【請求項8】 さらに前記重み付けと少くとも1つの予め定めた規則とに依
り出力用のキータームを選ぶ手段を含む請求項7記載の装置。 - 【請求項9】 1)データ組を入力として受領する段階と; 2)前記データ組内部の第1の分布パターンと適合する第1の組の単語を識別
する段階、ただしこの第1の組はいくつかの単語のいくつかの単語群を含んでい
て、前記単語群内の前記単語は該データ組内で継続して発生するものである、と
; 3)前記第1の組で単語群のサブセットを識別する段階、ただしこのサブセッ
トは前記データ組内部で第二の分布パターンに適合するものである、と; 4)前記第1の組から前記サブセットを除去してそれによりキータームの組を
識別する段階と; 5)前記キータームを出力する段階とを含むデータ組を管理する方法。 - 【請求項10】 前記第1の分布パターンは前記第1の組内の各単語群が前
記データ組内で2度以上発生することを求めている請求項9記載の方法。 - 【請求項11】 前記第2の分布パターンは前記サブセット内の各単語群が
第1の組の内のより長い単語群内部で発生する単語もしくは単語のストリングを
含むことを求めている請求項9又は10記載の方法。 - 【請求項12】 6)ある単語群内の第1の高い値の単語の前に発生する低
い値の単語を取り除き、かつある単語群内の最後の高い値の単語の後に発生する
低い値の単語を取り除く段階を含む請求項9ないし11のいずれか1項記載の方
法。 - 【請求項13】 7)いずれかの前記単語群内のいずれかの単語をその単語
のプレフィックスもしくはサフィックスを取り除くことにより修正してステムさ
れた単語を形成する段階を含む請求項9ないし12のいずれか1項記載の方法。 - 【請求項14】 8)前記ステムされた単語と関係する前記プレフィックス
もしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフ
ィックスを前記ステムされた単語に回復可能とする段階を含む請求項13記載の
方法。 - 【請求項15】 9)前記第1の組内の前記単語群の各々をどのくらいの頻
度で前記単語群の各々が前記第1の組で発生するかに従って重み付けをする段階
と; 10)少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語
群の重み付けに比例して修正する段階と; 11)前記両重み付けに依存して出力用の前記キータームを選ぶ段階と; を含む請求項9ないし14のいずれか1項記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97309446 | 1997-11-24 | ||
EP97309446.9 | 1997-11-24 | ||
PCT/GB1998/003468 WO1999027469A1 (en) | 1997-11-24 | 1998-11-18 | Information management and retrieval |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001524717A true JP2001524717A (ja) | 2001-12-04 |
JP4467791B2 JP4467791B2 (ja) | 2010-05-26 |
Family
ID=8229632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000522537A Expired - Lifetime JP4467791B2 (ja) | 1997-11-24 | 1998-11-18 | 情報管理及び検索 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6338057B1 (ja) |
EP (1) | EP1032896B1 (ja) |
JP (1) | JP4467791B2 (ja) |
AU (1) | AU746743B2 (ja) |
CA (1) | CA2309499C (ja) |
DE (1) | DE69804495T2 (ja) |
ES (1) | ES2175813T3 (ja) |
NZ (1) | NZ504304A (ja) |
WO (1) | WO1999027469A1 (ja) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7447626B2 (en) * | 1998-09-28 | 2008-11-04 | Udico Holdings | Method and apparatus for generating a language independent document abstract |
US7505974B2 (en) * | 1999-02-12 | 2009-03-17 | Gropper Robert L | Auto update utility for digital address books |
US6883000B1 (en) * | 1999-02-12 | 2005-04-19 | Robert L. Gropper | Business card and contact management system |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US20090307577A1 (en) * | 2001-08-28 | 2009-12-10 | Lee Eugene M | System for providing a binding cost for foreign filing a patent application |
US6678678B2 (en) * | 2000-03-09 | 2004-01-13 | Braodcom Corporation | Method and apparatus for high speed table search |
US6728701B1 (en) * | 2000-04-18 | 2004-04-27 | Claritech Corporation | Method and apparatus for database retrieval utilizing vector optimization |
DE10057634C2 (de) * | 2000-11-21 | 2003-01-30 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit |
US7047420B2 (en) * | 2001-01-17 | 2006-05-16 | Microsoft Corporation | Exclusive encryption |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7043637B2 (en) | 2001-03-21 | 2006-05-09 | Microsoft Corporation | On-disk file format for a serverless distributed file system |
US6981138B2 (en) | 2001-03-26 | 2005-12-27 | Microsoft Corporation | Encrypted key cache |
US7062490B2 (en) * | 2001-03-26 | 2006-06-13 | Microsoft Corporation | Serverless distributed file system |
EP1258815B1 (en) * | 2001-05-16 | 2004-10-06 | Exentis | A process for extracting keywords |
US6988124B2 (en) | 2001-06-06 | 2006-01-17 | Microsoft Corporation | Locating potentially identical objects across multiple computers based on stochastic partitioning of workload |
US7478431B1 (en) * | 2002-08-02 | 2009-01-13 | Symantec Corporation | Heuristic detection of computer viruses |
US7024526B2 (en) * | 2002-10-31 | 2006-04-04 | Hitachi, Ltd. | Apparatus and method of null data skip remote copy |
US6917936B2 (en) * | 2002-12-18 | 2005-07-12 | Xerox Corporation | Method and apparatus for measuring similarity between documents |
US20050086234A1 (en) * | 2003-10-15 | 2005-04-21 | Sierra Wireless, Inc., A Canadian Corporation | Incremental search of keyword strings |
US20050114317A1 (en) * | 2003-11-26 | 2005-05-26 | Bhide Manish A. | Ordering of web search results |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US20060074900A1 (en) * | 2004-09-30 | 2006-04-06 | Nanavati Amit A | Selecting keywords representative of a document |
TWI269193B (en) * | 2004-10-01 | 2006-12-21 | Inventec Corp | Keyword sector-index data-searching method and it system |
US7761286B1 (en) * | 2005-04-29 | 2010-07-20 | The United States Of America As Represented By The Director, National Security Agency | Natural language database searching using morphological query term expansion |
JP4772378B2 (ja) * | 2005-05-26 | 2011-09-14 | 株式会社東芝 | Webページから時系列データを生成する方法及び装置 |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US20080071783A1 (en) * | 2006-07-03 | 2008-03-20 | Benjamin Langmead | System, Apparatus, And Methods For Pattern Matching |
US8015175B2 (en) * | 2007-03-16 | 2011-09-06 | John Fairweather | Language independent stemming |
US8812508B2 (en) * | 2007-12-14 | 2014-08-19 | Hewlett-Packard Development Company, L.P. | Systems and methods for extracting phases from text |
GB2456369A (en) | 2008-01-11 | 2009-07-15 | Ibm | String pattern analysis for word or genome analysis |
US8311795B2 (en) * | 2008-01-11 | 2012-11-13 | International Business Machines Corporation | String pattern conceptualization from detection of related concepts by analyzing substrings with common prefixes and suffixes |
US8661422B2 (en) * | 2008-02-08 | 2014-02-25 | Reservoir Labs, Inc. | Methods and apparatus for local memory compaction |
US9858053B2 (en) | 2008-02-08 | 2018-01-02 | Reservoir Labs, Inc. | Methods and apparatus for data transfer optimization |
US8572590B2 (en) * | 2008-09-17 | 2013-10-29 | Reservoir Labs, Inc. | Methods and apparatus for joint parallelism and locality optimization in source code compilation |
US8930926B2 (en) * | 2008-02-08 | 2015-01-06 | Reservoir Labs, Inc. | System, methods and apparatus for program optimization for multi-threaded processor architectures |
US8688619B1 (en) | 2009-03-09 | 2014-04-01 | Reservoir Labs | Systems, methods and apparatus for distributed decision processing |
US9185020B2 (en) * | 2009-04-30 | 2015-11-10 | Reservoir Labs, Inc. | System, apparatus and methods to implement high-speed network analyzers |
US8805840B1 (en) * | 2010-03-23 | 2014-08-12 | Firstrain, Inc. | Classification of documents |
US8892483B1 (en) | 2010-06-01 | 2014-11-18 | Reservoir Labs, Inc. | Systems and methods for planning a solution to a dynamically changing problem |
US8914601B1 (en) | 2010-10-18 | 2014-12-16 | Reservoir Labs, Inc. | Systems and methods for a fast interconnect table |
US9134976B1 (en) | 2010-12-13 | 2015-09-15 | Reservoir Labs, Inc. | Cross-format analysis of software systems |
JP5768492B2 (ja) * | 2011-05-18 | 2015-08-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US8468145B2 (en) | 2011-09-16 | 2013-06-18 | Google Inc. | Indexing of URLs with fragments |
US8438155B1 (en) * | 2011-09-19 | 2013-05-07 | Google Inc. | Impressions-weighted coverage monitoring for search results |
US9489180B1 (en) | 2011-11-18 | 2016-11-08 | Reservoir Labs, Inc. | Methods and apparatus for joint scheduling and layout optimization to enable multi-level vectorization |
US9830133B1 (en) | 2011-12-12 | 2017-11-28 | Significs And Elements, Llc | Methods and apparatus for automatic communication optimizations in a compiler based on a polyhedral representation |
US9710266B2 (en) | 2012-03-15 | 2017-07-18 | International Business Machines Corporation | Instruction to compute the distance to a specified memory boundary |
US9454367B2 (en) | 2012-03-15 | 2016-09-27 | International Business Machines Corporation | Finding the length of a set of character data having a termination character |
US9268566B2 (en) | 2012-03-15 | 2016-02-23 | International Business Machines Corporation | Character data match determination by loading registers at most up to memory block boundary and comparing |
US9280347B2 (en) | 2012-03-15 | 2016-03-08 | International Business Machines Corporation | Transforming non-contiguous instruction specifiers to contiguous instruction specifiers |
US9459864B2 (en) * | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Vector string range compare |
US9454366B2 (en) | 2012-03-15 | 2016-09-27 | International Business Machines Corporation | Copying character data having a termination character from one memory location to another |
US9588762B2 (en) * | 2012-03-15 | 2017-03-07 | International Business Machines Corporation | Vector find element not equal instruction |
US9715383B2 (en) * | 2012-03-15 | 2017-07-25 | International Business Machines Corporation | Vector find element equal instruction |
US9459868B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Instruction to load data up to a dynamically determined memory boundary |
US9459867B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Instruction to load data up to a specified memory boundary indicated by the instruction |
US9798588B1 (en) | 2012-04-25 | 2017-10-24 | Significs And Elements, Llc | Efficient packet forwarding using cyber-security aware policies |
US10936569B1 (en) | 2012-05-18 | 2021-03-02 | Reservoir Labs, Inc. | Efficient and scalable computations with sparse tensors |
US9684865B1 (en) | 2012-06-05 | 2017-06-20 | Significs And Elements, Llc | System and method for configuration of an ensemble solver |
CN107330124A (zh) * | 2013-03-11 | 2017-11-07 | 曹华诚 | 内容推荐方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4342085A (en) * | 1979-01-05 | 1982-07-27 | International Business Machines Corporation | Stem processing for data reduction in a dictionary storage file |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5940624A (en) * | 1991-02-01 | 1999-08-17 | Wang Laboratories, Inc. | Text management system |
JPH05324726A (ja) * | 1992-05-25 | 1993-12-07 | Fujitsu Ltd | 文書データ分類装置及び文書分類機能構築装置 |
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
US6081804A (en) * | 1994-03-09 | 2000-06-27 | Novell, Inc. | Method and apparatus for performing rapid and multi-dimensional word searches |
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5931907A (en) * | 1996-01-23 | 1999-08-03 | British Telecommunications Public Limited Company | Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information |
US5987446A (en) * | 1996-11-12 | 1999-11-16 | U.S. West, Inc. | Searching large collections of text using multiple search engines concurrently |
US5774888A (en) * | 1996-12-30 | 1998-06-30 | Intel Corporation | Method for characterizing a document set using evaluation surrogates |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US6044376A (en) * | 1997-04-24 | 2000-03-28 | Imgis, Inc. | Content stream analysis |
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
-
1998
- 1998-11-18 CA CA002309499A patent/CA2309499C/en not_active Expired - Fee Related
- 1998-11-18 EP EP98954628A patent/EP1032896B1/en not_active Expired - Lifetime
- 1998-11-18 US US09/194,944 patent/US6338057B1/en not_active Expired - Lifetime
- 1998-11-18 AU AU11678/99A patent/AU746743B2/en not_active Ceased
- 1998-11-18 ES ES98954628T patent/ES2175813T3/es not_active Expired - Lifetime
- 1998-11-18 WO PCT/GB1998/003468 patent/WO1999027469A1/en active IP Right Grant
- 1998-11-18 NZ NZ504304A patent/NZ504304A/en unknown
- 1998-11-18 DE DE69804495T patent/DE69804495T2/de not_active Expired - Lifetime
- 1998-11-18 JP JP2000522537A patent/JP4467791B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
AU746743B2 (en) | 2002-05-02 |
CA2309499A1 (en) | 1999-06-03 |
EP1032896A1 (en) | 2000-09-06 |
ES2175813T3 (es) | 2002-11-16 |
EP1032896B1 (en) | 2002-03-27 |
WO1999027469A1 (en) | 1999-06-03 |
NZ504304A (en) | 2002-03-01 |
JP4467791B2 (ja) | 2010-05-26 |
DE69804495D1 (de) | 2002-05-02 |
AU1167899A (en) | 1999-06-15 |
CA2309499C (en) | 2007-06-19 |
DE69804495T2 (de) | 2002-10-31 |
US6338057B1 (en) | 2002-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4467791B2 (ja) | 情報管理及び検索 | |
JP3270783B2 (ja) | 複数の文書検索方法 | |
JP5740029B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
JP3195752B2 (ja) | 検索装置 | |
US6654717B2 (en) | Multi-language document search and retrieval system | |
US5940624A (en) | Text management system | |
JP2001519952A (ja) | データ要約装置 | |
JP2005182817A (ja) | クエリレコグナイザ | |
JP3198932B2 (ja) | 文書検索装置 | |
JP2004334766A (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004192546A (ja) | 情報検索方法、装置、プログラム、および記録媒体 | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JPH064584A (ja) | 文章検索装置 | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
JP2004506960A (ja) | 蓋然論マッチング・エンジン | |
JP2008203997A (ja) | 文書検索装置及びプログラム | |
EP0592402B1 (en) | A text management system | |
JP3161660B2 (ja) | キーワード検索方法 | |
JP3438947B2 (ja) | 情報検索装置 | |
KR19990084950A (ko) | 역화일을 이용한 데이터 부분검색 장치 및 그 방법 | |
JPH11259487A (ja) | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 | |
JPH10105578A (ja) | 点数を利用した類似単語検索方法 | |
EP1258815B1 (en) | A process for extracting keywords |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081219 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090330 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091211 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100224 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |