JP2001524717A - 情報管理及び検索 - Google Patents

情報管理及び検索

Info

Publication number
JP2001524717A
JP2001524717A JP2000522537A JP2000522537A JP2001524717A JP 2001524717 A JP2001524717 A JP 2001524717A JP 2000522537 A JP2000522537 A JP 2000522537A JP 2000522537 A JP2000522537 A JP 2000522537A JP 2001524717 A JP2001524717 A JP 2001524717A
Authority
JP
Japan
Prior art keywords
words
word
group
data set
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000522537A
Other languages
English (en)
Other versions
JP4467791B2 (ja
Inventor
ウイークス、リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2001524717A publication Critical patent/JP2001524717A/ja
Application granted granted Critical
Publication of JP4467791B2 publication Critical patent/JP4467791B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Communication Control (AREA)

Abstract

(57)【要約】 データ組からキータームを抽出するための方法と装置が提供されている。この方法はデータ組の中で複数回発生したいくつかの単語でなるいくつかの単語群の第1の組を識別し、この第1の組から第1の組の中のより長い単語群のサブストリングである単語群の第2の組を取り除く段階を含む。残った単語群がキータームである。各単語群はデータ組内部で発生の頻度により重み付けされている。いずれも単語群の重み付けは第2の組の中で発生するいずれかの単語のサブストリングの頻度によって増大されてよく、次に各重み付けをその単語群内の単語数によって除算する。この重み付けプロセスは単語群の発生順序を決めるように働く。プレフィックス(接頭辞)とサフィックス(接尾辞)ともまたデータ組内の各単語から取り除かれる。これが各単語の中立(ニュートラル)形式を作って、重み付け値がプレフィックスとサフィックスから独立したものとなっている。

Description

【発明の詳細な説明】
【0001】 発明の属する技術分野 この発明は、データ管理と検索用の方法と装置との分野に属し、特別な応用が
データ組内部でのキーデータアイテム(主要データ項目)を識別するための方法
と装置との分野で見出されるものに関する。
【0002】 従来の技術 近年の技術の進歩、なかでもCD-ROM、イントラネット、及びワールドワイドウ
ェブ(WWW)は電子形式で利用可能とされる情報資源の量を著しく増大させて
しまった。
【0003】 発明が解決しようとする課題 こういった増大する情報資源が関係する一つの問題はこういったシステムの個
個のユーザに対して関心のあるデータ組(例えば雑誌記事、ニュース記事、技術
開示及び他の情報)を位置決めとその識別とである。
【0004】 情報検索ツールで探索エンジンとかウェブ案内といったものはユーザが関心を
もつデータ組を位置決めすることを助ける一つの手段となっている。先を見越し
たツールとかサービスで次にあげる例もまた個個のユーザにとって関心がもたれ
る可能性のある情報を識別するために使用することができる。例は、ニュース群
や、インターネットのwww.pointcast.comで利用可能なPOINTCASTTMシステムとか
JASPERエージェントのようなツール(出願人の未決国際特許出願)PCT/GB96/001
32に詳細されており、この主題は本願でも参考に供するものとする)である。
【0005】 この様な情報検索兼管理ツールが実効をあげるためには、要約が一組のキーワ
ードかがこのツールによって位置決めされたいずれものデータ組用にしばしば同
定されて、それによりユーザがこのキーワードの組を調べたり、要約を調べたり
することによりデータ組の主題についての印象を形成できる。
【0006】 要約を生成する手段としてデータ組内部で発生するキーワードを要約用ツール
は一般に使用する。キーワードは一般に“and”とか“with”等といった接続詞 及び他のいわゆる低い値の単語、例えば“it”,“are”,“they”など要約用 ツールによって調べられているデータ組の主題の指示になりそうもないすべてを
はぎとって一般に識別されている。
【0007】 また、キーワード(単語)とキーフレーズ(語句)とはまた情報検索と管理ツ
ールによって異なる形式の情報についてのユーザの好みを示す手段としてだんだ
んと、使用されるようになっている。このような技術は“プロフィル形式(prof
iling)”として知られ、このプロフィルはユーザが関心のあるものとしてデー タ組を表示するのに応答してツールにより自動的に生成でき、ユーザは例えばウ
ェブページにブックマーク(しおりをつける)かウェブページからデータをダウ
ンロードして表示を行なう。
【0008】 最新のプロフィル形成用ツールもまた類似性マトリックスとクラスタ化技法を
用いてユーザのプロフィルに関連性があるデータ組を識別する。JASPERツールで
上記参照済のものはこの目的のためのプロフィル形成用技術を用いるこの種のツ
ールの例である。
【0009】 出願人の未決欧州特許出願、番号EP97306878.6には、ここで参照している主題
のものであり、いくつかの継続している単語で成るキータームを識別するための
手段を開示している。こういったキータームは類似性マトリックス内部で個別の
キーワードとしても使用される。このことが“Information Technology(情報技
術)”とか“World Wide Web(www)”といったターム(用語)を2つもしくは 3つの別個のキーワードとしてではなく、それ自体が正しいものであるタームと
して認識可能としている。
【0010】 しかし、こういったキーワードとフレーズを識別するための技術は最適とは言
えず、その理由に特定のデータ組についてのキーワードとフレーズを識別するた
めに接続用単語と他の低い値の単語を除去してしまうことがあげられる。この技
術は高い値だけを含む“information technology”のようなフレーズを識別する
にすぎない。しかし、接続語もしばしば文脈情報の大きな役割を与えている。
【0011】 例えば英語では、“bread and butter(パンとバター)”というフレーズは2
つの意味をもっている。第1は食物に関係し、第2は人の生命もしくは人の生存
の意味である。同じように、英語では、ターム“bread and water(パンと水) ”もまた食品と関係するとともに、第2の意味として、困難を含意するためによ
く用いられる。
【0012】 情報検索もしくは管理ツールですべての接続単語をテキストのブロック内でキ
ーワードとフレーズを識別するプロセスの際に除去してしまうものはフレーズ“
bread and butter”と“bread and water”を“bread”,“butter”,“water ”を含むキーワードのリストに減縮してしまう。このようなリストでは困難とか
人の生命という第2の意味は失なわれている。
【0013】 別な問題は“Bank of England(英蘭銀行)”,“Stratford on Avon(ストラ
ットフォードオンエイボン)”といった名称とか、“black and white(黒と白 )”,“on and off(オンとオフ)”といった用語がそれらの構成要素である高
い値の単語に減縮されて、したがってツールにより戻される情報を変更すること
である。
【0014】 課題を解決するための手段 この発明の第1の特徴によると、データ組を管理するための装置が提供されて
いて、入力としてデータ組を受領するための入力手段と、前記データ組内部で、
いくつかの単語でなるいくつかの単語群を含み、前記データ組内部で第1の予め
定めた分布パターンと適合する第1の組の単語を識別するのに適応された手段と
があり、ここで前記単語群内の前記単語は該データ組内で継続して発生するもの
であって、さらに前記第1の組内部で、いくつかの前記単語群を含み、前記デー
タ組内部で第1の予め定めた分布パターンと適合する単語のサブセットを識別す
るのに適応された手段と、前記第1の組から単語の前記サブセットを除去し、そ
れによって前記データ組の1組のキータームを形成するように適応されている手
段と、少くとも1つの前記キータームを出力する出力手段とを有する装置となっ
ている。
【0015】 この発明の第2の特徴によると、データ組を管理する方法が提供されていて、
そこには次の段階が含まれている: 1)データ組を入力として受領する段階と; 2)前記データ組内部の第1の分布パターンと適合する第1の組の単語を識別
する段階、ただしこの第1の組はいくつかの単語のいくつかの単語群を含んでい
て、前記単語群内の前記単語は該データ組内で継続して発生するものである、と
; 3)前記第1の組で単語群のサブセットを識別する段階、ただしこのサブセッ
トは前記データ組内部で第二の分布パターンに適合するものである、と; 4)前記第1の組から前記サブセットを除去してそれによりキータームの組を
識別する段階と; 5)前記キータームを出力する段階とを含むデータ組を管理する方法である。
【0016】 発明の実施の形態 このように、この発明の実施の形態は、受領したデータ組内部で、そのデータ
組内部で第1のパターンによりいくつかの単語の単語群の第1の組を識別し、次
にこの第1の組内部から単語群の第2のパターンを識別する。キータームは第2
のパターンとは適合しない第1の組内部のいくつかの単語の群である。
【0017】 データ組内部で、単語群のパターンを識別するというやり方は低い値の単語を
取除かずにキータームが抽出できるようにする。これは接続語や他の値の低い単
語がデータ組内部に保存できて、それにより“on and off”,“bread and wate
r”及び“chief of staff(用員の主任)”といった用語(ターム)がそれ自体 としてキータームとして識別できるようにする。
【0018】 これが抽出されたキータームの品質を改善し、また任意の長さのキータームが
識別されるようにする。
【0019】 好ましいのは前記第1の分布パターンは前記第1の組内の各単語群が前記デー
タ組内で少くとも2度発生することを求めており、また前記第2の分布パターン
は前記サブセット内の各単語群が第1の組の内のより大きな単語群内部で発生す
る単語もしくは単語のストリングを含むことを求めているのがよい。
【0020】 こうしてこの発明の実施態様はいずれもの繰返された単語と語句とを拾い出し
て、より長いものの中にすでに含まれていたいずれもの単語もしくは語句を取り
除く。例えば、もし文書が“Internet search engines”を1度ならず参照して いるとすると、全体の語句はキータームとなるが、しかし“Internet”と“sear
ch engine”とはそれ自体として取り除かれることになり、単一の語句のように “search”と“engine”であったのと同じになる。
【0021】 好ましいのは、前記第1の特徴が前記単語群を修正するための手段を含み、そ
れがある単語群内の第1の高い値の単語の前に発生する低い値の単語を取り除く
ように適用され、かつある単語群内の最後の高い値の単語の後に発生する低い値
の単語を取り除くように適用されていることである。単一の、低い値の単語で成
る単語群というささいな場合は、単語群自体が取り除かれる。
【0022】 好ましいのは第2の特徴が次の段階を含むことである: 6)ある単語群内の第1の高い値の単語の前に発生する低い値の単語を取り除
き、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り
除く段階を含む。
【0023】 単語群の前後から低い値の単語を取り除くことは、キーターム抽出器によって
戻されて来る単語群の品質を改善する。
【0024】 好ましいのは第1の特徴が前記第1の組内の前記単語群の各々をどのくらいの
頻度で前記単語群の各々が前記第1の組で発生するかに従って重み付けをするた
めの手段と、前記第1の組の中の少くとも第1の単語群についての前記重み付け
を前記サブセット内の第2の単語群の重み付けに比例して修正するための手段と
、前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含むことで
ある。
【0025】 好ましいのは、第2の特徴が次の段階を含むことである: 9)前記第1の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各
々が前記第1の組で発生するかに従って重み付けをする段階と; 10)少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語
群の重み付けに比例して修正する段階と; 11)前記両重み付けに依存して出力用の前記キータームを選ぶ段階を含むこ
とである。
【0026】 この発生頻度による単語群の重み付けは識別されたキータームの順序付け機構
を与えている。
【0027】 サブセット内の用語(ターム)の重み付けによる重み付けを修正することは第
1の組から除去された用語が残っている用語の重み付けに影響を与えられるよう
にし、このことで除去された用語がサブストリングを形成する。このようにして
データ組内部でしばしば発生するサブストリングはキータームの識別に適切な影
響を与えることができる。
【0028】 こういった最も頻繁に発生するキータームがそのデータ組の情報内容に最も関
連をもつとの仮定がされる。
【0029】 好ましいのは第1の特徴がいずれかの単語群内のいずれかの単語を修正するた
めの手段を含み、それがある単語からステムされた単語を作るためにいずれもの
プレフィックスを取り除くように適用され、かついずれものサフィックスを取り
除くように適用されていることである。
【0030】 好ましいのは第二の特徴が次の段階を含むことである: 7)いずれかの前記単語群内のいずれかの単語をその単語のプレフィックスも
しくはサフィックスを取り除くことにより修正してステムされた単語を形成する
段階。
【0031】 プレフィックスとサフィックスとを取り除くことは各単語が中立形式に減縮さ
れるようにし、それによってプレフィックスとサフィックスに依存しない重み付
けが計算できる。
【0032】 こうして繰返しはされるが異なるプレフィックス及び/又はサフィックスをも
つものが同じ単語の繰返し発生として勘定できる。
【0033】 好ましいのは第1の特徴が、前記ステムされた単語と関係する前記プレフィッ
クスもしくはサフィックスを記憶するための手段を含み、それによって前記プレ
フィックスもしくはサフィックスを前記ステムされた単語に回復可能とすること
である。
【0034】 好ましいのは、第2の段階が次の段階を含むことである: 8)前記ステムされた単語と関係する前記プレフィックスもしくはサフィック
スを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステ
ムされた単語に回復可能とする段階。
【0035】 ステムされた単語に対してプレフィックスとサフィックスを回復することはこ
の発明の実施形態の出力を形成するキータームの品質を改善する。
【0036】 実施例 この発明の実施例を添付図面を参照して例として記述して行く。
【0037】 この発明はデータ管理及び検索ツールの分野で特に価値があるものと思われる
。ことに、データ組からキータームを抽出しかつこのようなキータームを使用す
ることが求められているいずれものデータ管理兼検索ツールもこの発明から恩恵
を受けることになる。例えばキータームがデータ管理ツール内部で使用できて、
このツールには文書要約器、プロフィル形成用ツール、探索エンジン及び上述し
たJASPERツールのような予見的なデータ管理ツールがある。
【0038】 一つの特殊応用では、この発明はキータームをデータ組から抽出するのに接続
語とか他のいわゆる“低い値の単語(低値語)”をデータ組からはきとらずにで
きる。接続語と低値語とはキータームとフレーズの意味に対して細かい区別立て
(subtlety、微妙なこと)をしばしばもたらす。接続語と低値語とを保持するこ
とにより、こういった細かい区別立ては維持される。これが先行技術のシステム
と比較して抽出されたキータームとフレーズの品質を改善しており、それはキー
タームそれ自体のユーザの認識からもまたこのようなキータームを入力として用
いる他のデータ管理ツールの動作の改良に関係しても言えることである。
【0039】 一般に、自動的に抽出されたキータームは2つの主なやり方で使用できる。こ
のキータームはデータ管理ツールにより使用されるかユーザに直接呈示される。
データ管理ツールはキータームの呈示の品質については時にあまり関心を示さな
い。データ管理ツールは単語の一部を切り落した(ステムした)状態の単語を含
んでいるキータームを、あるいは怪しげな大文字使用(dubious capitalisation
)を有する単語を、ツールの出力にほとんど影響を与えずに受理することができ
る。(注:英語ではBank of England(英蘭銀行)は唯一の機関だが、bank of e
nglandはイングランドのどの銀行でもよい。) しかし、結果がユーザに直接呈示されることになるときには、大きな呈示値(
文書の真の情報内容を示唆している高い値のユーザにとって明白な表現の用語を
意味する)をもつキータームが必要とされる。例えば1つの癖の悪い(rogue) 用語でも、例えば怪しげな大文字使用をしているものも、ツールの出力について
の認識される品質に大きなインパクトを与えることができる。フレーズ(これは
各種の大文字使用と単語の終り方をもって文書内に出現していてよい)がよくフ
ォーマットを整えたものであることが好い。キータームは数が制限されているの
が好く、呈示されているものが確かにユーザにとってより大きな値となるように
する。
【0040】 図1を参照すると、情報管理兼検索ツールセットの模式的な表現が示されてい
て、この主な構成要素はファィルサーバ130上に置かれている。ツールセット
はキーターム抽出器部品100,JASPERエージェント105,ページメモリ11
0,プロフィルメモリ115,テキスト要約器120,網インターフェース12
2及び低値語と省略データベース125を備えている。
【0041】 ファイルサーバ130は網インターフェース122を経由して経145と通信
する。網145は例えば私的団体の網で例えばインターネットプロトコルを使用
するもの、公衆交換電話網(PSTN)、あるいは公衆データ網であってよい。
網145はルータ148を含んでいてインターネット160へのゲートウェイア
クセスを提供できる。サーバ130上にある情報管理ツールのユーザは網145
上のアクセスを得るのに適当なインターネットビューワ135を用いてそれがで
き、パーソナルコンピュータ上で実行している通常のインターネットブラウザ製
品のように網145に、パーソナルコンピュータ自体もしくはワークステーショ
ンによって用意されているインターフェースで、リンクされる。
【0042】 サーバ130内部に組込まれている情報管理ツールはインターネット160に
網145と、そのルータ148と、インターネットルータ150とを経由してア
クセスを取得できる。インターネットサービスプロバイダサーバ155はインタ
ーネット160上で必要に応じて適当なルータ165を経由してアクセスされる
【0043】 情報管理兼検索ツールセットは上述の図1の構成要素を使用してユーザインタ
ーフェース140のオペレータがインターネット160を経て情報の位置を決め
られるようにすることもあろう。
【0044】 例えば、JASPERエージェント105はプロフィルメモリ115内に記憶されて
いるユーザプロフィルにアクセスして、ユーザにとって関心がありそうなインタ
ーネット160上でアクセス可能な、文書についての夜通しの探索を実行するよ
うにできる。JASPERエージェント105はページメモリ110内に検索した文書
についての情報を記憶する。特定のユーザのプロフィルでプロフィルメモリ11
5から検索したものを用いて、JASPERエージェント105は次にページメモリ1
15をアクセスしてユーザのプロフィルにあるキータームとページメモリ110
内に保存されている文書情報とを比較する。この発明のキーターム抽出器100
は、ユーザプロフィル内で使用するための用語の生成と、文書の関連を測るのに
使用するための検索された文書からのキータームの抽出との両方に応用される。
この実施例のJASPERエージェント105についての詳細は国際特許番号PCT GB96
/00132を参照することとする。
【0045】 キーターム抽出器100は能動ツールであってよく、これがインターネットサ
ービスプロバイダのファイルサーバ155からダウンロードされたページを連続
して監視する。キーターム抽出器100はそこでこういったキータームをJASPER
エージェント105のような他のツールに送り、そこでは別な処理が別な動作が
情報管理兼探索ツールセットによりダウンロードされたページに関してとられな
ければならないかどうかを判断する。
【0046】 これに代わって、キーターム抽出器100はJASPERエージェント105による
かあるいは要約用ツール120によってページメモリ110内で記憶のために選
ばれているページに応答して呼び出されるようにしてよい。
【0047】 いずれの場合もキーターム抽出器100はそのページを解析してそこからキー
タームを抽出することになるが、これはオペレータの入力とは独立しているのが
よい。
【0048】 キータームは情報管理兼検索ツールにより特定の文書のヘッドライン要約とし
て単純に記憶されて後日ユーザにより使用するようにすることもできる。
【0049】 代りに、キータームはプロフィルツール(JASPERエージェント105内部にあ
る)に送られて、このツールはこういったキータームを使用してユーザのプロフ
ィルもしくは特定の文書用語(ターム)マトリックスあるいはその両方を更新す
ることができるようにしてよい(このプロフィルツールもしくは文書用語マトリ
ックスについての別な情報は国際特許出願番号PCT GB96/00132を参照できる)。
【0050】 このキーターム(及びキーターム抽出器100からの恐らくは何がしかの関係
する処理結果)は要約を作成するツール120に送られ、そこには生成された要
約内の一部もしくは全部が含まれることになる。
【0051】 図2を見ると、キーターム抽出器装置100の好ましい実施例における主要機
能ブロックが示されている図である。各機能ブロックは処理の適当な部分を実施
できるもので、この処理は以下に記述する。全体像を見ると、入力200はテキ
ストの部分を含んでいるデータ組を受領して、各データ組に識別器(ID)を割
当て、各データ組をデータメモリ205内に記憶する。文(センテンス)識別器
(ID)210は記憶されたデータ組に作用して含まれているテキストを文(複
数)に分けてこの文を適切にデータメモリ205内に記憶する。第1の組識別器
(ID)215は特定のデータ組と関係している記憶された文から第1の組の単
語群を識別するように働く。第1の組IDは適切な選択規準を第1の組の中へ包
含するための単語群を選ぶために適用する。サブセット識別器(ID)220は
いずれか適切な選択規準を用いて第1の組から単語群のサブセットを識別するよ
うに動作する。文ID210、第1の組ID215、及びサブセットID220
は文カウンタ225と一緒に動作して、特定のデータ組内部で識別された文が必
要に応じて走査できるようにする。減算器230は第1の組ID215から“+
”入力で第1の組を受けまたサブセットID220から対応するサブセットを“
−”入力で受けるようにされている。減算器230は“減算”を実行して受けた
第1の組の単語群から受けたサブセットの単語群を取り除いて一組のキーターム
を作り出して、出力235により出力されるようにすることができる。
【0052】 この発明の実施例はテキスト情報を含んでいるデータ組の管理用ツールに応用
することができ、ここでこの管理は少くともその一部があるデータ組内で1度な
らず発生する単語シーケンスに頼っているものであり、またこの単語シーケンス
は1度ならず発生する他のいずれかの単語シーケンスのサブストリングではない
ものとする。このような選択規準は次の例で示すことができる。例えば、大文字
A,B,P,Qなどは単語を表わすために使用され、これらの文字のストリング
で文を表わすために使用されているとする。この例は以下の“文”を使用してお
り、受けたデータ組内部で識別されたものである: ABCDEF−1 PQBCDE−2 BEFCDP−3 CDEBEF−4 これらの文から、単語群の第1の組は上のデータ組の中で複数回発生するとい
う規準に従って選ぶことができる(このプロセスとその実施についてのより詳細
は次に示す): BCDE (文1と2で2度発生している) BEF (文3と4で2度発生している) CDE (文1,2,4で3度発生している) CD (文1,2,3,4で4度発生している) EF (文1,3,4で3度発生している) P (文2と3で2度発生している) これらの組から、次のキータームが上述の第2の規準により第1の組から選ぶ
ことができ、第2の規準は単語群が第1の組内のより長い単語群のサブストリン
グを形成しないというものである: BCDE BEF P しかしここで注意したいのは、サブストリング‘CD’‘CDE’及び‘EF
’はキータームとして含まれてはいないことである。この理由はすべてがより大
きなターム‘BCDE’もしくは‘BEF’のサブストリングであることによる
。しかしながら、もし例えばこのより大きなターム‘BCDE’が1度しか発生
しないとすると、そのときは‘CDE’はキータームとして特徴をもつことにな
る。
【0053】 上で概説した2段プロセスの結果は、もしデータ組が次のシーケンスの中で次
の用語を含んでいるとすると: …Jasper agent… …Jasper… …agent… …Jasper agent… …Jasper… …agent… …Jasper… …agent… そのときは‘Jasperエージェント’がキータームとなり(‘tool set including
a Jasper agent’のようなもっと長い用語にサブサム(部分の和)が作られな いことを条件とする)、がしかし、‘Jasper’も‘agent’も単独ではキーター ムとなることはなく、これはどんなに多くの回数これらの用語が出現しても関係
がないとされる。これが3つ全部をキータームとして代表させるのを避けていて
、‘Jasper agent’だけを代表させることによって全部もしくは大部分の情報が
保たれるという仮定に頼るものとなっている。
【0054】 加えて、構成要素部分がデータ組内で発生する頻度を勘定に入れることによっ
て、用語‘Jasper agent’についての代表的な重み付けが計算できる。例えば、
もし‘Jasper agent’が頻繁にではなく出現し、また‘agent’が‘Jasper agen
t’と同じような頻度ではあるが用語‘Jasper agent’の方がより大きな頻度で あるとすると、そのときは複合用語‘Jasper agent’はこの認識にあたりデータ
組の他のキータームに対して重み付けをすることができる。
【0055】 好ましい実施例では、情報管理ツールはユーザに呈示されたキータームに応答
して、それらを例えば受入れるか拒否するか動作するように求めてよく、またイ
ンターフェースがキータームの部分要素を選ぶという機能を提供してもよい。こ
のようなツールは例えばプロフィル形成用ツールであってよく、これが入力した
用語を変更することによるユーザの個人的プロフィルユーザに精製できるように
する。
【0056】 好ましい実施例はまたフルストップ(終止符)と他の句読点マークを使用して
単語シーケンスに分け目を付けるようにできる。これが可能性のあるキーターム
の長さを制限するのに役立つ。
【0057】 実施例はさらにサブセットの第1の組についての単語群の選択について別の規
準を実施してもよいし両方を実施してもよい。好ましいのは単語群が先行するか
後に続く低値語をもたないように選ばれることである。“低値語”には接続詞、
副詞及び何らかの一般的な単語であり、例えばthey,are,it,has,of,in等々
である。
【0058】 ここで上の例に戻り、低値語を小文字で表わすとすると、文は次のようになる
: abCdEF−1 PQbCdE−2 bEFCdP−3 CdEbEF−4 ここで、これらの文から、頭と尾とに低値語をもたないキータームは: CdE 文1と2 EF 文1と3と4 P 文2と3 ここで注意したいのは、‘b’が用語“bCdE”の前から失なわれているが
、中間の‘d’は保存されていることである。したがって“bread and butter”
といった用語と他の接続詞と低値語とを含んでいる用語とはキータームとしてリ
ストされることになる。
【0059】 全体の文がキータームとしてリストされないのが好い。しかしデータ組内であ
る文が2度発生する場合には、上述の方法はキータームとしてそれを含むことに
なるが、文を分割するセンテンススプリッテングとキーターム制限技術が採用さ
れないことを条件としている。
【0060】 図3を参照すると、流れ図が示されいて、キーターム抽出器100によって実
施される段階の好ましいシーケンスを示している。これらの段階は以下に掲示さ
れていて、それらの動作について補足説明が付けてある。 段階300:テキストを入力する。 段階305:データ組を文に分ける。 段階310:各文を1又は複数の単語で成る単語群に分ける。 段階315:各単語群をとって頭と尾にある低値語を取り除く。 段階320:最長単語群を最初にして最短単語群に至る順序で記憶し、次に各単
語のステム(茎切り)をしてケース(大文字か小文字か)を無視する(ステミン
グはプレフィックスとサフィックスを取り除くことを含む既知の技術である)。
各ステムした単語とその取り除かれたプレフィックスとサフィックスとの間の関
係を保存して、後で必要となるときにもとの単語の再生回復を可能とする。 段階325:各単語群に入力テキスト内での発生頻度と等しい初期重み付けを与
えて、重み付け1の全単語群を無視する(換言すれば繰返されない単語群を無視
する)。 段階330:単語群を上方に伝搬する:長さ(すなわち1単語のみの)のターム
で始まり、上方に作用して、候補単語群を含む次に短いタームを見付ける。候補
単語群の重み付けによりこの単語群の重み付けを増し、候補単語群を取り除く。
候補単語群がより長い単語群のサブストリングであることがなくなるまで繰返す
。 段階335:予め選んだ(すなわち構成可能な)最大許容長より長い単語群が残
っていないことをチェックする。このようなより長い単語群が残っていれば、こ
ういった単語群を‘分けられることになっている’リストに加えて、この‘分け
られることになっている’リスト内の単語群に対して上の段階310から繰返す
。この段階の条件が満足されるまで、あるいは最大単語群長がこれ以上減らなく
なるまで繰返す。 段階340:各単語の重み付けをそれが含んでいる単語の数により除算すること
によりスケール合せをし、この単語群を減って行くスケールされた重み付け順序
に従って種分けする。 段階345:これらの単語群から得られたキータームの数を制限する戦略を適用
するとし、とくに最大重み付けをもつものから単語群の適切な数を一般に選ぶよ
うにする。 段階350:単語群がユーザに呈示されることになる場合は、この単語群を‘実
世界(real world)’に戻す写像をする。段階320で、可能性のある単語群が
ステムされ、ケース(大文字か小文字かを示す)情報が無視されて一番広幅の可
能な概念上同等の単語群の組を一つの中立な代表形式に写像する。逆写像は大文
字化と単語の終結部とを再生回復する。
【0061】 ここで注意したいのは、段階330で候補単語群がより長い単語群のサブスト
リングとして識別される第1のインスタンスでのリストから取り除かれることで
ある。リストの最頂部に向う全体で各サブストリングを伝搬し、かつ候補ターム
がサブストリングとなっている各単語群の重み付けを増加することは可能である
。このプロセスはキータームを重み付けする代替手段として使用されるのが好ま
しい。しかし、保存されるタームの結果を変更はしない。アルゴリズム詳細 図3と図4とを参照するとして、上のアルゴリズムでの選ばれた段階が図4に
示したようなテキストを用いる特定の例を参照して記述されることになる。段階305 :フルストップでの文の分割−省略での分割をしないように注意する
。段階300での受理に続いて、入力テキストが次の文に分けられる(400)
:(省略データベース125がこの目的で使用できる) This is wholemeal bread and butter. It uses salted butter. Salted butter is good. Bread and butter is mainly bread.段階310 :単語群を識別する−ステージ1処理410はキータームエンジン4
70の制御下にあり、エンジン470はキーターム抽出器100の機能部品とし
て実現されているのがよく、この処理410は入力テキスト400内で識別され
た文から1つまたは複数の単語で成る単語群を識別することにより始められる。
ステミングをする前に単語群(420)は次のように識別される。
【0062】 bread and butter is mainly bread wholemeal bread and butter butter is mainly bread bread and butter wholemeal bread salted butter bread wholemeal butter salted (単語群を識別する仕組みについては以下でさらに記述する。)段階320 :ステミングと大文字使用−現在の例では必要とされないがステージ
1処理410はステミングを含むことができて、プレフィックスとサフィックス
とをある単語群内の単語から取り除き、それによって各単語を中立の表現形式に
減縮するようにできる。例えば、ステミングは“surfing the net”,“surf th
e net”及び“surfs the net”というフレーズを1つの代表的なフレーズ“surf
the net”と減縮する。好ましいのは、プレフィックスとサフィックスとがこの
中立形式と関係付けて記憶されて、段階350で再構築できるようにすることで
ある。
【0063】 ステージ1処理410はまた大文字使用化を含むことができ、(人物名のよう
に)大文字で始まる必要がある単語と、それを必要としない単語(例えば文の始
めにある単語)とを識別する。大部分のアクロニム(頭文字)は他の省略と同じ
ように大文字を含んでいる。こういった大文字使用を必要とする単語を識別する
ことはこういった単語を段階350によりこの形式で呈示されるようにする。 段階325:ステージ1処理410はまた初期重み付けを識別された単語群に割
当ててステージ1出力を完成させて、次のようにする: 1 bread and butter is mainly bread 1 wholemeal bread and butter 1 butter is mainly bread 2 bread and butter 1 wholemeal bread 2 salted butter 2 bread 1 wholemeal 4 butter 2 salted ステージ2処理430はキータームエンジン470の制御の下にあって、重み
付け1のすべての単語群をステージ1出力420から取り除いて、ステージ2出
力440として単語群の次の組を残す: 2 bread and butter 2 salted butter 2 bread 4 butter 2 salted段階330 :ステージ処理450もまたキータームエンジン470の制御下にあ
って、単語群を上方に伝搬し、サブストリングタームを取り除いて、次のような
キータームの出力460を結果する: 4 bread and butter (もとの2+‘bread’からの2) 8 salted butter (もとの2+‘salted’からの2と’bread’からの
4) 用語‘bread and butter’からの値は‘butter’からの値‘4’だけ増えてい
ないが、その理由は現在の方法が言うところは‘butter’が上方へ伝搬するのは
2単語用語である‘salted butter’までであり、以後はそれが無視されるから であり、言い換えると、より長い単語群のサブストリングとして識別される最初
の瞬間に単一用語‘butter’が無視されることによる。
【0064】 別な立場からこれを見ると、長い方の単語郡内に含まれていると見付けられた
単語群の重み付けはこのような長い方の単語群の1つについての重み付けに加え
ることだけができるのであり、短い方の単語群を含むこのような長い方の単語群
の全ての単語群の重み付けに加えられない。ここで記述した方法では一番短い長
い方の単語群の重み付けだけをそこに含まれている単語群の重み付けに比例して
修正している。これが段落325の例であり、ステージ2で残っている単語群が
長さが短くなる順序とされている。単語“butter”(重み付け4)を採り、リス
トを上へ見ていくと第1のすなわち一番短い単語群で“butter”を含むものは“
salted butter”である。一度“butter”からの重み付けが“salted butter”内
に吸収されてしまうと、もうリストの上には続いて行けず、また“bread and bu
tter”に加えられることもできない。しかし、もし、例えば“bread and butter
”の代わりに一番上位の単語群が“bread and salted butter”であるとすると そのときは“salted”(2)と“butter”(4)の重み付けを“salted butter ”の重み付け(2)に加えて合計で8とした後に、“salted butter”(8)の 合計の重み付けが、次に“bread and salted butter”の重み付けに(“bread”
の重み付け(2)と一緒に)加えられて、“salted butter”もまた取除かれて 2つではなく、1つの単語群だけが残ることになる。段階335 :長い単語群についての可能な分割。この例では必要としないが、通
常の最大単語群長は約5もしくは約6語となる。しかし、この例では、もし最大
受理可能単語群長が2と設定されていたとすると、“bread and butter”を分割
するために段階310に戻る必要があることになる。
【0065】 上述した図4の例については、単語分割は次の表1の別の段階で示されること
になり、ステージ3処理450で始まる:
【表1】
【0066】 長い単語群を分割する好い方法はより長い用語のサブストリング内部に含まれ
ることにはなりそうもない群の中心に向っている単語を見付けることである。好
ましい戦略は最初に(接続詞が)離節的な(disjunctive)性質をもつ単語を探 すことである:例えば‘but’と‘or’を‘and’とか‘of’のような接続的用語
を考慮する前に探す。
【0067】 しかし、離節的な用語が存在せず、接続的用語だけが単語群内にある場合には
、長い単語群と接続語で単語群の分割をすることという妥協を採用することが可
能である。例えば、接続語をそのままとしておくことは1つもしくは2つの単語
により単語群の長さを増大させるだけであり、この場合には長い単語群を保存す
るのが価値があることになる。段階340 :(上述の“非分割”単語群すなわち最大長6の単語群に立ち戻り)
、単語群はその長さ、すなわち単語群内の単語群の数によってスケール合せがさ
れる。これは次の結果を生む: 1.33 bread and butter (4割る3) 4.0 salted butter (8割る2) これらの用語をスケールを合わせた重み付けで種分けすると結果は: 4.0 salted butter 1.33 bread and butter この段階が含まれるのは、作られたキータームの信頼性を強化するために観測
を介して見付けられたことであるによる。より長い用語が受取られてよいとする
追加の重み付けに対する補償をするために、正規化が作用していると信じられて
いる。この妥協は好ましいものとされ、全部ではないにしても若干のより長い用
語は短い用語よりもデータ組の主題についてのより集中した情報を含んでいてよ
いからである。また、逆に、全部ではないとしても若干の短い用語は若干の長い
用語よりもデータ組の主題についてもっと集中した情報を含んでいてよい。段階345 :キータームとして呈示される単語群の数を制限すること。この段階
に対しては、広範囲の文書に対するキータームについての制限された数を作ると
いう一組の戦略を備えることが好ましい。次のような戦略が単独であるいは何ら
かの組合せで使用できる。
【0068】 ・現在の用語についての組合せた合計の重み付けが全キーワードの組合せた合
計の重み付けのうちの構成可能な割合に上昇するまで、継続する用語を表示する
。この場合には次のような式となり: Σ(表示された重み付け)<=Σ(全重み付け)/1.5 例えば次のような得点: 4 3 3 2 1 1 1 で最初の3つの用語だけが表示される。ここで式の中で第2のタームについての
分母1.5は良い結果をもたらすことが見付かっている。1よりも大きな他の値
を使うこともできる。
【0069】 ・隣りの用語の重み付けの比が構成可能な値以下となるまで継続する用語を表
示する。この終結式は例えば: (重み付け)(i+1)<=(重み付け)(i)/2 例えば次のような得点: 4 3 3 1 1 1 1 で最初の3つの用語だけが表示される。この式の中で第2のタームについての分
母2は良い結果をもたらすことが見付かっている。
【0070】 ・最初の用語の重み付けに対する用語重み付けの比が構成可能な値以下に落ち
るまで継続する用語を表示する。この終結式は例えば: (重み付け)(i)<=(重み付け)(1)/3 例えば次の得点: 4 3 3 1 1 1 1 で最初の3つの用語だけが表示されることになる。
【0071】 上の規則により許される継続する用語の表示を構成可能な最大に制限するが、
等しい重み付けの用語の完全なブロックを含めるために必要な場合にはその数を
越えられるとする。値7が有用であると見付けられていて、その理由はあるデー
タ組に対して7つのキータームを用意することによる。例えば次のような得点で
最初の7つの用語が表示される: 10 8 7 6 6 5 5 5 5 4 4 ・単一単語の用語をとくに取扱い、単一単語の用語が構成可能な位置にあるい
はその後で出て来るときには継続する用語の表示を中継する。値3が有用である
と見付けられている。次の例では複数の数がいずれもの用語の中で単語の数を表
している。用語は重み付けによりランク付けされている。例えば次の組では最初
の4つの用語だけがその重み付けとは無関係に表示されることになる: 1 3 4 3 1 2 4 ・上記の制限とは無関係に最小数を表示するが、等しい重み付けの用語につい
ての完全なブロックを含む必要があるときはその数を越えてもよい。値2が有用
であることが見付かっている。例えば、次の得点では最初の4つの用語が表示さ
れる: 5 2 2 2 1 1段階350 :もとの形式に用語を戻す写像−これは段階320から続くもので、
単語を単語のステムした状態もしくはオペレータに呈示できる形式に戻す変更し
た大文字使用とするプロセスである。
【0072】 例えば次のフレーズを含む文書を考える Surfing the net (分の始めにある) Surf the net Surfs the nets 段階320でステミングをし、大文字、小文字を無視することは一般にこうい
った用語を次のように写像させることになる: Surf the net 適当な記録が取り除かれたプレフィックスとサフィックスについて保存された
とすると、段階350はステムしたフレーズを表示用の単一の代表的なフレーズ
に戻す写像をしてよく、この表示には大文字小文字の差を解決することとどの終
りを適用するかを選ぶこととを含んでいる。ここでセンスのある(賢い)選択は
次のようになってよい: Surfing the net 一般的な場合では、これは2段階で達成され、大文字,小文字の解決すること
とプレフィックス/サフィックス再構築とである。大文字小文字の解決(case resolution) :一般に、小文字が好ましいが文の最 初の文字が大文字である場合を除く。この場合はケース情報が信頼性がないと考
えられる(これ以外の単語もまた何がしかの大文字を有していないことを条件と
する)。サフィックス再構築 :一組の経験的に決められた規則が適用される。最初にリス
トが作られ、テキスト内で発生している特定の単語の終結部のすべてについてリ
ストされる。この情報は前もって段階320で記憶されるようにできる。もし複
数の終結部が存在すると、次の表2にリストした規則が整合が見付かるまで継続
して適用される。
【0073】
【表2】
【0074】 ここで、*-は裸の単語(なにもない単語bare word)も−sもともに存在しな いことを条件とする。
【0075】 整合が見付からないとすると、単語の一番長い形式(もしくは一番長い形式の
一つ)が取上げられてよい。
【0076】 図3の流れ図に概略を示した好ましいキーターム抽出プロセスをここで記述し
て、上述の要約例を用いて詳細を示すこととするが、ここでは文字が単語を表わ
しているとする。図3のプロセスの中の主要段階についての好ましい実施が詳細
に記述され、こういった段階を応用することの効果を示すために要約例を用いて
いる。
【0077】 図3を見ると、段階305は困難なしに既知のテキスト走査技術を用いて省略
データベース125を参照しかつ必要に応じて句読点についての標準的な規則を
用いて分を識別している。段階305からの出力はこの例示では次の識別された
文を上のように与えている: abCdEF PQbCdE bEFCdP CdEbEF この例で使用された文はも、簡単のために同じ長さとしているが、図3の方法
と以下に記述する特定の実施とは一般的な場合であって文が異なる長さのもので
もよい場合に動作するように設計されている。
【0078】 最初の文“abCdEF”が段階310で分割されて次のような単語群となる
: abCdEF bCdEF CdEF dEF EF F abCdE bCdE CdE dE E abCd bCd Cd d abC bC C ab b ab 単語群の長さが減って行く順序に編成すると次のリストとなる: abCdEF abCdE bCdEF abCd bCdE CdEF abC bCd CdE dEF ab bC Cd dE EF a b C d E F 加えて図5を参照すると、流れ図が与えられていて、識別された文を単語群に
分割する好ましいアルゴリズムを示していて、これは図3の段階310を実施し
ている。この文分割アルゴリズムは上に示したのと同じような単語群のアレイを
生成し、各単語群はアレイ変数“WG[S,k,i]”の要素の中に含まれてい
て、ここで“S”はある文を識別する数であり、“k”は文S内部の単語の位置
であってこの位置で単語群が始まるところであり、また“i”は単語群の長さで
ある。上の例では、文1“abCdEF”については、S=1とWG[1,1,
1]=‘a’,WG[1,1,2]=‘ab’,WG[1,2,1]=‘b’,
WG[1,2,2]=‘bc’,及びWG[1,2,3]=‘bCd’である。
図5のアルゴリズムはまた関数“WS(S,i)”を用いて文Sのi番目の単語
を戻している。上の例の文1についてはWS(1,1)=‘a’,でWS(1,
4)=‘d’である。
【0079】 最初は、段階500で、単語群アレイの各要素をナル(零)に設定し、文カウ
ンタSを零に初期化する。このアレイは予期される最大入力テキストを収容でき
る大きさであると仮定されている。
【0080】 段階505で、文カウンタSはインクレメントされ、最初に、図3の段階30
5から識別された第一の文を選び、単語位置カウンタkを零に初期化する。段階
510で、文Sが入力される。段階515で単語位置カウンタがインクレメント
され、最初は文Sの第一の単語の点にであり、そして単語群長“i”が零に初期
化される。単語群長“i”が段階520でインクレメントされ、そして段階52
5では長さi−1の先に構築された単語群を用い、文Sの単語位置kで始まって
新しい単語群が構築され、(WG[S,k,0]はSとkとのすべての値に対し
てナル(零)であると仮定されている)。そこには次に続く単語が文中でその文
に添付されていて単語位置i+k−1で始まっている。関数“WS(S,i)”
は文S内で単語位置iに単語を戻す。段階530では、試験が実行されて、文S
からもっと長い単語群を構築するのに使用するためにいずれかの単語が残ってい
るかどうかの検出が実行され、単語位置kから始まって、文Sの長さの知識を用
いてそれが行われる。文の終りに到達していなければ、処理は段階520に戻り
、単語群長iをインクレメントする。しかし、文の終りに到達していれば、段階
535で単語位置カウンタkが文Sの最終単語を指しているかどうかを試験が判
断する。否であれば処理は段階515に戻り、文S内の新しい単語群についての
単語位置が1つだけ進んで、長さ変数iが上のように零にリセットされる。しか
しもし、文の終りが段階535で到達していなければ、段階540で最終文が処
理されたかどうかを試験が判断する。否であれば処理は段階505に戻り、次の
識別された文が選ばれる。もし段階540で全ての文が処理されていれば、この
アルゴリズムと、したがって図3の段階310とは完了し、全ての可能性のある
単語群についてのアレイWG[ ]は段階305から識別された文から構築され
たことになる。
【0081】 図5のアルゴリズムをここで示した例での識別された文に適用することは次に
示すように表3内の文の順序で配列された以下の単語群を作り出す。
【0082】
【表3】
【0083】 段階310の完了で、入力されたテキストの各文についての可能な単語群のす
べてが識別されて、単語群アレイWG[ ]内に読取られている。次の段階は図
3の方法の段階315であり、これは“低い値”の単語を各単語群の始めと終り
から取り除くことであり、低い値の単語(低値語)は‘is’,‘it’,‘are’ ,‘they’,‘and’などのような単語であり、キータームが抽出される対象の データ組(例えばテキスト)の主題を反映する傾向をもたないものであり、とく
にこういった単語が単語群内の先頭と後尾の位置で出現する場合に行なわれる。
低値語は定値語と省略のデータベース125を参照して識別されてよい。
【0084】 図6を参照すると、低値語を取り除くための好ましいアルゴリズムを示すよう
にした流れ図が用意されている。このアルゴリズムは次のような基礎の上にあっ
て動作する。すなわち、単語群アレイの中に含まれているようになっている可能
性のあるすべての単語群について、先頭もしくは後尾の低値語を備えたものも備
えていないものもある単語群を含めて、低値語を取り除くことが他の単語群の1
つで誤りを生じさせ易い複製物を単に生じさせるだけであるということである。
したがって、単語群から先頭と後尾の低値語を実際に取り除くのではなく、図6
のアルゴリズムはWG[ ]アレイから先頭もしくは後尾の単語をもつすべての
単語群を適当なアレイ要素をナル(零)に設定することによって単に除去するこ
ととする。この結果は先頭と後尾の低値語なしに可能とされる単語群のすべてを
含んでいるようなアレイとなる。
【0085】 図6を参照すると、アルゴリズムは段階600で始まり、図5のアルゴリズム
(段階310)から生じた単語群アレイを輸入することによって始まる。段階6
05で文カウンタSを初期化した後に、このアルゴリズムは3つのネストされた
解析ループを実行してWG[ ]アレイの全部の要素を走査する。外側のループ
は段階610で始まり文カウンタをインクレメントし、最初は第一の識別された
文を選び、単語群長iを初期化する。段階615では、中間ループの開始があり
、単語群長がインクレメントされ、最初に長さ1をもつ単語群アレイ要素を選び
、また単語位置カウンタkが初期化される。段階620では、内側ループが開始
され、単語位置カウンタkがインクレメントされ、最初に文S内で第1の単語で
始まる長さiの単語群を選ぶ。段階625は選ばれた単語群WG[S,k,i]
内のいずれかの先頭の低値語を求めて試験を行なう。なにも見付からなければ段
階630でいずれかの後尾の低値語が探される。もしなにも見付からなければそ
の単語群が保存されて、処理は次の単語群要素に移動して、上述の段階530と
同じやり方で段階640により処理される。もし先頭もしくは後尾のどちらかの
低値語が選ばれた単語群WG[S,k,i]の中で段階625または630でそ
れぞれ見付かるときには、段階635でその単語群要素がナル(零)に設定され
て、このアレイから特定の単語群が除去されて、処理は段階640に進む。図5
の段階530のように、段階640は長さiの別な単語群が単語位置kで始まる
文Sから文Sの長さの知識を用いて出て行ったかどうかを判断する。もしいずれ
かが残っていれば、そのときは内側ループ上の処理が段階620へ戻り、そこで
は単語位置カウンタkがインクレメントされる。段階640で何も残っていなけ
れば、次に段階645が単語群長iが今では現在の文Sの長さに等しいかどうか
、すなわちiよりも大きい長さの単語群が存在しえないことを判断する。文Sの
長さに等しくなければ中間ループ上の処理は段階615に戻り、そこで長さ変数
iがインクレメントされて、次に長い単語群が解析できるようになる。一番長い
単語群が段階645で今度は解析されてから、段階650では最終文についての
試験がされる。もし文Sが最終でなければ、外側ループ上の処理は段階610に
戻り、そうでなければアルゴリズムは段階655で終り、先頭と後尾の低値語を
もつ単語群が単語群アレイから除去されてしまう。
【0086】 図6のアルゴリズムを表3の単語群に適用すると次の表4が作られる。
【0087】
【表4】
【0088】 表4では先頭もしくは後尾に低値語をもち、1もしくは複数の低値語だけで成
る単語群を重要でもないのに含んでいるものは除去されていて、表中ではブラン
クの空間として示されている。
【0089】 図3のアルゴリズムにおける次の段階である段階320は長さに従って単語群
を並べまた単語ステミング(stemming)を実施することである。記述されている
特殊例では、長さによる単語群の順序付けは単語群アレイWG[ ]の本質が与
えられると、表示目的で必要とされる場合を除いて、特に必要とはされない。単
語ステミングは単語からのプレフィックスとサフィックスとの取り除きである。
例えば、ステミングのプロセスは単語群“surfing the net”と“surfs the net
”を同じ単語群すなわち“surf the net”に減縮することである。これは両サフ
ィックス“ing”と“s”とをそれぞれ単語“surf”の2つの発生から取り除くこ
とである。
【0090】 図7を参照すると、単語をステミングしかつステムされた単語といずれかのプ
レフィックスもしくはサフィックスで取り除かれたものとの間の関係を記録する
ための好ましいアルゴリズムを示すために用意された流れ図である。好ましいの
は、実際に、図6と図7のアルゴリズムが組合せされることである。単語群のア
レイを走査する方法は2つのアルゴリズムの間で同一である。図7のアルゴリズ
ムは図6のアルゴリズム(段階315)の動作から生じた単語群アレイを輸入す
ることにより段階700で始まる。段階705で文カウンタSを初期化すること
により、アルゴリズムは3つのネストされた解析ループを実行してWG[ ]ア
レイの要素のすべてを走査することは図6と同じであり、それぞれ段階710,
715,720で始まり対応しているループの終り試験はそれぞれ段階765,
760,755である。図7のアルゴリズムの内側走査ループ内部での処理は、
単語カウンタxを初期化した後、段階725で始まり、選ばれた単語群アレイ要
素WG[S,k,i]がナル(零)に設定されていないことをチェックすること
を伴う。もしそれがナルであると、処理は段階755での内側ループの終り試験
まで直ちにとばして、単語群要素の別の処理はしない。もし段階725で、選ば
れた単語群がナルでなければ、そのときには、段階730で単語カウンタxがイ
ンクレメントされ、最初に選ばれた単語群の第1の単語を指すようにする。段階
735は選ばれた単語x内のプレフィックスとサフィックスの一方または両方に
ついての試験がされる。もし何も検出されなければ、段階750で単語カウンタ
が選ばれた単語群長iと比較されて、その単語群の最終の単語が処理されている
かどうか判断する。もし単語が文S内で処理されずに残っていると、そのときは
処理は段階730に戻って単語ポインタxをインクレメントして単語群の次の単
語を選ぶようにする。もし段階735でいずれかのプレフィックスもしくはサフ
ィックスが見付かると、そのときは段階740でそれが取り除かれて、段階74
5では記録が作られて、取り除かれたプレフィックスもしくはサフィックスを結
果として生じたステムした単語と関係付けがされ、後の回復を可能とする。そこ
で処理は上述のように段階750に続く。
【0091】 もし、段階750で、選ばれた単語群WG[S,k,i]のすべての単語が処
理されているときは、内側のアレイ走査ループ試験が段階755に到達して、単
語群アレイの残りのものが図6のアルゴリズムと同じように走査される。
【0092】 全体の単語を表わすために単一の文字を用いて今の例示では、単語ステミング
の結果を示すようにすることは不可能である。
【0093】 図3の段階である次の段階は、残っている単語群の各々に重み付けを指定して
、入力データ組のテキスト内に一度だけしか発生しない単語群を除去することで
ある。この段階で指定される重み付けはそのデータ組内での単語群の発生の頻度
に等しいのが好い。しかし他の尺度をこの段階で適用して単語群を重み付けし、
単語群の除去のためのしきい値を設定するようにしてもよい。段階325と図8
の以下のアルゴリズムとは好ましいキーターム抽出器100の第1組識別器21
5の動作における段階を完結することができる。
【0094】 図8を見ると、頻度により単語群に重み付けをし、入力データ組で1度しか発
生しない単語群を除去するための好ましいアルゴリズムを示すために流れ図が呈
示されている。図8のアルゴリズムは進行の際に、アレイからの特定の単語群の
二重発生を除去して、完了の際に各個別の単語群の単一発生がアレイ内に残り、
その重み付けの関係する記録を伴うようにしている。重み付けはアレイf[S,
k,i]内に記録されていて、単語群アレイWG[S,k,i]の各可能な対応
する要素について一要素となっている。図8のアルゴリズムはまた、後の使用の
ために、一番長い残っている単語群を変数“m”を用いて識別する。概略を述べ
ると、図8のアルゴリズムは単語群アレイWG[ ]を図6,7のアルゴリズム
と同じやり方で走査することにより動作する。図5の走査は他と少し違っている 。内側の走査用ループで特定の単語群要素WG[S,k,i]を選び、かつナル
でないように設定したものの内部で、同じ長さiをもつ残っている単語群、すな
わち同じ文内でより大きなkの値をもち、かつ後の文だけの中にあるものが整合
する単語群についてチェックされる。整合が見付かった各々について、単語群W
G[S,k,i]の重み付けがインクレメントされて、整合用単語群がナルに設
定されて、重複するものが取り除かれる。
【0095】 ここで走査する(scanning)は処理のために単語群アレイWG[ ]の要素を選
ぶ技術を意味している。図6ないし8の各流れ図では、3つのネストされたルー
プがあって、内側ループ、中間ループ、および外側ループがある。図6について
は、内側ループが段階620ないし640で成り、中間ループが段階615ない
し645、また外側ループが段階610ないし650で成る。同じようなネスト
されたループが図7と図8の各図中のアルゴリズムに対して使用されている。解
くに図8では対応するループは内側が段階808ないし836、中間が段階80
6ないし838、または外側が段階804ないし840である。
【0096】 各図では外側ループが処理すべき文を選んでいる。各選んだ文(S)について
は中間ループが解析されている単語群で長さ(i)のものを設定し、内側ループ
は文S内部の異なる可能な単語位置(k)の全てで始まる組の長さ(i)の単語
群を処理するように働く。単語長(i)は次に中間ループにより進み(i+1)
、文(S)の処理がその異なる可能な長さの全ての文内で可能とされる単語群が
解析されてしまうまで進行する。外側ループは次に次の文を選んで同じ解析をそ
の文について実行する。
【0097】 図6ないし8の各アルゴリズムでは、単語群の選択に同じ基本的な方法を使っ
ており、内側ループ内部で選ばれた単語群について実行される処理段階が違って
いてもそうしている。
【0098】 図8のアルゴリズムは段階800で図7の処理から生じた単語群アレイWG[
]を輸入する事によって始まる。段階802では、重み付けアレイf[ ]の各要素が零に初期化され、最大単語群長変数mと文カウンタSとについても
同様である。図5ないし7と同様にWG[ ]は3つのループで走査され、図8
の段階804,806,808でそれぞれ始まり、対応するループの終り試験を
段階840,838,836にそれぞれ備えている。段階808で特定の単語群
要素WG[S,k,i]を選ぶと、ナルについてのチェックが段階810で行な
われる。選ばれた要素がナルであれば、次の単語群要素が、もしあれば、ループ
の終り(エンドオブループ)段階836を経て選ばれる。
【0099】 ナル(零)でない単語群要素WG[S,k,i]を段階810で選ぶと、段階
812はこの要素に対する対応した重み付けを単位値に設定して2つの別な走査
用変数x,yを初期化する。変数xは文カウンタであり、現在及び後の文中の同
じ長さの単語群がWG[S,k,i]と整合するかについてチェックできるよう
にする。変数yは単語位置カウンタであり、kと等価なものである。変数xとy
とが初期化されて、Sとkとの現在値がそれぞれ段階812により初期化される
。段階814では、チェックがされて、長さiの別な可能な単語群を求めて現在
の文x内で行なわれ、位置yよりも後の単語位置で始まる。もし何か残っていれ
ば、そのときは段階816でyが次の単語群のポイントまでインクレメントされ
る。もし段階818で、次の単語群がナルであれば、そのときは処理は段階81
4に戻って、同じ長さの別な単語群を探す。
【0100】 段階818で、もし次の単語群がナルでないと、段階820では比較が選ばれ
た単語群WG[S,k,i]とされる。もし整合が見付からないと、処理は段階
814に戻って、上のように、別の単語群を探す。しかし、段階820で整合が
見付かると、段階822で単語群WG[S,k,i]の重み付けがインクレメン
トされて、整合用単語群要素WG[x,y,i]がナルに設定され、カウントが
されて、重複を除去するようにする。処理はそこで段階814に戻り、上のよう
に同じ長さの別な単語群を探す。
【0101】 段階814で同じ長さiの別な単語群が現在の文x内に何も残っていなければ
、そのときは段階824で判断がされて、最後の文が整合用単語群について探さ
れたか、探されていないかについて決められる。もし探されることになる文が残
っていれば、段階826で文カウンタxがインクレメントされて、単語位置カウ
ンタyがリセットされ、次の文内で長さiのすべての単語群が探索される。もし
段階824で最後の文が探索されたときには、段階828で累積された重み付け
f[x,y,i]で単語群WG[x,y,i]についてのものがチェックされる
。これが単位値(1)よりも大きいときには、単語群は保存されて、段階832
と834とがmという値がこれまでに見付かった保存されている最長単語群を記
録することを確実としてから段階836に進む。もし段階828で、単語群WG
[x,y,i]がデータ組内で1度だけしか発生していなければ、そのときはナ
ルに設定され、それと関係する重み付けが零に設定される。処理は段階836に
進んで、図6のアルゴリズムに関して上述したところにより、単語群アレイの走
査を続ける。
【0102】 図8のアルゴリズムが完了すると、すなわち図3の段階325が完了すると、
単語群アレイWG[ ]は入力データ組内で1度ならず発生した各個別の単語群
についての単一エントリィを含んでいて、各々は重み付けアレイf[ ]内に記
録された対応する重み付けを備えている。単語群アレイと対応する重み付けアレ
イとは第1の組識別器215により生成された第1の組を構成できる。この好ま
しいアルゴリズムはまた一番長い生き延びている単語群の長さの記録を変数mと
して生み出してもいて、これが主として次のアルゴリズムでプロセスの効率を高
めるために使用される。
【0103】 この例を示すために、図8のアルゴリズムによる処理を完了すると表4が次の
ように生まれていて、対応する重み付けで“W”と示した欄に示したものを備え
ている。
【0104】
【表5】
【0105】 図3の次の段階である段階330は、より長い残っている単語群のサブストリ
ングを形成する残っている単語群を除去し、こういったより長い単語群の対応す
る重み付けを含んでいた除去されたサブストリングの重み付けだけ増す。この段
階はサブセット識別器220の選択規準の一部として実施することができる。こ
の段階を達成するための処理は段階325からの残っている一番短い単語群によ
って始めて、単語群階層構造を通って上方に進み、すべてのより短いサブストリ
ング単語群が除去されるまで進んで達成される。
【0106】 図9を見るとサブストリング単語群を除去し、それによって対応するより長い
単語群の重み付けを増すための好ましいアルゴリズムを示す流れ図が示されてい
る。概観すると、このアルゴリズムは一度に1単語長iで作業をし、長さi=1
のものから始まって1つインクレメントして作業をして行き長さi=mとなるま
で進む。長さmよりも長い単語群については、何も残っていないので、面倒を見
る必要がない。一番短かい残っている単語群WG[S,k,i]を見付けると、
このアルゴリズムは次に長い長さで残っている単語群の全部を探索し、それを続
けて、サブストリングとして単語群WG[S,k,i]を含んでいる単語群を見
付けるまで進める。この点で、単語群WG[S,k,i]の重み付けを対応する
より長い単語群の重み付けに加えてから、WG[S,k,i]をナルに設定する
。処理は次の、最短の残っている単語群WG[S,k,i]で進行し、処理が長
さmの単語群に達するまで進み、その点でアルゴリズムが終り、処理すべき残さ
れたより長い単語群がなにもないことになる。
【0107】 図9および図10のアルゴリズムは段階900で始まり、図8のアルゴリズム
(図3の段階325)の完了で出力された単語群アレイWG[ ]と、重み付け
アレイf[ ]と値mを輸入する。段階902で単語群長変数iを初期化した後
に、外側のループが段階904で始まって一度に1つの長さiの単語群を処理し
、それがiの値をインクレメントすることにより始まり、最初は長さ1の単語群
を解析する。試験が段階906で実行されて、現在の長さiが図8から識別され
た一番長い残っている単語群の長さかどうか判断される。もしそうであれば、も
っと長い単語群は何も残っておらず処理は段階908で終る。
【0108】 段階906で、もしもっと長い単語群が残っているとすると、文カウンタSは
段階910で初期化され、また段階912では2つのループの第1のものが長さ
iの残っている単語群のすべての走査し始め、文カウンタSをインクレメントす
る。段階914では、これが増大した処理効率のために含まれていて、チェック
がされて現在の単語群長iが現在選ばれた文Sの長さよりも大きいかどうか判断
される。単語群が文Sから長さiで何も見付かりそうもないとすると、この文の
処理は続ける必要はなく、その代りに段階946へとんで、次の文がもしあれば
それを選ぶことにする。
【0109】 段階914でもしより長い単語群が文Sから可能であるとすると、そのときは
段階916で単語位置カウンタkが初期化されて、段階918で走査ループの第
2のものが単語群位置カウンタkをインクレメントすることにより開始される。
段階918に続き特定の単語群要素WG[S,k,i]を選ぶと、その要素がナ
ルかどうかチェックがされ(段階920)、段階944へとんだ処理ではもし要
素がナルであると見付かるときには長さiの次の単語群アレイ要素を選ぶことに
なる。
【0110】 もし段階920で現在選ばれた単語群がナルでなければ、処理は段階922で
始まりサブストリングとしてWG[S,k,i]を含んでいるものについてのよ
り長い単語群が探査される。段階922は単語群長カウンタjを初期化してWG
[S,k,i]の長さiに等しくする。段階924では、jはインクレメントさ
れて、次のより長い単語群を走査し始め、文カウンタxが零に初期化される。各
jの設定に対して、2つのループがここでは各文xから残っている単語群を探索
し、段階926で始まって文カウンタxをインクレメントし、最初は第1の文か
らWG[ ]アレイ要素を探索し、また単語ポインタyを初期化する。第2の探
索ループは段階928で始まり、単語ポインタyをインクレメントする。段階9
30では、現在探索されている単語群要素WG[x,y,j]がナルについて試
験される。ナルでなければ、段階932で単語群WG[x,y,j]がサブスト
リングとして単語群WG[S,K,i]を含むか否かを判断する。含んでいれば
段階934でWG[x,y,j]についての重み付け頻度f[x,y,j]がW
G[S,k,i]の重み付けf[S,k,i]だけ増加されて、段階936では
、単語群WG[S,k,i]がそれをナルに設定することにより除去されて、そ
の重み付けが零に減る。処理は次に段階944に進んで、もし何か残っていれば
、長さiの次の単語群を選ぶことになる。
【0111】 もし段階930で現在探索された単語群要素WG[x,y,j]がナルである
か、もし段階932で単語群要素WG[x,y,j]がサブストリングとしてW
G[S,K,i]を含んでいなければ、そのときは探索は長さjの次の単語群に
、もし何か残っているときには、移動することが段階938と940を介して行
なわれ、これは上述の図5ないし8のアレイ走査段階と同様のやり方となってい
る。しかし、もし段階940に従って長さjの残っている単語群のすべてが探索
されてしまっているとし、さらに何れもサブストリングとして単語群WG[S,
K,i]を含んでいないことが見付かると、そのときは段階942で、試験が行
なわれて、既知の最大単語群長mとjを比較して、より長い単語群が探索されず
に残っているかどうか判断がされる。もしjがmに等しければ、そのときはより
長い単語群は探索対象として残ってはおらず、処理は段階944に進んで長さi
の次の単語群がもし残っていれば上述のように選ぶことになる。もし段階942
で別のより長い単語群が探索のために残っていそうであれば、そのときは処理は
段階924に戻って上述のように長さ変数jをインクレメントする。
【0112】 段階944と946は長さiの各値について単語群アレイの走査を制御するが
これは上述した図5ないし8からの等しいアレイ走査と同じやり方である。図9
および図10のアルゴリズムが完了すると、キータームの最終組が単語群アレイ
WG[ ]内に残り、重み付けアレイf[ ]内の対応する重み付けを備えてい
る。これらのアレイは減算器230からの出力を構成できる。
【0113】 ここでとりあげた例示では、表5の内容について図9および図10のアルゴリ
ズムを実行した結果は次のようになる。
【0114】
【表6】
【0115】 単語群“CdE”,“EF”及び“P”は今ではもとの文のキータームとして
識別されていて、図3のキーターム抽出アルゴリズムの段階335及び345で
適用されることになるオプションの別の規準の対象となる。
【0116】 図3の残りの段階335ないし355の実施は詳細には記述しないことにする
が、直截的なやり方で実施できるものである。今とりあげている例でこれらの段
階が実際にどのように適用されるかを示すことに徹すれば十分と思われる。
【0117】 上の表6の内容で始めると、図3の段階300ないし330の動作の結果から
、段階335は予め定めたしきい値を越える長さをもつ残っている単語群を除去
するための拒絶規準を適用する。残っている単語群のうちのいずれもが現在の例
ではこれを基に除去されないことになる。しかし実際には、例えば長さ6以上の
単語群はこの段階で除去されることになる。
【0118】 段階340では、単語群の重み付けは、例えば単語群長によりスケール合せが
されて、重み付けに従って呈示用に種分けされる。今の例示では、CdEの重み
付けは3により除算され、EFの重み付けは2で除算され、Pの重みつけは1で
除算されて、次の順序のキータームのリストとなる: 5.5 EF 2.33 CdE 2 P 段階345では、キータームの数が予め定めた規準に従って制限されてよく、
例えばキータームによって行なわれる使用に依存するようにする。好ましいのは
、この段階で除去されることになる何らかの用語があるとすると、そういった用
語が低い方の全体の重み付けから選ぶようにできる。
【0119】 今の例ではキータームの数を制限する表はなく、3つが一般にオペレータによ
ってもまたデータ管理ツールセットによっても管理されることになる用語の組は
十分に小さいものとなっている。
【0120】 しかし、キータームのもっと長い組が識別されるときには、何らかの戦略で上
述したものが、単独もしくは組合せて、適用できる。
【0121】 いったん、キータームの組が選ばれると、同じ用語を除去するためにシソーラ
スもしくは辞書あるいは同様の手段によってそれらが調べられるのが好ましい。
【0122】 例えば、キータームとして“during the premier’s visit(主演女優の訪問 期間中に)”とduring the premier’s trip(主演女優の旅行期間中に)”が戻
ってきたとして、シソーラスはこれらが相等の用語であるとシノニム(同義語)
としてそれらの最終単語の相等性を基に認識することになる。
【0123】 したがって、キータームのリストが図3の段階345により制限されている場
合には、同じようなキータームを識別して拒絶するというこのプロセスは段階3
45で拒絶された用語が好ましいのは、次の最高重み付けをもつ用語として再び
任に当たることができるようにされるが、反復プロセスは次の用語がリストの内
にすでに含まれているいずれかのキータームに似てはいないことを確保すること
が必要とはされる。
【0124】 データ組からキーフレーズを抽出する上述の方法は多数の情報管理及び検索ツ
ールにより使用できる。
【0125】 上述のように、こういったものには、要約、Jasperエージェント及び予見的作
用をもつツールでプロフィル作成技術を使用する他の形態のものを含んでいる。
ツールの他の形態として検索(サーチ)エンジンがある。
【0126】 現在では、典型的なサーチエンジンはそこに登録されたサイトをサイトオペレ
ータにより調査することによって動作する。
【0127】 このサーチエンジンは要約もしくはサイトについてのキーワードの組をそのデ
ータベース内に記憶している。ユーザがサーチエンジンにアクセスして材料を探
すときには、サーチエンジンは入力されたサーチ単語をデータベースに対して比
較して、関連のサイトの位置決めをするようにする。
【0128】 この発明の一つの応用はキーフレーズ(語句)抽出器を使用してサーチエンジ
ンにより調べられるサイトに関するキーワードについてのサーチエンジンデータ
ベースを生成することである。
【0129】 別の応用は、テキスト要約器での使用である。ここでは、キーフレーズの組が
上述のプロセスにより識別できる。こういったキーフレーズが一度識別されると
、これらのキーフレーズを含んでいる文とパラグラフとがテキストから抽出でき
る。次にこれらの文/パラグラフがそこに含んでいるキーフレーズの数により重
み付けできる。
【0130】 要約をそこで生成できるが、それはこういった文/パラグラフでしきい値重み
付けを越えるものを再生するか、あるいは最高重み付けの順序で再生して、デー
タ組の予め定めた百分率もしくは単語の順序で予め定めた数が要約内に含まれる
ようになるまで再生をすることによって生成される。
【0131】 情報管理もしくは検索ツールが、上述したJasperエージエントのような、プロ
フィル形成用技術を使用する場合には、ユーザプロフィルについてのキーターム
、ドキュメントタームマトリックスもしくはキーワード類似性マトリックスが上
述の方法により生成できる。
【図面の簡単な説明】
【図1】 この発明の実施例によるキーターム抽出装置を組込んだ情報管理兼検索ツール
セットの模式図。
【図2】 好ましいキーターム抽出装置の主要基本部品を示す図。
【図3】 この発明の好ましい実施形態によるキーターム抽出方法を示す流れ図。
【図4】 特定例に対するキーターム抽出の好ましい方法の応用を示す図。
【図5】 図3の段階310を実施するための好ましい処理段階を、より詳細に示す流れ
図。
【図6】 図3の段階315を実施するための好ましい処理段階を、より詳細に示す流れ
図。
【図7】 図3の段階320を実施するための好ましい処理段階を、より詳細に示す流れ
図。
【図8】 図3の段階325を実施するための好ましい処理段階を、より詳細に示す流れ
図。
【図9】 図3の段階330を実施するための好ましい処理段階を、より詳細に示す流れ
図。
【図10】 図9とともに図3の段階330を実施するための好ましい処理段階を、より詳
細に示す流れ図。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SZ,UG,ZW),EA(AM ,AZ,BY,KG,KZ,MD,RU,TJ,TM) ,AL,AM,AT,AU,AZ,BA,BB,BG, BR,BY,CA,CH,CN,CU,CZ,DE,D K,EE,ES,FI,GB,GD,GE,GH,GM ,HR,HU,ID,IL,IS,JP,KE,KG, KP,KR,KZ,LC,LK,LR,LS,LT,L U,LV,MD,MG,MK,MN,MW,MX,NO ,NZ,PL,PT,RO,RU,SD,SE,SG, SI,SK,SL,TJ,TM,TR,TT,UA,U G,US,UZ,VN,YU,ZW Fターム(参考) 5B075 ND03 NK31 PR04 5B091 AA11 CA02

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 データ組を管理するための装置であって: 入力としてデータ組を受領するための入力手段と; 前記データ組内部で、いくつかの単語でなるいくつかの単語群を含み、前記デ
    ータ組内部で第1の予め定めた分布パターンと適合する第1の組の単語を識別す
    るのに適応された手段と、ここで前記単語群内の前記単語は該データ組内で継続
    して発生するものであり; いくつかの前記単語群を含み、前記データ組内部で第1の予め定めた分布パタ
    ーンと適合する単語のサブセットを、前記第1の組内部で、識別するのに適応さ
    れた手段と; 前記第1の組から単語の前記サブセットを除去し、それによって前記データ組
    の1組のキータームを形成するように適応されている手段と; 少くとも1つの前記キータームを出力する出力手段とを有する装置。
  2. 【請求項2】 前記第1の分布パターンは前記第1の組内の各単語群が前記
    データ組内で少くとも2度発生することを求めている請求項1記載の装置。
  3. 【請求項3】 前記第2の分布パターンは前記サブセット内の各単語群が第
    1の組の内のより長い単語群内部で発生する単語もしくは単語のストリングを含
    むことを求めている請求項1又は2記載の装置。
  4. 【請求項4】 前記単語群を修正するための手段を含み、それがある単語群
    内の第1の高い値の単語の前に発生する低い値の単語を取り除くように適用され
    、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除
    くように適用されている請求項1ないし3のいずれか1項記載の装置。
  5. 【請求項5】 いずれかの単語群内のいずれかの単語を修正するための手段
    を含み、それがある単語からステムされた単語を作るためにいずれものプレフィ
    ックスを取り除くように適用され、かついずれものサフィックスを取り除くよう
    に適用されている請求項1ないし4のいずれか1項記載の装置。
  6. 【請求項6】 前記ステムされた単語と関係する前記プレフィックスもしく
    はサフィックスを記憶するための手段を含み、それによって前記プレフィックス
    もしくはサフィックスを前記ステムされた単語に回復可能とする請求項5記載の
    装置。
  7. 【請求項7】 前記第1の組内の前記単語群の各々をどのくらいの頻度で前
    記単語群の各々が前記第1の組で発生するかに従って重み付けをするための手段
    と、 前記第1の組の中の少くとも第1の単語群についての前記重み付けを前記サブ
    セット内の第2の単語群の重み付けに比例して修正するための手段と、 前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含む請求項
    1ないし6のいずれか1項記載の装置。
  8. 【請求項8】 さらに前記重み付けと少くとも1つの予め定めた規則とに依
    り出力用のキータームを選ぶ手段を含む請求項7記載の装置。
  9. 【請求項9】 1)データ組を入力として受領する段階と; 2)前記データ組内部の第1の分布パターンと適合する第1の組の単語を識別
    する段階、ただしこの第1の組はいくつかの単語のいくつかの単語群を含んでい
    て、前記単語群内の前記単語は該データ組内で継続して発生するものである、と
    ; 3)前記第1の組で単語群のサブセットを識別する段階、ただしこのサブセッ
    トは前記データ組内部で第二の分布パターンに適合するものである、と; 4)前記第1の組から前記サブセットを除去してそれによりキータームの組を
    識別する段階と; 5)前記キータームを出力する段階とを含むデータ組を管理する方法。
  10. 【請求項10】 前記第1の分布パターンは前記第1の組内の各単語群が前
    記データ組内で2度以上発生することを求めている請求項9記載の方法。
  11. 【請求項11】 前記第2の分布パターンは前記サブセット内の各単語群が
    第1の組の内のより長い単語群内部で発生する単語もしくは単語のストリングを
    含むことを求めている請求項9又は10記載の方法。
  12. 【請求項12】 6)ある単語群内の第1の高い値の単語の前に発生する低
    い値の単語を取り除き、かつある単語群内の最後の高い値の単語の後に発生する
    低い値の単語を取り除く段階を含む請求項9ないし11のいずれか1項記載の方
    法。
  13. 【請求項13】 7)いずれかの前記単語群内のいずれかの単語をその単語
    のプレフィックスもしくはサフィックスを取り除くことにより修正してステムさ
    れた単語を形成する段階を含む請求項9ないし12のいずれか1項記載の方法。
  14. 【請求項14】 8)前記ステムされた単語と関係する前記プレフィックス
    もしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフ
    ィックスを前記ステムされた単語に回復可能とする段階を含む請求項13記載の
    方法。
  15. 【請求項15】 9)前記第1の組内の前記単語群の各々をどのくらいの頻
    度で前記単語群の各々が前記第1の組で発生するかに従って重み付けをする段階
    と; 10)少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語
    群の重み付けに比例して修正する段階と; 11)前記両重み付けに依存して出力用の前記キータームを選ぶ段階と; を含む請求項9ないし14のいずれか1項記載の方法。
JP2000522537A 1997-11-24 1998-11-18 情報管理及び検索 Expired - Lifetime JP4467791B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97309446 1997-11-24
EP97309446.9 1997-11-24
PCT/GB1998/003468 WO1999027469A1 (en) 1997-11-24 1998-11-18 Information management and retrieval

Publications (2)

Publication Number Publication Date
JP2001524717A true JP2001524717A (ja) 2001-12-04
JP4467791B2 JP4467791B2 (ja) 2010-05-26

Family

ID=8229632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000522537A Expired - Lifetime JP4467791B2 (ja) 1997-11-24 1998-11-18 情報管理及び検索

Country Status (9)

Country Link
US (1) US6338057B1 (ja)
EP (1) EP1032896B1 (ja)
JP (1) JP4467791B2 (ja)
AU (1) AU746743B2 (ja)
CA (1) CA2309499C (ja)
DE (1) DE69804495T2 (ja)
ES (1) ES2175813T3 (ja)
NZ (1) NZ504304A (ja)
WO (1) WO1999027469A1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7505974B2 (en) * 1999-02-12 2009-03-17 Gropper Robert L Auto update utility for digital address books
US6883000B1 (en) * 1999-02-12 2005-04-19 Robert L. Gropper Business card and contact management system
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US20090307577A1 (en) * 2001-08-28 2009-12-10 Lee Eugene M System for providing a binding cost for foreign filing a patent application
US6678678B2 (en) * 2000-03-09 2004-01-13 Braodcom Corporation Method and apparatus for high speed table search
US6728701B1 (en) * 2000-04-18 2004-04-27 Claritech Corporation Method and apparatus for database retrieval utilizing vector optimization
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US7047420B2 (en) * 2001-01-17 2006-05-16 Microsoft Corporation Exclusive encryption
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7043637B2 (en) 2001-03-21 2006-05-09 Microsoft Corporation On-disk file format for a serverless distributed file system
US6981138B2 (en) 2001-03-26 2005-12-27 Microsoft Corporation Encrypted key cache
US7062490B2 (en) * 2001-03-26 2006-06-13 Microsoft Corporation Serverless distributed file system
EP1258815B1 (en) * 2001-05-16 2004-10-06 Exentis A process for extracting keywords
US6988124B2 (en) 2001-06-06 2006-01-17 Microsoft Corporation Locating potentially identical objects across multiple computers based on stochastic partitioning of workload
US7478431B1 (en) * 2002-08-02 2009-01-13 Symantec Corporation Heuristic detection of computer viruses
US7024526B2 (en) * 2002-10-31 2006-04-04 Hitachi, Ltd. Apparatus and method of null data skip remote copy
US6917936B2 (en) * 2002-12-18 2005-07-12 Xerox Corporation Method and apparatus for measuring similarity between documents
US20050086234A1 (en) * 2003-10-15 2005-04-21 Sierra Wireless, Inc., A Canadian Corporation Incremental search of keyword strings
US20050114317A1 (en) * 2003-11-26 2005-05-26 Bhide Manish A. Ordering of web search results
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US20060074900A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Selecting keywords representative of a document
TWI269193B (en) * 2004-10-01 2006-12-21 Inventec Corp Keyword sector-index data-searching method and it system
US7761286B1 (en) * 2005-04-29 2010-07-20 The United States Of America As Represented By The Director, National Security Agency Natural language database searching using morphological query term expansion
JP4772378B2 (ja) * 2005-05-26 2011-09-14 株式会社東芝 Webページから時系列データを生成する方法及び装置
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US20080071783A1 (en) * 2006-07-03 2008-03-20 Benjamin Langmead System, Apparatus, And Methods For Pattern Matching
US8015175B2 (en) * 2007-03-16 2011-09-06 John Fairweather Language independent stemming
US8812508B2 (en) * 2007-12-14 2014-08-19 Hewlett-Packard Development Company, L.P. Systems and methods for extracting phases from text
GB2456369A (en) 2008-01-11 2009-07-15 Ibm String pattern analysis for word or genome analysis
US8311795B2 (en) * 2008-01-11 2012-11-13 International Business Machines Corporation String pattern conceptualization from detection of related concepts by analyzing substrings with common prefixes and suffixes
US8661422B2 (en) * 2008-02-08 2014-02-25 Reservoir Labs, Inc. Methods and apparatus for local memory compaction
US9858053B2 (en) 2008-02-08 2018-01-02 Reservoir Labs, Inc. Methods and apparatus for data transfer optimization
US8572590B2 (en) * 2008-09-17 2013-10-29 Reservoir Labs, Inc. Methods and apparatus for joint parallelism and locality optimization in source code compilation
US8930926B2 (en) * 2008-02-08 2015-01-06 Reservoir Labs, Inc. System, methods and apparatus for program optimization for multi-threaded processor architectures
US8688619B1 (en) 2009-03-09 2014-04-01 Reservoir Labs Systems, methods and apparatus for distributed decision processing
US9185020B2 (en) * 2009-04-30 2015-11-10 Reservoir Labs, Inc. System, apparatus and methods to implement high-speed network analyzers
US8805840B1 (en) * 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US8892483B1 (en) 2010-06-01 2014-11-18 Reservoir Labs, Inc. Systems and methods for planning a solution to a dynamically changing problem
US8914601B1 (en) 2010-10-18 2014-12-16 Reservoir Labs, Inc. Systems and methods for a fast interconnect table
US9134976B1 (en) 2010-12-13 2015-09-15 Reservoir Labs, Inc. Cross-format analysis of software systems
JP5768492B2 (ja) * 2011-05-18 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US8468145B2 (en) 2011-09-16 2013-06-18 Google Inc. Indexing of URLs with fragments
US8438155B1 (en) * 2011-09-19 2013-05-07 Google Inc. Impressions-weighted coverage monitoring for search results
US9489180B1 (en) 2011-11-18 2016-11-08 Reservoir Labs, Inc. Methods and apparatus for joint scheduling and layout optimization to enable multi-level vectorization
US9830133B1 (en) 2011-12-12 2017-11-28 Significs And Elements, Llc Methods and apparatus for automatic communication optimizations in a compiler based on a polyhedral representation
US9710266B2 (en) 2012-03-15 2017-07-18 International Business Machines Corporation Instruction to compute the distance to a specified memory boundary
US9454367B2 (en) 2012-03-15 2016-09-27 International Business Machines Corporation Finding the length of a set of character data having a termination character
US9268566B2 (en) 2012-03-15 2016-02-23 International Business Machines Corporation Character data match determination by loading registers at most up to memory block boundary and comparing
US9280347B2 (en) 2012-03-15 2016-03-08 International Business Machines Corporation Transforming non-contiguous instruction specifiers to contiguous instruction specifiers
US9459864B2 (en) * 2012-03-15 2016-10-04 International Business Machines Corporation Vector string range compare
US9454366B2 (en) 2012-03-15 2016-09-27 International Business Machines Corporation Copying character data having a termination character from one memory location to another
US9588762B2 (en) * 2012-03-15 2017-03-07 International Business Machines Corporation Vector find element not equal instruction
US9715383B2 (en) * 2012-03-15 2017-07-25 International Business Machines Corporation Vector find element equal instruction
US9459868B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Instruction to load data up to a dynamically determined memory boundary
US9459867B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Instruction to load data up to a specified memory boundary indicated by the instruction
US9798588B1 (en) 2012-04-25 2017-10-24 Significs And Elements, Llc Efficient packet forwarding using cyber-security aware policies
US10936569B1 (en) 2012-05-18 2021-03-02 Reservoir Labs, Inc. Efficient and scalable computations with sparse tensors
US9684865B1 (en) 2012-06-05 2017-06-20 Significs And Elements, Llc System and method for configuration of an ensemble solver
CN107330124A (zh) * 2013-03-11 2017-11-07 曹华诚 内容推荐方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4342085A (en) * 1979-01-05 1982-07-27 International Business Machines Corporation Stem processing for data reduction in a dictionary storage file
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5940624A (en) * 1991-02-01 1999-08-17 Wang Laboratories, Inc. Text management system
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US6081804A (en) * 1994-03-09 2000-06-27 Novell, Inc. Method and apparatus for performing rapid and multi-dimensional word searches
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5931907A (en) * 1996-01-23 1999-08-03 British Telecommunications Public Limited Company Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
US5774888A (en) * 1996-12-30 1998-06-30 Intel Corporation Method for characterizing a document set using evaluation surrogates
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6044376A (en) * 1997-04-24 2000-03-28 Imgis, Inc. Content stream analysis
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases

Also Published As

Publication number Publication date
AU746743B2 (en) 2002-05-02
CA2309499A1 (en) 1999-06-03
EP1032896A1 (en) 2000-09-06
ES2175813T3 (es) 2002-11-16
EP1032896B1 (en) 2002-03-27
WO1999027469A1 (en) 1999-06-03
NZ504304A (en) 2002-03-01
JP4467791B2 (ja) 2010-05-26
DE69804495D1 (de) 2002-05-02
AU1167899A (en) 1999-06-15
CA2309499C (en) 2007-06-19
DE69804495T2 (de) 2002-10-31
US6338057B1 (en) 2002-01-08

Similar Documents

Publication Publication Date Title
JP4467791B2 (ja) 情報管理及び検索
JP3270783B2 (ja) 複数の文書検索方法
JP5740029B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
JP3636941B2 (ja) 情報検索方法と情報検索装置
JP3195752B2 (ja) 検索装置
US6654717B2 (en) Multi-language document search and retrieval system
US5940624A (en) Text management system
JP2001519952A (ja) データ要約装置
JP2005182817A (ja) クエリレコグナイザ
JP3198932B2 (ja) 文書検索装置
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004192546A (ja) 情報検索方法、装置、プログラム、および記録媒体
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JPH064584A (ja) 文章検索装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2004506960A (ja) 蓋然論マッチング・エンジン
JP2008203997A (ja) 文書検索装置及びプログラム
EP0592402B1 (en) A text management system
JP3161660B2 (ja) キーワード検索方法
JP3438947B2 (ja) 情報検索装置
KR19990084950A (ko) 역화일을 이용한 데이터 부분검색 장치 및 그 방법
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH10105578A (ja) 点数を利用した類似単語検索方法
EP1258815B1 (en) A process for extracting keywords

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081219

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091211

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term