JP4200645B2 - 情報処理装置、情報処理方法および記録媒体 - Google Patents
情報処理装置、情報処理方法および記録媒体 Download PDFInfo
- Publication number
- JP4200645B2 JP4200645B2 JP2000278691A JP2000278691A JP4200645B2 JP 4200645 B2 JP4200645 B2 JP 4200645B2 JP 2000278691 A JP2000278691 A JP 2000278691A JP 2000278691 A JP2000278691 A JP 2000278691A JP 4200645 B2 JP4200645 B2 JP 4200645B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- candidate
- interpretation
- occurrence word
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 10
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000014509 gene expression Effects 0.000 claims description 120
- 238000004458 analytical method Methods 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 35
- 150000001875 compounds Chemical class 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 27
- 239000002131 composite material Substances 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 3
- 230000008520 organization Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 10
- 239000010410 layer Substances 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 235000002492 Rungia klossii Nutrition 0.000 description 1
- 244000117054 Rungia klossii Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は、テキスト中に出現する地名・人名・組織名などの固有表現を検出する情報処理装置、情報処理方法および記録媒体に関する。ここで、固有表現は、Named Entityに対応する日本語であり、地名・人名・組織名などを指す。「言語処理学会第5回年次大会」論文集(1999年3月)のpp.128〜131 に掲載された論文「固有表現の定義の困難さ―IREXにおけるNE定義の事例から―」(著者:関根聡・江里口善生)、あるいは、1999年9月に開催された「IREXワークショップ」などにおいて当該分野の用語として定義されている。
【0002】
【従来の技術】
固有表現を検出するための最も基本的な方式は、固有表現の辞書を用意し、テキストと辞書とを照合することで、テキスト中に出現した固有表現を検出するものである。例えば、辞書のなかに「横浜市」(地名)、「横浜ベイスターズ」(組織名)のように登録しておき、テキスト中に「横浜市」が出現すれば、それを地名として検出し、「横浜ベイスターズ」が出現すれば、それを組織名として検出する。
【0003】
しかし、単純に辞書と照合するだけでは、固有表現を判別できないことがある。例えば、テキスト中に「千葉」という表記が出現した場合、これは人名かもしれないし、地名かもしれないという、複数通りの解釈(曖昧性)が生ずる。同様に、テキスト中に「谷」という表記が出現した場合、これは人名かもしれないし、一般名詞かもしれないという曖昧性を持つ。さらには、テキスト中の「中央区」という表記が地名として検出できたとしても、この「中央区」が、「東京都中央区」なのか、「大阪市中央区」なのか、という解釈の曖昧性は残る。
【0004】
このような固有表現の判別における曖昧性を解消するための手法として、従来、以下のような2通りの方法が考えられている。これらの手法はいずれも、「IREXワークショップ」(1999年9月)の予稿集に掲載された論文群、特に、「固有表現抽出システムの開発とIREX−NEにおける評価」(著者:竹元義美・福島俊一・山田洋志・奥村明俊・池田崇博)などに記載されている。
【0005】
第一の手法は、固有表現の候補の前後あるいは同一テキスト内に出現する共起語を参照して、固有表現候補の曖昧性を解消する方法である。例えば、「千葉」という固有表現候補の直後に「選手」という共起語が出現すれば、この「千葉」は人名と判定できる。あるいは、「中央区」という固有表現候補について、同じテキスト中に「東京都」という共起語が出現していれば、この「中央区」は「東京都中央区」を意味する可能性が高いと解釈できる。
【0006】
第二の手法は、固有表現の候補の表記を包含するような表記が、同一テキスト内に出現しているかを調べて、固有表現候補の曖昧性を解消する方法である。例えば、「横浜」という表記には地名と組織名の曖昧性があるが、同一テキスト内に「横浜ベイスターズ」という表記が出現しているならば、「横浜」は「横浜ベイスターズ」の省略表記、すなわち、組織名である可能性が高いと判断できる。
【0007】
本発明と技術分野が類似する従来例1として、特開平6−52221号公報の" 固有名詞の自動抽出方式" がある。
【0008】
本従来例は、オンライン・データベースやエキスパート・システム、機械翻訳システム等の自然言語インターフェースにおいて、オンライン・テキストをアクセスするデータベース・アクセス手段と、前もって作成してある固有名詞パターンを参照し、データベース・アクセス手段がアクセスして得たテキストから固有名詞候補を抽出する固有名詞抽出手段と、固有名詞抽出手段が抽出した固有名詞候補が既に辞書に登録してあるか否かを判定し、未登録の固有名詞候補を抽出する固有名詞判定手段と、固有名詞判定手段が抽出した未登録の固有名詞候補を辞書に登録する固有名詞登録手段とを有することを特徴としている。
【0009】
【発明が解決しようとする課題】
しかしながら、上述した固有表現判別方式、並びに従来例1の固有名詞の自動抽出方式は、1つのテキスト内の解析処理によるものである。このような従来技術では、WWW(World Wide Web)のようなハイパーテキストデータベースを構成する各ノードページのテキストを対象とした場合、そのテキスト内の情報のみを用いた解析処理では、十分な判別精度が得られない可能性があるという問題がある。
【0010】
本発明は上記事情に鑑みてなされたものであり、WWWのようなハイパーテキストデータベースを構成する各ノードページのテキスト中に出現する固有表現(地名・人名・組織名など)を高精度に判別可能な情報処理装置、情報処理方法および記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】
係る目的を達成するために請求項1記載の発明は、テキストに含まれる固有表現の解釈を判別する情報処理装置であって、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶手段と、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶手段と、記憶された固有表現の候補をテキストから抽出する単一テキスト解析手段と、第1のテキストから第2のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数nである場合に第1のテキストと第2のテキストとがn階層のリンク関係を有すると定義した場合において、テキスト記憶手段で記憶されたリンク関係を参照して候補を抽出したテキストと少なくとも1階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて共起語記憶手段で候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析手段とを備える装置である。
【0012】
請求項9記載の発明は、テキストに含まれる固有表現の解釈を判別する情報処理方法であって、コンピュータが、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶ステップと、コンピュータが、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶ステップと、コンピュータが、記憶された固有表現の候補をテキストから抽出する単一テキスト解析ステップと、コンピュータが、第1のテキストから第2のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数nである場合に第1のテキストと第2のテキストとがn階層のリンク関係を有すると定義した場合において、テキスト記憶ステップで記憶されたリンク関係を参照して候補を抽出したテキストと少なくとも1階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて共起語記憶ステップで候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析ステップとを含む方法である。
【0013】
請求項17記載の発明は、テキストに含まれる固有表現の解釈を判別する処理をコンピュータに実行させるプログラムを記録したコンピュータで読み込み可能な記録媒体であって、コンピュータに、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶処理、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶処理、記憶された固有表現の候補をテキストから抽出する単一テキスト解析処理、第1のテキストから第2のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数nである場合に第1のテキストと第2のテキストとがn階層のリンク関係を有すると定義した場合において、テキスト記憶処理で記憶されたリンク関係を参照して候補を抽出したテキストと少なくとも1階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて共起語記憶処理で候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析処理を実行させるプログラムを記録した媒体である。
【0032】
【発明の実施の形態】
次に、添付図面を参照しながら本発明に係る実施の形態を詳細に説明する。図1〜図16を参照すると本発明に係る実施の形態が示されている。
【0033】
本発明に係る第1の実施形態は、図1に示されるように、読み込み手段2、入力メモリ3、単一テキスト解析手段4、中間メモリ5、複合テキスト解析手段6、出力メモリ7を備え、ハイパーテキストデータベース1を構成するノードページのテキストに対して、そのテキスト中に出現する固有表現のリストを出力する。これらの各手段は、プログラム制御によって動作するコンピュータを用いて実現できる。入力メモリ3、中間メモリ5、出力メモリ7は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。
【0034】
まず、本実施形態が処理対象とするハイパーテキストについて説明する。
【0035】
図2は、固有表現判別装置の入力となるハイパーテキストデータベース1の一部を示す例である。ハイパーテキストは、ページ(あるいはノードと呼ばれる)をテキストの1 単位として、それらの間にリンクが設けられた形式をしている。図2における10と11は各々、ハイパーテキストデータベースを構成する1ページであり、それらの間をつなぐ矢印13はリンクを表している。リンク13に着目するならば、ページ10はリンク元ページ(リンク元テキスト)、ページ11はリンク先ページ(リンク先テキスト)となる。このようなハイパーテキストは、独自のデータ構造をもつものもあるが、最近はSGML(Standard Generalized Markup Language)、HTML(Hyper Text Markup Language)、XML(Extensible Markup Language)などのマークアップ言語による記述が普及している。特に、インターネット上にはWWWと呼ばれる大規模ハイパーテキストデータベースが存在し、そのなかではHTMLによる記述がスタンダードになっている。
【0036】
図3は、図2のページ10をHTMLで記述した一例である。図3において、<>で囲まれた部分はマークアップタグであり、HTMLではAタグで囲まれた文字列がリンク元を表す。すなわち、図2における文字列「ベイスターズファン」は、リンク元キー文字列になる。さらに、AタグのなかでHREFの直後に書かれたHTMLテキスト名が、そのリンク先のページ(テキスト)を意味する。すなわち、ページ10のリンク元キー文字列「ベイスターズファン」から「Baystars Fan」という名前のHTMLテキスト(ページ11がこれに相当する)へジャンプできることを意味している。なお、ここではHTMLで記述されたハイパーテキストデータベースを例にあげて説明したが、本発明では、対象とするハイパーテキストの記述形式をHTMLに限定するものではない。SGMLやXMLで記述されたものでもよいし、独自のデータ構造を用いたハイパーテキストであってもかまわない。
【0037】
読み込み手段2は、ハイパーテキストデータベース1から入力メモリ3へページ(テキスト)を読み込む。この読み込み手段2は、ハイパーテキストデータベース1がどこに置かれているかに応じて、ネットワークを介して外部と通信するための機構、あるいは、外部記憶装置にアクセスするための機構なども含む。どのページを読み込むかについては、(a)その都度、読み込む対象ページを指定して個別に読み込む方法、(b)ハイパーテキストの一部分を読み込む対象として範囲指定する方法、(c)ハイパーテキストのリンクを自動的にたどりながら、すべてのページを読み込む方法、などが考えられる。(a)や(b)の場合、外部から対象ページあるいは対象範囲を指定するため、読み込み手段2は、キーボードやマウスなど外部からコンピュータに指示入力を与える装置も含む。このような読み込み手段2の実現方法は、既に公知である。例えば、HTML形式のハイパーテキストデータベースを対象とするならば、(a)はNetscape NavigatorやMicrosoft Internet Explorer など広く普及したWWWブラウザのもつ基本機能であり、(b)はオートパイロットツールと呼ばれるもの、(c)はWWWロボットやクローラと呼ばれるシステムとして実用化されている。
【0038】
単一テキスト解析手段4は、入力メモリ3に読み込まれた各テキストから、そのテキスト内の解析処理によって、そのテキスト内に出現する固有表現候補を検出する。この単一テキスト解析手段4は、従来の固有表現判別装置に相当する。すなわち、本明細書の従来技術の項で述べたような公知の技術によって実現できる。単一テキスト解析手段4は、入力メモリ3からテキストを1件読み込み、そのテキストに対する解析処理を実行し、そのテキストにおける固有表現候補を中間メモリ5へ書き込む。中間メモリ5に書き込まれる情報は、対象テキスト中に検出された固有表現候補のリストであり、個々の固有表現候補に関しては、その固有表現候補がテキスト中のどこに出現したかという位置情報、および、その固有表現候補の種類(地名、人名、組織名などのいずれか)などを記録する。その際、固有表現候補の種類に曖昧性がある場合には、地名または人名、人名または一般名詞、というように複数通りの可能性を記録しておく。なお、図4には、単一テキスト解析手段4によって検出した固有表現候補の情報を記録する中間メモリ5の管理テーブルの構成が示されている。
【0039】
複合テキスト解析手段6は、単一テキスト解析手段4によって検出された固有表現候補の確からしさを、その固有表現候補の出現したリンク元あるいはリンク先のテキストを参照した解析処理によって計算する。この解析処理の実現方法、すなわち、リンク元あるいはリンク先のテキストを参照することによる固有表現候補の確からしさの計算方法としては、例えば、以下のようなものが考えられる。(ア)固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元あるいはリンク先の複数テキストにおける、その固有表現候補と共起する単語の出現頻度情報をもとにして計算する方法、(イ)固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元テキストにおけるリンク元キー文字列と、その固有表現候補との共起関係をもとにして計算する方法、(ウ)固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元テキストにおけるリンク元キー文字列の前後一定範囲のテキストにおける、その固有表現候補と共起する単語の出現頻度情報をもとにして計算する方法、などである。このような計算を実行するために、複合テキスト解析手段6は、必要に応じて、入力メモリ3や中間メモリ5の内容を参照する。そして、複合テキスト解析手段6の結果は、出力メモリ7へ書き出す。また、図1における複合テキスト解析手段6は、装置全体を制御するような役割を持たされた構成になっており、読み込み手段2や単一テキスト解析手段4の動作制御も行う。ただし、そのような装置全体の動作制御の機能は、複合テキスト解析手段6と分離して構成するようにしてもよい。
【0040】
上記構成からなる本実施形態は、WWWのようなハイパーテキストデータベースを構成するノードページのテキスト中に出現する固有表現を高精度に判別することを目的としている。
【0041】
例えば、図2に示されたテキストには、「横浜」という表記が出現する。「横浜」という表記には地名と組織名の曖昧性があり、そのテキストを検索しただけでは、この曖昧性を解消することができない場合がある。また、図5では、テキスト16中に出現する地名「中央区」が「大阪市中央区」なのか、「東京都中央区」なのかといった曖昧性が生じている。
【0042】
このような不具合を解決するために、本実施形態は、単一テキスト解析手段4によって検出したテキスト内に出現する固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元、あるいはリンク先のテキストを参照した解析によって計算する複合テキスト解析手段6を設けたことを特徴としている。この複合テキスト解析手段6により、例えば、図2に示された例では、固有表現候補「横浜」が現れたテキストのリンク元テキスト10を参照することで、「横浜」は組織名である方が確からしいと判定することができる。また、図5に示された例では、リンク元テキスト15を参照すると、「大阪府」という共起語が出現していることから、テキスト16の「中央区」は「大阪市中央区」の解釈の方が確からしいと判定できる。
【0043】
図6を参照しながら、本発明の特徴部分である複合テキスト解析手段6の詳細な構成及び動作を説明する。図6に示されるように複合テキスト解析手段6は、入力メモリ読み込み手段30、テキストバッファ31、固有表現候補バッファ32、固有表現辞書部33、共起語情報読み出し部34、共起語情報バッファ35、共起語検出部36、検出結果記憶部37、尤度計算部38を有して構成される。
【0044】
入力メモリ読み込み手段30は、入力メモリ3に記憶されたテキストを読み込む。この入力メモリ読み込み手段30の読み込み対象となるテキストの範囲は、上述した(ア)、(イ)、(ウ)のそれぞれの方法において異なるが、これらについては後に詳述する。テキストバッファ31は、入力メモリ読み込み部30により読み込まれたテキストを一時的に記憶する。
【0045】
固有表現候補バッファ32は、単一テキスト解析手段4の解析結果である固有表現候補を中間メモリ5から読み出す。
【0046】
固有表現辞書33には、固有表現候補を特定するための辞書が記憶されている。図7にこの固有表現辞書の構成を示す。図7に示されるように固有表現辞書では、固有表現の表記40に対して、地名、人名、組織名などのいずれかの固有表現として解釈されるかの種別41(一般名詞との解釈の曖昧性がある場合など固有表現以外の種別を入れることもある。)及び各々の解釈時の共起語リスト42を格納している。共起語リスト42は、単に共起語のリストだけではなく、位置関係の条件(固有表現の直後に接続するなど)も併せて格納しておいてもよい。
【0047】
共起語情報読み出し部34は、固有表現候補バッファ32から固有表現候補、その位置情報、種類を読み出すと共に、この固有表現候補の、種別41、及びその共起語リスト42を固有表現辞書33から読み出す。共起語情報読み出し部34により読み出された情報は、共起語情報バッファ35に一時的に記憶される。
【0048】
共起語検出部36は、テキストバッファ31からテキストを読み出すと共に、共起語情報バッファ35から固有表現候補の共起語リストを読み出し、テキストの中から固有表現候補の共起語リストに挙げられた共起語を検出する。共起語検出部36にて検出された検出結果は、検出結果記憶部37に記憶される。
【0049】
尤度計算部38は、検出結果記憶部37に記憶された共起語から固有表現候補の種別(地名、人名、組織名)毎の確からしさを判定し、判定結果を出力メモリ7に出力する。
【0050】
ここで、複合テキスト解析手段6による(ア)、(イ)、(ウ)の解析手法について図2に示されたリンク元、及びリンク先のテキストを参照しながら説明すると共に、上記各解析手法の場合の複合テキスト解析手段6の処理動作を説明する。
【0051】
図2では、10がリンク元テキスト、11がリンク先テキストである。リンク先テキスト11を対象として単一テキスト解析手段4が実行され、「横浜」が固有表現候補として検出されたものとする。図7に示された固有表現辞書を用いたとするならば、図2のリンク先テキスト11における「横浜」には、地名と組織名という2通りの解釈(曖昧性)が生ずる。この曖昧性は、「横浜」に関する共起語が、テキスト11内に出現していないことから、単一テキスト解析手段4では解消できない。このとき、複合テキスト解析手段6では、リンク元テキスト10を参照することで、テキスト11における固有表現候補「横浜」の確からしさを計算する。複合テキスト解析手段6の実現方法として前述の(ア)、(イ)、(ウ)では、次のように参照するテキスト範囲が異なる。
【0052】
まず(ア)では、リンク元テキスト10の全体を参照する。そして、そのなかに出現する「横浜」の共起語として、「プロ野球」、「球団」、「ベイスターズ」などを見つけることで、固有表現候補「横浜」は組織名としての解釈の方が確からしいことを判定できる。
【0053】
この解析方法の場合、複合テキスト解析手段6の入力メモリ読み込み部30は、入力メモリ3に記憶されたテキストの中からリンク元ページのテキスト全体を読み込み、テキストバッファ31に記憶する。
【0054】
共起語検出部36は、テキストバッファ31からリンク元ページのテキスト全体を参照して、共起語情報バッファ35から読み出した共起語リストに挙げられた固有表現候補の共起語を検出する。
【0055】
次に、(イ)の解析方法の場合、リンク元キー文字列のみを参照する。図2では、12の「ベイスターズファン」がリンク元キー文字列となる。この12のなかに、「横浜」の共起語である「ベイスターズ」が出現していることから、固有表現候補「横浜」は組織名としての解釈の方が確からしいことを判定できる。
【0056】
この解析方法の場合、複合テキスト解析手段6の入力メモリ読み込み部30は、入力メモリ3に記憶されたリンク元ページのテキストの中から、リンク元キー文字列だけを読み込む。すなわち、リンク元ページの中から、固有表現候補の出現するテキストのテキスト名を、リンク先テキストに設定された文字列を読み込む。図2に示された例では、固有表現候補「横浜」の現れるテキスト名「Baystars Fan.html」が、アンカータグ(<A HREF= >……</A>)内に記載されたリンク元キー文字列を入力する。
【0057】
共起語検出部36は、テキストバッファ31から読み込んだこのリンク元キー文字列に、共起語情報バッファ35から読み込んだ共起語リストに挙げられた固有表現候補の共起語が現れるか否かを検出する。
【0058】
次に、(ウ)の解析方法の場合、図8における14のように、リンク元キー文字列の前後一定範囲のテキストを参照する。図8の14の範囲には、「球団」「ベイスターズ」などが「横浜」の共起語として出現しているので、固有表現候補「横浜」は組織名としての解釈の方が確からしいことを判定できる。なお、リンク元キー文字列の前後一定範囲の決め方は、前後に一定の文字数、前後に一定の行数、リンク元キー文字列を含む1段落(〜3段落)などのように、いろいろな方法が考えられる。
【0059】
この解析方法の場合、複合テキスト解析手段6の入力メモリ読み込み部30は、入力メモリ3に記憶されたリンク元ページのテキストの中から、リンク元キー文字列、及びこのリンク元キー文字列の前後を一定の範囲を読み込む。
【0060】
共起語検出部36は、テキストバッファ31から読み込んだこのリンク元キー文字列、及びこの前後一定の範囲のテキスト内に、共起語情報バッファ35から読み込んだ共起語リストに挙げられた固有表現候補の共起語が現れるか否かを検出する。
【0061】
このようにして、本実施形態は、固有表現候補の出現したテキスト内だけではなく、リンク元のテキストも参照して固有表現候補の種別を特定することで、より高精度な固有表現の判別を行うことができる。
【0062】
なお、複数テキストにおける共起語の出現頻度情報に着目する際の計算方法には、いろいろなバリエーションが考えられる。例えば、図9のテキスト17とテキスト19を考えて見ると、テキスト19における「中央区」の曖昧性に対して、リンク元テキストである17には「東京都」と「大阪府」の両方が出現していて、曖昧性を解消できない。そこで、(ア)の方法では、リンク元テキスト1件だけでなく複数件を参照する。さらには、リンク先テキストも参照することまで行うようにしている。図9のテキスト19に対するリンク元テキスト17と18、さらにリンク先テキスト20を参照すると、「東京都」(1回)、「大阪府」(3回)、「近畿地方」(1回)、「京都府」(1回)などが出現しており、最も多く出現している共起語である「大阪府」に着目することで、「中央区」は「大阪市中央区」という解釈の方が確からしいと判断できる。
【0063】
また、上述した方法では、固有表現候補の曖昧性解消の際に、共起語のうちでリンク元・リンク先の複数テキストにおける出現頻度の総和が最も大きいものを優先した。それ以外にも、共起語のうちでリンク元・リンク先のなるべく多数件のテキストに出現するものを優先する方法も考えられる。これを図9の例で説明すれば、「大阪府」の出現するテキストは17・18・20の3件、「近畿地方」の出現するテキストは18のみで1件、「京都府」の出現するテキストも18のみで1件とカウントし、「大阪府」が最も多数件のテキストに出現した共起語ということになり、これを曖昧性解消の手がかりに用いるという方法である。
【0064】
さらに、単語(共起語)の出現回数や出現テキスト件数の単純カウントではなく、リンク元テキストか、リンク先テキストかによって、重みを変えてカウントするという方法も考えられる。例えば、単語の出現回数をリンク元テキストについては2点、リンク先テキストについては1点というように異なる重みを与えると、図9の例に関して、「東京都」は2点、「大阪府」は5点、「近畿地方」は2点、「京都府」は2点となる。また、共起語の出現位置によって重みを変える方法も考えられる。例えば、リンク元キー文字列に出現した場合は4点、リンク元キー文字列の前後一定範囲のテキストに出現した場合は3点、リンク元テキスト内に出現した場合は2点、リンク先テキスト内に出現した場合は1点というような重みの付け方である。
【0065】
また、以上で述べた複合テキスト解析手段6の実現方法・処理例では、固有表現候補の出現したテキストからリンクを1階層分たどった範囲で、曖昧性解消の手がかりとなる共起語を探した。しかし、1階層よりも広い範囲から共起語を探すようにしてもよい。図10の例では、テキスト23に出現した「横浜」が固有表現候補であり、地名と組織名という曖昧性を持つ。このテキスト23のリンク元テキストの範囲(1階層分)では、「横浜」の曖昧性を解消する手がかりとなる共起語は出現していない。そこで、さらにもう1階層分、リンク元へ逆上ると、テキスト21を参照できる。テキスト21には「ベイスターズ」という共起語が存在するため、「横浜」は組織名としての解釈を優先することができる。このような複数階層逆上ったテキスト参照に関して、最初から1階層ではなく、N階層(Nは1より大きなある値)の範囲を参照範囲と決めておく方法もあるし、また、1階層の範囲で曖昧性解消ができなかった時に、参照範囲を1階層ずつ増やしていくという方法もある。例えば、リンク元及びリンク先の前後一階層分のテキストを参照して曖昧性を解消できなかった時に、リンク先のリンク、若しくはリンク元のリンクをたどり、共起語を検出していく方法である。
【0066】
また、単純に階層を増やしていくのではなく、1階層目はそのテキスト全体を参照するが、2階層目はリンク元キー文字列(或いはリンク元キー文字列の前後一定範囲のテキスト)のみを参照範囲とするような方法も考えられる。図10の例で言えば、テキスト23に対して、1階層目のテキスト22はその全体を参照し、2階層目のテキスト21はリンク元キー文字列の「ベイスターズファン」の部分のみを参照するという方法である。
【0067】
また、リンクを逆上るだけでなく、リンク先の方向も含めて階層を増やしていく方法も考えられる。例えば、図10の例において、テキスト23に対して、リンク元のテキスト22へ1階層分逆上り、今度はそのリンク先の方向にたどって、テキスト24を参照することも可能である。テキスト23に対して、2階層分の範囲として、テキスト21、テキスト22、テキスト24の3つを参照する方法、リンク元方向のみにたどってテキスト21とテキスト22の2つを参照する方法、あるいは、兄弟関係のリンク参照を優先してテキスト22とテキスト24の2つを参照する方法などが考えられる。
【0068】
次に、図11のフローチャートを用いて、本実施の形態の動作を説明する。
まず、図11のステップS201にあるように、読み込み手段2によって、ハイパーテキストデータベース1からテキストを読み込んで、入力メモリ3に書き込む。読み込み手段2の実現方法によっては、ステップS201と以降のステップSとを交互に進めるような処理手順もとり得るが、ここでは前述の読み取り手段2の実現方法(b)を用いて、ある範囲内のテキストをまとめて読み込むものとし、その結果、読み込まれたテキストの件数はN件であったとする。
【0069】
次に、N件のテキストの各々について、ステップS204以降の手順を実行する。図11のフローチャートでは、ステップS202でkの値を1にセットした上で、ステップS209でkの値を1ずつ増やしながら、ループ処理を実行している部分が、これに該当する。k番目のテキスト(k=1〜N)に対する処理として、まず,ステップS204を実行する。ステップS204では、単一テキスト解析手段4によってテキストkを解析し、テキストk内に出現する固有表現の候補を検出して、中間メモリ5へ書き込む。ここで検出された固有表現候補の数をMkとし、個々の固有表現候補をc[k,j](j=1〜Mk)で表すものとする。すなわち、c[k,j]は、テキストkにおいて検出されたj番目の固有表現候補である。
【0070】
次に、テキストkにおいて検出されたMk個の固有表現候補の各々について、ステップS207以降の手順を実行する。図11のフローチャートでは、ステップS205でjの値を1にセットした上で、ステップS208でjの値を1ずつ増やしながら、ループ処理を実行している部分が、これに該当する。j番目の固有表現候補c[k,j]に対する処理として、ステップS207を実行する。ステップS207では、複合テキスト解析手段6によって、テキストkに対するリンク元あるいはリンク先のテキストを参照して解析し、固有表現候補c[k,j]の確からしさを計算し、出力メモリ7へ書き込む。読み込み手段2の実現方法によっては、ステップS207の段階で、テキストkのリンク元テキストやリンク先テキストが入力メモリ3に含まれていないというケースもあり得る。その場合は、そのようなテキストkに関する固有表現候補c[k,j]については単一テキスト解析手段4の結果をそのまま出力することにしてもよいし、あるいは、ステップS207の段階で、読み込み手段2によってリンク元あるいはリンク先のテキストを改めて読み込むことにしてもよい。
【0071】
テキストkに対するMk個の固有表現候補の確からしさの計算が終了したら、ステップS206を経て、次のテキスト(k+1)の処理へ進む。そして、N件のテキストに対する処理が完了したら、ステップS203を経て、フローチャート全体の処理が終了する。
【0072】
次に、本発明に係る第2の実施形態について添付図面を参照しながら詳細に説明する。図12には、本発明の固有表現判別装置を利用した地図検索装置の構成を示すブロック図が示されている。
【0073】
図12に示されるように固有表現判別装置を利用した地図情報検索装置は、ハイパーテキストデータベース50、固有表現判別装置51、位置依存コンテンツデータベース52、地図データベース53、データベース検索装置54、表示装置55、位置条件入力装置56を備える。
【0074】
ハイパーテキストデータベース50は、ハイパーテキストが格納されている。例えば、インターネット上のWWWがこれに相当する。
【0075】
固有表現判別装置51は、ハイパーテキストデータベース50内のテキストから地名表記を検出する。これまで説明した第1の実施の形態がこれに相当する。ただし、本実施形態は、固有表現のうち地名と判定されたもののみを使用する。
【0076】
位置依存コンテンツデータベース52は地名表記と、そのノードページ番号が対応付けられて格納されている。例えば、「東京都港区」という地名表記に関して、ノードページ31が対応し、「群馬県前橋市」という地名表記に関して、ノードページ40が対応している。
【0077】
地図データベース53は、地図の2次元座標データと、その上にマッピングされた地名表記を格納している。
【0078】
位置条件入力装置56は、「東京都港区」というような地名表記を利用者が入力するための装置である。キーボードのような文字列入力手段、マウスなどのポインティングディバイス、さらには、GPSのような人や車の現在位置を自動的に取得するシステムなどが用いられる。
【0079】
データベース検索装置54は、位置条件入力装置56で指定された条件で、地図データベース53と位置依存コンテンツデータベース52を検索して、その結果を表示装置55に表示する。
【0080】
図14は、図13の位置依存コンテンツデータベースを用いて地図上にコンテンツを表示した例である。位置条件入力装置56からは関東地方の地名が指示されたものとする。
【0081】
次に、本発明に係る第3の実施形態について図面を参照して詳細に説明する。図15を参照すると、本発明に係る第3の実施形態は、入力装置100、データ処理装置110、記憶装置120、出力装置140を備え、さらに、上述した第1の実施形態の固有表現判別装置を実現するためのプログラムを記録した記録媒体130を備える。この記録媒体130は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってよい。
【0082】
入力装置100は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置140は、表示画面、プリンタ等のデータ処理装置110による処理結果を出力する装置である。
【0083】
固有表現判別装置を実現するためのプログラムは、記録媒体130からデータ処理装置110に読み込まれ、データ処理装置110の動作を制御し、記憶装置120に入力メモリ3と中間メモリ5と出力メモリ7とを生成する。データ処理装置110は、固有表現判別装置を実現するためのプログラムの制御により第1の実施形態における読み込み手段2、複合テキスト解析手段6、及び単一テキスト解析手段4による処理と同一の処理を実行する。
【0084】
次に、本発明に係る第4の実施形態について図面を参照して詳細に説明する。図16を参照すると、本発明に係る第4の実施形態は、入力装置200、データ処理装置210、記憶装置220、出力装置240を備え、さらに、上述した第2の実施形態の地図情報検索装置を実現するためのプログラムを記録した記録媒体230を備える。この記録媒体230は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってよい。
【0085】
入力装置200は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置240は、表示装置、プリンタ等のデータ処理装置210による処理結果を出力する装置である。
【0086】
地図情報検索装置を実現するためのプログラムは、記録媒体230からデータ処理装置210に読み込まれ、データ処理装置210の動作を制御し、記憶装置220に入力メモリ3、中間メモリ5、出力メモリ7、位置依存コンテンツデータベース52、地図データベース53を生成する。データ処理装置210は、地図情報検索装置を実現するためのプログラムの制御により第1の実施形態における読み込み手段2、複合テキスト解析手段6、単一テキスト解析手段4、第2の実施形態におけるデータベース検索装置54による処理と同一の処理を実行する。
【0087】
上述した実施形態は、本発明の好適な実施の形態である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
【0088】
【発明の効果】
以上の説明より明らかなように本発明は、固有表現の検出・判別に関して、その固有表現の出現したテキスト内だけではなく、リンク元やリンク先のテキストも参照して解釈することで、従来よりも曖昧性を解消することが可能になり、高精度な固有表現判別を実現できる。
【図面の簡単な説明】
【図1】本発明の実施の形態を示すブロック図である。
【図2】本発明の実施の形態における処理対象の例を示す図である。
【図3】HTMLで記述されたテキストの例を示す図である。
【図4】中間メモリの管理テーブルの例を示す図である。
【図5】本発明の実施の形態における処理対象の例を示す図である。
【図6】複合テキスト解析手段の構成を表すブロック図である。
【図7】固有表現辞書の内容を示す図である。
【図8】本発明の実施の形態における処理対象の例を示す図である。
【図9】本発明の実施の形態における処理対象の例を示す図である。
【図10】本発明の実施の形態における処理対象の例を示す図である。
【図11】本発明の実施形態の動作を示すフローチャートである。
【図12】本発明に係る第2の実施の形態を示すブロック図である。
【図13】位置依存コンテンツデータベースのデータ内容を示す図である。
【図14】地図情報検索装置の表示結果を示す図である。
【図15】本発明に係る第3の実施の形態を示すブロック図である。
【図16】本発明に係る第4の実施の形態を示すブロック図である。
【符号の説明】
1 ハイパーテキストデータベース
2 読み込み手段
3 入力メモリ
4 単一テキスト解析手段
5 中間メモリ
6 複合テキスト解析手段
7 出力メモリ
10 リンク元ページ
11 リンク先ページ
12 リンク元キー文字列
13 リンク
14 リンク元キー文字列の前後一定範囲のテキスト
40 固有表現辞書における表記
41 固有表現辞書における種別
42 固有表現辞書における共起語
Claims (24)
- テキストに含まれる固有表現の解釈を判別する情報処理装置であって、
ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶手段と、
固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶手段と、
記憶された固有表現の候補をテキストから抽出する単一テキスト解析手段と、
第1のテキストから第2のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数nである場合に前記第1のテキストと前記第2のテキストとがn階層のリンク関係を有すると定義した場合において、前記テキスト記憶手段で記憶されたリンク関係を参照して前記候補を抽出したテキストと少なくとも1階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析手段と、
を備える装置。 - 請求項1に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列に含まれる頻度に応じて当該候補の解釈を判別する、装置。 - 請求項1又は2に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列の前後所定の範囲内で検出される頻度に応じて当該候補の解釈を判別する、装置。 - 請求項1乃至3のいずれか1項に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度から当該候補の解釈を判別できない場合に、前記他のテキストからのリンクをさらに辿ることにより、前記他のテキスト及び前記テキストではない新たな他のテキストを求め、前記求めた新たな他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する、装置。 - 請求項1乃至4のいずれか1項に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストを求める際に前記候補を抽出したテキストと予め定められた階層のリンク関係を有するテキストを前記他のテキストとする、装置。 - 請求項1乃至5のいずれか1項に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストを求める際に前記候補を抽出したテキストと1階層のリンク関係を有するテキストを前記他のテキストとする、装置。 - 請求項1乃至6のいずれか1項に記載の装置であって、
前記複合テキスト解析手段は、前記共起語の検出されたテキストの数を前記頻度とする、装置。 - 請求項1乃至6いずれか1項に記載の装置であって、
前記複合テキスト解析手段は、前記共起語の検出される位置に応じた重みを予め記憶し、
前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度を求める際に前記共起語が検出された位置に応じた重みによる重み付けを行う、装置。 - テキストに含まれる固有表現の解釈を判別する情報処理方法であって、
コンピュータが、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶ステップと、
コンピュータが、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶ステップと、
コンピュータが、記憶された固有表現の候補をテキストから抽出する単一テキスト解析ステップと、
コンピュータが、第1のテキストから第2のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数nである場合に前記第1のテキストと前記第2のテキストとがn階層のリンク関係を有すると定義した場合において、前記テキスト記憶ステップで記憶されたリンク関係を参照して前記候補を抽出したテキストと少なくとも1階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析ステップと、
を含む方法。 - 請求項9に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列に含まれる頻度に応じて当該候補の解釈を判別する、方法。 - 請求項9又は10に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列の前後所定の範囲内で検出される頻度に応じて当該候補の解釈を判別する、方法。 - 請求項9乃至11のいずれか1項に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度から当該候補の解釈を判別できない場合に、前記他のテキストからのリンクをさらに辿ることにより、前記他のテキスト及び前記テキストではない新たな他のテキストを求め、前記求めた新たな他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する、方法。 - 請求項9乃至12のいずれか1項に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストを求める際に前記候補を抽出したテキストと予め定められた階層のリンク関係を有するテキストを前記他のテキストとする、方法。 - 請求項9乃至13のいずれか1項に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストを求める際に前記候補を抽出したテキストと1階層のリンク関係を有するテキストを前記他のテキストとする、方法。 - 請求項9乃至14のいずれか1項に記載の方法であって、
前記複合テキスト解析ステップは、前記共起語の検出されたテキストの数を前記頻度とする、方法。 - 請求項9乃至14のいずれか1項に記載の方法であって、
前記複合テキスト解析ステップは、前記共起語の検出される位置に応じた重みを予め記憶し、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度を求める際に前記共起語が検出された位置に応じた重みによる重み付けを行う、方法。 - テキストに含まれる固有表現の解釈を判別する処理をコンピュータに実行させるプログラムを記録したコンピュータで読み込み可能な記録媒体であって、
コンピュータに、
ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶処理、
固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶処理、
記憶された固有表現の候補をテキストから抽出する単一テキスト解析処理、
第1のテキストから第2のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数nである場合に前記第1のテキストと前記第2のテキストとがn階層のリンク関係を有すると定義した場合において、前記テキスト記憶処理で記憶されたリンク関係を参照して前記候補を抽出したテキストと少なくとも1階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析処理、
を実行させるプログラムを記録した媒体。 - 請求項17に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列に含まれる頻度に応じて当該候補の解釈を判別する、媒体。 - 請求項17又は18に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列の前後所定の範囲内で検出される頻度に応じて当該候補の解釈を判別する、媒体。 - 請求項17乃至19のいずれか1項に記載の媒体であって、
前記複合テキスト解析処理は、前前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度から当該候補の解釈を判別できない場合に、前記他のテキストからのリンクをさらに辿ることにより、前記他のテキスト及び前記テキストではない新たな他のテキストを求め、前記求めた新たな他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する、媒体。 - 請求項17乃至20のいずれか1項に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストを求める際に前記候補を抽出したテキストと予め定められた階層のリンク関係を有するテキストを前記他のテキストとする、媒体。 - 請求項17乃至21のいずれか1項に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストを求める際に前記候補を抽出したテキストと1階層のリンク関係を有するテキストを前記他のテキストとする、媒体。 - 請求項17乃至22のいずれか1項に記載の媒体であって、
前記複合テキスト解析処理は、前記共起語の検出されたテキストの数を前記頻度とする、媒体。 - 請求項17乃至22のいずれか1項に記載の媒体であって、
前記複合テキスト解析処理は、前記共起語の検出される位置に応じた重みを予め記憶し、
前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度を求める際に前記共起語が検出された位置に応じた重みによる重み付けを行う、媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000278691A JP4200645B2 (ja) | 2000-09-08 | 2000-09-08 | 情報処理装置、情報処理方法および記録媒体 |
US09/947,696 US6975766B2 (en) | 2000-09-08 | 2001-09-07 | System, method and program for discriminating named entity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000278691A JP4200645B2 (ja) | 2000-09-08 | 2000-09-08 | 情報処理装置、情報処理方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002082943A JP2002082943A (ja) | 2002-03-22 |
JP4200645B2 true JP4200645B2 (ja) | 2008-12-24 |
Family
ID=18763816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000278691A Expired - Fee Related JP4200645B2 (ja) | 2000-09-08 | 2000-09-08 | 情報処理装置、情報処理方法および記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6975766B2 (ja) |
JP (1) | JP4200645B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160169696A1 (en) * | 2014-12-12 | 2016-06-16 | Square, Inc. | Dynamic reconfiguring of geo-fences |
US11288729B1 (en) | 2014-08-20 | 2022-03-29 | Block, Inc. | Predicting orders from buyer behavior |
US11587138B2 (en) | 2014-12-31 | 2023-02-21 | Block, Inc. | Gift card management |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7333966B2 (en) | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
US8037078B2 (en) | 2003-03-18 | 2011-10-11 | Nokia Corporation | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval |
US7254576B1 (en) * | 2004-05-17 | 2007-08-07 | Microsoft Corporation | System and method for locating and presenting electronic documents to a user |
US7865356B2 (en) * | 2004-07-15 | 2011-01-04 | Robert Bosch Gmbh | Method and apparatus for providing proper or partial proper name recognition |
US20060047690A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Integration of Flex and Yacc into a linguistic services platform for named entity recognition |
US20060047500A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Named entity recognition using compiler methods |
US20060047691A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Creating a document index from a flex- and Yacc-generated named entity recognizer |
US20060085392A1 (en) * | 2004-09-30 | 2006-04-20 | Microsoft Corporation | System and method for automatic generation of search results based on local intention |
US7483881B2 (en) | 2004-12-30 | 2009-01-27 | Google Inc. | Determining unambiguous geographic references |
US20060150076A1 (en) * | 2004-12-30 | 2006-07-06 | Microsoft Corporation | Methods and apparatus for the evaluation of aspects of a web page |
US20060150111A1 (en) * | 2004-12-30 | 2006-07-06 | Microsoft Corporation | Methods and apparatus for evaluating aspects of a web page |
JP4314221B2 (ja) | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
US7735010B2 (en) * | 2006-04-05 | 2010-06-08 | Lexisnexis, A Division Of Reed Elsevier Inc. | Citation network viewer and method |
US7685201B2 (en) * | 2006-09-08 | 2010-03-23 | Microsoft Corporation | Person disambiguation using name entity extraction-based clustering |
JP5245255B2 (ja) * | 2007-02-15 | 2013-07-24 | 富士通株式会社 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
US8112402B2 (en) | 2007-02-26 | 2012-02-07 | Microsoft Corporation | Automatic disambiguation based on a reference resource |
US8195655B2 (en) * | 2007-06-05 | 2012-06-05 | Microsoft Corporation | Finding related entity results for search queries |
US8046339B2 (en) * | 2007-06-05 | 2011-10-25 | Microsoft Corporation | Example-driven design of efficient record matching queries |
US8374844B2 (en) * | 2007-06-22 | 2013-02-12 | Xerox Corporation | Hybrid system for named entity resolution |
JP5315664B2 (ja) * | 2007-10-29 | 2013-10-16 | 沖電気工業株式会社 | 位置表現検出装置、プログラム、及び、記憶媒体 |
US8000956B2 (en) * | 2008-02-08 | 2011-08-16 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
US8370128B2 (en) | 2008-09-30 | 2013-02-05 | Xerox Corporation | Semantically-driven extraction of relations between named entities |
US20100094831A1 (en) * | 2008-10-14 | 2010-04-15 | Microsoft Corporation | Named entity resolution using multiple text sources |
US8200671B2 (en) * | 2009-02-26 | 2012-06-12 | Fujitsu Limited | Generating a dictionary and determining a co-occurrence context for an automated ontology |
US20110123967A1 (en) * | 2009-11-24 | 2011-05-26 | Xerox Corporation | Dialog system for comprehension evaluation |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
CN102955773B (zh) * | 2011-08-31 | 2015-12-02 | 国际商业机器公司 | 用于在中文文档中识别化学名称的方法及*** |
US8812301B2 (en) | 2011-09-26 | 2014-08-19 | Xerox Corporation | Linguistically-adapted structural query annotation |
JP5776539B2 (ja) * | 2011-12-26 | 2015-09-09 | 富士通株式会社 | 抽出装置、抽出プログラム、および抽出方法 |
US9189473B2 (en) | 2012-05-18 | 2015-11-17 | Xerox Corporation | System and method for resolving entity coreference |
US20140101542A1 (en) * | 2012-10-09 | 2014-04-10 | Microsoft Corporation | Automated data visualization about selected text |
US20150127323A1 (en) * | 2013-11-04 | 2015-05-07 | Xerox Corporation | Refining inference rules with temporal event clustering |
CN103678703B (zh) * | 2013-12-30 | 2017-01-11 | 中国科学院自动化研究所 | 一种借助图随机游走的开放类别命名实体抽取方法及装置 |
US9639601B2 (en) | 2014-06-06 | 2017-05-02 | Xerox Corporation | Question answering system adapted to style of user requests |
JP6435909B2 (ja) * | 2015-02-19 | 2018-12-12 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
CN104731771A (zh) * | 2015-03-27 | 2015-06-24 | 大连理工大学 | 一种基于词向量的缩写词歧义消除***及方法 |
US9836453B2 (en) | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
US9633007B1 (en) | 2016-03-24 | 2017-04-25 | Xerox Corporation | Loose term-centric representation for term classification in aspect-based sentiment analysis |
US10489439B2 (en) | 2016-04-14 | 2019-11-26 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN110162768B (zh) * | 2018-03-09 | 2022-12-30 | 腾讯科技(深圳)有限公司 | 实体关系的获取方法、装置、计算机可读介质及电子设备 |
EP3588324A1 (en) * | 2018-06-26 | 2020-01-01 | Tata Consultancy Services Limited | Methods and systems for performing a model driven domain specific search |
CN112949306B (zh) * | 2019-12-10 | 2024-04-30 | 医渡云(北京)技术有限公司 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
CN115221884A (zh) * | 2022-09-15 | 2022-10-21 | 北京铀媒科技有限公司 | 特定人物检测方法、***、存储介质及终端 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652221A (ja) | 1992-05-08 | 1994-02-25 | Fujitsu Ltd | 固有名詞の自動抽出方式 |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US6650998B1 (en) * | 1996-03-11 | 2003-11-18 | At&T Corp. | Information Search System for enabling a user of a user terminal to search a data source |
US5961601A (en) * | 1996-06-07 | 1999-10-05 | International Business Machines Corporation | Preserving state information in a continuing conversation between a client and server networked via a stateless protocol |
AUPO525497A0 (en) * | 1997-02-21 | 1997-03-20 | Mills, Dudley John | Network-based classified information systems |
US5893093A (en) * | 1997-07-02 | 1999-04-06 | The Sabre Group, Inc. | Information search and retrieval with geographical coordinates |
US6665687B1 (en) * | 1998-06-26 | 2003-12-16 | Alexander James Burke | Composite user interface and search system for internet and multimedia applications |
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
US6654813B1 (en) * | 1998-08-17 | 2003-11-25 | Alta Vista Company | Dynamically categorizing entity information |
-
2000
- 2000-09-08 JP JP2000278691A patent/JP4200645B2/ja not_active Expired - Fee Related
-
2001
- 2001-09-07 US US09/947,696 patent/US6975766B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11288729B1 (en) | 2014-08-20 | 2022-03-29 | Block, Inc. | Predicting orders from buyer behavior |
US20160169696A1 (en) * | 2014-12-12 | 2016-06-16 | Square, Inc. | Dynamic reconfiguring of geo-fences |
US10852151B2 (en) * | 2014-12-12 | 2020-12-01 | Square, Inc. | Dynamic reconfiguring of geo-fences |
US11587138B2 (en) | 2014-12-31 | 2023-02-21 | Block, Inc. | Gift card management |
Also Published As
Publication number | Publication date |
---|---|
US6975766B2 (en) | 2005-12-13 |
US20020031269A1 (en) | 2002-03-14 |
JP2002082943A (ja) | 2002-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4200645B2 (ja) | 情報処理装置、情報処理方法および記録媒体 | |
JP4767694B2 (ja) | 不正ハイパーリンク検出装置及びその方法 | |
JP3918531B2 (ja) | 類似文書検索方法およびシステム | |
US7669112B2 (en) | Automated spell analysis | |
KR101522049B1 (ko) | 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석 | |
US20080282151A1 (en) | Document segmentation based on visual gaps | |
EP2367121A1 (en) | Search system, search method, and program | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JPWO2010119615A1 (ja) | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム | |
JP2000231563A (ja) | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5426868B2 (ja) | 数値表現処理装置 | |
JP4821039B2 (ja) | 地名情報抽出装置、その抽出方法及び記録媒体 | |
JP2007072646A (ja) | 検索装置、検索方法およびプログラム | |
JP4254763B2 (ja) | 文書検索システム、文書検索方法及び文書検索プログラム | |
JP3765801B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム | |
JP4423841B2 (ja) | キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム | |
JPH08147311A (ja) | 構造化文書検索方法及び装置 | |
JP4826622B2 (ja) | 文書検索装置、検索方法及びプログラム | |
JP4010058B2 (ja) | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5115631B2 (ja) | 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置 | |
JP3249743B2 (ja) | 文書検索システム | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
JP7117168B2 (ja) | 情報処理装置および情報処理方法 | |
JP2005326952A (ja) | 概念辞書への単語登録方法、装置、およびプログラム | |
JP4360167B2 (ja) | キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060516 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080916 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080929 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131017 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |