JP2013134625A

JP2013134625A - 抽出装置、抽出プログラム、および抽出方法

Info

Publication number: JP2013134625A
Application number: JP2011284536A
Authority: JP
Inventors: Tomoya Iwakura; 友哉岩倉; Nobuyuki Igata; 伸之井形
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2013-07-08
Anticipated expiration: 2031-12-26
Also published as: JP5776539B2

Abstract

【課題】固有表現の抽出精度の向上を図ること。
【解決手段】抽出装置１００は、同一表記・種類単語判別規則３００を用いて、固有表現抽出の対象になるテキストデータ１１０の中から、同一表記かつ同一種類の単語の組を特定する。次に、抽出装置１００は、固有表現抽出用規則４００を用いて、特定された同一種類の単語の組を一纏めにして、単語の種類を抽出する。また、抽出装置１００は、同一表記であっても同一種類の他の単語がない単語、および同一表記の他の単語がない単語は個別に種類を特定する。
【選択図】図１

Description

本発明は、抽出装置、抽出プログラム、および抽出方法に関する。

自然言語処理の要素技術の一つに、電子化されたテキストの中から、人名や地名や組織名、時間表現、および数値表現といった種類の単語を抽出する固有表現抽出の技術がある（例えば、下記非特許文献１参照）。

固有表現抽出の技術は、情報検索、情報抽出、構文解析、またはテキストマイニングなどに利用される。なお、一般に、人名や地名や組織名といった固有名詞、時間表現、および数値表現といった種類の単語を総称して、固有表現という。

また、固有表現抽出の精度向上を図る技術の一つに、抽出対象のテキストの中で同一表記である複数の単語を、同一の種類の固有表現の単語として抽出するための技術がある（例えば、下記非特許文献２参照）。

また、関連する技術として、テキストから抽出した固有表現の種類の出現頻度から、抽出結果を修正する技術がある（例えば、下記特許文献１参照）。また、２種類の固有表現抽出器を組み合わせて使用する技術がある（例えば、下記特許文献２参照）。

また、固有表現抽出に用いられる規則を自動生成する機械学習技術の一つに、Ｂｏｏｓｔｉｎｇ学習の技術がある（例えば、下記特許文献３，４、および下記非特許文献３参照）。また、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）による学習の技術がある（例えば、下記非特許文献４，５参照）。

特開２００７−１４８７８５号公報特開２００６−３３０９３５号公報特開２０１０−３３２１３号公報特開２０１０−３３２１４号公報

ＫｉｙｏｔａｋａＵｃｈｉｍｏｔｏ，ＱｉｎｇＭａ，ＭａｓａｋｉＭｕｒａｔａ，ＨｉｒｏｍｉＯｚａｋｕ，ａｎｄＨｉｔｏｓｈｉＩｓａｈａｒａ，「ＮａｍｅｄＥｎｔｉｔｙＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＡＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌａｎｄＴｒａｎｓｆｏｒｍａｔｉｏｎＲｕｌｅｓ」ＡＣＬ‘００，ｐｐ．３２６−３３５ＪｅｎｎｙＲｏｓｅＦｉｎｋｅｌ，ＴｒｏｎｄＧｒｅｎａｇｅｒ，ａｎｄＣｈｒｉｓｔｏｐｈｅｒＭａｎｎｉｎｇ，「ＩｎｃｏｒｐｏｒａｔｉｎｇＮｏｎ−ｌｏｃａｌＩｎｆｏｒｍａｔｉｏｎｉｎｔｏＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎＳｙｓｔｅｍｓｂｙＧｉｂｂｓＳａｍｐｌｉｎｇ」ＡＣＬ‘０５，ｐｐ３６３−３７０ＲｏｂｅｒｔＥ．ＳｃｈａｐｉｒｅａｎｄＹｏｒａｍＳｉｎｇｅｒ，「ＢｏｏｓＴｅｘｔｅｒ：ＡＢｏｏｓｔｉｎｇ−ｂａｓｅｄＳｙｓｔｅｍｆｏｒＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ」ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＶｏｌｕｍｅ３９，Ｎｕｍｂｅｒｓ２−３，ｐｐ１３５−１６８ＶｌａｄｉｍｉｒＮ．Ｖａｐｎｉｋ，「ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ」Ｗｉｌｅｙ−Ｉｎｔｅｒｓｃｉｅｎｃｅ，１９９８．Ｔ．Ｊｏａｃｈｉｍｓ，「ＴｒａｉｎｉｎｇＬｉｎｅａｒＳＶＭｓｉｎＬｉｎｅａｒＴｉｍｅ」ＰｒｏｃｅｅｄｉｎｇＫＤＤ ‘０６Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＡＣＭＳＩＧＫＤＤｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ．

しかしながら、上述した従来技術では、抽出対象のテキストの中に同一表記の単語群がある場合に、同一の文書内であれば、同一表記の単語の固有表現の種類は同じになりやすいという仮定を基に、同じ表記の単語が同じ固有表現の種類となる場合に高いスコアを与える方法である。そのため、この仮定が成り立たない場合は、誤って当該単語群をまとめて同一の種類の単語として抽出してしまうという問題がある。

本発明は、上述した従来技術による問題点を解消するため、固有表現の抽出精度の向上を図ることができる抽出装置、抽出プログラム、および抽出方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明の一側面によれば、共起単語の組み合わせと、共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部と、共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部と、を備え、一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出し、検出された第１の単語が共起単語の一方とともに出現し、かつ、検出された第２の単語が共起単語の他方とともに出現する判別規則が第１の記憶部にあるか否かを判別し、判別規則がある場合、当該判別規則から第１の単語と第２の単語とが同一種類か否かを判別し、同一種類であると判別された場合、一連の単語の中から、第１の単語および第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、特定された組み合わせに関連付けられた単語の種類を示す情報を第２の記憶部に記憶されている抽出用規則から抽出し、第１の単語および第２の単語に付与し、付与された一連の単語を出力する抽出装置、抽出プログラム、および抽出方法が提案される。

本発明の一側面によれば、固有表現の抽出精度の向上を図ることができるという効果を奏する。

図１は、抽出装置による固有表現抽出の内容を示す説明図である。図２は、抽出装置１００のハードウェア構成例を示すブロック図である。図３は、同一表記・種類単語判別規則３００の記憶内容の一例を示す説明図である。図４は、固有表現抽出用規則４００の記憶内容の一例を示す説明図である。図５は、抽出装置１００の機能的構成を示すブロック図である。図６は、抽出装置１００による規則学習処理に用いられる学習データの例１を示す説明図である。図７は、図６に示した学習データ群６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その１）である。図８は、図６に示した学習データ群６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その２）である。図９は、図６に示した学習データ群６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その３）である。図１０は、実施例１にかかる規則学習処理の詳細な処理手順を示すフローチャート（その１）である。図１１は、実施例１にかかる規則学習処理の詳細な処理手順を示すフローチャート（その２）である。図１２は、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例１を示す説明図（その１）である。図１３は、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例１を示す説明図（その２）である。図１４は、実施例１にかかる抽出装置１００による固有表現抽出結果の出力例１を示す説明図である。図１５は、実施例１にかかる固有表現抽出処理の詳細な処理手順を示すフローチャートである。図１６は、抽出装置１００による規則学習処理に用いられる学習データの例２を示す説明図である。図１７は、図１６に示した学習データ群１６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その１）である。図１８は、図１６に示した学習データ群１６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その２）である。図１９は、図１６に示した学習データ群１６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その３）である。図２０は、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例２を示す説明図（その１）である。図２１は、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例２を示す説明図（その２）である。図２２は、実施例１にかかる抽出装置１００による固有表現抽出結果の出力例２を示す説明図である。図２３は、実施例２にかかる抽出装置１００による規則学習処理に用いられるチャンクのラティスの一例を示す説明図である。図２４は、図２３で生成されたチャンクのラティスを用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その１）である。図２５は、図２３で生成されたチャンクのラティスを用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その２）である。図２６は、図２３で生成されたチャンクのラティスを用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図（その３）である。図２７は、実施例２にかかる規則学習処理の詳細な処理手順を示すフローチャート（その１）である。図２８は、実施例２にかかる規則学習処理の詳細な処理手順を示すフローチャート（その２）である。図２９は、抽出装置１００による固有表現抽出の対象になるチャンクのラティスの一例を示す説明図である。図３０は、実施例２にかかる抽出装置１００による固有表現抽出処理の具体例を示す説明図（その１）である。図３１は、実施例２にかかる抽出装置１００による固有表現抽出処理の具体例を示す説明図（その２）である。図３２は、実施例２にかかる抽出装置１００による固有表現抽出結果の出力例を示す説明図である。図３３は、実施例２にかかる固有表現抽出処理の詳細な処理手順を示すフローチャートである。

以下に添付図面を参照して、この発明にかかる抽出装置、抽出プログラム、および抽出方法の実施の形態を詳細に説明する。

（抽出装置による固有表現抽出の内容）
まず、図１を用いて、抽出装置による固有表現抽出の内容について説明する。

図１は、抽出装置による固有表現抽出の内容を示す説明図である。図１において、抽出装置１００は、固有表現の抽出対象になるテキストデータ１１０の中から、固有表現を抽出する装置である。抽出装置１００は、固有表現の抽出のために参照される同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを有する。

同一表記・種類単語判別規則３００は、判別規則を記憶するテーブルである。判別規則は、同一表記の１組の単語が同一の固有表現の種類の単語か否かを判別するために参照される規則である。判別規則は、例えば、共起単語の組み合わせと、当該共起単語の組み合わせの各々とともに出現する同一表記の１組の単語が同一種類であるか否かを示す情報と、を関連付けた規則である。

ここで、共起単語とは、文章の中で、同一表記の２つの単語が存在する場合に、その各々とともに出現した単語である。例えば、「宮崎出身の宮崎さん」の場合、２つの「宮崎」が同一表記の２つの単語であり、各「宮崎」とともに出現する「出身」および「さん」が共起単語となる。また、共起単語どうしは通常異なる表記であるが、本実施の形態では、同一表記の単語どうしであっても共起単語の組み合わせとして扱う。なお、図１の「○」は同一種類であることを示す情報であり、「×」は異なる種類であることを示す情報である。

図１の例では、最初の「出身」の前の「宮崎」は「場所」であり、次の「さん」の前の「宮崎」は人名であるため、これら２つの単語に対する判別結果は、同一種類でないことを示す「×」になる。また、例えば、テキストデータが「宮崎出身の友達と宮崎に行く」であれば、両方の「宮崎」は「場所」であるため、これら２つの単語に対する判別結果は、同一種類であることを示す「○」になる。

固有表現抽出用規則４００は、抽出用規則を記憶するテーブルである。抽出用規則は、或る単語が何の種類の単語かを抽出するために参照される規則である。抽出用規則は、例えば、種類を抽出する対象になる単語から所定距離に或る単語が存在する場合には、種類を抽出する対象になる単語が何の種類かを示す規則である。なお、図１の「出身：＋１」は種類を抽出する対象になる単語の１単語分後ろに共起単語「出身」が存在することを示す情報である。「ＬＯＣ（ＬＯＣＡＴＩＯＮ）」は単語の種類が場所であることを示す情報であり、「ＰＥＲ（ＰＥＲＳＯＮ）」は単語の種類が人であることを示す情報である。

図１の例では、固有表現の抽出対象になるテキストデータ１１０が「宮崎出身の宮崎さんと宮崎へ行く。」である場合を例に挙げて、抽出装置１００による固有表現抽出の内容について説明する。

（１）まず、抽出装置１００は、テキストデータ１１０の中から、同一表記の単語を検出し、検出した単語が同一種類の固有表現であるか否かを判別する。これにより、抽出装置１００は、同一表記かつ同一種類の単語を検出し、以降の処理で同一表記かつ同一種類の単語を一纏めにして扱うことができるようになる。

図１の例では、抽出装置１００は、テキストデータ１１０の中から、同一表記の単語として、「宮崎」１１１および「宮崎」１１２の組を検出する。次に、抽出装置１００は、テキストデータ１１０の中から、「宮崎」１１１と「宮崎」１１２の各々とともに出現する単語の組み合わせを、同一種類か否かを判別する手がかりとして特定する。ここで、手がかりとは、或るデータの判別の際に指標になるキーである。抽出装置１００は、具体的には、例えば、「宮崎」１１１と「宮崎」１１２の各々の前後２単語分の距離以内にある単語の組み合わせ「出身＆さん」、「の＆さん」などを、同一種類か否かを判別する手がかりとして特定する。

ここで、同一表記・種類単語判別規則３００には、特定した手がかり「出身＆さん」に該当する共起単語「出身」と「さん」が記憶されている。そして、同一表記・種類単語判別規則３００には、当該共起単語の各々とともに出現する同一表記の１組の単語が異なる種類であることを示す判別結果「×」を含む判別規則が記憶されている。そのため、抽出装置１００は、同一表記・種類単語判別規則３００と手がかり「出身＆さん」とから、「宮崎」１１１と「宮崎」１１２とが異なる種類であると判別する。

同様に、抽出装置１００は、テキストデータ１１０の中から、同一表記の単語として、「宮崎」１１１および「宮崎」１１３を検出する。次に、抽出装置１００は、テキストデータ１１０の中から、「宮崎」１１１と「宮崎」１１３の各々とともに出現する単語の組み合わせ「出身＆へ」、「出身＆行く」などを手がかりとして特定する。

ここで、同一表記・種類単語判別規則３００には、特定した手がかり「出身＆行く」に該当する共起単語「出身」と「行く」が記憶されている。そして、同一表記・種類単語判別規則３００には、当該共起単語の各々とともに出現する同一表記の１組の単語が同一種類であることを示す判別結果「○」を含む判別規則が記憶されている。そのため、抽出装置１００は、同一表記・種類単語判別規則３００と手がかり「出身＆行く」とから、「宮崎」１１１と「宮崎」１１３とが同一種類であると判別する。

同様に、抽出装置１００は、テキストデータ１１０の中から、同一表記の単語として、「宮崎」１１２および「宮崎」１１３を検出する。次に、抽出装置１００は、テキストデータ１１０の中から、「宮崎」１１２と「宮崎」１１３の各々とともに出現する単語の組み合わせ「さん＆へ」、「さん＆行く」などを手がかりとして特定する。

ここで、同一表記・種類単語判別規則３００には、特定した手がかり「さん＆行く」に該当する共起単語「さん」と「行く」が記憶されている。そして、同一表記・種類単語判別規則３００には、当該共起単語の各々とともに出現する同一表記の１組の単語が異なる種類であることを示す判別結果「×」を含む判別規則が記憶されている。そのため、抽出装置１００は、同一表記・種類単語判別規則３００と手がかり「さん＆行く」とから、「宮崎」１１２と「宮崎」１１３とが異なる種類であると判別する。

これにより、抽出装置１００は、「宮崎」１１１と「宮崎」１１３とを同一表記かつ同一種類の単語であると判別し、以降の処理で「宮崎」１１１と「宮崎」１１３とを一纏めにして扱うことができるようになる。

（２）抽出装置１００は、テキストデータ１１０のうち、（１）で同一表記かつ同一種類と判別された単語を一纏めにしておく。そして、抽出装置１００は、テキストデータ１１０の中の単語ごとに、または一纏めにされた単語ごとに、固有表現の抽出のための手がかりを特定し、特定した手がかりから単語の種類を抽出する。これにより、抽出装置１００は、同一表記かつ同一種類の単語については、一纏めにして同じ単語の種類を抽出することができる。また、抽出装置１００は、同一表記であっても異なる種類の単語については、他の同一表記の単語とは別個に単語の種類を抽出することができるようになる。

図１の例では、抽出装置１００は、同一表記かつ同一種類と判別された「宮崎」１１１と「宮崎」１１３を一纏めにして、「宮崎」１１１と「宮崎」１１３の各々から所定距離以内に存在する単語と当該単語までの距離の組み合わせを、抽出の手がかりとして特定する。ここで、距離とは、単語間の距離であり、単語数や文字数で決定される。以下では、距離として、文章の後ろ方向を「＋」として表記した単語数、および文章の前方向を「−」として表記した単語数を採用する。例えば、或る単語の「１単語後ろ」に存在する単語の、或る単語からの距離は、「＋１」である。また、例えば、或る単語の「１単語前」に存在する単語の、或る単語からの距離は、「−１」である。なお、或る単語自体の、或る単語からの距離は、「０」とする。

なお、図１では、所定距離として、前後２単語分の距離を採用する。抽出装置１００は、具体的には、例えば、「宮崎」１１１から「１単語後ろ」に「出身」が存在するため、「出身：＋１」を手がかりとして特定する。同様に、抽出装置１００は、「の：＋２」、「さん：−２」、「と：−１」、「へ：＋１」、および「行く：＋２」を手がかりとして特定する。

ここで、固有表現抽出用規則４００には、手がかり「出身：＋１」が示す単語の種類が「ＬＯＣ」であることを示す抽出用規則が記憶されている。また、固有表現抽出用規則４００には、手がかり「行く：＋２」が示す単語の種類が「ＬＯＣ」であることを示す抽出用規則が記憶されている。そのため、抽出装置１００は、固有表現抽出用規則４００と手がかり「出身：＋１」と「行く：＋２」とから、「宮崎」１１１と「宮崎」１１３の種類が、「ＬＯＣ」であると抽出する。

一方、抽出装置１００は、同一種類の他の単語がない「宮崎」１１２については、「宮崎」１１２から前後２単語分の距離以内に存在する単語と当該単語までの距離との組み合わせを、抽出の手がかりとして特定する。抽出装置１００は、具体的には、例えば、「出身：−２」、「の：−１」、「さん：＋１」、および「と：＋２」を手がかりとして特定する。ここで、固有表現抽出用規則４００には、「さん：＋１」が示す単語の種類が「ＰＥＲ」であることを示す抽出用規則が記憶されている。そのため、抽出装置１００は、固有表現抽出用規則４００と「さん：＋１」とから、「宮崎」１１２の種類が、「ＰＥＲ」であると抽出する。

これにより、抽出装置１００は、同一表記かつ同一種類の「宮崎」１１１と「宮崎」１１３については、一纏めにして同じ種類「ＬＯＣ」を抽出することができる。また、抽出装置１００は、同一表記であっても異なる種類の「宮崎」１１２については、他の同一表記の「宮崎」１１１と「宮崎」１１３とは別個に単語の種類「ＰＥＲ」を抽出することができるようになる。

結果として、抽出装置１００は、同一表記かつ同一種類の単語を一纏めにして同じ種類の単語として抽出することで、同一種類の単語を異なる種類の単語として抽出することを防止して、抽出精度の向上を図ることができる。また、抽出装置１００は、同一表記であっても異なる種類の単語同士を、別個に扱って単語の種類を抽出することで、誤って同じ種類の単語として抽出することを防止し、抽出精度の向上を図ることができる。

（３）そして、抽出装置１００は、抽出結果を出力する。抽出装置１００は、具体的には、例えば、抽出した単語の種類をタグとして付与したテキストデータ１１０を、ディスプレイに出力する。なお、抽出装置１００は、付与後のテキストデータ１１０をネットワークを介して他のコンピュータに送信してもよいし、記録媒体に出力してもよい。これにより、抽出装置１００は、テキストデータ１１０の中の単語の種類を抽出装置１００の利用者に通知することができる。また、抽出装置１００は、他のソフトウェア（例えば翻訳ソフトウェア、または情報検索ソフトウェア）に、タグを付与したテキストデータ１１０を提供することができる。

なお、抽出装置１００は、表記揺れがある単語（例えば「宮崎」と「みやざき」と「ミヤザキ」など）に関しては、表記揺れがある場合を含めて同一表記と判断するようにしてもよい。また、抽出装置１００は、共起単語が活用可能な場合（例えば「行く」と「行き」と「行け」など）、活用した場合を含めて同一の共起単語として扱ってもよい。

（抽出装置１００のハードウェア構成例）
次に、図２を用いて、抽出装置１００のハードウェア構成例について説明する。

図２は、抽出装置１００のハードウェア構成例を示すブロック図である。図２において、抽出装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、磁気ディスクドライブ２０４と、磁気ディスク２０５と、光ディスクドライブ２０６と、光ディスク２０７と、ディスプレイ２０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０９と、キーボード２１０と、マウス２１１と、スキャナ２１２と、プリンタ２１３と、を備えている。また、各構成部はバス２２０によってそれぞれ接続されている。

ここで、ＣＰＵ２０１は、抽出装置１００の全体の制御を司る。ＲＯＭ２０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。磁気ディスクドライブ２０４は、ＣＰＵ２０１の制御にしたがって磁気ディスク２０５に対するデータのリード／ライトを制御する。磁気ディスク２０５は、磁気ディスクドライブ２０４の制御で書き込まれたデータを記憶する。

光ディスクドライブ２０６は、ＣＰＵ２０１の制御にしたがって光ディスク２０７に対するデータのリード／ライトを制御する。光ディスク２０７は、光ディスクドライブ２０６の制御で書き込まれたデータを記憶したり、光ディスク２０７に記憶されたデータをコンピュータに読み取らせたりする。

ディスプレイ２０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ２０８は、例えば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

インターフェース（以下、「Ｉ／Ｆ」と略する。）２０９は、通信回線を通じてＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク２１４に接続され、このネットワーク２１４を介して他の装置に接続される。そして、Ｉ／Ｆ２０９は、ネットワーク２１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ２０９には、例えばモデムやＬＡＮアダプタなどを採用することができる。

キーボード２１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス２１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

スキャナ２１２は、画像を光学的に読み取り、抽出装置１００内に画像データを取り込む。なお、スキャナ２１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ２１３は、画像データや文書データを印刷する。プリンタ２１３には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。

（同一表記・種類単語判別規則３００の記憶内容）
次に、図３を用いて、図１に示した同一表記・種類単語判別規則３００の記憶内容について説明する。上述したように、同一表記・種類単語判別規則３００は、抽出装置１００が有するテーブルであり、判別規則を記憶する。判別規則は、同一表記の１組の単語が同一種類の単語か否かを判別するために参照される規則である。判別規則は、例えば、共起単語の組み合わせと、当該共起単語の組み合わせの各々とともに出現する同一表記の１組の単語が同一種類であるか否かを示す情報と、を関連付けた規則である。なお、同一表記・種類単語判別規則３００は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などにより実現される。

図３は、同一表記・種類単語判別規則３００の記憶内容の一例を示す説明図である。図３に示すように、同一表記・種類単語判別規則３００は、規則項目のそれぞれに対応付けて、判別結果項目を有し、規則ごとにレコードを構成する。

規則項目には、同一表記の１組の単語の各々とともに出現する共起単語の組み合わせが記憶される。規則項目には、具体的には、例えば、共起単語「出身」と「さん」の組み合わせや共起単語「出身」と「行く」の組み合わせが記憶される。判別結果項目には、規則項目の組み合わせの共起単語の各々とともに出現する同一表記の１組の単語が同一種類であるか否かを示す情報が記憶される。なお、図３では、同一種類である場合には「○」を表記し、異なる種類である場合には「×」を表記している。

（固有表現抽出用規則４００の記憶内容）
次に、図４を用いて、図１に示した固有表現抽出用規則４００の記憶内容について説明する。上述したように、固有表現抽出用規則４００は、抽出装置１００が有するテーブルであり、抽出用規則を記憶する。抽出用規則は、或る単語が何の種類の単語かを抽出するために参照される規則である。抽出用規則は、例えば、種類を抽出する対象になる単語から所定距離に或る単語が存在する場合には、種類を抽出する対象になる単語が何の種類かを示す規則である。なお、固有表現抽出用規則４００は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などにより実現される。

図４は、固有表現抽出用規則４００の記憶内容の一例を示す説明図である。図４に示すように、抽出用規則は、規則項目のそれぞれに対応付けて、種類項目を有し、規則ごとにレコードを構成する。

規則項目には、抽出対象の単語の共起単語と、抽出対象の単語から共起単語までの距離と、の組み合わせが記憶される。上述したように、距離とは、単語間の距離であり、単語数や文字数で決定される。距離としては、例えば、文章の後ろ方向を「＋」として表記した単語数が採用される。例えば、或る単語の「１単語後ろ」に存在する単語の、或る単語からの距離は、「＋１」である。規則項目には、具体的には、例えば、或る単語の「１単語後ろ」に「出身」が存在することを示す「出身：＋１」が記憶される。

種類項目には、規則項目の組み合わせに該当する場合における抽出対象の単語の種類が記憶される。なお、抽出対象の単語の種類には、例えば、「組織名（ＯＲＧＡＮＩＺＡＴＩＯＮ）」、「人名（ＰＥＲＳＯＮ）」、「地名（ＬＯＣＡＴＩＯＮ）、「日付表現（ＤＡＴＥ）」、「時間表現（ＴＩＭＥ）」、「金額表現（ＭＯＮＥＹ）」、「割合表現（ＰＥＲＣＥＮＴ）」、「固有物名（ＡＲＴＩＦＡＣＴ）」などがある。

（抽出装置１００の機能的構成例）
次に、図５を用いて、抽出装置１００の機能的構成例について説明する。

図５は、抽出装置１００の機能的構成を示すブロック図である。抽出装置１００は、第１の記憶部５０１と、第２の記憶部５０２と、入力部５０３と、検出部５０４と、判別部５０５と、特定部５０６と、抽出部５０７と、出力部５０８と、第１の取得部５０９と、第２の取得部５１０と、判断部５１１と、生成部５１２と、格納部５１３と、変換部５１４と、を含む構成である。入力部５０３〜生成部５１２、および変換部５１４は、具体的には、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、Ｉ／Ｆ２０９により、その機能を実現する。

抽出装置１００は、例えば、単語単位で分割された一連の単語の中から固有表現の単語を抽出することができる。また、抽出装置１００は、チャンクをノードとしてその間をリンクでつないだチャンクのラティスの中から固有表現のチャンクを抽出してもよい。ここで、チャンクとは、１または複数の単語の塊である。以下では、まず、単語単位で分割された一連の単語の中から固有表現の単語を抽出する場合の抽出装置１００の機能について説明する。なお、単語単位で分割された一連の単語の中から固有表現の単語を抽出する具体例は、図１を用いて説明した例、図１２〜図１４を用いて後述する例、または図２０〜図２２を用いて後述する例である。

入力部５０３は、固有表現抽出の対象になる一連の単語の入力を受け付ける。入力部５０３は、具体的には、例えば、キーボード２１０を介して抽出装置１００の利用者からのテキストデータ１１０の入力を受け付ける。また、入力部５０３は、具体的には、例えば、Ｉ／Ｆ２０９を介して受信されたテキストデータ１１０を受け付けてもよい。なお、受け付けたデータは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、入力部５０３は、固有表現抽出の対象になる一連の単語の入力を受け付けて、固有表現抽出処理を開始するトリガを発生させることができる。

第１の記憶部５０１は、共起単語の組み合わせと、共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する。ここで、共起単語とは、文章の中で、或る単語と同時に出現する単語である。第１の記憶部５０１は、具体的には、例えば、上述した同一表記・種類単語判別規則３００である。

第２の記憶部５０２は、共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する。ここで、距離とは、単語間の距離であり、単語数や文字数で決定される。距離としては、例えば、始点になる単語から何単語目であるかを示す情報を採用できる。

より具体的には、例えば、文章上で始点になる単語から１単語分後ろに存在する単語までの距離は、「＋１」になる。また、文章上で始点になる単語から１単語分前に存在する単語までの距離は、「−１」になる。第２の記憶部５０２は、具体的には、例えば、上述した固有表現抽出用規則４００である。

検出部５０４は、一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出する。検出部５０４は、具体的には、例えば、入力部５０３によって入力されたテキストデータ１１０を形態素解析して、テキストデータ１１０を単語ごとに分割し、一連の単語を生成する。そして、検出部５０４は、生成した一連の単語の中から、同一表記の単語を検出する。

検出部５０４は、図１の例では、テキストデータ１１０「宮崎（２０１）出身の宮崎（２０２）さんと宮崎（２０３）へ行く。」を形態素解析し、単語ごとに分割して「宮崎出身の宮崎さんと宮崎へ行く。」を生成する。なお、（）内の数字は、図１に示した符号２０１〜２０３である。そして、検出部５０４は、同一表記の「宮崎」１１１と「宮崎」１１２の組と「宮崎」１１１と「宮崎」１１３の組と「宮崎」１１２と「宮崎」１１３の組を検出する。以下では、「宮崎」１１１と「宮崎」１１３の組を例に挙げて説明を行う。

なお、検出された単語は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、検出部５０４は、判別部５０５による判別対象になる単語の組を検出し、判別部５０５に単語の組が同一の種類か否かを判別させることができる。

判別部５０５は、検出部５０４によって検出された第１の単語が共起単語の一方とともに出現し、かつ、検出部５０４によって検出された第２の単語が共起単語の他方とともに出現する判別規則が第１の記憶部５０１にあるか否かを判別する。そして、判別部５０５は、判別規則がある場合、当該判別規則から第１の単語と第２の単語が同一種類か否かを判別する。

判別部５０５は、具体的には、例えば、検出部５０４によって検出された同一表記の単語の各々の周辺に存在する単語の組み合わせを、判別の手がかりとして特定する。ここで、手がかりとは、単語の判別のための指標になるキーである。なお、周辺に存在する単語とは、所定距離以内にある単語であり、例えば、同一表記の単語の各々の前後２単語分の距離以内にある単語である。

次に、判別部５０５は、同一表記・種類単語判別規則３００の規則項目の共起単語の組み合わせの中に、特定した手がかりのいずれかに該当する組み合わせがあるか否かを判別する。そして、判別部５０５は、該当する組み合わせがある場合、当該組み合わせに対応する判別結果項目を参照し、同一表記の単語が同一種類か否かを判別する。

判別部５０５は、より具体的には、例えば、検出部５０４によって検出された「宮崎」１１１と「宮崎」１１３の各々の周辺に存在する単語の組み合わせ「出身＆へ」、「出身＆行く」などを判別の手がかりとして特定する。次に、判別部５０５は、同一表記・種類単語判別規則３００に、特定した手がかり「出身＆行く」に該当する共起単語「出身」と「行く」があると判別する。そして、判別部５０５は、当該共起単語の組み合わせに対応する判別結果項目に、同一種類であることを示す情報があるため、「宮崎」１１１と「宮崎」１１３とが同一種類であると判別する。

なお、判別部５０５は、該当する組み合わせがない場合、同一表記の単語を異なる種類の単語と判別してもよい。なお、判別結果は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、判別部５０５は、単語の種類の抽出において、一纏めにして扱うべき単語の組を検出することができる。

特定部５０６は、判別部５０５によって同一種類であると判別された場合、一連の単語の中から、第１の単語および第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定する。特定部５０６は、具体的には、例えば、同一表記かつ同一種類の単語が存在する場合、各々の単語から前後２単語分の距離にある単語と当該単語までの距離とを、抽出の手がかりとして特定する。

特定部５０６は、より具体的には、例えば、判別部５０５によって同一種類と判別された「宮崎」１１１と「宮崎」１１３とを一纏めにして扱う。そして、特定部５０６は、「宮崎」１１１と「宮崎」１１３の各々から前後２単語分の距離以内に存在する単語と当該単語までの距離との組み合わせを、抽出の手がかりとして特定する。ここで、特定部５０６は、抽出の手がかりとして、「出身：＋１」、「の：＋２」、「さん：−２」、「と：−１」、「へ：＋１」、および「行く：＋２」を特定する。

なお、特定された手がかりは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、特定部５０６は、抽出部５０７により単語の種類を抽出するために用いられる手がかりを特定することができる。

抽出部５０７は、特定部５０６によって特定された組み合わせに関連付けられた単語の種類を示す情報を第２の記憶部５０２に記憶されている抽出用規則から抽出し、第１の単語および第２の単語に付与する。

抽出部５０７は、具体的には、例えば、固有表現抽出用規則４００の規則項目の単語と当該単語までの距離の組み合わせの中から、特定部５０６によって特定された手がかりのいずれかに該当する組み合わせがあるか否かを判別する。次に、抽出部５０７は、該当する組み合わせがある場合、当該組み合わせに対応する種類項目から、単語の種類を抽出する。そして、抽出部５０７は、抽出した単語の種類を示すタグを、文章上の同一表記かつ同一種類の単語の各々に付与する。

抽出部５０７は、より具体的には、例えば、固有表現抽出用規則４００に、特定部５０６によって特定された手がかり「出身：＋１」に該当する規則項目があると判別し、当該規則項目に対応する種類項目から単語の種類が「ＬＯＣ」であることを示す情報を抽出する。また、抽出部５０７は、固有表現抽出用規則４００に、特定部５０６によって特定された手がかり「行く：＋２」に該当する規則項目があると判別し、当該規則項目に対応する種類項目から単語の種類が「ＬＯＣ」であることを示す情報を抽出する。そして、抽出部５０７は、「宮崎」１１１と「宮崎」１１３の種類として、「ＬＯＣ」を抽出する。

そして、抽出部５０７は、タグを付与したテキストデータ１１０「＜ＬＯＣ＞宮崎＜／ＬＯＣ＞出身の＜ＰＥＲ＞宮崎＜／ＰＥＲ＞さんと＜ＬＯＣ＞宮崎＜／ＬＯＣ＞へ行く。」を生成する。なお、抽出された単語の種類を示す情報は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、抽出部５０７は、同一表記かつ同一種類の単語については、同一の単語の種類を抽出することができる。結果として、抽出部５０７は、同一表記であっても異なる種類の単語については、別個に単語の種類を抽出することができる。

出力部５０８は、抽出部５０７により付与された一連の単語を出力する。出力部５０８は、具体的には、例えば、抽出した単語の種類をタグとして付与したテキストデータ１１０を、ディスプレイ２０８に出力する。また、出力部５０８は、付与後のテキストデータ１１０をＩ／Ｆ２０９を介して他のコンピュータに送信してもよいし、記録媒体に出力してもよい。これにより、出力部５０８は、テキストデータ１１０の中の単語の種類を抽出装置１００の利用者に通知することができる。また、出力部５０８は、他のソフトウェア（例えば翻訳ソフトウェア、または情報検索ソフトウェア）に、タグを付与したテキストデータ１１０を提供することができる。

また、抽出装置１００は、上述した固有表現の抽出に用いられる同一表記・種類単語判別規則３００および固有表現抽出用規則４００を、学習データ群から自動生成することができる。以下では、まず、同一表記・種類単語判別規則３００を生成する場合の抽出装置１００の機能について説明する。この機能は、第１の取得部５０９と、第２の取得部５１０と、判断部５１１と、生成部５１２と、格納部５１３と、により実現される。なお、同一表記・種類単語判別規則３００を生成する具体例は、図６，図７を用いて後述する。

第１の取得部５０９は、単語の種類を示す情報が付与された単語を含む単語列の中から同一表記の単語の組み合わせを取得する。ここで、単語列とは、同一表記・種類単語判別規則３００および固有表現抽出用規則４００の生成に用いられる学習データである。単語の種類を示す情報とは、学習データに付与された単語の種類を示すタグである。なお、タグは、学習データの作成者によって付与される。ここで、図６を用いて、同一表記・種類単語判別規則３００および固有表現抽出用規則４００の生成に用いられる学習データについて説明する。

図６は、学習データの例１を示す説明図である。図６に示すように、同一表記・種類単語判別規則３００および固有表現抽出用規則４００の生成のために、タグが付与された複数の学習データを含む学習データ群６００が用意される。

例えば、学習データ群６００には、学習データ６１０「＜ＬＯＣ＞宮崎＜／ＬＯＣ＞出身の＜ＰＥＲ＞宮崎＜／ＰＥＲ＞さんと＜ＬＯＣ＞宮崎＜／ＬＯＣ＞へ行く。」が含まれる。学習データ６１０の中の「宮崎」６１１には「ＬＯＣ」のタグが付与され、「宮崎」６１２には「ＰＥＲ」のタグが付与され、「宮崎」６１３には「ＬＯＣ」のタグが付与されている。

また、学習データ群６００には、学習データ６２０「＜ＰＥＲ＞福岡＜／ＰＥＲ＞さんと＜ＰＥＲ＞宮崎＜／ＰＥＲ＞さんが＜ＬＯＣ＞福岡＜／ＬＯＣ＞へ行く。」が含まれる。学習データ６２０の中の福岡６２１には「ＰＥＲ」のタグが付与され、宮崎６２２には「ＰＥＲ」のタグが付与され、福岡６２３には「ＬＯＣ」のタグが付与されている。

また、学習データ群６００には、学習データ６３０「＜ＰＥＲ＞宮崎＜／ＰＥＲ＞さんは新幹線で＜ＬＯＣ＞宮崎＜／ＬＯＣ＞へ行く。」が含まれる。学習データ６３０の中の宮崎６３１には「ＰＥＲ」のタグが付与され、宮崎６３２には「ＬＯＣ」のタグが付与されている。

抽出装置１００は、このような学習データ群６００を用いることで、同一表記であって「ＬＯＣ」と「ＰＥＲ」との２種類になりうる単語の組があった場合に、当該単語の組が同一種類か否かを判別するための判別規則を生成することができる。また、抽出装置１００は、単語の種類が「ＬＯＣ」であるか「ＰＥＲ」であるかを抽出するための抽出用規則を生成することができる。

図５に戻り、第１の取得部５０９は、具体的には、例えば、学習データを形態素解析して、学習データを単語ごとに分割し、単語列を生成する。そして、検出部５０４は、生成した単語列の中から、同一表記の単語の組み合わせを取得する。

第１の取得部５０９は、例えば、学習データ６１０「宮崎（６１１）出身の宮崎（６１２）さんと宮崎（６１３）へ行く。」を形態素解析し、単語ごとに分割して「宮崎出身の宮崎さんと宮崎へ行く。」を単語列として生成する。なお、（）内の数字は、図６に示した符号６１１〜６１３である。そして、第１の取得部５０９は、同一表記の「宮崎」６１１と「宮崎」６１２の組と「宮崎」６１１と「宮崎」６１３の組と「宮崎」６１２と「宮崎」６１３の組を検出する。以下では、「宮崎」６１１と「宮崎」６１３の組を例に挙げて説明を行う。

なお、取得された単語は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、第１の取得部５０９は、判断部５１１による判断対象になる単語の組を検出し、判断部５１１に単語の組が同一の種類か否かを判断させることができる。

第２の取得部５１０は、第１の取得部５０９によって取得された組み合わせの各々の単語とともに出現する共起単語の組み合わせを、単語の種類を示す情報が付与された単語を含む単語列の中から取得する。第２の取得部５１０は、具体的には、例えば、第１の取得部５０９によって取得された組み合わせの各々の単語の周辺に存在する単語の組み合わせを、判別の手がかりとして特定する。なお、周辺に存在する単語とは、所定距離以内に存在する単語であり、例えば、同一表記の単語の各々の前後２単語分の距離以内にある単語である。

第２の取得部５１０は、より具体的には、例えば、第１の取得部５０９によって取得された「宮崎」１１１と「宮崎」１１３の各々の周辺に存在する単語の組み合わせ「出身＆へ」、「出身＆行く」などを判別の手がかりとして取得する。なお、取得された手がかりは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、第２の取得部５１０は、同一表記・種類単語判別規則３００に含まれる判別規則を生成するための手がかりを取得することができる。

判断部５１１は、同一表記の単語の組み合わせの各々の単語に付与された単語の種類を示す情報に基づいて、同一表記の単語が、同一種類の単語であるか否かを判断する。判断部５１１は、具体的には、例えば、組み合わせの各々の単語に付与されたタグが一致するか否かを判断する。次に、判断部５１１は、一致する場合、組み合わせの各々の単語が同一種類の単語であると判断する。

判断部５１１は、より具体的には、例えば、図２に示すテキストデータ１１０の中で、「宮崎」１１１に付与されたタグが「ＬＯＣ」であり、「宮崎」１１３に付与されたタグが「ＬＯＣ」であり、タグが一致するため、同一種類であると判別する。なお、判断部５１１は、一致しない場合、組み合わせの各々の単語が異なる種類の単語であると判断してもよい。

なお、判断結果は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、判断部５１１は、生成部５１２によって生成される判別規則が同一種類であることを示す規則か否かを判断することができる。

生成部５１２は、第２の取得部５１０によって取得された共起単語の組み合わせと、判断部５１１によって判断された判断結果とを、関連付けた判別規則を生成する。生成部５１２は、具体的には、例えば、学習エンジンを用いて、取得された手がかりと判断結果とを関連付けた学習事例群の中から尤もらしい学習事例を特定し、特定した学習事例を判別規則として生成する。ここで、学習エンジンとしては、具体的には、例えば、従来技術であるＢｏｏｓｔｉｎｇ学習器やＳＶＭがある。

尤もらしい学習事例としては、例えば、学習事例群の中での出現頻度が閾値以上である学習事例を採用してもよい。具体的には、例えば、尤もらしい学習事例として、共起単語「出身」と「行く」の組み合わせと、同一種類であることを関連付けた学習事例が採用される。また、尤もらしい学習事例としては、例えば、多くの種類の単語とともに出現する格助詞「の」などを含む学習事例を採用しないようにしてもよい。なお、生成された判別規則は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、生成部５１２は、固有表現の抽出に用いられる判別規則を生成することができる。

格納部５１３は、生成部５１２によって生成された判別規則を第１の記憶部５０１に格納する。格納部５１３は、具体的には、例えば、生成した判別規則を、同一表記・種類単語判別規則３００に格納する。これにより、格納部５１３は、固有表現抽出処理に用いられる同一表記・種類単語判別規則３００を保存しておくことができる。

次に、固有表現抽出用規則４００を生成する場合の抽出装置１００の機能について説明する。この機能は、検出部５０４と、判別部５０５と、特定部５０６と、生成部５１２と、格納部５１３と、により実現される。なお、固有表現抽出用規則４００を生成する具体例は、図８，図９を用いて後述する。

検出部５０４は、単語の種類を示す情報が付与された単語を含む単語列の中から第３の単語および当該第３の単語と同一表記の第４の単語を検出する。検出部５０４は、具体的には、例えば、学習データを形態素解析して、学習データを単語ごとに分割し、単語列を生成する。そして、検出部５０４は、生成した単語列の中から、同一表記の単語を検出する。

検出部５０４は、例えば、学習データ６１０「宮崎（６１１）出身の宮崎（６１２）さんと宮崎（６１３）へ行く。」を形態素解析し、単語ごとに分割して「宮崎出身の宮崎さんと宮崎へ行く。」を生成する。なお、（）内の数字は、図６に示した符号６１１〜６１３である。そして、検出部５０４は、同一表記の「宮崎」６１１と「宮崎」６１２の組と「宮崎」６１１と「宮崎」６１３の組と「宮崎」６１２と「宮崎」６１３の組を検出する。以下では、「宮崎」６１１と「宮崎」６１３の組を例に挙げて説明を行う。

判別部５０５は、検出部５０４によって検出された第３の単語が共起単語の一方とともに出現し、かつ、検出部５０４によって検出された第４の単語が共起単語の他方とともに出現する判別規則が第１の記憶部５０１にあるか否かを判別する。そして、判別部５０５は、判別規則がある場合、当該判別規則から第１の単語と第２の単語が同一種類か否かを判別する。

判別部５０５は、具体的には、例えば、検出部５０４によって検出された同一表記の単語の各々の周辺に存在する単語の組み合わせを、判別の手がかりとして特定する。次に、判別部５０５は、同一表記・種類単語判別規則３００の規則項目の共起単語の組み合わせの中に、特定した手がかりのいずれかに該当する組み合わせがあるか否かを判別する。

そして、判別部５０５は、該当する組み合わせがある場合、当該組み合わせに対応する判別結果項目を参照し、同一表記の単語が同一種類か否かを判別する。なお、判別部５０５は、該当する組み合わせがない場合、同一表記の単語を異なる種類の単語と判別してもよい。

判別部５０５は、より具体的には、例えば、検出部５０４によって検出された「宮崎」６１１と「宮崎」６１３の各々の周辺に存在する単語の組み合わせ「出身＆へ」、「出身＆行く」などを判別の手がかりとして特定する。次に、判別部５０５は、同一表記・種類単語判別規則３００に、特定した手がかり「出身＆行く」に該当する共起単語「出身」と「行く」があると判別する。そして、判別部５０５は、当該共起単語の組み合わせに対応する判別結果項目に、同一種類であることを示す情報があるため、「宮崎」６１１と「宮崎」６１３とが同一種類であると判別する。

なお、判別結果は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、判別部５０５は、単語の種類の抽出用規則の生成において、一纏めにして扱うべき単語の組を検出することができる。

特定部５０６は、判別部５０５によって同一種類であると判別された場合、単語の種類を示す情報が付与された単語を含む単語列の中から、第３の単語および第４の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定する。

特定部５０６は、具体的には、例えば、同一表記かつ同一種類の単語が存在する場合、各々の単語から前後２単語分の距離にある単語と当該単語までの距離とを、抽出の手がかりとして特定する。

特定部５０６は、より具体的には、例えば、判別部５０５によって同一種類と判別された「宮崎」６１１と「宮崎」６１３とを一纏めにして扱う。そして、特定部５０６は、「宮崎」１１１と「宮崎」１１３の各々から前後２単語分の距離以内に存在する単語と当該単語までの距離との組み合わせを、抽出の手がかりとして特定する。ここで、特定部５０６は、抽出の手がかりとして、「出身：＋１」、「の：＋２」、「さん：−２」、「と：−１」、「へ：＋１」、および「行く：＋２」を特定する。

なお、特定された手がかりは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、特定部５０６は、生成部５１２により単語の種類の抽出用規則を生成するために用いられる手がかりを特定することができる。

生成部５１２は、特定部５０６によって特定された単語と当該単語までの距離との組み合わせと、第３の単語と第４の単語のいずれかの単語に付与されている単語の種類を示す情報と、を関連付けた抽出用規則を生成する。生成部５１２は、具体的には、例えば、学習エンジンを用いて、取得された手がかりと同一表記かつ同一種類の単語に付与されたタグが示す単語の種類を関連付けた学習事例群の中から尤もらしい学習事例を特定し、特定した学習事例を抽出用規則として生成する。具体的には、例えば、尤もらしい学習事例として、「出身：＋１」と単語の種類「ＬＯＣ」を関連付けた学習事例が採用される。なお、生成された抽出用規則は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、生成部５１２は、固有表現の抽出に用いられる抽出用規則を生成することができる。

格納部５１３は、生成部５１２によって生成された抽出用規則を第２の記憶部５０２に格納する。格納部５１３は、具体的には、例えば、生成した抽出用規則を、固有表現抽出用規則４００に格納する。これにより、格納部５１３は、固有表現抽出処理に用いられる固有表現抽出規則を保存しておくことができる。

次に、チャンクをノードとするチャンクのラティスの中から固有表現となるチャンクを抽出する場合の抽出装置１００の機能について説明する。なお、チャンク単位で分割されたチャンクのラティスの中から固有表現のチャンクを抽出する場合の具体例は、図２９〜図３２を用いて後述する。

変換部５１４は、一連の単語を、チャンクを含む複数通りの単語列に変換する。変換部５１４は、具体的には、例えば、形態素解析により、一連の文章を単語ごとに分割する。そして、変換部５１４は、各単語を連結したチャンクを含む複数通りのチャンクのラティスを生成する。

ここで、一連の文章として、「Ｂ商事の社員はＢ商事へ行きＢ商事から帰る。」を例に挙げる。具体的には、例えば、変換部５１４は、形態素解析により、一連の文章を単語ごとに分割し、「Ｂ商事の社員はＢ商事へ行きＢ商事から帰る。」を生成する。スペースは単語の区切りを示す。

次に、変換部５１４は、予め指定された単語数の単語を連結してチャンクを生成する。ここでは、単語数として「３」が指定されているとする。例えば、最初に出現する単語「Ｂ」から生成されるチャンクとしては、「Ｂ」、「Ｂ商事」、「Ｂ商事は」のように指定された単語数までのチャンクが生成される。次に出現する単語「商事」から生成されるチャンクとしては、「商事」、「商事の」「商事の社員」のチャンクが生成される。

このように、各単語を起点に指定された単語数の単語を連結してチャンクを生成し、各チャンクの最後の単語とその次に出現する単語から始まるチャンクをつないでいくことで、図２３、図２９のような、チャンクのラティスを生成する。

なお、変換後のチャンクのラティスは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。

検出部５０４は、チャンクのラティスの中から第１のチャンクおよび当該第１のチャンクと同一表記の第２のチャンクを検出する。検出部５０４は、具体的には、例えば、チャンクのラティスの中から、同一表記のチャンクを検出する。検出部５０４は、より具体的には、例えば、「Ｂ商事の社員はＢ商事へ行きＢ商事から帰る。」から生成されるチャンクのラティスから、同一表記のチャンク「Ｂ」の組３つ、「商事」の組３つ、「Ｂ商事」の組を３つ検出する。以下では、文章の先頭から２つ目の「Ｂ商事」と３つ目の「Ｂ商事」の組を例に挙げて説明を行う。

なお、検出されたチャンクは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、検出部５０４は、判別部５０５による判別対象になるチャンクの組を検出し、判別部５０５にチャンクの組が同一の種類か否かを判別させることができる。

判別部５０５は、検出部５０４によって検出された第１のチャンクが共起単語の一方とともに出現し、かつ、検出部５０４によって検出された第２のチャンクが共起単語の他方とともに出現する判別規則が第１の記憶部５０１にあるか否かを判別する。そして、判別部５０５は、判別規則がある場合、当該判別規則から第１のチャンクと第２のチャンクが同一種類か否かを判別する。

判別部５０５は、具体的には、例えば、検出部５０４によって検出された同一表記のチャンクの各々の周辺に存在するチャンクの組み合わせを、判別の手がかりとして特定する。次に、判別部５０５は、同一表記・種類チャンク判別規則の規則項目の共起チャンクの組み合わせの中に、特定した手がかりのいずれかに該当する組み合わせがあるか否かを判別する。そして、判別部５０５は、該当する組み合わせがある場合、当該組み合わせに対応する判別結果項目を参照し、同一表記のチャンクが同一種類か否かを判別する。なお、判別部５０５は、該当する組み合わせがない場合、同一表記のチャンクを異なる種類のチャンクと判別してもよい。

判別部５０５は、より具体的には、例えば、検出部５０４によって検出された「Ｂ商事」の組の各々の周辺に存在する単語の組み合わせ「へ＆から」、「行き＆帰る」などを判別の手がかりとして特定する。次に、判別部５０５は、同一表記・種類単語判別規則３００に、特定した手がかり「行き＆帰る」に該当する共起単語「行き」と「帰る」がある場合、当該共起単語の組み合わせに対応する判別結果項目にある同一種類であるか否かを示す情報を抽出する。そして、判別部５０５は、抽出した情報から、検出部５０４によって検出された「Ｂ商事」の組が同一種類であるか否かを判別する。

なお、判別結果は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、判別部５０５は、チャンクの種類の抽出において、一纏めにして扱うべきチャンクの組を検出することができる。

特定部５０６は、判別部５０５によって判別規則があると判別された場合、変換後の単語列の中から、第１のチャンクおよび第２のチャンクの各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定する。特定部５０６は、具体的には、例えば、同一表記かつ同一種類のチャンクが存在する場合、各々のチャンクから前後２単語分の距離にある単語と当該単語までの距離とを、抽出の手がかりとして特定する。

特定部５０６は、より具体的には、例えば、判別部５０５によって同一種類と判別された「Ｂ商事」の組を一纏めにして扱う。そして、特定部５０６は、「Ｂ商事」の組の各々から前後２単語分の距離以内に存在する単語と当該単語までの距離との組み合わせを、抽出の手がかりとして特定する。ここで、特定部５０６は、抽出の手がかりとして、「社員：−２」、「は：−１」、「へ：＋１」、「行き：＋２」、「へ：−２」、「行き：−１」、「から：＋１」、および「帰る：＋２」を特定する。

なお、特定された手がかりは、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、特定部５０６は、抽出部５０７によりチャンクの種類を抽出するために用いられる手がかりを特定することができる。

抽出部５０７は、特定部５０６によって特定された組み合わせに関連付けられた単語の種類を示す情報を第２の記憶部５０２に記憶されている抽出用規則から抽出し、第１のチャンクおよび第２のチャンクに付与する。

抽出部５０７は、具体的には、例えば、固有表現抽出用規則４００の規則項目の単語と当該単語までの距離の組み合わせの中から、特定部５０６によって特定された手がかりのいずれかに該当する組み合わせがあるか否かを判別する。次に、抽出部５０７は、該当する組み合わせがある場合、当該組み合わせに対応する種類項目から、単語の種類を抽出する。そして、抽出部５０７は、抽出した単語の種類を示すタグを、文章上の同一表記かつ同一種類のチャンクの各々に付与する。

抽出部５０７は、より具体的には、例えば、固有表現抽出用規則４００に、特定部５０６によって特定された手がかり「出身：＋１」に該当する規則項目がある場合、当該規則項目に対応する種類項目から単語の種類を示す情報を抽出する。そして、抽出部５０７は、抽出した情報から、「Ｂ商事」の種類として、例えば「ＬＯＣ」に対してのスコアを１付与する。このように各チャンクに対しそれぞれの固有表現に成りうるスコアを付与していく。

すべてのチャンクに規則適用後、抽出部５０７は、各チャンクに付与された各固有表現のスコアを基に、文頭から文末まで取りうるチャンクパスのパスおよびそのパス上で取りうる固有表現の種類の組み合わせのうち、スコアの和が最大となるチャンクの列およびそれぞれの固有表現タイプを選択する。その結果、例えば、「＜ＯＲＧ＞Ｂ商事＜／ＯＲＧ＞の社員は＜ＬＯＣ＞Ｂ商事＜／ＬＯＣ＞へ行き＜ＬＯＣ＞Ｂ商事＜／ＬＯＣ＞から帰る。」を生成する。各チャンクのそれぞれの固有表現になるかどうかのスコアの決定方法としては、規則による各固有表現として判別された合計回数や、規則がスコアを持っている場合であれば、適用された規則のスコアの和を用いる。

なお、抽出されたチャンクの種類を示す情報は、ＲＡＭ２０３、磁気ディスク２０５、光ディスク２０７などの記憶領域に記憶される。これにより、抽出部５０７は、同一表記かつ同一種類のチャンクについては、同一のチャンクの種類を抽出することができる。結果として、抽出部５０７は、同一表記であっても異なる種類のチャンクについては、別個にチャンクの種類を抽出することができる。

出力部５０８は、抽出部５０７により付与された単語列を出力する。出力部５０８は、具体的には、例えば、抽出した単語の種類をタグとして付与したチャンクのラティスを、ディスプレイ２０８に出力する。また、出力部５０８は、付与後のチャンクのラティスをＩ／Ｆ２０９を介して他のコンピュータに送信してもよいし、記録媒体に出力してもよい。これにより、出力部５０８は、チャンクの種類を抽出装置１００の利用者に通知することができる。また、出力部５０８は、他のソフトウェア（例えば翻訳ソフトウェア、または情報検索ソフトウェア）に、タグを付与したチャンクのラティスを提供することができる。

（実施例１）
次に、実施例１について説明する。実施例１は、図５を用いて説明した単語単位で分割された一連の単語の中から固有表現の単語を抽出する場合の実施例である。

（実施例１にかかる抽出装置１００による規則学習処理の具体例１）
次に、図６〜図９を用いて、実施例１にかかる抽出装置１００による規則学習処理の具体例１について説明する。規則学習処理は、図６に示した学習データ群６００を用いて、同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する処理であり、図５を用いて説明した処理である。

図７〜図９は、図６に示した学習データ群６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図である。図７において、まず、抽出装置１００は、学習データ群６００の中から、未処理の学習データを選択する。ここでは、抽出装置１００は、学習データ６１０を選択したとする。

（１）次に、抽出装置１００は、選択した学習データ６１０の中から、同一表記の単語の組として、「宮崎」６１１と「宮崎」６１２の組と、「宮崎」６１１と「宮崎」６１３の組と、「宮崎」６１２と「宮崎」６１３の組と、を抽出する。

そして、抽出装置１００は、「宮崎」６１１と「宮崎」６１２の組については、異なる種類であるため、「宮崎」６１１と「宮崎」６１２の各々の周辺にある単語の組み合わせを、単語の組が異なる種類であることを示す手がかりとして取得する。そして、抽出装置１００は、「出身＆さん」、「の＆さん」などの単語の組が手がかりである、異なる種類であることを判別するための学習事例を生成する。

また、抽出装置１００は、「宮崎」６１１と「宮崎」６１３の組については、同一種類であるため、「宮崎」６１１と「宮崎」６１３の各々の周辺にある単語の組み合わせを、単語の組が同一種類であることを示す手がかりとして取得する。そして、抽出装置１００は、「出身＆へ」、「出身＆行く」などの単語の組が手がかりである、同一種類であることを判別するための学習事例を生成する。

また、抽出装置１００は、「宮崎」６１２と「宮崎」６１３の組については、異なる種類であるため、「宮崎」６１２と「宮崎」６１３の各々の周辺にある単語の組み合わせを、単語の組が異なる種類であることを示す手がかりとして取得する。そして、抽出装置１００は、「さん＆へ」、「さん＆行く」などの単語の組が手がかりである、同一種類であることを判別するための学習事例を生成する。

抽出装置１００は、学習データ６１０から学習事例を生成した後、学習データ群６００の中に未処理の学習データが残っていれば、当該未処理の学習データからも学習事例を生成する。

（２）そして、抽出装置１００は、学習エンジンを用いて、生成された学習事例群のうち、尤もらしい学習事例を特定する。学習エンジンは、例えば、学習事例群の中で出現頻度が閾値以上である学習事例を、尤もらしい学習事例として特定する。

例えば、学習エンジンは、学習データ群６００から生成された学習事例群に、単語の組が同一種類であることを示す手がかり「出身＆行く」の学習事例が所定個数以上含まれている場合に、「出身＆行く」の学習事例を尤もらしい学習事例として特定する。また、学習エンジンは、多くの種類の単語とともに出現する格助詞「の」などを含む手がかり「の＆さん」の学習事例は、単語の組が同一種類である場合にも異なる場合にも出現する可能性があるため、尤もらしい学習事例として採用しないようにする。

なお、学習エンジンとしては、例えば、Ｂｏｏｓｔｉｎｇ学習器やＳＶＭがある。Ｂｏｏｓｔｉｎｇ学習器やＳＶＭについては、従来技術であるため説明を省略する。抽出装置１００は、学習エンジンによって特定された学習事例から判別規則を生成する。抽出装置１００は、例えば、単語の組が同一種類であることを示す情報と、共起単語「出身」と「行く」の組み合わせを関連付けた判別規則を生成する。そして、抽出装置１００は、生成した判別規則を含む同一表記・種類単語判別規則３００を生成する。

図８において、抽出装置１００は、学習データの中から未処理の学習データを選択する。次に、抽出装置１００は、選択した学習データからタグを除外した対象データを生成する。ここでは、抽出装置１００は、学習データ６１０を選択し、学習データ６１０から対象データ８００を生成したとする。

（１）次に、抽出装置１００は、対象データ８００の中から、同一表記の単語の組として、「宮崎」８０１と「宮崎」８０２の組と、「宮崎」８０１と「宮崎」８０３の組と、「宮崎」８０２と「宮崎」８０３の組と、を抽出する。

そして、抽出装置１００は、「宮崎」８０１と「宮崎」８０２の組について、「宮崎」８０１と「宮崎」８０２の各々の周辺にある単語の組み合わせ「出身＆さん」、「の＆さん」などを手がかりとして特定する。また、抽出装置１００は、「宮崎」８０１と「宮崎」８０３の組について、「宮崎」８０１と「宮崎」８０３の各々の周辺にある単語の組み合わせ「出身＆へ」、「出身＆行く」などを手がかりとして特定する。また、抽出装置１００は、「宮崎」８０１と「宮崎」８０２の組について、「宮崎」８０１と「宮崎」８０２の各々の周辺にある単語の組み合わせ「さん＆へ」、「さん＆行く」などを手がかりとして特定する。

（２）そして、抽出装置１００は、判別エンジンを用いて、生成された手がかりのうち、同一表記・種類単語判別規則３００の判別規則に該当する手がかりを特定する。判別エンジンは、該当する判別規則が複数ある場合、尤もらしい判別規則を特定する。抽出装置１００は、判別エンジンによって特定された判別規則により、「宮崎」８０１と「宮崎」８０２の組と「宮崎」８０１と「宮崎」８０３の組と「宮崎」８０２と「宮崎」８０３の組との各々が同一種類か否かを判別する。ここでは、抽出装置１００は、同一表記・種類単語判別規則３００と、共起単語「出身」と「行く」の組み合わせとから、「宮崎」８０１と「宮崎」８０３の組が同一種類であると判別する。

図９において、抽出装置１００は、選択した学習データ６１０の中から、図８で同一種類と判別された「宮崎」８０１と「宮崎」８０３の組に対応する「宮崎」６１１と「宮崎」６１３を特定する。抽出装置１００は、以降の処理で、特定された「宮崎」６１１と「宮崎」６１３を一纏めにして扱う。

（１）抽出装置１００は、学習データ６１０の中の単語ごとに、または一纏めにされた単語ごとに、タグを参照して単語の種類を特定し、特定した単語の種類を抽出するための手がかりを特定する。抽出装置１００は、具体的には、例えば、一纏めにされた「宮崎」６１１と「宮崎」６１３の各々の周辺にある単語から、「ＬＯＣ」を抽出するための手がかりになる「出身：＋１」、「の：＋２」、「さん：−２」、「と：−１」、「へ：＋１」、および「行く：＋２」を特定する。そして、抽出装置１００は、特定した単語が手がかりである、単語の種類が「ＬＯＣ」であることを判別するための学習事例を生成する。

また、抽出装置１００は、同一種類の他の単語がない「宮崎」６１２の周辺にある単語から、「ＰＥＲ」を抽出するための手がかりになる「出身：−２」、「の：−１」、「さん：＋１」、および「と：＋２」を特定する。そして、抽出装置１００は、特定した単語が手がかりである、単語の種類が「ＰＥＲ」であることを判別するための学習事例を生成する。

（２）そして、抽出装置１００は、学習エンジンを用いて、生成された学習事例群のうち、同一種類の固有表現かどうかの判別において尤もらしい学習事例を特定する。学習エンジンは、例えば、学習事例群の中で出現頻度が閾値以上である学習事例を、尤もらしい学習事例として特定する。抽出装置１００は、学習エンジンによって特定された学習事例から抽出用規則を生成する。抽出装置１００は、例えば、単語の種類「ＬＯＣ」を示す情報と、「出身：＋１」とを関連付けた抽出用規則を生成する。

そして、抽出装置１００は、生成した抽出用規則を含む固有表現抽出用規則４００を生成する。また、抽出装置１００は、固有表現以外の種類「Ｏ（Ｏｔｈｅｒ）」の単語「出身」についても手がかりを特定し、学習事例を生成してもよい。そして、抽出装置１００は、生成した学習事例から単語の種類「Ｏ」を示す抽出用規則を生成してもよい。

これにより、抽出装置１００は、学習データ群６００を用いて、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を機械学習により生成することができる。そのため、抽出装置１００の利用者は、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を生成する手間を削減することができる。

（実施例１にかかる規則学習処理の詳細な処理手順）
次に、図１０および図１１を用いて、実施例１にかかる規則学習処理の詳細な処理手順について説明する。実施例１にかかる規則学習処理は、図７〜図９に示した抽出装置１００によって実行される処理である。

図１０および図１１は、実施例１にかかる規則学習処理の詳細な処理手順を示すフローチャートである。図１０に示すように、まず、抽出装置１００は、学習データ群６００の中から、未処理の学習データを選択する（ステップＳ１００１）。

次に、抽出装置１００は、選択した学習データの中に、同一表記の単語があるか否かを判定する（ステップＳ１００２）。ここで、同一表記の単語がない場合（ステップＳ１００２：Ｎｏ）、抽出装置１００は、ステップＳ１００８に移行する。

一方、同一表記の単語がある場合（ステップＳ１００２：Ｙｅｓ）、抽出装置１００は、選択した学習データの中にある同一表記の単語の組のうち、未処理の単語の組を選択する（ステップＳ１００３）。

次に、抽出装置１００は、選択した単語の組が同一種類の単語であるか否かを判定する（ステップＳ１００４）。ここで、同一種類の単語である場合（ステップＳ１００４：Ｙｅｓ）、抽出装置１００は、選択した単語の組の各々とともに出現する共起単語の組み合わせと、単語の組が同一種類であることを示す情報と、を含む学習事例を生成する（ステップＳ１００５）。そして、抽出装置１００は、ステップＳ１００７に移行する。

一方、異なる種類の単語である場合（ステップＳ１００４：Ｎｏ）、抽出装置１００は、選択した単語の組の各々とともに出現する共起単語の組み合わせと、単語の組が異なる種類であることを示す情報と、を含む学習事例を生成する（ステップＳ１００６）。そして、抽出装置１００は、ステップＳ１００７に移行する。

次に、抽出装置１００は、未処理の単語の組があるか否かを判定する（ステップＳ１００７）。未処理の単語の組がある場合（ステップＳ１００７：Ｙｅｓ）、抽出装置１００は、ステップＳ１００３に戻る。

一方、未処理の単語の組がない場合（ステップＳ１００７：Ｎｏ）、抽出装置１００は、学習データ群６００の中に、未処理の学習データがあるか否かを判定する（ステップＳ１００８）。ここで、未処理の学習データがある場合（ステップＳ１００８：Ｙｅｓ）、抽出装置１００は、ステップＳ１００１に戻る。

一方、未処理の学習データがない場合（ステップＳ１００８：Ｎｏ）、抽出装置１００は、生成した学習事例群から、同一表記・種類単語判別規則３００を生成する（ステップＳ１００９）。そして、抽出装置１００は、図１１のステップＳ１１０１に移行する。

図１１において、抽出装置１００は、学習データ群６００の中から未処理の学習データを選択し、選択した学習データのタグを除去した対象データを生成する（ステップＳ１１０１）。次に、抽出装置１００は、同一表記・種類単語判別規則３００を参照して、生成した対象データの中で同一表記かつ同一種類の単語の組を特定する（ステップＳ１１０２）。

次に、抽出装置１００は、選択した学習データの中から、未処理の単語を選択する（ステップＳ１１０３）。そして、抽出装置１００は、ステップＳ１１０２の特定結果から、選択した単語と同一表記かつ同一種類の単語があるか否かを判定する（ステップＳ１１０４）。

ここで、同一表記かつ同一種類の単語がある場合（ステップＳ１１０４：Ｙｅｓ）、抽出装置１００は、同一表記かつ同一種類の単語の組の各々から特定した手がかりと、タグから特定した当該単語の組の種類と、を含む学習事例を生成する（ステップＳ１１０５）。そして、抽出装置１００は、ステップＳ１１０７に移行する。

一方、抽出装置１００は、同一表記かつ同一種類の単語がない場合（ステップＳ１１０４：Ｎｏ）、抽出装置１００は、選択した単語から特定した手がかりと、タグから特定した当該単語の種類と、を含む学習事例を生成する（ステップＳ１１０６）。そして、抽出装置１００は、ステップＳ１１０７に移行する。

次に、抽出装置１００は、選択した学習データの中に、未処理の単語があるか否かを判定する（ステップＳ１１０７）。ここで、未処理の単語がある場合（ステップＳ１１０７：Ｙｅｓ）、抽出装置１００は、ステップＳ１１０３に戻る。

一方、未処理の単語がない場合（ステップＳ１１０７：Ｎｏ）、抽出装置１００は、未処理の学習データがあるか否かを判定する（ステップＳ１１０８）。ここで、未処理の学習データがある場合（ステップＳ１１０８：Ｙｅｓ）、抽出装置１００は、ステップＳ１１０１に戻る。

一方、未処理の学習データがない場合（ステップＳ１１０８：Ｎｏ）、抽出装置１００は、生成した学習事例群から、固有表現抽出用規則４００を生成する（ステップＳ１１０９）。そして、抽出装置１００は、規則学習処理を終了する。これにより、抽出装置１００は、学習データ群６００を用いて、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を機械学習により生成することができる。そのため、抽出装置１００の利用者は、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を生成する手間を削減することができる。

（実施例１にかかる抽出装置１００による固有表現抽出処理の具体例１）
次に、図１２および図１３を用いて、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例１について説明する。実施例１にかかる固有表現抽出処理は、固有表現の抽出対象のデータの中から固有表現の単語を抽出する処理であり、図５を用いて説明した処理である。

図１２および図１３は、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例１を示す説明図である。図１２において、抽出装置１００は、固有表現の抽出対象になる入力データ１２００を受け付ける。

（１）まず、抽出装置１００は、入力データ１２００の中から、同一表記の単語の組として、「福岡」１２０１と「福岡」１２０２の組と、「福岡」１２０１と「福岡」１２０３の組と、「福岡」１２０２と「福岡」１２０３の組と、を抽出する。

そして、抽出装置１００は、「福岡」１２０１と「福岡」１２０２の組について、「福岡」１２０１と「福岡」１２０２の各々の周辺にある単語の組み合わせ「出身＆さん」、「の＆さん」などを手がかりとして特定する。また、抽出装置１００は、「福岡」１２０１と「福岡」１２０３の組について、「福岡」１２０１と「福岡」１２０３の各々の周辺にある単語の組み合わせ「出身＆へ」、「出身＆行く」などを手がかりとして特定する。また、抽出装置１００は、「福岡」１２０２と「福岡」１２０３の組について、「福岡」１２０２と「福岡」１２０３の各々の周辺にある単語の組み合わせ「さん＆へ」、「さん＆行く」などを手がかりとして特定する。

（２）そして、抽出装置１００は、判別エンジンを用いて、生成された手がかりのうち、同一表記・種類単語判別規則３００の判別規則に該当する手がかりを特定する。判別エンジンは、該当する判別規則が複数ある場合、尤もらしい判別規則を特定する。抽出装置１００は、判別エンジンによって特定された判別規則により、「福岡」１２０１と「福岡」１２０２の組と「福岡」１２０１と「福岡」１２０３の組と「福岡」１２０２と「福岡」１２０３の組との各々が同一種類か否かを判別する。

ここでは、抽出装置１００は、同一表記・種類単語判別規則３００と、共起単語「出身」と「行く」の組み合わせとから、「福岡」１２０１と「福岡」１２０３の組が同一種類であると判別する。

図１３において、抽出装置１００は、以降の処理で、図１２で同一種類と判別された「福岡」１２０１と「福岡」１２０３を一纏めにして扱う。

（１）抽出装置１００は、入力データ１２００の中の単語ごとに、または一纏めにされた単語ごとに、単語の種類を抽出するための手がかりを特定する。抽出装置１００は、具体的には、例えば、一纏めにされた「福岡」１２０１と「福岡」１２０３の周辺にある単語から、手がかりとして「出身：＋１」、「の：＋２」、「さん：−２」、「と：−１」、「へ：＋１」、および「行く：＋２」を特定する。また、抽出装置１００は、同一種類の他の単語がない「福岡」１２０２の周辺にある単語から、手がかりとして「出身：−２」、「の：−１」、「さん：＋１」、および「と：＋２」を特定する。

（２）次に、抽出装置１００は、判別エンジンを用いて、生成された手がかりに該当する固有表現抽出用規則４００の抽出用規則を特定する。判別エンジンは、該当する抽出用規則が複数ある場合、尤もらしい抽出用規則を特定する。抽出装置１００は、判別エンジンによって特定された抽出用規則により、入力データ１２００の中の単語ごとに、または一纏めにされた単語ごとに、単語の種類を抽出する。ここでは、抽出装置１００は、「福岡」１２０１と「福岡」１２０３の種類として「ＬＯＣ」を抽出し、「福岡」１２０２の種類として「ＰＥＲ」を抽出する。

また、抽出装置１００は、単語「出身」についても手がかりを特定し、「出身」の単語の種類を抽出してもよい。ここでは、抽出装置１００は、「出身」について、固有表現ではない単語の種類「Ｏ」を抽出する。

これにより、抽出装置１００は、同一表記かつ同一種類の単語については、一纏めにして同じ単語の種類を抽出することができる。また、抽出装置１００は、同一表記であっても異なる種類の単語については、他の同一表記の単語とは別個に単語の種類を抽出することができるようになる。結果として、抽出装置１００は、同一表記かつ同一種類の単語を一纏めにして同じ種類の単語として抽出することで、同一種類の単語を異なる種類の単語として抽出することを防止して、抽出精度の向上を図ることができる。また、抽出装置１００は、同一表記であっても異なる種類の単語同士を、別個に扱って単語の種類を抽出することで、誤って同じ種類の単語として抽出することを防止し、抽出精度の向上を図ることができる。

（実施例１にかかる抽出装置１００による固有表現抽出結果の出力例１）
次に、図１４を用いて、実施例１にかかる抽出装置１００による固有表現抽出結果の出力例１について説明する。抽出装置１００は、図１２および図１３での固有表現抽出結果を出力する。

図１４は、実施例１にかかる抽出装置１００による固有表現抽出結果の出力例１を示す説明図である。図１４の（Ａ）に示すように、抽出装置１００は、例えば、抽出した単語の種類をタグとして付与した入力データ１２００「＜ＬＯＣ＞福岡＜／ＬＯＣ＞出身の＜ＰＥＲ＞福岡＜／ＰＥＲ＞さんと＜ＬＯＣ＞福岡＜／ＬＯＣ＞へ行く。」を出力する。また、図１４の（Ｂ）に示すように、抽出装置１００は、例えば、入力データ１２００「福岡出身の福岡さんと福岡へ行く。」を表示する際に、抽出した単語の種類を示す色を付与して表示する。

（実施例１にかかる固有表現抽出処理の詳細な処理手順）
次に、図１５を用いて、実施例１にかかる固有表現抽出処理の詳細な処理手順について説明する。実施例１にかかる固有表現抽出処理は、図１２〜図１４に示した抽出装置１００によって行われる処理である。

図１５は、実施例１にかかる固有表現抽出処理の詳細な処理手順を示すフローチャートである。図１５に示すように、まず、抽出装置１００は、入力データを受け付ける（ステップＳ１５０１）。次に、抽出装置１００は、同一表記・種類単語判別規則３００を参照して、入力データの中で同一表記かつ同一種類の単語の組を特定する（ステップＳ１５０２）。

次に、抽出装置１００は、入力データの中から、未処理の単語を選択する（ステップＳ１５０３）。そして、抽出装置１００は、ステップＳ１５０２の特定結果から、選択した単語と同一表記かつ同一種類の単語があるか否かを判定する（ステップＳ１５０４）。

ここで、同一表記かつ同一種類の単語がある場合（ステップＳ１５０４：Ｙｅｓ）、抽出装置１００は、同一表記かつ同一種類の単語の組の各々から特定した手がかりと、固有表現抽出用規則４００と、から同一表記かつ同一種類の単語の組の種類を抽出する（ステップＳ１５０５）。そして、抽出装置１００は、ステップＳ１５０７に移行する。

一方、抽出装置１００は、同一表記かつ同一種類の単語がない場合（ステップＳ１５０４：Ｎｏ）、抽出装置１００は、選択した単語から特定した手がかりと、固有表現抽出用規則４００と、から選択した単語の種類を抽出する（ステップＳ１５０６）。そして、抽出装置１００は、ステップＳ１５０７に移行する。

次に、抽出装置１００は、入力データの中に、未処理の単語があるか否かを判定する（ステップＳ１５０７）。ここで、未処理の単語がある場合（ステップＳ１５０７：Ｙｅｓ）、抽出装置１００は、ステップＳ１５０３に戻る。

一方、未処理の単語がない場合（ステップＳ１５０７：Ｎｏ）、抽出装置１００は、抽出結果を出力する（ステップＳ１５０８）。そして、抽出装置１００は、固有表現抽出処理を終了する。

（実施例１にかかる抽出装置１００による規則学習処理の具体例２）
次に、図１６〜図１９を用いて、実施例１にかかる抽出装置１００による規則学習処理の具体例２について説明する。具体例２は、具体例１よりも単語の種類を細分化した場合の例である。例えば、具体例２では、単語の種類として、組織名「ＯＲＧ」を細分化した、組織名の先頭「Ｂ−ＯＲＧ」と、組織名の中「Ｉ−ＯＲＧ」と、組織名の後尾「Ｅ−ＯＲＧ」と、を採用する。

図１６は、抽出装置１００による規則学習処理に用いられる学習データの例２を示す説明図である。図１６に示すように、図６の学習データ群６００より細分化された種類を示すタグが付与された複数の学習データを含む学習データ群１６００が用意される。

例えば、学習データ群１６００には、学習データ１６１０「＜Ｂ−ＯＲＧ＞Ａ＜／Ｂ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞株式会社＜／Ｅ−ＯＲＧ＞は＜Ｂ−ＯＲＧ＞株式会社＜／Ｂ−ＯＲＧ＞＜Ｉ−ＯＲＧ＞Ａ＜／Ｉ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞研究所＜／Ｅ−ＯＲＧ＞の子会社であり、＜Ｂ−ＯＲＧ＞株式会社＜／Ｂ−ＯＲＧ＞＜Ｉ−ＯＲＧ＞Ａ＜／Ｉ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞研究所＜／Ｅ−ＯＲＧ＞は＜ＬＯＣ＞川崎市＜／ＬＯＣ＞にある。」が含まれる。

学習データ１６１０の中の「Ａ」１６１１には「Ｂ−ＯＲＧ」のタグが付与され、「株式会社」１６１２には「Ｅ−ＯＲＧ」のタグが付与されている。また、「株式会社」１６１３には「Ｂ−ＯＲＧ」のタグが付与され、「Ａ」１６１４には「Ｉ−ＯＲＧ」のタグが付与され、「研究所」１６１５には「Ｅ−ＯＲＧ」のタグが付与されている。また、「株式会社」１６１６には「Ｂ−ＯＲＧ」のタグが付与され、「Ａ」１６１７には「Ｉ−ＯＲＧ」のタグが付与され、「研究所」１６１８には「Ｅ−ＯＲＧ」のタグが付与されている。また、「川崎市」１６１９には「ＬＯＣ」のタグが付与されている。

また、学習データ群１６００には、学習データ１６２０「＜ＬＯＣ＞宮崎＜／ＬＯＣ＞にある＜Ｂ−ＯＲＧ＞宮崎＜／Ｂ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞商事＜／Ｅ−ＯＲＧ＞の＜ＰＥＲ＞宮崎＜／ＰＥＲ＞社長は＜ＬＯＣ＞宮崎＜／ＬＯＣ＞出身である。」が含まれる。学習データ１６２０の中の「宮崎」１６２１には「ＬＯＣ」のタグが付与され、「宮崎」１６２２には「Ｂ−ＯＲＧ」のタグが付与されている。また、「商事」１６２３には「Ｅ−ＯＲＧ」のタグが付与され、「宮崎」１６２４には「ＰＥＲ」のタグが付与され、「宮崎」１６２５には「ＬＯＣ」のタグが付与されている。

抽出装置１００は、このような学習データ群１６００を用いることで、図６に示した学習データ群６００を用いた場合よりも細分化された種類に対応した同一表記・種類単語判別規則および固有表現抽出用規則を生成することができる。

図１７〜図１９は、図１６に示した学習データ群１６００を用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図である。図１７において、まず、抽出装置１００は、学習データ群１６００の中から、未処理の学習データを選択する。ここでは、抽出装置１００は、学習データ１６１０を選択したとする。

（１）次に、抽出装置１００は、選択した学習データ１６１０の中から、同一表記の単語の組として、「Ａ」１６１１と「Ａ」１６１４の組と、「Ａ」１６１１と「Ａ」１６１７の組と、「Ａ」１６１４と「Ａ」１６１７の組と、を抽出する。

そして、抽出装置１００は、「Ａ」１６１１と「Ａ」１６１４の組については、異なる種類であるため、「Ａ」１６１１と「Ａ」１６１４の各々の周辺にある単語の組み合わせ「株式会社＆研究所」などの単語の組が手がかりである、同一種類でないことを判別するための学習事例を生成する。

また、抽出装置１００は、「Ａ」１６１１と「Ａ」１６１７の組については、異なる種類であるため、「Ａ」１６１１と「Ａ」１６１７の各々の周辺にある単語の組み合わせ「株式会社＆研究所」などの単語の組が手がかりである、同一種類でないことを判別するための学習事例を生成する。

また、抽出装置１００は、「Ａ」１６１４と「Ａ」１６１７の組については、同一種類であるため、「Ａ」１６１４と「Ａ」１６１７の各々の周辺にある単語の組み合わせ「研究所＆研究所」、「株式会社＆株式会社」などの単語の組が手がかりである、同一種類であることを判別するための学習事例を生成する。

抽出装置１００は、単語「Ａ」について学習事例を生成した後、他の同一表記の単語「株式会社」や「研究所」についても学習事例を生成する。また、抽出装置１００は、学習データ１６１０から学習事例を生成した後、学習データ群１６００の中に未処理の学習データが残っていれば、当該未処理の学習データからも学習事例を生成する。

（２）そして、抽出装置１００は、学習エンジンを用いて、生成された学習事例群から、同一種類の固有表現かどうかの判別において尤もらしい学習事例を特定する。学習エンジンは、例えば、学習事例群の中で出現頻度が閾値以上である学習事例を特定する。また、学習エンジンは、類似する学習事例が存在しないために、閾値以上の精度で単語の組が同一種類か否かを判別可能な学習事例を特定してもよい。抽出装置は、例えば、単語の組が同一種類であることを示す情報と、共起単語「株式会社」と「株式会社」の組み合わせを関連付けた判別規則を生成する。そして、抽出装置１００は、生成した判別規則を含む同一表記・種類単語判別規則３００を生成する。

図１８において、抽出装置１００は、学習データ群１６００の中から未処理の学習データを選択する。次に、抽出装置１００は、選択した学習データからタグを除外した対象データを生成する。ここでは、抽出装置１００は、学習データ１６１０を選択し、学習データ１６１０から対象データ１８００を生成したとする。

（１）次に、抽出装置１００は、対象データ１８００の中から、同一表記の単語の組として、「Ａ」１８０１と「Ａ」１８０２の組と、「Ａ」１８０１と「Ａ」１８０３の組と、「Ａ」１８０２と「Ａ」１８０３の組と、を抽出する。

そして、抽出装置１００は、「Ａ」１８０１と「Ａ」１８０２の組について、「Ａ」１８０１と「Ａ」１８０２の各々の周辺にある単語の組み合わせ「株式会社＆研究所」などを手がかりとして特定する。また、抽出装置１００は、「Ａ」１８０１と「Ａ」１８０３の組について、「Ａ」１８０１と「Ａ」１８０３の各々の周辺にある単語の組み合わせ「株式会社＆研究所」などを手がかりとして特定する。また、抽出装置１００は、「Ａ」１８０２と「Ａ」１８０３の組について、「Ａ」１８０２と「Ａ」１８０３の各々の周辺にある単語の組み合わせ「研究所＆研究所」、「株式会社＆株式会社」などを手がかりとして特定する。

（２）そして、抽出装置１００は、判別エンジンを用いて、生成された手がかりに該当する同一表記・種類単語判別規則３００の判別規則を特定する。判別エンジンは、該当する判別規則が複数ある場合、例えば、学習事例上での判別精度などを基に、尤もらしい判別規則を特定する。

抽出装置１００は、判別エンジンによって特定された判別規則により、「Ａ」１８０１と「Ａ」１８０２の組と「Ａ」１８０１と「Ａ」１８０３の組と「Ａ」１８０２と「Ａ」１８０３の組との各々が同一種類か否かを判別する。ここでは、抽出装置１００は、同一表記・種類単語判別規則３００と、共起単語「研究所」と「研究所」の組み合わせと、「株式会社」と「株式会社」の組み合わせとから、「Ａ」１８０２と「Ａ」１８０３の組が同一種類であると判別する。

図１９において、抽出装置１００は、選択した学習データ１６１０の中から、図１８で同一種類と判別された「Ａ」１８０２と「Ａ」１８０３の組に対応する「Ａ」１６１４と「Ａ」１６１７を特定する。抽出装置１００は、以降の処理で、特定された「Ａ」１６１４と「Ａ」１６１７を一纏めにして扱う。

（１）抽出装置１００は、学習データ１６１０の中の単語ごとに、または一纏めにされた単語ごとに、タグを参照して単語の種類を特定し、特定した単語の種類を抽出するための手がかりを特定する。抽出装置１００は、具体的には、例えば、一纏めにされた「Ａ」１６１４と「Ａ」１６１７の周辺にある単語から、「Ｉ−ＯＲＧ」を抽出するための手がかりになる「株式会社：−１」および「研究所：＋１」を特定する。そして、抽出装置１００は、特定した単語が手がかりである、単語の種類が「Ｉ−ＯＲＧ」であることを判別するための学習事例を生成する。

また、抽出装置１００は、同一種類の他の単語がない「Ａ」１６１１の周辺にある単語から、「Ｂ−ＯＲＧ」を抽出するための手がかりになる「株式会社：＋１」を特定する。そして、抽出装置１００は、特定した単語が手がかりである、単語の種類が「Ｂ−ＯＲＧ」であることを判別するための学習事例を生成する。

（２）そして、抽出装置１００は、学習エンジンを用いて、生成された学習事例群のうち、尤もらしい学習事例を特定する。学習エンジンは、例えば、学習事例群の中で出現頻度が閾値以上である学習事例を、尤もらしい学習事例として特定する。抽出装置１００は、学習エンジンによって特定された学習事例から抽出用規則を生成する。抽出装置１００は、例えば、単語の種類「Ｉ−ＯＲＧ」と、「株式会社：−１」とを関連付けた抽出用規則を生成する。そして、抽出装置１００は、生成した抽出用規則を含む固有表現抽出用規則４００を生成する。

これにより、抽出装置１００は、学習データ群１６００を用いて、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を機械学習により生成することができる。そのため、抽出装置１００の利用者は、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を生成する手間を削減することができる。ここでは、閾値を基にした規則学習手法を用いたが、他の学習手法としては、非特許文献３，４，５などを用いることもできる。学習手法として、非特許文献３を用いた場合は、各規則のスコアの和、非特許文献４，５はモデル（規則に相当）を用いて計算されるスコアの和を基に、同一表記で同一の固有表現になる単語、各単語の固有表現の種類を決める。

（実施例１にかかる抽出装置１００による固有表現抽出処理の具体例２）
次に、図２０および図２１を用いて、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例２について説明する。

図２０および図２１は、実施例１にかかる抽出装置１００による固有表現抽出処理の具体例２を示す説明図である。図２０において、抽出装置１００は、固有表現の抽出対象になる入力データ２０００を受け付ける。

（１）まず、抽出装置１００は、入力データ２０００の中から、同一表記の単語の組として、「Ｂ」２００１と「Ｂ」２００２の組と、「Ｂ」２００１と「Ｂ」２００３の組と、「Ｂ」２００２と「Ｂ」２００３の組と、を抽出する。

そして、抽出装置１００は、「Ｂ」２００１と「Ｂ」２００２の組について、「Ｂ」２００１と「Ｂ」２００２の各々の周辺にある単語の組み合わせ「株式会社＆研究所」などを手がかりとして特定する。また、抽出装置１００は、「Ｂ」２００１と「Ｂ」２００３の組について、「Ｂ」２００１と「Ｂ」２００３の各々の周辺にある単語の組み合わせ「株式会社＆研究所」などを手がかりとして特定する。また、抽出装置１００は、「Ｂ」２００２と「Ｂ」２００３の組について、「Ｂ」２００２と「Ｂ」２００３の各々の周辺にある単語の組み合わせ「研究所＆研究所」、「株式会社＆株式会社」などを手がかりとして特定する。

（２）そして、抽出装置１００は、判別エンジンを用いて、特定された手がかりに該当する同一表記・種類単語判別規則３００の判別規則を特定する。判別エンジンは、該当する判別規則が複数ある場合、尤もらしい判別規則を特定する。抽出装置１００は、判別エンジンによって特定された判別規則により、「Ｂ」２００１と「Ｂ」２００２の組と「Ｂ」２００１と「Ｂ」２００３の組と「Ｂ」２００２と「Ｂ」２００３の組との各々が同一種類か否かを判別する。

ここでは、抽出装置１００は、同一表記・種類単語判別規則３００と、共起単語「研究所」と「研究所」の組み合わせと、「株式会社」と「株式会社」の組み合わせとから、「Ｂ」２００２と「Ｂ」２００３の組が同一種類であると判別する。

図２１において、抽出装置１００は、以降の処理で、図２０で同一種類と判別された「Ｂ」２００２と「Ｂ」２００３を一纏めにして扱う。

（１）抽出装置１００は、入力データ２０００の中の単語ごとに、または一纏めにされた単語ごとに、単語の種類を抽出するための手がかりを特定する。抽出装置１００は、具体的には、例えば、一纏めにされた「Ｂ」２００２と「Ｂ」２００３の周辺にある単語から、手がかりとして「株式会社：−１」および「研究所：＋１」を特定する。また、抽出装置１００は、同一種類の他の単語がない「Ｂ」２００１の周辺にある単語から、手がかりとして「株式会社：＋１」を特定する。

（２）次に、抽出装置１００は、判別エンジンを用いて、特定された手がかりに該当する固有表現抽出用規則４００の抽出用規則を特定する。判別エンジンは、該当する抽出用規則が複数ある場合、尤もらしい抽出用規則を特定する。抽出装置１００は、判別エンジンによって特定された抽出用規則により、入力データ２０００の中の単語ごとに、または一纏めにされた単語ごとに、単語の種類を抽出する。

ここでは、抽出装置１００は、「Ｂ」２００２と「Ｂ」２００３の種類として「Ｉ−ＯＲＧ」を抽出し、「Ｂ」２００１の種類として「Ｂ−ＯＲＧ」を抽出する。なお、抽出装置１００は、他の同一表記の単語「株式会社」や「研究所」についても、同様に、単語の種類を抽出する。

（実施例１にかかる抽出装置１００による固有表現抽出結果の出力例２）
次に、図２２を用いて、実施例１にかかる抽出装置１００による固有表現抽出結果の出力例２について説明する。抽出装置１００は、図２０および図２１での固有表現抽出結果を出力する。

図２２は、実施例１にかかる抽出装置１００による固有表現抽出結果の出力例２を示す説明図である。図２２に示すように、抽出装置１００は、例えば、抽出した単語の種類をタグとして付与した入力データ２０００「＜Ｂ−ＯＲＧ＞Ｂ＜／Ｂ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞株式会社＜／Ｅ−ＯＲＧ＞は＜Ｂ−ＯＲＧ＞株式会社＜／Ｂ−ＯＲＧ＞＜Ｉ−ＯＲＧ＞Ｂ＜／Ｉ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞研究所＜／Ｅ−ＯＲＧ＞の子会社であり、＜Ｂ−ＯＲＧ＞株式会社＜／Ｂ−ＯＲＧ＞＜Ｉ−ＯＲＧ＞Ｂ＜／Ｉ−ＯＲＧ＞＜Ｅ−ＯＲＧ＞研究所＜／Ｅ−ＯＲＧ＞は川崎市にある。」を出力する。

他にも、Ｂ−ＯＲＧ、Ｉ−ＯＲＧ，Ｅ−ＯＲＧのように複数の単語で一つの固有表現となる場合を表現するタグが付与されている場合は、＜ＯＲＧ＞Ｂ株式会社＜ＯＲＧ＞は＜ＯＲＧ＞株式会社Ｂ研究所＜／ＯＲＧ＞の子会社であり、＜ＯＲＧ＞株式会社Ｂ研究所＜／ＯＲＧ＞は川崎市にある。」のように一つのタグとして出力することも可能である。

（実施例２）
実施例１は、単語単位で分割された一連の単語の中から固有表現の単語を抽出する実施例であった。対して、実施例２は、図５を用いて説明したチャンク単位で分割されたチャンクのラティスの中から固有表現のチャンクを抽出する場合の実施例である。

（実施例２にかかる抽出装置１００による規則学習処理の内容）
次に、図２３〜図２６を用いて、実施例２にかかる抽出装置１００による規則学習処理の内容について説明する。規則学習処理は、学習データ群の各々を変換して得たチャンクのラティスを用いて、同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する処理である。

図２３は、実施例２にかかる抽出装置１００による規則学習処理に用いられるチャンクのラティスの一例を示す説明図である。図２３に示すように、抽出装置１００は、学習データ「＜ＯＲＧ＞Ｃ社＜／ＯＲＧ＞の社員は＜ＬＯＣ＞Ｃ社＜／ＬＯＣ＞へ行き＜ＬＯＣ＞Ｃ社＜／ＬＯＣ＞から帰る。」からチャンクのラティス２３００を生成する。

抽出装置１００は、具体的には、例えば、学習データ「＜ＯＲＧ＞Ｃ社＜／ＯＲＧ＞の社員は＜ＬＯＣ＞Ｃ社＜／ＬＯＣ＞へ行き＜ＬＯＣ＞Ｃ社＜／ＬＯＣ＞から帰る。」を形態素解析し、単語ごとに区切る。単語ごとに区切られた学習データは、例えば、「Ｃ社の社員はＣ社へ行きＣ社から帰る。」である。

抽出装置１００は、単語ごとに区切られた学習データの中から、２単語ずつ組み合わせたチャンクを生成する。例えば、抽出装置１００は、「Ｃ社」「社の」「の社員」「社員は」などのチャンクを生成する。そして、抽出装置１００は、生成したチャンクから、チャンクのラティスを生成する。そして、抽出装置１００は、複数通りのチャンクのラティスの中から、タグが付与されたチャンク「Ｃ社」を含むチャンクのラティス中のパスを、正しく判別するように規則学習する。

図２４〜図２６は、図２３で生成されたチャンクのラティスを用いて同一表記・種類単語判別規則３００と固有表現抽出用規則４００とを生成する内容を示す説明図である。図２４において、まず、抽出装置１００は、学習データ群の中から、未処理の学習データを選択する。そして、抽出装置１００は、図２３に示したように、選択した学習データからチャンクのラティスを生成する。ここでは、抽出装置１００は、チャンクのラティス２３００を生成したとする。

（１）抽出装置１００は、選択したチャンクのラティス２３００の中から、同一表記のチャンクの組として、「Ｃ社」２３０１と「Ｃ社」２３０２の組と、「Ｃ社」２３０１と「Ｃ社」２３０３の組と、「Ｃ社」２３０２と「Ｃ社」２３０３の組と、を抽出する。また、抽出装置１００は、例えば、同一表記のチャンクの組として、「Ｃ」の組や「社」の組を抽出してもよい。

そして、抽出装置１００は、「Ｃ社」２３０１と「Ｃ社」２３０２の組については、異なる種類であるため、「Ｃ社」２３０１と「Ｃ社」２３０２の各々の周辺にある単語の組み合わせ「の＆へ」、「社員＆行く」などを、単語の組が異なる種類であることを示す手がかりとして生成し、同一ではないとう学習事例を生成する

また、抽出装置１００は、「Ｃ社」２３０１と「Ｃ社」２３０３組については、異なる種類であるため、「Ｃ社」２３０１と「Ｃ社」２３０３の各々の周辺にある単語の組み合わせ「の＆から」、「社員＆帰る」などを、単語の組が異なる種類であることを示す手がかりとして生成し、同一でないという学習事例を生成する

また、抽出装置１００は、「Ｃ社」２３０２と「Ｃ社」２３０３の組については、同一種類であるため、「Ｃ社」２３０２と「Ｃ社」２３０３の各々の周辺にある単語の組み合わせ「へ＆から」、「行き＆帰る」などを、単語の組が同一種類であることを示す手がかりとして生成し、同一であるという学習事例を生成する

抽出装置１００は、チャンクのラティス２３００から学習事例を生成した後、学習データ群の中に未処理の学習データが残っていれば、当該未処理の学習データをチャンクのラティスに変換し、変換後のチャンクのラティスからも学習事例を生成する。

（２）そして、抽出装置１００は、学習エンジンを用いて、生成された学習事例群のうち、尤もらしい学習事例を特定する。学習エンジンは、例えば、学習事例群の中で出現頻度が閾値以上である学習事例を、尤もらしい手がかりとして特定する。抽出装置１００は、学習エンジンによって特定された学習事例から判別規則を生成する。抽出装置１００は、例えば、例えば、チャンクの組が同一種類であることを示す情報と、共起単語「行き」と「帰る」の組み合わせを関連付けた判別規則を生成する。そして、抽出装置１００は、生成した判別規則を含む同一表記・種類単語判別規則３００を生成する。また、抽出装置１００は、固有表現のチャンクではない「Ｃ」、「社」または「社の」などについては、判別規則を生成しなくてもよい。

図２５において、抽出装置１００は、学習データ群の中から、未処理の学習データを選択する。そして、抽出装置１００は、図２３に示したように、選択した学習データからチャンクのラティスを生成する。ここでは、抽出装置１００は、チャンクのラティス２３００を生成したとする。

また、抽出装置１００は、チャンクのラティス２３００からタグを除外した対象ラティスを生成する。ここでは、抽出装置１００は、チャンクのラティス２３００から対象ラティス２５００を生成したとする。

（１）次に、抽出装置１００は、対象ラティス２５００の中から、同一表記のチャンクの組として、「Ｃ社」２５０１と「Ｃ社」２５０２の組と、「Ｃ社」２５０１と「Ｃ社」２５０３の組と、「Ｃ社」２５０２と「Ｃ社」２５０３の組と、を抽出する。また、抽出装置１００は、例えば、同一表記のチャンクの組として、「Ｃ」の組や「社」の組を抽出してもよい。

そして、抽出装置１００は、「Ｃ社」２５０１と「Ｃ社」２５０２の組について、「Ｃ社」２５０１と「Ｃ社」２５０２の各々の周辺にある単語の組み合わせ「の＆へ」、「社員＆行く」などを手がかりとして特定する。また、抽出装置１００は、「Ｃ社」２５０１と「Ｃ社」２５０３の組について、「Ｃ社」２５０１と「Ｃ社」２５０３の各々の周辺にある単語の組み合わせ「の＆から」、「社員＆帰る」などを手がかりとして特定する。また、抽出装置１００は、「Ｃ社」２５０２と「Ｃ社」２５０３の組について、「Ｃ社」２５０２と「Ｃ社」２５０３の各々の周辺にある単語の組み合わせ「へ＆から」、「行き＆帰る」などを手がかりとして特定する。

（２）そして、抽出装置１００は、判別エンジンを用いて、特定された手がかりに該当する同一表記・種類単語判別規則３００の判別規則を特定する。判別エンジンは、該当する判別規則が複数ある場合、尤もらしい判別規則を特定する。抽出装置１００は、判別エンジンによって特定された判別規則により、「Ｃ社」２５０１と「Ｃ社」２５０２の組と「Ｃ社」２５０１と「Ｃ社」２５０３の組と「Ｃ社」２５０２と「Ｃ社」２５０３の組との各々が同一種類か否かを判別する。ここでは、抽出装置１００は、同一表記・種類単語判別規則３００と、共起単語「行き」と「帰る」の組み合わせとから、「Ｃ社」２５０２と「Ｃ社」２５０３の組が同一種類であると判別する。

図２６において、抽出装置１００は、チャンクのラティス２３００の中から、図２５で同一種類と判別された「Ｃ社」２５０２と「Ｃ社」２５０３の組に対応する「Ｃ社」２３０２と「Ｃ社」２３０３を特定する。抽出装置１００は、以降の処理で、特定された「Ｃ社」２３０２と「Ｃ社」２３０３を一纏めにして扱う。

（１）抽出装置１００は、チャンクのラティス２３００の中のチャンクごとに、または一纏めにされたチャンクごとに、タグを参照してチャンクの種類を特定し、特定したチャンクの種類を抽出するための手がかりを特定する。抽出装置１００は、具体的には、例えば、一纏めにされた「Ｃ社」２３０２と「Ｃ社」２３０３の周辺にあるチャンクから、「ＬＯＣ」を抽出するための手がかりになる「社員：−２」、「は：−１」、「へ：＋１」、「行き：＋２」、「へ：−２」、「行き：−１」、「から：＋１」、および「帰る：＋２」を特定する。そして、抽出装置１００は、特定した「社員：−２」、「は：−１」、「へ：＋１」、「行き：＋２」、「へ：−２」、「行き：−１」、「から：＋１」、および「帰る：＋２」が手がかりである、チャンクの種類が「ＯＲＧ」であることを判別するための学習事例を生成する。

また、抽出装置１００は、同一種類の他のチャンクがない「Ｃ社」２３０１の周辺にあるチャンクから、「ＯＲＧ」を抽出するための手がかりになる「の：＋１」、および「社員：＋２」を特定する。そして、抽出装置１００は、特定した「の：＋１」、および「社員：＋２」が手がかりである、チャンクの種類が「ＯＲＧ」であることを判別するための学習事例を生成する。

（２）そして、抽出装置１００は、学習エンジンを用いて、生成された学習事例群のうち、尤もらしい学習事例を特定する。学習エンジンは、例えば、学習事例群の中で出現頻度が閾値以上である学習事例を、尤もらしい学習事例として特定する。抽出装置１００は、学習エンジンによって特定された学習事例から抽出用規則を生成する。抽出装置１００は、例えば、単語の種類「ＬＯＣ」を示す情報と、「行き：＋２」とを関連付けた抽出用規則を生成する。そして、抽出装置１００は、生成した抽出用規則を含む固有表現抽出用規則４００を生成する。

また、抽出装置１００は、固有表現のチャンクではない「Ｃ」、「社」または「社の」などについて、固有表現ではないことを示す抽出用規則を生成してもよい。また、抽出装置１００は、固有表現のチャンクではない「Ｃ」、「社」または「社の」などについては、抽出用規則を生成しなくてもよい。

これにより、抽出装置１００は、学習データ群を用いて、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を機械学習により生成することができる。そのため、抽出装置１００の利用者は、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を生成する手間を削減することができる。

（実施例２にかかる規則学習処理の詳細な処理手順）
次に、図２７および図２８を用いて、実施例２にかかる規則学習処理の詳細な処理手順について説明する。実施例２にかかる規則学習処理は、図２４〜図２６に示した抽出装置１００によって実行される処理である。

図２７および図２８は、実施例２にかかる規則学習処理の詳細な処理手順を示すフローチャートである。図２７に示すように、まず、抽出装置１００は、学習データ群の中から、未処理の学習データを選択する（ステップＳ２７０１）。

次に、抽出装置１００は、選択した学習データをチャンク単位で分割されたチャンクのラティスに変換する（ステップＳ２７０２）。そして、抽出装置１００は、変換後のチャンクのラティスの中に、同一表記のチャンクがあるか否かを判定する（ステップＳ２７０３）。ここで、同一表記のチャンクがない場合（ステップＳ２７０３：Ｎｏ）、抽出装置１００は、ステップＳ２７０９に移行する。

一方、同一表記のチャンクがある場合（ステップＳ２７０３：Ｙｅｓ）、抽出装置１００は、チャンクのラティスの中にある同一表記のチャンクの組のうち、未処理のチャンクの組を選択する（ステップＳ２７０４）。

次に、抽出装置１００は、選択したチャンクの組が同一種類のチャンクであるか否かを判定する（ステップＳ２７０５）。ここで、同一種類のチャンクである場合（ステップＳ２７０５：Ｙｅｓ）、抽出装置１００は、選択したチャンクの組の各々とともに出現する共起チャンクの組み合わせと、チャンクの組が同一種類であることを示す情報と、を含む判別規則を生成する（ステップＳ２７０６）。そして、抽出装置１００は、ステップＳ２７０８に移行する。

一方、異なる種類のチャンクである場合（ステップＳ２７０５：Ｎｏ）、抽出装置１００は、選択したチャンクの組の各々とともに出現する共起チャンクの組み合わせと、チャンクの組が異なる種類であることを示す情報と、を含む判別規則を生成する（ステップＳ２７０７）。そして、抽出装置１００は、ステップＳ２７０８に移行する。

次に、抽出装置１００は、未処理のチャンクの組があるか否かを判定する（ステップＳ２７０８）。未処理のチャンクの組がある場合（ステップＳ２７０８：Ｙｅｓ）、抽出装置１００は、ステップＳ２７０４に戻る。

一方、未処理のチャンクの組がない場合（ステップＳ２７０８：Ｎｏ）、抽出装置１００は、チャンクのラティス群の中に、未処理のチャンクのラティスがあるか否かを判定する（ステップＳ２７０９）。ここで、未処理のチャンクのラティスがある場合（ステップＳ２７０９：Ｙｅｓ）、抽出装置１００は、ステップＳ２７０１に戻る。

一方、未処理のチャンクのラティスがない場合（ステップＳ２７０９：Ｎｏ）、抽出装置１００は、生成した判別規則群から、同一表記・種類単語判別規則３００を生成する（ステップＳ２７１０）。そして、抽出装置１００は、図２８のステップＳ２８０１に移行する。

図２８において、抽出装置１００は、学習データ群の中から未処理の学習データを選択し、選択した学習データのタグを除去した対象データを生成する（ステップＳ２８０１）。次に、抽出装置１００は、生成した対象データをチャンク単位で分割されたチャンクのラティスに変換する（ステップＳ２７０２）。

そして、抽出装置１００は、同一表記・種類単語判別規則３００を参照して、チャンクのラティスの中で同一表記かつ同一種類のチャンクの組を特定する（ステップＳ２８０３）。次に、抽出装置１００は、チャンクのラティスの中から、未処理のチャンクを選択する（ステップＳ２８０４）。そして、抽出装置１００は、ステップＳ２８０２の特定結果から、選択したチャンクと同一表記かつ同一種類のチャンクがあるか否かを判定する（ステップＳ２８０５）。

ここで、同一表記かつ同一種類のチャンクがある場合（ステップＳ２８０５：Ｙｅｓ）、抽出装置１００は、同一表記かつ同一種類のチャンクの組の各々から特定した手がかりと、タグから特定した当該チャンクの組の種類と、を含む抽出用規則を生成する（ステップＳ２８０６）。そして、抽出装置１００は、ステップＳ２８０８に移行する。

一方、抽出装置１００は、同一表記かつ同一種類のチャンクがない場合（ステップＳ２８０５：Ｎｏ）、抽出装置１００は、選択したチャンクから特定した手がかりと、タグから特定した当該チャンクの種類と、を含む抽出用規則を生成する（ステップＳ２８０７）。そして、抽出装置１００は、ステップＳ２８０８に移行する。

次に、抽出装置１００は、選択したチャンクのラティスの中に、未処理のチャンクがあるか否かを判定する（ステップＳ２８０８）。ここで、未処理のチャンクがある場合（ステップＳ２８０８：Ｙｅｓ）、抽出装置１００は、ステップＳ２８０４に戻る。

一方、未処理のチャンクがない場合（ステップＳ２８０８：Ｎｏ）、抽出装置１００は、未処理のチャンクのラティスがあるか否かを判定する（ステップＳ２８０９）。ここで、未処理のチャンクのラティスがある場合（ステップＳ２８０９：Ｙｅｓ）、抽出装置１００は、ステップＳ２８０１に戻る。

一方、未処理のチャンクのラティスがない場合（ステップＳ２８０９：Ｎｏ）、抽出装置１００は、生成した抽出用規則群から、固有表現抽出用規則４００を生成する（ステップＳ２８１０）。そして、抽出装置１００は、規則学習処理を終了する。

（実施例２にかかる抽出装置１００による固有表現抽出処理の具体例）
次に、図２９〜図３２を用いて、実施例２にかかる抽出装置１００による固有表現抽出処理の具体例について説明する。実施例２にかかる固有表現抽出処理は、固有表現の抽出対象のデータを変換して得たチャンクのラティスの中から固有表現のチャンクを抽出する処理であり、図５を用いて説明した処理である。

図２９は、抽出装置１００による固有表現抽出の対象になるチャンクのラティスの一例を示す説明図である。図２９に示すように、抽出装置１００は、固有表現の抽出対象になる入力データ「Ｂ商事の社員はＢ商事へ行きＢ商事から帰る。」を受け付ける。そして、抽出装置１００は、入力データから、固有表現抽出の対象になるチャンクのラティス２９００を生成する。

抽出装置１００は、具体的には、例えば、入力データ「Ｂ商事の社員はＢ商事へ行きＢ商事から帰る。」を形態素解析し、単語ごとに区切る。単語ごとに区切られた学習データは、例えば、「Ｂ商事の社員はＢ商事へ行きＢ商事から帰る。」である。

抽出装置１００は、単語ごとに区切られた学習データの中から、２単語ずつ組み合わせたチャンクを生成する。例えば、抽出装置１００は、「Ｂ商事」「商事の」「の社員」「社員は」などのチャンクを生成する。そして、抽出装置１００は、生成したチャンクから、チャンクのラティスを生成する。そして、抽出装置１００は、生成したチャンクのラティスを、固有表現抽出の対象になるチャンクのラティスとして特定する。

図３０および図３１は、実施例２にかかる抽出装置１００による固有表現抽出処理の具体例を示す説明図である。図３０において、（１）抽出装置１００は、チャンクのラティス２９００の中から、同一表記のチャンクの組として、「Ｂ商事」２９０１と「Ｂ商事」２９０２の組と、「Ｂ商事」２９０１と「Ｂ商事」２９０３の組と、「Ｂ商事」２９０２と「Ｂ商事」２９０３の組と、を抽出する。また、抽出装置１００は、例えば、同一表記のチャンクの組として、「Ｂ」の組や「商事」の組を抽出してもよい。

そして、抽出装置１００は、「Ｂ商事」２９０１と「Ｂ商事」２９０２の組について、「Ｂ商事」２９０１と「Ｂ商事」２９０２の各々の周辺にある単語の組み合わせ「の＆へ」、「社員＆行く」などを手がかりとして特定する。また、抽出装置１００は、「Ｂ商事」２９０１と「Ｂ商事」２９０３の組について、「Ｂ商事」２９０１と「Ｂ商事」２９０３の各々の周辺にある単語の組み合わせ「の＆から」、「社員＆帰る」などを手がかりとして特定する。また、抽出装置１００は、「Ｂ商事」２９０２と「Ｂ商事」２９０３の組について、「Ｂ商事」２９０２と「Ｂ商事」２９０３の各々の周辺にある単語の組み合わせ「へ＆から」、「行き＆帰る」などを手がかりとして特定する。

（２）そして、抽出装置１００は、判別エンジンを用いて、生成された手がかりに該当する同一表記・種類単語判別規則３００の判別規則を特定する。判別エンジンは、該当する判別規則が複数ある場合、尤もらしい判別規則を特定する。抽出装置１００は、判別エンジンによって特定された判別規則により、「Ｂ商事」２９０１と「Ｂ商事」２９０２の組と「Ｂ商事」２９０１と「Ｂ商事」２９０３の組と「Ｂ商事」２９０２と「Ｂ商事」２９０３の組との各々が同一種類か否かを判別する。

ここでは、抽出装置１００は、同一表記・種類単語判別規則３００と、共起単語「行き」と「帰る」の組み合わせとから、「Ｂ商事」２９０２と「Ｂ商事」２９０３の組が同一種類であると判別する。

図３１において、抽出装置１００は、以降の処理で、図３０で同一種類と判別された「Ｂ商事」２９０２と「Ｂ商事」２９０３を一纏めにして扱う。

（１）抽出装置１００は、チャンクのラティス２９００の中のチャンクごとに、または一纏めにされたチャンクごとに、チャンクの種類を抽出するための手がかりを特定する。抽出装置１００は、具体的には、例えば、一纏めにされた「Ｂ商事」２９０２と「Ｂ商事」２９０３の周辺にある単語から、手がかりとして「社員：−２」、「は：−１」、「へ：＋１」、「行き：＋２」、「へ：−２」、「行き：−１」、「から：＋１」、および「帰る：＋２」を特定する。また、抽出装置１００は、同一種類の他のチャンクがない「Ｂ商事」２９０１の周辺にある単語から、手がかりとして「の：＋１」、および「社員：＋２」を特定する

（２）次に、抽出装置１００は、判別エンジンを用いて、生成された手がかりに該当する固有表現抽出用規則４００の抽出用規則を特定する。判別エンジンは、該当する抽出用規則が複数ある場合、尤もらしい抽出用規則を特定する。抽出装置１００は、学習エンジンによって特定された抽出用規則により、チャンクのラティス２９００の中のチャンクごとに、または一纏めにされたチャンクごとに、チャンクの種類を抽出する。ここでは、抽出装置１００は、「Ｂ商事」２９０２と「Ｂ商事」２９０３の種類として「ＬＯＣ」を抽出し、「Ｂ商事」２９０１の種類として「ＯＲＧ」を抽出する。

これにより、抽出装置１００は、同一表記かつ同一種類のチャンクについては、一纏めにして同じチャンクの種類を抽出することができる。また、抽出装置１００は、同一表記であっても異なる種類のチャンクについては、他の同一表記のチャンクとは別個にチャンクの種類を抽出することができるようになる。結果として、抽出装置１００は、同一表記かつ同一種類のチャンクを一纏めにして同じ種類のチャンクとして抽出することで、同一種類のチャンクを異なる種類のチャンクとして抽出することを防止して、抽出精度の向上を図ることができる。また、抽出装置１００は、同一表記であっても異なる種類のチャンク同士を、別個に扱ってチャンクの種類を抽出することで、誤って同じ種類のチャンクとして抽出することを防止し、抽出精度の向上を図ることができる。

（実施例２にかかる抽出装置１００による固有表現抽出結果の出力例）
次に、図３２を用いて、実施例２にかかる抽出装置１００による固有表現抽出結果の出力例について説明する。抽出装置１００は、図２９〜図３１での固有表現抽出結果を出力する。

図３２は、実施例２にかかる抽出装置１００による固有表現抽出結果の出力例を示す説明図である。図３２に示すように、抽出装置１００は、例えば、抽出した単語の種類をタグとして付与したチャンクのラティス２９００「＜ＯＲＧ＞Ｂ商事＜／ＯＲＧ＞の社員は＜ＬＯＣ＞Ｂ商事＜／ＬＯＣ＞へ行き＜ＬＯＣ＞Ｂ商事＜／ＬＯＣ＞から帰る。」を出力する。

（実施例２にかかる固有表現抽出処理の詳細な処理手順）
次に、図３３を用いて、実施例２にかかる固有表現抽出処理の詳細な処理手順について説明する。実施例２にかかる固有表現抽出処理は、図２９〜図３２に示した抽出装置１００によって行われる処理である。

図３３は、実施例２にかかる固有表現抽出処理の詳細な処理手順を示すフローチャートである。図３３に示すように、まず、抽出装置１００は、入力データを受け付ける（ステップＳ３３０１）。次に、抽出装置１００は、入力データをチャンク単位で分割されたチャンクのラティスに変換する（ステップＳ３３０２）。

そして、抽出装置１００は、同一表記・種類単語判別規則３００を参照して、入力データの中で同一表記かつ同一種類のチャンクの組を特定する（ステップＳ３３０３）。次に、抽出装置１００は、入力データの中から、未処理のチャンクを選択する（ステップＳ３３０４）。そして、抽出装置１００は、ステップＳ３３０３の特定結果から、選択したチャンクと同一表記かつ同一種類のチャンクがあるか否かを判定する（ステップＳ３３０５）。

ここで、同一表記かつ同一種類のチャンクがある場合（ステップＳ３３０５：Ｙｅｓ）、抽出装置１００は、同一表記かつ同一種類のチャンクの組の各々から特定した手がかりと、固有表現抽出用規則４００と、から同一表記かつ同一種類のチャンクの組の固有表現の種類を特定するためのスコアを規則を用いて付与する（ステップＳ３３０６）。そして、抽出装置１００は、ステップＳ３３０８に移行する。

一方、抽出装置１００は、同一表記かつ同一種類のチャンクがない場合（ステップＳ３３０５：Ｎｏ）、抽出装置１００は、選択したチャンクから特定した手がかりと、固有表現抽出用規則４００と、から選択したチャンクの固有表現の種類を特定するためのスコアを規則を用いて付与する（ステップＳ３３０７）。そして、抽出装置１００は、ステップＳ３３０８に移行する。

次に、抽出装置１００は、入力データの中に、未処理のチャンクがあるか否かを判定する（ステップＳ３３０８）。ここで、未処理のチャンクがある場合（ステップＳ３３０８：Ｙｅｓ）、抽出装置１００は、ステップＳ３３０４に戻る。

一方、未処理のチャンクがない場合（ステップＳ３３０８：Ｎｏ）、最終結果の選択を行う。最終結果の選択は、各チャンクに付与された各固有表現のスコアを基に、文頭から文末まで取りうるチャンクパスのパスおよびそのパス上で取りうる固有表現の種類の組み合わせのうち、スコアの和が最大となるチャンクの列およびそれぞれの固有表現タイプを選択する。その後、抽出装置１００は、抽出結果を出力する（ステップＳ３３０９）。そして、抽出装置１００は、固有表現抽出処理を終了する。

以上説明したように、抽出装置１００は、固有表現の抽出対象になるテキストデータ１１０の中に、同一表記の単語がある場合、当該単語が同一種類の単語か否かを判別する。次に、抽出手段は、同一表記かつ同一種類の単語は一纏めにして同じ単語の種類を抽出し、同一表記であっても異なる種類の単語は別個に単語の種類を抽出する。

また、抽出装置１００は、学習データから同一表記・種類単語判別規則３００および固有表現抽出用規則４００を機械学習により生成することができる。そのため、抽出装置１００の利用者は、同一表記・種類単語判別規則３００および固有表現抽出用規則４００を生成する手間を削減することができる。

また、抽出装置１００は、固有表現の抽出対象になるテキストデータ１１０をチャンクごとに分割してチャンクのラティスを生成し、チャンクのラティスの中に、同一表記のチャンクがある場合、当該チャンクが同一種類のチャンクか否かを判別する。次に、抽出手段は、同一表記かつ同一種類のチャンクは一纏めにしてチャンクの種類を抽出し、同一表記であっても異なる種類のチャンクは別個にチャンクの種類を抽出する。

結果として、抽出装置１００は、同一表記かつ同一種類のチャンクを一纏めにして同じ種類のチャンクとして抽出することで、同一種類のチャンクを異なる種類のチャンクとして抽出することを防止して、抽出精度の向上を図ることができる。また、抽出装置１００は、同一表記であっても異なる種類のチャンク同士を、別個に扱ってチャンクの種類を抽出することで、誤って同じ種類のチャンクとして抽出することを防止し、抽出精度の向上を図ることができる。

なお、本実施の形態で説明した抽出方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本抽出プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本抽出プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）共起単語の組み合わせと、前記共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部と、
前記共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部と、
一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出する検出部と、
前記検出部によって検出された第１の単語が前記共起単語の一方とともに出現し、かつ、前記検出部によって検出された第２の単語が前記共起単語の他方とともに出現する判別規則が前記第１の記憶部にあるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別する判別部と、
前記判別部によって同一種類であると判別された場合、前記一連の単語の中から、前記第１の単語および前記第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定する特定部と、
前記特定部によって特定された組み合わせに関連付けられた単語の種類を示す情報を前記第２の記憶部に記憶されている抽出用規則から抽出し、前記第１の単語および前記第２の単語に付与する抽出部と、
前記抽出部により付与された前記一連の単語を出力する出力部と、
を有することを特徴とする抽出装置。

（付記２）前記一連の単語を、チャンクを含む複数通りの単語列に変換する変換部を有し、
前記検出部は、
前記変換部によって変換された複数の単語列の中から第１のチャンクおよび当該第１のチャンクと同一表記の第２のチャンクを検出し、
前記判別部は、
前記検出部によって検出された第１のチャンクが前記共起単語の一方とともに出現し、かつ、前記検出部によって検出された第２のチャンクが前記共起単語の他方とともに出現する判別規則が前記第１の記憶部にあるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
前記特定部は、
前記判別部によって同一種類であると判別された場合、前記変換後の単語列の中から、前記第１のチャンクおよび前記第２のチャンクの各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記抽出部は、
前記特定部によって特定された組み合わせに関連付けられた単語の種類を示す情報を前記第２の記憶部に記憶されている抽出用規則から抽出し、前記第１のチャンクおよび前記第２のチャンクに付与することを特徴とする付記１に記載の抽出装置。

（付記３）単語の種類を示す情報が付与された単語を含む単語列の中から同一表記の単語の組み合わせを取得する第１の取得部と、
前記第１の取得部によって取得された組み合わせの各々の単語とともに出現する共起単語の組み合わせを、前記単語の種類を示す情報が付与された単語を含む単語列の中から取得する第２の取得部と、
前記同一表記の単語の組み合わせの各々の単語に付与された単語の種類を示す情報に基づいて、前記同一表記の単語が、同一種類の単語であるか否かを判断する判断部と、
前記第２の取得部によって取得された共起単語の組み合わせと、前記判断部によって判断された判断結果とを、関連付けた判別規則を生成する生成部と、
前記生成部によって生成された判別規則を前記第１の記憶部に格納する格納部と、
を有することを特徴とする付記１または２に記載の抽出装置。

（付記４）前記検出部は、
単語の種類を示す情報が付与された単語を含む単語列の中から第３の単語および当該第３の単語と同一表記の第４の単語を検出し、
前記判別部は、
前記検出部によって検出された第３の単語が前記共起単語の一方とともに出現し、かつ、前記検出部によって検出された第４の単語が前記共起単語の他方とともに出現する判別規則が前記第１の記憶部にあるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
前記特定部は、
前記判別部によって同一種類であると判別された場合、前記単語の種類を示す情報が付与された単語を含む単語列の中から、前記第３の単語および前記第４の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記生成部は、
前記特定部によって特定された単語と当該単語までの距離との組み合わせと、前記第３の単語と前記第４の単語のいずれかの単語に付与されている単語の種類を示す情報と、を関連付けた抽出用規則を生成し、
前記格納部は、
前記生成部によって生成された抽出用規則を前記第２の記憶部に格納することを特徴とする付記３に記載の抽出装置。

（付記５）コンピュータに、
一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出し、
共起単語の組み合わせと、前記共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部に、検出された第１の単語が前記共起単語の一方とともに出現し、かつ、検出された第２の単語が前記共起単語の他方とともに出現する判別規則があるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
同一種類であると判別された場合、前記一連の単語の中から、前記第１の単語および前記第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部に記憶されている抽出用規則から、特定された組み合わせに関連付けられた単語の種類を示す情報を抽出し、前記第１の単語および前記第２の単語に付与し、
付与された前記一連の単語を出力する、
処理を実行させることを特徴とする抽出プログラム。

（付記６）コンピュータが、
一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出し、
共起単語の組み合わせと、前記共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部に、検出された第１の単語が前記共起単語の一方とともに出現し、かつ、検出された第２の単語が前記共起単語の他方とともに出現する判別規則があるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
同一種類であると判別された場合、前記一連の単語の中から、前記第１の単語および前記第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部に記憶されている抽出用規則から、特定された組み合わせに関連付けられた単語の種類を示す情報を抽出し、前記第１の単語および前記第２の単語に付与し、
付与された前記一連の単語を出力する、
処理を実行することを特徴とする抽出方法。

１００抽出装置
３００同一表記・種類単語判別規則
４００固有表現抽出用規則
５０１第１の記憶部
５０２第２の記憶部
５０３入力部
５０４検出部
５０５判別部
５０６特定部
５０７抽出部
５０８出力部
５０９第１の取得部
５１０第２の取得部
５１１判断部
５１２生成部
５１３格納部
５１４変換部

Claims

共起単語の組み合わせと、前記共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部と、
前記共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部と、
一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出する検出部と、
前記検出部によって検出された第１の単語が前記共起単語の一方とともに出現し、かつ、前記検出部によって検出された第２の単語が前記共起単語の他方とともに出現する判別規則が前記第１の記憶部にあるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別する判別部と、
前記判別部によって同一種類であると判別された場合、前記一連の単語の中から、前記第１の単語および前記第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定する特定部と、
前記特定部によって特定された組み合わせに関連付けられた単語の種類を示す情報を前記第２の記憶部に記憶されている抽出用規則から抽出し、前記第１の単語および前記第２の単語に付与する抽出部と、
前記抽出部により付与された前記一連の単語を出力する出力部と、
を有することを特徴とする抽出装置。
単語の種類を示す情報が付与された単語を含む単語列の中から同一表記の単語の組み合わせを取得する第１の取得部と、
前記第１の取得部によって取得された組み合わせの各々の単語とともに出現する共起単語の組み合わせを、前記単語の種類を示す情報が付与された単語を含む単語列の中から取得する第２の取得部と、
前記同一表記の単語の組み合わせの各々の単語に付与された単語の種類を示す情報に基づいて、前記同一表記の単語が、同一種類の単語であるか否かを判断する判断部と、
前記第２の取得部によって取得された共起単語の組み合わせと、前記判断部によって判断された判断結果とを、関連付けた判別規則を生成する生成部と、
前記生成部によって生成された判別規則を前記第１の記憶部に格納する格納部と、
を有することを特徴とする請求項１に記載の抽出装置。
前記検出部は、
単語の種類を示す情報が付与された単語を含む単語列の中から第３の単語および当該第３の単語と同一表記の第４の単語を検出し、
前記判別部は、
前記検出部によって検出された第３の単語が前記共起単語の一方とともに出現し、かつ、前記検出部によって検出された第４の単語が前記共起単語の他方とともに出現する判別規則が前記第１の記憶部にあるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
前記特定部は、
前記判別部によって同一種類であると判別された場合、前記単語の種類を示す情報が付与された単語を含む単語列の中から、前記第３の単語および前記第４の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記生成部は、
前記特定部によって特定された単語と当該単語までの距離との組み合わせと、前記第３の単語と前記第４の単語のいずれかの単語に付与されている単語の種類を示す情報と、を関連付けた抽出用規則を生成し、
前記格納部は、
前記生成部によって生成された抽出用規則を前記第２の記憶部に格納することを特徴とする請求項２に記載の抽出装置。
コンピュータに、
一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出し、
共起単語の組み合わせと、前記共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部に、検出された第１の単語が前記共起単語の一方とともに出現し、かつ、検出された第２の単語が前記共起単語の他方とともに出現する判別規則があるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
同一種類であると判別された場合、前記一連の単語の中から、前記第１の単語および前記第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部に記憶されている抽出用規則から、特定された組み合わせに関連付けられた単語の種類を示す情報を抽出し、前記第１の単語および前記第２の単語に付与し、
付与された前記一連の単語を出力する、
処理を実行させることを特徴とする抽出プログラム。
コンピュータが、
一連の単語の中から第１の単語および当該第１の単語と同一表記の第２の単語を検出し、
共起単語の組み合わせと、前記共起単語の各々とともに出現する同一表記の単語が同一種類の単語であるか否かを示す情報と、を関連付けた判別規則を記憶する第１の記憶部に、検出された第１の単語が前記共起単語の一方とともに出現し、かつ、検出された第２の単語が前記共起単語の他方とともに出現する判別規則があるか否かを判別し、判別規則がある場合、当該判別規則から前記第１の単語と前記第２の単語とが同一種類か否かを判別し、
同一種類であると判別された場合、前記一連の単語の中から、前記第１の単語および前記第２の単語の各々から所定距離以内に存在する単語と当該単語までの距離との組み合わせを特定し、
前記共起単語と当該共起単語までの距離の組み合わせと、当該距離に応じて規定された単語の種類を示す情報と、を関連付けた抽出用規則を記憶する第２の記憶部に記憶されている抽出用規則から、特定された組み合わせに関連付けられた単語の種類を示す情報を抽出し、前記第１の単語および前記第２の単語に付与し、
付与された前記一連の単語を出力する、
処理を実行することを特徴とする抽出方法。