JP4565106B2

JP4565106B2 - 二項関係抽出装置，二項関係抽出処理を用いた情報検索装置，二項関係抽出処理方法，二項関係抽出処理を用いた情報検索処理方法，二項関係抽出処理プログラム，および二項関係抽出処理を用いた情報検索処理プログラム

Info

Publication number: JP4565106B2
Application number: JP2005183495A
Authority: JP
Inventors: 真樹村田; 智裕三森; 晃一土井; 安志福田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-06-23
Filing date: 2005-06-23
Publication date: 2010-10-20
Anticipated expiration: 2025-06-23
Also published as: WO2006137516A1; JP2007004458A; CN101253497A

Description

本発明は，教師あり機械学習処理を用いて，テキストデータから二項関係を持つ表現（語，文字列など）の対を抽出する二項関係抽出技術および二項関係抽出処理を用いた情報検索技術に関する。

テキストデータベースなどから情報を抽出する手法として，関連する語句の二項関係に着目して希望する情報を抽出する方法が知られている。例えば，非特許文献１の手法では，構文解析結果である述語項構造を用いて求める情報を抽出するためのパターンフレームを与えて，正解付きのコーパスから抽出し，抽出したパターンのうち不適切なパターンを排除することによって選別したパターンを用いて適合する情報を抽出している。
薬師寺あかね他著，「述語項構造パターンを用いた医学・生物学分野情報抽出」，言語処理学会第１１回年次大会，２００５年３月

従来では，人手によって作成したパターンを用いて二項関係を抽出処理する手法が主に用いられていた。また，非特許文献１の手法では，パターンの精度を良くするために学習コーパスと照らし合わせてパターンの選別を行って，二項関係の抽出処理の精度向上を図っている。

しかし，二項関係の抽出ルールとしてパターンを用いる場合に，対象となる問題が複雑になると，パターンが煩雑になるという問題がある。そのため，パターンを利用する手法には限界があった。また，抽出手法の性能も高くならないという問題もあった。

本発明の目的は，テキストデータから二項関係を抽出するすべての問題に利用でき，複雑な問題についても性能よく二項関係を抽出できる二項関係抽出装置を提供することである。また，本発明の別の目的は，前記二項関係抽出処理を使用した情報検索装置，およびこれらの装置で実行される各処理方法，およびこれらの装置としてコンピュータを機能させるためのプログラムを提供することである。

本発明は，コンピュータが読み取り可能な記憶装置に格納された文データ中に出現する２つの要素間の関係を示す二項関係を，機械学習処理を用いて抽出する処理装置であって，１）教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と，２）前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と，３）所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と，４）前記記憶装置に格納された文データから，前記二項関係となりうる要素を抽出し，前記抽出した要素で構成される対を二項関係の候補とする候補抽出手段と，５）前記解−素性対抽出手段と同様の抽出処理によって，前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と，６）前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する解推定手段と，７）前記解推定手段の処理結果をもとに，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択する二項関係抽出手段とを備えることを特徴とする。

本発明は，文データ中に出現する二項関係に，抽出するべき二項関係であることを示す解の情報が付与された事例を含む教師データを教師データ記憶手段に記憶しておく。そして，解−素性対抽出手段によって，教師データ記憶手段から事例を取り出し，事例ごとに，所定の情報を素性として抽出し，抽出した素性の集合と解との組を生成する。さらに，機械学習手段によって，所定の機械学習アルゴリズムにもとづいて，解と素性の集合との組について，どのような素性の集合の場合にどのような解となるかということを機械学習処理し，「どのような素性の集合の場合にどのような解となるかということ」を示す情報を学習結果情報として学習結果記憶手段に保存する。

その後，候補抽出手段によって，記憶装置に格納されたテキストデータから，二項関係の要素を抽出し，前記要素で構成される対を抽出し，前記抽出した対を二項関係の候補とすると，素性抽出手段によって，解−素性対抽出手段が行う抽出処理と同様の抽出処理によって，二項関係の候補について所定の情報を素性として抽出する。そして，解推定手段によって，学習結果記憶手段に格納された学習結果情報にもとづいて，二項関係の候補の素性の集合の場合の解となりやすい度合いを推定し，二項関係抽出手段によって，推定結果から，二項関係の候補について解となりやすい度合いが所定の程度より良い場合に，その二項関係の候補を抽出する。

また，本発明は，複数の検索キーワードによる情報検索処理において，教師あり機械学習処理を用いた二項関係抽出処理結果を利用して検索結果を抽出する処理装置であって，１）教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と，２）前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と，３）所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と，４）入力された複数の検索キーワードを用いて入力検索キーワード対を生成し，検索対象となる文書データ群から前記入力検索キーワード対を含む文書データを抽出して取得する情報検索手段と，５）前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し，前記生成した対を二項関係の候補とする候補抽出手段と，６）前記解−素性対抽出手段と同様の抽出処理によって，前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と，７）前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する解推定手段と，８）前記解推定手段の処理結果として，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択し，前記選択した二項関係を含むテキストデータを検索結果として抽出する検索結果抽出手段とを備えることを特徴とする。

本発明は，検索キーワードを要素とする二項関係に，抽出するべき二項関係であることを示す解の情報を付与された事例を含む教師データを教師データ記憶手段に記憶しておく。そして，解−素性対抽出手段によって，教師データ記憶手段から事例を取り出し，事例ごとに，所定の情報を素性として抽出し，抽出した素性の集合と解との組を生成する。さらに，機械学習手段によって，所定の機械学習アルゴリズムにもとづいて，解と素性の集合との組について，どのような素性の集合の場合にどのような解となるかということを機械学習処理し，「どのような素性の集合の場合にどのような解となるかということ」を示す情報を学習結果情報として学習結果記憶手段に保存する。

その後，情報検索手段によって，入力された複数の検索キーワードを用いた入力検索キーワード対を生成し，検索対象となるテキストデータから入力検索キーワード対を含むテキストデータを抽出して取得すると，候補抽出手段によって，検索して取得された各テキストデータから，入力検索キーワードで構成される対を生成し，前記生成した対を二項関係の候補とする。そして，素性抽出手段によって，解−素性対抽出手段が行う抽出処理と同様の抽出処理によって，二項関係の候補について所定の情報を素性として抽出する。さらに，解推定手段によって，学習結果記憶手段に格納された学習結果情報にもとづいて，二項関係の候補の素性の集合の場合の解となりやすい度合いを推定すると，検索結果抽出手段によって，推定結果として，二項関係の候補について解となりやすい度合いが所定の程度より良い場合に，その二項関係の候補を抽出するべき二項関係として選択し，選択した二項関係を含むテキストデータを検索結果として抽出する。

また，本発明は，前記二項関係抽出装置または前記情報検索装置でそれぞれ実現される二項関係抽出処理方法，二項関係抽出処理方法を用いた情報検索処理方法である。

また，本発明は，前記二項関係抽出処理方法または前記情報検索処理方法として実行されるそれぞれの処理過程を，コンピュータに実行させるための二項関係抽出処理プログラム，および，二項関係抽出処理方法を用いた情報検索処理プログラムである。

本発明によれば，抽出するべき二項関係か否かを示すタグを人手によって付与したテキストデータを学習データとして利用して機械学習を行うことによって，新しい二項関係の候補が与えられた場合に，その候補が抽出するべき二項関係か否かを判断することができる。例えば，抽出する二項関係であるか否かのタグを付与した「相互作用をする蛋白質の名称の対」を学習データとして用いることによって，テキストデータベースなどから，希望する「相互作用をする蛋白質の名称の対」の情報を取得することができる。

また，情報検索処理におけるＡＮＤ検索の二つの検索キーワードについて，その検索結果の文書において意味のある関係であるか否かのタグを付与した「検索キーワードの対」を学習データとして用いることによって，検索対象のテキストデータから意味のある検索結果を抽出することができる。

本発明は，テキストデータから二項関係を抽出するすべての問題に利用することができるため，きわめて汎用性が高い。

以下，本発明の二項関係抽出装置１の実施例を説明する。

二項関係抽出装置１は，抽出するべき二項関係か否かのタグを付与したテキストデータである教師データを用いて，どのような語句の対が抽出するべき二項関係であるかを機械学習し，与えられたテキストデータ２から，二項関係の候補を取得して，抽出するべき二項関係３を抽出する処理装置である。

図１に，本発明にかかる二項関係抽出装置１の構成例を示す。二項関係抽出装置１は，教師データ記憶部１１，解−素性対抽出部１２，機械学習部１３，学習結果記憶部１４，候補抽出部１５，素性抽出部１６，解推定部１７，および二項関係抽出部１８を備える。

教師データ記憶部１１は，機械学習処理において使用される教師データとなるテキストデータを記憶する手段である。

教師データとして，テキストデータの文中に出現している二項関係の要素（一方の要素を第１要素，他方の要素を第２要素という）を問題，抽出するべき二項関係であるか否かの情報を解とする事例を用いる。具体的には，テキストデータの一つの文中に二個以上の二項関係の要素を含む文のみについて，その文中の二項関係にある要素の対について，抽出するべき対（正例）であるか，抽出するべきではない対（負例）かのいずれかの解を示すタグを人手によって付与する。一文中に三個以上の二項関係の要素を含む場合には，要素のすべての組み合わせである対それぞれについてタグを付与する。なお，教師データの事例として，抽出するべき対（正例）を示す解のみが付与された二項関係を使用してもよい。

解−素性対抽出部１２は，教師データ記憶部１１に記憶されているテキストデータ内の事例から，解と素性の集合との組を抽出する処理手段である。

素性は，機械学習処理で使用する情報である。解−素性対抽出部１２は，素性として，例えば，二項関係の要素，要素の周囲に出現する単語／文字とその出現位置や順序，要素や周囲の単語の品詞情報，形態素解析情報，構文解析情報，要素間の出現距離，要素間での他の二項関係の要素の有無などの情報を抽出する。

機械学習部１３は，解−素性対抽出部１２によって抽出された解と素性の集合との組から，どのような素性のときにどのような解になりやすいかを，教師あり機械学習法により学習する処理手段である。その学習結果は，学習結果記憶部１４に保存される。

素性抽出部１６は，テキストデータ２から抽出された二項関係の候補について，所定の素性を抽出する処理手段である。

解推定部１７は，学習結果記憶部１４の学習結果を参照して，二項関係の各候補について，その素性の集合の場合に，どのような解（分類先）になりやすいかの度合いを推定する処理手段である。

二項関係抽出部１８は，解推定部１７の推定結果にもとづいて，二項関係の候補から，抽出するべき二項関係であることを示す解となる度合いが高いと推定されたものを，二項関係３として出力する処理手段である。

図２に，二項関係抽出装置１の処理の流れを示す。

二項関係抽出装置１の教師データ記憶部１１には，教師データとして，ある意味を持つ要素の対である二項関係に，抽出するべき二項関係であるか（正）または抽出するべきでない二項関係であるか（負）のいずれかの「解」の情報が付与された事例を含むテキストデータ２を記憶しておく。

なお，抽出するべき対にのみ，所定の解を付与した事例を含むテキストデータ２を記憶しておくようにしてもよい。この場合には，テキストデータ２の解が付与された対は，抽出するべき二項関係である（正）の解が与えられているとみなされ，解が付与されていない残りの対は抽出するべきではない二項関係（負）の解が与えられているとみなして扱われる。

まず，解−素性対抽出部１２は，教師データ記憶部１１の教師データから各事例について，所定の素性を抽出し，解（タグによって付与された情報）と抽出した素性の集合との組を生成する（ステップＳ１）。解−素性対抽出部１２は，教師データであるテキストデータから所定のタグによって二項関係を抽出し，抽出した二項関係の要素について，形態素解析処理，構文解析処理，要素の出現位置や要素間の距離の算出処理などを行って，所定の素性を抽出する。

そして，機械学習部１３は，解−素性対抽出部１２により生成された解と素性の集合との組から，どのような素性の集合のときにどのような解（正または負）になりやすいかを機械学習法により学習し，学習結果を学習結果記憶部１４に格納する（ステップＳ２）。機械学習部１３は，教師あり機械学習法として，例えば，ｋ近傍法，シンプルベイズ法，決定リスト法，最大エントロピー法，サポートベクトルマシン法などの手法のいずれかを用いて機械学習処理を行う。

その後，候補抽出部１５は，二項関係を抽出したいテキストデータ２を入力し，入力したテキストデータ２から二項関係の候補を抽出する（ステップＳ３）。候補抽出部１５は，テキストデータを文単位に分割し，一文中に二以上の二項関係の要素が出現する文についてのみ処理対象として扱い，その文から二項関係の候補を抽出する。

素性抽出部１６は，解−素性対抽出部１２での処理とほぼ同様の処理によって，テキストデータ２から抽出した二項関係の各候補について素性を抽出する（ステップＳ４）。

解推定部１７は，各候補について，その素性の集合の場合にどのような解になりやすいか，すなわち「正となりやすい」か「負となりやすいか」の度合いを学習結果記憶部１４の学習結果をもとに推定する（ステップＳ５）。そして，二項関係抽出部１８は，より良い度合いで「正となりやすい」と推定された候補のなかから，所定の程度の候補を抽出するべき二項関係３として出力する（ステップＳ６）。

次に，本発明の二項関係抽出処理の具体例を説明する。本例では，二項関係抽出装置１を，生物医学関係の論文のテキストデータベースから，相互作用のある蛋白質表現（蛋白質名）の二項関係を抽出するものとし，テキストデータベースでの蛋白質表現を１００％の精度で特定しているものと仮定する。

また，二項関係を構成する要素は同一文中に出現するものとする。なお，二項関係を構成する要素は，同一段落内，同一文書内に出現する要素同士であってもよい。

教師データを作成する処理において，二項関係の要素となる表現，例えば，蛋白質表現，病名と治療方法などの特定の表現を二項関係の要素として取り出す場合には，以下のようにして行う。

１）ルールを用いて要素を取り出す。
人手によって，「ＮＦ−Ｋａｐｐａ［Ａ−Ｚ］，ただし，［Ａ−Ｚ］はＡからＺまでのいずれかの文字」などのパターンを定義して，該当する表現を抽出する。このパターンによって，ＮＦ−ＫａｐｐａＡ，ＮＦ−ＫａｐｐａＢなどの蛋白質名の表現である要素を抽出する。

２）辞書を用いて要素を取り出す。
病名や治療方法などの表現が記載された辞書を使用して，それらの辞書にあった表現（文字列，単語列など）とまったく同じ文字列等を，病名や治療方法の表現である要素として抽出する。

３）機械学習処理によって要素を取り出す。
蛋白質表現，病名と治療方法などの表現の前後に開始位置タグと終了位置タグとを付与したテキストデータを，学習データとして用意する。そして，このタグ付きの学習データを用いた機械学習処理を行って，その学習結果を利用して，タグが付いていない新しいテキストデータの該当する表現の開始位置と終了位置にタグを挿入することで要素を特定する。

４）所定の二項関係を示す情報を用いて取り出す。
あらかじめ二項関係の要素になりうる表現にタグが付与されたデータを利用して，そのタグをもとに二項関係の要素である表現を抽出する。

図３に，教師データの例を示す。図３（Ａ）に示すような，相互作用のある蛋白質表現を要素とする二項関係を含む英文テキストデータを，教師データとして使用する。本例では，教師データには，抽出するべき二項関係についてのみ，解（正／ｐｏｓｉｔｉｖｅ）を示すタグが付与される。すなわち，機械学習処理において，正の事例のみを含む教師データが使用される。

図３（Ｂ）に，教師データに付与されているタグの例を示す。教師データには，二つの二項関係の対Ｐ１，対Ｐ２が含まれる。二項関係（対）Ｐ１は，第１要素ｐ１「ｄｅｌｔａ−ｃａｔｅｎｉｎ」，第２要素ｐ２「ｐｒｅｓｅｎｉｌｉｎ１」で構成されている。また，二項関係（対）Ｐ２は，第１要素ｐ１「ｐｒｅｓｅｎｉｌｉｎ（ＰＳ）１」，第２要素ｐ２「ｄｅｌｔａ−ｃａｔｅｎｉｎ」で構成されている。

解−素性対抽出部１２は，教師データ記憶部１１に記憶されているテキストデータ内の事例から，解と素性の集合との組を抽出する。例えば，素性として，以下のような情報を抽出する。

１）二項関係の要素の周囲に出現する単語または文字。例えば，二項関係の第１要素（最初の要素）の前方の所定数の単語／文字，第２要素（二番目の要素）の後方の所定数の単語／文字，第１要素と第２要素の間の所定数の単語／文字；
２）二項関係の要素の周囲に出現する単語／文字の出現位置，出現順序など；
３）二項関係の二つの要素；
４）二項関係の要素または周囲の単語の品詞情報，形態素解析情報など；
５）二項関係の要素または周囲の単語の構文解析情報；
６）二項関係の第１要素と第２要素との出現距離；
７）二項関係の第１要素と第２要素の間での要素の出現の有無；
素性のうち，例えば，品詞情報は，形態素解析システム「ＣｈａＳｅｎ」などの既存の形態素解析処理手法を使用して取得する（参照：http://chasen.aist-nara.ac.jp/index.html.ja）。英語のテキストデータの場合の品詞情報は，例えば，「Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging」（Eric Brill, Computational Linguistics, Vol.21, No.4, p.543-565, 1995）を使用して取得する。

ここでは，二項関係の要素が，同一段落中に出現する場合には，素性として，二項関係の要素が文をまたぐか否かという情報を用いてもよい。また，二項関係の要素が，同一文書内に出現する場合には，素性として，二項関係の要素が文をまたぐか否かという情報，段落をまたぐか否かという情報を用いてもよい。

解−素性対抽出部１２は，図３（Ｂ）に示すようなタグが付与された教師データの事例から，素性を抽出し，素性の集合と解との組を生成する。例えば，二項関係Ｐ２の事例について，図５に示すように，解（ｐｏｓｉｔｉｖｅ：正）と，以下の素性の集合との組が生成されるとする。
「第１要素の前方３単語内に「for」，「interaction」，「with」が出現；
要素間に「and」，「cloned」，「the」，「full」，「-」，「length」，「cDNA」，「of」，「human」が出現；
第２要素の後方３単語内に「which」，「encoded」，「1225」が出現」。

機械学習部１３は，この解と素性の集合とをもとに，どのような素性の集合の場合に解（ｐｏｓｉｔｉｖｅ）となりやすいかを機械学習処理し，学習結果を学習結果記憶部１４に記憶する。

機械学習部１３は，教師あり機械学習法として，例えば，ｋ近傍法，シンプルベイズ法，決定リスト法，最大エントロピー法，サポートベクトルマシン法などの手法を用いる。

ｋ近傍法は，最も類似する一つの事例のかわりに，最も類似するｋ個の事例を用いて，このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは，あらかじめ定める整数の数字であって，一般的に，１から９の間の奇数を用いる。シンプルベイズ法は，ベイズの定理にもとづいて各分類になる確率を推定し，その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において，文脈ｂで分類ａを出力する確率は，以下の式（１）で与えられる。

ただし，ここで文脈ｂは，あらかじめ設定しておいた素性ｆ_ｊ（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は，文脈ｂの出現確率である。ここで，分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆ_ｉ｜ａ）は，それぞれ教師データから推定された確率であって，分類ａの出現確率，分類ａのときに素性ｆ_ｉを持つ確率を意味する。Ｐ（ｆ_ｉ｜ａ）として最尤推定を行って求めた値を用いると，しばしば値がゼロとなり，式（２）の値がゼロで分類先を決定することが困難な場合が生じる。そのため，スームージングを行う。ここでは，以下の式（３）を用いてスームージングを行ったものを用いる。

ただし，ｆｒｅｑ（ｆ_ｉ，ａ）は，素性ｆ_ｉを持ち，かつ分類がａである事例の個数，ｆｒｅｑ（ａ）は，分類がａである事例の個数を意味する。

決定リスト法は，素性と分類先の組とを規則とし，それらをあらかじめ定めた優先順序でリストに蓄えおき，検出する対象となる入力が与えられたときに，リストで優先順位の高いところから入力のデータと規則の素性とを比較し，素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では，あらかじめ設定しておいた素性ｆ_ｊ(∈Ｆ，１≦ｊ≦ｋ）のうち，いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の式によって与えられる。

ｐ（ａ｜ｂ）＝ｐ（ａ｜ｆmax ）（４）
ただし，ｆmax は以下の式によって与えられる。

また，Ｐ（ａ_ｉ｜ｆ_ｊ）（ここでＰはｐの上部にチルダ）は，素性ｆ_ｊを文脈に持つ場合の分類ａ_ｉの出現の割合である。

最大エントロピー法は，あらかじめ設定しておいた素性ｆj （１≦ｊ≦ｋ）の集合をＦとするとき，以下の式（６）を満足しながらエントロピーを意味する式（７）を最大にするときの確率分布ｐ（ａ，ｂ）を求め，その確率分布にしたがって求まる各分類の確率のうち，最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし，Ａ，Ｂは分類と文脈の集合を意味し，ｇ_ｊ（ａ，ｂ）は文脈ｂに素性ｆ_ｊがあって，なおかつ分類がａの場合１となり，それ以外で０となる関数を意味する。また，Ｐ（ａ_ｉ｜ｆ_ｊ）（ここでＰはｐの上部にチルダ）は，既知データでの（ａ，ｂ）の出現の割合を意味する。

式（６）は，確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており，右辺の既知データにおける期待値と，左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として，エントロピー最大化( 確率分布の平滑化) を行なって，出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については，以下の参考文献１および参考文献２を参照されたい。
（参考文献１：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997)；
参考文献２：Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)）
サポートベクトルマシン法は，空間を超平面で分割することにより，二つの分類からなるデータを分類する手法である。

図４にサポートベクトルマシン法のマージン最大化の概念を示す。図４において，白丸は正例，黒丸は負例を意味し，実線は空間を分割する超平面を意味し，破線はマージン領域の境界を表す面を意味する。図４（Ａ）は，正例と負例の間隔が狭い場合（スモールマージン）の概念図，図４（Ｂ）は，正例と負例の間隔が広い場合（ラージマージン）の概念図である。

このとき，二つの分類が正例と負例からなるものとすると，学習データにおける正例と負例の間隔（マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ，図４（Ｂ）に示すように，このマージンを最大にする超平面を求め，それを用いて分類を行なう。

基本的には上記のとおりであるが，通常，学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や，超平面の線形の部分を非線型にする拡張（カーネル関数の導入) がなされたものが用いられる。

この拡張された方法は，以下の識別関数を用いて分類することと等価であり，その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし，ｘは識別したい事例の文脈（素性の集合) を，ｘ_ｉとｙ_ｊ（ｉ＝１，…，ｌ，ｙ_ｊ∈｛１，−１｝）は学習データの文脈と分類先を意味し，関数ｓｇｎは，
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（otherwise ）
であり，また，各α_ｉは式（１０）と式（１１）の制約のもとの式（９）を最大にする場合のものである。

また，関数Ｋはカーネル関数と呼ばれ，様々なものが用いられるが，本形態では以下の多項式のものを用いる。

Ｋ（ｘ，ｙ）＝（ｘ・ｙ＋１）ｄ（１２）
Ｃ，ｄは実験的に設定される定数である。後述する具体例ではＣはすべての処理を通して１に固定した。また，ｄは，１と２の二種類を試している。ここで，α_ｉ＞０となるｘ_ｉは，サポートベクトルと呼ばれ，通常，式（８）の和をとっている部分は，この事例のみを用いて計算される。つまり，実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお，拡張されたサポートベクトルマシン法の詳細については，以下の参考文献３および参考文献４を参照されたい。
（参考文献３：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)；
参考文献４：Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)）
サポートベクトルマシン法は，分類の数が２個のデータを扱うものである。したがって，分類の数が３個以上の事例を扱う場合には，通常，これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は，ｎ個の分類を持つデータの場合に，異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し，各ペアごとにどちらがよいかを二値分類器，すなわちサポートベクトルマシン法処理モジュールで求めて，最終的に，ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって，分類先を求める方法である。

ワンＶＳレスト法は，例えば，ａ，ｂ，ｃという三つの分類先があるときは，分類先ａとその他，分類先ｂとその他，分類先ｃとその他，という三つの組を生成し，それぞれの組についてサポートベクトルマシン法で学習処理する。そして，学習結果による推定処理において，その三つの組のサポートベクトルマシンの学習結果を利用する。推定すべき二項関係の候補が，その三つのサポートベクトルマシンではどのように推定されるかを見て，その三つのサポートベクトルマシンのうち，その他でないほうの分類先であって，かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば，ある候補が，「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には，その候補の分類先はaと推定する。

その後，候補抽出部１５は，入力された新しいテキストデータ２から，二項関係の候補を抽出する。具体的には，テキストデータ２を文単位に分割し，各文中の二項関係の要素となる表現（文字列）を抽出する。そして，一文中に二項関係の要素となる表現が二個以上存在するか否かを調べ，一文中にある二項関係の要素のすべての二つの組み合わせ（対）を二項関係の候補として生成する。

また，新しいテキストデータ２を各段落に分割し，各段落中の二項関係の要素となる表現を抽出し，同じ段落内から二以上の要素がある段落について，すべての二つの組み合わせ（対）を二項関係の候補として生成してもよい。または，テキストデータ２の一文書内からの二項関係の要素となる表現を抽出し，すべての二つの組み合わせ（対）を二項関係の候補として生成してもよい。

テキストデータ２から二項関係の要素となる表現を抽出する手法としては，前述の教師データの生成方法で説明した手法を使用する。例えば，パターンや辞書の記述と合致する表現を抽出する，教師あり機械学習の学習結果にもとづいて推定した表現を抽出する。

テキストデータ２の一文中に二個以上の要素が出現する場合に，その要素の対を二項関係の候補とする。なお，一文中に三個以上の要素が出現する場合には，要素のあらゆる組み合わせの対を二項関係の候補とする。

そして，素性抽出部１６は，二項関係の候補から，解−素性対抽出部１２と同様の処理によって同様の素性を抽出する。

解推定部１７は，学習結果記憶部１４に記憶されている学習結果をもとに，各二項関係の候補について，その候補の素性の集合の場合に正の解（ｐｏｓｉｔｉｖｅ）のなりやすさを推定する。二項関係抽出部１８は，解推定部１７の推定結果をもとに二項関係の候補から，正の解となりやすい推定の度合いが高いものを二項関係２として出力する。

本例では，上記の素性を抽出し，機械学習処理としてサポートベクトルマシン法を用いた。１０分割のクロスバリデーションを利用して精度を調べたところ，Ｆ値＝４７．５％の精度が得られた。Ｆ値は，再現率と適合率の調和平均をいう。再現率は，テキストデータ２から抽出するべき二項関係のうち，どの程度のものが出力できたかを示す割合である。適合率は，二項関係抽出装置１が抽出した二項関係のうち，どの程度のものが取り出すべき二項関係であったかを示す割合である。

二項関係抽出装置１では，機械学習部１３によって，所定の機械学習アルゴリズムにもとづいて，与えられた教師データを用いて，各二項関係の解と素性の集合との組について，どのような素性の集合の場合にどのような解となるかということを機械学習処理し，どのような素性の集合の場合にどのような解となるかということを示す情報を学習結果情報として学習結果記憶部１４に保存し，解推定部１７によって，この学習結果情報にもとづいて，二項関係の候補の素性の集合の場合についての前記解となりやすい度合いを推定する。

二項関係抽出装置１において，機械学習手法としてｋ近傍法を用いる場合には，機械学習部１３は，教師データの事例同士で，その事例から抽出された素性の集合のうち重複する素性の割合（同じ素性をいくつ持っているかの割合）にもとづく事例同士の類似度と定義して，前記定義した類似度と事例とを学習結果情報として学習結果記憶部１４に記憶しておく。

そして，解推定部１７は，新しいテキストデータ２が入力されたときに，学習結果記憶部１４の定義した類似度と事例を参照して，テキストデータ２から抽出された二項関係の候補について，その候補の類似度が高い順にｋ個の事例を学習結果記憶部１４の事例から選択し，選択したｋ個の事例での多数決によって決まった分類先を，二項関係の候補の分類先（解）として推定する。すなわち，解推定部１７では，二項関係の候補の素性の集合の場合にある解となりやすさの度合いを，選択したｋ個の事例での多数決の票数，ここでは「抽出するべき」という分類が獲得した票数とする。また，機械学習手法として，シンプルベイズ法を用いる場合には，機械学習部１３は，教師データの事例について，前記事例の解と素性の集合との組を学習結果情報として学習結果記憶部１４に記憶する。そして，解推定部１７は，新しいテキストデータ２が入力されたときに，学習結果記憶部１４の学習結果情報の解と素性の集合との組をもとに，ベイズの定理にもとづいて素性抽出部１６で取得した二項関係の候補の素性の集合の場合の各分類になる確率を算出して，その確率の値が最も大きい分類を，その二項関係の候補の素性の分類（解）と推定する。すなわち，解推定部１７では，二項関係の候補の素性の集合の場合にある解となりやすさの度合いを，各分類になる確率，ここでは「抽出するべき」という分類になる確率とする。

また，機械学習手法として決定リスト法を用いる場合には，機械学習部１３は，教師データの事例について，素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶部１４に記憶する。そして，新しいテキストデータ２が入力されたときに，解推定部１７は，学習結果記憶部１４のリストの優先順位の高い順にテキストデータ２から抽出された二項関係の候補の素性と規則の素性とを比較し，素性が一致した規則の分類先をその候補の分類先（解）として推定する。すなわち，解推定部１７では，二項関係の候補の素性の集合の場合にある解となりやすさの度合いを，所定の優先順位またはそれに相当する数値，尺度，ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。

また，機械学習手法として最大エントロピー法を使用する場合には，機械学習部１３は，教師データの事例から解となりうる分類を特定し，所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶部１４に記憶する。そして，新しいテキストデータ２が入力されたときに，解推定部１７は，学習結果記憶部１４の確率分布を利用して，テキストデータ２から抽出された二項関係の候補の素性の集合についてその解となりうる分類の確率を求めて，最も大きい確率値を持つ解となりうる分類を特定し，その特定した分類をその候補の解と推定する。すなわち，解推定部１７では，二項関係の候補の素性の集合の場合にある解となりやすさの度合いを，各分類になる確率，ここでは「抽出するべき」という分類になる確率とする。

また，機械学習手法としてサポートベクトルマシン法を使用する場合には，機械学習部１３は，教師データの事例から解となりうる分類を特定し，分類を正例と負例に分割して，カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で，その事例の正例と負例の間隔を最大にし，かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶部１４に記憶する。そして，新しいテキストデータ２が入力されたときに，解推定部１７は，学習結果記憶部１４の超平面を利用して，テキストデータ２から抽出された二項関係の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し，その特定された結果にもとづいて定まる分類を，その候補の解と推定する。すなわち，解推定部１７では，二項関係の候補の素性の集合の場合にある解となりやすさの度合いを，分離平面からの正例（抽出するべき二項関係）の空間への距離の大きさとする。より詳しくは，抽出するべき二項関係を正例，抽出するべきではない二項関係を負例とする場合に，分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され，その事例の分離平面からの距離をその事例の度合いとする。

また，解−素性対抽出部１２では，素性として，例えば，「二つの要素自体の単語」を使用してもよい。また，「要素の前方から一つ目の単語／文字列，二つ目の単語／文字列，後方から一つ目の単語／文字列，二つ目の単語／文字列」を素性として使用してもよい。図３（Ａ）の場合には，素性は，
「第１要素が「presenilin (PS) 1」；
第２要素が「delta - catenin」；
第１要素の一つ目の単語が「presenilin」；
同二つ目の単語が「(PS)」；
第１要素の最後から二つ目の単語が「(PS)」；
同最後から一つ目の単語が「1」；
第２要素の一つ目の単語が「delta」；
同二つ目の単語が「-」；
第２要素の最後から二つ目の単語が「-」；
同最後から一つ目の単語が「cateninである」となる。

または，
「第１要素の最初の１文字が「p」；
同最初の２文字が「pr」；
同最初の３文字が「pre」；
同最後の１文字が「1」；
同最後の２文字が「スペース，1」；
同最後の３文字が「)，スペース，1」；
第２要素の最初の１文字が「d」；
同最初の２文字が「de」；
同最初の３文字が「del」；
同最後の１文字が「n」；
同最後の２文字が「in」；
同最後の３文字が「nin」である」となる。

また，要素の前後２単語の単語自体とその品詞情報を素性とする場合には，素性は，
「第１要素の二つ前の単語は「interaction」；
同二つ前の単語の品詞は「名詞」；
同一つ前の単語は「with」；
同一つ前の単語の品詞は「前置詞」；
同一つ後の単語は「and」；
同一つ後の単語の品詞は「接続詞」；
同二つ後の単語は「cloned」；
同二つ後の単語の品詞は「動詞」；
第２要素の二つ前の単語は「of」；
同二つ前の単語の品詞は「前置詞」；
同一つ前の単語は「human」；
同一つ前の単語の品詞は「名詞」；
同一つ後の単語は「which」；
同一つ後の単語の品詞は「代名詞」；
同二つ後の単語は「encoded」；
同二つ後の単語の品詞は「動詞」である」となる。

また，二つの要素の間の距離として，その要素間にある単語の数を素性として用いる場合には，「二つの要素間の距離は，「９」である」という情報が素性となる。

また，二つの要素の間の単語数が０から１の状態を「距離小」とし，２から４の状態を「距離中」とし，５から９の状態を「距離大」とし，１０以上の状態を「距離特大」とするそれぞれの状態を素性とする場合に，「二つの要素間の距離は，「距離大」である」という情報が素性となる。

また，二つの要素の間に他の要素がないかどうかという状態を素性とする場合に，「二つの要素の間に他の要素はない」という情報が素性となる。

さらに，二項関係の要素として異種の用語が設定されるような場合には，要素の出現順位を素性として用いてもよい。例えば，病名と治療方法の二項関係の場合には，「第１要素が「病名」で第２要素が「治療方法」である」または「第１要素が「治療方法」で第２要素が「病名」である」との情報が素性となる。

二項関係抽出装置１は，教師データとして，相互作用のある蛋白質表現の二項関係以外に，病名と治療方法との二項関係，病名と蛋白質表現との二項関係，病名と器官（臓器）との二項関係，病名と動物種との二項関係，病名と関連のある化学物質との二項関係，蛋白質表現とその蛋白質についてこれまでになされた実験方法との二項関係などのさまざまな二項関係の事例を与えることによって，生物医学論文のテキストデータ２から，これらの対応する二項関係を抽出することができる。

例えば，教師データとして，以下のような二項関係を含むテキストデータを用いることができる。
「Oral corticosteroids（要素：治療方法）are the preference of many for the treatment of CIDP（要素：病名）, being much less expensive than IVIG（要素：治療方法）infusion or TA（要素：治療方法）.」
「In the CIDP （要素：病名）patient, the IgG antibody（要素：蛋白質表現） titer to GD3 （要素：化学物質表現）was remarkably elevated (titer, 1:10,000), indicating maximal avidity to the tetrasaccharide epitope(-NeuAcalpha2-8NeuAcalpha2-3Galbeta1-4Glc-).」
「Ciliated metaplasia (CM) in the stomach（要素：器官名）is mainly found in gastric mucosa （要素：器官名）that harboursgastric cancer（要素：病名）」
「Variant Creutzfeldt-Jakob disease (CJD)（要素：病名） is a transmissible spongiform encephalopathy believed to be caused by the bovine（要素：動物種） spongiform encephalopathy agent, an abnormal isoformof the prion protein (PrP(sc))（要素：蛋白質表現）.」
「AIDP （要素：病名）and CIDP（要素：病名）having specific antibodies to the carbohydrate epitope(-NeuAcalpha2-8NeuAcalpha2-3Galbeta1-4Glc-) of gangliosides.
（要素：化学物質表現）」
「Gene expression in archived frozen suralnerve biopsies of patients with chronic inflammatory demyelinatingpolyneuropathy (CIDP) （要素：病名）was compared to that in vasculitic nerve biopsies (VAS) and to normal nerve (NN) by DNA microarraytechnology（要素：実験方法）.」
「This novel interaction was identified in a yeast two-hybrid screen（要素：実験方法） using PrP(C)（要素：蛋白質表現） as bait and confirmed by an in vitro binding assay and co-immunoprecipitations」
「Comparative study of the PrP(BSE)（要素：蛋白質表現） distribution in brains （要素：器官名）from BSE（要素：病名） field cases using rapid tests（要素：検査法）.」
また，例えば，会社の製品名とその製品に対する評判（例えば，評判がいい，悪いなどの情報）との対を，二項関係として抽出することもできる。

以上のように，本発明の二項関係抽出装置１によれば，機械学習処理用の教師データとして，抽出するべき二項関係であるか否かの評価（解）を付与したテキストデータを用意するだけで，新しいテキストデータから抽出するべきものに値すると推定した二項関係を自動的に抽出することが可能となる。これによって，二項関係抽出処理に使用するパターン生成の煩雑さを回避することができる。また，教師あり機械学習の精度向上によって，二項関係抽出処理の性能の向上が期待できる。

次に，本発明の情報検索装置４の実施例を説明する。

情報検索装置４は，ＡＮＤ検索処理の二つの検索キーワードの関係を意味のある二項関係とみなして，この検索キーワードを要素とする二項関係について，抽出するべき関係であること（正）または，抽出するべき関係でないこと（負）のいずれかの解を示すタグを付与した教師データを用いて機械学習し，検索対象である検索用テキストデータ５から，二つの検索キーワードを含む記事であって，その検索キーワードの対が抽出するべき二項関係であると推定されたものを検索結果６として出力する処理装置である。

図６に，本発明にかかる情報検索装置４の構成例を示す。情報検索装置４は，情報検索部４０，教師データ記憶部４１，解−素性対抽出部４２，機械学習部４３，学習結果記憶部４４，候補抽出部４５，素性抽出部４６，解推定部４７，および検索結果抽出部４８を備える。

情報検索装置４の教師データ記憶部４１，解−素性対抽出部４２，機械学習部４３，学習結果記憶部４４，候補抽出部４５，素性抽出部４６，および解推定部４７は，図１に示す二項関係抽出装置１の教師データ記憶部１１，解−素性対抽出部１２，機械学習部１３，学習結果記憶部１４，候補抽出部１５，素性抽出部１６，および解推定部１７とそれぞれ同様の処理を行う処理手段である。

情報検索部４０は，ＡＮＤ検索処理で与えられた検索キーワードを用いて検索用テキストデータ５を検索し，該当する記事（テキストデータ）を取得する。

候補抽出部４５は，情報検索部４０が取得した記事に含まれている二つの検索キーワードと同じ文字列（語）の対を要素とする二項関係の候補を抽出する。

検索結果抽出部４８は，解推定部４７の推定結果をもとに，検索用テキストデータ５から検索された記事の二項関係の候補から，推定された正の解（抽出するべき二項関係であること）のなりやすさの度合いが所定の程度より良いものを抽出し，抽出した二項関係の候補を含む記事または記事を特定する情報を検索結果６として出力する。

図７に，情報検索装置４の処理の流れを示す。情報検索装置４の教師データ記憶部４１には，教師データとして，ＡＮＤ検索処理で与えられる二つの検索キーワードを要素とする二項関係に，抽出するべき二項関係であるか（正）または抽出するべきでない二項関係であるか（負）のいずれかの「解」の情報が付与された事例を含むテキストデータを記憶しておく。

まず，解−素性対抽出部４２は，教師データ記憶部４１の教師データから各事例について，所定の素性を抽出し，解（タグによって付与された情報）と抽出した素性の集合との組を生成する（ステップＳ１１）。解−素性対抽出部４２は，教師データであるテキストデータから所定のタグによって二項関係を抽出し，抽出した二項関係の要素（検索キーワード）について，形態素解析処理，構文解析処理，要素の出現位置や要素間の距離の算出処理などを行って，所定の素性を抽出する。

そして，機械学習部４３は，解−素性対抽出部４２により生成された解と素性の集合との組から，どのような素性の集合のときにどのような解（正または負）になりやすいかを機械学習法により学習し，学習結果を学習結果記憶部４４に格納する（ステップＳ１２）。機械学習部４３は，教師あり機械学習法として，例えば，ｋ近傍法，シンプルベイズ法，決定リスト法，最大エントロピー法，サポートベクトルマシン法などの手法のいずれかを用いて機械学習処理を行う。

その後，候補抽出部４５は，ＡＮＤ検索処理で与えられた二つの入力検索キーワードを用いてすべての二つの組み合わせ（対）を生成する（ステップＳ１３）。情報検索部４０は，二つの入力検索キーワードの対を用いて検索用テキストデータ５をＡＮＤ検索処理し，入力検索キーワード対を含む記事（テキストデータ）を抽出し，候補抽出部４５は，検索処理によって抽出された記事に出現する入力検索キーワードを用いて，すべての二つの組み合わせ（対）を二項関係の候補として抽出する（ステップＳ１４）。

そして，素性抽出部４６は，解−素性対抽出部４２での処理とほぼ同様の処理によって，検索した記事に出現している二項関係の各候補について，所定の素性の集合を抽出する（ステップＳ１５）。

解推定部４７は，各候補について，その素性の集合の場合にどのような解になりやすいか，すなわち，「正となりやすい」または「負となりやすいか」の度合いを学習結果記憶部１４の学習結果をもとに推定する（ステップＳ１６）。そして，検索結果抽出部４８は，二項関係の候補から，所定の程度より良い程度で「正となりやすい」と推定されたものを抽出するべき二項関係として選択し，この二項関係を含む記事または記事を特定する情報を検索結果６として出力する（ステップＳ１７）。

次に，本発明の情報検索処理の具体例を説明する。本例では，情報検索装置４を，検索用テキストデータ５から，ＡＮＤ検索処理で使用される二つの検索キーワードとなりうる文字列を要素とする二項関係を含むテキストデータを教師データとする。そして，ＡＮＤ検索処理で与えられた入力検索キーワードを要素とする二項関係の候補を作成し，検索用テキストデータ５からこの二項関係の候補を用いて検索を行い記事を抽出する。検索された記事に含まれる入力検索キーワードの二項関係の候補が抽出するべきであるか否かを推定して，抽出するべきものと推定された度合いがよい二項関係の候補を含む記事を検索結果６として出力するものとする。

ＡＮＤ検索の検索キーワードとして，「京大」と「総長」を設定すると仮定する。また，検索キーワードの二項関係が正または負であるかの判断は人が行い，正または負の解を示すタグを人手で付与する。したがって，機械学習処理において正の事例および負の事例を含む教師データが使用される。

図８〜図１０に，教師データ記憶部４１に記憶される教師データの例および，その教師データから解−素性対抽出部４２によって抽出される素性の例を示す。本例では，図８および図９の教師データＤ１，Ｄ２には，抽出するべき二項関係について解が正（ｐｏｓｉｔｉｖｅ）であることを示すタグが付与される。また，図１０の教師データＤ３には，抽出するべきでない二項関係について解が負（ｎｅｇａｔｉｖｅ）であることを示すタグが付与される。

図８の教師データＤ１には，二つの検索キーワードの対である二項関係の対Ｐ３が含まれ，二項関係（対）Ｐ３は，第１要素ｐ１（検索キーＫ１）「京大」，第２要素ｐ２（検索キーＫ２）「総長」で構成され，二項関係の対Ｐ３には正の解（ｐｏｓｉｔｉｖｅ）が付与されている。

同様に，図９の教師データＤ２には，二つの検索キーワードの対である二項関係の対Ｐ４が含まれ，二項関係（対）Ｐ４は，第１要素ｐ１（検索キーＫ１）「京大」，第２要素ｐ２（検索キーＫ２）「総長」で構成され，二項関係の対Ｐ４には正の解（ｐｏｓｉｔｉｖｅ）が付与されている。図８および図９の教師データが「京大の総長」の内容であると判断できるからである。

また，図１０の教師データＤ３には，二つの検索キーワードの対である二項関係の対Ｐ５が含まれ，二項関係（対）Ｐ５は，第１要素ｐ１（検索キーＫ１）「京大」，第２要素ｐ２（検索キーＫ２）「総長」で構成され，二項関係の対Ｐ５には負の解（ｎｅｇａｔｉｖｅ）が付与されている。同じデータ内に「京大」と「総長」とが出現しているが，相互に関係を持つものではなく，「京大の総長」の内容でないと判断できるからである。

解−素性対抽出部４２は，教師データ記憶部４１に記憶されている教師データの事例から，解と素性の集合との組を抽出する。例えば，素性として，要素（検索キーワード）の前後の二単語の単語自体，単語の品詞を素性とする。例えば教師データＤ１を例にとると，素性は，
「第１要素の二つ前の単語は「今日」；
同二つ前の単語の品詞は「名詞」；
同一つ前の単語は「，」；
同一つ前の単語の品詞は「読点」；
同一つ後の単語は「で」；
同一つ後の単語の品詞は「助詞」；
同一つ後の単語は「の」；
同一つ後の単語の品詞は「助詞」；
第２要素の二つ前の単語は「で」；
同二つ前の単語の品詞は「助詞」；
同一つ前の単語は「，」；
同一つ前の単語の品詞は「読点」；
同一つ後の単語は「が」；
同一つ後の単語の品詞は「助詞」；
同二つ後の単語は「出席」；
同二つ後の単語の品詞は「名詞」である」となる。

なお，解−素性対抽出部４２は，二項関係抽出処理で説明したような情報を素性として抽出することができる。

機械学習部４３は，この解と素性の集合とをもとに，どのような素性の集合の場合にどのような解（正（ｐｏｓｉｔｉｖｅ）／負（ｎｅｇａｔｉｖｅ））となりやすいかを機械学習処理し，学習結果を学習結果記憶部４４に記憶する。機械学習部４３は，教師あり機械学習法として，例えば，ｋ近傍法，シンプルベイズ法，決定リスト法，最大エントロピー法，サポートベクトルマシン法などの前述の処理手法を用いる。

その後，情報検索部４０は，与えられた入力検索キーワード「京大」と「総長」とをもとに検索用テキストデータ５をＡＮＤ検索し，入力検索キーワードを含む記事を取得する。そして，候補抽出部４５は，抽出された記事から二項関係の候補を抽出する。具体的には，ＡＮＤ検索の検索結果である記事中に含まれる入力検索キーワードから二項関係の候補を抽出する。そして，素性抽出部４６は，二項関係の候補から，解−素性対抽出部４２と同じ素性を抽出し，解推定部４７は，学習結果記憶部４４に記憶されている学習結果をもとに，各二項関係の候補について，その候補の素性の集合の場合に正（ｐｏｓｉｔｉｖｅ）または負（ｎｅｇａｔｉｖｅ）のなりやすさの度合いを推定する。検索結果抽出部４８は，解推定部４７の推定結果をもとに二項関係の候補から，推定された正の解となりやすさの度合いがよい二項関係を抽出し，この二項関係を含む記事，記事を特定する情報を検索結果６として出力する。

例えば，候補抽出部４５は，与えられた入力検索キーワードから，二つの入力検索キーワードのすべての組み合わせ（対）を生成し，生成した対を二項関係の候補とする。そして，情報検索部４０は，それぞれの二項関係の候補の要素（二つの入力検索キーワード）を用いてＡＮＤ検索処理を行う。そして，素性抽出部４６は，抽出された記事に出現している二項関係の候補について所定の素性の集合を抽出する。

解推定部４７は，学習結果記憶部４４の学習結果をもとに，各二項関係の候補について，その候補の素性の集合の場合に解のなりやすさの度合いを推定する。入力検索キーワードの対である二項関係の候補それぞれが，検索されたその記事内で一つずつしか出現していないときは，それらすべての二項関係の候補が正（抽出するべき）との度合いがよいと推定した場合に，その記事，記事を特定する情報を検索結果６とする。

また，入力検索キーワードの対である二項関係が，検索されたその記事内で複数出現しているときは，出現する複数の二項関係の候補のうちの一つの候補について正（抽出するべき）との度合いがよいと推定していることを条件とし，さらに二項関係の候補それぞれが，前述の条件をすべて満足して正の度合いがよいと推定した場合に，その記事，記事を特定する情報を検索結果６とする。

さらに，候補抽出部４５は，与えられた入力検索キーワードから，すべての二つの入力検索キーワードの対を生成し，生成した対を二項関係の候補とする。そして，情報検索部４０は，それぞれの二項関係の候補の要素（二つの入力検索キーワード）を用いてＡＮＤ検索処理を行う。そして，素性抽出部４６は，抽出された記事に出現している二項関係の候補について所定の素性の集合を抽出する。

解推定部４７は，学習結果記憶部４４の学習結果をもとに，各二項関係の候補について，その候補の素性の集合の場合に解のなりやすさの度合いを推定する。入力検索キーワードの対である二項関係の候補それぞれが，検索されたその記事内で一つずつしか出現していないときは，それらすべての二項関係の候補について正（抽出するべき）の度合いを推定し，それらすべての二項関係の候補について推定された正の度合いを掛け合わせたものを，その記事の正の度合いとする。そして正の度合いがよいと推定した記事，記事を特定する情報を検索結果６とする。

また，入力検索キーワードの対である二項関係が，検索された記事内で複数出現しているときは，出現する複数の二項関係の候補について正の度合いを推定し，それらの複数の二項関係の候補の推定した度合いのうち，最も値がよい度合いをその二項関係の候補の度合いとする。そして，それぞれの二項関係の度合いを求め，求めた度合いを掛け合わせたものを，その記事の正の度合いとする。そして正の度合いがよいと推定した記事，記事を特定する情報を検索結果６とする。

以上のように，本発明の情報検索装置４によれば，機械学習処理用の教師データとして，ＡＮＤ検索処理の二つの検索キーワードの二項関係に，抽出するべき二項関係であるか否かの評価を付与したテキストデータを用意するだけで，新しい検索用テキストデータ５から，抽出するべきものに値するとされた二項関係を含む記事を自動的に抽出することが可能となる。

本発明の情報検索装置４は，ＡＮＤ検索処理の検索結果の記事に出現する検索キーワードの関係を，二項関係抽出処理を用いて評価することにより，検索キーワードを含んでいることによってヒットされたが，検索キーワード同士の関係がうすく，その結果として内容的に無関係な，いわば検索意図からはずれるような内容の記事を排除することができる。また，教師あり機械学習の精度向上によって，情報検索処理の性能の向上が期待できる。

以上の実施例においては，二項関係抽出処理および情報検索処理において，二つの要素からなる二項関係の例を説明した。本発明は，三つの要素で構成される三項関係についても適用することができる。

例えば，二項関係抽出装置１において，教師データとして，三つの要素の三項関係を含むデータを用意する。そして，解−素性対抽出部１２は，この三項関係についての素性を，例えば，三つの要素のうちの，第１要素（最初に出現する要素）の前方二単語，第３要素（最後に出現する要素）の後方二単語，第１要素と第２要素（中間に出現する要素）間の単語すべて，第２要素と第３要素間の単語すべての単語情報とすることによって，機械学習部１３は，三項関係の素性の集合をもとに解のなりやすさを学習することができ，二項関係抽出部１８において，三項関係の抽出を扱うことができる。なお，三項関係に与えられる解は，二項関係の場合と同様に，「抽出するべき三項関係」または「抽出するべきでない三項関係」とする。

例えば，二項関係抽出装置１において，教師データとして，三つの要素の三項関係を含むデータを用意する。そして，二項関係抽出装置１の各処理手段は，教師データの三項関係を分解して得られたそれぞれの二項関係，第１要素と第２要素の二項関係，第２要素と第３要素の二項関係，第１要素と第３要素の二項関係をそれぞれ別個の二項関係として扱う。そして，それぞれの二項関係すべてについて，抽出するべき三項関係であるかの解の度合いを算出し，算出した度合いを掛け合わせて求めた値をその三項関係の度合いとする。そして，その度合いの大きいものを抽出するべき三項関係として取り出すようにする。

このとき，機械学習部１３が，サポートベクトルマシン法を使用する場合には，分類先が二つ（正または負）となるので，ペアワイズ法またはワンＶＳレスト法を用いて三項関係を機械学習する。

また，二項関係抽出部１８では，二項関係３の抽出の際に，抽出の確信度を求められるようにする。そして，二項関係を複数組み合わせて作成した三項関係の確信度として，それぞれの組み合わせた二項関係の確信度の積を用いて，三項関係の確信度の大きなものを取り出すようにする。二項関係の確信度は，通常の機械学習処理において算出される確信度を利用する。

このような三項関係の抽出処理は，情報検索装置４においても同様に行うことができる。例えば，「平成１２年の京大の総長」に関する記事を検索する場合に，教師データとして，「平成１２年」，「京大」，および「総長」の三つの検索キーワードによる三項関係を含むデータを与えて，検索用テキストデータ５から，これら三つの検索キーワードによるＡＮＤ検索の検索結果６を出力する。

また，本例では，事例の二項関係または三項関係に付与する解の情報として，「正（抽出するべき二項関係である）」または「負（抽出するべきでない二項関係である）」を用いて説明したが，付与する解の情報として，例えば，「相互作用のある」，「反作用のある」，「作用がない」などの多分類のものであってもよい。

以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。

また，本発明は，コンピュータにより読み取られ実行されるプログラムとして実施することができる。本発明を実現するプログラムは，コンピュータが読み取り可能な，可搬媒体メモリ，半導体メモリ，ハードディスクなどの適当な記録媒体に格納することができ，これらの記録媒体に記録して提供され，または，通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。

本発明にかかる二項関係抽出装置の構成例を示す図である。二項関係抽出装置の処理の流れを示す図である。教師データの例を示す図である。サポートベクトルマシン法のマージン最大化の概念を示す図である。図３に示す二項関係の素性の集合との組の例を示す図である。本発明にかかる情報検索装置の構成例を示す図である。情報検索装置の処理の流れを示す図である。教師データおよび，その二項関係の素性の集合との組の例を示す図である。教師データおよび，その二項関係の素性の集合との組の例を示す図である。教師データおよび，その二項関係の素性の集合との組の例を示す図である。

符号の説明

１二項関係抽出装置
１１教師データ記憶部
１２解−素性対抽出部
１３機械学習部
１４学習結果記憶部
１５候補抽出部
１６素性抽出部
１７解推定部
１８二項関係抽出部
２テキストデータ
３二項関係
４情報検索装置
４０情報検索部
４１教師データ記憶部
４２解−素性対抽出部
４３機械学習部
４４学習結果記憶部
４５候補抽出部
４６素性抽出部
４７解推定部
４８検索結果抽出部
５検索用テキストデータ
６検索結果

Claims

コンピュータが読み取り可能な記憶装置に格納された文データ中に出現する２つの要素間の関係を示す二項関係を，機械学習処理を用いて抽出する処理装置であって，
教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と，
前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と，
所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と，
前記記憶装置に格納された文データから，前記二項関係となりうる要素を抽出し，前記抽出した要素で構成される対を二項関係の候補とする候補抽出手段と，
前記解−素性対抽出手段と同様の抽出処理によって，前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と，
前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する解推定手段と，
前記解推定手段の処理結果をもとに，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択する二項関係抽出手段とを備える
ことを特徴とする二項関係抽出装置。
前記教師データ記憶手段には，前記事例として，前記問題の文データに出現する要素の対が抽出するべき二項関係であることを示す正の解が与えられた正の事例と，前記問題の文データに出現する要素の対が抽出するべき二項関係ではないことを示す負の解が与えられた負の事例とが格納される
ことを特徴とする請求項１記載の二項関係抽出装置。
前記機械学習手段は，前記機械学習アルゴリズムである決定リスト法にもとづいて，前記事例の問題から抽出された前記所定の情報である素性の集合と前記事例の解を示す情報との対で構成した規則を設定し，前記規則を所定の優先順序で並べたリストを前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記規則のリストを先頭からチェックして，前記二項関係の候補から抽出された素性の集合と一致する素性の集合を持つ規則を検出し，検出した規則の解を前記二項関係の候補の解と推定する
ことを特徴とする請求項１または請求項２のいずれか一項に記載の二項関係抽出装置。
前記機械学習手段は，前記機械学習アルゴリズムである最大エントロピー法にもとづいて，前記事例の問題から抽出された素性の集合と前記事例の解に対応する分類先各々との組み合わせである２項からなる確率分布であって，所定の条件式を満足しかつエントロピーを示す式を最大にするときのものを求め，前記求めた確率分布を前記学習結果情報として前記学習結果記憶部に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記確率分布を利用して，前記二項関係の候補の素性の集合の場合の前記分類先に対する確率値を求めて，最大の確率値を持つ分類先を特定し，前記特定した分類先を，前記二項関係の候補の解と推定する
ことを特徴とする請求項１または請求項２のいずれか一項に記載の二項関係抽出装置。
前記機械学習手段は，前記機械学習アルゴリズムであるサポートベクトルマシン法にもとづいて，前記解に対応する分類先を特定し，前記分類先を正例と負例とに分割し，所定のカーネル関数を用いたサポートベクトルマシン法を実行して前記事例の問題から抽出された素性の集合を次元とする空間上で前記正例と前記負例との間隔を最大にし，かつ超平面で分割する空間を求め，前記超平面と前記超平面で分割された空間とを前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記超平面と前記超平面で分割された空間とを利用して，前記二項関係の候補から抽出された素性の集合が前記超平面で分割された空間において前記正例の側か前記負例の側のどちら側に属するかを特定し，前記特定された結果にもとづく分類先を前記二項関係の候補の解と推定する
ことを特徴とする請求項１または請求項２のいずれか一項に記載の二項関係抽出装置。
前記機械学習手段は，前記機械学習アルゴリズムであるｋ近傍法にもとづいて，前記事例から抽出された素性の集合の他の素性の集合と重複する素性の割合にもとづいて，前記事例同士の類似度を定義しておき，前記定義した各事例の類似度を前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記定義した各事例の類似度を参照して，前記二項関係の候補についてその候補との類似度が高い順にｋ個の事例を選択し，前記選択したｋ個の事例での多数決によって定めた分類先を，前記二項関係の候補の解と推定する
ことを特徴とする請求項１または請求項２のいずれか一項に記載の二項関係抽出装置。
前記機械学習手段は，前記解と素性の集合との組を前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段の前記解と素性の集合との組をもとに，ベイズの定理にもとづいて前記素性抽出手段から得た前記二項関係の候補から抽出された素性の集合の場合に各分類先になる確率値を算出し，前記確率値が最大の分類先を，前記二項関係の候補の解と推定する
ことを特徴とする請求項１または請求項２のいずれか一項に記載の二項関係抽出装置。
複数の検索キーワードによる情報検索処理において，教師あり機械学習処理を用いた二項関係抽出処理結果を利用して検索結果を抽出する処理装置であって，
教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と，
前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と，
所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と，
入力された複数の検索キーワードを用いて入力検索キーワード対を生成し，検索対象となる文書データ群から前記入力検索キーワード対を含む文書データを抽出して取得する情報検索手段と，
前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し，前記生成した対を二項関係の候補とする候補抽出手段と，
前記解−素性対抽出手段と同様の抽出処理によって，前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と，
前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する解推定手段と，
前記解推定手段の処理結果として，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択し，前記選択した二項関係を含むテキストデータを検索結果として抽出する検索結果抽出手段とを備える
ことを特徴とする二項関係抽出処理を用いた情報検索装置。
前記教師データ記憶手段には，前記事例として，前記問題の文データに出現する要素の対が抽出するべき二項関係であることを示す正の解が与えられた正の事例と，前記問題の文データに出現する要素の対が抽出するべき二項関係ではないことを示す負の解が与えられた負の事例とが格納される
ことを特徴とする請求項８記載の二項関係抽出処理を用いた情報検索装置。
前記機械学習手段は，前記機械学習アルゴリズムである決定リスト法にもとづいて，前記事例の問題から抽出された前記所定の情報である素性の集合と前記事例の解を示す情報との対で構成した規則を設定し，前記規則を所定の優先順序で並べたリストを前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記規則のリストを先頭からチェックして，前記二項関係の候補から抽出された素性の集合と一致する素性の集合を持つ規則を検出し，検出した規則の解を前記二項関係の候補の解と推定する
ことを特徴とする請求項８または請求項９のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
前記機械学習手段は，前記機械学習アルゴリズムである最大エントロピー法にもとづいて，前記事例の問題から抽出された素性の集合と前記事例の解に対応する分類先各々との組み合わせである２項からなる確率分布であって，所定の条件式を満足しかつエントロピーを示す式を最大にするときのものを求め，前記求めた確率分布を前記学習結果情報として前記学習結果記憶部に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記確率分布を利用して，前記二項関係の候補の素性の集合の場合の前記分類先に対する確率値を求めて，最大の確率値を持つ分類先を特定し，前記特定した分類先を，前記二項関係の候補の解と推定する
ことを特徴とする請求項８または請求項９のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
前記機械学習手段は，前記機械学習アルゴリズムであるサポートベクトルマシン法にもとづいて，前記解に対応する分類先を特定し，前記分類先を正例と負例とに分割し，所定のカーネル関数を用いたサポートベクトルマシン法を実行して前記事例の問題から抽出された素性の集合を次元とする空間上で前記正例と前記負例との間隔を最大にし，かつ超平面で分割する空間を求め，前記超平面と前記超平面で分割された空間とを前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記超平面と前記超平面で分割された空間とを利用して，前記二項関係の候補から抽出された素性の集合が前記超平面で分割された空間において前記正例の側か前記負例の側のどちら側に属するかを特定し，前記特定された結果にもとづく分類先を前記二項関係の候補の解と推定する
ことを特徴とする請求項８または請求項９のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
前記機械学習手段は，前記機械学習アルゴリズムであるｋ近傍法にもとづいて，前記事例から抽出された素性の集合の他の素性の集合と重複する素性の割合にもとづいて，前記事例同士の類似度を定義しておき，前記定義した各事例の類似度を前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段に格納された前記学習結果情報である前記定義した各事例の類似度を参照して，前記二項関係の候補についてその候補との類似度が高い順にｋ個の事例を選択し，前記選択したｋ個の事例での多数決によって定めた分類先を，前記二項関係の候補の解と推定する
ことを特徴とする請求項８または請求項９のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
前記機械学習手段は，前記解と素性の集合との組を前記学習結果情報として前記学習結果記憶手段に格納し，
前記解推定手段は，前記学習結果記憶手段の前記解と素性の集合との組をもとに，ベイズの定理にもとづいて前記素性抽出手段から得た前記二項関係の候補から抽出された素性の集合の場合に各分類先になる確率値を算出し，前記確率値が最大の分類先を，前記二項関係の候補の解と推定する
ことを特徴とする請求項８または請求項９のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
教師データ記憶手段と学習結果記憶手段と解−素性対抽出手段と機械学習手段と候補抽出手段と素性抽出手段と解推定手段と二項関係抽出手段とを備えるコンピュータが，実行する処理方法であって，
前記解−素性対抽出手段が，教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する処理過程と，
前記機械学習手段が，所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として前記学習結果記憶手段に保存する処理過程と，
前記候補抽出手段が，前記記憶装置に格納された文データから，前記二項関係となりうる要素を抽出し，前記抽出した要素で構成される対を二項関係の候補とする処理過程と，
前記素性抽出手段が，前記解−素性対抽出手段が実行する処理過程と同様の処理によって，前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と，
前記解推定手段が，前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する処理過程と，
前記二項関係抽出手段が，前記解推定手段が実行する処理過程の処理結果をもとに，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択する処理過程とを備える
ことを特徴とする二項関係抽出処理方法。
教師データ記憶手段と学習結果記憶手段と解−素性対抽出手段と機械学習手段と情報検索手段と候補抽出手段と素性抽出手段と解推定手段と検索結果抽出手段とを備えるコンピュータが，実行する処理方法であって，
前記解−素性対抽出手段が，教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する処理過程と，
前記機械学習手段が，所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する処理過程と，
前記情報検索手段が，入力された複数の検索キーワードを用いて入力検索キーワード対を生成し，検索対象となる文書データ群から前記入力検索キーワード対を含む文書データを抽出して取得する処理過程と，
前記候補抽出手段が，前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し，前記生成した対を二項関係の候補とする処理過程と，
前記素性抽出手段が，前記解−素性対抽出手段が実行する処理と同様に，前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と，
前記解推定手段が，前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する処理過程と，
前記検索結果抽出手段が，前記解推定手段の処理結果をもとに，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択し，前記選択した二項関係を含むテキストデータを検索結果として抽出する処理過程とを備える
ことを特徴とする二項関係抽出処理を用いた情報検索処理方法。
教師データ記憶手段と学習結果記憶手段とを備えるコンピュータに，機械学習処理を用いた二項関係抽出処理方法として，
教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する処理過程と，
所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として前記学習結果記憶手段に保存する処理過程と，
前記記憶装置に格納された文データから，前記二項関係となりうる要素を抽出し，前記抽出した要素で構成される対を二項関係の候補とする処理過程と，
前記解−素性対抽出手段が実行する処理と同様に，前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と，
前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する処理過程と，
前記解推定手段が実行する処理過程の処理結果をもとに，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択する処理過程とを，
実行させるための二項関係抽出処理プログラム。
教師データ記憶手段と学習結果記憶手段とを備えるコンピュータに，二項関係抽出処理を用いた情報検索処理方法として，
教師データとして，問題と解との組で構成される事例であって，前記問題として，抽出するべき二項関係にある要素を含む文データが設定され，前記解として，抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し，前記事例ごとに，前記問題の文データから，所定の情報であって，少なくとも前記文データ中に出現する二項関係にある第１要素と第２要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し，前記解と抽出した素性の集合との組を生成する処理過程と，
所定の機械学習アルゴリズムにもとづいて，前記解と素性の集合との組について，どのような素性の集合の場合に前記解となるかということを機械学習処理し，前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する処理過程と，
入力された複数の検索キーワードを用いて入力検索キーワード対を生成し，検索対象となる文書データ群から前記入力検索キーワード対を含む文書データを抽出して取得する処理過程と，
前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し，前記生成した対を二項関係の候補とする処理過程と，
前記解−素性対を抽出する処理過程と同様の抽出処理により，前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と，
前記学習結果記憶手段に格納された前記学習結果情報にもとづいて，前記二項関係の候補から抽出された素性の集合の場合に前記解となりやすい度合いを推定する処理過程と，
前記解を推定する処理過程での処理結果をもとに，前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を，抽出するべき二項関係として選択し，前記選択した二項関係を含むテキストデータを検索結果として抽出する処理過程とを，
実行させるための二項関係抽出処理を用いた情報検索処理プログラム。