JP7168411B2

JP7168411B2 - 情報処理システムおよび情報処理方法

Info

Publication number: JP7168411B2
Application number: JP2018202130A
Authority: JP
Inventors: 美沙佐藤; 孝介柳井; 康嗣森本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2022-11-09
Anticipated expiration: 2038-10-26
Also published as: JP2020067971A

Description

本発明は、情報を処理する情報処理システムおよび情報処理方法に関する。

特許文献１は、意味カテゴリを学習して意味カテゴリ辞書を拡張し、仮に意味カテゴリの学習結果に誤りが生じても、その学習結果を修正することができる辞書作成装置を開示する。この辞書作成装置は、意味カテゴリ付与部による意味カテゴリの付与結果を考慮して、意味カテゴリ辞書に保持されている単語と意味カテゴリの対応関係を更新するとともに、意味カテゴリの抽出ルールを更新する意味カテゴリ学習部の他に、その意味カテゴリ学習部により更新された単語と意味カテゴリの対応関係を提示して、単語と意味カテゴリの対応関係の修正を受け付ける意味カテゴリ編集部を設ける。

特開２００７－２１３３３６号公報

しかしながら、上述した従来技術では、単語辞書ＤＢ内の語を増やすことが困難であるという課題がある。特許文献１の辞書作成装置は、キーワード検索のみで抽出したい関係を含む例文を検索する。したがって、新たな例文を追加する際には抽出ルールと意味カテゴリ辞書の両方を編集する必要がある。

本発明は、未登録単語を効率的に収集することを目的とする。

本願において開示される情報処理システムおよび情報処理方法は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムおよび情報処理方法であって、所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、文中の単語間の文の要素に関する関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有し、前記プロセッサは、文の要素のうち前記単語グループが該当しない第１要素の単語および前記単語グループが該当しない第２要素の単語の組み合わせを含む対象文を取得する取得処理と、前記取得処理によって取得された対象文が、前記文の要素のうち前記単語グループが該当する第３要素を除外した特定の木構造パターンに該当するか否かを判断する判断処理と、前記判断処理によって前記特定の木構造パターンに該当すると判断された対象文から、前記第３要素の単語を抽出して、抽出結果を出力する抽出処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、未登録単語を効率的に収集することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、データベースのメンテナンス例１を示す説明図である。図２は、データベースのメンテナンス例２を示す説明図である。図３は、データベースのメンテナンス例３を示す説明図である。図４は、コンピュータのハードウェア構成例を示すブロック図である。図５は、単語辞書ＤＢの記憶内容例を示す説明図である。図６は、ルールＤＢの記憶内容例を示す説明図である。図７は、データストアの記憶内容例を示す説明図である。図８は、本文の一例を示す説明図である。図９は、木構造データおよび木構造パターンの一例を示す説明図である。図１０は、パターン表現の一例を示す説明図である。図１１は、図１０に示したパターン表現を用いた変換例を示す説明図である。図１２は、情報処理システムによる情報処理手順例を示すフローチャートである。図１３は、情報処理システムの利用例を示す説明図である。図１４は、情報処理システムの表示画面例１を示す説明図である。図１５は、情報処理システムの表示画面例２を示す説明図である。図１６は、情報処理システムの表示画面例３を示す説明図である。図１７は、情報処理システムの表示画面例４を示す説明図である。図１８は、情報処理システムの表示画面例５を示す説明図である。図１９は、情報処理システムの表示画面例６を示す説明図である。図２０は、情報処理システムの利用例における処理手順例を示すフローチャートである。図２１は、単語登録例を示す説明図である。図２２は、単語登録処理手順例を示すフローチャートである。図２３は、情報処理システムの表示画面例７を示す説明図である。図２４は、情報処理システムの表示画面例８を示す説明図である。

本明細書では、単語辞書ＤＢ（Ｄａｔａｂａｓｅ）に対するメンテナンス例と、単語辞書ＤＢへの単語の追加登録例と、に分けて説明する。単語辞書ＤＢに対するメンテナンス例については、図１～図２０を用い、単語辞書ＤＢへの単語の追加登録例については、図２１～図２４を用いて説明する。

［１．単語辞書ＤＢに対するメンテナンス例］
図１は、データベースのメンテナンス例１を示す説明図である。図１では、単語辞書ＤＢ１０１に対するメンテナンスについて説明する。単語辞書ＤＢ１０１は、１以上の単語グループを記憶する。単語グループは、所定の属性によりグループ化された単語群である。所定の属性とは、その単語グループが示す特徴である。所定の属性とは、具体的には、たとえば、日本語の文において主語の助詞が「が」格となる動詞や、特定の副詞と共起する動詞が挙げられる。そのほか、同義語や類義語であったり、特定の分野（投資、医療など）に用いられる単語であってもよい。図１では、一例として、単語グループＧａは、「ｓｕｐｐｒｅｓ」、「ｄｅｃｒｅａｓｅ」を含む同義語グループとする。

ルールＤＢ１０２は、ルールを示す木構造パターンを記憶するデータベースである。木構造パターンは、文中の単語間の文の要素に関する関係を示す木構造データについて単語グループを用いて抽象化したデータである。文の要素とは、たとえば、主語、述語、目的語である。木構造データは、たとえば、形態素解析および句構造解析（以下、構文解析）により句構造規則にしたがって生成される構文木である。図１のルールＲａは、主語（ワイルドカード）、述語、および目的語（ワイルドカード）の語順であり、述語を構成する動詞が単語グループＧａである木構造パターンとする。

データストア１０３は、各種文（たとえば、学術論文や書籍内の文、新聞雑誌内の文、Ｗｅｂページに記述された文など）のテキストデータを記憶する。

（Ａ）ルールＲａの木構造パターンでデータストア１０３が検索されると（Ｓ１１）、検索結果１１１が得られる。検索結果１１１内の文は、いずれもルールＲａを満たすテキストデータである。ここで、（Ａ）において、単語辞書ＤＢ１０１に対するメンテナンスにより、単語グループＧａに「ｒｅｄｕｃｅ」が追加されて（Ｂ）の状態になったとする。（Ｂ）ルールＲａの木構造パターンでデータストア１０３が検索されると（Ｓ１２）、検索結果１１２が得られる。単語グループＧａに「ｒｅｄｕｃｅ」が追加された場合でも、ルールＲａを修正することなく、検索が可能である。

この場合、検索結果１１２内の文は、いずれもルールＲａを満たすテキストデータであり、かつ、検索結果１１１にさらに「ｒｅｄｕｃｅ」を含む「ＺｒｅｄｕｃｅｓＤ．」、「ＸｉｓｇｏｉｎｇｔｏｒｅｄｕｃｅＥ．」が追加される。このように、単語辞書ＤＢ１０１をメンテナンスするだけで、ルールＤＢ１０２をメンテナンスしなくても単語辞書ＤＢ１０１のメンテナンス結果を充足した検索が可能となる。

また、（Ｂ）において、単語辞書ＤＢ１０１に対するメンテナンスにより、単語グループＧａから「ｒｅｄｕｃｅ」が削除されて（Ａ）の状態になったとする。（Ａ）ルールＲａの木構造パターンでデータストア１０３が検索されると、検索結果１１１が得られる。単語グループＧａから「ｒｅｄｕｃｅ」が削除された場合でも、ルールＲａを修正することなく、検索が可能である。

この場合、検索結果１１１内の文は、いずれもルールＲａを満たすテキストデータであり、かつ、検索結果１１２において「ｒｅｄｕｃｅ」を含む「ＺｒｅｄｕｃｅｓＤ．」、「ＸｉｓｇｏｉｎｇｔｏｒｅｄｕｃｅＥ．」が検索されない。なお、単語の変更については、上述した単語の削除および追加を実行すればよい。たとえば、（Ｂ）において、「ｒｅｄｕｃｅ」を「ｄｒｏｐ」に変更する場合は、単語グループＧａから「ｒｅｄｕｃｅ」を削除して「ｄｒｏｐ」を追加すればよい。このように、単語辞書ＤＢ１０１をメンテナンスするだけで、ルールＤＢ１０２をメンテナンスしなくても単語辞書ＤＢ１０１のメンテナンス結果を充足した検索が可能となる。

図２は、データベースのメンテナンス例２を示す説明図である。図２では、ルールＤＢ１０２に対するメンテナンスについて説明する。（Ａ）は、図１の（Ａ）と同様である。（Ｂ）は、新たに追加されたルールＲｂを示す。ルールＲｂは、主語（ワイルドカード）、述語（助動詞（ワイルドカード）および動詞）、および目的語（ワイルドカード）の語順であり、動詞が単語グループＧａである木構造パターンとする。すなわち、ルールＲｂは、ルールＲａに助動詞が追加された木構造パターンである。

（Ｂ）ルールＲｂの木構造パターンでデータストア１０３が検索されると（Ｓ１３）、検索結果２１０が得られる。検索結果２１０内の文は、いずれもルールＲｂを満たすテキストデータである。また、ルールを削除する場合も、ルールＤＢ１０２からルールＲｂを削除するだけでよく、単語辞書ＤＢ１０１をメンテナンスする必要がない。ルールの変更については、上述したルールの削除および追加を実行すればよい。たとえば、ルールＲａをルールＲｂに変更する場合は、ルールＲａを呼び出して、助動詞（ワイルドカード）を動詞（単語グループＧａ）の前に追加すればよい。このように、ルールＤＢ１０２をメンテナンスするだけで、単語辞書ＤＢ１０１をメンテナンスしなくてもルールＤＢ１０２のメンテナンス結果を充足した検索が可能となる。

図３は、データベースのメンテナンス例３を示す説明図である。図３では、ルールＤＢ１０２に対するメンテナンスについて説明する。ルールに単語グループが用いられている場合、単語グループ内の単語ごとにルールをルールＤＢ１０２に登録しておく必要がない。たとえば、ルールＲａは、単語グループＧａを用いているため、動詞ごとのルールＲａ１、Ｒａ２をルールＤＢ１０２に登録する必要がない。これにより、ルールの重複を抑制し、ルールＤＢ１０２の省メモリ化を図ることができる。

＜情報処理システムのハードウェア構成例＞
つぎに、情報処理システムを構成する１以上のコンピュータ４００のハードウェア構成例について説明する。

図４は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ４００は、プロセッサ４０１と、記憶デバイス４０２と、入力デバイス４０３と、出力デバイス４０４と、通信インターフェース（通信ＩＦ４０５）と、を有する。プロセッサ４０１、記憶デバイス４０２、入力デバイス４０３、出力デバイス４０４、および通信ＩＦ４０５は、バス４０６により接続される。プロセッサ４０１は、コンピュータ４００を制御する。記憶デバイス４０２は、プロセッサ４０１の作業エリアとなる。また、記憶デバイス４０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス４０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス４０３は、データを入力する。入力デバイス４０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス４０４は、データを出力する。出力デバイス４０４としては、たとえば、ディスプレイ、プリンタがある。通信ＩＦ４０５は、ネットワークと接続し、データを送受信する。

＜データベースの記憶内容例＞
つぎに、上述した単語辞書ＤＢ１０１、ルールＤＢ１０２、およびデータストア１０３の記憶内容例について説明する。単語辞書ＤＢ１０１、ルールＤＢ１０２、およびデータストア１０３は、図４に示したコンピュータ４００内の記憶デバイス４０２により実現されてもよく、通信ＩＦ４０５を介してアクセス可能な他のコンピュータで実現されてもよい。なお、以降のデータベースまたはテーブルの説明において、ＡＡフィールドｂｂｂ（ＡＡはフィールド名、ｂｂｂは符号）の値を、ＡＡｂｂｂと表記する場合がある。たとえば、グループＩＤフィールド５０１の値を、グループＩＤ５０１と表記する。

図５は、単語辞書ＤＢ１０１の記憶内容例を示す説明図である。単語辞書ＤＢ１０１は、グループＩＤフィールド５０１と、属性フィールド５０２と、単語フィールド５０３と、品詞フィールド５０４と、を有する。同一行の各フィールド５０１～５０４の値の組み合わせが１つの単語グループを示すエントリを規定する。グループＩＤフィールド５０１は、グループＩＤを格納する記憶領域である。グループＩＤ５０１は、単語グループを一意に特定する識別情報である。

属性フィールド５０２は、属性を格納する記憶領域である。属性５０２は、その単語グループが示す特徴である。たとえば、日本語の文において主語の助詞が「が」格となる動詞や、特定の副詞と共起する動詞が挙げられる。そのほか、同義語や類義語であったり、特定の分野（投資、医療など）に用いられる単語であってもよい。

単語フィールド５０３は、単語を格納する記憶領域である。単語５０３は、その単語グループに属する単語である。操作者（使用者または管理者）は、単語フィールド５０３に対して、単語５０３の追加、変更、削除が可能である。

品詞フィールド５０４は、品詞を格納する記憶領域である。品詞５０４は、単語グループに所属する単語を形態と役割によって分類した種別である。なお、品詞５０４において、単語の形態を指定してもよい。英単語の場合、動詞は、たとえば、原型（現在形）や過去形、過去分詞形、現在進行形、から指定され、名詞は、たとえば、不可算名詞、加算名詞、単数形、複数形から指定され、形容詞や副詞は、たとえば、原型、比較級、最上級から指定される。単に品詞のみ指定された場合（形態が指定されていない場合）は、その品詞５０４のすべての形態が包含されることとしてもよい。

図６は、ルールＤＢ１０２の記憶内容例を示す説明図である。ルールＤＢ１０２は、ルールＩＤフィールド６０１と、木構造パターンフィールド６０２と、を有する。同一行の各フィールド６０１、６０２の値の組み合わせが１つのルールを示すエントリを規定する。ルールＩＤフィールド６０１は、ルールＩＤを格納する記憶領域である。ルールＩＤ６０１は、ルールを一意に特定する識別情報である。木構造パターンフィールド６０２は、木構造パターンを格納する記憶領域である。操作者は、木構造パターンフィールド６０２に対して、木構造パターン６０２の追加、変更、削除が可能である。なお、図１～図３では、木構造パターン６０２内の動詞を単語グループとし主語や目的語をワイルドカードとしたルールを示したが、木構造パターン６０２において主語や目的語など述語以外の語句に単語グループを適用し、それ以外の語句をワイルドカードとしてもよい。また、１つの木構造パターン６０２に複数の単語グループを適用したルールとしてもよい。

図７は、データストア１０３の記憶内容例を示す説明図である。データストア１０３は、見出し語フィールド７０１と、本文フィールド７０２と、木構造データフィールド７０３と、を有する。同一行の各フィールド７０１～７０３の値の組み合わせが１つの文に関するエントリを規定する。

見出し語フィールド７０１は、見出し語を格納する記憶領域であり、インデックス検索に利用される。見出し語フィールド７０１は、複数の注釈フィールド（図７では、注釈ａ０フィールド７１０～注釈ａ２フィールド７１２の３個）を有する。注釈ａ０フィールド７１０は、注釈ａ０としてあらかじめ設定された見出し語７０１を格納する記憶領域である。注釈ａ１フィールド７１１および注釈ａ２フィールド７１２は、注釈ａ１および注釈ａ２となる見出し語７０１を格納する記憶領域である。注釈ａ１フィールド７１１および注釈ａ２フィールド７１２は、初期状態ではブランクであり、後述のインデックス更新により注釈ａ１および注釈ａ２が追加される。

本文フィールド７０２は、本文を格納する記憶領域である。本文７０２とは、木構造データ７０３の解析元となるテキストデータである。木構造データフィールド７０３は、本文を句構造規則にしたがって構文解析した木構造データを格納する記憶領域である。

＜各種データの例＞
図８は、本文７０２の一例を示す説明図である。図８では、英語の本文ｓｔ１の一例を示したが、英語に限らず日本語など他の言語でもよい。

図９は、木構造データおよび木構造パターンの一例を示す説明図である。木構造データｔｒ１は、図８の本文ｓｔ１を句構造規則にしたがって構文解析した構文木である。木構造データｔｒ１において、「ＰＯＳ」は品詞、「ＲＯＯＴ」は構文木の根を示す。１文字～３文字の大文字アルファベット列は、品詞の種類（名詞、動詞など）を示す。木構造パターンｔｐ１は、操作者が木構造データｔｒ１から不要な情報を削除して編集したパターンである。この木構造パターンｔｐ１は、主語がワイルドカード、述語が動詞の「ｓｐｉｎｏｆｆ」、目的語がワイルドカードとなる語順のルールを示す。

図１０は、パターン表現の一例を示す説明図である。パターン表現１０００は、情報処理システムが情報処理を実行する際に用いられる。また、操作者は、パターン表現１０００を認識することで、木構造データ７０３を編集して木構造パターン６０２を生成することができる。パターン表現１０００において、「＿」はリーフノード（構文木の葉）の判定、「｜」は選択肢、「＃」はサブツリー（構文木内の部分木）抽出、「！」は否定、「＊」は０回以上のサブツリーの出現、「＋」は１回以上の出現を示す。なお、図１０に示したパターン表現１０００は一例である。

図１１は、図１０に示したパターン表現を用いた変換例を示す説明図である。木構造データｔｒ１１において、品詞（ＰＯＳ）が動詞（ＶＰ）であるｉｎｃｒｅａｓｅまたはｃａｕｓｅの選択が、ａｆｆｅｃｔというグループＩＤ５０１の単語グループの呼び出し（＼ｄｉｃ．）に変換されている。これにより、単語グループを含む木構造パターンｔｐ１１が生成される。なお、このような変換は、操作者の編集操作により実行される。

＜情報処理手順例＞
図１２は、情報処理システムによる情報処理手順例を示すフローチャートである。情報処理システムは、メンテナンス要求を待ち受ける（ステップＳ１２０１：Ｎｏ）。メンテナンス要求は、プロセッサ４０１からの指示、端末から通信ＩＦ４０５を介して、または入力デバイス４０３から与えられる。メンテナンス要求があった場合（ステップＳ１２０１：Ｙｅｓ）、情報処理システムは、メンテナンス要求が単語に関するメンテナンス要求であるかルール（木構造パターン）に関するメンテナンス要求であるかを、メンテナンス要求に含まれている情報により判断する（ステップＳ１２０２）。

単語に関するメンテナンス要求である場合（ステップＳ１２０２：単語）、情報処理システムは、単語に関するメンテナンス要求が単語の追加であるか削除であるかを、単語に関するメンテナンス要求に含まれている情報により判断する（ステップＳ１２０３）。単語の追加である場合（ステップＳ１２０３：追加）、情報処理システムは、追加先の単語グループを単語辞書ＤＢ１０１から特定する（ステップＳ１２０４）。具体的には、たとえば、情報処理システムは、単語に関するメンテナンス要求に追加先のグループＩＤが含まれている場合、単語に関するメンテナンス要求に含まれている追加対象の単語の追加先として、当該グループＩＤ５０１で指定された単語グループを特定する。

また、単語に関するメンテナンス要求に追加先のグループＩＤが含まれてない場合、情報処理システムは、自動的に追加先の単語グループを特定してもよい。たとえば、追加対象の単語が、単語に関するメンテナンス要求に含まれている本文７０２から抽出した単語である場合、情報処理システムは、当該本文の特徴に該当する属性の単語グループを単語辞書ＤＢ１０１から特定する。そして、情報処理システムは、特定した追加先の単語グループに、追加対象の単語を追加して（ステップＳ１２０５）、ステップＳ１２０１に戻る。

また、ステップＳ１２０３において、単語の削除である場合（ステップＳ１２０３：削除）、情報処理システムは、単語辞書ＤＢ１０１の削除対象の単語グループから、単語に関するメンテナンス要求に含まれている削除対象の単語を削除して（ステップＳ１２０６）、ステップＳ１２０１に戻る。削除対象の単語グループとは、たとえば、単語に関するメンテナンス要求にグループＩＤ５０１が指定されていなければ、単語辞書ＤＢ１０１の全エントリであり、グループＩＤ５０１が指定されていれば、当該グループＩＤ５０１で指定されたエントリである。

また、ステップＳ１２０２において、ルールに関するメンテナンス要求である場合（ステップＳ１２０２：ルール）、情報処理システムは、ルールに関するメンテナンス要求がルールの追加であるか削除であるかを、ルールに関するメンテナンス要求に含まれている情報により判断する（ステップＳ１２０７）。ルールの追加である場合（ステップＳ１２０７：追加）、情報処理システムは、ルールＤＢ１０２に、ルールに関するメンテナンス要求に含まれている追加対象のルールを追加して（ステップＳ１２０５）、ステップＳ１２０１に戻る。

また、ステップＳ１２０７において、ルールの削除である場合（ステップＳ１２０７：削除）、情報処理システムは、ルールＤＢ１０２から、ルールに関するメンテナンス要求に含まれているルールＩＤ６０１のエントリを削除して（ステップＳ１２０９）、ステップＳ１２０１に戻る。

＜情報処理システムの利用例＞
図１３は、情報処理システムの利用例を示す説明図である。（１）情報処理システムは、データストア１０３から本文ｓｔｃ１を取得する。（１）では、情報処理システムは、文ｓｔｃ１を直接指定して取得してもよく、見出し語７０１を用いたインデックス検索により、文ｓｔｃ１を取得してもよい。（２）情報処理システムは、構文解析により、取得した文ｓｔｃ１を木構造データｔｒｃに変換する。（２）では、情報処理システムが構文解析を実行してもよく、情報処理システムが他のコンピュータに文ｓｔｃ１を送信して、当該他のコンピュータが構文解析を実行して木構造データｔｒｃを情報処理システムに返してもよい。また、木構造データｔｒｃがすでに生成済みであれば、情報処理システムは、データストア１０３から本文ｓｔｃ１に関連付けられている木構造データｔｒｃを呼び出す。

（３）情報処理システムは、操作者の編集操作により、木構造データｔｒｃから木構造パターンを生成し、ルールＲｃとする。ここでは、ルールＲｃの述語には、動詞の単語グループＧｂが適用されたこととする。

（４）情報処理システムは、ルールＲｃの木構造パターンから注釈ａ１として、文ｓｔｃ１の主語である「Ｘ」を抽出し、注釈ａ２として、文ｓｔｃ１の目的語である「Ａ」を抽出して、表示画面に表示する。

（５）情報処理システムは、ルールＲｃをルールＤＢ１０２に登録する。なお、同一内容のルールが登録済みである場合は、情報処理システムは、ルールＲｃをルールＤＢ１０２に登録しない。

（６）情報処理システムは、（２）の木構造データｔｒｃと（４）の注釈ａ１，ａ２とを、データストア１０３の文ｓｔｃ１のエントリに登録する。これにより、取得した本文ｓｔｃ１の見出し語７０１を自動生成することができ、これ以降のインデックス検索の効率化を図ることができる。

（７）情報処理システムは、データストア１０３の文ｓｔｃ１以外の他の本文をサーチしてルールＲｃに該当する本文ｓｔｃ２を特定し、本文ｓｔｃ２のエントリの主語である「Ｊ」を注釈ａ１、目的語である「Ｋ」を注釈ａ２として登録する（インデックス更新）。これにより、他の本文ｓｔｃ２にも波及して見出し語７０１を自動生成することができ、これ以降のインデックス検索の効率化を図ることができる。

つぎに、図１３に示した利用例での表示画面例について図１４～図１９を用いて説明する。図１４～図１９の表示画面は、情報処理システム内のあるコンピュータ４００で表示される表示画面である。

図１４は、情報処理システムの表示画面例１を示す説明図である。表示画面１４００は、サンプルタブ１４０１、バリデートタブ１４０２、およびインデックスタブ１４０３を有する。図１４では、サンプルタブ１４０１が表示される。サンプルタブ１４０１は、検索キーワード入力欄１４１１、検索ボタン１４１２、および保存ボタン１４１５を有する。検索キーワード入力欄１４１１は、操作者が検索キーワードを入力する入力欄である。検索ボタン１４１２は、操作者の操作により、データストア１０３の見出し語７０１をインデックス検索し、対応する本文７０２を抽出するためのボタンである。なお、本例では、インデックス検索として説明するが本文７０２の全文検索でもよい。

図１４では、検索キーワード入力欄１４１１に「ｓｐｉｎｏｆｆ」が入力されて検索ボタン１４１２が押下されたとする。これにより、図１３の（１）に示したように、データストア１０３の見出し語７０１がインデックス検索され、対応する本文７０２が検索結果１４１３として表示される。検索結果１４１３の各本文は、チェックボックス１４１４を有し、情報処理システムは、操作者がチェックボックス１４１４にチェックを入れられた本文を選択する。図１４では、本文ｓｔ１が選択されたものとする。保存ボタン１４１５は、検索結果１４１３からチェックボックス１４１４で選択された本文を保存するためのボタンである。保存ボタン１４１５の押下により、チェックボックス１４１４にチェックを入れられた本文ｓｔ１がデータストア１０３に保存される。

図１５は、情報処理システムの表示画面例２を示す説明図である。表示画面例２は、図１４の表示画面例１でチェックボックス１４１４にチェックを入れた状態で、バリデートタブ１４０２を選択した場合の表示画面例である。バリデートタブ１４０２は、確認領域１５０１と、コピー領域１５０２と、解析ボタン１５０３と、注釈ボタン１５０４と、追加ボタン１５０５と、編集領域１５０６と、を有する。確認領域１５０１は、選択文表示領域１５１０と、注釈ａ１表示領域１５１１と、注釈ａ２表示領域１５１２と、を有する。選択文表示領域１５１０は、図１４の表示画面例１でチェックボックス１４１４にチェックを入れられたことで選択された本文を表示する。注釈ａ１表示領域１５１１は、注釈ａ１（主語）を表示する領域である。注釈ａ２表示領域１５１２は、注釈ａ２（目的語）を表示する領域である。

表示画面例２では、注釈ａ１表示領域１５１１は、注釈ａ１用テキスト入力欄１５１３を有する。操作者は、選択文表示領域１５１０の本文ｓｔ１を参照して、注釈ａ１用テキスト入力欄１５１３に、注釈ａ１（主語）に相当する語句（たとえば、「Ｎｉｃｈｉｒｉｔｓｕ」）を入力する。注釈ａ２表示領域１５１２は、注釈ａ２用テキスト入力欄１５１４を有する。操作者は、選択文表示領域１５１０の本文ｓｔ１を参照して、注釈ａ２用テキスト入力欄１５１４に、注釈ａ２（目的語）に相当する語句（たとえば、「ｈｏｍｅａｐｐｌｉａｎｃｅ」）を入力する。

確認領域１５０１に表示された本文ｓｔ１と、注釈ａ１用テキスト入力欄１５１３に入力された語句「Ｎｉｃｈｉｒｉｔｓｕ」と、注釈ａ２用テキスト入力欄１５１４に入力された語句「ｈｏｍｅａｐｐｌｉａｎｃｅ」との組み合わせを、確認用データセット１５００と称す。

コピーボタン１５１５は、操作者の操作により、選択文表示領域１５１０の本文をコピー領域１５０２にコピーするためのボタンである。コピー領域１５０２は、コピーボタン１５１５の押下により、選択文表示領域１５１０の本文ｓｔ１をコピーして表示する領域である。解析ボタン１５０３は、コピー領域１５０２にコピーされた本文ｓｔ１を構文解析するためのボタンである（図１３の（２）に対応）。注釈ボタン１５０４は、編集領域１５０６で編集された木構造パターンから本文ｓｔ１の注釈を抽出するためのボタンである（図１３の（４）に対応）。追加ボタン１５０５は、編集領域１５０６で編集された木構造パターンをルールＤＢ１０２にルールとして追加するためのボタンである（図１３の（５）に対応）。

図１６は、情報処理システムの表示画面例３を示す説明図である。表示画面例３は、図１５の表示画面例２でコピーボタン１５１５および解析ボタン１５０３を押下した場合の表示画面例である。操作者の操作により、コピーボタン１５１５が押下されると、コピー領域１５０２に選択した本文ｓｔ１がコピーされる。次に、操作者の操作により、解析ボタン１５０３が押下されると、選択した本文ｓｔ１を構文解析した木構造データｔｒ１が編集領域１５０６に表示される（図１３の（２）に対応）。

図１７は、情報処理システムの表示画面例４を示す説明図である。表示画面例４は、図１６の表示画面例３で編集領域１５０６内の木構造データｔｒ１を編集した場合の表示画面例である。たとえば、操作者の操作により、情報処理システムは、注釈として抽出させる単語に注釈を示す「ａ０」，「ａ１」，「ａ２」を付与する。「ａ０」，「ａ１」，「ａ２」は、ルールを定義する。注釈ａ０は、他の注釈ａ１，ａ２の抽出基準となる抽出対象外の注釈である。すなわち、注釈ａ０が単語であれば、他の本文と一致する抽出対象外の単語であり、注釈ａ０が単語グループであれば、他の本文の単語を包含する抽出対象外の単語グループである。注釈ａ１は木構造パターンｔｐ１で注釈ａ０に対する主語（名詞句（ＮＰ））として定義され、注釈ａ２は木構造パターンｔｐ１で注釈ａ０に対する目的語（名詞句（ＮＰ））で定義されているため、他の本文からルールに該当する名詞句が抽出される。

また、操作者の操作により、操作者の主観で重要でないサブツリーや「ｌｅｍｍｍａ」（単語の基本形）が削除される。また、図１１に示したように、木構造データｔｒ１で定義されている単語が、当該単語を含む単語グループの呼び出しの記述に変更される場合もある。

図１８は、情報処理システムの表示画面例５を示す説明図である。表示画面例５は、図１７の表示画面例４で注釈ボタン１５０４を押下した場合の表示画面例である。操作者の操作により注釈ボタン１５０４が押下されると、情報処理システムは、編集領域１５０６で編集された木構造パターンｔｐ１（ルール）に該当する注釈ａ１，ａ２に該当する文字列を、コピー画面の選択した本文ｓｔ１から抽出し、抽出結果１８００を表示する（図１３の（４）に対応）。この場合、注釈ａ１の名詞句として、「ＪａｐａｎｅｓｅｅｌｅｃｔｒｏｎｉｃｓｍａｋｅｒＮｉｃｈｉｒｉｔｓｕ」が抽出され、注釈ａ２の名詞句として「ｉｔｓｈｏｍｅａｐｐｌｉａｎｃｅａｎｄｉｎｄｕｓｔｒｉａｌｅｑｕｉｐｍｅｎｔｄｉｖｉｓｉｏｎｓ」が抽出される。また、抽出された注釈ａ１，ａ２の名詞句はそれぞれ、注釈ａ１表示領域１５１１と注釈ａ２表示領域１５１２とに表示される。

これにより、操作者は、注釈ａ１用テキスト入力欄１５１３に入力した語句「Ｎｉｃｈｉｒｉｔｓｕ」と、ルールに従って抽出された注釈ａ１の名詞句「ＪａｐａｎｅｓｅｅｌｅｃｔｒｏｎｉｃｓｍａｋｅｒＮｉｃｈｉｒｉｔｓｕ」とを比較して、ルールの確からしさを確認することができる。同様に、操作者は、注釈ａ２用テキスト入力欄１５１４に入力した語句「ｈｏｍｅａｐｐｌｉａｎｃｅ」と、ルールに従って抽出された注釈ａ２の名詞句「ｉｔｓｈｏｍｅａｐｐｌｉａｎｃｅａｎｄｉｎｄｕｓｔｒｉａｌｅｑｕｉｐｍｅｎｔｄｉｖｉｓｉｏｎｓ」とを比較して、ルールの確からしさを確認することができる。

また、追加ボタン１５０５が押下されることで、編集領域１５０６内の文字列（編集された木構造データｔｒ１）が木構造パターンｔｐ１となって、ルールとしてルールＤＢ１０２に登録される（図１３の（５）に対応）。

図１９は、情報処理システムの表示画面例６を示す説明図である。表示画面例６は、図１８の表示画面例５でインデックスタブ１４０３を選択した場合の表示画面例である。インデックスタブ１４０３は、更新ボタン１９００を有する。操作者の操作により、更新ボタン１９００が押下されると、情報処理システムは、選択した本文ｓｔ１について、木構造データｔｒ１と、注釈ａ１の名詞句「ＪａｐａｎｅｓｅｅｌｅｃｔｒｏｎｉｃｓｍａｋｅｒＮｉｃｈｉｒｉｔｓｕ」と、注釈ａ２の名詞句「ｉｔｓｈｏｍｅａｐｐｌｉａｎｃｅａｎｄｉｎｄｕｓｔｒｉａｌｅｑｕｉｐｍｅｎｔｄｉｖｉｓｉｏｎｓ」を関連付けてデータストア１０３に登録することで、選択した本文ｓｔ１のエントリをインデックス更新する（図１３の（６）に対応）。

同様に、情報処理システムは、他の本文について、木構造パターンｔｐ１のルールに該当する注釈ａ１の名詞句および注釈ａ２の名詞句を、当該他の本文に関連付けてデータストア１０３に登録することで、当該他の本文のエントリをインデックス更新する（図１３の（７）に対応）。

＜情報処理システムの利用例における処理手順例＞
図２０は、情報処理システムの利用例における処理手順例を示すフローチャートである。情報処理システムは、図１４に示したように、検索キーワード入力欄１４１１への検索キーワードの入力を受け付け（ステップＳ２００１）、検索ボタン１４１２の押下により、入力された検索キーワードによるインデックス検索を実行する（ステップＳ２００２）。情報処理システムは、図１４に示したように、操作者の操作によって選択された本文を保存する（ステップＳ２００３）。

つぎに、情報処理システムは、図１５に示したように、操作者の操作により、確認用データセット１５００を設定する（ステップＳ２００４）。そして、情報処理システムは、図１６に示したように、選択した本文ｓｔ１の構文解析により、木構造データｔｒ１を取得する（ステップＳ２００５）。また、情報処理システムは、操作者による追加ボタン１５０５の押下により、木構造データｔｒ１から編集された木構造パターンｔｐ１をルールＤＢ１０２に登録する（ステップＳ２００６）。追加ボタン１５０５の押下は、図１２のステップＳ１２０７：追加に対応し、木構造パターンｔｐ１の登録は、図１２のステップＳ１２０８に対応する。

そして、情報処理システムは、図１８に示したように、操作者の操作により、注釈ボタン１５０４が押下されることで、木構造パターンｔｐ１のルールに従って、選択された本文ｓｔ１から注釈ａ１の語句および注釈ａ２の語句を抽出して、抽出結果１８００として表示する（ステップＳ２００７）。

なお、操作者は、木構造パターンｔｐ１の編集を繰り返しおこなうことができ、情報処理システムは、その都度、木構造パターンｔｐ１をルールとして登録してもよい。この場合、ステップＳ２００７において、情報処理システムは、木構造パターンｔｐ１ごとに、選択本文から注釈を抽出することになる。このあと、情報処理システムは、図１９に示したように、抽出した注釈をデータストア１０３にインデックス更新する（ステップＳ２００８）。

このように、上述した情報処理システムは、単語辞書ＤＢ１０１と、ルールＤＢ１０２と、を有し、プロセッサ４０１は、メンテナンス要求を受け付ける受付処理と、受付処理によって受け付けられたメンテナンス要求が単語に関するメンテナンス要求である場合、単語が所属する単語グループに対するメンテナンスを単語辞書ＤＢ１０１に対して行い、メンテナンス要求が木構造パターンに関するメンテナンス要求である場合、木構造パターンのメンテナンスをルールＤＢ１０２に対して行うメンテナンス処理と、を実行する。

これにより、単語辞書ＤＢ１０１とルールＤＢ１０２とを各々独立してメンテナンスが可能となる。換言すれば、情報処理システムは、単語辞書ＤＢ１０１とルールＤＢ１０２のうち、いずれか一方のデータベースのみメンテナンスする。したがって、単語辞書ＤＢ１０１内のある単語グループをメンテナンスしても、当該単語グループを用いるルールをルールＤＢ１０２でメンテナンスする必要はない。逆に、ルールＤＢ１０２内のあるルールをメンテナンスしても、当該ルールに用いられる単語グループをメンテナンスする必要はない。したがって、データベースのメンテナンスの容易化を図ることができる。

また、プロセッサ４０１は、単語に関するメンテナンス要求が単語の追加要求である場合、単語に基づいて単語が所属すべき単語グループの属性を特定する特定処理を実行し、メンテナンス処理では、プロセッサ４０１は、特定処理によって特定された属性の単語グループに単語を追加する。

これにより、単語の追加要求があった場合、単語辞書ＤＢ１０１内の該当する単語グループに当該単語を追加登録するが、当該単語グループを用いるルールをルールＤＢ１０２でメンテナンスする必要はない。したがって、単語登録の際のメンテナンスの容易化を図ることができる。

また、メンテナンス処理では、プロセッサ４０１は、単語に関するメンテナンス要求が単語の削除要求である場合、単語が所属する単語グループから単語を削除する。

これにより、単語の削除要求があった場合、単語辞書ＤＢ１０１内の該当する単語グループから当該単語を削除するが、当該単語グループを用いるルールをルールＤＢ１０２でメンテナンスする必要はない。したがって、単語削除の際のメンテナンスの容易化を図ることができる。

また、メンテナンス処理では、プロセッサ４０１は、木構造パターンに関するメンテナンス要求が木構造パターンの追加要求である場合、ルールＤＢ１０２に木構造パターンが存在しなければ木構造パターンをルールＤＢ１０２に登録する。

これにより、木構造パターンの追加要求があった場合、ルールＤＢ１０２に当該木構造パターンを新規なルールとして追加登録するが、当該新規なルールに用いられる単語グループを単語辞書ＤＢ１０１でメンテナンスする必要はない。したがって、木構造パターン登録の際のメンテナンスの容易化を図ることができる。

また、メンテナンス処理では、プロセッサ４０１は、木構造パターンに関するメンテナンス要求が木構造パターンの削除要求である場合、木構造パターンをルールＤＢ１０２から削除する。

これにより、木構造パターンの削除要求があった場合、ルールＤＢ１０２から当該木構造パターンを削除するが、当該木構造パターンに用いられる単語グループを単語辞書ＤＢ１０１でメンテナンスする必要はない。したがって、木構造パターン登録の際のメンテナンスの容易化を図ることができる。

また、プロセッサ４０１は、複数の文を記憶するデータストア１０３にアクセス可能であり、複数の文のうち特定の単語を含むデータストア１０３内の特定の文の解析結果である特定の木構造データを、特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、特定の木構造データから、取得処理によって取得された特定の木構造パターンにおいて特定の単語グループと共起する語句（たとえば、特定の単語グループが述語動詞である場合の主語や目的語）に包含される単語を抽出する抽出処理と、抽出処理によって抽出された単語を表示画面に表示可能に出力する出力処理と、を実行し、メンテナンス処理では、プロセッサ４０１は、特定の木構造パターンに関するメンテナンス要求が特定の木構造パターンの追加要求である場合（たとえば、追加ボタン１５０５の押下）、特定の木構造パターンをルールＤＢ１０２に登録する。

これにより、特定の木構造パターンに該当する単語を特定の文の注釈として表示することができる。したがって、たとえば、特定の文について、あらかじめ特定の単語グループと共起する語句を操作者が選択していた場合、当該選択していた単語と注釈とを比較することにより、特定の木構造パターンの確からしさを確認して、ルールＤＢ１０２に登録することができる。

また、プロセッサ４０１は、複数の文を記憶するデータストア１０３にアクセス可能であり、複数の文のうち特定の単語を含むデータストア１０３内の特定の文の解析結果である特定の木構造データを、特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、特定の木構造データから、取得処理によって取得された特定の木構造パターンにおいて特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、抽出処理によって抽出された単語を特定の文に関連付けることによりデータストア１０３を更新する更新処理と、を実行し、メンテナンス処理では、プロセッサ４０１は、特定の木構造パターンに関するメンテナンス要求が特定の木構造パターンの追加要求である場合、特定の木構造パターンをルールＤＢ１０２に登録する。

これにより、特定の木構造パターンに該当する単語を特定の文の注釈として関連付けて登録するとともに、当該関連付けに用いられた特定の木構造パターンをルールとしてルールＤＢ１０２に登録することができる。またこれにより、たとえば、データストア１０３を検索したい場合に、関連付けられた注釈を見出し語としてインデックス検索することにより、データストア１０３から特定の文を抽出することができる。

また、プロセッサ４０１は、複数の文のうち特定の文以外の他の文の解析結果である他の木構造データから、特定の木構造パターンにおいて特定の単語グループと共起する語句に包含される他の単語を抽出し、抽出処理によって抽出された他の単語を他の文に関連付けることによりデータストア１０３を更新する。

これにより、データストア１０３の他の文についても、特定の木構造パターンに該当する他の単語を他の文の注釈として関連付けて登録することができ、特定の木構造パターンで規定されるルールを他の文にまで波及することができる。

［２．単語辞書ＤＢ１０１への単語の追加登録例］
上述したように、情報処理システムは、文法構造を表す木構造パターンをルールとして規定するルールＤＢ１０２と関係を表す語を収集した単語辞書ＤＢ１０１とを有する。これらにより、情報処理システムは、文の要素のような関係について、文法的な構造を定義し、テキストデータから関係アノテーションとして注釈ａ０～ａ２を抽出する。情報処理システムは、ルールＤＢ１０２および単語辞書ＤＢ１０１を比較し、ルールＤＢ１０２と単語辞書ＤＢ１０１の両方に合致する語を抽出する。このように、多くの関係情報を抽出できるようにするためには、単語辞書ＤＢ１０１への単語の追加が必要となる。

しかしながら、単語辞書ＤＢ１０１内の単語を増やすことが困難であるという課題がある。上記特許文献１は、キーワード検索のみで抽出したい関係を含む例文を検索していたため、木構造ルールに合致しない例文も検索されてしまう。したがって、新たな例文を追加する際にはルールＤＢ１０２と単語辞書ＤＢ１０１の両方を編集する必要がある。

このため、情報処理システムは、抽出結果である関係アノテーション（たとえば、主語および目的語に該当する単語の組み合わせ）およびルールＤＢ１０２内の木構造パターンが示すルール（たとえば、文の要素（たとえば、主語、述語、目的語）の組み合わせ）を用いることで大量のテキストデータから登録対象候補（たとえば、述語）を取得する。これにより得られる登録候補を含む例文は、木構造パターンが示すルールと合致していることが保証されるため、獲得された登録候補を単語辞書ＤＢ１０１に追加するだけで、その例文から新たに関係抽出が可能となる。

したがって、ルールＤＢ１０２の編集を行わずとも、単語辞書ＤＢ１０１だけを更新することで情報処理システムの性能向上が可能となる。ルールＤＢ１０２の編集には文法構造に対する一定の理解が必要となるため、訓練した人材でないと編集が難しいが、単語辞書ＤＢ１０１は動詞などの語の列挙からなるもので扱いやすい。実際の運用の際には、たとえば、ルールＤＢ１０２の開発に慣れた人材が一定量のルールＤＢ１０２を作成し、単語辞書ＤＢ１０１の更新のみを行う人材が情報処理システムにより単語辞書ＤＢ１０１の更新を行うといった作業分担が考えられる。

なお、本例では、上述した［１．単語辞書ＤＢに対するメンテナンス例］において、ルールＤＢ１０２が構築され、データストア内１０３の本文７０２について見出し語７０１（注釈ａ０～ａ２）が付与されているものとする。また、単語辞書ＤＢ内の単語グループの１つとして、“ｅｎｔｅｒ”が登録済みとする。“ｅｎｔｅｒ”は、「参入する」、「参画する」を含む単語グループである。

また、本例では、単語グループを述語の単語グループとし、例文内の主語、述語、および目的語の関係から新たな述語の単語を単語辞書ＤＢ１０１に追加登録する例について説明する。しかし、単語辞書ＤＢ１０１への追加登録は、単語グループに対応する単語であれば、その単語についての文の要素は述語に限られない。なお、例文では英文、日本語文と分かれて記載されているが、これらの別は問わない。

＜単語追加登録例＞
図２１は、単語追加登録例を示す説明図であり、図２２は、単語登録処理手順例を示すフローチャートである。

（１）情報処理システムは、注釈ａ１および注釈ａ２が規定されたルールＲ１、Ｒ２、…（以下、これらを区別しない場合、ルールＲと表記）のいずれかに該当する例文２００１を検索する（ステップＳ２２０１）。本例では、検索された例文２００１において、「様々な企業」が注釈ａ１に該当し、「小売市場に」が注釈ａ２に該当する。

なお、例文２００１は、情報処理システム外のネットワーク上（たとえば、インターネットのウェブページやデータベースサーバ内の文書データ）に存在するテキストデータである。また、例文は、データストア１０２内で見出し語７０１が付与されていない本文７０２でもよい。

（２）情報処理システムは、（１）で検索された例文２００１を構文解析して、木構造データ２００２を生成する（ステップＳ２２０２）。木構造データ２００２は、たとえば、構文解析（形態素解析および句構造解析）により句構造規則にしたがって生成される構文木である（図９を参照）。なお、（３）以降の処理精度の向上のため、ユーザは、図９に示したように、木構造データ２００２を木構造パターンに編集してもよい。

（３）情報処理システムは、（２）で得られた木構造データ２００２と、ルールＤＢ１０２内のルールＲと、を比較する（ステップＳ２２０３）。この際、情報処理システムは、（３）において単語辞書ＤＢ１０１を非適用にするため、注釈ａ０の条件Ｃを当該比較に使用しない。具体的には、たとえば、情報処理システムは、条件ＣをルールＲから外す。

たとえば、ルールＲ１の場合、条件Ｃは、単語グループの“ｅｎｔｅｒ”を規定する。したがって、“ｅｎｔｅｒ”に該当する「￥ｄｉｃ．ｅｎｔｅｒ」（すなわち、「参入する」および「参画する」）がルールＲ１から外される。

（４）情報処理システムは、（３）の比較により、例文２００１から抽出結果２００３を得る（ステップＳ２２０４）。たとえば、ルールＲ１と比較したことにより、情報処理システムは、ルールＲの注釈ａ１の条件に該当する主語「様々な企業が」を例文２００１から抽出結果２００３として抽出する。

また、情報処理システムは、ルールＲの注釈ａ２の条件に該当する目的語「小売企業に」を例文２００１から抽出結果２００３として抽出する。また、上記（２）で注釈ａ０の条件Ｃを除外したため、情報処理システムは、条件Ｃ（「参入する」および「参画する」）に該当しない述語「登場している」を抽出結果２００３として抽出することができる。この条件Ｃが除外されて抽出された述語「登場している」という動詞の原形「登場する」が単語辞書ＤＢ１０１への登録候補となる。これにより、未登録単語を効率的に収集することができる。なお、抽出結果２００３は、少なくとも登録候補が含まれていればよい。

（５）情報処理システムは、（４）の抽出結果２００３の登録候補「登場する」が、単語辞書ＤＢ１０１に新規追加可能か否かを確認する（ステップＳ２２０５）。具体的には、たとえば、情報処理システムは、抽出結果２００３に該当する本文７０２がデータストア内に存在するか否かを判断する。

抽出結果２００３に該当する本文７０２が存在する場合、抽出結果２００３の登録候補「登場する」は、すでに単語辞書ＤＢ１０１において登録済みである。したがって、登録候補「登場する」の登録必要性がないことになり（ステップＳ２２０６：Ｎｏ）、情報処理システムは、つぎの（６）の処理（ステップＳ２２０７）を実行しない。

一方、抽出結果２００３に該当する本文７０２が存在しない場合、抽出結果２００３の登録候補「登場する」は、単語辞書ＤＢ１０１において未登録な述語となる。登録候補「登場する」の登録必要性がある（ステップＳ２００６：Ｙｅｓ）。したがって、情報処理システムは、つぎの（６）の処理（ステップＳ２２０７）を実行する。

（６）情報処理システムは、抽出結果２００３の登録候補「登場する」を単語辞書ＤＢ１０１に追加登録する（ステップＳ２２０７）。この追加登録では、上述したように、情報処理システムは、（５）を実行せずに登録候補を追加登録してもよい。既登録の述語と一致する場合は、上書きされるだけであるため、（５）の処理（ステップＳ２２０５）を実行しなくても問題はない。

ただし、（５）を実行しない場合、データストア１０３に例文２００１の注釈ａ１および注釈ａ２に該当する本文が存在しなくても、登録候補「登場する」が単語辞書ＤＢ１０１に追加登録される場合がある。このように、（５）の処理（ステップＳ２２０５）を実行して（６）の処理（ステップＳ２２０７）を実行することにより、単語辞書ＤＢ１０１への新規登録の高精度化（誤登録の抑制）を図ることができる。

また、（６）の処理（ステップＳ２２０７）において、（５）の処理（ステップＳ２２０５）の実行、不実行にかかわらず、情報処理システムは、登録候補「登場する」を、ユーザが操作するコンピュータ４００の表示画面に表示させ、ユーザの操作により、ユーザに登録可否を促してもよい。これにより、追加登録前にユーザは追加登録すべきか否かを確認することができる。

このように、情報処理システムは、ルールＲに合致する例文２００１のみを収集することができ、単語辞書ＤＢ１０１の拡張の効率化を図ることができる。また、ルールＤＢ１０２を更新せずに、単語辞書ＤＢ１０１を拡張することができる。

＜画面遷移例＞
つぎに、上述した単語追加登録例における表示画面の画面遷移について説明する。

図２３は、情報処理システムの表示画面例７を示す説明図である。図２４は、情報処理システムの表示画面例８を示す説明図である。表示画面１４００において単語追加登録に用いるタブは、ＩＮＶＥＳＴＩＧＡＴＥタブ２３００とＤＩＣＴタブ２４００である。

図２３は、上述した（１）の処理（ステップＳ２４０１）での表示画面例を示す。図２３において、ユーザは、ＩＮＶＥＳＴＩＧＡＴＥタブ２３００を選択する。これにより、表示画面１４００は、図２３に示す画面になる。ユーザは、「ＳｅｌｅｃｔＡｎｎｏｔａｔｏｒ」プルダウンから対象の関係の種類（例として「ｐｅｎａｌｉｚｅ」）を選択して、ＳＥＡＲＣＨボタン２３０２をクリックすると、情報処理システムは、既存のルールＲと単語辞書ＤＢ１０１によって「ｐｅｎａｌｉｚｅ」の関係を示す例文２３０２Ａ，２３０２Ｂを検索し、検索結果２３０３を表示画面１４００に表示する。

なお「ＰｌｅａｓｅＩｎｐｕｔｋｅｙｗｏｒｄ」欄２３０４に絞り込み用の語を入力しておくと、その語を文中に含む例文２３０２Ａ，２３０２Ｂのみが検索、表示される。ユーザは、「ｐｅｎａｌｉｚｅ」の関係を正しく抽出できている例文２３０２Ａ，２３０２Ｂについて検索結果２３０３の左端のチェックボックス２３０５にチェック入力し、ＳＴＯＲＥボタン２３０６をクリックして一時保存する。このあと、ユーザは、ＤＩＣＴタブ２４００を選択する。これにより、表示画面１４００は、図２４に示す表示画面になる。

図２４は、上述した（２）～（７）の処理（ステップＳ２４０２～Ｓ２４０７）での表示画面例を示す。図２４において、ユーザは、ＳＥＡＲＣＨボタン２４０１をクリックして述語候補を検索する。これにより、抽出結果２４０２として述語候補２４０２Ａ，２４０２Ｂが例文２３０２Ａ，２３０２Ｂとともに表示される。例文２３０２Ａ，２３０２Ｂは、抽出される注釈ａ０～ａ２の文字列が強調表示される。

抽出に用いられたルールＲを示す木構造パターン２４０３Ａ，２４０３Ｂの名称も表示される。ここでは、単語辞書ＤＢ１０１に登録されていない登録候補が優先的に表示される。既に単語辞書ＤＢ１０１に登録されている登録候補も該当の単語辞書ＤＢ１０１の名称２４０４とともに表示される。ユーザは、表示された登録候補を確認し、適切な登録候補を対応する木構造パターン２４０３Ａ，２４０３Ｂが呼び出している単語辞書ＤＢ１０１に追加する。図２４では、「科す」という語が新たに追加登録される。

これにより、単語辞書ＤＢ１０１が拡張され、より多くの関係が抽出できるようになる。加えて、単語辞書ＤＢ１０１を拡張した後に、インデックスタブ１４０３の更新ボタン１９００をクリックすることで、情報処理システム内の表示画面１４００が表示されたコンピュータ４００から、データストア１０３にアクセス可能なコンピュータ４００に注釈ａ０～ａ２の書き込み指示を送信する。

データストア１０３にアクセス可能なコンピュータ４００は、データストア１０３に格納された例文２３０２Ａ，２３０２Ｂに注釈ａ０～ａ２を書き込む。これにより、抽出結果２４０２に該当する例文２３０２Ａ，２３０２Ｂの見出し語７０１が更新される。このような操作を繰り返すことで、より多くの抽出結果２４０２を単語追加登録に用いることができるため、更に多くの単語候補を収集することができ、単語辞書ＤＢ１０１に登録される語が増加する。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１０１単語辞書ＤＢ
１０２ルールＤＢ
１０３データストア
４００コンピュータ
４０１プロセッサ
４０２記憶デバイス

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、
所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、
文中の単語間の文の要素に関する関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有し、
前記プロセッサは、
文の要素のうち前記単語グループが該当しない第１要素の単語および前記単語グループが該当しない第２要素の単語の組み合わせを含む対象文を取得する取得処理と、
前記取得処理によって取得された対象文が、前記文の要素のうち前記単語グループが該当する第３要素を除外した特定の木構造パターンに該当するか否かを判断する判断処理と、
前記判断処理によって前記特定の木構造パターンに該当すると判断された対象文から、前記第３要素の単語を抽出して、抽出結果を出力する抽出処理と、
を実行することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記プロセッサは、
前記対象文内の前記第３要素の単語を、前記特定の木構造パターンから除外された前記第３要素に該当する単語グループに登録する登録処理を実行することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記抽出処理では、前記プロセッサは、前記抽出結果を表示可能に出力することを特徴とする情報処理システム。
請求項３に記載の情報処理システムであって、
前記プロセッサは、
前記抽出結果の表示後に登録指示入力があった場合、前記対象文内の前記第３要素の単語を、前記特定の木構造パターンから除外された前記第３要素に該当する単語グループに登録する登録処理を実行することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
文の集合を記憶するデータストアを有し、
前記プロセッサは、
前記第１要素の単語および前記第２要素の単語の組み合わせにより構成される文が前記データストアに存在するか否かを確認し、確認結果を出力する確認処理を実行することを特徴とする情報処理システム。
請求項２に記載の情報処理システムであって、
文の集合を記憶するデータストアを有し、
前記プロセッサは、
前記第１要素の単語および前記第２要素の単語の組み合わせにより構成される文が前記データストアに存在するか否かを確認する確認処理を実行し、
前記登録処理では、前記プロセッサは、前記確認処理によって前記第１要素の単語および前記第２要素の単語の組み合わせにより構成される文が前記データストアに存在しないと確認された場合、前記対象文内の前記第３要素の単語を、前記特定の木構造パターンから除外された前記第３要素に該当する単語グループに登録する、
ことを特徴とする情報処理システム。
請求項３に記載の情報処理システムであって、
文の集合を記憶するデータストアを有し、
前記プロセッサは、
前記第１要素の単語および前記第２要素の単語の組み合わせにより構成される文が前記データストアに存在するか否かを確認する確認処理を実行し、
前記プロセッサは、
前記確認処理によって前記第１要素の単語および前記第２要素の単語の組み合わせにより構成される文が前記データストアに存在しないと確認され、かつ、前記抽出結果の表示後に登録指示入力があった場合、前記対象文内の前記第３要素の単語を、前記特定の木構造パターンから除外された前記第３要素に該当する単語グループに登録する登録処理を実行することを特徴とする情報処理システム。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、文中の単語間の文の要素に関する関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有する情報処理システムによる情報処理方法であって、
前記プロセッサは、
文の要素のうち前記単語グループが該当しない第１要素の単語および前記単語グループが該当しない第２要素の単語の組み合わせを含む対象文を取得する取得処理と、
前記取得処理によって取得された対象文が、前記文の要素のうち前記単語グループが該当する第３要素を除外した特定の木構造パターンに該当するか否かを判断する判断処理と、
前記判断処理によって前記特定の木構造パターンに該当すると判断された対象文から、前記第３要素の単語を抽出して、抽出結果を出力する抽出処理と、
を実行することを特徴とする情報処理方法。