JP7103763B2

JP7103763B2 - 情報処理システムおよび情報処理方法

Info

Publication number: JP7103763B2
Application number: JP2017141076A
Authority: JP
Inventors: 美沙佐藤; 孝介柳井; 利彦柳瀬
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2022-07-20
Anticipated expiration: 2037-07-20
Also published as: EP3432161A1; US20190026324A1; US11301441B2; JP2019021194A

Description

本発明は、情報を処理する情報処理システムおよび情報処理方法に関する。

特許文献１は、特定の属性を有するキーワードを出力可能な文書処理装置を開示する。この文書処理装置は、処理対象の医療レポートが入力されると、医療レポートを構成する文字列を形態素解析部に与え、形態素解析部が当該文字列を単語に分割して単語リストを生成する。そして、単語抽出部が、シソーラス検索部によって特定された単語リスト中の選択単語のシソーラスコードが抽出条件に適合するか否かを判定し、適合する場合、当該選択単語を抽出してキーワードとして出力する。

特許文献２は、部分木のマッチングを高速に行う情報抽出装置を開示する。この情報抽出装置は、単語辞書と、テキストの各文の構文木を生成する解析部と、構文木から単語間の親子関係を抽出し、親子関係を表すキーを作成し、そのキーを構文木を特定する構文木ＩＤおよび親子関係を構成する単語の構文木におけるノードＩＤ列と対応づけて親子インデックスを生成する親子インデックス作成部と、ルール条件構文木とアクションを含む情報抽出ルールを読み込み、検索条件のルール条件構文木からから親子インデックスと同形式の検索キーを生成し、この検索キーにより親子インデックスを検索してルール条件構文木と構文木のマッチングを行って構文木ＩＤから対象構文木を絞り込み、ノードＩＤ列を利用して構文木とルール条件構文木でノード間のマッピングを行うことにより、対象構文木から抽出対象を特定し、特定された対象に対してアクションを行う抽出部を有している。

すなわち、この情報抽出装置は、構文の部分木のマッチングに要する時間を削減するために、テキストおよびルールに単語の親子関係を記述する独自のインデックスを付与して情報抽出の対象となる構文木を事前に絞り込む。

また、Ｔｇｒｅｐ２は、構文木表現のためのｇｒｅｐツールである。このツールを使うと、特定の構文木のクエリで構文木表現の検索が可能となる。非特許文献１は、Ｔｇｒｅｐ２の表現力をさらに広げた構文木クエリツールＴｒｅｇｅｘを開示する。構文木クエリツールＴｒｅｇｅｘは、一行で記述できる構文ルールにより関係を抽出する。

特開２００６‐１７１９６９号公報特開２００８‐１２９６６２号公報

Levy, R. and Andrew, G.: Tregex and Tsurgeon: tools for querying and manipulating tree data structures, in Proceedings of LREC-2006, 2006.

しかしながら、上述した従来技術では、データベースの中に、構文ルールと、単語や品詞とが区別されずに混在しており、データベースのメンテナンスが困難である。具体的には、たとえば、データベースに単語を追加する場合、追加する単語がどの構文ルールに紐づけられるか操作者がチェックする必要がある。また、操作者は構文ルールの重複もチェックする必要があり、抽出ルールの重複は、限られた記憶容量を逼迫する。

本発明は、データベースのメンテナンスの容易化を図ることを目的とする。

本願において開示される発明の一側面となる情報処理システムは、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、文中の単語間の関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有し、前記プロセッサは、複数の文を記憶するデータストアにアクセス可能であり、前記複数の文のうち特定の単語を含む前記データストア内の特定の文の解析結果である特定の木構造データについて前記特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、前記特定の木構造データから、前記取得処理によって取得された特定の木構造パターンにおいて前記特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、前記抽出処理によって抽出された単語を前記特定の文の見出し語として前記特定の文に関連付けることにより前記データストアを更新するデータストア更新処理と、前記単語または前記木構造パターンに関する更新要求を受け付ける受付処理と、前記受付処理によって受け付けられた更新要求が単語に関する更新要求である場合、前記単語が所属する単語グループに対する更新を前記単語辞書データベースに対して行い、前記更新要求が前記木構造パターンに関する更新要求である場合、前記木構造パターンの更新を前記ルールデータベースに対して行う更新処理と、を実行し、前記更新処理では、前記プロセッサは、前記特定の木構造パターンに関する更新要求が前記特定の木構造パターンの追加要求である場合、前記特定の木構造パターンを前記ルールデータベースに登録することを特徴とする。

本発明の代表的な実施の形態によれば、データベースのメンテナンスの容易化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、データベースのメンテナンス例１を示す説明図である。図２は、データベースのメンテナンス例２を示す説明図である。図３は、データベースのメンテナンス例３を示す説明図である。図４は、コンピュータのハードウェア構成例を示すブロック図である。図５は、単語辞書ＤＢの記憶内容例を示す説明図である。図６は、ルールＤＢの記憶内容例を示す説明図である。図７は、データストアの記憶内容例を示す説明図である。図８は、本文の一例を示す説明図である。図９は、木構造データおよび木構造パターンの一例を示す説明図である。図１０は、パターン表現の一例を示す説明図である。図１１は、図１０に示したパターン表現を用いた変換例を示す説明図である。図１２は、情報処理システムによる情報処理手順例を示すフローチャートである。図１３は、情報処理システムの利用例を示す説明図である。図１４は、情報処理システムの表示画面例１を示す説明図である。図１５は、情報処理システムの表示画面例２を示す説明図である。図１６は、情報処理システムの表示画面例３を示す説明図である。図１７は、情報処理システムの表示画面例４を示す説明図である。図１８は、情報処理システムの表示画面例５を示す説明図である。図１９は、情報処理システムの表示画面例６を示す説明図である。図２０は、情報処理システムの利用例における処理手順例を示すフローチャートである。

＜データベースのメンテナンス例＞
図１は、データベースのメンテナンス例１を示す説明図である。図１では、単語辞書ＤＢ（Ｄａｔａｂａｓｅ）１０１に対するメンテナンスについて説明する。単語辞書ＤＢ１０１は、１以上の単語グループを記憶する。単語グループは、所定の属性によりグループ化された単語群である。所定の属性とは、その単語グループが示す特徴である。所定の属性とは、具体的には、たとえば、日本語の文において主語の助詞が「が」格となる動詞や、特定の副詞と共起する動詞が挙げられる。そのほか、同義語や類義語であったり、特定の分野（投資、医療など）に用いられる単語であってもよい。図１では、一例として、単語グループＧａは、「ｓｕｐｐｒｅｓｓ」、「ｄｅｃｒｅａｓｅ」を含む同義語グループとする。

ルールＤＢ１０２は、ルールを示す木構造パターンを記憶するデータベースである。木構造パターンは、文中の単語間の関係を示す木構造データについて単語グループを用いて抽象化したデータである。木構造データは、たとえば、形態素解析および係り受け解析（以下、構文解析）により句構造規則にしたがって生成される構文木である。図１のルールＲａは、主語（ワイルドカード）、述語、および目的語（ワイルドカード）の語順であり、述語を構成する動詞が単語グループＧａである木構造パターンとする。

データストア１０３は、各種文（たとえば、学術論文や書籍内の文、新聞雑誌内の文、Ｗｅｂページに記述された文など）のテキストデータを記憶する。

（Ａ）ルールＲａの木構造パターンでデータストア１０３が検索されると（Ｓ１１）、検索結果１１１が得られる。検索結果１１１内の文は、いずれもルールＲａを満たすテキストデータである。ここで、（Ａ）において、単語辞書ＤＢ１０１に対するメンテナンスにより、単語グループＧａに「ｒｅｄｕｃｅ」が追加されて（Ｂ）の状態になったとする。（Ｂ）ルールＲａの木構造パターンでデータストア１０３が検索されると（Ｓ１２）、検索結果１１２が得られる。単語グループＧａに「ｒｅｄｕｃｅ」が追加された場合でも、ルールＲａを修正することなく、検索が可能である。

この場合、検索結果１１２内の文は、いずれもルールＲａを満たすテキストデータであり、かつ、検索結果１１１にさらに「ｒｅｄｕｃｅ」を含む「ＺｒｅｄｕｃｅｓＤ．」、「ＸｉｓｇｏｉｎｇｔｏｒｅｄｕｃｅＥ．」が追加される。このように、単語辞書ＤＢ１０１をメンテナンスするだけで、ルールＤＢ１０２をメンテナンスしなくても単語辞書ＤＢ１０１のメンテナンス結果を充足した検索が可能となる。

また、（Ｂ）において、単語辞書ＤＢ１０１に対するメンテナンスにより、単語グループＧａから「ｒｅｄｕｃｅ」が削除されて（Ａ）の状態になったとする。（Ａ）ルールＲａの木構造パターンでデータストア１０３が検索されると、検索結果１１１が得られる。単語グループＧａから「ｒｅｄｕｃｅ」が削除された場合でも、ルールＲａを修正することなく、検索が可能である。

この場合、検索結果１１１内の文は、いずれもルールＲａを満たすテキストデータであり、かつ、検索結果１１２において「ｒｅｄｕｃｅ」を含む「ＺｒｅｄｕｃｅｓＤ．」、「ＸｉｓｇｏｉｎｇｔｏｒｅｄｕｃｅＥ．」が検索されない。なお、単語の変更については、上述した単語の削除および追加を実行すればよい。たとえば、（Ｂ）において、「ｒｅｄｕｃｅ」を「ｄｒｏｐ」に変更する場合は、単語グループＧａから「ｒｅｄｕｃｅ」を削除して「ｄｒｏｐ」を追加すればよい。このように、単語辞書ＤＢ１０１をメンテナンスするだけで、ルールＤＢ１０２をメンテナンスしなくても単語辞書ＤＢ１０１のメンテナンス結果を充足した検索が可能となる。

図２は、データベースのメンテナンス例２を示す説明図である。図２では、ルールＤＢ１０２に対するメンテナンスについて説明する。（Ａ）は、図１の（Ａ）と同様である。（Ｂ）は、新たに追加されたルールＲｂを示す。ルールＲｂは、主語（ワイルドカード）、述語（助動詞（ワイルドカード）および動詞）、および目的語（ワイルドカード）の語順であり、動詞が単語グループＧａである木構造パターンとする。すなわち、ルールＲｂは、ルールＲａに助動詞が追加された木構造パターンである。

（Ｂ）ルールＲｂの木構造パターンでデータストア１０３が検索されると（Ｓ１３）、検索結果２１０が得られる。検索結果２１０内の文は、いずれもルールＲｂを満たすテキストデータである。また、ルールを削除する場合も、ルールＤＢ１０２からルールＲｂを削除するだけでよく、単語辞書ＤＢ１０１をメンテナンスする必要がない。ルールの変更については、上述したルールの削除および追加を実行すればよい。たとえば、ルールＲａをルールＲｂに変更する場合は、ルールＲａを呼び出して、助動詞（ワイルドカード）を動詞（単語グループＧａ）の前に追加すればよい。このように、ルールＤＢ１０２をメンテナンスするだけで、単語辞書ＤＢ１０１をメンテナンスしなくてもルールＤＢ１０２のメンテナンス結果を充足した検索が可能となる。

図３は、データベースのメンテナンス例３を示す説明図である。図３では、ルールＤＢ１０２に対するメンテナンスについて説明する。ルールに単語グループが用いられている場合、単語グループ内の単語ごとにルールをルールＤＢ１０２に登録しておく必要がない。たとえば、ルールＲａは、単語グループＧａを用いているため、動詞ごとのルールＲａ１、Ｒａ２をルールＤＢ１０２に登録する必要がない。これにより、ルールの重複を抑制し、ルールＤＢ１０２の省メモリ化を図ることができる。

＜情報処理システムのハードウェア構成例＞
つぎに、情報処理システムを構成する１以上のコンピュータ４００のハードウェア構成例について説明する。

図４は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ４００は、プロセッサ４０１と、記憶デバイス４０２と、入力デバイス４０３と、出力デバイス４０４と、通信インターフェース（通信ＩＦ４０５）と、を有する。プロセッサ４０１、記憶デバイス４０２、入力デバイス４０３、出力デバイス４０４、および通信ＩＦ４０５は、バス４０６により接続される。プロセッサ４０１は、コンピュータ４００を制御する。記憶デバイス４０２は、プロセッサ４０１の作業エリアとなる。また、記憶デバイス４０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス４０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス４０３は、データを入力する。入力デバイス４０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス４０４は、データを出力する。出力デバイス４０４としては、たとえば、ディスプレイ、プリンタがある。通信ＩＦ４０５は、ネットワークと接続し、データを送受信する。

＜データベースの記憶内容例＞
つぎに、上述した単語辞書ＤＢ１０１、ルールＤＢ１０２、およびデータストア１０３の記憶内容例について説明する。単語辞書ＤＢ１０１、ルールＤＢ１０２、およびデータストア１０３は、図４に示したコンピュータ４００内の記憶デバイス４０２により実現されてもよく、通信ＩＦ４０５を介してアクセス可能な他のコンピュータで実現されてもよい。なお、以降のデータベースまたはテーブルの説明において、ＡＡフィールドｂｂｂ（ＡＡはフィールド名、ｂｂｂは符号）の値を、ＡＡｂｂｂと表記する場合がある。たとえば、グループＩＤフィールド５０１の値を、グループＩＤ５０１と表記する。

図５は、単語辞書ＤＢ１０１の記憶内容例を示す説明図である。単語辞書ＤＢ１０１は、グループＩＤフィールド５０１と、属性フィールド５０２と、単語フィールド５０３と、品詞フィールド５０４と、を有する。同一行の各フィールド５０１～５０４の値の組み合わせが１つの単語グループを示すエントリを規定する。グループＩＤフィールド５０１は、グループＩＤを格納する記憶領域である。グループＩＤ５０１は、単語グループを一意に特定する識別情報である。

属性フィールド５０２は、属性を格納する記憶領域である。属性５０２は、その単語グループが示す特徴である。たとえば、日本語の文において主語の助詞が「が」格となる動詞や、特定の副詞と共起する動詞が挙げられる。そのほか、同義語や類義語であったり、特定の分野（投資、医療など）に用いられる単語であってもよい。

単語フィールド５０３は、単語を格納する記憶領域である。単語５０３は、その単語グループに属する単語である。操作者（使用者または管理者）は、単語フィールド５０３に対して、単語５０３の追加、変更、削除が可能である。

品詞フィールド５０４は、品詞を格納する記憶領域である。品詞５０４は、単語グループに所属する単語を形態と役割によって分類した種別である。なお、品詞５０４において、単語の形態を指定してもよい。英単語の場合、動詞は、たとえば、原型（現在形）や過去形、過去分詞形、現在進行形、から指定され、名詞は、たとえば、不可算名詞、加算名詞、単数形、複数形から指定され、形容詞や副詞は、たとえば、原型、比較級、最上級から指定される。単に品詞のみ指定された場合（形態が指定されていない場合）は、その品詞５０４のすべての形態が包含されることとしてもよい。

図６は、ルールＤＢ１０２の記憶内容例を示す説明図である。ルールＤＢ１０２は、ルールＩＤフィールド６０１と、木構造パターンフィールド６０２と、を有する。同一行の各フィールド６０１、６０２の値の組み合わせが１つのルールを示すエントリを規定する。ルールＩＤフィールド６０１は、ルールＩＤを格納する記憶領域である。ルールＩＤ６０１は、ルールを一意に特定する識別情報である。木構造パターンフィールド６０２は、木構造パターンを格納する記憶領域である。操作者は、木構造パターンフィールド６０２に対して、木構造パターン６０２の追加、変更、削除が可能である。なお、図１～図３では、木構造パターン６０２内の動詞を単語グループとし主語や目的語をワイルドカードとしたルールを示したが、木構造パターン６０２において主語や目的語など述語以外の語句に単語グループを適用し、それ以外の語句をワイルドカードとしてもよい。また、１つの木構造パターン６０２に複数の単語グループを適用したルールとしてもよい。

図７は、データストア１０３の記憶内容例を示す説明図である。データストア１０３は、見出し語フィールド７０１と、本文フィールド７０２と、木構造データフィールド７０３と、を有する。同一行の各フィールド７０１～７０３の値の組み合わせが１つの文に関するエントリを規定する。

見出し語フィールド７０１は、見出し語を格納する記憶領域であり、インデックス検索に利用される。見出し語フィールド７０１は、複数の注釈フィールド（図７では、注釈ａ０フィールド７１０～注釈ａ２フィールド７１２の３個）を有する。注釈ａ０フィールド７１０は、注釈ａ０としてあらかじめ設定された見出し語７０１を格納する記憶領域である。注釈ａ１フィールド７１１および注釈ａ２フィールド７１２は、注釈ａ１および注釈ａ２となる見出し語７０１を格納する記憶領域である。注釈ａ１フィールド７１１および注釈ａ２フィールド７１２は、初期状態ではブランクであり、後述のインデックス更新により注釈ａ１および注釈ａ２が追加される。

本文フィールド７０２は、本文を格納する記憶領域である。本文７０２とは、木構造データ７０３の解析元となるテキストデータである。木構造データフィールド７０３は、本文を句構造規則にしたがって構文解析した木構造データを格納する記憶領域である。

＜各種データの例＞
図８は、本文７０２の一例を示す説明図である。図８では、英語の本文ｓｔ１の一例を示したが、英語に限らず日本語など他の言語でもよい。

図９は、木構造データおよび木構造パターンの一例を示す説明図である。木構造データｔｒ１は、図８の本文ｓｔ１を句構造規則にしたがって構文解析した構文木である。木構造データｔｒ１において、「ＰＯＳ」は品詞、「ＲＯＯＴ」は構文木の根を示す。１文字～３文字の大文字アルファベット列は、品詞の種類（名詞、動詞など）を示す。木構造パターンｔｐ１は、操作者が木構造データｔｒ１から不要な情報を削除して編集したパターンである。この木構造パターンｔｐ１は、主語がワイルドカード、述語が動詞の「ｓｐｉｎｏｆｆ」、目的語がワイルドカードとなる語順のルールを示す。

図１０は、パターン表現の一例を示す説明図である。パターン表現１０００は、情報処理システムが情報処理を実行する際に用いられる。また、操作者は、パターン表現１０００を認識することで、木構造データ７０３を編集して木構造パターン６０２を生成することができる。パターン表現１０００において、「＿」はリーフノード（構文木の葉）の判定、「｜」は選択肢、「＃」はサブツリー（構文木内の部分木）抽出、「！」は否定、「＊」は０回以上のサブツリーの出現、「＋」は１回以上の出現を示す。なお、図１０に示したパターン表現１０００は一例である。

図１１は、図１０に示したパターン表現を用いた変換例を示す説明図である。木構造データｔｒ１１において、品詞（ＰＯＳ）が動詞（ＶＰ）であるｉｎｃｒｅａｓｅまたはｃａｕｓｅの選択が、ａｆｆｅｃｔというグループＩＤ５０１の単語グループの呼び出し（＼ｄｉｃ．）に変換されている。これにより、単語グループを含む木構造パターンｔｐ１１が生成される。なお、このような変換は、操作者の編集操作により実行される。

＜情報処理手順例＞
図１２は、情報処理システムによる情報処理手順例を示すフローチャートである。情報処理システムは、メンテナンス要求を待ち受ける（ステップＳ１２０１：Ｎｏ）。メンテナンス要求は、プロセッサ４０１からの指示、端末から通信ＩＦ４０５を介して、または入力デバイス４０３から与えられる。メンテナンス要求があった場合（ステップＳ１２０１：Ｙｅｓ）、情報処理システムは、メンテナンス要求が単語に関するメンテナンス要求であるかルール（木構造パターン）に関するメンテナンス要求であるかを、メンテナンス要求に含まれている情報により判断する（ステップＳ１２０２）。

単語に関するメンテナンス要求である場合（ステップＳ１２０２：単語）、情報処理システムは、単語に関するメンテナンス要求が単語の追加であるか削除であるかを、単語に関するメンテナンス要求に含まれている情報により判断する（ステップＳ１２０３）。単語の追加である場合（ステップＳ１２０３：追加）、情報処理システムは、追加先の単語グループを単語辞書ＤＢ１０１から特定する（ステップＳ１２０４）。具体的には、たとえば、情報処理システムは、単語に関するメンテナンス要求に追加先のグループＩＤが含まれている場合、単語に関するメンテナンス要求に含まれている追加対象の単語の追加先として、当該グループＩＤ５０１で指定された単語グループを特定する。

また、単語に関するメンテナンス要求に追加先のグループＩＤが含まれてない場合、情報処理システムは、自動的に追加先の単語グループを特定してもよい。たとえば、追加対象の単語が、単語に関するメンテナンス要求に含まれている本文７０２から抽出した単語である場合、情報処理システムは、当該本文の特徴に該当する属性の単語グループを単語辞書ＤＢ１０１から特定する。そして、情報処理システムは、特定した追加先の単語グループに、追加対象の単語を追加して（ステップＳ１２０５）、ステップＳ１２０１に戻る。

また、ステップＳ１２０３において、単語の削除である場合（ステップＳ１２０３：削除）、情報処理システムは、単語辞書ＤＢ１０１の削除対象の単語グループから、単語に関するメンテナンス要求に含まれている削除対象の単語を削除して（ステップＳ１２０６）、ステップＳ１２０１に戻る。削除対象の単語グループとは、たとえば、単語に関するメンテナンス要求にグループＩＤ５０１が指定されていなければ、単語辞書ＤＢ１０１の全エントリであり、グループＩＤ５０１が指定されていれば、当該グループＩＤ５０１で指定されたエントリである。

また、ステップＳ１２０２において、ルールに関するメンテナンス要求である場合（ステップＳ１２０２：ルール）、情報処理システムは、ルールに関するメンテナンス要求がルールの追加であるか削除であるかを、ルールに関するメンテナンス要求に含まれている情報により判断する（ステップＳ１２０７）。ルールの追加である場合（ステップＳ１２０７：追加）、情報処理システムは、ルールＤＢ１０２に、ルールに関するメンテナンス要求に含まれている追加対象のルールを追加して（ステップＳ１２０５）、ステップＳ１２０１に戻る。

また、ステップＳ１２０７において、ルールの削除である場合（ステップＳ１２０７：削除）、情報処理システムは、ルールＤＢ１０２から、ルールに関するメンテナンス要求に含まれているルールＩＤ６０１のエントリを削除して（ステップＳ１２０９）、ステップＳ１２０１に戻る。

＜情報処理システムの利用例＞
図１３は、情報処理システムの利用例を示す説明図である。（１）情報処理システムは、データストア１０３から本文ｓｔｃ１を取得する。（１）では、情報処理システムは、文ｓｔｃ１を直接指定して取得してもよく、見出し語７０１を用いたインデックス検索により、文ｓｔｃ１を取得してもよい。（２）情報処理システムは、構文解析により、取得した文ｓｔｃ１を木構造データｔｒｃに変換する。（２）では、情報処理システムが構文解析を実行してもよく、情報処理システムが他のコンピュータに文ｓｔｃ１を送信して、当該他のコンピュータが構文解析を実行して木構造データｔｒｃを情報処理システムに返してもよい。また、木構造データｔｒｃがすでに生成済みであれば、情報処理システムは、データストア１０３から本文ｓｔｃ１に関連付けられている木構造データｔｒｃを呼び出す。

（３）情報処理システムは、操作者の編集操作により、木構造データｔｒｃから木構造パターンを生成し、ルールＲｃとする。ここでは、ルールＲｃの述語には、動詞の単語グループＧｂが適用されたこととする。

（４）情報処理システムは、ルールＲｃの木構造パターンから注釈ａ１として、文ｓｔｃ１の主語である「Ｘ」を抽出し、注釈ａ２として、文ｓｔｃ１の目的語である「Ａ」を抽出して、表示画面に表示する。

（５）情報処理システムは、ルールＲｃをルールＤＢ１０２に登録する。なお、同一内容のルールが登録済みである場合は、情報処理システムは、ルールＲｃをルールＤＢ１０２に登録しない。

（６）情報処理システムは、（２）の木構造データｔｒｃと（４）の注釈ａ１，ａ２とを、データストア１０３の文ｓｔｃ１のエントリに登録する。これにより、取得した本文ｓｔｃ１の見出し語７０１を自動生成することができ、これ以降のインデックス検索の効率化を図ることができる。

（７）情報処理システムは、データストア１０３の文ｓｔｃ１以外の他の本文をサーチしてルールＲｃに該当する本文ｓｔｃ２を特定し、本文ｓｔｃ２のエントリの主語である「Ｊ」を注釈ａ１、目的語である「Ｋ」を注釈ａ２として登録する（インデックス更新）。これにより、他の本文ｓｔｃ２にも波及して見出し語７０１を自動生成することができ、これ以降のインデックス検索の効率化を図ることができる。

つぎに、図１３に示した利用例での表示画面例について図１４～図１９を用いて説明する。

図１４は、情報処理システムの表示画面例１を示す説明図である。表示画面１４００は、サンプルタブ１４０１、バリデートタブ１４０２、およびインデックスタブ１４０３を有する。図１４では、サンプルタブ１４０１が表示される。サンプルタブ１４０１は、検索キーワード入力欄１４１１、検索ボタン１４１２、および保存ボタン１４１５を有する。検索キーワード入力欄１４１１は、操作者が検索キーワードを入力する入力欄である。検索ボタン１４１２は、操作者の操作により、データストア１０３の見出し語７０１をインデックス検索し、対応する本文７０２を抽出するためのボタンである。なお、本例では、インデックス検索として説明するが本文７０２の全文検索でもよい。

図１４では、検索キーワード入力欄１４１１に「ｓｐｉｎｏｆｆ」が入力されて検索ボタン１４１２が押下されたとする。これにより、図１３の（１）に示したように、データストア１０３の見出し語７０１がインデックス検索され、対応する本文７０２が検索結果１４１３として表示される。検索結果１４１３の各本文は、チェックボックス１４１４を有し、情報処理システムは、操作者がチェックボックス１４１４にチェックを入れられた本文を選択する。図１４では、本文ｓｔ１が選択されたものとする。保存ボタン１４１５は、検索結果１４１３からチェックボックス１４１４で選択された本文を保存するためのボタンである。保存ボタン１４１５の押下により、チェックボックス１４１４にチェックを入れられた本文ｓｔ１がデータストア１０３に保存される。

図１５は、情報処理システムの表示画面例２を示す説明図である。表示画面例２は、図１４の表示画面例１でチェックボックス１４１４にチェックを入れた状態で、バリデートタブ１４０２を選択した場合の表示画面例である。バリデートタブ１４０２は、確認領域１５０１と、コピー領域１５０２と、解析ボタン１５０３と、注釈ボタン１５０４と、追加ボタン１５０５と、編集領域１５０６と、を有する。確認領域１５０１は、選択文表示領域１５１０と、注釈ａ１表示領域１５１１と、注釈ａ２表示領域１５１２と、を有する。選択文表示領域１５１０は、図１４の表示画面例１でチェックボックス１４１４にチェックを入れられたことで選択された本文を表示する。注釈ａ１表示領域１５１１は、注釈ａ１（主語）を表示する領域である。注釈ａ２表示領域１５１２は、注釈ａ２（目的語）を表示する領域である。

表示画面例２では、注釈ａ１表示領域１５１１は、注釈ａ１用テキスト入力欄１５１３を有する。操作者は、選択文表示領域１５１０の本文ｓｔ１を参照して、注釈ａ１用テキスト入力欄１５１３に、注釈ａ１（主語）に相当する語句（たとえば、「Ｎｉｃｈｉｒｉｔｓｕ」）を入力する。注釈ａ２表示領域１５１２は、注釈ａ２用テキスト入力欄１５１４を有する。操作者は、選択文表示領域１５１０の本文ｓｔ１を参照して、注釈ａ２用テキスト入力欄１５１４に、注釈ａ２（目的語）に相当する語句（たとえば、「ｈｏｍｅａｐｐｌｉａｎｃｅ」）を入力する。

確認領域１５０１に表示された本文ｓｔ１と、注釈ａ１用テキスト入力欄１５１３に入力された語句「Ｎｉｃｈｉｒｉｔｓｕ」と、注釈ａ２用テキスト入力欄１５１４に入力された語句「ｈｏｍｅａｐｐｌｉａｎｃｅ」との組み合わせを、確認用データセット１５００と称す。

コピーボタン１５１５は、操作者の操作により、選択文表示領域１５１０の本文をコピー領域１５０２にコピーするためのボタンである。コピー領域１５０２は、コピーボタン１５１５の押下により、選択文表示領域１５１０の本文ｓｔ１をコピーして表示する領域である。解析ボタン１５０３は、コピー領域１５０２にコピーされた本文ｓｔ１を構文解析するためのボタンである（図１３の（２）に対応）。注釈ボタン１５０４は、編集領域１５０６で編集された木構造パターンから本文ｓｔ１の注釈を抽出するためのボタンである（図１３の（４）に対応）。追加ボタン１５０５は、編集領域１５０６で編集された木構造パターンをルールＤＢ１０２にルールとして追加するためのボタンである（図１３の（５）に対応）。

図１６は、情報処理システムの表示画面例３を示す説明図である。表示画面例３は、図１５の表示画面例２でコピーボタン１５１５および解析ボタン１５０３を押下した場合の表示画面例である。操作者の操作により、コピーボタン１５１５が押下されると、コピー領域１５０２に選択した本文ｓｔ１がコピーされる。次に、操作者の操作により、解析ボタン１５０３が押下されると、選択した本文ｓｔ１を構文解析した木構造データｔｒ１が編集領域１５０６に表示される（図１３の（２）に対応）。

図１７は、情報処理システムの表示画面例４を示す説明図である。表示画面例４は、図１６の表示画面例３で編集領域１５０６内の木構造データｔｒ１を編集した場合の表示画面例である。たとえば、操作者の操作により、情報処理システムは、注釈として抽出させる単語に注釈を示す「ａ０」，「ａ１」，「ａ２」を付与する。「ａ０」，「ａ１」，「ａ２」は、ルールを定義する。注釈ａ０は、他の注釈ａ１，ａ２の抽出基準となる抽出対象外の注釈である。すなわち、注釈ａ０が単語であれば、他の本文と一致する抽出対象外の単語であり、注釈ａ０が単語グループであれば、他の本文の単語を包含する抽出対象外の単語グループである。注釈ａ１は木構造パターンｔｐ１で注釈ａ０に対する主語（名詞句（ＮＰ））として定義され、注釈ａ２は木構造パターンｔｐ１で注釈ａ０に対する目的語（名詞句（ＮＰ））で定義されているため、他の本文からルールに該当する名詞句が抽出される。

また、操作者の操作により、操作者の主観で重要でないサブツリーや「ｌｅｍｍｍａ」（単語の基本形）が削除される。また、図１１に示したように、木構造データｔｒ１で定義されている単語が、当該単語を含む単語グループの呼び出しの記述に変更される場合もある。

図１８は、情報処理システムの表示画面例５を示す説明図である。表示画面例５は、図１７の表示画面例４で注釈ボタン１５０４を押下した場合の表示画面例である。操作者の操作により注釈ボタン１５０４が押下されると、情報処理システムは、編集領域１５０６で編集された木構造パターンｔｐ１（ルール）に該当する注釈ａ１，ａ２に該当する文字列を、コピー画面の選択した本文ｓｔ１から抽出し、抽出結果１８００を表示する（図１３の（４）に対応）。この場合、注釈ａ１の名詞句として、「ＪａｐａｎｅｓｅｅｌｅｃｔｒｏｎｉｃｓｍａｋｅｒＮｉｃｈｉｒｉｔｓｕ」が抽出され、注釈ａ２の名詞句として「ｉｔｓｈｏｍｅａｐｐｌｉａｎｃｅａｎｄｉｎｄｕｓｔｒｉａｌｅｑｕｉｐｍｅｎｔｄｉｖｉｓｉｏｎｓ」が抽出される。また、抽出された注釈ａ１，ａ２の名詞句はそれぞれ、注釈ａ１表示領域１５１１と注釈ａ２表示領域１５１２とに表示される。

これにより、操作者は、注釈ａ１用テキスト入力欄１５１３に入力した語句「Ｎｉｃｈｉｒｉｔｓｕ」と、ルールに従って抽出された注釈ａ１の名詞句「ＪａｐａｎｅｓｅｅｌｅｃｔｒｏｎｉｃｓｍａｋｅｒＮｉｃｈｉｒｉｔｓｕ」とを比較して、ルールの確からしさを確認することができる。同様に、操作者は、注釈ａ２用テキスト入力欄１５１４に入力した語句「ｈｏｍｅａｐｐｌｉａｎｃｅ」と、ルールに従って抽出された注釈ａ２の名詞句「ｉｔｓｈｏｍｅａｐｐｌｉａｎｃｅａｎｄｉｎｄｕｓｔｒｉａｌｅｑｕｉｐｍｅｎｔｄｉｖｉｓｉｏｎｓ」とを比較して、ルールの確からしさを確認することができる。

また、追加ボタン１５０５が押下されることで、編集領域１５０６内の文字列（編集された木構造データｔｒ１）が木構造パターンｔｐ１となって、ルールとしてルールＤＢ１０２に登録される（図１３の（５）に対応）。

図１９は、情報処理システムの表示画面例６を示す説明図である。表示画面例６は、図１８の表示画面例５でインデックスタブ１４０３を選択した場合の表示画面例である。インデックスタブ１４０３は、更新ボタン１９００を有する。操作者の操作により、更新ボタン１９００が押下されると、情報処理システムは、選択した本文ｓｔ１について、木構造データｔｒ１と、注釈ａ１の名詞句「ＪａｐａｎｅｓｅｅｌｅｃｔｒｏｎｉｃｓｍａｋｅｒＮｉｃｈｉｒｉｔｓｕ」と、注釈ａ２の名詞句「ｉｔｓｈｏｍｅａｐｐｌｉａｎｃｅａｎｄｉｎｄｕｓｔｒｉａｌｅｑｕｉｐｍｅｎｔｄｉｖｉｓｉｏｎｓ」を関連付けてデータストア１０３に登録することで、選択した本文ｓｔ１のエントリをインデックス更新する（図１３の（６）に対応）。

同様に、情報処理システムは、他の本文について、木構造パターンｔｐ１のルールに該当する注釈ａ１の名詞句および注釈ａ２の名詞句を、当該他の本文に関連付けてデータストア１０３に登録することで、当該他の本文のエントリをインデックス更新する（図１３の（７）に対応）。

＜情報処理システムの利用例における処理手順例＞
図２０は、情報処理システムの利用例における処理手順例を示すフローチャートである。情報処理システムは、図１４に示したように、検索キーワード入力欄１４１１への検索キーワードの入力を受け付け（ステップＳ２００１）、検索ボタン１４１２の押下により、入力された検索キーワードによるインデックス検索を実行する（ステップＳ２００２）。情報処理システムは、図１４に示したように、操作者の操作によって選択された本文を保存する（ステップＳ２００３）。

つぎに、情報処理システムは、図１５に示したように、操作者の操作により、確認用データセット１５００を設定する（ステップＳ２００４）。そして、情報処理システムは、図１６に示したように、選択した本文ｓｔ１の構文解析により、木構造データｔｒ１を取得する（ステップＳ２００５）。また、情報処理システムは、操作者による追加ボタン１５０５の押下により、木構造データｔｒ１から編集された木構造パターンｔｐ１をルールＤＢ１０２に登録する（ステップＳ２００６）。追加ボタン１５０５の押下は、図１２のステップＳ１２０７：追加に対応し、木構造パターンｔｐ１の登録は、図１２のステップＳ１２０８に対応する。

そして、情報処理システムは、図１８に示したように、操作者の操作により、注釈ボタン１５０４が押下されることで、木構造パターンｔｐ１のルールに従って、選択された本文ｓｔ１から注釈ａ１の語句および注釈ａ２の語句を抽出して、抽出結果１８００として表示する（ステップＳ２００７）。

なお、操作者は、木構造パターンｔｐ１の編集を繰り返しおこなうことができ、情報処理システムは、その都度、木構造パターンｔｐ１をルールとして登録してもよい。この場合、ステップＳ２００７において、情報処理システムは、木構造パターンｔｐ１ごとに、選択本文から注釈を抽出することになる。このあと、情報処理システムは、図１９に示したように、抽出した注釈をデータストア１０３にインデックス更新する（ステップＳ２００８）。

このように、上述した情報処理システムは、単語辞書ＤＢ１０１と、ルールＤＢ１０２と、を有し、プロセッサ４０１は、メンテナンス要求を受け付ける受付処理と、受付処理によって受け付けられたメンテナンス要求が単語に関するメンテナンス要求である場合、単語が所属する単語グループに対するメンテナンスを単語辞書ＤＢ１０１に対して行い、メンテナンス要求が木構造パターンに関するメンテナンス要求である場合、木構造パターンのメンテナンスをルールＤＢ１０２に対して行うメンテナンス処理と、を実行する。

これにより、単語辞書ＤＢ１０１とルールＤＢ１０２とを各々独立してメンテナンスが可能となる。換言すれば、情報処理システムは、単語辞書ＤＢ１０１とルールＤＢ１０２のうち、いずれか一方のデータベースのみメンテナンスする。したがって、単語辞書ＤＢ１０１内のある単語グループをメンテナンスしても、当該単語グループを用いるルールをルールＤＢ１０２でメンテナンスする必要はない。逆に、ルールＤＢ１０２内のあるルールをメンテナンスしても、当該ルールに用いられる単語グループをメンテナンスする必要はない。したがって、データベースのメンテナンスの容易化を図ることができる。

また、プロセッサ４０１は、単語に関するメンテナンス要求が単語の追加要求である場合、単語に基づいて単語が所属すべき単語グループの属性を特定する特定処理を実行し、メンテナンス処理では、プロセッサ４０１は、特定処理によって特定された属性の単語グループに単語を追加する。

これにより、単語の追加要求があった場合、単語辞書ＤＢ１０１内の該当する単語グループに当該単語を追加登録するが、当該単語グループを用いるルールをルールＤＢ１０２でメンテナンスする必要はない。したがって、単語登録の際のメンテナンスの容易化を図ることができる。

また、メンテナンス処理では、プロセッサ４０１は、単語に関するメンテナンス要求が単語の削除要求である場合、単語が所属する単語グループから単語を削除する。

これにより、単語の削除要求があった場合、単語辞書ＤＢ１０１内の該当する単語グループから当該単語を削除するが、当該単語グループを用いるルールをルールＤＢ１０２でメンテナンスする必要はない。したがって、単語削除の際のメンテナンスの容易化を図ることができる。

また、メンテナンス処理では、プロセッサ４０１は、木構造パターンに関するメンテナンス要求が木構造パターンの追加要求である場合、ルールＤＢ１０２に木構造パターンが存在しなければ木構造パターンをルールＤＢ１０２に登録する。

これにより、木構造パターンの追加要求があった場合、ルールＤＢ１０２に当該木構造パターンを新規なルールとして追加登録するが、当該新規なルールに用いられる単語グループを単語辞書ＤＢ１０１でメンテナンスする必要はない。したがって、木構造パターン登録の際のメンテナンスの容易化を図ることができる。

また、メンテナンス処理では、プロセッサ４０１は、木構造パターンに関するメンテナンス要求が木構造パターンの削除要求である場合、木構造パターンをルールＤＢ１０２から削除する。

これにより、木構造パターンの削除要求があった場合、ルールＤＢ１０２から当該木構造パターンを削除するが、当該木構造パターンに用いられる単語グループを単語辞書ＤＢ１０１でメンテナンスする必要はない。したがって、木構造パターン登録の際のメンテナンスの容易化を図ることができる。

また、プロセッサ４０１は、複数の文を記憶するデータストア１０３にアクセス可能であり、複数の文のうち特定の単語を含むデータストア１０３内の特定の文の解析結果である特定の木構造データを、特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、特定の木構造データから、取得処理によって取得された特定の木構造パターンにおいて特定の単語グループと共起する語句（たとえば、特定の単語グループが述語動詞である場合の主語や目的語）に包含される単語を抽出する抽出処理と、抽出処理によって抽出された単語を表示画面に表示可能に出力する出力処理と、を実行し、メンテナンス処理では、プロセッサ４０１は、特定の木構造パターンに関するメンテナンス要求が特定の木構造パターンの追加要求である場合（たとえば、追加ボタン１５０５の押下）、特定の木構造パターンをルールＤＢ１０２に登録する。

これにより、特定の木構造パターンに該当する単語を特定の文の注釈として表示することができる。したがって、たとえば、特定の文について、あらかじめ特定の単語グループと共起する語句を操作者が選択していた場合、当該選択していた単語と注釈とを比較することにより、特定の木構造パターンの確からしさを確認して、ルールＤＢ１０２に登録することができる。

また、プロセッサ４０１は、複数の文を記憶するデータストア１０３にアクセス可能であり、複数の文のうち特定の単語を含むデータストア１０３内の特定の文の解析結果である特定の木構造データを、特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、特定の木構造データから、取得処理によって取得された特定の木構造パターンにおいて特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、抽出処理によって抽出された単語を特定の文に関連付けることによりデータストア１０３を更新する更新処理と、を実行し、メンテナンス処理では、プロセッサ４０１は、特定の木構造パターンに関するメンテナンス要求が特定の木構造パターンの追加要求である場合、特定の木構造パターンをルールＤＢ１０２に登録する。

これにより、特定の木構造パターンに該当する単語を特定の文の注釈として関連付けて登録するとともに、当該関連付けに用いられた特定の木構造パターンをルールとしてルールＤＢ１０２に登録することができる。またこれにより、たとえば、データストア１０３を検索したい場合に、関連付けられた注釈を見出し語としてインデックス検索することにより、データストア１０３から特定の文を抽出することができる。

また、プロセッサ４０１は、複数の文のうち特定の文以外の他の文の解析結果である他の木構造データから、特定の木構造パターンにおいて特定の単語グループと共起する語句に包含される他の単語を抽出し、抽出処理によって抽出された他の単語を他の文に関連付けることによりデータストア１０３を更新する。

これにより、データストア１０３の他の文についても、特定の木構造パターンに該当する他の単語を他の文の注釈として関連付けて登録することができ、特定の木構造パターンで規定れるルールを他の文にまで波及することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１０１単語辞書ＤＢ
１０２ルールＤＢ
１０３データストア
４００コンピュータ
４０１プロセッサ
４０２記憶デバイス

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、
所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、
文中の単語間の関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有し、
前記プロセッサは、
複数の文を記憶するデータストアにアクセス可能であり、
前記複数の文のうち特定の単語を含む前記データストア内の特定の文の解析結果である特定の木構造データについて前記特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、
前記特定の木構造データから、前記取得処理によって取得された特定の木構造パターンにおいて前記特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、
前記抽出処理によって抽出された単語を前記特定の文の見出し語として前記特定の文に関連付けることにより前記データストアを更新するデータストア更新処理と、
前記単語または前記木構造パターンに関する更新要求を受け付ける受付処理と、
前記受付処理によって受け付けられた更新要求が単語に関する更新要求である場合、前記単語が所属する単語グループに対する更新を前記単語辞書データベースに対して行い、前記更新要求が前記木構造パターンに関する更新要求である場合、前記木構造パターンの更新を前記ルールデータベースに対して行う更新処理と、を実行し、
前記更新処理では、前記プロセッサは、前記特定の木構造パターンに関する更新要求が前記特定の木構造パターンの追加要求である場合、前記特定の木構造パターンを前記ルールデータベースに登録することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記プロセッサは、
前記単語に関する更新要求が前記単語の追加要求である場合、前記単語に基づいて前記単語が所属すべき単語グループの属性を特定する特定処理を実行し、
前記更新処理では、前記プロセッサは、前記特定処理によって特定された属性の単語グループに前記単語を追加することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記更新処理では、前記プロセッサは、前記単語に関する更新要求が前記単語の削除要求である場合、前記単語が所属する単語グループから前記単語を削除することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記更新処理では、前記プロセッサは、前記木構造パターンに関する更新要求が前記木構造パターンの追加要求である場合、前記木構造パターンを前記ルールデータベースに登録することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記更新処理では、前記プロセッサは、前記木構造パターンに関する更新要求が前記木構造パターンの削除要求である場合、前記木構造パターンを前記ルールデータベースから削除することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記プロセッサは、
複数の文を記憶するデータストアにアクセス可能であり、
前記複数の文のうち特定の単語を含む前記データストア内の特定の文の解析結果である特定の木構造データについて前記特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、
前記特定の木構造データから、前記取得処理によって取得された特定の木構造パターンにおいて前記特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、
前記抽出処理によって抽出された単語を表示画面に表示可能に出力する出力処理と、を実行し、
前記更新処理では、前記プロセッサは、前記特定の木構造パターンに関する更新要求が前記特定の木構造パターンの追加要求である場合、前記特定の木構造パターンを前記ルールデータベースに登録することを特徴とする情報処理システム。
請求項１に記載の情報処理システムであって、
前記抽出処理では、前記プロセッサは、前記複数の文のうち前記特定の文以外の他の文の解析結果である他の木構造データから、前記特定の木構造パターンにおいて前記特定の単語グループと共起する語句に包含される他の単語を抽出し、
前記データストア更新処理では、前記プロセッサは、前記抽出処理によって抽出された他の単語を前記他の文の見出し語として前記他の文に関連付けることにより前記データストアを更新することを特徴とする情報処理システム。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、文中の単語間の関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有する情報処理システムによる情報処理方法であって、
前記プロセッサは、
複数の文を記憶するデータストアにアクセス可能であり、
前記複数の文のうち特定の単語を含む前記データストア内の特定の文の解析結果である特定の木構造データについて前記特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、
前記特定の木構造データから、前記取得処理によって取得された特定の木構造パターンにおいて前記特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、
前記抽出処理によって抽出された単語を前記特定の文の見出し語として前記特定の文に関連付けることにより前記データストアを更新するデータストア更新処理と、
前記単語または前記木構造パターンに関する更新要求を受け付ける受付処理と、
前記受付処理によって受け付けられた更新要求が単語に関する更新要求である場合、前記単語が所属する単語グループに対する更新を前記単語辞書データベースに対して行い、前記更新要求が前記木構造パターンに関する更新要求である場合、前記木構造パターンの更新を前記ルールデータベースに対して行う更新処理と、を実行し、
前記更新処理では、前記プロセッサは、前記特定の木構造パターンに関する更新要求が前記特定の木構造パターンの追加要求である場合、前記特定の木構造パターンを前記ルールデータベースに登録することを特徴とする情報処理方法。