JP3666066B2

JP3666066B2 - 多言語文書登録検索装置

Info

Publication number: JP3666066B2
Application number: JP22114995A
Authority: JP
Inventors: 誠安藤; 明男山下; 一雄相原; 辰臣喜多; 直美平岡; 裕子松尾; 浩山口; 真司川本
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1995-08-08
Filing date: 1995-08-08
Publication date: 2005-06-29
Anticipated expiration: 2015-08-08
Also published as: JPH0950442A

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の種類の言語で記述された文を含む文書に対して検索のためのインデックスを登録して、文書を検索する多言語文書登録検索装置に関し、更に詳細には、複数の種類の言語で記述された文書のテキストデータベースから、複数の言語に対応してキーワードを抽出してインデックスとして登録し、登録したインデックスを用いて、多言語のテキストデータベースを検索する多言語文書登録検索装置に関するものである。
【０００２】
【従来の技術】
従来から、複数の種類の言語で記述された文を含む多言語文書に対する文書検索装置として、例えば、特開平４−２１１８０号公報に記載された「文書検索装置」が知られている。この「文書検索装置」は、自国語で作成されたキーワードを持つデータベースと、そのキーワードを入力してデータベースを検索する文書検索装置において、自国語および他国語の辞書を持ち、他国語で入力されたキーワードに対しては、当該キーワードを自国語に変換し、自国語のキーワードでデータベースを検索する。そして、検索した文書の文書名と、選択された文書の全文を他国語に変換して、画面に表示するように構成されている。
【０００３】
【発明が解決しようとする課題】
ところで、文書検索の処理にインデックスを用いる文書検索を行う場合、検索対象となる文書が母国語のように１ヶ国語（例えば日本語）の言語だけでなく、引用文献として引用される箇所では、その他の国の言語（例えば英語）も含まれている場合が多くあるので、これに対しては、文書検索装置におけるインデックスを複数の言語（多言語）に対応させておかなければ、十分な文書の検索を行うことはできない。
【０００４】
従来、文書検索の処理にインデックスを用いる文書検索装置において、文書検索に用いるインデックスの作成方法は、形態素解析を行って単語を切り出し、単語をキーワードとしてインデックスを作成する。その場合、通常、形態素解析を行う言語が１ヶ国の言語（例えば日本語のみ）であるため、その他の国の言語の単語については、単に固有名詞の単語として切り出すことしかできなかった。そのため、切り出した単語をキーワードとしてインデックスに登録するために、標準の表記や、原形に戻すことができず、したがって、その場合、検索用のインデックスの作成では、そのまま、既登録語に対する未登録語として抽出して、インデックスに登録することしかできなかった。
【０００５】
このため、対象文書に異なる国の言語が多く含まれている場合は、検索インデックスとして登録する単語のキーワード（固有名詞）の語数が多くなり、インデックスサイズが必要以上に大きくなってしまうという問題があった。
【０００６】
また、このような文書検索装置において、文書検索を行う場合には、キーワードとして登録されている例えば固有名詞のインデックスと同じパターンの文字列でしか検索できず、適切な範囲の検索が十分に行えないという問題があった。つまり、文書検索の際には、形態素解析により切り出した単語（固有名詞）と全く同じパターンの文字列でないとヒットせず、検索しても所望の検索文書がヒットされないという不具合があった。
【０００７】
前述した特開平４−２１１８０号公報に記載の「文書検索装置」のように、ある言語のキーワードが登録されており、その国の言語以外の言語での検索要求があった場合には、例えば、それと同じ意味の既に登録されている言語の言葉に翻訳することによって、他の国の言語を含む文書についても検索ができるように構成できるが、その場合においても、検索のためのインデックスは自国語のみのキーワードで構成されており、多言語で構成された文書に対するインデックスの登録に対する配慮がなされていないという問題点があった。
【０００８】
本発明は、これらの問題を解決するためになされたものであり、本発明の第１の目的は、複数の言語で記述された文を含む文書に対して、できる限りそれらの異なる各々の言語に対応して形態素解析を行い、単語を切り出し、キーワードを抽出して、キーワードの登録が行えるようにして、多言語で記述された文を含む文書に対しても未登録語を最小限に押さえるようにした多言語文書登録検索装置を提供することにある。
【０００９】
また、本発明の第２の目的は、複数の言語で記述された文を含む文書に対し、複数の言語に対応して形態素解析により単語を切り出し、キーワードを抽出してキーワードの登録を行う場合、解析する範囲の重複を避け、インデックスサイズを最小に押さえ、かつ、検索を行う場合の検索精度を向上させる多言語文書登録検索装置を提供することにある。
【００１０】
また、本発明の第３の目的は、複数の言語で記述された文を含む文書に対し、自国語以外の言語の単語の語形変化や、表記の揺れにも対応でき、検索を行う場合の検索精度の向上を計ると共に、不必要な未登録語の抽出を最小限に押さえ、インデックスサイズを最小に押さえることができる多言語文書登録検索装置を提供することにある。
【００１１】
更に、本発明の第４の目的は、複数の言語で記述された文を含む文書に対し、複数の言語に対応して形態素解析により単語を切り出す場合、それぞれの複数の言語対応の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行い、多言語で記述された文を含む文書に対して未登録語を最小限に押さえるようにした多言語文書登録検索装置を提供することにある。
【００１２】
【課題を解決するための手段】
上記のような目的を達成するため、本発明の第１の特徴とする多言語文書登録検索装置は、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、複数の言語の文を含む文書を格納する多言語文書格納手段（３）と、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段（２）と、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段（４）と、検索条件を入力する検索条件入力手段（１１）と、前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段（１２）と、キーワードと単語の照合結果により検索条件に適合する文書を読み出す読出し手段（１４）とを備えることを特徴とする。
【００１３】
また、本発明の第２の特徴とする多言語文書登録検索装置においては、前記キーワード抽出手段は、切り出し対象言語が異なる複数の単語切り出し手段（２１ａ，２２ａ，２３ａ）と、前記複数の単語切り出し手段の処理優先度を設定する設定手段（２７）と、前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出して、キーワードを抽出するキーワード抽出制御手段（２６）と、抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録するインデックス登録手段（２８）とを備えることを特徴とする。
【００１４】
また、本発明の第３の特徴とする多言語文書登録検索装置においては、前記キーワード抽出制御手段は、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとし、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとすることを特徴とする。
【００１５】
また、本発明の第４の特徴とする多言語文書登録検索装置は、更に、登録する文書を入力してキーワード抽出を指示する入力手段（１）と、登録する文書，インデックスおよび該辞書ファイルに登録されていない単語を保持する保持手段（３，５）とを備えることを特徴とする。
【００１６】
また、本発明の第５の特徴とする多言語文書登録検索装置においては、前記キーワード抽出手段は、複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す複数の単語切出し手段（２１ａ，２２ａ，２３ａ）と、前記複数の単語切り出し手段がそれぞれに参照する言語に対応する辞書を格納する複数の辞書ファイル（２１ｂ，２２ｂ，２３ｂ）と、前記複数の単語切出し手段を適用する順番の設定を行う順序設定手段（２７）と、前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う制御手段（２６）とを備えることを特徴とする。
【００１７】
また、本発明の第６の特徴とする多言語文書登録検索装置においては、更に、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持する未登録キーワード候補保持手段（２５）と、それ以外の辞書から抽出された単語に関しては一時的にキーワード候補として保持しておくキーワード候補保持手段（２４）とを備え、前記制御手段（２６，２７）は、１段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行い、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行い、最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録することを特徴とする。
【００１８】
また、本発明の第７の特徴とする多言語文書登録検索装置は、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、複数の言語の文を含む文書を格納するテキストデータベースと、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、検索条件を入力する検索条件入力手段（１１）と、前記検索条件入力手段によって入力された検索条件から単語を切り出してインデックスと照合する多言語対応のインデックス照合手段（１２）と、前記インデックス照合手段の照合結果により、対応する文書をテキストデータベースから抽出する抽出手段（１４）とを有することを特徴とする。
【００１９】
また、本発明の第８の特徴とする多言語文書登録検索装置においては、前記インデックス照合手段は、複数の言語から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出す複数の単語切出し手段（１３１ａ，１３２ａ，１３３ａ）と、複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定する順序設定手段（１３７）と、前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件の単語を切り出す制御を行う制御手段（１３６）とを有することを特徴とする。
【００２０】
また、本発明の第９の特徴とする多言語文書登録検索装置においては、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持する未登録検索語候補保持手段（１３４）と、それ以外の辞書から抽出された単語に関しては一時的に検索語候補として保持しておく検索語候補保持手段（１３５）とを備え、前記制御手段（１３６，１３７）は、１段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行い、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行い、最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語候補を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力することを特徴とする。
【００２１】
このような様々な特徴を有する本発明の多言語文書登録検索装置によれば、ここで第１の特徴とする多言語文書登録検索装置においては、多言語文書格納手段（３）が、複数の言語の文を含む文書を格納しており、キーワード抽出手段（２）が、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出する。インデックス登録手段（４）は、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録する。
【００２２】
文書の検索を行う場合、検索条件入力手段（１１）により、検索条件を入力すると、インデックス照合手段（１２）が、前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合する。そして、読出し手段（１４）が、キーワードと単語の照合結果により検索条件に適合する文書を読み出す。このようにして、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う。
【００２３】
また、本発明の第２の特徴とする多言語文書登録検索装置においては、インデックスを作成するために、キーワード抽出手段には、切り出し対象言語が異なる複数の単語切り出し手段（２１ａ，２２ａ，２３ａ）が備えられており、設定手段（２７）が、前記複数の単語切り出し手段の処理優先度を設定すると、キーワード抽出制御手段（２６）が、前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出して、キーワードを抽出する。インデックス登録手段（２８）は、抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録する。これにより、複数の言語の文を含む文書に対しては、それぞれの対象言語に対応して複数の各々の単語切り出し手段により、形態素解析を行ってキーワードの単語を切り出せる。このため、多言語で記述された文書に対して未登録語を最小限に押さえて、検索時に用いるインデックスを作成することができる。
【００２４】
また、本発明の第３の特徴とする多言語文書登録検索装置においては、複数の言語の文を含む文書に対し、それぞれの対象言語に対応して複数の各々の単語切り出し手段により、形態素解析を行ってキーワードの単語を切り出す場合、前記キーワード抽出制御手段が、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとする。また、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとする。これにより、複数の言語で記述された文書に対して、それぞれの言語に対応した形態素解析により単語を切り出すことができ、解析する範囲の重複を避けて、キーワードを抽出することができる。このようにして、キーワードの登録を行う場合のインデックスサイズを最小に押さえることができる。
【００２５】
また、本発明の第４の特徴とする多言語文書登録検索装置によれば、文書登録するために、更に、入力手段（１）と、保持手段（３，５）が備えられている。入力手段（１）が、登録する文書を入力してキーワード抽出を指示すると、キーワード抽出手段（２）が、単語の切り出しに用いる辞書を備え形態素解析によって文書のキーワードを抽出し、登録手段（４）が、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスに登録する。この結果、保持手段（３，５）には、登録する文書，インデックスおよび該辞書ファイルに登録されていない単語が保持される。これにより、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行うことができる。
【００２６】
本発明の第５の特徴とする多言語文書登録検索装置によれば、前記キーワード抽出手段において、複数の単語切出し手段（２１ａ，２２ａ，２３ａ）が、複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す場合、複数の辞書ファイル（２１ｂ，２２ｂ，２３ｂ）が、前記複数の単語切り出し手段（２１ａ，２２ａ，２３ａ）のそれぞれに参照する言語に対応する辞書を格納しているので、順序設定手段（２７）により、前記複数の単語切出し手段を適用する順番の設定を行うと、制御手段（２６）が、前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う。
【００２７】
また、本発明の第６の特徴とする多言語文書登録検索装置においては、未登録キーワード候補保持手段（２５）は、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持し、また、それ以外の辞書から抽出された単語に関しては、キーワード候補保持手段（２４）により、一時的にキーワード候補として保持する。多言語対応にキーワードの抽出を行う場合、前記制御手段（２６，２７）は、１段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行う。これにより、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行う。
【００２８】
続いて、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により、前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行う。
【００２９】
そして、最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録する。このようにして、順次に形態素解析により単語の切り出しを行うので、複数の言語に対応するそれぞれの複数の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行うことができ、多言語で記述された文を含む文書に対して未登録語を最小限に押さえるようにできる。
【００３０】
また、本発明の第７の特徴とする多言語文書登録検索装置によれば、文書検索するために、特徴的に、検索条件入力手段（１１）と、多言語対応のインデックス照合手段（１２）と、抽出手段（１４）とを備えており、検索条件入力手段（１１）が、検索条件を入力すると、多言語対応のインデックス照合手段（１２）が、前記検索条件入力手段によって入力された検索条件から単語を切り出してインデックスと照合する。抽出手段（１４）は、前記インデックス照合手段の照合結果により、対応する文書をテキストデータベースから抽出する。これより、複数の言語の文を含む文書に対して検索に用いるインデックスが作成して登録してある場合に、該インデックスにより文書の検索を行うことができる。
【００３１】
また、文書検索を行う場合、本発明の第８の特徴とする多言語文書登録検索装置によれば、前記インデックス照合手段において、複数の単語切出し手段（１３１ａ，１３２ａ，１３３ａ）が、複数の言語の文から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出すので、順序設定手段（１３７）により、複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定し、制御手段（１３６）によって、前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件から単語を切り出す制御を行い、そして、検索条件の単語により文書の検索を行う。
【００３２】
また、本発明の第９の特徴とする多言語文書登録検索装置においては、未登録検索語候補保持手段（１３４）が、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持しており、それ以外の辞書から抽出された単語に関しては、検索語候補保持手段（１３５）により、一時的に検索語候補として保持しておく。
【００３３】
前記制御手段（１３６，１３７）が、１段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行う。
【００３４】
続いて、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては、前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行う。
【００３５】
そして、最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力する。
【００３６】
このようにして、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行うので、複数の言語で記述された文書に対して、自国語以外の単語の語形変化や、表記の揺れにも対応でき、検索精度の向上が計れる。また、不必要な未登録語の抽出を最小限に押さえており、インデックスサイズを最小に押さえることができる。更に、また、複数の言語で記述された文書に対して、複数の言語に対応するそれぞれの複数の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行うことができ、多言語で記述された文書に対して未登録語を最小限に押さえるようにできる。
【００３７】
【発明の実施の形態】
以下、本発明を実施する形態について、図面を参照して具体的に説明する。図１は本発明の一実施例にかかる多言語文書登録検索装置の構成を示すブロック図である。図１において、１は入力処理部、２は多言語キーワード抽出部、３はテキストデータベース部、４はインデックス登録部、５はインデックスファイル部、１１は検索条件入力部、１２は多言語インデックス登録部、１３は表示部、１４はテキスト抽出部である。
【００３８】
テキストデータベース部３には、例えば、英語の記述された文および日本語で記述された文などの複数の言語で記述された文を含む文書（１１０：図１１）が格納されている。入力処理部１が、ユーザからの文書の登録の入力指示を受け付けると、多言語キーワード抽出部２は、ユーザにより指示された文書に対して、そのキーワードを抽出する処理を行う。ここで、キーワードを抽出する文書は、例えば、入力処理部１から入力されて、テキストデータベース部３に登録された文書であり、または、テキストデータベース部３に既に登録されている文書である。これに文書に対して、キーワードを抽出する文書が指定され、その文書に対して、キーワードを抽出する処理が行われる。
【００３９】
多言語キーワード抽出部２には、後述するように、各国の言語に対応して形態素解析を行う複数の形態素解析部（２１ａ〜２３ａ：図２）が備えられており、この複数の各国の言語対応の形態素解析部を順次に制御して、効率的に文書中の異なる言語の文に対応してそれぞれに形態素解析を行い、単語を切り出し、キーワードを抽出する処理を行う。複数の形態素解析部には、それぞれに解析する言語に対応して言語対応に辞書ファイルが設けられており、形態素解析を行い単語を切り出す場合に、各言語に対応する単語は、各々の国の言語に対応する該当の辞書と比較される。
【００４０】
ある言語の辞書ファイルに登録されている単語は、キ−ワード候補として、キーワード候補保持部に一時的に保持され、ある言語の辞書に登録されていない単語は、未登録キーワード候補として一時的に未登録キーワード候補保持部に保持される。そして、未登録キーワード候補の単語は、次の言語の形態素解析部により形態素解析が行われる。このようにして、次の国の言語に対応する辞書と比較する際に、先の未登録キーワード候補の単語を含めて、形態素解析を行い、単語を切り出して、キーワードを抽出する処理を行う。
【００４１】
このようにして抽出されたキーワードは、インデックス登録部４により、当該キーワードに対応する文書の識別子と共にインデックスとして、インデックスファイル部５のインデックステーブルに登録される。
【００４２】
ユーザが所望する文書の検索を行う場合、ユーザは検索条件入力部１１から検索条件を入力する。検索条件が入力されると、多言語インデックス照合部１２では、入力された検索条件から単語を切り出し、切り出した単語とインデックステーブルのインデックスのキーワードとを照合する。そして、その照合結果によってテキスト抽出部１４により、キーワードと単語の照合結果により検索条件に適合する文書を読み出し、表示部１３において、読み出された文書を表示する。
【００４３】
図２は、多言語キーワード抽出部の要部の構成を示すブロック図である。図２には、多言語キーワード抽出部における各々の要素のブロックと共に、そのデータの流れが示されている。図２において、１は入力処理部、２１ａは第１番目の形態素解析部、２１ｂは第１番目の辞書ファイル部、２２ａは第２番目の形態素解析部、２２ｂは第２番目の辞書ファイル部、２３ａは第Ｎ番目の形態素解析部、２３ｂは第Ｎ番目の辞書ファイル部である。２４はキーワード候補保持部、２５は未登録キーワード候補保持部、２６はキーワード／未登録キーワード決定部、２７は順序設定部、２８はインデックス登録部、２９はインデックスファイル部である。
【００４４】
図２に示すように、多言語キーワード抽出部には、各々の国の言語の文の形態素解析を行うためのそれぞれの言語に対応する複数の形態素解析部（２１ａ〜２３ａ）と、各形態素解析部に各々の言語の辞書データを供給する各国語対応の複数の辞書ファイル部（２１ｂ〜２３ｂ）とが備えられており、これらの複数の形態素解析部（２１ａ〜２３ａ）を制御して、効率的に多言語の文の形態素解析を行うために、その多言語文書の形態素解析を行う順序を設定する順序設定部２７と、その作業メモリとして、解析された単語をキーワード候補として一時的に登録しておくキーワード候補保持部２４と、１つ言語に対応する形態素解析部では解析されなかった単語については、別の言語に対応する形態素解析部での形態素解析を行うために、一時的に登録しておく未登録キーワード候補保持部２５が設けられている。そして、形態素解析が終了した場合に、キーワード／未登録キーワード決定部２６において、登録するキーワードとする単語と、未登録キーワードとしておく単語を決定し、インデックス登録部２８において、キーワードが抽出された文書の識別子と対応づけて、インデックスファイル部２９に登録する。
【００４５】
図３は、キーワード抽出処理を行う場合に用いられる制御テーブルの内容を説明する図である。図３（ａ）にキーワード抽出管理テーブル３０を示しており、図３（ｂ）に、形態素解析管理テーブル３６を示しており、また、図３（ｃ）に解析対象文字列タイプ設定テーブル３７を示している。
【００４６】
キーワード抽出管理テーブル３０は、図３（ａ）に示すように、多言語キーワード抽出部に備えられている各々の形態素解析部の使用状態を管理するテーブルであり、番号フィールド３１，対応言語種別フィールド３２，順番フィールド３３，使用フラグフィールド３４，および解析対象文字列タイプフィールド３５から構成されている。各々のフィールドに使用する形態素解析部の条件データを設定する。例えば、上から２番目のエントリには、日本語対応で形態素解析を行う形態素解析部の条件が設定されており、番号フィールド３１には“２”が設定され、対応言語種別フィールド３２には“日本語対応”と設定され、順番フィールド３３には“１”が設定され、使用フラグフィールド３４は“ＯＮ”が設定されている。また、解析対象文字列タイプフィールド３５には“テキスト−ＡＬＬ”が設定されて、ここでの条件データが設定されている。つまり、この条件データからは、「第２番目の形態素解析部は、日本語対応に用いられ、多言語文書の形態素解析を１番目に行い、その解析対象文字列の範囲を、テキスト全部として行う」ことを意味している。
【００４７】
キーワード抽出処理で用いられる形態素解析部は、形態素解析管理テーブル３６により管理される。形態素解析管理テーブル３６においては、図３（ｂ）に示すように、使用可能な各国語対応の形態素解析部の個数ｎと、現在使われている形態素解析部の番号ｉとのデータが管理されている。また、解析対象文字列の範囲の設定のために、図３（ｃ）に示すように、解析対象文字列タイプ設定テーブル３７が設けられている。解析対象文字列タイプ設定テーブル３７には、解析対象文字列タイプに応じて、その解析対象文字列の範囲が規定されている。例えば、解析対象文字列タイプが“未登録語群”である場合には、解析対象文字列の範囲を「未登録キーワード候補保持部あるいは未登録検索語保持部のキーワード候補の全て」とするように設定され、また、解析対象文字列タイプが“テキスト−ＡＬＬ”である場合には、解析対象文字列の範囲を「登録文書あるいは検索式の全てのテキスト」とするように設定されている。
【００４８】
次に、これらの制御テーブルを用いて、図２に示すようなキーワード抽出処理部における多言語文書登録処理について説明する。図４は多言語文書登録処理の全体の処理フローを示すフローチャートである。図４に示すフローチャートは、１ヶ国以上の言語で記述されている文書をそれぞれの言語に対応している形態素解析を行うことによって、キーワードとする単語を切り出し、インデックスに登録する処理の全体の流れを示している。また、図５は、多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理の処理フローを示すフローチャートであり、図６は、多言語文書登録処理の中の解析対象文字列範囲の設定処理の処理フローを示すフローチャートであり、図７は、多言語文書登録処理の中のキーワード抽出処理の処理フローを示すフローチャートである。また、図８は、多言語文書登録処理の中の未登録キーワード候補処理の処理フローを示すフローチャートである。
【００４９】
まず、図４のフローチャートを参照して、多言語文書登録処理の全体の処理を説明する。処理を開始すると、まず、ステップ４１において、入力処理部１により、文書の登録指示を行う。次に、ステップ４２において、キーワード抽出条件の設定処理（図５）を行い、続いて、次のステップ４３において、形態素解析の解析対象の文字列集合の設定処理（図６）を行う。つまり、キーワード抽出処理で用いる形態素解析部の条件を設定し、続いて、条件を設定した形態素解析部を用いて解析を行う対象の文字列集合の設定を行う。文字列集合の設定処理では、例えば、登録文書のテキストの全てか、未登録キーワード候補群の文字列の集合か等を設定し、具体的に形態素解析を行う解析対象の文字列集合の設定を行う。
【００５０】
これらの設定の処理が終ると、次に、キーワード抽出処理の制御を行うため、ステップ４４において、現在使っている形態素解析部の番号（順序）を示す変数ｉを“１”と設定し、文書登録の処理の最初に使う形態素解析部をセットする。次に、ステップ４５において、変数ｉに対応する言語の形態素解析部の使用フラグがオンであるか否かを判定する。使用フラグがオンでなければ、変数ｉの番号の形態素解析部による形態素解析の処理は行わないので、次の番号の形態素解析部の処理に進めるため、ステップ５２に進む。
【００５１】
また、ステップ４５の判定において、変数ｉに対応する言語の形態素解析部の使用フラグがオンである場合、すなわち、キーワード抽出管理テーブル３０で順序を示す変数ｉに対応する言語（「解析する順番」がｉとなっている言語）の形態素解析のエントリーの「使用フラグ」がＯＮになっている場合、次のステップ４６に進み、文字列集合に対し、第ｉ番目の対応の形態素解析部による順次のキーワード抽出処理（図７）を行う。このキーワード抽出処理では、後述するように、キーワード抽出管理テーブル３０の条件データにより、第ｉ番目の順序の形態素解析部のエントリの解析対象文字列のタイプで設定された文字列集合に対して第ｉ番目の対応する形態素解析部によりキーワードを抽出する。
【００５２】
次に、ステップ４７において、抽出されたキーワードが（第ｉ番目の）形態素解析用辞書に登録されているか否かを判定し、登録されていなければ、ステップ４８に進み、未登録キーワード候補として対応する文書ＩＤと共に、未登録キーワード候補保持部に記憶し、ステップ５１に進む。また、ステップ４７の判定において、抽出されたキーワードが形態素解析用辞書に登録されていると判定された場合、ステップ４９に進み、キーワード候補として対応する文書ＩＤと共に、キーワード候補保持部に記憶する。そして、次に、ステップ５０において、未登録キーワード候補処理（図８）を行う。この未登録キーワード候補処理では、後述するように、先の形態素解析部の処理では未登録キーワード候補とされたが、後の形態素解析部の処理でキーワード候補とされた単語について、文字列照合を行い、照合された単語については未登録キーワードから外す処理を行う。この未登録キーワード候補処理が終ると、次に、ステップ５１に進む。
【００５３】
ステップ５１においては、登録文書の第ｉ番目の形態素解析部によるキーワード抽出が終了したか否かを判定する。キーワード抽出が終了していなければ、ステップ４６に戻り、ステップ４６からの処理を繰り返し行う。また、このステップ５１の判定処理により、第ｉ番目に対応する形態素解析部によるキーワード抽出処理の終了が確認できれば、次の形態素解析部によるキーワード抽出処理を行うため、次のステップ５２において、使用する形態素解析部の順序を示す変数ｉをインクリメントして、つまり、変数ｉを（ｉ＝ｉ＋１として）カウントアップし、次のステップ５３において、使用可能な各国語対応の形態素解析部の個数ｎと次に使用する形態素解析部の順序を示す変数ｉと比較する。
【００５４】
この比較の結果、ｎ≧ｉであれば、第ｉ番目の形態素解析部によるキーワード抽出処理は完了していないので、ステップ４５に戻り、ステップ４５からの処理を繰り返し行う。また、ｎ＜ｉであれば、キーワード抽出管理テーブルに設定された条件により使用可能状態になっている形態素解析部による解析はすべて終了したことなので、次に、ステップ５４に進み、キーワード候補群と未登録キーワード群の中からインデックスを作成する処理を行う。これにより、一通りの文書の登録処理は終了するので、次に、ステップ５５において、文書の登録を終了するか否かを判定し、その外の文書の登録処理を行う場合には、ステップ４１に処理を戻し、ステップ４１からの処理を繰り返し行う。また、文書の登録を終了する場合には、ここでの一連の処理を終了する。
【００５５】
次に、多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理について説明する。この処理は、図４の多言語文書登録処理の全体の処理フローのステップ４２において実行される処理である。図５のフローチャートを参照する。ここでの処理が開始されると、ステップ６１に進み、キーワード抽出管理テーブルに記憶させている各国語対応の形態素解析部の数をカウントし、この形態素解析部の数を示す変数ｎに設定する。つまり、キーワード抽出管理テーブル３０に登録されている形態素解析部の数がｍであったとすると、ｎ＝ｍと設定される。次に、ステップ６２において、各国語対応の形態素解析部を用いて、解析する順番をキーワード抽出管理テーブル３０の順番フィールド３３に設定する。そして、次のステップ６３において、この文書登録時に使用する各国語対応の形態素解析を設定するため、各国の言語対応の形態素解析部を使用するか使用しないかを、キーワード抽出管理テーブル３０の使用フラグフィールド３４においてＯＮ／ＯＦＦフラグによって設定する。これにより、キーワード抽出管理テーブルの条件の設定処理が終了する。
【００５６】
次に、多言語文書登録処理の中の解析対象文字列範囲の設定処理について説明する。この処理は、前述したように、図４の多言語文書登録処理の全体の処理フローのステップ４３において実行される処理である。図６のフローチャートを参照する。この処理を開始すると、まず、ステップ７１において、キーワード抽出管理テーブル３０に記憶している各国語対応の形態素解析部のエントリの番号を示す変数ｊを“１”に設定する。次に、ステップ７２において、キーワード抽出管理テーブルの第ｊ番目のエントリの各言語対応の形態素解析部に対する解析対象文字列のタイプを、解析対象文字列タイプ設定テーブルの中から選ぶ。前述したように、解析対象文字列タイプ設定テーブル３７には、解析対象文字列のタイプの種類に対応して、形態素解析を行う文字列の範囲を設定しており、この設定された解析対象文字列タイプ設定テーブル３７の解析対象文字列タイプの種類から、解析対象文字列の種類を選択し、キーワード抽出管理テーブル３０の解析対象文字列タイプフィールド３５に設定する。
【００５７】
次に、ステップ７３に進み、第ｊ番目の形態素解析部の「解析する順番」が１番目であるか否かを判定する。第ｊ番目の形態素解析部の順番が１番目である場合には、ステップ７４に進み、先に設定した解析対象文字列タイプを無視して強制的に「テキスト−ＡＬＬ」と設定する。そして、ステップ７５に進み。これにより、１番目の形態素解析部で解析する解対象文字列の範囲は、常に登録文書のテキスト全てとする。また、ステップ７３の判定において、形態素解析部の順番が１番目でない場合には、そのまま、ステップ７５に進む。
【００５８】
続いて、次の形態素解析部のエントリにおける解析対象文字列タイプの設定を行うため、次に、ステップ７５において、変数ｊをインクリメントして、次のステップ７６において、ｊ≦ｎであるか否かを判定する。ｊ≦ｎであれば、未だ設定がなされていない形態素解析部に対応するエントリがあるので、ステップ７２に戻り、ステップ７２からの処理を繰り返す。また、ｊ≦ｎでなければ、ここでの処理を終了する。つまり、変数ｊをキーワード抽出管理テーブル３０に記憶させている形態素解析部の数ｎと比較して、ｊがｎと同じか小さい場合は、ステップ７２に戻る。そうでない場合は、処理を終了する。
【００５９】
これにより、キーワード抽出管理テーブル３０において、各々の形態素解析部に対して解析対象の文字列集合の設定処理が完了する。ここでの解析対象の文字列集合として、例えば、登録文書のテキストの全てか、未登録キーワード候補群の文字列の集合か等を設定する処理が完了するので、各々の形態素解析部は、この設定内容に従って、キーワード抽出処理を行う。
【００６０】
次に、多言語文書登録処理の中のキーワード抽出処理について説明する。図７のフローチャートを参照する。この処理は、前述したように、図４の多言語文書登録処理の全体の処理フローのステップ４６において実行される処理である。ここでのキーワード抽出処理を開始し、ステップ８１に進むと、ステップ８１において、キーワード抽出管理テーブルの解析対象文字列タイプで設定された文字列集合に対して形態素解析を行って単語を切り出す。つまり、文字列集合の形態素解析が終っていない位置から、形態素解析により単語を切り出す。
【００６１】
次に、ステップ８２において、切り出された単語に不要語が含まれるか否かを判定する。不要語が含まれていなければ、そのまま、ステップ８８に進み、直ちに、不要語以外の単語を抽出したキーワードとし、ここでの処理を終了とする。また、切り出された単語に不要語が含まれる場合、ステップ８３に進み、変数ｉが“１”であるか否かを判定する。変数ｉが“１”である場合、現在使っている形態素解析部は、第１番目の形態素解析部であるので、未登録キーワード候補に対する処理はなく、この場合も、ステップ８８に進み、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【００６２】
ステップ８３の判定において、変数ｉが“１”でないと判定された場合には、次に、ステップ８４に進み、解析順序がｉ番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。解析対象文字列が未登録語群でない場合、ステップ８５に進み、切り出された単語により、未登録キーワード候補に対して文字列照合を行う。そして、次のステップ８６において、その文字列照合の結果を判定する。照合できた場合には、ステップ８７に進み、未登録キーワード候補から切り出された単語あるいは文字列照合した単語を外し、次に、ステップ８８において、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【００６３】
また、ステップ８６の判定において、文字列照合できたことが判定できなかった場合には、ステップ８７の処理を行うことなく、ステップ８８に進み、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【００６４】
次に、多言語文書登録処理の中の未登録キーワード候補処理の設定処理について説明する。図８のフローチャートを参照する。この処理は、前述したように、図４の多言語文書登録処理の全体の処理フローのステップ５０において実行される処理である。この未登録キーワード候補処理を開始して、ステップ９１に進むと、まず、現在使っている形態素解析の順序を示す変数ｉが“１”であるか否かを判定する。変数ｉが“１”であれば、前述のように、現在使っている形態素解析部は、第１番目の形態素解析部であるので、未登録キーワード候補に対する処理はなく、直ちに、この未登録キーワード候補処理の処理を終了する。
【００６５】
また、ステップ９１の判定において、変数ｉが“１”でないことが確認できれば、ステップ９２に進み、解析順序がｉ番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。すなわち、キーワード抽出管理テーブル３０において、解析順序が第ｉ番目の形態素解析部に対応のエントリの解析対象文字列タイプフィールド３５の設定が「未登録語群」であるか否かを判定する。この判定の結果、解析対象文字列タイプが「未登録語群」であれば、ステップ９５において、未登録キーワード候補から抽出されたキーワードを外して、この処理を終了する。
【００６６】
ステップ９２の判定において、解析対象文字列タイプが「未登録語群」でなければ、ステップ９３に進み、抽出されたキーワードを未登録キーワード候補に対して文字列照合を行い、次のステップ９４において、この文字列照合の結果を判定する。この判定の結果、文字列照合できた場合には、ステップ９５に進み、未登録キーワード候補から抽出されたキーワードを外して、この処理を終了する。また、文字列照合できなければ、そのまま、この処理を終了する。
【００６７】
このようにして、未登録キーワード候補に対する処理が行われ、この結果、先の形態素解析部の処理では未登録キーワード候補とされたが、後の形態素解析部の処理でキーワード候補とされた単語について、文字列照合を行い、照合された単語については未登録キーワードから外す処理を行う。
【００６８】
次に、複数の言語で記述された文を含む文書を登録する場合について、具体的に複数の言語で記述された文を含む文書を例示して、その動作例を説明する。図９は、多言語文書の一例を示す図である。図９に示すように、ここでの多言語文書９９は、日本語と英語の文章が存在する文書であり、多言語文書９９を新たに文書登録する場合について説明する。この場合には、文書全体に対して、まず日本語での形態素解析を行い、次に、解析されなかった部分について、英語での形態素解析を行い、キーワード抽出を行い、キーワードと共に当該文書（文書の識別番号）を登録する。
【００６９】
この多言語文書登録検索装置に、「英語」，「日本語」，「中国語」，および「アラビア語」対応の４つのそれぞれの言語に対応する形態素解析を行える形態素解析部が設けられている場合、キーワード抽出の条件を規定するキーワード抽出管理テーブル３０には、図３（ａ）に示すように、それぞれの形態素解析部の制御の条件の設定がなされている。したがって、この場合、キーワード抽出管理テーブル３０に登録されている形態素解析部の数は“４”（ｎ＝４）とカウントされ（ステップ６１：図５）、図３（ｂ）に示すように、形態素解析管理テーブル３６に、レコード形式で（あるいは変数として）一時的に記憶される。
【００７０】
また、キーワード抽出管理テーブル３０の条件の設定においては、各々の形態素解析部で文書を解析する順番を、例えば、「日本語」，「英語」，「アラビア語」，「中国語」の順とするため、キーワード抽出管理テーブル３０の順番フィールド３３には、それぞれの言語対応の形態素解析部に対応して、上から順にその順番を「２」，「１」，「４」，「３」と設定する（ステップ６２：図５）。
【００７１】
また、文書登録の処理の中のキーワード抽出の処理で使用する形態素解析部の言語の種類を、ここでは「日本語」，「英語」，および「中国語」とするので、キーワード抽出管理テーブル３０において、「日本語」，「英語」および「中国語」の対応のエントリの使用フラグフィールド３４を「ＯＮ」として、「アラビア語」の対応のエントリの使用フラグフィールド３４は「ＯＦＦ」とする。
【００７２】
更に、文書登録の処理の中のキーワード抽出の処理で形態素解析する各々の形態素解析部の解析対象の文字列の範囲を特定して、効率よくキーワード抽出の処理を実行するため、４つのそれぞれの言語に対応する形態素解析部に対して、２番目以降に設定している形態素解析の処理では、解析の対象とする文字列群を必ずしも常に登録する文書全体を範囲とせず、解析の対象とするテキストあるいは文字列の範囲あるいはそれらの集合を指定する。
【００７３】
このため、図３（ｃ）に示すように、解析対象文字列タイプ設定テーブル３７において、予め定義している形態素解析を行う文字列の範囲に対応する解析対象文字列タイプを、キーワード抽出管理テーブル３０の解析対象文字列タイプフィールド３５に設定する。この例では、キーワード抽出管理テーブル３０の解析対象文字列タイプフィールド３５には、上から順に、「未登録語群」，「テキスト−ＡＬＬ」，「未登録語群」，「テキスト−範囲指定」と設定しており、日本語対応の形態素解析部では、文書の全体を解析対象とするが、英語対応の形態素解析部および中国語対応の形態素解析部では、解析対象を未登録語群としている。なお、この場合、第１番目で形態素解析を行う形態素解析部に関しては、デフォルトで「テキスト−ＡＬＬ」として必ず最初は登録文書の文書の全体を解析するように強制的に設定し直される（ステップ７３〜ステップ７４：図６）。
【００７４】
このようにして、キーワード抽出管理テーブル３０に使用する各々の形態素解析部の順番，解析対象文字列範囲などの条件が設定されると、設定された条件に従って各々の形態素解析部が制御されて、キーワード抽出の処理が実行される。キーワード抽出の処理が開始されると、まず、順番が第１番目に設定されている形態素解析部を用いて形態素解析を行う。この例では、順序が１番目の「日本語対応」の形態素解析部により、その「使用フラグ」が“ＯＮ”になっていることを確認してから（ステップ４５）、この形態素解析部に対応して設定された文字列集合に対してキーワード抽出を行う。つまり、この場合には「テキスト−ＡＬＬ」が設定されているので、登録文書の全てのテキストに対してキーワード抽出を行う（ステップ４６）。
【００７５】
キーワード抽出の処理（図７）においては、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとする。「日本語」の形態素解析の処理は、第１番目の解析処理であるため、未登録キーワード候補に対する不要語の処理は行わない。そして、次に抽出されたキーワードが日本語形態素解析用の辞書に登録されているかどうかを判定し（ステップ４７）、登録されているものについては、文書ＩＤと共にキーワード候補として記憶する（ステップ４８）。
【００７６】
図１０（ａ）および図１０（ｂ）は、日本語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図である。例えば、登録する文書（図９）の識別番号（文書ＩＤ）を“２０２０４”とすると、「日本語」の形態素解析による全てのキーワード候補の登録処理が終った段階で、図１０（ａ）に示すように、キーワード候補保持部１００の文書（fileＩＤ）１０１に対するキーワード候補１０２には、文書ＩＤ＝２０２０４の文書に対するキーワード候補として、形態素解析によって切り出した単語の「イラク」，「クウェート」，「国境」，…，「爆撃機」が記憶される。一方、形態素解析用の辞書に登録されていないものは「日本語」の形態素解析による全ての未登録キーワード候補の登録処理が終った段階で、図１０（ｂ）に示すように、未登録キーワード候補保持部１０３の文書（fileＩＤ）１０４に対する未登録キーワード候補１０５には、文書ＩＤ＝２０２０４の文書に対する未登録キーワード候補として、同じく、形態素解析により切り出した単語の「パトリオット」，「The」，「Ministry」，「of」，…，「recently」が記憶される。
【００７７】
このようにして、「日本語」の形態素解析による処理が終了すると、続いて、次の対応する言語の「英語」の形態素解析による処理を開始する。この場合において、前述の場合と同様に、キーワード抽出管理テーブル３０の条件に従って、順序が２番目の「英語」の形態素解析部により、その「使用フラグ」も“ＯＮ”になっていることを確認してから（ステップ４５）、この形態素解析部に対応して設定された文字列集合に対してキーワード抽出を行う。つまり、この場合にはキーワード抽出管理テーブル３０の解析対象文字列タイプフィールド３５には、その解析対象文字列タイプとして、「未登録語群」が設定されているので、図１０（ｂ）に示すように、未登録キーワード候補保持部１０３の文書（fileＩＤ）１０４に対する未登録キーワード候補１０５に記憶されている文字列に対して、キーワード抽出の処理を行う。すなわち、現在の登録対象文書である文書ＩＤ＝２０２０４の文書に対して、全文書の英語対応の形態素解析を行うことなく、先に未登録キーワード候補として抽出されている文字列に対して、キーワード抽出の処理を行う（ステップ４６）。
【００７８】
この場合のキーワード抽出の処理（図７）においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとする。つまり、この処理により、未登録語キーワード候補に対する不要語の処理として、不要語と判断される例えば「The」，「of」などが、未登録キーワード候補から外される。そして、抽出されたキーワードが英語形態素解析用の辞書に登録されているか否かを判定し（ステップ４７）、登録されているものについては、文書ＩＤと共にキーワード候補として記憶する（ステップ４８）。
【００７９】
図１１（ａ）および図１１（ｂ）は、次の英語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図である。前述のように、ここでの登録する文書（図９）の識別番号（文書ＩＤ）を“２０２０４”とすると、未登録キーワード候補に対して、「英語」の形態素解析による全ての登録処理が終った段階においては、図１０（ｂ）に示す未登録キーワード候補保持部１０３の文書（fileＩＤ）１０４に対応する未登録キーワード候補１０５に記憶されている文字列「Ministry」，「Education」，…，「said」，「recently」に対して、英語対応の形態素解析部での形態素解析が行われて、その結果、切り出された単語の中で、英語形態素解析用の辞書に登録されている単語を、図１１（ａ）に示すように、キーワード候補保持部１１０の文書（fileＩＤ）１１１に対するキーワード候補１１２に追加記憶する。つまり、文書ＩＤ＝２０２０４の文書に対するキーワード候補として、その対応のエントリに「ministry」，「education」，…，「say」，「recent」として追加記憶する。
【００８０】
なお、この説明の形態素解析の処理の中では、特に触れていないが、形態素解析により単語を切り出す際に、単語の幾つかの表語を標準形に統一する処理も同時に行われる。つまり、「Ministry」→「ministry」，「Education」→「education」のように、大文字を小文字に統一する処理、また、「said」→「say」のように原形に統一する処理などが行われる。このようにして、１つの言語の形態素解析では未登録キーワード候補とされた単語を、別の言語での形態素解析を行うことによってキーワード候補として抽出し、そのキーワード候補として抽出されたキーワードを、未登録キーワード候補から外す処理を行う。
【００８１】
このようにして、英語対応の形態素解析用の辞書に登録されていないもの、この例の場合には「Monbushou」が残るので、これを未登録語キーワード候補として記憶する。「英語」の形態素解析による全てのキーワード抽出の処理が終った段階では、図１１（ｂ）に示すように、未登録キーワード候補保持部１１３の文書（fileＩＤ）１１４に対する未登録キーワード候補１１５には、文書ＩＤ＝２０２０４の文書に対する未登録キーワード候補として、その対応するエントリに「パトリオット」，「Monbushou」が記憶されている状態になる。
【００８２】
このようにして、「英語」の形態素解析による処理が終了すると、続いて、第３番目の順序の言語対応する形態素解析部による処理に入る。つまり、次の対応する言語の「アラビア語」対応の形態素解析部による処理に入ることになるが、しかし、キーワード抽出管理テーブル３０において「アラビア語」の形態素解析部の「使用フラグ」は“ＯＦＦ”になっているので、この場合には、前述の場合と同様に、キーワード抽出管理テーブル３０の条件に従って、順序が３番目の「アラビア語」対応の形態素解析部の「使用フラグ」の“ＯＮ”が確認できず（ステップ４５）、この「アラビア語」対応の形態素解析部による処理はスキップする。
【００８３】
このようにして、第３番目の順序の言語に対応する形態素解析部による処理がスキップされると、続いて、第４番目の順序の言語に対応する形態素解析部による処理に入る。この場合においても、前述の場合と同様に、キーワード抽出管理テーブル３０の条件に従って処理が進められる。この場合、順序が第４番目の「中国語」対応の形態素解析部の「使用フラグ」は“ＯＮ”になっていることが確認できるので（ステップ４５）、この「中語語」対応の形態素解析部によって、その対応に設定された文字列集合に対してキーワード抽出を行う。この場合、キーワード抽出管理テーブル３０の解析対象文字列タイプフィールド３５には、その解析対象文字列タイプとして「未登録語群」が設定されているので、図１１（ｂ）に示す未登録キーワード候補保持部１１３の文書（fileＩＤ）１１４に対する未登録キーワード候補１１５に記憶されている文字列に対して、続いて形態素解析を行い、そのキーワード抽出の処理を行う。すなわち、現在の登録対象文書である文書ＩＤ＝２０２０４の文書に対して、現在の未登録キーワード候補として先に抽出されている文字列に対して、継続してキーワード抽出の処理を行う（ステップ４６）。
【００８４】
この場合のキーワード抽出の処理（図７）においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとするが、該当するものはなく、また、未登録キーワード候補保持部１１３の未登録キーワード候補１１５として記憶されている文字列に対しては「中国語」に該当するものはないため、「中国語」の形態素解析によるキーワード抽出の処理が終了しても、図１１（ａ）および図１１（ｂ）に示すように、キーワード候補記憶部１１０および未登録キーワード候補記憶部１１３の内容の変化はない。
【００８５】
このようにして、全ての言語に対する形態素解析によるキーワードの抽出の処理が終了すると、これまでの処理により抽出したキーワードの内容に従って、インデックステーブル（１２０：図１２）が作成される。図１２に示すように、インデックステーブル１２０は、多言語の文書検索のためのインデックスとして、各々の抽出されたキーワード１２１に対応して、文書（fileＩＤ）１２２と当該文書の未登録語フラグ１２３が登録されているテーブルである。ここでのインデックステーブル１２０に登録されるインデックスは、キーワード１２１の単語を基本として、その対応の文書（fileＩＤ）１２２の文書ＩＤがソートされ、当該文書ＩＤの文書に関して、未登録キーワードがある場合に、その旨の未登録フラグが設定される。このようなインデックステーブル１２０が作成されると、ここでの多言語文書の文書登録の作業は終了する。
【００８６】
次に、このようにした作成されたインデックステーブル１２０のインデックスを用いて、多言語文書検索を行う場合について説明する。
【００８７】
ユーザが所望する文書の検索を行う場合、前述したように、ユーザは、検索条件入力部（１１：図１）により検索条件を入力する。検索条件が入力されると、多言語インデックス照合部（１２：図１）において、入力された検索条件の検索条件式から単語を切り出し、切り出した単語とインデックステーブルのインデックスのキーワードとを照合する。この照合結果によって、テキスト抽出部（１４：図１）により、インデックスと単語の照合結果により検索条件に適合する文書を読み出し、表示部（１３：図１）において、読み出された文書を表示する。
【００８８】
図１３は、多言語インデックス照合部の要部の構成を示すブロック図である。図１３には、多言語インデックス照合部における各々の要素のブロックと共に、検索条件から形態素解析を行って検索式を決定する場合のデータの流れが示されている。図１３において、３はテキストデータベース部、１１は検索条件入力部、１４はテキスト抽出部、１３１ａは第１番目の形態素解析部、１３１ｂは第１番目の辞書ファイル部、１３２ａは第２番目の形態素解析部、１３２ｂは第２番目の辞書ファイル部、１３３ａは第Ｎ番目の形態素解析部、１３３ｂは第Ｎ番目の辞書ファイル部である。１３４は検索語候補保持部、１３５は未登録検索語候補保持部、１３６は検索式決定部、１３７は順序設定部である。
【００８９】
図１３に示すように、多言語インデックス照合部には、検索条件として入力される検索条件式の各々の国の言語の文の形態素解析を行うためのそれぞれの言語に対応する複数の形態素解析部（１３１ａ〜１３３ａ）と、各形態素解析部に各々の言語の辞書データを供給する各国語対応の複数の辞書ファイル部（１３１ｂ〜１３３ｂ）とが備えられており、これらの複数の形態素解析部（１３１ａ〜１３３ａ）を制御して、効率的に多言語の検索条件の形態素解析を行うために、その多言語の検索条件の形態素解析を行う順序を設定する順序設定部１３７と、その作業メモリとして、解析された検索条件の単語を検索語候補として一時的に登録しておく検索語候補保持部１３４と、１つ言語に対応する形態素解析部では解析されなかった検索条件の単語については、別の言語に対応する形態素解析部で形態素解析を行うために、一時的に登録しておく未登録検索語候補保持部１３５が設けられている。そして、検索条件の検索条件式の形態素解析が終了した場合に、検索式決定部１３６において、検索式とする単語を決定し、テキスト抽出部１４により、インデックスの文書ＩＤによって、テキストデータベース部３から検索条件に適合する文書を抽出する。
【００９０】
図１４は、多言語文書検索処理の全体の処理フローを示すフローチャートである。図１４に示すフローチャートは、１ヶ国以上の言語で記述されている検索条件の中の検索条件式をそれぞれの言語に対応している形態素解析を行うことによって、検索語とする単語を切り出し、検索式を作成し、文書の検索を行う処理の全体の流れを示している。また、図１５は、多言語文書検索処理の中の検索語抽出処理の処理フローを示すフローチャートであり、図１６は、多言語文書検索処理の中の未登録検索語候補処理の処理フローを示すフローチャートである。
【００９１】
まず、図１４のフローチャートを参照して、多言語文書検索処理の全体の処理を説明する。処理を開始すると、まず、ステップ１４１において、検索式入力部１１により、文書検索を行う場合の多言語の検索条件式を入力する。次に、ステップ１４２において、検索語抽出条件の設定処理を行い、続いて、次のステップ１４３において、形態素解析の解析対象の文字列集合の設定処理を行う。すなわち、この場合には、前述したキーワード抽出処理におけるキーワード抽出管理テーブルと同様に、検索語抽出管理テーブル（図示せず）により、検索語の切り出しのための形態素解析部の条件を設定し、続いて、更に、条件を設定した形態素解析部を用いて解析を行う対象の文字列集合の設定を行う。文字列集合の設定処理では、例えば、検索条件式のテキストの全てか、未登録検索語候補群の文字列の集合か（未登録語群）等を設定し、具体的に形態素解析を行う解析対象の文字列集合の設定を行う。なお、特に検索語抽出管理テーブルを設けず、前述のキーワード抽出管理テーブル３０を、ここでの検索語抽出管理テーブルとして用いるようにしてもよい。
【００９２】
これらの設定の処理が終ると、次に、検索式を作成する検索語の抽出処理の制御を行うため、ステップ１４４において、現在使っている形態素解析部の順序を示す変数ｉを“１”と設定し、検索条件式の形態素解析の処理の最初に使う形態素解析部をセットする。次に、ステップ１４５において、変数ｉに対応する言語の形態素解析部の使用フラグがオンであるか否かを判定する。使用フラグがオンでなければ、変数ｉの番号の形態素解析部による形態素解析の処理は行わないので、次の番号の形態素解析部の処理に進めるため、ステップ１５２に進む。
【００９３】
また、ステップ１４５の判定において、変数ｉに対応する言語の形態素解析部の使用フラグがオンである場合、すなわち、検索語抽出管理テーブルで順序を示す変数ｉに対応する言語（「解析する順番」がｉとなっている言語）の形態素解析のエントリーの「使用フラグ」がＯＮになっている場合、次のステップ１４６に進み、文字列集合に対し、第ｉ番目の対応の形態素解析部による順次の検索語の抽出処理（図１５）を行う。この検索語の抽出処理では、後述するように、検索語抽出管理テーブルの条件データにより、第ｉ番目の順序の形態素解析部のエントリの解析対象文字列のタイプで設定された文字列集合に対して第ｉ番目の対応する形態素解析部により検索語（キーワード）を抽出する。
【００９４】
次に、ステップ１４７において、抽出された検索語が（第ｉ番目の）形態素解析用辞書に登録されているか否かを判定する。このステップ１４７の判定で、登録されていなければ、ステップ１４８に進み、未登録検索語候補として対応する検索条件式と共に、未登録検索語候補保持部に記憶し、ステップ１５１に進む。また、ステップ１４７の判定において、抽出された検索語が形態素解析用辞書に登録されていると判定された場合、ステップ１４９に進み、検索語候補として対応する検索条件式と共に、検索語候補保持部に記憶する。そして、次に、ステップ１５０において、未登録検索語候補処理（図１６）を行う。この未登録検索語候補処理では、後述するように、先の形態素解析部の処理では未登録検索語候補とされたが、後の形態素解析部の処理で検索語候補とされた単語について、文字列照合を行い、照合された単語については未登録検索語から外す処理を行う。この未登録検索語候補処理が終ると、次に、ステップ１５１に進む。
【００９５】
ステップ１５１においては、第ｉ番目の形態素解析部による検索語抽出が終了したか否かを判定する。検索語抽出が終了していなければ、ステップ１４６に戻り、ステップ１４６からの処理を繰り返し行う。また、このステップ１５１の判定処理により、第ｉ番目に対応する形態素解析部による検索語抽出処理の終了が確認できれば、次の形態素解析部による検索語抽出処理を行うため、次のステップ１５２において、使用する形態素解析部の順序を示す変数ｉをインクリメントして、つまり、変数ｉを（ｉ＝ｉ＋１として）カウントアップし、次のステップ１５３において、使用可能な各国語対応の形態素解析部の個数ｎと次に使用する形態素解析部の順序を示す変数ｉと比較する。
【００９６】
この比較の結果、ｎ≧ｉであれば、第ｉ番目の形態素解析部による検索語抽出処理は完了していないので、ステップ１４５に戻り、ステップ１４５からの処理を繰り返し行う。また、ｎ＜ｉであれば、検索語抽出管理テーブルに設定された条件により使用可能状態になっている形態素解析部による解析はすべて終了したことなので、次に、ステップ１５４に進み、検索語候補群と未登録検索語群の中から検索式を作成する処理を行う。これにより、多言語の文書検索のための検索式が作成されたので、次に、ステップ１５５において、作成された検索式によりインデックスのキーワードと照合を行い、対応する文書を抽出し、ここでの処理を終了する。
【００９７】
次に、多言語文書検索処理の中の検索語抽出処理について説明する。図１５のフローチャートを参照する。この処理は、前述したように、図１４の多言語文書検索処理の全体の処理フローのステップ１４６において実行される処理である。ここでの検索語抽出処理を開始し、ステップ１６１に進むと、ステップ１６１において、検索語抽出管理テーブルの解析対象文字列タイプで設定された検索条件式の文字列集合に対して形態素解析を行い単語を切り出す。すなわち、前回の文字列集合の形態素解析が終っていない位置から、形態素解析の処理により単語を切り出す。
【００９８】
次に、ステップ１６２において、切り出された単語に不要語が含まれるか否かを判定する。不要語が含まれていなければ、そのまま、ステップ１６８に進み、直ちに、不要語以外の単語を抽出した検索語とし、ここでの処理を終了とする。また、切り出された単語に不要語が含まれる場合、ステップ１６３に進み、変数ｉが“１”であるか否かを判定する。変数ｉが“１”である場合、現在使っている形態素解析部は、第１番目の形態素解析部であるので、未登録検索語候補に対する処理はなく、この場合も、ステップ１６８に進み、不要語以外の単語を抽出した検索語として、ここでの処理を終了する。
【００９９】
ステップ１６３の判定において、変数ｉが“１”でないと判定された場合、次に、ステップ１６４に進み、解析順序がｉ番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。解析対象文字列が未登録語群でない場合、ステップ１６５に進み、切り出された単語により、未登録検索語候補に対して文字列照合を行う。そして、次のステップ１６６において、その文字列照合の結果を判定する。照合できた場合には、ステップ１６７に進み、未登録検索語候補から切り出された単語あるいは文字列照合した単語を外し、次に、ステップ１６８において、不要語以外の単語を抽出した検索語として、この処理を終了する。
【０１００】
また、ステップ１６６の判定において、文字列照合できたことが判定できなかった場合には、ステップ１６７の処理を行うことなく、ステップ１６８に進み、不要語以外の単語を抽出した検索語として、ここでの処理を終了する。
【０１０１】
次に、多言語文書検索処理の中の未登録検索語候補処理について説明する。図１６のフローチャートを参照する。この処理は、前述したように、図１４の多言語文書検索処理の全体の処理フローのステップ１５０において実行される処理である。この未登録検索語候補処理を開始して、ステップ１７１に進むと、まず、現在使っている形態素解析部の順序を示す変数ｉが“１”であるか否かを判定する。変数ｉが“１”であれば、前述のように、現在使っている形態素解析部は、第１番目の形態素解析部であるので、未登録検索語候補に対する処理はなく、直ちに、この未登録検索語候補処理の処理を終了する。
【０１０２】
また、ステップ１７１の判定において、変数ｉが“１”でないことが確認できれば、ステップ１７２に進み、解析順序がｉ番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。すなわち、検索語抽出の条件の制御テーブルにおいて、解析順序が第ｉ番目の形態素解析部に対応のエントリの解析対象文字列タイプフィールドの設定が「未登録語群」であるか否かを判定する。この判定の結果、解析対象文字列タイプが「未登録語群」であれば、ステップ１７５において、未登録検索語候補から抽出された検索語を外して、この処理を終了する。
【０１０３】
ステップ１７２の判定において、解析対象文字列タイプが「未登録語群」でなければ、ステップ１７３に進み、抽出された検索語を未登録検索語候補に対して文字列照合を行い、次のステップ１７４において、この文字列照合の結果を判定する。この判定の結果、文字列照合できた場合には、ステップ１７５に進み、未登録検索語候補から抽出された検索語を外して、この処理を終了する。また、文字列照合できなければ、そのまま、この処理を終了する。
【０１０４】
このようにして、未登録検索語候補に対する処理が行われ、この結果、先の形態素解析部の処理では未登録検索語候補とされたが、後の形態素解析部の処理で検索語候補とされた単語について、文字列照合を行い、照合された単語については未登録検索語から外す処理を行う。
【０１０５】
次に、複数の言語で記述された文を含む検索条件の検索条件式により、多言語文書を検索する場合について、具体的に検索条件式を例示して、その動作例を説明する。図１７は、多言語で記述された文を含む検索条件の検索条件式の一例を示す図である。図１７に示すように、ここでの検索条件１７９は、日本語と英語の文章が存在する文の検索条件式であり、この検索条件１７９の文から検索語を切り出し、文書検索を行うする場合について説明する。この場合には、複数の言語で記述された検索条件式の全体に対して、まず日本語での形態素解析を行い、次に、解析されなかった部分について、英語での形態素解析を行って、検索語の抽出を行い、抽出した検索語により検索式を生成し、該当する文書を検索する。
【０１０６】
この多言語文書登録検索装置には、「英語」，「日本語」，「中国語」，および「アラビア語」対応の４つのそれぞれの言語に対応する形態素解析を行える形態素解析部が設けられている場合、検索語抽出の条件を規定する検索語抽出管理テーブルには、図３（ａ）に示すキーワード抽出管理テーブル３０と同様な内容で、それぞれの形態素解析部の制御の条件の設定がなされているものとする。ここでは、特に、検索語抽出管理テーブルの内容は図示しないが、必要に応じて、図３（ａ）に示すキーワード抽出管理テーブル３０を、検索語抽出管理テーブルと同様なものとして参照する。したがって、この場合の検索語抽出管理テーブルに登録されている形態素解析部の数は“４”（ｎ＝４）とカウントされ、同様に、形態素解析管理テーブル（３６：図３（ｂ））に、レコード形式で（あるいは変数として）一時的に記憶される。
【０１０７】
検索語抽出管理テーブルの条件の設定においては、各々の形態素解析部で文書を解析する順番を、例えば、「日本語」，「英語」，「アラビア語」，「中国語」の順とするため、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の順序フィールドの「解析する順番」には、それぞれの言語対応の形態素解析部に対応して、それぞれ順にその順番を「２」，「１」，「４」，「３」と設定する。
【０１０８】
また、検索語抽出の処理で使用する形態素解析部の言語の種類を、ここでは「日本語」，「英語」，および「中国語」とするので、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）において、「日本語」，「英語」および「中国語」の対応のエントリの使用フラグを「ＯＮ」とし、「アラビア語」の対応のエントリの使用フラグは「ＯＦＦ」とする。
【０１０９】
更に、文書検索の処理の中の検索語抽出の処理で形態素解析する各々の形態素解析部の解析対象の文字列の範囲を特定して、効率よく検索語抽出の処理を実行するため、４つのそれぞれの言語に対応する形態素解析部に対して、２番目以降に設定している形態素解析の処理では、解析の対象とする文字列群を必ずしも常に検索条件式の文の全体を範囲とせず、解析の対象とするテキストあるいは文字列の範囲あるいはそれらの集合を指定する。
【０１１０】
このため、キーワード抽出の場合と同様に、図３（ｃ）に示すように、解析対象文字列タイプ設定テーブル３７において、予め定義している形態素解析を行う文字列の範囲に対応する解析対象文字列タイプを、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の中の各エントリの解析対象文字列タイプとして設定する。この例では、検索語抽出管理テーブルの解析対象文字列タイプとして、「英語」，「日本語」，「中国語」，および「アラビア語」対応の形態素解析部に対応して、それぞれ「未登録語群」，「テキスト−ＡＬＬ」，「未登録語群」，「テキスト−範囲指定」と設定する。
【０１１１】
したがって、この場合、日本語対応の形態素解析部では、文書の全体を解析対象とするが、英語対応の形態素解析部および中国語対応の形態素解析部では、解析対象を未登録語群としている。なお、第１番目で形態素解析を行う形態素解析部に関しては、デフォルトで「テキスト−ＡＬＬ」として必ず最初は登録文書の文書の全体を解析するように強制的に設定し直される。
【０１１２】
このようにして検索語抽出管理テーブル（キーワード抽出管理テーブル３０）により、使用する各々の形態素解析部の順番，解析対象文字列範囲などの条件が設定されると、設定された条件に従って各々の形態素解析部が制御されて、検索語抽出の処理が実行される。検索語抽出の処理が開始されると、まず、順番が第１番目に設定されている形態素解析部を用いて形態素解析を行う。この例では、順序が１番目の「日本語対応」の形態素解析部により、その「使用フラグ」が“ＯＮ”になっていることを確認してから（ステップ１４５）、この形態素解析部に対応して設定された文字列集合に対して検索語抽出を行う。つまり、この場合には「テキスト−ＡＬＬ」が設定されているので、検索条件式の全てのテキストに対して検索語抽出を行う（ステップ１４６）。
【０１１３】
検索語抽出の処理（図１５）においては、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする処理を行う。「日本語」の形態素解析の処理は、第１番目の解析処理であるため、未登録検索語候補に対する不要語の処理は行わない。そして、次に抽出された検索語が日本語形態素解析用の辞書に登録されているかどうかを判定し（ステップ１４７）、登録されているものについては、対応する検索条件式と共に検索語候補として記憶する（ステップ１４８）。
【０１１４】
図１８（ａ）および図１８（ｂ）は、日本語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図である。例えば、図１７に示すような検索条件式１７９の多言語の文「イラク部隊の撤退とパトリオットミサイルとMinistry of Education」に対し、「日本語」の形態素解析による全ての検索語候補の登録処理が終った段階では、図１８（ａ）に示すように、検索語候補保持部の検索語候補１８１には、検索語候補として、形態素解析により切り出した単語の「イラク」，「部隊」，「撤退」，「ミサイル」が記憶されると共に、一方、形態素解析用の辞書に登録されていないものは「日本語」の形態素解析による全ての未登録検索語候補の登録処理が終った段階で、図１８（ｂ）に示すように、未登録検索語候補保持部の未登録検索語候補１８２には、同じく、「日本語」の形態素解析によって切り出した「パトリオット」，「Ministry」，「of」，「Education」が、未登録検索語候補として記憶される。
【０１１５】
このようにして、「日本語」の形態素解析による処理が終了すると、続いて、次の対応する言語の「英語」の形態素解析による処理を開始する。この場合において、前述の場合と同様に、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の条件に従って、順序が２番目の「英語」の形態素解析部による処理を行うが、その場合にも、その「使用フラグ」も“ＯＮ”になっていることを確認してから（ステップ１４５）、この形態素解析部に対応して設定された文字列集合に対して検索語抽出を行う。つまり、この場合には検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の解析対象文字列タイプとして、「未登録語群」が設定されているので、図１８（ｂ）に示すように、未登録検索語候補保持部の未登録検索語候補１８２の文字列に対して、検索語抽出の処理を行う（ステップ１４６）。
【０１１６】
この場合の検索語抽出の処理（図１５）においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする。つまり、この処理により、未登録語検索語候補に対する不要語の処理として、不要語と判断される「of」が、未登録検索語候補から外される。そして、抽出された検索語が英語形態素解析用の辞書に登録されているか否かを判定し（ステップ１４７）、登録されているものについては、対応する検索条件式と共に検索語候補として記憶する（ステップ１４８）。
【０１１７】
図１９（ａ）および図１９（ｂ）は、次の英語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図である。図１８（ｂ）の未登録検索語候補１８２に対して、「英語」の形態素解析による全ての登録処理が終った段階において、その文字列「Ministry」，「Education」に対して、英語対応の形態素解析部での形態素解析が行われて、その結果、切り出された単語の中で、英語形態素解析用の辞書に登録されている単語を、図１９（ａ）に示すように、検索語候補保持部の検索語候補１９１に、検索語候補として「ministry」および「education」が、追加記憶される。また、前述の場合と同様に、この説明の形態素解析の処理の中では、特に触れていないが、形態素解析により単語を切り出す際に、大文字を小文字に統一する表語を標準形に統一する処理が、同時に行われる。このようにして、１つの言語の形態素解析では、未登録検索語候補とされた単語を、別の言語での形態素解析を行うことによって検索語候補として抽出し、その検索語候補として抽出された検索語を、未登録検索語候補から外す処理を行う。
【０１１８】
この結果、英語対応の形態素解析用の辞書に登録されていないもの、この例の場合には「パトリオット」が残るので、これを未登録語検索語候補として記憶する。「英語」の形態素解析による全ての検索語抽出の処理が終った段階では、図１９（ｂ）に示すように、未登録検索語候補保持部の未登録検索語候補１９２として「パトリオット」が記憶されている状態になる。
【０１１９】
このようにして、「英語」の形態素解析による処理が終了すると、続いて、第３番目の順序の言語対応する形態素解析部による処理に入る。つまり、次の対応する言語の「アラビア語」対応の形態素解析部による処理に入ることになるが、しかし、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）において「アラビア語」の形態素解析部の「使用フラグ」は“ＯＦＦ”になっているので、この場合には、前述の場合と同様に、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の条件に従って、順序が３番目の「アラビア語」対応の形態素解析部の「使用フラグ」の“ＯＮ”が確認できず（ステップ１４５）、この「アラビア語」対応の形態素解析部による処理はスキップする。
【０１２０】
このようにして、第３番目の順序の言語に対応する形態素解析部による処理がスキップされると、続いて、第４番目の順序の言語に対応する形態素解析部による処理に入る。この場合においても、前述の場合と同様に、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の条件に従って処理が進められる。この場合、順序が第４番目の「中国語」対応の形態素解析部の「使用フラグ」は“ＯＮ”になっていることが確認できるので（ステップ４５）、この「中語語」対応の形態素解析部によって、その対応に設定された文字列集合に対して検索語抽出を行う。この場合、検索語抽出管理テーブル（キーワード抽出管理テーブル３０）の解析対象文字列タイプには、その解析対象文字列タイプとして「未登録語群」が設定されているので、図１９（ｂ）に示す未登録検索語候補保持部の未登録検索語候補１９２に記憶されている文字列に対して、続いて形態素解析を行い、その検索語抽出の処理を行う（ステップ１４６）。
【０１２１】
この場合の検索語抽出の処理（図１５）においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする処理を行うが、該当するものはなく、また、未登録検索語候補保持部の未登録検索語候補１９２として記憶されている文字列に対しては「中国語」に該当するものはないため、「中国語」の形態素解析による検索語抽出の処理が終了しても、図１９（ａ）および図１９（ｂ）に示すように、検索語候補記憶部および未登録検索語候補記憶部の内容の変化はない。
【０１２２】
このようにして、全ての言語に対する形態素解析による検索語の抽出の処理が終了すると、これまでの処理により抽出した検索語の内容に従って、図２０に示すように、検索式２００が作成される。検索式２００は、多言語の文書検索のための検索キー２０１と未登録語フラグ２０２の配列となっており、検索式２００により、その検索キー２０１と未登録語フラグ２０２が、例えば、図１２に示すようなインデックステーブル１２０のインデックス（キーワード，文書ＩＤ，未登録語フラグ）と照合され、その対応の文書ＩＤから多言語文書（図９）が読み出される。
【０１２３】
【発明の効果】
以上に説明したように、本発明の多言語文書登録検索装置によれば、１か国以上の言語で記述され文を含む文書あるいは検索条件式があり、それらの文書を登録し、また、検索条件式により検索を行う場合、可能な限り記述された言語に対応する形態素解析部の処理を組合せて、できる限り、精度を上げて単語を切り出せるようにしている。このため、登録の際に作成するインデックスのサイズもコンパクトにできる。また、文書検索の際にも、インデックスとの照合の精度（再現率）を上げることができる。また、キーワード抽出管理テーブルに「解析する順番」、「使用フラグ」そして、「解析対象文字列のタイプ」といったキーワード抽出における条件の制御情報を埋め込むことによって、各形態素解析で単に対象テキストを重複して解析するのでなく、状況に応じて最適に効率的に解析できるようになる。これらの条件は、ユーザによりカスタマイズすることにより、ユーザに対応して任意に多言語文書の登録および検索が可能となる。
【図面の簡単な説明】
【図１】図１は本発明の一実施例にかかる多言語文書登録検索装置の構成を示すブロック、
【図２】図２は多言語キーワード抽出部の要部の構成を示すブロック図、
【図３】図３はキーワード抽出処理を行う場合に用いられる制御テーブルの内容を説明する図、
【図４】図４は多言語文書登録処理の全体の処理フローを示すフローチャート、
【図５】図５は多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理の処理フローを示すフローチャート、
【図６】図６は多言語文書登録処理の中の解析対象文字列範囲の設定処理の処理フローを示すフローチャート、
【図７】図７は多言語文書登録処理の中のキーワード抽出処理の処理フローを示すフローチャート、
【図８】図８は多言語文書登録処理の中の未登録キーワード候補処理の処理フローを示すフローチャート、
【図９】図９は多言語文書の一例を示す図、
【図１０】図１０（ａ）および図１０（ｂ）は日本語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図、
【図１１】図１１（ａ）および図１１（ｂ）は次の英語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図、
【図１２】図１２は作成された多言語対応のインデックステーブルの一例を示す図、
【図１３】図１３は多言語インデックス照合部の要部の構成を示すブロック図、
【図１４】図１４は多言語文書検索処理の全体の処理フローを示すフローチャート、
【図１５】図１５は多言語文書検索処理の中の検索語抽出処理の処理フローを示すフローチャート、
【図１６】図１６は多言語文書検索処理の中の未登録検索語候補処理の処理フローを示すフローチャート、
【図１７】図１７は多言語で記述された文を含む検索条件の検索条件式の一例を示す図、
【図１８】図１８（ａ）および図１８（ｂ）は、日本語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図、
【図１９】図１９（ａ）および図１９（ｂ）は、次の英語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図、
【図２０】図２０は多言語の検索条件式により生成された検索式の一例を示す図である。
【符号の説明】
１…入力処理部、２…多言語キーワード抽出部、３…テキストデータベース部、４…インデックス登録部、５…インデックスファイル部、１１…検索条件入力部、１２…多言語インデックス登録部、１３…表示部、１４…テキスト抽出部、２１ａ…第１番目の形態素解析部、２１ｂ…第１番目の辞書ファイル部、２２ａ…第２番目の形態素解析部、２２ｂ…第２番目の辞書ファイル部、２３ａ…第Ｎ番目の形態素解析部、２３ｂ…第Ｎ番目の辞書ファイル部、２４…キーワード候補保持部、２５…未登録キーワード候補保持部、２６…キーワード／未登録キーワード決定部、２７…順序設定部、２８…インデックス登録部、２９…インデックスファイル部、３０…キーワード抽出管理テーブル、３１…番号フィールド、３２…対応言語種別フィールド、３３…順番フィールド、３４…使用フラグフィールド、３５…解析対象文字列タイプフィールド、３６…形態素解析管理テーブル、３７…解析対象文字列タイプ設定テーブル、９９…多言語文書、１００…キーワード候補記憶部、１０１…文書（fileＩＤ）、１０２…キーワード候補、１０３…未登録キーワード候補記憶保持部、１０４…文書（fileＩＤ）、１０５…未登録キーワード候補、１１０…キーワード候補記憶部、１１１…文書（fileＩＤ）、１１２…キーワード候補、１１３…未登録キーワード候補記憶保持部、１１４…文書（fileＩＤ）、１１５…未登録キーワード候補、１２０…インデックステーブル、１２１…抽出されたキーワード、１２２…文書（fileＩＤ）、１２３…未登語フラグ、１３１ａ…第１番目の形態素解析部、１３１ｂ…第１番目の辞書ファイル部、１３２ａ…第２番目の形態素解析部、１３２ｂ…第２番目の辞書ファイル部、１３３ａ…第Ｎ番目の形態素解析部、１３３ｂ…第Ｎ番目の辞書ファイル部、１３４…検索語候補保持部、１３５…未登録検索語候補保持部、１３６…検索式決定部、１３７…順序設定部、１７９は検索条件、１８１…検索語候補、１８２…未登録検索語候補、１９１…検索語候補、１９２…未登録検索語候補、２００…検索式、２０１…検索キー、２０２…未登録語フラグ。

Claims

複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、
複数の言語の文を含む文書を格納する多言語文書格納手段と、
前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、
検索条件を入力する検索条件入力手段と、
前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段と、
キーワードと単語の照合結果により検索条件に適合する文書を読み出す読出し手段と
を備えることを特徴とする多言語文書登録検索装置。
請求項１に記載の多言語文書登録検索装置において、
前記キーワード抽出手段は、
切り出し対象言語が異なる複数の単語切り出し手段と、
前記複数の単語切り出し手段の処理優先度を設定する設定手段と、
前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出し、キーワードを抽出するキーワード抽出制御手段と、
抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録するインデックス登録手段と
を備えることを特徴とする多言語文書登録検索装置。
請求項２に記載の多言語文書登録検索装置において、
前記キーワード抽出制御手段は、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとし、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとする
ことを特徴とする多言語文書登録検索装置。
請求項１に記載の多言語文書登録検索装置において、更に、
登録する文書を入力してキーワード抽出を指示する入力手段と、
登録する文書，インデックスおよび該辞書ファイルに登録されていない単語を保持する保持手段と
を備えることを特徴とする多言語文書登録検索装置。
請求項４に記載の多言語文書登録検索装置において、
前記キーワード抽出手段は、
複数の言語の文から構成される文書からそれぞれの言語の文に対応して形態素解析により単語を切り出す複数の単語切出し手段と、
前記複数の単語切り出し手段がそれぞれに参照する言語に対応する辞書を格納する複数の辞書ファイルと、
前記複数の単語切出し手段を適用する順番の設定を行う順序設定手段と、
前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う制御手段と
を備えることを特徴とする多言語文書登録検索装置。
請求項５に記載の多言語文書登録検索装置において、更に、
単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持する未登録キーワード候補保持手段と、
それ以外の辞書から抽出された単語に関しては一時的にキーワード候補として保持しておくキーワード候補保持手段と
を備え、前記制御手段は、
１段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行い、
順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行い、
最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録する
ことを特徴とする多言語文書登録検索装置。
複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、
複数の言語の文を含む文書を格納するテキストデータベースと、
前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、
検索条件を入力する検索条件入力手段と、
前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段と、
前記インデックス照合手段の照合結果により、対応する文書を前記テキストデータベースから抽出する抽出手段と
を備えることを特徴とする多言語文書登録検索装置。
請求項７に記載の多言語文書登録検索装置において、
前記インデックス照合手段は、
複数の言語から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出す複数の単語切出し手段と、
複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定する順序設定手段と、
前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件の単語を切り出す制御を行う制御手段と
を有することを特徴とする多言語文書登録検索装置。
請求項８に記載の多言語文書登録検索装置において、更に、
単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持する未登録検索語候補保持手段と、
それ以外の辞書から抽出された単語に関しては一時的に検索語候補として保持しておく検索語候補保持手段と
を備え、前記制御手段は、
１段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行い、
順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行い、
最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力する
ことを特徴とする多言語文書登録検索装置。