JP3666066B2 - 多言語文書登録検索装置 - Google Patents
多言語文書登録検索装置 Download PDFInfo
- Publication number
- JP3666066B2 JP3666066B2 JP22114995A JP22114995A JP3666066B2 JP 3666066 B2 JP3666066 B2 JP 3666066B2 JP 22114995 A JP22114995 A JP 22114995A JP 22114995 A JP22114995 A JP 22114995A JP 3666066 B2 JP3666066 B2 JP 3666066B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- keyword
- unregistered
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、複数の種類の言語で記述された文を含む文書に対して検索のためのインデックスを登録して、文書を検索する多言語文書登録検索装置に関し、更に詳細には、複数の種類の言語で記述された文書のテキストデータベースから、複数の言語に対応してキーワードを抽出してインデックスとして登録し、登録したインデックスを用いて、多言語のテキストデータベースを検索する多言語文書登録検索装置に関するものである。
【0002】
【従来の技術】
従来から、複数の種類の言語で記述された文を含む多言語文書に対する文書検索装置として、例えば、特開平4−21180号公報に記載された「文書検索装置」が知られている。この「文書検索装置」は、自国語で作成されたキーワードを持つデータベースと、そのキーワードを入力してデータベースを検索する文書検索装置において、自国語および他国語の辞書を持ち、他国語で入力されたキーワードに対しては、当該キーワードを自国語に変換し、自国語のキーワードでデータベースを検索する。そして、検索した文書の文書名と、選択された文書の全文を他国語に変換して、画面に表示するように構成されている。
【0003】
【発明が解決しようとする課題】
ところで、文書検索の処理にインデックスを用いる文書検索を行う場合、検索対象となる文書が母国語のように1ヶ国語(例えば日本語)の言語だけでなく、引用文献として引用される箇所では、その他の国の言語(例えば英語)も含まれている場合が多くあるので、これに対しては、文書検索装置におけるインデックスを複数の言語(多言語)に対応させておかなければ、十分な文書の検索を行うことはできない。
【0004】
従来、文書検索の処理にインデックスを用いる文書検索装置において、文書検索に用いるインデックスの作成方法は、形態素解析を行って単語を切り出し、単語をキーワードとしてインデックスを作成する。その場合、通常、形態素解析を行う言語が1ヶ国の言語(例えば日本語のみ)であるため、その他の国の言語の単語については、単に固有名詞の単語として切り出すことしかできなかった。そのため、切り出した単語をキーワードとしてインデックスに登録するために、標準の表記や、原形に戻すことができず、したがって、その場合、検索用のインデックスの作成では、そのまま、既登録語に対する未登録語として抽出して、インデックスに登録することしかできなかった。
【0005】
このため、対象文書に異なる国の言語が多く含まれている場合は、検索インデックスとして登録する単語のキーワード(固有名詞)の語数が多くなり、インデックスサイズが必要以上に大きくなってしまうという問題があった。
【0006】
また、このような文書検索装置において、文書検索を行う場合には、キーワードとして登録されている例えば固有名詞のインデックスと同じパターンの文字列でしか検索できず、適切な範囲の検索が十分に行えないという問題があった。つまり、文書検索の際には、形態素解析により切り出した単語(固有名詞)と全く同じパターンの文字列でないとヒットせず、検索しても所望の検索文書がヒットされないという不具合があった。
【0007】
前述した特開平4−21180号公報に記載の「文書検索装置」のように、ある言語のキーワードが登録されており、その国の言語以外の言語での検索要求があった場合には、例えば、それと同じ意味の既に登録されている言語の言葉に翻訳することによって、他の国の言語を含む文書についても検索ができるように構成できるが、その場合においても、検索のためのインデックスは自国語のみのキーワードで構成されており、多言語で構成された文書に対するインデックスの登録に対する配慮がなされていないという問題点があった。
【0008】
本発明は、これらの問題を解決するためになされたものであり、本発明の第1の目的は、複数の言語で記述された文を含む文書に対して、できる限りそれらの異なる各々の言語に対応して形態素解析を行い、単語を切り出し、キーワードを抽出して、キーワードの登録が行えるようにして、多言語で記述された文を含む文書に対しても未登録語を最小限に押さえるようにした多言語文書登録検索装置を提供することにある。
【0009】
また、本発明の第2の目的は、複数の言語で記述された文を含む文書に対し、複数の言語に対応して形態素解析により単語を切り出し、キーワードを抽出してキーワードの登録を行う場合、解析する範囲の重複を避け、インデックスサイズを最小に押さえ、かつ、検索を行う場合の検索精度を向上させる多言語文書登録検索装置を提供することにある。
【0010】
また、本発明の第3の目的は、複数の言語で記述された文を含む文書に対し、自国語以外の言語の単語の語形変化や、表記の揺れにも対応でき、検索を行う場合の検索精度の向上を計ると共に、不必要な未登録語の抽出を最小限に押さえ、インデックスサイズを最小に押さえることができる多言語文書登録検索装置を提供することにある。
【0011】
更に、本発明の第4の目的は、複数の言語で記述された文を含む文書に対し、複数の言語に対応して形態素解析により単語を切り出す場合、それぞれの複数の言語対応の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行い、多言語で記述された文を含む文書に対して未登録語を最小限に押さえるようにした多言語文書登録検索装置を提供することにある。
【0012】
【課題を解決するための手段】
上記のような目的を達成するため、本発明の第1の特徴とする多言語文書登録検索装置は、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、複数の言語の文を含む文書を格納する多言語文書格納手段(3)と、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段(2)と、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段(4)と、検索条件を入力する検索条件入力手段(11)と、前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段(12)と、キーワードと単語の照合結果により検索条件に適合する文書を読み出す読出し手段(14)とを備えることを特徴とする。
【0013】
また、本発明の第2の特徴とする多言語文書登録検索装置においては、前記キーワード抽出手段は、切り出し対象言語が異なる複数の単語切り出し手段(21a,22a,23a)と、前記複数の単語切り出し手段の処理優先度を設定する設定手段(27)と、前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出して、キーワードを抽出するキーワード抽出制御手段(26)と、抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録するインデックス登録手段(28)とを備えることを特徴とする。
【0014】
また、本発明の第3の特徴とする多言語文書登録検索装置においては、前記キーワード抽出制御手段は、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとし、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとすることを特徴とする。
【0015】
また、本発明の第4の特徴とする多言語文書登録検索装置は、更に、登録する文書を入力してキーワード抽出を指示する入力手段(1)と、登録する文書,インデックスおよび該辞書ファイルに登録されていない単語を保持する保持手段(3,5)とを備えることを特徴とする。
【0016】
また、本発明の第5の特徴とする多言語文書登録検索装置においては、前記キーワード抽出手段は、複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す複数の単語切出し手段(21a,22a,23a)と、前記複数の単語切り出し手段がそれぞれに参照する言語に対応する辞書を格納する複数の辞書ファイル(21b,22b,23b)と、前記複数の単語切出し手段を適用する順番の設定を行う順序設定手段(27)と、前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う制御手段(26)とを備えることを特徴とする。
【0017】
また、本発明の第6の特徴とする多言語文書登録検索装置においては、更に、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持する未登録キーワード候補保持手段(25)と、それ以外の辞書から抽出された単語に関しては一時的にキーワード候補として保持しておくキーワード候補保持手段(24)とを備え、前記制御手段(26,27)は、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行い、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行い、最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録することを特徴とする。
【0018】
また、本発明の第7の特徴とする多言語文書登録検索装置は、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、複数の言語の文を含む文書を格納するテキストデータベースと、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、検索条件を入力する検索条件入力手段(11)と、前記検索条件入力手段によって入力された検索条件から単語を切り出してインデックスと照合する多言語対応のインデックス照合手段(12)と、前記インデックス照合手段の照合結果により、対応する文書をテキストデータベースから抽出する抽出手段(14)とを有することを特徴とする。
【0019】
また、本発明の第8の特徴とする多言語文書登録検索装置においては、前記インデックス照合手段は、複数の言語から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出す複数の単語切出し手段(131a,132a,133a)と、複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定する順序設定手段(137)と、前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件の単語を切り出す制御を行う制御手段(136)とを有することを特徴とする。
【0020】
また、本発明の第9の特徴とする多言語文書登録検索装置においては、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持する未登録検索語候補保持手段(134)と、それ以外の辞書から抽出された単語に関しては一時的に検索語候補として保持しておく検索語候補保持手段(135)とを備え、前記制御手段(136,137)は、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行い、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行い、最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語候補を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力することを特徴とする。
【0021】
このような様々な特徴を有する本発明の多言語文書登録検索装置によれば、ここで第1の特徴とする多言語文書登録検索装置においては、多言語文書格納手段(3)が、複数の言語の文を含む文書を格納しており、キーワード抽出手段(2)が、前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出する。インデックス登録手段(4)は、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録する。
【0022】
文書の検索を行う場合、検索条件入力手段(11)により、検索条件を入力すると、インデックス照合手段(12)が、前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合する。そして、読出し手段(14)が、キーワードと単語の照合結果により検索条件に適合する文書を読み出す。このようにして、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う。
【0023】
また、本発明の第2の特徴とする多言語文書登録検索装置においては、インデックスを作成するために、キーワード抽出手段には、切り出し対象言語が異なる複数の単語切り出し手段(21a,22a,23a)が備えられており、設定手段(27)が、前記複数の単語切り出し手段の処理優先度を設定すると、キーワード抽出制御手段(26)が、前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出して、キーワードを抽出する。インデックス登録手段(28)は、抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録する。これにより、複数の言語の文を含む文書に対しては、それぞれの対象言語に対応して複数の各々の単語切り出し手段により、形態素解析を行ってキーワードの単語を切り出せる。このため、多言語で記述された文書に対して未登録語を最小限に押さえて、検索時に用いるインデックスを作成することができる。
【0024】
また、本発明の第3の特徴とする多言語文書登録検索装置においては、複数の言語の文を含む文書に対し、それぞれの対象言語に対応して複数の各々の単語切り出し手段により、形態素解析を行ってキーワードの単語を切り出す場合、前記キーワード抽出制御手段が、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとする。また、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとする。これにより、複数の言語で記述された文書に対して、それぞれの言語に対応した形態素解析により単語を切り出すことができ、解析する範囲の重複を避けて、キーワードを抽出することができる。このようにして、キーワードの登録を行う場合のインデックスサイズを最小に押さえることができる。
【0025】
また、本発明の第4の特徴とする多言語文書登録検索装置によれば、文書登録するために、更に、入力手段(1)と、保持手段(3,5)が備えられている。入力手段(1)が、登録する文書を入力してキーワード抽出を指示すると、キーワード抽出手段(2)が、単語の切り出しに用いる辞書を備え形態素解析によって文書のキーワードを抽出し、登録手段(4)が、前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスに登録する。この結果、保持手段(3,5)には、登録する文書,インデックスおよび該辞書ファイルに登録されていない単語が保持される。これにより、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行うことができる。
【0026】
本発明の第5の特徴とする多言語文書登録検索装置によれば、前記キーワード抽出手段において、複数の単語切出し手段(21a,22a,23a)が、複数の言語の文から構成される文書からそれぞれの言語の文に対して形態素解析により単語を切り出す場合、複数の辞書ファイル(21b,22b,23b)が、前記複数の単語切り出し手段(21a,22a,23a)のそれぞれに参照する言語に対応する辞書を格納しているので、順序設定手段(27)により、前記複数の単語切出し手段を適用する順番の設定を行うと、制御手段(26)が、前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う。
【0027】
また、本発明の第6の特徴とする多言語文書登録検索装置においては、未登録キーワード候補保持手段(25)は、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持し、また、それ以外の辞書から抽出された単語に関しては、キーワード候補保持手段(24)により、一時的にキーワード候補として保持する。多言語対応にキーワードの抽出を行う場合、前記制御手段(26,27)は、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行う。これにより、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行う。
【0028】
続いて、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により、前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行う。
【0029】
そして、最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録する。このようにして、順次に形態素解析により単語の切り出しを行うので、複数の言語に対応するそれぞれの複数の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行うことができ、多言語で記述された文を含む文書に対して未登録語を最小限に押さえるようにできる。
【0030】
また、本発明の第7の特徴とする多言語文書登録検索装置によれば、文書検索するために、特徴的に、検索条件入力手段(11)と、多言語対応のインデックス照合手段(12)と、抽出手段(14)とを備えており、検索条件入力手段(11)が、検索条件を入力すると、多言語対応のインデックス照合手段(12)が、前記検索条件入力手段によって入力された検索条件から単語を切り出してインデックスと照合する。抽出手段(14)は、前記インデックス照合手段の照合結果により、対応する文書をテキストデータベースから抽出する。これより、複数の言語の文を含む文書に対して検索に用いるインデックスが作成して登録してある場合に、該インデックスにより文書の検索を行うことができる。
【0031】
また、文書検索を行う場合、本発明の第8の特徴とする多言語文書登録検索装置によれば、前記インデックス照合手段において、複数の単語切出し手段(131a,132a,133a)が、複数の言語の文から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出すので、順序設定手段(137)により、複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定し、制御手段(136)によって、前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件から単語を切り出す制御を行い、そして、検索条件の単語により文書の検索を行う。
【0032】
また、本発明の第9の特徴とする多言語文書登録検索装置においては、未登録検索語候補保持手段(134)が、単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持しており、それ以外の辞書から抽出された単語に関しては、検索語候補保持手段(135)により、一時的に検索語候補として保持しておく。
【0033】
前記制御手段(136,137)が、1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行う。
【0034】
続いて、順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては、前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行う。
【0035】
そして、最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力する。
【0036】
このようにして、複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行うので、複数の言語で記述された文書に対して、自国語以外の単語の語形変化や、表記の揺れにも対応でき、検索精度の向上が計れる。また、不必要な未登録語の抽出を最小限に押さえており、インデックスサイズを最小に押さえることができる。更に、また、複数の言語で記述された文書に対して、複数の言語に対応するそれぞれの複数の形態素解析の組み合わせによる対象テキストの重複した解析を避けて、できる限り効率的に最適に形態素解析を行うことができ、多言語で記述された文書に対して未登録語を最小限に押さえるようにできる。
【0037】
【発明の実施の形態】
以下、本発明を実施する形態について、図面を参照して具体的に説明する。図1は本発明の一実施例にかかる多言語文書登録検索装置の構成を示すブロック図である。図1において、1は入力処理部、2は多言語キーワード抽出部、3はテキストデータベース部、4はインデックス登録部、5はインデックスファイル部、11は検索条件入力部、12は多言語インデックス登録部、13は表示部、14はテキスト抽出部である。
【0038】
テキストデータベース部3には、例えば、英語の記述された文および日本語で記述された文などの複数の言語で記述された文を含む文書(110:図11)が格納されている。入力処理部1が、ユーザからの文書の登録の入力指示を受け付けると、多言語キーワード抽出部2は、ユーザにより指示された文書に対して、そのキーワードを抽出する処理を行う。ここで、キーワードを抽出する文書は、例えば、入力処理部1から入力されて、テキストデータベース部3に登録された文書であり、または、テキストデータベース部3に既に登録されている文書である。これに文書に対して、キーワードを抽出する文書が指定され、その文書に対して、キーワードを抽出する処理が行われる。
【0039】
多言語キーワード抽出部2には、後述するように、各国の言語に対応して形態素解析を行う複数の形態素解析部(21a〜23a:図2)が備えられており、この複数の各国の言語対応の形態素解析部を順次に制御して、効率的に文書中の異なる言語の文に対応してそれぞれに形態素解析を行い、単語を切り出し、キーワードを抽出する処理を行う。複数の形態素解析部には、それぞれに解析する言語に対応して言語対応に辞書ファイルが設けられており、形態素解析を行い単語を切り出す場合に、各言語に対応する単語は、各々の国の言語に対応する該当の辞書と比較される。
【0040】
ある言語の辞書ファイルに登録されている単語は、キ−ワード候補として、キーワード候補保持部に一時的に保持され、ある言語の辞書に登録されていない単語は、未登録キーワード候補として一時的に未登録キーワード候補保持部に保持される。そして、未登録キーワード候補の単語は、次の言語の形態素解析部により形態素解析が行われる。このようにして、次の国の言語に対応する辞書と比較する際に、先の未登録キーワード候補の単語を含めて、形態素解析を行い、単語を切り出して、キーワードを抽出する処理を行う。
【0041】
このようにして抽出されたキーワードは、インデックス登録部4により、当該キーワードに対応する文書の識別子と共にインデックスとして、インデックスファイル部5のインデックステーブルに登録される。
【0042】
ユーザが所望する文書の検索を行う場合、ユーザは検索条件入力部11から検索条件を入力する。検索条件が入力されると、多言語インデックス照合部12では、入力された検索条件から単語を切り出し、切り出した単語とインデックステーブルのインデックスのキーワードとを照合する。そして、その照合結果によってテキスト抽出部14により、キーワードと単語の照合結果により検索条件に適合する文書を読み出し、表示部13において、読み出された文書を表示する。
【0043】
図2は、多言語キーワード抽出部の要部の構成を示すブロック図である。図2には、多言語キーワード抽出部における各々の要素のブロックと共に、そのデータの流れが示されている。図2において、1は入力処理部、21aは第1番目の形態素解析部、21bは第1番目の辞書ファイル部、22aは第2番目の形態素解析部、22bは第2番目の辞書ファイル部、23aは第N番目の形態素解析部、23bは第N番目の辞書ファイル部である。24はキーワード候補保持部、25は未登録キーワード候補保持部、26はキーワード/未登録キーワード決定部、27は順序設定部、28はインデックス登録部、29はインデックスファイル部である。
【0044】
図2に示すように、多言語キーワード抽出部には、各々の国の言語の文の形態素解析を行うためのそれぞれの言語に対応する複数の形態素解析部(21a〜23a)と、各形態素解析部に各々の言語の辞書データを供給する各国語対応の複数の辞書ファイル部(21b〜23b)とが備えられており、これらの複数の形態素解析部(21a〜23a)を制御して、効率的に多言語の文の形態素解析を行うために、その多言語文書の形態素解析を行う順序を設定する順序設定部27と、その作業メモリとして、解析された単語をキーワード候補として一時的に登録しておくキーワード候補保持部24と、1つ言語に対応する形態素解析部では解析されなかった単語については、別の言語に対応する形態素解析部での形態素解析を行うために、一時的に登録しておく未登録キーワード候補保持部25が設けられている。そして、形態素解析が終了した場合に、キーワード/未登録キーワード決定部26において、登録するキーワードとする単語と、未登録キーワードとしておく単語を決定し、インデックス登録部28において、キーワードが抽出された文書の識別子と対応づけて、インデックスファイル部29に登録する。
【0045】
図3は、キーワード抽出処理を行う場合に用いられる制御テーブルの内容を説明する図である。図3(a)にキーワード抽出管理テーブル30を示しており、図3(b)に、形態素解析管理テーブル36を示しており、また、図3(c)に解析対象文字列タイプ設定テーブル37を示している。
【0046】
キーワード抽出管理テーブル30は、図3(a)に示すように、多言語キーワード抽出部に備えられている各々の形態素解析部の使用状態を管理するテーブルであり、番号フィールド31,対応言語種別フィールド32,順番フィールド33,使用フラグフィールド34,および解析対象文字列タイプフィールド35から構成されている。各々のフィールドに使用する形態素解析部の条件データを設定する。例えば、上から2番目のエントリには、日本語対応で形態素解析を行う形態素解析部の条件が設定されており、番号フィールド31には“2”が設定され、対応言語種別フィールド32には“日本語対応”と設定され、順番フィールド33には“1”が設定され、使用フラグフィールド34は“ON”が設定されている。また、解析対象文字列タイプフィールド35には“テキスト−ALL”が設定されて、ここでの条件データが設定されている。つまり、この条件データからは、「第2番目の形態素解析部は、日本語対応に用いられ、多言語文書の形態素解析を1番目に行い、その解析対象文字列の範囲を、テキスト全部として行う」ことを意味している。
【0047】
キーワード抽出処理で用いられる形態素解析部は、形態素解析管理テーブル36により管理される。形態素解析管理テーブル36においては、図3(b)に示すように、使用可能な各国語対応の形態素解析部の個数nと、現在使われている形態素解析部の番号iとのデータが管理されている。また、解析対象文字列の範囲の設定のために、図3(c)に示すように、解析対象文字列タイプ設定テーブル37が設けられている。解析対象文字列タイプ設定テーブル37には、解析対象文字列タイプに応じて、その解析対象文字列の範囲が規定されている。例えば、解析対象文字列タイプが“未登録語群”である場合には、解析対象文字列の範囲を「未登録キーワード候補保持部あるいは未登録検索語保持部のキーワード候補の全て」とするように設定され、また、解析対象文字列タイプが“テキスト−ALL”である場合には、解析対象文字列の範囲を「登録文書あるいは検索式の全てのテキスト」とするように設定されている。
【0048】
次に、これらの制御テーブルを用いて、図2に示すようなキーワード抽出処理部における多言語文書登録処理について説明する。図4は多言語文書登録処理の全体の処理フローを示すフローチャートである。図4に示すフローチャートは、1ヶ国以上の言語で記述されている文書をそれぞれの言語に対応している形態素解析を行うことによって、キーワードとする単語を切り出し、インデックスに登録する処理の全体の流れを示している。また、図5は、多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理の処理フローを示すフローチャートであり、図6は、多言語文書登録処理の中の解析対象文字列範囲の設定処理の処理フローを示すフローチャートであり、図7は、多言語文書登録処理の中のキーワード抽出処理の処理フローを示すフローチャートである。また、図8は、多言語文書登録処理の中の未登録キーワード候補処理の処理フローを示すフローチャートである。
【0049】
まず、図4のフローチャートを参照して、多言語文書登録処理の全体の処理を説明する。処理を開始すると、まず、ステップ41において、入力処理部1により、文書の登録指示を行う。次に、ステップ42において、キーワード抽出条件の設定処理(図5)を行い、続いて、次のステップ43において、形態素解析の解析対象の文字列集合の設定処理(図6)を行う。つまり、キーワード抽出処理で用いる形態素解析部の条件を設定し、続いて、条件を設定した形態素解析部を用いて解析を行う対象の文字列集合の設定を行う。文字列集合の設定処理では、例えば、登録文書のテキストの全てか、未登録キーワード候補群の文字列の集合か等を設定し、具体的に形態素解析を行う解析対象の文字列集合の設定を行う。
【0050】
これらの設定の処理が終ると、次に、キーワード抽出処理の制御を行うため、ステップ44において、現在使っている形態素解析部の番号(順序)を示す変数iを“1”と設定し、文書登録の処理の最初に使う形態素解析部をセットする。次に、ステップ45において、変数iに対応する言語の形態素解析部の使用フラグがオンであるか否かを判定する。使用フラグがオンでなければ、変数iの番号の形態素解析部による形態素解析の処理は行わないので、次の番号の形態素解析部の処理に進めるため、ステップ52に進む。
【0051】
また、ステップ45の判定において、変数iに対応する言語の形態素解析部の使用フラグがオンである場合、すなわち、キーワード抽出管理テーブル30で順序を示す変数iに対応する言語(「解析する順番」がiとなっている言語)の形態素解析のエントリーの「使用フラグ」がONになっている場合、次のステップ46に進み、文字列集合に対し、第i番目の対応の形態素解析部による順次のキーワード抽出処理(図7)を行う。このキーワード抽出処理では、後述するように、キーワード抽出管理テーブル30の条件データにより、第i番目の順序の形態素解析部のエントリの解析対象文字列のタイプで設定された文字列集合に対して第i番目の対応する形態素解析部によりキーワードを抽出する。
【0052】
次に、ステップ47において、抽出されたキーワードが(第i番目の)形態素解析用辞書に登録されているか否かを判定し、登録されていなければ、ステップ48に進み、未登録キーワード候補として対応する文書IDと共に、未登録キーワード候補保持部に記憶し、ステップ51に進む。また、ステップ47の判定において、抽出されたキーワードが形態素解析用辞書に登録されていると判定された場合、ステップ49に進み、キーワード候補として対応する文書IDと共に、キーワード候補保持部に記憶する。そして、次に、ステップ50において、未登録キーワード候補処理(図8)を行う。この未登録キーワード候補処理では、後述するように、先の形態素解析部の処理では未登録キーワード候補とされたが、後の形態素解析部の処理でキーワード候補とされた単語について、文字列照合を行い、照合された単語については未登録キーワードから外す処理を行う。この未登録キーワード候補処理が終ると、次に、ステップ51に進む。
【0053】
ステップ51においては、登録文書の第i番目の形態素解析部によるキーワード抽出が終了したか否かを判定する。キーワード抽出が終了していなければ、ステップ46に戻り、ステップ46からの処理を繰り返し行う。また、このステップ51の判定処理により、第i番目に対応する形態素解析部によるキーワード抽出処理の終了が確認できれば、次の形態素解析部によるキーワード抽出処理を行うため、次のステップ52において、使用する形態素解析部の順序を示す変数iをインクリメントして、つまり、変数iを(i=i+1として)カウントアップし、次のステップ53において、使用可能な各国語対応の形態素解析部の個数nと次に使用する形態素解析部の順序を示す変数iと比較する。
【0054】
この比較の結果、n≧iであれば、第i番目の形態素解析部によるキーワード抽出処理は完了していないので、ステップ45に戻り、ステップ45からの処理を繰り返し行う。また、n<iであれば、キーワード抽出管理テーブルに設定された条件により使用可能状態になっている形態素解析部による解析はすべて終了したことなので、次に、ステップ54に進み、キーワード候補群と未登録キーワード群の中からインデックスを作成する処理を行う。これにより、一通りの文書の登録処理は終了するので、次に、ステップ55において、文書の登録を終了するか否かを判定し、その外の文書の登録処理を行う場合には、ステップ41に処理を戻し、ステップ41からの処理を繰り返し行う。また、文書の登録を終了する場合には、ここでの一連の処理を終了する。
【0055】
次に、多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理について説明する。この処理は、図4の多言語文書登録処理の全体の処理フローのステップ42において実行される処理である。図5のフローチャートを参照する。ここでの処理が開始されると、ステップ61に進み、キーワード抽出管理テーブルに記憶させている各国語対応の形態素解析部の数をカウントし、この形態素解析部の数を示す変数nに設定する。つまり、キーワード抽出管理テーブル30に登録されている形態素解析部の数がmであったとすると、n=mと設定される。次に、ステップ62において、各国語対応の形態素解析部を用いて、解析する順番をキーワード抽出管理テーブル30の順番フィールド33に設定する。そして、次のステップ63において、この文書登録時に使用する各国語対応の形態素解析を設定するため、各国の言語対応の形態素解析部を使用するか使用しないかを、キーワード抽出管理テーブル30の使用フラグフィールド34においてON/OFFフラグによって設定する。これにより、キーワード抽出管理テーブルの条件の設定処理が終了する。
【0056】
次に、多言語文書登録処理の中の解析対象文字列範囲の設定処理について説明する。この処理は、前述したように、図4の多言語文書登録処理の全体の処理フローのステップ43において実行される処理である。図6のフローチャートを参照する。この処理を開始すると、まず、ステップ71において、キーワード抽出管理テーブル30に記憶している各国語対応の形態素解析部のエントリの番号を示す変数jを“1”に設定する。次に、ステップ72において、キーワード抽出管理テーブルの第j番目のエントリの各言語対応の形態素解析部に対する解析対象文字列のタイプを、解析対象文字列タイプ設定テーブルの中から選ぶ。前述したように、解析対象文字列タイプ設定テーブル37には、解析対象文字列のタイプの種類に対応して、形態素解析を行う文字列の範囲を設定しており、この設定された解析対象文字列タイプ設定テーブル37の解析対象文字列タイプの種類から、解析対象文字列の種類を選択し、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35に設定する。
【0057】
次に、ステップ73に進み、第j番目の形態素解析部の「解析する順番」が1番目であるか否かを判定する。第j番目の形態素解析部の順番が1番目である場合には、ステップ74に進み、先に設定した解析対象文字列タイプを無視して強制的に「テキスト−ALL」と設定する。そして、ステップ75に進み。これにより、1番目の形態素解析部で解析する解対象文字列の範囲は、常に登録文書のテキスト全てとする。また、ステップ73の判定において、形態素解析部の順番が1番目でない場合には、そのまま、ステップ75に進む。
【0058】
続いて、次の形態素解析部のエントリにおける解析対象文字列タイプの設定を行うため、次に、ステップ75において、変数jをインクリメントして、次のステップ76において、j≦nであるか否かを判定する。j≦nであれば、未だ設定がなされていない形態素解析部に対応するエントリがあるので、ステップ72に戻り、ステップ72からの処理を繰り返す。また、j≦nでなければ、ここでの処理を終了する。つまり、変数jをキーワード抽出管理テーブル30に記憶させている形態素解析部の数nと比較して、jがnと同じか小さい場合は、ステップ72に戻る。そうでない場合は、処理を終了する。
【0059】
これにより、キーワード抽出管理テーブル30において、各々の形態素解析部に対して解析対象の文字列集合の設定処理が完了する。ここでの解析対象の文字列集合として、例えば、登録文書のテキストの全てか、未登録キーワード候補群の文字列の集合か等を設定する処理が完了するので、各々の形態素解析部は、この設定内容に従って、キーワード抽出処理を行う。
【0060】
次に、多言語文書登録処理の中のキーワード抽出処理について説明する。図7のフローチャートを参照する。この処理は、前述したように、図4の多言語文書登録処理の全体の処理フローのステップ46において実行される処理である。ここでのキーワード抽出処理を開始し、ステップ81に進むと、ステップ81において、キーワード抽出管理テーブルの解析対象文字列タイプで設定された文字列集合に対して形態素解析を行って単語を切り出す。つまり、文字列集合の形態素解析が終っていない位置から、形態素解析により単語を切り出す。
【0061】
次に、ステップ82において、切り出された単語に不要語が含まれるか否かを判定する。不要語が含まれていなければ、そのまま、ステップ88に進み、直ちに、不要語以外の単語を抽出したキーワードとし、ここでの処理を終了とする。また、切り出された単語に不要語が含まれる場合、ステップ83に進み、変数iが“1”であるか否かを判定する。変数iが“1”である場合、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録キーワード候補に対する処理はなく、この場合も、ステップ88に進み、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【0062】
ステップ83の判定において、変数iが“1”でないと判定された場合には、次に、ステップ84に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。解析対象文字列が未登録語群でない場合、ステップ85に進み、切り出された単語により、未登録キーワード候補に対して文字列照合を行う。そして、次のステップ86において、その文字列照合の結果を判定する。照合できた場合には、ステップ87に進み、未登録キーワード候補から切り出された単語あるいは文字列照合した単語を外し、次に、ステップ88において、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【0063】
また、ステップ86の判定において、文字列照合できたことが判定できなかった場合には、ステップ87の処理を行うことなく、ステップ88に進み、不要語以外の単語を抽出したキーワードとして、ここでの処理を終了する。
【0064】
次に、多言語文書登録処理の中の未登録キーワード候補処理の設定処理について説明する。図8のフローチャートを参照する。この処理は、前述したように、図4の多言語文書登録処理の全体の処理フローのステップ50において実行される処理である。この未登録キーワード候補処理を開始して、ステップ91に進むと、まず、現在使っている形態素解析の順序を示す変数iが“1”であるか否かを判定する。変数iが“1”であれば、前述のように、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録キーワード候補に対する処理はなく、直ちに、この未登録キーワード候補処理の処理を終了する。
【0065】
また、ステップ91の判定において、変数iが“1”でないことが確認できれば、ステップ92に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。すなわち、キーワード抽出管理テーブル30において、解析順序が第i番目の形態素解析部に対応のエントリの解析対象文字列タイプフィールド35の設定が「未登録語群」であるか否かを判定する。この判定の結果、解析対象文字列タイプが「未登録語群」であれば、ステップ95において、未登録キーワード候補から抽出されたキーワードを外して、この処理を終了する。
【0066】
ステップ92の判定において、解析対象文字列タイプが「未登録語群」でなければ、ステップ93に進み、抽出されたキーワードを未登録キーワード候補に対して文字列照合を行い、次のステップ94において、この文字列照合の結果を判定する。この判定の結果、文字列照合できた場合には、ステップ95に進み、未登録キーワード候補から抽出されたキーワードを外して、この処理を終了する。また、文字列照合できなければ、そのまま、この処理を終了する。
【0067】
このようにして、未登録キーワード候補に対する処理が行われ、この結果、先の形態素解析部の処理では未登録キーワード候補とされたが、後の形態素解析部の処理でキーワード候補とされた単語について、文字列照合を行い、照合された単語については未登録キーワードから外す処理を行う。
【0068】
次に、複数の言語で記述された文を含む文書を登録する場合について、具体的に複数の言語で記述された文を含む文書を例示して、その動作例を説明する。図9は、多言語文書の一例を示す図である。図9に示すように、ここでの多言語文書99は、日本語と英語の文章が存在する文書であり、多言語文書99を新たに文書登録する場合について説明する。この場合には、文書全体に対して、まず日本語での形態素解析を行い、次に、解析されなかった部分について、英語での形態素解析を行い、キーワード抽出を行い、キーワードと共に当該文書(文書の識別番号)を登録する。
【0069】
この多言語文書登録検索装置に、「英語」,「日本語」,「中国語」,および「アラビア語」対応の4つのそれぞれの言語に対応する形態素解析を行える形態素解析部が設けられている場合、キーワード抽出の条件を規定するキーワード抽出管理テーブル30には、図3(a)に示すように、それぞれの形態素解析部の制御の条件の設定がなされている。したがって、この場合、キーワード抽出管理テーブル30に登録されている形態素解析部の数は“4”(n=4)とカウントされ(ステップ61:図5)、図3(b)に示すように、形態素解析管理テーブル36に、レコード形式で(あるいは変数として)一時的に記憶される。
【0070】
また、キーワード抽出管理テーブル30の条件の設定においては、各々の形態素解析部で文書を解析する順番を、例えば、「日本語」,「英語」,「アラビア語」,「中国語」の順とするため、キーワード抽出管理テーブル30の順番フィールド33には、それぞれの言語対応の形態素解析部に対応して、上から順にその順番を「2」,「1」,「4」,「3」と設定する(ステップ62:図5)。
【0071】
また、文書登録の処理の中のキーワード抽出の処理で使用する形態素解析部の言語の種類を、ここでは「日本語」,「英語」,および「中国語」とするので、キーワード抽出管理テーブル30において、「日本語」,「英語」および「中国語」の対応のエントリの使用フラグフィールド34を「ON」として、「アラビア語」の対応のエントリの使用フラグフィールド34は「OFF」とする。
【0072】
更に、文書登録の処理の中のキーワード抽出の処理で形態素解析する各々の形態素解析部の解析対象の文字列の範囲を特定して、効率よくキーワード抽出の処理を実行するため、4つのそれぞれの言語に対応する形態素解析部に対して、2番目以降に設定している形態素解析の処理では、解析の対象とする文字列群を必ずしも常に登録する文書全体を範囲とせず、解析の対象とするテキストあるいは文字列の範囲あるいはそれらの集合を指定する。
【0073】
このため、図3(c)に示すように、解析対象文字列タイプ設定テーブル37において、予め定義している形態素解析を行う文字列の範囲に対応する解析対象文字列タイプを、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35に設定する。この例では、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35には、上から順に、「未登録語群」,「テキスト−ALL」,「未登録語群」,「テキスト−範囲指定」と設定しており、日本語対応の形態素解析部では、文書の全体を解析対象とするが、英語対応の形態素解析部および中国語対応の形態素解析部では、解析対象を未登録語群としている。なお、この場合、第1番目で形態素解析を行う形態素解析部に関しては、デフォルトで「テキスト−ALL」として必ず最初は登録文書の文書の全体を解析するように強制的に設定し直される(ステップ73〜ステップ74:図6)。
【0074】
このようにして、キーワード抽出管理テーブル30に使用する各々の形態素解析部の順番,解析対象文字列範囲などの条件が設定されると、設定された条件に従って各々の形態素解析部が制御されて、キーワード抽出の処理が実行される。キーワード抽出の処理が開始されると、まず、順番が第1番目に設定されている形態素解析部を用いて形態素解析を行う。この例では、順序が1番目の「日本語対応」の形態素解析部により、その「使用フラグ」が“ON”になっていることを確認してから(ステップ45)、この形態素解析部に対応して設定された文字列集合に対してキーワード抽出を行う。つまり、この場合には「テキスト−ALL」が設定されているので、登録文書の全てのテキストに対してキーワード抽出を行う(ステップ46)。
【0075】
キーワード抽出の処理(図7)においては、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとする。「日本語」の形態素解析の処理は、第1番目の解析処理であるため、未登録キーワード候補に対する不要語の処理は行わない。そして、次に抽出されたキーワードが日本語形態素解析用の辞書に登録されているかどうかを判定し(ステップ47)、登録されているものについては、文書IDと共にキーワード候補として記憶する(ステップ48)。
【0076】
図10(a)および図10(b)は、日本語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図である。例えば、登録する文書(図9)の識別番号(文書ID)を“20204”とすると、「日本語」の形態素解析による全てのキーワード候補の登録処理が終った段階で、図10(a)に示すように、キーワード候補保持部100の文書(fileID)101に対するキーワード候補102には、文書ID=20204の文書に対するキーワード候補として、形態素解析によって切り出した単語の「イラク」,「クウェート」,「国境」,…,「爆撃機」が記憶される。一方、形態素解析用の辞書に登録されていないものは「日本語」の形態素解析による全ての未登録キーワード候補の登録処理が終った段階で、図10(b)に示すように、未登録キーワード候補保持部103の文書(fileID)104に対する未登録キーワード候補105には、文書ID=20204の文書に対する未登録キーワード候補として、同じく、形態素解析により切り出した単語の「パトリオット」,「The」,「Ministry」,「of」,…,「recently」が記憶される。
【0077】
このようにして、「日本語」の形態素解析による処理が終了すると、続いて、次の対応する言語の「英語」の形態素解析による処理を開始する。この場合において、前述の場合と同様に、キーワード抽出管理テーブル30の条件に従って、順序が2番目の「英語」の形態素解析部により、その「使用フラグ」も“ON”になっていることを確認してから(ステップ45)、この形態素解析部に対応して設定された文字列集合に対してキーワード抽出を行う。つまり、この場合にはキーワード抽出管理テーブル30の解析対象文字列タイプフィールド35には、その解析対象文字列タイプとして、「未登録語群」が設定されているので、図10(b)に示すように、未登録キーワード候補保持部103の文書(fileID)104に対する未登録キーワード候補105に記憶されている文字列に対して、キーワード抽出の処理を行う。すなわち、現在の登録対象文書である文書ID=20204の文書に対して、全文書の英語対応の形態素解析を行うことなく、先に未登録キーワード候補として抽出されている文字列に対して、キーワード抽出の処理を行う(ステップ46)。
【0078】
この場合のキーワード抽出の処理(図7)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとする。つまり、この処理により、未登録語キーワード候補に対する不要語の処理として、不要語と判断される例えば「The」,「of」などが、未登録キーワード候補から外される。そして、抽出されたキーワードが英語形態素解析用の辞書に登録されているか否かを判定し(ステップ47)、登録されているものについては、文書IDと共にキーワード候補として記憶する(ステップ48)。
【0079】
図11(a)および図11(b)は、次の英語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図である。前述のように、ここでの登録する文書(図9)の識別番号(文書ID)を“20204”とすると、未登録キーワード候補に対して、「英語」の形態素解析による全ての登録処理が終った段階においては、図10(b)に示す未登録キーワード候補保持部103の文書(fileID)104に対応する未登録キーワード候補105に記憶されている文字列「Ministry」,「Education」,…,「said」,「recently」に対して、英語対応の形態素解析部での形態素解析が行われて、その結果、切り出された単語の中で、英語形態素解析用の辞書に登録されている単語を、図11(a)に示すように、キーワード候補保持部110の文書(fileID)111に対するキーワード候補112に追加記憶する。つまり、文書ID=20204の文書に対するキーワード候補として、その対応のエントリに「ministry」,「education」,…,「say」,「recent」として追加記憶する。
【0080】
なお、この説明の形態素解析の処理の中では、特に触れていないが、形態素解析により単語を切り出す際に、単語の幾つかの表語を標準形に統一する処理も同時に行われる。つまり、「Ministry」→「ministry」,「Education」→「education」のように、大文字を小文字に統一する処理、また、「said」→「say」のように原形に統一する処理などが行われる。このようにして、1つの言語の形態素解析では未登録キーワード候補とされた単語を、別の言語での形態素解析を行うことによってキーワード候補として抽出し、そのキーワード候補として抽出されたキーワードを、未登録キーワード候補から外す処理を行う。
【0081】
このようにして、英語対応の形態素解析用の辞書に登録されていないもの、この例の場合には「Monbushou」が残るので、これを未登録語キーワード候補として記憶する。「英語」の形態素解析による全てのキーワード抽出の処理が終った段階では、図11(b)に示すように、未登録キーワード候補保持部113の文書(fileID)114に対する未登録キーワード候補115には、文書ID=20204の文書に対する未登録キーワード候補として、その対応するエントリに「パトリオット」,「Monbushou」が記憶されている状態になる。
【0082】
このようにして、「英語」の形態素解析による処理が終了すると、続いて、第3番目の順序の言語対応する形態素解析部による処理に入る。つまり、次の対応する言語の「アラビア語」対応の形態素解析部による処理に入ることになるが、しかし、キーワード抽出管理テーブル30において「アラビア語」の形態素解析部の「使用フラグ」は“OFF”になっているので、この場合には、前述の場合と同様に、キーワード抽出管理テーブル30の条件に従って、順序が3番目の「アラビア語」対応の形態素解析部の「使用フラグ」の“ON”が確認できず(ステップ45)、この「アラビア語」対応の形態素解析部による処理はスキップする。
【0083】
このようにして、第3番目の順序の言語に対応する形態素解析部による処理がスキップされると、続いて、第4番目の順序の言語に対応する形態素解析部による処理に入る。この場合においても、前述の場合と同様に、キーワード抽出管理テーブル30の条件に従って処理が進められる。この場合、順序が第4番目の「中国語」対応の形態素解析部の「使用フラグ」は“ON”になっていることが確認できるので(ステップ45)、この「中語語」対応の形態素解析部によって、その対応に設定された文字列集合に対してキーワード抽出を行う。この場合、キーワード抽出管理テーブル30の解析対象文字列タイプフィールド35には、その解析対象文字列タイプとして「未登録語群」が設定されているので、図11(b)に示す未登録キーワード候補保持部113の文書(fileID)114に対する未登録キーワード候補115に記憶されている文字列に対して、続いて形態素解析を行い、そのキーワード抽出の処理を行う。すなわち、現在の登録対象文書である文書ID=20204の文書に対して、現在の未登録キーワード候補として先に抽出されている文字列に対して、継続してキーワード抽出の処理を行う(ステップ46)。
【0084】
この場合のキーワード抽出の処理(図7)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外をキーワードとするが、該当するものはなく、また、未登録キーワード候補保持部113の未登録キーワード候補115として記憶されている文字列に対しては「中国語」に該当するものはないため、「中国語」の形態素解析によるキーワード抽出の処理が終了しても、図11(a)および図11(b)に示すように、キーワード候補記憶部110および未登録キーワード候補記憶部113の内容の変化はない。
【0085】
このようにして、全ての言語に対する形態素解析によるキーワードの抽出の処理が終了すると、これまでの処理により抽出したキーワードの内容に従って、インデックステーブル(120:図12)が作成される。図12に示すように、インデックステーブル120は、多言語の文書検索のためのインデックスとして、各々の抽出されたキーワード121に対応して、文書(fileID)122と当該文書の未登録語フラグ123が登録されているテーブルである。ここでのインデックステーブル120に登録されるインデックスは、キーワード121の単語を基本として、その対応の文書(fileID)122の文書IDがソートされ、当該文書IDの文書に関して、未登録キーワードがある場合に、その旨の未登録フラグが設定される。このようなインデックステーブル120が作成されると、ここでの多言語文書の文書登録の作業は終了する。
【0086】
次に、このようにした作成されたインデックステーブル120のインデックスを用いて、多言語文書検索を行う場合について説明する。
【0087】
ユーザが所望する文書の検索を行う場合、前述したように、ユーザは、検索条件入力部(11:図1)により検索条件を入力する。検索条件が入力されると、多言語インデックス照合部(12:図1)において、入力された検索条件の検索条件式から単語を切り出し、切り出した単語とインデックステーブルのインデックスのキーワードとを照合する。この照合結果によって、テキスト抽出部(14:図1)により、インデックスと単語の照合結果により検索条件に適合する文書を読み出し、表示部(13:図1)において、読み出された文書を表示する。
【0088】
図13は、多言語インデックス照合部の要部の構成を示すブロック図である。図13には、多言語インデックス照合部における各々の要素のブロックと共に、検索条件から形態素解析を行って検索式を決定する場合のデータの流れが示されている。図13において、3はテキストデータベース部、11は検索条件入力部、14はテキスト抽出部、131aは第1番目の形態素解析部、131bは第1番目の辞書ファイル部、132aは第2番目の形態素解析部、132bは第2番目の辞書ファイル部、133aは第N番目の形態素解析部、133bは第N番目の辞書ファイル部である。134は検索語候補保持部、135は未登録検索語候補保持部、136は検索式決定部、137は順序設定部である。
【0089】
図13に示すように、多言語インデックス照合部には、検索条件として入力される検索条件式の各々の国の言語の文の形態素解析を行うためのそれぞれの言語に対応する複数の形態素解析部(131a〜133a)と、各形態素解析部に各々の言語の辞書データを供給する各国語対応の複数の辞書ファイル部(131b〜133b)とが備えられており、これらの複数の形態素解析部(131a〜133a)を制御して、効率的に多言語の検索条件の形態素解析を行うために、その多言語の検索条件の形態素解析を行う順序を設定する順序設定部137と、その作業メモリとして、解析された検索条件の単語を検索語候補として一時的に登録しておく検索語候補保持部134と、1つ言語に対応する形態素解析部では解析されなかった検索条件の単語については、別の言語に対応する形態素解析部で形態素解析を行うために、一時的に登録しておく未登録検索語候補保持部135が設けられている。そして、検索条件の検索条件式の形態素解析が終了した場合に、検索式決定部136において、検索式とする単語を決定し、テキスト抽出部14により、インデックスの文書IDによって、テキストデータベース部3から検索条件に適合する文書を抽出する。
【0090】
図14は、多言語文書検索処理の全体の処理フローを示すフローチャートである。図14に示すフローチャートは、1ヶ国以上の言語で記述されている検索条件の中の検索条件式をそれぞれの言語に対応している形態素解析を行うことによって、検索語とする単語を切り出し、検索式を作成し、文書の検索を行う処理の全体の流れを示している。また、図15は、多言語文書検索処理の中の検索語抽出処理の処理フローを示すフローチャートであり、図16は、多言語文書検索処理の中の未登録検索語候補処理の処理フローを示すフローチャートである。
【0091】
まず、図14のフローチャートを参照して、多言語文書検索処理の全体の処理を説明する。処理を開始すると、まず、ステップ141において、検索式入力部11により、文書検索を行う場合の多言語の検索条件式を入力する。次に、ステップ142において、検索語抽出条件の設定処理を行い、続いて、次のステップ143において、形態素解析の解析対象の文字列集合の設定処理を行う。すなわち、この場合には、前述したキーワード抽出処理におけるキーワード抽出管理テーブルと同様に、検索語抽出管理テーブル(図示せず)により、検索語の切り出しのための形態素解析部の条件を設定し、続いて、更に、条件を設定した形態素解析部を用いて解析を行う対象の文字列集合の設定を行う。文字列集合の設定処理では、例えば、検索条件式のテキストの全てか、未登録検索語候補群の文字列の集合か(未登録語群)等を設定し、具体的に形態素解析を行う解析対象の文字列集合の設定を行う。なお、特に検索語抽出管理テーブルを設けず、前述のキーワード抽出管理テーブル30を、ここでの検索語抽出管理テーブルとして用いるようにしてもよい。
【0092】
これらの設定の処理が終ると、次に、検索式を作成する検索語の抽出処理の制御を行うため、ステップ144において、現在使っている形態素解析部の順序を示す変数iを“1”と設定し、検索条件式の形態素解析の処理の最初に使う形態素解析部をセットする。次に、ステップ145において、変数iに対応する言語の形態素解析部の使用フラグがオンであるか否かを判定する。使用フラグがオンでなければ、変数iの番号の形態素解析部による形態素解析の処理は行わないので、次の番号の形態素解析部の処理に進めるため、ステップ152に進む。
【0093】
また、ステップ145の判定において、変数iに対応する言語の形態素解析部の使用フラグがオンである場合、すなわち、検索語抽出管理テーブルで順序を示す変数iに対応する言語(「解析する順番」がiとなっている言語)の形態素解析のエントリーの「使用フラグ」がONになっている場合、次のステップ146に進み、文字列集合に対し、第i番目の対応の形態素解析部による順次の検索語の抽出処理(図15)を行う。この検索語の抽出処理では、後述するように、検索語抽出管理テーブルの条件データにより、第i番目の順序の形態素解析部のエントリの解析対象文字列のタイプで設定された文字列集合に対して第i番目の対応する形態素解析部により検索語(キーワード)を抽出する。
【0094】
次に、ステップ147において、抽出された検索語が(第i番目の)形態素解析用辞書に登録されているか否かを判定する。このステップ147の判定で、登録されていなければ、ステップ148に進み、未登録検索語候補として対応する検索条件式と共に、未登録検索語候補保持部に記憶し、ステップ151に進む。また、ステップ147の判定において、抽出された検索語が形態素解析用辞書に登録されていると判定された場合、ステップ149に進み、検索語候補として対応する検索条件式と共に、検索語候補保持部に記憶する。そして、次に、ステップ150において、未登録検索語候補処理(図16)を行う。この未登録検索語候補処理では、後述するように、先の形態素解析部の処理では未登録検索語候補とされたが、後の形態素解析部の処理で検索語候補とされた単語について、文字列照合を行い、照合された単語については未登録検索語から外す処理を行う。この未登録検索語候補処理が終ると、次に、ステップ151に進む。
【0095】
ステップ151においては、第i番目の形態素解析部による検索語抽出が終了したか否かを判定する。検索語抽出が終了していなければ、ステップ146に戻り、ステップ146からの処理を繰り返し行う。また、このステップ151の判定処理により、第i番目に対応する形態素解析部による検索語抽出処理の終了が確認できれば、次の形態素解析部による検索語抽出処理を行うため、次のステップ152において、使用する形態素解析部の順序を示す変数iをインクリメントして、つまり、変数iを(i=i+1として)カウントアップし、次のステップ153において、使用可能な各国語対応の形態素解析部の個数nと次に使用する形態素解析部の順序を示す変数iと比較する。
【0096】
この比較の結果、n≧iであれば、第i番目の形態素解析部による検索語抽出処理は完了していないので、ステップ145に戻り、ステップ145からの処理を繰り返し行う。また、n<iであれば、検索語抽出管理テーブルに設定された条件により使用可能状態になっている形態素解析部による解析はすべて終了したことなので、次に、ステップ154に進み、検索語候補群と未登録検索語群の中から検索式を作成する処理を行う。これにより、多言語の文書検索のための検索式が作成されたので、次に、ステップ155において、作成された検索式によりインデックスのキーワードと照合を行い、対応する文書を抽出し、ここでの処理を終了する。
【0097】
次に、多言語文書検索処理の中の検索語抽出処理について説明する。図15のフローチャートを参照する。この処理は、前述したように、図14の多言語文書検索処理の全体の処理フローのステップ146において実行される処理である。ここでの検索語抽出処理を開始し、ステップ161に進むと、ステップ161において、検索語抽出管理テーブルの解析対象文字列タイプで設定された検索条件式の文字列集合に対して形態素解析を行い単語を切り出す。すなわち、前回の文字列集合の形態素解析が終っていない位置から、形態素解析の処理により単語を切り出す。
【0098】
次に、ステップ162において、切り出された単語に不要語が含まれるか否かを判定する。不要語が含まれていなければ、そのまま、ステップ168に進み、直ちに、不要語以外の単語を抽出した検索語とし、ここでの処理を終了とする。また、切り出された単語に不要語が含まれる場合、ステップ163に進み、変数iが“1”であるか否かを判定する。変数iが“1”である場合、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録検索語候補に対する処理はなく、この場合も、ステップ168に進み、不要語以外の単語を抽出した検索語として、ここでの処理を終了する。
【0099】
ステップ163の判定において、変数iが“1”でないと判定された場合、次に、ステップ164に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。解析対象文字列が未登録語群でない場合、ステップ165に進み、切り出された単語により、未登録検索語候補に対して文字列照合を行う。そして、次のステップ166において、その文字列照合の結果を判定する。照合できた場合には、ステップ167に進み、未登録検索語候補から切り出された単語あるいは文字列照合した単語を外し、次に、ステップ168において、不要語以外の単語を抽出した検索語として、この処理を終了する。
【0100】
また、ステップ166の判定において、文字列照合できたことが判定できなかった場合には、ステップ167の処理を行うことなく、ステップ168に進み、不要語以外の単語を抽出した検索語として、ここでの処理を終了する。
【0101】
次に、多言語文書検索処理の中の未登録検索語候補処理について説明する。図16のフローチャートを参照する。この処理は、前述したように、図14の多言語文書検索処理の全体の処理フローのステップ150において実行される処理である。この未登録検索語候補処理を開始して、ステップ171に進むと、まず、現在使っている形態素解析部の順序を示す変数iが“1”であるか否かを判定する。変数iが“1”であれば、前述のように、現在使っている形態素解析部は、第1番目の形態素解析部であるので、未登録検索語候補に対する処理はなく、直ちに、この未登録検索語候補処理の処理を終了する。
【0102】
また、ステップ171の判定において、変数iが“1”でないことが確認できれば、ステップ172に進み、解析順序がi番目の形態素解析の解析対象文字列は未登録語群であるか否かを判定する。すなわち、検索語抽出の条件の制御テーブルにおいて、解析順序が第i番目の形態素解析部に対応のエントリの解析対象文字列タイプフィールドの設定が「未登録語群」であるか否かを判定する。この判定の結果、解析対象文字列タイプが「未登録語群」であれば、ステップ175において、未登録検索語候補から抽出された検索語を外して、この処理を終了する。
【0103】
ステップ172の判定において、解析対象文字列タイプが「未登録語群」でなければ、ステップ173に進み、抽出された検索語を未登録検索語候補に対して文字列照合を行い、次のステップ174において、この文字列照合の結果を判定する。この判定の結果、文字列照合できた場合には、ステップ175に進み、未登録検索語候補から抽出された検索語を外して、この処理を終了する。また、文字列照合できなければ、そのまま、この処理を終了する。
【0104】
このようにして、未登録検索語候補に対する処理が行われ、この結果、先の形態素解析部の処理では未登録検索語候補とされたが、後の形態素解析部の処理で検索語候補とされた単語について、文字列照合を行い、照合された単語については未登録検索語から外す処理を行う。
【0105】
次に、複数の言語で記述された文を含む検索条件の検索条件式により、多言語文書を検索する場合について、具体的に検索条件式を例示して、その動作例を説明する。図17は、多言語で記述された文を含む検索条件の検索条件式の一例を示す図である。図17に示すように、ここでの検索条件179は、日本語と英語の文章が存在する文の検索条件式であり、この検索条件179の文から検索語を切り出し、文書検索を行うする場合について説明する。この場合には、複数の言語で記述された検索条件式の全体に対して、まず日本語での形態素解析を行い、次に、解析されなかった部分について、英語での形態素解析を行って、検索語の抽出を行い、抽出した検索語により検索式を生成し、該当する文書を検索する。
【0106】
この多言語文書登録検索装置には、「英語」,「日本語」,「中国語」,および「アラビア語」対応の4つのそれぞれの言語に対応する形態素解析を行える形態素解析部が設けられている場合、検索語抽出の条件を規定する検索語抽出管理テーブルには、図3(a)に示すキーワード抽出管理テーブル30と同様な内容で、それぞれの形態素解析部の制御の条件の設定がなされているものとする。ここでは、特に、検索語抽出管理テーブルの内容は図示しないが、必要に応じて、図3(a)に示すキーワード抽出管理テーブル30を、検索語抽出管理テーブルと同様なものとして参照する。したがって、この場合の検索語抽出管理テーブルに登録されている形態素解析部の数は“4”(n=4)とカウントされ、同様に、形態素解析管理テーブル(36:図3(b))に、レコード形式で(あるいは変数として)一時的に記憶される。
【0107】
検索語抽出管理テーブルの条件の設定においては、各々の形態素解析部で文書を解析する順番を、例えば、「日本語」,「英語」,「アラビア語」,「中国語」の順とするため、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の順序フィールドの「解析する順番」には、それぞれの言語対応の形態素解析部に対応して、それぞれ順にその順番を「2」,「1」,「4」,「3」と設定する。
【0108】
また、検索語抽出の処理で使用する形態素解析部の言語の種類を、ここでは「日本語」,「英語」,および「中国語」とするので、検索語抽出管理テーブル(キーワード抽出管理テーブル30)において、「日本語」,「英語」および「中国語」の対応のエントリの使用フラグを「ON」とし、「アラビア語」の対応のエントリの使用フラグは「OFF」とする。
【0109】
更に、文書検索の処理の中の検索語抽出の処理で形態素解析する各々の形態素解析部の解析対象の文字列の範囲を特定して、効率よく検索語抽出の処理を実行するため、4つのそれぞれの言語に対応する形態素解析部に対して、2番目以降に設定している形態素解析の処理では、解析の対象とする文字列群を必ずしも常に検索条件式の文の全体を範囲とせず、解析の対象とするテキストあるいは文字列の範囲あるいはそれらの集合を指定する。
【0110】
このため、キーワード抽出の場合と同様に、図3(c)に示すように、解析対象文字列タイプ設定テーブル37において、予め定義している形態素解析を行う文字列の範囲に対応する解析対象文字列タイプを、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の中の各エントリの解析対象文字列タイプとして設定する。この例では、検索語抽出管理テーブルの解析対象文字列タイプとして、「英語」,「日本語」,「中国語」,および「アラビア語」対応の形態素解析部に対応して、それぞれ「未登録語群」,「テキスト−ALL」,「未登録語群」,「テキスト−範囲指定」と設定する。
【0111】
したがって、この場合、日本語対応の形態素解析部では、文書の全体を解析対象とするが、英語対応の形態素解析部および中国語対応の形態素解析部では、解析対象を未登録語群としている。なお、第1番目で形態素解析を行う形態素解析部に関しては、デフォルトで「テキスト−ALL」として必ず最初は登録文書の文書の全体を解析するように強制的に設定し直される。
【0112】
このようにして検索語抽出管理テーブル(キーワード抽出管理テーブル30)により、使用する各々の形態素解析部の順番,解析対象文字列範囲などの条件が設定されると、設定された条件に従って各々の形態素解析部が制御されて、検索語抽出の処理が実行される。検索語抽出の処理が開始されると、まず、順番が第1番目に設定されている形態素解析部を用いて形態素解析を行う。この例では、順序が1番目の「日本語対応」の形態素解析部により、その「使用フラグ」が“ON”になっていることを確認してから(ステップ145)、この形態素解析部に対応して設定された文字列集合に対して検索語抽出を行う。つまり、この場合には「テキスト−ALL」が設定されているので、検索条件式の全てのテキストに対して検索語抽出を行う(ステップ146)。
【0113】
検索語抽出の処理(図15)においては、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする処理を行う。「日本語」の形態素解析の処理は、第1番目の解析処理であるため、未登録検索語候補に対する不要語の処理は行わない。そして、次に抽出された検索語が日本語形態素解析用の辞書に登録されているかどうかを判定し(ステップ147)、登録されているものについては、対応する検索条件式と共に検索語候補として記憶する(ステップ148)。
【0114】
図18(a)および図18(b)は、日本語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図である。例えば、図17に示すような検索条件式179の多言語の文「イラク部隊の撤退とパトリオットミサイルとMinistry of Education」に対し、「日本語」の形態素解析による全ての検索語候補の登録処理が終った段階では、図18(a)に示すように、検索語候補保持部の検索語候補181には、検索語候補として、形態素解析により切り出した単語の「イラク」,「部隊」,「撤退」,「ミサイル」が記憶されると共に、一方、形態素解析用の辞書に登録されていないものは「日本語」の形態素解析による全ての未登録検索語候補の登録処理が終った段階で、図18(b)に示すように、未登録検索語候補保持部の未登録検索語候補182には、同じく、「日本語」の形態素解析によって切り出した「パトリオット」,「Ministry」,「of」,「Education」が、未登録検索語候補として記憶される。
【0115】
このようにして、「日本語」の形態素解析による処理が終了すると、続いて、次の対応する言語の「英語」の形態素解析による処理を開始する。この場合において、前述の場合と同様に、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の条件に従って、順序が2番目の「英語」の形態素解析部による処理を行うが、その場合にも、その「使用フラグ」も“ON”になっていることを確認してから(ステップ145)、この形態素解析部に対応して設定された文字列集合に対して検索語抽出を行う。つまり、この場合には検索語抽出管理テーブル(キーワード抽出管理テーブル30)の解析対象文字列タイプとして、「未登録語群」が設定されているので、図18(b)に示すように、未登録検索語候補保持部の未登録検索語候補182の文字列に対して、検索語抽出の処理を行う(ステップ146)。
【0116】
この場合の検索語抽出の処理(図15)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする。つまり、この処理により、未登録語検索語候補に対する不要語の処理として、不要語と判断される「of」が、未登録検索語候補から外される。そして、抽出された検索語が英語形態素解析用の辞書に登録されているか否かを判定し(ステップ147)、登録されているものについては、対応する検索条件式と共に検索語候補として記憶する(ステップ148)。
【0117】
図19(a)および図19(b)は、次の英語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図である。図18(b)の未登録検索語候補182に対して、「英語」の形態素解析による全ての登録処理が終った段階において、その文字列「Ministry」,「Education」に対して、英語対応の形態素解析部での形態素解析が行われて、その結果、切り出された単語の中で、英語形態素解析用の辞書に登録されている単語を、図19(a)に示すように、検索語候補保持部の検索語候補191に、検索語候補として「ministry」および「education」が、追加記憶される。また、前述の場合と同様に、この説明の形態素解析の処理の中では、特に触れていないが、形態素解析により単語を切り出す際に、大文字を小文字に統一する表語を標準形に統一する処理が、同時に行われる。このようにして、1つの言語の形態素解析では、未登録検索語候補とされた単語を、別の言語での形態素解析を行うことによって検索語候補として抽出し、その検索語候補として抽出された検索語を、未登録検索語候補から外す処理を行う。
【0118】
この結果、英語対応の形態素解析用の辞書に登録されていないもの、この例の場合には「パトリオット」が残るので、これを未登録語検索語候補として記憶する。「英語」の形態素解析による全ての検索語抽出の処理が終った段階では、図19(b)に示すように、未登録検索語候補保持部の未登録検索語候補192として「パトリオット」が記憶されている状態になる。
【0119】
このようにして、「英語」の形態素解析による処理が終了すると、続いて、第3番目の順序の言語対応する形態素解析部による処理に入る。つまり、次の対応する言語の「アラビア語」対応の形態素解析部による処理に入ることになるが、しかし、検索語抽出管理テーブル(キーワード抽出管理テーブル30)において「アラビア語」の形態素解析部の「使用フラグ」は“OFF”になっているので、この場合には、前述の場合と同様に、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の条件に従って、順序が3番目の「アラビア語」対応の形態素解析部の「使用フラグ」の“ON”が確認できず(ステップ145)、この「アラビア語」対応の形態素解析部による処理はスキップする。
【0120】
このようにして、第3番目の順序の言語に対応する形態素解析部による処理がスキップされると、続いて、第4番目の順序の言語に対応する形態素解析部による処理に入る。この場合においても、前述の場合と同様に、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の条件に従って処理が進められる。この場合、順序が第4番目の「中国語」対応の形態素解析部の「使用フラグ」は“ON”になっていることが確認できるので(ステップ45)、この「中語語」対応の形態素解析部によって、その対応に設定された文字列集合に対して検索語抽出を行う。この場合、検索語抽出管理テーブル(キーワード抽出管理テーブル30)の解析対象文字列タイプには、その解析対象文字列タイプとして「未登録語群」が設定されているので、図19(b)に示す未登録検索語候補保持部の未登録検索語候補192に記憶されている文字列に対して、続いて形態素解析を行い、その検索語抽出の処理を行う(ステップ146)。
【0121】
この場合の検索語抽出の処理(図15)においても、前述の場合と同様に、切り出された単語のうち不要語として判断されるようなもの以外を検索語とする処理を行うが、該当するものはなく、また、未登録検索語候補保持部の未登録検索語候補192として記憶されている文字列に対しては「中国語」に該当するものはないため、「中国語」の形態素解析による検索語抽出の処理が終了しても、図19(a)および図19(b)に示すように、検索語候補記憶部および未登録検索語候補記憶部の内容の変化はない。
【0122】
このようにして、全ての言語に対する形態素解析による検索語の抽出の処理が終了すると、これまでの処理により抽出した検索語の内容に従って、図20に示すように、検索式200が作成される。検索式200は、多言語の文書検索のための検索キー201と未登録語フラグ202の配列となっており、検索式200により、その検索キー201と未登録語フラグ202が、例えば、図12に示すようなインデックステーブル120のインデックス(キーワード,文書ID,未登録語フラグ)と照合され、その対応の文書IDから多言語文書(図9)が読み出される。
【0123】
【発明の効果】
以上に説明したように、本発明の多言語文書登録検索装置によれば、1か国以上の言語で記述され文を含む文書あるいは検索条件式があり、それらの文書を登録し、また、検索条件式により検索を行う場合、可能な限り記述された言語に対応する形態素解析部の処理を組合せて、できる限り、精度を上げて単語を切り出せるようにしている。このため、登録の際に作成するインデックスのサイズもコンパクトにできる。また、文書検索の際にも、インデックスとの照合の精度(再現率)を上げることができる。また、キーワード抽出管理テーブルに「解析する順番」、「使用フラグ」そして、「解析対象文字列のタイプ」といったキーワード抽出における条件の制御情報を埋め込むことによって、各形態素解析で単に対象テキストを重複して解析するのでなく、状況に応じて最適に効率的に解析できるようになる。これらの条件は、ユーザによりカスタマイズすることにより、ユーザに対応して任意に多言語文書の登録および検索が可能となる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例にかかる多言語文書登録検索装置の構成を示すブロック、
【図2】 図2は多言語キーワード抽出部の要部の構成を示すブロック図、
【図3】 図3はキーワード抽出処理を行う場合に用いられる制御テーブルの内容を説明する図、
【図4】 図4は多言語文書登録処理の全体の処理フローを示すフローチャート、
【図5】 図5は多言語文書登録処理の中のキーワード抽出管理テーブルの条件の設定処理の処理フローを示すフローチャート、
【図6】 図6は多言語文書登録処理の中の解析対象文字列範囲の設定処理の処理フローを示すフローチャート、
【図7】 図7は多言語文書登録処理の中のキーワード抽出処理の処理フローを示すフローチャート、
【図8】 図8は多言語文書登録処理の中の未登録キーワード候補処理の処理フローを示すフローチャート、
【図9】 図9は多言語文書の一例を示す図、
【図10】 図10(a)および図10(b)は日本語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図、
【図11】 図11(a)および図11(b)は次の英語対応の形態素解析部によるキーワード抽出処理が終った段階のキーワード候補保持部および未登録キーワード候補保持部の内容を対比して示す図、
【図12】 図12は作成された多言語対応のインデックステーブルの一例を示す図、
【図13】 図13は多言語インデックス照合部の要部の構成を示すブロック図、
【図14】 図14は多言語文書検索処理の全体の処理フローを示すフローチャート、
【図15】 図15は多言語文書検索処理の中の検索語抽出処理の処理フローを示すフローチャート、
【図16】 図16は多言語文書検索処理の中の未登録検索語候補処理の処理フローを示すフローチャート、
【図17】 図17は多言語で記述された文を含む検索条件の検索条件式の一例を示す図、
【図18】 図18(a)および図18(b)は、日本語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図、
【図19】 図19(a)および図19(b)は、次の英語対応の形態素解析部による検索語抽出処理が終った段階の検索語候補保持部および未登録検索語候補保持部の内容を対比して示す図、
【図20】 図20は多言語の検索条件式により生成された検索式の一例を示す図である。
【符号の説明】
1…入力処理部、2…多言語キーワード抽出部、3…テキストデータベース部、4…インデックス登録部、5…インデックスファイル部、11…検索条件入力部、12…多言語インデックス登録部、13…表示部、14…テキスト抽出部、21a…第1番目の形態素解析部、21b…第1番目の辞書ファイル部、22a…第2番目の形態素解析部、22b…第2番目の辞書ファイル部、23a…第N番目の形態素解析部、23b…第N番目の辞書ファイル部、24…キーワード候補保持部、25…未登録キーワード候補保持部、26…キーワード/未登録キーワード決定部、27…順序設定部、28…インデックス登録部、29…インデックスファイル部、30…キーワード抽出管理テーブル、31…番号フィールド、32…対応言語種別フィールド、33…順番フィールド、34…使用フラグフィールド、35…解析対象文字列タイプフィールド、36…形態素解析管理テーブル、37…解析対象文字列タイプ設定テーブル、99…多言語文書、100…キーワード候補記憶部、101…文書(fileID)、102…キーワード候補、103…未登録キーワード候補記憶保持部、104…文書(fileID)、105…未登録キーワード候補、110…キーワード候補記憶部、111…文書(fileID)、112…キーワード候補、113…未登録キーワード候補記憶保持部、114…文書(fileID)、115…未登録キーワード候補、120…インデックステーブル、121…抽出されたキーワード、122…文書(fileID)、123…未登語フラグ、131a…第1番目の形態素解析部、131b…第1番目の辞書ファイル部、132a…第2番目の形態素解析部、132b…第2番目の辞書ファイル部、133a…第N番目の形態素解析部、133b…第N番目の辞書ファイル部、134…検索語候補保持部、135…未登録検索語候補保持部、136…検索式決定部、137…順序設定部、179は検索条件、181…検索語候補、182…未登録検索語候補、191…検索語候補、192…未登録検索語候補、200…検索式、201…検索キー、202…未登録語フラグ。
Claims (9)
- 複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、
複数の言語の文を含む文書を格納する多言語文書格納手段と、
前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、
検索条件を入力する検索条件入力手段と、
前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段と、
キーワードと単語の照合結果により検索条件に適合する文書を読み出す読出し手段と
を備えることを特徴とする多言語文書登録検索装置。 - 請求項1に記載の多言語文書登録検索装置において、
前記キーワード抽出手段は、
切り出し対象言語が異なる複数の単語切り出し手段と、
前記複数の単語切り出し手段の処理優先度を設定する設定手段と、
前記複数の単語切り出し手段を処理優先度に従って制御し、文書から単語を切り出し、キーワードを抽出するキーワード抽出制御手段と、
抽出されたキーワードと該キーワードの単語が切り出された文書の識別子を対応させてインデックスに登録するインデックス登録手段と
を備えることを特徴とする多言語文書登録検索装置。 - 請求項2に記載の多言語文書登録検索装置において、
前記キーワード抽出制御手段は、ある処理優先度の単語切り出し手段で識別不能とされた語を、次の処理優先度の単語切り出し手段で処理し、切り出された単語については、該単語の識別子をキーワードとし、複数の単語切り出し手段で最後まで識別不能とされた単語については、該単語をキーワードとする
ことを特徴とする多言語文書登録検索装置。 - 請求項1に記載の多言語文書登録検索装置において、更に、
登録する文書を入力してキーワード抽出を指示する入力手段と、
登録する文書,インデックスおよび該辞書ファイルに登録されていない単語を保持する保持手段と
を備えることを特徴とする多言語文書登録検索装置。 - 請求項4に記載の多言語文書登録検索装置において、
前記キーワード抽出手段は、
複数の言語の文から構成される文書からそれぞれの言語の文に対応して形態素解析により単語を切り出す複数の単語切出し手段と、
前記複数の単語切り出し手段がそれぞれに参照する言語に対応する辞書を格納する複数の辞書ファイルと、
前記複数の単語切出し手段を適用する順番の設定を行う順序設定手段と、
前記順序設定手段により設定された順に複数の単語切り出し手段を制御して前記文書から対応する多言語の文の単語を切り出す制御を行う制御手段と
を備えることを特徴とする多言語文書登録検索装置。 - 請求項5に記載の多言語文書登録検索装置において、更に、
単語切出し手段により未登録語として判断された単語に関しては一時的に未登録キーワード候補として保持する未登録キーワード候補保持手段と、
それ以外の辞書から抽出された単語に関しては一時的にキーワード候補として保持しておくキーワード候補保持手段と
を備え、前記制御手段は、
1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録キーワード候補として前記未登録キーワード候補保持手段に保持し、辞書から抽出された単語に関してはキーワード候補として、前記キーワード候補保持手段に保持する処理を行い、
順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録キーワード候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録キーワード候補保持手段に残し、辞書から抽出された単語に関しては前記未登録キーワード候補保持手段より削除し、前記キーワード候補保持手段に追加保持する処理を行い、
最終的に前記キーワード候補保持手段に保持されたキーワード候補をキーワードとし、前記未登録キーワード候補保持手段に保持された未登録キーワードを未登録キーワードとして対応する文書の識別子と共にインデックスに登録する
ことを特徴とする多言語文書登録検索装置。 - 複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置において、
複数の言語の文を含む文書を格納するテキストデータベースと、
前記文書に対し異なる言語の文に対応している複数の単語切り出し手段を制御して形態素解析を行い、文書のキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段により抽出されたキーワードを対応する文書の識別子と共にインデックスとして登録するインデックス登録手段と、
検索条件を入力する検索条件入力手段と、
前記検索条件入力手段によって入力された検索条件から単語を切り出し、切り出した単語とインデックスのキーワードとを照合するインデックス照合手段と、
前記インデックス照合手段の照合結果により、対応する文書を前記テキストデータベースから抽出する抽出手段と
を備えることを特徴とする多言語文書登録検索装置。 - 請求項7に記載の多言語文書登録検索装置において、
前記インデックス照合手段は、
複数の言語から構成される文書からそれぞれ対応の言語の文に対して形態素解析を行って単語を切り出す複数の単語切出し手段と、
複数の単語切出し手段を組み合わせて当該前記単語切出し手段を適用する順番を設定する順序設定手段と、
前記順序設定手段により設定した順に検索条件入力手段によって入力された検索条件の単語を切り出す制御を行う制御手段と
を有することを特徴とする多言語文書登録検索装置。 - 請求項8に記載の多言語文書登録検索装置において、更に、
単語切出し手段により未登録語として判断された単語に関しては一時的に未登録検索語候補として保持する未登録検索語候補保持手段と、
それ以外の辞書から抽出された単語に関しては一時的に検索語候補として保持しておく検索語候補保持手段と
を備え、前記制御手段は、
1段目の単語切出し手段を制御して、複数の言語の文を含む文書を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、一時的に未登録検索語候補として前記未登録検索語候補保持手段に保持し、辞書から抽出された単語に関しては検索語候補として、前記検索語候補保持手段に保持する処理を行い、
順次に各々の単語切出し手段を制御して、前段の単語切り出し手段により前記未登録検索語候補保持手段に保持された未登録語候補を入力として、形態素解析により単語の切り出しを行い、未登録語と判断された単語に関しては、そのまま前記未登録検索語候補保持手段に残し、辞書から抽出された単語に関しては前記未登録検索語候補保持手段より削除し、前記検索語候補保持手段に追加保持する処理を行い、
最終的に前記検索語候補保持手段に保持された検索語候補を検索語とし、前記未登録検索語候補保持手段に保持された未登録検索語を未登録検索語として、インデックス照合し、対応する文書をテキストデータベース部により抽出して結果情報を出力する
ことを特徴とする多言語文書登録検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22114995A JP3666066B2 (ja) | 1995-08-08 | 1995-08-08 | 多言語文書登録検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22114995A JP3666066B2 (ja) | 1995-08-08 | 1995-08-08 | 多言語文書登録検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0950442A JPH0950442A (ja) | 1997-02-18 |
JP3666066B2 true JP3666066B2 (ja) | 2005-06-29 |
Family
ID=16762242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22114995A Expired - Fee Related JP3666066B2 (ja) | 1995-08-08 | 1995-08-08 | 多言語文書登録検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3666066B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331496A (ja) * | 2000-05-22 | 2001-11-30 | Nec Corp | ドメイン用語辞書作成システム及び方法 |
US20060059424A1 (en) * | 2004-09-15 | 2006-03-16 | Petri Jonah W | Real-time data localization |
JP5224851B2 (ja) * | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6231475A (ja) * | 1985-08-02 | 1987-02-10 | Canon Inc | 自然言語処理装置 |
JPH0421180A (ja) * | 1990-05-16 | 1992-01-24 | Matsushita Graphic Commun Syst Inc | 文書検索装置 |
-
1995
- 1995-08-08 JP JP22114995A patent/JP3666066B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0950442A (ja) | 1997-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
US5983171A (en) | Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program | |
US5303150A (en) | Wild-card word replacement system using a word dictionary | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US20050097080A1 (en) | System and method for automatically locating searched text in an image file | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JPH09198395A (ja) | 文書検索装置 | |
JP3666066B2 (ja) | 多言語文書登録検索装置 | |
US20040054677A1 (en) | Method for processing text in a computer and a computer | |
JPH0877196A (ja) | 文書情報抽出装置 | |
JPH06195371A (ja) | 未登録語獲得方式 | |
JPH07325826A (ja) | 日本語処理システム | |
KR102338949B1 (ko) | 기술문서 번역 지원 시스템 | |
JPH0750486B2 (ja) | キ−ワ−ド抽出装置 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JP3187671B2 (ja) | 電子辞書表示装置 | |
JPH0635971A (ja) | 文書検索装置 | |
JPH0561902A (ja) | 機械翻訳システム | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
JPH08115340A (ja) | 文書検索装置およびそれに用いるインデックスファイルの作成装置 | |
KR20020003701A (ko) | 디지털 문서의 키워드를 자동으로 추출하는 방법 | |
JPH0954781A (ja) | 文書検索システム | |
JP3375978B2 (ja) | 文書処理装置 | |
JPH06266765A (ja) | 文章検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040316 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050328 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080415 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090415 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100415 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110415 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120415 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130415 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |