JP3698400B2

JP3698400B2 - 多言語文書処理装置、多言語文書処理方法及び記録媒体

Info

Publication number: JP3698400B2
Application number: JP24056599A
Authority: JP
Inventors: 修片山; 隆正小山
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-08-26
Filing date: 1999-08-26
Publication date: 2005-09-21
Anticipated expiration: 2019-08-26
Also published as: JP2001067368A

Description

【０００１】
【発明の属する技術分野】
本発明は、情報処理分野における多言語文書の登録検索に利用される多言語文書処理装置、多言語文書処理方法及びその多言語文書処理方法を実行するプログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
近年のコンピュータやワードプロセッサの普及により、電子化された大量の文書データが蓄積され、必要に応じて文書データを検索する文書データベースの実用化が進んでいる。文書データベースにおいては、通信ネットワークの発達や国際化に伴い、複数の言語が混在した多言語文書のデータを扱う機会が増加しつつある。
【０００３】
多言語文書を蓄積して管理する文書データベースにおける従来の多言語文書処理方法を図１６及び図１７に基づいて説明する。
多言語文書を登録する際には、入力された登録すべき多言語文書データに基づいて、多言語索引作成部５０１において検索用の多言語の索引を作成し、多言語索引格納部５０２に格納する。また、多言語文書データの実体を実体格納部５０３に格納する。検索を行う際には、入力された検索条件を示す検索文字列を基に、多言語索引照合部５０４によってその検索文字列と多言語索引格納部５０２に格納されている多言語索引とを照合し、検索条件に合致した文書の情報を検索結果として出力する。そして、この検索結果に基づき、実体抽出部５０５によって対応する多言語文書データの実体を実体格納部５０３から抽出し、多言語文書として出力する。
【０００４】
このような多言語文書データの索引や実体を格納する場合、図１７に示すように、カラムとレコードからなる表形式のデータベース構造を用いて、そのデータベースにおける複数のカラム５１１，５１２，５１３…にそれぞれ多言語文書データを格納するような方法が一般に採られている。カラム５１１〜５１３には、アクセスする単位としてカラムごとに属性（文書名など）が定義され、それぞれのカラムは対応する属性によってのみアクセスが可能となっている。このとき、カラム５１１に多言語文書データ全体をそのまま格納するか、カラム５１１に多言語文書データの任意の部分を格納し、カラム５１２，５１３に多言語文書データのその他の部分を格納する。このように従来では、複数言語を含む多言語文書データを、そのまま文書の構成に従って単数又は複数のカラムに格納し、検索等を行うようになっていた。
【０００５】
多言語の情報を処理する装置としては、特開平１−２１３７４４号公報、特開平１１−３３３８号公報などに開示されているものがあり、特に多言語文書の登録検索に関するものとして、特開平９−５０４４２号公報には複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置が開示されている。
【０００６】
また、複数のカラムに対するアクセスに関する方法としては、特開平６−６８１５１号公報のように該当するカラムと別テーブルのカラムをリンクさせる方法、特開平６−２２３１１８号公報のようにデータ構造の論理定義情報に結合情報などを含める方法、特開平８−１３７７３５号公報のように仮想的エンティティを記述するテーブルを設ける方法などが開示されている。
【０００７】
【発明が解決しようとする課題】
上述したような従来の多言語文書処理装置及び方法では、多言語文書データを格納して管理する場合に、格納領域としては特に言語を意識することなく複数言語が混在した状態で格納するようになっていた。このため、多言語文書データの管理に手間がかかったり、検索等を行う際のアクセスに時間がかかるなどの問題点が生じていた。また、多言語文書データが格納された複数のカラムにアクセスする場合に、従来ではアクセス手順が複雑化し、高速検索が困難であるなどの問題点があった。
【０００８】
本発明は、上記事情に鑑みてなされたもので、多言語文書に関する情報を言語ごとに区別して管理することができ、各情報に素早くアクセスして検索等の処理を容易かつ高速に行うことが可能な多言語文書処理装置、多言語文書処理方法及び記録媒体を提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明による多言語文書処理装置は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別手段と、前記多言語文書データに関する索引を言語別に作成する索引作成手段と、前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備えたものである。
【００１０】
また、好ましくは、前記索引格納手段は、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を備えており、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することとする。
【００１１】
また、好ましくは、前記索引格納手段は、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを備えており、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することとする。
【００１２】
また、好ましくは、前記索引格納手段は、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を備え、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納するものであり、前記検索手段は、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うこととする。
【００１３】
さらに、前記格納言語種別は、前記格納部を構成する一つのカラム又は格納領域に対して唯一の言語種別がそれぞれ設定されることが好ましい。
【００１４】
また、前記索引格納手段は、前記複数の格納部としてデータベースにおける一つのカラムを分割してそれぞれに格納言語種別と検索言語種別とを設定した複数の格納領域を備えており、前記格納言語種別は、前記一つの格納領域に対して唯一の言語種別がそれぞれ設定され、これらの格納言語種別のうちの一つが前記カラムの言語種別として設定されることが好ましい。
【００１５】
また、前記検索言語種別は、少なくとも一つの言語種別を含む言語種別の組からなり、この言語種別の組がそれぞれの格納部を構成する一つのカラム又は格納領域に対して設定され、この検索言語種別における一つの言語種別は当該格納部に設定された格納言語種別であることが好ましい。
【００１６】
また、好ましくは、前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割手段を備え、前記索引作成手段は、前記言語別のページごとに索引を作成することとする。
【００１７】
また、好ましくは、前記多言語文書データの実体をデータベースにおける一つのカラムに又は複数のカラムに別々に格納する実体格納手段を備え、この多言語文書データの実体と前記多言語文書データの索引とは別々の格納手段に格納することとする。
【００１８】
また、好ましくは、前記言語識別手段は、多言語文書データに含まれる言語識別情報により言語を識別するものであり、前記索引作成手段は、前記言語識別情報を所定の特殊文字に変換し、該特殊文字を含む全ての文字の文字連鎖を言語別に作成することとする。
【００１９】
また、好ましくは、前記索引作成手段は、多言語文書データの単語又は２文字の連語を所定の対応文字に変換し、該対応文字を含む全ての文字の文字連鎖を言語別に作成することとする。
【００２０】
さらに、前記索引作成手段は、多言語文書データが１文字からなる場合は、その文字に全ての文字と結合可能でかつ検索対象とならない所定の特殊文字を付加して文字連鎖を作成することが好ましい。
【００２１】
また、前記索引は、該当する多言語文書データの文書を識別する文書情報と、該文書を所定単位ごとに分割したページを示すページ情報と、該文書内又はページ内における文字の相対的な出現順位或いは絶対的な出現位置の情報とを含むことが好ましい。
【００２２】
また、本発明による多言語文書処理装置は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別手段と、前記多言語文書データを言語別でかつ所定単位ごとの複数のページに分割するページ分割手段と、前記多言語文書データに関する索引を前記言語別のページごとに作成する索引作成手段と、前記索引を言語ごとに格納する索引格納手段と、を備えたものである。
【００２３】
また、好ましくは、前記多言語文書データの実体を格納する実体格納手段を備えることとする。
【００２４】
また、好ましくは、前記言語ごとの索引を使用して検索文字列に該索引が含まれるか否かを判定して多言語文書データの検索を行う検索手段を備えることとする。
【００２５】
また、好ましくは、前記言語識別手段は、多言語文書データに含まれる言語識別情報により言語を識別するものであり、前記ページ分割手段は、前記言語識別情報から次の言語識別情報までの文字列を１つのページ又は所定単位ごとに分割した連続するページとして、複数のページに分割してページに格納することとする。
【００２６】
また、好ましくは、前記索引作成手段は、該当する多言語文書データの文書を識別する文書番号と、該文書におけるページを示すページ情報と、該文書内又はページ内における文字の相対的な出現順位或いは絶対的な出現位置の情報とを含むものを索引とすることとする。
【００２７】
また、好ましくは、前記検索手段による検索結果に基づいて検索文字列を含む多言語文書データの文書情報を取得し、この文書情報に該当する文書の多言語文書データの実体を抽出する実体抽出手段を備えることとする。
【００２８】
本発明による多言語文書処理方法は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別ステップと、前記多言語文書データに関する索引を言語別に作成する索引作成ステップと、前記索引を言語ごとに格納する索引格納ステップと、を有するものである。
【００２９】
また、好ましくは、前記索引格納ステップにおいて、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を設け、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することとする。
【００３０】
また、好ましくは、前記索引格納ステップにおいて、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを設け、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することとする。
【００３１】
また、好ましくは、前記言語ごとの索引を使用して多言語文書データの検索を行う検索ステップを有し、前記索引格納ステップにおいて、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を設け、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納し、前記検索ステップにおいて、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うこととする。
【００３２】
また、好ましくは、前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割ステップを有し、前記索引作成ステップにおいて、前記言語別のページごとに索引を作成することとする。
【００３３】
また、本発明による多言語文書処理方法は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別ステップと、前記多言語文書データを言語別でかつ所定単位ごとの複数のページに分割するページ分割ステップと、前記多言語文書データに関する索引を前記言語別のページごとに作成する索引作成ステップと、前記索引を言語ごとに格納する索引格納ステップと、を有するものである。
【００３４】
本発明による記録媒体は、本発明に係る多言語文書処理方法を実行するためのプログラムとして記録したコンピュータにより読み取り可能なものである。
【００３５】
本発明では、多言語文書処理における文書管理において、複数の言語の文字を含む多言語文書データの言語を識別し、多言語文書データに関する索引を言語別に作成して、この索引を言語ごとに格納する。この際、データベースにおける１つのカラムに複数の言語の格納領域を備え、言語別に１つの格納領域又は複数の格納領域にデータを格納するか、又は、１つのカラムに格納するデータの言語を設定してデータの格納時に複数のカラムの中から該当する言語のカラムを識別して格納する。これにより、多言語文書データを言語別に処理し言語別に格納することが可能となる。或いは、１つの多言語文書データに対して所定単位ごとの複数のページに分割し、言語種別ごとでページごとに索引を作成して言語別に格納する。これにより、検索文字列指定時に言語種別及びページごとに索引にアクセスして検索することが可能となる。
【００３６】
上記作用により、複数の異なる種類の言語に関するデータを各々別々に又は種類別に取り扱うことが可能となり、データ管理上の手順が簡略化される。また、登録時のデータ格納や検索時のデータ照合などのためにカラム又はその中の格納領域にアクセスする際に、言語種別によって対応する格納領域のみにアクセスすることが可能であるため、容易かつ素早いアクセスによって多言語文書データの高速な登録や検索が可能となる。
【００３７】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
本実施形態では、多言語文書処理装置及び方法として、多言語文書を管理するにあたり、検索のための索引の作成及び格納処理、その索引を用いた検索処理について説明する。なお、それぞれの実施形態の説明では、本発明に係る多言語文書処理装置及び方法について詳述するが、本発明に係る記録媒体については、多言語文書処理方法を実行させるためのプログラムを記録した記録媒体であることから、その説明は以下の多言語文書処理方法の説明に含まれるものである。
【００３８】
［第１実施形態］
図１は本発明の第１実施形態に係る多言語文書処理装置の機能的概略構成を示すブロック図、図２は多言語文書データを格納及び参照する部分の機能的構成を示すブロック図である。
【００３９】
図１に示すように、本実施形態の多言語文書処理装置は、多言語文書データに関する索引等を言語ごとに分けて格納し管理する構成となっており、入力された登録すべき多言語文書データを各言語別に識別する言語識別手段に該当する登録文字列言語識別部１１、多言語文書データの言語別索引を作成する索引作成手段に該当する言語別索引作成部１２、作成した索引データを言語別に設けられた格納領域に格納する索引格納手段に該当する言語別索引格納部１３、登録する多言語文書の実体データを格納する実体格納手段に該当する実体格納部１４、検索時に入力された検索文字列を各言語別に識別する検索文字列言語識別部１５、検索文字列の言語別索引を作成する検索文字列言語別索引作成部１６、検索文字列の言語別索引と登録された多言語文書の言語別索引とを照合して検索を行う検索手段に該当する言語別索引照合部１７、言語別索引の照合に基づく検索結果により多言語文書の実体データを抽出する実体抽出部１８を有している。
【００４０】
図２は、第１実施形態における多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納し参照する機能部分を示したものである。第１実施形態では、言語種別により多言語文書データ（索引データ又は実体データ）の格納先を切り替える入出力切替部２１、多言語文書データの格納先を識別する言語種別に関する情報を記憶する言語種別記憶部２２、言語種別が言語α、言語β、言語γのデータをそれぞれ格納するデータ格納部２３，２４，２５を有している。この図２に示す部分は、図１に示す多言語文書処理装置において主に言語別索引格納部１３に対応する。
【００４１】
入出力切替部２１は、言語種別記憶部２２に記憶されている言語種別の情報を参照して入出力を切り替え、格納や参照のためにアクセスする多言語文書データの言語種別が言語αの場合は言語αデータ格納部２３に、言語βの場合は言語βデータ格納部２４に、言語γの場合は言語γデータ格納部２５にそれぞれアクセスできるように、データの入出力を行う。なお、ここでは、説明のため言語種別のとる値の範囲を言語αから言語γの３つとしているが、この言語種別の値の範囲は制限がなく、言語種別に対応するデータ格納部は２つ以上でいくつあってもよい。
【００４２】
図３は第１実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第１実施形態では、データベース構造における一つのカラムを複数の格納領域に分割し、各格納領域に言語種別ごとに分けた多言語文書データをそれぞれ格納する。
【００４３】
図３（Ａ）に示すように、カラム３１は、文書名などのアクセスする単位を表す属性（カラム名）３２が定義され、この属性３２によって対応するカラムにアクセスして多言語文書データの格納や参照が可能となっている。このカラム３１は、データ格納部２３，２４，２５に対応するように、言語α，言語β，言語γの言語種別ごとに設けられた複数の格納領域３３Ａ，３３Ｂ，３３Ｃに分割された構成となっている。また、図３（Ｂ）に示すように、言語種別記憶部２２に対応して、カラム３１内の各格納領域に割り当てた言語種別を示す言語種別情報３６が設定され、カラム３１の外部又は内部の所定箇所に記憶されている。
【００４４】
このような構成のカラム３１にアクセスする場合、複数の格納領域３３Ａ，３３Ｂ，３３Ｃの中から、言語種別情報３６に基づいていずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスする。このとき、属性を指定することによって該当するカラムへのアクセスを指示すると、アクセス対象となる多言語文書データの言語種別に応じて、カラム内の対応する言語種別の格納領域にのみアクセスが可能となる。多言語文書データを属性３２のカラム３１に格納する際、言語種別情報３６を参照して、格納するデータの言語種別が言語αの場合は格納領域３３Ａが、言語βの場合は格納領域３３Ｂが、言語γの場合は格納領域３３Ｃが、それぞれ選択され、選択された格納領域にデータが格納される。なお、ここでは、カラム３１には３つの格納領域がある場合を示しているが、格納領域の数は多言語文書データの言語種別の数に応じていくつでも構わない。
【００４５】
また、多言語文書の実体データは、１つのカラムにまとめて或いは複数のカラムに別々に格納し、索引データと実体データとを別々の格納手段（カラム、ファイル、ディレクトリ、ディスク等の記録媒体など）に格納するようにする。
【００４６】
このように、データベースのカラムにおいて複数のデータ格納領域を設定し、言語種別による格納領域の選択を行う機能を設けることにより、１つの属性に対応するカラムに対して複数の言語別に格納領域を選択してデータを格納することが可能となる。
【００４７】
次に、上記のような多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、一つのカラムに日本語と英語の索引をそれぞれの言語別の格納領域に格納し検索する場合の動作手順について説明する。
【００４８】
図４は日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図、図５は言語種別を識別するための言語識別情報や英単語又は英連語を置き換える特殊文字を示す説明図、図６は登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【００４９】
ここでは、図４に示すように、属性が「本文」のカラム４１に言語種別が英語の格納領域４２Ａと言語種別が日本語の格納領域４２Ｂとを設け、それぞれの言語の索引を格納する場合を例示する。本実施形態では、多言語文書データにおいて、言語識別情報として、以下の文字列が日本語であることを表す＜日本語＞と、英語であることを表す＜英語＞とがそれぞれ設けられているものとする。また、日本語の文字は２バイト、英語の文字は１バイトで、それぞれが分かち書き文となっているとする。なお、言語識別情報は、上記のように言語が切り換わる位置で文字列ごとに設けるもの（タグなど）に限らず、個々の文字ごとに設けても良い。言語識別情報としては、構造化文書のタグ、文字のフォントを切り換えるためのフォント情報を含む識別コードや制御コード、JIS X 0202(ISO 2022)拡張符号化方式のエスケープシーケンスなどを用いることができるし、文字コードによっては言語識別情報が無くても言語種別が判別可能な場合は特に言語識別情報を設けていない多言語文書データであっても以下と同様にして言語別に索引を作成して格納することが可能である。
【００５０】
図５（Ａ）は言語識別情報と置き換える特殊文字との対応を示したものであり、索引を作成するときには、「＜日本語＞」は「^V」の特殊文字に、「＜英語＞」は「^W」の特殊文字にそれぞれ置き換える。また、英語の索引を作成する場合は、図５（Ｂ）に示すように英単語を表す文字列をまとめて１文字の特殊文字に置き換えたり、図５（Ｃ）に示すように英連語（英語のアルファベット文字列）をまとめて（ここでは２文字ごと）１文字の特殊文字に置き換える。ここでは、図５（Ｂ）のように英語文字列の単語「This」を「0x1」、「is」を「0x2」（0xは１６進数を示す）のそれぞれの対応文字に変換するようにする。
【００５１】
なお、索引を登録する多言語文書データが１文字からなる場合は、全ての文字と結合可能でかつ検索対象とならない特殊文字（使用されていない制御コードに対応する文字コードなどのフォントが割り当てられていない文字）をその文字に付加して文字連鎖を作成する。
【００５２】
図６（Ａ）は、「これは This is文書です」を表す登録多言語文書データ４３から登録用の索引を作成する手順を示したものである。登録多言語文書データ４３には言語識別情報４４ａ，４４ｂ，４４ｃが含まれており、日本語文字列「これは」、「文章です」と英語文字列「This is」が区別されている。このとき、言語識別情報は図５（Ａ）の対応表により「＜日本語＞」は「^V」、「＜英語＞」は「^W」の特殊文字に置き換え、英語文字列の単語は図５（Ｃ）の対応表により「This」は「0x1」、「is」は「0x2」の対応文字にそれぞれ変換する。これにより、言語識別情報は、特殊文字に置き換えられて各言語の文字列の両端で共有される。
【００５３】
そして、日本語文字列「これは」については、「これは^W」として索引４５ａ，４５ｂ，４５ｃを作成し、英語文字列「This is」については、「^W 0x1 0x2 ^V」として索引４５ｄ，４５ｅ，４５ｆを作成し、また日本語文字列「文章です」については、「^V文章です」として索引４５ｇ，４５ｈ，４５ｉ，４５ｊを作成する。なお、この例では簡単にするために登録多言語文書データ４３の先頭の言語識別情報４４ａに対応する特殊文字を省略しているが、文字列先頭に特殊文字「^V」を付加して「^Vこれは^W」の索引を作成するようにしても良い。このように作成した索引は、２文字連鎖のものであり、図示しないが各文字連鎖ごとの文書内における相対的な出現順位又は絶対的な出現位置の情報を含む索引データとして格納される。
【００５４】
このとき、入力された登録多言語文書データ４３において言語識別情報４４ａ，４４ｂ，４４ｃによって言語種別を識別して、それぞれの言語の文字列に対応する索引を作成し、図４に示すようにカラム４１の各格納領域４２Ａ，４２Ｂに言語別に格納する。ここでは、まず日本語文字列「これは」に対応する索引４５ａ〜４５ｃを作成して日本語の格納領域４２Ｂに格納し、次いで英語文字列「This is」に対応する索引４５ｄ〜４５ｆを作成して英語の格納領域４２Ａに格納し、さらに、日本語文字列「文章です」に対応する索引４５ｇ〜４５ｊを作成して日本語の格納領域４２Ｂに格納する。これにより、日本語の索引は格納領域４２Ｂに、英語の索引は格納領域４２Ａにそれぞれ分離されて格納される。
【００５５】
登録した多言語文書データに対して検索を行う場合は、入力された検索文字列について同様に索引を作成し、格納されている多言語文書データの索引と照合して一致しているか否かを判断する。この索引の照合結果によって、検索文字列にヒットした多言語文書データ内の文字列があるかどうかが検出される。そして、索引データが格納されているカラムの属性などから、文書名などの多言語文書データに関する情報を得て検索結果として出力する。また、使用者の指示などに応じて多言語文書データの実体データを抽出して出力する。
【００５６】
図６（Ｂ）は、「これは This is文書」を表す検索文字列４６から検索用の索引を作成する手順を示したものである。検索文字列４６は言語識別情報４７ａ，４７ｂ，４７ｃを含んでおり、日本語文字列「これは」、「文章です」と英語文字列「This is」とが区別されている。上述した登録多言語文書データ４３の場合と同様にして、日本語と英語の言語別に検索文字列の索引４８ａ〜４８ｈが作成される。このとき、先頭の言語識別情報４７ａにより言語種別を日本語に設定し、文字列「これは^W」の索引４８ａ，４８ｂ，４８ｃを作成し、日本語の格納領域４２Ｂの索引４５ａ，４５ｂ，４５ｃに対して、索引の各文字の出現順位の順に、すなわち索引４８ａは索引４５ａと、索引４８ｂは索引４５ｂと、索引４８ｃは索引４５ｃと照合する。
【００５７】
次いで、多言語文書データの索引４５ｃの特殊文字「^W」により索引文字列終端の言語が英語に切り替わることを検出し、検索文字列の言語識別情報４７ｂにより言語種別を英語に設定し、文字列「^W 0x1 0x2 ^V」の索引４８ｄ，４８ｅ，４８ｆを作成し、英語の格納領域４２Ａの索引４５ｄ，４５ｅ，４５ｆに対して、索引の各文字の出現順位の順に、すなわち索引４８ｄは索引４５ｄと、索引４８ｅは索引４５ｅと、索引４８ｆは索引４５ｆと照合する。このとき、多言語文書データの索引４５ｃと索引４５ｄの検出により「This is」が「これは」に連続していることを検出し、さらに、索引４５ｆの特殊文字「^V」により索引文字列終端の言語が日本語に切り替わることを検出する。そして、検索文字列の言語識別情報４７ｃにより言語種別を日本語に設定し、文字列「^V文章」の索引４８ｇ，４８ｈを作成し、日本語の格納領域４２Ｂの索引４５ｇ，４５ｈに対して、索引の各文字の出現順位の順に、すなわち索引４８ｇは索引４５ｇと、索引４８ｈは索引４５ｈと照合する。このとき、多言語文書データの索引４５ｆと索引４５ｇの検出により「文章」が「This is」に連続していることが検出される。
【００５８】
以上の照合によって、検索文字列の索引４８ａ〜４８ｈと多言語文書データの索引４５ａ〜４５ｈとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列４６が登録多言語文書データ４３において含まれることが検出されたことになる。
【００５９】
上記の例では、日本語と英語の２つの異なる言語が連続する文字列で登録及び検索する例を示したが、言語ごとに別々に格納された索引を別々に利用して言語別に検索することも可能である。例えば、登録多言語文書データ４３に対して英語検索により「This」で検索する場合は、言語種別を英語に設定して格納領域４２Ａに格納された索引のみと照合するれば良い。
【００６０】
本実施形態では、多言語文書データの索引データなどを格納する一つのカラムを複数の格納領域に分割し、言語ごとに分離してそれぞれの格納領域にデータを格納するようにしている。これにより、多言語文書データを管理する場合に、複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、データ管理上の手順を簡略化できる。また、登録時のデータ格納や検索時のデータ照合などのためにカラムにアクセスする際に、言語種別によって対応する格納領域のみにアクセスすることができ、容易かつ素早いアクセスによって高速な登録や検索が可能となる。
【００６１】
［第２実施形態］
図７は第２実施形態に係る多言語文書データを登録及び検索する部分の機能的構成を示すブロック図である。
【００６２】
第２実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納及び参照可能なように、データベースの各カラムの属性と言語種別を定義するデータ定義部５１、入力される多言語文書データに対し言語別の索引等の登録処理を行う言語別登録部５２、多言語文書データを指定カラムに格納するデータ格納部５３、言語種別に従って指定カラムに対して言語別の検索処理を行う言語別検索部５４を有している。
【００６３】
言語別登録部５２及び言語別検索部５４は、データ定義部５１で定義された言語種別に従って、それぞれ指定カラムに対して対応する言語の登録処理、検索処置を行う。これにより、複数のカラムにおいてそれぞれのカラムに言語種別を設定し、複数の異なる言語のデータをそれぞれ対応する指定カラムに対して同時に登録、検索することが可能となる。なお、データ定義部５１により定義する属性数はいくつであっても良い。
【００６４】
図８は第２実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第２実施形態では、データベース構造における複数のカラムのそれぞれに対して言語種別を割り当てて定義し、各カラムに言語種別ごとに分けた多言語文書データをそれぞれ格納する。
【００６５】
図８（Ａ）に示すように、属性Ａ，属性Ｂ，属性Ｃがそれぞれ定義されたカラム６１，６２，６３を有し、これらのカラムの属性に対して図８（Ｂ）に示すように言語種別として言語α，言語β，言語γのデータ定義情報６４が定義される。複数のカラム６１，６２，６３に対してデータを格納する際には、データ定義情報６４を参照して言語種別に対応する属性のカラムを判別し、そのカラム（指定カラム）に対してアクセスする。これにより、多言語文書データの実体及び索引を登録する場合に、言語種別ごとに索引作成等の言語処理を行って対応するカラムに登録すべきデータを格納することができる。また、複数のカラム６１，６２，６３に格納されたデータを検索する場合は、データ定義情報６４を参照して言語種別に対応する属性のカラムを判別し、そのカラム（指定カラム）に対してアクセスすることにより、言語種別ごとに検索文字列照合等の言語処理を行って検索することができる。
【００６６】
次に、第２実施形態の多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、複数のカラムに対して日本語と英語の索引をそれぞれの対応するカラムに言語別に格納し検索する場合の動作手順について説明する。
【００６７】
図９は日本語の索引と英語の索引をそれぞれのカラムに格納した状態を示す説明図である。ここでは、図９（Ｂ）に示すようにデータ定義情報７３を設定し、図９（Ａ）に示すように属性が「本文Ａ」で言語種別が「日本語」のカラム７１と、属性が「本文Ｂ」で言語種別が「英語」のカラム７２とを設け、それぞれの言語別の索引を対応するカラムに格納する。登録多言語文書データ及び検索文字列は図６に示したものと同様の場合を例示する。
【００６８】
登録多言語文書データの索引を作成して格納する場合、日本語文字列の索引４５ａ〜４５ｃ，４５ｇ〜４５ｊは対応する属性「本文Ａ」を指定してカラム７１に格納し、英語文字列の索引４５ｄ〜４５ｆは対応する属性「本文Ｂ」を指定してカラム７２に格納する。
【００６９】
検索文字列４６によって検索する場合、まず日本語文字列の索引４８ａ〜４８ｃを索引の各文字の出現順位の順に属性「本文Ａ」のカラム７１に格納された索引４５ａ〜４５ｃと照合する。次いで、英語文字列の索引４８ｄ〜４８ｆを索引の各文字の出現順位の順に属性「本文Ｂ」のカラム７２に格納された索引４５ｄ〜４５ｆと照合する。このとき、多言語文書データの索引４５ｃと索引４５ｄの検出により「This is」が「これは」に連続していることが検出される。そして、日本語文字列の索引４８ｇ，４８ｈを索引の各文字の出現順位の順に属性「本文Ａ」のカラム７１に格納された索引４５ｇ，４５ｈと照合する。このとき、多言語文書データの索引４５ｆと索引４５ｇの検出により「文章」が「This is」に連続していることが検出される。
【００７０】
以上の照合によって、検索文字列の索引４８ａ〜４８ｈと多言語文書データの索引４５ａ〜４５ｈとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列４６が登録多言語文書データ４３において含まれることが検出されたことになる。
【００７１】
第２実施形態では、多言語文書データの索引データなどを格納する複数のカラムを言語種別ごとに定義し、言語ごとにカラムを区別してそれぞれのカラムにデータを格納するようにしている。これにより、第１実施形態と同様に、多言語文書データを管理する場合に複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【００７２】
この第２実施形態は、それぞれの言語に関する索引等のデータを１つの専用のカラムに格納して言語を別々に検索する方法により多言語文書データを管理する場合に特に効果的である。また、第２実施形態の多言語文書処理装置及び方法では、一度カラムの属性を言語別に定義してしまえば、言語種別を意識することなく言語別にカラムにアクセスして検索することができる。例えば、属性として「本文Ａ」を指定すると言語種別が日本語となり、日本語文字列の登録及び検索が行われ、同様に「本文Ｂ」を指定すると英語文字列の登録及び検索を行うことができる。
【００７３】
［第３実施形態］
図１０は第３実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【００７４】
第３実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納及び参照可能なように、格納時に多言語文書データの格納先を選択する格納領域選択部８１、格納時及び検索時の言語種別を記憶する言語種別記憶部８２、言語種別が言語α、言語β、言語γのデータをそれぞれ格納するデータ格納部８３，８４，８５、各言語のデータ格納部８３，８４，８５に格納する言語種別を記憶する格納言語種別記憶部８６、検索時にデータ格納部８３，８４，８５を選択する検索領域選択部８７、各言語のデータ格納部８３，８４，８５における検索言語種別の組を記憶する検索言語種別記憶部８８を有している。なお、ここでは、説明のため言語種別を３つとしているが、言語種別及び対応するデータ格納部は２つ以上のいくつでも良い。
【００７５】
格納領域選択部８１は、多言語文書データの索引データ等を格納する場合に、言語種別記憶部８２に入力された格納時の言語種別がいずれであるかを格納言語種別記憶部８６にある格納言語種別情報を参照して識別し、データ格納部８３，８４，８５のうちの対応する格納言語種別のデータ格納部を選択し、データの格納を行う。また、検索領域選択部８７は、多言語文書データを検索する場合に、言語種別記憶部８２に入力された検索時の言語種別がいずれであるかを検索言語種別記憶部８８にある検索言語種別の組の情報を参照して識別し、データ格納部８３，８４，８５のうちの対応する検索言語種別の組のデータ格納部を選択し、データの検索を行う。
【００７６】
図１１は第３実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第３実施形態では、データベース構造における一つのカラムを複数の格納領域に分割し、各格納領域に格納言語種別と検索言語種別の組とを設定して、言語種別ごとに分けた多言語文書データをそれぞれ対応する格納領域に格納するとともに、検索文字列の言語種別に応じて対応する格納領域にアクセスして検索を行う。
【００７７】
図１１（Ａ）に示すように、カラム９１は、文書名などのアクセスする単位を表す属性９２が定義されるとともに、データ格納部８３，８４，８５に対応するように、言語α，言語β，言語γの言語種別ごとに設けられた複数の格納領域９３Ａ，９３Ｂ，９３Ｃに分割された構成となっている。なお、属性９２には多言語文書データの主となる言語種別の情報も含まれるものとする。また、この例では、第１実施形態と同様に１つのカラムを複数の格納領域に分割して言語別にデータを格納する場合を示したが、第２実施形態と同様に複数のカラムのそれぞれに格納言語種別及び検索言語種別を定義して言語別にデータを格納するようにしても同様な作用効果が得られる。
【００７８】
また、図１１（Ｂ）に示すように、格納言語種別記憶部８６及び検索言語種別記憶部８８に対応して、カラム９１内の各格納領域に割り当てた格納言語種別及び検索言語種別を示す言語種別情報９６が設定され、カラム９１の外部又は内部の所定箇所に記憶されている。検索言語種別は、多言語文書データにおいて用いられる格納言語種別を含む言語種別の組を示したものである。例えば、検索言語種別Ｅは言語α、検索言語種別Ｆは言語α及び言語β、検索言語種別Ｇは言語α及び言語γとする。ここで、格納言語種別は各カラム又は格納領域において唯一の言語種別が設定される。また、検索言語種別は１つ以上の言語種別の組からなり、その中の１つの言語種別が格納言語種別となるように設定される。
【００７９】
入力された多言語文書データをカラム９１に格納する場合、言語種別情報９６の格納言語種別に基づいて、複数の格納領域９３Ａ，９３Ｂ，９３Ｃの中からいずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスして格納する。すなわち、格納言語種別が言語αの場合は格納領域９３Ａが、言語βの場合は格納領域９３Ｂが、言語γの場合は格納領域９３Ｃが選択される。また、カラム９１に格納された多言語文書データの検索を行う場合は、言語種別情報９６の検索言語種別に基づいていずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスしてデータを参照する。この場合、検索言語種別Ｅの場合は格納領域９３Ａが、検索言語種別Ｆの場合は格納領域９３Ｂが、検索言語種別Ｇの場合は格納領域９３Ｃが選択される。すなわち、言語αの場合は格納領域９３Ａ，９３Ｂ，９３Ｃの全格納領域が、言語βの場合は格納領域９３Ｂが、言語γの場合は格納領域９３Ｃが選択されることになる。なお、ここでは、カラム９１には３つの格納領域が多重化された場合を示しているが、この多重化した格納領域の数はいくつでも構わない。
【００８０】
このように、データベースのカラムにおいて複数のデータ格納領域を設定し、格納する言語種別と検索する言語種別の組とによりそれぞれの格納領域の選択を行う機能を設けることにより、１つの属性に対応するカラムに対して複数の言語別に格納領域を選択してデータを格納及び検索することが可能となる。
【００８１】
次に、第３実施形態の多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、複数のカラムに対して日本語と英語の索引をそれぞれの対応するカラムに言語別に格納し検索する場合の動作手順について説明する。
【００８２】
図１２は日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図、図１３は登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【００８３】
ここでは、図１２に示すように、属性が「本文（日本語）」のカラム１０１に格納言語種別が日本語で検索言語種別が日本語である格納領域１０２Ａと、格納言語種別が英語で検索言語種別が日本語及び英語である格納領域１０２Ｂとを設け、それぞれの言語の索引を格納する場合を例示する。
【００８４】
この場合、日本語の索引は格納領域１０２Ａに、英語の索引は格納領域１０２Ｂにそれぞれ分割されて格納される。検索を行う際には、日本語が指定された場合は格納領域１０２Ａ及び１０２Ｂにアクセス可能となり、英語が指定された場合は格納領域１０２Ｂのみにアクセス可能となって、検索文字列によって検索が実行される。主となる言語種別である日本語を指定して検索を行う場合は、英語の文字は日本語の中に埋め込まれたものと判断し、日本語と同じ方法で索引を作成し検索する。
【００８５】
図１３（Ａ）は、「これは This is文書です」を表す登録多言語文書データ１０３から登録用の索引を作成する手順を示したものである。登録多言語文書データ１０３には第１実施形態と同様に言語識別情報が含まれており、「これは」と「文章です」の日本語文字列１０４ａ，１０４ｃと、「This is」の英語文字列１０４ｂとが区別されている。まず、言語識別情報を省略して文字列１０４ａ，１０４ｂ，１０４ｃを連結し、英語文字列「This is」を対応文字「0x1 0x2」に変換した連結文字データ１０５とする。
【００８６】
そして、カラム１０１に定義された主となる言語種別（ここでは日本語）により、日本語文字列として索引１０６ａ〜１０６ｈを作成する。この場合、日本語文字列「これは」に関する索引である、索引１０６ａから日本語文字列１０４ａと英語文字列１０４ｂとの連結を示す索引１０６ｃまでを格納領域１０２Ａに格納し、英語文字列「This is」に関する索引である、索引１０６ｄから英語文字列１０４ｂと日本語文字列１０４ｃとの連結を示す索引１０６ｅまでを格納領域１０２Ｂに格納し、日本語文字列「文章です」に関する索引である索引１０６ｆから索引１０６ｈまでを格納領域１０２Ａに格納する。
【００８７】
このように登録された多言語文書データに対して検索を行う場合は、入力された検索文字列について同様に索引を作成し、格納されている多言語文書データの索引と照合して一致しているか否かを判断する。図１３（Ｂ）は、「これは This is文書」を表す検索文字列１０７から検索用の索引を作成する手順を示したものである。検索文字列１０７は日本語文字列１０８ａ，１０８ｃと英語文字列１０８ｂとを含んでいるため、２つの格納領域１０２Ａ，１０２Ｂの検索言語種別の組の両方に含まれる日本語を指定する。これにより、検索文字列１０７について格納領域１０２Ａと１０２Ｂの両方にアクセスして検索することができる。
【００８８】
このとき、上述した登録多言語文書データ１０３の場合と同様にして、検索文字列１０７の連結文字データ１０９から索引１１０ａ〜１１０ｆを作成し、格納されている索引１０６ａ〜１０６ｆと各文字の出現順位の順に照合する。すなわち、索引１１０ａ，１１０ｂ，１１０ｃを日本語の格納領域１０２Ａの索引１０６ａ，１０６ｂ，１０６ｃと出現順位に従って照合し、索引１１０ｄ，１１０ｅを日本語及び英語の格納領域１０２Ｂの索引１０６ｄ，１０６ｅと出現順位に従って照合し、索引１１０ｆを日本語の格納領域１０２Ａの索引１０６ｆと照合する。
【００８９】
以上の照合によって、検索文字列の索引１１０ａ〜１１０ｆと多言語文書データの索引１０６ａ〜１０６ｆとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列１０７が登録多言語文書データ１０３において含まれることが検出されたことになる。
【００９０】
第３実施形態では、多言語文書データの索引データなどを格納する一つのカラムを複数の格納領域に分割し、各格納領域に格納言語種別と検索言語種別との組を定義して、それぞれの格納言語種別に対応する格納領域にデータを格納するとともに、対応する検索言語種別の格納領域にアクセスして検索するようにしている。これにより、第１実施形態と同様に、多言語文書データを管理する場合に複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【００９１】
この第３実施形態は、複数の言語からなる多言語文書データを登録して管理する際に、その索引を１つの言語の索引として扱う多言語の登録検索を行う場合にに特に効果的である。例えば、主となる言語種別（上記例では日本語）の検索文字列では特に言語種別を意識することなく全格納領域にアクセスして検索でき、他の言語（上記例では英語）の検索文字列では一部の格納領域のみにアクセスするため、高速な検索が可能である。
【００９２】
［第４実施形態］
図１４は第４実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【００９３】
第４実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別にページごとに格納可能なように、多言語で構成された文書データを読み取って文書ごとに識別するための文書情報（文書番号）を付与する多言語文書データ入力部１２１、入力された多言語文書データからタグなどの言語識別情報を検出して言語種別を判定する言語識別手段に該当する言語種別判定部１２２、判定された言語種別に基づいて多言語文書データに対して文書番号単位で言語別にページ番号の割り付けを行うページ分割手段に該当するページ分割部１２３、文書番号、ページ番号、言語種別を取得して各ページに含まれる文書データに対して言語別に索引を作成する索引作成手段に該当する言語別索引作成部１２４、作成された索引を言語別にカラムに格納する索引格納手段に該当する言語別索引格納部１２５、文書番号と多言語文書データそのものの実体を格納する実体格納手段に該当する実体格納部１２６を有している。
【００９４】
ページ分割部１２３は、多言語文書データを文書番号単位で言語別に分割してページ番号の割り付けを行い、その言語種別の文書データの長さが予め設定した１ページの長さを超えた場合には複数ページにさらに分割して言語種別ごとにページ番号を割り付ける。言語別索引作成部１２４は、各ページに含まれる文書データに対して各文字の出現順位又は出現位置を計算し、文書番号、ページ番号、文字の出現順位又は出現位置を含む索引データを言語種別ごとに分割して作成する。言語別索引格納部１２５は、作成された索引データを例えば言語種別ごとに索引ファイルとして格納する。
【００９５】
また、多言語文書データを高速検索可能なように、検索文字列と指定された検索言語種別を読み取る検索文字列入力部１２７、言語別索引格納部１２５に格納された検索言語種別に対応する索引と検索文字列とを照合して検索を行う検索手段に該当する文字列検索部１２８、文字列検索部１２８の検索結果に基づいて該当する文書番号の多言語文書データの実体を実体格納部１２６から抽出し出力する実体抽出手段に該当する実体抽出部１２９を有している。
【００９６】
文字列検索部１２８は、指定された検索言語種別に対応する索引ファイルを言語別索引格納部１２５から読み取り、検索文字列を含む索引ファイルを検出して索引データの文字列と検索文字列とが一致するかを判定し、一致した索引データに該当する文書番号を出力する。実体抽出部１２９は、文字列検索部１２８により取得された文書番号に対応する文書データの実体を読み出して検索結果として出力する。
【００９７】
図１５は第４実施形態における多言語文書データの格納及び検索に関する多言語文書処理方法を概念的に示したものである。図１５において、（Ａ）は多言語文書データの登録（索引格納）に関する動作を、（Ｂ）は多言語文書データの検索に関する動作を示している。
【００９８】
多言語文書データの索引を登録する場合は、図１５（Ａ）に示すように、登録多言語文書データ１３１を言語種別ごと及びページごとに分割して索引を作成し格納する。この登録多言語文書データ１３１は、＜日本語＞、＜英語＞のタグにより日本語と英語の言語種別が区別されている。なお、これらの言語の他に、中国語、韓国語など多数の言語をタグで示して区別することも可能である。
【００９９】
まず、入力した登録多言語文書データ１３１に文書番号として「本文Ｘ」を付与する。なお、文書番号は「文書１」などの連続番号とか、任意の番号や符号でも良い。また、この登録多言語文書データ１３１の実体は実体データ１３９として格納される。次いで、登録多言語文書データ１３１における文字列の言語種別をタグにより判定し、言語種別ごとに複数ページに分割してページ番号を付与する。図１５の例は、言語種別が日本語でページ番号Ｐ１が割り付けられた文書レコード１３２ａ、言語種別が英語でページ番号Ｐ２が割り付けられた文書レコード１３２ｂ、言語種別が日本語で複数ページに分割されてページ番号Ｐ３〜Ｐ７が割り付けられた文書レコード１３２ｃ〜１３２ｇを示している。
【０１００】
そして、複数のページごとに分割された文書レコード１３２ａ〜１３２ｇに対して、それぞれ上述した実施形態と同様に索引を作成する。本実施形態では、文書番号「本文Ｘ」、ページ番号「Ｐ１」〜「Ｐ７」、文字連鎖の情報を含む索引データを作成し、索引ファイルとして言語種別ごとにカラムに格納する。すなわち、日本語の文書レコード１３２ａ，１３２ｃ〜１３２ｇに関する索引データは索引ファイル１３３ａ〜１３３ｆとして日本語の格納領域に格納され、英語の文書レコード１３２ｂに関する索引データは索引ファイル１３４ａとして英語の格納領域に格納される。なお、索引データとしては、文字連鎖だけでなく、各文字の出現順位や出現位置も合わせて格納しても良い。
【０１０１】
上記のように格納された多言語文書データに対する検索の第１例を図１５（Ｂ）に示す。この第１例は、多言語検索文字列データ１３５として、検索文字列が「文書」で、検索言語種別として「日本語」が指定された場合の動作である。このとき、入力された多言語検索文字列データ１３５に基づいて検索言語種別を判断し、日本語の索引ファイルを指定する。そして、日本語の索引ファイルの中に検索文字列「文書」の文字連鎖が含まれるかどうかを判定し、この「文書」が含まれる索引ファイル１３３ｃを検出する。さらに、この索引ファイル１３３ｃに格納されている索引データ１３６として対応する文書番号「本文Ｘ」を取得する。次いで、「本文Ｘ」に該当する実体データ１３９を読み出して検索結果として出力する。なお、検索結果としては、第１段階として文書番号を基にした文書データの識別情報のみを出力し、その後ユーザの指示に応じて実体データを出力するようにしても良い。
【０１０２】
また、図１５（Ｃ）は多言語文書データに対する検索の第２例である。この第２例のように、検索文字列と検索言語種別に加えてページ間隔を指定した多言語検索文字列データ１３７を用いて検索することも可能である。このページ間隔は、検索文字列が所定の範囲内にまとまって存在するか又はバラバラに存在するかを判定するいわゆる近傍検索に用いられるもので、一致した文字列の出現位置の間隔の指定範囲（同一の検索文字列の出現範囲指定値）に対応するものである。ここでは、検索文字列が「文」、検索言語種別が「日本語」、ページ間隔として「５ページ以内」が指定された場合の動作を示す。
【０１０３】
この場合、入力された多言語検索文字列データ１３７に基づいて検索言語種別を判断し、日本語の索引ファイルの中に検索文字列「文」の文字連鎖が含まれるかどうかを判定して、この「文」が含まれる索引ファイル１３３ｃ及び１３３ｅを検出する。そして、これらの索引ファイル１３３ｃ，１３３ｅに格納されている索引データ１３８として、ページ番号「Ｐ３」，「Ｐ７」を含むデータ「本文Ｘ、Ｐ３、文書」「本文Ｘ、Ｐ７、文章」を取得する。次いで、ページ間隔が７−３＋１＝５ページであることを算出して、指定ページ間隔である「５ページ以内」かどうかを判定する。この判定結果により、この場合は５ページ以内であるので、索引ファイル１３３ｃ，１３３ｅに対応する索引データの文書番号「本文Ｘ」を取得し、「本文Ｘ」に該当する実体データ１３９を読み出して検索結果として出力する。
【０１０４】
以上の手順により、多言語文書データのページ別の登録とともに、格納された多言語文書データに対する検索が行われ、検索文字列に一致した文書データが抽出される。
【０１０５】
第４実施形態では、多言語文書データを言語種別ごとかつ所定文字数ごとに複数ページに分割して、格納及び検索を行うようにしている。これにより、多言語文書データを管理する場合に、複数の異なる種類の言語に関するデータをページ別に取り扱うことができるため、言語別の管理がさらにしやすくなり、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【０１０６】
以上説明したように、本実施形態によれば、多言語文書処理における文書管理において、１つのカラムに複数の言語の格納領域を備え、言語別に１つの格納領域又は複数の格納領域にデータを格納するか、又は、１つのカラムに格納するデータの言語を設定してデータの格納時に複数のカラムの中から該当する言語のカラムを自動的に識別することにより、多言語文書データを言語別に処理し言語別に格納することが可能となる。また、１つの文書データに対して複数のページに分割し、かつ言語種別ごとにページと言語種別を組にした索引ファイルを作成して言語別のカラムに格納することにより、検索文字列指定時に言語種別及びページごとにカラムにアクセスして検索することが可能となる。
【０１０７】
このとき、データベースのカラムにおいて、１つのカラムに複数の格納領域を多重化し、これらの格納領域の中の言語種別に対応する１つの格納領域にアクセスしたり、複数のカラムのそれぞれに言語種別を定義して該当する言語種別のカラムにアクセスすることが容易に実行可能である。
【０１０８】
上記作用により、複数の異なる種類の言語データを各々別々に又は種類別に扱うことができ、その結果、多言語文書検索において言語別の検索を行う場合に、指定した言語の索引を直ちにアクセスして探索できるので、多言語文書を高速に検索することができる。また、特定の言語だけの索引を削除することも可能であり、１つの言語しかなかった索引を多言語に拡張することも容易に行うことができるため、規模の縮小や拡大などのスケーラビリティが高いデータベースを構築できるなど、多大な効果が得られる。
【０１０９】
【発明の効果】
以上説明したように本発明によれば、多言語文書に関する情報を言語ごとに区別して管理することができ、各情報に素早くアクセスして検索等の処理を容易かつ高速に行うことが可能となる効果が得られる。
【図面の簡単な説明】
【図１】本発明の第１実施形態に係る多言語文書処理装置の機能的概略構成を示すブロック図である。
【図２】第１実施形態に係る多言語文書データを格納及び参照する部分の機能的構成を示すブロック図である。
【図３】第１実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図４】第１実施形態において日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図である。
【図５】言語種別を識別するための言語識別情報や英単語又は英連語を置き換える特殊文字を示す説明図である。
【図６】第１実施形態において登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【図７】第２実施形態に係る多言語文書データを登録及び検索する部分の機能的構成を示すブロック図である。
【図８】第２実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図９】第２実施形態において日本語の索引と英語の索引をそれぞれのカラムに格納した状態を示す説明図である。
【図１０】第３実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【図１１】第３実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図１２】第３実施形態において日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図である。
【図１３】第３実施形態において登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【図１４】第４実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【図１５】第４実施形態における多言語文書データの格納及び検索に関する多言語文書処理方法を概念的に示した説明図である。
【図１６】従来の多言語文書処理装置の機能的概略構成を示すブロック図である。
【図１７】従来の多言語文書データの格納方法を概念的に示した説明図である。
【符号の説明】
１１登録文字列言語識別部
１２言語別索引作成部
１３言語別索引格納部
１４実体格納部
１５検索文字列言語識別部
１６検索文字列言語別索引作成部
１７言語別索引照合部
１８実体抽出部
２１入出力切替部
２２言語種別記憶部
２３，２４，２５データ格納部
３１カラム
３２属性
３３Ａ，３３Ｂ，３３Ｃ格納領域
３６言語種別情報

Claims

複数の言語の文字を含み異なる言語が連続した多言語文書データの言語を識別する言語識別手段と、
前記多言語文書データに関する索引を言語別に作成する索引作成手段と、
前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備え、
前記言語識別手段は、前記多言語文書データに含まれる言語識別情報により言語を識別するものであり、
前記索引作成手段は、前記言語識別情報を所定の特殊文字に変換し、該特殊文字を含む全ての文字の文字連鎖を言語別に作成することを特徴とする多言語文書処理装置。
複数の言語の文字を含み異なる言語が連続した多言語文書データの言語を識別する言語識別手段と、
前記多言語文書データに関する索引を言語別に作成する索引作成手段と、
前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備え、
前記索引作成手段は、前記多言語文書データの単語又は２文字の連語を所定の対応文字に変換し、該対応文字を含む全ての文字の文字連鎖を言語別に作成することを特徴とする多言語文書処理装置。
前記索引格納手段は、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を備えており、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することを特徴とする請求項１又は２に記載の多言語文書処理装置。
前記索引格納手段は、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを備えており、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することを特徴とする請求項１又は２に記載の多言語文書処理装置。
前記索引格納手段は、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を備え、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納するものであり、
前記検索手段は、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うことを特徴とする請求項１又は２に記載の多言語文書処理装置。
前記格納言語種別は、前記格納部を構成する一つのカラム又は格納領域に対して唯一の言語種別がそれぞれ設定されることを特徴とする請求項５に記載の多言語文書処理装置。
前記索引格納手段は、前記複数の格納部としてデータベースにおける一つのカラムを分割してそれぞれに格納言語種別と検索言語種別とを設定した複数の格納領域を備えており、前記格納言語種別は、前記一つの格納領域に対して唯一の言語種別がそれぞれ設定され、これらの格納言語種別のうちの一つが前記カラムの言語種別として設定されることを特徴とする請求項５に記載の多言語文書処理装置。
前記検索言語種別は、少なくとも一つの言語種別を含む言語種別の組からなり、この言語種別の組がそれぞれの格納部を構成する一つのカラム又は格納領域に対して設定され、この検索言語種別における一つの言語種別は当該格納部に設定された格納言語種別であることを特徴とする請求項５に記載の多言語文書処理装置。
前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割手段を備え、前記索引作成手段は、前記言語別のページごとに索引を作成することを特徴とする請求項１又は２に記載の多言語文書処理装置。
前記多言語文書データの実体をデータベースにおける一つのカラムに又は複数のカラムに別々に格納する実体格納手段を備え、この多言語文書データの実体と前記多言語文書データの索引とは別々の格納手段に格納することを特徴とする請求項１〜５、９のいずれかに記載の多言語文書処理装置。