JP3698400B2 - 多言語文書処理装置、多言語文書処理方法及び記録媒体 - Google Patents

多言語文書処理装置、多言語文書処理方法及び記録媒体 Download PDF

Info

Publication number
JP3698400B2
JP3698400B2 JP24056599A JP24056599A JP3698400B2 JP 3698400 B2 JP3698400 B2 JP 3698400B2 JP 24056599 A JP24056599 A JP 24056599A JP 24056599 A JP24056599 A JP 24056599A JP 3698400 B2 JP3698400 B2 JP 3698400B2
Authority
JP
Japan
Prior art keywords
language
index
storage
multilingual document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP24056599A
Other languages
English (en)
Other versions
JP2001067368A (ja
Inventor
修 片山
隆正 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP24056599A priority Critical patent/JP3698400B2/ja
Publication of JP2001067368A publication Critical patent/JP2001067368A/ja
Application granted granted Critical
Publication of JP3698400B2 publication Critical patent/JP3698400B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理分野における多言語文書の登録検索に利用される多言語文書処理装置、多言語文書処理方法及びその多言語文書処理方法を実行するプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
近年のコンピュータやワードプロセッサの普及により、電子化された大量の文書データが蓄積され、必要に応じて文書データを検索する文書データベースの実用化が進んでいる。文書データベースにおいては、通信ネットワークの発達や国際化に伴い、複数の言語が混在した多言語文書のデータを扱う機会が増加しつつある。
【0003】
多言語文書を蓄積して管理する文書データベースにおける従来の多言語文書処理方法を図16及び図17に基づいて説明する。
多言語文書を登録する際には、入力された登録すべき多言語文書データに基づいて、多言語索引作成部501において検索用の多言語の索引を作成し、多言語索引格納部502に格納する。また、多言語文書データの実体を実体格納部503に格納する。検索を行う際には、入力された検索条件を示す検索文字列を基に、多言語索引照合部504によってその検索文字列と多言語索引格納部502に格納されている多言語索引とを照合し、検索条件に合致した文書の情報を検索結果として出力する。そして、この検索結果に基づき、実体抽出部505によって対応する多言語文書データの実体を実体格納部503から抽出し、多言語文書として出力する。
【0004】
このような多言語文書データの索引や実体を格納する場合、図17に示すように、カラムとレコードからなる表形式のデータベース構造を用いて、そのデータベースにおける複数のカラム511,512,513…にそれぞれ多言語文書データを格納するような方法が一般に採られている。カラム511〜513には、アクセスする単位としてカラムごとに属性(文書名など)が定義され、それぞれのカラムは対応する属性によってのみアクセスが可能となっている。このとき、カラム511に多言語文書データ全体をそのまま格納するか、カラム511に多言語文書データの任意の部分を格納し、カラム512,513に多言語文書データのその他の部分を格納する。このように従来では、複数言語を含む多言語文書データを、そのまま文書の構成に従って単数又は複数のカラムに格納し、検索等を行うようになっていた。
【0005】
多言語の情報を処理する装置としては、特開平1−213744号公報、特開平11−3338号公報などに開示されているものがあり、特に多言語文書の登録検索に関するものとして、特開平9−50442号公報には複数の言語の文を含む文書に対して検索に用いるインデックスを作成して登録し、該インデックスにより文書の検索を行う多言語文書登録検索装置が開示されている。
【0006】
また、複数のカラムに対するアクセスに関する方法としては、特開平6−68151号公報のように該当するカラムと別テーブルのカラムをリンクさせる方法、特開平6−223118号公報のようにデータ構造の論理定義情報に結合情報などを含める方法、特開平8−137735号公報のように仮想的エンティティを記述するテーブルを設ける方法などが開示されている。
【0007】
【発明が解決しようとする課題】
上述したような従来の多言語文書処理装置及び方法では、多言語文書データを格納して管理する場合に、格納領域としては特に言語を意識することなく複数言語が混在した状態で格納するようになっていた。このため、多言語文書データの管理に手間がかかったり、検索等を行う際のアクセスに時間がかかるなどの問題点が生じていた。また、多言語文書データが格納された複数のカラムにアクセスする場合に、従来ではアクセス手順が複雑化し、高速検索が困難であるなどの問題点があった。
【0008】
本発明は、上記事情に鑑みてなされたもので、多言語文書に関する情報を言語ごとに区別して管理することができ、各情報に素早くアクセスして検索等の処理を容易かつ高速に行うことが可能な多言語文書処理装置、多言語文書処理方法及び記録媒体を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明による多言語文書処理装置は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別手段と、前記多言語文書データに関する索引を言語別に作成する索引作成手段と、前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備えたものである。
【0010】
また、好ましくは、前記索引格納手段は、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を備えており、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することとする。
【0011】
また、好ましくは、前記索引格納手段は、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを備えており、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することとする。
【0012】
また、好ましくは、前記索引格納手段は、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を備え、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納するものであり、前記検索手段は、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うこととする。
【0013】
さらに、前記格納言語種別は、前記格納部を構成する一つのカラム又は格納領域に対して唯一の言語種別がそれぞれ設定されることが好ましい。
【0014】
また、前記索引格納手段は、前記複数の格納部としてデータベースにおける一つのカラムを分割してそれぞれに格納言語種別と検索言語種別とを設定した複数の格納領域を備えており、前記格納言語種別は、前記一つの格納領域に対して唯一の言語種別がそれぞれ設定され、これらの格納言語種別のうちの一つが前記カラムの言語種別として設定されることが好ましい。
【0015】
また、前記検索言語種別は、少なくとも一つの言語種別を含む言語種別の組からなり、この言語種別の組がそれぞれの格納部を構成する一つのカラム又は格納領域に対して設定され、この検索言語種別における一つの言語種別は当該格納部に設定された格納言語種別であることが好ましい。
【0016】
また、好ましくは、前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割手段を備え、前記索引作成手段は、前記言語別のページごとに索引を作成することとする。
【0017】
また、好ましくは、前記多言語文書データの実体をデータベースにおける一つのカラムに又は複数のカラムに別々に格納する実体格納手段を備え、この多言語文書データの実体と前記多言語文書データの索引とは別々の格納手段に格納することとする。
【0018】
また、好ましくは、前記言語識別手段は、多言語文書データに含まれる言語識別情報により言語を識別するものであり、前記索引作成手段は、前記言語識別情報を所定の特殊文字に変換し、該特殊文字を含む全ての文字の文字連鎖を言語別に作成することとする。
【0019】
また、好ましくは、前記索引作成手段は、多言語文書データの単語又は2文字の連語を所定の対応文字に変換し、該対応文字を含む全ての文字の文字連鎖を言語別に作成することとする。
【0020】
さらに、前記索引作成手段は、多言語文書データが1文字からなる場合は、その文字に全ての文字と結合可能でかつ検索対象とならない所定の特殊文字を付加して文字連鎖を作成することが好ましい。
【0021】
また、前記索引は、該当する多言語文書データの文書を識別する文書情報と、該文書を所定単位ごとに分割したページを示すページ情報と、該文書内又はページ内における文字の相対的な出現順位或いは絶対的な出現位置の情報とを含むことが好ましい。
【0022】
また、本発明による多言語文書処理装置は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別手段と、前記多言語文書データを言語別でかつ所定単位ごとの複数のページに分割するページ分割手段と、前記多言語文書データに関する索引を前記言語別のページごとに作成する索引作成手段と、前記索引を言語ごとに格納する索引格納手段と、を備えたものである。
【0023】
また、好ましくは、前記多言語文書データの実体を格納する実体格納手段を備えることとする。
【0024】
また、好ましくは、前記言語ごとの索引を使用して検索文字列に該索引が含まれるか否かを判定して多言語文書データの検索を行う検索手段を備えることとする。
【0025】
また、好ましくは、前記言語識別手段は、多言語文書データに含まれる言語識別情報により言語を識別するものであり、前記ページ分割手段は、前記言語識別情報から次の言語識別情報までの文字列を1つのページ又は所定単位ごとに分割した連続するページとして、複数のページに分割してページに格納することとする。
【0026】
また、好ましくは、前記索引作成手段は、該当する多言語文書データの文書を識別する文書番号と、該文書におけるページを示すページ情報と、該文書内又はページ内における文字の相対的な出現順位或いは絶対的な出現位置の情報とを含むものを索引とすることとする。
【0027】
また、好ましくは、前記検索手段による検索結果に基づいて検索文字列を含む多言語文書データの文書情報を取得し、この文書情報に該当する文書の多言語文書データの実体を抽出する実体抽出手段を備えることとする。
【0028】
本発明による多言語文書処理方法は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別ステップと、前記多言語文書データに関する索引を言語別に作成する索引作成ステップと、前記索引を言語ごとに格納する索引格納ステップと、を有するものである。
【0029】
また、好ましくは、前記索引格納ステップにおいて、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を設け、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することとする。
【0030】
また、好ましくは、前記索引格納ステップにおいて、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを設け、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することとする。
【0031】
また、好ましくは、前記言語ごとの索引を使用して多言語文書データの検索を行う検索ステップを有し、前記索引格納ステップにおいて、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を設け、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納し、前記検索ステップにおいて、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うこととする。
【0032】
また、好ましくは、前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割ステップを有し、前記索引作成ステップにおいて、前記言語別のページごとに索引を作成することとする。
【0033】
また、本発明による多言語文書処理方法は、複数の言語の文字を含む多言語文書データの言語を識別する言語識別ステップと、前記多言語文書データを言語別でかつ所定単位ごとの複数のページに分割するページ分割ステップと、前記多言語文書データに関する索引を前記言語別のページごとに作成する索引作成ステップと、前記索引を言語ごとに格納する索引格納ステップと、を有するものである。
【0034】
本発明による記録媒体は、本発明に係る多言語文書処理方法を実行するためのプログラムとして記録したコンピュータにより読み取り可能なものである。
【0035】
本発明では、多言語文書処理における文書管理において、複数の言語の文字を含む多言語文書データの言語を識別し、多言語文書データに関する索引を言語別に作成して、この索引を言語ごとに格納する。この際、データベースにおける1つのカラムに複数の言語の格納領域を備え、言語別に1つの格納領域又は複数の格納領域にデータを格納するか、又は、1つのカラムに格納するデータの言語を設定してデータの格納時に複数のカラムの中から該当する言語のカラムを識別して格納する。これにより、多言語文書データを言語別に処理し言語別に格納することが可能となる。或いは、1つの多言語文書データに対して所定単位ごとの複数のページに分割し、言語種別ごとでページごとに索引を作成して言語別に格納する。これにより、検索文字列指定時に言語種別及びページごとに索引にアクセスして検索することが可能となる。
【0036】
上記作用により、複数の異なる種類の言語に関するデータを各々別々に又は種類別に取り扱うことが可能となり、データ管理上の手順が簡略化される。また、登録時のデータ格納や検索時のデータ照合などのためにカラム又はその中の格納領域にアクセスする際に、言語種別によって対応する格納領域のみにアクセスすることが可能であるため、容易かつ素早いアクセスによって多言語文書データの高速な登録や検索が可能となる。
【0037】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
本実施形態では、多言語文書処理装置及び方法として、多言語文書を管理するにあたり、検索のための索引の作成及び格納処理、その索引を用いた検索処理について説明する。なお、それぞれの実施形態の説明では、本発明に係る多言語文書処理装置及び方法について詳述するが、本発明に係る記録媒体については、多言語文書処理方法を実行させるためのプログラムを記録した記録媒体であることから、その説明は以下の多言語文書処理方法の説明に含まれるものである。
【0038】
[第1実施形態]
図1は本発明の第1実施形態に係る多言語文書処理装置の機能的概略構成を示すブロック図、図2は多言語文書データを格納及び参照する部分の機能的構成を示すブロック図である。
【0039】
図1に示すように、本実施形態の多言語文書処理装置は、多言語文書データに関する索引等を言語ごとに分けて格納し管理する構成となっており、入力された登録すべき多言語文書データを各言語別に識別する言語識別手段に該当する登録文字列言語識別部11、多言語文書データの言語別索引を作成する索引作成手段に該当する言語別索引作成部12、作成した索引データを言語別に設けられた格納領域に格納する索引格納手段に該当する言語別索引格納部13、登録する多言語文書の実体データを格納する実体格納手段に該当する実体格納部14、検索時に入力された検索文字列を各言語別に識別する検索文字列言語識別部15、検索文字列の言語別索引を作成する検索文字列言語別索引作成部16、検索文字列の言語別索引と登録された多言語文書の言語別索引とを照合して検索を行う検索手段に該当する言語別索引照合部17、言語別索引の照合に基づく検索結果により多言語文書の実体データを抽出する実体抽出部18を有している。
【0040】
図2は、第1実施形態における多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納し参照する機能部分を示したものである。第1実施形態では、言語種別により多言語文書データ(索引データ又は実体データ)の格納先を切り替える入出力切替部21、多言語文書データの格納先を識別する言語種別に関する情報を記憶する言語種別記憶部22、言語種別が言語α、言語β、言語γのデータをそれぞれ格納するデータ格納部23,24,25を有している。この図2に示す部分は、図1に示す多言語文書処理装置において主に言語別索引格納部13に対応する。
【0041】
入出力切替部21は、言語種別記憶部22に記憶されている言語種別の情報を参照して入出力を切り替え、格納や参照のためにアクセスする多言語文書データの言語種別が言語αの場合は言語αデータ格納部23に、言語βの場合は言語βデータ格納部24に、言語γの場合は言語γデータ格納部25にそれぞれアクセスできるように、データの入出力を行う。なお、ここでは、説明のため言語種別のとる値の範囲を言語αから言語γの3つとしているが、この言語種別の値の範囲は制限がなく、言語種別に対応するデータ格納部は2つ以上でいくつあってもよい。
【0042】
図3は第1実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第1実施形態では、データベース構造における一つのカラムを複数の格納領域に分割し、各格納領域に言語種別ごとに分けた多言語文書データをそれぞれ格納する。
【0043】
図3(A)に示すように、カラム31は、文書名などのアクセスする単位を表す属性(カラム名)32が定義され、この属性32によって対応するカラムにアクセスして多言語文書データの格納や参照が可能となっている。このカラム31は、データ格納部23,24,25に対応するように、言語α,言語β,言語γの言語種別ごとに設けられた複数の格納領域33A,33B,33Cに分割された構成となっている。また、図3(B)に示すように、言語種別記憶部22に対応して、カラム31内の各格納領域に割り当てた言語種別を示す言語種別情報36が設定され、カラム31の外部又は内部の所定箇所に記憶されている。
【0044】
このような構成のカラム31にアクセスする場合、複数の格納領域33A,33B,33Cの中から、言語種別情報36に基づいていずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスする。このとき、属性を指定することによって該当するカラムへのアクセスを指示すると、アクセス対象となる多言語文書データの言語種別に応じて、カラム内の対応する言語種別の格納領域にのみアクセスが可能となる。多言語文書データを属性32のカラム31に格納する際、言語種別情報36を参照して、格納するデータの言語種別が言語αの場合は格納領域33Aが、言語βの場合は格納領域33Bが、言語γの場合は格納領域33Cが、それぞれ選択され、選択された格納領域にデータが格納される。なお、ここでは、カラム31には3つの格納領域がある場合を示しているが、格納領域の数は多言語文書データの言語種別の数に応じていくつでも構わない。
【0045】
また、多言語文書の実体データは、1つのカラムにまとめて或いは複数のカラムに別々に格納し、索引データと実体データとを別々の格納手段(カラム、ファイル、ディレクトリ、ディスク等の記録媒体など)に格納するようにする。
【0046】
このように、データベースのカラムにおいて複数のデータ格納領域を設定し、言語種別による格納領域の選択を行う機能を設けることにより、1つの属性に対応するカラムに対して複数の言語別に格納領域を選択してデータを格納することが可能となる。
【0047】
次に、上記のような多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、一つのカラムに日本語と英語の索引をそれぞれの言語別の格納領域に格納し検索する場合の動作手順について説明する。
【0048】
図4は日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図、図5は言語種別を識別するための言語識別情報や英単語又は英連語を置き換える特殊文字を示す説明図、図6は登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【0049】
ここでは、図4に示すように、属性が「本文」のカラム41に言語種別が英語の格納領域42Aと言語種別が日本語の格納領域42Bとを設け、それぞれの言語の索引を格納する場合を例示する。本実施形態では、多言語文書データにおいて、言語識別情報として、以下の文字列が日本語であることを表す<日本語>と、英語であることを表す<英語>とがそれぞれ設けられているものとする。また、日本語の文字は2バイト、英語の文字は1バイトで、それぞれが分かち書き文となっているとする。なお、言語識別情報は、上記のように言語が切り換わる位置で文字列ごとに設けるもの(タグなど)に限らず、個々の文字ごとに設けても良い。言語識別情報としては、構造化文書のタグ、文字のフォントを切り換えるためのフォント情報を含む識別コードや制御コード、JIS X 0202(ISO 2022)拡張符号化方式のエスケープシーケンスなどを用いることができるし、文字コードによっては言語識別情報が無くても言語種別が判別可能な場合は特に言語識別情報を設けていない多言語文書データであっても以下と同様にして言語別に索引を作成して格納することが可能である。
【0050】
図5(A)は言語識別情報と置き換える特殊文字との対応を示したものであり、索引を作成するときには、「<日本語>」は「^V」の特殊文字に、「<英語>」は「^W」の特殊文字にそれぞれ置き換える。また、英語の索引を作成する場合は、図5(B)に示すように英単語を表す文字列をまとめて1文字の特殊文字に置き換えたり、図5(C)に示すように英連語(英語のアルファベット文字列)をまとめて(ここでは2文字ごと)1文字の特殊文字に置き換える。ここでは、図5(B)のように英語文字列の単語「This」を「0x1」、「is」を「0x2」(0xは16進数を示す)のそれぞれの対応文字に変換するようにする。
【0051】
なお、索引を登録する多言語文書データが1文字からなる場合は、全ての文字と結合可能でかつ検索対象とならない特殊文字(使用されていない制御コードに対応する文字コードなどのフォントが割り当てられていない文字)をその文字に付加して文字連鎖を作成する。
【0052】
図6(A)は、「これは This is文書です」を表す登録多言語文書データ43から登録用の索引を作成する手順を示したものである。登録多言語文書データ43には言語識別情報44a,44b,44cが含まれており、日本語文字列「これは」、「文章です」と英語文字列「This is」が区別されている。このとき、言語識別情報は図5(A)の対応表により「<日本語>」は「^V」、「<英語>」は「^W」の特殊文字に置き換え、英語文字列の単語は図5(C)の対応表により「This」は「0x1」、「is」は「0x2」の対応文字にそれぞれ変換する。これにより、言語識別情報は、特殊文字に置き換えられて各言語の文字列の両端で共有される。
【0053】
そして、日本語文字列「これは」については、「これは^W」として索引45a,45b,45cを作成し、英語文字列「This is」については、「^W 0x1 0x2 ^V」として索引45d,45e,45fを作成し、また日本語文字列「文章です」については、「^V文章です」として索引45g,45h,45i,45jを作成する。なお、この例では簡単にするために登録多言語文書データ43の先頭の言語識別情報44aに対応する特殊文字を省略しているが、文字列先頭に特殊文字「^V」を付加して「^Vこれは^W」の索引を作成するようにしても良い。このように作成した索引は、2文字連鎖のものであり、図示しないが各文字連鎖ごとの文書内における相対的な出現順位又は絶対的な出現位置の情報を含む索引データとして格納される。
【0054】
このとき、入力された登録多言語文書データ43において言語識別情報44a,44b,44cによって言語種別を識別して、それぞれの言語の文字列に対応する索引を作成し、図4に示すようにカラム41の各格納領域42A,42Bに言語別に格納する。ここでは、まず日本語文字列「これは」に対応する索引45a〜45cを作成して日本語の格納領域42Bに格納し、次いで英語文字列「This is」に対応する索引45d〜45fを作成して英語の格納領域42Aに格納し、さらに、日本語文字列「文章です」に対応する索引45g〜45jを作成して日本語の格納領域42Bに格納する。これにより、日本語の索引は格納領域42Bに、英語の索引は格納領域42Aにそれぞれ分離されて格納される。
【0055】
登録した多言語文書データに対して検索を行う場合は、入力された検索文字列について同様に索引を作成し、格納されている多言語文書データの索引と照合して一致しているか否かを判断する。この索引の照合結果によって、検索文字列にヒットした多言語文書データ内の文字列があるかどうかが検出される。そして、索引データが格納されているカラムの属性などから、文書名などの多言語文書データに関する情報を得て検索結果として出力する。また、使用者の指示などに応じて多言語文書データの実体データを抽出して出力する。
【0056】
図6(B)は、「これは This is文書」を表す検索文字列46から検索用の索引を作成する手順を示したものである。検索文字列46は言語識別情報47a,47b,47cを含んでおり、日本語文字列「これは」、「文章です」と英語文字列「This is」とが区別されている。上述した登録多言語文書データ43の場合と同様にして、日本語と英語の言語別に検索文字列の索引48a〜48hが作成される。このとき、先頭の言語識別情報47aにより言語種別を日本語に設定し、文字列「これは^W」の索引48a,48b,48cを作成し、日本語の格納領域42Bの索引45a,45b,45cに対して、索引の各文字の出現順位の順に、すなわち索引48aは索引45aと、索引48bは索引45bと、索引48cは索引45cと照合する。
【0057】
次いで、多言語文書データの索引45cの特殊文字「^W」により索引文字列終端の言語が英語に切り替わることを検出し、検索文字列の言語識別情報47bにより言語種別を英語に設定し、文字列「^W 0x1 0x2 ^V」の索引48d,48e,48fを作成し、英語の格納領域42Aの索引45d,45e,45fに対して、索引の各文字の出現順位の順に、すなわち索引48dは索引45dと、索引48eは索引45eと、索引48fは索引45fと照合する。このとき、多言語文書データの索引45cと索引45dの検出により「This is」が「これは」に連続していることを検出し、さらに、索引45fの特殊文字「^V」により索引文字列終端の言語が日本語に切り替わることを検出する。そして、検索文字列の言語識別情報47cにより言語種別を日本語に設定し、文字列「^V文章」の索引48g,48hを作成し、日本語の格納領域42Bの索引45g,45hに対して、索引の各文字の出現順位の順に、すなわち索引48gは索引45gと、索引48hは索引45hと照合する。このとき、多言語文書データの索引45fと索引45gの検出により「文章」が「This is」に連続していることが検出される。
【0058】
以上の照合によって、検索文字列の索引48a〜48hと多言語文書データの索引45a〜45hとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列46が登録多言語文書データ43において含まれることが検出されたことになる。
【0059】
上記の例では、日本語と英語の2つの異なる言語が連続する文字列で登録及び検索する例を示したが、言語ごとに別々に格納された索引を別々に利用して言語別に検索することも可能である。例えば、登録多言語文書データ43に対して英語検索により「This」で検索する場合は、言語種別を英語に設定して格納領域42Aに格納された索引のみと照合するれば良い。
【0060】
本実施形態では、多言語文書データの索引データなどを格納する一つのカラムを複数の格納領域に分割し、言語ごとに分離してそれぞれの格納領域にデータを格納するようにしている。これにより、多言語文書データを管理する場合に、複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、データ管理上の手順を簡略化できる。また、登録時のデータ格納や検索時のデータ照合などのためにカラムにアクセスする際に、言語種別によって対応する格納領域のみにアクセスすることができ、容易かつ素早いアクセスによって高速な登録や検索が可能となる。
【0061】
[第2実施形態]
図7は第2実施形態に係る多言語文書データを登録及び検索する部分の機能的構成を示すブロック図である。
【0062】
第2実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納及び参照可能なように、データベースの各カラムの属性と言語種別を定義するデータ定義部51、入力される多言語文書データに対し言語別の索引等の登録処理を行う言語別登録部52、多言語文書データを指定カラムに格納するデータ格納部53、言語種別に従って指定カラムに対して言語別の検索処理を行う言語別検索部54を有している。
【0063】
言語別登録部52及び言語別検索部54は、データ定義部51で定義された言語種別に従って、それぞれ指定カラムに対して対応する言語の登録処理、検索処置を行う。これにより、複数のカラムにおいてそれぞれのカラムに言語種別を設定し、複数の異なる言語のデータをそれぞれ対応する指定カラムに対して同時に登録、検索することが可能となる。なお、データ定義部51により定義する属性数はいくつであっても良い。
【0064】
図8は第2実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第2実施形態では、データベース構造における複数のカラムのそれぞれに対して言語種別を割り当てて定義し、各カラムに言語種別ごとに分けた多言語文書データをそれぞれ格納する。
【0065】
図8(A)に示すように、属性A,属性B,属性Cがそれぞれ定義されたカラム61,62,63を有し、これらのカラムの属性に対して図8(B)に示すように言語種別として言語α,言語β,言語γのデータ定義情報64が定義される。複数のカラム61,62,63に対してデータを格納する際には、データ定義情報64を参照して言語種別に対応する属性のカラムを判別し、そのカラム(指定カラム)に対してアクセスする。これにより、多言語文書データの実体及び索引を登録する場合に、言語種別ごとに索引作成等の言語処理を行って対応するカラムに登録すべきデータを格納することができる。また、複数のカラム61,62,63に格納されたデータを検索する場合は、データ定義情報64を参照して言語種別に対応する属性のカラムを判別し、そのカラム(指定カラム)に対してアクセスすることにより、言語種別ごとに検索文字列照合等の言語処理を行って検索することができる。
【0066】
次に、第2実施形態の多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、複数のカラムに対して日本語と英語の索引をそれぞれの対応するカラムに言語別に格納し検索する場合の動作手順について説明する。
【0067】
図9は日本語の索引と英語の索引をそれぞれのカラムに格納した状態を示す説明図である。ここでは、図9(B)に示すようにデータ定義情報73を設定し、図9(A)に示すように属性が「本文A」で言語種別が「日本語」のカラム71と、属性が「本文B」で言語種別が「英語」のカラム72とを設け、それぞれの言語別の索引を対応するカラムに格納する。登録多言語文書データ及び検索文字列は図6に示したものと同様の場合を例示する。
【0068】
登録多言語文書データの索引を作成して格納する場合、日本語文字列の索引45a〜45c,45g〜45jは対応する属性「本文A」を指定してカラム71に格納し、英語文字列の索引45d〜45fは対応する属性「本文B」を指定してカラム72に格納する。
【0069】
検索文字列46によって検索する場合、まず日本語文字列の索引48a〜48cを索引の各文字の出現順位の順に属性「本文A」のカラム71に格納された索引45a〜45cと照合する。次いで、英語文字列の索引48d〜48fを索引の各文字の出現順位の順に属性「本文B」のカラム72に格納された索引45d〜45fと照合する。このとき、多言語文書データの索引45cと索引45dの検出により「This is」が「これは」に連続していることが検出される。そして、日本語文字列の索引48g,48hを索引の各文字の出現順位の順に属性「本文A」のカラム71に格納された索引45g,45hと照合する。このとき、多言語文書データの索引45fと索引45gの検出により「文章」が「This is」に連続していることが検出される。
【0070】
以上の照合によって、検索文字列の索引48a〜48hと多言語文書データの索引45a〜45hとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列46が登録多言語文書データ43において含まれることが検出されたことになる。
【0071】
第2実施形態では、多言語文書データの索引データなどを格納する複数のカラムを言語種別ごとに定義し、言語ごとにカラムを区別してそれぞれのカラムにデータを格納するようにしている。これにより、第1実施形態と同様に、多言語文書データを管理する場合に複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【0072】
この第2実施形態は、それぞれの言語に関する索引等のデータを1つの専用のカラムに格納して言語を別々に検索する方法により多言語文書データを管理する場合に特に効果的である。また、第2実施形態の多言語文書処理装置及び方法では、一度カラムの属性を言語別に定義してしまえば、言語種別を意識することなく言語別にカラムにアクセスして検索することができる。例えば、属性として「本文A」を指定すると言語種別が日本語となり、日本語文字列の登録及び検索が行われ、同様に「本文B」を指定すると英語文字列の登録及び検索を行うことができる。
【0073】
[第3実施形態]
図10は第3実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【0074】
第3実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別に格納及び参照可能なように、格納時に多言語文書データの格納先を選択する格納領域選択部81、格納時及び検索時の言語種別を記憶する言語種別記憶部82、言語種別が言語α、言語β、言語γのデータをそれぞれ格納するデータ格納部83,84,85、各言語のデータ格納部83,84,85に格納する言語種別を記憶する格納言語種別記憶部86、検索時にデータ格納部83,84,85を選択する検索領域選択部87、各言語のデータ格納部83,84,85における検索言語種別の組を記憶する検索言語種別記憶部88を有している。なお、ここでは、説明のため言語種別を3つとしているが、言語種別及び対応するデータ格納部は2つ以上のいくつでも良い。
【0075】
格納領域選択部81は、多言語文書データの索引データ等を格納する場合に、言語種別記憶部82に入力された格納時の言語種別がいずれであるかを格納言語種別記憶部86にある格納言語種別情報を参照して識別し、データ格納部83,84,85のうちの対応する格納言語種別のデータ格納部を選択し、データの格納を行う。また、検索領域選択部87は、多言語文書データを検索する場合に、言語種別記憶部82に入力された検索時の言語種別がいずれであるかを検索言語種別記憶部88にある検索言語種別の組の情報を参照して識別し、データ格納部83,84,85のうちの対応する検索言語種別の組のデータ格納部を選択し、データの検索を行う。
【0076】
図11は第3実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示したものである。第3実施形態では、データベース構造における一つのカラムを複数の格納領域に分割し、各格納領域に格納言語種別と検索言語種別の組とを設定して、言語種別ごとに分けた多言語文書データをそれぞれ対応する格納領域に格納するとともに、検索文字列の言語種別に応じて対応する格納領域にアクセスして検索を行う。
【0077】
図11(A)に示すように、カラム91は、文書名などのアクセスする単位を表す属性92が定義されるとともに、データ格納部83,84,85に対応するように、言語α,言語β,言語γの言語種別ごとに設けられた複数の格納領域93A,93B,93Cに分割された構成となっている。なお、属性92には多言語文書データの主となる言語種別の情報も含まれるものとする。また、この例では、第1実施形態と同様に1つのカラムを複数の格納領域に分割して言語別にデータを格納する場合を示したが、第2実施形態と同様に複数のカラムのそれぞれに格納言語種別及び検索言語種別を定義して言語別にデータを格納するようにしても同様な作用効果が得られる。
【0078】
また、図11(B)に示すように、格納言語種別記憶部86及び検索言語種別記憶部88に対応して、カラム91内の各格納領域に割り当てた格納言語種別及び検索言語種別を示す言語種別情報96が設定され、カラム91の外部又は内部の所定箇所に記憶されている。検索言語種別は、多言語文書データにおいて用いられる格納言語種別を含む言語種別の組を示したものである。例えば、検索言語種別Eは言語α、検索言語種別Fは言語α及び言語β、検索言語種別Gは言語α及び言語γとする。ここで、格納言語種別は各カラム又は格納領域において唯一の言語種別が設定される。また、検索言語種別は1つ以上の言語種別の組からなり、その中の1つの言語種別が格納言語種別となるように設定される。
【0079】
入力された多言語文書データをカラム91に格納する場合、言語種別情報96の格納言語種別に基づいて、複数の格納領域93A,93B,93Cの中からいずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスして格納する。すなわち、格納言語種別が言語αの場合は格納領域93Aが、言語βの場合は格納領域93Bが、言語γの場合は格納領域93Cが選択される。また、カラム91に格納された多言語文書データの検索を行う場合は、言語種別情報96の検索言語種別に基づいていずれかの格納領域を選択し、対応する言語種別の格納領域にアクセスしてデータを参照する。この場合、検索言語種別Eの場合は格納領域93Aが、検索言語種別Fの場合は格納領域93Bが、検索言語種別Gの場合は格納領域93Cが選択される。すなわち、言語αの場合は格納領域93A,93B,93Cの全格納領域が、言語βの場合は格納領域93Bが、言語γの場合は格納領域93Cが選択されることになる。なお、ここでは、カラム91には3つの格納領域が多重化された場合を示しているが、この多重化した格納領域の数はいくつでも構わない。
【0080】
このように、データベースのカラムにおいて複数のデータ格納領域を設定し、格納する言語種別と検索する言語種別の組とによりそれぞれの格納領域の選択を行う機能を設けることにより、1つの属性に対応するカラムに対して複数の言語別に格納領域を選択してデータを格納及び検索することが可能となる。
【0081】
次に、第3実施形態の多言語文書処理装置及び方法において、複数の言語の文章からなる多言語文書として日本語と英語が混在した文書データを対象とし、複数のカラムに対して日本語と英語の索引をそれぞれの対応するカラムに言語別に格納し検索する場合の動作手順について説明する。
【0082】
図12は日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図、図13は登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【0083】
ここでは、図12に示すように、属性が「本文(日本語)」のカラム101に格納言語種別が日本語で検索言語種別が日本語である格納領域102Aと、格納言語種別が英語で検索言語種別が日本語及び英語である格納領域102Bとを設け、それぞれの言語の索引を格納する場合を例示する。
【0084】
この場合、日本語の索引は格納領域102Aに、英語の索引は格納領域102Bにそれぞれ分割されて格納される。検索を行う際には、日本語が指定された場合は格納領域102A及び102Bにアクセス可能となり、英語が指定された場合は格納領域102Bのみにアクセス可能となって、検索文字列によって検索が実行される。主となる言語種別である日本語を指定して検索を行う場合は、英語の文字は日本語の中に埋め込まれたものと判断し、日本語と同じ方法で索引を作成し検索する。
【0085】
図13(A)は、「これは This is文書です」を表す登録多言語文書データ103から登録用の索引を作成する手順を示したものである。登録多言語文書データ103には第1実施形態と同様に言語識別情報が含まれており、「これは」と「文章です」の日本語文字列104a,104cと、「This is」の英語文字列104bとが区別されている。まず、言語識別情報を省略して文字列104a,104b,104cを連結し、英語文字列「This is」を対応文字「0x1 0x2」に変換した連結文字データ105とする。
【0086】
そして、カラム101に定義された主となる言語種別(ここでは日本語)により、日本語文字列として索引106a〜106hを作成する。この場合、日本語文字列「これは」に関する索引である、索引106aから日本語文字列104aと英語文字列104bとの連結を示す索引106cまでを格納領域102Aに格納し、英語文字列「This is」に関する索引である、索引106dから英語文字列104bと日本語文字列104cとの連結を示す索引106eまでを格納領域102Bに格納し、日本語文字列「文章です」に関する索引である索引106fから索引106hまでを格納領域102Aに格納する。
【0087】
このように登録された多言語文書データに対して検索を行う場合は、入力された検索文字列について同様に索引を作成し、格納されている多言語文書データの索引と照合して一致しているか否かを判断する。図13(B)は、「これは This is文書」を表す検索文字列107から検索用の索引を作成する手順を示したものである。検索文字列107は日本語文字列108a,108cと英語文字列108bとを含んでいるため、2つの格納領域102A,102Bの検索言語種別の組の両方に含まれる日本語を指定する。これにより、検索文字列107について格納領域102Aと102Bの両方にアクセスして検索することができる。
【0088】
このとき、上述した登録多言語文書データ103の場合と同様にして、検索文字列107の連結文字データ109から索引110a〜110fを作成し、格納されている索引106a〜106fと各文字の出現順位の順に照合する。すなわち、索引110a,110b,110cを日本語の格納領域102Aの索引106a,106b,106cと出現順位に従って照合し、索引110d,110eを日本語及び英語の格納領域102Bの索引106d,106eと出現順位に従って照合し、索引110fを日本語の格納領域102Aの索引106fと照合する。
【0089】
以上の照合によって、検索文字列の索引110a〜110fと多言語文書データの索引106a〜106fとが一致した場合は、これらの索引の文字連鎖に対応した文字列、すなわち検索文字列107が登録多言語文書データ103において含まれることが検出されたことになる。
【0090】
第3実施形態では、多言語文書データの索引データなどを格納する一つのカラムを複数の格納領域に分割し、各格納領域に格納言語種別と検索言語種別との組を定義して、それぞれの格納言語種別に対応する格納領域にデータを格納するとともに、対応する検索言語種別の格納領域にアクセスして検索するようにしている。これにより、第1実施形態と同様に、多言語文書データを管理する場合に複数の異なる種類の言語に関するデータを言語別に取り扱うことができ、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【0091】
この第3実施形態は、複数の言語からなる多言語文書データを登録して管理する際に、その索引を1つの言語の索引として扱う多言語の登録検索を行う場合にに特に効果的である。例えば、主となる言語種別(上記例では日本語)の検索文字列では特に言語種別を意識することなく全格納領域にアクセスして検索でき、他の言語(上記例では英語)の検索文字列では一部の格納領域のみにアクセスするため、高速な検索が可能である。
【0092】
[第4実施形態]
図14は第4実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【0093】
第4実施形態では、多言語文書処理装置の主要部の機能的構成として、多言語文書データを言語別にページごとに格納可能なように、多言語で構成された文書データを読み取って文書ごとに識別するための文書情報(文書番号)を付与する多言語文書データ入力部121、入力された多言語文書データからタグなどの言語識別情報を検出して言語種別を判定する言語識別手段に該当する言語種別判定部122、判定された言語種別に基づいて多言語文書データに対して文書番号単位で言語別にページ番号の割り付けを行うページ分割手段に該当するページ分割部123、文書番号、ページ番号、言語種別を取得して各ページに含まれる文書データに対して言語別に索引を作成する索引作成手段に該当する言語別索引作成部124、作成された索引を言語別にカラムに格納する索引格納手段に該当する言語別索引格納部125、文書番号と多言語文書データそのものの実体を格納する実体格納手段に該当する実体格納部126を有している。
【0094】
ページ分割部123は、多言語文書データを文書番号単位で言語別に分割してページ番号の割り付けを行い、その言語種別の文書データの長さが予め設定した1ページの長さを超えた場合には複数ページにさらに分割して言語種別ごとにページ番号を割り付ける。言語別索引作成部124は、各ページに含まれる文書データに対して各文字の出現順位又は出現位置を計算し、文書番号、ページ番号、文字の出現順位又は出現位置を含む索引データを言語種別ごとに分割して作成する。言語別索引格納部125は、作成された索引データを例えば言語種別ごとに索引ファイルとして格納する。
【0095】
また、多言語文書データを高速検索可能なように、検索文字列と指定された検索言語種別を読み取る検索文字列入力部127、言語別索引格納部125に格納された検索言語種別に対応する索引と検索文字列とを照合して検索を行う検索手段に該当する文字列検索部128、文字列検索部128の検索結果に基づいて該当する文書番号の多言語文書データの実体を実体格納部126から抽出し出力する実体抽出手段に該当する実体抽出部129を有している。
【0096】
文字列検索部128は、指定された検索言語種別に対応する索引ファイルを言語別索引格納部125から読み取り、検索文字列を含む索引ファイルを検出して索引データの文字列と検索文字列とが一致するかを判定し、一致した索引データに該当する文書番号を出力する。実体抽出部129は、文字列検索部128により取得された文書番号に対応する文書データの実体を読み出して検索結果として出力する。
【0097】
図15は第4実施形態における多言語文書データの格納及び検索に関する多言語文書処理方法を概念的に示したものである。図15において、(A)は多言語文書データの登録(索引格納)に関する動作を、(B)は多言語文書データの検索に関する動作を示している。
【0098】
多言語文書データの索引を登録する場合は、図15(A)に示すように、登録多言語文書データ131を言語種別ごと及びページごとに分割して索引を作成し格納する。この登録多言語文書データ131は、<日本語>、<英語>のタグにより日本語と英語の言語種別が区別されている。なお、これらの言語の他に、中国語、韓国語など多数の言語をタグで示して区別することも可能である。
【0099】
まず、入力した登録多言語文書データ131に文書番号として「本文X」を付与する。なお、文書番号は「文書1」などの連続番号とか、任意の番号や符号でも良い。また、この登録多言語文書データ131の実体は実体データ139として格納される。次いで、登録多言語文書データ131における文字列の言語種別をタグにより判定し、言語種別ごとに複数ページに分割してページ番号を付与する。図15の例は、言語種別が日本語でページ番号P1が割り付けられた文書レコード132a、言語種別が英語でページ番号P2が割り付けられた文書レコード132b、言語種別が日本語で複数ページに分割されてページ番号P3〜P7が割り付けられた文書レコード132c〜132gを示している。
【0100】
そして、複数のページごとに分割された文書レコード132a〜132gに対して、それぞれ上述した実施形態と同様に索引を作成する。本実施形態では、文書番号「本文X」、ページ番号「P1」〜「P7」、文字連鎖の情報を含む索引データを作成し、索引ファイルとして言語種別ごとにカラムに格納する。すなわち、日本語の文書レコード132a,132c〜132gに関する索引データは索引ファイル133a〜133fとして日本語の格納領域に格納され、英語の文書レコード132bに関する索引データは索引ファイル134aとして英語の格納領域に格納される。なお、索引データとしては、文字連鎖だけでなく、各文字の出現順位や出現位置も合わせて格納しても良い。
【0101】
上記のように格納された多言語文書データに対する検索の第1例を図15(B)に示す。この第1例は、多言語検索文字列データ135として、検索文字列が「文書」で、検索言語種別として「日本語」が指定された場合の動作である。このとき、入力された多言語検索文字列データ135に基づいて検索言語種別を判断し、日本語の索引ファイルを指定する。そして、日本語の索引ファイルの中に検索文字列「文書」の文字連鎖が含まれるかどうかを判定し、この「文書」が含まれる索引ファイル133cを検出する。さらに、この索引ファイル133cに格納されている索引データ136として対応する文書番号「本文X」を取得する。次いで、「本文X」に該当する実体データ139を読み出して検索結果として出力する。なお、検索結果としては、第1段階として文書番号を基にした文書データの識別情報のみを出力し、その後ユーザの指示に応じて実体データを出力するようにしても良い。
【0102】
また、図15(C)は多言語文書データに対する検索の第2例である。この第2例のように、検索文字列と検索言語種別に加えてページ間隔を指定した多言語検索文字列データ137を用いて検索することも可能である。このページ間隔は、検索文字列が所定の範囲内にまとまって存在するか又はバラバラに存在するかを判定するいわゆる近傍検索に用いられるもので、一致した文字列の出現位置の間隔の指定範囲(同一の検索文字列の出現範囲指定値)に対応するものである。ここでは、検索文字列が「文」、検索言語種別が「日本語」、ページ間隔として「5ページ以内」が指定された場合の動作を示す。
【0103】
この場合、入力された多言語検索文字列データ137に基づいて検索言語種別を判断し、日本語の索引ファイルの中に検索文字列「文」の文字連鎖が含まれるかどうかを判定して、この「文」が含まれる索引ファイル133c及び133eを検出する。そして、これらの索引ファイル133c,133eに格納されている索引データ138として、ページ番号「P3」,「P7」を含むデータ「本文X、P3、文書」「本文X、P7、文章」を取得する。次いで、ページ間隔が7−3+1=5ページであることを算出して、指定ページ間隔である「5ページ以内」かどうかを判定する。この判定結果により、この場合は5ページ以内であるので、索引ファイル133c,133eに対応する索引データの文書番号「本文X」を取得し、「本文X」に該当する実体データ139を読み出して検索結果として出力する。
【0104】
以上の手順により、多言語文書データのページ別の登録とともに、格納された多言語文書データに対する検索が行われ、検索文字列に一致した文書データが抽出される。
【0105】
第4実施形態では、多言語文書データを言語種別ごとかつ所定文字数ごとに複数ページに分割して、格納及び検索を行うようにしている。これにより、多言語文書データを管理する場合に、複数の異なる種類の言語に関するデータをページ別に取り扱うことができるため、言語別の管理がさらにしやすくなり、日本語と英語など複数言語が連続する文書データの登録及び検索が容易かつ高速に実行可能となる。
【0106】
以上説明したように、本実施形態によれば、多言語文書処理における文書管理において、1つのカラムに複数の言語の格納領域を備え、言語別に1つの格納領域又は複数の格納領域にデータを格納するか、又は、1つのカラムに格納するデータの言語を設定してデータの格納時に複数のカラムの中から該当する言語のカラムを自動的に識別することにより、多言語文書データを言語別に処理し言語別に格納することが可能となる。また、1つの文書データに対して複数のページに分割し、かつ言語種別ごとにページと言語種別を組にした索引ファイルを作成して言語別のカラムに格納することにより、検索文字列指定時に言語種別及びページごとにカラムにアクセスして検索することが可能となる。
【0107】
このとき、データベースのカラムにおいて、1つのカラムに複数の格納領域を多重化し、これらの格納領域の中の言語種別に対応する1つの格納領域にアクセスしたり、複数のカラムのそれぞれに言語種別を定義して該当する言語種別のカラムにアクセスすることが容易に実行可能である。
【0108】
上記作用により、複数の異なる種類の言語データを各々別々に又は種類別に扱うことができ、その結果、多言語文書検索において言語別の検索を行う場合に、指定した言語の索引を直ちにアクセスして探索できるので、多言語文書を高速に検索することができる。また、特定の言語だけの索引を削除することも可能であり、1つの言語しかなかった索引を多言語に拡張することも容易に行うことができるため、規模の縮小や拡大などのスケーラビリティが高いデータベースを構築できるなど、多大な効果が得られる。
【0109】
【発明の効果】
以上説明したように本発明によれば、多言語文書に関する情報を言語ごとに区別して管理することができ、各情報に素早くアクセスして検索等の処理を容易かつ高速に行うことが可能となる効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る多言語文書処理装置の機能的概略構成を示すブロック図である。
【図2】第1実施形態に係る多言語文書データを格納及び参照する部分の機能的構成を示すブロック図である。
【図3】第1実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図4】第1実施形態において日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図である。
【図5】言語種別を識別するための言語識別情報や英単語又は英連語を置き換える特殊文字を示す説明図である。
【図6】第1実施形態において登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【図7】第2実施形態に係る多言語文書データを登録及び検索する部分の機能的構成を示すブロック図である。
【図8】第2実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図9】第2実施形態において日本語の索引と英語の索引をそれぞれのカラムに格納した状態を示す説明図である。
【図10】第3実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【図11】第3実施形態における多言語文書データの格納に関する多言語文書処理方法を概念的に示した説明図である。
【図12】第3実施形態において日本語の索引と英語の索引をそれぞれの格納領域に格納した状態を示す説明図である。
【図13】第3実施形態において登録多言語文書データの索引及び検索文字列の索引を作成する手順を示す説明図である。
【図14】第4実施形態に係る多言語文書データを格納及び検索する部分の機能的構成を示すブロック図である。
【図15】第4実施形態における多言語文書データの格納及び検索に関する多言語文書処理方法を概念的に示した説明図である。
【図16】従来の多言語文書処理装置の機能的概略構成を示すブロック図である。
【図17】従来の多言語文書データの格納方法を概念的に示した説明図である。
【符号の説明】
11 登録文字列言語識別部
12 言語別索引作成部
13 言語別索引格納部
14 実体格納部
15 検索文字列言語識別部
16 検索文字列言語別索引作成部
17 言語別索引照合部
18 実体抽出部
21 入出力切替部
22 言語種別記憶部
23,24,25 データ格納部
31 カラム
32 属性
33A,33B,33C 格納領域
36 言語種別情報

Claims (10)

  1. 複数の言語の文字を含み異なる言語が連続した多言語文書データの言語を識別する言語識別手段と、
    前記多言語文書データに関する索引を言語別に作成する索引作成手段と、
    前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備え、
    前記言語識別手段は、前記多言語文書データに含まれる言語識別情報により言語を識別するものであり、
    前記索引作成手段は、前記言語識別情報を所定の特殊文字に変換し、該特殊文字を含む全ての文字の文字連鎖を言語別に作成することを特徴とする多言語文書処理装置。
  2. 複数の言語の文字を含み異なる言語が連続した多言語文書データの言語を識別する言語識別手段と、
    前記多言語文書データに関する索引を言語別に作成する索引作成手段と、
    前記索引を言語ごとに格納する索引格納手段と、前記言語ごとの索引を使用して多言語文書データの検索を行う検索手段と、を備え、
    前記索引作成手段は、前記多言語文書データの単語又は2文字の連語を所定の対応文字に変換し、該対応文字を含む全ての文字の文字連鎖を言語別に作成することを特徴とする多言語文書処理装置。
  3. 前記索引格納手段は、データベースにおける一つのカラムを分割してそれぞれに言語種別を設定した複数の格納領域を備えており、この複数の格納領域から言語種別に対応する格納領域を選択して索引を格納することを特徴とする請求項1又は2に記載の多言語文書処理装置。
  4. 前記索引格納手段は、データベースにおけるそれぞれのカラムに言語種別を設定した複数のカラムを備えており、この複数のカラムから言語種別に対応するカラムを選択して索引を格納することを特徴とする請求項1又は2に記載の多言語文書処理装置。
  5. 前記索引格納手段は、データベースにおける複数のカラム又は一つのカラムを分割した複数の格納領域のそれぞれにデータ格納時の格納言語種別とデータ検索時の検索言語種別とを設定した複数の格納部を備え、この複数の格納部から格納言語種別に対応する格納部を選択して索引を格納するものであり、
    前記検索手段は、データ検索時に指定された言語種別を含む検索言語種別に対応する格納部を参照し、その格納部の索引により検索を行うことを特徴とする請求項1又は2に記載の多言語文書処理装置。
  6. 前記格納言語種別は、前記格納部を構成する一つのカラム又は格納領域に対して唯一の言語種別がそれぞれ設定されることを特徴とする請求項に記載の多言語文書処理装置。
  7. 前記索引格納手段は、前記複数の格納部としてデータベースにおける一つのカラムを分割してそれぞれに格納言語種別と検索言語種別とを設定した複数の格納領域を備えており、前記格納言語種別は、前記一つの格納領域に対して唯一の言語種別がそれぞれ設定され、これらの格納言語種別のうちの一つが前記カラムの言語種別として設定されることを特徴とする請求項に記載の多言語文書処理装置。
  8. 前記検索言語種別は、少なくとも一つの言語種別を含む言語種別の組からなり、この言語種別の組がそれぞれの格納部を構成する一つのカラム又は格納領域に対して設定され、この検索言語種別における一つの言語種別は当該格納部に設定された格納言語種別であることを特徴とする請求項に記載の多言語文書処理装置。
  9. 前記多言語文書データを言語別でかつ所定文字数以内の複数のページに分割するページ分割手段を備え、前記索引作成手段は、前記言語別のページごとに索引を作成することを特徴とする請求項1又は2に記載の多言語文書処理装置。
  10. 前記多言語文書データの実体をデータベースにおける一つのカラムに又は複数のカラムに別々に格納する実体格納手段を備え、この多言語文書データの実体と前記多言語文書データの索引とは別々の格納手段に格納することを特徴とする請求項1〜のいずれかに記載の多言語文書処理装置。
JP24056599A 1999-08-26 1999-08-26 多言語文書処理装置、多言語文書処理方法及び記録媒体 Expired - Lifetime JP3698400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24056599A JP3698400B2 (ja) 1999-08-26 1999-08-26 多言語文書処理装置、多言語文書処理方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24056599A JP3698400B2 (ja) 1999-08-26 1999-08-26 多言語文書処理装置、多言語文書処理方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2001067368A JP2001067368A (ja) 2001-03-16
JP3698400B2 true JP3698400B2 (ja) 2005-09-21

Family

ID=17061423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24056599A Expired - Lifetime JP3698400B2 (ja) 1999-08-26 1999-08-26 多言語文書処理装置、多言語文書処理方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP3698400B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213240A (ja) 2002-12-27 2004-07-29 Casio Comput Co Ltd データ構造、情報表示制御装置及びプログラム
JP2004362280A (ja) * 2003-06-05 2004-12-24 Hitachi Ltd 放送番組蓄積装置
CN101874243A (zh) 2007-11-27 2010-10-27 三菱电机株式会社 地图信息处理装置
US8756215B2 (en) 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765026A (ja) * 1993-06-30 1995-03-10 Matsushita Electric Ind Co Ltd 文書ファイリング装置
JPH0916616A (ja) * 1995-06-30 1997-01-17 Toyo Joho Syst:Kk 索引データ生成検索装置
JP4149544B2 (ja) * 1997-03-10 2008-09-10 株式会社東芝 全文検索システムおよび全文検索プログラムを記録した記録媒体
JP4031844B2 (ja) * 1997-03-25 2008-01-09 株式会社日立製作所 検索方法およびシステム

Also Published As

Publication number Publication date
JP2001067368A (ja) 2001-03-16

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
US6081804A (en) Method and apparatus for performing rapid and multi-dimensional word searches
JP3696731B2 (ja) 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7260570B2 (en) Retrieving matching documents by queries in any national language
JPH0765035A (ja) 構造化文書検索装置
JPH07282063A (ja) 機械翻訳装置
JPH05174064A (ja) 文書検索方法及び装置
JP4254763B2 (ja) 文書検索システム、文書検索方法及び文書検索プログラム
JP3220865B2 (ja) フルテキストサーチ方法
JP3022539B1 (ja) 文書検索装置
JP2693914B2 (ja) 検索システム
JP3698400B2 (ja) 多言語文書処理装置、多言語文書処理方法及び記録媒体
JPH08147311A (ja) 構造化文書検索方法及び装置
JP3497243B2 (ja) 文書検索方法及び装置
JPH08329116A (ja) 構造化文書検索方法
JP3303881B2 (ja) 文書検索方法および装置
US20040143574A1 (en) System and method for creating a data file for use in searching a database
JPH05101102A (ja) 検索装置
JPH06348757A (ja) 文書検索装置および方法
JP3859044B2 (ja) インデクス作成方法および検索方法
JP3071703B2 (ja) 表作成装置およびその方法
JP3477822B2 (ja) 文書登録検索システム
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP3376996B2 (ja) フルテキストサーチ方法
JP3187671B2 (ja) 電子辞書表示装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050704

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100715

Year of fee payment: 5