JP4303027B2 - 字句をデータに変換する装置及び方法 - Google Patents

字句をデータに変換する装置及び方法 Download PDF

Info

Publication number
JP4303027B2
JP4303027B2 JP2003115287A JP2003115287A JP4303027B2 JP 4303027 B2 JP4303027 B2 JP 4303027B2 JP 2003115287 A JP2003115287 A JP 2003115287A JP 2003115287 A JP2003115287 A JP 2003115287A JP 4303027 B2 JP4303027 B2 JP 4303027B2
Authority
JP
Japan
Prior art keywords
word
words
memory
dictionary
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003115287A
Other languages
English (en)
Other versions
JP2004318753A (ja
Inventor
秀之 武井
英明 岩下
文彦 杉浦
幸子 彌永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
Original Assignee
Bank of Tokyo Mitsubishi UFJ Trust Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Tokyo Mitsubishi UFJ Trust Co filed Critical Bank of Tokyo Mitsubishi UFJ Trust Co
Priority to JP2003115287A priority Critical patent/JP4303027B2/ja
Publication of JP2004318753A publication Critical patent/JP2004318753A/ja
Application granted granted Critical
Publication of JP4303027B2 publication Critical patent/JP4303027B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置及び方法に関する。
【0002】
【従来の技術】
例えば、銀行ではいわゆる電文等についてCIF解析処理が必要になることがある(なお、CIFは顧客情報ファイル(Customer Information File)を意味する。)。詳細には、銀行間あるいは銀行内での電文の処理で、例えば図1の参照番号30で示されるような電文中の字句「GETRONICS FOODS CO.LTD 1−2−34 AKASAKA」の中の複数の単語「GETRONICS」、「FOODS」及び「AKASAKA」の組み合わせを図1の参照番号32に示される顧客コード「123−45678」に変換することが必要になる。
【0003】
従来は、この変換処理を次のように行っていた。即ち、複数の単語の組み合わせとそれに対応する顧客コードとの顧客コード・テーブルを予め記憶装置に格納しておく。次いで、入力データから変換すべき複数の単語を抽出して、その抽出された複数の単語と顧客コード・テーブルの中の複数の単語とを文字列比較を行い、一致した場合顧客コードに変換していた(そのような例として、特許文献1参照。)。
【0004】
【特許文献1】
特開2002−56005号公報
【0005】
【発明が解決しようとする課題】
しかしながら、このような文字列比較は、1バイト単位で行うため、とりわけ大量のデータが対象になるときには、当該処理に要する検索時間(seek time)の関係上、高速に処理を行うことができないという問題があった。
【0006】
従って、本発明の課題は、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに高速に変換して、当該データの入力を受けるコンピュータでの処理を可能とすることにある。
【0007】
【課題を解決するための手段】
上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語が表す対象に予め設定された識別情報を含む別のデータに変換する装置において、複数の単語が予め登録された基本語辞書、及び、前記基本語辞書に登録されている単語のうちキーとして選択されたキー単語と、当該キー単語を他の単語と組み合わせた単語の組と、前記単語の組が表す対象に予め設定された前記識別情報と、が関連付けて予め登録された名称辞書を記憶する記憶手段と、前記複数の単語を含む字句を前記識別情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書をメモリに記憶させ、変換対象の字句を単語に分解し、前記メモリに記憶させた前記基本語辞書において前記分解した個々の単語が記憶されているメモリ・アドレスを各々取得することで、前記変換対象の字句を表すメモリ・アドレスの組み合わせを取得し、前記分個々の単語のうち前記名称辞書に前記キー単語として登録されている単語を抽出すると共に、前記名称辞書に登録されている前記単語の組のうち、少なくとも前記抽出した単語を含む単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、少なくとも前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、少なくとも前記抽出した単語を含む前記単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに変換した名称辞書をメモリに記憶させ、前記メモリに記憶した前記名称辞書に登録されている、前記抽出した単語を含む前記単語の組を表すメモリ・アドレスの組み合わせのうち、当該メモリ・アドレスの組み合わせにおける個々のメモリ・アドレスが前記変換対象の字句を表すメモリ・アドレスの組み合わせにおける個々のメモリ・アドレスの何れかと同じであるメモリ・アドレスの組み合わせ選択し、前記変換対象の字句を、前記選択したメモリ・アドレスの組み合わせと関連付けて前記名称辞書に登録されている前記識別情報を含む別のデータに変換する装置により解決される。
【0008】
本発明の装置の一形態によれば、前記処理エンジンは、前記名称辞書に登録されている全ての単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、前記個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、前記全ての単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに各々変換した名称辞書をメモリに記憶させることが好ましい。
【0009】
また、本発明の装置の一形態によれば、前記処理エンジンは、前記名称辞書をメモリに記憶させた際に、前記メモリに記憶させた前記基本語辞書に対し、前記基本語辞書に登録されている単語のうち前記名称辞書に前記キー単語として登録されている単語に、前記メモリに記憶させた前記名称辞書において前記単語を前記キー単語として他の単語と組み合わせた単語の組が記憶されているメモリ・アドレスを付加しておき、前記分解した個々の単語のうち、前記メモリに記憶させた前記基本語辞書において前記メモリ・アドレスが付加されている単語を、前記名称辞書に前記キー単語として登録されている単語として抽出することが好ましい。
【0010】
また、本発明の装置の一形態によれば、前記処理エンジンは、前記名称辞書に登録されている前記単語の組のうち前記抽出した単語を含む単語の組についてのみ、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、前記抽出した単語を含む前記単語の組についてのみ前記単語の組を表すメモリ・アドレスの組み合わせに変換した名称辞書のうち、前記抽出した単語を含み前記メモリ・アドレスの組み合わせに変換した前記単語の組及び当該単語の組と関連付けて前記名称辞書に登録された識別情報をメモリに記憶させることが好ましい。
【0011】
また、本発明の装置の一形態によれば、前記記憶手段に記憶されている名称辞書は、前記キー単語と、前記キー単語を他の単語と組み合わせた単語の組と、当該単語の組に設定されたコードと、が関連付けて予め登録された核名称辞書、及び、前記核名称辞書に登録されているコードと、当該コードと関連付けられた単語の組に更に組み合わせる別の単語と、前記コードと関連付けられた単語の組に更に前記別の単語を組み合わせた単語の組が表す対象に予め設定された識別情報と、が関連付けて予め登録されたフル名称辞書から構成されており、前記処理エンジンは、前記核名称辞書に登録されている前記単語の組のうち、少なくとも前記抽出した単語を含む単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、少なくとも前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、少なくとも前記抽出した単語を含む前記単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに変換した核名称辞書をメモリに記憶させると共に、前記フル名称辞書に登録されている前記別の単語のうち、少なくとも前記抽出した単語を含む単語の組に設定されたコードと関連付けられた前記別の単語について、前記メモリに記憶させた前記基本語辞書において前記別の単語が記憶されているメモリ・アドレスを取得し、少なくとも前記抽出した単語を含む前記単語の組に設定されたコードと関連付けられた前記別の単語を前記取得したメモリ・アドレスに置き換えたフル名称辞書をメモリに記憶させ、前記メモリに記憶した前記核名称辞書に登録されている、前記抽出した単語を含む前記単語の組を表すメモリ・アドレスの組み合わせのうち、当該メモリ・アドレスの組み合わせにおける個々のメモリ・アドレスが、前記変換対象の字句を表すメモリ・アドレスの組み合わせにおける個々のメモリ・アドレスの何れかと同じであるメモリ・アドレスの組み合わせを選択した後に、選択したメモリ・アドレスの組み合わせと関連付けて前記核名称辞書に登録されている前記コードを抽出し、前記メモリに記憶した前記フル名称辞書に前記抽出した前記コードと関連付けて登録されている前記別の単語を表すメモリ・アドレスのうち、当該メモリ・アドレスが、前記変換対象の字句を表すメモリ・アドレスの組み合わせから前記選択したメモリ・アドレスの組み合わせを除外した残りのメモリ・アドレスの何れかと同じであるメモリ・アドレスを選択し、前記変換対象の字句を、前記選択したメモリ・アドレスと関連付けて前記フル名称辞書に登録されている前記識別情報を含む別のデータに変換することが好ましい。
【0012】
また、本発明の装置の一形態によれば、前記記憶手段に記憶されている名称辞書は、当該名称辞書に登録されている単語の組のうち、前記単語の組を構成する単語の一部が相違しかつ表す対象が同一の複数の単語の組が、前記識別情報としての同一の情報と関連付けられていることが好ましい。
【0013】
上記課題は、複数の単語を含む字句を、当該複数の単語が表す対象に予め設定された識別情報を含む別のデータに変換する方法において、複数の単語が予め登録された基本語辞書、及び、前記基本語辞書に登録されている単語のうちキーとして選択されたキー単語と、当該キー単語を他の単語と組み合わせた単語の組と、前記単語の組が表す対象に予め設定された前記識別情報と、が関連付けて予め登録された名称辞書を記憶する記憶手段を備えたコンピュータにより、前記基本語辞書をメモリに記憶させ、変換対象の字句を単語に分解し、前記メモリに記憶させた前記基本語辞書において前記分解した個々の単語が記憶されているメモリ・アドレスを各々取得することで、前記変換対象の字句を表すメモリ・アドレスの組み合わせを取得し、前記分解した個々の単語のうち前記名称辞書に前記キー単語として登録されている単語を抽出すると共に、前記名称辞書に登録されている前記単語の組のうち、少なくとも前記抽出した単語を含む単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、少なくとも前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、少なくとも前記抽出した単語を含む前記単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに変換した名称辞書をメモリに記憶させ、前記メモリに記憶した前記名称辞書に登録されている、前記抽出した単語を含む前記単語の組を表すメモリ・アドレスの組み合わせのうち、当該メモリ・アドレスの組み合わせにおける個々のメモリ・アドレスが、前記変換対象の字句を表すメモリ・アドレスの組み合わせにおける個々のメモリ・アドレスの何れかと同じであるメモリ・アドレスの組み合わせを選択し、前記変換対象の字句を、前記選択したメモリ・アドレスの組み合わせと関連付けて前記名称辞書に登録されている前記識別情報を含む別のデータに変換する処理を行わせる方法により解決される。
【0021】
【発明の実施の形態】
本発明の好適な実施形態を以下図面を参照して説明する。
図1は、本発明の好適な実施形態による字句をデータに変換する装置の基本構成を示す図である。図1において、10はメイン・フレーム・コンピュータ、パーソナル・コンピュータ、マイクロプロセッサ等の任意のデータ処理装置より構成される処理エンジンを、12はメイン・メモリを、14は基本語辞書を、16は核名称辞書を、18はフル名称辞書をそれぞれ示す。基本語辞書14、核名称辞書16及びフル名称辞書18は、磁気ディスク等のハード・ディスク(図示せず)に格納されているが、これに限定されず、いずれの他の形式の記憶装置に格納され得る。処理エンジン10として機能するデータ処理装置と、メイン・メモリ12、及び基本語辞書14、核名称辞書16及びフル名称辞書18を格納するハード・ディスクとは通常のデータ・バス等(図示せず)により相互に結合されている。
【0022】
図2は、基本語辞書14に事前に登録されている単語(以下、「基本語」とも言う。)をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。なお、本明細書における単語あるいは基本語には、普通名詞、固有名詞、略語が含まれるのは勿論、その他、ある意味を有するいずれの一組の記号も含まれる。図2に示すように、基本語辞書14の一例は、項目として、キー、品詞、名称の属性、コードの属性を含むが、本発明の基本語辞書としては基本語を登録するための項目であるキーを少なくとも含めばよく、その他の項目は上記のものに限定されるものではない。基本語辞書14は、変換すべき字句に登録されていない基本語を含む場合、新たな基本語を登録し、また登録済みの基本語で使用しなくなった場合に削除できる構造であることが好ましい。処理エンジン10は、変換処理を開始する前に、図2に示すように、基本語辞書14に登録されている基本語をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開する。即ち、各登録内容のエントリポイントとしてメモリ・アドレスが割り振られる。具体的には、キーの欄の基本語「AKASAKA」はメイン・メモリ12上のメモリ・アドレス100番という場所に情報が格納され、キーの欄の基本語「BANK」はメモリ・アドレス101番という場所に情報が格納される等々である。基本語をメモリ上へ展開するときに、各基本語に対して後述するようにメモリ・アドレスを格納するための「名称パターン」という項目を付加してメモリ展開する。なお、変換すべき字句に含まれる基本語が事前に分かっている場合には、用いられる基本語だけをメイン・メモリ12上に展開してもよく、更に、用途によっては、変換処理速度が遅くなるが、基本語辞書14に登録されている基本語の一部分をメモリ展開し、未展開の基本語が変換処理に必要になったとき追加的にメモリ展開するようにしてもよい。
【0023】
図3は、核名称辞書16及びフル名称辞書18のそれぞれに事前に登録されている核名称及びフル名称をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。図3に示すように、核名称辞書16の項目は、キー、名称パターン、コードから成る。核名称辞書16の名称パターンの項目には、基本語辞書14に登録されている基本語のうちで、変換すべき可能性のある基本語の組み合わせに含まれる2つの基本語が事前に登録されている。具体的には、核名称辞書16の第1行には「GETRONICS」と「FOODS」とが、第2行には「GETRONICS」と「SHOKUHIN」とが、第3行には「GETRONICS」と「BANK」とがそれぞれ文字列として登録されている。これらの名称パターンに共通する基本語は「GETRONICS」であり、この基本語が核名称辞書16のキーの項目に登録されている。コードには、各名称パターンとの関連を表すための記号が登録される。名称パターンの「GETRONICS FOODS」と「GETRONICS SHOKUHIN」とはその意味内容がおなじであることから、コードとして同じ記号「#GETRO#」が割り当てられるのが好ましいが、異なっていてもよい。核名称辞書16は、変換すべき字句に、登録されていない基本語を含む組み合わせがある場合、新たな基本語を含む組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。
【0024】
フル名称辞書18の項目も、図3に示すように、キー、名称パターン、コードから成る。フル名称辞書18の名称パターンの項目には、変換すべき可能性のある基本語の組み合わせの中で核名称辞書16の名称パターンに示された基本語の組み合わせに対応する記号と、それと組になる基本語とが組になって事前に登録されている。具体的には、フル名称辞書18の名称パターンの第1行には「#GETRO#」と「AKASAKA」とが、第2行には「#GETRO#」と「OSAKA」とがそれぞれ事前に登録されている。これらの名称パターンに共通する記号は「#GETRO#」であるので、フル名称辞書18のキーにはその記号が登録される。フル名称辞書18のコードには、名称パターンに対応する変換後の目的のデータ、この場合には顧客コードが登録されている。具体的には、「GETRONICS FOODS AKASAKA」及び「GETRONICS SHOKUHIN AKASAKA」の両方の顧客コードは、「123−45678」であるので、その顧客コードがフル名称辞書18のコードの第1行に、また、「GETRONICS FOODS OSAKA」及び「GETRONICS SHOKUHIN OSAKA」の両方の顧客コードは、「101−23456」であるので、その顧客コードがフル名称辞書18のコードの第2行にそれぞれ登録される。フル名称辞書18は、変換すべき字句に、登録されていない基本語を含む組み合わせがある場合、新たな基本語を含む組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。
【0025】
なお、この例では、核名称辞書16及びフル名称辞書18の名称パターンとしては2つの基本語の組み合わせを用いているが、処理速度が多少遅くなることが許容できる場合には、3つ以上の組み合わせを用いてもよい。また、この例では、核名称辞書16とフル名称辞書18と2段の名称辞書を用いているが、用途に応じて、核名称辞書16のみ、あるいはフル名称辞書18を2つ以上用いてもよい。
【0026】
処理エンジン10は、変換処理を開始する前に、図3に示すように、核名称辞書16に登録されている名称パターンを、シンボル化され即ちメモリ展開済みの核名称辞書16の基本語のメモリ・アドレスを参照して、メイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開する。その際、核名称辞書16のキーが同じものは1グループにまとめてメモリ展開する。具体的には、核名称辞書16の名称パターンの第1〜3行にある「GETRONICS」、「FOODS」、「SHOKUHIN」及び「BANK」には、メイン・メモリ12にメモリ展開された基本語辞書14の基本語とそれに対応するメモリ・アドレスを参照して、「107番」、「106番」、「112番」及び「101番」が図3の34に示すように割り当てられる。そして、核名称辞書16のキーに「GETRONICS」と登録されている3件を名称パターンとしてシンボル化することにより使用していない任意のメモリ・アドレス、例えば2000番を取得する。詳細には、核名称辞書16の名称パターンの第1行から第3行は、「GETRONICS」の同一のキーを持つので、第1行の名称パターンの「GETRONICS」に対応するメモリ・アドレス107番のエントリポイントとして、使用していない任意のメモリ・アドレス、例えば2000番が割り振られる。
【0027】
次いで、「#GETRO#」及び「#GETROBK#」で登録されている核名称辞書16のコードをシンボル化する。即ち、核名称辞書16のコードの第1及び2行の「#GETRO#」及び第3行の「#GETROBK#」には使用していない任意のメモリ・アドレス、例えば「500番」及び「501番」がそれぞれ割り振られる。但し、500番及び510番には、メモリ・アドレスを格納できる領域が確保されるだけで、「#GETRO#」及び「#GETROBK#」が格納されるわけではない。メイン・メモリ12上の2000番の第1行には、核名称辞書16の第1行に対応するよう、「107番」、「106番」とそれと関連付けられて「500番」が格納され、メイン・メモリ12上の2000番の第2行には、核名称辞書16の第2行に対応するよう、「107番」、「112番」とそれと関連付けられて「500番」が格納され、メイン・メモリ12上の2000番の第3行には、核名称辞書16の第3行に対応するよう、「107番」、「101番」とそれと関連付けられて「501番」が格納される。更に、核名称辞書16の中の基本語「GETRONICS」をキーとするグループとする名称パターンのメモリ・アドレス2000番を、シンボル化された基本語「GETRONICS」と結びつけるため、メモリ展開された基本語辞書14上のメモリ・アドレス107番の「名称パターン」の格納領域に「2000番」が格納される。
【0028】
次いで、処理エンジン10は、変換処理を開始する前に、図3に示すように、フル名称辞書18に登録されている名称パターンを、シンボル化され即ちメモリ展開済みの核名称辞書16の基本語のメモリ・アドレス、及び核名称辞書16のコードに割り当てられたメモリ・アドレスを参照して、メイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開する。その際、フル名称辞書18のキーが同じものは1グループにまとめてメモリ展開する。具体的には、シンボル化された核名称辞書のメモリ・アドレスをフル名称辞書18のシンボルに展開する(即ち、紐付けする)ため、フル名称辞書18の名称パターンの第1〜2行にある「#GETRO#」には500番が先に割り当てられているので、そのメモリ・アドレス番号を図3の36に示すように割り当てる。そして「AKASAKA」及び「OSAKA」には、メイン・メモリ12に展開された基本語辞書14の基本語とそれに対応するメモリ・アドレスを参照して、「100番」及び「111番」が図3の36に示すように割り当てられる。そして、フル名称辞書18の名称パターンの第1行及び第2行は、「#GETRO#」の同一のキーを持つので、第1行の名称パターンの「#GETRO#」に対応するメモリ・アドレス500番のエントリポイントとして、使用していないメモリ・アドレス、例えば8000番が割り振られる。次いで、フル名称辞書18をシンボル化して得られたメモリ・アドレス8000番を核名称辞書16のシンボル展開(即ち、紐付け)するため、メモリ・アドレス500番の格納領域に8000番を格納する。こうして、メモリ・アドレス8000番の第1行には、「#500」及び「#100」が変換後の目的データ即ち顧客コード「123−4567」と関連付けて格納され、第2行には、「#500」及び「#111」が変換後の目的データ即ち顧客コード「101−23564」と関連付けて格納される。
【0029】
なお、フル名称辞書18が2以上ある場合には、最後のフル名称辞書より前の中間のフル名称辞書のコードには核名称辞書16のコードの記号(この例では、「#GETRO#」あるいは「#GETROBK#」)と類似の記号で各名称パターンを識別可能にする記号が登録される。そして、中間のフル名称辞書のメモリ展開では、その名称パターンのシンボル化はフル名称辞書18における8000番での格納状態と同様であるが、8000番の格納領域の「123−45678」及び「101−23564」に相当する格納領域に当該中間のフル名称辞書の記号に与えられるメモリ・アドレスが格納される。
【0030】
次に、入力データの変換処理を図1〜図3並びに図4及び図5を参照して説明する。図4及び図5は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図である。図5のメモリ展開は、図3に示すメモリ展開と同じものであるが、説明の理解を容易にするため、図2に示す基本語辞書14に記載の全ての基本語のメモリ展開が示されている。
【0031】
ここで、メイン・メモリ12上には前述したように基本語辞書14、核名称辞書16及びフル名称辞書18がシンボル化されているとする。そして、図4の参照番号40で示すデータが入力されたとする。処理エンジン10は、ステップ42に示されるように入力データ40を単語に分解する。次いで、処理エンジン10は、分解された単語に対応するメモリ・アドレスを、図5に示すメイン・メモリ12上にメモリ展開された基本語辞書14aを参照して取得する。この取得の仕方には二分検索が好ましいが、本発明はいずれの取得方法でもよい。図5の基本語辞書14aの中の丸で囲った基本語に対応するメモリ・アドレスが取得される。
【0032】
次いで、処理エンジン10は、ステップ44において、分解された単語のうち、メモリ・アドレスが取得できた単語については、当該単語を取得できたメモリ・アドレスに変換する。なお、<1−2−34>のように基本語辞書14aにはない場合にはそのままにしておく。
【0033】
処理エンジン10は、ステップ46において、キーとなる基本語、ここでは「GETRONICS」のメモリ・アドレス「107番」をキーにして、他のメモリ・アドレス、即ち「107番」と「106番」、「104番」、「100番」とのうちのいずれかの組が、図5に示すメモリ展開された核名称辞書16aの中にあるか検索して、一致した場合には核名称辞書16の一致したコードのメモリ・アドレス「500番」を取得する。詳細には、処理エンジン10は、メモリ展開された基本語辞書14aのメモリ・アドレス107番の「名称パターン」の格納領域に格納されている2000番を読み取り、その2000番に基づいてメモリ展開された核名称辞書16aの2000番に格納されているメモリ・アドレスの組の中で「107番」と「106番」、「104番」、「100番」とのいずれかとの組み合わせがあるか調べる。この例では、「107番」と「106番」の組み合わせが一致する(図4のステップ46で丸を付した組み合わせと図5の核名称辞書16aの中で丸を付した行を参照)ので、「500番」が取得され、「107番」と「106番」の組み合わせが「500番」に変換される。
【0034】
ステップ48において、処理エンジン10は、続いて、キーとなる記号のメモリ・アドレス「500番」をキーにして、他のメモリ・アドレスとの組み合わせ、ここでは「500番」と「100番」の組み合わせが、図5に示すメモリ展開されたフル名称辞書18aの中にあるか検索して、一致した場合にはフル名称辞書18の一致したコードを取得する。詳細には、処理エンジン10は、メイン・メモリ12内のメモリ・アドレス500番に格納されているメモリ・アドレス8000番を読み取り、その8000番に基づいてメモリ展開されたフル名称辞書18aの8000番に格納されているメモリ・アドレスの組の中で「500番」と「100番」の組があるか調べる。この例では、「500番」と「100番」の組み合わせが一致する(図4のステップ48で丸を付した組み合わせと図5のフル名称辞書18aの中で丸を付した行を参照)ので、メイン・メモリ12上の「123−45678」が取得され、「500番」と「100番」の組み合わせが「123−45678」に変換される。その結果、入力データ即ち字句の中の「GETRONICS FOODS AKASAKA」が所望のデータである顧客コード「123−23564」に変換される。
【0035】
なお、図1の処理エンジン10内に記載されている処理ブロックと図4の処理ステップとは、図4のステップ42及び44が図1の単語認識ブロック20に、図4のステップ46が図1の核名称認識ブロック22に、図4のステップ48がフル名称認識ブロック24にそれぞれ対応する。
【0036】
また、本発明の字句をデータに変換する装置及び方法には、入力データに入力ミス、例えば「GETRONICS」を「GETROMICS」と入力した場合に、例えば綴りパターン辞書を用いるような、従来の綴り補正機能を持たせてもよく、入力される単語が連続的に綴られている場合に、連語辞書を用いるような、従来の連語処理機能を持たせてもよい。
【0037】
更に、本発明の字句をデータに変換する装置及び方法には、用途に応じて、図1に示されるように、入力データ30から参照番号32に示すように名称「GETRONICS FOODS CO.LTD」を抽出する機能を含めてもよい。
【0038】
図6は、本発明のシンボル化による単語比較と従来の文字列比較との相違を説明する図である。例えば、入力データ「GETRONICS FOODS」を、「GETRONICS BANK」、「GETRONICS ELECTRONICS」及び「GETRONICS FOODS」の3つの組から一致するのを検索する場合で説明する。本発明では、図6の(a)に示すように、これら3つの組60を上記実施形態で説明したようにメモリ・アドレスをシンボルとしてシンボル化して、62に示すようにメモリ・アドレスの組に変換する。変換された組の単語は合計6単語になる。しかも、これら6単語は、メモリ・アドレスであるので数字である。従って、メモリ・アドレスに変換された入力データ2単語の数字とこれら6単語の数字とを単語単位で比較するので、非常に高速に比較できる。一方、従来の文字列比較では、図6の(b)に示すように、合計47文字を文字単位で比較しているので、比較速度は遅くならざるを得なかった。本発明のシンボル化による比較方法は、検索対象が小さい場合でも本質的に従来の文字列比較方法より処理速度が早いが、例えば、銀行業務等のように検索対象のデータが膨大になると処理速度の違いが顕著になり、従来の文字列比較より極めて高速に処理できる。なお、本発明のシンボル化による比較方法では、辞書データをメモリに展開する処理が必要になるが、この処理はシステム起動時の初期処理につき、起動後の比較処理の性能に影響を与えるものではない。
【0039】
次に、前述した実施形態の変形例を以下に説明する。上記実施形態と同じ構成、動作の部分は説明を省き、相違する部分のみを説明する。処理エンジン10は、入力データを受け取る前に、基本語辞書14をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化するが、核名称辞書16及びフル名称辞書18について事前にメイン・メモリ12上にシンボル化しない。なお、メモリ展開された基本語辞書14には、図3に示すような「名称パターン」の格納領域を設ける必要がない。
【0040】
次いで、処理エンジン10は、入力データを受け取り、図4のステップ44までの処理を行う。処理エンジン10は、次いで、入力データに含まれる単語からキーとなる単語を抽出し、そして核名称辞書16の中の項目「キー」に抽出された単語を含む組を検索して(図3参照)、メイン・メモリ12上に、メモリ展開された基本語辞書14a(図5)を参照してメモリ・アドレスをシンボルとしてシンボル化する。例えば、図4に示す入力データ40が入力された場合、キーの単語として「GETRONICS」が抽出され、核名称辞書16のキーの項目に「GETRONICS」を含む組が図3(あるいは図5)におけるメイン・メモリ12上のメモリ・アドレス2000番に示されるようにシンボル化される。ここで、処理エンジン10は、図3における核名称辞書16の各行とメモリ・アドレス2000番に示される各行とが任意の従来の技法を用いて関連付けるようにしておく。従って、メモリ・アドレス「500番」及び「501番」を格納しなくてもよい。
【0041】
処理エンジン10は、図4のステップ46と類似の処理を行う。但し、処理エンジン10は、一致した組、即ち、図4及び図5に示す例では、メモリ・アドレス2000番の第1行を特定し、それに関連付けられている核名称辞書16の第1行のコード「#GETRO#」(図3参照)を抽出する。
【0042】
処理エンジン10は、フル名称辞書18のキーの項目に「#GETRO#」を含む組を図3(あるいは図5)におけるメイン・メモリ12上のメモリ・アドレス8000番に示されるようにシンボル化する。但し、「500番」を格納しなくてもよい。次いで、処理エンジン10は、図4のステップ48と類似の処理を行う。メモリ・アドレス「500番」を用いない場合は、処理エンジン10は、メモリ・アドレス8000番の各行のうち、入力データの中のそれまでのステップで処理していないメモリ・アドレス、この例では「100番」を含む行を特定して、目的の顧客コード「123−45678」に変換する。この変形例は、変換処理速度が前の実施形態より遅くなるが、メイン・メモリ12の容量が少なくてよい。
【0043】
【発明の効果】
本発明は、以上説明したように構成され、動作するので、従来の文字列比較において必要とした1バイト単位の検索処理が必要でないことにより検索時間を顕著に削減することができ、その結果複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに高速に変換して、当該データの入力を受けるコンピュータでの処理が可能となる。
【図面の簡単な説明】
【図1】図1は、本発明の好適な実施形態による字句をデータに変換する装置の基本構成を示す図である。
【図2】図2は、図1の基本語辞書1に事前に登録されている単語をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。
【図3】図3は、図1の核名称辞書16及びフル名称辞書18のそれぞれに事前に登録されている各名称及びフル名称をメイン・メモリ12上にメモリ・アドレスをシンボルとしてシンボル化即ちメモリ展開した状態を示す。
【図4】図4は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図の一部である。図5のメモリ展開は、図3に示すメモリ展開と同じものであるが、説明の理解を容易にするため、図2に示す基本語辞書14に記載の全ての基本語のメモリ展開が示されている。
【図5】図5は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図の一部である。なお、図5のメモリ展開は、図3に示すメモリ展開と同じものであるが、説明の理解を容易にするため、図2に示す基本語辞書14に記載の全ての基本語のメモリ展開が示されている。
【図6】図6は、本発明のシンボル化による単語比較と従来の文字列比較との相違を説明する図である。
【符号の説明】
10 処理エンジン
12 メイン・メモリ
14 基本語辞書
16 核名称辞書
18 フル名称辞書

Claims (7)

  1. 複数の単語を含む字句を当該複数の単語が表す対象に予め設定された識別情報を含む別のデータに変換する装置において、
    複数の単語が予め登録された基本語辞書、及び、前記基本語辞書に登録されている単語のうちキーとして選択されたキー単語と、当該キー単語を他の単語と組み合わせた単語の組と、前記単語の組が表す対象に予め設定された前記識別情報と、が関連付けて予め登録された名称辞書を記憶する記憶手段と、
    前記複数の単語を含む字句を前記識別情報を含む別のデータに変換する処理エンジンとを備え、
    前記処理エンジンは、
    前記基本語辞書をメモリに記憶させ、
    変換対象の字句を単語に分解し、
    前記メモリに記憶させた前記基本語辞書において前記分解した個々の単語が記憶されているメモリ・アドレスを各々取得することで、前記変換対象の字句を表すメモリ・アドレスの組み合わせを取得し、
    記分個々の単語のうち前記名称辞書に前記キー単語として登録されている単語を抽出すると共に、
    前記名称辞書に登録されている前記単語の組のうち、少なくとも前記抽出した単語を含む単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、少なくとも前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、少なくとも前記抽出した単語を含む前記単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに変換した名称辞書をメモリに記憶させ、
    前記メモリに記憶した前記名称辞書に登録されている、前記抽出した単語を含む前記単語の組を表すメモリ・アドレスの組み合わせのうち、当該メモリ・アドレスの組み合わせにおける個々のメモリ・アドレスが前記変換対象の字句を表すメモリ・アドレスの組み合わせにおける個々のメモリ・アドレスの何れかと同じであるメモリ・アドレスの組み合わせ選択し、
    前記変換対象の字句を、前記選択したメモリ・アドレスの組み合わせと関連付けて前記名称辞書に登録されている前記識別情報を含む別のデータに変換する装置。
  2. 前記処理エンジンは、前記名称辞書に登録されている全ての単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、前記個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、前記全ての単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに各々変換した名称辞書をメモリに記憶させる請求項1記載の装置。
  3. 前記処理エンジンは、前記名称辞書をメモリに記憶させた際に、前記メモリに記憶させた前記基本語辞書に対し、前記基本語辞書に登録されている単語のうち前記名称辞書に前記キー単語として登録されている単語に、前記メモリに記憶させた前記名称辞書において前記単語を前記キー単語として他の単語と組み合わせた単語の組が記憶されているメモリ・アドレスを付加しておき、前記分解した個々の単語のうち、前記メモリに記憶させた前記基本語辞書において前記メモリ・アドレスが付加されている単語を、前記名称辞書に前記キー単語として登録されている単語として抽出する請求項2記載の装置。
  4. 前記処理エンジンは、前記名称辞書に登録されている前記単語の組のうち前記抽出した単語を含む単語の組についてのみ、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、前記抽出した単語を含む前記単語の組についてのみ前記単語の組を表すメモリ・アドレスの組み合わせに変換した名称辞書のうち、前記抽出した単語を含み前記メモリ・アドレスの組み合わせに変換した前記単語の組及び当該単語の組と関連付けて前記名称辞書に登録された識別情報をメモリに記憶させる請求項1記載の装置。
  5. 前記記憶手段に記憶されている名称辞書は、前記キー単語と、前記キー単語を他の単語と組み合わせた単語の組と、当該単語の組に設定されたコードと、が関連付けて予め登録された核名称辞書、及び、前記核名称辞書に登録されているコードと、当該コードと関連付けられた単語の組に更に組み合わせる別の単語と、前記コードと関連付けられた単語の組に更に前記別の単語を組み合わせた単語の組が表す対象に予め設定された識別情報と、が関連付けて予め登録されたフル名称辞書から構成されており、
    前記処理エンジンは、
    前記核名称辞書に登録されている前記単語の組のうち、少なくとも前記抽出した単語を含む単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、少なくとも前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、少なくとも前記抽出した単語を含む前記単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに変換した核名称辞書をメモリに記憶させると共に、
    前記フル名称辞書に登録されている前記別の単語のうち、少なくとも前記抽出した単語を含む単語の組に設定されたコードと関連付けられた前記別の単語について、前記メモリに記憶させた前記基本語辞書において前記別の単語が記憶されているメモリ・アドレスを取得し、少なくとも前記抽出した単語を含む前記単語の組に設定されたコードと関連付けられた前記別の単語を前記取得したメモリ・アドレスに置き換えたフル名称辞書をメモリに記憶させ、
    前記メモリに記憶した前記核名称辞書に登録されている、前記抽出した単語を含む前記単語の組を表すメモリ・アドレスの組み合わせのうち、当該メモリ・アドレスの組み合わせにおける個々のメモリ・アドレスが、前記変換対象の字句を表すメモリ・アドレスの組み合わせにおける個々のメモリ・アドレスの何れかと同じであるメモリ・アドレスの組み合わせを選択した後に、
    選択したメモリ・アドレスの組み合わせと関連付けて前記核名称辞書に登録されている前記コードを抽出し、
    前記メモリに記憶した前記フル名称辞書に前記抽出した前記コードと関連付けて登録されている前記別の単語を表すメモリ・アドレスのうち、当該メモリ・アドレスが、前記変換対象の字句を表すメモリ・アドレスの組み合わせから前記選択したメモリ・アドレスの組み合わせを除外した残りのメモリ・アドレスの何れかと同じであるメモリ・アドレスを選択し、
    前記変換対象の字句を、前記選択したメモリ・アドレスと関連付けて前記フル名称辞書に登録されている前記識別情報を含む別のデータに変換する請求項1〜請求項4の何れか1項記載の装置。
  6. 前記記憶手段に記憶されている名称辞書は、当該名称辞書に登録されている単語の組のうち、前記単語の組を構成する単語の一部が相違しかつ表す対象が同一の複数の単語の組が、前記識別情報としての同一の情報と関連付けられている請求項1〜請求項5の何れか1項記載の装置。
  7. 複数の単語を含む字句を、当該複数の単語が表す対象に予め設定された識別情報を含む別のデータに変換する方法において、
    複数の単語が予め登録された基本語辞書、及び、前記基本語辞書に登録されている単語のうちキーとして選択されたキー単語と、当該キー単語を他の単語と組み合わせた単語の組と、前記単語の組が表す対象に予め設定された前記識別情報と、が関連付けて予め登録された名称辞書を記憶する記憶手段を備えたコンピュータにより、
    前記基本語辞書をメモリに記憶させ、
    変換対象の字句を単語に分解し、
    前記メモリに記憶させた前記基本語辞書において前記分解した個々の単語が記憶されているメモリ・アドレスを各々取得することで、前記変換対象の字句を表すメモリ・アドレスの組み合わせを取得し、
    前記分解した個々の単語のうち前記名称辞書に前記キー単語として登録されている単語を抽出すると共に、
    前記名称辞書に登録されている前記単語の組のうち、少なくとも前記抽出した単語を含む単語の組について、前記メモリに記憶させた前記基本語辞書において前記単語の組を構成する個々の単語が記憶されているメモリ・アドレスを各々取得し、少なくとも前記抽出した単語を含む前記単語の組を構成する個々の単語を前記取得したメモリ・アドレスに各々置き換えることで、少なくとも前記抽出した単語を含む前記単語の組を前記単語の組を表すメモリ・アドレスの組み合わせに変換した名称辞書をメモリに記憶させ、
    前記メモリに記憶した前記名称辞書に登録されている、前記抽出した単語を含む前記単語の組を表すメモリ・アドレスの組み合わせのうち、当該メモリ・アドレスの組み合わせにおける個々のメモリ・アドレスが、前記変換対象の字句を表すメモリ・アドレスの組み合わせにおける個々のメモリ・アドレスの何れかと同じであるメモリ・アドレスの組み合わせを選択し、
    前記変換対象の字句を、前記選択したメモリ・アドレスの組み合わせと関連付けて前記名称辞書に登録されている前記識別情報を含む別のデータに変換する処理を行わせる方法。
JP2003115287A 2003-04-21 2003-04-21 字句をデータに変換する装置及び方法 Expired - Lifetime JP4303027B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003115287A JP4303027B2 (ja) 2003-04-21 2003-04-21 字句をデータに変換する装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003115287A JP4303027B2 (ja) 2003-04-21 2003-04-21 字句をデータに変換する装置及び方法

Publications (2)

Publication Number Publication Date
JP2004318753A JP2004318753A (ja) 2004-11-11
JP4303027B2 true JP4303027B2 (ja) 2009-07-29

Family

ID=33474529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003115287A Expired - Lifetime JP4303027B2 (ja) 2003-04-21 2003-04-21 字句をデータに変換する装置及び方法

Country Status (1)

Country Link
JP (1) JP4303027B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4694869B2 (ja) * 2005-03-29 2011-06-08 株式会社コナミデジタルエンタテインメント 識別符号処理装置、識別符号処理方法、ならびに、プログラム

Also Published As

Publication number Publication date
JP2004318753A (ja) 2004-11-11

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US8095526B2 (en) Efficient retrieval of variable-length character string data
JPH02299068A (ja) 入力文字列からワードを分離する方法
JP2000181920A (ja) 質問ワ―ドを用いて多数のワ―ドグル―プのうちの1つを識別する方法
JP4957796B2 (ja) 差分算出プログラム、差分算出装置および差分算出方法
US20240054288A1 (en) Inference Methods For Word Or Wordpiece Tokenization
JP4303027B2 (ja) 字句をデータに変換する装置及び方法
CN109923538B (zh) 文本检索装置、文本检索方法以及计算机程序
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2000250931A (ja) 位置情報の自動抽出装置および自動抽出方法と記録媒体
JP2006209399A (ja) 文書検索装置および方法
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP3343941B2 (ja) 例文検索システム
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JP6764262B2 (ja) 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム
JP2839515B2 (ja) 文字読取システム
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
KR20160139484A (ko) 워드 추출 방법 및 장치
JP2000311170A (ja) テキスト情報抽出方法
JPH0721212A (ja) 文書処理装置
JPH01205267A (ja) 単語辞書検索装置
JPH10240729A (ja) データベース作成装置および方法
JP2006004368A (ja) ストリング急速対比サーチの電子装置及び方法
JP2002183144A (ja) 文書検索システム、文書検索方法および記録媒体
JPH07110816A (ja) 翻訳用辞書登録装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090213

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090213

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4303027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150501

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term