JPH0821031B2 - 言語解析装置 - Google Patents

言語解析装置

Info

Publication number
JPH0821031B2
JPH0821031B2 JP61234328A JP23432886A JPH0821031B2 JP H0821031 B2 JPH0821031 B2 JP H0821031B2 JP 61234328 A JP61234328 A JP 61234328A JP 23432886 A JP23432886 A JP 23432886A JP H0821031 B2 JPH0821031 B2 JP H0821031B2
Authority
JP
Japan
Prior art keywords
unit
dictionary
character string
input
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61234328A
Other languages
English (en)
Other versions
JPS6389976A (ja
Inventor
壽彦 横川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61234328A priority Critical patent/JPH0821031B2/ja
Priority to NL8702359A priority patent/NL8702359A/nl
Priority to FR8713742A priority patent/FR2604814B1/fr
Priority to DE19873733674 priority patent/DE3733674A1/de
Publication of JPS6389976A publication Critical patent/JPS6389976A/ja
Priority to US07/714,990 priority patent/US5225981A/en
Publication of JPH0821031B2 publication Critical patent/JPH0821031B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は言語解析装置、特に自動翻訳装置に有用な言
語解析装置に関する。
従来技術 例えば英語等の外国語の文からそれに対応する日本語
の文を作成する場合、入力された英文の形態素を解析
し、その構文を解析し、その文構造を変換し、その後に
日本語の訳文を生成する。
すなわち、辞書を検索することによって入力文を構成
する各単語等の形態素を解析し、これらの形態素につい
ての品詞等の情報を得る。その後、得られた品詞等の情
報に基づいて、各々の単語またはこれらの単語により形
成されるブロック相互の修飾関係を文法ルールにより解
析することにより、入力文の構造の解析、すなわち構文
解析を行う。さらに、解析された構文に基づいて入力文
の文構造を日本語の構文配列の順序に変換し、変換され
た配列に従って日本語の形態素を生成し、日本語文を生
成する。
このような訳文生成の際に行われる形態素解析におい
ては、辞書を検索することによって単語等の形態素の品
詞その他の情報を得ている。通常の名詞、動詞等の単語
の場合にはその多くを辞書に格納しておくことができる
から、容易に検索され、情報を得ることができる。
しかし、例えば長さ、速度、加速度その他の単位を表
す表現は非常に多くの種類が存在するため、これらをす
べて辞書に格納しておくことは辞書情報の記憶容量をい
たずらに大きくすることになり、非能率的である。これ
らの単位は、例えばm/s、km/s等のように、単位を表す
表現を複数組み合わせた複合的な表現のものが多いため
である。
ところがこれらの単位の一部のみを辞書に記憶してお
く装置の場合には入力文に含まれるこれらの複合的な表
現の単位の情報を得ることができないため、形態素解析
を行うことができず、誤った言語解析を行う恐れがあっ
た。
目 的 本発明はこのような従来技術の欠点を解消し、複合的
な表現からなる文字列のすべてを辞書に記憶しておくこ
となしに、このような文字列を含む入力文の形態素解析
を行うことのできる言語解析装置を提供することを目的
とする。
構 成 本発明は上記の目的を達成させるため、所定の言語の
文字列を入力する入力手段と、入力された文字列の検索
に用いられ、基本的なデータを記憶する基本辞書手段
と、入力された文字列について基本辞書手段を検索する
ことにより文字列を解析する解析手段とを有し、解析手
段は、入力された文字列について基本辞書手段を検索す
ることにより文字列の一部が検索された場合に、文字列
の他の部分について同様に基本辞書手段を検索すること
により、文字列を解析することを特徴としたものであ
る。以下、本発明の一実施例に基づいて具体的に説明す
る。
第1図には、本発明による言語解析装置を英日自動翻
訳装置に適用した一実施例が示されている。なお本発明
は、英語の入力文の形態素解析以外にも用いることがで
き、英語を日本語に翻訳する英日翻訳装置のみならず、
ある1つの言語を他の言語に翻訳する自動翻訳装置にも
効果的に適用されることは、言うまでもない。
本実施例は入力部14を有し、入力部14には入力装置10
または入力文書ファイル12からデータが入力される。入
力装置10は例えば、英数字キー等の文字キーや機能キー
等を有するキーボード、紙に記録された英字テキストを
読み取る光学的文字読み取り装置等を含む。入力文書フ
ァイル12は、磁気ディスク等の記憶媒体に英字テキスト
を記録した記憶装置である。
入力部14は入力文字列バッファ14aを有し、入力装置1
0または入力文書ファイル12から入力された英語の入力
文を入力文字列バッファ14aに記憶する。入力部14は入
力文字列バッファ14aに記憶された入力文を読み出して
処理部16に出力する。
処理部16は、辞書ファイルの検索によって、入力部14
から送られた入力文の形態素解析を行う機能部である。
処理部16は辞書情報保存テーブル16aを有し、後述する
辞書ファイル22また基本単位辞書ファイル26を検索して
得た情報を辞書情報保存テーブル16aに記憶する。
処理部16は、入力部14から入力された入力文を構成す
る文字列から辞書を検索する場合の単位となる検索キー
文字列を検索する。この検索キー文字列の探索は、入力
文を構成する文字列の最初の文字から順に所定の探索ル
ールにより探索する。例えば、入力文をスペース、コマ
ン等のデリミッタにより文頭から順に区分し、区分され
た文字列をそれぞれ検索キー文字列とする。この場合に
m、km、m/s等の単位を表す文字列はそれぞれこれらが
検索キー文字列とされる。処理部16は入力文を構成する
文字列から探索した検索キー文字列を辞書検索部20に送
る。
辞書検索部20は処理部16から送られた検索キー文字列
に基づいて辞書ファイル22を検索する。辞書ファイル22
は、第2図に示すようにエントリおよび品詞等の文法情
報が記憶されている。辞書検索部20は、辞書ファイル22
にエントリがある場合にはそのエントリの品詞情報等を
読み出し、これを処理部16に出力する。辞書検索部20
は、辞書ファイル22を検索した結果、辞書ファイル22に
エントリがない場合にはその旨を処理部16に出力する。
処理部16は、辞書検索部20により検索された品詞情報
等を辞書情報保存テーブル16aに記憶する。処理部16
は、辞書ファイル22に検索キー文字列のエントリがない
場合には、その検索キー文字列を単位認識部24に出力す
る。
単位認識部24は処理部16から送られた検索キー文字列
に基づいて基本単位辞書ファイル26を検索する。基本単
位辞書ファイル26は、第3図に示すように基本単位エン
トリが記憶されている。単位認識部24は、基本単位辞書
ファイル26に基本単位エントリがある場合にはその基本
単位エントリを読み出す。基本単位辞書ファイル26にエ
ントリがない場合には、後述するように検索キー文字列
を複数の文字列に分割して基本単位辞書ファイル26を複
数回検索し、複数回の検索において基本単位辞書ファイ
ル26にそれぞれ基本単位エントリがある場合には、これ
らの基本単位エントリから複合単位情報を得る。複数回
の検索においてそのいずれかに基本単位エントリがない
場合には、辞書未登録語である旨の情報を得る。
単位認識部24は、基本単位エントリ、複合単位情報お
よび辞書未登録語である旨の情報を処理部16に出力す
る。処理部16は、単位認識部24から入力されたこれらの
情報を辞書情報保存テーブル16aに記憶する。
辞書情報保存テーブル16aは、第4図に示すように検
索キー文字列のエントリと、検索キー文字列について辞
書ファイル22または基本単位辞書ファイル26を検索して
得た品詞等の文法情報を記憶保存する。処理部16は、辞
書情報保存テーブル16aにこれらのデータが記憶された
後、これらのデータを入力文とともに出力インターフェ
ース18に出力する。出力インターフェース18は処理部16
から出力された入力文および形態素解析のデータをプリ
ンタ、ディスプレイ等の出力装置30、または磁気ディス
ク等の記憶ファイル32に出力する。
または、出力インターフェース18を設けることなく、
処理部16から出力される入力文および形態素解析のデー
タを直接構文解析手段(図示せず)に入力し、構文解析
手段において入力文の構文解析を行い、さらにその構文
解析に基づいて訳文を生成するようにしてもよい。
制御部28は、本装置の各機能部の動作を制御するもの
であり、マイクロプロセッサにより有利に構成される。
第5図に示すフローチャートにより、本装置の動作を
説明する。
まず、入力装置10または入力文書ファイル12から英語
の入力文を入力部14に読み込む(100)。入力部14に読
み込まれた入力文は入力文字列バッファ14aに格納され
る。入力文字列バッファ14aに記憶された入力文は読み
出されて処理部16に出力される。
処理部16では、入力文が入力されると、辞書引き単位
の切り出しが行われる(102)。すなわち、入力された
入力文を構成する文字列は、所定のルールによって、辞
書ファイル22または基本単位辞書ファイル26を検索する
場合の単位である検索キー文字列に、文字列の先頭から
順に分割される。分割された検索キー文字列があるか否
かを判断し(104)、ある場合には検索キー文字列を辞
書検索部20に送る。
辞書検索部20に検索キー文字列が送られると、辞書検
索部20はこの検索キー文字列について辞書ファイル22を
検索する(106)。第2図に示すような辞書ファイル22
のエントリに検索キー文字列があるか否かを判断し(10
8)、エントリがある場合には辞書ファイル22に記憶さ
れている品詞等の文法情報を読み出し、読み出したデー
タを処理部16に送り、辞書情報保存テーブル16aに記録
する(110)。その後、ステップ102に戻り、再び辞書引
き単位の切り出しを行う。
辞書ファイル22にエントリがない場合には、辞書検索
部20は検索キー文字列を処理部16に送り返し、処理部16
はこの検索キー文字列を単位認識部24に送り、単位認識
部24において単位の認識を行う(112)。
辞書検索部20に送られた検索キー文字列が通常の名
詞、動詞等の単語である場合には殆ど辞書ファイル22の
エントリがあるから、辞書ファイル22から品詞等の文法
情報を読み出し、このデータを処理部16に送り、辞書情
報保存テーブル16aに記録する。辞書ファイル22は上記
のように通常の名詞、動詞等の単語のエントリが形成さ
れ、単位を表す文字列のエントリは形成されていない。
したがって、検索キー文字列がkm、m/s等の単位を表す
文字列である場合には、辞書ファイル22のエントリがな
いから、ステップ112に進み、単位の認識を行う。
ステップ112の単位の認識の動作について、第6図に
より説明する。
辞書ファイル22の検索において、辞書ファイル22にエ
ントリの存在しなかった検索キー文字列が処理部16から
単位認識部24に送られると、単位認識部24において検索
キー文字列の先頭の文字にポインタPをセットする(20
0)。
次に、単位認識部24は、ポインタPがセットされてい
る文字から始まる文字列について基本単位辞書ファイル
26を検索する(202)。この検索は、基本単位辞書ファ
イル26にエントリの存在する基本単位が、ポインタPの
セットされた文字から始まる文字列中に完全な文字列と
して現れ、かつポインタPのセットされた文字を始点と
しているか否かを検索する。すなわち、この検索はポイ
ンタPがセットされている文字から始まる1文字ないし
複数文字の文字列が、基本単位辞書ファイル26にエント
リの存在する基本単位のいずれかと一致するか否かを検
索する。例えば、ポインタPがセットされている文字が
k、m、s等の場合には、ポインタPがセットされてい
る文字から始まるこれらの1文字について、第3図に示
すように基本単位辞書ファイル26にエントリが存在す
る。
単位認識部24は、基本単位辞書ファイル26の検索の結
果、基本単位辞書ファイル26中にエントリが存在するか
否かを判断し(204)、エントリが存在する場合には、
認識した基本単位の長さ分だけポインタPを進める(20
8)。したがって、基本単位がk、m、s等の場合に
は、ポインタPを1文字分進め、検索キー文字列内の次
の文字にセットする。
単位認識部24は、ポインタPがセットされている文字
から始まる文字列がさらに存在するか否かを判断する
(208)。このような文字列がさらに存在する場合に
は、ステップ202に戻り、ポインタPがセットされてい
る文字から始まる文字列で再び基本単位辞書ファイル26
を検索する。そして、基本単位辞書ファイル26の検索の
結果、基本単位中にエントリが存在するか否かを判断し
(204)、エントリが存在する場合には、認識した基本
単位の長さ分だけポインタPを進める。
ステップ208において、ポインタPがセットされてい
る文字から始まる文字列がもう存在しない場合には、基
本単位辞書ファイル26の検索が終了し、複合単位の認識
に成功したことになる。
例えば単位認識部24に送られた検索キー文字列が単位
を表すkm/sである場合には、このkm/s自体は複雑な単位
であるため、基本単位辞書ファイル26にエントリが存在
しない。そこで、最初にポインタPをkにセットし(20
0)、kを基本単位辞書ファイル26により検索してエン
トリの存在を確認する(202)。
次に、ポインタPをmにセット(206)、mを基本単
位辞書ファイル26により検索して(202)、同様にエン
トリの存在を確認する。単位認識部24は、スラッシュ
/、中黒・等を単位の一部とみなすので、次にkm/s中の
/をとばしてポインタPをsにセットする(206)。そ
してsを基本単位辞書ファイル26により検索して同様に
エントリの存在を確認する(202)。これらの結果、
k、m、およびsのいずれも基本単位辞書ファイル26の
検索によりエントリが存在したので、km/sは単位を表す
文字列であると判断される。このように、検索キー文字
列を構成するすべての文字について基本単位辞書ファイ
ル26にエントリが存在する場合、またはスラッシュ、中
黒等の単位の一部とみなされる記号を除いたすべての文
字について基本単位辞書ファイル26にエントリが存在す
る場合に、その検索キー文字列は単位を表す文字列であ
ると判断される。
単位認識部24は、基本単位辞書ファイル26の検索を終
了し、複合単位の認識に成功すると、得られた単位情報
を処理部16に送り、辞書情報保存テーブル16aに格納す
る(210)。これにより単位の認識が終了する。
ステップ204において、ポインタPがセットされてい
る文字から始まる文字列についての基本単位辞書ファイ
ル26の検索の結果、基本単位辞書ファイル26中にエント
リが存在しない場合には、この文字列を基本単位または
複合単位として認識することができなかったことになる
ので、単位認識部24はこの文字列が辞書未登録語である
という情報、すなわち単位を表すものではないという情
報を処理部16に送り、処理部16の辞書情報保存テーブル
16aに保存することにより(212)、単位の認識が終了す
る。
第5図に戻って、単位の認識(112)が終了すると、
ステップ102に戻り、再び処理部16による辞書引き単位
の切り出しが行われる。
辞書引き単位の切り出しの後、処理部16は切り出した
単位がまだあるか否かを判断し(104)、切り出した単
位、すなわち検索キー文字列がもうない場合には、辞書
情報保存テーブル16aに記憶されている情報を、出力イ
ンターフェース18を通して出力装置30に出力する(11
4)。これにより、入力文の解析が終了する。
以上のように本実施例によれば、英語の入力文を検索
キー文字列に分割して、まず通常の辞書ファイル22によ
り検索し、辞書ファイル22にエントリがない場合に単位
の認識を行う。単位の認識においては、検索キー文字列
を分割してポインタPにより指示し、分割された文字列
ごとに基本単位辞書ファイル26を検索し、基本単位辞書
ファイル26に記録されているもの、または基本単位辞書
ファイル26に記録されているものの連続からなるもの
を、単位を表す文字列と判断する。
したがって、複雑な単位を表す文字列であっても、基
本単位辞書ファイル26に記憶された基本単位を組み合わ
せることにより単位の認識を行うことができるから、多
様な単位表現に対応して解析を行うことができる。しか
も、基本単位辞書ファイル26には基本的な単位のみ、例
えばk、m、s等のみを記憶しておけばよく、これらを
組み合わせた複雑な単位、例えばkm、km/s等を記憶して
おく必要がないため、辞書ファイルの容量を少なくする
ことができる。
効 果 本発明によれば、入力された文字列について基本辞書
手段を検索し、文字列の一部が検索された場合に、文字
列の他の部分について同様に基本辞書手段を検索し、文
字列を解析する。したがって、基本辞書手段に多くのデ
ータを記憶しておくことなく、多種類の文字列について
解析を行うことができる。
【図面の簡単な説明】
第1図は本発明による言語解析装置の一実施例を示すブ
ロック図、 第2図は第1図の辞書ファイルに記憶されるデータの一
例を示す図、 第3図は第1図の基本単位辞書ファイルに記憶されるデ
ータの一例を示す図、 第4図は第1図の辞書情報保存テーブルに記憶されるデ
ータの一例を示す図、 第5図は第1図の装置の動作を示すフローチャート、 第6図は第5図に示す動作のうち単位の認識を示すフロ
ーチャートである。 主要部分の符号の説明 14……入力部 16……処理部 20……辞書検索部 22……辞書ファイル 24……単位認識部 26……基本単位辞書ファイル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】所定の言語の文字列を入力する入力手段
    と、単語のデータを記憶する単語辞書手段と、単位を表
    わすデータを記憶する基本単位辞書手段と、前記入力さ
    れた文字列を解析する解析手段とを有し、 該解析手段は、前記入力された文字列について前記単語
    辞書手段を検索した結果、入力された文字列が単語辞書
    手段に存在しないときには、前記基本単位辞書手段を検
    索し、この結果、基本単位辞書手段により該文字列の一
    部が検索された場合に、該文字列の他の部分について同
    様に前記基本単位辞書手段を検索し、他の部分について
    基本単位辞書手段に存在しないときには、文字列の前記
    一部を単位を表わす文字列と判断する一方、他の部分に
    ついても基本単位辞書手段に存在するときには、スラッ
    シュや中黒をも単位の一部とみなし、スラッシュや中黒
    をも含めて文字列の前記一部と前記他の部分との組み合
    わせを、単位を表わす文字列と判断することを特徴とす
    る言語解析装置。
JP61234328A 1986-10-03 1986-10-03 言語解析装置 Expired - Fee Related JPH0821031B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP61234328A JPH0821031B2 (ja) 1986-10-03 1986-10-03 言語解析装置
NL8702359A NL8702359A (nl) 1986-10-03 1987-10-02 Taal analyse inrichting.
FR8713742A FR2604814B1 (fr) 1986-10-03 1987-10-05 Analyseur de langage
DE19873733674 DE3733674A1 (de) 1986-10-03 1987-10-05 Sprachanalysator
US07/714,990 US5225981A (en) 1986-10-03 1991-06-14 Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61234328A JPH0821031B2 (ja) 1986-10-03 1986-10-03 言語解析装置

Publications (2)

Publication Number Publication Date
JPS6389976A JPS6389976A (ja) 1988-04-20
JPH0821031B2 true JPH0821031B2 (ja) 1996-03-04

Family

ID=16969282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61234328A Expired - Fee Related JPH0821031B2 (ja) 1986-10-03 1986-10-03 言語解析装置

Country Status (1)

Country Link
JP (1) JPH0821031B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736917A (ja) * 1993-06-29 1995-02-07 Nec Corp キーワード自動抽出装置
US10504364B2 (en) 2016-01-05 2019-12-10 Locix, Inc. Systems and methods for using radio frequency signals and sensors to monitor environments
US10455350B2 (en) 2016-07-10 2019-10-22 ZaiNar, Inc. Method and system for radiolocation asset tracking via a mesh network

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57113187A (en) * 1980-12-19 1982-07-14 Ibm Method of processing text
JPS6091478A (ja) * 1983-10-25 1985-05-22 Sharp Corp 単語の綴り検査方式

Also Published As

Publication number Publication date
JPS6389976A (ja) 1988-04-20

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
EP0423683B1 (en) Apparatus for automatically generating index
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
JPH0644296A (ja) 機械翻訳装置
JPH09204437A (ja) 文書検索装置
JPH0821031B2 (ja) 言語解析装置
JPS61248160A (ja) 文書情報登録方式
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JP3707506B2 (ja) 文書検索装置及び文書検索方法
JP2966473B2 (ja) 文書作成装置
JPH0821034B2 (ja) 言語解析装置
JPH0827803B2 (ja) テキストベース検索方法
JPS62267872A (ja) 言語解析装置
JPH0821033B2 (ja) 言語解析装置
JPH01126767A (ja) 辞書参照装置
JPH07141381A (ja) 電子辞書表示装置
JPH03229367A (ja) テキストベース検索方式
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH0816910B2 (ja) 言語解析装置
JP2786211B2 (ja) 機械翻訳装置における後編集装置
JPH03161865A (ja) 文章の検索方法
JPH0225973A (ja) 機械翻訳装置
JPH06215038A (ja) データベース検索装置
JP2002297590A (ja) 翻訳システム、翻訳方法およびプログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees