JPH0836577A - Japanese processing system and electronic dictionary therefor - Google Patents

Japanese processing system and electronic dictionary therefor

Info

Publication number
JPH0836577A
JPH0836577A JP6172992A JP17299294A JPH0836577A JP H0836577 A JPH0836577 A JP H0836577A JP 6172992 A JP6172992 A JP 6172992A JP 17299294 A JP17299294 A JP 17299294A JP H0836577 A JPH0836577 A JP H0836577A
Authority
JP
Japan
Prior art keywords
character
word
morpheme
analysis
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6172992A
Other languages
Japanese (ja)
Inventor
Okihiro Kimura
興弘 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP6172992A priority Critical patent/JPH0836577A/en
Publication of JPH0836577A publication Critical patent/JPH0836577A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE:To deal with one foreign language as one morpheme in the morpheme analysis of the Japanese sentence where the foreign language coexists by analyzing the character string of the foreign languate following the character as one morpheme. CONSTITUTION:The processing is started by giving the Japanese sentence in a sentence unit. The morpheme analysis is continued till the end of the morpheme analysis processing 1 from the head character to the final one of the sentence. When the unprocessed character remains, whether or not the head character of noted part at the present analysis stage is an alphabet is checked 2. If it isn't, the conventional morpheme analysis is executed 3 and the analysis of the next character is repeated. On the other hand, the head character of the noted part is an alphabet, the alphabet string is made to be one morpheme 4 together. Thus, when the head character of the noted character string at the analysis stage is the character type of the foreign language, the processing arranging the following foreign character string as one morpheme is continued.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、日本語処理システムに
係り、特に外国語が混在する日本語文の形態素解析及び
その電子化辞書に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a Japanese language processing system, and more particularly, to a morphological analysis of a Japanese sentence mixed with foreign languages and its electronic dictionary.

【0002】[0002]

【従来の技術】コンピュータを利用した日本語処理は、
音声合成をはじめ、音声認識、文字認識、文章校正な
ど、幅広い分野に適用されている。
2. Description of the Related Art Japanese processing using a computer is
It is applied to a wide range of fields such as voice synthesis, voice recognition, character recognition, and sentence correction.

【0003】このための自然言語解析は、まず解析対象
となる文章を形態素単位(語構成の最小単位)に区切
り、それぞれの形態素がもつ性質を明らかにする形態素
解析を行う。この後、自然言語の統語規則から解析する
構文解析、続いて曖昧性や漠然性を取り除く意味解析、
文脈解析を行う。
In natural language analysis for this purpose, a sentence to be analyzed is first divided into morpheme units (minimum units of word structure), and morpheme analysis is performed to clarify the properties of each morpheme. After this, a syntactic analysis that analyzes from the syntactic rules of natural language, and then a semantic analysis that removes ambiguity and vagueness,
Perform contextual analysis.

【0004】形態素解析では、1つの文章毎にその先頭
の文字から最後の文字まで順に取り出し、電子化辞書を
参照して形態素毎に分離・識別を行う。このとき、各形
態素毎に品詞情報などのデータを作成し、このデータを
基に後処理の構文解析等が行われる。
In the morphological analysis, the first character to the last character of each sentence are taken out in order, and the morpheme is separated / identified by referring to the electronic dictionary. At this time, data such as part-of-speech information is created for each morpheme, and post-processing syntax analysis and the like are performed based on this data.

【0005】構文解析には、形態素解析された文を文法
を用いて正しい文であるか否かを判定し、正しい文のと
きはその構文解析結果として木構造(解析木)を得る。
In the syntactic analysis, it is determined whether or not the morphologically analyzed sentence is a correct sentence using a grammar, and if the sentence is correct, a tree structure (a parse tree) is obtained as the syntactic analysis result.

【0006】一般に、構文解析処理では、文法的な適合
性のみに着目しているため、構文的な曖昧性が発生し、
多くの解析木が生成されてしまう。この中から、正しい
解析木を選択するために、意味解析処理を行う。
In general, in parsing processing, since attention is paid only to grammatical conformity, syntactic ambiguity occurs,
Many parse trees will be generated. A semantic analysis process is performed to select the correct parse tree from among these.

【0007】[0007]

【発明が解決しようとする課題】日本語文を対象とする
形態素解析処理において、文章中に英単語などの外国語
が混在する場合、従来の電子化辞書には外国語を考慮し
た辞書構成がなされていないため、外国語の部分で解析
が失敗してしまう。
In a morphological analysis process for a Japanese sentence, when a sentence contains foreign words such as English words, a conventional electronic dictionary has a dictionary configuration considering the foreign language. Since it does not exist, parsing fails in the foreign language part.

【0008】この課題を解決するため、外国語の情報を
辞書に記述することが考えられるが、従来の電子化辞書
は記述内容が日本語の語彙のため、外国語を同じ辞書に
記述すると以下の問題点が生じる。
To solve this problem, it is conceivable to write information in a foreign language in a dictionary. However, since the conventional electronic dictionary has Japanese vocabulary, the following words are written in a foreign dictionary. The problem of occurs.

【0009】(1)日本語の場合は、登録できる最大表
記の長さを短く限定することが可能であるが、英単語の
ように文字種が限定(アルファベットといくつかの記号
のみ)されていることから単語の長さが大きくなる傾向
にある。このため、最大表記長を英単語等に合わせよう
とすると最大文字数の設定が難しくなるし、電子化辞書
自体のフォーマットが冗長になりメモリ用量の無駄な消
費になる。
(1) In the case of Japanese, it is possible to limit the length of the maximum notation that can be registered to be short, but the character type is limited (only the alphabet and some symbols) like English words. Therefore, the length of words tends to increase. For this reason, when trying to match the maximum notation length with an English word or the like, it becomes difficult to set the maximum number of characters, and the format of the electronic dictionary itself becomes redundant, resulting in wasteful consumption of memory capacity.

【0010】(2)日本語に比べて、外国語は文字種が
限定されているため文字による散らばりが少なく、文字
による電子化辞書の分類項目が少なくなり、文字検索処
理に時間がかかる。
(2) Compared to Japanese, the foreign language has a limited character type, so there is less scattering by characters, the number of classification items in the electronic dictionary by characters is reduced, and the character search processing takes time.

【0011】本発明の目的は、外国語が混在する日本語
文の形態素解析を可能にする日本語処理システムを提供
することにある。
An object of the present invention is to provide a Japanese language processing system which enables morphological analysis of Japanese sentences mixed with foreign languages.

【0012】本発明の他の目的は、外国語の辞書登録を
容易にし、かつ辞書検索を高速にした電子化辞書を提供
することにある。
Another object of the present invention is to provide a computerized dictionary which facilitates foreign language dictionary registration and speeds up dictionary retrieval.

【0013】[0013]

【課題を解決するための手段】本発明は、前記課題の解
決を図るため、日本語文の先頭文字から最後の文字まで
の形態素を電子化辞書を参照して解析する形態素解析処
理を含む日本語処理システムにおいて、前記形態素解析
処理は、解析段階で注目する文字列の先頭の文字が外国
語の文字種であるときに当該文字に続く外国語の文字列
をまとめて1つの形態素として解析処理を続ける手段を
備えたことを特徴とする。
In order to solve the above problems, the present invention includes a morpheme analysis process for analyzing morphemes from the first character to the last character of a Japanese sentence with reference to an electronic dictionary. In the processing system, the morpheme analysis process continues when the first character of the character string of interest in the analysis step is a foreign language character type, the foreign language character strings that follow the character are collected as one morpheme and continued. It is characterized by having means.

【0014】また、本発明は、文字種とシンボルからな
る単語を複数文字を単位として二次元配列の組み合わせ
に構成したインデックスと、単語別にID番号を設定
し、単語表記の最後を表すターミネータと組になるよう
に複数文字づつに単語を分割し、この組毎に該単語ID
番号と単語分割位置データを前記インデックスの配列要
素別に登録する辞書データとを備え、検索対象単語を前
記組と同じに分割し、先頭の組から最後の組まで順次前
記インデックスを参照して前記辞書データをアクセス
し、各組の前記ID番号及び前記単語分割位置データの
一致から単語検索を行うことを特徴とする。
Further, according to the present invention, an index in which a word consisting of a character type and a symbol is formed in a combination of a plurality of characters in a two-dimensional array, an ID number is set for each word, and a terminator representing the end of the word notation is paired. The word is divided into multiple letters so that
A dictionary for registering a number and word division position data for each array element of the index, dividing the search target word into the same as the group, and sequentially referring to the index from the first group to the last group, and the dictionary It is characterized in that the data is accessed and a word search is performed from a match between the ID number and the word division position data of each set.

【0015】[0015]

【作用】[Action]

(第1の発明)外国語が混在する日本語文が形態素解析
対象となるとき、形態素解析段階で外国語の文字種が現
れたときにこれに続く外国語の文字列を1つにまとめ、
1つの形態素として取り扱う。
(First invention) When a Japanese sentence in which foreign languages are mixed is to be subjected to morphological analysis, when a foreign language character type appears in the morphological analysis stage, the foreign language character strings that follow it are combined into one,
Treated as one morpheme.

【0016】(第2の発明)単語の辞書として、単語別
にID番号を設定し、単語を構成する文字を2文字など
複数文字の組に分割してその組み合わせをインデックス
として用意し、さらに複数文字組みの組み合わせ及び分
割位置を項目として持つ辞書データを用意することによ
り、単語を組みに分割してインデックスから辞書データ
を検索し、ID番号と分割位置の一致/不一致から単語
の検索ができるようにする。
(Second invention) As a word dictionary, an ID number is set for each word, the characters forming the word are divided into a plurality of character sets such as two characters, and the combination is prepared as an index. By preparing dictionary data having combinations of sets and division positions as items, words can be divided into sets, dictionary data can be searched from the index, and words can be searched from matching / mismatching ID numbers and dividing positions. To do.

【0017】[0017]

【実施例】図1は、本発明の一実施例を示す形態素解析
フローチャートを示す。文単位で日本語文が与えられて
処理開始がなされ、当該文の先頭の文字から最終文字ま
での形態素解析処理が終了しない限り(ステップS
1)、形態素解析を続ける。なお、破線で示す手順は、
従来の形態素解析処理を示す。
1 is a morphological analysis flowchart showing an embodiment of the present invention. Unless a Japanese sentence is given to each sentence and the process is started and the morphological analysis process from the first character to the last character of the sentence is not completed (step S
1) Continue morphological analysis. The procedure indicated by the broken line is
The conventional morphological analysis processing is shown.

【0018】未処理の文字が残っているとき、現在の解
析段階で注目する部分の先頭がアルファベットか否かを
チェックし(ステップS2)、アルファベットでなけれ
ば従来と同様の形態素解析処理を実行し(ステップS
3)、次の文字に進めた解析を繰り返す。
When unprocessed characters remain, it is checked whether or not the beginning of the portion of interest at the current analysis stage is an alphabet (step S2), and if it is not an alphabet, the same morphological analysis processing as in the past is executed. (Step S
3) Repeat the analysis for the next character.

【0019】ここで、注目部分の先頭の文字がアルファ
ベットの場合、アルファベット列をまとめて1つの形態
素とする(ステップS4)。この形態素については、通
常の形態素解析用電子化辞書に記述されていないため、
直前の形態素と直後の形態素については、どのような品
詞であっても接続できるものとし、次の文字に進めた解
析に戻る。
Here, when the first character of the target portion is an alphabet, the alphabet string is put together into one morpheme (step S4). This morpheme is not described in the usual electronic dictionary for morphological analysis,
Regarding the immediately preceding morpheme and the immediately preceding morpheme, it is assumed that any part of speech can be connected, and the analysis returns to the next character.

【0020】例えば、入力になる日本語文が、「文章に
Alphabetが混在する。」であるとき、形態素解
析処理は次の段階を経てなされる。
For example, when the input Japanese sentence is "Alphabet is mixed in the sentence", the morphological analysis process is performed through the following steps.

【0021】(A)文章/にAlphabetが混在す
る。
(A) Alphabet is mixed in the sentence /.

【0022】(B)文章/に/Alphabetが混在
する。
(B) Text // Alphabet are mixed.

【0023】(C)文章/に/Alphabet/が混
在する。
(C) Text // Alphabet / is mixed.

【0024】(D)文章/に/Alphabet/が/
混在する。
(D) Text / To / Alphabet / Ga /
Mixed.

【0025】(E)文章/に/Alphabet/が/
混在/する。
(E) Text / To / Alphabet / Ga /
Mixed / mixed.

【0026】すなわち、ステップ(B)の段階までは従
来と同様の形態素解析がなされ、ステップ(C)の段階
では注目部分の先頭の文字がアルファベットの「A」に
なるため、このアルファベット列をまとめて1つの形態
素「Alphabet」として解析する。残りのステッ
プ(D)及び(E)の段階では通常の形態素解析が行わ
れる。
That is, up to the step (B), the same morphological analysis as in the conventional method is performed, and at the step (C), the first character of the target portion is the alphabet "A", so this alphabet string is summarized. And analyzed as one morpheme "Alphabet". In the remaining steps (D) and (E), normal morphological analysis is performed.

【0027】したがって、本実施例では、日本語文に混
在する外国語については、解析段階で注目する文字列の
先頭の文字がアルファベットなどの外国語の文字種であ
るときは当該文字に続く外国語の文字種をまとめて1つ
の形態素とする。
Therefore, in this embodiment, for a foreign language mixed in a Japanese sentence, if the first character of the character string to be noticed at the analysis stage is a character type of the foreign language such as alphabet, the foreign language following the character The character types are grouped together as one morpheme.

【0028】これにより、従来の解析方式をほとんど変
更することなく、外国語を含む日本語文の形態素解析が
できる。
With this, morphological analysis of a Japanese sentence including a foreign language can be performed with almost no change in the conventional analysis method.

【0029】また、外国語と認識した形態素について
は、例えば、別途に英単語辞書(単純にスペルのみを記
述した辞書でも良い)を用意することで簡単なスペルチ
ェック機能を実現できる。
For a morpheme recognized as a foreign language, a simple spell check function can be realized by, for example, separately preparing an English word dictionary (a dictionary in which only spelling is described may be used).

【0030】この日本語の形態素解析辞書とは別に、英
単語用の辞書を用意する場合の電子化辞書の構造と検索
方式を以下に説明する。
The structure and retrieval system of the electronic dictionary when a dictionary for English words is prepared separately from the Japanese morphological analysis dictionary will be described below.

【0031】下記の表は、英単語の検索のための電子化
辞書のインデックスを示す。
The following table shows the index of the electronic dictionary for searching English words.

【0032】[0032]

【表1】 [Table 1]

【0033】このインデックスは、2文字を単位とし、
アルファベット26文字a〜zとシンボル(スペース、
スラッシュ、アポストロフィ、ターミネータ)4文字の
計30文字を二次元配列の組み合わせに構成したマトリ
ックスとされる。このインデックス中、「Start」
は2文字を単位とするときに先頭の文字が1文字になる
ことを示す。
This index has two characters as a unit,
26 letters a to z and symbols (space,
Slash, apostrophe, terminator) A total of 30 characters, which is a matrix composed of a combination of two-dimensional arrays. "Start" in this index
Indicates that the first character becomes one when the unit is two characters.

【0034】このインデックスに対応づける登録単語
は、単語別にID番号を設定し、単語表記の最後を表す
ターミネータEndと必ずペアになるように2文字づつ
単語を分割し、このペア毎にデータ部に単語IDと単語
分割位置(ペア位置)をセットする。これらデータは、
インデックスの配列要素別に登録される。
A registered word to be associated with this index is set with an ID number for each word, and the word is divided into two characters so that it is always paired with a terminator End that indicates the end of the word notation, and each pair has a data section. A word ID and a word division position (pair position) are set. These data are
It is registered for each array element of the index.

【0035】例えば、英単語「data」、「dail
y」、「day」は、下記表のようにインデックスと対
応づけた2文字を単位として分割され、単語別のID番
号と単語分割位置がデータとして保存される。
For example, the English words "data", "day"
“Y” and “day” are divided in units of two characters associated with the index as shown in the table below, and the ID number for each word and the word division position are stored as data.

【0036】[0036]

【表2】 [Table 2]

【0037】図2は、上記の単語のデータセットの態様
を示す。単語「data」は、そのID番号を1とし、
2文字に分割し、ターミネータ「End」でペアになる
ように分割することから,(Start,d)はID番
号が1、単語分割位置が先頭になるため1のデータセッ
トになる。これに続く2文字(a,t)はID番号が1
でその分割位置が2のデータセットになり、最後の2文
字(e,End)はID番号が1でその分割位置が3の
データセットになる。
FIG. 2 shows an aspect of the above-mentioned word data set. The word “data” has an ID number of 1,
Since it is divided into two characters and divided into a pair with the terminator "End", (Start, d) has an ID number of 1 and the word division position is at the beginning, so it is a data set of 1. The next two characters (a, t) have an ID number of 1.
The division position becomes a data set of 2, and the last two characters (e, End) have an ID number of 1 and the division position is 3.

【0038】他の英単語も同様に、ID番号の設定と文
字の分割がなされてデータセットがなされ、登録単語デ
ータはID番号と単語分割位置を項目とする。なお、登
録単語の意味や品詞名を項目として付加したデータ構成
とすることもできる。
Similarly, for other English words, an ID number is set and characters are divided to form a data set, and the registered word data has the ID number and the word division position as items. It should be noted that it is also possible to have a data structure in which the meaning of the registered word and the part of speech name are added as items.

【0039】この英単語辞書を検索するための手順は、
検索対象単語を単語登録時のペアと同じに分割し、先頭
のペアから最後のペアまで順次インデックスを参照して
辞書データをアクセスし、各ペアのID番号及び単語分
割位置データの一致から単語検索を行う。具体的な検索
手順を以下に示す。
The procedure for searching this English word dictionary is as follows:
Divide the search target word into the same pairs as when the words were registered, access the dictionary data by sequentially referring to the index from the first pair to the last pair, and search the word from the matching ID number and word division position data of each pair. I do. The specific search procedure is shown below.

【0040】(1)登録時と同様に、対象単語を2文字
単位に分割する。
(1) Similar to the registration, the target word is divided into two character units.

【0041】(2)先頭の2文字からインデックスを参
照し、データをアクセスし、単語分割位置が1のデータ
を検索する。
(2) The data is accessed by referring to the index from the first two characters, and the data whose word division position is 1 is searched.

【0042】(3)データがあれば次の2文字について
同様にデータをアクセスし、単語分割位置が2のデータ
を検索する。
(3) If there is data, the data is similarly accessed for the next two characters, and the data having the word division position of 2 is searched.

【0043】(4)それぞれのデータの単語IDが同じ
であれば、同一単語についての情報として、さらに次の
データの検索を行い、ターミネータを含むデータまで検
索が終了したとき、対象単語は辞書に登録されていると
して検索を終了する。
(4) If the word IDs of the respective data are the same, the next word is further searched for as information about the same word, and when the search including the terminator is completed, the target word is stored in the dictionary. The search ends as it is registered.

【0044】(5)単語のIDが異なる場合には、デー
タの検索をやり直し、見つからない場合は対象単語は辞
書に未登録とする。
(5) If the word IDs are different, the data is searched again. If not found, the target word is not registered in the dictionary.

【0045】以上のとおり、本実施例では、英単語の辞
書は、2文字を単位とする900(=30×30)のイ
ンデックスと、このインデックス別に分類してそれぞれ
にID番号と単語分割位置の項目を有する辞書データと
によって構成される。
As described above, in the present embodiment, the English word dictionary is divided into 900 (= 30 × 30) indexes in units of two characters, and the ID numbers and word division positions are classified into each index. And dictionary data having items.

【0046】これにより、登録単語を2文字ずつに分割
して登録しておくことにより登録文字数の制限がなくな
る。また、分割して登録することで、1文字毎のインデ
ックスを作成した場合に比べて、データの散らばりが均
一になり、高速な検索が実現できる。さらに、データの
構造が簡単になり、カスタマイズが容易に行える。
As a result, the registered word is divided into two characters and registered, so that the number of registered characters is not limited. Moreover, by dividing and registering, the data is more evenly scattered and a high-speed search can be realized as compared with the case where an index is created for each character. Furthermore, the structure of the data is simplified and customization is easy.

【0047】また、この電子化辞書をりようすること
で、英単語まじりの日本語文であっても従来の解析精度
を落とすことなく解析できる。
Further, by using this electronic dictionary, it is possible to analyze Japanese sentences containing English words without deteriorating the conventional analysis accuracy.

【0048】なお、辞書の対象は、英単語に限定される
ものでなく、他の外国語さらには日本語への拡張が可能
である。さらに、2文字を単位とするに限らず、3文字
単位など言語の文字種の数に応じて複数文字を単位とす
るインデックスの作成とデータ作成した辞書構成とする
こともできる。
The target of the dictionary is not limited to English words, and can be extended to other foreign languages and even Japanese. Further, the dictionary configuration is not limited to using two characters as a unit, and an index can be created and data can be created using a plurality of characters as a unit according to the number of character types of the language such as a three-character unit.

【0049】[0049]

【発明の効果】以上のとおり、本発明によれば、形態素
解析段階で注目する文字列の先頭の文字が外国語の文字
種であるときに当該文字に続く外国語の文字列をまとめ
て1つの形態素として解析処理を続けるようにしたた
め、外国語が混在する日本語文の形態素解析に外国語を
1つの形態素として取り扱うことができ、外国語の文字
が混在する日本語文においても従来の解析方式をほとん
ど変更することなく、また外国語による解析失敗を無く
した形態素解析ができる効果がある。
As described above, according to the present invention, when the first character of the character string to be noticed at the morphological analysis stage is a foreign language character type, the foreign language character string following the character is collected into one. Since the analysis process is continued as a morpheme, it is possible to handle a foreign language as one morpheme for morphological analysis of a Japanese sentence in which a foreign language is mixed. There is an effect that the morphological analysis can be performed without changing and without the analysis failure in the foreign language.

【0050】また、本発明によれば、単語の電子化辞書
として、単語別にID番号を設定し、単語を構成する文
字を2文字など複数文字の組に分割してその組み合わせ
をインデックスとして用意し、さらに複数文字組みの組
み合わせ及び分割位置を項目として持つ辞書データを作
成しておき、単語を組みに分割してインデックスから辞
書データを検索し、ID番号と分割位置の一致/不一致
から単語の検索を行うため、登録文字数の制限が無くな
りその登録を容易にし、また辞書のフォーマットを均一
にし、カスタマイズが容易になる。また、1文字毎のイ
ンデックスを作成する場合に比べてデータの散らばりを
均一にして辞書検索が高速になる。
Further, according to the present invention, as an electronic dictionary of words, an ID number is set for each word, the characters forming the word are divided into a plurality of character sets such as two characters, and the combination is prepared as an index. Further, dictionary data having combinations of a plurality of character sets and division positions as items is created, the words are divided into sets, the dictionary data is searched, and the word search is performed based on the match / mismatch between the ID number and the division positions. Therefore, the number of registered characters is not limited, registration is facilitated, the format of the dictionary is uniform, and customization is facilitated. Further, the data retrieval is made uniform and the dictionary search becomes faster than the case where the index is created for each character.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示す形態素解析のフローチ
ャート。
FIG. 1 is a flowchart of morphological analysis showing an embodiment of the present invention.

【図2】本発明における英単語の電子化辞書のデータセ
ット態様図。
FIG. 2 is a data set mode diagram of an electronic dictionary of English words according to the present invention.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 日本語文の先頭文字から最後の文字まで
の形態素を電子化辞書を参照して解析する形態素解析処
理を含む日本語処理システムにおいて、 前記形態素解析処理は、解析段階で注目する文字列の先
頭の文字が外国語の文字種であるときに当該文字に続く
外国語の文字列をまとめて1つの形態素として解析処理
を続ける手段を備えたことを特徴とする日本語処理シス
テム。
1. A Japanese processing system including a morpheme analysis process for analyzing a morpheme from a first character to a last character of a Japanese sentence by referring to an electronic dictionary, wherein the morpheme analysis process is a character to be noticed in an analysis stage. A Japanese language processing system, characterized in that, when the first character of the sequence is a foreign language character type, a foreign language character string following the character is grouped and the analysis processing is continued as one morpheme.
【請求項2】 文字種とシンボルからなる単語を複数文
字を単位として二次元配列の組み合わせに構成したイン
デックスと、 単語別にID番号を設定し、単語表記の最後を表すター
ミネータと組になるように複数文字づつに単語を分割
し、この組毎に該単語ID番号と単語分割位置データを
前記インデックスの配列要素別に登録する辞書データと
を備え、 検索対象単語を前記組と同じに分割し、先頭の組から最
後の組まで順次前記インデックスを参照して前記辞書デ
ータをアクセスし、各組の前記ID番号及び前記単語分
割位置データの一致から単語検索を行うことを特徴とす
る日本語処理システムの電子化辞書。
2. An index in which a word consisting of a character type and a symbol is formed in a combination of a plurality of characters in a two-dimensional array, an ID number is set for each word, and a plurality of words are formed so as to be paired with a terminator indicating the end of word notation. The word is divided into each character, and the word ID number and the word division position data are registered for each group for each set, and the dictionary data for registering the index division elements are provided. An electronic device for a Japanese language processing system, characterized in that the dictionary data is sequentially accessed from a set to a final set by referring to the index, and a word is searched from a match between the ID number and the word division position data of each set. Dictionary.
JP6172992A 1994-07-26 1994-07-26 Japanese processing system and electronic dictionary therefor Pending JPH0836577A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6172992A JPH0836577A (en) 1994-07-26 1994-07-26 Japanese processing system and electronic dictionary therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6172992A JPH0836577A (en) 1994-07-26 1994-07-26 Japanese processing system and electronic dictionary therefor

Publications (1)

Publication Number Publication Date
JPH0836577A true JPH0836577A (en) 1996-02-06

Family

ID=15952180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6172992A Pending JPH0836577A (en) 1994-07-26 1994-07-26 Japanese processing system and electronic dictionary therefor

Country Status (1)

Country Link
JP (1) JPH0836577A (en)

Similar Documents

Publication Publication Date Title
US5225981A (en) Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
JP3196868B2 (en) Relevant word form restricted state transducer for indexing and searching text
US6721697B1 (en) Method and system for reducing lexical ambiguity
Woliński Morfeusz—a practical tool for the morphological analysis of Polish
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5369577A (en) Text searching system
US6539348B1 (en) Systems and methods for parsing a natural language sentence
JP3189186B2 (en) Translation device based on patterns
EP0645720B1 (en) Dictionary creation supporting system
JPH0447364A (en) Natural language analying device and method and method of constituting knowledge base for natural language analysis
US7676358B2 (en) System and method for the recognition of organic chemical names in text documents
KR20160138077A (en) Machine translation system and method
JP2020190970A (en) Document processing device, method therefor, and program
US6999917B1 (en) Left-corner chart parsing system
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure
JPH11259524A (en) Information retrieval system, information processing method in information retrieval system and record medium
CN115244539A (en) Word or word segment lemmatization inference method
JPH0836577A (en) Japanese processing system and electronic dictionary therefor
JPS63228326A (en) Automatic key word extracting system
Laporte Symbolic natural language processing
JP3698454B2 (en) Parallel phrase analysis device and learning data automatic creation device
JP3939264B2 (en) Morphological analyzer
JP3508312B2 (en) Keyword extraction device
JP3139624B2 (en) Morphological analyzer
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs