JPH01295369A - Dividing and processing system for kanji/kana paragraph - Google Patents

Dividing and processing system for kanji/kana paragraph

Info

Publication number
JPH01295369A
JPH01295369A JP63124857A JP12485788A JPH01295369A JP H01295369 A JPH01295369 A JP H01295369A JP 63124857 A JP63124857 A JP 63124857A JP 12485788 A JP12485788 A JP 12485788A JP H01295369 A JPH01295369 A JP H01295369A
Authority
JP
Japan
Prior art keywords
hiragana
keyword
mixed
words
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63124857A
Other languages
Japanese (ja)
Inventor
Satoshi Asakawa
浅川 悟志
Ko Kaneko
金子 孔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Seibu Software Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Seibu Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Seibu Software Co Ltd filed Critical Hitachi Ltd
Priority to JP63124857A priority Critical patent/JPH01295369A/en
Publication of JPH01295369A publication Critical patent/JPH01295369A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE:To recognize words automatically and with no variance due to the personal intention by recognizing the words of only HIRAGANA (cursive form of Japanese syllabary) or the words including HIRAGANA and non-HIRAGANA out of an input sentence by reference to a prepared key word table containing HIRAGANA and non-HIRAGANA and treating the recognized words as unseparable words when a paragraph is divided. CONSTITUTION:When a user inputs a solid-written sentence, a punctuation mark processing part 1 transforms the punctuation marks of said input sentence into blank spaces. Then a HIRAGANA-non-HIRAGANA key word included in the solid-written sentence is recognized by a HIRAGANA/non-HIRAGANA key word recognition processing part 2 by reference to a HIRAGANA/non- HIRAGANA key word table 5. The recognized key word is sent to a character type dividing and processing part 3 together with a punctuation mark. In this case, the part where a word is recognized is defined as an unfractionizable part and the dividing process is carried out excluding said unfractionizable part. As a result, the paragraphs can be accurately recognized automatically and with no personal variance even with the solid-written sentences.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、自然語解析処理システムに用いる文節分割処
理方式に係り、特に、ユーザから入力されたベタ書き日
本文を自動的に文節単位に分割するところの、平仮名・
非平板名混じりキーワードテーブルを用いた文節分割処
理方式に関する。
[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a phrase division processing method used in a natural language analysis processing system, and in particular, to automatically divide solid Japanese sentences input by a user into phrase units. Hiragana/
This paper relates to a bunsetsu segmentation processing method using a keyword table containing non-plain names.

〔従来の技術〕[Conventional technology]

一般に、自然語解析処理システムでは、ユーザにより入
力された文を文節単位に分割しなければ、意味を理解す
ることができず、次の処理に移行することができない。
Generally, in a natural language analysis processing system, unless a sentence input by a user is divided into phrases, the meaning cannot be understood and the system cannot proceed to the next process.

従来、この種の自然語解析処理システムにおいて、句読
点で文節の分かれ目(境界)を設定する方式のほかに、
字種に着目して文節の分かれ目を認定する方式が知られ
ている。この方式では、字種の変り目、即ち、平仮名か
ら非平板名へ変化する箇所を文節の分かれ目と認定する
ことで、分割処理を行なっている。なお、この種の文節
分割処理方式として関連するものには、例えば、日立評
論、vol、 64 、 N15 (1982年5月号
) 、P、75〜P。
Conventionally, in this type of natural language analysis processing system, in addition to the method of setting divisions (boundaries) between clauses using punctuation marks,
A method is known that focuses on character types to identify the divisions in phrases. In this method, the division process is performed by recognizing the change in character type, that is, the point where a hiragana changes to a non-hiragana name, as a break in a phrase. Note that this type of phrase segmentation processing method is related to, for example, Hitachi Hyoron, vol. 64, N15 (May 1982 issue), P, 75-P.

78等が挙げられる。78 etc. are mentioned.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上記従来技術では、ベタ書きで入力された文を分割する
際、字種の変り目に着目し分割していた。
In the above-mentioned conventional technology, when dividing a sentence input in solid writing, the division is performed by paying attention to the change in character type.

しかしこれでは平仮名のみの単語や平仮名と非平板名の
混じった単語を正確に分割することが困難であった。ま
た、ユーザが文を文節単位に分割して入力したのでは個
人によってバラツキがあり、正確な処理ができない場合
を生じていた。
However, with this method, it is difficult to accurately divide words that are only in hiragana or words that are a mixture of hiragana and non-hiragana names. Furthermore, if the user divides the sentence into phrases and inputs them, there will be variations depending on the individual, and accurate processing may not be possible.

従って、本発明の目的は、上記従来技術の問題点を解消
し、平仮名のみの単語や平仮名と非平板名の混じった単
語、あるいは漢字仮名混じりの単語を含む日本文につい
て、文節の分割をユーザに依存することなく、ベタ書き
文でも自動的に文節単位に分割することにより、ユーザ
の負担を軽減し、また、個人によるバラツキを無くし正
確に文節を認定することができる文節分割処理方式を提
供することにある。
Therefore, an object of the present invention is to solve the above-mentioned problems of the prior art, and to allow the user to divide the phrases of Japanese sentences containing only hiragana words, words with a mixture of hiragana and non-hiragana names, or words with a mixture of kanji and kana. We provide a clause division processing method that reduces the burden on the user by automatically dividing even solid text into clause units without relying on the text, and eliminates individual variation and accurately identifies clauses. It's about doing.

〔課題を解決するための手段〕[Means to solve the problem]

上記目的を達成するため、本発明の自然語解析処理シス
テムにおける平仮名・非平板名混じり文節分割処理方式
では、基本構成として、予じめ作成しておいた平仮名・
非平板名混じりキーワードテーブルを設け、又、このテ
ーブルを参照して入力日本文から平仮名のみの単語や平
仮名と非平板名(片仮名、漢字、外国文字、数字、記号
など)の混じった単語を認定する手段を設ける。ついで
、分割処理を行なう際に、単語と認定された部分は細分
不可のものとしてこの部分を除いて該分割処理が行なわ
れるように構成する。
In order to achieve the above object, in the natural language analysis processing system of the present invention, the phrase segmentation processing method containing hiragana and non-hiragana names has a basic structure in which hiragana and non-hiragana names are created in advance.
A keyword table containing non-plain names is set up, and this table is referenced to identify words containing only hiragana or words containing a mixture of hiragana and non-plain names (katakana, kanji, foreign characters, numbers, symbols, etc.) from the input Japanese text. Provide means to do so. Then, when performing the division process, the division process is performed so that the part recognized as a word cannot be subdivided, and this part is excluded.

本発明の具体的な構成として、前記平仮名・非平板名混
じりキーワードテーブルには、平仮名のみ、又は平仮名
と非平板名の混じった平仮名・非平板名混じりキーワー
ドの格納部と、前記キーワード中で最初に現われる平仮
名を示す見出し語の格納部と、前記キーワードの先頭か
ら見出し語の手前までの長さを示す前文字列長の格納部
と、前記キーワードの全長を示すキーワード長の格納部
を設ける。
As a specific configuration of the present invention, the keyword table containing hiragana and non-flat name includes a storage section for keywords containing only hiragana or hiragana and non-flat name, and the first keyword among the keywords. A storage section for a headword indicating a hiragana appearing in the headword, a storage section for a previous character string length indicating the length from the beginning of the keyword to the front of the headword, and a storage section for a keyword length indicating the total length of the keyword are provided.

又、前記テーブルを参照して、入力日本文の最初の平仮
名と同じ見出し語をもつキーワードを前記テーブルから
選択する手段と、前記日本文の最初の平仮名の位置に、
選択したキーワードの見出し語を合せると共に、キーワ
ードの前文字列長及びキーワード長を用いることにより
、入力日本文からこのキーワードに対応する長さと範囲
の文字列を抽出する手段を設ける。抽出した文字列がキ
ーワードと一致すれば、これは平仮名のみの単語又は平
仮名と非平板名の混じった単語と認定される。
and means for selecting from the table a keyword having the same headword as the first hiragana of the input Japanese sentence by referring to the table;
A means is provided for extracting a character string of length and range corresponding to the keyword from an input Japanese sentence by matching the headword of the selected keyword and using the length of the preceding character string of the keyword and the length of the keyword. If the extracted character string matches the keyword, it is recognized as a word consisting only of hiragana or a word that is a mixture of hiragana and non-hiragana names.

〔作用〕[Effect]

上記構成に基づく作用を説明する。 The effect based on the above configuration will be explained.

入力文中に平仮名があれば、その平仮名を見出し語とし
て平仮名・非平板名混じりキーワードテーブルを検索す
る。これにより、入力文中から、平仮名のみの単語や平
仮名と非平板名の混じった単語を認定することができる
If there is a hiragana in the input sentence, the hiragana is used as a headword to search the keyword table containing hiragana and non-hiragana names. As a result, it is possible to recognize words in only hiragana or words in which hiragana and non-hiragana are mixed from the input sentence.

更に詳しく述べると、キーワードテーブルを検索するこ
とで、入力文の非平板名から平板名に変わる最初の平板
名を見出し語とするキーワードが前記テーブルに載って
いるかどうか調べられる。
More specifically, by searching the keyword table, it is possible to check whether or not a keyword whose headword is the first plain name that changes from a non-plain name to a plain name in the input sentence is listed in the table.

載っていれば、そのキーワードの見出し語を入力文の前
記最初の平板名の位置に合わせると共に、そのキーワー
ドの前文字列長やキーワード長を参照して、入力文から
これら前文字列長やキーワード長に相当する長さと範囲
の文字列を抽出する。
If it is listed, match the headword of that keyword to the position of the first flat name of the input sentence, refer to the previous character string length and keyword length of that keyword, and extract these previous character string lengths and keywords from the input sentence. Extract a string of length and range corresponding to length.

(なお、同じ見出し語のキーワードが複数載っていると
きには、それらのキーワードを順次入力文と対比する。
(If multiple keywords with the same headword are listed, those keywords are compared with the input sentence one by one.

)抽出された文字列がキーワードの内容と一致すれば、
この文字列は、1つの単語と認定され、その後の文節分
割処理に際して分割不可のものとして扱われる。
) If the extracted string matches the keyword content,
This character string is recognized as one word and is treated as something that cannot be divided during the subsequent phrase division process.

なお、この、文節分割処理としては、字種に着目した字
種分割処理手段によって、前記の単語と認定した部分以
外に対して平板名から非平板名に変わる箇所を分割する
などの手法が採られる。
Note that this bunsetsu division processing employs a method that uses a character type division processing means that focuses on the character type to divide parts other than the portions recognized as the above-mentioned words where the plain name changes to a non-plain name. It will be done.

〔実施例〕〔Example〕

以下、本発明の一実施例を第1図〜第8図を用いて説明
する。
An embodiment of the present invention will be described below with reference to FIGS. 1 to 8.

第1図は、本実施例の文節分割処理方式の機能ブロック
図であり、1は句読点処理部、2は平板名・非平板名混
じりキーワード認定処理部、3は字種分割処理部、4は
句切り記号削除処理部、5は平板名・非平板名混じりキ
ーワードテーブルを示している。
FIG. 1 is a functional block diagram of the phrase division processing method of this embodiment, in which 1 is a punctuation mark processing section, 2 is a plain name/non-plain name mixed keyword recognition processing section, 3 is a character type division processing section, and 4 is a A punctuation symbol deletion processing unit 5 indicates a keyword table containing plain names and non-plain names.

なお、細い矢印はデータの流れを、太い矢印は参照する
ことを、示している。
Note that thin arrows indicate data flow, and thick arrows indicate reference.

第2図は平板名・非平板名混じりキーワードテーブル5
に格納されている情報の格納形式例である。見出し語は
平板名・非平板名混じりキーワード中で最初に出現する
平板名を、平板名・非平板名混じりキーワードは平板名
のみ又は平板名と非平板名の混じった語を、前文字列長
は平板名・非平板名混じりキーワードの先頭から見出し
語(最初に現れる平板名)の手前までの長さ(文字数)
を、キーワード長は平板名・非平板名混じりキーワード
全体の長さ(文字数)を示している。
Figure 2 is a keyword table 5 that includes flat and non-flat names.
This is an example of the storage format of information stored in . The headword is the flat name that appears first in the keywords containing flat names and non-flat names, and the keywords containing flat names and non-flat names are the flat name only or the word that is a mixture of flat names and non-flat names, and the previous character string length. is the length (number of characters) from the beginning of the mixed plain name/non-plain name keyword to the front of the headword (first appearing plain name)
, the keyword length indicates the total length (number of characters) of the keyword, including plain and non-plain names.

第3図は、ユーザが入力したベタ書き文の例を示してい
る。
FIG. 3 shows an example of a solid text input by the user.

第4図は、句読点処理部1の出力文字列例を示している
FIG. 4 shows an example of a character string output from the punctuation mark processing unit 1.

第5図は、平板名・非平板名混じりキーワード認定処理
部2の出力文字列例を示している。
FIG. 5 shows an example of a character string output by the keyword recognition processing unit 2 containing plain names and non-plain names.

第6図は、字種分割処理部3の出力文字列例を示してい
る。
FIG. 6 shows an example of a character string output from the character type division processing unit 3.

第7図は、区切り記号削除処理部4の出力文字列例を示
している。
FIG. 7 shows an example of a character string output by the delimiter deletion processing unit 4.

なお、第4図ないし第7図で、Δはいずれも空白を示す
In addition, in FIGS. 4 to 7, Δ indicates a blank space.

第1図においてユーザがベタ書き文を入力すると(第3
図参照)句読点処理部1は、ベタ書き文中の句読点「、
」や「。」を空白に変換しく第4図参照)、平板名・非
平板名混じりキーワード認定処理部2へ送る。2は、平
板名・非平板名混じりキーワードテーブル5を参照しな
がらベタ書き文中の平板名・非平板名混じりキーワード
を認定し、句切り記号r((J n)Jを付け(第5図
参照)、字種分割処理部3へ送る。3は字種に着目し、
2で認定した平板名・非平板名混じりキーワード以外の
部分において、平板名から非平板名に変わる箇所と「(
(」の前へ空白「Δ」を挿入しく第6図参照)、句切り
記号削除処理部4へ送る。
In Figure 1, when the user inputs a solid text (3rd
(See figure) The punctuation mark processing unit 1 processes the punctuation marks “,
" and "." are converted to blanks (see Figure 4), and sent to the keyword recognition processing unit 2 containing plain names and non-plain names. Step 2 identifies keywords containing plain names and non-plain names in the solid text while referring to Table 5 for keywords containing plain names and non-plain names, and adds a punctuation symbol r ((J n) J (see Figure 5). ), and sends it to the character type division processing unit 3. 3 focuses on the character type,
In areas other than the combination of plain name and non-plain name keyword certified in 2, the place where the plain name changes to the non-plain name and "(
(Please insert a blank "Δ" in front of "", see FIG. 6) and send it to the punctuation symbol deletion processing section 4.

4は、ベタ書き文中からr((J  「))Jを取り除
く処理を行う(第7図参照)。
Step 4 performs processing to remove r((J ``))J from the solid text (see FIG. 7).

第8図(a) (b)は、平板名・非平板名混じりキー
ワード認定処理部2のPAD図である。
FIGS. 8(a) and 8(b) are PAD diagrams of the plain name/non-plain name mixed keyword recognition processing unit 2.

第4図に示したユーザ入力のベタ書き文は変数格納エリ
アbunに格納されているものとする。
It is assumed that the solid text input by the user shown in FIG. 4 is stored in the variable storage area bun.

初期設定として平板名・非平板名混じりキーワードが見
つかったかどうかのフラグを0にしく201)、エリア
bunに格納された文の先頭1文字「オ」 (第4図参
照)をワークエリアwkにセットしく202)、見出し
位置ポインタp、及び文節認定処理開始位置ポインタb
を共にエリアbun上の文の先頭位置にセットする(2
03)(204)。ワークエリアwkにセットされた文
字「オ」はbun上の文の最後ではなく(2゜5)、又
、字種が平板名ではないので(206)、ポインタpを
次の文字を指すように更新しく227)、pの指す1文
字「べ」をワークエリアwkにセットする(228)。
As an initial setting, set the flag indicating whether a keyword containing a flat name or a non-flat name is found to 0 (201), and set the first character "O" (see Figure 4) of the sentence stored in the area bun to the work area wk. 202), heading position pointer p, and clause recognition processing start position pointer b
Set both to the beginning position of the sentence on the area bun (2
03) (204). The character "o" set in the work area wk is not the last character in the sentence on bun (2°5), and the character type is not a flat name (206), so pointer p points to the next character. Update 227) and set the character "be" pointed to by p in the work area wk (228).

ポインタpが文字「は」を指すようになるまで同様の処
理を繰り返す。
Similar processing is repeated until the pointer p points to the character "wa".

ポインタpが文字「は」を指し、ワークエリアWkに文
字「は」がセットされると(22B)、エリアwkの字
種が平板名であるので(206)、平板名・非平板名混
じりキーワードテーブル5を検索し、エリアwkの文字
と同じ見出し語を捜すが(207)、ここでは見つから
なかったとすると、wk上の文字「は」と当該見出し語
は一致しないので(wk≠当該見出し語であるので)(
208)、先へ進む(21B)、このときf lagは
0のままなので、ポインタpが次の1文字「文」を指す
ようになる(226)。文字「文」と次の1文字「節」
も非平板名なので最初と同様に「オペレータ」の処理と
同様に)処理を進める。
When the pointer p points to the character ``ha'' and the character ``ha'' is set in the work area Wk (22B), since the character type of the area wk is a flat name (206), the keyword is a combination of flat name and non-plain name. Table 5 is searched for the same entry word as the character in area wk (207), but if it is not found here, the character "wa" on wk and the entry word do not match (wk ≠ the entry word). Because there is) (
208), proceeding (21B); at this time, f lag remains 0, so the pointer p points to the next character "sentence" (226). The character “bun” and the next character “section”
is also a non-flat name, so proceed with the processing (same as the processing for "operator").

ポインタpが文字「か」を指し、エリアwkにセットさ
れると(228)、エリアwkの文字「か」は平板名な
ので(206)、漢字仮名混じりキーワードテーブル5
を検索し、エリアwkの文字「か」と同じ当該テーブル
の見出し語を捜す(207)。今度は見つけることがで
きたので、平板名・非平板名混じりキーワードテーブル
5より、見出し語が「か」である最初のルコードを取り
出す(207,208)。次に、取り出したレコードの
平板名・非平板名混じりキーワード(ここでは「かいわ
れだいこん」)がポインタpの指す位置に存在するのか
を調べる。そのため、ポインタpにより、見出し語の位
置(この場合「か」の位置)をp′にセットしく209
)、p’からbunの先頭位置b(この場合「オ」の位
置)を差し引き、前文字の最大長β==p″−b(この
場合1=9)を求める(210)。(207)でキーワ
ードテーブル5から取り出したレコードの前文字列長と
βを比較する(211)。ここでは「かいわれだいこん
」の当該前文字列長は0なので、〔E≧当該前文字列長
〕の条件を満たす。(なお、この条件に反する例として
は、例えば、テーブル5のキーワードが、[文節単位分
かち書き」で、見出し語が「か」、前文字列長が5、キ
ーワード長が9に対し、入力文が「文節分かち書きで入
力して下さい」で、l=3のような場合がある。この場
合は明らかに不一致となる。)そこで、p′ (「か」
の位置)より当該前文字列長(rOJ)を差し引き、(
p’=p’−当該前文字列長〕の位置(この場合はp’
=p’)に平板名・非平板名混じりキーワードの先頭位
置をセットする(212)。そして入力文のp“位置か
ら当該キーワード部分だけ文字を取り出しくここでは8
文字分の「かち書きで入力し」を取り出し)、これをk
eyにセットする(213)。このkeyと当該平仮名
・非平板名混じりキーワード「かいわれだいこん」を比
較しく214) 、等しければf lagを1にして該
当部分をループの外に出すが、ここでは等しくないので
、テーブル5から見出し語「か」の次のルコードを取り
出しく216)(217)、ステップ(211)へ戻る
When pointer p points to the character "ka" and is set in area wk (228), since the character "ka" in area wk is a plain name (206), Kanji/kana mixed keyword table 5
is searched for the headword of the table that is the same as the character "ka" in area wk (207). This time, I was able to find it, so I take out the first code whose headword is "ka" from the mixed plain name/non-plain name keyword table 5 (207, 208). Next, it is checked whether the keyword containing the flat name and non-flat name of the retrieved record (in this case, "Kaiware radish") exists at the position pointed to by the pointer p. Therefore, the position of the headword (in this case, the position of "ka") should be set to p' using the pointer p.209
), subtract the starting position b of bun (the position of "o" in this case) from p' to find the maximum length of the previous character β = = p'' - b (1 = 9 in this case) (210). (207) The previous character string length of the record retrieved from the keyword table 5 is compared with β (211).Here, the previous character string length of "Kaiware daikon" is 0, so the condition [E≧the previous character string length] is Fulfill. (An example that violates this condition is, for example, when the keyword in Table 5 is [Bunsetsu Unit Separation], the headword is "ka", the previous character string length is 5, and the keyword length is 9, but the input sentence is There are cases where l = 3 in "Please input with clause separation." In this case, there is an obvious mismatch.) Therefore, p'("ka"
Subtract the previous character string length (rOJ) from the position of
p' = p' - the previous character string length] position (in this case, p'
=p') is set to the starting position of the keyword containing the plain name and non-plain name (212). Then, extract only the characters of the relevant keyword from position p of the input sentence.Here, 8
(extract ``Enter with boxmarks'' for the characters) and add this to k
Set to ey (213). Compare this key with the hiragana/non-hiragana mixed keyword "Kaiware daikon"214). If they are equal, set f lag to 1 and take the corresponding part out of the loop, but since they are not equal here, use the headword from Table 5. The next code for "ka" is extracted (216) (217) and the process returns to step (211).

今度は取り出された平板名・非平板名混じりキーワード
が「文節分かち書き」であり(第2図参照)、キーワー
ドの前文字列長は3で、〔l≧当該前文字列長〕の条件
を満たし、入力文に対するp#位置は文字「文」の位置
となる(212)。
This time, the retrieved keyword containing plain name and non-plain name is "Bunsetsu Sekigi" (see Figure 2), and the length of the preceding character string of the keyword is 3, satisfying the condition [l ≧ length of the preceding character string]. , the p# position for the input sentence becomes the position of the character "sentence" (212).

又入力文から取り出される文字数は、キーワード文字数
である7となる。この入力文から取出した7文字をke
yにセットしく213) 、ここで、前記取出された平
板名・非平板名混じりキーワードをkeyと比べると、
両者は等しいので(214)flagに1が入り(21
5) 、従って(219)に進む。そして、keyの先
頭と末尾に句切り記号“((”と“))”を付け(21
9) 、文節認定開始位置ポインタbよりキーワード先
頭位置ポインタp#が大きい時のみ(220)、bから
p’−1までの文字列(ここでは「オペレータは」)を
出力領域outヘセットしく221)続いてkey (
ここでは「((文節分かち書き))」)をoutへ付加
する(222)。次に、まだ認定処理のしていない所(
p#十当該キーワード長)までポインタpを進め(22
3)、bを更新しく224) 、f lagをOにする
(225)。
Also, the number of characters extracted from the input sentence is 7, which is the number of keyword characters. The 7 characters extracted from this input sentence are ke
Set it to y213).Here, if we compare the extracted plain name/non-plain name mixed keyword with the key,
Since both are equal (214), 1 is entered in flag (21
5), therefore proceed to (219). Then, add punctuation symbols “((” and “))” to the beginning and end of the key (21
9) Only when the keyword start position pointer p# is larger than the clause recognition start position pointer b (220), set the character string from b to p'-1 (here "operator is") to the output area out (221) Next, key (
Here, "((clause separation))") is added to out (222). Next, check the areas that have not yet been certified (
Advance the pointer p to (22
3), update b 224) and set f lag to O (225).

以後同様の処理を繰り返し、最後にbの指す位置よりb
unの末尾までの文字列をoutへ付加しく229)、
平仮名・非平仮名混じりキーワードテーブル5に含まれ
る単語を全て句切り記号“((”、“))”で囲み、字
種分割処理部3で句切り記号内部を分割しないようにす
る。
After that, the same process is repeated, and finally from the position pointed to by b
Add the string up to the end of un to out229),
All the words included in the hiragana/non-hiragana mixed keyword table 5 are surrounded by punctuation symbols "((", "))" to prevent the character type division processing unit 3 from dividing the inside of the punctuation symbol.

〔発明の効果〕〔Effect of the invention〕

本発明の自然語解析処理システムに於ける平仮名・非平
仮名混じり文節処理方式によれば、予じめ用意した平仮
名・非平仮名混じりキーワードテーブルを参照して、入
力文から平仮名のみの単語又は平仮名と非平仮名の混じ
った単語を認定し、文節分割処理に際し、該認定した単
語を分離不可のものとして扱うようにしたので、ベタ書
き入力文中より、平仮名のみの単語や平仮名と非平仮名
の混じった単語を自動的に、また、個人の意向によるば
らつきなく高精度で認定することができ、それによって
、ユーザは予め文節を区切って入力する必要がなく操作
性が向上する等の効果を奏する。
According to the hiragana/non-hiragana mixed phrase processing method in the natural language analysis processing system of the present invention, a hiragana/non-hiragana mixed keyword table prepared in advance is referred to, and hiragana-only words or hiragana words are extracted from the input sentence. Words that contain non-hiragana characters are recognized, and during the bunsetsu segmentation process, the recognized words are treated as inseparable, so words that are only hiragana characters or words that are a mixture of hiragana and non-hiragana characters are removed from solid input sentences. can be recognized automatically and with high precision without variations due to individual intentions, and as a result, the user does not have to input phrases in advance, resulting in improved operability.

また、キーワードの見出し語を、先頭文字とするのでは
なくて最初に現われる平仮名とすると共に、先頭からそ
の手前までの長さを示す前文字列長を備えたので、先頭
が非平仮名で始まる漢字仮名混じりの単語の抽出が容易
に行なわれ等の効果を奏する。
In addition, the headword of the keyword is not the first character, but the first hiragana that appears, and a pre-character string length that indicates the length from the beginning to the previous character string is provided, so the kanji that starts with a non-hiragana character at the beginning. Effects such as easy extraction of words containing kana are produced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の文節分割処理方式を説明するための機
能ブロック図、第2図は本発明に適用される平仮名・非
平仮名混じりキーワードテーブルに格納されている情報
の格納形式の一例を示す図、第3図はユーザが入力した
ベタ書き文の一例を示す図、第4図は句読点処理部の出
力文字列の一例を示す図、第5図は平仮名・非平仮名混
じりキーワード認定処理部の出力文字列の一例を示す図
、第6図は字種分割処理部の出力文字列の一例を示す図
、第7図は区切り記号削除処理部の出力文字列の一例を
示す図、第8図は平仮名・非平仮名混じりキーワード認
定処理部のPAD図である。 1・・・・・・句読点処理部、2・・・・・・平仮名・
非平仮名混じりキーワード認定処理部、3・・・・・・
字種分割処理部、4・・・・・・句切り記号削除処理部
、5・・・・・・平仮名・非平仮名混じりキーワードテ
ーブル。 第1図 第2区 平仮名・非平板名混じりキーワードテーブル第 3 凹
Fig. 1 is a functional block diagram for explaining the clause segmentation processing method of the present invention, and Fig. 2 shows an example of the storage format of information stored in the hiragana/non-hiragana mixed keyword table applied to the present invention. Figure 3 shows an example of a solid text input by the user, Figure 4 shows an example of a character string output by the punctuation mark processing section, and Figure 5 shows an example of the character string output from the hiragana/non-hiragana mixed keyword recognition processing section. FIG. 6 is a diagram showing an example of the output character string of the character type division processing section. FIG. 7 is a diagram showing an example of the output character string of the delimiter deletion processing section. FIG. 8 is a PAD diagram of the hiragana/non-hiragana mixed keyword recognition processing unit. 1... Punctuation processing section, 2... Hiragana/
Non-hiragana mixed keyword certification processing unit, 3...
Character type division processing unit, 4... Punctuation mark deletion processing unit, 5... Hiragana/non-hiragana mixed keyword table. Figure 1. Ward 2. Keyword table containing mixed hiragana and non-hiragana names. No. 3 (concave)

Claims (1)

【特許請求の範囲】 1、自然語からなる文を入力する手段と、予め作成され
た平仮名・非平仮名混じりキーワードテーブルと、前記
平仮名・非平仮名混じりキーワードテーブルを参照して
前記入力された文から平仮名のみの単語又は平仮名と非
平仮名の混じつた単語を認定する手段と、前記認定され
た単語は一体のものとして細分することなく前記入力さ
れた文を文節に分割する手段とを備えたことを特徴とす
る自然語解析処理システムにおける平仮名・非平仮名混
じり文節分割処理方式。 2、前記平仮名・非平仮名混じりキーワードテーブルは
、平仮名のみ、又は平仮名と非平仮名の混じつたキーワ
ードの格納部と、前記平仮名・非平仮名混じりキーワー
ド中で最初に現われる平仮名を示す見出し語の格納部と
、前記平仮名・非平仮名混じりキーワードの先頭から見
出し語の手前までの長さを示す前文字列長の格納部と、
前記平仮名・非平仮名混じりキーワードの全長を示すキ
ーワード長の格納部とを備えたことを特徴とする請求項
1記載の自然語解析処理システムにおける平仮名・非平
仮名混じり文節分割処理方式。 3、入力された文の非平仮名から平仮名に変わる最初の
平仮名に相当する文字を見出し語とするキーワードを前
記キーワードテーブルから選択する手段と、前記入力さ
れた文の前記最初の平仮名を前記選択されたキーワード
の見出し語に対応させると共に、前記前文字列長及び前
記キーワード長を用いることによつて、前記入力された
文から前記選択されたキーワードに対応する長さと範囲
の部分を抽出する手段と、前記入力された文の抽出され
た部分が前記選択されたキーワードと一致するとき、該
部分を平仮名のみの単語又は平仮名と非平仮名の混じつ
た単語と認定する手段とを備えたことを特徴とする請求
項2記載の自然語解析処理システムにおける平仮名・非
平仮名混じり文節分割処理方式。
[Claims] 1. Means for inputting a sentence consisting of natural language, a pre-created hiragana/non-hiragana mixed keyword table, and a means for inputting a sentence from the inputted sentence by referring to the hiragana/non-hiragana mixed keyword table. The method further comprises a means for recognizing words in hiragana only or words in which hiragana and non-hiragana are mixed, and a means for dividing the input sentence into clauses without subdividing the recognized words as a whole. Features: A phrase segmentation processing method for mixed hiragana and non-hiragana in a natural language analysis processing system. 2. The hiragana/non-hiragana mixed keyword table has a storage section for keywords containing only hiragana or a mixture of hiragana and non-hiragana, and a storage section for a headword indicating the hiragana that appears first among the hiragana/non-hiragana mixed keywords. , a storage section for a previous character string length indicating the length from the beginning of the hiragana/non-hiragana mixed keyword to before the headword;
2. The hiragana/non-hiragana mixed phrase segmentation processing method in a natural language analysis processing system according to claim 1, further comprising a keyword length storage section indicating the total length of the hiragana/non-hiragana mixed keyword. 3. means for selecting from the keyword table a keyword whose headword is a character corresponding to the first hiragana that changes from non-hiragana to hiragana in the input sentence; means for extracting a portion of length and range corresponding to the selected keyword from the input sentence by making the input sentence correspond to the headword of the selected keyword and using the previous character string length and the keyword length; , characterized in that, when the extracted part of the input sentence matches the selected keyword, the part is recognized as a word consisting only of hiragana or a word containing hiragana and non-hiragana. 3. A system for dividing phrases containing hiragana and non-hiragana in a natural language analysis processing system according to claim 2.
JP63124857A 1988-05-24 1988-05-24 Dividing and processing system for kanji/kana paragraph Pending JPH01295369A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63124857A JPH01295369A (en) 1988-05-24 1988-05-24 Dividing and processing system for kanji/kana paragraph

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63124857A JPH01295369A (en) 1988-05-24 1988-05-24 Dividing and processing system for kanji/kana paragraph

Publications (1)

Publication Number Publication Date
JPH01295369A true JPH01295369A (en) 1989-11-29

Family

ID=14895815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63124857A Pending JPH01295369A (en) 1988-05-24 1988-05-24 Dividing and processing system for kanji/kana paragraph

Country Status (1)

Country Link
JP (1) JPH01295369A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04191960A (en) * 1990-11-26 1992-07-10 Sharp Corp Paragraph segmenting device
JPH04191959A (en) * 1990-11-26 1992-07-10 Sharp Corp Paragraph segmenting device
JPH04195672A (en) * 1990-11-28 1992-07-15 Sharp Corp Phrase segmentation device
JPH0567073A (en) * 1991-09-09 1993-03-19 Mitsubishi Electric Corp Morpheme analysis device and paragraph dictionary preparing device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04191960A (en) * 1990-11-26 1992-07-10 Sharp Corp Paragraph segmenting device
JPH04191959A (en) * 1990-11-26 1992-07-10 Sharp Corp Paragraph segmenting device
JPH04195672A (en) * 1990-11-28 1992-07-15 Sharp Corp Phrase segmentation device
JPH0567073A (en) * 1991-09-09 1993-03-19 Mitsubishi Electric Corp Morpheme analysis device and paragraph dictionary preparing device

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
Van Berkel et al. Triphone Analysis: A Combined Method for the Correction of Orthographical and Typographical Errors.
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS6211932A (en) Information retrieving method
JPS63244259A (en) Keyword extractor
JPH01295369A (en) Dividing and processing system for kanji/kana paragraph
JP2960936B2 (en) Dependency analyzer
JP2536633B2 (en) Compound word extraction device
JPH0877196A (en) Extracting device for document information
JP3161660B2 (en) Keyword search method
Peterson Use of Webster's Seventh New Collegiate Dictionary to construct a master hyphenation list
JPH0954781A (en) Document retrieving system
JPS6368972A (en) Unregistered word processing system
JPS62143178A (en) Natural language translation system
JPH02255970A (en) Sentence presentation device
RU2003104608A (en) METHOD FOR AUTOMATED PROCESSING OF INFORMATION TEXT MATERIALS
JPH0750487B2 (en) Information extraction device
Morris A review of recent developments in term conflation approaches for Arabic text information retrieval
JPS6349930A (en) Key word extracting device
JP2001022752A (en) Method and device for character group extraction, and recording medium for character group extraction
JPH0262659A (en) Extracting device for correction candidate character of japanese sentence
JPS6366665A (en) Document analyzing/shaping device
Pardeshi et al. International Journal of Modern Trends in Engineering and Research
JP2001125907A (en) Method and device for retrieving dictionary and recording medium recording dictionary retrieving program