JPH09231212A - Independent word deciding method - Google Patents

Independent word deciding method

Info

Publication number
JPH09231212A
JPH09231212A JP8034866A JP3486696A JPH09231212A JP H09231212 A JPH09231212 A JP H09231212A JP 8034866 A JP8034866 A JP 8034866A JP 3486696 A JP3486696 A JP 3486696A JP H09231212 A JPH09231212 A JP H09231212A
Authority
JP
Japan
Prior art keywords
word
character string
independent word
independent
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8034866A
Other languages
Japanese (ja)
Other versions
JP3895797B2 (en
Inventor
Tatsuya Uehara
龍也 上原
Kazuhiro Kimura
和広 木村
Yoshimi Saito
佳美 齋藤
Tatsuya Dewa
達也 出羽
Yumi Mizutani
由美 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP03486696A priority Critical patent/JP3895797B2/en
Publication of JPH09231212A publication Critical patent/JPH09231212A/en
Application granted granted Critical
Publication of JP3895797B2 publication Critical patent/JP3895797B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a independent word deciding method which can easily decide an independent word in an unregistered character string which is not registered in a dictionary wherein notations etc., are registered from an input character string. SOLUTION: An unregistered character string detection part 1 detects an unregistered character string from the inputted character string by using the independent word dictionary 6 wherein notations, grammatical information, etc., are stored as to independent words, and an adjacent detection part 2 separate adjacents from the unregistered character string detected by the unregistered character string detection part 1 by using an adjacent dictionary 5 wherein notations and grammatical information regarding adjacents are stored to detect one or plural candidates for the independent word. A priority calculation part 3 calculates priority as to the respective independent word candidates detected by the adjacent detection part 2 according to grammatical information on words behind the unregistered character string by using the independent word dictionary 6 and a candidate generation part 4 decides and segments the character string as independent words in order from the independent word candidate having top priority detected by the adjacent detection part 2 according to the priority calculated by the priority calculation part 3.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、例えば、日本語ワ
ードプロセッサにおいて、未登録語を含む文字列を仮名
漢字変換する際の自立語の判別方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for discriminating an independent word when converting a character string including an unregistered word into kana-kanji in a Japanese word processor, for example.

【0002】[0002]

【従来の技術】近年、日本語における仮名漢字混じり表
記を入力する手段として日本語ワードプロセッサが広く
普及している。このような日本語ワードプロセッサにお
いては、予め単語の表記と読み等を記憶した辞書を用
い、利用者により入力された仮名文字列を漢字変換する
ようになっているが、利用者が所望する文書についての
漢字仮名混じり表記を効率よく作成するために、入力さ
れた仮名文字列を、利用者が意図する漢字仮名漢字混じ
り表記に正確に変換できることが必要とされる。もし変
換できない場合には、変換を誤った部分についての修正
を利用者自ら行わなければならず、その修正には多くの
労力が必要になる。特に、変換文字列に辞書の未登録語
がある場合、未登録語の部分を単漢字変換等で別個に指
定しなければならないだけでなく、未登録語の前後にも
悪影響を及ぼすことが多い。
2. Description of the Related Art In recent years, Japanese word processors have become widespread as a means for inputting kana-kanji mixed notation in Japanese. In such a Japanese word processor, a dictionary in which the notations and readings of words are stored in advance is used to convert the kana character string input by the user into kanji characters. In order to efficiently create the mixed kanji and kana notation, it is necessary to be able to accurately convert the input kana character string into the kanji and kana mixed notation intended by the user. If the conversion is not possible, the user has to make corrections for the incorrect conversions, which requires a lot of effort. In particular, if the converted character string contains unregistered words in the dictionary, not only the unregistered word part must be specified separately for single-kanji conversion, but also the unregistered words are often adversely affected. .

【0003】この問題を解決するために、従来、2つの
段階によって未登録語の影響を減少させる方法が用いら
れてきた。 1)既登録語から、どの部分が未登録語を含む区間であ
るか推定する。
In order to solve this problem, a method of reducing the influence of unregistered words by two steps has been conventionally used. 1) Estimate which part is a section including an unregistered word from the registered words.

【0004】2)上記手段によって推定された未登録語
がどのような表記を持つか推定する。1)の方法として
は、一般に変換不能になる地点から、解析可能になる地
点まで入力をとばし、その部分を未登録語区間として認
定する方法が取られている。
2) Estimate what notation the unregistered word estimated by the above means has. As a method of 1), generally, there is a method of skipping input from a point where conversion becomes impossible to a point where analysis becomes possible and recognizing that portion as an unregistered word section.

【0005】基本的には、仮名漢字変換では文節を単位
として変換をおこなっているため、1)の方法によって
推定された未登録区間には自立語以外にも付属語も含ま
れる。
Basically, in Kana-Kanji conversion, conversion is performed in units of clauses, so the unregistered section estimated by the method 1) includes an auxiliary word as well as an independent word.

【0006】一方、2)の段階は、非常に困難な問題で
あり、現在のところ、カタカナ語の推定にとどまってい
る。上述したように推定した区間には、付属語が含まれ
ているので付属語の部分はカタカナに変換する必要はな
い。この問題に対処するために、推定区間の末尾が付属
語の可能性がある場合、末尾を付属語として扱ったもの
も候補とするが行われている。
On the other hand, the step 2) is a very difficult problem, and at present, the estimation is limited to Katakana. Since the section estimated as described above includes an adjunct word, it is not necessary to convert the adjunct word portion to katakana. In order to deal with this problem, if there is a possibility that the end of the estimation interval is an adjunct word, the one that treats the end as an adjunct word is also considered as a candidate.

【0007】[0007]

【発明が解決しようとする課題】このように、従来の仮
名漢字変換方法では、入力された仮名文字列中の未登録
文字列について、変換不要な付属語と変換対象の自立語
を判別する方法, すなわち、どこまでを自立語とするか
を判断することは考慮されておらず、変換候補の生成が
困難であった。従って、第1番目に正解が出ないことが
多く、利用者が次候補操作をおこなう回数が多くなり、
未登録語による利用者の修正の負担が多いという問題点
があった。
As described above, according to the conventional kana-kanji conversion method, a method of discriminating an unregistered auxiliary word and an independent word to be converted from an unregistered character string in an inputted kana character string. That is, it is difficult to generate conversion candidates, because it is not taken into consideration to determine how far to make an independent word. Therefore, the correct answer is often not given first, and the number of times the user performs the next candidate operation increases,
There is a problem that the user's correction burden due to unregistered words is heavy.

【0008】また、未登録文字列中の自立語を判別する
方法は、仮名漢字変換のみならず、機械翻訳を行う上で
も有用である。そこで、本発明は、このような問題点に
鑑みてなされたものであり、入力文字列から予め表記等
が登録された辞書に登録されていない未登録文字列中の
自立語を判別することが可能な自立語判別方法を提供す
ることを目的とする。
Further, the method for discriminating the independent word in the unregistered character string is useful not only for Kana-Kanji conversion but also for machine translation. Therefore, the present invention has been made in view of such problems, and it is possible to determine an independent word in an unregistered character string that is not registered in a dictionary in which notations and the like are registered from an input character string. The purpose is to provide a possible independent word discrimination method.

【0009】[0009]

【課題を解決するための手段】本発明の自立語判別方法
は、自立語についての表記と文法情報を記憶した自立語
辞書を用いて、入力された文字列から前記自立語辞書に
登録されていない未登録文字列を含む文節を検出し、付
属語についての表記と文法情報を記憶した付属語辞書を
用いて、前記検出された文節から付属語を分離して1ま
たは複数の自立語候補を抽出し、この抽出された自立語
候補のそれぞれについて、前記文節の後方あるいは前方
にある語の文法情報に基づき自立語の尢度を算出し、そ
の算出された値をもとに前記文節に含まれる自立語を判
別することにより、入力文字列から予め表記等が登録さ
れた辞書に登録されていない未登録文字列中の自立語を
容易に判別することが可能となる。
A method for discriminating an independent word according to the present invention uses an independent word dictionary that stores notation and grammatical information about an independent word, and is registered in the independent word dictionary from an input character string. A phrase containing an unregistered character string is detected, and an adjunct word is separated from the detected phrase using an adjunct word dictionary that stores notation and grammatical information about the adjunct word to obtain one or more independent word candidates. For each of the extracted independent word candidates, the degree of independence of the independent word is calculated based on the grammatical information of the word behind or in front of the phrase, and included in the phrase based on the calculated value. By discriminating the independent word that is stored, it is possible to easily discriminate the independent word in the unregistered character string that is not registered in the dictionary in which the notation or the like is registered from the input character string.

【0010】[0010]

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。図1は、本実施形態に係る自
立語判別方法を適用するワードプロセッサ等の情報処理
装置の要部の構成を示したもので、未登録文字列検出部
1、付属語検出部2、優先度計算部3、候補生成部4、
付属語辞書5、自立語辞書6から構成されている。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a configuration of a main part of an information processing apparatus such as a word processor to which the independent word determination method according to the present embodiment is applied. The unregistered character string detection unit 1, the adjunct word detection unit 2, the priority calculation. Part 3, candidate generation part 4,
It is composed of an adjunct word dictionary 5 and an independent word dictionary 6.

【0011】なお、以下の説明では、仮名漢字変換の場
合を例にとり説明する。未登録文字列検出部1は、例え
ば、入力された文字列から自立語についての表記と文法
情報等を記憶した自立語辞書6を用いて未登録語を含む
文字列(以下、未登録文字列と呼ぶ)を検出するように
なっている。
In the following description, the case of Kana-Kanji conversion will be described as an example. The unregistered character string detection unit 1 uses, for example, an independent word dictionary 6 that stores notation and grammatical information about an independent word from an input character string and includes a character string including an unregistered word (hereinafter referred to as an unregistered character string. Called) is detected.

【0012】付属語検出部2は、付属語についての表記
と文法情報を記憶した付属語辞書5を用いて、未登録文
字列検出部1で検出された未登録文字列から付属語を分
離して1または複数の自立語候補を検出するようになっ
ている。
The adjunct word detecting section 2 separates the adjunct word from the unregistered character string detected by the unregistered character string detecting section 1 by using the adjunct word dictionary 5 storing the notation and grammatical information about the adjunct word. One or more independent word candidates are detected.

【0013】優先度計算部3は、自立語辞書6を用い
て、未登録文字列の前方あるいは後方にある語の文法情
報をもとに、付属語検出部2で検出された複数の自立語
候補のそれぞれについて、自立語らしさの指標値(自立
語の尢度)である優先度を計算するようになっている。
The priority calculation unit 3 uses the independent word dictionary 6 to detect a plurality of independent words detected by the adjunct word detection unit 2 based on the grammatical information of the words that are before or after the unregistered character string. For each of the candidates, a priority which is an index value of the independence-likeness (the degree of independence) is calculated.

【0014】候補生成部4は、優先度計算部3で計算さ
れた優先度をもとに、付属語検出部2で検出された自立
語候補から優先度の最も大きいものから順に自立語と判
別して切り出していくようになっている。すなわち、仮
名漢字変換の場合、計算された優先度の値が大きいもの
から順に並び替えることにより、仮名漢字変換候補の順
位を決定して変換候補テーブルを生成する。
Based on the priorities calculated by the priority calculation unit 3, the candidate generation unit 4 discriminates the independent word candidates detected by the attached word detection unit 2 as independent words in order from the highest priority. It is designed to be cut out. That is, in the case of kana-kanji conversion, the kana-kanji conversion candidates are ranked in descending order of the calculated priority value to determine the rank of kana-kanji conversion candidates and generate a conversion candidate table.

【0015】付属語辞書5は、付属語の表記とその文法
情報として、それに前接可能な付属語を記憶するように
なっている。自立語辞書6は、自立語とその文法情報を
記憶するようになっている。
The adjunct word dictionary 5 stores an adjunct word that can be prefixed to the notation and grammatical information of the adjunct word. The independent word dictionary 6 is adapted to store independent words and their grammatical information.

【0016】図2は、付属語辞書5の記憶例を示したも
のである。図2において、この付属語辞書5に登録され
ている各付属語には、付属語番号が付されていて、さら
に、その付属語に前接可能な付属語の付属語番号が記憶
されている。
FIG. 2 shows an example of storage of the auxiliary word dictionary 5. In FIG. 2, an adjunct word number is attached to each adjunct word registered in the adjunct word dictionary 5, and an adjunct word number of an adjunct word that can be prefixed to the adjunct word is stored. .

【0017】例えば、付属語番号が「1」の付属語は、
「に」で、それに前接可能な付属語は、付属語番号
「4」、「5」の付属語、すなわち、「と」と「まで」
である。図3は、自立語辞書6の記憶例を示したもので
ある。図3において、この自立語辞書6に登録されてい
る各自立語には、「読み」と「表記」と「文法情報」が
記憶されている。
For example, an adjunct with an adjunct number "1" is
The adjuncts that can be preceded by "ni" are adjuncts with adjunct numbers "4" and "5", that is, "to" and "to"
It is. FIG. 3 shows an example of storage of the independent word dictionary 6. In FIG. 3, “reading”, “notation”, and “grammar information” are stored in each independent word registered in the independent word dictionary 6.

【0018】例えば、表記が「製品」の読みは「せいひ
ん」で、その文法情報は、「名詞」となる。次に、以上
のような構成における自立語判別方法の全体の処理動作
を図4に示すフローチャートを参照して説明する。
For example, the pronunciation of "product" is "seihin", and its grammatical information is "noun". Next, the overall processing operation of the independent word discrimination method with the above configuration will be described with reference to the flowchart shown in FIG.

【0019】まず、ステップA1において、入力された
仮名文字列から自立語辞書6を用いて、この自立語辞書
6に登録されていない語を含む未登録文字列を検出す
る。この処理に関しては、例えば特開昭60−1478
67号公報等によって開示されている手法を流用すれば
ので、ここでは詳しく述べない。
First, in step A1, an unregistered character string including a word not registered in the independent word dictionary 6 is detected from the input kana character string by using the independent word dictionary 6. Regarding this processing, for example, JP-A-60-1478.
Since the method disclosed in Japanese Patent Publication No. 67 etc. is used, it will not be described in detail here.

【0020】次に、ステップA2では、付属語検出部2
において、付属語辞書5を用いて、検出された未登録文
字列から付属語となり得る語を分離することにより、1
または複数の自立語候補を検出する。
Next, in step A2, the attached word detection unit 2
In the above, by using the adjunct word dictionary 5, by separating words that can be adjunct words from the detected unregistered character string, 1
Alternatively, a plurality of independent word candidates are detected.

【0021】この検出された自立語候補のそれぞれにつ
いて優先度計算部3で優先度を計算する(ステップA3
〜ステップA4)。ステップA4の優先度計算処理は、
優先度計算部3において、未登録文字列の前後の語の文
法情報を参照し優先度を計算する。
The priority calculation unit 3 calculates the priority for each of the detected independent word candidates (step A3).
-Step A4). The priority calculation process in step A4 is
The priority calculation unit 3 calculates the priority by referring to the grammatical information of the words before and after the unregistered character string.

【0022】ステップA3で、全ての自立語候補につい
て優先度が計算されたことが判断されると、ステップA
5に進む。ステップA5では、ステップA4によって求
められた各自立語候補の優先度のうち、最も大きいもの
から順に自立語と判別して切り出していくようになって
いる。すなわち、仮名漢字変換の場合、計算された優先
度の値が大きいものから順に並び替えることにより、仮
名漢字変換候補の順位を決定して変換候補テーブルを生
成する。
When it is determined in step A3 that the priorities have been calculated for all independent word candidates, step A
Go to 5. In step A5, among the priorities of the independent word candidates obtained in step A4, the highest priority is determined as an independent word and the independent words are cut out. That is, in the case of kana-kanji conversion, the kana-kanji conversion candidates are ranked in descending order of the calculated priority value to determine the rank of kana-kanji conversion candidates and generate a conversion candidate table.

【0023】次に、図5に示すフローチャートを参照し
て、図4のステップA2における付属語検出処理をより
詳細に説明する。まず、ステップB1では、未登録文字
列に付属語がなく全て自立語である可能性は常に存在す
るので、候補の1つとして候補のリストに詰む。
Next, the adjunct word detection processing in step A2 of FIG. 4 will be described in more detail with reference to the flowchart shown in FIG. First, in step B1, there is always a possibility that all unregistered character strings have no adjunct words and all are independent words, so the candidate list is filled as one of the candidates.

【0024】ステップB2において、付属語の開始位置
を未登録文字列の終端からの文字数で表す変数Sに
「1」を代入する。ステップB3において、変数Sが未
登録文字列の長さに等しくなれば、すべての可能性を検
査したことになるので終了し、そうでなければ変数Sが
さし示す位置から未登録文字列の終端までの仮名文字列
が付属語列として許されるかを付属語辞書5を用いて判
断する(ステップB4)。判断方法は一般に形態素解析
に用いられている手法を用いればよいので、ここでは詳
しく述べない。
In step B2, "1" is assigned to a variable S representing the start position of the attached word by the number of characters from the end of the unregistered character string. In step B3, if the variable S becomes equal to the length of the unregistered character string, it means that all the possibilities have been checked, and the process ends. It is determined using the adjunct word dictionary 5 whether the kana character string up to the end is allowed as an adjunct word string (step B4). Since a method generally used for morphological analysis may be used as the determination method, it will not be described in detail here.

【0025】ステップB4の判定が真ならば、ステップ
B5において変数Sが指し示す位置で自立語と付属語を
分離した候補を候補のリストに詰み、ステップB6へ進
む。判定が偽ならば、ステップB6へ進み、変数Sに
「1」を加える。
If the determination in step B4 is true, in step B5 the candidates in which the independent word and the adjunct word are separated at the position pointed to by the variable S are packed in the candidate list, and the process proceeds to step B6. If the determination is false, the process proceeds to step B6 and "1" is added to the variable S.

【0026】次に、図6に示すフローチャートを参照し
て、図4のステップA4における優先度計算処理をより
詳細に説明する。まず、ステップC1では、ステップA
2で検出された自立語候補の優先度を表す変数Pにデフ
ォルトの点数(ここでは「100」)を代入する。
Next, the priority calculation processing in step A4 of FIG. 4 will be described in more detail with reference to the flowchart shown in FIG. First, in step C1, step A
A default score (here, “100”) is assigned to the variable P representing the priority of the independent word candidate detected in 2.

【0027】ステップC2で自立語辞書6を検索して、
未登録文字列の直後の自立語の文法情報を得る。もし、
文法情報が「非複合語名詞」でかつ、未登録文字列から
分離された付属語がなければ(ステップC3)、未登録
文字列は複合名詞になる可能性が高いので、ステップC
4にて優先度を下げる(ここでは、「50」引く)。も
し、文法情報が「“と”をとる動詞」で、未登録文字列
から分離された付属語が「と」であれば(ステップC
5)、ステップC6にて、優先度をあげる(ここでは、
「30」加える)。最後に、各自立語候補に変数Pの表
す優先度を付与する(ステップC7)。
In step C2, the independent word dictionary 6 is searched,
Get the grammatical information of the independent word immediately after the unregistered character string. if,
If the grammatical information is "non-compound noun" and there is no adjunct word separated from the unregistered character string (step C3), the unregistered character string is likely to be a compound noun, so step C
The priority is lowered at 4 (here, "50" is subtracted). If the grammatical information is a "verb that takes" to "and the adjunct word separated from the unregistered character string is" to "(step C
5) In step C6, the priority is raised (here,
Add "30"). Finally, the priority represented by the variable P is given to each independent word candidate (step C7).

【0028】次に、以上説明したような自立語判別方法
について、具体的に説明する。例えば、「あみーがあす
はつばいされる」という仮名文字列が処理の対象である
とする。このとき、未登録文字列検出部1によって「あ
みーが」の部分が未登録文字列として検出される(ステ
ップA1)。
Next, the independent word discrimination method as described above will be concretely described. For example, it is assumed that the kana character string "Ami ga tsu tsubai wa taru" is the processing target. At this time, the unregistered character string detection unit 1 detects the portion "Amiga" as an unregistered character string (step A1).

【0029】次に、付属語検出部2において、まず「あ
みーが」という全体を自立語とする候補の1つがつまれ
る(ステップB1)。ついで、変数Sの値が1のとき、
指し示される付属語列は「が」となり、これは付属語列
として認められるので、「あみー(自立語)+が(付属
語)」という候補がつまれる(ステップB5)。
Next, in the adjunct word detecting unit 2, one of the candidates for which the whole word "Ami-ga" is used as an independent word is picked up (step B1). Then, when the value of the variable S is 1,
The attached auxiliary word string is "ga", and this is recognized as an auxiliary word string, so candidates for "Ami (independent word) + ga (adjunct word)" are clogged (step B5).

【0030】そして、優先度計算部3に、この2つの候
補が送られ、未登録文字列直後が「明日」だとすると、
その文法情報は「非複合語名詞」であるので、「あみー
が(自立語)」は、図6のステップC3の条件に適合
し、優先度は「50」となる。一方、「あみー(自立
語)+が(付属語)」は、ステップC3、C5のいずれ
の条件にも適用しないので、優先度は「100」のまま
である。したがって、候補生成部4において、「あみー
(自立語)+が(付属語)」が優先され、自立語として
「あみー」が判別される。
Then, if these two candidates are sent to the priority calculation section 3 and it is "tomorrow" immediately after the unregistered character string,
Since the grammatical information is the "non-compound noun", "Amiga (independent word)" conforms to the condition of step C3 in FIG. 6 and has a priority of "50". On the other hand, "Ami (independent word) + ga (adjunct word)" does not apply to any of the conditions in steps C3 and C5, so the priority remains "100". Therefore, in the candidate generation unit 4, "Ami (independent word) + ga (adjunct word)" is prioritized, and "Ami" is determined as an independent word.

【0031】以上、説明したように、上記実施形態によ
れば、未登録文字列検出部1は、入力された文字列から
自立語についての表記と文法情報等を記憶した自立語辞
書6を用いて未登録文字列を検出し、付属語検出部2
は、付属語についての表記と文法情報を記憶した付属語
辞書5を用いて、未登録文字列検出部1で検出された未
登録文字列から付属語を分離して1または複数の自立語
候補を検出し、優先度計算部3は、自立語辞書6を用い
て、未登録文字列の後方にある語の文法情報をもとに、
付属語検出部2で検出された複数の自立語候補のそれぞ
れについて優先度を計算し、候補生成部4は、優先度計
算部3で計算された優先度をもとに、付属語検出部2で
検出された自立語候補から優先度の最も大きいものから
順に自立語と判別して切り出すことにより、入力文字列
から予め表記等が登録された辞書に登録されていない未
登録文字列中の自立語を容易に判別することが可能とな
り、未登録文字列中のもっとも可能性の高い自立語を持
つ候補を優先することにより、例えば、仮名漢字変換に
用いた場合、入力文字列に未登録語が存在するときでも
使用者の候補選択および修正の手間を軽減できる。
As described above, according to the above-described embodiment, the unregistered character string detection unit 1 uses the independent word dictionary 6 that stores the notation and grammatical information about the independent word from the input character string. Unregistered character string is detected by
Is an adjunct word separated from the unregistered character string detected by the unregistered character string detection unit 1 by using the adjunct word dictionary 5 that stores the notation and grammatical information about the adjunct word and one or more independent word candidates And the priority calculation unit 3 uses the independent word dictionary 6 based on the grammatical information of the word behind the unregistered character string,
The priority is calculated for each of the plurality of independent word candidates detected by the adjunct word detection unit 2, and the candidate generation unit 4 determines the adjunct word detection unit 2 based on the priority calculated by the priority calculation unit 3. From the independent word candidates detected in step 1, the words with the highest priority are discriminated as independent words in order and cut out, so that the independent characters in the unregistered character strings that are not registered in the dictionary in which the notation etc. are registered in advance from the input character string It becomes possible to easily distinguish words, and by prioritizing the candidate with the most probable independent word in the unregistered character string, for example, when used for Kana-Kanji conversion, the unregistered word in the input character string Even when there is, it is possible to reduce the user's trouble of selecting and correcting the candidate.

【0032】なお、本発明は、上記実施形態にのみ限定
されず、要旨を変更しない範囲で適宜変形して実施可能
である。本実施形態では、優先度計算部3において用い
られている文法情報として、名詞の非複合語属性と動詞
の付属語「と」に関する接続性を用いているが、これは
一例である。さらに、他の品詞の付属語の接続性などを
用いることが可能である。また、文法情報のみでなく、
共起情報などの意味情報もしくは語用論的情報も用いる
ことが可能である。
The present invention is not limited to the above-described embodiments, but can be implemented by being modified appropriately without departing from the scope of the invention. In the present embodiment, as the grammatical information used in the priority calculation unit 3, the connectivity regarding the non-compound word attribute of the noun and the adjunct “to” of the verb is used, but this is an example. Furthermore, it is possible to use the connectivity of the adjuncts of other parts of speech. Also, not only grammatical information,
Semantic information such as co-occurrence information or pragmatic information can also be used.

【0033】また、上記実施形態では、未登録文字列の
後方にある語の文法情報のみを用いているが、前方にあ
る語の文法情報も使用可能である。例えば、前方に付属
語「が」でおわる文節がある場合、そのあとでは、付属
語「が」を取りにくいという性質を利用して、未登録文
字列内の自立語の候補を優先付けできる。
In the above embodiment, only the grammatical information of the word behind the unregistered character string is used, but the grammatical information of the word before the unregistered character string can also be used. For example, when there is a phrase that ends with the attached word “ga” in the front, the independent word candidates in the unregistered character string can be prioritized after that by utilizing the property that the attached word “ga” is difficult to take.

【0034】また、本実施形態では、未登録文字列の直
後の語の情報を用いているが、直前および直後ではな
く、離れている文節の情報を用いることも可能である。
また、本実施形態では、未登録文字列を「自立語部+付
属語部」に分離することにより自立語候補を検出してい
るが、「自立語部+付属語部+自立語部+付属語部」の
ように、必要に応じて3つ以上に分離してもよい。
Further, in the present embodiment, the information on the word immediately after the unregistered character string is used, but it is also possible to use the information on the distant clauses instead of immediately before and immediately after.
Further, in the present embodiment, the independent word candidate is detected by separating the unregistered character string into “independent word part + adjunct word part”. However, “independent word part + adjunct word part + independent word part + attached” If necessary, it may be divided into three or more, such as "word part".

【0035】また、本実施形態では、入力が仮名文字列
と仮定しているが、かな漢字混じり列でもよい。この場
合は自立語部に仮名が含まれるときに本発明は有効であ
る。例えば、「老松や不動産にて」というかな漢字混じ
り列が対象で未登録文字列が「老松や」の場合、自立語
部は、「老松」もしくは「老松や」の2つの可能がある
が、「不動産」は、直前に固有名詞を伴って使われる場
合が多いという文法情報があれば、「老松や」が自立語
部である可能性が高いと判断することができる。
In this embodiment, the input is assumed to be a kana character string, but it may be a kana-kanji mixed string. In this case, the present invention is effective when a kana is included in the independent word part. For example, if the unregistered character string is "Oimatsuya" for a kana-kanji mixed string such as "Oomatsuya Real Estate", the independent word part has two possibilities, "Oomatsu" or "Oomatsuya". If there is grammatical information that "real estate" is often used with a proper noun immediately before, it can be determined that "Oromatsuya" is highly likely to be an independent word part.

【0036】また、付属語辞書5および自立語辞書6に
関しては、辞書のフォーマットの変更や辞書項目の追加
を行っても実施可能である。また、本実施形態は、ワー
ドプロセッサ等のかな漢字変換を行う情報処理装置に組
み込んで、自立語部をカタカナ化もしくは漢字等に置き
換えることにより、利用者の文書作成の効率を上げるこ
とが可能である。例えば、上述した「あみーがあすはつ
ばいされる」という例に対して、検出された自立語候補
のうち優先度の最も高い自立語、すなわち、「あみー」
をカタカナ化することにより、候補生成部4で変換候補
テーブルを図7に示すように生成して、「アミーが明日
販売される」のように変換させることが容易に可能であ
る。自立語部の置きかえは、自立語部に長音が含まれる
などの条件下で行うようにしてもよい。
The adjunct word dictionary 5 and the independent word dictionary 6 can also be implemented by changing the format of the dictionary or adding dictionary items. Further, according to the present embodiment, it is possible to improve the efficiency of the user's document creation by incorporating it into an information processing device such as a word processor for performing kana-kanji conversion and converting the independent word part into katakana or replacing it with kanji. For example, in contrast to the above-mentioned "Ami ga tsuha tsubai", the independent word with the highest priority among the detected independent word candidates, that is, "Ami"
By converting the characters into katakana, it is possible to easily generate the conversion candidate table in the candidate generation unit 4 as shown in FIG. 7 and convert the conversion candidate table to “Amy will be sold tomorrow”. The independent word part may be replaced under the condition that the independent word part contains a long sound.

【0037】また、判別された自立語部を記号で囲む、
もしくは、フォントを変えるなどして、区別できるよう
表示し、辞書登録などに利用することが可能である。例
えば、図8のように、判別された未登録の自立語部分を
記号で表示し、辞書登録を利用者に促すことも可能であ
る。この場合は、かな漢字変換だけでなく、機械翻訳や
OCR(Optical Character Rea
der)などにも応用が可能である。
In addition, the determined independent word part is surrounded by a symbol,
Alternatively, the fonts can be displayed so that they can be distinguished by changing the font, and can be used for dictionary registration or the like. For example, as shown in FIG. 8, it is possible to prompt the user to register the dictionary by displaying the determined unregistered independent word portion with a symbol. In this case, not only kana-kanji conversion, but also machine translation and OCR (Optical Character Rea)
der) and the like.

【0038】[0038]

【発明の効果】以上説明したように本発明によれば、入
力文字列から予め表記等が登録された辞書に登録されて
いない未登録文字列中の自立語を容易に判別することが
可能となり、未登録文字列中のもっとも可能性の高い自
立語を持つ候補を優先することにより、例えば、仮名漢
字変換に用いた場合、未登録語による利用者の修正の手
間を軽減させるという効果を生じる。
As described above, according to the present invention, it is possible to easily discriminate an independent word in an unregistered character string that is not registered in a dictionary in which notations and the like are registered, from an input character string. , By giving priority to the candidate having the most probable independent word in the unregistered character string, for example, when it is used for kana-kanji conversion, the effect of reducing the user's correction work due to the unregistered word is produced. .

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施形態に係る実施例に係る自立語
判別方法を適用するワードプロセッサ等の情報処理装置
の要部の構成を示したブロック図。
FIG. 1 is a block diagram showing a configuration of a main part of an information processing device such as a word processor to which an independent word determination method according to an example according to an embodiment of the present invention is applied.

【図2】付属語辞書の記憶例を示した図。FIG. 2 is a diagram showing an example of storage of an adjunct word dictionary.

【図3】自立語辞書の記憶例を示した図。FIG. 3 is a diagram showing an example of storage of an independent word dictionary.

【図4】自立語判別方法の概略を説明するためのフロー
チャート。
FIG. 4 is a flowchart for explaining an outline of an independent word determination method.

【図5】付属語検出部の処理動作を説明するためのフロ
ーチャート。
FIG. 5 is a flowchart for explaining a processing operation of an adjunct word detection unit.

【図6】優先度計算部の処理動作を説明するためのフロ
ーチャート。
FIG. 6 is a flowchart for explaining a processing operation of a priority calculation unit.

【図7】候補生成部で生成される変換候補テーブルの具
体例を示した図。
FIG. 7 is a diagram showing a specific example of a conversion candidate table generated by a candidate generation unit.

【図8】未登録文字列から判別された自立語の表示例を
示した図。
FIG. 8 is a diagram showing a display example of an independent word determined from an unregistered character string.

【符号の説明】[Explanation of symbols]

1…未登録文字列検出部、2…付属語検出部、3…優先
度計算部、4…候補生成部、5…付属語辞書、6…自立
語辞書。
1 ... Unregistered character string detection unit, 2 ... adjunct word detection unit, 3 ... priority calculation unit, 4 ... candidate generation unit, 5 ... adjunct word dictionary, 6 ... independent word dictionary.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 出羽 達也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 水谷 由美 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Tatsuya Dewa, Inventor Tatsuya Dewa, 1 Komukai Toshiba-cho, Sachi-ku, Kawasaki-shi, Kanagawa Within the Corporate Research and Development Center, Toshiba Corporation (72) Yumi Mizutani, Komukai-Toshiba, Saiwai-ku, Kawasaki-shi, Kanagawa Town No. 1 Toshiba Corporation Research & Development Center

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 自立語についての表記と文法情報を記憶
した自立語辞書を用いて、入力された文字列から前記自
立語辞書に登録されていない未登録文字列を含む文節を
検出し、付属語についての表記と文法情報を記憶した付
属語辞書を用いて、前記検出された文節から付属語を分
離して1または複数の自立語候補を抽出し、この抽出さ
れた自立語候補のそれぞれについて、前記文節の後方に
ある語の文法情報に基づき自立語の尢度を算出し、その
算出された値をもとに前記文節に含まれる自立語を判別
する自立語判別方法。
1. A clause including an unregistered character string that is not registered in the independent word dictionary is detected from an input character string using an independent word dictionary that stores notation and grammatical information about the independent word, and is attached. Using the adjunct word dictionary that stores notation and grammatical information about words, the adjunct word is separated from the detected bunsetsu to extract one or more independent word candidates, and for each of the extracted independent word candidates An independent word determination method for calculating the degree of independence of an independent word based on the grammatical information of a word behind the phrase and determining the independent word included in the phrase based on the calculated value.
【請求項2】 自立語についての表記と文法情報を記憶
した自立語辞書を用いて、入力された文字列から前記自
立語辞書に登録されていない未登録文字列を含む文節を
検出し、付属語についての表記と文法情報を記憶した付
属語辞書を用いて、前記検出された文節から付属語を分
離して1または複数の自立語候補を抽出し、この抽出さ
れた自立語候補のそれぞれについて、前記文節の前方に
ある語の文法情報に基づき自立語の尢度を算出し、その
算出された値をもとに前記文節に含まれる自立語を判別
する自立語判別方法。
2. A clause including an unregistered character string that is not registered in the independent word dictionary is detected from an input character string using an independent word dictionary that stores notation and grammatical information about the independent word, and is attached. Using the adjunct word dictionary that stores notation and grammatical information about words, the adjunct word is separated from the detected bunsetsu to extract one or more independent word candidates, and for each of the extracted independent word candidates An independent word determination method for calculating the degree of independence of an independent word based on grammatical information of a word in front of the phrase and determining the independent word included in the phrase based on the calculated value.
JP03486696A 1996-02-22 1996-02-22 Conversion candidate generation method Expired - Fee Related JP3895797B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03486696A JP3895797B2 (en) 1996-02-22 1996-02-22 Conversion candidate generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03486696A JP3895797B2 (en) 1996-02-22 1996-02-22 Conversion candidate generation method

Publications (2)

Publication Number Publication Date
JPH09231212A true JPH09231212A (en) 1997-09-05
JP3895797B2 JP3895797B2 (en) 2007-03-22

Family

ID=12426094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03486696A Expired - Fee Related JP3895797B2 (en) 1996-02-22 1996-02-22 Conversion candidate generation method

Country Status (1)

Country Link
JP (1) JP3895797B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204476A (en) * 2001-09-25 2008-09-04 Apple Inc Japanese virtual dictionary

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204476A (en) * 2001-09-25 2008-09-04 Apple Inc Japanese virtual dictionary
JP2010165369A (en) * 2001-09-25 2010-07-29 Apple Inc Japanese virtual dictionary
JP2013242895A (en) * 2001-09-25 2013-12-05 Apple Inc Japanese virtual dictionary

Also Published As

Publication number Publication date
JP3895797B2 (en) 2007-03-22

Similar Documents

Publication Publication Date Title
Volk et al. Strategies for reducing and correcting OCR errors
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
JP5097802B2 (en) Japanese automatic recommendation system and method using romaji conversion
JPH08263478A (en) Single/linked chinese character document converting device
JP2009009307A (en) Document image processor and processing method
JP5583230B2 (en) Information search apparatus and information search method
JPH09231212A (en) Independent word deciding method
JP2007122660A (en) Document data processor and document data processing program
JP6055267B2 (en) Character string dividing device, model file learning device, and character string dividing system
JP2659700B2 (en) Kana-Kanji conversion method
JP4047895B2 (en) Document proofing apparatus and program storage medium
JP2798931B2 (en) Chinese phonetic delimiter and phonetic kanji conversion
JP4318223B2 (en) Document proofing apparatus and program storage medium
JPH09185674A (en) Device and method for detecting and correcting erroneously recognized character
JP3939264B2 (en) Morphological analyzer
JP2895137B2 (en) Japanese sentence error automatic detection and correction device
JPH01281561A (en) Method for extracting japanese sentence correcting candidate character
JPS6132167A (en) Kana-kanji conversion processor
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JP3123181B2 (en) Character recognition device
JPH07306696A (en) Method of deciding on rhythm information for speech synthesis
JP3339879B2 (en) Character recognition device
JPH08287058A (en) Kana/kanji converting device
JP2000250905A (en) Language processor and its program storage medium
JPH10301597A (en) Voice recognition device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061215

LAPS Cancellation because of no payment of annual fees