JPH10198676A

JPH10198676A - 日本語形態素解析装置及び日本語形態素解析方法

Info

Publication number: JPH10198676A
Application number: JP9003462A
Authority: JP
Inventors: Hitomi Kinoshita; ひとみ木下
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-01-13
Filing date: 1997-01-13
Publication date: 1998-07-31

Abstract

(57)【要約】【課題】べた書き文を形態素解析する際、漢字仮名混
じり文に変換し、曖昧性が生じればユーザに示し、正解
を指示してもらうことにより曖昧性を解消できる日本語
形態素解析装置及び日本語形態素解析方法を提供するこ
と。【解決手段】日本語文を文字列として入力する入力部
１と、日本語単語の読み、漢字表記、品詞情報、及び形
態素解析に必要な語彙情報を記憶した辞書群２と、前記
入力部１より入力された文字列を前記辞書群２を参照し
てトークンに分割するトークン分割部４と、分割したト
ークンが平仮名であった場合、それを漢字に変換する漢
字変換部７と、隣接するトークンの接続可否を判定する
接続チェック部６と、トークン分割及び漢字変換で曖昧
性が生じた場合、その候補を表示するトークン候補表示
部８と、表示した候補の中から正解をユーザに指示して
もらうユーザ指示部１１とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列として入力
した日本語文の形態情報を出力する日本語形態素解析装
置及び日本語形態素解析方法に関するものである。

【０００２】

【従来の技術】ワープロのかな漢字変換や機械翻訳な
ど、日本語を処理する場合、まず、形態素解析を行う必
要がある。形態素解析では、普通、単語をキーとしてそ
の語彙情報を記憶した辞書を検索しながら、文字列を形
態素（意味を持つ最小の単位、以下トークンと呼ぶ）に
分割し（トークン分割）、ここのトークンに形態情報
（品詞、活用など）を付加する。形態素解析には、文節
数最小法、左最長一致法、コスト最小法等の手法があ
り、これらの手法を用いて曖昧性を解消している。しか
し、どの手法も完全ではなく、誤解釈を導くことがあ
る。仮名表記の場合、それが顕著である。

【０００３】たとえば、「かれがくるまでまつ。」とい
う日本語入力文を英文に変換する機械翻訳の場合、この
入力文から得ることができる英文は、１．Ｈｅｗａｉｔｓｉｎａｃａｒ．２．Ｉｗａｉｔｕｎｔｉｌｈｅｃｏｍｅｓ．の２つが考えられる。これを漢字仮名混じり文で表記す
ると、１．彼が車で待つ。

【０００４】２．彼が来るまで待つ。となり、かな漢字変換に２通りの解釈が存在することが
分かる。この２つの文を前述の３つの手法で評価してみ
ると、文節数最小法…文節数は４でどちらも同じ左最長一致法…「彼が車で待つ。」接続コスト最小法…コストの付け方による「名詞＋助詞＞動詞＋助詞」なら「彼が来るまで待
つ。」「名詞＋助詞＜動詞＋助詞」なら「彼が車で待
つ。」となる。どの手法を採っても、経験則に依る所が大き
く、多種多様な状況を表現し得る自然言語を処理する場
合、誤解釈を導くことは避けられない。

【０００５】

【発明が解決しようとする課題】このような従来の方法
では、漢字仮名混じり表記であれば一意に英文を決定す
る事ができるが、べた書き表記の場合、前後の文脈情報
を用いない限り正解を導き出すのは難しいという課題を
有していた。また、文脈理解の技術は、実用化レベルに
達していないのが現状である。

【０００６】本発明は以上の課題を解決し、複数の解釈
（漢字変換候補）を有するべた書き文であっても、正し
い解釈を得ることができる日本語形態素解析方法及び日
本語形態素解析方法を提供することを目的とする。

【０００７】

【課題を解決するための手段】請求項１に記載の発明の
日本語形態素解析装置は、日本語文を文字列として入力
する入力手段と、日本語単語の読み、漢字表記、品詞情
報、及び形態素解析に必要な語彙情報を記憶した辞書群
と、前記入力手段より入力された文字列を前記辞書群を
参照してトークンに分割するトークン分割手段と、分割
したトークンが平仮名であった場合、それを漢字に変換
する漢字変換手段と、トークン分割及び漢字変換で曖昧
性が生じた場合、その候補を表示する表示手段と、表示
した候補の中から正解をユーザに指示してもらう指示手
段とを備える構成とした。

【０００８】そしてこの構成により、複数の解釈（漢字
変換候補）を有するべた書き文であっても、正しい解釈
を得ることができる日本語形態素解析方法及び日本語形
態素解析方法を実現できる。

【０００９】

【発明の実施の形態】請求項１の発明は、日本語文を文
字列として入力する入力手段と、日本語単語の読み、漢
字表記、品詞情報、及び形態素解析に必要な語彙情報を
記憶した辞書群と、前記入力手段より入力された文字列
を前記辞書群を参照してトークンに分割するトークン分
割手段と、分割したトークンが平仮名であった場合、そ
れを漢字に変換する漢字変換手段と、トークン分割及び
漢字変換で曖昧性が生じた場合、その候補を表示する表
示手段と、表示した候補の中から正解をユーザに指示し
てもらう指示手段とを備えた構成により、曖昧性を多く
含む仮名表記文の曖昧性を解消できる。

【００１０】請求項２の発明は、分割したトークンの前
後の接続関係を調べる接続チェック手段と、接続関係を
考慮した漢字変換候補をユーザに表示する手段とを備え
た構成により、正しい接続関係にあるものの漢字変換候
補のみをユーザに表示できる。

【００１１】請求項３の発明は、ユーザに曖昧性を表示
する場合、入力文の形態素解析が全て終了した後に文を
候補として表示する手段を備えた構成により、複数文が
まとまった文章を解析する場合に一括処理を行うことが
できる。

【００１２】請求項４の発明は、ユーザに曖昧性を表示
する場合、曖昧性が生じた時点で、トークン単位に候補
を表示する手段を備えた構成により、曖昧性が生じた時
点でその曖昧性を解決することができ、その結果をその
後の形態素解析に利用することで、効率よく解析を行う
ことができる。

【００１３】請求項５の発明は、日本語文を文字列とし
て入力するステップと、日本語単語の読み、漢字表記、
品詞情報、及び形態素解析に必要な語彙情報を記憶した
辞書群と、前記入力手段より入力された文字列を前記辞
書群を参照してトークンに分割するステップと、分割し
たトークンが平仮名であった場合、それを漢字に変換す
るステップと、トークン分割及び漢字変換で曖昧性が生
じた場合、その候補を表示するステップと、表示した候
補の中から正解をユーザに指示してもらうステップとを
含む構成により、曖昧性を多く含む仮名表記文の曖昧性
を解消できる。

【００１４】請求項６の発明は、分割したトークンの前
後の接続関係を調べるステップと、接続関係を考慮した
漢字変換候補をユーザに表示するステップとを含む構成
により、正しい接続関係にあるものの漢字変換候補のみ
をユーザに表示できる。

【００１５】請求項７の発明は、ユーザに曖昧性を表示
する場合、入力文の形態素解析が全て終了した後に文を
候補として表示するステップを含む構成により、複数文
がまとまった文章を解析する場合に一括処理を行うこと
ができる。

【００１６】請求項８の発明は、ユーザに曖昧性を表示
する場合、曖昧性が生じた時点で、トークン単位に候補
を表示するステップを含む構成により、曖昧性が生じた
時点でその曖昧性を解決することができ、その結果をそ
の後の形態素解析に利用することで、効率よく解析を行
うことができる。

【００１７】（実施の形態）以下、本発明の実施の形態
について、図面を参照しながら説明する。図１は、本発
明の一実施の形態における日本語形態素解析装置の機能
ブロック図、図２は同回路ブロック図、図３は同逐次型
の処理の流れを示した図、図４は同辞書検索の流れを示
した図、図５は同一括型の処理の流れを示した図、図６
は同辞書データの一例を示した図、図７は同接続テーブ
ルの一例を示した図、図８は同一括型の表示例を示した
図である。

【００１８】図１において、１は、ユーザからべた書き
文（平仮名のみの文）を入力してもらう入力部である。
２は、文字列をキーとして、その語彙情報が登録された
辞書群である。ここで用いる辞書データの一例を図６に
示す。図６に示したように、キーとなる文字列は、平仮
名表記とする。この辞書には、漢字表記情報とその漢字
表記に対する形態素情報が記憶されている。形態素情報
としては、「品詞」「活用型」「活用形」「接続情報」
が記憶されているものとし、漢字表記情報と形態素情報
を合わせて語彙情報と呼ぶ。更に、キーの次のデータ
は、同一仮名表記のデータ数を表す。ただし、同一表記
中、最初のエントリーのみ、データ数が記憶されてお
り、他は、０が記憶されているものとする。

【００１９】３は、平仮名文字列をキーとして、辞書群
２を検索する辞書検索部である。４は、辞書検索部３の
結果を用いてトークンを切り出すトークン分割部であ
る。５は、隣接するトークンの接続可否を定義した接続
テーブルである。接続テーブル５の一例を図７に示す。
接続テーブル５は、図７に示したように、配列構造をな
している。配列の行を後接情報と呼び、列を前接情報と
いう。辞書には、この前接情報（列の添字）と後接情報
（行の添字）が接続情報として登録されている。

【００２０】６は、トークン分割部４で切り出したトー
クンとそれに前接するトークンの接続可否を接続テーブ
ル５を参照してチェックする接続チェック部である。接
続テーブル５の見方は、前接トークンの後接情報と後接
トークンの前接情報の交わった個所が１ならば隣接する
トークンは接続可、０ならば接続付加である。７は、接
続チェック部６で接続可となった全てのトークンの辞書
データを参照して漢字表記に変換する漢字変換部であ
る。８は、漢字変換部７において取得した漢字候補をユ
ーザに示すトークン候補表示部である。９は、接続チェ
ック部６で接続可となった全てのトークンの辞書データ
を参照して漢字に変換し、図８に示すような構造（これ
を、トークンリストと呼ぶ）を構築するトークンリスト
作成部である。

【００２１】１０は、トークンリスト作成部９で作成し
た構造をユーザに示す漢字仮名混じり候補文表示部であ
る。１１は、トークン候補表示部８及び漢字仮名混じり
候補文表示部１０で表示した候補の中から正解をユーザ
に指示してもらうユーザ指示部である。１２は、トーク
ン分割部４、接続チェック部６、漢字変換部７、トーク
ン候補表示部８、トークンリスト作成部９、漢字仮名混
じり候補文表示部１０、及びユーザ指示部１１を制御
し、入力部１で入力された文の形態情報を出力する形態
素解析制御部である。１３は、入力部１、形態素解析制
御部１２を制御する制御部である。１４は、入力部１で
入力された文、辞書検索部３の検索結果、トークン分割
部４で分割されたトークンデータ、漢字変換部７及びト
ークンリスト作成部９で作成したデータ、ユーザ指示部
１１でユーザより指示された正解情報、形態素解析制御
部１２における解析結果を記憶する記憶部である。

【００２２】図２は、日本語形態素解析装置の回路ブロ
ック図である。２１は、キーボード（マウスを含む）で
ある。２２は、陰極線管ディスプレイ（以下、ＣＲＴ）
である。２３は、中央処理装置（以下、ＣＰＵ）であ
る。２４は、ランダムアクセスメモリ（以下、ＲＡＭ）
である。２５は、制御プログラムなどを記憶するリード
オンリーメモリ（以下、ＲＯＭ）である。入力部１及び
ユーザ指示部１１は、キーボード２１により、トークン
候補表示部８及び漢字仮名混じり候補文表示部１０は、
ＣＲＴ２２により、記憶部１４は、ＲＡＭ２４により実
現されている。接続テーブル５は、ＲＯＭ２５に、辞書
群２は、ＲＡＭ２４、ＲＯＭ２５、２次記憶装置のいず
れかに記憶されている。辞書検索部３、トークン分割部
４、接続チェック部６、漢字変換部７、トークンリスト
作成部９、形態素解析制御部１２、制御部１３は、ＣＰ
Ｕ２３がＲＡＭ２４、および、ＲＯＭ２５とデータのや
りとりを行いながら、ＲＯＭ２５に記憶されたプログラ
ムを実行することにより実現されている。

【００２３】以上のように構成された本実施の形態の日
本語形態素解析装置について、以下その動作を図３、図
４、図５のフローチャートに基づいて説明する。

【００２４】図３は、トークン分割、及び、漢字変換で
曖昧性が生じる毎にその曖昧性を表示し、ユーザに正解
を指示してもらう処理の流れを示したものである。まず
ステップＳ１では、入力部１より日本語文を１文単位に
入力する。ここでは、仮名のみの文（べた書き文）「か
れがくるまでまつ。」が入力されたものとする。

【００２５】ステップＳ２では、処理中の文の位置（文
字番号）を示す変数ｐｏｓの初期化を行う。先頭文字
「か」の文字番号は０とする。ステップＳ３では、ｐｏ
ｓが入力文字数（ここでは、１０）に達したか否かをチ
ェックし、達していなければステップＳ４へ移り、達し
ていれば１文の形態素解析処理を終わる。

【００２６】ステップＳ４では、辞書の検索を行う。辞
書検索処理を図４に示す。まずステップＤ１では、変数
ｄｉｃに辞書の最初のデータを読み込む。また、検索さ
れた辞書データの件数をカウントする変数ｄＮｕｍに０
を格納する。ステップＤ２では、辞書データが存在する
か否かをチェックし、存在すればステップＤ３へ移り、
存在しなければ辞書検索処理を終える。辞書検索処理を
終えるとき、辞書検索部３は、トークン分割部４に検索
された辞書データとデータ数（ｄＮｕｍ）を返す。

【００２７】ステップＤ３では、ｄｉｃに読み込まれた
辞書データの見出しの長さを求め、変数ｌｅｎに格納す
る。ステップＤ４では、入力文字列の文字位置ｐｏｓか
らｌｅｎ文字分の文字列と辞書見出しを比較する。次に
ステップＤ５では、ステップＤ４の比較の結果をチェッ
クし、一致していればステップＤ６へ移り、一致してい
なければステップＤ８へ移る。

【００２８】ステップＤ６では、トークン分割部４に渡
す検索結果を格納する領域ｒｅｓｕｌｔに一致した辞書
データを追加し、ステップＤ７で検索データ数のカウン
ターｄＮｕｍを１増やす。ステップＤ８では、ｄｉｃに
次の辞書データを読み込み、ステップＤ２に戻る。

【００２９】最初の辞書検索処理では、ｐｏｓは０、辞
書見出しは「か」であり、入力文の文字位置０から１文
字分の「か」と辞書見出しは一致する。ここでは、辞書
の最初のデータから３番目までのデータが一致すること
になる。ステップＳ５では、辞書検索部３の結果を受け
て、一致する見出しが検索されたか否かチェックし、検
索されていればステップＳ６へ移り、検索されていなけ
ればステップＳ１４で解析エラーを通知して形態素解析
処理を終える。

【００３０】ステップＳ６では前接トークンとの接続チ
ェックを行う。文頭の時は、文頭になり得る品詞とそう
でないものがある。今、辞書検索の結果、「か」（蚊） −名詞「か」 −助詞「かれ」（彼）−名詞の３つが得られたが、助詞は文頭になり得ない品詞であ
るので、ここでの候補は、「蚊」と「彼」の２つとな
る。ｐｏｓが３の場合を例に接続テーブルを用いた接続
チェックを説明する。この時、直前のトークンは「が」
−助詞であり、このトークンの後接情報は０である。ス
テップＳ４の辞書検索では、以下の５個のデータが検索
された。それぞれについて接続可否をチェックする。

【００３１】１．「くる」（繰る）−動詞の終止形、
前接情報：２接続テーブルの０行２列は１で接続可。

【００３２】２．「くる」（繰る）−動詞の連体形、
前接情報：２接続テーブルの０行２列は１で接続可。

【００３３】３．「くる」（来る）−動詞の終止形、
前接情報：２接続テーブルの０行２列は１で接続可。

【００３４】４．「くる」（来る）−動詞の連体形、
前接情報：２接続テーブルの０行２列は１で接続可。

【００３５】５．「くるま」（車）−名詞、前接情
報：１接続テーブルの０行１列は１で接続可。

【００３６】ステップＳ７では、接続可となるものが複
数存在するか否かチェックし、複数であればステップＳ
８へ、複数でなければステップＳ１０へ移る。ここで
は、全て接続可となったので、ステップＳ８で、５候補
全てを表示し、ステップＳ９でユーザから正解を指示し
てもらう。

【００３７】ステップＳ１０では、接続可が１つか否か
チェックし、１つであればステップＳ１１へ移り、１つ
でない（１つもない）場合はステップＳ１４で解析エラ
ーを通知して形態素解析処理を終わる。ステップＳ１１
では、ユーザから指示されたトークン、又は、接続チェ
ックで唯一接続可であったトークンを解析結果として記
憶部１４に記憶する。ステップＳ１２では、前接トーク
ンの後接情報を記憶する変数ｃｏｎに解析結果として記
憶したトークンの後接情報を記憶する。

【００３８】ステップＳ１３では、ｐｏｓを１増やし、
ステップＳ３に戻る。図５は、文の解析が全て終了した
後、文単位に候補を表示し、ユーザに正解を指示しても
らう処理の流れを示したものである。図５のステップＴ
１〜Ｔ４は、図３のステップＳ１〜Ｓ４と同様である。

【００３９】ステップＴ５では、辞書検索の結果を受け
て、検索されたトークンと前接トークンとの接続チェッ
クを行う。接続チェックの方法は図３のステップＳ６と
同様であるが、ここでは、前接トークンが後接トークン
（辞書検索されたトークン）のいずれとも接続不可の場
合、その前接トークンを解析結果から削除するという処
理を施す。例えば、ｐｏｓが５の場合、前接トークン
は、「くる」（繰る）−動詞の終止形、後接情報：２「くる」（繰る）−動詞の連体形、後接情報：４「くる」（来る）−動詞の終止形、後接情報：２「くる」（来る）−動詞の連体形、後接情報：４の４つであり、後接トークン候補は、「まで」−助詞、前接情報：３の１つである。それぞれの接続可否をチェックすると、
接続テーブルの２行３列は１で接続可、４行３列は０で
接続不可となり、４つの前接トークンのうち、「くる」（繰る）−動詞の連体形、後接情報：４「くる」（来る）−動詞の連体形、後接情報：４は、解析結果から削除することになる。

【００４０】次にステップＴ６では、接続可のトークン
の存在をチェックし、接続可のトークンが存在すればス
テップＴ７へ移り、存在しなければステップＴ１３で解
析エラーを通知して形態素解析処理を終わる。ステップ
Ｔ７では、接続可となったトークンを図８に示したトー
クンリストに追加する。

【００４１】ステップＴ８からＴ１１では、接続可とな
ったトークンの後接情報を配列ｃｏｎに格納する。ま
す、ステップＴ８で、カウンターｉに０を格納する。次
に、ステップＴ９で、ｉが接続可のトークン数を超えた
か否かチェックし、超えていなければステップＴ１０
へ、超えていればステップＴ１２へ移る。ステップＴ１
０では、ｉ番目の接続可トークンの後接情報をｃｏｎの
ｉ番目に格納する。ステップＴ１１でカウンターｉを１
増やし、ステップＴ９へ戻る。ステップＴ１２では、カ
ウンターｐｏｓを１増やし、ステップＴ３へ戻る。最後
に、ステップＴ１４で解析結果（トークンリスト）を表
示し、正しいパスをユーザに指示してもらう。

【００４２】このような方法で、形態素解析を行うこと
により、複数の解釈（漢字変換候補）を有するべた書き
文であっても、正しい解釈を得ることができる。

【００４３】また、ここでは、仮名のみの文に限って説
明してきたが、漢字仮名混じり文の一部の平仮名表記に
対しても同様の手法を取り入れることができる。

【００４４】

【発明の効果】以上のように本発明によれば、複数の解
釈（漢字変換候補）を有するべた書き文であっても、正
しい解釈を得ることができる日本語形態素解析方法及び
日本語形態素解析方法を実現することができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態における日本語形態素解
析装置の機能ブロック図

【図２】本発明の一実施の形態における日本語形態素解
析装置の回路ブロック図

【図３】本発明の一実施の形態における日本語形態素解
析装置の逐次型の処理のフローチャート

【図４】本発明の一実施の形態における日本語形態素解
析装置の辞書検索のフローチャート

【図５】本発明の一実施の形態における日本語形態素解
析装置の一括型のフローチャート

【図６】本発明の一実施の形態における日本語形態素解
析装置の辞書データの一例を示した図

【図７】本発明の一実施の形態における日本語形態素解
析装置の接続テーブルの一例を示した図

【図８】本発明の一実施の形態における日本語形態素解
析装置の一括型の表示例を示した図

【符号の説明】

１入力部２辞書群３辞書検索部４トークン分割部５接続テーブル６接続チェック部７漢字変換部８トークン候補表示部９トークンリスト作成部１０漢字仮名混じり候補文表示部１１ユーザ指示部１２形態素解析制御部１３制御部１４記憶部２１キーボード２２ＣＲＴ２３ＣＰＵ２４ＲＡＭ２５ＲＯＭ

Claims

【特許請求の範囲】

【請求項１】日本語文を文字列として入力する入力手段
と、日本語単語の読み、漢字表記、品詞情報、及び形態
素解析に必要な語彙情報を記憶した辞書群と、前記入力
手段より入力された文字列を前記辞書群を参照してトー
クンに分割するトークン分割手段と、分割したトークン
が平仮名であった場合、それを漢字に変換する漢字変換
手段と、トークン分割及び漢字変換で曖昧性が生じた場
合、その候補を表示する表示手段と、表示した候補の中
から正解をユーザに指示してもらう指示手段とを備えた
ことを特徴とする日本語形態素解析装置。
【請求項２】分割したトークンの前後の接続関係を調べ
る接続チェック手段と、接続関係を考慮した漢字変換候
補をユーザに表示する手段とを備えたことを特徴とする
請求項１記載の日本語形態素解析装置。
【請求項３】ユーザに曖昧性を表示する場合、入力文の
形態素解析が全て終了した後に文を候補として表示する
手段を備えたことを特徴とする請求項１または２記載の
日本語形態素解析装置。
【請求項４】ユーザに曖昧性を表示する場合、曖昧性が
生じた時点で、トークン単位に候補を表示する手段を備
えたことを特徴とする請求項１または２記載の日本語形
態素解析装置。
【請求項５】日本語文を文字列として入力するステップ
と、日本語単語の読み、漢字表記、品詞情報、及び形態
素解析に必要な語彙情報を記憶した辞書群と、前記入力
手段より入力された文字列を前記辞書群を参照してトー
クンに分割するステップと、分割したトークンが平仮名
であった場合、それを漢字に変換するステップと、トー
クン分割及び漢字変換で曖昧性が生じた場合、その候補
を表示するステップと、表示した候補の中から正解をユ
ーザに指示してもらうステップとを含むことを特徴とす
る日本語形態素解析方法。
【請求項６】分割したトークンの前後の接続関係を調べ
るステップと、接続関係を考慮した漢字変換候補をユー
ザに表示するステップとを含むことを特徴とする請求項
５記載の日本語形態素解析方法。
【請求項７】ユーザに曖昧性を表示する場合、入力文の
形態素解析が全て終了した後に文を候補として表示する
ステップを含むことを特徴とする請求項５または６記載
の日本語形態素解析方法。
【請求項８】ユーザに曖昧性を表示する場合、曖昧性が
生じた時点で、トークン単位に候補を表示するステップ
を含むことを特徴とする請求項５または６記載の日本語
形態素解析方法。