JP3939264B2

JP3939264B2 - 形態素解析装置

Info

Publication number: JP3939264B2
Application number: JP2003080537A
Authority: JP
Inventors: 秀樹山本; さより下畑; 美穂子北村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-03-24
Filing date: 2003-03-24
Publication date: 2007-07-04
Anticipated expiration: 2018-03-04
Also published as: JP2003296323A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された自然言語文を形態素（例えば単語）に分割する形態素解析装置に関し、特に、解析処理時間及び又は解析精度を従来より向上させようとしたものである。
【０００２】
【従来の技術】
【０００３】
【特許文献１】
特開平５−５２５４３号公報
【０００４】
【非特許文献１】
山本幹雄、増山正和著、「品詞・区切り情報を含む拡張文字の連鎖確率を用いた日本語形態素解析」、言語処理学会第３回年次大会発表論文集、１９９７年３月
ワードプロセッサによるテキスト作成機会の増大や、インターネット対応機器の普及により、大量の電子化された自然言語文が容易に入手可能となってきた。文字認識システム、機械翻訳システム、情報検索システム、情報抽出システム等の大量の自然言語文を扱う自然言語処理システムにとって、形態素解析処理は、各種システムが目的とする専門処理を実施する前に共通して実施され、単語や句等の文中の意味単位である形態素を確定する極めて重要な処理である。
【０００５】
このような形態素解析処理においては、単語分割（形態素分割）の精度の高さが要求されるとともに、大量の自然言語文を高速に処理するという処理速度も要求される。
【０００６】
従来の形態素解析方法としては、形態素辞書（単語辞書）や活用語尾テーブルや品詞別接続テーブル等を備え、これら各種の記憶部をアクセスしながら形態素解析を行うのが一般的であった（特許文献１参照）。
【０００７】
また、最近になって、文字をベースとした確率モデルを利用した形態素解析方法も提案されている（非特許文献１、並びに、特願平９−６８３００号明細書及び図面参照）。
【０００８】
この形態素解析方法は、自然言語テキストが入力文として与えられたときに、この入力文を構成する形態素列として、各文字の直後が形態素境界であるか否かのあらゆる組み合わせの中から最も確からしい形態素列の並びを出力させるものである。
【０００９】
そして、最も確からしい形態素列の並びか否かを判断させるために、大量のテキストデータ（コーパス；学習データ）から学習させた確率モデル（統計データベース；解析実行時データのデータベース）を用いる。統計データベースに格納されている１組の解析実行時データは、例えば、文字数Ｎの拡張文字列、及び、その拡張文字列がコーパス上にどの程度の割合で出現するかを表す連鎖確率のデータである。なお、拡張文字とは、「私」、「は」等の通常の文字とは異なり、このような文字に対して、少なくとも形態素区切り情報（この文字の直後が形態素区切りか否か）を含む拡張情報を付加したものである。
【００１０】
【発明が解決しようとする課題】
（１）形態素辞書を用いる従来では一般的であった形態素解析方法は、入力段階では長さが不明な形態素を定めるように形態素辞書を引くものであるので、形態素辞書を引く回数が非常に多くなって辞書引きにかなりの時間がかかり、大量の文書を短い時間で処理することはできなかった。すなわち、利用者は、形態素解析結果を迅速には得ることができない。以下、場合によっては、この種の形態素解析を低速形態素解析と呼ぶこととする。
【００１１】
（２）これに対して、文字をベースとした確率モデル（統計データベース）を利用した形態素解析方法は、入力文から定まる所定文字数（Ｎ）の拡張文字列を統計データベースの格納内容と照合して形態素解析を行うことを基本とするので、上記の形態素解析方法（低速形態素解析方法）に比較して形態素解析結果を高速に得ることができる。
【００１２】
しかし、この形態素解析方法においては、事前にパラメータ（統計データ；解析実行時データ）を学習して作成しておく必要があり、そのための学習データ（コーパス）を用意するのが大変であった。以下、場合によっては、この種の形態素解析を高速形態素解析と呼ぶこととする。
【００１３】
必要な学習データ（コーパス）は、上述した拡張文字列及びその連鎖確率でなる統計データを算出できるものであるので、形態素の区切り箇所の情報（及びその形態素の品詞情報）等をテキストファイルに付加したものである。テキストファイルは入手し易いが、それに上述した情報を付加したファイルは、現状ではほとんどなく、テキストファイルに人間が上述した情報を一つ一つ付加して学習に用いられる学習データ（コーパス）を作成していた。又は、低速形態素解析の結果に対して、人手で修正を加えて、学習に用いられる学習データ（コーパス）を作成していた。
【００１４】
高速形態素解析において、以上のような学習データを用意して統計データベースを作成しても、事前に用意した学習データにない文字列に対しては、正しく解析することはできない。低速形態素解析においても、勿論、辞書に入っていない形態素（未知語）からなる文字列に対しては、正しく解析できないが、通常形態素解析用の辞書には、数万から数十万語の辞書を用いているので、正しく解析できない文字列（未知語）に出会うことは少ない。仮に、低速形態素解析の辞書にある形態素を全て適当な頻度で含んだ学習データを用意することができて、それを用いて高速形態素解析を学習することができれば原理的には、低速形態素解析と高速形態素解析は、ほぼ同じ精度で解析できる。すなわち、正しく解析できない文字列は同じになるといえる。
【００１５】
しかしながら、低速形態素解析の辞書にある形態素を全て適当な頻度で含んだ学習データを用意することは現実的に不可能である。その結果、高速形態素解析においては、学習データになかった形態素が出現する文章の解析精度は、低速形態素解析よりも劣ってしまう。
【００１６】
（３）高速形態素解析の利用者が、その形態素解析方法が採用している学習データがどのような形態素から構成されていたかを知る方法がない場合は、利用者としては一つ一つの文章の解析結果を見て、高速解析結果の精度が悪いと判断したときには、その文章にだけ低速形態素解析を使うようにするか、あるいはその文章だけ人手で修正するかどちらかの方法をとらざるを得ない。
【００１７】
形態素解析したい文章が様々な分野にわたっている場合は、一つ一つ解析結果をチェックするのは面倒な作業であり、もし、チェックをしないとすると、高速形態素解析を利用した場合の全体としての精度は悪くなってしまう。
【００１８】
形態素解析したい文章が様々な分野にわたっている例としては、インターネット上の様々なＷＷＷサーバ上の文書ファイルを形態素解析して出現する形態素の頻度を調べて、検索サービス用のインデックスファイルを作るために形態素解析を利用する場合などがある。
【００１９】
（４）ところで、精度の悪かった高速形態素解析の結果に対して、人手でチェックした後、そのデータを統計データベースに反映させる（フィードバックさせる）ことも考えられる。
【００２０】
このようにすると、反映処理後は、その分野と同じ分野の文章に対しては同程度の精度で解析することが可能になるが、人手によるチェックという作業はなくなる訳ではないので、面倒である。
【００２１】
そのため、平均的に見て、高精度の形態素解析結果を得られるまでの時間が短い形態素解析装置が求められている。
【００２２】
【課題を解決するための手段】
かかる課題を解決するために、本発明は、自然言語文に現れる所定文字数でなる部分文字列とその絶対的又は相対的な頻度情報と、上記部分文字列の各文字に対して付与されたその文字が形態素の最終文字か否かの区切り位置の情報とを少なくとも含む組データである解析実行時データを多数格納している解析実行時データ格納手段と、未知文章に対して、上記解析実行時データ格納手段の格納内容を参照して形態素解析を実行する第１の形態素解析手段とを有する形態素解析装置において、以下のようにしたことを特徴とする。すなわち、上記未知文章に対して上記第１の形態素解析手段が適用した上記解析実行時データ格納手段に格納されている中の上記解析実行時データにおける頻度情報が閾値より小さいとき、及び又は、上記解析実行時データ格納手段に格納されている上記解析実行時データを適用し得ない部分を上記未知文章が有するときに、上記第１の形態素解析手段からの形態素解析結果の精度を低精度と推測する精度判定手段、又は、上記未知文章の全体又は部分の中で特定文字種の文字が所定文字数以上つながっているときに、上記第１の形態素解析手段からの形態素解析結果の精度を低精度と推測する精度判定手段、又は、上記未知文章の全体又は部分の中で特定文字種の文字が所定文字数以上含まれているときに、上記第１の形態素解析手段からの形態素解析結果の精度を低精度と推測する精度判定手段を有することを特徴とする。
【００２３】
【発明の実施の形態】
（Ａ）第１の実施形態
以下、本発明による形態素解析装置の第１の実施形態を図面を参照しながら詳述する。
【００２４】
この第１の実施形態の形態素解析装置は、基本的には、入力文を高速形態素解析方法で解析するものであり、低速な形態素解析の結果を高速な形態素解析の学習データに自動的に変換する学習機能を持つことによって、これまで学習データとしていなかった文章を容易に学習データとして使用することができるようにしたことを大きな特徴としているものである。
【００２５】
図１は、第１の実施形態の形態素解析装置の構成を示す機能ブロック図である。すなわち、第１の実施形態の形態素解析装置は、実際上、入出力装置や処理装置や記憶装置（や通信装置）等を有するワークステーションやパソコン等の情報処理装置上に実現されるものであるが、機能的には、図１に示す構成を有するものである。
【００２６】
図１において、この第１の実施形態の形態素解析装置１０は、低速形態素解析手段１１、低速形態素解析結果格納手段１２、変換手段１３、学習データ格納手段１４、学習手段１５、解析実行時データ格納手段１６及び高速形態素解析手段１７を有している。これらの構成要素のうち、低速形態素解析手段１１、低速形態素解析結果格納手段１２、変換手段１３、学習データ格納手段１４及び学習手段１５が、第１の実施形態の解析実行時データ作成装置を構成している。
【００２７】
低速形態素解析手段１１は、詳細構成の図示は省略するが、内蔵する形態素辞書を利用して形態素解析を行う従来の低速形態素解析装置と同様な構成を有するものである。すなわち、上述した特許文献１に記載されている形態素解析装置やそれに類似した装置と同様な詳細構成を有する。この第１の実施形態の場合、低速形態素解析手段１１は、未知文書中の各文を形態素解析するものとして設けられているのではなく、解析実行時データ格納手段１６に格納させる解析実行時データを作成する構成中の一要素として設けられている。この低速形態素解析手段１１には、学習用文書が入力される。なお、図１において、学習用文書と記載されているブロックは、学習用文書の入力手段をも意味している。
【００２８】
低速形態素解析結果格納手段１２は、低速形態素解析手段１１が学習用文書の各文に対して実行した低速形態素解析結果を格納するものである。
【００２９】
変換手段１３は、低速形態素解析結果格納手段１２に格納されている低速形態素解析結果のデータ形式を、高速形態素解析装置が必要とする学習データとしてのデータ形式に変換するものである。
【００３０】
学習データ格納手段１４は、変換手段１３が変換して得た学習データ（コーパス）を格納するものである。
【００３１】
学習手段１５は、学習データ格納手段１４に格納されている学習データから、高速形態素解析手段１７が未知文章の形態素解析時に参照する解析実行時データを作成するものである。すなわち、例えば、学習データ上に現れる所定文字数Ｎの拡張文字列、及び、その拡張文字列が学習データ上にどの程度の割合で出現するかを表す連鎖確率でなる解析実行時データ（統計データ）を、学習データから作成するものである。学習データから解析実行時データを作成する方法としては、非特許文献２、並びに、特願平９−３５０６５１号明細書及び図面に記載の方法を適用できる。
【００３２】
【非特許文献２】
長尾眞、森信介著、「大規模日本語テキストのｎグラム統計の作り方と語句の自動抽出」、情報処理学会研究報告自然言語処理９６−１、１９９３年７月
解析実行時データ格納手段（統計データベース）１６は、学習手段１５によって作成された解析実行時データを格納するものである。後述する図１１は、解析実行時データ格納手段（統計データベース）１６に格納された一部の解析実行時データ（Ｎが３の場合）を示している。なお、解析実行時データの連鎖確率は、例えば、先頭側のＮ−１文字が同一の複数の文字数Ｎの拡張文字列の連鎖確率の総和が１になるように定められる。
【００３３】
高速形態素解析手段１７は、形態素解析対象の未知文書又は未知文章が与えられたときに、各文章に対して、解析実行時データ格納手段１６の格納内容を参照して形態素解析を実行し、得られた形態素解析結果を出力するものである。高速形態素解析手段１７は、例えば、上述した非特許文献１や、特願平９−６８３００号明細書及び図面に記載された構成、又はそれに類似した構成により実現される。
【００３４】
図示は省略するが、高速形態素解析手段１７の詳細構成例を挙げると以下の通りである。すなわち、高速形態素解析手段１７は、スコアテーブル１７ａ、拡張文字列生成部１７ｂ、連鎖確率計算部１７ｃ、及び、最適経路探索部１７ｄを有する。
【００３５】
スコアテーブル１７ａは、解析対象の未知文章の文頭から文末までの全ての拡張文字列の経路と、解析実行時データ格納手段１６に格納されている所定文字数の拡張文字列の連鎖確率とに基づき、求められた拡張文字列の経路に対応する連鎖確率を格納するものである。拡張文字列生成部１７ｂは、解析対象の未知文章についての拡張文字を生成し、当該拡張文字の組み合わせ（経路）の全てをスコアテーブル１７ａに格納させるものである。連鎖確率計算部１７ｃは、解析実行時データ格納手段１６に格納されている連鎖確率に基づき、スコアテーブル１７ａに格納されている拡張文字列の各経路に対する連鎖確率を計算するものである。最適経路探索部１７ｄは、連鎖確率計算部１７ｃにより計算された連鎖確率の中から、最適な条件（例えば最大値の連鎖確率を与えるなど）を満たす拡張文字列を、最適拡張文字列（形態素解析結果）として選択するものである。
【００３６】
なお、図１において、未知文書と記載されているブロックは、未知文書の入力手段をも意味しており、形態素解析結果と記載されているブロックは、形態素解析結果の出力手段をも意味している。
【００３７】
次に、この第１の実施形態の形態素解析装置１０の処理の概要を図２のフローチャートを参照しながら詳述する。なお、第１の実施形態の形態素解析装置１０の処理は、未知文書の形態素解析を実行させるための準備段階の処理と、未知文書の形態素解析を実行する処理とに分かれ、図２におけるステップ１００〜１０２が前者の処理に対応し、ステップ１０３が後者の処理に対応している。
【００３８】
学習用文書が当該形態素解析装置１０に入力されると、形態素辞書を利用する低速形態素解析手段１１によって入力された学習用文書が形態素解析され、その形態素解析結果が低速形態素解析結果格納手段１２に書き込まれる（ステップ１００）。
【００３９】
このとき、格納される形態素解析結果のデータ形式は、当然に、低速形態素解析手段１１による出力データ形式である。このような低速形態素解析結果が、変換手段１３によって、高速形態素解析手段１７が利用する解析実行時データを作成させる元となる学習データのデータ形式に変換され、学習データ格納手段１４に格納される（ステップ１０１）。
【００４０】
そして、この学習データが、学習手段１５によって処理されて解析実行時データが作成され、作成された解析実行時データが解析実行時データ格納手段１６に格納される（ステップ１０２）。
【００４１】
以上のような高速形態素解析処理の準備段階の処理が終了した後において、未知文書が入力されると、その未知文書の各文章に対し、高速形態素解析手段１７が、解析実行時データ格納手段１６の格納内容を参照しながら形態素解析し、得られた形態素解析結果を出力する（ステップ１０３）。
【００４２】
図３は、低速形態素解析手段１１に入力される学習用文書の一例を示している。図３に示すように、学習用文書は、拡張情報やタグを伴うことがない自然言語テキストデータになっている。
【００４３】
適用している低速形態素解析手段１１の内部構成にもよってその出力データ形式（形態素解析結果データ形式）は異なる。図４は、図３の第１文目を低速形態素解析した結果の出力例（出力データ形式例）を示している。図４の各行は一つの単語の情報を示している。1つの単語の情報は空白で区切られた３つの情報からなり、それぞれ品詞、標準形、出現形である。活用しない名詞などの場合は標準形と活用形は同じになる。
【００４４】
図５は、図３に対応した学習データの例を示している。図４に例示したような低速形態素解析結果のデータを、この図５に示すような学習データに変換手段１３は変換する。
【００４５】
図５に示した例は、解析実行時データが、文字数Ｎの拡張文字列と、その拡張文字列がコーパス上にどの程度の割合で出現するかを表す連鎖確率のデータとでなり、しかも、拡張文字が、「私」、「は」等の通常の文字に対して形態素区切り情報を拡張情報として付加したものである場合に対応した例である。なお、拡張情報として、形態素区切り情報に加えて品詞情報を含むものは、図５の形式とは異なるものとなる。
【００４６】
図５（Ａ）は、前接する文字との間が形態素の区切りになる場合を「１」で、そうでない場合を「０」で表した拡張文字列で、形態素の境界（区切り）を表した例を示している。図５（Ｂ）は、図５（Ａ）と同じ内容を、形態素区切りをスラッシュ（／）で表した例である。
【００４７】
図６は、変換手段１３による変換処理の流れの一例を示すフローチャートである。なお、図６は、変換後のデータ形式が図５（Ａ）に示すような場合に対応したものである。
【００４８】
まず、低速形態素解析結果格納手段１２に、変換処理が終了していない低速形態素解析結果が残っているか否かを確認する（ステップ２００）。残っていないならば、一連の変換処理を終了する。
【００４９】
これに対して、低速形態素解析結果格納手段１２に、未処理の低速形態素解析結果が残っているならば、未処理の低速形態素解析結果を１文分だけ読み出す（ステップ２０１）。そして、読み出した低速形態素解析結果から、出現形の項目を抜き出し（ステップ２０２）、各出現形の文字をそれぞれ拡張文字に変換して拡張文字列を作成する（ステップ２０３）。そして、得られた拡張文字列を、学習データ格納手段１４に格納して上述したステップ２００に戻る（ステップ２０４）。
【００５０】
ここで、拡張文字への変換は、出現形の最後の文字だけに形態素区切りであることを表す「１」を付与し、それ以外の文字には、形態素区切りでないことを表す「０」を付与する。例えば、図７に示すように、出現形が「機械翻訳」であれば、それに対する拡張文字列として、＜機，０＞＜械，０＞＜翻，０＞＜訳，１＞が得られる。
【００５１】
上記第１の実施形態によれば、低速形態素解析結果を、高速形態素解析方法が解析時に用いる解析実行時データの作成用学習データに自動的に変換する学習機能を持たせたので、これまで学習データとしていなかった文章を容易に学習データとして使用することができる、基本的に高速形態素解析方法に従っている形態素解析装置を実現できる。その結果、学習データの充実を計ることができ、未知文書に対する高速形態素解析結果の精度向上も期待できる。
【００５２】
また、低速形態素解析結果を学習データに自動的に変換する学習機能を持たせたので、利用者は学習用文書を当該装置に入力する操作を行うだけで良く、学習用文書から学習データを作成したり、低速形態素解析結果から学習データを作成したりすることを不要にすることができる。
【００５３】
（Ｂ）第２の実施形態
次に、本発明による形態素解析装置の第２の実施形態を図面を参照しながら詳述する。
【００５４】
この第２の実施形態の形態素解析装置は、高速形態素解析結果の精度の良否を弁別し、良くない場合には、そのことを明らかにした結果を利用者に提示し、利用者に精度が低い場合の判断を委ねるようにしたことを大きな特徴としているものである。
【００５５】
図８は、この第２の実施形態の形態素解析装置１０Ａの機能的構成を示すブロック図であり、上述した第１の実施形態に係る図１との同一、対応部分には同一符号を付して示している。
【００５６】
図８において、第２の実施形態の形態素解析装置１０Ａは、解析実行時データ格納手段１６、高速形態素解析手段１７、精度判定手段１８及び精度・解析結果合成手段１９を備える。
【００５７】
なお、解析実行時データ格納手段１６に格納する解析実行時データの作成方法が第１の実施形態と同様である場合には、図示は省略しているが、低速形態素解析手段１１、低速形態素解析結果格納手段１２、変換手段１３、学習データ格納手段１４及び学習手段１５も備える（図１参照）。これら構成要素についての説明は省略する。
【００５８】
また、解析実行時データ格納手段１６及び高速形態素解析手段１７は、第１の実施形態のものと同様であるので、その機能説明は省略する。
【００５９】
この第２の実施形態で新たに設けられた精度判定手段１８は、高速形態素解析手段１７が解析実行時データ格納手段１６に所望する解析実行時データを検索した際の検索結果に基づいて、高速形態素解析手段１７から得られる形態素解析結果における精度が低いと思われる文字列を判定するものである。このような精度判定結果は、精度・解析結果合成手段１９に与えられる。
【００６０】
解析実行時データは、非特許文献１や、特願平９−６８３００号明細書及び図面にも記載されているように、また、第１の実施形態で説明したように、学習データから作成される。学習データに現れた文字列に対応した解析実行時データは存在するが、当然に、学習データに現れない文字列に対応した解析実行時データは存在しない。学習データに現れた文字列に対応した解析実行時データであっても、その出現頻度によって、連鎖確率の値は変化する。
【００６１】
従って、未知文書を高速形態素解析しようとして解析実行時データ格納手段１６をアクセスした場合において、該当文字列が存在しない部分や存在してもその連鎖確率が低い部分等は、高速形態素解析結果におけるその部分の精度は、他の部分より低いということができる。精度判定手段１８は、解析実行時データ格納手段１６に対するアクセスを通じて、このような低精度部分の判定を行うものである。
【００６２】
精度・解析結果合成手段１９には、精度判定手段１８から精度判定結果が与えられると共に、高速形態素解析手段１７から形態素解析結果が与えられる。精度・解析結果合成手段１９は、これらの入力情報を合成し、精度判定手段１８が精度が不十分であると判断した文字列を明示して形態素解析結果を利用者に提示するものである。
【００６３】
以上のように機能ブロック化できる、第２の実施形態の形態素解析装置１０Ａの全体処理の流れの一例を、図９のフローチャートを参照しながら詳述する。
【００６４】
なお、図９は、未知文書中のある１文に対する処理を示している。また、図９の処理例では、低精度文字列部分の特定を、解析実行時データ格納手段１６に該当文字列が存在しないことを１要件としている。さらに、精度カウンタを装置１０Ａ（精度判定手段１８）が内蔵しているとして説明する。この精度カウンタは、初期値が０である一時メモリである。さらにまた、装置１０Ａ（精度判定手段１８）が、低精度文字列のバッファメモリも内蔵しているとして説明する。
【００６５】
入力文における文字位置ポインタを備え、このポインタが示す文字位置から始まるＮ文字の文字列を読み込む（ステップ３００）。そして、この読み込み処理で文字列が読み込めなかったか否かに基づいて、最終番目の文字列の読み込み、それに続く処理が既に終了しているか否かを判定する（ステップ３０１）。
【００６６】
終了していない場合には、読み込んだ文字列に基づいて検索文字列を作成して解析実行時データ格納手段１６を検索し、検索文字列が解析実行時データ格納手段１６に存在したか否かを判定する（ステップ３０２、３０３）。
【００６７】
ここで、作成される検索文字列は一般に複数組である。例えば、解析実行時データ格納手段１６に図１１に示すような拡張文字列の解析実行時データが格納されているので、Ｎ（例えば３）文字の読み込み文字列のそれぞれの文字を２種類の拡張文字に置き換え、入力文字列の各文字についての２種類の拡張文字の全ての組み合わせがそれぞれ、検索文字列となるので、作成される検索文字列は一般には、２のＮ乗組だけ存在する。ステップ３０３の判定で検索文字列が存在しないとする場合は、「全て」の検索文字列が存在しない場合であり、２のＮ乗組のうちの１組の検索文字列でも解析実行時データ格納手段１６に存在する場合には、ステップ３０３の判定では存在するとする。
【００６８】
ステップ３０３の判定結果、検索文字列が存在しないという結果を得たときには、精度カウンタの値を１インクリメントし、今回の読み込み文字列を低精度文字列格納領域に格納して後述するステップ３０９に移行する（ステップ３０４、３０５）。
【００６９】
一方、ステップ３０３の判定結果、検索文字列が解析実行時データ格納手段１６に存在していた場合には、その時点での精度カウンタの値が閾値以下であるか否かを判定する（ステップ３０６）。なお、閾値は、Ｎの値に応じて定められるものであるが、例えば、Ｎが３であれば１ぐらいが適当である。
【００７０】
ここで、肯定結果が得られたときには、精度カウンタの値を０クリアすると共に、低精度文字列格納領域に格納されていた低精度文字列もクリアして後述するステップ３０９に移行する（ステップ３０７）。これに対して、検索文字列が解析実行時データ格納手段１６に存在しており、しかも、その時点での精度カウンタの値が閾値より大きいときには、その時点で低精度文字列格納領域に格納されていた低精度文字列を、形態素解析結果で明示する部分として認識して、後述するステップ３０９に移行する（ステップ３０８）。
【００７１】
ステップ３０９においては、解析実行時データ格納手段１６に存在した１又は複数組の検索文字列についての連鎖確率に基づいて、今回読み込んだ文字列までの入力文の文字列についての複数の形態素解析結果候補の評価値（連鎖確率の積）を更新する。なお、検索文字列が存在しない場合での取り扱いは任意であるが、既存の高速形態素解析手段の方法をそのまま採用すれば良い。例えば、解析実行時データ格納手段１６に格納されている解析実行時データが文字数Ｎの拡張文字列に係るものである場合に、それらから文字数Ｎ−１や文字数Ｎ−２の拡張文字列に係る解析実行時データを形成して処理する。一般に、文字数が長ければ存在しない文字列でも、それより短い文字数の部分ごとに見た場合には、存在することが多い。
【００７２】
このようなステップ３０９の処理が終了すると、文字位置ポインタを１大きくして上述したステップ３００に戻り、入力文中の文字数Ｎの文字列の読み込みを行う。
【００７３】
ステップ３００〜３０９でなる処理ループを繰り返すことにより、入力文中の文末側の文字数Ｎの文字列の読み込み、それに続くステップ３０２からステップ３０９に至る処理も終了し、その後、ステップ３０１に移行してきたときには、最終文字列の処理も終了したと判定される。
【００７４】
このとき、入力文中の各文字を拡張文字に置き換えた組み合わせの中で最も連鎖確率が高いものを形態素解析結果とし、この形態素解析結果を低精度文字列を明示して利用者に提示し、一連の処理を終了する（ステップ３１０）。
【００７５】
以上のような第２の実施形態の形態素解析装置１０Ａの処理を、図１０に示す文「給与計算システム蜃気楼の構成を図１に示す。」が入力されたとして具体的に説明する。なお、解析実行時データ格納手段１６には、学習データに連続して現れた３文字を一つの単位として値（連鎖確率）が割り当てられているものとし、図１１に示す内容が格納されているものとする。図１１に示されていない文字列は値が割り当てられていない存在しないものとする。また、説明を簡単にするために、文頭、文末の処理、及び、解析実行時データには３文字未満の文字列の値はないものとして説明する。さらに、精度カウンタの値に対する閾値を１として説明する。
【００７６】
精度カウンタと低精度文字列格納領域を初期化してから図９の処理を開始する。
【００７７】
まず、ステップ３００で最初の３文字「給与計」を読み込み、読み込み終了でないことがステップ３０１で確認され、その文字列「給与計」について、ステップ３０２で解析実行時データ格納手段１６を検索すると、存在が確認され（連鎖確率０．７１が出力されることが存在を表す）、ステップ３０３、３０６、３０７を経てステップ３０９に至り、その文字列までの拡張文字列候補の評価値（スコア）が計算される。従って、文字列「給与計」に対する処理が終了しても、精度カウンタの値は０であり、低精度文字列格納領域にも何らの文字も格納されない。
【００７８】
文字列「与計算」、「計算シ」、「算シス」、「システ」及び「ステム」についても同様な経路の処理が実行される。従って、文字列「ステム」に対する処理が終了した時点では、精度カウンタの値は０であり、低精度文字列格納領域にも何らの文字も格納されない。
【００７９】
次に、文字列「テム蜃」が読み込まれると、解析実行時データ格納手段１６には対応する解析実行時データがないので、ステップ３０４で精度カウンタの値が１加算され（これにより「１」となる）、ステップ３０５で低精度文字列格納領域に「テム蜃」が格納され、その後、ステップ３０９に移行する。
【００８０】
以下、文字列「ム蜃気」、「蜃気楼」、「気楼の」及び「楼の構」についても同様な処理が実行される。その結果、文字列「楼の構」に対する処理が終了したときには、低精度文字列格納領域には文字列「テム蜃気楼の構」が格納され、精度カウンタの値は「５」となっている。
【００８１】
次の文字列「の構成」は、解析実行時データ格納手段１６に対応する解析実行時データが存在するので、ステップ３０３からステップ３０６に移行する。このときの精度カウンタの値「５」は、閾値「1」よりも大きいので、ステップ３０８で、低精度文字列格納領域に格納されている低精度文字列「テム蜃気楼の構」が精度・解析結果合成手段１９に与えられ、その後、ステップ３０９に移行する。文字列「の構成」に対する処理が終了したときには、その前の文字列「楼の構」に対する処理が終了したときと同様に、低精度文字列格納領域には文字列「テム蜃気楼の構」が格納され、精度カウンタの値は「５」となっている。
【００８２】
その次の文字列「構成を」から最終文字列「示す。」までについてはそれぞれ、ステップ３０３、３０６、３０７、３０９という、対応する解析実行時データが解析実行時データ格納手段１６に存在する場合の一般的な経路での処理が実行される。
【００８３】
最終文字列「示す。」に対する処理が終了すると、次には文字列がないので、ステップ３１０に移行し、図１２に例示するように、形態素解析結果「給与／計算／システム／蜃気楼の／構成／を／図／１／に／示／す／。」と、システムが精度に自信がない低精度文字列「テム蜃気楼の構」とを対比しやすいように利用者に提示する。
【００８４】
上記第２の実施形態によれば、高速形態素解析の精度が良くないと判断された部分文字列に対しては、その結果を利用者に提示するようにしたので、利用者が必要に応じて正しい形態素解析結果を入力することができる形態素解析装置を実現できる。
【００８５】
形態素解析装置の解析結果は、次の構文解析装置などの入力になるので、その精度が重要であり、正しくない解析結果を次の装置に渡した場合の悪影響の度合は大きい。正しいか正しくないかが明らかでない部分に対しては、利用者に判断させるので、その結果、正しい形態素解析結果を次の装置に入力させることができる。
【００８６】
ここで、精度判定を解析実行時データ格納手段に存在するか否かで行っているので、精度判定機能が処理時間をほとんど長期化させることはない。
【００８７】
（Ｃ）第３の実施形態
次に、本発明による形態素解析装置の第３の実施形態を図面を参照しながら詳述する。
【００８８】
この第３の実施形態の形態素解析装置は、高速形態素解析結果の精度の良否を弁別し、良くない部分に対しては、自動的に低速形態素解析を実行し、常に精度が高い形態素解析結果を出力するようにしたことを大きな特徴としているものである。
【００８９】
図１３は、この第３の実施形態の形態素解析装置１０Ｂの機能的構成を示すブロック図であり、上述した第１の実施形態に係る図１や第２の実施形態に係る図８との同一、対応部分には同一符号を付して示している。
【００９０】
図１３において、第３の実施形態の形態素解析装置１０Ｂは、低速形態素解析手段１１、解析実行時データ格納手段１６、高速形態素解析手段１７、精度判定手段１８及び解析結果合成手段２０を備える。
【００９１】
なお、解析実行時データ格納手段１６に格納する解析実行時データの作成方法が第１の実施形態と同様である場合には、図示は省略しているが、低速形態素解析手段１１、低速形態素解析結果格納手段１２、変換手段１３、学習データ格納手段１４及び学習手段１５も備える（図１参照）。これら構成要素についての説明は省略する。この第３の実施形態の場合、解析実行時データ格納手段１６に格納する解析実行時データの作成方法が第１の実施形態と同様である場合には、低速形態素解析手段１１は、解析実行時データの作成処理のためと、後述する低精度文字列を含む文字列の形態素解析のための双方に利用される。
【００９２】
また、低速形態素解析手段１１、解析実行時データ格納手段１６及び高速形態素解析手段１７の機能自体は、第１の実施形態のものと同様であるので、その機能説明は省略する。さらに、精度判定手段１８の機能自体は、第２の実施形態のものと同様であるので、その機能説明は省略する。
【００９３】
しかし、この第３の実施形態の場合、精度判定手段１８が、高速形態素解析方法では精度に自信がないと判定した、入力文中の低精度文字列は低速形態素解析手段１１に与えられるようになされている。低速形態素解析手段１１は、このような低精度文字列を含む文字列部分に対して低速形態素解析処理を実行する。
【００９４】
この第３の実施形態で新たに設けられた解析結果合成手段２０は、高速形態素解析手段１７からの形態素解析結果における低精度文字列に対応した部分を、低速形態素解析手段１１による低速形態素解析結果に置き換えるものである。
【００９５】
図１４は、第３の実施形態の形態素解析装置１０Ｂの全体処理の流れの一例を示すフローチャートであり、第２の実施形態に係る図９との同一処理ステップには、同一符号を付して示している。
【００９６】
第２の実施形態の場合、確定された低精度文字列はステップ３０８で利用者への提示対象として認識されるが、この第３の実施形態の場合には、確定された低精度文字列は、ステップ３０８ａで低速形態素解析手段１１に与えられる。
【００９７】
また、第２の実施形態の場合、ステップ３１０で、低精度文字列を明示した形で高速形態素解析結果を利用者に提示していたが、この第３の実施形態の場合には、高速形態素解析結果における低精度文字列に対応した部分を、低速形態素解析結果に置き換え、置き換え後の形態素解析結果を利用者に提示する。なお、低速形態素解析は、高速形態素解析結果における、低精度文字列の先頭文字より前の形態素区切り位置と、低精度文字列の最終文字より後の形態素区切り位置とに挟まれた文字列に対して実行される。
【００９８】
以上の２点を除けば、他の処理は第２の実施形態と同様であり、その説明は省略する。
【００９９】
上述した図１０に示す文「給与計算システム蜃気楼の構成を図１に示す。」が、この第３の実施形態の形態素解析装置１０Ｂに入力された場合にも、文字列「テム蜃気楼の構」が低精度文字列として認識されるのは、第２の実施形態と同様である。
【０１００】
今、低速形態素解析手段１１が内蔵する形態素辞書には、「蜃気楼」が一つの形態素（名詞）として登録されているものとする。低速形態素解析手段１１は、低精度文字列「テム蜃気楼の構」と、高速形態素解析結果「給与／計算／システム／蜃気楼の／構成／を／図／１／に／示／す／。」とが与えられると、低精度文字列「テム蜃気楼の構」の先頭文字より前の形態素区切り位置と、低精度文字列の最終文字より後の形態素区切り位置とに挟まれた文字列「システム蜃気楼の構成」が低速形態素解析対象部分として解析を実行する。
【０１０１】
そして、低速形態素解析手段１１は、図１５に示すように、「システム」、「蜃気楼」、「の」、及び「構成」を別々の形態素として解析結果を出力する。高速形態素解析結果「給与／計算／システム／蜃気楼の／構成／を／図／１／に／示／す／。」の該当部分がこの低速形態素解析結果に置き換えられるので、最終的な形態素解析結果は、図１６に示すように、「給与／計算／システム／蜃気楼／の／構成／を／図／１／に／示／す／。」となる。
【０１０２】
この第３の実施形態での解析結果は、第２の実施形態の解析結果に比べて、「蜃気楼」と「の」を別の形態素として解析しており、精度が向上している。
【０１０３】
上記第３の実施形態によれば、高速形態素解析の精度が良くないと判断された部分文字列又はその近傍に対しては、自動的に低速形態素解析を実行し、低速形態素解析結果に置き換えるようにしたので、常に精度が良い形態素解析結果を出力する形態素解析装置を実現できる。
【０１０４】
この第３の実施形態においても、高速形態素解析を基本解析処理としているので、入力文を全て低速形態素解析するよりも短い時間で解析を実行できる。
【０１０５】
（Ｄ）第４の実施形態
次に、本発明による形態素解析装置の第４の実施形態を図面を参照しながら詳述する。
【０１０６】
この第４の実施形態の形態素解析装置は、高速形態素解析結果の精度の良否を弁別し、良くない部分に対しては、自動的に低速形態素解析を実行し、常に精度が高い形態素解析結果を出力すると共に、低速形態素解析結果を高速形態素解析の解析実行時データに学習、反映させ、学習後には、精度が良くなかった文章と同じ形態素が含まれる文章に対して精度良くかつ高速に形態素解析できるようにしたことを大きな特徴としているものである。
【０１０７】
図１７は、この第４の実施形態の形態素解析装置１０Ｃの機能的構成を示すブロック図であり、既述した各実施形態に係る図１、図８及び図１３との同一、対応部分には同一符号を付して示している。
【０１０８】
図１７において、第４の実施形態の形態素解析装置１０Ｃは、低速形態素解析手段１１、変換手段１３、学習データ格納手段１４、学習手段１５、解析実行時データ格納手段１６、高速形態素解析手段１７、精度判定手段１８及び解析結果合成手段２０を備える。
【０１０９】
第４の実施形態の形態素解析装置１０Ｃの全ての構成要素はそれぞれ、既述した各実施形態の対応する要素と同一機能を果たすものである。
【０１１０】
しかし、この第４の実施形態の形態素解析装置１０Ｃにおいては、低精度文字列を含む文字列に対して低速形態素解析手段１１が解析して得た結果を、変換手段１３に与えている点が第１や第３の実施形態と異なっている。変換手段１３から解析実行時データ格納手段１６への処理経路上での各手段の機能は、第１の実施形態と同様である。
【０１１１】
なお、低速形態素解析手段１１、変換手段１３、学習データ格納手段１４、学習手段１５及び解析実行時データ格納手段１６が、第１の実施形態と同様な外部から入力された学習用文書に対する処理をも担うものであっても良いことは勿論である。
【０１１２】
図１８は、第４の実施形態の形態素解析装置１０Ｃの全体処理の流れの一例を示すフローチャートであり、第３の実施形態に係る図１４との同一処理ステップには、同一符号を付して示している。
【０１１３】
第４の実施形態の形態素解析装置１０Ｃでは、第３の実施形態の最終処理ステップ３１０ａより後にステップ３１１及び３１２の処理を設けている。
【０１１４】
ステップ３１１は、低速形態素解析結果を、高速形態素解析の学習手段１５への入力用データ（学習データ）に変換して追加格納する処理である。ステップ３１２は、その時点での全ての学習データを用いて、解析実行時データを作成する処理である。
【０１１５】
低精度文字列を含む文字列に対して、例えば、上述した図１５に示すような低速形態素解析結果が得られた場合に、変換手段１３が上述した図６に示すような変換方法で学習データを変換すると、図１９に示すような拡張文字列（学習データ）が得られる。
【０１１６】
このような学習データが、既存の学習データに追加され、追加後の学習データ全体に対して、学習手段１５が学習すると、低速形態素解析結果に対応した部分の解析実行時データとして図２０に示すようなデータが得られて（他の解析実行時データも当然に得られる）、解析実行時データ格納手段１６に格納される。すなわち、図１１に示すようなデータ（連鎖確率は変化する）に加えて、図２０に示すようなデータが新たに加わることになる。
【０１１７】
その結果、学習したデータによって解析可能な文が解析対象として入力された場合には、例えば、「給与計算システム蜃気楼の値段は２０００円です。」が入力された場合には、前回低精度文字列と認定された部分も精度判定手段１８で低精度と判定されなくなり、第３の実施形態と同程度の精度の高速形態素解析結果を、毎回、低速形態素解析手段１１を起動しないで得られるようになる。
【０１１８】
上記第４の実施形態によれば、高速形態素解析の精度が良くない場合には自動的に低速形態素解析を実行し、さらにその結果を高速形態素解析の学習のためのデータとして使用し、学習後には、精度が良くなかった文章と同じ形態素が含まれる文章に対して精度良くかつ高速に形態素解析できる形態素解析装置を実現できる。
【０１１９】
（Ｅ）他の実施形態
上記各実施形態においては、解析実行時データが１カテゴリーのものを示したが、分野別などの複数カテゴリーのものを用意し、未知文書の入力時にカテゴリーを指定させるようにしても良い。この場合、第１の実施形態では、学習用文書を入力させる際に、その学習用文書のカテゴリーも指定することを要する。また、第３や第４の実施形態では、低速形態素解析手段が適用する専門辞書があれば、そのカテゴリーのものとなる。さらに、第４の実施形態では、低速形態素解析結果を、未知文書の入力時に指定されたカテゴリーの解析実行時データに反映させることとなる。
【０１２０】
また、第１の実施形態の説明では、学習データ格納手段１４への格納が追加格納か新規格納（前のものをクリアしての格納）かを明確に示さなかったが、いずれであっても良い。また、外部から、格納方法を変換手段１３にその都度指示できるようにしても良い。
【０１２１】
さらに、第１及び第４の実施形態において、学習手段１５を以下のようにしても良い。学習データ格納手段１４に追加された学習データについてのみ、文字列の出現頻度を計数して解析実行時データを作成する。この場合、解析実行時データ格納手段１６には、連鎖確率だけでなく出現頻度も格納しておき、今回の集計結果と、解析実行時データ格納手段１６に既に格納されている出現頻度とから、学習手段１５は、既存の解析時学習データの文字列や、新規発生の文字列の連鎖確率を決定するようにしても良い。
【０１２２】
さらにまた、第２〜第４の実施形態においては、解析実行時データ格納手段１６に存在しないことを低精度文字列の認定条件にしているものを示したが、存在しても、その値（連鎖確率）が所定閾値より小さいことを低精度文字列の認定条件にするようにしても良い。
【０１２３】
また、第２〜第４の実施形態において、低精度文字列の範囲を上記のように１文の部分文字列とするのではなく、判定文字列を含む１文全てを低精度文字列として扱うようにしても良い。第２の実施形態であれば、文単位に低精度か否かの情報が付随される。第３の実施形態であれば、低精度認定時にその文全体が低速形態素解析手段１１で解析されることになる。第４の実施形態であれば、文全体の低速形態素解析結果が、解析実行時データ格納手段１６の格納内容に反映される。このように文全体で精度推測を行う場合には、最適な高速形態素解析結果での連鎖確率を、入力文の文字数などで正規化し、その値を閾値と比較することなどによって、その文の精度を推測するようにしても良い。
【０１２４】
また、解析実行時データ格納手段１６の格納内容を利用しないで精度を判定する方法を単独で採用したり、解析実行時データ格納手段１６の格納内容を利用して精度を判定する方法と併用したりしても良い。例えば、解析実行時データ格納手段１６の格納内容を利用しないで精度を判定する方法としては、例えば、ひらがなや漢字などのある１種類の文字種が連続して所定文字数以上つながっている部分の中央所定文字数部分を精度が低いと判定するような方法を挙げることができる。また、第２水準の漢字を所定文字数以上含む文の精度を低いと判定するようにしても良い。
【０１２５】
さらに、第３及び第４の実施形態においては、低精度文字列に対応した低速形態素解析を１文毎に実行するものを示したが、文書全体を高速形態素解析した後でまとめて精度の悪かった部分に対して低速形態素解析を実行するようにしても良い。
【０１２６】
さらにまた、上記各実施形態の具体的説明においては、解析実行時データを構成する拡張文字の拡張情報が、形態素区切り情報だけのものを示したが、これに加えて、品詞情報や単語の発音情報を含むものであっても良い。この場合、当然に、変換手段や学習手段もそれに応じたものとなる。解析実行時データをこのようにした場合には、単語分割と品詞付与を行なう形態素解析や、単語の発音を決定する形態素解析を高速化することができる。
【０１２７】
また、上記各実施形態においては、対象とする自然言語が日本語である形態素解析装置を示したが、他の言語の形態素解析装置に対しても本発明を適用することができる。
【０１２８】
【発明の効果】
以上のように、本発明の形態素解析装置によれば、利用者に負担をかけることなく、形態素解析結果の精度向上や、解析処理時間の短縮化を期待できる。
【図面の簡単な説明】
【図１】第１の実施形態の構成を示すブロック図である。
【図２】第１の実施形態の処理の概要を示すフローチャートである。
【図３】第１の実施形態の学習用文書の一例を示す説明図である。
【図４】図３の第１文目についての低速形態素解析結果を示す説明図である。
【図５】図３の学習用文書に対応した学習データを示す説明図である。
【図６】第１の実施形態の変換手段による詳細処理例を示すフローチャートである。
【図７】図６のステップ２０６の処理の説明図である。
【図８】第２の実施形態の構成を示すブロック図である。
【図９】第２の実施形態の処理を示すフローチャートである。
【図１０】形態素解析対象文を示す説明図である。
【図１１】解析実行時データ格納手段１６の格納内容例を示す説明図である。
【図１２】第２の実施形態で図１０の文を解析した出力内容例を示す説明図である。
【図１３】第３の実施形態の構成を示すブロック図である。
【図１４】第３の実施形態の処理を示すフローチャートである。
【図１５】第３の実施形態の低精度文字列に対する低速形態素解析結果例を示す説明図である。
【図１６】第３の実施形態で図１０の文を解析した最終的な解析結果例を示す説明図である。
【図１７】第４の実施形態の構成を示すブロック図である。
【図１８】第４の実施形態の処理を示すフローチャートである。
【図１９】第４の実施形態での低精度文字列に対する低速形態素解析結果を学習データに変換した例を示す説明図である。
【図２０】第４の実施形態での低精度文字列に対応した学習データから形成された解析実行時データの例を示す説明図である。
【符号の説明】
１０、１０Ａ、１０Ｂ、１０Ｃ…形態素解析装置、
１１…低速形態素解析手段、
１３…変換手段、
１５…学習手段、
１７…高速形態素解析手段、
１８…精度判定手段、
１９…精度・解析結果合成手段、
２０…解析結果合成手段。

Claims

自然言語文に現れる第１の所定文字数でなる部分文字列と、その部分文字列の既存文書における出現割合である連鎖確率と、上記部分文字列の各文字に対して付与されたその文字が形態素の最終文字か否かの区切り位置の情報とを少なくとも含む組データである解析実行時データを多数格納している解析実行時データ格納手段と、未知文章に対して、上記解析実行時データ格納手段の格納内容を参照して形態素解析を実行する第１の形態素解析手段とを有する形態素解析装置において、
上記未知文章に対して上記第１の形態素解析手段が適用した上記解析実行時データ格納手段に格納されている中の上記解析実行時データにおける連鎖確率が閾値より小さいとき、又は、上記解析実行時データ格納手段に格納されている上記解析実行時データを適用し得ない部分を上記未知文章が有するときに、上記第１の形態素解析手段からの、未知文章の全体、又は、連鎖確率が閾値より小さい上記解析実行時データの部分文字列若しくは上記解析実行時データを適用し得ない部分を含む未知文章内の文字列部分についての形態素解析結果の精度を低精度と推測する精度判定手段を有することを特徴とする形態素解析装置。
自然言語文に現れる第１の所定文字数でなる部分文字列と、その部分文字列の既存文書における出現割合である連鎖確率と、上記部分文字列の各文字に対して付与されたその文字が形態素の最終文字か否かの区切り位置の情報とを少なくとも含む組データである解析実行時データを多数格納している解析実行時データ格納手段と、未知文章に対して、上記解析実行時データ格納手段の格納内容を参照して形態素解析を実行する第１の形態素解析手段とを有する形態素解析装置において、
上記未知文章の全体又は部分の中で特定文字種の文字が第２の所定文字数以上つながっているときに、上記第１の形態素解析手段からの、未知文章の全体、又は、特定文字種の文字が第２の所定文字数以上つながっている部分を含む未知文章内の文字列部分についての形態素解析結果の精度を低精度と推測する精度判定手段を有することを特徴とする形態素解析装置。
自然言語文に現れる第１の所定文字数でなる部分文字列と、その部分文字列の既存文書における出現割合である連鎖確率と、上記部分文字列の各文字に対して付与されたその文字が形態素の最終文字か否かの区切り位置の情報とを少なくとも含む組データである解析実行時データを多数格納している解析実行時データ格納手段と、未知文章に対して、上記解析実行時データ格納手段の格納内容を参照して形態素解析を実行する第１の形態素解析手段とを有する形態素解析装置において、
上記未知文章の全体又は部分の中で特定文字種の文字が第３の所定文字数以上含まれているときに、上記第１の形態素解析手段からの、未知文章の全体、又は、特定文字種の文字が第３の所定文字数以上含まれている部分を含む未知文章内の文字列部分についての形態素解析結果の精度を低精度と推測する精度判定手段を有することを特徴とする形態素解析装置。
上記精度判定手段が精度が低いと推測した未知文章又は未知文章内の文字列部分を明示して、上記第１の形態素解析手段からの形態素解析結果を出力する解析結果出力手段を有することを特徴とする請求項１〜３のいずれかに記載の形態素解析装置。
上記精度判定手段が精度が低いと推測した未知文章又は未知文章内の文字列部分に対し、形態素辞書を利用した形態素解析を行う第２の形態素解析手段を有することを特徴とする請求項１〜４のいずれかに記載の形態素解析装置。
上記第１の形態素解析手段の形態素解析結果における、上記精度判定手段が精度が低いと推測した未知文章又は未知文章内の文字列部分に対応する結果を、上記第２の形態素解析手段の形態素解析結果に置き換える解析結果合成手段を有することを特徴とする請求項５に記載の形態素解析装置。
上記第２の形態素解析手段の形態素解析結果から形態素間の区切り位置を認識し、各文字と、その文字が形態素の最終文字であるか否かを表す区切り位置情報との組でなる学習データを作成する変換手段と、
学習データを上記第１の所定文字数毎に切り分けて集計し、第１の所定文字数でなる部分文字列と、連鎖確率と、区切り位置情報とを少なくとも含んだ複数の解析実行時データを作成する学習手段と
を有することを特徴とする請求項５又は６に記載の形態素解析装置。