JP2019016162A

JP2019016162A - 形態素解析プログラム、形態素解析装置、および形態素解析方法

Info

Publication number: JP2019016162A
Application number: JP2017133065A
Authority: JP
Inventors: 一森田; Hajime Morita; 友哉岩倉; Tomoya Iwakura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2019-01-31
Also published as: CN109213992A

Abstract

【課題】形態素解析の解析精度を向上させること。【解決手段】形態素解析装置は、形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部と、解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力する第１の解析部と、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する第２の解析部と、を備える。【選択図】図２

Description

本発明は、形態素解析プログラム、形態素解析装置、および形態素解析方法に関する。

近年、インターネット上の情報が飛躍的に増大しており、ビッグデータを用いたビジネスが増加しているため、ビッグデータを効率的に処理することが望まれている。日本語、中国語、または韓国語の文書のように、単語と単語がスペース等の区切り文字で区切られていない表記の文書の場合、単語の出現頻度を計算するために形態素解析が行われる。

形態素解析は、テキストを形態素に分割し、各形態素に対して品詞情報を付与する処理である。形態素解析により得られる形態素は、単語として扱われることもある。このような形態素解析を行うことで、文書中の単語間の関係及び単語の品詞が決定され、文書中のテキストを単語に分割することができる。しかし、形態素解析は処理負荷が大きいため、大量のテキストを処理するには長い時間がかかる。

形態素解析においては、解析対象の文字列の表記に部分一致する全ての単語を辞書から抜き出し、単語の候補（解析候補）を列挙したグラフ構造であるラティスを利用した解析が行われる。

図１は、ラティスの例を示す図である。
図１では、解析対象である入力文＝「送られてきた」に対するラティスを構築した場合を示す。形態素解析では、構築したラティスに対して文脈（前後の形態素）を考慮して、正しい形態素列を決定する。それにより、「送られてきた」の形態素解析結果は、「送ら（動詞・未然形）｜れて（接尾辞）｜きた（接尾辞）」となる。ラティスの構築は、計算コストが大きく、時間がかかる。

形態素解析において、計算コストの大きいラティスの構築を行なわず、パターンマッチングを用いることで高速化する方法が知られている（例えば、非特許文献１参照）。文を２以上の単語に高速に分割する単語分割装置が知られている（例えば、特許文献１参照）。精度の高い単語分割用辞書を得る辞書登録装置が知られている（例えば、特許文献２参照）。

特開２０１４−１０６７０７号公報特開２０１４−１２０００７号公報

Manabu Sassano, "Deterministic Word Segmentation Using Maximum Matching with Fully Lexicalized Rules", Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 79-83, Gothenburg, Sweden, April 26-30 2014

しかしながら、非特許文献１記載の形態素解析方法では、パターンマッチングにより高速に形態素解析を行うことができるが、誤った解析結果を出力する場合があり、解析精度が低いという問題がある。

１つの側面において、本発明は、形態素解析の解析精度を向上させることを目的とする。

実施の形態に係る形態素解析プログラムは、形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備えるコンピュータに以下の処理を実行させる。

前記コンピュータは、解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力する。

前記コンピュータは、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成する
前記コンピュータは、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する

実施の形態によれば、形態素解析の解析精度を向上させることができる。

ラティスの例を示す図である。実施の形態に係る形態素解析装置の構成図である。文脈独立辞書の例である。文脈依存文字列と解析結果の例である。実施の形態に係る形態素解析処理を示す図である。実施の形態に係る形態素解析処理を示す図である。実施の形態に係る文脈独立辞書生成処理のフローチャートである。実施の形態に係る形態素解析処理のフローチャートである。未解析の文字列とその前後の形態素についてのラティスを示す図である。未解析の文字列とその前後の形態素についてのラティスを示す図である。未解析の文字列に対する解析結果である形態素列を示す図である。未解析の文字列に対する解析結果である形態素列を示す図である。実施の形態に係る形態素解析処理の変形例のフローチャートである。未解析の文字列を含む入力文のラティスを示す図である。未解析の文字列に対する解析結果を含む入力文の形態素列を示す図である。情報処理装置の構成図である。

以下、図面を参照しながら実施の形態について説明する。
最初に非特許文献１記載の従来技術を用いて、形態素解析を行った場合について述べる。従来技術では、最初に辞書を用いた最長一致法により、解析対象の文に対する形態素列を出力し、誤って出力された形態素列のうち、置き換えパターンに一致する形態素列を当該置き換えパターンに従って正しい形態素列に置き換えている。
（従来技術による形態素解析の第１の例）
解析対象である入力文＝「非常に評判がいいわけだ」に対して、最長一致法による形態素解析の結果は、「非常に｜評判｜が｜いいわけ｜だ」となる。従来技術では、誤った解析結果を修正するため、置き換えパターンを参照し、一致する形態素列を修正する。

ここで、「が｜いいわけ｜だ」を「が｜いい｜わけだ」に修正する置き換えパターンがあるとする。その場合、「非常に｜評判｜が｜いいわけ｜だ」は、「非常に｜評判｜が｜いい｜わけだ」に修正される。このように、適切な置き換えパターンがある場合は、「非常に評判がいいわけだ」の解析結果として、正しい解析結果である「非常に｜評判｜が｜いい｜わけだ」が得られる。

しかし、上記のような適切な置き換えパターンが存在しない場合、形態素列は修正されないため、「非常に評判がいいわけだ」に対する形態素解析の結果として、誤った解析結果である「非常に｜評判｜が｜いいわけ｜だ」が得られる。
（従来技術による形態素解析の第２の例）
入力文＝「人手不足と言うがいいわけだ」に対して、最長一致法による形態素解析の結果は、「人手｜不足｜と｜言う｜が｜いいわけ｜だ」となる。従来技術では、誤った解析結果を修正するため、置き換えパターンを参照し、一致する形態素列を修正する。

ここで、「人手｜不足｜と｜言う｜が｜いいわけ｜だ」に含まれる形態素列を修正する置き換えパターンが存在しない場合、解析結果は修正されずに、正しい解析結果である「人手｜不足｜と｜言う｜が｜いいわけ｜だ」が得られる。

ここで、「が｜いいわけ｜だ」を「が｜いい｜わけだ」に修正する置き換えパターンがあるとする。その場合、「人手｜不足｜と｜言う｜が｜いいわけ｜だ」は、「人手｜不足｜と｜言う｜が｜いい｜わけだ」に修正される。置き換えパターンを適用することにより、「人手不足と言うがいいわけだ」に対する形態素解析の結果として、誤った解析結果である「人手｜不足｜と｜言う｜が｜いい｜わけだ」が得られる。

このように、置き換えパターンは、文脈を考慮したルールになっておらず、置き換えパターンを適用することで、誤った解析結果が得られることがある。

図２は、実施の形態に係る形態素解析装置の構成図である。
形態素解析装置１０１は、辞書生成部２０１、形態素解析部３０１、および記憶部４０１を有する。

辞書生成部２０１は、文脈独立辞書構築部２１１、形態素解析部２２１、依存性判定部２３１を有する。

文脈独立辞書構築部２１１は、形態素解析部２２１と依存性判定部２３１の判定結果を用いて文脈独立辞書４２１を生成する。

形態素解析部２２１は、コーパス４１１の形態素解析を行う。形態素解析部２２１は、例えば、既存の形態素解析方法を用いて、形態素解析を行う。

依存性判定部２３１は、依存性判定部２３１は、文字列が文脈により形態素解析の結果が異なる（文脈に依存する）文字列であるか判定する。

実施の形態において、文脈により形態素解析の結果が異なる文字列を文脈依存文字列と称する。また、実施の形態において、文脈により形態素解析の結果が変化しない文字列を文脈独立文字列と称する。

形態素解析部３０１は、文脈独立文字列解析部３１１および文脈依存文字列解析部３２１を有する。

文脈独立文字列解析部３１１は、文脈独立辞書４２１を用いてパターンマッチングにより、入力文４３１の形態素解析を行う。文脈独立文字列解析部３１１により、入力文４３１のうち文脈独立文字列の形態素解析が行われる。

文脈依存文字列解析部３２１は、ラティス構築部３２２および形態素列選択部３２３を有する。文脈依存文字列解析部３２１は、入力文４３１のうち文脈独立文字列解析部３１１により解析されていない文字列（すなわち、文脈依存文字列）の形態素解析を行う。

ラティス構築部３２２は、未解析の文字列のラティスを構築する。ラティス（単語ラティスとも呼ぶ）は、解析対象の文字列の表記に部分一致する全ての単語を形態素解析辞書から抜き出し、単語の候補（解析結果の候補）を列挙したグラフ構造である。

形態素列選択部３２３は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び（パス）を選択する。形態素列選択部３２３は、例えば、Viterbiアルゴリズムを用いて、評価値を最小とするようなパスを選択する。尚、形態素列選択部３２３は、Viterbiアルゴリズムに限らずビームサーチ等の方法を用いても良い。

記憶部４０１は、形態素解析装置１０１で使用されるデータやプログラム等を記憶する。記憶部４０１は、コーパス４１１、文脈独立辞書４２１、入力文４３１、および解析結果４４１を記憶する。また、記憶部４０１は、ラティス構築部３２２および形態素解析部２２１がラティスを構築するときに使用する複数の単語（形態素）を含む形態素解析辞書（不図示）を記憶する。

コーパス４１１は、複数の文の集合である。コーパス４１１は、辞書生成部２０１により文脈独立辞書４２１の生成に用いられる。

文脈独立辞書４２１は、文脈独立文字列と文脈独立文字列に対する形態素解析の結果を示す情報である。文脈独立辞書４２１は、マッチング辞書の一例である。

入力文４３１は、形態素解析部３０１による形態素解析の対象となる文である。入力文４３１は、解析対象テキストの一例である。

解析結果４４１は、入力文４３１の形態素解析の結果である。
図３は、文脈独立辞書の例である。

文脈独立辞書４２１は、文脈により形態素解析の結果が変化しない文字列である文脈独立文字列を示す情報である。文脈独立辞書４２１は、文字列と形態素列とを含む。文脈独立辞書４２１には、文字列と形態素列とが対応付けられて記録されている。

文字列は、文脈独立文字列である。
形態素列は、文字列に対する形態素解析の結果である。形態素列は、形態素解析により文字列が分割された複数の形態素の集合である。明細書および図面において、形態素列の「｜」は形態素間の切れ目を示す。尚、形態素列には、各形態素の品詞や活用形を示す情報が付加されていてもよい。

例えば、図３の文脈独立辞書４２１は、文字列として「夜間や休日」、対応する形態素列として「夜間｜や｜休日」を含む。また、図３の文脈独立辞書４２１は、文字列として「がれきの山」、対応する形態素列として「がれき｜の｜山」を含む。

「夜間や休日」は、「夜間や休日」の前後の文脈によって、形態素解析の結果が変化しない文字列である。すなわち、「夜間や休日」に対する形態素解析の結果は、常に同じである。「夜間や休日」に対して形態素解析を行うと、「夜間｜や｜休日」のように分割される。

「がれきの山」についても、形態素解析の結果は、常に「がれき｜の｜山」のように分割される。

上記のような文脈独立文字列は、文字列の前後の文脈によらず形態素解析の結果が常に同じとなるため、文脈独立文字列だけで正しい解析結果を得ることが可能である。

また、文脈独立辞書４２１は、文字列として、型番、人名、顔文字、定型句、英単語、またはタブや改行を示す制御用トークンなどが登録されてもよい。型番、人名、顔文字、定型句、英単語、および制御用トークンは、文字列の前後の文脈によらず形態素解析の結果が常に同じとなる文字列である。また、文脈独立辞書４２１は、文字列が括弧であるときの括弧に対する形態素解析の結果や文字列が連続した数値のような数値表現であるときの数値表現に対する形態素解析の結果を示す情報を含んでもよい。括弧や数値表現は文字列の前後の文脈によらず形態素解析の結果が常に同じとなる文字列である。

次に、文脈により形態素解析の結果が異なる文字列である文脈依存文字列について述べる。

図４は、文脈依存文字列と解析結果の例である。
ここでは、文脈依存文字列として「よく知っているからだ」、「休日や夜間」、および「雪の山」の３つの例について述べる。
（１）「よく知っているからだ」
「よく知っているからだ」に対して形態素解析を行うと、「よく知っているからだ」の前後の文脈によって、「よく｜知っている｜から｜だ」または「よく｜知っている｜からだ（体）」のように分割される。
（２）「休日や夜間」
「休日や夜間」の前に「今週の」が付いている場合、「今週の休日や夜間」に対して形態素解析を行うと、「今週｜の｜休日｜や｜夜間」のように分割される。

「休日や夜間」の前に「病院の定」が付いている場合、「病院の定休日や夜間」に対して形態素解析を行うと、「病院｜の｜定休日｜や｜夜間」のように分割される。
（３）「雪の山」
「雪の山」の後に「を見る」が付いている場合、「雪の山を見る」に対して形態素解析を行うと、「雪｜の｜山｜を｜見る」のように分割される。

「雪の山」の前に「大」且つ「雪の山」の後に「形県」が付いている場合、「大雪の山形県」に対して形態素解析を行うと、「大雪｜の｜山形｜県」のように分割される。

上記のような文脈依存文字列は、文字列の前後の文脈により形態素解析の結果が異なるため、文脈依存文字列だけでは、正しい解析結果を得ることが難しい。

次に、実施の形態に係る形態素解析処理の例を示す。
図５は、実施の形態に係る形態素解析処理を示す図である。

図５では、入力文４３１として「非常に評判がいいわけだ」の形態素解析を行う場合について説明する。また、文脈独立辞書４２１は、文字列＝「非常に評判がいい」と形態素列＝「非常に｜評判｜が｜いい」が含まれているとする。

文脈独立文字列解析部３１１は、入力文＝「非常に評判がいいわけだ」に対して、文脈独立辞書４２１を用いた最長一致法による解析を行う。図５では、入力文＝「非常に評判がいいわけだ」のうち「非常に評判がいい」が文脈独立辞書４２１の文字列と一致する。

よって、入力文＝「非常に評判がいいわけだ」のうち「非常に評判がいい」の形態素解析の結果は、「非常に｜評判｜が｜いい」となる。

次に、入力文のうち、文脈独立文字列解析部３１１により解析されなかった残りの文字列の形態素解析を文脈依存文字列解析部３２１が行う。すなわち、文脈依存文字列解析部３２１は、入力文＝「非常に評判がいいわけだ」のうち、文脈独立文字列解析部３１１により解析されなかった残りの文字列＝「わけだ」の形態素解析を行う。

ラティス構築部３２２は、残り（未解析）の文字列＝「わけだ」とその前後の解析済みの文字列＝「非常に評判がいいわけだ」のラティスを構築する。

形態素列選択部３２３は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び（パス）を選択する。その結果、未解析の文字列＝「わけだ」の解析結果は、「わけだ」となる。

以上により、入力文＝「非常に評判がいいわけだ」の形態素解析の結果は、「非常に｜評判｜が｜いい｜わけだ」となる。

次に、入力文に含まれる文字列が文脈独立辞書４２１に含まれていない場合について述べる。文脈独立辞書４２１に用いられるコーパスのサイズが小さく、文脈独立辞書４２１に文字列＝「非常に評判がいい」が含まれない場合を説明する。

図６は、実施の形態に係る形態素解析処理を示す図である。
図６では、図５と同様に入力文４３１として「非常に評判がいいわけだ」の形態素解析を行う場合について説明する。また、文脈独立辞書４２１は、文字列＝「非常に評判がいい」は含まれていないとする。

文脈独立文字列解析部３１１は、入力文＝「非常に評判がいいわけだ」に対して、文脈独立辞書４２１を用いた最長一致法による解析を行う。図６では、入力文＝「非常に評判がいいわけだ」のうち、一致する文字列が文脈独立辞書４２１に含まれていない。

よって、入力文＝「非常に評判がいいわけだ」のいずれの文字列も文脈独立文字列解析部３１１により解析されない。

次に、入力文のうち、文脈独立文字列解析部３１１により解析されなかった残りの文字列の形態素解析を文脈依存文字列解析部３２１が行う。すなわち、文脈依存文字列解析部３２１は、入力文＝「非常に評判がいいわけだ」の形態素解析を行う。

ラティス構築部３２２は、残り（未解析）の文字列＝「非常に評判がいいわけだ」のラティスを構築する。

形態素列選択部３２３は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び（パス）を選択する。その結果、未解析の文字列＝「非常に評判がいいわけだ」の解析結果は、「非常に｜評判｜が｜いい｜わけだ」となる。

このように、入力文に含まれる文字列が文脈独立辞書４２１に含まれていない場合でも、正しく形態素解析を行うことができる。

図７は、実施の形態に係る文脈独立辞書生成処理のフローチャートである。
ここで、コーパス４０１は、文ｓ_ｉ（ｉ＝０〜Ｎ）を含むとする。実施の形態において、文ｓ_１、ｓ_２、ｓ_１２、ｓ_１５、ｓ_２０、ｓ_３０、ｓ_３５を下記に示す。
文ｓ_１＝「朝日新聞東京本社が「宅配便で不審な段ボール箱が二箱送られてきた」と築地署に届け出た。」
文ｓ_２＝「そうする必要があるからだ。」
文ｓ_１２＝「担当者は朝日新聞の取材に回答した。」
文ｓ_１５＝「からだと健康に気を付けましょう。」
文ｓ_２０＝「朝日新聞東京本社は大江戸線築地市場駅の前にある。」
文ｓ_３０＝「本社が意思決定権を持つ。」
文ｓ_３５=「発行元の日本社が責任を負う。」
また、文ｓ_ｉのｉは、文ｓ_ｉの文ＩＤとする。

ステップＳ５０１は、ステップＳ５０６の終端に対応するループの始端である。変数ｉの初期値は０であり、ループを実行する条件はｉがＮ以下であり、ループの終了毎にｉは１ずつインクリメントされる。

ステップＳ５０２において、形態素解析部２２１は、コーパス４０１を読み出し、コーパス４０１に含まれる文ｓ_ｉの形態素解析を行う。例えば、形態素解析部２２１は、文ｓ_ｉに対するラティスを構築して、形態素解析を行う。文ｓ_ｉに対する形態素解析の結果である形態素列を形態素列ｓ’_ｉとする。文ｓ_１の形態素解析の結果ｓ’_１は、ｓ’_１＝「朝日|新聞|東京|本社|が|「|〜」となる。また、形態素列ｓ’_ｉのｉは、形態素列ｓ’_ｉの文ＩＤとする。

ステップＳ５０３において、ステップＳ５０５の終端に対応するループの始端である。依存性判定部２３１は、形態素列ｓ’_ｉに含まれる連続する部分形態素列のうち未選択の連続する部分形態素列を１つ選択する。選択された部分形態素列ｎは、ｎ＝（文字列ｐ、形態素列ｍ、文ＩＤ）と表記する。文字列ｐは形態素列ｍを繋げた文字列であり、形態素列ｍは選択された部分形態素列を構成する形態素列であり、文ＩＤは選択された部分形態素列ｎが含まれる形態素列ｓ’_ｉまたは文ｓ_ｉの文ＩＤである。例えば、ｎ＝（朝日新聞、朝日｜新聞、１）となる。また、ｎ＝（新聞東京本社、新聞｜東京｜本社、１）となる
ステップＳ５０４において、依存性判定部２３１は、文字列ｐごとに、形態素列ｍと文ＩＤの配列をＴ［ｐ］．Ｍ、Ｔ［ｐ］．Ｈにそれぞれ保存する。例えば、文字列ｐ＝「朝日新聞」の場合、Ｔ［朝日新聞］．Ｍ＝[朝日｜新聞]、Ｔ［朝日新聞］．Ｈ＝[１，１２、〜]となる。また、文字列ｐ＝「からだ」の場合、Ｔ［からだ］．Ｍ＝[から｜だ，からだ（体）]，Ｔ［からだ］．Ｈ＝[２，１５、〜]となる。すなわち、文字列＝「からだ」の形態素解析の結果は「から｜だ」または「からだ（体）」となることを示す。また、Ｔ［からだ］．Ｈ＝[２，１５、〜]は、文字列＝「からだ」が文ｓ_２、ｓ_１５に含まれていることを示す。

ステップＳ５０５において、ステップＳ５０３の始端に対応するループの終端である。形態素列ｓ’_ｉに含まれる連続する部分形態素列を全て選択済みの場合、制御はステップＳ５０６に進み、形態素列ｓ’_ｉにおいて未選択の連続する部分形態素列がある場合、制御はステップＳ５０３に戻る。

ステップＳ５０６は、ステップＳ５０１の始端に対応するループの終端である。iがＮより大きい場合、処理はステップＳ５０７に進み、iがＮ以下の場合、ｉは１インクリメントされ、制御はステップＳ５０１に戻る。

ステップＳ５０７において、ステップＳ５１６の終端に対応するループの始端である。依存性判定部２３１は、配列Ｔ［ｐ］の文字列ｐのうち未選択の文字列ｐを１つ選択する。以下、ステップＳ５０８〜Ｓ５１５における文字列ｐは、選択された文字列ｐであるとする。

ステップＳ５０８において、依存性判定部２３１は、配列Ｔ［ｐ］．Ｍの要素の数｜Ｔ［ｐ］．Ｍ｜が１であるか判定する。配列Ｔ［ｐ］．Ｍの要素の数が１である場合、制御はステップＳ５１０に進み、Ｔ［ｐ］．Ｍの要素の数が１以外の場合、制御はステップＳ５０９に進む。例えば、文字列ｐ＝「からだ」である場合、Ｔ［からだ］．Ｍ＝[から｜だ，からだ（体）]であるので、｜Ｔ［ｐ］．Ｍ｜＝２となり、制御はステップＳ５０９に進む。例えば、文字列ｐ＝「東京本社が「宅配便」である場合、Ｔ［東京本社が「宅配便］．Ｍ＝[東京本社が「宅配便]であるので、｜Ｔ［ｐ］．Ｍ｜＝１となり、制御はステップＳ５１０に進む。ステップＳ５０８では、文字列ｐの形態素解析の結果が複数あるか、言い換えれば文字列ｐの形態素解析が常に同一であるかチェックしている。

ステップＳ５０９において、文字列ｐを破棄する。
ステップＳ５１０において、依存性判定部２３１は、配列Ｔ［ｐ］．Ｈの要素の数｜Ｔ［ｐ］．Ｈ｜が１より大きいか判定する。配列Ｔ［ｐ］．Ｈの要素の数が１より大きい場合、制御はステップＳ５１２に進み、Ｔ［ｐ］．Ｈの要素の数が１以下の場合、制御はステップＳ５１１に進む。例えば、文字列ｐ＝「東京本社が「宅配便」である場合、Ｔ［東京本社が「宅配便］．Ｈ＝[１]であるので、｜Ｔ［ｐ］．Ｈ｜＝１となり、制御はステップＳ５１１に進む。例えば、文字列ｐ＝「朝日新聞東京本社」である場合、Ｔ［朝日新聞東京本社］．Ｈ＝[１，１２，３０]であるので、｜Ｔ［ｐ］．Ｈ｜＝３となり、制御はステップＳ５１２に進む。

ステップＳ５１１において、文字列ｐを破棄する。
ステップＳ５１２において、依存性判定部２３１は、文字列ｐを含む文集合の文ＩＤであるＨ_ｐ’を得る。例えば、文字列ｐ＝「本社が」である場合、「本社が」を含む文は、文ｓ_１，ｓ_２０，ｓ_３０，ｓ_３５であるので、Ｈ_ｐ’＝１，２０，３０，３５となる。

ステップＳ５１３において、依存性判定部２３１は、配列Ｔ［ｐ］．Ｈと文集合Ｈ_ｐ’が等しいか判定する。配列Ｔ［ｐ］．Ｈと文集合Ｈ_ｐ’が等しい場合、制御はステップＳ５１５に進み、配列Ｔ［ｐ］．Ｈと文集合Ｈ’が等しくない場合、制御はステップＳ５１４に進む。例えば、文字列ｐ＝「本社が」である場合、配列Ｔ［ｐ］．Ｈ＝[１，１２，３０]であり、Ｈ_ｐ’＝１，２０，３０，３５であり、配列Ｔ［ｐ］．ＨとＨ_ｐ’は等しくないため、制御はステップＳ５１４に進む。ステップＳ５１３では、形態素列の境界が異なる場合があるかを検出している。

ステップＳ５１４において、文字列ｐを破棄する。
ステップＳ５１５において、文字列ｐと当該文字列ｐの解析結果である形態素列を文脈独立辞書４２１に登録する。文字列ｐ＝「朝日新聞東京本社」である場合、Ｔ［朝日新聞東京本社］．Ｍ＝[朝日｜新聞｜東京｜本社]、Ｔ［朝日新聞東京本社］．Ｈ＝[１，１２，３０]となり、文字列ｐ＝「朝日新聞東京本社」と形態素列＝「朝日｜新聞｜東京｜本社」が文脈独立辞書４２１に登録される。

ステップＳ５１６において、ステップＳ５０７の始端に対応するループの終端である。
図８は、実施の形態に係る形態素解析処理のフローチャートである。

ステップＳ６０１において、文脈独立文字列解析部３１１は、入力文４３１を読み出す。入力文４３１に含まれる文字を先頭から順にｃ０、ｃ１、〜、ｃＮと表記する。また、変数ｉ＝０とする。実施の形態において、入力文＝「朝日新聞東京本社が「宅配便で不審な段ボール箱が」とする。

ステップＳ６０２において、文脈独立文字列解析部３１１は、入力文４３１と文脈独立辞書４２１とのパターンマッチングを行い、文脈独立辞書４２１に含まれる文字列と一致する文字列を入力文４３１から検出する。詳細には、文脈独立文字列解析部３１１は、文脈独立辞書４２１を検索し、文脈独立辞書４２１に含まれる文字列とマッチするｃｉを先頭とする最長の文字列ｃｉ〜ｃｊを探索する。

例えば、ｉ＝０の時、ｃ０〜ｃ７＝「朝日新聞東京本社」となる。ｉ＝８の時、マッチする文字列はない。ｉ＝９の時、ｃ９〜ｃ１１＝「「宅配」となる。ｉ＝１２の時、マッチする文字列はない。ｉ＝１３の時、ｃ１３〜ｃ２２＝「で不審な段ボール箱が」となる。

ステップＳ６０３において、文脈独立文字列解析部３１１は、ｃｉを先頭とする文字列に一致する文字列が文脈独立辞書４２１にあるかチェックする。一致する文字列が文脈独立辞書４２１にある場合制御はステップＳ６０５に進み、一致する文字列が文脈独立辞書４２１に無い場合、制御はステップＳ６０４に進む。

ステップＳ６０４において、文脈独立文字列解析部３１１は、変数ｉを１インクリメントする。

ステップＳ６０５において、文脈独立文字列解析部３１１は、変数ｉをｊ＋１に設定する。例えば、ｉ＝０の時、ステップＳ６０２で述べたようにｃ０〜ｃ７＝「朝日新聞東京本社」となり、ｊ＝７なので、ｉは、８（＝７＋１）に設定される。

ステップＳ６０６において、文脈独立文字列解析部３１１は、文字列ｃｉ〜ｃｊに対する解析結果を解析結果４４１として記憶部４０１に保存する。例えば、ｉ＝０の時、ｃ０〜ｃ７＝「朝日新聞東京本社」に対する解析結果＝「朝日｜新聞｜東京｜本社」を解析結果４４１として記憶部４０１に保存する。ｉ＝９の時、ｃ９〜ｃ１１＝「「宅配」に対する解析結果＝「「｜宅配」を解析結果４４１として記憶部４０１に保存する。ｉ＝１３の時、ｃ１３〜ｃ２２＝「で不審な段ボール箱が」に対する解析結果＝「で｜不審な｜段ボール｜箱｜が」を解析結果４４１として記憶部４０１に保存する。

ステップＳ６０７において、文脈独立文字列解析部３１１は、変数ｉがＮより大きいか判定する。変数ｉがＮより大きい場合、制御はステップＳ６０８に進み、変数ｉがＮ以下の場合、制御はステップＳ６０２に戻る。

ステップＳ６０８において、入力文４３１のうち文脈独立文字列解析部３１１において未解析の文字列をｓ_０、ｓ_１、〜、ｓ_Ｍとする。また、変数ｋ＝０とする。実施の形態において、入力文＝「朝日新聞東京本社が「宅配便で不審な段ボール箱が」のうち、「朝日新聞東京本社」、「「宅配」、および「で不審な段ボール箱が」が解析済みのため、未解析の文字列は、ｓ_０＝「が」、ｓ_１＝「便」となる。

ステップＳ６０９において、ラティス構築部３２２は、文字列ｓ_ｋと文字列ｓ_ｋの前後の解析済みの形態素について、複数の単語を含む辞書を用いてラティスを構築する。文字列ｓ_０＝「が」とその前後の解析済みの形態素のラティスを図９に示す。文字列ｓ_１＝「便」とその前後の解析済みの形態素のラティスを図１０に示す。

ステップＳ６１０において、形態素列選択部３２３は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び（パス）を選択する。形態素列選択部３２３は、例えば、Viterbiアルゴリズムを用いて、評価値を最小とするようなパスを選択する。例えば、文字列ｓ_０＝「が」に対して、解析結果として「が（助詞）」が選択される。文字列ｓ_０＝「が」の解析結果と文字列ｓ_０の前後の解析済みの形態素を含む形態素列を図１１に示す。例えば、文字列ｓ_１＝「便」に対して、解析結果として「便（びん）」が選択される。文字列ｓ_１＝「便」の解析結果と文字列ｓ_１の前後の解析済みの形態素を含む形態素列を図１２に示す。

ステップＳ６１１において、形態素列選択部３２３は、変数ｋを１インクリメントする。

ステップＳ６１２において、形態素列選択部３２３は、変数ｋがＭより大きいか判定する。変数ｋがＭより大きい場合、制御はステップＳ６１３に進み、変数ｋがＭ以下の場合、制御はステップＳ６０９に戻る。

ステップＳ６１３において、文字列ｓ１〜ｓ_Ｍに対する形態素解析の結果を解析結果４４１として記憶部４０１に保存する。

図８に示す形態素解析処理のように、未解析の文字列について、未解析の文字列ごとに形態素解析を行うのでなく、全ての未解析の文字列を含む入力文全体のラティスを用いて形態素解析を行ってもよい。

図１３は、実施の形態に係る形態素解析処理の変形例のフローチャートである。
図８の形態素解析処理と同様に、入力文＝「朝日新聞東京本社が「宅配便で不審な段ボール箱が」とする。

ステップＳ１６０１〜Ｓ１６０８の処理は、それぞれ図８のステップＳ６０１〜Ｓ６０７の処理と同様であるため、説明は省略する。

ステップＳ１６０９において、ラティス構築部３２２は、文字列ｓ_ｋと文字列ｓ_ｋの前後の解析済みの形態素について、複数の単語を含む辞書を用いてラティスを構築する。

ステップＳ１６１０において、形態素列選択部３２３は、変数ｋを１インクリメントする。

ステップＳ１６１１において、形態素列選択部３２３は、変数ｋがＭより大きいか判定する。変数ｋがＭより大きい場合、制御はステップＳ１６１２に進み、変数ｋがＭ以下の場合、制御はステップＳ１６０９に戻る。実施の形態において、変数ｋがＭより大きい場合、図１４に示すような未解析の文字列ｓ_０＝「が」、ｓ_１＝「便」を含む入力文全体のラティスが構築される。

ステップＳ１６１２において、形態素列選択部３２３は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び（パス）を選択する。形態素列選択部３２３は、例えば、Viterbiアルゴリズムを用いて、評価値を最小とするようなパスを選択する。例えば、文字列ｓ_０＝「が」に対して、解析結果として「が（助詞）」が選択される。例えば、文字列ｓ_１＝「便」に対して、解析結果として「便（びん）」が選択される。文字列ｓ_０＝「が」、ｓ_１＝「便」の解析結果を含む入力文全体の形態素列を図１５に示す。入力文全体のラティスを構築して形態素解析を行うことで、図９，１０のように未解析の文字列とその前後の形態素列のラティスのみから形態素解析を行うより、精度を向上できる。

実施の形態の形態素解析装置によれば、パターンマッチングにより形態素解析を行い、パターンマッチングに合致しなかったテキストに対してラティスを構築して解析を行うことで、形態素解析の精度を保ちながら高速化できる。

実施の形態の形態素解析装置によれば、パターンマッチングに合致しなかったテキストに対してのみラティスを構築して形態素解析を行うので、解析対象のテキスト全体のラティスを構築して形態素解析を行う場合に比べて、計算コストを低減できる。

図１６は、情報処理装置の構成図である。
図２の形態素解析装置１０１は、例えば、図１６に示すような情報処理装置（コンピュータ）１０を用いて実現可能である。

図１６の情報処理装置は、Central Processing Unit（ＣＰＵ）１、メモリ２、入力装置３、出力装置４、補助記憶装置５、媒体駆動装置６、及びネットワーク接続装置７を含む。これらの構成要素はバス８により互いに接続されている。

メモリ２は、例えば、Read Only Memory（ＲＯＭ）、Random Access Memory（ＲＡＭ）、フラッシュメモリ等の半導体メモリである。メモリ２は、形態素解析処理のためのプログラム及びデータを格納する。メモリ２は、記憶部４０１として用いることができる。

ＣＰＵ１（プロセッサ）は、例えば、メモリ２を利用してプログラムを実行することにより、文脈独立辞書構築部２１１、形態素解析部２２１、依存性判定部２３１、文脈独立文字列解析部３１１、ラティス構築部３２２、および形態素列選択部３２３として動作する。

入力装置３は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示や情報の入力に用いられる。出力装置４は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザ又はオペレータへの問い合わせや処理結果の出力に用いられる。処理結果は、形態素解析の結果であってもよい。

補助記憶装置５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置５にプログラム及びデータを格納しておき、それらをメモリ２にロードして使用することができる。補助記憶装置５は、記憶部４０１として用いることができる。

媒体駆動装置６は、可搬型記録媒体９を駆動し、その記録内容にアクセスする。可搬型記録媒体９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体９は、Compact Disk Read Only Memory（ＣＤ−ＲＯＭ）、Digital Versatile Disk（ＤＶＤ）、Universal Serial Bus（ＵＳＢ）メモリ等であってもよい。ユーザ又はオペレータは、この可搬型記録媒体９にプログラム及びデータを格納しておき、それらをメモリ２にロードして使用することができる。

このように、プログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ２、補助記憶装置５、及び可搬型記録媒体９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置７は、Local Area Network（ＬＡＮ）、インターネット等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェースである。情報処理装置は、ネットワーク接続装置７を介して外部の装置からプログラム及びデータを受信し、それらをメモリ２にロードして使用することができる。

情報処理装置は、ネットワーク接続装置７を介して、ユーザ端末から指示や情報を受信し、形態素解析処理を行って、処理結果をユーザ端末へ送信することもできる。

なお、情報処理装置が図１６のすべての構成要素を含む必要はなく、用途や条件に応じて一部の構成要素を省略することも可能である。例えば、ユーザ又はオペレータからの指示や情報の入力を行わない場合は、入力装置３を省略してもよく、ユーザ又はオペレータへの問い合わせや処理結果の出力を行わない場合は、出力装置４を省略してもよい。情報処理装置が可搬型記録媒体９又は通信ネットワークにアクセスしない場合は、媒体駆動装置６又はネットワーク接続装置７を省略してもよい。

以上の実施の形態に関し、さらに以下の付記を開示する。
（付記１）
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備えるコンピュータに
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する、
処理を実行させる形態素解析プログラム。
（付記２）
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する処理を前記コンピュータにさらに実行させる付記１記載の形態素解析プログラム。
（付記３）
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第１の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行う
処理を前記コンピュータにさらに実行させる付記１記載の形態素解析プログラム。
（付記４）
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部と、
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力する第１の解析部と、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する第２の解析部と、
を備える形態素解析装置。
（付記５）
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する辞書生成部と、
をさらに備えることを特徴とする付記４記載の形態素解析装置。
（付記６）
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第１の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記第１の解析部は、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記第２の解析部は、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行うことを特徴とする付記４記載の形態素解析装置。
（付記７）
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備える形態素解析装置が
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する、
処理を有する形態素解析方法。
（付記８）
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する処理をさらに有する付記７記載の形態素解析方法。
（付記９）
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第１の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行う
処理をさらに有する付記７記載の形態素解析方法。

１０１形態素解析装置
２０１辞書生成部
２１１文脈独立辞書構築部
２２１形態素解析部
２３１依存性判定部
３０１形態素解析部
３１１文脈独立文字列解析部
３２１文脈依存文字列解析部
３２２ラティス構築部
３２３形態素列選択部
４０１記憶部
４１１コーパス
４２１文脈独立辞書
４３１入力文
４４１解析結果

Claims

形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備えるコンピュータに
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する、
処理を実行させる形態素解析プログラム。
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する処理を前記コンピュータにさらに実行させる請求項１記載の形態素解析プログラム。
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第１の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行う
処理を前記コンピュータにさらに実行させる請求項１記載の形態素解析プログラム。
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部と、
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力する第１の解析部と、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する第２の解析部と、
を備える形態素解析装置。
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第１の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備える形態素解析装置が
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第１の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第２の形態素解析結果を出力する、
処理を有する形態素解析方法。