JP2008276561A

JP2008276561A - 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体

Info

Publication number: JP2008276561A
Application number: JP2007119982A
Authority: JP
Inventors: Takeshi Masuyama; 毅司増山; Shigeo Makinoda; 成男牧野田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-04-27
Filing date: 2007-04-27
Publication date: 2008-11-13
Anticipated expiration: 2027-04-27
Also published as: JP4953440B2

Abstract

【課題】未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる形態素解析装置等を提供すること。
【解決手段】文字列の中に、単語辞書記憶手段１４０に記憶されていない語である未定義語が存在する場合には、未定義語を検索条件として内部または外部の検索装置５０に検索結果を要求する検索結果要求手段と、検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出手段と、未定義語の文書ベクトルと、既知語の文書ベクトルの類似度を算出する類似度算出手段と、類似度が高い文書ベクトルに対応する既知語である類似語を特定する類似語特定手段と、類似語の品詞及びコストを未定義語に関連付ける属性付与手段と、を有し、分割手段は、未定義語属性付与手段によって未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する構成となっている。
【選択図】図３

Description

この発明は、日本語文章を自動的に単語に分割する形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記憶媒体に関する。

例えば、日本語ワープロに文字列を入力すると、その文字列が適切な言語単位に分割され、さらに、必要に応じてその言語単位に漢字が当てはめられる。文字列を適切な言語単位に分割するために、形態素解析が実施される。形態素解析においては、入力された文字列が意味を持つ最小の言語単位である形態素（Ｍｏｒｐｈｅｍｅ）に分割される場合もあるが、後述の単語辞書に複数の形態素から構成される複合語が存在する場合には、複合語に分割される場合もある。このため、本明細書において、「形態素解析」とは、文字列を単語辞書の項目（単語）に分割することである、と定義する。
このような形態素解析は、機械翻訳や自然言語インターフェース等においても、その第１段階の処理として重要な役割を有する。以下、「単語」のことを適宜、「語」とも呼ぶ。
形態素解析においては、単語辞書と連接可能性辞書が使用される。単語辞書は、各語の品詞、読み、活用型等を指定するものである。連接可能性辞書は、連接可能な２語の「タイプ」を指定するものである。連接可能性辞書における語の「タイプ」は、具体的な語であっても、品詞であっても、活用形であってもよい。文頭にあり得る語、文末にあり得る語は、「文頭」、「文末」という特別な「タイプ」と連接可能であるとする。
形態素解析結果は、入力された文字列を構成する語をノード（矩形）として、位置的かつ文法的に連接可能な単語間をエッジ（辺）としてグラフで表現される。単語分割の多義と、同形語の多義によって、文頭のノードから文末のノードまでのパス（経路）は膨大である。このため、単語に付与されたコスト（以下、「単語コスト」と呼ぶ）と、隣接する２つの単語間に付与されたコスト（以下、「連接コスト」と呼ぶ）を使用して、従来、例えば、文頭から文末までの総コストが低いパスを優先条件として、ｎ個のパスを抽出している。ここで、「単語分割の多義」とは、見出しの分割方法が異なることによる多義である。例えば、「その日本人」という文字列に対して、（ａ）「その」＋「日」＋「本人」と、（ｂ）「その」＋「日本人」という単語分割があり得る。「同形語」の多義とは、見出しが同じである場合に、その読みや品詞が異なる単語が存在することによる多義である。例えば、「工夫」という見出しに対して、「クフウ」と「コウフ」という読みがあり得る。「単語コスト」とは、その単語がどれくらい出現し易いかを示す指標である。「連接コスト」とは、隣接する２つの単語の隣接が、どれくらい出現し易いかを示す指標である。「単語コスト」及び「連接コスト」は、統計的手法によって設定される。
形態素解析においては、文頭から文末までのパスを選択して、単語列として展開された解を生成するため、単語分割の多義や同系語の多義を把握しにくい。これに対して、同系語をグループ化することにより、単語分割の多義と同系語の多義を分離した形態素解析結果を生成する技術が提案されている（例えば、特許文献１）。
そして、単語辞書に記載されていない語（以下、「未定義語」と呼ぶ）は、その多くが人名、地名、会社名等の固有名詞である。このため、一般的には、連続する漢字列、カタカナ列、記号列等が名詞であると仮定して、一律のコストと品詞を付与して処理する等、便宜的な処理で対処するようになっている。
特開２００４−３０２８９

しかし、未定義語に対して、ある仮定に基づいて一律のコストと品詞を付与して処理する場合には、例えば、未定義語が名詞ではない場合等、適切な形態素解析結果を得ることができない場合があるという問題がある。

そこで、本発明は、未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記憶媒体を提供することを目的とする。

（１）日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置であって、さらに、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求手段と、各前記既知語についての検索結果の全部または一部を１文書として文書ベクトルを算出する既知語文書ベクトル算出手段と、前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付け手段と、前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求手段と、前記検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出手段と、前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出手段と、前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定手段と、前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与手段と、を有し、前記分割手段は、前記属性付与手段によって前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する構成となっていることを特徴とする形態素解析装置。

（１）の発明によれば、形態素解析装置は、未定義語について、類似語の品詞及びコストを付与することができる。

（２）前記属性付与手段は、前記未定義語に対して、予め規定した前記類似度の範囲に属する少なくとも１つの前記類似語の品詞及びコストを関連付ける構成となっていることを特徴とする（１）に記載の形態素解析装置。

（２）の構成によれば、未定義語に複数種類の品詞及びコストを関連付けることができる。このため、入力された文字列の文頭から文末までについて、例えば、総コストの低い順に形態素解析結果を出力する場合において、未定義語の多義も考慮に入れて、より適切に複数のパス（経路）を出力することができる。

（３）さらに、前記既知語を所定のグループに分類し、各前記既知語の文書ベクトルに基づいて、前記グループの文書ベクトルを生成するグループ文書ベクトル生成手段と、前記グループと、前記グループに対応する文書ベクトルを関連付けて記憶するグループ文書ベクトル記憶手段と、を有し、前記属性付与手段は、前記未定義語の文書ベクトルと類似度が高い文書ベクトルに対応する前記グループの品詞及びコストを前記未定義語に関連付ける構成となっていることを特徴とする（１）または（２）のいずれかに記載の形態素解析装置。

（３）の構成によれば、１つの語の品詞及びコストではなくて、グループの品詞及びコストを未定義語に関連付けるから、未定義語対して、妥当な品詞及びコストを関連付けることができる。

（４）日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置が、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、各前記既知語についての検索結果の全部または一部を１文書として文書ベクトルを算出する既知語文書ベクトル算出ステップと、前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、前記検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出ステップと、前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する分割ステップと、を有することを特徴とする形態素解析方法。

（４）の発明によれば、（１）の発明と同様に、未定義語について、類似語の品詞及びコストを付与することができる。

（５）コンピュータに、日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置が、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、各前記既知語についての検索結果の全部または一部を１文書として文書ベクトルを算出する既知語文書ベクトル算出ステップと、前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、前記検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出ステップと、前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する分割ステップと、を実行させることを特徴とする形態素解析プログラム。

本発明によれば、未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる。

本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。

［第１実施形態］
（システムの概要）
図１は、本発明の第１実施形態の形態素解析システム１０（以下、「システム１０」と呼ぶ）を示す概略図である。

図１に示すように、システム１０は、形態素解析サーバ２０（以下、「サーバ２０」と呼ぶ）及び検索サーバ５０を有する。サーバ２０と検索サーバ５０は、例えば、インターネットである通信回線６０を解して通信可能になっている。サーバ２０は、入力された文字列を形態素解析するための装置であり、形態素解析装置の一例である。サーバ２０はまた、外部のパーソナルコンピュータ（ＰＣ）から通信回線６０を介して文字列（文字列を示すデータ）を示すデータを受信し、翻訳等の処理を行い、処理後のデータをそのＰＣ等へ返送するようになっている。

検索サーバ５０は、通信回線６０を介して、検索条件（「検索語」または「クエリ」とも呼ぶ）を受信し、その検索条件を使用して格納しているウェブ（Ｗｅｂ）サイトの情報を検索し、検索条件に関連するウェブ（Ｗｅｂ）サイトのＵＲＬ、そのウェブサイトのタイトル及びスニペット（説明文）を検索結果として出力するための装置であり、検索装置の一例である。検索サーバ５０は、サーバ２０や外部のＰＣから検索条件を受信する。

なお、本実施形態においては、検索サーバ５０はサーバ２０の外部の装置として構成しているが、検索サーバ５０とサーバ２０を一体として、検索サーバ５０をサーバ２０の内部の検索装置としてもよい。

（サーバ２０の主なハードウェア構成）
図２は、サーバ２０の主なハードウェア構成を示す概略図である。サーバ２０は、コンピュータであり、バス２２を有する。バス２２には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２４、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２６、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２８、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）３０、電源装置３２、入力装置３４、通信装置３６及び表示装置３８が接続されている。ＣＰＵ２４は、ＲＯＭ２８に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウェアとその各種プログラムを協働させ、本実施形態に係る各種機能を実現している。ＲＡＭ２６は、プログラムの実行に使用するローカルメモリである。入力装置３４は、各種データの入力の受付を行うものであり、キーボード、ポインティング・デバイス等を含んでよい。表示装置３８は、ユーザにデータの入力を受け付ける画面を表示したり、当該コンピュータによる演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

（サーバ２０の主なソフトウェア構成）
図３は、サーバ２０の主なソフトウェア構成を示す概略図である。図３に示すように、
サーバ２０は、既知語文書ベクトル生成部１００、文字列受付部１１０、単語分割部１１２、ベストパス探索部１１４、アプリケーション部１１６及び単語クラスタリング部１２０を有する。サーバ２０は、また、単語辞書ＤＢ１４０及び連接可能性辞書ＤＢ１４２を有する。上述の各部は、ＣＰＵ２４とＲＯＭ２８に格納された各種プログラムによって実現される。

既知語文書ベクトル生成部１００は、単語辞書ＤＢ１４０に格納される単語について、後述のように、文書ベクトルを生成するための構成である。文字列受付部１１０は、通信装置３６によって外部から受信した文字列を受け付けるための構成である。単語分割部１１２は、文字列受付部１１０によって受け付けた文字列を形態素解析して解析結果を生成するための構成である。単語分割部１１２は、分割手段の一例である。単語クラスタリング部１２０は、未定義語について、品詞とコストを関連付けるための構成である。ベストパス探索部１１４は、形態素解析された文字列について、所定の条件に基づいて、少なくとも１つの経路（パス）を特定するための構成である。単語辞書ＤＢ１４０は、日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶しており、単語辞書記憶手段の一例である。連接可能性辞書ＤＢ１４２は、隣接する単語間が文法的に接続することができる条件を記憶しており、連接可能性辞書記憶手段の一例である。

図４は、単語辞書ＤＢ１４０の一例を示す図である。
図４に示すように、単語辞書ＤＢ１４０は、単語辞書を格納している。
単語辞書は、表記（見出し）、読み、品詞、コスト及び文書ベクトルが関連付けられて構成されている。単語辞書は、実際には、トライ（Ｔｒｉｅ）構造等の高速検索可能な形式に変換されている。

図５は、連接可能性辞書の一例を示す図である。図６は、連接可能性辞書ＤＢ１４２の一例を示す図である。
まず、連接可能性辞書ＤＢ１４２の構成を説明する前提として、図５を使用して、連接可能性辞書について説明する。連接可能性辞書には、隣接する２語（例えば、左側の語と右側の語）が、文法的に接続可能であるか否かについての情報が記載されている。連接可能性辞書には、例えば、現在の日本語において、横書の場合、左から右に向かって記載するのが通常であるから、先行する左側の語に対して、後続する右側の語がどのようなタイプ（品詞、または、具体的な単語）であるかが示されている。

連接可能性辞書ＤＢ１４２には、サーバ２０による高速処理が可能なように、連接可能性辞書が、図６に示すように、連接可能性行列に変換されて格納されている。連接可能性行例においては、行が左側にあらわれる語のタイプを示し、列が右側にあらわれる語のタイプが示されている。左側の語のタイプと右側の語のタイプが連接可能であれば、行列の値が１に設定され、連接不可能であれば行列の値が０に設定される。

上述の単語辞書ＤＢ１４０に格納される単語（以下、「既知語」とも呼ぶ）には、既知語文書ベクトル生成部１００によって、文書ベクトルが関連付けられる。「文書ベクトル」は、出現単語に基づいて文書（または、文章）を１つのベクトルで表現したものである。言い換えると、「文書ベクトル」とは、１つの文書に対する出現単語の重要度（頻度等）を成分とするベクトルのことであり、本明細書においては、自然言語処理の分野における通常の意味で使用する。図３に示すように、既知語文書ベクトル生成部１００は、既知語検索結果要求部１０２、既知語文書ベクトル算出部１０４及び既知語文書ベクトル関連付け部１０６を有する。既知語検索結果要求部１０２は、各既知語を検索条件（「検索語」、「クエリ」とも呼ぶ）として、検索サーバ５０に対して検索結果を要求するための構成であり、既知語検索結果要求手段の一例である。既知語文書ベクトル算出部１０４は、検索サーバ５０から受信した検索結果のうち予め規定したＫ（Ｋは、自然数）ページを１文書として文書ベクトルを算出するための構成であり、既知語文書ベクトル算出手段の一例である。なお、文書ベクトルの算出については、検索結果におけるタイトルとスニペットの１組を１ページとする。スニペットとは、検索結果のタイトルに続いて表示されるテキストである。既知語文書ベクトル関連付け部１０６は、各既知語に対して、その文書ベクトルを関連付けるための構成であり、既知語文書ベクトル関連付け手段の一例である。

図７は、既知語文書ベクトル生成部１００の説明図である。
既知語検索結果要求部１０２は、既知語である「トラックバック」、「車」等の既知語を検索条件として、検索サーバ５０に対して検索結果を要求する。既知語検索結果要求部１０２は、図７（ａ）に示すように、検索サーバ５０から検索結果を受信する。

既知語文書ベクトル算出部１０４は、検索結果から、上位Ｋページの検索結果を特定する。そして、図７（ｂ）に示すように、上位Ｋページの検索結果のタイトルとスニペットから、クエリ以外の語を抽出し、１文書を生成する。そして、式１を使用して、文書ベクトルを算出する。

式１においては、ＴＦ・ＩＤＦ法によって、図７（ｃ）に示すように、各語の重み付けが行われる。ＴＦ・ＩＤＦ法によって、ある文書における出現頻度が高く、すべての文書のうち特定の文書に偏在する単語が、その文書の特徴を表す単語であると看做されて、重み付けが重くなる。具体的には、例えば、サーバ２０内の図示しない文書記憶ＤＢに記憶した複数の文書データを参照し、各単語の当該文書内における出現回数及び出願文書数を算出し、重要度が算出される。
そして、既知語文書ベクトル関連付け部１０６は、各既知語に対して、その文書ベクトルを関連付ける。

図８、図９及び図１０は、単語分割部１１２の説明図である。
例えば、図８（ａ）に示すように、「このひとことで元気になった」という文字列が単語分割部１１２に入力されたとする。
単語分割部１１２は、図８（ｂ）に示すように、文字列の位置（文字と文字の間、文頭では文字の左側、文末では文字の右側）を示すポインターを設定する。初期状態として、ポインターを位置０（先頭の文字「こ」の左側）に設定する。また、「文頭」という仮想的なノードを設定する。
続いて、単語分割部１１２は、ポインター位置（以下、「始点」と呼ぶ）から始まる語を単語辞書ＤＢ１４０を参照して検索する。図８（ｂ）の始点０からは、「この（連体詞」と「こ（接尾辞：個）」が検索される。単語分割部１１２は、始点を後方（右側）に１文字づつずらしながら、単語辞書ＤＢ１４０を参照して網羅的に単語辞書ＤＢ１４０から単語を抽出する。始点ｎから始まる語を単語辞書ＤＢ１４０から抽出する処理を、「始点ｎ（ｎは、０及び自然数）についての単語抽出処理」と呼ぶ。
単語分割部１１２は、始点で終わっている語（位置０の場合は「文頭」、以下「先行語」と呼ぶ）と始点から始まる語（位置０の場合は「この」及び「こ」、以下「後続語」と呼ぶ）の各ペアについて、連接可能性辞書ＤＢ１４２を参照し、図８（ｃ）に示すように、連接可能なものがあればその間にリンクをはる。後続語の中で、いずれの先行語とも連接可能ではない語は排除する。図８（ｃ）の例では、「こ」は排除される。
ポインターが文末位置（図８（ｂ）の例では位置１３）に来ると、「文末」という仮想的なノードを設定し、文末位置で終わっている語（図８（ｂ）の例では「た」）と「文末」との連接可能性を調べ、連接可能なものだけを「文末」ノードにリンクして処理を終了する。
最終的に、「文頭」ノードから「文末」ノードまでの経路（パス）が、入力された文字列に対する形態素解析結果となる。

上述の単語分割部１１２は、各ノードとリンクに適当なコストを付与する。各ノードのコストは単語辞書ＤＢ１４０に記憶されており、リンクのコストは連接可能性辞書ＤＢ１４２に記憶されている（図示せず）。
先行語と後続語が連接可能な場合に、文頭から先行語までの部分最小コストと、先行語と後続語との間の連接コストと、後続語の単語コストの和が最小であるような先行語と後続語の間に、図９に示すように、特別のマークをつける。例えば、図９においては、その特別のマークは、太線として示されている。

ベストパス探索部１１４は、コストが小さいことを優先条件として、予め規定された所定数のパスを特定する。ベストパス探索部１１４は、例えば、コスト最小法を用いる。なお、本実施形態とは異なり、ベストパスの特定方法としては、最長一致法、２文節最長一致法、形態素数最小法、文節数最小法（「岩波講座ソフトウェア科学１５自然言語処理長尾真編岩波書店」等参照）等を使用してもよい。
アプリケーション部１１６は、形態素解析結果（パス）の入力を受け、例えば、必要に応じて漢字に変換するワープロ部である。なお、アプリケーション部１１６は、一般的なワープロソフトや翻訳ソフトを含んで構成されるから、説明を省略する。

単語分割部１１２が受け付けた文字列に、未定義語が存在しない場合には、上述の処理で形態素解析を完了することができる。これに対して、文字列に未定義語が存在する場合には、単語クラスタリング部１２０が起動する。

図１０（ａ）に示すように、単語分割部１１２に入力される文字列が、例えば、「面白いと思った記事をどんどんトラバしていく」であるとする。「トラバ」は未定義語である。単語分割部１１２は、図１０（ｃ）に示すように、各始点から開始する語を単語辞書ＤＢ１４０から抽出していく。なお、説明の便宜のため、図１０（ｃ）においては、パスを１つだけ記載し、かつ、すべてのノードをリンクしている。

図１０（ｂ）の始点１４から開始する語を単語辞書ＤＢ１４０から抽出することができない。そして、始点１４についての単語抽出に続いて、始点１５、始点１６についての単語抽出処理を行っても単語辞書ＤＢ１４０から語を抽出することはできない。さらに、始点１７についての単語抽出処理を行うと、単語辞書ＤＢ１４０から単語「して」を抽出することができる。この場合、単語抽出ができなかった始点１４から、単語抽出ができた始点１７までの間の文字列「トラバ」が未定義語である。単語分割部１１２は、未定義語を単語クラスタリング部１２０へ送信する。単語クラスタリング部１２０は未定義語を受信することによって起動する。

図３に示すように、単語クラスタリング部１２０は、検索結果要求部１２２、文書ベクトル生成部１２４、類似度算出部１２６、類似語特定部１２８及び属性付与部１３０を有する。検索結果要求部１２２は、未定義語を検索条件として、検索サーバ５０に対して検索結果を要求するための構成であり、検索結果要求手段の一例である。文書ベクトル生成部１２４は、検索サーバ５０から受信した検索結果のうち予め規定したＫページを１文書として文書ベクトルを算出するための構成であり、文書ベクトル算出手段の一例である。類似度算出部１２６は、未定義語の文書ベクトルと、既知語の文書ベクトルの類似度を評価するための構成であり、類似度算出手段の一例である。類似語特定部１２８は、類似度が最も高い文書ベクトルに対応する既知語である類似語を特定するための構成であり、類似語特定手段の一例である。属性付与部１３０は、類似語の品詞及びコストを未定義語に関連付けるための構成であり、属性付与手段の一例である。

図１１及び図１２は、単語クラスタリング部１２０の説明図である。
検索結果要求部１２２は、未定義語である「トラバ」を検索条件として、検索サーバ５０に対して検索結果を要求する。検索結果要求部１２２は、検索サーバ５０から、例えば、図１１（ａ）に示す検索結果を受信する。

文書ベクトル生成部１２４は、検索結果から、上位Ｋページの検索結果を特定する。そして、図１１（ｂ）に示すように、上位Ｋページの検索結果のタイトルとスニペットから、クエリ以外の語を抽出し、１文書を生成する。そして、この１文書について、上述の式１を使用して、文書ベクトルを算出する。

類似度算出部１２６は、式２を使用して、「トラバ」の文書ベクトルと、既知語の文書ベクトルの類似度を算出する。

例えば、図１２（ａ）に示すように、未定義語である「トラバ」の文書ベクトルと既知語である「トラックバック」の文書ベクトルの類似度は０．１２６であり、未定義語である「トラバ」の文書ベクトルと既知語である「車」の文書ベクトルの類似度は０．０１１である。

類似語特定部１２８は、すべての既知後の中で、既知語である「トラックバック」の文書ベクトルと「トラバ」の文書ベクトルの類似度が最も高い場合には、「トラックバック」を「トラバ」の類似語として特定する。

属性付与部１３０は、類似語である「トラックバック」の品詞及びコストを未定義語である「トラバ」に付与する。

単語クラスタリング部１２０は、このようにして、未定義語に品詞及びコストを付与すると、その未定義語と品詞及びコストを単語分割部１１２に送信する。単語分割部１１２は、受信した未定義語と品詞及びコストを使用して、未定義語の末尾と次の文字の間の位置を始点として、形態素解析処理を継続する。

以上が、サーバ２０の構成である。以下、主に図１３、図１４及び図１５を使用して、サーバ２０の動作例を説明する。主に図１３、図１４、図１５及び図１６は、サーバ２０の動作例を示す概略フローチャートである。

（サーバの動作例）
まず、サーバ２０が、文字列の入力を受け付ける（図１３のステップＳ１）。続いて、サーバ２０が、単語辞書ＤＢ１４０及び連接可能性辞書ＤＢ１４２を参照し、文字列の形態素解析を行う（ステップＳ２）。ステップＳ２は、分割ステップの一例である。続いて、サーバ２０は、総コストが小さいことを優先条件として、予め規定された数のパスを出力する（ステップＳ３）。
サーバ２０は、また、例えば、２４時間毎等、定期的に既知語についての文書ベクトルの生成及び更新を行っている。具体的には、サーバ２０は、既知語をクエリとして検索サーバ５０に検索結果を要求し、検索結果を取得する（図１４のステップＳ１１）。ステップＳ１１は、既知語検索結果要求ステップの一例である。続いて、サーバ２０は、上位Ｋページについて、タイトルとスニペットからクエリ以外のターム（語）を抽出し（ステップＳ１２）、各タームに重み付けを行い、文書ベクトルを生成する（ステップＳ１３）。ステップＳ１２及びステップＳ１３は、既知語文書ベクトル算出ステップの一例である。続いて、サーバ２０は、既知語と、その文書ベクトルを関連付けて、単語辞書ＤＢ１４０に記憶する（ステップＳ１４）。ステップＳ１４は、既知語文書ベクトル関連付けステップの一例である。

ここで、上述のステップＳ２について図１５及び図１６を使用して説明する。
まず、サーバ２０は、始点から始まる語（後続語）を単語辞書ＤＢ１４０から検索する（図１５のステップＳ１０１）。続いて、始点が文末に来たか否かを判断し（ステップＳ１０２）、始点が文末に来ていないと判断した場合には、ステップＳ１０１及びステップＳ１０２を繰り返す。これに対して、ステップＳ１０２において、始点が文末に来たと判断した場合には、各始点から始まる語が単語辞書ＤＢ１４０から検索されたか否かを判断する（ステップＳ１０３）。ステップＳ１０３において、語が検索されたと判断した場合には、後続語に既知語の品詞とコストを関連付ける（ステップＳ１０４）。これに対して、ステップＳ１０３において、語が検索されないと判断した場合には、未定義語処理をする（ステップＳ１０４Ａ）。

未定義後処理（ステップＳ１０４Ａ）の詳細を、図１６を使用して説明する。
まず、サーバ２０は、未定義語をクエリとして検索サーバ５０に検索結果を要求し、検索結果を取得する（図１６のステップＳ２０１）。ステップＳ２０１は、検索結果要求ステップの一例である。続いて、検索結果の上位Ｋページについて、タイトルとスニペットからクエリ以外の語を抽出し（ステップＳ２０２）、各語に重み付けを行い、上位Ｋページを１文書として文書ベクトルを生成する（ステップＳ２０３）。ステップＳ２０２及び
ステップＳ２０３は、文書ベクトル算出ステップの一例である。続いて、クエリとして未定義語の文書ベクトルと、単語辞書ＤＢ１４０に記憶されたすべての既知語の文書ベクトルとの類似度を算出する（ステップＳ２０４）。ステップＳ２０４は、類似度算出ステップの一例である。続いて、クエリとした未定義語に対して、その未定義語についての文書ベクトルと類似度が最も高い既知語を類似語として特定する（ステップＳ２０５）。ステップＳ２０５は、類似語特定ステップの一例である。続いて、サーバ２０は、クエリとした未定義語に対して、その類似語の品詞とコストを関連付ける（ステップＳ２０６）。ステップＳ２０６は、属性付与ステップの一例である。

ステップＳ１０４またはステップＳ１０４Ａに続いて、始点で終わる語（先行語）と後続語が連接可能かを判断する（ステップＳ１０５）。なお、文末位置で終わっている語については、文末との連接が可能か否かを判断する。ステップＳ１０５において、連接可能であると判断した場合には、先行語と後続語との間にリンクを張る（ステップＳ１０６）。ステップＳ１０５において、連接可能であると判断しなかった場合には、その後続語は排除する（ステップＳ１０６Ａ）。

上述のように、サーバ２０は、未定義語については、類似語の品詞及びコストを付与することができる。このため、未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる。

［変形例］
次に、上述の第１実施例の変形例を説明する。
図１７は、第１実施例の変形例の説明図である。

変形例においては、サーバ２０の類似語特定部１２８（図３参照）において、類似語を特定するための類似度の閾値ｔが設定されている。例えば、図１７に示すように、「スタンばる」という語について、文書ベクトル生成部１２４（図３参照）が、文書ベクトルａを生成するとする。類似度算出部１２６は、未定義語の「スタンばる」と既知語の「スタンバイ」、「待機する」、「待つ」等の語との類似度を算出する。類似語特定部１２８は、類似度が、閾値ｔよりも大きい語を、類似語として特定する。例えば、「スタンバイ」の類似度ｘ１、「待機する」の類似度ｘ２及び「待つ」の類似度ｘ３が、閾値ｔよりも大きい場合には、これら３語を類似語として特定するようになっている。

これにより、未定義語に複数種類の品詞及びコストを関連付けることができる。このため、入力された文字列の文頭から文末までについて、例えば、総コストの低い順に形態素解析結果を出力する場合において、未定義語の多義も考慮に入れて、より適切に複数のパス（経路）を出力することができる。

［第２実施例］
次に、第１実施例との相違を中心に、第２実施例を説明する。
図１８は、第２実施例の説明図である。

図１８（ａ）に示すように、第２実施例においては、サーバ２０の単語辞書ＤＢ１４０には、単語の文書ベクトルに加えて、「グループ」の文書ベクトルが記憶されている。「グループ」とは、例えば、「スタンバイ」、「待機する」、「待つ」という互いに類似する概念を有する語の集合を意味し、「クラスタ」とも呼ぶ。既知語文書ベクトル算出部１０４は、各既知語の文書ベクトルに加えて、各既知語の類似度が所定範囲である語によるグループを構成し、各グループ（クラスタ）の文書ベクトルを算出する。グループの文書ベクトルは、グループを構成する各語の文書ベクトルの和として算出される。具体的には、既知語文書ベクトル算出部１０４はグループの文書ベクトルを式３を使用して算出する。

既知語文書ベクトル算出部１０４は、グループ文書ベクトル生成手段でもある。そして、グループ及びグループの文書ベクトルは、単語辞書ＤＢ１４０に記憶される。単語辞書ＤＢ１４０は、グループ文書ベクトル記憶手段の一例でもある。

文書ベクトル生成部１２４（図３参照）が、図１８（ｂ）に示すように、未定義語「スタンばる」についての文書ベクトルａを生成するとする。類似度算出部１２６は、式４を使用して、未定義語の「スタンばる」と既知語のグループの文書ベクトルとの類似度を算出する。

類似語特定部１２８は、類似度が最も高いグループを、類似語として特定するようになっている。

以上のように、第２実施例のサーバ２０は、１つの語の品詞及びコストではなくて、グループの品詞及びコストを未定義語に関連付けるから、未定義語対して、一層妥当な品詞及びコストを関連付けることができる。

（プログラム及びコンピュータ読み取り可能な記録媒体等について）
コンピュータに上述の動作例の既知語検索結果要求ステップと、既知語文書ベクトル算出ステップと、既知語文書ベクトル関連付けステップと、検索結果要求ステップと、文書ベクトル算出ステップと、類似度算出ステップと、類似語特定ステップと、属性付与ステップと、分割ステップ等を実行させるためのサーバの制御プログラムとすることができる。

これらサーバの制御プログラム等をコンピュータにインストールし、コンピュータによって実行可能な状態とするために用いられるプログラム格納媒体は、例えばフロッピー（登録商標）のようなフレキシブルディスク、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｃ−Ｒｅｃｏｒｄａｂｌｅ）、ＣＤ−ＲＷ（ＣｏｍｐａｃｔＤｉｓｃ−Ｒｅｗｒｉｔｅｒｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のパッケージメディアのみならず、プログラムが一時的若しくは永続的に格納される半導体メモリ、磁気ディスクあるいは光磁気ディスク等で実現することができる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

第１実施形態の一例に係る形態素解析システムを示す概略図である。サーバの主なハードウェア構成を示す概略図である。サーバの主なソフトウェア構成を示す概略図である。単語辞書ＤＢの一例を示す図である。連接可能性辞書の一例を示す図である。連接可能性辞書ＤＢの一例を示す図である。既知語文書ベクトル生成部の説明図である。単語分割部の説明図である。単語分割部の説明図である。単語分割部の説明図である。単語クラスタリング部の説明図である。単語クラスタリング部の説明図である。サーバの動作例を示す概略フローチャートである。サーバの動作例を示す概略フローチャートである。サーバの動作例を示す概略フローチャートである。サーバの動作例を示す概略フローチャートである。第１実施例の変形例の説明図である。第２実施例の説明図である。

符号の説明

１０形態素解析システム
２０形態素解析サーバ
５０検索サーバ
１００既知語文書ベクトル生成部
１０２既知語検索結果要求部
１０４既知語文書ベクトル算出部
１０６既知語文書ベクトル関連付け部
１１０文字列受付部
１１２単語分割部
１１４ベストパス探索部
１１６アプリケーション部
１２０単語クラスタリング部
１２２検索結果要求部
１２４文書ベクトル生成部
１２６類似度算出部
１２８類似語特定部
１３０属性付与部
１４０単語辞書ＤＢ
１４２連接可能性辞書ＤＢ

Claims

日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、
隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、
入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、
を有する形態素解析装置であって、
さらに、
前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求手段と、
各前記既知語についての検索結果の全部または一部を１文書として文書ベクトルを算出する既知語文書ベクトル算出手段と、
前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付け手段と、
前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求手段と、
前記検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出手段と、
前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出手段と、
前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定手段と、
前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与手段と、
を有し、
前記分割手段は、前記属性付与手段によって前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する構成となっていることを特徴とする形態素解析装置。
前記属性付与手段は、前記未定義語に対して、予め規定した前記類似度の範囲に属する少なくとも１つの前記類似語の品詞及びコストを関連付ける構成となっていることを特徴とする請求項１に記載の形態素解析装置。
前記形態素解析装置は、
さらに、前記既知語を所定のグループに分類し、各前記既知語の文書ベクトルに基づいて、前記グループの文書ベクトルを生成するグループ文書ベクトル生成手段と、
前記グループと、前記グループに対応する文書ベクトルを関連付けて記憶するグループ文書ベクトル記憶手段と、
を有し、
前記属性付与手段は、前記未定義語の文書ベクトルと類似度が高い文書ベクトルに対応する前記グループの品詞及びコストを前記未定義語に関連付ける構成となっていることを特徴とする請求項１または請求項２のいずれかに記載の形態素解析装置。
日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置が、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、
各前記既知語についての検索結果の全部または一部を１文書として文書ベクトルを算出する既知語文書ベクトル算出ステップと、
前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、
前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、
前記検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出ステップと、
前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、
前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、
前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、
前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する分割ステップと、
を有することを特徴とする形態素解析方法。
コンピュータに、
日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置が、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、
各前記既知語についての検索結果の全部または一部を１文書として文書ベクトルを算出する既知語文書ベクトル算出ステップと、
前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、
前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、
前記検索結果の全部または一部を１文書として文書ベクトルを算出する文書ベクトル算出ステップと、
前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、
前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、
前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、
前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する分割ステップと、
を実行させることを特徴とする形態素解析プログラム。