JP6558856B2 - 形態素解析装置、モデル学習装置、及びプログラム - Google Patents

形態素解析装置、モデル学習装置、及びプログラム Download PDF

Info

Publication number
JP6558856B2
JP6558856B2 JP2016073077A JP2016073077A JP6558856B2 JP 6558856 B2 JP6558856 B2 JP 6558856B2 JP 2016073077 A JP2016073077 A JP 2016073077A JP 2016073077 A JP2016073077 A JP 2016073077A JP 6558856 B2 JP6558856 B2 JP 6558856B2
Authority
JP
Japan
Prior art keywords
word
notation
regular
model
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016073077A
Other languages
English (en)
Other versions
JP2017182707A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016073077A priority Critical patent/JP6558856B2/ja
Publication of JP2017182707A publication Critical patent/JP2017182707A/ja
Application granted granted Critical
Publication of JP6558856B2 publication Critical patent/JP6558856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、形態素解析装置、モデル学習装置、及びプログラムに関する。
従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するためのモデルを学習する手法が提案されている。教師データを用いた手法としては、非特許文献1及び非特許文献2に記載されている識別学習に基づく表記正規化と形態素解析を用いた手法が挙げられる。
また、非特許文献3に記載されているように、文字変換ルールを用いた表記正規化と形態素解析手法が知られている。
図8及び図9に、従来技術を説明するための図を示す。図8に示すように、従来技術では入力文を受け付けると、文字列変換を考慮した辞書引きによる単語ラティスの生成が行われる。そして、生成された単語ラティスに基づいて、最適形態素列の選択が行われる。
文字列変換では、予め生成された文字列変換モデル(ルール)によって正規語が列挙され、例えば「ーっ→null」「ん→の」「ねー→ない」などの文字列変換が考慮されて辞書引きが行われる。例えば、図9に示すように、入力文「すーっごくうれしぃ」が入力された場合、「ーっ→null」の文字列変換が行われる。そして、入力文から「ーっ」が削除された文字列が辞書引きされ、「すーっごく」は正規語である「すごく」に該当する。
また、言語モデルの素性によって正規語列の評価が行われ、正規語の言語モデルによる正規語列の起こりやすさと、文字列変換確率(P(null|ーっ))等を素性とした目的関数が定義される。
Nobuhiro Kaji and Masaru Kitsuregawa. , "Accurate word segmentation and pos tagging for japanese microblogs: Corpus annotation and joint modeling with lexical normalization.", In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 99-109,Doha, Qatar, October 2014 Association for Computational Linguistics. Itsumi Saito, Kugatsu Sadamitsu, Hisako Asano,and "Yoshihiro Matsuo. Morphological analysis for japanese noisy text based on character-level and word-level normalization." , In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pp.1773-1782, Dublin, Ireland, August 2014. Dublin City University and Association for Computational Linguistics. 勝木他、「web上の多彩な言語バリエーションに対応した頑健な形態素解析」、(2011)、言語処理学会、第17回年次大会発表論文集
入力文の文字列を動的展開する場合、従来技術では同じルールに関しては全て同じコスト(確率)が付与されていた。しかし、同じルールに関して同一コストを与えてしまうと、解析の悪化が起こりうる。例えば、「っ→null」のルールを動的展開する場合、P(null|っ)はどのような文脈でも同じコストとなる。例えば、「すっごい→すごい」の変換コストと「いってきた」→「いてきた」の変換コストが同一となる。
また、通常の言語モデルを用いて正規語列を評価する場合、単語の表層そのものを用いるため、考慮する文脈が長くなるほど、スパースなモデルになってしまい、特にコーパスに出現しなかったn−gram確率を適切に評価することが難しい。
本発明は、上記問題点を解決するために成されたものであり、表記正規化と形態素解析とを精度よく行うことができる形態素解析装置、モデル学習装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る形態素解析装置は、入力テキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部により生成された前記ラティスにおける前記ノードを結んだ各経路に対する、前記経路上の各ノードの前記単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される、前記単語分割候補に付与された正規表記語より前に出現する正規表記語列を表すベクトル表記が与えられたときの、前記単語分割候補に付与された正規表記語を表すベクトル表記の確率、又は前記経路上の各ノードの前記単語分割候補の各々に付与された正規表記語の各文字ついての、文字レベルのニューラルネットワーク言語モデルを用いて算出される、前記文字より前に出現する正規表記の文字列を表すベクトル表記が与えられたときの、前記文字を表すベクトル表記の確率を素性として含む素性ベクトルと、テキストに対する形態素解析を行うための予め学習されたモデルとに基づいて、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性ベクトルと前記モデルとから得られるスコアが最適となる経路を選択し、選択した経路が表す形態素解析結果を出力する形態素解析部と、を含んで構成されている。
第2の発明に係るモデル学習装置は、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部により生成された前記ラティスにおける、前記ノードを結んだ各経路に対する、前記経路上の各ノードの前記単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される、前記単語分割候補に付与された正規表記語より前に出現する正規表記語列を表すベクトル表記が与えられたときの、前記単語分割候補に付与された正規表記語を表すベクトル表記の確率、又は前記経路上の各ノードの前記単語分割候補の各々に付与された正規表記語の各文字ついての、文字レベルのニューラルネットワーク言語モデルを用いて算出される、前記文字より前に出現する正規表記の文字列を表すベクトル表記が与えられたときの、前記文字を表すベクトル表記の確率を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルを学習するモデル学習部と、を含んで構成されている。
第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る形態素解析装置又は上記第2の発明に係るモデル学習装置の各部として機能させるためのプログラムである。
本発明の形態素解析装置、及びプログラムによれば、入力テキストに対してラティスを生成し、ラティスにおけるノードを結んだ各経路に対する、経路上の各ノードの単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される正規表記語を表すベクトル表記の確率、及び文字レベルのニューラルネットワーク言語モデルを用いて算出される、文字を表すベクトル表記の確率を素性として含む素性ベクトルと、テキストに対する形態素解析を行うための予め学習されたモデルとに基づいて、生成されたラティスにおけるノードを結んだ各経路のうち、素性ベクトルとモデルとから得られるスコアが最適となる経路を選択し、選択した経路が表す形態素解析結果を出力することにより、表記正規化と形態素解析とを精度よく行うことができる、という効果が得られる。
また、本発明のモデル学習装置、及びプログラムによれば、崩れ表記語に対する正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、ラティスを生成し、ラティスにおける、ノードを結んだ各経路に対する、経路上の各ノードの単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される、正規表記語を表すベクトル表記の確率、及び文字レベルのニューラルネットワーク言語モデルを用いて算出される、文字を表すベクトル表記の確率を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルを学習することにより、表記正規化と形態素解析とを精度よく行うためのモデルを学習することができる、という効果が得られる。
崩れ表記語の一例を示す図である。 本発明の実施の形態に係る形態素解析装置の構成を示すブロック図である。 生成されるラティスの一例を示す図である。 素性の一例と出力される形態素解析結果の一例を示す図である。 本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。 従来技術を説明するための説明図である。 従来技術を説明するための説明図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本発明の実施の形態は、例えば、従来の形態素解析器では考慮されていないweb上の崩れた表記を頑健に解析するための技術である。
本発明の実施の形態では、崩れた表記(以下、崩れ表記と称する)とは、口語調やweb上特有の書き言葉など、新聞などの正書法では現れない表記をいう。
崩れ表記としては、例えば図1に示すように、「うるせーな」「すっげーー」「すんばらしい」等の口語調の崩れ表記、「ぁりがとう」「いぃなー」等の小書き文字の崩れ表記、「ウレシイ」「イッテキタ」等のカタカナ化された崩れ表記、「あいす」「がっこう」「せんせい」等のひらがな化された崩れ表記、「やばかた」「しますた」「まぢ」等のネット語の崩れ表記などがある。
本実施の形態では、上記のような崩れ表記に対し、文字レベルのニューラルネットワーク言語モデルを用いて、文字列の並びによって異なるコスト(確率値)を表す素性を算出することにより、文字列の動的展開による変換精度の向上を試みる。
また、単語レベルのニューラルネットワーク言語モデルを用いて正規語の並びを評価することにより、すべての(既知)単語列に対して文脈を考慮した異なる確率を素性として算出する。
<本発明の実施の形態に係る形態素解析装置の構成>
次に、本発明の実施の形態に係る形態素解析装置の構成について説明する。図2に示すように、本発明の実施の形態に係る形態素解析装置100は、CPUと、RAMと、後述する形態素処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この形態素解析装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部40とを備えている。
入力部10は、解析対象である入力テキストを受け付ける。
演算部20は、文字列変換モデル記憶部22と、形態素解析辞書24と、ラティス生成部26と、形態素解析モデル記憶部28と、形態素解析部30とを備える。
文字列変換モデル記憶部22には、予め生成された文字列変換モデルが記憶されている。文字列変換モデルは、入力された崩れ表記語を、正規表記語へ文字列変換する。
形態素解析辞書24には、語の表記、品詞、読みなどの情報が格納されている。本実施形態では、形態素解析辞書24に存在している語を「正規表記語」と定義し、正規表記語の表記を「正規表記」と定義する。また、形態素解析辞書24には存在せず、正規表記語の異形として出現する語を「崩れ表記語」とし、崩れ表記語の表記を「崩れ表記」とする。崩れ表記語は、正規表記語に対する揺らいだ表記である。また、テキストで出現した表記であり、正規表記語と崩れ表記語の双方を含む表記を「表出表記」とする。
形態素解析辞書24には、一般的な形態素解析辞書を用いることができ、例えばJtag辞書(出願人によって整備されている辞書)などを用いることができる。Jtag辞書に格納されている情報の一例としては、例えば以下のようなものがある。
(Jtag辞書に格納されている情報の一例)
かっぱ-寿司,名詞:固有:組織,100,カッパ'-ズシ,,,,,374:428,88
ラティス生成部26は、入力部10によって受け付けられた入力テキストに対して、文字列変換モデル記憶部22に記憶された文字列変換モデルと、形態素解析辞書24に格納された正規表記語の各々とに基づいて、単語分割候補のラティスを生成する。ここで、ラティスとは、正規表記語又は崩れ表記語である単語分割候補であって、崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造である。
具体的には、ラティス生成部26は、文字列変換モデル記憶部22に記憶された文字列変換モデルと、形態素解析辞書24に格納された正規表記語の各々とに基づいて、入力テキストに含まれる文字列を文字列変換モデルで拡張して辞書引きを行い、単語分割候補の各々を取得する。そして、ラティス生成部26は、取得した単語分割候補の各々に基づいて、ラティスを生成する。なお、文字列変換モデルによる文字列の変換は、予め辞書に展開されていてもよい。
図3に、ラティスの一例を示す。図3に示すように、入力テキスト「すーっごくうれしぃ」が入力された場合、ラティス生成部26は、崩れ表記語「すーっごく」が正規表記語「すごく」に変換された単語分割候補と、崩れ表記語「すーっごく」が「すー」「っ」「ごく」に分割された単語分割候補とを含むラティスを生成する。
形態素解析モデル記憶部28には、後述するモデル学習装置200によって予め学習された、テキストに対する形態素解析を行うためのモデルが記憶されている。
形態素解析部30は、ラティス生成部26によって生成されたラティスの各経路に対する、予め生成された単語レベルのニューラルネットワーク言語モデルを用いて算出された素性及び予め生成された文字レベルのニューラルネットワーク言語モデルを用いて算出された素性を含む素性ベクトルと、テキストに対する形態素解析を行うための予め学習されたモデルとに基づいて、入力テキストの形態素解析を行う。
本発明の実施の形態では、単語レベルのニューラルネットワーク言語モデルと、文字レベルのニューラルネットワーク言語モデルとを用いて素性を算出する。
ここで、単語レベルのニューラルネットワーク言語モデルについて説明する。ニューラルネットワーク言語モデルは、単語をベクトルによって表現し、ベクトル表現に基づく次単語の予測を行う。従来の言語モデルが固定長の文脈において単語の表層そのものを用いて単語列のもっともらしさを表現するのに対し、ニューラルネットワーク言語モデルは、単語のベクトル表現を用いて次の単語を予測するため、スパース性を軽減することができる。以下の式(1)〜(5)に、ニューラルネットワーク言語モデルに関する式を示す(参考文献1参照)。
ここで、上記式(1)におけるx(t)はニューラルネットワーク言語モデルの入力層を表す。また、w(t)は時刻tにおける単語を表すベクトル表記であり、s(t−1)は文脈を表す。また、s(t)は隠れ層を表し、y(t)は時刻tにおける求めたい単語の出現確率を表す。なお、kは単語のインデックスを表す。また、上記式(2)におけるujiは、隠れ層s(t)の入力層x(t)に対する重みを表す。また、上記式(3)におけるvkjは、出現確率y(t)の隠れ層s(t)に対する重みを表す。
[参考文献1]Mikolov et al.,“Recurrent neural network based language model”, InterSpeech,2010
単語レベルのニューラルネットワーク言語モデルの上記式(2)における重みuji及び上記式(3)における重みvkjは、形態素解析済みのコーパスから得られる単語の並びを教師データとして、予め学習される。
また、文字レベルのニューラルネットワーク言語モデルは、単語レベルのニューラルネットワーク言語モデルにおいて、単語を文字に置き換えたものである。また、文字レベルのニューラルネットワーク言語モデルの上記式(2)における重みuji及び上記式(3)における重みvkjは、コーパスから得られる文字の並びを教師データとして、予め学習される。
ニューラルネットワーク言語モデルを用いた形態素解析部30の具体的な処理について以下説明する。
まず、形態素解析部30は、ラティスの単語分割候補の各々について、単語分割候補の正規表記語をベクトル表記へ変換する。正規表記語とベクトル表記とは、予め対応付けられている。例えば、ベクトル表記の一例として、単語の意味ベクトルを用いることができる。また、形態素解析部30は、ラティスの単語分割候補の各々について、単語分割候補の正規表記語を構成する各文字をベクトル表記へ変換する。文字とベクトル表記とは、予め対応付けられている。なお、語列のベクトル表記及び文字列のベクトル表記は、状態s(t)として計算される。
形態素解析部30は、ラティス生成部26により生成されたラティスにおけるノードを結んだ各経路に対して、当該経路上の各ノードの単語分割候補の各々について、単語レベルのニューラルネットワーク言語モデルを用いて、正規表記語のベクトル表記と、正規表記語より前の出現する正規表記語列を表すベクトル表記とに基づいて、当該単語分割候補に付与された正規表記語より前の出現する正規表記語列を表すベクトル表記が与えられたときの、当該単語分割候補に付与された正規表記語を表すベクトル表記の確率を、素性として算出する。
次に、形態素解析部30は、ラティス生成部26により生成されたラティスにおけるノードを結んだ各経路に対して、当該経路上の各ノードの単語分割候補の各々の正規表記語を構成する各文字について、文字レベルのニューラルネットワーク言語モデルを用いて、文字のベクトル表記と、当該文字より前の出現する正規表記の文字列を表すベクトル表記とに基づいて、当該文字より前の出現する正規表記の文字列を表すベクトル表記が与えられたときの、当該文字を表すベクトル表記の確率を、素性として算出する。
次に、形態素解析部30は、ラティス生成部26によって生成されたラティスの各経路に対する、単語レベルのニューラルネットワーク言語モデルを用いて算出された素性と、文字レベルのニューラルネットワーク言語モデルを用いて算出された素性とを含む素性ベクトルと、形態素解析モデル記憶部28に格納されたテキストに対する形態素解析を行うためのモデルとに基づいて、ラティス生成部26によって生成されたラティスにおけるノードを結んだ各経路のうち、素性ベクトルとモデルとから得られるスコアが最適となる経路を選択し、選択した経路が表す形態素解析結果を出力する。
具体的には、形態素解析部30は、以下の式(6)に従って、形態素解析結果を出力する。
上記式(6)におけるwは表出表記列、vは正規表記列、tは品詞列を表し、L(s)は入力テキストsに対する形態素ラティスを表す。また、Wはテキストに対する形態素解析を行うための予め学習されたモデルのパラメータであり、重みベクトルである。パラメータWは、後述するモデル学習装置により予め学習される。
また、上記式(6)におけるf(w,v,t)は、単語レベルのニューラルネットワーク言語モデルを用いて算出された素性と、文字レベルのニューラルネットワーク言語モデルを用いて算出された素性とを含む素性ベクトルである。本実施形態では、経路上の単語分割候補の各々について単語レベルのニューラルネットワーク言語モデルから算出される確率P(v|vl)の統計値、及び経路上の単語分割候補の各々を構成する文字の各々について文字レベルのニューラルネットワーク言語モデルから算出される確率P(s|sl)の統計値が、素性ベクトルf(w,v,t)に導入される。ただし、vlは正規語vより前に出現した正規語列、slは正規語を構成する文字sより前に出現した正規文字列を表す。
例えば、経路上の単語分割候補の各々について単語レベルのニューラルネットワーク言語モデルから算出される確率P(v|vl)を対数へ変換し、対数に変換された値の総和を素性とすることができる。また、同様に、経路上の単語分割候補の各々を構成する文字の各々について文字レベルのニューラルネットワーク言語モデルから算出される確率P(s|sl)を対数へ変換し、対数に変換された値の総和を素性とすることができる。
また、上記式(6)における(w^,v^,t^)は、表出表記、正規表記、及び品詞の各々の最適系列を表す。
図4に、ラティスと形態素結果の一例を示す。図4に示すように、ラティス生成部26によって、入力テキスト「すーっごくうれしぃ」からラティスが生成される。そして、形態素解析部30は、上記式(6)に従って、形態素解析結果を出力する。ここで、上記式(6)の素性ベクトルf(w,v,t)には、図4に示すように、例えば、単語レベルのニューラルネットワーク言語モデルを用いて算出された確率P(うれし|ごく,っ,すー,bos)=0.00001、又はP(うれし|すごく,bos)=0.0025が含まれる。また、素性ベクトルf(w,v,t)には、図4に示すように、文字レベルのニューラルネットワーク言語モデルを用いて算出された確率P(う|く,ご,っ,ー,す,bos)=0.00021、又はP(う|く,ご,す,bos)=0.0125が含まれる。
また、最適系列(w^,v^,t^)としては、図4に示すように、表出表記である形態素列として「すーっごく」「うれし」「い」が出力され、品詞列として「副詞」「形容詞語幹」「形容詞接尾辞」が出力され、正規表記を表す正規語列として「すごく」「うれし」「い」が出力される。
そして、形態素解析装置100は、形態素解析部30により最終的に得られた形態素結果を出力部40に出力する。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図5に示すように、本発明の実施の形態に係るモデル学習装置200は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置200は、機能的には図5に示すように入力部50と、演算部60と、出力部70とを備えている。
モデル学習装置200により学習されたモデルは、形態素解析装置に適用され、任意のテキストに対して形態素解析を行うと共に正規表記語を求めるために用いることができる。
入力部50は、崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストを受け付ける。正解データは、形態素の正解(例えば、単語分割、品詞)が付与されたデータである。
演算部60は、正解データテキスト記憶部62と、ラティス生成部64と、モデル学習部66と、形態素解析モデル記憶部68とを備えている。
正解データテキスト記憶部62には、入力部50によって受け付けられた、正解データが付与されたテキストが記憶される。
ラティス生成部64は、正解データテキスト記憶部62に格納されたテキストに対して、ラティス生成部26と同様に、ラティスを生成する。
モデル学習部66は、ラティス生成部64により生成されたラティスにおける単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される素性及び文字レベルのニューラルネットワーク言語モデルを用いて算出される素性を含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルのパラメータWを学習する。
なお、素性ベクトルは、形態素解析装置100で算出する素性ベクトルと同様である。
形態素解析モデル記憶部68には、モデル学習部66によって学習された、テキストに対する形態素解析を行うためのモデルのパラメータWが記憶される。
そして、モデル学習装置200は、形態素解析モデル記憶部68に格納されたモデルを出力部70に出力する。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置200の作用について説明する。入力部50において正解データが付与されたテキストからなるテキスト集合を受け付けると、テキスト集合が正解データテキスト記憶部62に格納される。そして、モデル学習装置200は、図6に示すモデル学習処理ルーチンを実行する。
まず、ステップS100で、ラティス生成部64は、正解データテキスト記憶部62に格納されたテキスト集合に含まれる、正解データが付与されたテキストの各々に対して、ラティスを生成する。
ステップS102で、モデル学習部66は、上記ステップS100でテキスト各々に対して生成されたラティスにおける単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される素性及び文字レベルのニューラルネットワーク言語モデルを用いて算出される素性を含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルのパラメータWを学習する。
ステップS104で、モデル学習部66は、形態素解析を行うためのモデルを形態素解析モデル記憶部68に格納する。
ステップS106で、上記ステップS104で形態素解析モデル記憶部68に格納されたモデルを出力部70により出力し処理を終了する。
<本発明の実施の形態に係る形態素解析装置の作用>
次に、本発明の実施の形態に係る形態素解析装置100の作用について説明する。モデル学習装置200によって予め学習された、形態素解析を行うためのモデルが形態素解析装置100に入力されると、形態素解析装置100は、形態素解析を行うためのモデルを形態素解析モデル記憶部28へ格納する。そして、入力部10が入力テキストを受け付けると、形態素解析装置100は、図7に示す形態素解析処理ルーチンを実行する。
ステップS200で、入力部10は、入力テキストを受け付ける。
ステップS202で、ラティス生成部26は、入力部10によって受け付けた入力テキストに対して、文字列変換モデル記憶部22に記憶された文字列変換モデルと、形態素解析辞書24に格納された正規表記語とに基づいて、ラティスを生成する。
ステップS204で、形態素解析部30は、形態素解析モデル記憶部28に格納された形態素解析を行うためのモデルのパラメータWを読み込む。
ステップS205で、形態素解析部30は、上記ステップS202で生成されたラティスの単語分割候補の各々について、単語分割候補の正規表記語をベクトル表記へ変換する。また、形態素解析部30は、上記ステップS202で生成されたラティスの単語分割候補の各々の正規表記語を構成する各文字について、当該文字をベクトル表記へ変換する。
ステップS206で、形態素解析部30は、上記ステップS202で生成されたラティスにおけるノードを結んだ各経路に対して、単語レベルのニューラルネットワーク言語モデルを用いて、経路上の各ノードの単語分割候補の各々についての、正規表記語を表すベクトル表記の確率を、素性として算出する。また、形態素解析部30は、上記ステップS202で生成されたラティスにおけるノードを結んだ各経路に対して、文字レベルのニューラルネットワーク言語モデルを用いて、経路上の各ノードの単語分割候補の各々の正規表記語の各文字について、当該文字を表すベクトル表記の確率を、素性として算出する。そして、形態素解析部30は、各経路に対して、単語レベルのニューラルネットワーク言語モデルによって算出された素性と文字レベルのニューラルネットワーク言語モデルによって算出された素性とを含む素性ベクトルを生成する。
ステップS208で、形態素解析部30は、上記ステップS202で生成されたラティスと、上記ステップS206で各経路に対して生成された素性ベクトルと、上記ステップS204で読み込まれた形態素解析を行うためのモデルのパラメータとに基づいて、上記式(6)に従って、形態素解析結果を出力する。
ステップS210で、上記ステップS208で出力された形態素解析結果を出力部40により出力し処理を終了する。
以上説明したように、本発明の実施の形態に係る形態素解析装置によれば、入力テキストに対してラティスを生成し、ラティスにおけるノードを結んだ各経路に対する、経路上の各ノードの単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される正規表記語を表すベクトル表記の確率、及び文字レベルのニューラルネットワーク言語モデルを用いて算出される、文字を表すベクトル表記の確率を素性として含む素性ベクトルと、テキストに対する形態素解析を行うための予め学習されたモデルとに基づいて、生成されたラティスにおけるノードを結んだ各経路のうち、素性ベクトルとモデルとから得られるスコアが最適となる経路を選択し、選択した経路が表す形態素解析結果を出力することにより、表記正規化と形態素解析とを精度よく行うことができる。
また、本発明の実施の形態に係るモデル学習装置によれば、崩れ表記語に対する正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、ラティスを生成し、ラティスにおける、ノードを結んだ各経路に対する、経路上の各ノードの単語分割候補の各々についての、単語レベルのニューラルネットワーク言語モデルを用いて算出される、正規表記語を表すベクトル表記の確率、及び文字レベルのニューラルネットワーク言語モデルを用いて算出される、文字を表すベクトル表記の確率を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルを学習することにより、表記正規化と形態素解析と行うためのモデルを精度よく学習することができる。
また、文字レベルのニューラルネットワーク言語モデルを用いて素性を算出することにより、文字列の並びによって異なる変換コストが考慮されることにより、より妥当な変換コストを考慮することができる。
また、単語レベルのニューラルネットワーク言語モデルを用いて素性を算出することにより、より広範囲な文脈が考慮され、正規表記語列の妥当性が適切に評価可能になる
また、正規化表記の変換候補の尤もらしさを評価する関数において、文字レベル及び単語レベルのニューラルネットワーク言語モデルを用いることにより、高精度な正規化が可能になる
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、文字レベルのニューラルネットワーク言語モデルを用いて算出された素性と、単語レベルのニューラルネットワーク言語モデルを用いて算出された素性を含む素性ベクトルを用いる場合を例に説明したが、これに限定されるものではない。例えば、文字レベルのニューラルネットワーク言語モデルを用いて算出された素性及び単語レベルのニューラルネットワーク言語モデルを用いて算出された素性の何れか一方を含む素性ベクトルを用いてもよい。
また、上述の形態素解析装置100は、文字列変換モデル記憶部22、形態素解析辞書24、及び形態素解析モデル記憶部28を備えている場合について説明したが、例えば文字列変換モデル記憶部22、形態素解析辞書24、及び形態素解析モデル記憶部28の少なくとも1つが形態素解析装置100の外部装置に設けられ、形態素解析装置100は、外部装置と通信手段を用いて通信することにより、文字列変換モデル記憶部22、形態素解析辞書24、及び形態素解析モデル記憶部28を参照するようにしてもよい。
また、上述のモデル学習装置200についても、外部装置に設けられた、正解データテキスト記憶部62、及び形態素解析モデル記憶部68と通信手段を用いて通信することにより、正解データテキスト記憶部62、及び形態素解析モデル記憶部68を参照するようにしてもよい。
また、上記実施の形態では、形態素解析装置100とモデル学習装置200とを別々の装置として構成する場合を例に説明したが、形態素解析装置100とモデル学習装置200とを1つの装置として構成してもよい。
上述の形態素解析装置及びモデル学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
10 入力部
20 演算部
22 文字列変換モデル記憶部
24 形態素解析辞書
26 ラティス生成部
28 形態素解析モデル記憶部
30 形態素解析部
40 出力部
50 入力部
60 演算部
62 正解データテキスト記憶部
64 ラティス生成部
66 モデル学習部
68 形態素解析モデル記憶部
70 出力部
100 形態素解析装置
200 モデル学習装置

Claims (4)

  1. 入力テキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部により生成された前記ラティスにおける前記ノードを結んだ各経路に対する、前記経路上の各ノードの前記単語分割候補の各々についての、
    単語レベルのニューラルネットワーク言語モデルを用いて算出される、前記単語分割候補に付与された正規表記語より前に出現する正規表記語列を表すベクトル表記が与えられたときの、前記単語分割候補に付与された正規表記語を表すベクトル表記の確率、又は
    前記経路上の各ノードの前記単語分割候補の各々に付与された正規表記語の各文字ついての、文字レベルのニューラルネットワーク言語モデルを用いて算出される、前記文字より前に出現する正規表記の文字列を表すベクトル表記が与えられたときの、前記文字を表すベクトル表記の確率
    を素性として含む素性ベクトルと、テキストに対する形態素解析を行うための予め学習されたモデルとに基づいて、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性ベクトルと前記モデルとから得られるスコアが最適となる経路を選択し、選択した経路が表す形態素解析結果を出力する形態素解析部と、
    を含む形態素解析装置。
  2. 正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部により生成された前記ラティスにおける、前記ノードを結んだ各経路に対する、前記経路上の各ノードの前記単語分割候補の各々についての、
    単語レベルのニューラルネットワーク言語モデルを用いて算出される、前記単語分割候補に付与された正規表記語より前に出現する正規表記語列を表すベクトル表記が与えられたときの、前記単語分割候補に付与された正規表記語を表すベクトル表記の確率、又は
    前記経路上の各ノードの前記単語分割候補の各々に付与された正規表記語の各文字ついての、文字レベルのニューラルネットワーク言語モデルを用いて算出される、前記文字より前に出現する正規表記の文字列を表すベクトル表記が与えられたときの、前記文字を表すベクトル表記の確率を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルを学習するモデル学習部と、
    を含むモデル学習装置。
  3. コンピュータを、請求項1に記載の形態素解析装置の各部として機能させるためのプログラム。
  4. コンピュータを、請求項2に記載のモデル学習装置の各部として機能させるためのプログラム。
JP2016073077A 2016-03-31 2016-03-31 形態素解析装置、モデル学習装置、及びプログラム Active JP6558856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016073077A JP6558856B2 (ja) 2016-03-31 2016-03-31 形態素解析装置、モデル学習装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016073077A JP6558856B2 (ja) 2016-03-31 2016-03-31 形態素解析装置、モデル学習装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017182707A JP2017182707A (ja) 2017-10-05
JP6558856B2 true JP6558856B2 (ja) 2019-08-14

Family

ID=60007422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016073077A Active JP6558856B2 (ja) 2016-03-31 2016-03-31 形態素解析装置、モデル学習装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6558856B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800430B (zh) * 2019-01-18 2023-06-27 广东小天才科技有限公司 一种语义理解方法及***
CN117348500B (zh) * 2023-12-04 2024-02-02 济南华科电气设备有限公司 一种煤矿综采工作面自动化控制方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6145059B2 (ja) * 2014-03-04 2017-06-07 日本電信電話株式会社 モデル学習装置、形態素解析装置、及び方法

Also Published As

Publication number Publication date
JP2017182707A (ja) 2017-10-05

Similar Documents

Publication Publication Date Title
CN112712804B (zh) 语音识别方法、***、介质、计算机设备、终端及应用
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN107705787A (zh) 一种语音识别方法及装置
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
CN113780418A (zh) 一种数据的筛选方法、***、设备和存储介质
JP2016133956A (ja) 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム
KR101417757B1 (ko) 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법
JP6684693B2 (ja) 文字列変換装置、モデル学習装置、方法、及びプログラム
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム
Chowdhury et al. Bangla grapheme to phoneme conversion using conditional random fields
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190715

R150 Certificate of patent or registration of utility model

Ref document number: 6558856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150