JP4947861B2 - 自然言語処理装置およびその制御方法ならびにプログラム - Google Patents

自然言語処理装置およびその制御方法ならびにプログラム Download PDF

Info

Publication number
JP4947861B2
JP4947861B2 JP2001291859A JP2001291859A JP4947861B2 JP 4947861 B2 JP4947861 B2 JP 4947861B2 JP 2001291859 A JP2001291859 A JP 2001291859A JP 2001291859 A JP2001291859 A JP 2001291859A JP 4947861 B2 JP4947861 B2 JP 4947861B2
Authority
JP
Japan
Prior art keywords
morpheme
error
morphological analysis
connection cost
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001291859A
Other languages
English (en)
Other versions
JP2003099426A5 (ja
JP2003099426A (ja
Inventor
英生 久保山
誠 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001291859A priority Critical patent/JP4947861B2/ja
Priority to US10/247,306 priority patent/US20030061030A1/en
Publication of JP2003099426A publication Critical patent/JP2003099426A/ja
Publication of JP2003099426A5 publication Critical patent/JP2003099426A5/ja
Application granted granted Critical
Publication of JP4947861B2 publication Critical patent/JP4947861B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文章を単語に分解して解析する自然言語処理装置およびその制御方法ならびにプログラムに関する。
【0002】
【従来の技術】
文章を単語に分解する形態素解析は、音声合成や情報検索など幅広い分野で必要とされる技術である。形態素解析は自然言語処理の第一段階であり、形態素解析結果を基にして句関係解析、読み付け、意味解析、文脈解析などが行われる。
【0003】
形態素解析の方法は、各文字位置で辞書を引いて現れた複数の単語に対して、いかに確からしい単語を選択して文頭から文末までそろえるかが技術の核になる。その一手法として、単語または品詞もしくは単語情報によって分類分けされたクラスを単位として、各単位間の接続に対する重みである接続コストを設定して、その表を情報として保持し、文頭から文末までの総コストが最小(コストの定義の仕方によっては最大の場合もある)となる単語列を選択する方法がある。この接続コストの設定法としては大規模な正解コーパスを調査して各単位間の接続確率を求め、その値を基に接続コストを設定する方法などがある。
【0004】
【発明が解決しようとする課題】
しかしながら、接続コストを各単語間の接続の統計確率から設定しても、最終的には文全体の総コストから一つの単語列を選択するため、全体の総コストの比較結果として誤りが選択されることがある。また、接続コスト以外に、クラス内単語コストや、特定もしくは全ての単語に付されるインサーションペナルティをコスト計算に加える場合は、これらの微妙なコスト値のバランスの影響があって誤りが選択されたりすることがある。このため、自然言語処理装置に記憶された接続コスト情報は、形態素解析結果の精度からみて適当とはいえない場合がある。したがって、不適当な接続コストを訂正し、統計的に学習する手段が必要である。
【0005】
接続コストの学習に関しては、例えば、特開平5-12327号公報および特開平09-114825号公報において、形態素解析時に複数候補を出力し、正解を指定して接続コストを訂正して学習させる方法が提案されているが、一文の形態素解析時に正解を選択して学習させるので、大量かつ多様な文章に対して、学習された接続コストが統計的に適切な値になるとはいえない。
【0006】
したがって、本発明は、より高精度な形態素解析を実現可能な接続コストの学習を行うことを目的とする。
【0007】
【課題を解決するための手段】
本発明によれば、例えば以下の構成を備える自然言語処理装置が提供される。すなわち、
所定の文法的情報による分類を単位とし、その単位間の接続に対する重みである接続コスト情報を用いて形態素解析を行う自然言語処理装置であって、
前記接続コスト情報を記憶する第1の記憶手段と、
所定の文に対する形態素解析の正解を記憶する第2の記憶手段と、
前記所定の文それぞれに対して形態素解析を行う形態素解析手段と、
前記形態素解析手段による形態素解析結果の、前記正解に対する誤り部分を検出する検出手段と、
前記第2の記憶手段に記憶されている前記正解に係る第1の形態素とは異なるが該第1の形態素と置換しても言語的に誤りとはならない所定の第2の形態素を、前記第1の形態素と関連付けて記憶する第3の記憶手段と、
前記検出手段により検出された前記誤り部分が前記第2の形態素と一致するか否かを判定する一致判定手段と、
前記一致判定手段により前記誤り部分が前記第2の形態素と一致しないと判定された場合は、該誤り部分に対して、前記第1の記憶手段における形態素間の接続コスト情報訂正を行う一方、前記一致判定手段により前記誤り部分が前記第2の形態素と一致すると判定された場合は、該誤り部分に対する前記接続コスト情報の訂正は行わない訂正手段と、
を備えることを特徴とする。
【0008】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
【0009】
(実施形態1)
図1は、実施形態における自然言語処理装置の機能ブロック図である。
【0010】
同図において、101は、文章を解析して単語(形態素)に分解する形態素解析部である。
102は、形態素解析部101での形態素解析に用いる接続コストテーブルである。
103は、文章を正しく形態素解析した正解の集合である正解コーパスである。
104は、正解コーパスの原文の集合を形態素解析部101で形態素解析した出力の集合であるシステム出力コーパスである。
105は、正解コーパス103とシステム出力コーパス104とを用いて接続コストテーブル102を学習する接続コスト学習部であり、次の3つのブロック106〜108により構成される。106は、正解コーパス103とシステム出力コーパス104とを比較して誤り部分を検出する誤り検出部である。107は、誤り部分の形態素間の接続コストを訂正し、接続コストテーブル102を更新する接続コスト訂正部である。108は、学習の終了を判定する学習制御部である。
【0011】
図2は、形態素解析部101で行われる形態素解析の内容を示す図である。ここで、太線枠で示されるブロック201は、現在、形態素解析部101が注目している注目形態素を示している。202は、形態素201と直前の形態素との間に生じる接続コストであり、各接続経路にその値が振られている。203は、注目形態素201の直前にある形態素が持つ累積コストであり、直前の形態素それぞれにその値が振られている。実線で示された経路204は、解析により注目形態素201が選択した最適パスである。
【0012】
同図を用いて実施形態における形態素解析について説明する。
【0013】
形態素解析部101は、文頭から順に辞書引きしつつ解析を行う。注目形態素201は、直前の形態素に対して、文頭から注目形態素までの累積コストを計算し、累積コストが最も少ないパスを一つ選択する。直前の形態素は既にそこまでの累積コスト203を計算して最適パスを選択済みであるので、注目形態素201までの累積コストは、
【0014】
(直前までの累積コスト203)+(接続コスト202)+(注目形態素201の単語コスト)
【0015】
で求める。ここで、注目形態素201の単語コストとは、単語のみに依存して生じる単語ごとに振られたコストである。このため、最適パス204は上式の第1項および第2項のみの計算で決定できる。図2では、形態素「今日(キョウ)」が最適パスとして選択され、計算された累積コストを形態素「は」に情報として付加する。この処理を文頭から文末まで行うと、文末での処理が終了した時点で文頭から文末まで繋がる一意の最適パスが選択される。
【0016】
ここで、形態素間の接続コストは接続コストテーブル102に保持されている。形態素は、品詞や活用型など、その文法的、意味的特徴を表した詳細情報でクラスとよぶ単位に分かれており、各クラス間に接続コストが振られている。
【0017】
図3は、接続コストテーブル102の構造の一例を示す図である。
【0018】
301は前項の形態素のクラスを表す番号である。302は後項の形態素のクラスを表す番号である。303は、前項形態素、後項形態素のクラスの対に対して決まる接続コストの値である。
【0019】
例えば、同図中の第1行に記述されている、
0,0=0
は、クラス0の形態素とクラス0の形態素との接続コストは0であることを示している。また、第2行に記述されている、
0,1=30
は、クラス0の形態素とクラス1の形態素との接続コストは30であることを示している。以下同様に、この接続コストテーブル102には各クラス間の接続の組み合わせ毎に、その接続コストが記述されている。
【0020】
しかし、先に述べたとおり、ここに設定されている接続コストは、形態素解析結果の精度からみて最適化されているとはいえない場合がある。そこで、本発明の実施形態では、この接続コストテーブル102に表現されるクラス間の接続コストを統計的に学習する。
【0021】
図5は、正解コーパス103の一例を示す図である。
【0022】
正解コーパス103には原文および正しく形態素解析された内容が記述されている。形態素内容としては原文が各形態素に分けられて記述され、各形態素ごとに、文中における表記の位置および長さ、文中の表記、辞書中の見出し、品詞、音表記、活用形が情報として記述されている。システム出力コーパス104もまた、この正解コーパス103と同じ入力文章での解析結果が同じ書式で記述される。
【0023】
図4は、接続コストテーブル102におけるクラス間接続コストの学習処理を示すフローチャートである。
【0024】
まず、ステップS401では、形態素解析部101において、正解コーパス103の原文の集合全てを解析し、システム出力コーパス104を作成する。先述したとおり、正解コーパス103には解析前の原文および正しい解析結果が記されている。システム出力コーパス104には、正解コーパス103と同じ入力文章での解析結果を同じ書式で出力する。
【0025】
次に、ステップS402で、誤り検出部106において、正解コーパス103とシステム出力コーパス104を比較し、誤り部分を検出する(詳細は後述する。)。続くステップS403では、接続コスト訂正部107において、誤り部分の形態素間の接続コストを訂正し、接続コストテーブル102を更新する。次に、ステップS404で、誤り検出部106が正解コーパス103の原文全てに対し誤り検出したかをチェックし、全原文の誤り検出が終了するまでステップS402に戻って処理を繰り返す。
【0026】
ステップS405では、学習制御部108において、接続コスト学習を終了するか、学習した接続コストテーブル102を用いて再度システム出力コーパスを作成し、反復学習させるかを判定する。具体的には、例えば、誤り検出部106において、検出された誤り部分の数から、全原文の全形態素中の誤り率を反復学習ごとに計算し記録し、その平均誤り率が過去N回で所定のしきい値より大きく変動しないか否かを判定し、変動しなかった場合には学習を終了し、そうでない場合にはステップS401に戻って学習を反復することにする。ただし、学習を反復させるか終了するかの判定基準はこの限りではなく、他の判定基準を用いてもよい。
【0027】
図6は、上記ステップS402で、誤り検出部106において行われる誤り検出処理を説明する模式図である。
【0028】
601は、正解コーパス103に記述されているある一文の形態素内容を示している。602は、601の原文を形態素解析部101で解析してシステム出力コーパス104に記述された形態素内容を示している。誤り検出部106は、601と602の両者を比較する。この例の場合、603に示す部分において解析結果が異なっている。この部分が、システム出力コーパス104の誤りとみなせる誤り部分である。
【0029】
図9は、上記ステップS403の接続コスト訂正処理の詳細を示すフローチャートである。
【0030】
まず、ステップS901で、接続コストテーブル102から前項形態素のクラスを取り出し、次のステップS902で、接続コストテーブル102から後項形態素のクラスを取り出す。さらに、ステップS903で、接続コストテーブル102から両項のクラス間の接続コストを取り出す。
【0031】
次に、ステップS904では、接続コストを訂正する。
【0032】
図7は、本ステップにおける接続コスト訂正処理を説明する図である。同図は、図6で示した誤り部分に対する訂正処理を例として示したものである。
【0033】
誤り検出部106が検出した形態素およびその両隣の形態素の間全ての接続コストを修正する。具体的には、例えば、正解コーパス103に現れている形態素間の接続コストを1/(1+α)倍(ただし、α≧0)して減少させ、システム出力コーパス104に現れた形態素間の接続コストを(1+α)倍して増加させる。ただし、接続コストの調整方法はこれに限る意図ではなく、他の方法で調整することにしてもよい。
【0034】
なお、本実施形態における形態素解析では、先述したとおり、一文のコストの累計が最小となる単語列を解析結果としている。接続コストの定義を逆に最大のときに文として確からしいとする場合には、ここでの接続コストの訂正時の増減も逆とする。
【0035】
そして、ステップS905で、接続コストテーブル102を訂正した接続コストでもって更新する。
【0036】
図8は、上記ステップS904の接続コスト訂正処理およびステップS905における接続コスト更新処理を説明する図である。
【0037】
801は、システム出力コーパス104における誤り部分の前項形態素、802が後項形態素である。各形態素はその形態素の特徴を表すクラスによって分類分けされており、接続コストテーブル102は、図3に示すように、前項形態素、後項形態素のクラスの対に対して振られた接続コストが記述されることは先述したとおりである。接続コストテーブル102から前項形態素801および後項形態素802接続コストが取得できる。これに対し、接続コストを上記したステップS904の処理によって訂正し、接続コストテーブル102の該当部分を更新する。
【0038】
以上説明した実施形態によれば、大量かつ多様な文の形態素解析の正解を記述した正解コーパスを記憶しておき、その正解コーパスにおける各文に対して形態素解析を行い、解析誤りを訂正することが可能になり、これによって、学習された接続コストが統計的に適切な値になる。
【0039】
(実施形態2)
上述した実施形態1では、誤り検出部106は、正解コーパス103とシステム出力コーパス104との間に異なりがあれば全て誤り部分として検出することにしていた。
【0040】
しかし、例えば、「テニスコート」という単語が文中に含まれていて、正解コーパス103に「テニスコート」が1単語で記述されている場合、これをシステム出力コーパス104が「テニス」「コート」と分割して解析したとしても、これを言語的に誤りとみなすのは妥当ではない。
【0041】
そこで、本実施形態では、特定のパターンの誤りは正解として許容する仕組みを設けることにする。
【0042】
図10は、特定のパターンの誤りを正解として許容する仕組みを設けた自然言語処理装置の機能ブロック図である。図1に示した機能ブロック図と共通するブロックには同一の参照番号が付されている。図1の機能ブロック図との比較において、接続コスト学習部105には、誤り許容判定部1001が追加されている。この誤り許容判定部1001は、正解コーパス103とシステム出力コーパス104との間で形態素内容が異なっていても正解として許容するパターンをあらかじめ記述した誤り許容パターン情報1002から情報を取得する。
【0043】
誤り許容判定部1001は、誤り検出部106が検出した誤り部分に対して、誤り許容パターン情報1002とのマッチングをとり、誤り許容パターンと一致する場合には接続コスト訂正部107に接続コストの訂正を行わないよう指示する。
【0044】
図11は、誤り許容パターン情報1002の一例を示す図である。許容パターン1つ1つが<ERROR_PATTERN>タグで区切られる。その内部において<ERROR_TYPE>タグに誤りの分類(読み誤り、品詞誤り等)が記述され、<PATTERN>タグによって許容パターンが記述される。
【0045】
図12は、図11の誤り許容パターン情報1002に記述された許容パターンを抜粋したものである。同図の1201,1202に示されるように、許容パターンは記号「->」をはさみ、左辺に正解コーパス103のパターン、右辺にシステム出力コーパス104のパターンが記述される。パターンが複数形態素で構成される場合は記号「/」で区切られる。1形態素のパターンの情報は「:」で区切られ、第1項が表記、第2項が品詞、第3項が音表記、第4項が未知語か否かを表すフラグで構成されている。記号「*」は、その項がどのようなパターンでもよいことを表す。ただし、左辺と右辺は表記が一致していなければならない。
【0046】
許容パターン1201は、接尾辞「等(トウ)」を副助詞「等(ナド)」と解析しても正解として許容することを示している。許容パターン1202は、正解コーパス103で未知語+名詞の形態素2つのパターンを、1つの名詞として解析しても正解として許容することを示している。この場合、記号「*」により表記および読みは何でもよいが、左辺の2形態素をあわせた表記と右辺の表記とは一致していなければならない。
【0047】
これにより上記のような誤りパターンが現れた場合には、誤り許容判定部1002が誤り部分を正解として許容し、不要なコスト訂正を防ぐことができる。
【0048】
(実施形態3)
上述の実施形態1および2では、自然言語処理装置が接続コスト学習部105を備えるものとして説明したが、この接続コスト学習部は単独の装置として実現することも可能である。
【0049】
図13は、本実施形態における接続コスト学習装置の機能ブロック図である。なお、図1に示した機能ブロックと同一のブロックには同一の参照番号を付すものとする。同図に示されるとおり、この接続コスト学習装置は、接続コスト102、正解コーパス103、システム出力コーパス104、誤り検出部106、そして、接続コスト訂正部107より構成される。
【0050】
ここで、システム出力コーパス104は、正解コーパス103と同一の正解コーパスを備える別の自然言語処理装置において、正解コーパス中の各原文を形態素解析して作成されたものである。
【0051】
そして、上述のとおり、誤り検出部106で、正解コーパス103とシステム出力コーパス104を比較し誤り部分を検出する。その後、接続コスト訂正部107は、検出された誤り部分の形態素間の接続コストを訂正し、接続コストテーブル102を更新する。
【0052】
これにより学習済みの接続コストテーブルが作成された。自然言語処理装置はこの学習済みの接続コストテーブルをインストールし、解析に使用することで、高精度な形態素解析処理を提供することが可能になる。かかる接続コスト学習装置があれば、自然言語処理が接続コスト学習部を備える必要がなくなる。
【0053】
上述した実施形態では、接続コストは形態素の特徴で分類分けされたクラスごとに振られているが、接続コストを振るクラスの単位はいかなるものでもよい。例えば、1単語をそのままクラスとみなしてもよいし、品詞や活用形などさらに細かい情報で分けてもよい。また、1単語に対し前の形態素との間の接続コストを調べる場合と後ろの形態素との間の接続コストを調べる場合とで、異なるクラスや独立したクラスを保持しても構わない。さらに、形態素解析方法に関しても上記実施例の図2に示した方法に限らず、例えば、累積コスト算出時の単語コストはなくても構わないし、あるいは、自立語など一部または全部の品詞に一定の値を付加しても構わない。つまり、クラスもしくは形態素もしくは品詞間において接続の確からしさを表すパラメータを保持し、これ使用して形態素解析を行う方法であれば、本発明を適用可能である。
【0054】
また、上述の実施形態で示した図3の接続コストテーブル、図5の正解コーパス、図11の誤り許容パターン情報の記述形式は、上述の実施形態で示した機能を満たす限りいかなる記述形式でもよいことはいうまでもない。
【0055】
ところで、上述した実施形態における自然言語処理装置、または、接続コスト学習装置の機能は、パーソナルコンピュータ等のコンピュータ装置を用いて実現することが可能である。
【0056】
図14は、図1に示した自然言語処理装置として機能するパーソナルコンピュータのハードウェア構成を示すブロック図である。
【0057】
図示のように、パーソナルコンピュータは、全体の制御をつかさどるCPU1、ブートプログラム等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
【0058】
HDD4は外部記憶装置としてのハードディスク装置である。また、VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することでCRT6に表示させることができる。7は、各種入力および/または設定を行うためのキーボードおよびマウスである。
【0059】
HDD4には、図示の如く、OS40をはじめ、以下のものがインストールされている。
【0060】
・形態素解析プログラム41
形態素解析部101の機能を実行する。
・接続コスト学習プログラム42
接続コスト学習部105の機能を実行する。図4に示すフローチャートに対応するプログラムであり、以下のモジュールを含む。
(1) 誤り検出部106の機能を実行する誤り検出モジュール421(図4のフローチャートにおけるステップS402に対応する。)、
(2) 接続コスト訂正部107の機能を実行する接続コスト訂正モジュール422(図4のフローチャートにおけるステップS403、具体的には、図9のフローチャート、に対応する。)、そして、
(3) 学習制御部108の機能を実行する学習制御モジュール423(図4のフローチャートにおけるステップS405に対応する。)
・接続コストテーブル102
・正解コーパス103
【0061】
この他、形態素解析プログラム41の実行によって、システム出力コーパス104もこのHDD4に作成されることになる。
【0062】
なお、形態素解析プログラム41、接続コスト学習プログラム42、接続コストテーブル102、そして、正解コーパス103は、CD-ROMドライブ8を介して、CD-ROM8aからインストールされたものである。
【0063】
そして、HDD4にインストールされているOS40ならびに形態素解析プログラム41、接続コスト学習プログラム42は、本パーソナルコンピュータの電源投入後、RAM3にロードされて、CPU1によって実行されることになる。
【0064】
以上の構成によれば、パーソナルコンピュータを本発明に係る自然言語処理装置として機能させることができることは理解されよう。実施形態3における接続コスト学習装置として機能させることも同様に可能である。
【0065】
【他の実施形態】
以上、本発明の実施形態を詳述したが、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタ等)から構成されるシステムに適用しても、1つの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。
【0066】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムを読み出して実行することによっても達成される場合を含む。
【0067】
したがって、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0068】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0069】
プログラムを供給するための記憶媒体としては、例えば、フロッピーディスク、光ディスク(CD-ROM、CD-R、CD-RW、DVD等)、光磁気ディスク、磁気テープ、メモリカード等がある。
【0070】
その他、プログラムの供給方法としては、インターネットを介して本発明のプログラムをファイル転送によって取得する態様も含まれる。
【0071】
また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介して暗号化を解く鍵情報を取得させ、その鍵情報を使用することで暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0072】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現され得る。
【0073】
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0074】
【発明の効果】
以上説明したように、本発明によれば、より高精度な形態素解析を実現可能な接続コストの学習を行うことができる。
【図面の簡単な説明】
【図1】実施形態1における自然言語処理装置の機能ブロック図である。
【図2】実施形態1における形態素解析の内容を示す図である。
【図3】実施形態1における接続コストテーブルの構造の一例を示す図である。
【図4】実施形態1におけるクラス間接続コストの学習処理を示すフローチャートである。
【図5】実施形態1における正解コーパスの一例を示す図である。
【図6】実施形態1における誤り検出処理を説明する模式図である。
【図7】実施形態1における接続コスト訂正処理を説明する図である。
【図8】実施形態1における接続コスト訂正処理および接続コスト更新処理を説明する図である。
【図9】実施形態1における接続コスト訂正処理の詳細を示すフローチャートである。
【図10】実施形態2における自然言語処理装置の機能ブロック図である。
【図11】実施形態2における誤り許容パターン情報の一例を示す図である。
【図12】実施形態2における誤り許容パターン情報を説明するための図である。
【図13】実施形態3における接続コスト学習装置の機能ブロック図である。
【図14】実施形態における自然言語処理装置として機能するパーソナルコンピュータのハードウェア構成を示すブロック図である。

Claims (7)

  1. 所定の文法的情報による分類を単位とし、その単位間の接続に対する重みである接続コスト情報を用いて形態素解析を行う自然言語処理装置であって、
    前記接続コスト情報を記憶する第1の記憶手段と、
    所定の文に対する形態素解析の正解を記憶する第2の記憶手段と、
    前記所定の文それぞれに対して形態素解析を行う形態素解析手段と、
    前記形態素解析手段による形態素解析結果の、前記正解に対する誤り部分を検出する検出手段と、
    前記第2の記憶手段に記憶されている前記正解に係る第1の形態素とは異なるが該第1の形態素と置換しても言語的に誤りとはならない所定の第2の形態素を、前記第1の形態素と関連付けて記憶する第3の記憶手段と、
    前記検出手段により検出された前記誤り部分が前記第2の形態素と一致するか否かを判定する一致判定手段と、
    前記一致判定手段により前記誤り部分が前記第2の形態素と一致しないと判定された場合は、該誤り部分に対して、前記第1の記憶手段における形態素間の接続コスト情報訂正を行う一方、前記一致判定手段により前記誤り部分が前記第2の形態素と一致すると判定された場合は、該誤り部分に対する前記接続コスト情報の訂正は行わない訂正手段と、
    を備えることを特徴とする自然言語処理装置。
  2. 前記検出手段での検出結果に基づき、前記形態素解析手段、前記検出手段、前記一致判定手段、および、前記訂正手段による各処理を反復して行わせるように制御する学習制御手段を更に備えることを特徴とする請求項1に記載の自然言語処理装置。
  3. 前記学習制御手段は、
    前記検出手段で検出された前記誤り部分の数から誤り率を計算する計算手段と、
    前記誤り率が所定のしきい値より大きいか否かを判定する第1の判定手段と、を備え、
    前記誤り率が前記所定のしきい値より大きいときに、前記各処理を反復して行わせるように制御することを特徴とする請求項2に記載の自然言語処理装置。
  4. 所定の文法的情報による分類を単位とし、その単位間の接続に対する重みである接続コスト情報を記憶する第1の記憶手段と、所定の文に対する形態素解析の正解を記憶する第2の記憶手段と、前記第2の記憶手段に記憶されている前記正解に係る第1の形態素とは異なるが該第1の形態素と置換しても言語的に誤りとはならない所定の第2の形態素を、前記第1の形態素と関連付けて記憶する第3の記憶手段と、を備え、前記接続コスト情報を用いて形態素解析を行う自然言語処理装置の制御方法であって、
    前記所定の文それぞれに対して形態素解析を行う形態素解析ステップと、
    前記形態素解析ステップにおける形態素解析結果の、前記正解に対する誤り部分を検出する検出ステップと、
    前記検出ステップで検出された前記誤り部分が前記第2の形態素と一致するか否かを判定する一致判定ステップと、
    前記一致判定ステップで前記誤り部分が前記第2の形態素と一致しないと判定された場合は、該誤り部分に対して、前記第1の記憶手段における形態素間の接続コスト情報訂正を行う一方、前記一致判定ステップで前記誤り部分が前記第2の形態素と一致すると判定された場合は、該誤り部分に対する前記接続コスト情報の訂正は行わない訂正ステップと、
    を有することを特徴とする自然言語処理装置の制御方法。
  5. 前記検出ステップでの検出結果に基づき、前記形態素解析ステップ、前記検出ステップ、前記一致判定ステップ、および、前記訂正ステップを再度実行するように制御する学習制御ステップを更に有することを特徴とする請求項に記載の自然言語処理装置の制御方法。
  6. 前記学習制御ステップは、
    前記検出ステップで検出された前記誤り部分の数から誤り率を計算する計算ステップと、
    前記誤り率が所定のしきい値より大きいか否かを判定する第1の判定ステップと、を有し、
    前記誤り率が前記所定のしきい値より大きいときに、前記形態素解析ステップ、前記検出ステップ、前記一致判定ステップ、および、前記訂正ステップを再度実行するように制御することを特徴とする請求項に記載の自然言語処理装置の制御方法。
  7. 所定の文法的情報による分類を単位とし、その単位間の接続に対する重みである接続コスト情報を記憶する第1の記憶手段と、所定の文に対する形態素解析の正解を記憶する第2の記憶手段と、前記第2の記憶手段に記憶されている前記正解に係る第1の形態素とは異なるが該第1の形態素と置換しても言語的に誤りとはならない所定の第2の形態素を、前記第1の形態素と関連付けて記憶する第3の記憶手段と、を備え、前記接続コスト情報を用いて形態素解析を行う自然言語処理装置の制御用のプログラムであって、前記自然言語処理装置に、
    前記所定の文それぞれに対して形態素解析を行う形態素解析ステップと、
    前記形態素解析ステップにおける形態素解析結果の、前記正解に対する誤り部分を検出する検出ステップと、
    前記検出ステップで検出された前記誤り部分が前記第2の形態素と一致するか否かを判定する一致判定ステップと、
    前記一致判定ステップで前記誤り部分が前記第2の形態素と一致しないと判定された場合は、該誤り部分に対して、前記第1の記憶手段における形態素間の接続コスト情報訂正を行う一方、前記一致判定ステップで前記誤り部分が前記第2の形態素と一致すると判定された場合は、該誤り部分に対する前記接続コスト情報の訂正は行わない訂正ステップと、
    を実行させるプログラム。
JP2001291859A 2001-09-25 2001-09-25 自然言語処理装置およびその制御方法ならびにプログラム Expired - Fee Related JP4947861B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001291859A JP4947861B2 (ja) 2001-09-25 2001-09-25 自然言語処理装置およびその制御方法ならびにプログラム
US10/247,306 US20030061030A1 (en) 2001-09-25 2002-09-20 Natural language processing apparatus, its control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001291859A JP4947861B2 (ja) 2001-09-25 2001-09-25 自然言語処理装置およびその制御方法ならびにプログラム

Publications (3)

Publication Number Publication Date
JP2003099426A JP2003099426A (ja) 2003-04-04
JP2003099426A5 JP2003099426A5 (ja) 2008-10-30
JP4947861B2 true JP4947861B2 (ja) 2012-06-06

Family

ID=19113933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001291859A Expired - Fee Related JP4947861B2 (ja) 2001-09-25 2001-09-25 自然言語処理装置およびその制御方法ならびにプログラム

Country Status (2)

Country Link
US (1) US20030061030A1 (ja)
JP (1) JP4947861B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
WO2008048169A2 (en) * 2006-10-20 2008-04-24 Anoto Ab Printing of coding patterns
US7823138B2 (en) 2006-11-14 2010-10-26 Microsoft Corporation Distributed testing for computing features
US20090245646A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Online Handwriting Expression Recognition
US20100166314A1 (en) * 2008-12-30 2010-07-01 Microsoft Corporation Segment Sequence-Based Handwritten Expression Recognition
JP5819860B2 (ja) * 2010-02-12 2015-11-24 グーグル・インコーポレーテッド 複合語分割
JP5853595B2 (ja) * 2011-10-31 2016-02-09 富士通株式会社 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9607039B2 (en) 2013-07-18 2017-03-28 International Business Machines Corporation Subject-matter analysis of tabular data
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
CN106030568B (zh) * 2014-04-29 2018-11-06 乐天株式会社 自然语言处理***、自然语言处理方法、以及自然语言处理程序
JP6318024B2 (ja) * 2014-06-26 2018-04-25 株式会社日立超エル・エス・アイ・システムズ 形態素解析チューニング装置、音声合成システム、及び形態素解析チューニング方法
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
US11308397B2 (en) * 2018-02-16 2022-04-19 Ilya Sorokin System and method of training a neural network
US10650100B2 (en) 2018-06-08 2020-05-12 International Business Machines Corporation Natural language generation pattern enhancement

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JP2963463B2 (ja) * 1989-05-18 1999-10-18 株式会社リコー 対話型言語解析装置
EP0545988B1 (en) * 1990-08-09 1999-12-01 Semantic Compaction System Communication system with text message retrieval based on concepts inputted via keyboard icons
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
JPH0512327A (ja) * 1991-07-03 1993-01-22 Ricoh Co Ltd 形態素解析装置
US5463718A (en) * 1991-11-08 1995-10-31 Hitachi, Ltd. Learning method and apparatus
DE69319550T2 (de) * 1992-11-27 1999-03-11 Sharp Kk Bilderzeugungsgerät
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
JP2618832B2 (ja) * 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US5610812A (en) * 1994-06-24 1997-03-11 Mitsubishi Electric Information Technology Center America, Inc. Contextual tagger utilizing deterministic finite state transducer
US5519786A (en) * 1994-08-09 1996-05-21 Trw Inc. Method and apparatus for implementing a weighted voting scheme for multiple optical character recognition systems
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6044344A (en) * 1997-01-03 2000-03-28 International Business Machines Corporation Constrained corrective training for continuous parameter system
JP3992348B2 (ja) * 1997-03-21 2007-10-17 幹雄 山本 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
JPH1185756A (ja) * 1997-09-03 1999-03-30 Sharp Corp 翻訳装置及び翻訳装置制御プログラムを記憶した媒体
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6134532A (en) * 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6134527A (en) * 1998-01-30 2000-10-17 Motorola, Inc. Method of testing a vocabulary word being enrolled in a speech recognition system
JP2000040085A (ja) * 1998-07-22 2000-02-08 Hitachi Ltd 日本語形態素解析処理の後処理方法および装置
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
DE69829187T2 (de) * 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6513025B1 (en) * 1999-12-09 2003-01-28 Teradyne, Inc. Multistage machine learning process
US6917845B2 (en) * 2000-03-10 2005-07-12 Smiths Detection-Pasadena, Inc. Method for monitoring environmental condition using a mathematical model
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6925432B2 (en) * 2000-10-11 2005-08-02 Lucent Technologies Inc. Method and apparatus using discriminative training in natural language call routing and document retrieval
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition

Also Published As

Publication number Publication date
US20030061030A1 (en) 2003-03-27
JP2003099426A (ja) 2003-04-04

Similar Documents

Publication Publication Date Title
JP4947861B2 (ja) 自然言語処理装置およびその制御方法ならびにプログラム
US7996211B2 (en) Method and apparatus for fast semi-automatic semantic annotation
US8977536B2 (en) Method and system for translating information with a higher probability of a correct translation
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
US8392191B2 (en) Chinese prosodic words forming method and apparatus
JPH07325828A (ja) 文法チェックシステム
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP5482236B2 (ja) プログラムおよび情報処理装置
US7389220B2 (en) Correcting incomplete negation errors in French language text
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JPH0474259A (ja) 文書要約装置
JP3870251B2 (ja) テンス・アスペクト・モダリティ翻訳処理装置
JP3599734B2 (ja) 文章校正装置およびその方法
JP3692711B2 (ja) 機械翻訳装置
JP2838850B2 (ja) 仮名漢字変換装置
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP2001337945A (ja) 自動編集装置及び方法並びにこれに利用される記憶媒体
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
JP2002236876A (ja) 解析方法及び解析装置
Llitjós Towards Interactive and Automatic Refinement of Translation Rules
JP2001265766A (ja) 機械翻訳方法、機械翻訳装置及び記録媒体
JPH10187699A (ja) 文書処理装置及びその方法
JP2002073070A (ja) 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法
Parsing Syntactic Annotation: Linguistic Aspects of Grammatical Tagging and Skeleton Parsing

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080910

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120306

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees