JP2019016162A - 形態素解析プログラム、形態素解析装置、および形態素解析方法 - Google Patents

形態素解析プログラム、形態素解析装置、および形態素解析方法 Download PDF

Info

Publication number
JP2019016162A
JP2019016162A JP2017133065A JP2017133065A JP2019016162A JP 2019016162 A JP2019016162 A JP 2019016162A JP 2017133065 A JP2017133065 A JP 2017133065A JP 2017133065 A JP2017133065 A JP 2017133065A JP 2019016162 A JP2019016162 A JP 2019016162A
Authority
JP
Japan
Prior art keywords
character string
analysis
morpheme
morphological analysis
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017133065A
Other languages
English (en)
Inventor
一 森田
Hajime Morita
一 森田
友哉 岩倉
Tomoya Iwakura
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017133065A priority Critical patent/JP2019016162A/ja
Priority to CN201810686874.5A priority patent/CN109213992A/zh
Publication of JP2019016162A publication Critical patent/JP2019016162A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】形態素解析の解析精度を向上させること。【解決手段】形態素解析装置は、形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部と、解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力する第1の解析部と、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する第2の解析部と、を備える。【選択図】図2

Description

本発明は、形態素解析プログラム、形態素解析装置、および形態素解析方法に関する。
近年、インターネット上の情報が飛躍的に増大しており、ビッグデータを用いたビジネスが増加しているため、ビッグデータを効率的に処理することが望まれている。日本語、中国語、または韓国語の文書のように、単語と単語がスペース等の区切り文字で区切られていない表記の文書の場合、単語の出現頻度を計算するために形態素解析が行われる。
形態素解析は、テキストを形態素に分割し、各形態素に対して品詞情報を付与する処理である。形態素解析により得られる形態素は、単語として扱われることもある。このような形態素解析を行うことで、文書中の単語間の関係及び単語の品詞が決定され、文書中のテキストを単語に分割することができる。しかし、形態素解析は処理負荷が大きいため、大量のテキストを処理するには長い時間がかかる。
形態素解析においては、解析対象の文字列の表記に部分一致する全ての単語を辞書から抜き出し、単語の候補(解析候補)を列挙したグラフ構造であるラティスを利用した解析が行われる。
図1は、ラティスの例を示す図である。
図1では、解析対象である入力文=「送られてきた」に対するラティスを構築した場合を示す。形態素解析では、構築したラティスに対して文脈(前後の形態素)を考慮して、正しい形態素列を決定する。それにより、「送られてきた」の形態素解析結果は、「送ら(動詞・未然形)|れて(接尾辞)|きた(接尾辞)」となる。ラティスの構築は、計算コストが大きく、時間がかかる。
形態素解析において、計算コストの大きいラティスの構築を行なわず、パターンマッチングを用いることで高速化する方法が知られている(例えば、非特許文献1参照)。文を2以上の単語に高速に分割する単語分割装置が知られている(例えば、特許文献1参照)。精度の高い単語分割用辞書を得る辞書登録装置が知られている(例えば、特許文献2参照)。
特開2014−106707号公報 特開2014−120007号公報
Manabu Sassano, "Deterministic Word Segmentation Using Maximum Matching with Fully Lexicalized Rules", Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 79-83, Gothenburg, Sweden, April 26-30 2014
しかしながら、非特許文献1記載の形態素解析方法では、パターンマッチングにより高速に形態素解析を行うことができるが、誤った解析結果を出力する場合があり、解析精度が低いという問題がある。
1つの側面において、本発明は、形態素解析の解析精度を向上させることを目的とする。
実施の形態に係る形態素解析プログラムは、形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備えるコンピュータに以下の処理を実行させる。
前記コンピュータは、解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力する。
前記コンピュータは、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成する
前記コンピュータは、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する
実施の形態によれば、形態素解析の解析精度を向上させることができる。
ラティスの例を示す図である。 実施の形態に係る形態素解析装置の構成図である。 文脈独立辞書の例である。 文脈依存文字列と解析結果の例である。 実施の形態に係る形態素解析処理を示す図である。 実施の形態に係る形態素解析処理を示す図である。 実施の形態に係る文脈独立辞書生成処理のフローチャートである。 実施の形態に係る形態素解析処理のフローチャートである。 未解析の文字列とその前後の形態素についてのラティスを示す図である。 未解析の文字列とその前後の形態素についてのラティスを示す図である。 未解析の文字列に対する解析結果である形態素列を示す図である。 未解析の文字列に対する解析結果である形態素列を示す図である。 実施の形態に係る形態素解析処理の変形例のフローチャートである。 未解析の文字列を含む入力文のラティスを示す図である。 未解析の文字列に対する解析結果を含む入力文の形態素列を示す図である。 情報処理装置の構成図である。
以下、図面を参照しながら実施の形態について説明する。
最初に非特許文献1記載の従来技術を用いて、形態素解析を行った場合について述べる。従来技術では、最初に辞書を用いた最長一致法により、解析対象の文に対する形態素列を出力し、誤って出力された形態素列のうち、置き換えパターンに一致する形態素列を当該置き換えパターンに従って正しい形態素列に置き換えている。
(従来技術による形態素解析の第1の例)
解析対象である入力文=「非常に評判がいいわけだ」に対して、最長一致法による形態素解析の結果は、「非常に|評判|が|いいわけ|だ」となる。従来技術では、誤った解析結果を修正するため、置き換えパターンを参照し、一致する形態素列を修正する。
ここで、「が|いいわけ|だ」を「が|いい|わけだ」に修正する置き換えパターンがあるとする。その場合、「非常に|評判|が|いいわけ|だ」は、「非常に|評判|が|いい|わけだ」に修正される。このように、適切な置き換えパターンがある場合は、「非常に評判がいいわけだ」の解析結果として、正しい解析結果である「非常に|評判|が|いい|わけだ」が得られる。
しかし、上記のような適切な置き換えパターンが存在しない場合、形態素列は修正されないため、「非常に評判がいいわけだ」に対する形態素解析の結果として、誤った解析結果である「非常に|評判|が|いいわけ|だ」が得られる。
(従来技術による形態素解析の第2の例)
入力文=「人手不足と言うがいいわけだ」に対して、最長一致法による形態素解析の結果は、「人手|不足|と|言う|が|いいわけ|だ」となる。従来技術では、誤った解析結果を修正するため、置き換えパターンを参照し、一致する形態素列を修正する。
ここで、「人手|不足|と|言う|が|いいわけ|だ」に含まれる形態素列を修正する置き換えパターンが存在しない場合、解析結果は修正されずに、正しい解析結果である「人手|不足|と|言う|が|いいわけ|だ」が得られる。
ここで、「が|いいわけ|だ」を「が|いい|わけだ」に修正する置き換えパターンがあるとする。その場合、「人手|不足|と|言う|が|いいわけ|だ」は、「人手|不足|と|言う|が|いい|わけだ」に修正される。置き換えパターンを適用することにより、「人手不足と言うがいいわけだ」に対する形態素解析の結果として、誤った解析結果である「人手|不足|と|言う|が|いい|わけだ」が得られる。
このように、置き換えパターンは、文脈を考慮したルールになっておらず、置き換えパターンを適用することで、誤った解析結果が得られることがある。
図2は、実施の形態に係る形態素解析装置の構成図である。
形態素解析装置101は、辞書生成部201、形態素解析部301、および記憶部401を有する。
辞書生成部201は、文脈独立辞書構築部211、形態素解析部221、依存性判定部231を有する。
文脈独立辞書構築部211は、形態素解析部221と依存性判定部231の判定結果を用いて文脈独立辞書421を生成する。
形態素解析部221は、コーパス411の形態素解析を行う。形態素解析部221は、例えば、既存の形態素解析方法を用いて、形態素解析を行う。
依存性判定部231は、依存性判定部231は、文字列が文脈により形態素解析の結果が異なる(文脈に依存する)文字列であるか判定する。
実施の形態において、文脈により形態素解析の結果が異なる文字列を文脈依存文字列と称する。また、実施の形態において、文脈により形態素解析の結果が変化しない文字列を文脈独立文字列と称する。
形態素解析部301は、文脈独立文字列解析部311および文脈依存文字列解析部321を有する。
文脈独立文字列解析部311は、文脈独立辞書421を用いてパターンマッチングにより、入力文431の形態素解析を行う。文脈独立文字列解析部311により、入力文431のうち文脈独立文字列の形態素解析が行われる。
文脈依存文字列解析部321は、ラティス構築部322および形態素列選択部323を有する。文脈依存文字列解析部321は、入力文431のうち文脈独立文字列解析部311により解析されていない文字列(すなわち、文脈依存文字列)の形態素解析を行う。
ラティス構築部322は、未解析の文字列のラティスを構築する。ラティス(単語ラティスとも呼ぶ)は、解析対象の文字列の表記に部分一致する全ての単語を形態素解析辞書から抜き出し、単語の候補(解析結果の候補)を列挙したグラフ構造である。
形態素列選択部323は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び(パス)を選択する。形態素列選択部323は、例えば、Viterbiアルゴリズムを用いて、評価値を最小とするようなパスを選択する。尚、形態素列選択部323は、Viterbiアルゴリズムに限らずビームサーチ等の方法を用いても良い。
記憶部401は、形態素解析装置101で使用されるデータやプログラム等を記憶する。記憶部401は、コーパス411、文脈独立辞書421、入力文431、および解析結果441を記憶する。また、記憶部401は、ラティス構築部322および形態素解析部221がラティスを構築するときに使用する複数の単語(形態素)を含む形態素解析辞書(不図示)を記憶する。
コーパス411は、複数の文の集合である。コーパス411は、辞書生成部201により文脈独立辞書421の生成に用いられる。
文脈独立辞書421は、文脈独立文字列と文脈独立文字列に対する形態素解析の結果を示す情報である。文脈独立辞書421は、マッチング辞書の一例である。
入力文431は、形態素解析部301による形態素解析の対象となる文である。入力文431は、解析対象テキストの一例である。
解析結果441は、入力文431の形態素解析の結果である。
図3は、文脈独立辞書の例である。
文脈独立辞書421は、文脈により形態素解析の結果が変化しない文字列である文脈独立文字列を示す情報である。文脈独立辞書421は、文字列と形態素列とを含む。文脈独立辞書421には、文字列と形態素列とが対応付けられて記録されている。
文字列は、文脈独立文字列である。
形態素列は、文字列に対する形態素解析の結果である。形態素列は、形態素解析により文字列が分割された複数の形態素の集合である。明細書および図面において、形態素列の「|」は形態素間の切れ目を示す。尚、形態素列には、各形態素の品詞や活用形を示す情報が付加されていてもよい。
例えば、図3の文脈独立辞書421は、文字列として「夜間や休日」、対応する形態素列として「夜間|や|休日」を含む。また、図3の文脈独立辞書421は、文字列として「がれきの山」、対応する形態素列として「がれき|の|山」を含む。
「夜間や休日」は、「夜間や休日」の前後の文脈によって、形態素解析の結果が変化しない文字列である。すなわち、「夜間や休日」に対する形態素解析の結果は、常に同じである。「夜間や休日」に対して形態素解析を行うと、「夜間|や|休日」のように分割される。
「がれきの山」についても、形態素解析の結果は、常に「がれき|の|山」のように分割される。
上記のような文脈独立文字列は、文字列の前後の文脈によらず形態素解析の結果が常に同じとなるため、文脈独立文字列だけで正しい解析結果を得ることが可能である。
また、文脈独立辞書421は、文字列として、型番、人名、顔文字、定型句、英単語、またはタブや改行を示す制御用トークンなどが登録されてもよい。型番、人名、顔文字、定型句、英単語、および制御用トークンは、文字列の前後の文脈によらず形態素解析の結果が常に同じとなる文字列である。また、文脈独立辞書421は、文字列が括弧であるときの括弧に対する形態素解析の結果や文字列が連続した数値のような数値表現であるときの数値表現に対する形態素解析の結果を示す情報を含んでもよい。括弧や数値表現は文字列の前後の文脈によらず形態素解析の結果が常に同じとなる文字列である。
次に、文脈により形態素解析の結果が異なる文字列である文脈依存文字列について述べる。
図4は、文脈依存文字列と解析結果の例である。
ここでは、文脈依存文字列として「よく知っているからだ」、「休日や夜間」、および「雪の山」の3つの例について述べる。
(1)「よく知っているからだ」
「よく知っているからだ」に対して形態素解析を行うと、「よく知っているからだ」の前後の文脈によって、「よく|知っている|から|だ」または「よく|知っている|からだ(体)」のように分割される。
(2)「休日や夜間」
「休日や夜間」の前に「今週の」が付いている場合、「今週の休日や夜間」に対して形態素解析を行うと、「今週|の|休日|や|夜間」のように分割される。
「休日や夜間」の前に「病院の定」が付いている場合、「病院の定休日や夜間」に対して形態素解析を行うと、「病院|の|定休日|や|夜間」のように分割される。
(3)「雪の山」
「雪の山」の後に「を見る」が付いている場合、「雪の山を見る」に対して形態素解析を行うと、「雪|の|山|を|見る」のように分割される。
「雪の山」の前に「大」且つ「雪の山」の後に「形県」が付いている場合、「大雪の山形県」に対して形態素解析を行うと、「大雪|の|山形|県」のように分割される。
上記のような文脈依存文字列は、文字列の前後の文脈により形態素解析の結果が異なるため、文脈依存文字列だけでは、正しい解析結果を得ることが難しい。
次に、実施の形態に係る形態素解析処理の例を示す。
図5は、実施の形態に係る形態素解析処理を示す図である。
図5では、入力文431として「非常に評判がいいわけだ」の形態素解析を行う場合について説明する。また、文脈独立辞書421は、文字列=「非常に評判がいい」と形態素列=「非常に|評判|が|いい」が含まれているとする。
文脈独立文字列解析部311は、入力文=「非常に評判がいいわけだ」に対して、文脈独立辞書421を用いた最長一致法による解析を行う。図5では、入力文=「非常に評判がいいわけだ」のうち「非常に評判がいい」が文脈独立辞書421の文字列と一致する。
よって、入力文=「非常に評判がいいわけだ」のうち「非常に評判がいい」の形態素解析の結果は、「非常に|評判|が|いい」となる。
次に、入力文のうち、文脈独立文字列解析部311により解析されなかった残りの文字列の形態素解析を文脈依存文字列解析部321が行う。すなわち、文脈依存文字列解析部321は、入力文=「非常に評判がいいわけだ」のうち、文脈独立文字列解析部311により解析されなかった残りの文字列=「わけだ」の形態素解析を行う。
ラティス構築部322は、残り(未解析)の文字列=「わけだ」とその前後の解析済みの文字列=「非常に評判がいいわけだ」のラティスを構築する。
形態素列選択部323は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び(パス)を選択する。その結果、未解析の文字列=「わけだ」の解析結果は、「わけだ」となる。
以上により、入力文=「非常に評判がいいわけだ」の形態素解析の結果は、「非常に|評判|が|いい|わけだ」となる。
次に、入力文に含まれる文字列が文脈独立辞書421に含まれていない場合について述べる。文脈独立辞書421に用いられるコーパスのサイズが小さく、文脈独立辞書421に文字列=「非常に評判がいい」が含まれない場合を説明する。
図6は、実施の形態に係る形態素解析処理を示す図である。
図6では、図5と同様に入力文431として「非常に評判がいいわけだ」の形態素解析を行う場合について説明する。また、文脈独立辞書421は、文字列=「非常に評判がいい」は含まれていないとする。
文脈独立文字列解析部311は、入力文=「非常に評判がいいわけだ」に対して、文脈独立辞書421を用いた最長一致法による解析を行う。図6では、入力文=「非常に評判がいいわけだ」のうち、一致する文字列が文脈独立辞書421に含まれていない。
よって、入力文=「非常に評判がいいわけだ」のいずれの文字列も文脈独立文字列解析部311により解析されない。
次に、入力文のうち、文脈独立文字列解析部311により解析されなかった残りの文字列の形態素解析を文脈依存文字列解析部321が行う。すなわち、文脈依存文字列解析部321は、入力文=「非常に評判がいいわけだ」の形態素解析を行う。
ラティス構築部322は、残り(未解析)の文字列=「非常に評判がいいわけだ」のラティスを構築する。
形態素列選択部323は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び(パス)を選択する。その結果、未解析の文字列=「非常に評判がいいわけだ」の解析結果は、「非常に|評判|が|いい|わけだ」となる。
以上により、入力文=「非常に評判がいいわけだ」の形態素解析の結果は、「非常に|評判|が|いい|わけだ」となる。
このように、入力文に含まれる文字列が文脈独立辞書421に含まれていない場合でも、正しく形態素解析を行うことができる。
図7は、実施の形態に係る文脈独立辞書生成処理のフローチャートである。
ここで、コーパス401は、文s(i=0〜N)を含むとする。実施の形態において、文s、s、s12、s15、s20、s30、s35を下記に示す。
文s=「朝日新聞東京本社が「宅配便で不審な段ボール箱が二箱送られてきた」と築地署に届け出た。」
文s=「そうする必要があるからだ。」
文s12=「担当者は朝日新聞の取材に回答した。」
文s15=「からだと健康に気を付けましょう。」
文s20=「朝日新聞東京本社は大江戸線築地市場駅の前にある。」
文s30=「本社が意思決定権を持つ。」
文s35=「発行元の日本社が責任を負う。」
また、文sのiは、文sの文IDとする。
ステップS501は、ステップS506の終端に対応するループの始端である。変数iの初期値は0であり、ループを実行する条件はiがN以下であり、ループの終了毎にiは1ずつインクリメントされる。
ステップS502において、形態素解析部221は、コーパス401を読み出し、コーパス401に含まれる文sの形態素解析を行う。例えば、形態素解析部221は、文sに対するラティスを構築して、形態素解析を行う。文sに対する形態素解析の結果である形態素列を形態素列s’とする。文sの形態素解析の結果s’は、s’=「朝日|新聞|東京|本社|が|「|〜」となる。また、形態素列s’のiは、形態素列s’の文IDとする。
ステップS503において、ステップS505の終端に対応するループの始端である。依存性判定部231は、形態素列s’に含まれる連続する部分形態素列のうち未選択の連続する部分形態素列を1つ選択する。選択された部分形態素列nは、n=(文字列p、形態素列m、文ID)と表記する。文字列pは形態素列mを繋げた文字列であり、形態素列mは選択された部分形態素列を構成する形態素列であり、文IDは選択された部分形態素列nが含まれる形態素列s’または文sの文IDである。例えば、n=(朝日新聞、朝日|新聞、1)となる。また、n=(新聞東京本社、新聞|東京|本社、1)となる
ステップS504において、依存性判定部231は、文字列pごとに、形態素列mと文IDの配列をT[p].M、T[p].Hにそれぞれ保存する。例えば、文字列p=「朝日新聞」の場合、T[朝日新聞].M=[朝日|新聞]、T[朝日新聞].H=[1,12、〜]となる。また、文字列p=「からだ」の場合、T[からだ].M=[から|だ,からだ(体)],T[からだ].H=[2,15、〜]となる。すなわち、文字列=「からだ」の形態素解析の結果は「から|だ」または「からだ(体)」となることを示す。また、T[からだ].H=[2,15、〜]は、文字列=「からだ」が文s、s15に含まれていることを示す。
ステップS505において、ステップS503の始端に対応するループの終端である。形態素列s’に含まれる連続する部分形態素列を全て選択済みの場合、制御はステップS506に進み、形態素列s’において未選択の連続する部分形態素列がある場合、制御はステップS503に戻る。
ステップS506は、ステップS501の始端に対応するループの終端である。iがNより大きい場合、処理はステップS507に進み、iがN以下の場合、iは1インクリメントされ、制御はステップS501に戻る。
ステップS507において、ステップS516の終端に対応するループの始端である。依存性判定部231は、配列T[p]の文字列pのうち未選択の文字列pを1つ選択する。以下、ステップS508〜S515における文字列pは、選択された文字列pであるとする。
ステップS508において、依存性判定部231は、配列T[p].Mの要素の数|T[p].M|が1であるか判定する。配列T[p].Mの要素の数が1である場合、制御はステップS510に進み、T[p].Mの要素の数が1以外の場合、制御はステップS509に進む。例えば、文字列p=「からだ」である場合、T[からだ].M=[から|だ,からだ(体)]であるので、|T[p].M|=2となり、制御はステップS509に進む。例えば、文字列p=「東京本社が「宅配便」である場合、T[東京本社が「宅配便].M=[東京本社が「宅配便]であるので、|T[p].M|=1となり、制御はステップS510に進む。ステップS508では、文字列pの形態素解析の結果が複数あるか、言い換えれば文字列pの形態素解析が常に同一であるかチェックしている。
ステップS509において、文字列pを破棄する。
ステップS510において、依存性判定部231は、配列T[p].Hの要素の数|T[p].H|が1より大きいか判定する。配列T[p].Hの要素の数が1より大きい場合、制御はステップS512に進み、T[p].Hの要素の数が1以下の場合、制御はステップS511に進む。例えば、文字列p=「東京本社が「宅配便」である場合、T[東京本社が「宅配便].H=[1]であるので、|T[p].H|=1となり、制御はステップS511に進む。例えば、文字列p=「朝日新聞東京本社」である場合、T[朝日新聞東京本社].H=[1,12,30]であるので、|T[p].H|=3となり、制御はステップS512に進む。
ステップS511において、文字列pを破棄する。
ステップS512において、依存性判定部231は、文字列pを含む文集合の文IDであるH’を得る。例えば、文字列p=「本社が」である場合、「本社が」を含む文は、文s,s20,s30,s35であるので、H’=1,20,30,35となる。
ステップS513において、依存性判定部231は、配列T[p].Hと文集合H’が等しいか判定する。配列T[p].Hと文集合H’が等しい場合、制御はステップS515に進み、配列T[p].Hと文集合H’が等しくない場合、制御はステップS514に進む。例えば、文字列p=「本社が」である場合、配列T[p].H=[1,12,30]であり、H’=1,20,30,35であり、配列T[p].HとH’は等しくないため、制御はステップS514に進む。ステップS513では、形態素列の境界が異なる場合があるかを検出している。
ステップS514において、文字列pを破棄する。
ステップS515において、文字列pと当該文字列pの解析結果である形態素列を文脈独立辞書421に登録する。文字列p=「朝日新聞東京本社」である場合、T[朝日新聞東京本社].M=[朝日|新聞|東京|本社]、T[朝日新聞東京本社].H=[1,12,30]となり、文字列p=「朝日新聞東京本社」と形態素列=「朝日|新聞|東京|本社」が文脈独立辞書421に登録される。
ステップS516において、ステップS507の始端に対応するループの終端である。
図8は、実施の形態に係る形態素解析処理のフローチャートである。
ステップS601において、文脈独立文字列解析部311は、入力文431を読み出す。入力文431に含まれる文字を先頭から順にc0、c1、〜、cNと表記する。また、変数i=0とする。実施の形態において、入力文=「朝日新聞東京本社が「宅配便で不審な段ボール箱が」とする。
ステップS602において、文脈独立文字列解析部311は、入力文431と文脈独立辞書421とのパターンマッチングを行い、文脈独立辞書421に含まれる文字列と一致する文字列を入力文431から検出する。詳細には、文脈独立文字列解析部311は、文脈独立辞書421を検索し、文脈独立辞書421に含まれる文字列とマッチするciを先頭とする最長の文字列ci〜cjを探索する。
例えば、i=0の時、c0〜c7=「朝日新聞東京本社」となる。i=8の時、マッチする文字列はない。i=9の時、c9〜c11=「「宅配」となる。i=12の時、マッチする文字列はない。i=13の時、c13〜c22=「で不審な段ボール箱が」となる。
ステップS603において、文脈独立文字列解析部311は、ciを先頭とする文字列に一致する文字列が文脈独立辞書421にあるかチェックする。一致する文字列が文脈独立辞書421にある場合制御はステップS605に進み、一致する文字列が文脈独立辞書421に無い場合、制御はステップS604に進む。
ステップS604において、文脈独立文字列解析部311は、変数iを1インクリメントする。
ステップS605において、文脈独立文字列解析部311は、変数iをj+1に設定する。例えば、i=0の時、ステップS602で述べたようにc0〜c7=「朝日新聞東京本社」となり、j=7なので、iは、8(=7+1)に設定される。
ステップS606において、文脈独立文字列解析部311は、文字列ci〜cjに対する解析結果を解析結果441として記憶部401に保存する。例えば、i=0の時、c0〜c7=「朝日新聞東京本社」に対する解析結果=「朝日|新聞|東京|本社」を解析結果441として記憶部401に保存する。i=9の時、c9〜c11=「「宅配」に対する解析結果=「「|宅配」を解析結果441として記憶部401に保存する。i=13の時、c13〜c22=「で不審な段ボール箱が」に対する解析結果=「で|不審な|段ボール|箱|が」を解析結果441として記憶部401に保存する。
ステップS607において、文脈独立文字列解析部311は、変数iがNより大きいか判定する。変数iがNより大きい場合、制御はステップS608に進み、変数iがN以下の場合、制御はステップS602に戻る。
ステップS608において、入力文431のうち文脈独立文字列解析部311において未解析の文字列をs、s、〜、sとする。また、変数k=0とする。実施の形態において、入力文=「朝日新聞東京本社が「宅配便で不審な段ボール箱が」のうち、「朝日新聞東京本社」、「「宅配」、および「で不審な段ボール箱が」が解析済みのため、未解析の文字列は、s=「が」、s=「便」となる。
ステップS609において、ラティス構築部322は、文字列sと文字列sの前後の解析済みの形態素について、複数の単語を含む辞書を用いてラティスを構築する。文字列s=「が」とその前後の解析済みの形態素のラティスを図9に示す。文字列s=「便」とその前後の解析済みの形態素のラティスを図10に示す。
ステップS610において、形態素列選択部323は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び(パス)を選択する。形態素列選択部323は、例えば、Viterbiアルゴリズムを用いて、評価値を最小とするようなパスを選択する。例えば、文字列s=「が」に対して、解析結果として「が(助詞)」が選択される。文字列s=「が」の解析結果と文字列sの前後の解析済みの形態素を含む形態素列を図11に示す。例えば、文字列s=「便」に対して、解析結果として「便(びん)」が選択される。文字列s=「便」の解析結果と文字列sの前後の解析済みの形態素を含む形態素列を図12に示す。
ステップS611において、形態素列選択部323は、変数kを1インクリメントする。
ステップS612において、形態素列選択部323は、変数kがMより大きいか判定する。変数kがMより大きい場合、制御はステップS613に進み、変数kがM以下の場合、制御はステップS609に戻る。
ステップS613において、文字列s1〜sに対する形態素解析の結果を解析結果441として記憶部401に保存する。
図8に示す形態素解析処理のように、未解析の文字列について、未解析の文字列ごとに形態素解析を行うのでなく、全ての未解析の文字列を含む入力文全体のラティスを用いて形態素解析を行ってもよい。
図13は、実施の形態に係る形態素解析処理の変形例のフローチャートである。
図8の形態素解析処理と同様に、入力文=「朝日新聞東京本社が「宅配便で不審な段ボール箱が」とする。
ステップS1601〜S1608の処理は、それぞれ図8のステップS601〜S607の処理と同様であるため、説明は省略する。
ステップS1609において、ラティス構築部322は、文字列sと文字列sの前後の解析済みの形態素について、複数の単語を含む辞書を用いてラティスを構築する。
ステップS1610において、形態素列選択部323は、変数kを1インクリメントする。
ステップS1611において、形態素列選択部323は、変数kがMより大きいか判定する。変数kがMより大きい場合、制御はステップS1612に進み、変数kがM以下の場合、制御はステップS1609に戻る。実施の形態において、変数kがMより大きい場合、図14に示すような未解析の文字列s=「が」、s=「便」を含む入力文全体のラティスが構築される。
ステップS1612において、形態素列選択部323は、構築されたラティスにおいて、文章として最も確からしいと思われる単語の並び(パス)を選択する。形態素列選択部323は、例えば、Viterbiアルゴリズムを用いて、評価値を最小とするようなパスを選択する。例えば、文字列s=「が」に対して、解析結果として「が(助詞)」が選択される。例えば、文字列s=「便」に対して、解析結果として「便(びん)」が選択される。文字列s=「が」、s=「便」の解析結果を含む入力文全体の形態素列を図15に示す。入力文全体のラティスを構築して形態素解析を行うことで、図9,10のように未解析の文字列とその前後の形態素列のラティスのみから形態素解析を行うより、精度を向上できる。
ステップS613において、文字列s1〜sに対する形態素解析の結果を解析結果441として記憶部401に保存する。
実施の形態の形態素解析装置によれば、パターンマッチングにより形態素解析を行い、パターンマッチングに合致しなかったテキストに対してラティスを構築して解析を行うことで、形態素解析の精度を保ちながら高速化できる。
実施の形態の形態素解析装置によれば、パターンマッチングに合致しなかったテキストに対してのみラティスを構築して形態素解析を行うので、解析対象のテキスト全体のラティスを構築して形態素解析を行う場合に比べて、計算コストを低減できる。
図16は、情報処理装置の構成図である。
図2の形態素解析装置101は、例えば、図16に示すような情報処理装置(コンピュータ)10を用いて実現可能である。
図16の情報処理装置は、Central Processing Unit(CPU)1、メモリ2、入力装置3、出力装置4、補助記憶装置5、媒体駆動装置6、及びネットワーク接続装置7を含む。これらの構成要素はバス8により互いに接続されている。
メモリ2は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)、フラッシュメモリ等の半導体メモリである。メモリ2は、形態素解析処理のためのプログラム及びデータを格納する。メモリ2は、記憶部401として用いることができる。
CPU1(プロセッサ)は、例えば、メモリ2を利用してプログラムを実行することにより、文脈独立辞書構築部211、形態素解析部221、依存性判定部231、文脈独立文字列解析部311、ラティス構築部322、および形態素列選択部323として動作する。
入力装置3は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示や情報の入力に用いられる。出力装置4は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザ又はオペレータへの問い合わせや処理結果の出力に用いられる。処理結果は、形態素解析の結果であってもよい。
補助記憶装置5は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置5は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置5にプログラム及びデータを格納しておき、それらをメモリ2にロードして使用することができる。補助記憶装置5は、記憶部401として用いることができる。
媒体駆動装置6は、可搬型記録媒体9を駆動し、その記録内容にアクセスする。可搬型記録媒体9は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体9は、Compact Disk Read Only Memory(CD−ROM)、Digital Versatile Disk(DVD)、Universal Serial Bus(USB)メモリ等であってもよい。ユーザ又はオペレータは、この可搬型記録媒体9にプログラム及びデータを格納しておき、それらをメモリ2にロードして使用することができる。
このように、プログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ2、補助記憶装置5、及び可搬型記録媒体9のような、物理的な(非一時的な)記録媒体である。
ネットワーク接続装置7は、Local Area Network(LAN)、インターネット等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェースである。情報処理装置は、ネットワーク接続装置7を介して外部の装置からプログラム及びデータを受信し、それらをメモリ2にロードして使用することができる。
情報処理装置は、ネットワーク接続装置7を介して、ユーザ端末から指示や情報を受信し、形態素解析処理を行って、処理結果をユーザ端末へ送信することもできる。
なお、情報処理装置が図16のすべての構成要素を含む必要はなく、用途や条件に応じて一部の構成要素を省略することも可能である。例えば、ユーザ又はオペレータからの指示や情報の入力を行わない場合は、入力装置3を省略してもよく、ユーザ又はオペレータへの問い合わせや処理結果の出力を行わない場合は、出力装置4を省略してもよい。情報処理装置が可搬型記録媒体9又は通信ネットワークにアクセスしない場合は、媒体駆動装置6又はネットワーク接続装置7を省略してもよい。
以上の実施の形態に関し、さらに以下の付記を開示する。
(付記1)
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備えるコンピュータに
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する、
処理を実行させる形態素解析プログラム。
(付記2)
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する処理を前記コンピュータにさらに実行させる付記1記載の形態素解析プログラム。
(付記3)
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第1の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行う
処理を前記コンピュータにさらに実行させる付記1記載の形態素解析プログラム。
(付記4)
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部と、
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力する第1の解析部と、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する第2の解析部と、
を備える形態素解析装置。
(付記5)
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する辞書生成部と、
をさらに備えることを特徴とする付記4記載の形態素解析装置。
(付記6)
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第1の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記第1の解析部は、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記第2の解析部は、前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行うことを特徴とする付記4記載の形態素解析装置。
(付記7)
形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備える形態素解析装置が
解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する、
処理を有する形態素解析方法。
(付記8)
前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する処理をさらに有する付記7記載の形態素解析方法。
(付記9)
前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第1の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行う
処理をさらに有する付記7記載の形態素解析方法。
101 形態素解析装置
201 辞書生成部
211 文脈独立辞書構築部
221 形態素解析部
231 依存性判定部
301 形態素解析部
311 文脈独立文字列解析部
321 文脈依存文字列解析部
322 ラティス構築部
323 形態素列選択部
401 記憶部
411 コーパス
421 文脈独立辞書
431 入力文
441 解析結果

Claims (5)

  1. 形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備えるコンピュータに
    解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力し、
    前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
    前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する、
    処理を実行させる形態素解析プログラム。
  2. 前記複数の文の形態素解析を行い、前記複数の文それぞれに含まれる文字列の形態素解析結果がすべて同じである場合に、前記文字列を前記マッチング辞書に登録する処理を前記コンピュータにさらに実行させる請求項1記載の形態素解析プログラム。
  3. 前記マッチング辞書は、複数の文字列と前記複数の文字列の複数の形態素解析結果とを含み、前記複数の文字列は、前記複数の文それぞれに含まれる文字列と他の文字列とを含み、前記複数の形態素解析結果は、前記第1の形態素解析結果と前記他の文字列の形態素解析結果とを含み、
    前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列それぞれと一致する複数の文字列に対して、前記複数の形態素解析結果を出力し、
    前記解析対象テキストのうち、前記マッチング辞書に含まれる前記複数の文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて前記ラティスを生成し、前記ラティスを用いて前記複数の文字列と一致しない残りの文字列に対する形態素解析を行う
    処理を前記コンピュータにさらに実行させる請求項1記載の形態素解析プログラム。
  4. 形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部と、
    解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力する第1の解析部と、
    前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する第2の解析部と、
    を備える形態素解析装置。
  5. 形態素解析辞書と、複数の文それぞれに含まれる文字列と、前記複数の文それぞれに対して共通に得られた前記文字列の第1の形態素解析結果とを含むマッチング辞書を記憶する記憶部を備える形態素解析装置が
    解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致する文字列に対して、前記第1の形態素解析結果を出力し、
    前記解析対象テキストのうち、前記マッチング辞書に含まれる前記文字列と一致しない残りの文字列に対し、前記形態素解析辞書を用いて、複数の形態素解析結果の候補を含むラティスを生成し、
    前記ラティスを用いて前記残りの文字列に対する形態素解析を行い、前記残りの文字列に対する第2の形態素解析結果を出力する、
    処理を有する形態素解析方法。
JP2017133065A 2017-07-06 2017-07-06 形態素解析プログラム、形態素解析装置、および形態素解析方法 Pending JP2019016162A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017133065A JP2019016162A (ja) 2017-07-06 2017-07-06 形態素解析プログラム、形態素解析装置、および形態素解析方法
CN201810686874.5A CN109213992A (zh) 2017-07-06 2018-06-28 词素分析装置和词素分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017133065A JP2019016162A (ja) 2017-07-06 2017-07-06 形態素解析プログラム、形態素解析装置、および形態素解析方法

Publications (1)

Publication Number Publication Date
JP2019016162A true JP2019016162A (ja) 2019-01-31

Family

ID=64989858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017133065A Pending JP2019016162A (ja) 2017-07-06 2017-07-06 形態素解析プログラム、形態素解析装置、および形態素解析方法

Country Status (2)

Country Link
JP (1) JP2019016162A (ja)
CN (1) CN109213992A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311168A (ja) * 1999-04-28 2000-11-07 Nec Corp 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体
JP2002157244A (ja) * 2000-11-20 2002-05-31 Ricoh Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記憶媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297195A (ja) * 1989-03-02 1990-12-07 Nec Corp 形態素解析方式
JP3380077B2 (ja) * 1994-05-23 2003-02-24 沖電気工業株式会社 形態素解析装置
JPH11282837A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記録媒体
EP1271341A3 (en) * 2001-06-30 2005-11-30 Unilever N.V. System for analysing textual data
JP2003256418A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字列処理装置、文字列処理プログラム、および記憶媒体
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
JP2011081763A (ja) * 2009-09-09 2011-04-21 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
JP5853595B2 (ja) * 2011-10-31 2016-02-09 富士通株式会社 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
CN104866496B (zh) * 2014-02-22 2019-12-10 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
JP6300601B2 (ja) * 2014-03-31 2018-03-28 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP6619932B2 (ja) * 2014-12-26 2019-12-11 Kddi株式会社 形態素解析装置およびプログラム
JP2016177369A (ja) * 2015-03-18 2016-10-06 株式会社東芝 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311168A (ja) * 1999-04-28 2000-11-07 Nec Corp 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体
JP2002157244A (ja) * 2000-11-20 2002-05-31 Ricoh Co Ltd 日本語形態素解析装置、日本語形態素解析方法および記憶媒体

Also Published As

Publication number Publication date
CN109213992A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
Liu et al. A broad-coverage normalization system for social media language
US20090192781A1 (en) System and method of providing machine translation from a source language to a target language
JP2007141133A (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP2015022590A (ja) 文字入力装置、文字入力方法、及び文字入力プログラム
CN103050115A (zh) 识别装置、识别方法、生成装置和生成方法
KR20160133349A (ko) 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법
JP2009258293A (ja) 音声認識語彙辞書作成装置
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP5697648B2 (ja) 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP2005339347A (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2019016162A (ja) 形態素解析プログラム、形態素解析装置、および形態素解析方法
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP2017026808A (ja) 音声認識装置、音声認識方法、プログラム
US20180033425A1 (en) Evaluation device and evaluation method
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP7102986B2 (ja) 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置
JP6425732B2 (ja) 文章検索システム、極性判定ルール修正システム、文章検索方法及び極性判定ルール修正方法
JP7483085B1 (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210823

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210823

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220118