JP5436868B2 - 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム - Google Patents

正解判定装置、正解判定システム、正解判定方法および正解判定プログラム Download PDF

Info

Publication number
JP5436868B2
JP5436868B2 JP2009004949A JP2009004949A JP5436868B2 JP 5436868 B2 JP5436868 B2 JP 5436868B2 JP 2009004949 A JP2009004949 A JP 2009004949A JP 2009004949 A JP2009004949 A JP 2009004949A JP 5436868 B2 JP5436868 B2 JP 5436868B2
Authority
JP
Japan
Prior art keywords
word
sentence information
correction rule
unit
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009004949A
Other languages
English (en)
Other versions
JP2010165041A (ja
Inventor
和史 池田
一則 松本
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009004949A priority Critical patent/JP5436868B2/ja
Publication of JP2010165041A publication Critical patent/JP2010165041A/ja
Application granted granted Critical
Publication of JP5436868B2 publication Critical patent/JP5436868B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、電子文書に含まれる文章の語を既知語に変換するための正解判定装置、正解判定システム、正解判定方法および正解判定プログラムに関する。
従来、インターネット上に公開されるブログなどのテキストベースの文章情報を解析対象(テキストコーパス)として、文章を構成する最小単位である形態素に分割して解析する形態素解析装置が利用されている。このような形態素解析装置は、例えば、予め定められた単語(既知語)とその単語の品詞とを対応付けた辞書情報を予め記憶する。そして、解析対象とする文章情報を読み込んで文章を構成する単語を抽出し、抽出した単語のそれぞれと、予め記憶された辞書情報に含まれる単語とを比較する。形態素解析装置は、辞書情報に含まれる単語やその品詞の接続関係などに基づいて、解析対象の文章情報に含まれる語と他の語との境界を判別して文章を形態素に分割する。
ここで、形態素解析を行う文章情報を解析する基準となる辞書情報に含まれる単語には、文語体で表された単語が用いられる場合が多い。このため、インターネット上に公開されるブログやニュース、電子掲示板サービスなど独特の文章表現による未知語が含まれる文章情報を解析対象とする場合、辞書情報から対応する語を検出することができず適切な形態素の分割を行うことができない場合がある。
そこで、特許文献1には、解析対象の文章情報に応じた口語特有の言い回しをユーザが辞書登録し、登録された言い回しに基づいて形態素解析を行う技術が提案されている。ここでは、解析対象の文章情報に含まれる単語のうち、通常はひらがな表記される語が意図的にカタカナ表記にされているような強調表現を、定められた修正ルールに基づいて検出し、通常の表記に修正してから形態素解析が行われる。特許文献2には、解析対象となる文章中でのある文字列の前後の文字列の確率分布を算出し、同一品詞に属する単語の確率分布は類似するという仮定に基づいて品詞推定を行う技術が提案されている。
特許第2870375号公報 特開2006−031295号公報
しかしながら、特許文献1のように、ユーザから入力される口語特有の語を用いて形態素解析を行う場合、ユーザが口語特有のあらゆる語を入力するのは困難であるとともに、単語を入力するユーザの経験や好みなどによって解析にバラツキが生じ、汎用的な形態素解析を行うことはできない。また、特許文献2のように、確率分布に基づいて品詞の推定を行う技術は、専門用語や新語の習得には有用であるが、独特の表現が不規則に現れるブログ等の文章解析には適していない。
本発明は、このような状況に鑑みてなされたもので、文章情報に含まれる未知語を既知語に置換する有用な語の組み合わせを判定する正解判定装置、正解判定システム、正解判定方法および正解判定プログラムを提供する。
上述した課題を解決するために、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部と、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割する解析部と、解析部が分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、正解判定部の判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備えることを特徴とする。
また、本発明は、第1の文章情報が記憶される解析対象情報記憶部と、第1の文章情報に含まれる複数の語のうち修正対象となる第1の語と、第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶部と、第1の文章情報に含まれる第1の語を抽出し、抽出した第1の語を第2の語に置換した第2の文章情報を生成する修正処理を行い、第1の文章情報と第2の文章情報とを解析部に入力する修正ルール適用部と、をさらに備えることを特徴とする。
また、本発明は、検出部が検出した語の組み合わせのうち、第1の文章情報に基づく語を第1の語とし、検出した第2の文章情報に基づく語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせる修正ルール登録部と、をさらに備えることを特徴とする。
また、本発明は、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語と、第2の文章情報に基づく語とを、より短い文字数の語に分割した語を対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。
また、本発明は、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語と、第2の文章情報に基づく語とに、それぞれの文章中で隣接する他の語を連結して対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。
また、本発明は、修正ルール適用部は、正解判定部によって、第1の文章情報に基づく語と、第2の文章情報に基づく語との双方が未知語であると判定された場合、修正ルールに記憶された他の修正ルールに基づいて再度の修正処理を行い、修正ルール登録部は、修正ルール適用部によって行われた再度の修正処理の処理結果に基づいて検出部が検出した第1の文章情報に基づく語を第1の語とし、検出した第2の文章情報に基づく語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。
また、本発明は、正解判定部によって、第1の文章情報に基づく語と、第2の文章情報に基づく語との双方が未知語であると判定された場合、第1の語に対応する第2の語の入力を受付ける入力部をさらに備え、修正ルール登録部は、検出部が検出した第1の文章情報に基づく語を第1の語とし、修正後入力部に入力された語を第2の語として対応付けた修正ルールを生成して修正ルール記憶部にさせることを特徴とする。
また、本発明は、複数の語から構成される第1の文章情報が記憶される解析対象情報記憶装置と、修正対象となる第1の語と、第1の語を置換する第2の語とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、既知の語であることが予め定められた既知語が記憶される既知語記憶部と、第1の文章情報に含まれる第1の語を抽出し、抽出した第1の語を第2の語に置換した第2の文章情報を生成する修正処理を行う修正ルール適用部と、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割する解析部と、解析部が分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、正解判定部の判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、正解判定装置の検出部による検出結果に基づいて修正ルールを生成し、修正ルール記憶装置に記憶させる修正ルール登録装置と、を備えることを特徴とする正解判定システムである。
また、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置の正解判定方法であって、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割するステップと、分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定するステップと、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、を備えたことを特徴とする。
また、本発明は、既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置のコンピュータに、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報との入力を受け付け、入力された第1の文章情報と第2の文書情報とを複数の語に分割するステップと、分割した語と、既知語記憶部に記憶されている既知語とを比較して、既知語記憶部に記憶されていれば既知語であると判定し、既知語記憶部に記憶されていなければ未知語であると判定するステップと、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、を実行させる正解判定プログラムである。
以上説明したように、本発明によれば、複数の語から構成される第1の文章情報と、第1の文章情報に含まれる複数の語のうちいずれかの語が他の語に置換された第2の文書情報とを複数の語に分割し、解析部が分割した語と、予め記憶されている既知語とを比較して、予め記憶されていれば既知語であると判定し、予め記憶されていなければ未知語であると判定し、判定結果に基づいて、第1の文章情報に基づく語が未知語であり、第1の文章情報に基づく語に対応する第2の文章情報に基づく語が既知語である語の組み合わせを検出するようにしたので、解析対象となる第1の文章情報に含まれる語が他の語に置換されたことにより未知語が既知語に置換されたことを検出でき、未知語が含まれる文章情報を既知語で構成される文章に置換するために有用な語を検出することが可能となる。
本発明の一実施形態による正解判定システムの構成を示すブロック図である。 本発明の一実施形態による修正ルールのデータ例を示す図である。 本発明の一実施形態によるラベル付与装置の動作例を示す図である。 本発明の一実施形態によるスコアリング装置の動作例を示す図である。 本発明の一実施形態によるルール特殊化装置の動作例を示す図である。 本発明の一実施形態によるルール結合装置の動作例を示す図である。 本発明の一実施形態によるルール汎用化装置の動作例を示す図である。 本発明の一実施形態による能動学習装置の動作例を示す図である。 本発明の一実施形態による正解判定システムの動作例を示す図である。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による正解判定システム1の構成を示すブロック図である。正解判定システム1は、テキストコーパス記憶装置10と、修正ルール記憶装置20と、ラベル付与装置30と、スコアリング部41と、ルール特殊化装置50と、ルール結合装置60と、ルール汎用化装置70と、能動学習装置80と、入力端末89とを備えている。
テキストコーパス記憶装置10は、本装置による解析対象となる自然言語の文章情報が記憶されるコンピュータ装置である。文章情報は、例えば、インターネットを介して取得されるニュースサイトやブログ等のウェブコンテンツに含まれる文章情報である。テキストコーパス記憶装置10に記憶される文章情報は、複数の語、文から構成されており、口語的な表現、隠語、略語、俗語、若者言葉、スラングなどの様々な文章表現が含まれる。
修正ルール記憶装置20は、文章情報に含まれる複数の語のうち修正対象となる第1の文字列と、第1の文字列と同様の意味内容を有し、形態素解析部34により解析可能な文語による第2の文字列とが対応付けられた複数の修正ルールが記憶されるコンピュータ装置である。修正ルール記憶装置20には、初期状態において基本的ないくつかの修正ルールが予め記憶されている。例えば、修正ルールの例を「(第1の文字列)→(第2の文字列)」として表すと、「ちゃ→ては」、「ヵ→か」、「ゎ→は」、「ゎ→わ」などの修正ルールが予め記憶される。また、修正ルール記憶装置20には、スコアリング装置40、ルール特殊化装置50、ルール結合装置60、ルール汎用化装置70、能動学習装置80によって生成された新たな修正ルールが記憶される。
図2は、修正ルール記憶装置20に記憶される修正ルールのデータ例を示す図である。修正ルールには、登録種別、スコア、ラベルなどの情報が対応付けられて記憶される。登録種別は、その修正ルールが修正ルール記憶装置20に記憶された原因を示す種別であり、予め記憶されたプリミティブなルールであることを示す「初期」や、ルール特殊化装置50による特殊化処理により生成され記憶された修正ルールであることを示す「特殊化」などが存在する。スコアは、スコアリング装置40によって算出された修正ルールの有効性の度合いを示す値であり、数値が高いほど有効性が高いことを示す。この例では、スコアはその修正ルールを適用することにより既知語が未知語に変換される確率を示している。ラベルは、ラベル付与装置30により付与される情報であり、その修正ルールを適用することによる既知語と未知語との状態の変化を示す情報である。本実施形態では、このような情報が全て修正ルール記憶装置20に記憶されることとして説明するが、登録種別やスコア、ラベルなどは、異なる記憶装置を設けて分離して情報を記憶させ管理するようにしても良い。
ラベル付与装置30は、テキストコーパス記憶装置10に記憶された文章情報に含まれる語を修正ルール記憶装置20に記憶された修正ルールに基づいて置換し、置換の有用性を判定するコンピュータ装置である。ラベル付与装置30は、適用文抽出部31と、修正ルール適用部32と、既知語記憶部33と、形態素解析部34と、ラベル判定部35とを備えている。
適用文抽出部31は、テキストコーパス記憶装置10に記憶された解析対象の文章情報を読み出し、修正ルール記憶装置20に記憶された修正ルールの第1の文字列が含まれる文である適用前文を抽出する。例えば、適用文抽出部31は、解析対象の文章情報(TX)に対して適用する修正ルールが「X→Y」である場合、解析対象の文章情報(TX)から第1の文字列「X」を含む文章を抽出して(grep X from TX)、適用前文(TX1)を抽出する。適用文抽出部31は、抽出した適用前文を、修正ルール適用部32と形態素解析部34とに入力する。
修正ルール適用部32は、適用文抽出部31が修正ルールに基づいて解析対象の文章情報から抽出した適用前文に含まれる第1の文字列を、対応する第2の文字列に置換した文である適用後文を生成する。修正ルール適用部32は、適用文抽出部31が抽出した適用前文(TX1)に含まれる第1の文字列(X)を、修正ルールに基づいた第2の文字列(Y)に置換して(sed X/Y TX1)、適用後文(TX2)を生成する。例えば、修正ルール適用部32は、口語文の適用前文「急がなくちゃ」について、修正ルール「ちゃ→ては」を適用し、文語文の適用後文「急がなくては」を生成する。修正ルール適用部32は、生成した適用後文を形態素解析部34に入力する。
既知語記憶部33には、品詞等の情報と対応付けられた複数の既知語のリストが含まれる辞書情報が記憶される。ここで、既知語とは、形態素解析などに用いられる予め定められた語である。既知語は、一般的に文語表現により表される。
形態素解析部34は、適用文抽出部31から入力される適用前文と、修正ルール適用部32から入力される適用後文との入力を受け付けて、入力された適用前文と適用後文とを、既知語記憶部33に記憶された辞書情報に基づいた形態素解析を行い、それぞれの文を形態素に分割する。形態素解析とは、例えば、自然言語による文章を、自然言語の規則に応じた品詞の接続制限に基づいて辞書情報に含まれる既知語に分割し、語の境界を判別して、文章を構成する最小単位である形態素を抽出する処理である。例えば、「庭には二羽ニワトリがいる」との文は、形態素解析を行うことにより、「庭」(名詞)、「に」(助詞)、「は」(助詞)、「二」(名詞)、「羽」(名詞)、「ニワトリ」(名詞)、「が」(助詞)、「いる」(動詞)、のように形態素に分割される。
ラベル判定部35は、形態素解析部34が分割したそれぞれの形態素に基づく語と、既知語記憶部33に記憶されている語とを比較して、分割した語と同一の語が形態素解析部34に記憶されていればその語を既知語であると判定し、既知語記憶部33に記憶されていなければ未知語であると判定する。例えば、ラベル判定部35は、修正ルール「X→Y」を適用した適用前文についての形態素解析結果の文(IN1)と、同様に修正ルール「X→Y」を適用した適用後文についての形態素解析結果の文(IN2)とを入力として、適用前文についての形態素解析結果(IN1)のうち、修正ルールの第1の文字列(X)を含む語(P1)を抽出する。
また、ラベル判定部35は、抽出した語(P1)に含まれる形態素毎に、その形態素または形態素が含まれる語と同一の語が、既知語記憶部33に既知語として記憶されているか否かを判定することにより、その形態素または形態素が含まれる語が既知語であるか未知語であるかを判定する。同様に、ラベル判定部35は、適用後文についての形態素解析結果の文(IN2)のうち、形態素解析結果の文(IN1)に含まれる語(P1)に対応する語(P2)の形態素毎に、既知語であるか未知語であるかを判定する。そして、ラベル判定部35は、語の組み合わせ「P1→P2」について、既知語と未知語との状態の変化を示すラベルを付与する。
ここで、ラベルは、「○」、「□」、「×」、「△」のいずれかの記号を付与することとし、「○」は、P1は未知語でありP2は既知語であることを示す。「□」は、P1とP2とがともに既知語であることを示す。「×」は、P1は既知語でありP2は未知語であることを示す。「△」は、P1とP2とがともに未知語であることを示す。例えば、「かわぃぃこぃぬ」(P1)について修正ルール「ぃ→い」が適用され、「かわいいこいぬ」(P2)が得られた場合には、ラベル判定部35は、既知語記憶部33に記憶された情報を参照して「かわぃぃこぃぬ」は未知語であると判定し、「かわいいこいぬ」は既知語であると判定する。この場合、ラベル判定部35は、「P1→P2」にラベル「○」を付与する。ここで、ラベル判定部35は、置換を行った語の組み合わせ「P1→P2」と、語の組み合わせに対して付与したラベルとを対応付けて、一時的に修正ルール記憶装置20に記憶させるようにしても良い。
スコアリング装置40は、ラベル付与装置30の処理結果に基づいて修正ルールを評価してスコアを付与し、予め定められた閾値を超えるスコアを算出した修正ルールを修正ルール記憶装置20に記憶させる。スコアリング装置40は、スコアリング部41と、修正ルール登録部42とを備えている。スコアリング部41は、テキストコーパス記憶装置10に記憶された複数の文章情報のそれぞれについてラベル付与装置30によって付与されたラベルに基づいて、修正ルール記憶装置20に記憶された修正ルール毎に有効度合いの評価を示すスコアを算出する(スコアリング)。例えば、スコアリング部41は、修正ルールが適用された適用前文の件数と、その適用前文に修正ルールを適用して置換を行ったことによりラベルが「○」となった正解の件数とを算出し、適用前文の件数に対する正解の件数の割合(正解率)をスコアとして算出する。例えば、修正ルール「ぃ→い」を適用前文2件に適用し、正解数が1件であった場合、正解率は50%である。
修正ルール登録部42は、スコアリング部41によって算出されたスコアに応じて、修正ルールを修正ルール記憶装置20に登録する。例えば、修正ルール登録部42は、スコアリング部41によって算出されたスコアが予め定められた閾値(例えば、50%)を超える修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。また、修正ルール登録部42は、修正ルール記憶装置20に記憶されている修正ルールのうち、不要なルールを検出して修正ルール記憶装置20から削除する機能を備えるようにしても良い。例えば、修正ルール登録部42は、修正ルール記憶装置20に既に記憶されている修正ルールのうち、ラベル付与装置30によって再度算出されたスコアが予め定められた閾値(例えば、20%)を下回るような場合には、その修正ルールを修正ルール記憶装置20から削除するようにしても良い。
ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールの特殊化処理を行う。修正ルールの特殊化処理では、ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールに含まれる第1の文字列に、隣接する他の文字(列)を連結させた新たな修正ルールを生成し、生成した新たな修正ルールを用いてラベル付与装置30とスコアリング装置40とを動作させ、予め定められた閾値を超えるスコアが算出された修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。
例えば、ルール特殊化装置50は、ラベル付与装置30によって抽出される適用前文から、修正ルール「X→Y」に含まれる第1の文字列(X)に、適用前文中で隣接する前または後の文字(w)(wは、1文字以上の文字(列))を連結した語(wXまたはXw)を検出し、検出した語(wXまたはXw)を入力としてラベル判定部35とスコアリング装置40とを動作させる。例えば、ルール特殊化装置50は、ラベル付与装置30により形態素解析が行われた結果文から、修正ルール「ちゃ→ては」について、適用前文中で「ちゃ」を含む文(例えば、「行かなくちゃ」、「ちゃんとして」、「見なくちゃ」、「赤ちゃん」、「おちゃわん」、「しなくちゃ」、「くちゃくちゃ」)と、適用前文に対応する適用後文(「行かなくては」、「てはんとして」、「見なくては」、「赤てはん」、「おてはわん」、「しなくては」、「くてはくては」)とを検出し、検出した適用前文と適用後文とについて、ラベル判定部35によりラベルを付与させる。これにより、ルール特殊化装置50は、例えば文「行かなくちゃ→行かなくては」についてラベル「○」を得る。同様に、「ちゃんとして→てはんとして」についてラベル「×」を、「見なくちゃ→見なくては」についてラベル「○」を、「赤ちゃん→赤てはん」についてラベル「×」を、「おちゃわん→おてはわん」についてラベル「×」を、「しなくちゃ→しなくては」についてラベル「○」を、「くちゃくちゃ→くてはくては」についてラベル「×」を得る。
ルール特殊化装置50は、このようにして得たラベルに基づいて、スコアリング装置40にスコアを算出させる。上記の例では、スコアリング装置40は、修正ルール「ちゃ→ては」の前に「く」を連結させた修正ルール「くちゃ→くては」について、適用数が4であり、正解数が3であるから、スコアを75(%)として算出する。同様に、「ちゃ→ては」の前に「なく」を連結させた「なくちゃ→なくては」について、適用数が3であり、正解数が3であるから、スコアは100となる。「ちゃ→ては」の後に「ん」を連結させた「ちゃん→てはん」について、適用数が2であり、正解数が0であるから、スコアは0となる。「ちゃ→ては」の前に「お」を連結させた「おちゃ→おては」について、適用数が1であり、正解数が0であるから、スコアは0となる。「ちゃ→ては」の後に「わ」を連結させた「ちゃわ→てはわ」について、適用数が2であり、正解数が0であるから、スコアは0となる。
ルール特殊化装置50は、スコアリング装置40によってこのようにスコアが算出された修正ルールのうち、予め定められた閾値を超える修正ルールを、新たな修正ルールとして修正ルール記憶装置20に記憶させる。例えば、スコアの閾値が70であれば、上記の修正ルールのうち「くちゃ→くては」と、「なくちゃ→なくては」とを修正ルール記憶装置20に記憶させる。ここで、ルール特殊化装置50は、予め定めた閾値以上のスコアが算出された修正ルールについては、特殊化処理を行わないようにして良い。例えば、閾値を100とする場合、上記の例では「なくちゃ→なくては」に基づいた特殊化処理を行わないようにしても良い。また、修正ルールが爆発的に増加することを防ぐため、予め定めた閾値以上の文字列長となる修正ルールは生成しないなどの制約を設けるようにしても良い。また、特殊化処理の対象とする修正ルールは、初期状態で修正ルール記憶装置20に予め記憶された修正ルールと、後述するルール汎用化装置70により生成された修正ルールとのみに基づいて行い、他の方法により生成された修正ルールに基づいては行わないようにして良い。例えば、上記の例では、「ちゃ→ては」に基づいた特殊化処理を行うが、これにより生成された修正ルール「くちゃ→くては」に基づいた特殊化処理は行わない。これは、「ちゃ→ては」を特殊化した時点で、「くちゃ→くては」を特殊化したルールを得られるためである。
ルール結合装置60は、修正ルール記憶装置20に記憶された修正ルールの結合処理を行う。ルール結合装置60は、修正ルール選択部61と修正ルール結合部62とを備えている。修正ルールの結合処理では、修正ルール選択部61が、ラベル付与装置30によって「△」が付与された語に対して、適用後文の未知語を既知語にするためにさらに適用する修正ルールを修正ルール記憶装置20から検出し、修正ルール結合部62によって修正ルールの結合を行い、新たな修正ルールとして修正ルール記憶装置20に記憶させる。
例えば、修正ルール選択部61は、ラベル付与装置30によって「△」が付与された未知語(w、w・・・w)に対して、修正ルール記憶装置20に記憶された修正ルールのうちスコアが高い修正ルールを順に適用してラベル判定部35に入力し、ラベル判定部35による判定結果が「○」となった時点での修正ルールを、修正ルール結合部62が新たな修正ルールとして修正ルール記憶装置20に記憶させる。
具体的には、テキストコーパス記憶装置10から読み出された文章情報の原文「・・・言うなんて、ヒドぃと思う・・・」に含まれる未知語「ヒドぃ」は、ラベル付与装置30の修正ルール適用部32によって修正ルール「ぃ→い」が適用されることにより、「ヒドい」に修正されるが、「ヒドい」が未知語である場合、ラベル判定部35により付与されるラベルは「△」となる。修正ルール選択部61は、ラベル付与装置30によってラベル「△」が付与された未知語について、修正ルール記憶装置20に記憶された修正ルールのうちスコアの高い修正ルールを順に検出してラベル付与装置30に修正ルールを適用させ、ラベルを付与させる。例えば、上述の例の場合、修正ルール選択部61は、修正ルール記憶装置20に記憶された修正ルールのうち、第1の文字列に文字「ヒ」または「ド」を含む修正ルールを検出する。ここで、ルール結合装置60が、修正ルール「ヒ→ひ」(スコア2)、「ヒド→ひど」(スコア40)、「ド→ど」(スコア1)、「ヒドい→ひどい」(スコア100)、「ヒドく→ひどく」(スコア100)を検出した場合、スコアが高い修正ルール「ヒドい→ひどい」と、修正ルール「ヒドく→ひどく」とを適用対象の修正ルールとして検出する。
修正ルール選択部61は、適用対象の修正ルールとして検出した修正ルールを、未知語「ヒドぃ」についてラベル付与装置30により修正ルール「ぃ→い」が適用されることにより生成された「ヒドい」に対して、ラベル付与装置30にさらに適用させる。これにより、修正ルール選択部61は、ラベル付与装置30に新たにラベルが付与された語に基づいて、新たな修正ルール「・・・言うなんて、ヒドぃと思う・・・→・・・言うなんて、ひどいと思う・・・」を生成し、修正ルール記憶装置20に記憶させる。ここで、ルール結合装置60が生成した修正ルールは極めて具体的な文となるが、後述するルール汎用化装置70の処理によって、より短い適切な長さの修正ルールとして修正ルール記憶装置20に記憶される。また、ルール結合装置60が検出した修正ルールによっても未知語が解決しない場合、再帰的にさらに他の修正ルールを検出してラベル付与装置30による処理を行わせるようにしても良い。
ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールの汎用化処理を行う。修正ルールの汎用化処理では、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、第1の文字列と第2の文字列が共通する1文字以上のプレフィックスまたはサフィックスを持つ修正ルールを検出し、共通するプレフィックスまたはサフィックスの語を削除した第1の文字列と第2の文字列とを組み合わせた修正ルールを生成し、修正ルール記憶装置20に記憶させる。
例えば、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルール「X→Y」が、「wxu→wyu」(但し、w、x、y、uはそれぞれ1文字以上の文字(列))として表現できるとき、修正ルール「x→y」を新たに生成して修正ルール記憶装置20に記憶させる。具体的には、ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルール「正しぃのヵゎ知らない→正しいのかは知らない」について、プレフィックス「正し」とサフィックス「知らない」とを削除して、修正ルール「ぃのヵゎ→いのかは」を生成し、修正ルール記憶装置20に記憶させる。また修正ルール記憶装置20に記憶された修正ルール「困っちゃぅょぉ〜→困ってしまうよ」について、サフィックス「困っ」を削除して、修正ルール「ちゃぅょぉ〜→てしまうよ」を生成して修正ルール記憶装置20に記憶させる。
ここで、ルール汎用化装置70によって汎用化処理の対象となる修正ルールは、ルール結合装置60または能動学習装置80により生成され修正ルール記憶装置20に記憶された修正ルールのみに適用するようにしても良い。また、正解判定システム1は、このように得られた修正ルールに対して、さらにルール特殊化装置50によって特殊化処理を行ったり、ルール結合装置60によって結合処理を行ったりすることで、新たなルールを生成するようにしても良い。
能動学習装置80は、ルール特殊化装置50、ルール結合装置60、ルール汎用化装置70によって新たな修正ルールが生成できず、ラベル付与装置30により付与されるラベルが「△」である未知語を置換する語の入力を受付け、未知語を第1の文字列とし、入力された語を第2の文字列とする修正ルールを生成して修正ルール記憶装置20に記憶させる。能動学習装置80は、優先度決定部81を備えており、入力端末89に接続される。
優先度決定部81は、ラベル判定部35によってラベル「△」が付与された原文の語について、原文中における出現回数をカウントし、ラベル「△」が付与された原文の語を出現頻度の降順にソートする。能動学習装置80は、優先度決定部81によって降順にソートされた原文の語のうち、予め定められた上位N個(Nは任意の数)の語を、入力端末89に出力する。
入力端末89は、制御部、演算部、表示部(ディスプレイ)、入力部(キーボード)などを備えるコンピュータ端末であり、能動学習装置80から入力された語を第1の文字列として表示部に表示させる。また、入力端末89は、表示部に表示させた第1の文字列を置換する第2の文字列の入力を受け付け、入力された第2の文字列を能動学習装置80に送信する。能動学習装置80は、入力端末89に送信した第1の文字列と、これに対応して入力端末89から送信された第2の文字列とを対応付けた修正ルールを生成し、修正ルール記憶装置20に記憶させる。
次に、図3から図8を参照して、正解判定システム1が備える各部の動作例について説明する。
図3は、ラベル付与装置30の動作例を示す図である。適用文抽出部31は、テキストコーパス記憶装置10から解析対象となる文章情報を読み出し(ステップS1)、修正ルール記憶装置20から修正ルールを読み出す(ステップS2)。適用文抽出部31は、解析対象の文章情報から、修正ルールを適用可能な適用前文を抽出し、形態素解析部34に入力する(ステップS3、S4)。また、適用文抽出部31は、適用前文と修正ルールとを修正ルール適用部32に入力する(ステップS5)。
修正ルール適用部32は、適用文抽出部31から入力された適用前文に、修正ルールを適用し、適用後文を生成して形態素解析部34に入力する(ステップS6、S7)。形態素解析部34は、適用文抽出部31から入力された適用前文と、修正ルール適用部32から入力された適用後文とのそれぞれについて形態素解析を行う。形態素解析部34は、適用前文に対する形態素解析の結果を、ラベル判定部35に入力する(ステップS8、S9)。また、形態素解析部34は、適用後文に対する形態素解析の結果を、ラベル判定部35に入力する(ステップS10、S11)。ラベル判定部35は、形態素解析部34から入力された適用前文の解析結果と、適用後文の解析結果とに含まれる語のそれぞれを比較してラベル判定を行い、ラベルを付与した適用前文の語と適用後の文との組み合わせであるラベル付与文を出力する(ステップS12)。ここで、ステップS4とステップS5において形態素解析部34に入力される適用前文と適用後文とは、解析対象の文章情報と、解析対象の文章情報に含まれる語のうちいずれかの語がユーザにより他の語に置換された文章情報であることとしても良い。
図4は、スコアリング装置40の動作例を示す図である。スコアリング部41は、ラベル判定部35によってラベルが付与されたラベル付与文と、修正ルール記憶装置20に記憶されたスコアが算出されていない修正ルールとを入力として(ステップS22、S23)、修正ルールごとにスコアを算出し、修正ルール登録部42に入力する(ステップS23、S24)。修正ルール登録部42は、スコアリング部41によって算出されたスコアに基づいて、適用前文と適用後文との組み合わせを修正ルール記憶装置20に記憶させる(ステップS25)。
図5は、ルール特殊化装置50の動作例を示す図である。ルール特殊化装置50は、ラベル判定部35によってラベルが付与されたラベル付与文を入力として(ステップS31)、ラベル付与文中の語に隣接する語を連結した語を生成した修正ルールを生成して、スコアリング装置40に入力する(ステップS32、ステップS33)。スコアリング装置40は、入力された修正ルールについてスコアを算出し、定められた閾値を超えるスコアが算出された修正ルールを修正ルール記憶装置20に記憶させる(ステップS34)。
図6は、ルール結合装置60の動作例を示す図である。ルール結合装置60の修正ルール選択部61は、ラベル付与装置30によってラベルが付与されたラベル付与文を入力として(ステップS41)、ラベルが「△」である語の組み合わせを抽出し、修正対象文としてラベル付与装置30に入力する(ステップS44、S45)。また、修正ルール選択部61は、修正ルール記憶装置20から、ラベルが「△」である語の組み合わせに対して適用する修正ルールを修正ルール記憶装置20から読み出し(ステップS42)、ラベル付与装置30に入力する(ステップS43)。ラベル付与装置30は、修正ルール選択部61から入力された修正対象文について、修正ルール選択部61から入力された修正ルールを適用してラベル付与文を生成し、ルール結合装置60に入力する(ステップS46、S47)。ルール結合装置60の修正ルール結合部62は、入力されたラベル付与文に基づいて修正ルールを結合し、修正ルール記憶装置20に記憶された原文の対応箇所と対応付けて(ステップS48)、修正ルール記憶装置20に記憶させる(ステップS49)。
図7は、ルール汎用化装置70の動作例を示す図である。ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールを読み出して(ステップS51)、ルールの汎用化処理を行って生成した修正ルールを修正ルール記憶装置20に記憶させる(ステップS52)。
図8は、能動学習装置80の動作例を示す図である。能動学習装置80の優先度決定部81は、ラベル判定部35によって未知語と判定された語の集合を入力として(ステップS61)、未知語を優先度順に並べ替え、定められた件数の未知語に対する質問項目を入力端末89に送信する(ステップS62、S62)。入力端末89は、優先度決定部81から送信された未知語を表示部に表示させると、ユーザは、入力端末89に未知語に対応する語を入力する。入力端末89は、ユーザから入力された語を能動学習装置80に送信する(ステップS64)。能動学習装置80は、入力端末89に送信した未知語と、これに応じて入力端末89から送信された語とを対応付けた修正ルールを生成、修正ルール記憶装置20に記憶させる(ステップS65)。
次に、図9を参照して、正解判定システム1の動作例を説明する。初期状態では、修正ルール記憶装置20に汎用的な修正ルールが予め記憶されている(ステップS71)。ここで、本実施形態の正解判定システム1は能動学習装置80を備えるため、初期状態の修正ルールは記憶されていないこととして能動学習装置80によりルールが入力されるようにしても良い。ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールを1つ読み出し、ラベル付与装置30に入力し、ラベル付与文を取得し、ルールの特殊化処理を行う(ステップS72)。
ルール結合装置60は、ステップ73で取得されたラベル付与文のうち、ラベルが「△」である文に対して、修正ルール記憶装置20に記憶された他の修正ルールを適用してラベル付与装置30を動作させ、ラベルが「○」となった場合には、新たな修正ルールとして修正ルール記憶装置20に修正ルールを記憶させる(ステップS73)。ルール特殊化装置50は、修正ルール記憶装置20に記憶された修正ルールのうち、特殊化が必要な全ての修正ルールに対して特殊化処理と結合処理とが完了したか否かを判定する(ステップS74)。ルール特殊化装置50が、全ての修正ルールに対して処理を行っていないと判定すれば(ステップS74:NO)、ステップS72に戻る。ルール特殊化装置50が、全ての修正ルールに対して処理を行ったと判定すれば(ステップS74:YES)、ステップS75に進む。
ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、修正ルールの登録種別を参照して、ルール結合装置60または優先度決定部81により生成され記憶された修正ルールについて汎用化処理を行う(ステップS75)。このとき、修正ルール記憶装置20に初期状態から予め記憶されている修正ルールについては汎用化処理を行わない。ルール汎用化装置70は、修正ルール記憶装置20に記憶された修正ルールのうち、汎用化が必要な修正ルールの全てについて汎用化処理を行ったか否かを判定する(ステップS76)。ルール汎用化装置70は、全ての修正ルールについて汎用化処理を行っていなければ、ステップS75に戻る(ステップS76:NO)。ルール汎用化装置70は、全ての修正ルールについて汎用化処理を行っていれば、ステップS77に進む(ステップS76:YES)
ルール特殊化装置50は、ステップS71からステップS76において、新たな修正ルールが修正ルール記憶装置20に記憶されていれば、再度ステップS72の処理を行う(ステップS77:YES)。修正ルール記憶装置20に新たな修正ルールが記憶されていなければ(ステップS77:NO)、能動学習装置80は、入力端末89に質問を行って能動学習の処理を行い、ユーザから入力された情報に基づいて修正ルールを生成し、修正ルール記憶装置20に記憶させる(ステップS78)。ステップS78において、新たな修正ルールが修正ルール記憶装置20に記憶されれば(ステップS79:YES)、ステップS75に戻り、ルール汎用化装置70による汎用化処理を行う。ステップS78において、新たな修正ルールが修正ルール記憶装置20に記憶されていなければ(ステップS79:NO)、正解判定システム1は、処理を終了する。このように、ステップS72からステップS74、およびステップS75からステップS79を繰り返し実行することで、修正ルールの精度を上げ、また様々な修正ルールを生成することが可能である。
以上説明したように、本発明によれば、正解判定システム1は、修正ルールの特殊化、結合、汎用化、能動学習の処理を行うことにより、多用な修正ルールを生成して修正ルール記憶装置20に記憶させることが可能である。
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりラベル判定や修正ルールの生成の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1 正解判定システム
10 テキストコーパス記憶装置
20 修正ルール記憶装置
30 ラベル付与装置
31 適用文抽出部
32 修正ルール適用部
33 既知語記憶部
34 形態素解析部
35 ラベル判定部
40 スコアリング装置
41 スコアリング部
42 修正ルール登録部
50 ルール特殊化装置
60 ルール結合装置
61 修正ルール選択部
62 修正ルール結合部
70 ルール汎用化装置
80 能動学習装置
81 優先度決定部
89 入力端末

Claims (10)

  1. 既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
    複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割する解析部と、
    前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
    前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、
    前記検出部が検出した語の組み合わせに基づいて、解析対象の文章情報に含まれる未知語を既知語に置換する置換処理部と、
    を備えることを特徴とする正解判定装置。
  2. 前記第1の文章情報が記憶される解析対象情報記憶部と、
    前記第1の文章情報に含まれる複数の語のうち修正対象となる第1の文字列と、当該第1の文字列を置換する第2の文字列とが対応付けられた修正ルールが記憶される修正ルール記憶部と、を備え、
    前記置換処理部は、前記修正ルール記憶部に記憶されている前記修正ルールに基づいて、前記第1の文章情報に含まれる前記第1の文字列を抽出し、抽出した第1の文字列を前記第2の文字列に置換した第2の文章情報を生成する修正処理を行い、当該第1の文章情報と当該第2の文章情報とを前記解析部に入力する
    ことを特徴とする請求項1に記載の正解判定装置。
  3. 前記検出部が検出した前記語の組み合わせのうち、前記第1の文章情報に基づく語を前記第1の文字列とし、検出した前記第2の文章情報に基づく語を前記第2の文字列として対応付けた前記修正ルールを生成して前記修正ルール記憶部に記憶させる修正ルール登録部と、
    をさらに備えることを特徴とする請求項2に記載の正解判定装置。
  4. 前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語とに、それぞれの文章中で隣接する他の語を連結して対応付けた修正ルールを生成して前記修正ルール記憶部に記憶させる
    ことを特徴とする請求項3に記載の正解判定装置。
  5. 前記修正ルール登録部は、前記第1の文章情報に基づく語に隣接する他の語を連結した複数の語と、前記第2の文章情報に基づく語に隣接する他の語を連結した複数の語とにおいて、共通するプレフィックスまたはサフィックスを削除した語を対応付けた修正ルールを生成して前記修正ルール記憶部に記憶させる
    ことを特徴とする請求項4に記載の正解判定装置。
  6. 前記置換処理部は、前記正解判定部によって、前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語との双方が未知語であると判定された場合、前記修正ルールに記憶された他の修正ルールに基づいて再度の修正処理を行い、
    前記修正ルール登録部は、前記置換処理部によって行われた再度の修正処理の処理結果に基づいて前記検出部が検出した前記第1の文章情報に基づく語を前記第1の文字列とし、検出した前記第2の文章情報に基づく語を前記第2の文字列として対応付けた前記修正ルールを生成して前記修正ルール記憶部に記憶させる
    ことを特徴とする請求項3から請求項5までのいずれか1項に記載の正解判定装置。
  7. 前記正解判定部によって、前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語との双方が未知語であると判定された場合、前記第1の文字列に対応する前記第2の文字列の入力を受付ける入力部をさらに備え、
    前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語を前記第1の文字列とし、前記入力部に入力された語を前記第2の文字列として対応付けた前記修正ルールを生成して前記修正ルール記憶部に記憶させる
    ことを特徴とする請求項3から請求項6までのいずれか1項に記載の正解判定装置。
  8. 複数の語から構成される第1の文章情報が記憶される解析対象情報記憶装置と、
    修正対象となる第1の文字列と、当該第1の文字列を置換する第2の文字列とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、
    既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
    前記修正ルール記憶装置に記憶されている前記修正ルールに基づいて、前記第1の文章情報に含まれる前記第1の文字列を抽出し、抽出した第1の文字列を前記第2の文字列に置換した第2の文章情報を生成する修正処理を行う置換処理部と、
    複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割する解析部と、
    前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
    前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、
    前記正解判定装置の前記検出部による検出結果に基づいて、前記第1の文章情報に基づく語を前記第1の文字列とし、前記第2の文章情報に基づく語を前記第2の文字列として対応付けた前記修正ルールを生成し、前記修正ルール記憶装置に記憶させる修正ルール登録装置と、
    を備えることを特徴とする正解判定システム。
  9. 既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置の正解判定方法であって、
    複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割するステップと、
    分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
    判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
    検出した語の組み合わせに基づいて、解析対象の文章情報に含まれる未知語を既知語に置換するステップと、
    を備えることを特徴とする正解判定方法。
  10. 既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置のコンピュータに、
    複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割するステップと、
    分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
    判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
    検出した語の組み合わせに基づいて、解析対象の文章情報に含まれる未知語を既知語に置換するステップと、
    を実行させる正解判定プログラム。
JP2009004949A 2009-01-13 2009-01-13 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム Expired - Fee Related JP5436868B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009004949A JP5436868B2 (ja) 2009-01-13 2009-01-13 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009004949A JP5436868B2 (ja) 2009-01-13 2009-01-13 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム

Publications (2)

Publication Number Publication Date
JP2010165041A JP2010165041A (ja) 2010-07-29
JP5436868B2 true JP5436868B2 (ja) 2014-03-05

Family

ID=42581170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009004949A Expired - Fee Related JP5436868B2 (ja) 2009-01-13 2009-01-13 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム

Country Status (1)

Country Link
JP (1) JP5436868B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN104915335B (zh) * 2015-06-12 2018-03-16 百度在线网络技术(北京)有限公司 为主题文档集生成摘要的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3126945B2 (ja) * 1997-10-30 2001-01-22 株式会社エイ・ティ・アール音声翻訳通信研究所 文字誤り校正装置
JP2006235916A (ja) * 2005-02-24 2006-09-07 Mitsubishi Electric Corp テキスト解析装置およびテキスト解析方法ならびに音声合成装置
JP2008299675A (ja) * 2007-05-31 2008-12-11 Yahoo Japan Corp かな混在表記抽出装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2010165041A (ja) 2010-07-29

Similar Documents

Publication Publication Date Title
US11113234B2 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
US7269544B2 (en) System and method for identifying special word usage in a document
US10133733B2 (en) Systems and methods for an autonomous avatar driver
US9621624B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
US9524291B2 (en) Visual display of semantic information
US8612206B2 (en) Transliterating semitic languages including diacritics
CN1618064B (zh) 翻译方法与计算机设备
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN104915264A (zh) 一种输入纠错方法和装置
JP3921523B2 (ja) テキスト生成方法及びテキスト生成装置
JP2010181993A (ja) 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム
CN111401033A (zh) 事件抽取方法、事件抽取装置和电子设备
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
CN112380337A (zh) 基于富文本的高亮方法及装置
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN115169329A (zh) 一种基于Bert的中文文本纠错方法、设备及存储介质
JP5436868B2 (ja) 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム
KR102422923B1 (ko) 감성 분석장치 및 그 제어 방법 그리고 신조어 및 이모티콘 추출 장치
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
Lyon et al. Reducing the Complexity of Parsing by a Method of Decomposition.
CN114490976B (zh) 对话摘要训练数据的生成方法、装置、设备及存储介质
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP5337575B2 (ja) 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム
JP2002334076A (ja) テキスト処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131101

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131211

R150 Certificate of patent or registration of utility model

Ref document number: 5436868

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees