JP2019016140A - 校正支援装置、校正支援方法及び校正支援プログラム - Google Patents

校正支援装置、校正支援方法及び校正支援プログラム Download PDF

Info

Publication number
JP2019016140A
JP2019016140A JP2017132713A JP2017132713A JP2019016140A JP 2019016140 A JP2019016140 A JP 2019016140A JP 2017132713 A JP2017132713 A JP 2017132713A JP 2017132713 A JP2017132713 A JP 2017132713A JP 2019016140 A JP2019016140 A JP 2019016140A
Authority
JP
Japan
Prior art keywords
calibration
candidate
proofreading
sentence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017132713A
Other languages
English (en)
Other versions
JP6979294B2 (ja
Inventor
雄太 人見
Yuta HITOMI
雄太 人見
田森 秀明
Hideaki Tamori
秀明 田森
健太郎 乾
Kentaro Inui
健太郎 乾
直観 岡崎
Naomi Okazaki
直観 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Shimbun Publishing Co
Original Assignee
Asahi Shimbun Publishing Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Shimbun Publishing Co filed Critical Asahi Shimbun Publishing Co
Priority to JP2017132713A priority Critical patent/JP6979294B2/ja
Publication of JP2019016140A publication Critical patent/JP2019016140A/ja
Application granted granted Critical
Publication of JP6979294B2 publication Critical patent/JP6979294B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】分散表現を用いた校正候補の予測結果から適切な候補を選択し、正確な校正をすることが可能な校正支援装置を提供する。【解決手段】校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部2と、分かち書き文を構成する処理単位のうち、校正履歴コーパス8中の見出しと一致する処理単位を校正対象として判定する校正対象判定部3と、校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部4と、校正候補のうち、校正履歴コーパス中の見出しに対応する校正結果と一致する校正候補を適切候補として判定する最適候補判定部5とを有する校正支援装置。【選択図】図1

Description

本発明は、校正支援装置、校正支援方法及び校正支援プログラムに関する。
近年の人工知能(AI)の発達に伴い、分散表現を用いた自然言語処理が注目されており、例えば、自然言語処理を応用した校正支援装置が開発されている。
非特許文献1には、文の一箇所をブランクとし、ブランク前後の分散表現を用いて、ブランク箇所に入る単語候補を予測する技術が開示されている。
"context2vec: Learning Generic Context Embedding with Bidirectional LSTM" Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL), pages 51−61, Berlin, Germany, August 7−12, 2016
本発明者らは、非特許文献1の技術を校正支援装置に応用できる可能性を見出し、種々の検討を行った。しかし、非特許文献1の技術では、基本的には複数の言い換え候補が予測されるため、例えば「宮崎駅の西口から延びる」という文の「の」の言い換え候補として「東口」「南口」が含まれる等、校正には不適切な候補も含まれる。そのため、非特許文献1の技術を、そのまま校正支援装置へ適用すると、校正の精度が十分ではなく、不自然な日本語になるという問題があった。
本発明は、かかる現状に鑑みてなされたものであり、分散表現を用いた校正候補の予測結果から適切な候補を選択し、正確な校正を支援することが可能な校正支援装置、校正支援方法及び校正支援プログラムを提供することを目的とする。
本発明の校正支援装置は、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする。
また、本発明の校正支援方法は、
コンピューターが実行する校正支援方法であって、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする。
また、本発明の校正支援プログラムは、
コンピューターに、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする。
本発明によれば、分散表現を用いた校正候補の予測結果に、校正に不適切な候補が含まれていても、より適切な候補を選択することができ、より正確な校正が可能となる。
第1実施形態の校正支援装置の構成の一例を示すブロック図である。 第1実施形態の校正支援方法の一例を示すフローチャートである。 第1実施形態の校正履歴コーパス生成部の構成の一例を示すブロック図である。 第1実施形態のベクトル学習済みモデル生成部の構成の一例を示すブロック図である。 第2実施形態の校正支援装置の構成の一例を示すブロック図である。 第2実施形態の校正支援方法の一例を示すフローチャートである。
以下、本発明の校正支援装置及び校正支援方法の実施形態について、図面を参照しながら詳細に説明する。なお、本発明の校正支援装置及び校正支援方法は、以下に示す実施形態に限定されるものではない。
1.第1実施形態
≪校正支援装置≫
図1は、本実施形態の校正支援装置の構成の一例を示すブロック図である。図1において、1は文入力部、2は分かち書き文生成部、3は校正対象判定部、4は校正候補予測部、5は適切候補判定部、6は出力部、8は校正履歴コーパス、9は形態素解析用辞書、10はベクトル学習済みモデルである。
<文入力部1>
まず、校正対象文が文入力部1に入力される。入力の方法は特に限定されず、例えば、キーボードによる入力、手書きによる入力等が挙げられる。文入力部1は、校正対象文を分かち書き文生成部2に出力する。
<分かち書き文生成部2>
分かち書き文生成部2は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書9を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。固有名詞については、形態素解析用辞書9に含まれていればそれ以上は分割しないことが好ましい。例えば、人物の姓名は、一般的な形態素解析では「姓」と「名」に分割され、「姓/名」という結果が得られる(以下、「/」は処理単位の区切り箇所を示す)。しかし、形態素解析用辞書9に、例えば著名人の姓名が含まれていれば、その姓名を固有名詞と判断し、「姓」と「名」に分割せずに処理単位とする。本実施形態では、処理単位は原則、形態素または固有名詞であるが、連続する形態素を幾つか結合した形態素群(例えば「伸び/る」という前後2つの形態素を結合した「伸びる」)を、処理単位としてもよい。
分かち書き文生成部2は、校正対象文を処理単位に分割し、さらに、文頭に例えば<bos>等の文頭記号、文末に例えば<eos>等の文末記号を配置して、分かち書き文を生成する。分かち書き文生成部2は、生成した分かち書き文を、校正対象判定部3に出力する。
なお、分かち書き文は形態素解析以外の方法を用いて生成してもよい。例えば、「SentencePiece」という手法の様に、確率的な観点あるいはその後の処理のし易さの観点から処理単位に分割してもよい。また、例えば、校正対象文がスペースを用いる言語である場合にはスペースで区切って処理単位に分割する、校正対象文がスペースを用いない言語である場合には1文字ごとに処理単位に分割する等、校正対象の言語や校正の目的によって、処理単位を適宜決定してもよい。
<校正対象判定部3>
校正対象判定部3は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス8の見出しと対比し、校正履歴コーパス8の見出しと一致する処理単位を、校正対象として判定する。処理単位の対比の順番は特に限定されない。ここで、校正履歴コーパス8は、過去の校正履歴を蓄積したデータベースであり、例えば表1に示すように、校正前の処理単位を見出しとし、校正結果と、校正の属性(挿入、削除、置換)と、校正回数(過去の出現回数)を関連付けたレコードが記録されている。したがって、校正対象判定部3は、分かち書き文を構成する処理単位のうち、過去に校正対象となったことがある処理単位を校正対象として判定することになる。なお、校正履歴コーパス8の詳細については後述する。
Figure 2019016140
校正対象判定部3は、すべての処理単位を校正履歴コーパス8の見出しと対比してもいいし、第2実施形態で示すように、誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス8の見出しと対比してもいい。
校正対象判定部3は、判定した校正対象を校正候補予測部4に出力する。校正対象が複数ある場合、校正対象を一つずつ出力してもよいし、複数の校正対象を一度に出力してもよい。また、複数の校正対象を一度に出力する場合には、校正対象判定部3と校正候補予測部4の間に校正対象記憶部を設け、校正対象判定部3から出力された複数の校正対象を、一旦、校正対象記憶部に保持し、一つずつ校正候補予測部4に出力してもよい。
<校正候補予測部4>
校正候補予測部4は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象(ブランク)の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル(分散表現)、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位が有するベクトルは、例えば、あらかじめ生成しておいたベクトル学習済みモデル10から取得することができる。また、処理単位群が有するベクトルは、ベクトル学習済みモデル10から取得した処理単位が有するベクトルを用いて計算することができる。ここで、ベクトル学習済みモデル10は、過去に校正された校正後の文から、単語ベクトル等のベクトル(分散表現)を、それぞれの処理単位で機械学習し、学習済みモデルとして蓄積したものである。なお、ベクトル学習済みモデル10の詳細については後述する。
予測の方法としては、例えば、以下の方法が挙げられる。なお、類似度の計算においては、例えばコサイン類似度が利用できる。
(1)ベクトル学習済みモデル10から、ブランク前後の複数の形態素が有するそれぞれの単語ベクトルを取得し、これらの平均ベクトルを算出する。算出した平均ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。
(2)ベクトル学習済みモデル10から、ブランク前後の形態素群に含まれる形態素が有するそれぞれの単語ベクトルを取得し、例えば「context2vec」等を利用して、ブランク前後の文ベクトルを算出する。算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。
尚、校正対象文の先頭または末尾の処理単位が校正対象である場合は、文頭記号<bos>、文末記号<eos>が有するベクトルを用いてもよいし、校正対象の後のみまたは前のみの処理単位または処理単位群が有するベクトルを用いてもよい。
また、校正候補予測部4は、校正候補を予測する際に、他の校正対象の少なくとも一つを適切候補の一つに置き換えて校正候補を予測してもよい。特に、最適候補に置き換えた場合には、校正候補の予測の精度が向上するため好ましい。
校正候補予測部4は、予測した校正候補を適切候補判定部5に出力する。校正候補が複数ある場合、校正候補を一つずつ出力してもよいし、複数の校正候補を一度に出力してもよい。また、複数の校正候補を一度に出力する場合には、校正候補予測部4と適切候補判定部5の間に校正候補記憶部を設け、校正候補予測部4から出力された複数の校正候補を、一旦、校正候補記憶部に保持し、一つずつ適切候補判定部5に出力してもよい。また、校正候補予測部4は、校正候補と共に校正候補の類似度を出力してもよい。
<適切候補判定部5>
適切候補判定部5は、校正候補のうち、校正履歴コーパス8中の見出し(校正対象と一致する見出し)に対応する校正結果と一致する校正候補を適切候補として判定する。適切候補判定部5は、全ての校正対象について適切候補を判定してもいいし、校正候補に校正対象自身が含まれない校正対象のみについて適切候補を判定してもいい。
また、適切候補判定部5は、適切候補のうちの一つを最適候補として判定してもよい。適切候補が一つの場合には、その適切候補を最適候補として判定すればよい。適切候補が複数ある場合に最適候補を判定する方法は特に限定されないが、例えば、校正候補予測部4から得た校正候補の類似度、校正履歴コーパス8から得た校正候補(校正候補と一致する校正結果)の校正回数、ブランクにした校正対象の品詞等を考慮して、最適候補を決定する方法、第2実施形態で示すように、幅優先探索を用いて最適候補を決定する方法等が挙げられる。
適切候補判定部5は、判定した適切候補を出力部6に出力する。
<出力部6>
出力部6は、適切候補を校正対象文と関連付けて出力する。校正対象文と関連付ける方法は特に限定されないが、例えば以下の方法が挙げられる。
(1)校正対象文と、校正対象と、適切候補とを関連付けて出力する。
(2)校正対象文と、校正対象と、適切候補及びその適切度合とを関連付けて出力する。
(3)校正対象文と、校正対象と、最適候補とを関連付けて出力する。
(4)校正対象を最適候補で置き換えた校正済みの文を出力する。この際、最適候補が「<del>・・・</del>」である場合は、その処理単位の削除となる。例えば、表1の例では、最適候補が「<del>まもなく</del>」である場合は、「まもなく」の削除となる。また、最適候補を構成する形態素の数が、校正対象を構成する形態素の数よりも多い場合には、その処理単位の前または後への挿入となる。例えば、表1の例では、校正対象が「2例」であり、最適候補が「2例目」である場合は、「2例」の後ろへの「目」の挿入となる。
尚、校正対象が無い場合、校正対象はあるが適切候補が無い場合には、校正対象文だけを出力してもよいし、校正対象文と共に校正対象または適切候補が無い旨を出力してもよい。
出力の方法は特に限定されず、例えば、ディスプレイへの表示、プリントアウト等が挙げられる。
≪校正支援方法≫
図2は、本実施形態の校正支援方法の一例を示すフローチャートである。
<ステップ1(S1)>
校正対象文が文入力部1に入力されると、分かち書き文生成部2は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書9を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。さらに、分かち書き文生成部2は、文頭に例えば<bos>等の文頭記号、文末に例えば<eos>等の文末記号を配置して、分かち書き文を生成する。
<ステップ2,3(S2,S3)>
校正対象判定部3は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス8の見出しと対比する。校正対象判定部3は、すべての処理単位を校正履歴コーパス8の見出しと対比してもいいし、第2実施形態で示すように、機械学習により誤り箇所を推測する誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス8の見出しと対比してもいい。処理単位の対比の順番は特に限定されない。校正対象判定部3は、処理単位が校正履歴コーパス8の見出しと一致しない場合は、次の処理単位を校正履歴コーパス8の見出しと対比する。一方、処理単位が校正履歴コーパス8の見出しと一致する場合は、その処理単位を校正対象として判定し、ステップ4に進む。
<ステップ4(S4)>
校正候補予測部4は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象(ブランク)の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル(分散表現)、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位または処理単位群が有するベクトルの求め方、これらを用いた予測方法の具体例に関しては、「<校正候補予測部4>」の欄で述べた通りである。
<ステップ5,6(S5,S6)>
適切候補判定部5は、全ての校正候補のそれぞれを、校正履歴コーパス8中の見出し(校正対象と一致する見出し)に対応する校正結果と対比する。適切候補判定部5は、校正候補が校正結果と一致しない場合は、次の校正候補を校正履歴コーパス8の校正結果と対比する。一方、校正候補が校正結果と一致する場合は、その校正候補を適切候補と判定する。そして、全ての校正候補の判定が終わったら、ステップ2に戻る。適切候補判定部5は、適切候補のうちの一つを最適候補として判定してもよく、その場合は、校正対象を最適候補で置き換え、ステップ2に戻ると、ステップ4での校正候補の予測の精度が向上するため好ましい。
適切候補判定部5は、全ての校正対象を校正履歴コーパス8の校正結果と対比してもいいし、校正候補に校正対象自身が含まれない校正対象のみを校正履歴コーパス8の校正結果と対比してもいい。その場合、適切候補判定部5は、まず、校正候補に校正対象自身が含まれないかどうかを判定し、校正対象自身が含まれる場合には、ステップ2に戻る。
<ステップ7(S7)>
ステップ2からステップ6を、すべての処理単位を処理するまで繰り返した後、出力部6は適切候補を校正対象文と関連付けて出力する。
図2に示す方法では、ステップ2で校正対象を判定するたびに、ステップ3〜ステップ6に進み、その校正対象の校正の要否を判断し、ステップ2に戻って、次の処理単位について判定しているが、ステップ4からステップ6を、すべての処理単位を処理するまで繰り返す方法でもよい。また、処理速度を優先させる場合には、ステップ2からステップ6を繰り返すことなく、全ての校正対象の校正の要否を同時に判断してもよい。
≪校正履歴コーパスの生成≫
図3は、本実施形態で用いる校正履歴コーパス8を生成する校正履歴コーパス生成部の構成の一例を示すブロック図である。図3において、13は校正済みデータベース、14は文対取得部、15は文対分かち書き文生成部、16は校正履歴獲得部である。
<校正済みデータベース13>
校正済みデータベース13には、過去に校正された校正済みの校正前文章12と校正後文章11が蓄積されている。校正済みデータベース13に蓄積される文章は、校正対象文と同一分野または関連する分野の文章であることが好ましい。例えば、校正対象文が新聞記事である場合には、校正済みデータベース13に蓄積される文章は新聞記事であることが好ましい。
<文対取得部14>
文対取得部14は、校正済みデータベース13から、校正前後の文の対を取得する。具体的には、文対取得部14は、校正済みデータベース13に蓄積された校正前文章12と校正後文章11のそれぞれを文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。そしてこれらの文を対比して、校正前後の文対を取得する。文対を取得する方法は特に限定されないが、例えば、ベクトル学習済みモデル10から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、文対を取得する方法が挙げられる。
尚、校正前後の文の対を人力で取得する場合には、文対取得部14は設けなくてもよい。
<文対分かち書き文生成部15>
校正前後の文対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「<分かち書き文生成部2>」で述べた通りである。
<校正履歴獲得部16>
分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する。校正履歴を獲得する方法は特に限定されないが、例えばエディットグラフを用いて校正前後の変更箇所を自動で算出して獲得する方法が挙げられる。
校正履歴は、校正前の処理単位に、校正結果と、校正の属性(挿入、削除、置換)を関連付けたレコードとして獲得される。ここで、校正の属性が置換の場合は、置換した処理単位が校正結果となる。校正の属性が削除の場合は、削除された処理単位を例えば削除記号「<del>」「</del>」で挟んだものが校正結果となる。校正の属性が挿入の場合は、校正前の処理単位を含むものが校正結果となる。
尚、校正履歴を人力で獲得する場合には、校正履歴獲得部16は設けなくてもよい。
<校正履歴コーパス8>
校正履歴獲得部16で獲得された校正履歴は、校正履歴コーパス8に保存される。前述の通り、例えば表1に示すように、校正前の処理単位を見出しとし、校正結果と校正の属性(挿入、削除、置換)、さらには校正回数(過去の出現回数)とを関連付けたレコードとして保存される。表1に示した例では、一つの見出しに、一つの校正結果、校正の属性及び校正回数の組み合わせが関連付けられているが、もちろん、一つの見出しに、複数の校正結果、校正の属性及び校正回数の組み合わせが関連付けられている場合もある。なお、校正履歴コーパス8は、校正履歴のデータが新たに得られた場合、逐次更新することが校正の正確性の観点より好ましい。
≪ベクトル学習済みモデル10の生成≫
図4は、本実施形態で用いるベクトル学習済みモデル10を生成するベクトル学習済みモデル生成部の構成の一例を示すブロック図である。図4において、17はベクトル計算部である。
ベクトル計算部17は、校正済みデータベース13から、校正後文章11を取得し、文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。
ベクトル計算部17は、分割した文を処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「<分かち書き文生成部2>」で述べた通りである。ここで、校正対象文の処理単位を削除するという校正を行うためには、例えば、削除された処理単位を削除記号「<del>」「</del>」で挟んだものも処理単位とする方法が挙げられる。そのためには、ベクトル計算部17は、校正済みデータベース13から、校正前後の文の対を取得して校正履歴を獲得し、獲得した校正履歴に基づいて処理単位を決定することが好ましい。校正履歴を獲得する方法は、「≪校正履歴コーパスの生成≫」の欄で述べた通りである。
また、校正対象文の処理単位前後に挿入するという校正、あるいは連続した複数の処理単位を置換または削除するという校正を行うためには、例えば、「n−gram」(隣接するn処理単位を結合したもの)を含めたものも処理単位とする方法が挙げられる。具体的には、校正後文章11を分割した文が「県警によると、県内では2例目の把握となる。」であった場合、以下に示すような分かち書き文を生成し、形態素ごとの他に、前後の複数の形態素を結合したものも処理単位に含めておく。ただし、「n−gram」においては、nが大きくなるほど、処理単位が増えるため、nはコンピューターのリソースによって適切な値を決定することが好ましい。
1−gram:「<bos>/県警/に/よる/と/、/県内/で/は/2例/目/の/把握/と/なる/。/<eos>」
2−gram:「<bos>県警/県警に/による/よると/と、/、県内/県内で/では/は2例/2例目/目の/の把握/把握と/となる/なる。/。<eos>」
3−gram:「<bos>県警に/県警による/によると/よると、/と、県内/、県内で/県内では/では2例/は2例目/2例目の/目の把握/の把握と/把握となる/となる。/なる。<eos>」
ベクトル計算部17は、生成した分かち書文から、処理単位の出現頻度や、どの処理単位と処理単位が互いに近くに配置されているか、どういった文脈で使われる処理単位か、などを統計的に機械学習し、単語ベクトル等の処理単位が有するベクトル(分散表現)を得る。文頭記号、文末記号、削除記号等の各種記号についても、ベクトルを得ることが好ましい。ベクトルを得るには、例えば「word2vec」、「GloVe」などが利用できる。
≪具体例≫
以下、具体的な例を用いて、本実施形態をさらに説明する。
<具体例1>
校正対象文の一箇所を置き換える例、具体的には、校正対象文「県警は8日、熊谷署に100人体制の捜査本部を設置。」の「体制」を「態勢」で置き換える例について説明する。本例で用いた校正履歴コーパス8には、表2に示すレコードが保存されている。
Figure 2019016140
(1)ステップ1
分かち書き文生成部2は、文入力部1から出力された校正対象文について、形態素解析用辞書9を用いて形態素解析を行い、処理単位である形態素に分割する。さらに、文頭に文頭記号<bos>、文末に文末記号<eos>を配置して、下記分かち書き文を生成する。
「<bos>/県警/は/8日/、/熊谷署/に/100人/体制/の/捜査本部/を/設置/。/<eos>」
(2)ステップ2,3
校正対象判定部3は、上記分かち書き文を構成する形態素のそれぞれを文の先頭から順番に校正履歴コーパス8の見出しと対比し、「体制」が校正履歴コーパス8の見出しと一致するので、校正対象として判定し、ステップ4に進む。
(3)ステップ4
校正候補予測部4は、校正対象「体制」がブランクであった場合に、ブランクを埋める形態素を、校正候補として予測する。具体的には、校正対象「体制」前後の形態素群「<bos>/県警/は8日/、/熊谷署/に/100人」「の/捜査本部/を/設置/。/<eos>」に含まれる形態素が有するそれぞれの単語ベクトルをベクトル学習済みモデル10から取得し、「context2vec」を利用して、それぞれの文ベクトルを算出する。そして、算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。その結果を表3に示す。
Figure 2019016140
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表2に示す校正結果と対比する。その結果、「態勢」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「体制」を、最適候補「態勢」に置き換え、ステップ2に戻る。
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「体制」が「態勢」に置き換えられた分かち書き文の「態勢」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(6)ステップ7
出力部6は、校正対象「体制」を、最適候補「態勢」に置き換えた校正済み文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」をディスプレイに表示する。
<具体例2>
校正対象文の一箇所を削除する例、具体的には、校正対象文「神通川第二ダムを超えると、まもなく木造の建物が見えてきた。」の「まもなく」を削除する例について説明する。本例で用いた校正履歴コーパス8には、表4に示すレコードが保存されている。
Figure 2019016140
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/神通川第二ダム/を/超える/と/、/まもなく/木造/の/建物/が/見え/て/きた/。/<eos>」
(2)ステップ2,3
具体例1と同様にして、「まもなく」を校正対象として判定し、ステップ4に進む。
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「まもなく」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表5に示す。
Figure 2019016140
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表4に示す校正結果と対比する。その結果、「<del>まもなく</del>」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「まもなく」を、最適候補「<del>まもなく</del>」に置き換え、ステップ2に戻る。
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「まもなく」が「<del>まもなく</del>」に置き換えられた分かち書き文の「<del>まもなく</del>」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(6)ステップ7
出力部6は、校正対象「まもなく」を、最適候補「<del>まもなく</del>」に置き換えた、すなわち「まもなく」を削除した校正済み文「神通川第二ダムを超えると、木造の建物が見えてきた。」をディスプレイに表示する。
<具体例3>
校正対象文の一箇所に挿入する例、具体的には、校正対象文「県警によると、県内では2例の把握となる。」の「2例」の後に「目」を挿入する例について説明する。本例で用いた校正履歴コーパス8には、表6に示すレコードが保存されている。
Figure 2019016140
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/県警/に/よる/と/、/県内/で/は/2例/の/把握/と/なる/。/<eos>」
(2)ステップ2,3
具体例1と同様にして、「2例」を校正対象として判定し、ステップ4に進む。
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「2例」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表7に示す。
Figure 2019016140
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表6に示す校正結果と対比する。その結果、「2例目」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「2例」を、最適候補「2例目」に置き換え、ステップ2に戻る。
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「2例」が「2例目」に置き換えられた分かち書き文の「2例目」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(6)ステップ7
出力部6は、校正対象「2例」を、最適候補「2例目」に置き換えた、すなわち「2例」の後に「目」を挿入した校正済み文「県警によると、県内では2例目の把握となる。」をディスプレイに表示する。
<具体例4>
校正対象文の一箇所を校正対象と判定したが校正しない例、具体的には、校正対象文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」の「県警」を校正対象と判定したが適切候補を判定せずに校正しない例について説明する。本例で用いた校正履歴コーパス8には、表8に示すレコードが保存されている。
Figure 2019016140
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/県警/は/8日/、/熊谷署/に/100人/態勢/の/捜査本部/を/設置/。/<eos>」
(2)ステップ2,3
具体例1と同様にして、「県警」を校正対象として判定し、ステップ4に進む。
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「県警」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表9に示す。
Figure 2019016140
(4)ステップ5
適切候補判定部5は、校正候補に校正対象「県警」が含まれないかどうかを判定する。本例では、表9に示す校正候補に、「県警」が含まれるため、ステップ2に戻る。
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「県警」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ9に進む。
(6)ステップ9
出力部6は、校正対象文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」をディスプレイに表示する。
<具体例5>
校正対象文の複数箇所を校正する例、具体的には、校正対象文「東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年にも伸びる予定だ。」を「東京(品川)と名古屋の間は2027年に開業し、名古屋から大阪までは45年に延びる予定だ。」に校正する例について説明する。本例で用いた校正履歴コーパス8には、表10に示すレコードが保存されている。
Figure 2019016140
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/東京/(/品川/)/と/名古屋/の/間/は/2027年/に/開業/、/名古屋/から/大阪/まで/は/45年/に/も/伸びる/予定/だ/。/<eos>」
(2)ステップ2,3
具体例1と同様にして、「、」(読点)を校正対象として判定し、ステップ4に進む。
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「、」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表11に示す。
Figure 2019016140
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「し、」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「、」を、最適候補「し、」に置き換え、ステップ2に戻る。
(5)ステップ2,3
校正対象判定部3は、上記分かち書き文の「、」が「し、」に置き換えられた分かち書き文の「し、」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比し、「も」を校正対象として判定し、ステップ4に進む。
(6)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「も」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表12に示す。
Figure 2019016140
(7)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「<del>も</del>」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「も」を、最適候補「<del>も</del>」に置き換え、ステップ2に戻る。
(8)ステップ2,3
校正対象判定部3は、「、」が「し、」に置き換えられた分かち書き文の「も」が「<del>も</del>」に置き換えられた分かち書き文の「<del>も</del>」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比し、「伸びる」を校正対象として判定し、ステップ4に進む。
(9)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「伸びる」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表13に示す。
Figure 2019016140
(10)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「延びる」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「伸びる」を、最適候補「延びる」に置き換え、ステップ2に戻る。
(11)ステップ2
校正対象判定部3は、「、」が「し、」に、「も」が「<del>も</del>」に置き換えられた分かち書き文の「伸びる」を「延びる」に置き換えた分かち書き文の「延びる」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(12)ステップ7
出力部6は、校正済み文「東京(品川)と名古屋の間は2027年に開業し、名古屋から大阪までは45年に延びる予定だ。」をディスプレイに表示する。
<具体例6>
具体例1〜3で用いた校正履歴コーパス8を生成する例について説明する。
[具体例6−1(具体例1で用いた校正履歴コーパス8)]
文対取得部14は、校正済みデータベース13に蓄積された校正前文章12と校正後文章11のそれぞれを句点で区切り、文に分割する。そして、ベクトル学習済みモデル10から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、下記校正前後の文の対を取得する。
校正前の文:「平日は40分間隔で1頭1車両体制、土日祝日は30分間隔で2頭2車両体制。」
校正後の文:「平日は40分間隔で1頭1車両態勢、土日祝日は30分間隔で2頭2車両態勢。」
文対分かち書き文生成部15は、校正前の文と校正後の文それぞれを、形態素解析用辞書9を用いて形態素解析を行い、処理単位である形態素に分割して、文対分かち書き文を生成する。校正履歴獲得部16は、エディットグラフを用いて、文対分かち書き文の校正前後の文の分かち書き文を比較し、「体制」が「態勢」に1回置換されたという校正履歴を獲得する。そして表2に示すように、校正前の処理単位「体制」を見出しとし、校正結果「態勢」と校正の属性「挿入」と、校正回数とを関連付けたレコードとして、校正履歴コーパス8に保存する。なお、校正回数は、「体制」が「態勢」に1回置換されたという校正履歴を獲得するごとに更新する。
[具体例6−2(具体例2で用いた校正履歴コーパス8)]
具体例6−1と同様にして、下記校正前後の文の対を取得する。
校正前の文:「火は約4時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、まもなく死亡した。」
校正後の文:「火は約4時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、<del>まもなく</del>死亡した。」
文対分かち書き文生成部15は、具体例6−1と同様にして、文対分かち書き文を生成する。校正履歴獲得部16は、具体例6−1と同様にして、「まもなく」が「<del>まもなく</del>」に1回置き換えられた、すなわち「まもなく」が削除されたという校正履歴を獲得し、表4に示すレコードとして、校正履歴コーパス8に保存する。
[具体例6−3(具体例3で用いた校正履歴コーパス8)]
具体例6−1と同様にして、下記校正前後の文の対を取得する。
校正前の文:「県警によると、県内では2例の把握となる。」
校正後の文:「県警によると、県内では2例目の把握となる。」
文対分かち書き文生成部15は、具体例6−1と同様にして、文対分かち書き文を生成する。校正履歴獲得部16は、具体例6−1と同様にして、「2例」が「2例目」に1回置き換えられた、すなわち「2例」の後に「目」が挿入されたという校正履歴を獲得し、表6に示すレコードとして、校正履歴コーパス8に保存する。
2.第2実施形態
≪校正支援装置≫
図5は、本実施形態の校正支援装置の構成の一例を示すブロック図である。尚、図5において、第1実施形態と同様の構成には同一の符号を付しており、特に説明しない限りは第1実施形態と同様である。図5において、7は誤り箇所自動検出部である。
<誤り箇所自動検出部7>
誤り箇所自動検出部7は、分かち書き文を構成する処理単位のそれぞれについて、機械学習により誤り箇所(文法的に誤っており、修正すべき箇所)を推測する。
誤り箇所を推測する方法は特に限定されず、例えば、「Liu,Zhuoran,and Yang Liu.”Exploiting Unlabeled Data for Neural Grammatical Error Detection.” arXiv preprint arXiv:1611.08987 (2016)」に記載された方法等、公知の「grammatical error detection」の手法を用いることができる。
具体的には、例えば、下記3層のニューラルネットワークから構成され、文が入力されると、0〜4のラベル(0:変更しない、1:置換、2:削除、3:(その単語の前に)挿入)が振られた入力文長の配列を出力する方法が挙げられる。
入力層:入力文(誤りを含む可能性のある文)のベクトル
中間層:入力文の低次元へ写像したベクトル
出力層:正解文(入力文を人手で校正した文)と入力文の差を以下の例の様に表現したもののベクトル
より具体的には、分かち書き文「<bos>/犯人/は/フェンス/を/乗り/越えて/から/侵入/した/と/み/られる/。/<eos>」が入力されると、「0,0,0,1,0,1,1,2,3,0,0,1,1,0,0」というベクトルが出力される。この出力は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があることを意味する。
出力層のベクトルからSoftmax関数を基にした損失関数を用いて出力との誤差を計算し、その誤差から誤差逆伝播法によりニューラルネットワークの最適な各パラメータを予測してもよい。また、ラベルの種類は特に限定されず、例えば、0,1(誤り箇所か否かを表す)の2種類のラベルでも良い。
誤り箇所自動検出部7は、誤り箇所と推測した処理単位を、好ましくはラベルと共に校正対象判定部3に出力する。誤り箇所と推測した処理単位が複数ある場合、処理対象を一つずつ出力してもよいし、複数の処理単位を一度に出力してもよい。また、複数の処理単位を一度に出力する場合には、校正対象判定部3との間に処理単位記憶部を設け、誤り箇所自動検出部7から出力された複数の処理単位を、一旦、処理単位記憶部に保持し、一つずつ校正対象判定部3に出力してもよい。
<校正対象判定部3>
校正対象判定部3は、誤り箇所自動検出部7が誤り箇所と推測した処理単位のみを校正履歴コーパス8の見出しと対比し、校正対象を判定する。そのため、分かち書き文を構成する処理単位の全てについて校正対象を判定する場合に比べ、処理速度が向上する可能性がある。
また、校正対象判定部3は、誤り箇所自動検出部7が出力したラベルを用いて、連続する処理単位を連結して1つの処理単位(n−gram)として扱ってもよい。例えば、上述の例では、「乗り」と「越えて」、「み」と「られる」については、誤り箇所自動検出部7の出力したラベル「1」(置換)が連続しているので、それぞれ両者が連結した1語(2−gram)「乗り越えて」「みられる」を処理単位として扱ってもよい。
<適切候補判定部5>
適切候補判定部5は、誤り箇所自動検出部7が出力したラベルを最適候補の判断材料にしてもよい。例えば、上述の例では、「から」の適切候補が複数ある場合に、誤り箇所自動検出部7の出力したラベル「2」(削除)を加味し、「<del>から</del>」を最適候補として判定してもよい。
≪校正支援方法≫
図6は、本実施形態の校正支援方法の一例を示すフローチャートである。
<ステップ11(S11)>
分かち書き文生成部2は、第1実施形態のステップ1と同様にして、分かち書き文を生成する。
<ステップ12〜14(S12〜S14)>
誤り箇所自動検出部7が誤り箇所と推測した処理単位のみについて校正対象を判定する点、誤り箇所と推測した処理単位の全てについて校正対象を判定してから次のステップに進む点以外は、第1実施形態のステップ2,3と同様にして、校正対象判定部3は、校正対象を判定する。
<ステップ15〜19(S15〜S19)>
本例では、文脈を考慮した確率モデルを組み込むことで、最適候補を判定した。以下、ビームサーチ等の幅優先探索と校正履歴コーパスの組み合わせによる最適候補の判定について説明する。幅優先ビーム探索は知識あり探索に分類され、幅優先探索を行いつつ、評価値が高いノードをビーム幅個保持し、ビーム幅個よりノードの個数が増えたら、評価値が低い枝を切り捨てるアルゴリズムである。
以下、校正対象を文頭側から順に、第1校正対象、第2校正対象・・・第N校正対象(Nは2以上の整数)とする。また、一の校正対象についての適切候補を、第1適切候補、第2適切候補・・・第M適切候補(Mは1以上の整数)とする。
まず、下記手順で、第1校正対象の適切候補を判定する。
[ステップ15]
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第1校正対象の校正候補を予測する。その際、例えば、「Context2Vec」で得られた類似度、類似度から得られる対数尤度等をスコアとして求める。
[ステップ16,17]
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第1校正対象の適切候補を判定する。
次に、下記手順で、第1校正対象が第1適切候補に置き換えられた分かち書き文について、第2校正対象の適切候補を判定する。
[ステップ18]
適切候補判定部5は、第1校正対象を第1適切候補に置き換え、ステップ15に戻る。
[ステップ15]
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第2校正対象の校正候補を予測すると共にスコアを求める。
[ステップ16,17]
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第2校正対象の適切候補を判定する。
次に、下記手順で、第1校正対象が第1適切候補に置き換えられ、第2校正対象が第1適切候補に置き換えられた分かち書き文について、第3校正対象の適切候補を判定する。
[ステップ18]
適切候補判定部5は、第1校正対象を第1適切候補に置き換え、第2校正対象を第1適切候補に置き換え、ステップ15に戻る。
[ステップ15]
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第3校正対象の校正候補を予測すると共にスコアを求める。
[ステップ16,17]
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第3校正対象の適切候補を判定する。
以降、同様にしてステップ15〜18を繰り返し、第n校正対象(nは2〜Nの整数)について、第1校正対象〜第n−1校正対象をそれぞれの適切候補(第1適切候補〜第M適切候補)の一つで置き換えて適切候補を判定し、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを全て求める。
[ステップ19]
適切候補判定部5は、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを構成する適切候補のスコアを合計し、組み合わせそれぞれについて、スコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。
<ステップ20(S20)>
出力部6は、例えば、校正対象を最適候補で置き換えた校正済みの文を出力する等、最適候補を校正対象文と関連付けて出力する。さらに、出力部6は、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを、スコア合計順に出力してもよい。
≪具体例≫
以下、具体的な例を用いて、本実施形態をさらに説明する。
<具体例7>
校正対象文の複数箇所を校正する例、具体的には、校正対象文「犯人はフェンスを乗り越えてから侵入したとみられる。」を「犯人は柵を乗り越え、侵入したとみられる。」に校正する例について説明する。本例で用いた校正履歴コーパス8には、表14に示すレコードが保存されている。
Figure 2019016140
(1)ステップ11
具体例1のステップ1と同様にして、下記分かち書き文を生成する。
「<bos>/犯人/は/フェンス/を/乗り/越えて/から/侵入/した/と/み/られる/。/<eos>」
(2)ステップ12
誤り箇所自動検出部7は、機械学習により分かち書き文の誤り箇所を推測し、推測結果「0,0,0,1,0,1,1,2,3,0,0,1,1,0,0」というベクトルを出力する。すなわち、誤り箇所自動検出部7は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があると推測する。
(3)ステップ13,14
校正対象判定部3は、上記分かち書き文を構成する形態素のうち、誤り箇所自動検出部7により誤り箇所と推測された形態素、すなわち「フェンス」「乗り」「越えて」「から」「侵入」「み」「られる」のそれぞれを文の先頭から順番に校正履歴コーパス8の見出しと対比する。この際、「乗り」と「越えて」については、誤り箇所自動検出部7の出力したラベル「1」(置換)が連続しているので、両者が連結した1語(2−gram)「乗り越えて」として処理する。「み」と「られる」についても、同様に「みられる」として処理する。その結果、「フェンス」「乗り越えて」「から」「侵入」が校正履歴コーパス8の見出しと一致するので、これらを、それぞれ第1校正対象、第2校正対象、第3校正対象、第4校正対象として判定し、ステップ15に進む。
(4)ステップ15
校正候補予測部4は、具体例1のステップ4と同様にして、第1校正対象「フェンス」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。ただし、探索幅は5とし、「Context2Vec」で得られた類似度から得られる対数尤度をスコアとして求めた。その結果を表15に示す。
Figure 2019016140
(5)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「柵」「堀」および校正対象自身である「フェンス」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補、第3適切候補として判定する。
(6)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、ステップ15に戻る。
(7)ステップ15
校正候補予測部4は、「(4)ステップ15」と同様にして、第2校正対象「乗り越えて」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表16に示す。
Figure 2019016140
(8)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「乗り越え」「越え」「飛び越え」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補、第3適切候補として判定する。
(9)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、ステップ15に戻る。
(10)ステップ15
校正候補予測部4は、「(4)ステップ15」と同様にして、第3校正対象「から」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表17に示す。
Figure 2019016140
(11)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「へ」「<del>から</del>」が校正結果と一致するため、これらをそれぞれ第1適切候補、第2適切候補として判定する。さらに、適切候補判定部5は、誤り箇所自動検出部7の出力したラベル「2」(削除)を加味し、第2適切候補「<del>から</del>」を最適候補として判定する。
(12)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、第3校正対象「から」を最適候補「<del>から</del>」に置き換え、ステップ15に戻る。
(13)ステップ15
校正候補予測部4は、「(4)ステップ15」と同様にして、第4校正対象「侵入」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表18に示す。
Figure 2019016140
(14)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「、侵入」「不法侵入」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補として判定する。
(15)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第2適切候補「越え」に置き換え、ステップ15に戻る。
(16)ステップ15〜18
以降、同様にして、適切候補のすべての組み合わせを求める。その結果を表19に示す。
(17)ステップ19
適切候補判定部5は、適切候補の組み合わせのそれぞれについてスコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。本例では、表19に示すように、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、第3校正対象「から」を最適候補「<del>から</del>」に置き換え、第4校正対象「から」を第1適切候補「、侵入」に置き換える組み合わせのスコア合計は1.21+1.59+1.62+1.58=6.00であり最小である。そのため、第1校正対象「フェンス」については第1適切候補「柵」を、第2校正対象「乗り越えて」については第1適切候補「乗り越え」を、第3校正対象「から」については最適候補「<del>から</del>」を、第4校正対象「から」については第1適切候補「、侵入」を、最適候補と判定する。
(18)ステップ20
出力部6は、各校正対象を最適候補で置き換えた校正済み文「犯人は柵を乗り越え、侵入したとみられる。」をディスプレイに表示する。さらに、出力部6は、他の適切候補の組み合わせを、スコア合計の小さい順にディスプレイに表示する。
Figure 2019016140
1:文入力部、2:分かち書き文生成部、3:校正対象判定部、4:校正候補予測部、5:適切候補判定部、6:出力部、7:誤り箇所自動検出部、8:校正履歴コーパス、9:形態素解析用辞書、10:ベクトル学習済みモデル、11:校正後文章、12:校正前文章、13:校正済みデータベース、14:文対取得部、15:文対分かち書き文生成部、16:校正履歴獲得部、17:ベクトル計算部

Claims (10)

  1. 校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
    前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
    前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
    前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
    を有することを特徴とする校正支援装置。
  2. さらに、ベクトル学習済みモデルを有し、前記校正候補予測部は、前記ベクトル学習済みモデルから取得した処理単位が有するベクトルまたは前記処理単位が有するベクトルを用いて計算した処理単位群が有するベクトルを用いて校正候補を予測することを特徴とする請求項1に記載の校正支援装置。
  3. さらに、機械学習により誤り箇所を推測する誤り箇所自動検出部を有し、前記校正対象判定部は、前記処理単位のうち、前記誤り箇所自動検出部により誤り箇所と推測された処理単位のみについて、校正対象を判定することを特徴とする請求項1または2に記載の校正支援装置。
  4. 前記適切候補判定部は、前記適切候補のうちの一つを最適候補として判定することを特徴とする請求項1乃至3のいずれか一項に記載の校正支援装置。
  5. 前記適切候補判定部は、幅優先探索を用いて最適候補を判定することを特徴とする請求項4に記載の校正支援装置。
  6. 前記校正候補予測部は、一の校正対象の校正候補を予測する際に、少なくとも他の一の校正対象を、前記他の一の校正対象の適切候補の一つに置き換えて校正候補を予測することを特徴とする請求項1乃至5のいずれか一項に記載の校正支援装置。
  7. 前記適切候補判定部は、前記校正候補に前記校正対象が含まれない場合に、適切候補を判定することを特徴とする請求項1乃至6のいずれか一項に記載の校正支援装置。
  8. さらに、前記校正履歴コーパスを生成する校正履歴コーパス生成部を有し、
    前記校正履歴コーパス生成部は、
    校正済みの校正前後の文が蓄積された校正済みデータベースから、校正前後の文の対を取得する文対取得部と、
    前記校正前後の文の対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する文対分かち書き文生成部と、
    前記分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する校正履歴獲得部と、
    を有することを特徴とする請求項1乃至7のいずれか一項に記載の校正支援装置。
  9. コンピューターが実行する校正支援方法であって、
    校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
    前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
    前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
    前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
    を有することを特徴とする校正支援方法。
  10. コンピューターに、
    校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
    前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
    前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
    前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
    を実行させることを特徴とする校正支援プログラム。
JP2017132713A 2017-07-06 2017-07-06 校正支援装置、校正支援方法及び校正支援プログラム Active JP6979294B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017132713A JP6979294B2 (ja) 2017-07-06 2017-07-06 校正支援装置、校正支援方法及び校正支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017132713A JP6979294B2 (ja) 2017-07-06 2017-07-06 校正支援装置、校正支援方法及び校正支援プログラム

Publications (2)

Publication Number Publication Date
JP2019016140A true JP2019016140A (ja) 2019-01-31
JP6979294B2 JP6979294B2 (ja) 2021-12-08

Family

ID=65357527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017132713A Active JP6979294B2 (ja) 2017-07-06 2017-07-06 校正支援装置、校正支援方法及び校正支援プログラム

Country Status (1)

Country Link
JP (1) JP6979294B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023233633A1 (ja) * 2022-06-02 2023-12-07 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207889A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書校正装置
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
JP2003196636A (ja) * 2001-12-26 2003-07-11 Communication Research Laboratory 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム
JP2011081442A (ja) * 2009-10-02 2011-04-21 Toshiba Corp 文書チェック装置およびプログラム
JP2013196374A (ja) * 2012-03-19 2013-09-30 Fujitsu Ltd 文章校正装置、及び文章校正方法
JP2017027233A (ja) * 2015-07-17 2017-02-02 日本電信電話株式会社 質問文生成装置、方法、及びプログラム
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207889A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書校正装置
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
JP2003196636A (ja) * 2001-12-26 2003-07-11 Communication Research Laboratory 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム
JP2011081442A (ja) * 2009-10-02 2011-04-21 Toshiba Corp 文書チェック装置およびプログラム
JP2013196374A (ja) * 2012-03-19 2013-09-30 Fujitsu Ltd 文章校正装置、及び文章校正方法
JP2017027233A (ja) * 2015-07-17 2017-02-02 日本電信電話株式会社 質問文生成装置、方法、及びプログラム
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
永田 亮、高村 大也: "学習者英語のための綴り誤り訂正手法と綴り誤り分析への応用", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6021007579, 6 March 2017 (2017-03-06), JP, pages 943 - 946, ISSN: 0004458354 *
豊辻 宏旨 外2名: "英語動詞の適切な使い分けを支援するシステムの開発", 言語処理学会第22回年次大会 発表論文集 [ONLINE], JPN6021007580, 29 February 2016 (2016-02-29), JP, pages 601 - 604, ISSN: 0004458355 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023233633A1 (ja) * 2022-06-02 2023-12-07 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
JP6979294B2 (ja) 2021-12-08

Similar Documents

Publication Publication Date Title
Abandah et al. Automatic diacritization of Arabic text using recurrent neural networks
Jang et al. Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
Premjith et al. A deep learning approach for Malayalam morphological analysis at character level
US20200151567A1 (en) Training sequence generation neural networks using quality scores
KR102033458B1 (ko) 계층적 포인터 네트워크를 이용한 상호참조해결 시스템 및 방법
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN105378707A (zh) 情感反馈
CN111738002A (zh) 基于Lattice LSTM的古文领域命名实体识别方法和***
US11625546B2 (en) Apparatus and method for accurate translation reviews and consistency across multiple translators
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN116383366A (zh) 一种应答信息确定方法、电子设备及存储介质
KR101929509B1 (ko) 형태소 합성 장치 및 방법
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN112183060B (zh) 多轮对话***的指代消解方法
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP6979294B2 (ja) 校正支援装置、校正支援方法及び校正支援プログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及***
Trang et al. A hybrid method for Vietnamese text normalization
CN107577760B (zh) 一种基于约束规范的文本分类方法及装置
JP6545633B2 (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
CN113743113A (zh) 基于TextRank和深度神经网络的情感摘要抽取方法

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6979294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150