JP2019016140A - 校正支援装置、校正支援方法及び校正支援プログラム - Google Patents
校正支援装置、校正支援方法及び校正支援プログラム Download PDFInfo
- Publication number
- JP2019016140A JP2019016140A JP2017132713A JP2017132713A JP2019016140A JP 2019016140 A JP2019016140 A JP 2019016140A JP 2017132713 A JP2017132713 A JP 2017132713A JP 2017132713 A JP2017132713 A JP 2017132713A JP 2019016140 A JP2019016140 A JP 2019016140A
- Authority
- JP
- Japan
- Prior art keywords
- calibration
- candidate
- proofreading
- sentence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000012545 processing Methods 0.000 claims abstract description 130
- 239000013598 vector Substances 0.000 claims abstract description 74
- 230000001915 proofreading effect Effects 0.000 claims description 189
- 238000001514 detection method Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 14
- 230000000877 morphologic effect Effects 0.000 description 11
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- YJLUBHOZZTYQIP-UHFFFAOYSA-N 2-[5-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-1,3,4-oxadiazol-2-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C1=NN=C(O1)CC(=O)N1CC2=C(CC1)NN=N2 YJLUBHOZZTYQIP-UHFFFAOYSA-N 0.000 description 7
- 238000011835 investigation Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- KZEVSDGEBAJOTK-UHFFFAOYSA-N 1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)-2-[5-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]-1,3,4-oxadiazol-2-yl]ethanone Chemical compound N1N=NC=2CN(CCC=21)C(CC=1OC(=NN=1)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)=O KZEVSDGEBAJOTK-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする。
コンピューターが実行する校正支援方法であって、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする。
コンピューターに、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする。
≪校正支援装置≫
図1は、本実施形態の校正支援装置の構成の一例を示すブロック図である。図1において、1は文入力部、2は分かち書き文生成部、3は校正対象判定部、4は校正候補予測部、5は適切候補判定部、6は出力部、8は校正履歴コーパス、9は形態素解析用辞書、10はベクトル学習済みモデルである。
まず、校正対象文が文入力部1に入力される。入力の方法は特に限定されず、例えば、キーボードによる入力、手書きによる入力等が挙げられる。文入力部1は、校正対象文を分かち書き文生成部2に出力する。
分かち書き文生成部2は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書9を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。固有名詞については、形態素解析用辞書9に含まれていればそれ以上は分割しないことが好ましい。例えば、人物の姓名は、一般的な形態素解析では「姓」と「名」に分割され、「姓/名」という結果が得られる(以下、「/」は処理単位の区切り箇所を示す)。しかし、形態素解析用辞書9に、例えば著名人の姓名が含まれていれば、その姓名を固有名詞と判断し、「姓」と「名」に分割せずに処理単位とする。本実施形態では、処理単位は原則、形態素または固有名詞であるが、連続する形態素を幾つか結合した形態素群(例えば「伸び/る」という前後2つの形態素を結合した「伸びる」)を、処理単位としてもよい。
校正対象判定部3は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス8の見出しと対比し、校正履歴コーパス8の見出しと一致する処理単位を、校正対象として判定する。処理単位の対比の順番は特に限定されない。ここで、校正履歴コーパス8は、過去の校正履歴を蓄積したデータベースであり、例えば表1に示すように、校正前の処理単位を見出しとし、校正結果と、校正の属性(挿入、削除、置換)と、校正回数(過去の出現回数)を関連付けたレコードが記録されている。したがって、校正対象判定部3は、分かち書き文を構成する処理単位のうち、過去に校正対象となったことがある処理単位を校正対象として判定することになる。なお、校正履歴コーパス8の詳細については後述する。
校正候補予測部4は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象(ブランク)の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル(分散表現)、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位が有するベクトルは、例えば、あらかじめ生成しておいたベクトル学習済みモデル10から取得することができる。また、処理単位群が有するベクトルは、ベクトル学習済みモデル10から取得した処理単位が有するベクトルを用いて計算することができる。ここで、ベクトル学習済みモデル10は、過去に校正された校正後の文から、単語ベクトル等のベクトル(分散表現)を、それぞれの処理単位で機械学習し、学習済みモデルとして蓄積したものである。なお、ベクトル学習済みモデル10の詳細については後述する。
(1)ベクトル学習済みモデル10から、ブランク前後の複数の形態素が有するそれぞれの単語ベクトルを取得し、これらの平均ベクトルを算出する。算出した平均ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。
(2)ベクトル学習済みモデル10から、ブランク前後の形態素群に含まれる形態素が有するそれぞれの単語ベクトルを取得し、例えば「context2vec」等を利用して、ブランク前後の文ベクトルを算出する。算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。
適切候補判定部5は、校正候補のうち、校正履歴コーパス8中の見出し(校正対象と一致する見出し)に対応する校正結果と一致する校正候補を適切候補として判定する。適切候補判定部5は、全ての校正対象について適切候補を判定してもいいし、校正候補に校正対象自身が含まれない校正対象のみについて適切候補を判定してもいい。
出力部6は、適切候補を校正対象文と関連付けて出力する。校正対象文と関連付ける方法は特に限定されないが、例えば以下の方法が挙げられる。
(1)校正対象文と、校正対象と、適切候補とを関連付けて出力する。
(2)校正対象文と、校正対象と、適切候補及びその適切度合とを関連付けて出力する。
(3)校正対象文と、校正対象と、最適候補とを関連付けて出力する。
(4)校正対象を最適候補で置き換えた校正済みの文を出力する。この際、最適候補が「<del>・・・</del>」である場合は、その処理単位の削除となる。例えば、表1の例では、最適候補が「<del>まもなく</del>」である場合は、「まもなく」の削除となる。また、最適候補を構成する形態素の数が、校正対象を構成する形態素の数よりも多い場合には、その処理単位の前または後への挿入となる。例えば、表1の例では、校正対象が「2例」であり、最適候補が「2例目」である場合は、「2例」の後ろへの「目」の挿入となる。
図2は、本実施形態の校正支援方法の一例を示すフローチャートである。
校正対象文が文入力部1に入力されると、分かち書き文生成部2は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書9を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。さらに、分かち書き文生成部2は、文頭に例えば<bos>等の文頭記号、文末に例えば<eos>等の文末記号を配置して、分かち書き文を生成する。
校正対象判定部3は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス8の見出しと対比する。校正対象判定部3は、すべての処理単位を校正履歴コーパス8の見出しと対比してもいいし、第2実施形態で示すように、機械学習により誤り箇所を推測する誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス8の見出しと対比してもいい。処理単位の対比の順番は特に限定されない。校正対象判定部3は、処理単位が校正履歴コーパス8の見出しと一致しない場合は、次の処理単位を校正履歴コーパス8の見出しと対比する。一方、処理単位が校正履歴コーパス8の見出しと一致する場合は、その処理単位を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象(ブランク)の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル(分散表現)、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位または処理単位群が有するベクトルの求め方、これらを用いた予測方法の具体例に関しては、「<校正候補予測部4>」の欄で述べた通りである。
適切候補判定部5は、全ての校正候補のそれぞれを、校正履歴コーパス8中の見出し(校正対象と一致する見出し)に対応する校正結果と対比する。適切候補判定部5は、校正候補が校正結果と一致しない場合は、次の校正候補を校正履歴コーパス8の校正結果と対比する。一方、校正候補が校正結果と一致する場合は、その校正候補を適切候補と判定する。そして、全ての校正候補の判定が終わったら、ステップ2に戻る。適切候補判定部5は、適切候補のうちの一つを最適候補として判定してもよく、その場合は、校正対象を最適候補で置き換え、ステップ2に戻ると、ステップ4での校正候補の予測の精度が向上するため好ましい。
ステップ2からステップ6を、すべての処理単位を処理するまで繰り返した後、出力部6は適切候補を校正対象文と関連付けて出力する。
図3は、本実施形態で用いる校正履歴コーパス8を生成する校正履歴コーパス生成部の構成の一例を示すブロック図である。図3において、13は校正済みデータベース、14は文対取得部、15は文対分かち書き文生成部、16は校正履歴獲得部である。
校正済みデータベース13には、過去に校正された校正済みの校正前文章12と校正後文章11が蓄積されている。校正済みデータベース13に蓄積される文章は、校正対象文と同一分野または関連する分野の文章であることが好ましい。例えば、校正対象文が新聞記事である場合には、校正済みデータベース13に蓄積される文章は新聞記事であることが好ましい。
文対取得部14は、校正済みデータベース13から、校正前後の文の対を取得する。具体的には、文対取得部14は、校正済みデータベース13に蓄積された校正前文章12と校正後文章11のそれぞれを文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。そしてこれらの文を対比して、校正前後の文対を取得する。文対を取得する方法は特に限定されないが、例えば、ベクトル学習済みモデル10から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、文対を取得する方法が挙げられる。
校正前後の文対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「<分かち書き文生成部2>」で述べた通りである。
分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する。校正履歴を獲得する方法は特に限定されないが、例えばエディットグラフを用いて校正前後の変更箇所を自動で算出して獲得する方法が挙げられる。
校正履歴獲得部16で獲得された校正履歴は、校正履歴コーパス8に保存される。前述の通り、例えば表1に示すように、校正前の処理単位を見出しとし、校正結果と校正の属性(挿入、削除、置換)、さらには校正回数(過去の出現回数)とを関連付けたレコードとして保存される。表1に示した例では、一つの見出しに、一つの校正結果、校正の属性及び校正回数の組み合わせが関連付けられているが、もちろん、一つの見出しに、複数の校正結果、校正の属性及び校正回数の組み合わせが関連付けられている場合もある。なお、校正履歴コーパス8は、校正履歴のデータが新たに得られた場合、逐次更新することが校正の正確性の観点より好ましい。
図4は、本実施形態で用いるベクトル学習済みモデル10を生成するベクトル学習済みモデル生成部の構成の一例を示すブロック図である。図4において、17はベクトル計算部である。
1−gram:「<bos>/県警/に/よる/と/、/県内/で/は/2例/目/の/把握/と/なる/。/<eos>」
2−gram:「<bos>県警/県警に/による/よると/と、/、県内/県内で/では/は2例/2例目/目の/の把握/把握と/となる/なる。/。<eos>」
3−gram:「<bos>県警に/県警による/によると/よると、/と、県内/、県内で/県内では/では2例/は2例目/2例目の/目の把握/の把握と/把握となる/となる。/なる。<eos>」
以下、具体的な例を用いて、本実施形態をさらに説明する。
校正対象文の一箇所を置き換える例、具体的には、校正対象文「県警は8日、熊谷署に100人体制の捜査本部を設置。」の「体制」を「態勢」で置き換える例について説明する。本例で用いた校正履歴コーパス8には、表2に示すレコードが保存されている。
分かち書き文生成部2は、文入力部1から出力された校正対象文について、形態素解析用辞書9を用いて形態素解析を行い、処理単位である形態素に分割する。さらに、文頭に文頭記号<bos>、文末に文末記号<eos>を配置して、下記分かち書き文を生成する。
「<bos>/県警/は/8日/、/熊谷署/に/100人/体制/の/捜査本部/を/設置/。/<eos>」
校正対象判定部3は、上記分かち書き文を構成する形態素のそれぞれを文の先頭から順番に校正履歴コーパス8の見出しと対比し、「体制」が校正履歴コーパス8の見出しと一致するので、校正対象として判定し、ステップ4に進む。
校正候補予測部4は、校正対象「体制」がブランクであった場合に、ブランクを埋める形態素を、校正候補として予測する。具体的には、校正対象「体制」前後の形態素群「<bos>/県警/は8日/、/熊谷署/に/100人」「の/捜査本部/を/設置/。/<eos>」に含まれる形態素が有するそれぞれの単語ベクトルをベクトル学習済みモデル10から取得し、「context2vec」を利用して、それぞれの文ベクトルを算出する。そして、算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。その結果を表3に示す。
適切候補判定部5は、校正候補のそれぞれを、表2に示す校正結果と対比する。その結果、「態勢」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「体制」を、最適候補「態勢」に置き換え、ステップ2に戻る。
校正対象判定部3は、上記分かち書き文の「体制」が「態勢」に置き換えられた分かち書き文の「態勢」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
出力部6は、校正対象「体制」を、最適候補「態勢」に置き換えた校正済み文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」をディスプレイに表示する。
校正対象文の一箇所を削除する例、具体的には、校正対象文「神通川第二ダムを超えると、まもなく木造の建物が見えてきた。」の「まもなく」を削除する例について説明する。本例で用いた校正履歴コーパス8には、表4に示すレコードが保存されている。
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/神通川第二ダム/を/超える/と/、/まもなく/木造/の/建物/が/見え/て/きた/。/<eos>」
具体例1と同様にして、「まもなく」を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、具体例1と同様にして、校正対象「まもなく」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表5に示す。
適切候補判定部5は、校正候補のそれぞれを、表4に示す校正結果と対比する。その結果、「<del>まもなく</del>」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「まもなく」を、最適候補「<del>まもなく</del>」に置き換え、ステップ2に戻る。
校正対象判定部3は、上記分かち書き文の「まもなく」が「<del>まもなく</del>」に置き換えられた分かち書き文の「<del>まもなく</del>」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
出力部6は、校正対象「まもなく」を、最適候補「<del>まもなく</del>」に置き換えた、すなわち「まもなく」を削除した校正済み文「神通川第二ダムを超えると、木造の建物が見えてきた。」をディスプレイに表示する。
校正対象文の一箇所に挿入する例、具体的には、校正対象文「県警によると、県内では2例の把握となる。」の「2例」の後に「目」を挿入する例について説明する。本例で用いた校正履歴コーパス8には、表6に示すレコードが保存されている。
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/県警/に/よる/と/、/県内/で/は/2例/の/把握/と/なる/。/<eos>」
具体例1と同様にして、「2例」を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、具体例1と同様にして、校正対象「2例」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表7に示す。
適切候補判定部5は、校正候補のそれぞれを、表6に示す校正結果と対比する。その結果、「2例目」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「2例」を、最適候補「2例目」に置き換え、ステップ2に戻る。
校正対象判定部3は、上記分かち書き文の「2例」が「2例目」に置き換えられた分かち書き文の「2例目」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
出力部6は、校正対象「2例」を、最適候補「2例目」に置き換えた、すなわち「2例」の後に「目」を挿入した校正済み文「県警によると、県内では2例目の把握となる。」をディスプレイに表示する。
校正対象文の一箇所を校正対象と判定したが校正しない例、具体的には、校正対象文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」の「県警」を校正対象と判定したが適切候補を判定せずに校正しない例について説明する。本例で用いた校正履歴コーパス8には、表8に示すレコードが保存されている。
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/県警/は/8日/、/熊谷署/に/100人/態勢/の/捜査本部/を/設置/。/<eos>」
具体例1と同様にして、「県警」を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、具体例1と同様にして、校正対象「県警」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表9に示す。
適切候補判定部5は、校正候補に校正対象「県警」が含まれないかどうかを判定する。本例では、表9に示す校正候補に、「県警」が含まれるため、ステップ2に戻る。
校正対象判定部3は、上記分かち書き文の「県警」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ9に進む。
出力部6は、校正対象文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」をディスプレイに表示する。
校正対象文の複数箇所を校正する例、具体的には、校正対象文「東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年にも伸びる予定だ。」を「東京(品川)と名古屋の間は2027年に開業し、名古屋から大阪までは45年に延びる予定だ。」に校正する例について説明する。本例で用いた校正履歴コーパス8には、表10に示すレコードが保存されている。
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/東京/(/品川/)/と/名古屋/の/間/は/2027年/に/開業/、/名古屋/から/大阪/まで/は/45年/に/も/伸びる/予定/だ/。/<eos>」
具体例1と同様にして、「、」(読点)を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、具体例1と同様にして、校正対象「、」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表11に示す。
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「し、」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「、」を、最適候補「し、」に置き換え、ステップ2に戻る。
校正対象判定部3は、上記分かち書き文の「、」が「し、」に置き換えられた分かち書き文の「し、」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比し、「も」を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、具体例1と同様にして、校正対象「も」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表12に示す。
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「<del>も</del>」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「も」を、最適候補「<del>も</del>」に置き換え、ステップ2に戻る。
校正対象判定部3は、「、」が「し、」に置き換えられた分かち書き文の「も」が「<del>も</del>」に置き換えられた分かち書き文の「<del>も</del>」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比し、「伸びる」を校正対象として判定し、ステップ4に進む。
校正候補予測部4は、具体例1と同様にして、校正対象「伸びる」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表13に示す。
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「延びる」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「伸びる」を、最適候補「延びる」に置き換え、ステップ2に戻る。
校正対象判定部3は、「、」が「し、」に、「も」が「<del>も</del>」に置き換えられた分かち書き文の「伸びる」を「延びる」に置き換えた分かち書き文の「延びる」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
出力部6は、校正済み文「東京(品川)と名古屋の間は2027年に開業し、名古屋から大阪までは45年に延びる予定だ。」をディスプレイに表示する。
具体例1〜3で用いた校正履歴コーパス8を生成する例について説明する。
文対取得部14は、校正済みデータベース13に蓄積された校正前文章12と校正後文章11のそれぞれを句点で区切り、文に分割する。そして、ベクトル学習済みモデル10から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、下記校正前後の文の対を取得する。
校正前の文:「平日は40分間隔で1頭1車両体制、土日祝日は30分間隔で2頭2車両体制。」
校正後の文:「平日は40分間隔で1頭1車両態勢、土日祝日は30分間隔で2頭2車両態勢。」
具体例6−1と同様にして、下記校正前後の文の対を取得する。
校正前の文:「火は約4時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、まもなく死亡した。」
校正後の文:「火は約4時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、<del>まもなく</del>死亡した。」
具体例6−1と同様にして、下記校正前後の文の対を取得する。
校正前の文:「県警によると、県内では2例の把握となる。」
校正後の文:「県警によると、県内では2例目の把握となる。」
≪校正支援装置≫
図5は、本実施形態の校正支援装置の構成の一例を示すブロック図である。尚、図5において、第1実施形態と同様の構成には同一の符号を付しており、特に説明しない限りは第1実施形態と同様である。図5において、7は誤り箇所自動検出部である。
誤り箇所自動検出部7は、分かち書き文を構成する処理単位のそれぞれについて、機械学習により誤り箇所(文法的に誤っており、修正すべき箇所)を推測する。
入力層:入力文(誤りを含む可能性のある文)のベクトル
中間層:入力文の低次元へ写像したベクトル
出力層:正解文(入力文を人手で校正した文)と入力文の差を以下の例の様に表現したもののベクトル
校正対象判定部3は、誤り箇所自動検出部7が誤り箇所と推測した処理単位のみを校正履歴コーパス8の見出しと対比し、校正対象を判定する。そのため、分かち書き文を構成する処理単位の全てについて校正対象を判定する場合に比べ、処理速度が向上する可能性がある。
適切候補判定部5は、誤り箇所自動検出部7が出力したラベルを最適候補の判断材料にしてもよい。例えば、上述の例では、「から」の適切候補が複数ある場合に、誤り箇所自動検出部7の出力したラベル「2」(削除)を加味し、「<del>から</del>」を最適候補として判定してもよい。
図6は、本実施形態の校正支援方法の一例を示すフローチャートである。
分かち書き文生成部2は、第1実施形態のステップ1と同様にして、分かち書き文を生成する。
誤り箇所自動検出部7が誤り箇所と推測した処理単位のみについて校正対象を判定する点、誤り箇所と推測した処理単位の全てについて校正対象を判定してから次のステップに進む点以外は、第1実施形態のステップ2,3と同様にして、校正対象判定部3は、校正対象を判定する。
本例では、文脈を考慮した確率モデルを組み込むことで、最適候補を判定した。以下、ビームサーチ等の幅優先探索と校正履歴コーパスの組み合わせによる最適候補の判定について説明する。幅優先ビーム探索は知識あり探索に分類され、幅優先探索を行いつつ、評価値が高いノードをビーム幅個保持し、ビーム幅個よりノードの個数が増えたら、評価値が低い枝を切り捨てるアルゴリズムである。
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第1校正対象の校正候補を予測する。その際、例えば、「Context2Vec」で得られた類似度、類似度から得られる対数尤度等をスコアとして求める。
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第1校正対象の適切候補を判定する。
適切候補判定部5は、第1校正対象を第1適切候補に置き換え、ステップ15に戻る。
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第2校正対象の校正候補を予測すると共にスコアを求める。
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第2校正対象の適切候補を判定する。
適切候補判定部5は、第1校正対象を第1適切候補に置き換え、第2校正対象を第1適切候補に置き換え、ステップ15に戻る。
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第3校正対象の校正候補を予測すると共にスコアを求める。
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第3校正対象の適切候補を判定する。
適切候補判定部5は、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを構成する適切候補のスコアを合計し、組み合わせそれぞれについて、スコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。
出力部6は、例えば、校正対象を最適候補で置き換えた校正済みの文を出力する等、最適候補を校正対象文と関連付けて出力する。さらに、出力部6は、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを、スコア合計順に出力してもよい。
以下、具体的な例を用いて、本実施形態をさらに説明する。
校正対象文の複数箇所を校正する例、具体的には、校正対象文「犯人はフェンスを乗り越えてから侵入したとみられる。」を「犯人は柵を乗り越え、侵入したとみられる。」に校正する例について説明する。本例で用いた校正履歴コーパス8には、表14に示すレコードが保存されている。
具体例1のステップ1と同様にして、下記分かち書き文を生成する。
「<bos>/犯人/は/フェンス/を/乗り/越えて/から/侵入/した/と/み/られる/。/<eos>」
誤り箇所自動検出部7は、機械学習により分かち書き文の誤り箇所を推測し、推測結果「0,0,0,1,0,1,1,2,3,0,0,1,1,0,0」というベクトルを出力する。すなわち、誤り箇所自動検出部7は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があると推測する。
校正対象判定部3は、上記分かち書き文を構成する形態素のうち、誤り箇所自動検出部7により誤り箇所と推測された形態素、すなわち「フェンス」「乗り」「越えて」「から」「侵入」「み」「られる」のそれぞれを文の先頭から順番に校正履歴コーパス8の見出しと対比する。この際、「乗り」と「越えて」については、誤り箇所自動検出部7の出力したラベル「1」(置換)が連続しているので、両者が連結した1語(2−gram)「乗り越えて」として処理する。「み」と「られる」についても、同様に「みられる」として処理する。その結果、「フェンス」「乗り越えて」「から」「侵入」が校正履歴コーパス8の見出しと一致するので、これらを、それぞれ第1校正対象、第2校正対象、第3校正対象、第4校正対象として判定し、ステップ15に進む。
校正候補予測部4は、具体例1のステップ4と同様にして、第1校正対象「フェンス」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。ただし、探索幅は5とし、「Context2Vec」で得られた類似度から得られる対数尤度をスコアとして求めた。その結果を表15に示す。
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「柵」「堀」および校正対象自身である「フェンス」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補、第3適切候補として判定する。
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、ステップ15に戻る。
校正候補予測部4は、「(4)ステップ15」と同様にして、第2校正対象「乗り越えて」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表16に示す。
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「乗り越え」「越え」「飛び越え」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補、第3適切候補として判定する。
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、ステップ15に戻る。
校正候補予測部4は、「(4)ステップ15」と同様にして、第3校正対象「から」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表17に示す。
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「へ」「<del>から</del>」が校正結果と一致するため、これらをそれぞれ第1適切候補、第2適切候補として判定する。さらに、適切候補判定部5は、誤り箇所自動検出部7の出力したラベル「2」(削除)を加味し、第2適切候補「<del>から</del>」を最適候補として判定する。
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、第3校正対象「から」を最適候補「<del>から</del>」に置き換え、ステップ15に戻る。
校正候補予測部4は、「(4)ステップ15」と同様にして、第4校正対象「侵入」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表18に示す。
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「、侵入」「不法侵入」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補として判定する。
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第2適切候補「越え」に置き換え、ステップ15に戻る。
以降、同様にして、適切候補のすべての組み合わせを求める。その結果を表19に示す。
適切候補判定部5は、適切候補の組み合わせのそれぞれについてスコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。本例では、表19に示すように、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、第3校正対象「から」を最適候補「<del>から</del>」に置き換え、第4校正対象「から」を第1適切候補「、侵入」に置き換える組み合わせのスコア合計は1.21+1.59+1.62+1.58=6.00であり最小である。そのため、第1校正対象「フェンス」については第1適切候補「柵」を、第2校正対象「乗り越えて」については第1適切候補「乗り越え」を、第3校正対象「から」については最適候補「<del>から</del>」を、第4校正対象「から」については第1適切候補「、侵入」を、最適候補と判定する。
出力部6は、各校正対象を最適候補で置き換えた校正済み文「犯人は柵を乗り越え、侵入したとみられる。」をディスプレイに表示する。さらに、出力部6は、他の適切候補の組み合わせを、スコア合計の小さい順にディスプレイに表示する。
Claims (10)
- 校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする校正支援装置。 - さらに、ベクトル学習済みモデルを有し、前記校正候補予測部は、前記ベクトル学習済みモデルから取得した処理単位が有するベクトルまたは前記処理単位が有するベクトルを用いて計算した処理単位群が有するベクトルを用いて校正候補を予測することを特徴とする請求項1に記載の校正支援装置。
- さらに、機械学習により誤り箇所を推測する誤り箇所自動検出部を有し、前記校正対象判定部は、前記処理単位のうち、前記誤り箇所自動検出部により誤り箇所と推測された処理単位のみについて、校正対象を判定することを特徴とする請求項1または2に記載の校正支援装置。
- 前記適切候補判定部は、前記適切候補のうちの一つを最適候補として判定することを特徴とする請求項1乃至3のいずれか一項に記載の校正支援装置。
- 前記適切候補判定部は、幅優先探索を用いて最適候補を判定することを特徴とする請求項4に記載の校正支援装置。
- 前記校正候補予測部は、一の校正対象の校正候補を予測する際に、少なくとも他の一の校正対象を、前記他の一の校正対象の適切候補の一つに置き換えて校正候補を予測することを特徴とする請求項1乃至5のいずれか一項に記載の校正支援装置。
- 前記適切候補判定部は、前記校正候補に前記校正対象が含まれない場合に、適切候補を判定することを特徴とする請求項1乃至6のいずれか一項に記載の校正支援装置。
- さらに、前記校正履歴コーパスを生成する校正履歴コーパス生成部を有し、
前記校正履歴コーパス生成部は、
校正済みの校正前後の文が蓄積された校正済みデータベースから、校正前後の文の対を取得する文対取得部と、
前記校正前後の文の対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する文対分かち書き文生成部と、
前記分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する校正履歴獲得部と、
を有することを特徴とする請求項1乃至7のいずれか一項に記載の校正支援装置。 - コンピューターが実行する校正支援方法であって、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする校正支援方法。 - コンピューターに、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする校正支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132713A JP6979294B2 (ja) | 2017-07-06 | 2017-07-06 | 校正支援装置、校正支援方法及び校正支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132713A JP6979294B2 (ja) | 2017-07-06 | 2017-07-06 | 校正支援装置、校正支援方法及び校正支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019016140A true JP2019016140A (ja) | 2019-01-31 |
JP6979294B2 JP6979294B2 (ja) | 2021-12-08 |
Family
ID=65357527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017132713A Active JP6979294B2 (ja) | 2017-07-06 | 2017-07-06 | 校正支援装置、校正支援方法及び校正支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6979294B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023233633A1 (ja) * | 2022-06-02 | 2023-12-07 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207889A (ja) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | 文書校正装置 |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
JP2003196636A (ja) * | 2001-12-26 | 2003-07-11 | Communication Research Laboratory | 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム |
JP2011081442A (ja) * | 2009-10-02 | 2011-04-21 | Toshiba Corp | 文書チェック装置およびプログラム |
JP2013196374A (ja) * | 2012-03-19 | 2013-09-30 | Fujitsu Ltd | 文章校正装置、及び文章校正方法 |
JP2017027233A (ja) * | 2015-07-17 | 2017-02-02 | 日本電信電話株式会社 | 質問文生成装置、方法、及びプログラム |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
-
2017
- 2017-07-06 JP JP2017132713A patent/JP6979294B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207889A (ja) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | 文書校正装置 |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
JP2003196636A (ja) * | 2001-12-26 | 2003-07-11 | Communication Research Laboratory | 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム |
JP2011081442A (ja) * | 2009-10-02 | 2011-04-21 | Toshiba Corp | 文書チェック装置およびプログラム |
JP2013196374A (ja) * | 2012-03-19 | 2013-09-30 | Fujitsu Ltd | 文章校正装置、及び文章校正方法 |
JP2017027233A (ja) * | 2015-07-17 | 2017-02-02 | 日本電信電話株式会社 | 質問文生成装置、方法、及びプログラム |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
Non-Patent Citations (2)
Title |
---|
永田 亮、高村 大也: "学習者英語のための綴り誤り訂正手法と綴り誤り分析への応用", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6021007579, 6 March 2017 (2017-03-06), JP, pages 943 - 946, ISSN: 0004458354 * |
豊辻 宏旨 外2名: "英語動詞の適切な使い分けを支援するシステムの開発", 言語処理学会第22回年次大会 発表論文集 [ONLINE], JPN6021007580, 29 February 2016 (2016-02-29), JP, pages 601 - 604, ISSN: 0004458355 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023233633A1 (ja) * | 2022-06-02 | 2023-12-07 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6979294B2 (ja) | 2021-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
Jang et al. | Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
Premjith et al. | A deep learning approach for Malayalam morphological analysis at character level | |
US20200151567A1 (en) | Training sequence generation neural networks using quality scores | |
KR102033458B1 (ko) | 계층적 포인터 네트워크를 이용한 상호참조해결 시스템 및 방법 | |
JP2004355483A (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
CN105378707A (zh) | 情感反馈 | |
CN111738002A (zh) | 基于Lattice LSTM的古文领域命名实体识别方法和*** | |
US11625546B2 (en) | Apparatus and method for accurate translation reviews and consistency across multiple translators | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN116383366A (zh) | 一种应答信息确定方法、电子设备及存储介质 | |
KR101929509B1 (ko) | 형태소 합성 장치 및 방법 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN112183060B (zh) | 多轮对话***的指代消解方法 | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP6979294B2 (ja) | 校正支援装置、校正支援方法及び校正支援プログラム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及*** | |
Trang et al. | A hybrid method for Vietnamese text normalization | |
CN107577760B (zh) | 一种基于约束规范的文本分类方法及装置 | |
JP6545633B2 (ja) | 単語スコア計算装置、単語スコア計算方法及びプログラム | |
CN113743113A (zh) | 基于TextRank和深度神经网络的情感摘要抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20170713 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6979294 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |