JP2019016140A

JP2019016140A - 校正支援装置、校正支援方法及び校正支援プログラム

Info

Publication number: JP2019016140A
Application number: JP2017132713A
Authority: JP
Inventors: 雄太人見; Yuta HITOMI; 田森　秀明; Hideaki Tamori; 秀明田森; 健太郎乾; Kentaro Inui; 直観岡崎; Naomi Okazaki
Original assignee: Asahi Shimbun Publishing Co
Current assignee: Asahi Shimbun Publishing Co
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2019-01-31
Anticipated expiration: 2037-07-06
Also published as: JP6979294B2

Abstract

【課題】分散表現を用いた校正候補の予測結果から適切な候補を選択し、正確な校正をすることが可能な校正支援装置を提供する。【解決手段】校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部２と、分かち書き文を構成する処理単位のうち、校正履歴コーパス８中の見出しと一致する処理単位を校正対象として判定する校正対象判定部３と、校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部４と、校正候補のうち、校正履歴コーパス中の見出しに対応する校正結果と一致する校正候補を適切候補として判定する最適候補判定部５とを有する校正支援装置。【選択図】図１

Description

本発明は、校正支援装置、校正支援方法及び校正支援プログラムに関する。

近年の人工知能（ＡＩ）の発達に伴い、分散表現を用いた自然言語処理が注目されており、例えば、自然言語処理を応用した校正支援装置が開発されている。

非特許文献１には、文の一箇所をブランクとし、ブランク前後の分散表現を用いて、ブランク箇所に入る単語候補を予測する技術が開示されている。

"ｃｏｎｔｅｘｔ２ｖｅｃ：ＬｅａｒｎｉｎｇＧｅｎｅｒｉｃＣｏｎｔｅｘｔＥｍｂｅｄｄｉｎｇｗｉｔｈＢｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ" Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０ｔｈＳＩＧＮＬＬＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ（ＣｏＮＬＬ），ｐａｇｅｓ５１−６１，Ｂｅｒｌｉｎ，Ｇｅｒｍａｎｙ，Ａｕｇｕｓｔ７−１２，２０１６

本発明者らは、非特許文献１の技術を校正支援装置に応用できる可能性を見出し、種々の検討を行った。しかし、非特許文献１の技術では、基本的には複数の言い換え候補が予測されるため、例えば「宮崎駅の西口から延びる」という文の「の」の言い換え候補として「東口」「南口」が含まれる等、校正には不適切な候補も含まれる。そのため、非特許文献１の技術を、そのまま校正支援装置へ適用すると、校正の精度が十分ではなく、不自然な日本語になるという問題があった。

本発明は、かかる現状に鑑みてなされたものであり、分散表現を用いた校正候補の予測結果から適切な候補を選択し、正確な校正を支援することが可能な校正支援装置、校正支援方法及び校正支援プログラムを提供することを目的とする。

本発明の校正支援装置は、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする。

また、本発明の校正支援方法は、
コンピューターが実行する校正支援方法であって、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする。

また、本発明の校正支援プログラムは、
コンピューターに、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする。

本発明によれば、分散表現を用いた校正候補の予測結果に、校正に不適切な候補が含まれていても、より適切な候補を選択することができ、より正確な校正が可能となる。

第１実施形態の校正支援装置の構成の一例を示すブロック図である。第１実施形態の校正支援方法の一例を示すフローチャートである。第１実施形態の校正履歴コーパス生成部の構成の一例を示すブロック図である。第１実施形態のベクトル学習済みモデル生成部の構成の一例を示すブロック図である。第２実施形態の校正支援装置の構成の一例を示すブロック図である。第２実施形態の校正支援方法の一例を示すフローチャートである。

以下、本発明の校正支援装置及び校正支援方法の実施形態について、図面を参照しながら詳細に説明する。なお、本発明の校正支援装置及び校正支援方法は、以下に示す実施形態に限定されるものではない。

１．第１実施形態
≪校正支援装置≫
図１は、本実施形態の校正支援装置の構成の一例を示すブロック図である。図１において、１は文入力部、２は分かち書き文生成部、３は校正対象判定部、４は校正候補予測部、５は適切候補判定部、６は出力部、８は校正履歴コーパス、９は形態素解析用辞書、１０はベクトル学習済みモデルである。

＜文入力部１＞
まず、校正対象文が文入力部１に入力される。入力の方法は特に限定されず、例えば、キーボードによる入力、手書きによる入力等が挙げられる。文入力部１は、校正対象文を分かち書き文生成部２に出力する。

＜分かち書き文生成部２＞
分かち書き文生成部２は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書９を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。固有名詞については、形態素解析用辞書９に含まれていればそれ以上は分割しないことが好ましい。例えば、人物の姓名は、一般的な形態素解析では「姓」と「名」に分割され、「姓／名」という結果が得られる（以下、「／」は処理単位の区切り箇所を示す）。しかし、形態素解析用辞書９に、例えば著名人の姓名が含まれていれば、その姓名を固有名詞と判断し、「姓」と「名」に分割せずに処理単位とする。本実施形態では、処理単位は原則、形態素または固有名詞であるが、連続する形態素を幾つか結合した形態素群（例えば「伸び／る」という前後２つの形態素を結合した「伸びる」）を、処理単位としてもよい。

分かち書き文生成部２は、校正対象文を処理単位に分割し、さらに、文頭に例えば＜ｂｏｓ＞等の文頭記号、文末に例えば＜ｅｏｓ＞等の文末記号を配置して、分かち書き文を生成する。分かち書き文生成部２は、生成した分かち書き文を、校正対象判定部３に出力する。

なお、分かち書き文は形態素解析以外の方法を用いて生成してもよい。例えば、「ＳｅｎｔｅｎｃｅＰｉｅｃｅ」という手法の様に、確率的な観点あるいはその後の処理のし易さの観点から処理単位に分割してもよい。また、例えば、校正対象文がスペースを用いる言語である場合にはスペースで区切って処理単位に分割する、校正対象文がスペースを用いない言語である場合には１文字ごとに処理単位に分割する等、校正対象の言語や校正の目的によって、処理単位を適宜決定してもよい。

＜校正対象判定部３＞
校正対象判定部３は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス８の見出しと対比し、校正履歴コーパス８の見出しと一致する処理単位を、校正対象として判定する。処理単位の対比の順番は特に限定されない。ここで、校正履歴コーパス８は、過去の校正履歴を蓄積したデータベースであり、例えば表１に示すように、校正前の処理単位を見出しとし、校正結果と、校正の属性（挿入、削除、置換）と、校正回数（過去の出現回数）を関連付けたレコードが記録されている。したがって、校正対象判定部３は、分かち書き文を構成する処理単位のうち、過去に校正対象となったことがある処理単位を校正対象として判定することになる。なお、校正履歴コーパス８の詳細については後述する。

校正対象判定部３は、すべての処理単位を校正履歴コーパス８の見出しと対比してもいいし、第２実施形態で示すように、誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス８の見出しと対比してもいい。

校正対象判定部３は、判定した校正対象を校正候補予測部４に出力する。校正対象が複数ある場合、校正対象を一つずつ出力してもよいし、複数の校正対象を一度に出力してもよい。また、複数の校正対象を一度に出力する場合には、校正対象判定部３と校正候補予測部４の間に校正対象記憶部を設け、校正対象判定部３から出力された複数の校正対象を、一旦、校正対象記憶部に保持し、一つずつ校正候補予測部４に出力してもよい。

＜校正候補予測部４＞
校正候補予測部４は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象（ブランク）の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル（分散表現）、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位が有するベクトルは、例えば、あらかじめ生成しておいたベクトル学習済みモデル１０から取得することができる。また、処理単位群が有するベクトルは、ベクトル学習済みモデル１０から取得した処理単位が有するベクトルを用いて計算することができる。ここで、ベクトル学習済みモデル１０は、過去に校正された校正後の文から、単語ベクトル等のベクトル（分散表現）を、それぞれの処理単位で機械学習し、学習済みモデルとして蓄積したものである。なお、ベクトル学習済みモデル１０の詳細については後述する。

予測の方法としては、例えば、以下の方法が挙げられる。なお、類似度の計算においては、例えばコサイン類似度が利用できる。
（１）ベクトル学習済みモデル１０から、ブランク前後の複数の形態素が有するそれぞれの単語ベクトルを取得し、これらの平均ベクトルを算出する。算出した平均ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル１０から取得して、その形態素を校正候補として予測する。
（２）ベクトル学習済みモデル１０から、ブランク前後の形態素群に含まれる形態素が有するそれぞれの単語ベクトルを取得し、例えば「ｃｏｎｔｅｘｔ２ｖｅｃ」等を利用して、ブランク前後の文ベクトルを算出する。算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル１０から取得して、その形態素を校正候補として予測する。

尚、校正対象文の先頭または末尾の処理単位が校正対象である場合は、文頭記号＜ｂｏｓ＞、文末記号＜ｅｏｓ＞が有するベクトルを用いてもよいし、校正対象の後のみまたは前のみの処理単位または処理単位群が有するベクトルを用いてもよい。

また、校正候補予測部４は、校正候補を予測する際に、他の校正対象の少なくとも一つを適切候補の一つに置き換えて校正候補を予測してもよい。特に、最適候補に置き換えた場合には、校正候補の予測の精度が向上するため好ましい。

校正候補予測部４は、予測した校正候補を適切候補判定部５に出力する。校正候補が複数ある場合、校正候補を一つずつ出力してもよいし、複数の校正候補を一度に出力してもよい。また、複数の校正候補を一度に出力する場合には、校正候補予測部４と適切候補判定部５の間に校正候補記憶部を設け、校正候補予測部４から出力された複数の校正候補を、一旦、校正候補記憶部に保持し、一つずつ適切候補判定部５に出力してもよい。また、校正候補予測部４は、校正候補と共に校正候補の類似度を出力してもよい。

＜適切候補判定部５＞
適切候補判定部５は、校正候補のうち、校正履歴コーパス８中の見出し（校正対象と一致する見出し）に対応する校正結果と一致する校正候補を適切候補として判定する。適切候補判定部５は、全ての校正対象について適切候補を判定してもいいし、校正候補に校正対象自身が含まれない校正対象のみについて適切候補を判定してもいい。

また、適切候補判定部５は、適切候補のうちの一つを最適候補として判定してもよい。適切候補が一つの場合には、その適切候補を最適候補として判定すればよい。適切候補が複数ある場合に最適候補を判定する方法は特に限定されないが、例えば、校正候補予測部４から得た校正候補の類似度、校正履歴コーパス８から得た校正候補（校正候補と一致する校正結果）の校正回数、ブランクにした校正対象の品詞等を考慮して、最適候補を決定する方法、第２実施形態で示すように、幅優先探索を用いて最適候補を決定する方法等が挙げられる。

適切候補判定部５は、判定した適切候補を出力部６に出力する。

＜出力部６＞
出力部６は、適切候補を校正対象文と関連付けて出力する。校正対象文と関連付ける方法は特に限定されないが、例えば以下の方法が挙げられる。
（１）校正対象文と、校正対象と、適切候補とを関連付けて出力する。
（２）校正対象文と、校正対象と、適切候補及びその適切度合とを関連付けて出力する。
（３）校正対象文と、校正対象と、最適候補とを関連付けて出力する。
（４）校正対象を最適候補で置き換えた校正済みの文を出力する。この際、最適候補が「＜ｄｅｌ＞・・・＜／ｄｅｌ＞」である場合は、その処理単位の削除となる。例えば、表１の例では、最適候補が「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」である場合は、「まもなく」の削除となる。また、最適候補を構成する形態素の数が、校正対象を構成する形態素の数よりも多い場合には、その処理単位の前または後への挿入となる。例えば、表１の例では、校正対象が「２例」であり、最適候補が「２例目」である場合は、「２例」の後ろへの「目」の挿入となる。

尚、校正対象が無い場合、校正対象はあるが適切候補が無い場合には、校正対象文だけを出力してもよいし、校正対象文と共に校正対象または適切候補が無い旨を出力してもよい。

出力の方法は特に限定されず、例えば、ディスプレイへの表示、プリントアウト等が挙げられる。

≪校正支援方法≫
図２は、本実施形態の校正支援方法の一例を示すフローチャートである。

＜ステップ１（Ｓ１）＞
校正対象文が文入力部１に入力されると、分かち書き文生成部２は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書９を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。さらに、分かち書き文生成部２は、文頭に例えば＜ｂｏｓ＞等の文頭記号、文末に例えば＜ｅｏｓ＞等の文末記号を配置して、分かち書き文を生成する。

＜ステップ２，３（Ｓ２，Ｓ３）＞
校正対象判定部３は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス８の見出しと対比する。校正対象判定部３は、すべての処理単位を校正履歴コーパス８の見出しと対比してもいいし、第２実施形態で示すように、機械学習により誤り箇所を推測する誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス８の見出しと対比してもいい。処理単位の対比の順番は特に限定されない。校正対象判定部３は、処理単位が校正履歴コーパス８の見出しと一致しない場合は、次の処理単位を校正履歴コーパス８の見出しと対比する。一方、処理単位が校正履歴コーパス８の見出しと一致する場合は、その処理単位を校正対象として判定し、ステップ４に進む。

＜ステップ４（Ｓ４）＞
校正候補予測部４は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象（ブランク）の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル（分散表現）、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位または処理単位群が有するベクトルの求め方、これらを用いた予測方法の具体例に関しては、「＜校正候補予測部４＞」の欄で述べた通りである。

＜ステップ５，６（Ｓ５，Ｓ６）＞
適切候補判定部５は、全ての校正候補のそれぞれを、校正履歴コーパス８中の見出し（校正対象と一致する見出し）に対応する校正結果と対比する。適切候補判定部５は、校正候補が校正結果と一致しない場合は、次の校正候補を校正履歴コーパス８の校正結果と対比する。一方、校正候補が校正結果と一致する場合は、その校正候補を適切候補と判定する。そして、全ての校正候補の判定が終わったら、ステップ２に戻る。適切候補判定部５は、適切候補のうちの一つを最適候補として判定してもよく、その場合は、校正対象を最適候補で置き換え、ステップ２に戻ると、ステップ４での校正候補の予測の精度が向上するため好ましい。

適切候補判定部５は、全ての校正対象を校正履歴コーパス８の校正結果と対比してもいいし、校正候補に校正対象自身が含まれない校正対象のみを校正履歴コーパス８の校正結果と対比してもいい。その場合、適切候補判定部５は、まず、校正候補に校正対象自身が含まれないかどうかを判定し、校正対象自身が含まれる場合には、ステップ２に戻る。

＜ステップ７（Ｓ７）＞
ステップ２からステップ６を、すべての処理単位を処理するまで繰り返した後、出力部６は適切候補を校正対象文と関連付けて出力する。

図２に示す方法では、ステップ２で校正対象を判定するたびに、ステップ３〜ステップ６に進み、その校正対象の校正の要否を判断し、ステップ２に戻って、次の処理単位について判定しているが、ステップ４からステップ６を、すべての処理単位を処理するまで繰り返す方法でもよい。また、処理速度を優先させる場合には、ステップ２からステップ６を繰り返すことなく、全ての校正対象の校正の要否を同時に判断してもよい。

≪校正履歴コーパスの生成≫
図３は、本実施形態で用いる校正履歴コーパス８を生成する校正履歴コーパス生成部の構成の一例を示すブロック図である。図３において、１３は校正済みデータベース、１４は文対取得部、１５は文対分かち書き文生成部、１６は校正履歴獲得部である。

＜校正済みデータベース１３＞
校正済みデータベース１３には、過去に校正された校正済みの校正前文章１２と校正後文章１１が蓄積されている。校正済みデータベース１３に蓄積される文章は、校正対象文と同一分野または関連する分野の文章であることが好ましい。例えば、校正対象文が新聞記事である場合には、校正済みデータベース１３に蓄積される文章は新聞記事であることが好ましい。

＜文対取得部１４＞
文対取得部１４は、校正済みデータベース１３から、校正前後の文の対を取得する。具体的には、文対取得部１４は、校正済みデータベース１３に蓄積された校正前文章１２と校正後文章１１のそれぞれを文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。そしてこれらの文を対比して、校正前後の文対を取得する。文対を取得する方法は特に限定されないが、例えば、ベクトル学習済みモデル１０から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、文対を取得する方法が挙げられる。

尚、校正前後の文の対を人力で取得する場合には、文対取得部１４は設けなくてもよい。

＜文対分かち書き文生成部１５＞
校正前後の文対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「＜分かち書き文生成部２＞」で述べた通りである。

＜校正履歴獲得部１６＞
分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する。校正履歴を獲得する方法は特に限定されないが、例えばエディットグラフを用いて校正前後の変更箇所を自動で算出して獲得する方法が挙げられる。

校正履歴は、校正前の処理単位に、校正結果と、校正の属性（挿入、削除、置換）を関連付けたレコードとして獲得される。ここで、校正の属性が置換の場合は、置換した処理単位が校正結果となる。校正の属性が削除の場合は、削除された処理単位を例えば削除記号「＜ｄｅｌ＞」「＜／ｄｅｌ＞」で挟んだものが校正結果となる。校正の属性が挿入の場合は、校正前の処理単位を含むものが校正結果となる。

尚、校正履歴を人力で獲得する場合には、校正履歴獲得部１６は設けなくてもよい。

＜校正履歴コーパス８＞
校正履歴獲得部１６で獲得された校正履歴は、校正履歴コーパス８に保存される。前述の通り、例えば表１に示すように、校正前の処理単位を見出しとし、校正結果と校正の属性（挿入、削除、置換）、さらには校正回数（過去の出現回数）とを関連付けたレコードとして保存される。表１に示した例では、一つの見出しに、一つの校正結果、校正の属性及び校正回数の組み合わせが関連付けられているが、もちろん、一つの見出しに、複数の校正結果、校正の属性及び校正回数の組み合わせが関連付けられている場合もある。なお、校正履歴コーパス８は、校正履歴のデータが新たに得られた場合、逐次更新することが校正の正確性の観点より好ましい。

≪ベクトル学習済みモデル１０の生成≫
図４は、本実施形態で用いるベクトル学習済みモデル１０を生成するベクトル学習済みモデル生成部の構成の一例を示すブロック図である。図４において、１７はベクトル計算部である。

ベクトル計算部１７は、校正済みデータベース１３から、校正後文章１１を取得し、文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。

ベクトル計算部１７は、分割した文を処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「＜分かち書き文生成部２＞」で述べた通りである。ここで、校正対象文の処理単位を削除するという校正を行うためには、例えば、削除された処理単位を削除記号「＜ｄｅｌ＞」「＜／ｄｅｌ＞」で挟んだものも処理単位とする方法が挙げられる。そのためには、ベクトル計算部１７は、校正済みデータベース１３から、校正前後の文の対を取得して校正履歴を獲得し、獲得した校正履歴に基づいて処理単位を決定することが好ましい。校正履歴を獲得する方法は、「≪校正履歴コーパスの生成≫」の欄で述べた通りである。

また、校正対象文の処理単位前後に挿入するという校正、あるいは連続した複数の処理単位を置換または削除するという校正を行うためには、例えば、「ｎ−ｇｒａｍ」（隣接するｎ処理単位を結合したもの）を含めたものも処理単位とする方法が挙げられる。具体的には、校正後文章１１を分割した文が「県警によると、県内では２例目の把握となる。」であった場合、以下に示すような分かち書き文を生成し、形態素ごとの他に、前後の複数の形態素を結合したものも処理単位に含めておく。ただし、「ｎ−ｇｒａｍ」においては、ｎが大きくなるほど、処理単位が増えるため、ｎはコンピューターのリソースによって適切な値を決定することが好ましい。
１−ｇｒａｍ：「＜ｂｏｓ＞／県警／に／よる／と／、／県内／で／は／２例／目／の／把握／と／なる／。／＜ｅｏｓ＞」
２−ｇｒａｍ：「＜ｂｏｓ＞県警／県警に／による／よると／と、／、県内／県内で／では／は２例／２例目／目の／の把握／把握と／となる／なる。／。＜ｅｏｓ＞」
３−ｇｒａｍ：「＜ｂｏｓ＞県警に／県警による／によると／よると、／と、県内／、県内で／県内では／では２例／は２例目／２例目の／目の把握／の把握と／把握となる／となる。／なる。＜ｅｏｓ＞」

ベクトル計算部１７は、生成した分かち書文から、処理単位の出現頻度や、どの処理単位と処理単位が互いに近くに配置されているか、どういった文脈で使われる処理単位か、などを統計的に機械学習し、単語ベクトル等の処理単位が有するベクトル（分散表現）を得る。文頭記号、文末記号、削除記号等の各種記号についても、ベクトルを得ることが好ましい。ベクトルを得るには、例えば「ｗｏｒｄ２ｖｅｃ」、「ＧｌｏＶｅ」などが利用できる。

≪具体例≫
以下、具体的な例を用いて、本実施形態をさらに説明する。

＜具体例１＞
校正対象文の一箇所を置き換える例、具体的には、校正対象文「県警は８日、熊谷署に１００人体制の捜査本部を設置。」の「体制」を「態勢」で置き換える例について説明する。本例で用いた校正履歴コーパス８には、表２に示すレコードが保存されている。

（１）ステップ１
分かち書き文生成部２は、文入力部１から出力された校正対象文について、形態素解析用辞書９を用いて形態素解析を行い、処理単位である形態素に分割する。さらに、文頭に文頭記号＜ｂｏｓ＞、文末に文末記号＜ｅｏｓ＞を配置して、下記分かち書き文を生成する。
「＜ｂｏｓ＞／県警／は／８日／、／熊谷署／に／１００人／体制／の／捜査本部／を／設置／。／＜ｅｏｓ＞」

（２）ステップ２，３
校正対象判定部３は、上記分かち書き文を構成する形態素のそれぞれを文の先頭から順番に校正履歴コーパス８の見出しと対比し、「体制」が校正履歴コーパス８の見出しと一致するので、校正対象として判定し、ステップ４に進む。

（３）ステップ４
校正候補予測部４は、校正対象「体制」がブランクであった場合に、ブランクを埋める形態素を、校正候補として予測する。具体的には、校正対象「体制」前後の形態素群「＜ｂｏｓ＞／県警／は８日／、／熊谷署／に／１００人」「の／捜査本部／を／設置／。／＜ｅｏｓ＞」に含まれる形態素が有するそれぞれの単語ベクトルをベクトル学習済みモデル１０から取得し、「ｃｏｎｔｅｘｔ２ｖｅｃ」を利用して、それぞれの文ベクトルを算出する。そして、算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル１０から取得して、その形態素を校正候補として予測する。その結果を表３に示す。

（４）ステップ５，６
適切候補判定部５は、校正候補のそれぞれを、表２に示す校正結果と対比する。その結果、「態勢」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「体制」を、最適候補「態勢」に置き換え、ステップ２に戻る。

（５）ステップ２
校正対象判定部３は、上記分かち書き文の「体制」が「態勢」に置き換えられた分かち書き文の「態勢」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比する。校正履歴コーパス８の見出しと一致するものはないので、ステップ７に進む。

（６）ステップ７
出力部６は、校正対象「体制」を、最適候補「態勢」に置き換えた校正済み文「県警は８日、熊谷署に１００人態勢の捜査本部を設置。」をディスプレイに表示する。

＜具体例２＞
校正対象文の一箇所を削除する例、具体的には、校正対象文「神通川第二ダムを超えると、まもなく木造の建物が見えてきた。」の「まもなく」を削除する例について説明する。本例で用いた校正履歴コーパス８には、表４に示すレコードが保存されている。

（１）ステップ１
具体例１と同様にして、下記分かち書き文を生成する。
「＜ｂｏｓ＞／神通川第二ダム／を／超える／と／、／まもなく／木造／の／建物／が／見え／て／きた／。／＜ｅｏｓ＞」

（２）ステップ２，３
具体例１と同様にして、「まもなく」を校正対象として判定し、ステップ４に進む。

（３）ステップ４
校正候補予測部４は、具体例１と同様にして、校正対象「まもなく」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表５に示す。

（４）ステップ５，６
適切候補判定部５は、校正候補のそれぞれを、表４に示す校正結果と対比する。その結果、「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「まもなく」を、最適候補「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」に置き換え、ステップ２に戻る。

（５）ステップ２
校正対象判定部３は、上記分かち書き文の「まもなく」が「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」に置き換えられた分かち書き文の「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比する。校正履歴コーパス８の見出しと一致するものはないので、ステップ７に進む。

（６）ステップ７
出力部６は、校正対象「まもなく」を、最適候補「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」に置き換えた、すなわち「まもなく」を削除した校正済み文「神通川第二ダムを超えると、木造の建物が見えてきた。」をディスプレイに表示する。

＜具体例３＞
校正対象文の一箇所に挿入する例、具体的には、校正対象文「県警によると、県内では２例の把握となる。」の「２例」の後に「目」を挿入する例について説明する。本例で用いた校正履歴コーパス８には、表６に示すレコードが保存されている。

（１）ステップ１
具体例１と同様にして、下記分かち書き文を生成する。
「＜ｂｏｓ＞／県警／に／よる／と／、／県内／で／は／２例／の／把握／と／なる／。／＜ｅｏｓ＞」

（２）ステップ２，３
具体例１と同様にして、「２例」を校正対象として判定し、ステップ４に進む。

（３）ステップ４
校正候補予測部４は、具体例１と同様にして、校正対象「２例」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表７に示す。

（４）ステップ５，６
適切候補判定部５は、校正候補のそれぞれを、表６に示す校正結果と対比する。その結果、「２例目」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「２例」を、最適候補「２例目」に置き換え、ステップ２に戻る。

（５）ステップ２
校正対象判定部３は、上記分かち書き文の「２例」が「２例目」に置き換えられた分かち書き文の「２例目」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比する。校正履歴コーパス８の見出しと一致するものはないので、ステップ７に進む。

（６）ステップ７
出力部６は、校正対象「２例」を、最適候補「２例目」に置き換えた、すなわち「２例」の後に「目」を挿入した校正済み文「県警によると、県内では２例目の把握となる。」をディスプレイに表示する。

＜具体例４＞
校正対象文の一箇所を校正対象と判定したが校正しない例、具体的には、校正対象文「県警は８日、熊谷署に１００人態勢の捜査本部を設置。」の「県警」を校正対象と判定したが適切候補を判定せずに校正しない例について説明する。本例で用いた校正履歴コーパス８には、表８に示すレコードが保存されている。

（１）ステップ１
具体例１と同様にして、下記分かち書き文を生成する。
「＜ｂｏｓ＞／県警／は／８日／、／熊谷署／に／１００人／態勢／の／捜査本部／を／設置／。／＜ｅｏｓ＞」

（２）ステップ２，３
具体例１と同様にして、「県警」を校正対象として判定し、ステップ４に進む。

（３）ステップ４
校正候補予測部４は、具体例１と同様にして、校正対象「県警」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表９に示す。

（４）ステップ５
適切候補判定部５は、校正候補に校正対象「県警」が含まれないかどうかを判定する。本例では、表９に示す校正候補に、「県警」が含まれるため、ステップ２に戻る。

（５）ステップ２
校正対象判定部３は、上記分かち書き文の「県警」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比する。校正履歴コーパス８の見出しと一致するものはないので、ステップ９に進む。

（６）ステップ９
出力部６は、校正対象文「県警は８日、熊谷署に１００人態勢の捜査本部を設置。」をディスプレイに表示する。

＜具体例５＞
校正対象文の複数箇所を校正する例、具体的には、校正対象文「東京（品川）と名古屋の間は２０２７年に開業、名古屋から大阪までは４５年にも伸びる予定だ。」を「東京（品川）と名古屋の間は２０２７年に開業し、名古屋から大阪までは４５年に延びる予定だ。」に校正する例について説明する。本例で用いた校正履歴コーパス８には、表１０に示すレコードが保存されている。

（１）ステップ１
具体例１と同様にして、下記分かち書き文を生成する。
「＜ｂｏｓ＞／東京／（／品川／）／と／名古屋／の／間／は／２０２７年／に／開業／、／名古屋／から／大阪／まで／は／４５年／に／も／伸びる／予定／だ／。／＜ｅｏｓ＞」

（２）ステップ２，３
具体例１と同様にして、「、」（読点）を校正対象として判定し、ステップ４に進む。

（３）ステップ４
校正候補予測部４は、具体例１と同様にして、校正対象「、」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表１１に示す。

（４）ステップ５，６
適切候補判定部５は、校正候補のそれぞれを、表１０に示す校正結果と対比する。その結果、「し、」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「、」を、最適候補「し、」に置き換え、ステップ２に戻る。

（５）ステップ２，３
校正対象判定部３は、上記分かち書き文の「、」が「し、」に置き換えられた分かち書き文の「し、」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比し、「も」を校正対象として判定し、ステップ４に進む。

（６）ステップ４
校正候補予測部４は、具体例１と同様にして、校正対象「も」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表１２に示す。

（７）ステップ５，６
適切候補判定部５は、校正候補のそれぞれを、表１０に示す校正結果と対比する。その結果、「＜ｄｅｌ＞も＜／ｄｅｌ＞」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「も」を、最適候補「＜ｄｅｌ＞も＜／ｄｅｌ＞」に置き換え、ステップ２に戻る。

（８）ステップ２，３
校正対象判定部３は、「、」が「し、」に置き換えられた分かち書き文の「も」が「＜ｄｅｌ＞も＜／ｄｅｌ＞」に置き換えられた分かち書き文の「＜ｄｅｌ＞も＜／ｄｅｌ＞」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比し、「伸びる」を校正対象として判定し、ステップ４に進む。

（９）ステップ４
校正候補予測部４は、具体例１と同様にして、校正対象「伸びる」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表１３に示す。

（１０）ステップ５，６
適切候補判定部５は、校正候補のそれぞれを、表１０に示す校正結果と対比する。その結果、「延びる」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「伸びる」を、最適候補「延びる」に置き換え、ステップ２に戻る。

（１１）ステップ２
校正対象判定部３は、「、」が「し、」に、「も」が「＜ｄｅｌ＞も＜／ｄｅｌ＞」に置き換えられた分かち書き文の「伸びる」を「延びる」に置き換えた分かち書き文の「延びる」より後ろの形態素を順番に校正履歴コーパス８の見出しと対比する。校正履歴コーパス８の見出しと一致するものはないので、ステップ７に進む。

（１２）ステップ７
出力部６は、校正済み文「東京（品川）と名古屋の間は２０２７年に開業し、名古屋から大阪までは４５年に延びる予定だ。」をディスプレイに表示する。

＜具体例６＞
具体例１〜３で用いた校正履歴コーパス８を生成する例について説明する。

［具体例６−１（具体例１で用いた校正履歴コーパス８）］
文対取得部１４は、校正済みデータベース１３に蓄積された校正前文章１２と校正後文章１１のそれぞれを句点で区切り、文に分割する。そして、ベクトル学習済みモデル１０から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、下記校正前後の文の対を取得する。
校正前の文：「平日は４０分間隔で１頭１車両体制、土日祝日は３０分間隔で２頭２車両体制。」
校正後の文：「平日は４０分間隔で１頭１車両態勢、土日祝日は３０分間隔で２頭２車両態勢。」

文対分かち書き文生成部１５は、校正前の文と校正後の文それぞれを、形態素解析用辞書９を用いて形態素解析を行い、処理単位である形態素に分割して、文対分かち書き文を生成する。校正履歴獲得部１６は、エディットグラフを用いて、文対分かち書き文の校正前後の文の分かち書き文を比較し、「体制」が「態勢」に１回置換されたという校正履歴を獲得する。そして表２に示すように、校正前の処理単位「体制」を見出しとし、校正結果「態勢」と校正の属性「挿入」と、校正回数とを関連付けたレコードとして、校正履歴コーパス８に保存する。なお、校正回数は、「体制」が「態勢」に１回置換されたという校正履歴を獲得するごとに更新する。

［具体例６−２（具体例２で用いた校正履歴コーパス８）］
具体例６−１と同様にして、下記校正前後の文の対を取得する。
校正前の文：「火は約４時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、まもなく死亡した。」
校正後の文：「火は約４時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、＜ｄｅｌ＞まもなく＜／ｄｅｌ＞死亡した。」

文対分かち書き文生成部１５は、具体例６−１と同様にして、文対分かち書き文を生成する。校正履歴獲得部１６は、具体例６−１と同様にして、「まもなく」が「＜ｄｅｌ＞まもなく＜／ｄｅｌ＞」に１回置き換えられた、すなわち「まもなく」が削除されたという校正履歴を獲得し、表４に示すレコードとして、校正履歴コーパス８に保存する。

［具体例６−３（具体例３で用いた校正履歴コーパス８）］
具体例６−１と同様にして、下記校正前後の文の対を取得する。
校正前の文：「県警によると、県内では２例の把握となる。」
校正後の文：「県警によると、県内では２例目の把握となる。」

文対分かち書き文生成部１５は、具体例６−１と同様にして、文対分かち書き文を生成する。校正履歴獲得部１６は、具体例６−１と同様にして、「２例」が「２例目」に１回置き換えられた、すなわち「２例」の後に「目」が挿入されたという校正履歴を獲得し、表６に示すレコードとして、校正履歴コーパス８に保存する。

２．第２実施形態
≪校正支援装置≫
図５は、本実施形態の校正支援装置の構成の一例を示すブロック図である。尚、図５において、第１実施形態と同様の構成には同一の符号を付しており、特に説明しない限りは第１実施形態と同様である。図５において、７は誤り箇所自動検出部である。

＜誤り箇所自動検出部７＞
誤り箇所自動検出部７は、分かち書き文を構成する処理単位のそれぞれについて、機械学習により誤り箇所（文法的に誤っており、修正すべき箇所）を推測する。

誤り箇所を推測する方法は特に限定されず、例えば、「Ｌｉｕ，Ｚｈｕｏｒａｎ，ａｎｄＹａｎｇＬｉｕ．”ＥｘｐｌｏｉｔｉｎｇＵｎｌａｂｅｌｅｄＤａｔａｆｏｒＮｅｕｒａｌＧｒａｍｍａｔｉｃａｌＥｒｒｏｒＤｅｔｅｃｔｉｏｎ．” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６１１．０８９８７（２０１６）」に記載された方法等、公知の「ｇｒａｍｍａｔｉｃａｌｅｒｒｏｒｄｅｔｅｃｔｉｏｎ」の手法を用いることができる。

具体的には、例えば、下記３層のニューラルネットワークから構成され、文が入力されると、０〜４のラベル（０：変更しない、１：置換、２：削除、３：（その単語の前に）挿入）が振られた入力文長の配列を出力する方法が挙げられる。
入力層：入力文（誤りを含む可能性のある文）のベクトル
中間層：入力文の低次元へ写像したベクトル
出力層：正解文（入力文を人手で校正した文）と入力文の差を以下の例の様に表現したもののベクトル

より具体的には、分かち書き文「＜ｂｏｓ＞／犯人／は／フェンス／を／乗り／越えて／から／侵入／した／と／み／られる／。／＜ｅｏｓ＞」が入力されると、「０，０，０，１，０，１，１，２，３，０，０，１，１，０，０」というベクトルが出力される。この出力は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があることを意味する。

出力層のベクトルからＳｏｆｔｍａｘ関数を基にした損失関数を用いて出力との誤差を計算し、その誤差から誤差逆伝播法によりニューラルネットワークの最適な各パラメータを予測してもよい。また、ラベルの種類は特に限定されず、例えば、０，１（誤り箇所か否かを表す）の２種類のラベルでも良い。

誤り箇所自動検出部７は、誤り箇所と推測した処理単位を、好ましくはラベルと共に校正対象判定部３に出力する。誤り箇所と推測した処理単位が複数ある場合、処理対象を一つずつ出力してもよいし、複数の処理単位を一度に出力してもよい。また、複数の処理単位を一度に出力する場合には、校正対象判定部３との間に処理単位記憶部を設け、誤り箇所自動検出部７から出力された複数の処理単位を、一旦、処理単位記憶部に保持し、一つずつ校正対象判定部３に出力してもよい。

＜校正対象判定部３＞
校正対象判定部３は、誤り箇所自動検出部７が誤り箇所と推測した処理単位のみを校正履歴コーパス８の見出しと対比し、校正対象を判定する。そのため、分かち書き文を構成する処理単位の全てについて校正対象を判定する場合に比べ、処理速度が向上する可能性がある。

また、校正対象判定部３は、誤り箇所自動検出部７が出力したラベルを用いて、連続する処理単位を連結して１つの処理単位（ｎ−ｇｒａｍ）として扱ってもよい。例えば、上述の例では、「乗り」と「越えて」、「み」と「られる」については、誤り箇所自動検出部７の出力したラベル「１」（置換）が連続しているので、それぞれ両者が連結した１語（２−ｇｒａｍ）「乗り越えて」「みられる」を処理単位として扱ってもよい。

＜適切候補判定部５＞
適切候補判定部５は、誤り箇所自動検出部７が出力したラベルを最適候補の判断材料にしてもよい。例えば、上述の例では、「から」の適切候補が複数ある場合に、誤り箇所自動検出部７の出力したラベル「２」（削除）を加味し、「＜ｄｅｌ＞から＜／ｄｅｌ＞」を最適候補として判定してもよい。

≪校正支援方法≫
図６は、本実施形態の校正支援方法の一例を示すフローチャートである。

＜ステップ１１（Ｓ１１）＞
分かち書き文生成部２は、第１実施形態のステップ１と同様にして、分かち書き文を生成する。

＜ステップ１２〜１４（Ｓ１２〜Ｓ１４）＞
誤り箇所自動検出部７が誤り箇所と推測した処理単位のみについて校正対象を判定する点、誤り箇所と推測した処理単位の全てについて校正対象を判定してから次のステップに進む点以外は、第１実施形態のステップ２，３と同様にして、校正対象判定部３は、校正対象を判定する。

＜ステップ１５〜１９（Ｓ１５〜Ｓ１９）＞
本例では、文脈を考慮した確率モデルを組み込むことで、最適候補を判定した。以下、ビームサーチ等の幅優先探索と校正履歴コーパスの組み合わせによる最適候補の判定について説明する。幅優先ビーム探索は知識あり探索に分類され、幅優先探索を行いつつ、評価値が高いノードをビーム幅個保持し、ビーム幅個よりノードの個数が増えたら、評価値が低い枝を切り捨てるアルゴリズムである。

以下、校正対象を文頭側から順に、第１校正対象、第２校正対象・・・第Ｎ校正対象（Ｎは２以上の整数）とする。また、一の校正対象についての適切候補を、第１適切候補、第２適切候補・・・第Ｍ適切候補（Ｍは１以上の整数）とする。

まず、下記手順で、第１校正対象の適切候補を判定する。

［ステップ１５］
校正候補予測部４は、第１実施形態のステップ４と同様にして、所定の探索幅で第１校正対象の校正候補を予測する。その際、例えば、「Ｃｏｎｔｅｘｔ２Ｖｅｃ」で得られた類似度、類似度から得られる対数尤度等をスコアとして求める。

［ステップ１６，１７］
適切候補判定部５は、第１実施形態のステップ５，６と同様にして、第１校正対象の適切候補を判定する。

次に、下記手順で、第１校正対象が第１適切候補に置き換えられた分かち書き文について、第２校正対象の適切候補を判定する。

［ステップ１８］
適切候補判定部５は、第１校正対象を第１適切候補に置き換え、ステップ１５に戻る。

［ステップ１５］
校正候補予測部４は、第１実施形態のステップ４と同様にして、所定の探索幅で第２校正対象の校正候補を予測すると共にスコアを求める。

［ステップ１６，１７］
適切候補判定部５は、第１実施形態のステップ５，６と同様にして、第２校正対象の適切候補を判定する。

次に、下記手順で、第１校正対象が第１適切候補に置き換えられ、第２校正対象が第１適切候補に置き換えられた分かち書き文について、第３校正対象の適切候補を判定する。

［ステップ１８］
適切候補判定部５は、第１校正対象を第１適切候補に置き換え、第２校正対象を第１適切候補に置き換え、ステップ１５に戻る。

［ステップ１５］
校正候補予測部４は、第１実施形態のステップ４と同様にして、所定の探索幅で第３校正対象の校正候補を予測すると共にスコアを求める。

［ステップ１６，１７］
適切候補判定部５は、第１実施形態のステップ５，６と同様にして、第３校正対象の適切候補を判定する。

以降、同様にしてステップ１５〜１８を繰り返し、第ｎ校正対象（ｎは２〜Ｎの整数）について、第１校正対象〜第ｎ−１校正対象をそれぞれの適切候補（第１適切候補〜第Ｍ適切候補）の一つで置き換えて適切候補を判定し、第１校正対象〜第Ｎ校正対象それぞれの適切候補の組み合わせを全て求める。

［ステップ１９］
適切候補判定部５は、第１校正対象〜第Ｎ校正対象それぞれの適切候補の組み合わせを構成する適切候補のスコアを合計し、組み合わせそれぞれについて、スコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。

＜ステップ２０（Ｓ２０）＞
出力部６は、例えば、校正対象を最適候補で置き換えた校正済みの文を出力する等、最適候補を校正対象文と関連付けて出力する。さらに、出力部６は、第１校正対象〜第Ｎ校正対象それぞれの適切候補の組み合わせを、スコア合計順に出力してもよい。

＜具体例７＞
校正対象文の複数箇所を校正する例、具体的には、校正対象文「犯人はフェンスを乗り越えてから侵入したとみられる。」を「犯人は柵を乗り越え、侵入したとみられる。」に校正する例について説明する。本例で用いた校正履歴コーパス８には、表１４に示すレコードが保存されている。

（１）ステップ１１
具体例１のステップ１と同様にして、下記分かち書き文を生成する。
「＜ｂｏｓ＞／犯人／は／フェンス／を／乗り／越えて／から／侵入／した／と／み／られる／。／＜ｅｏｓ＞」

（２）ステップ１２
誤り箇所自動検出部７は、機械学習により分かち書き文の誤り箇所を推測し、推測結果「０，０，０，１，０，１，１，２，３，０，０，１，１，０，０」というベクトルを出力する。すなわち、誤り箇所自動検出部７は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があると推測する。

（３）ステップ１３，１４
校正対象判定部３は、上記分かち書き文を構成する形態素のうち、誤り箇所自動検出部７により誤り箇所と推測された形態素、すなわち「フェンス」「乗り」「越えて」「から」「侵入」「み」「られる」のそれぞれを文の先頭から順番に校正履歴コーパス８の見出しと対比する。この際、「乗り」と「越えて」については、誤り箇所自動検出部７の出力したラベル「１」（置換）が連続しているので、両者が連結した１語（２−ｇｒａｍ）「乗り越えて」として処理する。「み」と「られる」についても、同様に「みられる」として処理する。その結果、「フェンス」「乗り越えて」「から」「侵入」が校正履歴コーパス８の見出しと一致するので、これらを、それぞれ第１校正対象、第２校正対象、第３校正対象、第４校正対象として判定し、ステップ１５に進む。

（４）ステップ１５
校正候補予測部４は、具体例１のステップ４と同様にして、第１校正対象「フェンス」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。ただし、探索幅は５とし、「Ｃｏｎｔｅｘｔ２Ｖｅｃ」で得られた類似度から得られる対数尤度をスコアとして求めた。その結果を表１５に示す。

（５）ステップ１６，１７
適切候補判定部５は、校正候補のそれぞれを、表１４に示す校正結果と対比する。その結果、「柵」「堀」および校正対象自身である「フェンス」が校正結果と一致するため、これらを、それぞれ第１適切候補、第２適切候補、第３適切候補として判定する。

（６）ステップ１８
適切候補判定部５は、第１校正対象「フェンス」を第１適切候補「柵」に置き換え、ステップ１５に戻る。

（７）ステップ１５
校正候補予測部４は、「（４）ステップ１５」と同様にして、第２校正対象「乗り越えて」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表１６に示す。

（８）ステップ１６，１７
適切候補判定部５は、校正候補のそれぞれを、表１４に示す校正結果と対比する。その結果、「乗り越え」「越え」「飛び越え」が校正結果と一致するため、これらを、それぞれ第１適切候補、第２適切候補、第３適切候補として判定する。

（９）ステップ１８
適切候補判定部５は、第１校正対象「フェンス」を第１適切候補「柵」に置き換え、第２校正対象「乗り越えて」を第１適切候補「乗り越え」に置き換え、ステップ１５に戻る。

（１０）ステップ１５
校正候補予測部４は、「（４）ステップ１５」と同様にして、第３校正対象「から」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表１７に示す。

（１１）ステップ１６，１７
適切候補判定部５は、校正候補のそれぞれを、表１４に示す校正結果と対比する。その結果、「へ」「＜ｄｅｌ＞から＜／ｄｅｌ＞」が校正結果と一致するため、これらをそれぞれ第１適切候補、第２適切候補として判定する。さらに、適切候補判定部５は、誤り箇所自動検出部７の出力したラベル「２」（削除）を加味し、第２適切候補「＜ｄｅｌ＞から＜／ｄｅｌ＞」を最適候補として判定する。

（１２）ステップ１８
適切候補判定部５は、第１校正対象「フェンス」を第１適切候補「柵」に置き換え、第２校正対象「乗り越えて」を第１適切候補「乗り越え」に置き換え、第３校正対象「から」を最適候補「＜ｄｅｌ＞から＜／ｄｅｌ＞」に置き換え、ステップ１５に戻る。

（１３）ステップ１５
校正候補予測部４は、「（４）ステップ１５」と同様にして、第４校正対象「侵入」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表１８に示す。

（１４）ステップ１６，１７
適切候補判定部５は、校正候補のそれぞれを、表１４に示す校正結果と対比する。その結果、「、侵入」「不法侵入」が校正結果と一致するため、これらを、それぞれ第１適切候補、第２適切候補として判定する。

（１５）ステップ１８
適切候補判定部５は、第１校正対象「フェンス」を第１適切候補「柵」に置き換え、第２校正対象「乗り越えて」を第２適切候補「越え」に置き換え、ステップ１５に戻る。

（１６）ステップ１５〜１８
以降、同様にして、適切候補のすべての組み合わせを求める。その結果を表１９に示す。

（１７）ステップ１９
適切候補判定部５は、適切候補の組み合わせのそれぞれについてスコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。本例では、表１９に示すように、第１校正対象「フェンス」を第１適切候補「柵」に置き換え、第２校正対象「乗り越えて」を第１適切候補「乗り越え」に置き換え、第３校正対象「から」を最適候補「＜ｄｅｌ＞から＜／ｄｅｌ＞」に置き換え、第４校正対象「から」を第１適切候補「、侵入」に置き換える組み合わせのスコア合計は１．２１＋１．５９＋１．６２＋１．５８＝６．００であり最小である。そのため、第１校正対象「フェンス」については第１適切候補「柵」を、第２校正対象「乗り越えて」については第１適切候補「乗り越え」を、第３校正対象「から」については最適候補「＜ｄｅｌ＞から＜／ｄｅｌ＞」を、第４校正対象「から」については第１適切候補「、侵入」を、最適候補と判定する。

（１８）ステップ２０
出力部６は、各校正対象を最適候補で置き換えた校正済み文「犯人は柵を乗り越え、侵入したとみられる。」をディスプレイに表示する。さらに、出力部６は、他の適切候補の組み合わせを、スコア合計の小さい順にディスプレイに表示する。

１：文入力部、２：分かち書き文生成部、３：校正対象判定部、４：校正候補予測部、５：適切候補判定部、６：出力部、７：誤り箇所自動検出部、８：校正履歴コーパス、９：形態素解析用辞書、１０：ベクトル学習済みモデル、１１：校正後文章、１２：校正前文章、１３：校正済みデータベース、１４：文対取得部、１５：文対分かち書き文生成部、１６：校正履歴獲得部、１７：ベクトル計算部

Claims

校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする校正支援装置。
さらに、ベクトル学習済みモデルを有し、前記校正候補予測部は、前記ベクトル学習済みモデルから取得した処理単位が有するベクトルまたは前記処理単位が有するベクトルを用いて計算した処理単位群が有するベクトルを用いて校正候補を予測することを特徴とする請求項１に記載の校正支援装置。
さらに、機械学習により誤り箇所を推測する誤り箇所自動検出部を有し、前記校正対象判定部は、前記処理単位のうち、前記誤り箇所自動検出部により誤り箇所と推測された処理単位のみについて、校正対象を判定することを特徴とする請求項１または２に記載の校正支援装置。
前記適切候補判定部は、前記適切候補のうちの一つを最適候補として判定することを特徴とする請求項１乃至３のいずれか一項に記載の校正支援装置。
前記適切候補判定部は、幅優先探索を用いて最適候補を判定することを特徴とする請求項４に記載の校正支援装置。
前記校正候補予測部は、一の校正対象の校正候補を予測する際に、少なくとも他の一の校正対象を、前記他の一の校正対象の適切候補の一つに置き換えて校正候補を予測することを特徴とする請求項１乃至５のいずれか一項に記載の校正支援装置。
前記適切候補判定部は、前記校正候補に前記校正対象が含まれない場合に、適切候補を判定することを特徴とする請求項１乃至６のいずれか一項に記載の校正支援装置。
さらに、前記校正履歴コーパスを生成する校正履歴コーパス生成部を有し、
前記校正履歴コーパス生成部は、
校正済みの校正前後の文が蓄積された校正済みデータベースから、校正前後の文の対を取得する文対取得部と、
前記校正前後の文の対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する文対分かち書き文生成部と、
前記分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する校正履歴獲得部と、
を有することを特徴とする請求項１乃至７のいずれか一項に記載の校正支援装置。
コンピューターが実行する校正支援方法であって、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする校正支援方法。
コンピューターに、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする校正支援プログラム。