JP2017091463A

JP2017091463A - 校正装置、方法およびプログラム

Info

Publication number: JP2017091463A
Application number: JP2015225024A
Authority: JP
Inventors: 祐一宮村; Yuichi Miyamura; 昌之岡本; Masayuki Okamoto
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2017-05-25
Also published as: US20170139774A1

Abstract

【課題】校正の汎用性を高めることができる。
【解決手段】本実施形態に係る校正装置は、取得部と検出部とを含む。取得部は、複数の要素がそれぞれ対応付けられた複数のエントリを取得する。検出部は、前記複数のエントリから、第１エントリに含まれる第１要素以外の第２要素と共通する第２要素を有する複数の第２エントリを抽出し、該複数の第２エントリに含まれる第１要素に基づいて、該第１エントリに含まれる第１要素が修正対象であるかどうかを検出する。
【選択図】図１

Description

本発明の実施形態は、校正装置、方法およびプログラムに関する。

ビッグデータ活用の機運の高まりに伴い、データ中からユーザが望む情報を抽出するニーズが増加している。ビッグデータのように大量のデータの中から情報を抽出する場合、人手で１つ１つ抽出するにはコストが大きすぎるため、機械学習手法などを用いて情報の自動抽出を行うことが一般的である。しかしながら、情報の自動抽出を行う際に、元となるデータに誤りが含まれている場合、その誤りに気づかずに、抽出された情報も誤ったままとなることがある。

上述のような誤りを修正するため、文書から情報を抽出し、抽出した情報と予め用意したデータベース情報との間の不整合を検出することで、誤りを検出し修正する手法がある。

特開平１１−１６７５７６号公報

しかし、上述の手法では、予め用意したデータベースを用いてデータの不整合を検出しているため、データベース内に存在しない情報については、誤りかどうかを判定することはできない。

本開示は、上述の課題を解決するためになされたものであり、校正の汎用性を高めることができる校正装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る校正装置は、取得部と検出部とを含む。取得部は、複数の要素がそれぞれ対応付けられた複数のエントリを取得する。検出部は、前記複数のエントリから、第１エントリに含まれる第１要素以外の第２要素と共通する第２要素を有する複数の第２エントリを抽出し、該複数の第２エントリに含まれる第１要素に基づいて、該第１エントリに含まれる第１要素が修正対象であるかどうかを検出する。

第１の実施形態に係る校正装置を示すブロック図。抽出元となる文書の一例を示す図。対応情報のテーブルの一例を示す図。第１の実施形態に係る検出部の修正対象検出処理を示すフローチャート。第１の実施形態の変形例に係る校正装置を示すブロック図。修正候補の一例を示す図。第１の実施形態の変形例に係る検出部の修正対象検出処理を示すフローチャート。第２の実施形態に係る校正装置を示すブロック図。文書における位置情報を含む対応情報の一例を示す図。第３の実施形態に係る校正装置を示すブロック図。第３の実施形態に係る警告出力部の警告処理を示すフローチャート。第３の実施形態に係る警告出力部の警告の出力例を示す図。第４の実施形態に係る校正装置を示すブロック図。第４の実施形態に係る警告出力部の警告処理を示すフローチャート。第４の実施形態に係る警告出力部の警告の出力例を示す図。第５の実施形態に係る校正装置の動作を示すフローチャート。第５の実施形態に係る警告出力部の警告の出力例を示す図。

以下、図面を参照しながら本実施形態に係る校正装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

（第１の実施形態）
第１の実施形態に係る校正装置について図１のブロック図を参照して説明する。

第１の実施形態に係る校正装置１００は、取得部１０１および検出部１０２を含む。
取得部１０１は、外部から対応情報を取得する。対応情報は、文書（テキストデータ）から抽出される複数の単語（項目ともいう）と、項目に対応する文字列または項目に対応する数値（要素ともいう）とに関する情報であり、項目間の関係に従って複数の要素がそれぞれ対応付けられたエントリも含む。本実施形態では、取得部１０１がテーブル形式の対応情報を取得することを想定する。対応情報の詳細については、図２を参照して後述する。

検出部１０２は、取得部１０１から対応情報を受け取る。検出部１０２は、対応情報に含まれる複数のエントリから、第１エントリに含まれる処理対象となる要素（第１要素ともいう）以外の少なくとも１つの要素（第２要素ともいう）と一致する第２要素を有する複数のエントリ（第２エントリという）を抽出する。検出部１０２は、複数の第２エントリに含まれる第１要素に基づいて、第１エントリに含まれる第１要素が、修正が必要となる修正対象であるかどうかを検出する。

修正対象であるかどうかは、本実施形態では、第１エントリの第１要素と複数の第２エントリの第１要素との間のばらつきを計算し、ばらつきが閾値以上である場合に第１エントリに含まれる第１要素は修正対象であると判定する場合を想定する。なお、これに限らず、第１エントリの第１要素の値（ここでは、数値のオーダーなど）と複数の第２エントリの第１要素の値とが一致しているかどうかを単純に比較し、値が一致していなければ、第１エントリに含まれる第１要素は、修正対象であると判定してもよい。

次に、取得部１０１で取得される対応情報の抽出元となる文書（テキストデータ）の一例について図２を参照して説明する。
本実施形態では、文書２００が商品カタログまたは仕様書である場合を想定し、文書２００に出現する単語が項目として抽出され、その項目に対応する値が要素として抽出される。

項目および要素の抽出は、例えばＯＣＲ（optical character reader）処理、固有表現抽出処理といった一般的な手法が用いられればよい。
具体的に、図２の例では、文書２００の「厚さ３×１０^−５ｃｍの部品Ａ」という文から「厚み」が項目として抽出され、項目「厚み」に対応する数値「３×１０^−５」が要素として抽出される。同様に、「部品」が項目として抽出され、要素「部品」に対応する文字列「Ａ」が要素として抽出される。なお、「厚み」、「厚さ」という表記揺れがある場合でも、サポートベクターマシンなどのような機械学習手法を用いて、２つの単語が同一か否かを判定することで、表記揺れがある複数の単語を１つの単語として認識処理することが可能である。

さらに、項目間の関係が、例えば、形態素解析および係り受け解析といった一般的な手法を用いて得られる。図２の例では、「商品Ｘは厚さ３×１０^−５ｃｍの部品Ａで覆われ」の文に対して形態素解析および係り受け解析を行うことにより、「部品Ａ」と「厚さ３×１０^−５ｃｍ」とが対応することがわかる。このような項目間の関係に従って、要素「３×１０^−５」と「Ａ」とが対応付けられたものが「エントリ」となる。

次に、図２の文書２００から抽出された対応情報のテーブルの一例について図３を参照して説明する。
図３に示す対応情報のテーブル３００には、異なる項目である部品３０１と厚み３０２とがあり、それぞれ項目が列（カラム）の先頭に格納される。また、それぞれの項目に対応する要素の行がエントリ３０５として格納される。具体的には、部品３０１に対応する要素３０３「Ａ」と厚み３０２に対応する要素３０４「３×１０^−５」とがエントリ３０５として対応付けて格納される。

ここで、図２の文書２００と比較すると、文書２００では「２×１０^−５」の数値が、エントリ３０６では「２×１０^５」となっている。このような現象は、抽出処理の過程にＯＣＲ処理が含まれる場合などで生じうる。ＯＣＲ処理では、上付き文字または下付き文字などのように通常の文字サイズよりも小さい文字が欠落しやすいからである。また、ＯＣＲ処理以外にも、元の文書自体に誤植がある場合も考えられる。

次に、検出部１０２の修正対象検出処理について、図４のフローチャートを参照して説明する。
ステップＳ４０１では、検出部１０２が、複数のエントリから、処理対象となる第１エントリの第１要素以外の少なくとも１つの第２要素と一致する第２要素を有する第２エントリの第１要素の集合Ａ＝（ａ_１，...，ａ_ｎ）を抽出する。なお、本実施形態では「一致」を例にして説明しているが、これに限定されず、「類似」を含んでもよい。すなわち、「一致」及び「類似」を含む「共通」であってもよい。

ステップＳ４０２では、検出部１０２が、第１エントリから第１要素ｂを抽出する。
ステップＳ４０３では、検出部１０２が、集合Ｃ＝Ａ∪ｂを設定し、集合ＣのばらつきＶを計算する。
ステップＳ４０４では、検出部１０２が、ばらつきＶが閾値以下であるかどうかを判定する。ばらつきＶが閾値以下である場合はステップＳ４０５に進み、ばらつきＶが閾値よりも大きい場合はステップＳ４０６に進む。閾値は、予め定められた値でもよいし、集合Ａの平均値に一定の係数をかけた値でもよい。

ステップＳ４０５では、検出部１０２が、修正対象なしと決定する。
ステップＳ４０６では、ばらつきＶが閾値以上であるということは、他のエントリにおける対応関係とは異なる値が対応付けられている可能性があることを示すため、検出部１０２が、第１要素が修正対象であると検出する。以上で検出部１０２の動作を終了する。

なお、第１要素の選択方法としては、例えば、予め修正処理の対象とする項目（テーブルのカラム）を決定しておき、項目に対応する要素を順に第１要素としてもよい。また、対応情報に含まれる各要素を順に第１要素として決定してもよい。また、対応情報に含まれる要素のうち、値が数値である要素を順に第１要素として決定してもよい。

また、ステップＳ４０１における第２エントリの第１要素の集合Ａを抽出する際に参照するべき項目の要素（第２要素とすべき要素）の選択には、様々な方法が考えられる。例えば、テーブル形式であれば予め参照する項目のカラムを定めておけばよい。第１の実施形態では、参照するべきカラムが「部品」であると予め決定しておくことで、項目「部品」の要素（第２要素）が第１エントリの第２要素と一致する第２エントリの第１要素を集合Ａとして取得できる。

さらに、第１要素に対応する項目以外のカラムを順次選択してもよいし、同時に複数選択してもよい。
例えば、対応情報に含まれる項目が「部品」「厚み」「原材料」という３カラム構成であり、第１要素に対応する項目が「厚み」である場合を想定する。この場合、項目が「部品」である要素を第２要素として第２要素が同じであるエントリの第１要素の集合と、項目が「原材料」である要素を第２要素として第２要素が同じであるエントリの第１要素の集合とを取得し、それらの和集合を集合Ａとすればよい。また、この例で同時に複数選択する場合は、「部品」と「原材料」とのそれぞれの第２要素が共に同じであるエントリの第１要素の集合を集合Ａとして取得すればよい。

また、上述のばらつきの計算方法としては、要素が数値であるため、数学的な意味の分散を計算すればよい。一方で、要素が数値ではなく文字列などの場合は、ばらつきの定義として集合内の要素の異なり数とする方法を用いればよい。例えば、集合の要素が、「ＡＢ、ＡＣ、ＡＢ、ＡＤ」の４つである場合、異なりの種類としては「ＡＢ、ＡＣ、ＡＤ」の３種類であるため、ばらつき＝異なり数＝３となる。よって、検出部１０２は、異なり数が少ないほどばらつきが小さいと決定すればよい。

（第１の実施形態の変形例）
変形例として、第１要素に対して修正候補を生成し、修正候補を用いて修正対象検出処理を行ってもよい。

第１の実施形態の変形例に係る校正装置について図５のブロック図を参照して説明する。
第１の実施形態の変形例に係る校正装置５００は、取得部１０１、生成部５０１および検出部５０２を含む。
取得部１０１は、第１の実施形態と同様の処理であるので説明を省略する。
生成部５０１は、取得部１０１から対応情報を取得し、対応情報から第１エントリに含まれる第１要素を抽出する。生成部５０１は、生成ルールに基づいて、第１エントリに含まれる第１要素から複数の修正候補を生成する。

検出部５０２は、生成部５０１から対応情報、第１要素および複数の修正候補を取得する。検出部５０２は、対応情報に含まれる複数のエントリから、第１エントリに含まれる少なくとも１つの第２要素と一致する第２要素を有する複数の第２エントリを抽出する。検出部５０２は、複数の修正候補のそれぞれと複数の第２エントリに含まれる第１要素とのばらつきを計算する。検出部５０２は、ばらつきが最小となる修正候補（第１修正候補）と第１エントリに含まれる第１要素とが異なる場合、第１エントリに含まれる第１要素を修正対象として検出する。

次に、生成部５０１が生成する修正候補の一例について図６を参照して説明する。
図６に示すテーブル６００は、第１要素から、予め用意された生成ルールに基づいて生成される修正候補を示す。ここでは、図３における厚み３０２の項目におけるエントリ３０６の要素「２×１０^５」を第１要素として処理が行われる例を示す。

複数の修正候補を作成するための生成ルールとしては、例えば、
生成ルール１「要素をそのまま修正候補とする」
生成ルール２「要素の上付き文字に“−”を追加する」
生成ルール３「要素の上付き文字を通常文字にする」
が挙げられる。生成部５０１は、これらの生成ルールに基づいて修正候補を生成する。

具体的には、生成ルール１に基づいて修正候補６０１「２×１０^５」が生成され、生成ルール２に基づいて修正候補６０２「２×１０^−５」が生成され、生成ルール３に基づいて修正候補６０３「２×１０５」が生成される。

次に、検出部１０２の修正対象検出処理について図７のフローチャートを参照して説明する。
ステップＳ７０１では、検出部１０２が、複数のエントリから、処理対象となる第１エントリの第１要素以外の少なくとも１つの第２要素と一致する第２要素を有する第２エントリの第１要素の集合Ａ＝（ａ_１，...，ａ_ｎ）を抽出する。
ステップＳ７０２では、検出部１０２が、修正候補の集合Ｂ＝（ｂ_１，...，ｂ_ｍ）を抽出する。ここで、ｍは２以上の整数である。
ステップＳ７０３では、検出部１０２が、ｉを１に設定する。

ステップＳ７０４では、検出部１０２が、集合Ｃ_ｉ＝Ａ∪（ｂ_ｉ）を設定し、Ｃ_ｉにおける修正候補のばらつきＶ_ｉを計算する。
ステップＳ７０５では、検出部１０２が、ｉを１つインクリメントする。
ステップＳ７０６では、検出部１０２が、ｉがｍ以下であるかどうかを判定する。ｉがｍ以下である場合ステップＳ７０３に戻り、同様の処理を繰り返す。ｉがｍよりも大きい場合、ステップＳ７０７に進む。

ステップＳ７０７では、検出部１０２が、Ｖ_１からＶ_ｍの中で、最小のばらつきＶ_ｊが得られる修正候補ｂ_ｊを決定する。ここで、ｊは、１≦ｊ≦ｍである。
ステップＳ７０８では、検出部１０２が、修正候補ｂ_ｊが元の抽出結果、すなわち元の第１エントリの第１要素と一致するかどうかを判定する。修正候補ｂ_ｊが元の第１エントリの第１要素と一致する場合、ステップＳ７０９に進む。修正候補ｂ_ｊが元の第１エントリの第１要素と一致しない場合、ステップＳ７１０に進む。

ステップＳ７０９では、検出部１０２が、修正候補ｂ_ｊが元の第１要素と一致するということは修正が必要ないことを示すので、修正対象なしと決定する。
ステップＳ７１０では、検出部１０２が、修正候補ｂ_ｊを修正対象として検出する。以上で検出部１０２の動作を終了する。

ここで、具体的に、図３および図６を参照して、図３のエントリ３０６を第１エントリとした場合の、第１エントリの第１要素「２×１０^５」が修正対象であるかどうかを検出する検出処理について説明する。

検出部５０２は、図３に示すテーブルのエントリから、エントリ３０６の第１要素の項目である「厚み３０２」以外の要素、つまり項目「部品３０１」の要素（第２要素）と一致する第２要素を有する第２エントリの第１要素の集合Ａを抽出する。ここでは、エントリ３０６以外で第２要素が「Ａ」となる３つのエントリの第１要素「３×１０^−５」「２．６×１０^−５」「３．２×１０^−５」が、第２エントリの第１要素の集合Ａとして抽出される。

次に、検出部５０２は、修正候補として図６に示す３つの修正候補、つまり、生成ルール１に基づく修正候補６０１であるｂ_１「２×１０^５」、生成ルール２に基づく修正候補６０２であるｂ_２「２×１０^−５」、生成ルール３に基づく修正候補６０３であるｂ_３「２×１０５」を生成する。

続いて、検出部５０２は、集合Ｃ_１（３×１０^−５、２×１０^５、２．６×１０^−５、３．２×１０^−５）のばらつきＶ_１（ここでは、数学的な分散）を計算する。同様に、検出部５０２は、集合Ｃ_２（３×１０^−５、２×１０^−５、２．６×１０^−５、３．２×１０^−５）のばらつきＶ_２を計算し、集合Ｃ_３（３×１０^−５、２×１０５、２．６×１０^−５、３．２×１０^−５）のばらつきＶ_３を計算する。

ばらつきが最小となるのは、次数が揃っている修正候補６０２のばらつきＶ_２である。よって、検出部５０２は、修正候補６０２「２×１０^−５」と修正候補６０３「２×１０^５」とが異なるので、第１要素「２×１０^５」を修正対象として検出する。

以上に示した第１の実施形態によれば、抽出した要素内でのばらつきを考慮することで、予めデータベースを用意する必要なく、情報抽出の元となる文書または情報抽出元から抽出した情報に含まれる修正が必要な箇所を検出することができる。よって、校正の汎用性を高めることができる。

（第２の実施形態）
第２の実施形態では、修正候補を用いて修正対象を修正する点が上述の実施形態と異なる。

第２の実施形態に係る校正装置の図８のブロック図を参照して説明する。
図８に示す校正装置８００は、取得部１０１、生成部５０１、検出部５０２および修正部８０１を含む。
取得部１０１、生成部５０１および検出部５０２は、第１の実施形態と同様の操作を行うので、ここでの説明は省略する。

修正部８０１は、検出部５０２からばらつきが最小となる修正候補を受け取り、第１エントリに含まれる第１要素をばらつきが最小となる修正候補に修正する。
なお、取得部１０１が元の文書も取得できる場合は、対応情報の修正対象と元の文書における修正対象の該当箇所との両方を修正してもよい。

元の文書を修正するためには、元の文書のどの位置から修正対象となる単語を抽出したかを示す位置情報が必要となる。元の文書の位置情報を含む対応情報の一例について図９を参照して説明する。
図９に示す対応情報のテーブル９００は、部品３０１、厚み３０２、文番号９０１、開始位置９０２および終了位置９０３をそれぞれ対応付けて格納する。

文番号９０１は、元の文書における文を識別する識別番号である。開始位置９０２は、第１要素の文中での先頭の文字位置である。終了位置９０３は、第１要素の文中での末尾の文字位置である。開始位置９０２および終了位置９０３の値は、ここでは、文番号９０１が示す文の先頭からの文字数を用いるが、これに限らず、第１要素の位置を特定できる情報であればよい。

なお、図９では、項目「厚み３０２」に対応する要素の文番号９０１、開始位置９０２および終了位置９０３を格納する例を示すが、他の項目についても同様に文番号９０１、開始位置９０２および終了位置９０３を格納してもよい。

以上に示した第２の実施形態によれば、修正候補を用いて修正対象を修正することで、校正の汎用性を高めることができる。

（第３の実施形態）
第３の実施形態では、誤りを検出した場合にユーザに警告を出力する点が上述の実施形態と異なる。

第３の実施形態に係る校正装置の図１０のブロック図を参照して説明する。
図９に示す校正装置１０００は、取得部１０１、生成部５０１、検出部５０２および警告出力部１００１を含む。なお、第１の実施形態の変形例に係る校正装置５００に警告出力部１００１が追加されているが、第１の実施形態に係る校正装置１００に警告出力部１００１が追加された構成でもよい。

取得部１０１、生成部５０１および検出部５０２は、第１の実施形態と同様の動作を行うので、ここでの説明は省略する。
警告出力部１００１は、検出部５０２から修正対象を受け取ったときに、外部に警告を出力する。

第３の実施形態に係る警告出力部１００１の警告処理について図１１のフローチャートを参照して説明する。
ステップＳ１１０１では、警告出力部１００１が、検出部５０２が修正対象を検出したかどうかを判定する。警告出力部１００１は、検出部５０２から修正対象を受け取ったときには修正対象を検出されたと判定できるので、ステップＳ１１０２に進み、検出部５０２が修正対象を検出していない場合は、処理を終了する。
ステップＳ１１０２では、警告出力部１００１が、警告を出力する。警告は、例えば、ディスプレイへの画像の表示、スピーカーを介した音による通知など一般的な通知方法を用いればよい。

次に、第３の実施形態に係る警告出力部１００１の警告の出力例について図１２を参照して説明する。
図１２に示す警告の出力例では、「誤りを検出しました。」というメッセージと共に、原文（元の文書）と元の文書から抽出された情報（対応情報）とが表示される。ユーザは、図１２に示す警告を見ることで、元の文書の「厚みが２×１０^−５ｃｍ」と対応情報の「２×１０^５」とが異なることを一見して把握できる。

以上に示した第３の実施形態によれば、警告が出力されることによって、修正対象として検出された結果が正しいかどうかを容易にユーザに判断させることができ、校正の汎用性を高めることができる。

（第４の実施形態）
第４の実施形態は、第２の実施形態に係る校正装置８００に加え、警告出力部を備えることにより、修正対象を修正した場合に警告を出力する点が上述の実施形態と異なる。

第４の実施形態に係る校正装置について図１３のブロック図を参照して説明する。
図１３に示す校正装置１３００は、取得部１０１、生成部５０１、検出部５０２、修正部８０１および警告出力部１３０１を含む。

取得部１０１、生成部５０１、検出部５０２および修正部８０１は、上述の実施形態と同様の操作を行うので、ここでの説明は省略する。
警告出力部１３０１は、修正部８０１から修正を完了した通知を受ける場合に、外部に警告を出力する。

第４の実施形態に係る警告出力部１３０１の警告処理について図１４のフローチャートを参照して説明する。
ステップＳ１４０１では、警告出力部１３０１が、修正部８０１が修正対象を修正したかどうかを判定する。修正したかどうかは、警告出力部１３０１が、修正部８０１から修正完了に関する通知を受け取るなどすればよい。修正部８０１が修正した場合は、ステップＳ１４０２に進み、修正がされなかった場合は、処理を終了する。
ステップＳ１４０２では、警告出力部１３０１が、修正が完了した旨の警告を出力する。

次に、第４の実施形態に係る警告出力部１３０１の警告の出力例について図１５を参照して説明する。
図１５に示す警告の出力例では、「誤りを修正しました。」というメッセージと共に、原文、抽出された情報および修正後の情報が提示される。ユーザは、図１５に示す警告を見ることで、どのような修正が行われたかを一見して理解することができる。

以上に示した第４の実施形態によれば、修正前後の情報に関する警告が出力されることによって、修正された結果が適切かどうかをユーザが容易に判断することができ、校正の汎用性を高めることができる。

（第５の実施形態）
第５の実施形態では、検出部が修正対象を検出したものの、修正対象を修正しない場合に警告する点が上述の実施形態と異なる。
第５の実施形態に係る校正装置は、図１３と同様であるが、修正部８０１および警告出力部１３０１の動作が異なる。

第５の実施形態に係る校正装置の動作について図１６のフローチャートを参照して説明する。
ステップＳ１６０１では、検出部５０２が、ばらつきが最小となる修正候補のばらつきＶを決定する。
ステップＳ１６０２では、検出部５０２が、ばらつきＶが閾値よりも大きいかどうかを判定する。ばらつきＶが閾値よりも大きい場合は、ステップＳ１６０３に進み、ばらつきＶが閾値以下である場合は、ステップＳ１６０４に進む。

ステップＳ１６０３では、警告出力部１３０１が、警告を出力する。これは、ばらつきが最小となる修正候補でもばらつきが閾値以上であれば、その修正候補が誤っている可能性が高いと考えられるからである。よって、修正部８０１は修正を行わず、警告出力部１３０１は警告を出力する。
ステップＳ１６０４では、修正部８０１が、修正対象を修正候補に修正する。
ステップＳ１６０５では、警告出力部１３０１が、警告を出力する。

第５の実施形態に係る警告出力部１３０１の警告の出力例について図１７を参照して説明する。
図１７の例では、「誤りを検出しましたが、ばらつきが大きいために修正できませんでした。」というメッセージと共に、原文、抽出された情報（対応情報）および修正候補が提示される。

以上に示した第５の実施形態によれば、最小となる修正候補のばらつきの値が閾値以上である場合は修正を行わないことで、誤った修正を行うリスクを減らすことができ、校正の汎用性を高めることができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した校正装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の校正装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，５００，８００，１０００，１３００…校正装置、１０１…取得部、１０２，５０２…検出部、２００…文書、３００，６００，９００…テーブル、３０１…部品、３０２…厚み、３０３，３０４…要素、３０５，３０６…エントリ、４０１，４０２，４０３，６０１，６０２，６０３…修正候補、５０１…生成部、８０１…修正部、９０１…文番号、９０２…開始位置、９０３…終了位置、１００１，１３０１…警告出力部。

Claims

複数の要素がそれぞれ対応付けられた複数のエントリを取得する取得部と、
前記複数のエントリから、第１エントリに含まれる第１要素以外の第２要素と共通する第２要素を有する複数の第２エントリを抽出し、該複数の第２エントリに含まれる第１要素に基づいて、該第１エントリに含まれる第１要素が修正対象であるかどうかを検出する検出部と、を具備する校正装置。
前記検出部は、前記第１エントリの第１要素と前記複数の第２エントリの第１要素との間のばらつきが第１閾値以上である場合、当該第１エントリの第１要素を修正対象として検出する請求項１に記載の校正装置。
生成ルールに基づいて、前記第１エントリに含まれる第１要素から複数の修正候補を生成する生成部をさらに具備し、
前記検出部は、前記複数の修正候補のそれぞれと前記複数の第２エントリの第１要素との間のばらつきを計算し、当該ばらつきが最小となる第１修正候補と前記第１エントリに含まれる第１要素とが異なる場合、当該第１エントリに含まれる第１要素を修正対象として検出する請求項１に記載の校正装置。
前記修正対象が検出された場合に警告を出力する出力部をさらに具備する請求項２または請求項３に記載の校正装置。
前記第１エントリに含まれる第１要素を前記第１修正候補に修正する修正部をさらに具備する請求項３に記載の校正装置。
前記第１エントリに含まれる第１要素が修正された場合に警告を出力する出力部をさらに具備する請求項５に記載の校正装置。
前記修正部は、前記第１修正候補に関する前記ばらつきの値が第２閾値以上である場合、前記第１エントリに含まれる第１要素を前記第１修正候補に修正せず、
前記出力部は、修正しないことを示す警告を出力する請求項６に記載の校正装置。
前記複数の要素はそれぞれ、文字列または数値を示す請求項１から請求項７のいずれか１項に記載の校正装置。
前記第１要素と前記２要素とは、項目が異なる請求項１から請求項８のいずれか１項に記載の校正装置。
前記第２要素は、１つまたは複数の要素である請求項１から請求項９のいずれか１項に記載の校正装置。
複数の要素がそれぞれ対応付けられた複数のエントリを取得し、
前記複数のエントリから、第１エントリに含まれる第１要素以外の第２要素と共通する第２要素を有する複数の第２エントリを抽出し、該複数の第２エントリに含まれる第１要素に基づいて、該第１エントリに含まれる第１要素が修正対象であるかどうかを検出する校正方法。
コンピュータを、
複数の要素がそれぞれ対応付けられた複数のエントリを取得する取得手段と、
前記複数のエントリから、第１エントリに含まれる第１要素以外の第２要素と共通する第２要素を有する複数の第２エントリを抽出し、該複数の第２エントリに含まれる第１要素に基づいて、該第１エントリに含まれる第１要素が修正対象であるかどうかを検出する検出手段、として機能させるための校正プログラム。