JP2017091463A - 校正装置、方法およびプログラム - Google Patents

校正装置、方法およびプログラム Download PDF

Info

Publication number
JP2017091463A
JP2017091463A JP2015225024A JP2015225024A JP2017091463A JP 2017091463 A JP2017091463 A JP 2017091463A JP 2015225024 A JP2015225024 A JP 2015225024A JP 2015225024 A JP2015225024 A JP 2015225024A JP 2017091463 A JP2017091463 A JP 2017091463A
Authority
JP
Japan
Prior art keywords
entry
entries
correction
unit
element included
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2015225024A
Other languages
English (en)
Inventor
祐一 宮村
Yuichi Miyamura
祐一 宮村
昌之 岡本
Masayuki Okamoto
昌之 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015225024A priority Critical patent/JP2017091463A/ja
Priority to US15/260,759 priority patent/US20170139774A1/en
Publication of JP2017091463A publication Critical patent/JP2017091463A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/20Comparing separate sets of record carriers arranged in the same sequence to determine whether at least some of the data in one set is identical with that in the other set or sets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】校正の汎用性を高めることができる。
【解決手段】本実施形態に係る校正装置は、取得部と検出部とを含む。取得部は、複数の要素がそれぞれ対応付けられた複数のエントリを取得する。検出部は、前記複数のエントリから、第1エントリに含まれる第1要素以外の第2要素と共通する第2要素を有する複数の第2エントリを抽出し、該複数の第2エントリに含まれる第1要素に基づいて、該第1エントリに含まれる第1要素が修正対象であるかどうかを検出する。
【選択図】図1

Description

本発明の実施形態は、校正装置、方法およびプログラムに関する。
ビッグデータ活用の機運の高まりに伴い、データ中からユーザが望む情報を抽出するニーズが増加している。ビッグデータのように大量のデータの中から情報を抽出する場合、人手で1つ1つ抽出するにはコストが大きすぎるため、機械学習手法などを用いて情報の自動抽出を行うことが一般的である。しかしながら、情報の自動抽出を行う際に、元となるデータに誤りが含まれている場合、その誤りに気づかずに、抽出された情報も誤ったままとなることがある。
上述のような誤りを修正するため、文書から情報を抽出し、抽出した情報と予め用意したデータベース情報との間の不整合を検出することで、誤りを検出し修正する手法がある。
特開平11−167576号公報
しかし、上述の手法では、予め用意したデータベースを用いてデータの不整合を検出しているため、データベース内に存在しない情報については、誤りかどうかを判定することはできない。
本開示は、上述の課題を解決するためになされたものであり、校正の汎用性を高めることができる校正装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る校正装置は、取得部と検出部とを含む。取得部は、複数の要素がそれぞれ対応付けられた複数のエントリを取得する。検出部は、前記複数のエントリから、第1エントリに含まれる第1要素以外の第2要素と共通する第2要素を有する複数の第2エントリを抽出し、該複数の第2エントリに含まれる第1要素に基づいて、該第1エントリに含まれる第1要素が修正対象であるかどうかを検出する。
第1の実施形態に係る校正装置を示すブロック図。 抽出元となる文書の一例を示す図。 対応情報のテーブルの一例を示す図。 第1の実施形態に係る検出部の修正対象検出処理を示すフローチャート。 第1の実施形態の変形例に係る校正装置を示すブロック図。 修正候補の一例を示す図。 第1の実施形態の変形例に係る検出部の修正対象検出処理を示すフローチャート。 第2の実施形態に係る校正装置を示すブロック図。 文書における位置情報を含む対応情報の一例を示す図。 第3の実施形態に係る校正装置を示すブロック図。 第3の実施形態に係る警告出力部の警告処理を示すフローチャート。 第3の実施形態に係る警告出力部の警告の出力例を示す図。 第4の実施形態に係る校正装置を示すブロック図。 第4の実施形態に係る警告出力部の警告処理を示すフローチャート。 第4の実施形態に係る警告出力部の警告の出力例を示す図。 第5の実施形態に係る校正装置の動作を示すフローチャート。 第5の実施形態に係る警告出力部の警告の出力例を示す図。
以下、図面を参照しながら本実施形態に係る校正装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係る校正装置について図1のブロック図を参照して説明する。
第1の実施形態に係る校正装置100は、取得部101および検出部102を含む。
取得部101は、外部から対応情報を取得する。対応情報は、文書(テキストデータ)から抽出される複数の単語(項目ともいう)と、項目に対応する文字列または項目に対応する数値(要素ともいう)とに関する情報であり、項目間の関係に従って複数の要素がそれぞれ対応付けられたエントリも含む。本実施形態では、取得部101がテーブル形式の対応情報を取得することを想定する。対応情報の詳細については、図2を参照して後述する。
検出部102は、取得部101から対応情報を受け取る。検出部102は、対応情報に含まれる複数のエントリから、第1エントリに含まれる処理対象となる要素(第1要素ともいう)以外の少なくとも1つの要素(第2要素ともいう)と一致する第2要素を有する複数のエントリ(第2エントリという)を抽出する。検出部102は、複数の第2エントリに含まれる第1要素に基づいて、第1エントリに含まれる第1要素が、修正が必要となる修正対象であるかどうかを検出する。
修正対象であるかどうかは、本実施形態では、第1エントリの第1要素と複数の第2エントリの第1要素との間のばらつきを計算し、ばらつきが閾値以上である場合に第1エントリに含まれる第1要素は修正対象であると判定する場合を想定する。なお、これに限らず、第1エントリの第1要素の値(ここでは、数値のオーダーなど)と複数の第2エントリの第1要素の値とが一致しているかどうかを単純に比較し、値が一致していなければ、第1エントリに含まれる第1要素は、修正対象であると判定してもよい。
次に、取得部101で取得される対応情報の抽出元となる文書(テキストデータ)の一例について図2を参照して説明する。
本実施形態では、文書200が商品カタログまたは仕様書である場合を想定し、文書200に出現する単語が項目として抽出され、その項目に対応する値が要素として抽出される。
項目および要素の抽出は、例えばOCR(optical character reader)処理、固有表現抽出処理といった一般的な手法が用いられればよい。
具体的に、図2の例では、文書200の「厚さ3×10−5cmの部品A」という文から「厚み」が項目として抽出され、項目「厚み」に対応する数値「3×10−5」が要素として抽出される。同様に、「部品」が項目として抽出され、要素「部品」に対応する文字列「A」が要素として抽出される。なお、「厚み」、「厚さ」という表記揺れがある場合でも、サポートベクターマシンなどのような機械学習手法を用いて、2つの単語が同一か否かを判定することで、表記揺れがある複数の単語を1つの単語として認識処理することが可能である。
さらに、項目間の関係が、例えば、形態素解析および係り受け解析といった一般的な手法を用いて得られる。図2の例では、「商品Xは厚さ3×10−5cmの部品Aで覆われ」の文に対して形態素解析および係り受け解析を行うことにより、「部品A」と「厚さ3×10−5cm」とが対応することがわかる。このような項目間の関係に従って、要素「3×10−5」と「A」とが対応付けられたものが「エントリ」となる。
次に、図2の文書200から抽出された対応情報のテーブルの一例について図3を参照して説明する。
図3に示す対応情報のテーブル300には、異なる項目である部品301と厚み302とがあり、それぞれ項目が列(カラム)の先頭に格納される。また、それぞれの項目に対応する要素の行がエントリ305として格納される。具体的には、部品301に対応する要素303「A」と厚み302に対応する要素304「3×10−5」とがエントリ305として対応付けて格納される。
ここで、図2の文書200と比較すると、文書200では「2×10−5」の数値が、エントリ306では「2×10」となっている。このような現象は、抽出処理の過程にOCR処理が含まれる場合などで生じうる。OCR処理では、上付き文字または下付き文字などのように通常の文字サイズよりも小さい文字が欠落しやすいからである。また、OCR処理以外にも、元の文書自体に誤植がある場合も考えられる。
次に、検出部102の修正対象検出処理について、図4のフローチャートを参照して説明する。
ステップS401では、検出部102が、複数のエントリから、処理対象となる第1エントリの第1要素以外の少なくとも1つの第2要素と一致する第2要素を有する第2エントリの第1要素の集合A=(a,...,a)を抽出する。なお、本実施形態では「一致」を例にして説明しているが、これに限定されず、「類似」を含んでもよい。すなわち、「一致」及び「類似」を含む「共通」であってもよい。
ステップS402では、検出部102が、第1エントリから第1要素bを抽出する。
ステップS403では、検出部102が、集合C=A∪bを設定し、集合CのばらつきVを計算する。
ステップS404では、検出部102が、ばらつきVが閾値以下であるかどうかを判定する。ばらつきVが閾値以下である場合はステップS405に進み、ばらつきVが閾値よりも大きい場合はステップS406に進む。閾値は、予め定められた値でもよいし、集合Aの平均値に一定の係数をかけた値でもよい。
ステップS405では、検出部102が、修正対象なしと決定する。
ステップS406では、ばらつきVが閾値以上であるということは、他のエントリにおける対応関係とは異なる値が対応付けられている可能性があることを示すため、検出部102が、第1要素が修正対象であると検出する。以上で検出部102の動作を終了する。
なお、第1要素の選択方法としては、例えば、予め修正処理の対象とする項目(テーブルのカラム)を決定しておき、項目に対応する要素を順に第1要素としてもよい。また、対応情報に含まれる各要素を順に第1要素として決定してもよい。また、対応情報に含まれる要素のうち、値が数値である要素を順に第1要素として決定してもよい。
また、ステップS401における第2エントリの第1要素の集合Aを抽出する際に参照するべき項目の要素(第2要素とすべき要素)の選択には、様々な方法が考えられる。例えば、テーブル形式であれば予め参照する項目のカラムを定めておけばよい。第1の実施形態では、参照するべきカラムが「部品」であると予め決定しておくことで、項目「部品」の要素(第2要素)が第1エントリの第2要素と一致する第2エントリの第1要素を集合Aとして取得できる。
さらに、第1要素に対応する項目以外のカラムを順次選択してもよいし、同時に複数選択してもよい。
例えば、対応情報に含まれる項目が「部品」「厚み」「原材料」という3カラム構成であり、第1要素に対応する項目が「厚み」である場合を想定する。この場合、項目が「部品」である要素を第2要素として第2要素が同じであるエントリの第1要素の集合と、項目が「原材料」である要素を第2要素として第2要素が同じであるエントリの第1要素の集合とを取得し、それらの和集合を集合Aとすればよい。また、この例で同時に複数選択する場合は、「部品」と「原材料」とのそれぞれの第2要素が共に同じであるエントリの第1要素の集合を集合Aとして取得すればよい。
また、上述のばらつきの計算方法としては、要素が数値であるため、数学的な意味の分散を計算すればよい。一方で、要素が数値ではなく文字列などの場合は、ばらつきの定義として集合内の要素の異なり数とする方法を用いればよい。例えば、集合の要素が、「AB、AC、AB、AD」の4つである場合、異なりの種類としては「AB、AC、AD」の3種類であるため、ばらつき=異なり数=3となる。よって、検出部102は、異なり数が少ないほどばらつきが小さいと決定すればよい。
(第1の実施形態の変形例)
変形例として、第1要素に対して修正候補を生成し、修正候補を用いて修正対象検出処理を行ってもよい。
第1の実施形態の変形例に係る校正装置について図5のブロック図を参照して説明する。
第1の実施形態の変形例に係る校正装置500は、取得部101、生成部501および検出部502を含む。
取得部101は、第1の実施形態と同様の処理であるので説明を省略する。
生成部501は、取得部101から対応情報を取得し、対応情報から第1エントリに含まれる第1要素を抽出する。生成部501は、生成ルールに基づいて、第1エントリに含まれる第1要素から複数の修正候補を生成する。
検出部502は、生成部501から対応情報、第1要素および複数の修正候補を取得する。検出部502は、対応情報に含まれる複数のエントリから、第1エントリに含まれる少なくとも1つの第2要素と一致する第2要素を有する複数の第2エントリを抽出する。検出部502は、複数の修正候補のそれぞれと複数の第2エントリに含まれる第1要素とのばらつきを計算する。検出部502は、ばらつきが最小となる修正候補(第1修正候補)と第1エントリに含まれる第1要素とが異なる場合、第1エントリに含まれる第1要素を修正対象として検出する。
次に、生成部501が生成する修正候補の一例について図6を参照して説明する。
図6に示すテーブル600は、第1要素から、予め用意された生成ルールに基づいて生成される修正候補を示す。ここでは、図3における厚み302の項目におけるエントリ306の要素「2×10」を第1要素として処理が行われる例を示す。
複数の修正候補を作成するための生成ルールとしては、例えば、
生成ルール1「要素をそのまま修正候補とする」
生成ルール2「要素の上付き文字に“−”を追加する」
生成ルール3「要素の上付き文字を通常文字にする」
が挙げられる。生成部501は、これらの生成ルールに基づいて修正候補を生成する。
具体的には、生成ルール1に基づいて修正候補601「2×10」が生成され、生成ルール2に基づいて修正候補602「2×10−5」が生成され、生成ルール3に基づいて修正候補603「2×105」が生成される。
次に、検出部102の修正対象検出処理について図7のフローチャートを参照して説明する。
ステップS701では、検出部102が、複数のエントリから、処理対象となる第1エントリの第1要素以外の少なくとも1つの第2要素と一致する第2要素を有する第2エントリの第1要素の集合A=(a,...,a)を抽出する。
ステップS702では、検出部102が、修正候補の集合B=(b,...,b)を抽出する。ここで、mは2以上の整数である。
ステップS703では、検出部102が、iを1に設定する。
ステップS704では、検出部102が、集合C=A∪(b)を設定し、Cにおける修正候補のばらつきVを計算する。
ステップS705では、検出部102が、iを1つインクリメントする。
ステップS706では、検出部102が、iがm以下であるかどうかを判定する。iがm以下である場合ステップS703に戻り、同様の処理を繰り返す。iがmよりも大きい場合、ステップS707に進む。
ステップS707では、検出部102が、VからVの中で、最小のばらつきVが得られる修正候補bを決定する。ここで、jは、1≦j≦mである。
ステップS708では、検出部102が、修正候補bが元の抽出結果、すなわち元の第1エントリの第1要素と一致するかどうかを判定する。修正候補bが元の第1エントリの第1要素と一致する場合、ステップS709に進む。修正候補bが元の第1エントリの第1要素と一致しない場合、ステップS710に進む。
ステップS709では、検出部102が、修正候補bが元の第1要素と一致するということは修正が必要ないことを示すので、修正対象なしと決定する。
ステップS710では、検出部102が、修正候補bを修正対象として検出する。以上で検出部102の動作を終了する。
ここで、具体的に、図3および図6を参照して、図3のエントリ306を第1エントリとした場合の、第1エントリの第1要素「2×10」が修正対象であるかどうかを検出する検出処理について説明する。
検出部502は、図3に示すテーブルのエントリから、エントリ306の第1要素の項目である「厚み302」以外の要素、つまり項目「部品301」の要素(第2要素)と一致する第2要素を有する第2エントリの第1要素の集合Aを抽出する。ここでは、エントリ306以外で第2要素が「A」となる3つのエントリの第1要素「3×10−5」「2.6×10−5」「3.2×10−5」が、第2エントリの第1要素の集合Aとして抽出される。
次に、検出部502は、修正候補として図6に示す3つの修正候補、つまり、生成ルール1に基づく修正候補601であるb「2×10」、生成ルール2に基づく修正候補602であるb「2×10−5」、生成ルール3に基づく修正候補603であるb「2×105」を生成する。
続いて、検出部502は、集合C(3×10−5、2×10、2.6×10−5、3.2×10−5)のばらつきV(ここでは、数学的な分散)を計算する。同様に、検出部502は、集合C(3×10−5、2×10−5、2.6×10−5、3.2×10−5)のばらつきVを計算し、集合C(3×10−5、2×105、2.6×10−5、3.2×10−5)のばらつきVを計算する。
ばらつきが最小となるのは、次数が揃っている修正候補602のばらつきVである。よって、検出部502は、修正候補602「2×10−5」と修正候補603「2×10」とが異なるので、第1要素「2×10」を修正対象として検出する。
以上に示した第1の実施形態によれば、抽出した要素内でのばらつきを考慮することで、予めデータベースを用意する必要なく、情報抽出の元となる文書または情報抽出元から抽出した情報に含まれる修正が必要な箇所を検出することができる。よって、校正の汎用性を高めることができる。
(第2の実施形態)
第2の実施形態では、修正候補を用いて修正対象を修正する点が上述の実施形態と異なる。
第2の実施形態に係る校正装置の図8のブロック図を参照して説明する。
図8に示す校正装置800は、取得部101、生成部501、検出部502および修正部801を含む。
取得部101、生成部501および検出部502は、第1の実施形態と同様の操作を行うので、ここでの説明は省略する。
修正部801は、検出部502からばらつきが最小となる修正候補を受け取り、第1エントリに含まれる第1要素をばらつきが最小となる修正候補に修正する。
なお、取得部101が元の文書も取得できる場合は、対応情報の修正対象と元の文書における修正対象の該当箇所との両方を修正してもよい。
元の文書を修正するためには、元の文書のどの位置から修正対象となる単語を抽出したかを示す位置情報が必要となる。元の文書の位置情報を含む対応情報の一例について図9を参照して説明する。
図9に示す対応情報のテーブル900は、部品301、厚み302、文番号901、開始位置902および終了位置903をそれぞれ対応付けて格納する。
文番号901は、元の文書における文を識別する識別番号である。開始位置902は、第1要素の文中での先頭の文字位置である。終了位置903は、第1要素の文中での末尾の文字位置である。開始位置902および終了位置903の値は、ここでは、文番号901が示す文の先頭からの文字数を用いるが、これに限らず、第1要素の位置を特定できる情報であればよい。
なお、図9では、項目「厚み302」に対応する要素の文番号901、開始位置902および終了位置903を格納する例を示すが、他の項目についても同様に文番号901、開始位置902および終了位置903を格納してもよい。
以上に示した第2の実施形態によれば、修正候補を用いて修正対象を修正することで、校正の汎用性を高めることができる。
(第3の実施形態)
第3の実施形態では、誤りを検出した場合にユーザに警告を出力する点が上述の実施形態と異なる。
第3の実施形態に係る校正装置の図10のブロック図を参照して説明する。
図9に示す校正装置1000は、取得部101、生成部501、検出部502および警告出力部1001を含む。なお、第1の実施形態の変形例に係る校正装置500に警告出力部1001が追加されているが、第1の実施形態に係る校正装置100に警告出力部1001が追加された構成でもよい。
取得部101、生成部501および検出部502は、第1の実施形態と同様の動作を行うので、ここでの説明は省略する。
警告出力部1001は、検出部502から修正対象を受け取ったときに、外部に警告を出力する。
第3の実施形態に係る警告出力部1001の警告処理について図11のフローチャートを参照して説明する。
ステップS1101では、警告出力部1001が、検出部502が修正対象を検出したかどうかを判定する。警告出力部1001は、検出部502から修正対象を受け取ったときには修正対象を検出されたと判定できるので、ステップS1102に進み、検出部502が修正対象を検出していない場合は、処理を終了する。
ステップS1102では、警告出力部1001が、警告を出力する。警告は、例えば、ディスプレイへの画像の表示、スピーカーを介した音による通知など一般的な通知方法を用いればよい。
次に、第3の実施形態に係る警告出力部1001の警告の出力例について図12を参照して説明する。
図12に示す警告の出力例では、「誤りを検出しました。」というメッセージと共に、原文(元の文書)と元の文書から抽出された情報(対応情報)とが表示される。ユーザは、図12に示す警告を見ることで、元の文書の「厚みが2×10−5cm」と対応情報の「2×10」とが異なることを一見して把握できる。
以上に示した第3の実施形態によれば、警告が出力されることによって、修正対象として検出された結果が正しいかどうかを容易にユーザに判断させることができ、校正の汎用性を高めることができる。
(第4の実施形態)
第4の実施形態は、第2の実施形態に係る校正装置800に加え、警告出力部を備えることにより、修正対象を修正した場合に警告を出力する点が上述の実施形態と異なる。
第4の実施形態に係る校正装置について図13のブロック図を参照して説明する。
図13に示す校正装置1300は、取得部101、生成部501、検出部502、修正部801および警告出力部1301を含む。
取得部101、生成部501、検出部502および修正部801は、上述の実施形態と同様の操作を行うので、ここでの説明は省略する。
警告出力部1301は、修正部801から修正を完了した通知を受ける場合に、外部に警告を出力する。
第4の実施形態に係る警告出力部1301の警告処理について図14のフローチャートを参照して説明する。
ステップS1401では、警告出力部1301が、修正部801が修正対象を修正したかどうかを判定する。修正したかどうかは、警告出力部1301が、修正部801から修正完了に関する通知を受け取るなどすればよい。修正部801が修正した場合は、ステップS1402に進み、修正がされなかった場合は、処理を終了する。
ステップS1402では、警告出力部1301が、修正が完了した旨の警告を出力する。
次に、第4の実施形態に係る警告出力部1301の警告の出力例について図15を参照して説明する。
図15に示す警告の出力例では、「誤りを修正しました。」というメッセージと共に、原文、抽出された情報および修正後の情報が提示される。ユーザは、図15に示す警告を見ることで、どのような修正が行われたかを一見して理解することができる。
以上に示した第4の実施形態によれば、修正前後の情報に関する警告が出力されることによって、修正された結果が適切かどうかをユーザが容易に判断することができ、校正の汎用性を高めることができる。
(第5の実施形態)
第5の実施形態では、検出部が修正対象を検出したものの、修正対象を修正しない場合に警告する点が上述の実施形態と異なる。
第5の実施形態に係る校正装置は、図13と同様であるが、修正部801および警告出力部1301の動作が異なる。
第5の実施形態に係る校正装置の動作について図16のフローチャートを参照して説明する。
ステップS1601では、検出部502が、ばらつきが最小となる修正候補のばらつきVを決定する。
ステップS1602では、検出部502が、ばらつきVが閾値よりも大きいかどうかを判定する。ばらつきVが閾値よりも大きい場合は、ステップS1603に進み、ばらつきVが閾値以下である場合は、ステップS1604に進む。
ステップS1603では、警告出力部1301が、警告を出力する。これは、ばらつきが最小となる修正候補でもばらつきが閾値以上であれば、その修正候補が誤っている可能性が高いと考えられるからである。よって、修正部801は修正を行わず、警告出力部1301は警告を出力する。
ステップS1604では、修正部801が、修正対象を修正候補に修正する。
ステップS1605では、警告出力部1301が、警告を出力する。
第5の実施形態に係る警告出力部1301の警告の出力例について図17を参照して説明する。
図17の例では、「誤りを検出しましたが、ばらつきが大きいために修正できませんでした。」というメッセージと共に、原文、抽出された情報(対応情報)および修正候補が提示される。
以上に示した第5の実施形態によれば、最小となる修正候補のばらつきの値が閾値以上である場合は修正を行わないことで、誤った修正を行うリスクを減らすことができ、校正の汎用性を高めることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した校正装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の校正装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,500,800,1000,1300…校正装置、101…取得部、102,502…検出部、200…文書、300,600,900…テーブル、301…部品、302…厚み、303,304…要素、305,306…エントリ、401,402,403,601,602,603…修正候補、501…生成部、801…修正部、901…文番号、902…開始位置、903…終了位置、1001,1301…警告出力部。

Claims (12)

  1. 複数の要素がそれぞれ対応付けられた複数のエントリを取得する取得部と、
    前記複数のエントリから、第1エントリに含まれる第1要素以外の第2要素と共通する第2要素を有する複数の第2エントリを抽出し、該複数の第2エントリに含まれる第1要素に基づいて、該第1エントリに含まれる第1要素が修正対象であるかどうかを検出する検出部と、を具備する校正装置。
  2. 前記検出部は、前記第1エントリの第1要素と前記複数の第2エントリの第1要素との間のばらつきが第1閾値以上である場合、当該第1エントリの第1要素を修正対象として検出する請求項1に記載の校正装置。
  3. 生成ルールに基づいて、前記第1エントリに含まれる第1要素から複数の修正候補を生成する生成部をさらに具備し、
    前記検出部は、前記複数の修正候補のそれぞれと前記複数の第2エントリの第1要素との間のばらつきを計算し、当該ばらつきが最小となる第1修正候補と前記第1エントリに含まれる第1要素とが異なる場合、当該第1エントリに含まれる第1要素を修正対象として検出する請求項1に記載の校正装置。
  4. 前記修正対象が検出された場合に警告を出力する出力部をさらに具備する請求項2または請求項3に記載の校正装置。
  5. 前記第1エントリに含まれる第1要素を前記第1修正候補に修正する修正部をさらに具備する請求項3に記載の校正装置。
  6. 前記第1エントリに含まれる第1要素が修正された場合に警告を出力する出力部をさらに具備する請求項5に記載の校正装置。
  7. 前記修正部は、前記第1修正候補に関する前記ばらつきの値が第2閾値以上である場合、前記第1エントリに含まれる第1要素を前記第1修正候補に修正せず、
    前記出力部は、修正しないことを示す警告を出力する請求項6に記載の校正装置。
  8. 前記複数の要素はそれぞれ、文字列または数値を示す請求項1から請求項7のいずれか1項に記載の校正装置。
  9. 前記第1要素と前記2要素とは、項目が異なる請求項1から請求項8のいずれか1項に記載の校正装置。
  10. 前記第2要素は、1つまたは複数の要素である請求項1から請求項9のいずれか1項に記載の校正装置。
  11. 複数の要素がそれぞれ対応付けられた複数のエントリを取得し、
    前記複数のエントリから、第1エントリに含まれる第1要素以外の第2要素と共通する第2要素を有する複数の第2エントリを抽出し、該複数の第2エントリに含まれる第1要素に基づいて、該第1エントリに含まれる第1要素が修正対象であるかどうかを検出する校正方法。
  12. コンピュータを、
    複数の要素がそれぞれ対応付けられた複数のエントリを取得する取得手段と、
    前記複数のエントリから、第1エントリに含まれる第1要素以外の第2要素と共通する第2要素を有する複数の第2エントリを抽出し、該複数の第2エントリに含まれる第1要素に基づいて、該第1エントリに含まれる第1要素が修正対象であるかどうかを検出する検出手段、として機能させるための校正プログラム。
JP2015225024A 2015-11-17 2015-11-17 校正装置、方法およびプログラム Abandoned JP2017091463A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015225024A JP2017091463A (ja) 2015-11-17 2015-11-17 校正装置、方法およびプログラム
US15/260,759 US20170139774A1 (en) 2015-11-17 2016-09-09 Correction apparatus and correction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015225024A JP2017091463A (ja) 2015-11-17 2015-11-17 校正装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2017091463A true JP2017091463A (ja) 2017-05-25

Family

ID=58690637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015225024A Abandoned JP2017091463A (ja) 2015-11-17 2015-11-17 校正装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US20170139774A1 (ja)
JP (1) JP2017091463A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024034232A1 (ja) * 2022-08-09 2024-02-15 コニカミノルタ株式会社 情報処理装置、情報処理方法及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
CN113095066A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005201758B2 (en) * 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
EP3151131A1 (en) * 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024034232A1 (ja) * 2022-08-09 2024-02-15 コニカミノルタ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US20170139774A1 (en) 2017-05-18

Similar Documents

Publication Publication Date Title
JP5596649B2 (ja) 文書マークアップ支援装置、方法、及びプログラム
CN101996232B (zh) 信息处理装置和用于处理信息的方法
JP6850806B2 (ja) 電子データ構造から属性を抽出するための注釈システム
US9286526B1 (en) Cohort-based learning from user edits
JP2009500754A5 (ja)
US10410632B2 (en) Input support apparatus and computer program product
WO2017122462A1 (ja) 造形処理装置、造形処理システムおよびプログラム
JP2017091463A (ja) 校正装置、方法およびプログラム
JP6866930B2 (ja) 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム
JP2006099236A (ja) 分類支援装置、分類支援方法及び分類支援プログラム
JP2019040536A (ja) 指標選択装置及びその方法
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
JP2010134709A (ja) 語彙誤り検出装置及び語彙誤り検出方法
JP6775366B2 (ja) 選択装置、および選択方法
JP7027696B2 (ja) 情報処理装置及び情報処理プログラム
JP5784196B2 (ja) 文書マークアップ支援装置、方法、及びプログラム
JP2006350989A (ja) 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム
US20180247163A1 (en) Computer system and data classification method
JP6652355B2 (ja) 情報抽出装置、方法およびプログラム
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
US20120215480A1 (en) Computing device and programming method for a three-dimensional measurement machine
WO2023223448A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2010128894A (ja) データベース生成装置、データベース生成方法及びコンピュータプログラム
US20080120263A1 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
US20230079857A1 (en) Information processing apparatus, information processing method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20180614