JP7350674B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7350674B2
JP7350674B2 JP2020030937A JP2020030937A JP7350674B2 JP 7350674 B2 JP7350674 B2 JP 7350674B2 JP 2020030937 A JP2020030937 A JP 2020030937A JP 2020030937 A JP2020030937 A JP 2020030937A JP 7350674 B2 JP7350674 B2 JP 7350674B2
Authority
JP
Japan
Prior art keywords
attributes
tables
information processing
attribute
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020030937A
Other languages
English (en)
Other versions
JP2021135712A (ja
Inventor
瑞剛 張
伸一 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020030937A priority Critical patent/JP7350674B2/ja
Priority to US17/013,687 priority patent/US11526660B2/en
Publication of JP2021135712A publication Critical patent/JP2021135712A/ja
Application granted granted Critical
Publication of JP7350674B2 publication Critical patent/JP7350674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。
技術標準などの文書では、人が理解しやすいように、数値範囲などの規定を表によって示すことが多い。しかし、表の構造は様々であるため、対応関係にある表を自動的に検出することは困難である。
例えば、ソフトウェア、検索サイトなどの検索機能を用いて、所望の文字列を検出することはできる。しかし、表の各セルが示す内容が、電子文書内に記載され、表自体には示されていないこともあり得る。また、表内の見出しの位置が、各表で異なることもあり得る。ゆえに、対応関係にある表を自動的に検出しようとしても、対応関係にないと誤検知されてしまうことが多々ある。そのため、人が目視して表の対応関係を確認するといったことが行われているが、当該確認にも非常に時間がかかる。
特許第6338036号公報 特開2019-149125号公報 特開2019-117484号公報
本発明の一実施形態は、対応関係にある表を検出するために、表に含まれていない属性を補完可能な情報処理装置を提供する。
本発明の一実施形態としての情報処理装置は、補完部を備える。前記補完部は、第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載に基づき、前記第1の表に含まれていない属性を補完する。
本発明の一実施形態に係る情報処理装置の一例を示すブロック図。 判定対象とされる表の第1の例を示す図。 判定対象とされる表の第2の例を示す図。 解析部の処理のフローの一例を示す図。 変換部の処理のフローの一例を示す図 判定対象とされる表の第1の例の分割後の図。 判定対象とされる表の第2の例の分割後の図。 判定対象とされる表の第2の例の補完後の図。 グラフスキーマの一例を示す図。 判定対象とされる表の第3の例を示す図。 判定対象とされる表の第3の例の補完後の図。 判定部の処理のフローの一例を示す図。 本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。
以下、図面を参照しながら、本発明の実施形態について説明する。
(本発明の一実施形態)
図1は、本発明の一実施形態に係る情報処理装置の一例を示すブロック図である。本実施形態に関する情報処理装置1は、入出力部11と、解析部12と、変換部13と、属性情報生成部14と、判定部15と、記憶部16と、を備える。解析部12は、文書構造解析部121と、テキスト解析部122と、テーブル構造解析部123と、を備える。変換部13は、分割部131と、補完部132と、を備える。判定部15は、抽出部151と、編集距離算出部152と、集合類似度算出部153と、を備える。
情報処理装置1は、対応関係にある表を検出するために、表に含まれていない属性を補完するなどの変換を行う。そして、変換後の表に基づいて、表同士が対応関係にあるかどうかを判定する。これにより、属性の名称の省略などによって対応関係にあるにもかかわらず、対応関係にないと判定されることを防ぐ。
情報処理装置1の処理の対象とされる表は、一つ以上の主体(Subject)に対する一つ以上の属性(Attribute)の値(Value)を示すものとする。なお、主体も表の属性の一つとみなしてもよい。属性は、主体の性質、特徴などを示すものであり、例えば、主体を限定するような条件も属性に含まれる。例えば、厚さが閾値以上の部材Aに対して要求される硬度の値が表のセルに示されている場合、「部材A」が主体であり、「厚さが閾値以上」および「要求される硬度」が属性に該当する。
情報処理装置1は、具体的には、一方の表のいずれかのセルに係る主体および属性と、他方の表のいずれかのセルに係る主体および属性と、に基づき、二つの表が対応関係にあるかを判定する。しかし、比較され得る表の構造は、同一ではなく様々であることを想定する。
例えば、各主体または各属性は、行または列の見出しに記載されるが、どちらに記載されているかは表によって異なる。また、行見出しは、本来、1列目の各セルであり、列見出しは、本来、1行目の各セルである。そして、各主体の各属性に関する値が、2行目以降かつ2列目以降の各セルに記載される。しかし、見出しが1列目または1行目でない場合もあり得る。
また、見出しが複数の行または列にまたがる場合もある。例えば、列見出しが2行にわたって設けられ、列見出しの1行目の各セルが結合されて、結合されたセル(結合セル)に各属性の共通事項が記載され、列見出しの2行目の各セルに、各属性の非共通項が記載されているといったことも多い。また、属性が、列見出しと行見出しの両方に記載されている場合もある。
図2は、判定対象とされる表の第1の例を示す図である。図2に示された第1の表は、「SM400B」という鋼材についての規定を示したものである。第1の表の主体は、「SM400B」である。図2では、表の左から1列目から3列目までと、5列目と、が行見出しとして用いられ、「降伏点または耐力」、「鋼材の厚さ」、「40を超え75以下」などといった属性が行見出しに記載されている。主体に対する各属性の値は4列目に示されている。
図3は、処理対象の表の第2の例を示す図である。図3に示された第2の表は、複数の鋼材の降伏点または耐力についての規定を示したものである。すなわち、第2の表には、複数の主体が示されている。図3には、図2に示された「SM400B」という鋼材についての規定も含まれている。しかし、「降伏点または耐力」は表のタイトルとして、電子文書内の文章中に記載されており、表には示されていない。
図3の表では、上から1行目と2行目が列見出しとして用いられており、「鋼材の厚さ」、「40を超え75以下」という属性は、図3では列見出しに記載されている。また、SM400AとSM400Bという二つの異なる主体に関するレコードが、一つの行に結合されている。また、鋼材の厚さが16mm以下のSM400A、SM400B、およびSMB400Cの降伏点又は耐力の値(図3では245以上)を示す各セルは、一つのセルに結合されている。
また、図2および3の例では、主体または属性に係る事項の各名称が完全に一致していない。例えば、図2の表では数値の単位に括弧がつけられているが、図3の表では括弧がつけられていない。
図2および図3の表が「SM400B」という共通の文字列を含んでいることから、図2および図の表が「SM400B」に関する表であることは、推定可能である。しかし、図3の表には「降伏点または耐力」という属性が省略されているため、図3が「降伏点または耐力」という属性に関する値を示していることを認識することができない。
また、列見出しまたは行見出しを比較することも考えられるが、図2では属性が行見出しに記載されており、図3では属性が列見出しに記載されているため、一致しない。
このように、表の構造が異なると、同一の主体に関する表であることは認識できても、対応関係にあるかどうかまでは判別することが難しい。しかし、情報処理装置1は、このような表同士であっても、対応関係にあることを判別する。
なお、情報処理装置1の処理の対象とされる表は電子文書に記載されているとする。当該電子文書は、HTML(Hyper Text Markup Language)ファイル、PDF(Portable Document Format)ファイルなどといった解析可能なものであればよい。例えば、インターネット上のサイトのページであってもよい。なお、電子文書が、図2および3に示したような技術文書に限られるわけではない。また、表に示される主体も、特に限られるものではない。
情報処理装置1の内部構成について説明する。なお、図1に示された内部構成は例であり、図1に示されていない構成要素が情報処理装置1に存在してもよい。また、図1に示された情報処理装置1の各構成要素が、細分化されてもよいし、集約されてもよい。また、図1に示された各構成要素が、情報処理装置1は別の装置に含まれていてもよい。例えば、変換部を含み表の変換を行う装置と、判定部を含み判定を行う装置と、が別々に設けられていてもよい。また、例えば、解析部12、変換部13、属性情報生成部14、および判定部15がそれぞれ個別の装置であってもよい。また、例えば、ネットワークエリアストレージなどといった記憶装置に情報処理装置1の処理に関するデータが格納されていてもよい。すなわち、記憶部16が情報処理装置1の外部に存在していてもよい。
入出力部11は、情報処理装置1とは別の装置などから、処理に必要な情報を取得し、処理結果を出力する。なお、入出力される情報は特に限られるものではない。例えば、情報処理装置1によって解析される電子文書、判定対象の表を識別するための識別子(ID)などを取得する。
解析部12は、電子文書に含まれる文章および表を解析する。図4は、解析部12の処理のフローの一例を示す図である。本フローは、電子文書が入出力部11に入力された場合に開始されることを想定する。
解析部12が入出力部11を介して、電子文書を取得する(S101)。解析部12の文書構造解析部121は、当該電子文書から、文章と表を分離する(S102)。分離の方法は、公知の手法でよい。例えば、電子文書がPDFファイルの場合、文書または表を抽出する様々な抽出ソフトおよびコマンドが公開されており、それらを用いてもよい。
解析部12のテキスト解析部122は、分離された表および文章それぞれに対し、テキスト解析を行う(S103)。例えば、所定の文字列を検索することにより、表に対する説明文を検出する。「表」、「説明」などといった文字列が検出された場合、当該文字列を含む文は、当該分の前後にある表の内容を説明していると推定される。そのため、そのような文字列を含む文を検出する。所定の文字列は正規表現で表されていてもよい。例えば、「表」という文字と、任意の数字と、から成る文字列が検索されてもよい。
また、HTMLなどの電子文書では、ソースコードに表のタイトルなどが明示されている。そのため、テキスト解析部122は、電子文書のソースコードから、表のタイトルなどとされる文字列を抽出してもよい。
解析部12のテーブル構造解析部123は、抽出された表の構造を特定する(S104)。HTML、PDFなどの電子文書では、ソースコードに、表の見出しなどを示すタブなどが含まれている。そのため、テーブル構造解析部123は、電子文書のソースコードに基づいて、見出し、結合セルなどの位置を検出してもよい。
解析部12が処理結果を記憶部16に格納し(S105)、本フローは終了する。例えば、電子文書の名称、表のタイトル、表に対する説明文などといった、解析されたテキストに係るテキスト情報161が格納される。また、抽出された表、およびその構造などを示すテーブル情報162が、当該表を含んでいた電子文書と対応付けて記憶されてもよい。このようにして、電子文書が入出力部11に入力される度に本フローが実施されて、記憶部16に情報が蓄積されていく。
しかし、前述のように、記憶部16に蓄積された表は、その構造が様々であり、対象関係を判別しにくい。そこで、変換部13が、対象関係を判別しやすくするように、記憶部16に記憶された表を解析結果に基づいて変換する。
図5は、変換部13の処理のフローの一例を示す図である。本フローは、解析部12の処理が行われた後に実施される。なお、解析部12の処理の実施の度に行われてもよいし、解析部12の処理が複数回行われた後にまとめて実行されてもよい。
変換部13の分割部131は、記憶部16に記憶された表を取得し(S201)、当該表の結合セルを分割する(S202)。分割によって、各行が有するセルの数は同じとなり、各列が有するセルの数も同じとなる。例えば、図2の「鋼材の厚さ(mm)」と記載されたセルは、6行のセルに分割される。分割された各セルには、分割前の結合されていたセルの記載が登録される。
例えば、HTMLなどの電子文書のソースコードには、セルの結合について示されている。分割部131は、テーブル構造解析部123による解析結果に基づいて、ソースコードから結合セルを認識し、分割してもよい。また、隣接するセルの数などに基づいて分割が行われてもよい。
また、表に含まれているテキストに基づいて、結合セルを認識してもよい。例えば、テキスト解析の結果、改行を意味する改行コードが含まれているセルが検出された場合に、当該セルを改行コードごとに分割するとしてもよい。また、例えば、主体および属性となり得る単語を予め登録しておき、一つのセルに登録された単語が複数含まれている場合に、それらの単語ごとにセルを分割してもよい。例えば、図3の表には、「SM400ASM400B」という文字列を示すセルがある。分割部131は、当該セルを「SM400A」を示すセルと、「SM400B」を示すセルと、に分割してもよい。
分割の際に行および列のいずれを増やすかは、主体および属性が行および列のいずれに記載されているかにより判断されてもよい。例えば、図3においては、「SM400A」と「SM400B」と同一上位概念に属するSM400Cなどが、列方向に記載されている。ゆえに、図3の前述のセルを、「SM400A」を示すセルと、「SM400B」を示すセルと、に分割する場合は、行が増やされる。
図6および7は、結合セルの分割後の表の例を示す図である。図6は、判定対象とされる表の第1の例の分割後の図である。図7は、判定対象とされる表の第2の例の分割後の図である。なお、見出しを明確に示すために、各図の変換された表の値を示すセルは空欄にしている。図2および3に示された表が対応関係にあるかを判定する場合、図2および3に示された表を比較するのではなく、図6および7に示された分割後の表が比較される。
これにより、各セルに係る見出しを認識することができる。しかし、前述のように、主体および属性が省略されていることもあり得る。例えば、図3の例では「降伏点または耐力」という属性が省略されていたため、分割後の図7の表でも「降伏点または耐力」という属性が含まれていない。そこで、補完部132が省略されている主体および属性を補完する(S203)。
例えば、補完部132は、テキスト解析結果により得られた表の説明文に基づき、補完を行う。例えば、図3の例では、表のタイトルが「降伏点または耐力」であった。補完部132は、「降伏点または耐力」という文字列が表の見出しに示されていないため、当該文字列を補完することを決定する。
図8は、判定対象とされる表の第2の例の補完後の図である。「降伏点または耐力」という属性を示すセルが、全て列の見出しに追加されている。タイトル、表の説明文などで示されているにも関わらず、表に記載されていない属性は、全てのセルに係る属性であるために表では省略されていると考えられる。そのため、全ての行見出しまたは列見出しに省略されている属性を追加してもよい。
また、表の説明文が得られなかった場合、説明文に補完すべき属性が示されていない場合などもあり得る。そのような場合、表に含まれる主体、または、当該主体の上位概念、に関する表に含まれ得る属性を示す属性情報を参照して、省略されている属性を補完する。上位概念および上位概念に属する主体は予め定められているとする。
図9は、グラフスキーマの一例を示す図である。グラフスキーマは、属性情報の一種であり、属性が表の見出しに記載されているときの位置関係を示すグラフである。グラフスキーマは、予め生成され、記憶部16に記憶されている属性情報163に含まれているとする。なお、補完のために用いられるグラフスキーマを、特にマスタのグラフスキーマと記載する。
図9のグラフスキーマは、図2および3の表に示された主体である「SM400B」が属する上位概念である「鋼板」に関するグラフスキーマである。そのため、「鋼板」が最上位に記載されている。
なお、「SM400B」に対するグラフスキーマがあってもよいし、「SM400B」の上位概念であって「鋼板」の下位概念の「SM400材」に対するグラフスキーマがあってもよい。
グラフスキーマの最上位の配下に、属性が記載される。本説明では、グラフスキーマの最上位に記載された主体または上位概念に直下に配置された属性を「独立属性」と記載する。図9の例では、独立属性として、「溶鋼分析値」、「降伏又は耐力」、「引張強さ」、「伸び」、「衝撃試験」が示されている。
独立属性は、見出しに表記される際に、列見出しならば左右に、行見出しなら上下に、記載されるものである。言い換えれば、各独立属性は、同じ行または列に記載されないものである。例えば、SM400Bの「引張強さ」および「伸び」に係る値というものは存在できず、「引張強さ」と「伸び」は独立属性と言える。
各独立属性の配下には、さらに属性が記載される。本説明では、独立属性の配下に記載された属性を「従属属性」と記載する。従属属性は、独立属性と同じ行または列に記載されることが多い属性である。言い換えれば、列見出しならば独立属性の上下に、行見出しなら独立属性の左右に、記載されるものである。独立属性と従属属性との間には、関係性はなくともよい。図9の例では、「降伏又は耐力」という独立属性とは直接関係のない属性である「厚さ」が、「引張強さ」などの従属属性として示されている。これは、「厚さ」が主体に関する属性であり、例えば、「厚さ」が16以下のSM400Bの「引張強さ」に係る値というものが存在できるからである。
図10は、判定対象とされる表の第3の例を示す図である。図10の表には、炭素(C)、ケイ素(Si)、マンガン(Mn)、リン(P)、および硫黄(S)が、属性として示されている。しかし、「化学成分」という属性は記載されていない。また、表の上に記載された説明文にも、「化学成分」という単語は含まれていない。このような場合において、グラフスキーマを用いることにより、当該表に対して「化学成分」という属性名を補完する。
図11は、判定対象とされる表の第3の例の補完後の図である。前述の通り、分割部131によって結合セルが分割されている。また、補完部132によって、溶鋼分析値と、化学成分と、が行見出しに追加されている。
補完部132は、マスタのグラフスキーマを参照し、炭素(C)などの属性が「化学成分」という独立属性に従属していることを認識する。そして、「化学成分」という属性が図10の表に示されていないことをテキスト解析結果により、認識する。補完部132は、「化学成分」という属性を追加するために、炭素(C)などが列見出しに記載されていることから、列見出しの行を追加する。そして、炭素(C)などの従属属性が示されている列かつ追加された行の各セルに、「化学成分」という記載を追加している。
また、図10に示すように、図10の表には、「鋼板は、7.の試験を行い、その溶鋼分析値は下の表による」という説明文がある。そのため、前述の通り、補完部132は、「溶鋼分析値」という属性を追加し、グラフスキーマに基づいて、「化学成分」という属性が「溶鋼分析値」という属性に従属していることを認識し、「化学成分」という属性を変換された表に追加してもよい。
あるいは、補完部132は、マスタのグラフスキーマから、「化学成分」という属性が「溶鋼分析値」という独立属性にだけ従属していることを認識し、「溶鋼分析値」という属性をさらに追加してもよい。
また、補完部132は、マスタのグラフスキーマの属性の名称に基づいて類似すると判断された表に記載の属性の名称を、マスタのグラフスキーマの属性の名称に変更してもよい。これにより、属性の表記ゆらぎをなくしてもよい。表記の類似は、レーベンシュタイン距離などの公知の手法に基づいて判定すればよい。
このようにして、補完部132が、表および当該表を含む電子文書の少なくともいずれかの記載に基づき、当該表に含まれていない属性を補完することによって、対応関係にある表が対応関係にないと誤判定されることを防ぐことができる。
変換部13が処理結果を記憶部16に格納し(S204)、本フローは終了する。例えば、変換された表などを示す変換テーブル情報164が、変換前の表を示すテーブル情報162と対応付けて記憶されてもよい。なお、変換された表が、入出力部11を介して、出力されてもよい。変換された表を出力して、ユーザの確認および修整を受け付けてもよい。例えば、ユーザが変換された表に基づいて、表の対応関係を判定することも考えられる。
なお、マスタのグラフスキーマは、予め記憶部16に記憶されていてもよいし、解析部12の処理の結果に基づいて生成および更新されてもよい。本実施形態では、属性情報生成部14がマスタのグラフスキーマを生成および更新する。
属性情報生成部14は、主体または当該主体の上位概念が同一の表の行見出しおよび列見出しを取得し、含まれる属性をカウントする。属性の記載数が閾値を超えた場合、マスタのグラフスキーマに記載する。なお、カウントの際、レーベンシュタイン距離などに基づいて、表の属性の名称を変換してもよい。
また、行見出しの記載の方向(上下)と、列見出しの記載の方向(左右)と、に基づいて、属性の従属関係を決定してもよい。
また、表の記載だけでなく、表の説明文からグラフスキーマを生成してもよい。例えば、図2に示したように、「表1がSMB400の降伏点、耐力、引張強さ及び伸びについて説明する」という説明文がテキスト解析部122により検出されていたとする。属性情報生成部14は、当該説明文の単語を抽出して、「“表1”、“SMB400”、“降伏点”、“耐力”、“引張強さ”、“伸び”、“説明する”」を取得する。そして、属性情報生成部14は、取得された単語同士の係り受けなどから、主体と属性を推定してもよい。
係り受けのルールは、予め登録しておく。例えば、「SM400A」、「SM400B」などといった主体となり得る候補を予め登録しておくことにより、主体を推定することができる。また、主体の後に「の」という文字があった場合は、その後に属性が記載されていることを予め登録しておく。また、「及び」という語が並列表記を意味していることを登録しておく。これにより、分割部131は、「SM400B」という文字列が、「降伏点」、「耐力」、「引張強さ」、および「伸び」に掛けられているということを認識する。すなわち、「降伏点」、「耐力」、「引張強さ」、および「伸び」が、主体である「SM400B」に対する属性であり、並列表記されていることから独立属性であることを認識する。
このようにして、属性情報生成部14は、マスタのグラフスキーマを生成する。また、属性情報生成部14は、表ごとに、個別のグラフスキーマを生成してもよい。
判定部15は、表同士に含まれる属性に基づき、当前表同士の対応関係についての判定を行う。判定部15は、変換部13によって変換された表を用いて判定を行う。ゆえに、省略されていた属性も補完されているため、補完されていない表を用いた場合よりも判定の精度が向上する。
図12は、判定部15の処理のフローの一例を示す図である。本フローは、表の識別子、タイトルなどといった表を識別する情報が入出力部11に入力された場合に開始されることを想定する。
判定部15が、入出力部11を介して、二つの表(指定対象)の指定を受け付ける(S301)。ここでは、二つの表を第1の表と第2の表と記載する。判定部15の抽出部151は、記憶部16から、第1の表の変換された表と、第2の表の変換された表と、を抽出する(S302)。
なお、一つの表が指定されて、指定された表と対応する表が抽出されてもよい。例えば、解析部12および変換部13によって処理された表と対応関係にある表が、判定部15よって自動的に検出されてもよい。その場合は、記憶部16から順に一つの表を抽出して、抽出された表ごとに本フローを繰り返し実行すればよい。
次に、判定の対象とするセルを、第1および第2の変換された表から一つずつ選択する(S303)。当該選択は、第1および第2の表の未だ選択されたことのないセルの組み合わせであればよい。各セルが順番に選択されてもよいし、未だ選択されたことのないセルの組み合わせをランダムに選択してもよい。
編集距離算出部152は、選択セルの編集距離を算出し、共通主体および共通属性を判明させる(S304)。具体的には、第1の表の選択セルに係る主体および属性それぞれと、第2の表の選択セルに係る主体および属性それぞれと、の編集距離を算出する。そして、算出された編集距離に基づいて、第1の表の選択セルと、第2の表の選択セルと、の両方に共通する主体および属性を検出する。これにより、表記ゆれなどによって、異なる主体および属性と認識されることを防ぐ。
なお、セルに係る主体および属性は、当該セルが属する列の見出しと、当該セルが属する行の見出しと、の少なくとも一つに記載の主体および属性とする。例えば、図6の太枠で示したセルに係る主体および属性は、点線の枠で囲まれた主体および属性で表される。例えば、{降伏点または耐力、鋼材の厚さ、40を超え75以下、SM400B、機械的性質}と表され得る。また、図8の太枠で示したセルに係る主体および属性は、同様に、{降伏点または耐力、鋼材の厚さ、40を超え75以下、SM400B}と表され得る。
なお、セルに係る主体および属性は、列および行のいずれか一方の見出しに記載の主体および属性としてもよい。
編集距離は、レーベンシュタイン距離など、公知の算出方法を用いればよい。共通主体および共通属性と認識するための閾値なども適宜に定めてよい。また、補完部132が既に表記ゆれを修正している場合は、編集距離は算出されずに、完全に一致するもののみを共通主体または共通属性としてもよい。
集合類似度算出部153は、第1の表の選択セルと、第2の表の選択セルと、の集合類似度を算出する(S305)。具体的には、第1の表の選択セルに係る主体および属性を第1の表の選択セルに係る集合とみなし、第2の表の選択セルに係る主体および属性を第2の表の選択セルに係る集合とみなして、集合類似度を算出する。各セルに係る属性は、各セルが属する行および列の見出しに示された属性としてもよい。あるいは、行および列の見出しのいずれか一方に示された属性としてもよい。
集合類似度は、ジャガード(Jaccard)係数など、公知の算出式を用いて算出されればよい。例えば、集合Aと集合Bに対するジャガード係数J(A,B)は、次式で表される。
Figure 0007350674000001
図6の太枠のセルと図8の太枠のセルとの積集合に含まれる要素の数は4であり、和集合の数に含まれる要素の数は5であるため、ジャガード係数は0.8と求められる。省略された属性が補完されているため、集合類似度をより正確に求めることができる。
判定部15が、第1の表の選択セルと、第2の表の選択セルと、の対応関係を、集合類似度などに基づいて判定する(S306)。判定のための閾値は適宜に定めてよい。また、共通主体がない場合は、集合類似度の値を問わずに、対応関係がないとしてもよい。
判定後、終了条件を満たさない場合(S307のNO)は、S303の処理に戻り、判定の対象のセルが選択される。終了条件は、第1の表のセルと、第2表のセルと、の全ての組み合わせに対して、対応関係が判定されたこととしてもよい。なお、必ずしも全ての組み合わせを対象としなくてもよく、判定対象とするセルが絞られてもよい。判定の回数の上限などが終了条件として定められていてもよい。
終了条件を満たす場合(S307のYES)は、判定部15が、判定結果、対応関係にある表の識別子などの処理結果を入出力部11に送信し(S308)、本フローは終了する。なお、送信先は、記憶部16でもよい。これを受けてユーザは、指定された表が対応関係にあるかどうかなどを認識することができる。
以上のように、本実施形態の情報処理装置1は、表の見出しに記載されるべき情報が省略されている場合に、表を補完する。また、表の見出しが複数の行または列に記載されている場合では、表を分割する。このようにして複数の電子文書およびそれらに含まれる表を解析することにより、対応関係にある表を検出することができる。
なお、上記の実施形態の少なくとも一部は、プロセッサ、メモリなどを実装しているIC(Integrated Circuit:集積回路)などの専用の電子回路(すなわちハードウェア)により実現されてもよい。また、上記の実施形態の少なくとも一部は、ソフトウェア(プログラム)を実行することにより、実現されてもよい。例えば、汎用のコンピュータ装置を基本ハードウェアとして用い、コンピュータ装置に搭載されたCPUなどのプロセッサにプログラムを実行させることにより、上記の実施形態の処理を実現することが可能である。
例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。
図13は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。情報処理装置1は、プロセッサ21と、主記憶装置22と、補助記憶装置23と、ネットワークインタフェース24と、デバイスインタフェース25と、を備え、これらがバス26を介して接続されたコンピュータ装置2として実現できる。記憶部16は、主記憶装置22または補助記憶装置23により実現可能であり、その他の構成要素は、プロセッサ21により実現可能である。
なお、図13のコンピュータ装置2は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図13では、1台のコンピュータ装置2が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。
プロセッサ21は、コンピュータの制御装置および演算装置を含む電子回路である。プロセッサ21は、コンピュータ装置2の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ21は、コンピュータ装置2のOS(オペレーティングシステム)や、アプリケーションなどを実行し、コンピュータ装置2を構成する各装置を制御する。プロセッサ21は、上記の処理を行うことができれば特に限られるものではない。
主記憶装置22は、プロセッサ21が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置22に記憶された情報がプロセッサ21により直接読み出される。補助記憶装置23は、主記憶装置22以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。
ネットワークインタフェース24は、無線または有線により、通信ネットワーク3に接続するためのインタフェースである。ネットワークインタフェース24は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース24により、通信ネットワーク3を介して通信接続された外部装置4Aと情報のやり取りが行われてもよい。
デバイスインタフェース25は、外部装置4Bと直接接続するUSBなどのインタフェースである。外部装置4Bは、外部記憶媒体でもよいし、データベースなどのストレージ装置でもよい。
外部装置4Aおよび4Bは出力装置でもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声などを出力する装置などでもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、スピーカなどがあるが、これらに限られるものではない。
なお、外部装置4Aおよび4Bは入力装置でもよい。入力装置は、キーボード、マウス、タッチパネルなどのデバイスを備え、これらのデバイスにより入力された情報をコンピュータ装置2に与える。入力装置からの信号はプロセッサ21に出力される。
上記に、本発明の一実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、移行を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 情報処理装置
11 入出力部
12 解析部
121 文書構造解析部
122 テキスト解析部
123 テーブル構造解析部
13 変換部
131 分割部
132 補完部
14 属性情報生成部
15 判定部
151 抽出部
152 編集距離算出部
153 集合類似度算出部
16 記憶部
161 テキスト情報
162 テーブル情報
163 属性情報
164 変換テーブル情報
2 コンピュータ装置
21 プロセッサ
22 主記憶装置
23 補助記憶装置
24 ネットワークインタフェース
25 デバイスインタフェース
26 バス
3 通信ネットワーク
4Aおよび4B 外部装置

Claims (10)

  1. コンピュータにより実行される情報処理装置であって、
    第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
    記第1の表に含まれる主体、または、前記第1の表に含まれる主体の上位概念、に関する
    表に含まれ得る属性を示す属性情報と、に基づき、前記第1の表に含まれておらず前記第
    1の表から省略されている属性を補完する補完部と、
    同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
    上の電子文書の記載に基づいて、前記補完部で補完された属性を含めて前記複数の表に含
    まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む前記属性情報を
    生成する生成部と、
    を備える情報処理装置。
  2. コンピュータにより実行される情報処理装置であって、
    第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
    記電子文書の前記第1の表に関する説明文と、に基づき、前記第1の表に含まれておらず
    前記第1の表から省略されている属性を補完する補完部と、
    前記補完部で補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基
    づき、前記第1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに
    係る主体および属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関
    係についての判定を行う判定部と、を備え、
    前記コンピュータは、前記補完部および前記判定部の処理を実行する、
    情報処理装置。
  3. 同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
    上の電子文書の記載に基づいて、前記補完部で補完された属性を含めて前記複数の表に含
    まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む属性情報を
    生成する生成部
    をさらに備える請求項2に記載の情報処理装置。
  4. 前記補完部は、前記電子文書の前記第1の表に関する説明文に基づき、前記説明文に記
    載されているにもかかわらず前記第1の表に含まれていない属性を特定する
    請求項1に記載の情報処理装置。
  5. 前記補完部で補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基
    づき、前記第1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに
    係る主体および属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関
    係についての判定を行う判定部
    をさらに備える請求項4に記載の情報処理装置。
  6. 前記第1の表は、一つ以上の主体に対する一つ以上の属性の値を示すものであり、
    前記属性は、前記第1の表の見出しに記載され、
    前記主体は、前記属性によって、性質または特徴が示されるものである
    請求項1ないし5のいずれか一項に記載の情報処理装置。
  7. 第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
    記第1の表に含まれる主体、または、前記第1の表に含まれる主体の上位概念、に関する
    表に含まれ得る属性を示す属性情報と、に基づき、前記第1の表に含まれておらず前記第
    1の表から省略されている属性を補完するステップと、
    同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
    上の電子文書の記載に基づいて、前記補完するステップで補完された属性を含めて前記複数の表に含
    まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む前記属性情報を
    生成するステップと、をコンピュータに実行させる
    情報処理方法。
  8. 第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
    記電子文書の前記第1の表に関する説明文と、に基づき、前記第1の表に含まれておらず
    前記第1の表から省略されている属性を補完するステップと、
    補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基づき、前記第
    1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに係る主体およ
    び属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関係についての
    判定を行うステップと、をコンピュータに実行させる
    情報処理方法。
  9. コンピュータに、
    第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
    記第1の表に含まれる主体、または、前記第1の表に含まれる主体の上位概念、に関する
    表に含まれ得る属性を示す属性情報と、に基づき、前記第1の表に含まれておらず前記第
    1の表から省略されている属性を補完するステップと、
    同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
    上の電子文書の記載に基づいて、前記補完するステップで補完された属性を含めて前記複数の表に含
    まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む前記属性情報を
    生成するステップと、を実行させる
    プログラム。
  10. コンピュータに、
    第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
    記電子文書の前記第1の表に関する説明文と、に基づき、前記第1の表に含まれておらず
    前記第1の表から省略されている属性を補完するステップと、
    補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基づき、前記第
    1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに係る主体およ
    び属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関係についての
    判定を行うステップと、を実行させる
    プログラム。
JP2020030937A 2020-02-26 2020-02-26 情報処理装置、情報処理方法、およびプログラム Active JP7350674B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020030937A JP7350674B2 (ja) 2020-02-26 2020-02-26 情報処理装置、情報処理方法、およびプログラム
US17/013,687 US11526660B2 (en) 2020-02-26 2020-09-07 Information processing apparatus for complementing a heading of a table

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020030937A JP7350674B2 (ja) 2020-02-26 2020-02-26 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021135712A JP2021135712A (ja) 2021-09-13
JP7350674B2 true JP7350674B2 (ja) 2023-09-26

Family

ID=77366759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020030937A Active JP7350674B2 (ja) 2020-02-26 2020-02-26 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US11526660B2 (ja)
JP (1) JP7350674B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134709A (ja) 2008-12-04 2010-06-17 Toshiba Corp 語彙誤り検出装置及び語彙誤り検出方法
US20130086459A1 (en) 2011-10-04 2013-04-04 Microsoft Corporation Automatic Scoping of Data Entities
JP2016153953A (ja) 2015-02-20 2016-08-25 日本電信電話株式会社 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム
JP2017224240A (ja) 2016-06-17 2017-12-21 富士通株式会社 表データ検索装置、表データ検索方法、及び表データ検索プログラム
JP2018049356A (ja) 2016-09-20 2018-03-29 株式会社日立製作所 表構造推定システムおよび方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363764A (en) 1980-12-30 1982-12-14 Union Carbide Corporation Preparation of rhodium complex compounds
US7885822B2 (en) * 2001-05-09 2011-02-08 William Rex Akers System and method for electronic medical file management
JP2004102400A (ja) * 2002-09-05 2004-04-02 Beacon Information Technology:Kk データ管理システム、方法及びコンピュータプログラム
JP4427500B2 (ja) * 2005-09-29 2010-03-10 株式会社東芝 意味解析装置、意味解析方法および意味解析プログラム
US8165994B2 (en) * 2007-12-19 2012-04-24 Microsoft Corporation Integrated governance and version audit logging
US8347204B2 (en) * 2008-05-05 2013-01-01 Norm Rosner Method and system for data analysis
JP5585182B2 (ja) * 2010-04-21 2014-09-10 富士通株式会社 財務データ処理装置、財務データ処理方法および財務データ処理プログラム
US8990675B2 (en) * 2011-10-04 2015-03-24 Microsoft Technology Licensing, Llc Automatic relationship detection for spreadsheet data items
US8990202B2 (en) * 2011-11-03 2015-03-24 Corefiling S.A.R.L. Identifying and suggesting classifications for financial data according to a taxonomy
US10229101B2 (en) * 2013-06-14 2019-03-12 Microsoft Technology Licensing, Llc Smart fill
US9286290B2 (en) * 2014-04-25 2016-03-15 International Business Machines Corporation Producing insight information from tables using natural language processing
US11227104B2 (en) * 2014-05-11 2022-01-18 Informatica Llc Composite data creation with refinement suggestions
US10055430B2 (en) * 2015-10-14 2018-08-21 International Business Machines Corporation Method for classifying an unmanaged dataset
US11062213B2 (en) 2016-08-05 2021-07-13 Nec Corporation Table-meaning estimation system, method, and program
JP6847812B2 (ja) 2017-10-25 2021-03-24 株式会社東芝 文書理解支援装置、文書理解支援方法、およびプログラム
JP7064871B2 (ja) 2017-12-27 2022-05-11 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
JP2019149125A (ja) 2018-02-28 2019-09-05 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134709A (ja) 2008-12-04 2010-06-17 Toshiba Corp 語彙誤り検出装置及び語彙誤り検出方法
US20130086459A1 (en) 2011-10-04 2013-04-04 Microsoft Corporation Automatic Scoping of Data Entities
JP2016153953A (ja) 2015-02-20 2016-08-25 日本電信電話株式会社 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム
JP2017224240A (ja) 2016-06-17 2017-12-21 富士通株式会社 表データ検索装置、表データ検索方法、及び表データ検索プログラム
JP2018049356A (ja) 2016-09-20 2018-03-29 株式会社日立製作所 表構造推定システムおよび方法

Also Published As

Publication number Publication date
JP2021135712A (ja) 2021-09-13
US11526660B2 (en) 2022-12-13
US20210264100A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
US10496745B2 (en) Dictionary updating apparatus, dictionary updating method and computer program product
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
US8111922B2 (en) Bi-directional handwriting insertion and correction
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2005352888A (ja) 表記揺れ対応辞書作成システム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
CN110889118B (zh) 异常sql语句检测方法、装置、计算机设备和存储介质
US9658989B2 (en) Apparatus and method for extracting and manipulating the reading order of text to prepare a display document for analysis
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2014064777A1 (ja) 文書評価支援システム、及び文書評価支援方法
CN114528826A (zh) 词典编辑装置、词典编辑方法以及记录有词典编辑程序的记录介质
JP7350674B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113033177B (zh) 一种电子病历数据的解析方法及装置
US11928421B2 (en) Technical document error detection
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN116522872A (zh) 一种基于相似度计算的元数据字段中文名补全方法、存储介质及***
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
JP7216680B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
CN114218935B (zh) 数据分析中的实体展示方法和装置
US20220366714A1 (en) Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method
WO2020203276A1 (ja) 新語候補抽出装置、新語候補抽出方法、及びプログラム
US20210064586A1 (en) Data processing device and data processing method
US20240232522A1 (en) Document comparison system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230913

R151 Written notification of patent or utility model registration

Ref document number: 7350674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151