JP7350674B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7350674B2 JP7350674B2 JP2020030937A JP2020030937A JP7350674B2 JP 7350674 B2 JP7350674 B2 JP 7350674B2 JP 2020030937 A JP2020030937 A JP 2020030937A JP 2020030937 A JP2020030937 A JP 2020030937A JP 7350674 B2 JP7350674 B2 JP 7350674B2
- Authority
- JP
- Japan
- Prior art keywords
- attributes
- tables
- information processing
- attribute
- electronic document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
図1は、本発明の一実施形態に係る情報処理装置の一例を示すブロック図である。本実施形態に関する情報処理装置1は、入出力部11と、解析部12と、変換部13と、属性情報生成部14と、判定部15と、記憶部16と、を備える。解析部12は、文書構造解析部121と、テキスト解析部122と、テーブル構造解析部123と、を備える。変換部13は、分割部131と、補完部132と、を備える。判定部15は、抽出部151と、編集距離算出部152と、集合類似度算出部153と、を備える。
11 入出力部
12 解析部
121 文書構造解析部
122 テキスト解析部
123 テーブル構造解析部
13 変換部
131 分割部
132 補完部
14 属性情報生成部
15 判定部
151 抽出部
152 編集距離算出部
153 集合類似度算出部
16 記憶部
161 テキスト情報
162 テーブル情報
163 属性情報
164 変換テーブル情報
2 コンピュータ装置
21 プロセッサ
22 主記憶装置
23 補助記憶装置
24 ネットワークインタフェース
25 デバイスインタフェース
26 バス
3 通信ネットワーク
4Aおよび4B 外部装置
Claims (10)
- コンピュータにより実行される情報処理装置であって、
第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
記第1の表に含まれる主体、または、前記第1の表に含まれる主体の上位概念、に関する
表に含まれ得る属性を示す属性情報と、に基づき、前記第1の表に含まれておらず前記第
1の表から省略されている属性を補完する補完部と、
同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
上の電子文書の記載に基づいて、前記補完部で補完された属性を含めて前記複数の表に含
まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む前記属性情報を
生成する生成部と、
を備える情報処理装置。 - コンピュータにより実行される情報処理装置であって、
第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
記電子文書の前記第1の表に関する説明文と、に基づき、前記第1の表に含まれておらず
前記第1の表から省略されている属性を補完する補完部と、
前記補完部で補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基
づき、前記第1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに
係る主体および属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関
係についての判定を行う判定部と、を備え、
前記コンピュータは、前記補完部および前記判定部の処理を実行する、
情報処理装置。 - 同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
上の電子文書の記載に基づいて、前記補完部で補完された属性を含めて前記複数の表に含
まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む属性情報を
生成する生成部
をさらに備える請求項2に記載の情報処理装置。 - 前記補完部は、前記電子文書の前記第1の表に関する説明文に基づき、前記説明文に記
載されているにもかかわらず前記第1の表に含まれていない属性を特定する
請求項1に記載の情報処理装置。 - 前記補完部で補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基
づき、前記第1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに
係る主体および属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関
係についての判定を行う判定部
をさらに備える請求項4に記載の情報処理装置。 - 前記第1の表は、一つ以上の主体に対する一つ以上の属性の値を示すものであり、
前記属性は、前記第1の表の見出しに記載され、
前記主体は、前記属性によって、性質または特徴が示されるものである
請求項1ないし5のいずれか一項に記載の情報処理装置。 - 第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
記第1の表に含まれる主体、または、前記第1の表に含まれる主体の上位概念、に関する
表に含まれ得る属性を示す属性情報と、に基づき、前記第1の表に含まれておらず前記第
1の表から省略されている属性を補完するステップと、
同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
上の電子文書の記載に基づいて、前記補完するステップで補完された属性を含めて前記複数の表に含
まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む前記属性情報を
生成するステップと、をコンピュータに実行させる
情報処理方法。 - 第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
記電子文書の前記第1の表に関する説明文と、に基づき、前記第1の表に含まれておらず
前記第1の表から省略されている属性を補完するステップと、
補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基づき、前記第
1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに係る主体およ
び属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関係についての
判定を行うステップと、をコンピュータに実行させる
情報処理方法。 - コンピュータに、
第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
記第1の表に含まれる主体、または、前記第1の表に含まれる主体の上位概念、に関する
表に含まれ得る属性を示す属性情報と、に基づき、前記第1の表に含まれておらず前記第
1の表から省略されている属性を補完するステップと、
同一の主体に関する複数の表に含まれている属性、または、前記複数の表を含む一つ以
上の電子文書の記載に基づいて、前記補完するステップで補完された属性を含めて前記複数の表に含
まれる属性のうち、前記複数の表に記載された数が閾値以上の属性を含む前記属性情報を
生成するステップと、を実行させる
プログラム。 - コンピュータに、
第1の表、および、前記第1の表を含む電子文書、の少なくともいずれかの記載と、前
記電子文書の前記第1の表に関する説明文と、に基づき、前記第1の表に含まれておらず
前記第1の表から省略されている属性を補完するステップと、
補完された第1の表に含まれる属性と、第2の表に含まれる属性と、に基づき、前記第
1の表および前記第2の表のセル同士で主体および属性を比較し、各セルに係る主体およ
び属性の集合類似度に基づいて、前記第1の表および前記第2の表の対応関係についての
判定を行うステップと、を実行させる
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030937A JP7350674B2 (ja) | 2020-02-26 | 2020-02-26 | 情報処理装置、情報処理方法、およびプログラム |
US17/013,687 US11526660B2 (en) | 2020-02-26 | 2020-09-07 | Information processing apparatus for complementing a heading of a table |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030937A JP7350674B2 (ja) | 2020-02-26 | 2020-02-26 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135712A JP2021135712A (ja) | 2021-09-13 |
JP7350674B2 true JP7350674B2 (ja) | 2023-09-26 |
Family
ID=77366759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020030937A Active JP7350674B2 (ja) | 2020-02-26 | 2020-02-26 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11526660B2 (ja) |
JP (1) | JP7350674B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134709A (ja) | 2008-12-04 | 2010-06-17 | Toshiba Corp | 語彙誤り検出装置及び語彙誤り検出方法 |
US20130086459A1 (en) | 2011-10-04 | 2013-04-04 | Microsoft Corporation | Automatic Scoping of Data Entities |
JP2016153953A (ja) | 2015-02-20 | 2016-08-25 | 日本電信電話株式会社 | 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム |
JP2017224240A (ja) | 2016-06-17 | 2017-12-21 | 富士通株式会社 | 表データ検索装置、表データ検索方法、及び表データ検索プログラム |
JP2018049356A (ja) | 2016-09-20 | 2018-03-29 | 株式会社日立製作所 | 表構造推定システムおよび方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4363764A (en) | 1980-12-30 | 1982-12-14 | Union Carbide Corporation | Preparation of rhodium complex compounds |
US7885822B2 (en) * | 2001-05-09 | 2011-02-08 | William Rex Akers | System and method for electronic medical file management |
JP2004102400A (ja) * | 2002-09-05 | 2004-04-02 | Beacon Information Technology:Kk | データ管理システム、方法及びコンピュータプログラム |
JP4427500B2 (ja) * | 2005-09-29 | 2010-03-10 | 株式会社東芝 | 意味解析装置、意味解析方法および意味解析プログラム |
US8165994B2 (en) * | 2007-12-19 | 2012-04-24 | Microsoft Corporation | Integrated governance and version audit logging |
US8347204B2 (en) * | 2008-05-05 | 2013-01-01 | Norm Rosner | Method and system for data analysis |
JP5585182B2 (ja) * | 2010-04-21 | 2014-09-10 | 富士通株式会社 | 財務データ処理装置、財務データ処理方法および財務データ処理プログラム |
US8990675B2 (en) * | 2011-10-04 | 2015-03-24 | Microsoft Technology Licensing, Llc | Automatic relationship detection for spreadsheet data items |
US8990202B2 (en) * | 2011-11-03 | 2015-03-24 | Corefiling S.A.R.L. | Identifying and suggesting classifications for financial data according to a taxonomy |
US10229101B2 (en) * | 2013-06-14 | 2019-03-12 | Microsoft Technology Licensing, Llc | Smart fill |
US9286290B2 (en) * | 2014-04-25 | 2016-03-15 | International Business Machines Corporation | Producing insight information from tables using natural language processing |
US11227104B2 (en) * | 2014-05-11 | 2022-01-18 | Informatica Llc | Composite data creation with refinement suggestions |
US10055430B2 (en) * | 2015-10-14 | 2018-08-21 | International Business Machines Corporation | Method for classifying an unmanaged dataset |
US11062213B2 (en) | 2016-08-05 | 2021-07-13 | Nec Corporation | Table-meaning estimation system, method, and program |
JP6847812B2 (ja) | 2017-10-25 | 2021-03-24 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
JP7064871B2 (ja) | 2017-12-27 | 2022-05-11 | 株式会社日立社会情報サービス | テキストマイニング装置およびテキストマイニング方法 |
JP2019149125A (ja) | 2018-02-28 | 2019-09-05 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
-
2020
- 2020-02-26 JP JP2020030937A patent/JP7350674B2/ja active Active
- 2020-09-07 US US17/013,687 patent/US11526660B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134709A (ja) | 2008-12-04 | 2010-06-17 | Toshiba Corp | 語彙誤り検出装置及び語彙誤り検出方法 |
US20130086459A1 (en) | 2011-10-04 | 2013-04-04 | Microsoft Corporation | Automatic Scoping of Data Entities |
JP2016153953A (ja) | 2015-02-20 | 2016-08-25 | 日本電信電話株式会社 | 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム |
JP2017224240A (ja) | 2016-06-17 | 2017-12-21 | 富士通株式会社 | 表データ検索装置、表データ検索方法、及び表データ検索プログラム |
JP2018049356A (ja) | 2016-09-20 | 2018-03-29 | 株式会社日立製作所 | 表構造推定システムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021135712A (ja) | 2021-09-13 |
US11526660B2 (en) | 2022-12-13 |
US20210264100A1 (en) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496745B2 (en) | Dictionary updating apparatus, dictionary updating method and computer program product | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
JP5144940B2 (ja) | 目次抽出におけるロバスト性向上 | |
US8111922B2 (en) | Bi-directional handwriting insertion and correction | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2005352888A (ja) | 表記揺れ対応辞書作成システム | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
CN110889118B (zh) | 异常sql语句检测方法、装置、计算机设备和存储介质 | |
US9658989B2 (en) | Apparatus and method for extracting and manipulating the reading order of text to prepare a display document for analysis | |
JP7040155B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2014064777A1 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
CN114528826A (zh) | 词典编辑装置、词典编辑方法以及记录有词典编辑程序的记录介质 | |
JP7350674B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113033177B (zh) | 一种电子病历数据的解析方法及装置 | |
US11928421B2 (en) | Technical document error detection | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
CN116522872A (zh) | 一种基于相似度计算的元数据字段中文名补全方法、存储介质及*** | |
CN110807322B (zh) | 基于信息熵识别新词的方法、装置、服务器及存储介质 | |
JP7216680B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
CN114218935B (zh) | 数据分析中的实体展示方法和装置 | |
US20220366714A1 (en) | Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method | |
WO2020203276A1 (ja) | 新語候補抽出装置、新語候補抽出方法、及びプログラム | |
US20210064586A1 (en) | Data processing device and data processing method | |
US20240232522A1 (en) | Document comparison system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220712 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230913 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7350674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |