JP7168826B2 - データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム - Google Patents
データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム Download PDFInfo
- Publication number
- JP7168826B2 JP7168826B2 JP2019001834A JP2019001834A JP7168826B2 JP 7168826 B2 JP7168826 B2 JP 7168826B2 JP 2019001834 A JP2019001834 A JP 2019001834A JP 2019001834 A JP2019001834 A JP 2019001834A JP 7168826 B2 JP7168826 B2 JP 7168826B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- feature
- extracting
- syntactic
- document information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は端末装置100の一例である。端末装置100はデータ統合支援装置の一例である。図1では、端末装置100の一例としてPersonal Computer(PC)が示されているが、タブレット端末といったスマートデバイスであってもよい。端末装置100はキーボード及びポインティングデバイス(以下、単にキーボードという)100Fを備えている。端末装置100はディスプレイ100Gを備えている。ディスプレイ100Gは液晶ディスプレイであってもよいし、有機electro-luminescence(EL)ディスプレイであってもよい。
続いて、図24及び図25を参照して、本件の第2実施形態について説明する。図24は比較例に係るマッチング例を説明するための図である。図25は第2実施形態に係るマッチング例を説明するための図である。第2実施形態では、第1実施形態で説明した第1構造化データD1及び第2構造化データD2に代えて、第1半構造化データD3と第2半構造化データD4を用いて説明する。
続いて、図26を参照して、本件の第3実施形態について説明する。図26はデータ統合支援システムSTの一例である。尚、図3に示す端末装置100の各部と同様の構成には同一符号を付し、その説明を省略する。
(付記1)第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶する記憶部と、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する処理を実行する処理部と、を備えるデータ統合支援装置。
(付記2)前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が文字か否かを判断し、前記第1の属性値及び前記第2の属性値が文字であると判断した場合に、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する、ことを特徴とする付記1に記載のデータ統合支援装置。
(付記3)前記処理部は、前記第1の類似度を算出し、算出した前記第1の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記1又は2に記載のデータ統合支援装置。
(付記4)前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が数値か否かを判断し、前記第1の属性値及び前記第2の属性値が数値であると判断した場合、形態素解析に基づいて、前記第1の属性名から前記第1の属性名が含む第1の単語を取得するとともに、前記第2の属性名から前記第2の属性名が含む第2の単語を取得し、前記第2の抽出手法に基づいて、前記第1の単語から前記第1の単語に応じた第1の意味的特徴量を抽出するとともに、前記第2の単語から前記第2の単語に応じた第2の意味的特徴量を抽出し、前記第1の意味的特徴量を平均化した第1の平均特徴量を生成するとともに、前記第2の意味的特徴量を平均化した第2の平均特徴量を生成し、前記第1の平均特徴量と前記第2の平均特徴量の類似度を表す第2の類似度及び前記第2の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、ことを特徴とする付記1に記載のデータ統合支援装置。
(付記5)前記処理部は、前記第2の類似度を算出し、算出した前記第2の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記4に記載のデータ統合支援装置。
(付記6)前記第1の構造化データと前記第2の構造化データはいずれもデータの構造定義を部分的に持つ半構造化データを含む、ことを特徴とする付記1から5のいずれか1項に記載のデータ統合支援装置。
(付記7)第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、処理をコンピュータが実行するデータ統合支援方法。
(付記8)前記処理は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が文字か否かを判断し、前記第1の属性値及び前記第2の属性値が文字であると判断した場合に、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する、ことを特徴とする付記7に記載のデータ統合支援方法。
(付記9)前記処理は、前記第1の類似度を算出し、算出した前記第1の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記7又は8に記載のデータ統合支援方法。
(付記10)前記処理は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が数値か否かを判断し、前記第1の属性値及び前記第2の属性値が数値であると判断した場合、形態素解析に基づいて、前記第1の属性名から前記第1の属性名が含む第1の単語を取得するとともに、前記第2の属性名から前記第2の属性名が含む第2の単語を取得し、前記第2の抽出手法に基づいて、前記第1の単語から前記第1の単語に応じた第1の意味的特徴量を抽出するとともに、前記第2の単語から前記第2の単語に応じた第2の意味的特徴量を抽出し、前記第1の意味的特徴量を平均化した第1の平均特徴量を生成するとともに、前記第2の意味的特徴量を平均化した第2の平均特徴量を生成し、前記第1の平均特徴量と前記第2の平均特徴量の類似度を表す第2の類似度及び前記第2の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、ことを特徴とする付記7に記載のデータ統合支援方法。
(付記11)前記処理は、前記第2の類似度を算出し、算出した前記第2の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記10に記載のデータ統合支援方法。
(付記12)前記第1の構造化データと前記第2の構造化データはいずれもデータの構造定義を部分的に持つ半構造化データを含む、ことを特徴とする付記7から11のいずれか1項に記載のデータ統合支援方法。
(付記13)第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、処理をコンピュータに実行させるためのデータ統合支援プログラム。
110 記憶部
111 データ記憶部
120 処理部
121 文書生成部
124 第1抽出部
125 第2抽出部
126 特徴合成部
127 類似度出力部
Claims (8)
- 第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶する記憶部と、
前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する処理を実行する処理部と、
を備えるデータ統合支援装置。 - 前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が文字か否かを判断し、前記第1の属性値及び前記第2の属性値が文字であると判断した場合に、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する、
ことを特徴とする請求項1に記載のデータ統合支援装置。 - 前記処理部は、前記第1の類似度を算出し、算出した前記第1の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、
ことを特徴とする請求項1又は2に記載のデータ統合支援装置。 - 前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が数値か否かを判断し、前記第1の属性値及び前記第2の属性値が数値であると判断した場合、形態素解析に基づいて、前記第1の属性名から前記第1の属性名が含む第1の単語を取得するとともに、前記第2の属性名から前記第2の属性名が含む第2の単語を取得し、前記第2の抽出手法に基づいて、前記第1の単語から前記第1の単語に応じた第1の意味的特徴量を抽出するとともに、前記第2の単語から前記第2の単語に応じた第2の意味的特徴量を抽出し、前記第1の意味的特徴量を平均化した第1の平均特徴量を生成するとともに、前記第2の意味的特徴量を平均化した第2の平均特徴量を生成し、前記第1の平均特徴量と前記第2の平均特徴量の類似度を表す第2の類似度及び前記第2の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、
ことを特徴とする請求項1に記載のデータ統合支援装置。 - 前記処理部は、前記第2の類似度を算出し、算出した前記第2の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、
ことを特徴とする請求項4に記載のデータ統合支援装置。 - 前記第1の構造化データと前記第2の構造化データはいずれもデータの構造定義を部分的に持つ半構造化データを含む、
ことを特徴とする請求項1から5のいずれか1項に記載のデータ統合支援装置。 - 第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、
前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、
単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、
前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、
前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、
前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、
処理をコンピュータが実行するデータ統合支援方法。 - 第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、
前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、
単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、
前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、
前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、
前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、
処理をコンピュータに実行させるためのデータ統合支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019001834A JP7168826B2 (ja) | 2019-01-09 | 2019-01-09 | データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019001834A JP7168826B2 (ja) | 2019-01-09 | 2019-01-09 | データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020112919A JP2020112919A (ja) | 2020-07-27 |
JP7168826B2 true JP7168826B2 (ja) | 2022-11-10 |
Family
ID=71668059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019001834A Active JP7168826B2 (ja) | 2019-01-09 | 2019-01-09 | データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7168826B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140337331A1 (en) | 2013-05-07 | 2014-11-13 | International Business Machines Corporation | Methods and Systems for Discovery of Linkage Points Between Data Sources |
-
2019
- 2019-01-09 JP JP2019001834A patent/JP7168826B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140337331A1 (en) | 2013-05-07 | 2014-11-13 | International Business Machines Corporation | Methods and Systems for Discovery of Linkage Points Between Data Sources |
Non-Patent Citations (1)
Title |
---|
田上 諒,単語分散表現を用いたEarth Mover’s Distanceと文長の違いに基づく類似度による対訳文の自動抽出,電子情報通信学会 技術研究報告 Vol.118 No.355 [online],日本,一般社団法人 電子情報通信学会,2018年12月04日,第118巻,第355号,pp. 3-8 |
Also Published As
Publication number | Publication date |
---|---|
JP2020112919A (ja) | 2020-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rusyn et al. | Model and architecture for virtual library information system | |
Rai | Identifying key product attributes and their importance levels from online customer reviews | |
Pivk et al. | Transforming arbitrary tables into logical form with TARTAR | |
US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
JP5477297B2 (ja) | 能動計量学習装置、能動計量学習方法および能動計量学習プログラム | |
US20080195611A1 (en) | Methodologies and analytics tools for locating experts with specific sets of expertise | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
Martín et al. | Using semi-structured data for assessing research paper similarity | |
JP2015138351A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
Meuschke et al. | A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents | |
JP2006323517A (ja) | テキスト分類装置およびプログラム | |
Mukku et al. | Tag me a label with multi-arm: Active learning for telugu sentiment analysis | |
El Barbary et al. | Feature selection for document classification based on topology | |
JP7168826B2 (ja) | データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム | |
Dinov et al. | Natural language processing/text mining | |
JP5700007B2 (ja) | 情報処理装置、方法、およびプログラム | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
Bender et al. | Unsupervised Estimation of Subjective Content Descriptions in an Information System. | |
JPH11272709A (ja) | ファイル検索方式 | |
JP6509391B1 (ja) | 計算機システム | |
CN112949287A (zh) | 热词挖掘方法、***、计算机设备和存储介质 | |
KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7168826 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |