JP2018072960A - データ分析支援装置及びデータ分析支援システム - Google Patents

データ分析支援装置及びデータ分析支援システム Download PDF

Info

Publication number
JP2018072960A
JP2018072960A JP2016209063A JP2016209063A JP2018072960A JP 2018072960 A JP2018072960 A JP 2018072960A JP 2016209063 A JP2016209063 A JP 2016209063A JP 2016209063 A JP2016209063 A JP 2016209063A JP 2018072960 A JP2018072960 A JP 2018072960A
Authority
JP
Japan
Prior art keywords
data
analysis
item
business
generation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016209063A
Other languages
English (en)
Other versions
JP6736450B2 (ja
JP2018072960A5 (ja
Inventor
祐子 山下
Yuko Yamashita
祐子 山下
皆川 剛
Takeshi Minagawa
剛 皆川
友恵 富山
Tomoe Tomiyama
友恵 富山
川崎 健治
Kenji Kawasaki
健治 川崎
山本 秀典
Hidenori Yamamoto
秀典 山本
岳志 半田
Takashi Handa
岳志 半田
高志 津野
Takashi Tsuno
高志 津野
博之 平田
Hiroyuki Hirata
博之 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016209063A priority Critical patent/JP6736450B2/ja
Priority to PCT/JP2017/026535 priority patent/WO2018078971A1/ja
Priority to KR1020197007012A priority patent/KR102172029B1/ko
Priority to US16/331,674 priority patent/US11188567B2/en
Publication of JP2018072960A publication Critical patent/JP2018072960A/ja
Publication of JP2018072960A5 publication Critical patent/JP2018072960A5/ja
Application granted granted Critical
Publication of JP6736450B2 publication Critical patent/JP6736450B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のテーブルを対象とし、データ知識の無い人、分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析できるデータ分析支援装置を提供すること。【解決手段】データ分析支援装置は、各業務システム間の関係、各業務データテーブル間の関係、各業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を解析して関係ネットワークとして記憶する関係ネットワーク生成部と、データ分析対象となるデータ項目を実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別に分類するデータ項目分類部と、データ分析に用いるデータ分析用テーブルを生成し蓄積する分析用データテーブル生成部と、組合せてデータ分析が可能なデータ項目群をデータモデルとして生成するデータモデル生成部と、分析対象となるデータ項目を推薦する分析対象項目提示部と、を備える。【選択図】図1

Description

本発明は、データ分析支援装置及びデータ分析支援システムに関し、特に、複数のシステムのデータを対象として分析する際の分析対象とするデータ項目の候補を推薦する技術に関するデータ分析支援装置及びデータ分析支援システムに適用して好適なものである。
鉄道、産業、その他の分野では、ベテラン世代の引退に伴い、これまで現場で培われてきたノウハウのIT化による蓄積・継承や、さらなる業務効率化の施策立案に向けての、データ利活用のニーズが拡大している。一方、特に鉄道分野では、各鉄道会社の運行、営業、保守、等の業務システムは個別に開発されてきており、横断的なデータ活用が困難である。
データを分析する際には、データ項目を様々に組合せながら所望の分析を実施できるデータ項目の組を見つけるが、一般にデータ項目が増えるほどこの作業は重要性や負担が増大する。分析対象項目を取捨選択するためには、データの内容を理解する必要がある。
ER図及びテーブル定義が記載された各業務システムのデータ仕様書が存在すれば、データ仕様書を読むことでデータ理解が可能であるが、古くからあるシステムにおいては度重なるシステム改修にデータ仕様書が対応していないこともある。また、規模が大きいシステムの場合は、全ての仕様書を読むことは難しい。他社製のシステムのデータを扱う場合はデータ仕様書を入手不可能なこともある。
これに関し、従来は、分析担当者の知識や経験で候補数を削減して分析対象項目を選定している。そのため、分析結果が分析担当者の能力に依存してしまうという問題がある。
従来技術においては、多次元データのデータ項目間のデータの関連度を算出し、この関連度に基づいて分析対象に適するデータ項目の組を抽出し、ユーザに対して推薦する分析対象項目として提示している(特許文献1参照)。
特開2012−103841号公報
しかしながら、上述した従来技術(特許文献1)では、同じデータテーブル内のデータ項目に対して分析対象のデータ項目を推薦するため、複数のテーブルを対象とした分析対象項目を推薦できない。また、複数のテーブルをまたがって分析する場合は、主キー情報及び参照情報等のテーブル定義情報をDB等から抽出して用いる必要がある。
本発明は以上の点を考慮してなされたもので、複数のテーブルを対象とし、データ知識の無い人や分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析することができるデータ分析支援装置及びデータ分析支援システムを提案しようとするものである。例えば、鉄道分野においては、鉄道事業者の多種多様な業務システムのデータを、データ分析専門家が時間をかけてデータを理解した後に分析するのではなく、鉄道事業者の担当者自身がデータ分析システムを用いて複数の業務情報を組合せて分析する際に、時間をかけずにデータを理解し、分析対象項目を選択して分析することができる。
かかる課題を解決するため、本発明においては、少なくとも1つ以上の各業務システムにおける各業務データテーブルの各業務データを対象とした分析を支援するデータ分析支援装置であって、前記各業務データが保有する各データ項目を、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別と、に分類するデータ項目分類部と、前記各業務システム間の関係、前記各業務データテーブル間の関係、前記各業務データテーブルが保有する前記各データ項目間の関係、前記各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして生成する関係ネットワーク生成部と、前記関係ネットワークに基づいて、前記第1のデータ種別に含まれるデータ項目を少なくとも1つ含む分析用データテーブルを生成する分析用データテーブル生成部と、前記各データ項目の組み合わせから成る分析対象候補について、前記分析用データテーブルに基づいて分析推奨度となるスコアを求めるデータモデル生成部と、前記データモデル生成部によって求められた前記スコアに基づく前記分析推奨度とともに前記分析対象候補を出力する分析対象項目提示部と、を備えることを特徴とする。
また、本発明においては、少なくとも1つ以上の各業務システムにおける各業務データテーブルの各業務データを対象とした分析を支援するデータ分析支援装置を含むデータ分析支援システムであって、前記各業務データが保有する各データ項目を、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別と、に分類するデータ項目分類部と、前記各業務システム間の関係、前記各業務データテーブル間の関係、前記各業務データテーブルが保有する前記各データ項目間の関係、前記各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして生成する関係ネットワーク生成部と、前記関係ネットワークに基づいて、前記第1のデータ種別に含まれるデータ項目を少なくとも1つ含む分析用データテーブルを生成する分析用データテーブル生成部と、前記各データ項目の組み合わせから成る分析対象候補について、前記分析用データテーブルに基づいて分析推奨度となるスコアを求めるデータモデル生成部と、前記データモデル生成部によって求められた前記スコアに基づく前記分析推奨度とともに前記分析対象候補を出力する分析対象項目提示部と、を有するデータ分析支援装置と、前記データ分析支援装置によって出力された前記分析対象候補に基づいて分析対象項目を決定する分析装置と、を備えることを特徴とする。
本発明によれば、複数のテーブルを対象とし、データ知識の無い人や分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析することができる。
第1の実施の形態に係るデータ分析支援装置を含むデータ分析支援システムのシステム構成例を示す図である。 第1の実施の形態に係る関係ネットワークの一例を示す図である。 関係ネットワーク情報のテーブル構成例を示す図(その1)である。 関係ネットワーク情報のテーブル構成例を示す図(その2)である。 関係ネットワーク情報のテーブル構成例を示す図(その3)である。 関係ネットワーク情報のテーブル構成例を示す図(その4)である。 業務システムの保有する業務情報の一例を示す図である。 分析用データテーブル情報テーブルのテーブル構成例を示す図である。 データモデル情報テーブルのテーブル構成例を示す図である。 第1の実施の形態に係るデータ分析支援処理の一例を示すフローチャートである。 第1の実施の形態に係る関係ネットワーク生成・更新処理の一例を示すフローチャート(その1)である。 第1の実施の形態に係る関係ネットワーク生成・更新処理の一例を示すフローチャート(その2)である。 第1の実施の形態に係るデータ項目分類処理の一例を示すフローチャートである。 第1の実施の形態に係る分析用データテーブル生成・蓄積処理の一例を示すフローチャートである。 第1の実施の形態に係るデータモデル生成処理の一例を示すフローチャートである。 第1の実施の形態における第1の画面例を示す図である。 第1の実施の形態における第2の画面例を示す図である。 第2の実施の形態に係るデータ分析支援装置を含むデータ分析支援システムのシステム構成例を示す図である。 第2の実施の形態に係るデータ分析支援処理を示すフローチャートである。 第2の実施の形態に係るフィルタリング情報生成処理を示すフローチャートである。 第2の実施の形態における第1の画面例を示す図である。 第3の実施の形態に係るデータ分析支援装置を含むデータ分析支援システムのシステム構成例を示すブロック図である。 第3の実施の形態に係る原因情報生成処理を示すフローチャートである。
以下、図面について、本発明の一実施の形態について詳述する。なお、本実施の形態では、その適用対象例として、鉄道に関するデータを分析する際のデータ分析支援装置及びデータ分析支援システムを挙げつつ説明する。
(1)第1の実施の形態
(1−1)システム構成例
図1は、第1の実施の形態に係るデータ分析支援装置のシステム構成例を示す図である。データ分析支援装置101は、データ分析対象となる業務情報をそれぞれ保有する第1の業務システム102及び第2の業務システム103並びにデータ分析を実行するデータ分析システム104と、通信網122を介して通信可能に接続されている。
データ分析支援装置101は、第1の業務システム102及び第2の業務システム103との間において分析対象とする業務情報を送受信する一方、データ分析システム104との間において分析用データテーブル及びデータモデルを送受信する。
データ分析支援装置101では、記憶装置110、演算処理装置105、メモリ106、通信装置107、入力装置108及び表示装置109がデータバス123に接続された構成となっている。
記憶装置110は、不揮発性記憶装置で構成されており、例えばハードディスクドライブである。記憶装置110は、データベース111及びプログラム112が記憶されている。データベース111は、後述する各種テーブルが格納されており、プログラム112は、データベース111の各種テーブルとの間でデータを検索、更新、新規登録及び削除する。
入力装置108は、ユーザによるキー入力または音声入力を受け付ける機能を有する。本実施の形態では、データ分析支援装置101が入力装置108を備えているが、その代わりに、データ分析システム104が入力装置108を備えており、ユーザがデータ分析システム104から通信網122を介してデータ分析支援装置101に対して入力操作を行う構成としても良い。
表示装置109は、処理データを表示するディスプレイ等の表示機能を有する。本実施の形態では、データ分析支援装置101が表示装置109を備えているが、その代わりに、データ分析システム104が表示装置109を備えており、データ分析支援装置101が通信網122を介してデータ分析システム上に処理データを表示させる構成としても良い。
演算処理装置105は、記憶装置110に保持されるプログラム112を読み出してメモリ106の記憶領域に格納し実行することにより、装置自体を統括制御する一方、各種判定、演算及び制御処理を実行する。
メモリ106は、揮発性記憶装置の一例であり、例えばRAMである。データベース111は各種テーブルを管理する。データベース111は、元データ格納部113、関係ネットワークテーブル114、分析用データテーブル情報テーブル115及びデータモデル情報テーブル116を備えている。
本実施の形態では、第1の業務システム102及び第2の業務システム103が保有する全業務情報を、更新のある度に通信網122を介して通信装置107が通信して取得し、元データ格納部113に格納することとして説明するが、分析対象データである業務情報は、業務情報であるテーブルが保有する全てのデータ項目と、一部分のデータ値(例えば、数日分のレコードのみ)を元データ格納部に格納し、必要に応じて業務システム102や103から通信網122を介して取得する構造としても良い。
プログラム112には、演算処理装置105によって実行される処理が記述されている。このプログラム112は、関係ネットワーク生成部117、データ項目分類部118、分析用データテーブル生成部119、データモデル生成部120及び分析対象項目提示部121を備えている。
関係ネットワーク生成部117は、元データ格納部113に格納されている業務情報であるデータテーブルを解析し、各業務システム間の関係、各データテーブル間の関係、各業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして構築して関係ネットワークテーブル114に格納する。この関係ネットワークテーブル114に格納する関係ネットワーク情報の属性情報及び構成については図3〜図6を用いて後述する。関係ネットワークの詳細についても図2を用いて後述する。
データ項目分類部118は、データ分析対象である業務情報を表すテーブル及びデータ項目をマスタまたはトランザクション、すなわち、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別と、に分類し、関係ネットワークテーブル114におけるテーブル情報及びデータ項目情報の種別情報として格納する。
分析用データテーブル生成部119は、元データである業務情報のデータテーブルを、関係ネットワーク情報を利用して統合し、データ分析に用いるデータ分析用テーブルとして分析用データテーブル情報テーブル115に業務情報を格納することで、分析対象となるデータ項目の組合せを蓄積する。この分析用データテーブル情報テーブル115に業務情報が格納されることで、データ分析システム104は、データ分析を実行する際に通信網122を介して分析用データテーブル情報テーブル115を容易に取得可能となる。
データモデル生成部120は、組合せてデータ分析が可能なデータ項目の集合を、キー項目、分析の際のフィルタリング項目となるデータ項目、データ項目の組合せごとに算出したスコアとともにデータモデルとして生成し、データモデル情報テーブル116に蓄積する。
分析対象項目提示部121は、分析対象となるデータ項目をデータモデル毎に表示し、分析対象となるデータ項目の組合せをスコアとともに強調表示することでユーザに対して推薦する。
(1−2)関係ネットワーク
図2は、関係ネットワークの一例の全体像を示す図である。本実施の形態において「関係ネットワーク」とは、複数の異なる業務システムが保有する多種多様な業務情報についてデータ間の関係情報を生成するため、複数のシステムを跨いだデータ間の関係を含むデータの関連性を表している。
このような関係ネットワークは、後述するように表示装置109に表示されることで(図16参照)、多種多様な業務情報の内容及び関係を、ユーザに、テーブル仕様書等を読むことなしに理解させることを支援することができる。
関係ネットワークは、多種多様なデータの構造が自動で取り込まれ、当該取り込まれたデータを検索し、利用可能とするために、動的に、各システム間、各データテーブル間、各データ項目間、各データ値間の関係を構築するデータモデルを表している。図2に示すように、関係ネットワークは、システム層、テーブル層、データ項目層、データ値層の4層から構成される。
システム層では、対象とする業務情報の各元(ソース)業務システムをノードとし、異なるシステムに共通するデータがあれば、システムを表す各ノード間のリンク803にて表現する。システム層は、各システム間で横断的なデータ分析が可能であるか否かを表す。
テーブル層では、業務情報を示す各データテーブルをノードとし、異なるデータテーブルに共通するデータ項目があれば、データテーブルを表すノード間のリンクにて表現する。テーブル層は、データテーブル間のつながりを表すER図としての役割を担う。
データ項目層では、各データテーブルが保有する各データ項目をノードとし、データ項目間に関係があればノード間のリンクにて表現する。このデータ項目を用いて分析用データテーブルを作成することで、分析対象項目の選択支援を行う。
データ値層では、各データテーブルの各レコードの各データ項目のデータ値をノードとし、同じレコード内に存在することをノード間のリンクにて表現する。データ値層は、例えば「A駅に関係するものは何か?」のように個々のデータ値に関して関係するものを調査する際に用いることが可能である。
図2は、次のような構成を前提として構築した関係ネットワークの一例を示す。すなわち、第1の業務システム102が運行管理システムである一方、第2の業務システム103が車両管理システムである。運行管理システムは、列車走行実績テーブル(図7(B)の列車走行実績テーブル)及び遅延情報テーブル(図7(C)の遅延情報テーブル)を保有する一方、車両管理システムは、車内状態テーブル(図7(D)の車内状態テーブル)を保有する。本実施の形態では、このような関係ネットワークを構築するデータを「関係ネットワーク情報」と呼んでいる。この関係ネットワーク情報は、関係ネットワークテーブル114(図1参照)に格納されている。ここでは、一例として、以上のような関係ネットワークを例示している。
本実施の形態では、運行管理システムを表すノード801と車両管理システムを表すノード802とがシステム層に存在するとともに、これらのノード801,802間にリンク803が存在する。さらに列車走行実績テーブルを表すノード804と、遅延情報テーブルを表すノード805と、車内状態を表すノード806とがテーブル層に存在するとともに、各ノード804,805,806間にリンクが設定されている。
また、システム層のノード801と、テーブル層のノード805との間にリンク807が存在するが、このリンク807は、運用管理システムが保有するテーブルであることを表している。データ項目層のノード及びデータ値層のノードも、図7(A)〜図7(D)に各々示すテーブルが保有するデータ項目及びレコードのデータ値となっている。すなわち、図2では各層間のリンクを用いて保有関係が表わされている。本例では省略のため、各テーブルの第一レコードのデータ値のみがデータ値層のノードとして示されているが、本来はすべてのレコードのデータ値が重複のないノードとして存在する。
図2においては、各層のデータを検索・利用可能とするため、システムが保有するテーブル、このテーブルが保有するデータ項目、このデータ項目が保有するデータ値といった関係を層間のノード間のリンクを用いて表現されている。
詳細は後述するが、新しいデータが入力される度に、この関係ネットワークが随時更新される。更新の際、追加情報をノード、リンクに変換して関係ネットワークの構造を更新する。ここで、追加するリンクが関係ネットワークに既に存在する場合は、リンクの重み(関連性の大きさ)を増加させることで、ノード間の関係の強さをリンクの重みとして表現する仕組みとなっている。
(1−3)関係ネットワーク情報
図3は、関係ネットワーク生成部117が関係ネットワークテーブル114に格納する関係ネットワーク情報を表すデータテーブルのうち、関係ネットワークのシステム層のノード及びリンクに関するデータのテーブル構成例である。
システム層のノードは、ノードID901及びシステム名902を属性として有する。システム層のリンクは、リンクID903、リンク元ノードIDであるfrom項目904、リンク先ノードIDであるto項目905、種別906、重み907を属性として有する。種別906及び重み907は、後述する図12のステップS408にてリンクを設定する際に設定、算出する。
図4(A)〜図4(C)は、関係ネットワーク生成部117が関係ネットワークテーブル114に格納する関係ネットワーク情報を表すデータテーブルのうち、関係ネットワークのテーブル層のノード、リンクに関するデータのテーブル構成例である。テーブル層のノードは、ノードID1001、テーブル名1002、テーブルの保有するデータ項目のIDである項目1003、種別1004、当該テーブルを保有するシステムのIDである元システムID1005を属性として有する。元システムID1005にて図2に示すシステム層とテーブル層の間のリンクを表している。種別1004は、後述する図13のステップS501の判定結果を格納する。テーブル層のリンクは、リンクID、リンク元ノードIDであるfrom項目、リンク先ノードIDであるto項目、種別、重みを属性として有する。種別及び重みは、後述する図12のステップS407にてリンクを設定する際に設定、算出する。
図5(A)〜図5(C)は、関係ネットワーク生成部117が関係ネットワークテーブル114に格納する関係ネットワーク情報を表すデータテーブルのうち、関係ネットワークのデータ項目層のノード、リンクに関するデータのテーブル構成例である。データ項目層のノードは、ノードID、項目名、重み、種別、当該データ項目を保有するテーブルのIDであるテーブルIDを属性として有する。種別1004は、後述する図13のステップS502及びステップ504の結果を格納する。また、テーブルIDにて、図2に示すテーブル層とデータ項目層の間のリンクを表している。データ項目層のリンクは、リンクID、リンク元ノードIDであるfrom項目、リンク先ノードIDであるto項目、種別、重み、リンクの示すテーブルIDを属性として有する。種別、重み及びテーブルIDは、後述する図11のステップS308にてリンクを設定、更新する際に設定、算出する。
図6(A)〜図6(C)は、関係ネットワーク生成部117が関係ネットワークテーブル114に格納する関係ネットワーク情報を表すデータテーブルのうち、関係ネットワークのデータ値層のノード、リンクに関するデータのテーブル構成例である。データ値層のノードは、ノードID、値、重み、当該データ値を保有するデータ項目IDであるデータ項目ID、当該データ値を有するテーブルのテーブル層におけるノードIDと、テーブル内のレコードに1から順に設定する当該レコードのレコードIDとをセットにしたものを属性として有する。データ項目IDにて、図2に示すデータ項目層とデータ値層の間のリンクを表している。データ値層のリンクは、リンクID、リンク元ノードIDであるfrom項目、リンク先ノードIDであるto項目、種別、重み、当該リンクの示すテーブルのテーブル層におけるノードIDと、テーブル内のレコードに1から順に設定する当該レコードのレコードIDとをセットにしたものを属性として有する。種別、重み及びテーブルIDとレコードIDの組は、後述する図12のステップS405にてリンクを設定、更新する際に設定、算出する。
図7(A)は駅マスタのデータテーブル例を表しており、図7(B)は列車走行実績テーブルのデータテーブル例を表しており、図7(C)は遅延情報テーブルのデータテーブル例を表しており、図7(D)は車内状態テーブルのデータテーブル例を表している。
図7(A)に示す駅マスタは、そのカラムとして駅コード、駅名及び駅住所を有し、これらの情報を管理する。図7(B)に示す列車走行実績テーブルは、そのカラムとして列車番号、駅コード、出発時刻及び到着時刻を有し、これらの情報を管理する。図7(C)に示す遅延情報テーブルは、そのカラムとして列車番号、駅コード及び遅延時分を有し、これらの情報を管理する図7(D)に示す車内状態テーブルは、そのカラムとして列車番号、豪奢及び混雑度を有し、これらの情報を管理する。
図8(A)〜図8(D)は、分析用データテーブル生成部119によって生成される分析用データテーブルを格納する分析用データテーブル情報テーブル115(図1参照)の構成例及び分析用データテーブルの一例を示す。分析用データテーブル情報テーブル115は、1つの分析用データテーブルを1レコードとして管理している。各レコードの項目は、分析用データテーブルの固有IDを示す分析用テーブルID1421、及び、分析用データテーブルを格納する分析用テーブル1422を有する。
図8(B)〜図8(D)は分析用データテーブル1422に格納する分析用データテーブルの一例であり、図16に示す関係ネットワークにおいて、図14に示すノードAとして遅延時分ノード1601、ノードBとして降水量ノード1602、パスとしてリンク1603,1604,1605,1606,1607,1608,1609としたときに生成される分析用データテーブルを示す。なお、当該図16は、図2に例示した運行管理システム及び車両管理システムの他に、気象情報というオープンデータを元データ格納部113に格納して取扱い対象とした際におけるデータ項目層の関係ネットワークを表している。
リンク1603が示すテーブルは、列車番号1401、駅コード1402、遅延時分1405をカラムとして有する遅延情報テーブル(図7(C)参照)である。リンク1604が示すテーブルは、列車番号1401、駅コード1402、出発時刻1403及び到着時刻1404からなる列車走行実績テーブル(図7(B)参照)である。
まず、この2つのテーブルを共通データ項目である列車番号1401及び駅コード1402をキーとして結合する。次に、リンク1605が示すテーブルは列車走行実績テーブルであるため、結合しても結合後テーブルに変更はない。
次のリンク1606が示すテーブルは、カラムとして駅コード1402、駅名1406、駅住所1407を有する駅マスタテーブル(図7(A)参照)である。駅マスタテーブルとこれまで結合したテーブルとは、駅コードをキーとして結合される。
パス内の次のリンク1607は、テーブルIDを持たない1対多の種別のリンクであるため、次のリンク1608へ進む、リンク1608が示すテーブルは、オープンデータである気象観測地点の観測場所1409及び住所1408を含む観測場所マスタテーブルである。
本テーブルとの統合は、リンク1607にてつながる駅住所1407及び住所1408を用いる。住所については完全一致ではなく、地図情報等を用いて最も距離の近いものを突き合わせ、テーブルが統合される。
パス内の次のリンク1608が示すテーブルは、オープンデータである観測場所1409、時刻1410、降水量1411及び風速1412を含む気象情報テーブルである。これまで統合したテーブルと、気象情報テーブルとは、共通データ項目である観測場所1409、リンク1610にて対応付け可能な時刻1410、及び出発時刻1403をキーとして、統合される。時刻の対応付けについても、場所の対応付けと同様に、最も近い時刻を突き合わせることで、完全一致でない場合でも対応付けることができる。
図9は、データモデル情報テーブル116のテーブル構成例を示す。このデータモデル情報テーブル116には、データモデル生成部120によって生成されるデータモデルが格納される。
データモデル情報テーブル116では、1つのデータモデルを1レコードとして管理している。各レコードの項目は、データモデル固有のIDを示すモデルID1501、モデルが含むデータ項目テーブルを格納するデータ項目1502、モデル内のデータ項目間のスコアテーブルを格納するスコア1503、関係ネットワークのデータ項目層にて、モデルが含むデータ項目を示すノード間のリンクを示すテーブルを格納するリンク1504、及び、対応する分析用データテーブルIDを示す分析用テーブルID1421が格納される分析用テーブル1505を有する。
データ項目1502に格納するデータ項目テーブルは、1つのデータ項目が1レコードとして管理されている。各レコードの項目は、図9(B)に示すように項目ID1506及び項目名1507を有する。
スコア1503に格納されるスコアテーブルは、データ項目間1つを1レコードとして管理する。各レコードの項目は、スコアID1513、ステップS703にて算出する項目ID(1)1514、項目ID(2)1515、項目ID(1)1514が示すデータ項目及び項目ID(2)1515が示すデータ項目の値の相関係数を示す相関係数1516、及び、相関係数を算出する際に用いたサンプル数を示すサンプル数1517を有する。なお、このサンプル数1517は、後述する図15のステップS703において算出される値に相当する。
リンク1504に格納するリンクテーブルは、図示しないが、1ノード間のリンクを1レコードとして管理しており、そのテーブル構成は、図5(C)に示すリンクテーブルと同様な構成である。
(1−4)データ分析支援システムの動作例
(1−4−1)基本的な処理手順(データ分析支援処理)
図10は、第1の実施の形態に係るデータ分析支援装置101による基本的な処理手順を示す。具体的には、図10は、データ分析支援装置101に新しく業務システムが接続された際、接続された業務システムの保有する業務情報が更新された際、または、データ分析システム104からの更新命令を受信した際等に実施する処理の流れの一例を示す。
ステップS201では、関係ネットワーク生成部117が、新しいデータがあるか否か、すなわち、本データ分析支援装置が対象とする業務情報であるデータテーブルに更新があったか否かを判定する。この判定の結果に基づいて、関係ネットワーク生成部117は、上記データテーブルに更新があった場合、すなわち、新しい業務システムが接続された場合、既に接続されている業務システム102,103が保有するデータテーブルにデータの追加若しくは変更があった場合、または、データ分析支援装置101を新規に導入した場合、次のようなステップS202を実行する。一方、上記データテーブルに更新がなかった場合、関係ネットワーク生成部117は本処理を終了する。
ステップS202では、関係ネットワーク生成部117が、元データ格納部113に格納されている業務情報であるデータテーブルを解析し、各業務システム間の関係、各データテーブル間の関係、各業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして構築して関係ネットワークテーブル114に格納する。この詳細については、図11及び図12を参照しつつ後述する。
ステップS203では、データ項目分類部118が、データ分析対象である業務情報を表すデータテーブル及びデータ項目を実績値に基づく第1のデータ種別(トランザクション)と、計画値または事前定義に基づく第2のデータ種別(マスタ)に分類し、関係ネットワークテーブル114におけるテーブル情報やデータ項目情報の分類情報として格納する。この詳細については、図13を参照しつつ後述する。
ステップS204では、分析用データテーブル生成部119が、元データである業務情報のデータテーブルについて関係ネットワーク情報を利用して統合し、データ分析に用いるデータ分析用テーブルとして分析用データテーブル情報テーブル115に格納する。これにより、分析対象となるデータ項目の組合せが蓄積される。この詳細については、図14を参照しつつ後述する。
ステップS205では、分析用データテーブル生成部119が、新しいデータテーブルが存在するか否か、すなわち、分析用データテーブル情報テーブル115に格納した分析用データテーブルのうち、本処理実行前と比較して更新されたデータテーブルまたは新しいデータテーブルが存在するか否かについて判定する。分析用データテーブル生成部119は、そのようなデータテーブルが存在すればステップS206を実行する一方、そのようなデータテーブルが存在しなければ本処理を終了する。
ステップS206では、データモデル生成部120が、更新があった分析用データテーブルまたは新しいデータテーブル毎にデータモデルを生成する。本処理では、データモデル生成部120が、組合せてデータ分析が可能なデータ項目の集合を、キー項目、分析の際のフィルタリング項目となるデータ項目、データ項目の組合せごとに算出したスコアとともにデータモデルとして生成し、データモデル情報テーブル116に蓄積する。この詳細については、図15を参照しつつ後述する。
各分析用テーブルに関してステップS206の処理が実施された後、ステップS207を実行する。このステップS207では、分析対象項目提示部121が、分析対象となるデータ項目をデータモデル毎に表示し、分析対象となるデータ項目の組合せをスコアとともに強調表示することにより、ユーザに対して推薦する。表示例については、図17を参照しつつ後述する。その後、本処理を終了する。
(1−4−2)関係ネットワーク生成・更新処理
図11及び図12は、それぞれ、図10に示す関係ネットワーク生成・更新処理(ステップS202)の詳細な手順例を示す。この関係ネットワーク生成・更新処理は、関係ネットワーク生成部117によって実行される。まず、本装置が分析対象として推薦する元データを保有する各業務システムに対し、以下の処理を実施する。
ステップS301では、関係ネットワーク生成部117が、当該業務システムを表すノードが関係ネットワークのシステム層にないか否かを判定する。当該システムのノードがシステム層に存在しなければステップS302が実行され、一方、当該システムのノードがシステム層に存在すればステップS303を実行する。
このステップS302では、関係ネットワーク生成部117が、当該システムを表すノードをシステム層に生成する。このノードは、システム層に生成した順に設定するノードID及びシステム名を属性として有する。
システム名は、例えば、元データ格納部113にて業務システム毎に分かれていれば、ディレクトリ名などから設定しても良いし、通信装置107から通信網122を介して各業務システム102,103に問い合わせても良い。
当該業務システム102,103の業務情報における各データテーブルに対し、以下の処理を実施する。まず、ステップS303では、関係ネットワーク生成部117が、当該データテーブルが関係ネットワークのテーブル層に存在するか否かを判定する。当該テーブルが関係ネットワークのテーブル層に存在しなければステップS304を実行する一方、当該テーブルが関係ネットワークのテーブル層に存在すればステップS401へ進む。
ステップS304では、関係ネットワーク生成部117が、当該データテーブルを表すノードをテーブル層に生成する。ノードは、テーブル層に生成した順に設定するノードIDと、テーブル名、テーブルが保有するデータ項目、種別、当該システムのシステム層におけるノードIDである元システムIDを属性として有する。種別は、当該テーブルがマスタテーブルであれば0とし、トランザクションテーブルであれば1とする。テーブル名は、ファイル名等から取得可能である。種別は、当該テーブルの更新頻度やレコード数の増減、テーブル名から判別可能である。
次に、当該テーブルが保有する各データ項目に対し、以下の処理を実施する。ステップS305は、関係ネットワーク生成部117が、当該データ項目を表すノードが関係ネットワークのデータ項目層にないか否かを判定する。
当該データ項目を表すノードが関係ネットワークのデータ項目層にあるか否かは、基本的にはデータ項目名とデータ値の比較により同じであるか否かを判定する。例えば、データ項目名が同じで、データ値も同じものが含まれている、あるいは数値が近い、類似している(類似度判定による類似度が一定以上)、フォーマットが同じといったものについては同じとする。
また、データ項目名が全く同じでなくても類似度判定を実施して類似度がある一定以上であり、かつデータ値も同じものが含まれる、あるいは数値が近いといったもの、類似している、フォーマットが同じといった際は同じとする。また、予め辞書情報を格納しておき、同じ項目判定を行うとしても良い。同じ項目を表すノードがなければステップS306が実行され、同じ項目を表すノードがあればステップS307を実行する。
ステップS306では、関係ネットワーク生成部117が、当該データ項目を表すノードをデータ項目層に生成する。ノードは、データ項目層に生成した順に設定するノードID、データ項目名、重み、当該データ項目を有するテーブルのテーブル層におけるノードIDであるテーブルIDを属性として有する。
重みについては、ステップS306では一例として1とし、ステップS305にて既にノードが存在すると判定された際に、ステップS305からステップS307へ進む前に1増加させる。また、テーブルIDについても同様に、ステップS305にて既にノードが存在すると判定された際には、ステップS305からステップS307へ進む前にその際のテーブルIDを追加で格納する。
ステップS307では、関係ネットワーク生成部117が、当該データ項目を表すデータ項目層のノードと、当該テーブルを表すテーブル層のノードとの間にリンクを設定する。本例にて、本リンクは、データ項目層のノードの属性であるテーブルIDとして管理しているが、関係ネットワークテーブル114において、テーブル層とデータ項目層の間のリンクを管理するテーブルを保有しても良い。以上の処理を、当該テーブルが保有する各データ項目に対して実施する。
次にステップS308では、関係ネットワーク生成部117が、当該テーブルが保有するデータ項目を表すデータ項目層の全ノード間にテーブルIDを属性、重み1、種別は「同テーブル」を示す値として有するリンクを設定し、既にリンクが存在する場合は属性にテーブルIDを追加し、重みに1を増す。
ステップS309では、関係ネットワーク生成部117が、当該テーブルを表すテーブル層のノードと、元システムを表すシステム層のノードとの間にリンクを設定する。リンクを設定する際、既にノード間にリンクが存在するときは重みに1を増し、テーブルIDに当該テーブルを表すIDを追加する。新規で設定する場合は重み1のリンクを設定する。本例にて、本リンクは、テーブル層のノードの属性である元システムIDとして管理しているが、関係ネットワークテーブル114において、システム層とテーブル層の間のリンクを管理するテーブルを保有しても良い。
続いて図12に示すように当該テーブル内の各レコードに対して以下の処理を実施する。ステップS401では、関係ネットワーク生成部117が、当該レコードが関係ネットワークのデータ値層にないか否かを判定する。ここで、当該レコードが関係ネットワークのデータ値層にあるとは、当該レコードが保有するデータ値すべてについて、対応するノードが存在し、それらのノード間に当該テーブルのIDと当該レコードのIDを有するリンクが存在することである。そのようなリンクが存在しなければステップS402を実行する一方、そのようなリンクが存在すれば次のレコードに対する処理へ進む。
ステップS402〜ステップS404は、当該レコードが保有する各データ値に対して実施する処理である。ステップS402では、関係ネットワーク生成部117が、当該データ値を示すノードが関係ネットワークのデータ値層にないか否かを判定する。当該データ値を示すノードが関係ネットワークのデータ値層に存在しない場合には、後述するステップS403を実行する一方、当該データ値を示すノードが関係ネットワークのデータ値層に存在する場合には、当該データ値を表すデータ値層のノードと、当該データ値の属するデータ項目を表すデータ項目層のノードとの間にリンクを設定する(ステップS404)。
ステップS403では、関係ネットワーク生成部117が、当該データ値を表すノードをデータ値層に生成する。ノードは、データ値層に生成した順に設定するノードID、データ値、重み、当該データ値を有するテーブルのテーブル層におけるノードIDと、テーブル内のレコードに1から順に設定する当該レコードのレコードIDとをセットにしたものを属性として有する。
重みについては、ステップS403では一例として1とし、ステップS402にて既にノードが存在すると判定された際に、ステップS402からステップS404に進む前に1増加する。また、テーブルID及びレコードIDも同様に、ステップS402にて既にノードが存在すると判定された際には、ステップS402からステップS404に進む前に当該データ値を有する当該テーブルID及びレコードIDを追加で格納する。
ステップS404では、関係ネットワーク生成部117が、当該データ値を表すデータ値層のノードと、当該データ値の属するデータ項目を表すデータ項目層のノードとの間にリンクを設定する。
リンクを設定する際、関係ネットワーク生成部117は、既にノード間にリンクが存在するときは重みに1を増し、テーブルID及びレコードIDに、当該テーブルを表すIDを追加するとともに、当該レコードを表すレコードIDを追加する。新規で設定する場合は重み1のリンクを設定する。本例にて、本リンクは、データ値層のノードの属性であるテーブルIDとレコードIDの組として管理しているが、関係ネットワークテーブル114において、データ項目層とデータ値層の間のリンクを管理するテーブルを保有しても良い。
ステップS405では、関係ネットワーク生成部117が、当該レコードが保有するデータ値を表すデータ値層の全ノード間に、重み1、種別が「同レコード」を示す値、当該テーブルのテーブル層におけるノードIDと、テーブル内のレコードに1から順に設定する当該レコードのレコードIDとをセットにしたものを属性として有するリンクを設定する。既にリンクが存在する場合はリンクの重みを1増加させる。また、テーブルID及びレコードIDも同様に、当該データ値を有する当該テーブルID及びレコードIDを追加で格納する。
以上の処理を当該テーブル内の各レコードに対して実施する。以上の処理を当該システムの業務情報における各データテーブルに対して実施する。さらに以上の処理を、本装置が分析対象として推薦する元データを保有する各業務システムに対して実施する。
ステップS406では、関係ネットワーク生成部117が、データ項目間の関係性チェックを行い、データ項目層のノード間にリンクを設定する。例えば、データ値の関係を参照することにより、以下に示す(a)〜(d)のようなデータ項目間の構造上の関係を抽出し、データ項目層のノード間にリンクを設定する。
(a)包含関係:データ項目名の包含関係とデータ値集合(連続値の場合は範囲)の包含関係をチェックすることにより抽出する。
(b)1対多の関係:データ値にて1対多となっているかチェックすることで抽出する。
(c)1対1の関係:データ値にて1対1となっているかチェックすることで抽出する。
(d)同値:データ項目名の類似度分析及びデータ値集合比較により抽出する。
時刻及び場所を表す項目については、データ値が近い場合でも対応付け可能であるとして上記関係を設定しても良い。また、データ項目間の関係についてはここで示した関係に限らず、一般に知られている関係を計算してリンクを設定してもよい。
ステップS407では、関係ネットワーク生成部117がテーブル層のノード間にリンクを設定する。データテーブルが保有するデータ項目を表すデータ項目層のノード間にリンクが設定されている場合や、同じデータ項目を有する場合にリンクを設定する。リンクの重みは、前記データ項目層のノード間のリンクの重みと同じデータ項目の数の和であり、種別(複数でも良い)は、前記リンクの種別や、同じデータ項目を持つことを示す値とする。
ステップS408では、システム層のノード間にリンクを設定する。システムが保有するデータテーブルを表すテーブル層のノード間にリンクが設定されている場合や、同じデータテーブルを有する場合にリンクを設定する。その後、本処理を終了する。
ステップS408にて、システムが保有するデータテーブルを表すテーブル層のノード間にリンクが設定されていれば、関係ネットワーク生成部117は、そのテーブル層のリンクの種別を種別906に格納し(複数でも良い)、重みは合計したものを重み907に格納する。同じデータテーブルを有する場合は、そのことを示す種別を種別906に格納し、重み907は同じテーブル数だけ加算する。
(1−4−3)データ項目分類処理
図13は、図10に示すデータ項目分類処理(ステップS203)を示すフローチャートである。まず、関係ネットワークのテーブル層に存在する各ノードが示す各テーブルに対し、データ項目分類部118は、次に示すようなステップS501及びステップS502の処理を実施する。
ステップS501では、データ項目分類部118が、当該テーブルがマスタテーブルであるか否かについて判定する。例えば、一定期間更新がない、または、テーブル生成からレコードの追加がない場合、データ項目分類部118は、当該テーブルがマスタテーブルであると判定し、図4に示すテーブル層のノードの種別情報にマスタテーブルを示す0を格納し、ステップS502を実行する。
当該テーブルがマスタテーブルでない場合は、データ項目分類部118は、図4に示すテーブル層のノードの種別情報にトランザクションテーブルを示す1を格納し、次のテーブルに対する処理へ進む。全てのテーブルに対して処理が終了していれば、ステップS503へ進む。
ステップS502では、データ項目分類部118が、マスタテ−ブルと判定されたテーブルが保有するデータ項目について、種別をマスタとする。すなわち、データ項目分類部118は、図5(A)に示すデータ項目層のノードの種別情報に、図5(B)に示すようにマスタを示す0を格納する。
次に、データ項目分類部118は、関係ネットワークのデータ項目層に存在する各ノードが示す各データ項目に対し、ステップS503及びステップS504の処理を実施する。ステップS503では、データ項目分類部118が、当該データ項目がマスタか否かを判定する。すなわち、データ項目分類部118は、図5に示すノードの種別が0か否かを判定する。データ項目分類部118は、このノードの種別が0であれば次のデータ項目に対する処理へ進む一方、全てのデータ項目に対して処理が終了していれば本処理を終了する。データ項目分類部118は、このノードの種別が0でなければ、ステップS504へ進む。
ステップS504は、当該データ項目の種別をトランザクションとする処理である。すなわち、データ項目分類部118は、図5に示すデータ項目層のノードの種別情報にトランザクションを示す1を格納する。データ項目分類部118は、関係ネットワークのデータ項目層に存在する各ノードが示す各データ項目に対して以上の処理を実施し、本処理を終了する。
(1−4−4)分析用データテーブル生成・蓄積処理
図14は、図10におけるステップS204の分析用データテーブル生成・蓄積処理を示すフローチャートである。この分析用データテーブル生成・蓄積処理は、分析用データテーブル生成部119によって実行される。
ステップS601では、分析用データテーブル生成部119が、関係ネットワークのデータ項目層のノード、リンクから成るネットワークについて連結成分に分解する。本処理は、無向グラフに深さ優先探索を応用する一般的な連結成分分解のアルゴリズムを用いて実施される。
次に、分析用データテーブル生成部119は、各連結成分に対して以下の処理を実施する。当該連結成分内のノードのうち、種別がトランザクションで、ステップS306にて新しく生成された各ノードについて、以下の処理を実施する。当該ノードをAとする。また、当該連結成分内のA以外の各ノードについて、以下の処理を実施する。当該ノードをBとし、以下説明する。
ステップS602では、分析用データテーブル生成部119が、A、Bにて表されるデータ項目をどちらも含む分析用データテーブルが分析用データテーブル情報テーブル115に存在するか否かを判定する。なお、本処理は省略し、全てのA,Bに対して本処理をするようにしても良い。
分析用データテーブル生成部119は、上記分析用データテーブルが分析用データテーブル情報テーブル115に存在しなければステップS603へ進む一方、分析用データテーブルが分析用データテーブル情報テーブル115に存在すればBに対する処理を終了する。
ステップS603では、分析用データテーブル生成部119が、ノードAとノードBとがネットワーク内で隣接しているか否か、すなわち、A、B間にテーブルIDを属性として有するリンクが存在しないか否かを判定する。分析用データテーブル生成部119は、当該リンクが存在すればステップS605へと進んで、リンクの表すテーブルIDを有するテーブルを、A,Bを含むテーブルとして分析用データテーブル情報テーブル115に蓄積し、Bに対する処理を終了する。
一方、分析用データテーブル生成部119は、ステップS603にてA,Bが隣接していなければステップS604へ進み、AからBへのパスを算出する。
以下、AからBの各パスについて短いものから順に以下の処理を実施する。ステップS606は、当該パス内のAから出るリンクから辿って最初にテーブルIDを有するリンクをA、次にテーブルIDを有するリンクをBとし、AのテーブルID示すテーブルをテーブルtaとする。テーブルtaとして複数のテーブルが存在する場合は各テーブルに対して、以下の処理が実行される。
ステップS607では、分析用データテーブル生成部119が、BのテーブルIDを有するテーブル層のノードが示すテーブルtbとし、テーブルta及びテーブルtbを、共通データ項目をキーとしてテーブルtaを基にテーブルtbを結合可能であるか否かを判定する。
テーブルtbとして複数のテーブルが存在する場合、分析用データテーブル生成部119が各テーブルに対して処理を実行する。ここで、共通データ項目とは、テーブルta及びテーブルtbが保有するデータ項目のうちデータ項目層のノードとして共通としているものを指す。
共通項目について、テーブルtaにおけるデータ値に対応するものがテーブルtbに一意に存在すれば突き合せて結合可能である。時刻や場所を表す項目については、近い場合も突合せ可能といった設定としても良い。また、表示装置109を介してユーザに問いかけ、ユーザが入力装置108を介して突き合わせるデータ値を決定しても良い。そのように結合し、新しいテーブルとなった場合はステップS608へ進む。そのように結合できない、または、結合した結果レコード数が0であった場合は本ステップで当該パスに対する処理を終了する。
ステップS608では、分析用データテーブル生成部119が、テーブルtaと結合可能であったテーブルtbのうち、結合したテーブルのレコード数が最もの多いものの1つと結合したテーブルをテーブルtaとする。なお、結合したテーブルのレコード数が最もの多いもの1つを選ぶのではなく、各tbに対して結合したテーブルをテーブルtaとして、各taに対して以下の処理を実行しても良い。ステップS609は、リンクbが当該パスの最後のリンクであるか、すなわち、リンクbの先端ノードがBであるか判定する処理である。
最後のリンクであればステップS611を実行する。すなわち、テーブルtaを分析用データテーブル情報テーブル115に蓄積し、Bに対する処理を終了する。一方、最後のリンクでなければ、当該パスの次のリンク、すなわち、リンクbの先端ノードを元ノードとするリンクから当該パスを辿って最初にテーブルIDを有するリンクを新たにリンクbとし(ステップS610)、ステップS607へ戻る。
以上の処理を各A、Bに対して実行する。さらに以上の処理を各連結成分に対して実行し、本処理を終了する。
(1−4−5)データモデル生成処理
図15は、図10に示すデータモデル生成処理(ステップS206)を示す。このデータモデル生成処理は、データモデル生成部120によって実行される。本処理は、分析用データテーブル情報テーブル115に格納されている各分析用データテーブルに対して実施される。
ステップS701では、データモデル生成部120が、データ項目層の関係ネットワークから当該分析用データテーブル内のデータ項目について、ノードを、ノード間のリンクとともに抽出する。
このように抽出したノードが示すデータ項目のうち種別がトランザクションを示している各ノードに対して、データモデル生成部120は、以下の処理を実施する。当該ノードをAとする。また、抽出したノードのうち、Aでない各ノードに対し、データモデル生成部120は、以下の処理を実施する。Aでない当該ノードをBとして以下説明する。
ステップS702では、データモデル生成部120が、A及びBがチェック済みか、すなわち、データ項目A、B間のスコアを算出したか否かを判定する。データモデル生成部120は、当該スコアを算出済みでない場合にはステップS703へ進む一方、当該スコアを算出済みである場合には次のノード対に対する処理へ進む。
ステップS703では、データモデル生成部120が、A及びBのスコアを算出する。スコアは、例えば、当該分析用データテーブルのAが示すデータ項目の列と、Bが示すデータ項目の列とを用いて算出する相関係数、及び、相関係数を算出した際のサンプル数のような、分析用データテーブルを用いて算出可能な数値とする。
ステップS704では、データモデル生成部120が、ステップS703にて算出したスコアを重みとする分析対象を種別としたリンクを、A、B間に設定する処理である。以上の処理をA、Bの各組合せに対して実施する。
ステップS705では、データモデル生成部120が、ステップS701にて抽出済みのノード、リンクと、ステップS704にて追加したリンクとを、合わせた関係ネットワーク(図示の「ネットワーク」に相当)をデータモデルとしてデータモデル情報テーブル116に蓄積する。以上の処理を各分析用データテーブルに対して実施し、本処理を終了する。なお、本実施の形態では、データ項目層の関係ネットワークをデータモデルとしたが、対応するシステム層やテーブル層、データ値層の関係ネットワークもデータモデルに加えて良い。
(1−5)画面例
図16は、関係ネットワーク生成部117によって生成された関係ネットワークが表示装置109に表示された第1の画面例である。本第1の画面は、ユーザに対して業務情報間の関係を可視化した様子を表している。
各システム層、各テーブル層、各データ項目層、各データ値層がそれぞれタブ16001にて選択されると、表示装置109の画面には、当該選択された層が表示される。図16では、これらの層のうち一例としてデータ項目層を図示している。
本第1の画面例では、関係ネットワークを連結成分に分解し、ユーザが入力装置108を介してチェックボックス16002にて選択した連結成分が表示されている。チェックボックス16002のテキスト16003には、連結成分の中心を表すノードの名称が表示されている。
図17は、分析対象となるデータ項目をユーザに推薦する第2の画面例を示す。具体的には、分析対象項目提示部121は、分析対象となるデータ項目を表示装置109に表示することにより、この表示内容に接したユーザに対してデータ項目を推薦する。
本第2の画面例では、データモデル生成部120によって生成されたデータモデルであってデータモデル情報テーブル116に格納されるデータモデル毎に、分析対象となるデータ項目の組合せが、既述のステップS703にて算出するスコアとともに強調して表示される。
このように強調して表示されるデータモデルは、ユーザが入力装置108を介してラジオボタン1701を操作することにより、選択される。選択肢の並び順は、各データモデルの既述のステップS703にて算出するスコアの1つである相関係数のうち最も高いものの降順としているが、他のスコアも用いても良いし、各スコアを組合せて算出する値の降順としても良い。本実施の形態では、データモデルの情報として、データ項目1502に示すテーブルのレコード数であるデータ項目数1702、スコア1503が示すテーブルのレコード数である分析項目組数1703、及び、分析用テーブル1505が示すテーブルのレコード数であるサンプル数1704が表示される。分析対象となるトランザクションデータ項目は、風速ノード1709のように他ノードとは異なる形式で強調表示されている。
本実施の形態では、分析対象項目として、風速の他にも、例えば降水量、遅延時分、出発時刻及び到着時刻が強調表示されている。分析対象項目の組としては、リンク1705及びスコア1706のように項目間のリンク及びスコアとして示されている。
本実施の形態では、降水量と遅延時分、降水量と風速、降水量と時刻、遅延時分と風速、時刻と風速、到着時刻と遅延時分、出発時刻と遅延時分、列車番号と遅延時分の8組が分析対象項目の組として推薦されている。スコアは、それぞれ、0.7、−0.1、0.1、0.4、−0.1、0.08、0.08、0.2となっている。
なお、図16のように関係ネットワーク全体を表示する際、業務システムの業務分野に関する共通モデルや関係データ、仕様書情報等を予めデータベース111に保存しておき、それらを使用して関係ネットワークのノードを階層化表示またはノードを集約表示しても良い。
例えば、鉄道に関するデータを扱う場合、駅、列車及び線路といった不変なものに対して共通モデルとなるマスタテーブルを生成しておき、マスタテーブルを関係ネットワークに入れ込むことで、不変なものに対するデータの関係を取り込むことが可能となる。
なお、ユーザは、入力装置108またはデータ分析システム104を介して、図16に示す第1の画面例において関係ネットワークを編集して使用し、この関係ネットワークがユーザ毎または分析システム毎に分析結果とともにこれが保存されるようにしておき、この保存内容が分析の際に参照することができるようにしても良い。
さらには、ステップS406では、関係ネットワーク生成部117が、データ項目の関係リンクがデータベース111に予め保存される辞書情報を用いて設定しても良い。本実施の形態では、図2に示すように関係ネットワークを、システム層、テーブル層、データ項目層、データ値層の4層として説明したが、これに限られず、各システムの所属するサイト名及び会社名をデータ分析支援装置101が抽出できる場合、関係ネットワーク生成部117は、システム層の上位にサイト層及び会社層を加えても良い。その際は、1つのサイト、会社を1ノードとし、サイト及び会社の保有する下位ノードとの間にリンクを設定する。
さらに他社、他サイトのシステムノード間にリンクが存在すればサイトノード間、会社ノード間にもリンクを設定することで、他サイト、他社間のデータのつながりを表現することができるようになる。
その際、例えば、ステップS406にて、関係ネットワーク生成部117が、会社別にデータ項目層の関係ネットワークを分解し、位置情報並びに時刻及び日付が一定範囲内である場合に他社ノード同士を対応付け、また、辞書情報またはユーザの編集内容等を用いて他社ノード同士を対応付け、それらの対応付けを少なくとも1つ以上含み、他のノード間を対応付けるような、他社の部分グラフ間の同型写像が存在すれば、その同型写像にて対応付け可能なノードを示すデータ項目は同類とし、新しいリンクを設定することで、新しい分析対象項目を抽出しても良い。なお、同型写像を探索する際、対象のリンクを全ての種別としても良いし、分析対象リンク等に限定しても良い。
これにより、例えば、他社データ同士の項目を分析対象項目として蓄積可能となる。なお、実際に同類か否かユーザに問いかけをし、ユーザの承認操作にて同類リンクを設定することとしても良い。
以上説明したように本実施の形態では、少なくとも1つ以上の各業務システムにおける各業務データテーブルの各業務データを対象とした分析を支援するデータ分析支援装置101が、各業務データが保有する各データ項目を、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別と、に分類するデータ項目分類部118と、各業務システム間の関係、各業務データテーブル間の関係、業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして生成する関係ネットワーク生成部117と、上記関係ネットワークに基づいて、第1のデータ種別に含まれるデータ項目を少なくとも1つ含む分析用データテーブルを生成する分析用データテーブル生成部119と、各データ項目の組み合わせから成る分析対象候補について、分析用データテーブルに基づいて分析推奨度となるスコアを求めるデータモデル生成部120と、データモデル生成部120によって求められたスコアに基づく分析推奨度とともに分析対象候補を出力する分析対象項目提示部121と、を備えている。
このような構成によれば、複数のデータテーブルを対象とし、データ知識の無い人や分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析することができる。
(2)第2の実施の形態
第2の実施の形態に係るデータ分析支援装置101Aを含むデータ分析支援システムは、第1の実施の形態に係るデータ分析支援装置101を含むデータ分析支援システムとほぼ同様の構成でありほぼ同様の動作を実行するが、以下では主として両者の異なる点について説明する。
第1の実施の形態では、データ分析支援装置101に接続されている全業務システム102,103の業務情報に対応する全データテーブルの全データ項目について、分析するデータ項目の組を推薦する例を示した。これに対し、第2の実施の形態では、ユーザの入力により分析対象となるデータ項目を1つ決定し、その項目と組合せて分析するデータ項目を推薦する例を示す。
図18は、第2の実施の形態に係るデータ分析支援装置101Aを含むデータ分析支援システムのシステム構成例を示すブロック図である。第2の実施の形態に係るデータ分析支援装置101Aでは、図1に示すデータベース111の構成に、フィルタリング情報テーブル1823及び履歴情報テーブル1826を加えるとともに、プログラム112の構成に、データ項目検索部1824、フィルタリング情報生成部1825及び履歴解析部1827を加えている。図1と同じ部分には同じ符号を付してあり、説明を省略する。
データ項目検索部1824は、ユーザから入力されたキーワードに対して該当するデータ項目を検索し抽出する。フィルタリング情報生成部1825は、分析用データテーブルをデータ項目のあるデータ値で絞り込んで算出された相関係数等のスコアがより大きいものがあればこれを抽出し蓄積する。
図19は、第2の実施の形態に係るデータ分析支援装置101Aの基本的な処理手順例を示すフローチャートである。ステップS1901では、関係ネットワーク生成部117が関係ネットワークを生成する。このステップS1901は、図10に示すステップS202とほぼ同様の処理であるため、説明を省略する。
ステップS1902では、データ項目分類部118がデータ項目を、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別とに分類する。このステップS1902は、図13に示すステップS203と同様の処理であるため、説明を省略する。
ステップS1903では、分析用データテーブル生成部119が分析用データを生成・蓄積する。このステップS1903は、図14に示すステップS204と同様の処理であるため、説明を省略する。
ステップS1904は、データモデル生成部120が、ステップS1903にて生成した分析用データテーブル毎にデータモデルを生成する。本処理は、図15に示すステップS206の処理であるため、説明を省略する。
以下の処理は、入力装置108を介してユーザが図21の検索ボタン2102を押下する度に実施する。ステップS1905は、ユーザによる検索ボタン2102押下の際に検索ボックス2101にキーワード入力がされているか、すなわち、ユーザが入力装置108を介して検索ボックス2101に分析したい項目に関するキーワードを入力したか否かを判定する処理である。入力があればステップS1906を実行し、入力がなければ本検索ボタン2102の押下に対する処理を終了する。
ステップS1906は、データ項目検索部1824が、ユーザによって入力されたキーワードに関するデータ項目を検索する処理である。本処理は、関係ネットワークテーブル114におけるデータ項目層のノードの項目名(図5参照)、および、データ値層のノードの値(図6参照)に入力キーワードを含むデータ項目があるか否かが検索され、データ項目を抽出する処理である。キーワードがデータ項目層のノードの項目名に存在すればそのデータ項目を抽出する。また、キーワードがデータ値層のノードの値に存在すれば、そのデータ値の属するデータ項目も抽出する。
ステップS1907は、ステップS1906にて入力キーワードを含むデータ項目やデータ値に対応するデータ項目があったか否かを判定する処理である。当該データ項目があれば該当データ項目各々に対してステップS1908の処理を実施する。一方、当該データ項目がなければ本検索ボタン2102押下に対する処理を終了する。
ステップS1908では、フィルタリング情報生成部1825が、該当データ項目に関するフィルタリング情報を生成する。
図20は、図19に示すステップS1908においてフィルタリング情報生成部1825が実施する処理例を示す。ステップS2001は、当該データ項目をAとし、Aをデータ項目として有する分析用データテーブルを分析用データテーブル情報テーブル115から抽出する処理である。
フィルタリング情報生成部1825は、抽出した各分析用データテーブル(テーブルtaとする)に対して、以下の処理を実施する。また、当該分析用データテーブル内のA以外の各データ項目に対し、以下の処理を実施する。また、A以外の当該データ項目をBとし、Bが有するデータ値1つ以上を要素とする集合(全てのデータ値を含む全体集合を除く部分集合)各々に対して以下の処理を実施する。
まず、ステップS2002では、フィルタリング情報生成部1825が、当該分析用データテーブルについて、データ項目Bが当該データ値集合の要素のいずれかと一致するレコードのみをレコードとして有する分析用データテーブルに変換し、分析用データテーブル情報テーブル115に新たに格納する。次に、新たに生成した本分析用データテーブル(テーブルtbとする)について、テーブルtb内のA、B以外の各データ項目に対し、以下の処理を実施する。
ステップS2003では、フィルタリング情報生成部1825が、テーブルtb内のA、B以外の当該データ項目をCとし、CとA間のスコアを算出する。本処理はステップS703と同様の処理であり、テーブルtbのAが示すデータ項目の列とCが示すデータ項目の列を用いて算出する相関係数等のような、テーブルtbを用いて算出可能な数値をスコアとして算出する。
ステップS2004では、フィルタリング情報生成部1825が、ステップS2003にてテーブルtbに対して算出したAとC間のスコアがテーブルtaにおけるAとC間のスコアより大きいか否かを判定する。テーブルtaに対するスコアは、図9に示すデータモデル情報テーブル116(1816)の分析用テーブル1505がテーブルtaであるレコードであって、スコア1503に格納されたテーブルの項目ID(1)1514と項目ID(2)1515との組合せがAを示す項目ID,Cを示す項目IDであるレコードにおける相関係数1516等の値を参照する。
例えば、フィルタリング情報生成部1825は、遅延時分と降水量の相関係数が、全日を対象としたものよりも平日のみを対象とした方が大きい場合に、大きいと判定する。当該相関係数が大きいと判定した場合はステップS2005を実行し、等しいまたは小さいと判定した場合はCに対する処理を終了する。
ステップS2005では、フィルタリング情報生成部1825が、データ項目層の関係ネットワークにおいて、重みがスコアであって、フィルタリング項目であるBと、フィルタリング値であるテーブルtb内のBのデータ値とを、属性として有する分析対象リンクを、Aを表すノードと、Cを表すノードとの間に設定する。また、同様の情報をフィルタリング情報テーブル1823に格納する。
以上の処理を、テーブルta内のA、B以外の各データ項目に対して実施する。また、以上の処理を、Bが有するデータ値1つ以上を要素とする集合(全てのデータ値を含む全体集合を除く部分集合)各々について実施する。さらに以上の処理をテーブルta内のA以外の各データ項目に対して実施する。
ステップS2006では、フィルタリング情報生成部1825がテーブルtaに対するデータモデルを更新する。すなわち、データモデル情報テーブル1816を更新する。データモデル情報テーブル1816は、図9に示すデータモデル情報テーブル116のスコア1503に格納されるテーブルに、フィルタリング項目フィルタ値、及び分析用テーブルが追加されている。
ステップS2005にて追加したリンクは、データモデル情報テーブル1816の分析用テーブル1505がテーブルtaであるレコードのスコア1503に格納されたテーブルに追加される。
フィルタリング値にフィルタリング項目であるB、フィルタ値にフィルタリング値であるテーブルtb内のBのデータ値、分析用テーブルにテーブルtbを示す分析用データテーブル情報テーブル115におけるIDが格納される。残りの項目は、ステップS705と同様に、項目ID(1)1514にはAを示すノードの項目ID、項目ID(2)1515には、Cを示すノードの項目ID、相関係数1516等のスコアに算出したスコア、サンプル数1517にテーブルtbのレコード数が格納される。以上の処理を、ステップS2001にて取得した各分析用データテーブルに対して実施し、本処理を終了する。
図20に示す本処理例では、ステップS1906にて、キーワードがデータ項目層にあった場合もデータ値層にあった場合も同様に扱っているが、その代わりに、キーワードがデータ値層にあった場合には、ステップS2001にて分析用データテーブルを取得した際、分析用データテーブルを、当該データ値を有するレコードのみのデータテーブルに変換、すなわち、予めフィルタリングしてから、以降の処理を実施しても良い。
このようにすることにより、例えばキーワードとして「急病人」が入力された際、分析用データテーブルを、データ項目「遅延要因」が「急病人」の場合に限定することができ、急病人の発生原因の調査分析支援が可能となる。
図19に戻り、第2の実施の形態に係るデータ分析支援装置101Aの基本的な処理手順例の続きを説明する。
ステップS1909では、分析対象項目提示部1821が、ステップS1906にて抽出したデータ項目ごとに、組合せて分析する対象として推薦する項目を表示装置109に出力する。出力画面例は図21を用いて後述する。
本処理では、分析用データテーブルをすべて生成し蓄積してからユーザの入力したキーワードに対するデータ項目の検索(ステップS1906)と、そのデータ項目に対する処理(ステップS1908以降)とを実施したが、その代わりに、ユーザの検索したキーワードに対するデータ項目を抽出してから、そのデータ項目を含む分析用データテーブル及びデータテーブルを生成し、そのデータテーブルに対してステップS1907以降の処理を実施しても良い。
その際の分析用データテーブル生成部119の処理は、図14におけるノードAをキーワードに対するデータ項目とし、ステップS601にてノードAを含む連結成分を抽出し、ステップS602を実施せずに、ステップS603から先の処理を実施する。
図21は、第2の実施形態において、分析対象項目提示部1821が分析対象となるデータ項目を表示装置109に推薦する画面例である。
検索ボックス2101は、ユーザが入力装置108を介して、分析対象としたいデータのキーワードを入力するテキストボックスである。本実施の形態では「遅延」が入力されている。
検索ボタン2102は、ユーザが入力装置108を介して押下するボタンである。この検索ボタン2102の押下がステップS1905を実行するトリガとなる。表2103は、ステップS1906にてデータ項目を検索して抽出したデータ項目名2105の一覧である。ユーザが入力装置108を介してラジオボタン2104にて選択したデータ項目について、組合せて分析するデータ項目が本画面にて推薦される。
表2106は、ラジオボタン2104にて選択されたデータ項目を含むデータモデルの一覧であり、図17に示す第2の画面例における対応表示欄と同様である。ただし、ここでは、分析対象項目組数、相関係数、サンプル数の昇順、降順に表示する方法の他、後述する履歴情報テーブル1826を用いて解析した結果であるノードの重みやリンクの重み(データモデル内で最も重いもの)の昇順、降順に表示する方法がある。これらは。どの順番で表示しても良いし、組合せても良い。また、コンボボックス等を用いてユーザが指定しても良い。
表2107は、表2106のラジオボタンにて選択されたデータモデルについて、ステップS2006にて表2103にて選択されたデータ項目との間に設定されたリンク情報であって、フィルタリング項目及びフィルタリング値を有する分析対象リンクの一覧である。これは、データモデル情報テーブル1816のスコア1503に格納されたテーブル及びフィルタリング情報テーブル1823を参照して表示される。
フィルタ項目2108及び値2109は、それぞれ、データモデル情報テーブル1816のスコア1503に格納されたテーブルが保有するフィルタリング項目及びフィルタ値を参照して表示される。
項目2110は、ラジオボタン2104にて選択されたデータ項目と組合せて分析する推薦対象のデータ項目、すなわち、項目ID(1)1514または項目ID(2)1515が示すデータ項目のうちラジオボタン2104にて選択されたデータ項目ではない方の項目名を表示する。
サンプル数2111は、データモデル情報テーブル1816のスコア1503に格納されたテーブルの該当レコードのサンプル数1517を参照して表示されており、スコア2112は、相関係数1516を参照して表示される。
関係ネットワーク表示2113は、図17と同様であるが、ラジオボタン2104にて選択されたデータ項目と組合せて分析する、推薦対象データ項目のみが強調表示される。
本実施の形態では、遅延時分と組合せて分析すべきデータ項目である降水量、風速、出発時刻、ダイヤ種別を強調表示している。また、本実施の形態では表2107を用いて、遅延時分と降水量、および、遅延時分と風速の組合せについて、ダイヤ種別を平日に限定して分析することを推薦している。
図19に戻り、第2の実施の形態に係るデータ分析支援装置101Aの基本的な処理手順例の説明を続ける。以上の処理は、ユーザのキーワード入力に対して推薦項目を提示する処理であったが、以下の処理は、本データ分析支援装置101Aによって提示された分析対象項目をユーザが選択し、実際にユーザがデータ分析システム104において分析を実施した後にデータ分析支援装置101Aにて実行される処理を表す。
ステップS1910は、ステップS1909における提示の後、ユーザが例えばデータ分析システム104において分析対象項目を選択した、すなわち、分析対象項目に対応する分析用データテーブルの送信要求があったか否かを判定する処理である。要求があればステップS1911へ進み、要求がなければ本処理を終了する。
ステップS1911は、選択された分析対象項目に対応する分析用データテーブルを、データモデル情報テーブル1816を参照して分析用データテーブル情報テーブル115から抽出し、通信網122を介してデータ分析システム104に送信し、当該分析用データテーブルを、選択された分析対象項目(分析対象候補)とともに履歴情報テーブル1826に格納する処理である。
ステップS1912では、履歴解析部1827が、履歴情報テーブル1826に格納された履歴情報に基づいて履歴解析を実施する。本処理は、履歴情報テーブル1826に格納された分析対象項目及び分析用データテーブルに対する関係ネットワークテーブル114のデータ項目層のノード情報、リンク情報について、重みを増す処理である。
さらにデータモデル情報テーブル1816及びフィルタリング情報テーブル1823内において対応する情報が併せて更新される。本処理を実行することで、分析システムにて分析した履歴のある項目を優先して分析対象項目提示部1821にて提示することができ、関係ネットワーク表示2113にて関連するデータ項目を参照することが可能となる。
また、本処理では、履歴情報テーブル1826に格納された分析対象項目と分析用データテーブルの組、及び対応するデータモデル、関係ネットワークの属性、対応するシステム層、テーブル層及びデータ値層の情報等を教師データとして機械学習を実行するようにし、同じデータ項目の組に対して複数存在する分析用データテーブルから最も良いテーブルが分析対象項目提示部1821に提示されるようにしても良い。また、第3の実施の形態にて後述する定常状態解析部の結果である、データ値が「計画通り」及び「通常通り」か、あるいは、データ値が逸脱する異常値かも履歴情報テーブル1826に格納し、教師データとして学習するとしても良い。
本実施の形態では、データ分析システム104の分析対象項目選択履歴を履歴情報としたが、データ分析支援装置101Aにおけるユーザのデータ参照履歴及び選択履歴等が履歴情報として履歴情報テーブル1826に格納され、学習されるようにしても良い。
また本実施の形態では、ユーザが実施した分析に対して保存要求をした分析が履歴情報テーブル1826に格納されるようにし、教師データとして学習されるようにしても良い。
また、元データ格納部113のデータが更新された、すなわち、業務システム102,103が有する業務情報のデータ値の更新を定期的に調べ、履歴情報テーブル1826を参照し、分析済みまたは参照済みの項目のデータ値に更新があった場合に、再度分析する項目として提示するとしてもよい。
(3)第3の実施の形態
第3の実施の形態に係るデータ分析支援装置101Bを含むデータ分析支援システムは、第1の実施の形態に係るデータ分析支援装置101を含むデータ分析支援システム及び第2の実施の形態に係るデータ分析支援装置101Aを含むデータ分析支援システムとほぼ同様の構成でありほぼ同様の動作を実行するが、以下では主として両者の異なる点について説明する。
第2の実施の形態では、ユーザの入力により分析対象となるデータ項目を1つ決定し、その項目と組合せて分析するデータ項目を推薦する例を示した。これに対し、第3の実施の形態では、ユーザ入力により決定した1つのデータ項目に対し、その原因となる他のデータ項目の候補を分析対象項目として提示する例を示す。
図22は、第3の実施の形態に係るデータ分析支援装置のシステム構成例を示す。第3の実施形態では、第2の実施の形態と比べて図18に示すデータベース111の構成からフィルタリング情報テーブル1823及び履歴情報テーブル1826を除く一方、原因情報テーブル2223を加えるとともに、プログラム112の構成からフィルタリング情報生成部1825及び履歴解析部1827を除く一方、原因情報生成部2225を加えている。なお、図22において図18と同じ構成には同一の符号を付し、その説明は省略する。
原因情報生成部2225は、ユーザ入力により決定した1つのデータ項目に対し、相関の強いデータ項目があれば、相関のあるデータ値以外のデータ値を対象にその他のどの項目と相関が強いか判定し、順次原因となるデータ項目の候補を抽出し、原因情報テーブル2223に蓄積する。
図23は、原因情報生成処理の処理手順の一例を示す。この原因情報生成処理では、まず、データ項目検索部1824が、ユーザから入力されたキーワードに対して該当するデータ項目を検索して抽出した後、表示装置109に表2103のように表示させる。次に原因情報生成部2225は、ユーザによってラジオボタン2104を用いて選択されたデータ項目に対して原因情報を生成する処理手順の一例を、図23を用いて示す。
以下、関係ネットワークテーブル114のデータ項目層のノードにて種別がトランザクションであるものが示すデータ項目をトランザクション項目として説明する。
まず、ステップS2301では、原因情報生成部2225が、ユーザによってラジオボタン2104を用いて選択されたデータ項目をAとし、Aを含む分析用データテーブルにおいてAと異なるトランザクション項目を含む分析用データテーブルを、分析用データテーブル情報テーブル115から抽出する。このように抽出された各分析用データテーブルに対し、以下の処理を実施する。
ステップS2302では、原因情報生成部2225が、当該分析用データテーブルが有するトランザクション項目のうち、Aとの相関係数が最も大きいデータ項目を取得し、Bとする。相関係数は、データモデル情報テーブル1816のスコア1503における相関係数1516を参照する。同様のデータ項目が複数存在する場合は、各データ項目に対して以下を実施する。
ステップS2303では、原因情報生成部2225が、データ項目A、Bと、その相関係数を原因情報テーブル2223に格納する。ステップS2304では、原因情報生成部2225が、AとBとの相関関係が所定の値よりも大きいか否かを判定する。本値は、原因と云える相関係数として、システムに予め登録しておいても良いし、ユーザが項目ごとに定めても良い。上記相関関係が所定の値よりも大きければステップS2305を実行する一方、上記相関関係が所定の値よりも大きくなければ当該分析用データテーブルに対する処理を終了する。
ステップS2305では、原因情報生成部2225が、当該分析用データテーブルのレコードのうち、データ項目Bが無効値或いは0、外れ値のレコードのみを残し、データ項目Bを削除した分析用データテーブルを生成する。
ステップS2306では、原因情報生成部2225が、ステップS2305において生成した分析用データテーブルのレコード数が一定以上で、かつ、A以外のトランザクション項目が存在するか否かを判定する。
本実施の形態では、レコード数として、Aと、他のトランザクション項目との相関係数を算出可能なレコード数とする。上記ステップ2306において肯定的な結果が得られた場合にはステップS2307が実行される一方、肯定的な結果が得られない場合には当該分析用データテーブルに対する処理が終了される。
ステップS2307では、原因情報生成部2225が、ステップS2305において生成した分析用データテーブルを用いて、Aと、A以外の各トランザクション項目との相関係数を算出する。原因情報生成部2225は、本ステップを実行した後、ステップS2302を実行し、ステップS2305にて生成した分析用データテーブルに対し、Aと各トランザクション項目との相関係数に対して処理を続ける。
各分析用データテーブルに対して以上の処理を実施した後、原因情報生成部2225は、ステップS2308を実行する。ステップS2308では、原因情報生成部2225が、Aについて原因情報テーブル2223に格納したデータ項目及び相関係数の組を、相関係数の絶対値の降順にソートして表示装置109に表示させる。これにより、ユーザが選択したデータ項目のデータ値の原因候補となるデータ項目を表示することができる。
なお、本実施の形態では、全てのデータ値を対象に原因情報を生成したが、その代わりに、各分析用データテーブルについてトランザクション項目の定常状態を定める定常状態解析部を構成として設け、データ値が「計画通り」及び「通常通り」のみであるノードについては表示せず、データ値が逸脱するノードについてのみ分析対象として提示し、異常値の原因のみを表示するようにしても良い。
定常状態解析部は、各分析用データテーブルの各トランザクション項目に対して処理を実施する。この定常状態解析部は、当該トランザクション項目をAとしたとき、各マスタ項目(当該データ項目をBとする)に対して以下の処理を実施する。定常状態解析部は、当該分析用データテーブル内のAの各データ値を要素とする集合を、Bのデータ値毎に部分集合に分割し、それぞれの部分集合内の持つAのデータ値の分布を比較する。さらに定常状態解析部は、同じ分布を有するものを対応するBのデータ値とともに群としてまとめ、最も多い分布をAの、対応するBのデータ値における定常状態として定める。例えば、遅延時分を日付ごとに分割し、遅延時分の平日における通常の分布が定常状態として定められる。
なお、本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施の形態の構成の一部は、図示しない他のデータ分析支援関連装置の構成に置き換えることも可能である。また、実施の形態の構成の一部について、他の構成の追加、削除または置換をすることが可能である。
また、上記の各構成、機能、処理部及び処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
本実施の形態では、鉄道に関するデータを分析する際のデータ分析支援装置を本発明の適用対象例として説明したが、鉄道保守関連のデータ分析支援に適用した場合は、分析により車両や線路の故障を故障前に検知できる可能性があり、鉄道の資源を効率的に運用でき、エネルギー消費の抑制することができる。
(4)その他の実施形態
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。例えば、上記実施形態では、各種プログラムの処理をシーケンシャルに説明したが、特にこれにこだわるものではない。従って、処理結果に矛盾が生じない限り、処理の順序を入れ替えまたは並行動作するように構成しても良い。
本発明は、複数のシステムのデータを対象とするデータ分析を支援するデータ分析支援装置及びデータ分析支援システムに広く適用することができる。
101,101A,101B……データ分析支援装置、102……第1の業務システム、103……第2の業務システム、104……データ分析システム、105……演算処理装置、106……メモリ、107……通信装置、108……入力装置、109……表示装置、110……記憶装置、111……データベース、112……プログラム、113……元データ格納部、114……関係ネットワークテーブル、115……分析用データテーブル情報テーブル、116……データモデル情報テーブル、117……関係ネットワーク生成部、118……データ項目分類部、119……分析用データテーブル生成部、120……データモデル生成部、121……分析対象項目提示部、122……通信網、123……データバス。

Claims (8)

  1. 少なくとも1つ以上の各業務システムにおける各業務データテーブルの各業務データを対象とした分析を支援するデータ分析支援装置であって、
    前記各業務データが保有する各データ項目を、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別と、に分類するデータ項目分類部と、
    前記各業務システム間の関係、前記各業務データテーブル間の関係、前記各業務データテーブルが保有する前記各データ項目間の関係、前記各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして生成する関係ネットワーク生成部と、
    前記関係ネットワークに基づいて、前記第1のデータ種別に含まれるデータ項目を少なくとも1つ含む分析用データテーブルを生成する分析用データテーブル生成部と、
    前記各データ項目の組み合わせから成る分析対象候補について、前記分析用データテーブルに基づいて分析推奨度となるスコアを求めるデータモデル生成部と、
    前記データモデル生成部によって求められた前記スコアに基づく前記分析推奨度とともに前記分析対象候補を出力する分析対象項目提示部と、
    を備えることを特徴とする、データ分析支援装置。
  2. 前記分析用データテーブル生成部は、
    前記各データ項目のうち組み合せて分析可能な各データ項目を複数まとめた形で分析に用いられる前記分析用データテーブルを生成し、
    外部からの要求に応じて前記分析用データテーブルを出力して送信する
    ことを特徴とする請求項1に記載のデータ分析支援装置。
  3. 前記関係ネットワーク生成部は、
    前記各業務システムを有する各サイト間、前記各業務システム間、前記各データテーブル間、前記各データ項目間、及び前記各データ値間のうち少なくとも1つの関係を保持する前記関係ネットワークを生成し、互いに関連のあるデータ群をまとめ、前記各関係とともに出力する
    ことを特徴とする請求項2に記載のデータ分析支援装置。
  4. 外部から入力されたキーワードに対して該当する特定のデータ項目を抽出するデータ項目検索部と、
    前記分析用データテーブルを前記特定のデータ項目のうちの特定のデータで絞り込んで算出したスコアがより大きいものがある場合には当該大きなスコアを抽出し蓄積するフィルタリング情報生成部と、
    を備えることを特徴とする請求項1に記載のデータ分析支援装置。
  5. 前記データ項目検索部によって抽出された1つ以上の前記特定のデータ項目において相関関係が高い特定のデータ項目が存在する場合、前記相関関係があるデータ値以外のデータ値を対象に、その他のどの項目と前記相関関係が高いかを判定し、順次原因となるデータ項目の候補を抽出し、外部から入力されたキーワードに関連するデータ項目の値の原因と成るデータ項目を表示する
    ことを特徴とする請求項1または請求項4に記載のデータ分析支援装置。
  6. 前記各分析用データテーブルについて、実績値に基づくデータ項目の定常状態を定める定常状態解析部を備え、
    前記定常状態解析部は、
    前記分析用データテーブル生成部によって生成された前記各分析用データテーブルの実績値に基づくデータ項目について、互いに同じ分布であるものを群としてまとめ、最も多い分布を定常状態として定める
    ことを特徴とする請求項5に記載のデータ分析支援装置。
  7. 前記分析対象候補とともに前記分析用データテーブルの履歴情報を格納する履歴情報テーブルと、
    前記履歴情報テーブルに格納されている前記履歴情報に基づいて学習することにより履歴解析を実施する履歴解析部と、
    を備えることを特徴とする、請求項1に記載のデータ分析支援装置。
  8. 少なくとも1つ以上の各業務システムにおける各業務データテーブルの各業務データを対象とした分析を支援するデータ分析支援装置を含むデータ分析支援システムであって、
    前記各業務データが保有する各データ項目を、実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別と、に分類するデータ項目分類部と、前記各業務システム間の関係、前記各業務データテーブル間の関係、前記各業務データテーブルが保有する前記各データ項目間の関係、前記各業務データテーブルの各レコードが保有する各データ値間の関係を関係ネットワークとして生成する関係ネットワーク生成部と、前記関係ネットワークに基づいて、前記第1のデータ種別に含まれるデータ項目を少なくとも1つ含む分析用データテーブルを生成する分析用データテーブル生成部と、前記各データ項目の組み合わせから成る分析対象候補について、前記分析用データテーブルに基づいて分析推奨度となるスコアを求めるデータモデル生成部と、前記データモデル生成部によって求められた前記スコアに基づく前記分析推奨度とともに前記分析対象候補を出力する分析対象項目提示部と、を有するデータ分析支援装置と、
    前記データ分析支援装置によって出力された前記分析対象候補に基づいて分析対象項目を決定する分析装置と、
    を備えることを特徴とするデータ分析支援システム。
JP2016209063A 2016-10-25 2016-10-25 データ分析支援装置及びデータ分析支援システム Active JP6736450B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016209063A JP6736450B2 (ja) 2016-10-25 2016-10-25 データ分析支援装置及びデータ分析支援システム
PCT/JP2017/026535 WO2018078971A1 (ja) 2016-10-25 2017-07-21 データ分析支援装置及びデータ分析支援システム
KR1020197007012A KR102172029B1 (ko) 2016-10-25 2017-07-21 데이터 분석 지원 장치 및 데이터 분석 지원 시스템
US16/331,674 US11188567B2 (en) 2016-10-25 2017-07-21 Data analysis support apparatus and data analysis support system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016209063A JP6736450B2 (ja) 2016-10-25 2016-10-25 データ分析支援装置及びデータ分析支援システム

Publications (3)

Publication Number Publication Date
JP2018072960A true JP2018072960A (ja) 2018-05-10
JP2018072960A5 JP2018072960A5 (ja) 2019-04-25
JP6736450B2 JP6736450B2 (ja) 2020-08-05

Family

ID=62024761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016209063A Active JP6736450B2 (ja) 2016-10-25 2016-10-25 データ分析支援装置及びデータ分析支援システム

Country Status (4)

Country Link
US (1) US11188567B2 (ja)
JP (1) JP6736450B2 (ja)
KR (1) KR102172029B1 (ja)
WO (1) WO2018078971A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135678A (ja) * 2019-02-25 2020-08-31 株式会社日立製作所 ソフトウエアパッケージ更新支援装置、ソフトウエアパッケージ更新支援方法及びソフトウエアパッケージ更新支援プログラム
JP2021104752A (ja) * 2019-12-26 2021-07-26 株式会社東芝 列車情報管理装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3703983A1 (en) * 2017-11-03 2020-09-09 HELLA GmbH & Co. KGaA Method of driving a component of a vehicle, system, computer program product and computer-readable medium
JP6906477B2 (ja) * 2018-05-22 2021-07-21 株式会社日立製作所 データ処理装置およびデータ処理方法
CN110738558B (zh) * 2018-07-20 2024-03-05 京东科技控股股份有限公司 信息修复方法、装置、电子设备及计算机可读介质
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법
KR102282830B1 (ko) * 2020-11-18 2021-07-29 주식회사 사이람 전염병의 전염 네트워크 분석 방법 및 장치
JP2023036140A (ja) * 2021-09-02 2023-03-14 株式会社日立製作所 業務データ分析装置、業務データ分析システム及び業務データ分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113257A (ja) * 1997-06-13 1999-01-06 Fujitsu Ltd リレーショナルデータベース管理装置,中間リンクテーブル自動作成処理方法およびプログラム記憶媒体
JP2012073812A (ja) * 2010-09-29 2012-04-12 Hitachi Ltd データ分析支援システム及び方法
JP2014130539A (ja) * 2012-12-28 2014-07-10 Fujitsu Ltd 情報処理装置、ノード抽出プログラムおよびノード抽出方法
JP2015165352A (ja) * 2014-03-03 2015-09-17 株式会社日立製作所 分析候補表示装置
JP2016133899A (ja) * 2015-01-16 2016-07-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7523137B2 (en) * 2005-04-08 2009-04-21 Accenture Global Services Gmbh Model-driven event detection, implication, and reporting system
JP5457995B2 (ja) 2010-11-09 2014-04-02 株式会社日立システムズ データ分析の分析軸推薦方法、システム、及びプログラム
US9892187B2 (en) * 2012-09-14 2018-02-13 Hitachi, Ltd. Data analysis method, data analysis device, and storage medium storing processing program for same
JP6158623B2 (ja) * 2013-07-25 2017-07-05 株式会社日立製作所 データベース分析装置及び方法
JP2015102878A (ja) * 2013-11-21 2015-06-04 株式会社日立製作所 プログラム関連分析方法
US10424016B2 (en) * 2013-12-19 2019-09-24 International Business Machines Corporation Modeling asset transfer flow relationships discovered in unstructured data
US10140319B2 (en) * 2016-07-26 2018-11-27 Bank Of America System for identifying anomalies by automatically generating and analyzing a structure
US20180181667A1 (en) * 2016-12-23 2018-06-28 0934781 BC Ltd System and method to model recognition statistics of data objects in a business database

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113257A (ja) * 1997-06-13 1999-01-06 Fujitsu Ltd リレーショナルデータベース管理装置,中間リンクテーブル自動作成処理方法およびプログラム記憶媒体
JP2012073812A (ja) * 2010-09-29 2012-04-12 Hitachi Ltd データ分析支援システム及び方法
JP2014130539A (ja) * 2012-12-28 2014-07-10 Fujitsu Ltd 情報処理装置、ノード抽出プログラムおよびノード抽出方法
JP2015165352A (ja) * 2014-03-03 2015-09-17 株式会社日立製作所 分析候補表示装置
JP2016133899A (ja) * 2015-01-16 2016-07-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135678A (ja) * 2019-02-25 2020-08-31 株式会社日立製作所 ソフトウエアパッケージ更新支援装置、ソフトウエアパッケージ更新支援方法及びソフトウエアパッケージ更新支援プログラム
JP7103973B2 (ja) 2019-02-25 2022-07-20 株式会社日立製作所 ソフトウエアパッケージ更新支援装置、ソフトウエアパッケージ更新支援方法及びソフトウエアパッケージ更新支援プログラム
JP2021104752A (ja) * 2019-12-26 2021-07-26 株式会社東芝 列車情報管理装置
JP7319911B2 (ja) 2019-12-26 2023-08-02 株式会社東芝 列車情報管理装置

Also Published As

Publication number Publication date
KR20190039758A (ko) 2019-04-15
WO2018078971A1 (ja) 2018-05-03
US11188567B2 (en) 2021-11-30
JP6736450B2 (ja) 2020-08-05
KR102172029B1 (ko) 2020-10-30
US20190197047A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
WO2018078971A1 (ja) データ分析支援装置及びデータ分析支援システム
Sahni et al. What? Why? When? How? Where? of Technology-Based Bibliometric Review
Boley et al. One click mining: Interactive local pattern discovery through implicit preference and performance learning
US11138772B2 (en) Search system, search method, and material property database management apparatus
Jeevalatha et al. Performance analysis of undergraduate students placement selection using decision tree algorithms
KR101426765B1 (ko) 협업 파트너 검색 서비스를 제공하는 시스템 및 방법
Singh et al. Student performance analysis using clustering algorithm
KR101953190B1 (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
Morillo et al. Towards the automation of address identification
JP4839195B2 (ja) Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置
JP6909596B2 (ja) 知識モデル構築システム及び知識モデル構築方法
Ji et al. Complexity analysis approach for prefabricated construction products using uncertain data clustering
Pumpuang et al. Comparisons of classifier algorithms: Bayesian network, C4. 5, decision forest and NBTree for Course Registration Planning model of undergraduate students
Tauer et al. An incremental graph-partitioning algorithm for entity resolution
CN110737779B (zh) 知识图谱的构建方法、装置、存储介质和电子设备
Ross et al. A case-based reasoning system for conflict resolution: design and implementation
JP2015230577A (ja) 工程管理システムにおけるアノテーション拡張付与方法
Zheng et al. Landmark-based route recommendation with crowd intelligence
JP2019185394A (ja) データカタログ自動生成システム及びその自動生成方法
KR20190101718A (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
JP2004062707A (ja) 作業支援装置
Antunes et al. Analysing public transport data through the use of big data tecnhologies for urban mobility
JP6160503B2 (ja) 情報入力システム及びプログラム
Oprea Making the decision on buying second-hand car market using data mining techniques
WO2022113219A1 (ja) タグドメイン提示装置およびタグドメイン提示方法、およびそれを用いた情報処理システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190313

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200715

R150 Certificate of patent or registration of utility model

Ref document number: 6736450

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150