WO2020188670A1 - データ統合評価システム及びデータ統合評価方法 - Google Patents

データ統合評価システム及びデータ統合評価方法 Download PDF

Info

Publication number
WO2020188670A1
WO2020188670A1 PCT/JP2019/011018 JP2019011018W WO2020188670A1 WO 2020188670 A1 WO2020188670 A1 WO 2020188670A1 JP 2019011018 W JP2019011018 W JP 2019011018W WO 2020188670 A1 WO2020188670 A1 WO 2020188670A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
integration
evaluation
plan
requirement
Prior art date
Application number
PCT/JP2019/011018
Other languages
English (en)
French (fr)
Inventor
知章 掛田
光山 訓
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2021506830A priority Critical patent/JPWO2020188670A1/ja
Priority to US17/416,714 priority patent/US20220050853A1/en
Priority to PCT/JP2019/011018 priority patent/WO2020188670A1/ja
Priority to EP19920481.9A priority patent/EP3940546A1/en
Publication of WO2020188670A1 publication Critical patent/WO2020188670A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/213Schema design and management with details for schema evolution support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials

Definitions

  • the present invention relates to a data integration evaluation system and a data integration evaluation method, and a data integration evaluation system and data integration for evaluating the appropriateness of data integration for analysis data created by combining a plurality of data for data analysis. It is suitable for application to the evaluation method.
  • the data for analysis is in the form of a matrix, which facilitates programmatic data analysis processing.
  • Patent Document 1 a plurality of data tables are integrated in the record direction (hereinafter, also referred to as a horizontal direction in the present specification), and the data tables are integrated based on the degree of coincidence and the degree of duplication of the values contained in the data.
  • the method of evaluating is disclosed.
  • Patent Document 1 As described above, the conventional method as disclosed in Patent Document 1 has been to combine a plurality of data in the horizontal direction.
  • the vertical direction hereinafter, also referred to as the vertical direction in the present specification. Desired.
  • vertical joining there is a problem that it is not easy to join properly if the column configurations are different between the data.
  • the device operation data is acquired in another file for each date and time and such data file is acquired for a long period of time
  • the device settings are changed within the period.
  • the number of acquired data items may increase or decrease, or the order of columns may be changed.
  • the data type and unit in each column will be different due to circumstances such as different device settings.
  • the analyst individually decides whether or not to integrate by checking the data contents one by one or contacting the device administrator. It takes a lot of time and effort.
  • duplicate headers and the like may be omitted from the device operation data and the like in order to reduce the amount of data, and the analyst may not be able to judge the contents at a glance.
  • manual processing becomes unrealistic.
  • the present invention has been made in consideration of the above points, and even when data integration is performed using a plurality of data having different acquisition environments, an integration plan that integrates the data in the column direction is created, and the integration plan is created.
  • the integration plan evaluation unit that creates an integration plan for each column of the data based on the data value of the data received by the user requirement reception unit and the requirement, and evaluates the integration plan, and the above.
  • a data integration evaluation system including an evaluation result display unit that outputs evaluation results by the integration proposal evaluation unit is provided.
  • an integration plan creation step for creating an integration plan for each column of the data based on the user requirement acceptance step, the data value of the data received in the user requirement acceptance step, and the requirement, and the integration plan creation step.
  • a data integrated evaluation method including an integrated plan evaluation step for evaluating the integrated plan created in (1) and an evaluation result display step for outputting the evaluation result by the integrated plan evaluation step.
  • FIG. 1 is a block diagram showing a hardware configuration example of the data integration evaluation system according to the present embodiment.
  • the integration evaluation server 10 and the client terminal 20 are connected by LAN 30 using the respective LAN (Local Area Network) ports 14 and 24 as connection ports. ing.
  • LAN Local Area Network
  • the integrated evaluation server 10 is, for example, a general server, and includes a CPU (Central Processing Unit) 11, a memory 12, and an auxiliary storage device 13.
  • the auxiliary storage device 13 may be configured to be connected to the outside of the integrated evaluation server 10.
  • the client terminal 29 is, for example, a general PC, and includes a CPU 21 and a memory 22.
  • a plurality of client terminals 20 may be connected to the integrated evaluation server 10 via the LAN 30.
  • the network connecting the integrated evaluation server 10 and the client terminal 20 is not limited to the LAN 30, and may be any network connection regardless of whether it is wired or wireless.
  • the user operates the client terminal 20 to access the integration evaluation server 10 via the LAN 30, and provides the integrated evaluation server 10 with data and data integration requirements (user requirements). input.
  • the integrated evaluation server 10 receives data input from the user and user requirements, creates an evaluation plan (integration plan) for data integration, evaluates the data, and presents the evaluation result of the integration plan.
  • the user can refer to the evaluation result of the integration plan presented by the integration evaluation server 10 from the client terminal 20.
  • FIG. 2 is a block diagram showing a functional configuration example of the data integration evaluation system according to the present embodiment.
  • the data integration evaluation system 1 includes a data storage unit 100, a user requirement reception unit 200, an integration proposal evaluation unit 300, and an evaluation result display unit 400.
  • the data integration evaluation system 1 may be simply referred to as "system 1".
  • the data storage unit 100 is realized by the auxiliary storage device 13 of the integrated evaluation server 10 shown in FIG. 1, and stores various data.
  • FIG. 2 shows data table 110, profile table 120, requirement template table 130, requirement table 140, integration plan management table 150, and data file 160 as data stored in the data storage unit 100. Details of the data will be described later with reference to the specific examples shown in FIGS. 3 to 8.
  • the user requirement receiving unit 200, the integrated proposal evaluation unit 300, and the evaluation result display unit 400 are realized by the CPU 11 of the integrated evaluation server 10 deploying and executing a predetermined program on the memory 12.
  • the CPU 11 expands and executes a predetermined program on the memory 12 on the integrated evaluation server 10, so that a data integration plan can be created and evaluated, and a predetermined screen (requirement registration) can be created. Since the display of the screen 210 and the result display screen 410) can be provided by a GUI or the like, it is said that the functional configuration of the data integrated evaluation system 1 shown in FIG. 2 is realized by the integrated evaluation server 10. The form is not limited to this. Then, as described above with reference to FIG. 1, the user can perform reference / operation and the like on the screen from the client terminal 20 via the LAN 30.
  • the user requirement reception unit 200 displays a requirement registration screen 210 for the user to input data to be integrated and data integration requirements (user requirements) when requesting evaluation of data integration, and the user with respect to the requirement registration screen 210. Accepts data and user requirements according to the input operation of. Details of the process (user requirement acceptance process) by the user requirement reception unit 200 and the requirement registration screen 210 will be described later with reference to FIGS. 10 and 11.
  • the integration plan evaluation unit 300 creates a data integration plan based on the data received by the user requirement reception unit 200 and the user requirement, and further evaluates the appropriateness of each integration plan. Details of the processing by the integration proposal evaluation unit 300 (integration proposal evaluation processing) will be described later with reference to FIG.
  • the evaluation result display unit 400 displays information on the integration plan, evaluation results, and the like for the data integration plan evaluated by the integration plan evaluation unit 300 (result display screen 410). Details of the result display screen 410 will be described later with reference to FIG. In the present embodiment, the evaluation result display unit 400 displays the result display screen 410, but the result output of the present invention is not limited to the display, and is an output method such as printing or file writing. You may.
  • FIG. 3 is a diagram showing a specific example of the data table.
  • the data table 110 illustrated in FIG. 3 is a table that stores information on data (data file 160) managed by the system 1.
  • data file 160 not only the data input by the user (data 161 to 163 in FIG. 8) but also the data created by the integration plan evaluation unit 300 as the integration plan (FIG. 8).
  • Data 164) is also included. Then, it is assumed that one record is stored in each data of the data file 160 for each column.
  • the table structure of the data table 110 will be described in detail with reference to FIG.
  • the serial number (data number) of the data to be managed is stored in the item 1101. In the following description, the serial numbers will be written as # 1, # 2, ... Using "#".
  • Item 1102 is a column in which the request ID (ReqId) of the serial number given by the system 1 in response to the request (request) when the user requests the evaluation of data integration is stored.
  • Item 1103 is a column in which the integration ID (ItgId) for identifying the data of the integration proposal to be evaluated in the request ID (item 1102) is stored.
  • the integration ID ItgId
  • the integration IDs of "V1" and "V2" are given.
  • the integration ID is not assigned.
  • Item 1104 is a column in which the data name (file name) is stored.
  • file name file name
  • the file name of the integration plan is automatically generated according to a predetermined naming convention when it is created by the system 1. Specifically, a character string is generated in which "d" is added at the beginning, then the serial number (item 1101) of the integrated data is concatenated with a hyphen, and the integrated ID (item 1103) is concatenated with an underscore. Will be done.
  • Item 1105 is a column in which the storage destination (path) of the data in the data integration evaluation server 1 is stored.
  • all the data managed in the data table 110 is a data file having a CSV extension, but the data format is not limited to this in the present embodiment, and other file formats are used. Data, data stored in RDB (Relational Database), etc. may be used.
  • RDB Relational Database
  • FIG. 4 is a diagram showing a specific example of the profile table.
  • the profile table 120 illustrated in FIG. 4 is a table that stores profile information (hereinafter, simply referred to as a profile) of data managed by the system 1.
  • profile information hereinafter, simply referred to as a profile
  • the statistical value (statistic) used in the boxplot is used as an example of the profile.
  • the table structure of the profile table 120 will be described in detail with reference to FIG.
  • Item 1201 stores the serial number (profile number) of the profile managed in the profile table 120.
  • profile table 120 a profile number according to a serial number is assigned to each combination of the data number (item 1202) and the column (item 1203) described later.
  • the serial number (data number) assigned to the target data is stored in the item 1202.
  • the data number of item 1202 corresponds to item 1101 of the data table 110.
  • Item 1203 is a column in which the column number in the data is stored, and numbers are assigned in order from the left column, for example.
  • Item 1204 is a column indicating the data type stored in the corresponding column of the record.
  • Data meaning a date
  • “Num” meaning a number
  • Other data types such as string data can also be applied.
  • string data when it is applied to character string data, it may be used by processing such as making the length of the character string into a profile.
  • item 1205 describes the minimum value of the data stored in the corresponding column of the record
  • item 1211 describes the maximum value.
  • items 1207, 1208, and 1209 include the first quartile (Q1) and the second quartile (Q2) when the data stored in the corresponding column of the record is represented by a box plot, respectively. ), The third quartile (Q3) is stored. Of these, the second quartile (Q2) stored in item 1208 corresponds to the median value of the data stored in the corresponding column of the record.
  • item 1206 stores the lower whisker value (LowerWhisker) which is the value of the lower whiskers in the box plot
  • item 1210 describes the upper whisker value (UpperWhisker) which is the value of the upper whiskers. Will be done.
  • IQR interquartile range
  • item 1212 describes the number of rows of data stored in the corresponding column of the record
  • item 1213 describes the percentage of data containing a value in the corresponding column of the record (data filling rate (Filled)). ) Is shown as a percentage.
  • FIG. 5 is a diagram showing a specific example of the requirement template table.
  • the requirement template table 130 illustrated in FIG. 5 is table data for managing one or more requirement templates.
  • a requirement template is for recording or recalling a plurality of data requirements by collectively labeling a plurality of requirements (data requirements) related to data integration.
  • the system 1 does not necessarily have to hold the requirement template, but the storage of the requirement template makes it possible to simplify the input of the user requirement by the user.
  • Item 1301 stores the name of the requirement template (template name).
  • template name the name of the requirement template
  • one requirement template is formed by a plurality of records having the same template name. Specifically, in the case of FIG. 5, one requirement template is formed in the first to third rows, and another requirement template is formed in the fourth and subsequent rows.
  • Item 1302 is a column in which the priority of the requirement in the requirement template is stored, and items 1303 to 1306 store specific information of the requirement.
  • the requirement is expressed by a conditional expression, and the configuration of the conditional expression is stored in items 1303 to 1305. Further, it is assumed that the "operation" stored in the item 1306 is executed only for the requirement having the priority of "0" when the requirement is satisfied, and for the requirements of other priorities, when the requirement is satisfied. The evaluation value becomes high. The requirements will be described in more detail.
  • the side to be integrated means the side that comes first in the vertical connection and the side that comes to the left side in the horizontal connection.
  • the second element in parentheses for item 1303 represents the target column.
  • the third element in parentheses of item 1303 represents the metric to be evaluated (evaluation metric).
  • evaluation metric corresponds to the column of the profile (each item in the profile table 120 of FIG. 4)
  • the evaluation is performed with reference to the profile, in other words, the evaluation is performed based on the statistics. Means to carry out.
  • the evaluation metric has a value different from the column of the profile, it means that the evaluation is performed based on the statistical method indicated by the evaluation metric.
  • Item 1305 is a column for storing the configuration on the right side of the conditional expression indicating the requirement. When the content of item 1305 is described in parentheses, it may be considered in the same manner as in item 1303.
  • Item 1304 is a column for storing an operator connecting the left side and the right side in the conditional expression indicating the requirement. That is, the requirement can be evaluated by whether or not the conditional expression represented by items 1303 to 1305 is satisfied.
  • the composition ratio of data D1 and data D2 in the integration plan is calculated. More specifically, in the profile table 120 of FIG. 4, the row number metric (item 1212) of the target column is referred to for each of the data D1 and D2 to be integrated in the integration plan. At this time, if the number of rows of the column with D1 is "D1_C" and the number of rows of the column with D2 is "D2_C", the data composition ratio of D1 can be calculated by "D1_C / (D1_C + D2_C)". ..
  • clustering is performed to classify the one-dimensional data in which the target columns are integrated in D1 and D2 into two classes of the k-means method. Then, the ratio of D1 in one of the classes divided by clustering is calculated.
  • the difference between the ratios calculated in the first and second steps is calculated, and this is referred to as "km-ratio-diff".
  • this difference value is "(D1, Num, km-ratio-diff) ⁇ -0.2" (see the 5th line in FIG. 5)
  • the above difference value is "-0.2". If it is the above, it can be evaluated that the requirement is satisfied.
  • Item 1306 is a column in which a corresponding action (Action) when the requirement (conditional expression shown in items 1303 to 1305) is satisfied is stored.
  • the item 1306 is stored only for the requirement of the priority "0" (Priority0), and specifically, the operation of "Exclude Eval” is defined.
  • “Exclude Eval” means that the target column in this requirement is excluded from the evaluation target. That is, if the requirement of Priority 0 is satisfied, the target column is excluded from the evaluation target of the "integration proposal evaluation value (TotalEval)" described later.
  • FIG. 6 is a diagram showing a specific example of the requirement table.
  • the requirement table 140 illustrated in FIG. 6 is a data table for managing data integration requirements (user requirements) input from the user.
  • the table structure of the requirement table 140 will be described in detail with reference to FIG. However, for items similar to the requirement template table 130 of FIG. 5, repeated description will be omitted.
  • the serial number (requirement number) of the user requirement managed in the requirement table 140 is stored. For example, when a user requirement is input using a requirement template, a requirement number is assigned to each of a plurality of requirements constituting the requirement template.
  • Item 1402 is a column for storing the request ID of the serial number given by the system 1 in response to the request (request) when the user requests the evaluation of data integration.
  • the request ID of item 1402 corresponds to item 1102 of the data table 110 (see FIG. 3).
  • Item 1403 is a column in which the priority of the requirement is stored.
  • Item 1404 is a column for storing the configuration of the left side of the conditional expression indicating the requirement.
  • Item 1405 is a column for storing an operator connecting the left side and the right side in the conditional expression indicating the requirement.
  • Item 1406 is a column for storing the configuration of the right-hand side of the conditional expression indicating the requirement.
  • Item 1407 is a column in which the corresponding operation when the requirement is satisfied is stored. Items 1403 to 1407 have a column configuration similar to items 1302 to 1306 in the requirement template table 130 shown in FIG. 5, and therefore repeated description will be omitted.
  • FIG. 7 is a diagram showing a specific example of the integration plan management table.
  • the integration plan management table 150 illustrated in FIG. 7 is a data table for managing the data integration plan created by the integration plan evaluation unit 300.
  • one record is used for each combination of columns concatenated between the data (D1) on the integration side and the data (D2) on the integration side, so one integration plan is D1. It is formed from a plurality of records having the same combination of D2.
  • the table structure of the integration plan management table 150 will be described in detail with reference to FIG.
  • Item 1501 is a column in which the request ID of the user's request (request) that triggered the creation of the integration plan is stored.
  • the request ID of item 1501 corresponds to item 1102 of the data table 110 and item 1402 of the requirement table 140 (see FIGS. 3 and 6).
  • Item 1502 is a column in which an integration ID for identifying the integration proposal is stored.
  • the integrated ID of item 1502 corresponds to item 1103 of the data table 110 (see FIG. 3).
  • “V1" and “V2" are described as the integrated ID, and the first character thereof indicates the integrated direction (V is the vertical direction, and H is the horizontal direction, which is not shown).
  • the second and subsequent characters represent the serial number of the integration plan for the request.
  • Item 1503 is a column in which a data number indicating data D1 on the side to be integrated at the time of integration is stored.
  • item 1504 is a column in which a column number indicating a column (integrated column) to be integrated in the data D1 on the integrated side is stored.
  • the data number is stored in the item 1505 and the column number is stored in the item 1506.
  • the data numbers stored in the items 1503 and 1505 correspond to the item 1202 in the profile table 120, and the column numbers stored in the item 1504 and the item 1506 correspond to the item 1203 in the profile table 120. (See FIG. 4).
  • Item 1507 is a column in which a data number (ITG) representing data integrated according to the integration definition is stored.
  • Item 1508 is a column in which a column number (ItgCol) indicating a column after integration in the integrated data is stored.
  • Item 1509 is a column in which the evaluation value for the integration plan (integration plan evaluation value (TotalEval)) is stored. One value is assigned to each integration plan evaluation value.
  • Item 1510 is a column in which the evaluation value (individual evaluation value (Eval)) of the integrated evaluation for the record is stored. Since the individual evaluation value is attached to each combination of columns concatenated in the integration plan, it may be a different value for each record.
  • Item 1511 is a column in which the reason for the integrated evaluation for the record, that is, the reason for the integrated evaluation (evaluation reason) for each column is stored.
  • FIG. 8 is a diagram showing a specific example of a data file.
  • data 161 to 163 are shown as specific examples of actual data acquired by a predetermined device and input to the user, and specific examples of the integration plan data created by the integration plan evaluation unit 300.
  • Data 164 is shown as an example.
  • the data 161 to 164 are all CSV format data files.
  • the data 161 to 163 are observation data having five columns (referred to as the first column, the second column, ... the fifth column in order from the left), and are observed on different dates.
  • the data types (item 1204) in the records having the column number (item 1203) of "1" are all "Date", the first of the data 161 to 163.
  • Each column is composed of date information.
  • the data types of the other column numbers are all "Num”
  • the second and subsequent columns of the data 161 to 163 are numerical data.
  • the data 161 to 163 are a plurality of data having different acquisition environments, and conventionally, it has not been easy to properly combine these data without the above background information.
  • the composition of the background is found based on the statistical information included in each data 161 to 163 and the statistical processing for each data 161 to 163. The appropriateness of the integration plan can be evaluated.
  • the data 164 which is a specific example of the integration plan data, is given the file name "d1-2-3_V1.csv" in accordance with the above-mentioned "predetermined naming convention" for the item 1104 (data name) in FIG. There is. That is, the data 164 is an integration plan in which the data to which # 1, # 2, and # 3 are assigned in the data table 110 (corresponding to the data 161, 162, 163) are combined, and "V1" is added as the integration ID 1103. It is a thing.
  • the description will be centered on the numerical data, but the data that can be used in the data integrated evaluation system 1 according to the present embodiment.
  • the type is not limited to the data type of numerical value or date, and other data types such as character string data can be applied.
  • processing such as making the length of the character string into a profile is used.
  • the data integration evaluation system 1 creates an evaluation plan (integration plan) for data integration based on the user's request (request), evaluates it, and evaluates the evaluation result.
  • evaluation plan for data integration based on the user's request (request)
  • FIG. 9 is a flowchart showing the overall processing procedure of the data integration evaluation process.
  • the user requirement reception unit 200 presents a requirement registration screen 210 for registering detailed information of the request (request) on the integrated evaluation server 10.
  • the user can refer to the requirement registration screen 210 from the client terminal 20 via the LAN 30, and by performing an input operation on the requirement registration screen 210, the data to be integrated and the data integration requirements (user requirement). ) Is determined.
  • FIG. 10 is a diagram showing an example of the requirement registration screen.
  • the data to be input can be determined in the area 211, and in the area 212, it is managed by the requirement template stored in the system 1, that is, the requirement template table 130. You can call any of the requirement templates that are available.
  • the requirement template stored in the system 1, that is, the requirement template table 130 You can call any of the requirement templates that are available.
  • detailed information of the requirements constituting the requirement template called in the area 212 is displayed in a list. Further, in the area 213, unnecessary requirements can be deleted from the list display, or new requirements can be added.
  • the button 214 data and user requirements are input with the contents displayed in the requirement registration screen 210.
  • the user requirement reception unit 200 receives the data and the user requirement determined on the requirement registration screen 210, and executes the user requirement reception process of storing these in the data storage unit 100. (Step S11). As a result of the user requirement reception process, the user requirement reception unit 200 returns the request ID of the user request received in this process.
  • the integration plan evaluation unit 300 creates an integration plan for the data based on the data stored in the data storage unit 100 and the user requirements in step S11, and implements the integration plan evaluation process for evaluating the integration plan. (Step S12).
  • the information generated and calculated in the integration plan evaluation process is also stored in the data storage unit 100 (auxiliary storage device 13).
  • the evaluation result display unit 400 describes the information obtained in the process of step S12 regarding the integration plan corresponding to the request ID returned in the user requirement reception process (specifically, detailed information on the integration plan and the detailed information of the integration plan. (Evaluation result, etc.) are acquired from the data storage unit 100, and these are displayed on the result display screen 410 in a predetermined format (step S13).
  • FIG. 11 is a flowchart showing an example of a processing procedure of the user requirement acceptance process. As described above, the user requirement reception process is executed by the user requirement reception unit 200.
  • the user requirement reception unit 200 stores the data input by the user on the requirement registration screen 210 (see the area 211 in FIG. 10) in the data storage unit 100 (step S21). More specifically, the user requirement reception unit 200 stores the actual data in the data file 160, and stores the file name and path of the data in the data table 110 in association with the user's request ID.
  • the user requirement reception unit 200 calculates the profile of the data stored in step S21 and stores it in the profile table 120 (step S22).
  • the details of the profiles stored in the profile table 120 are as described above with reference to FIG.
  • the user requirement reception unit 200 associates the user requirements (see areas 212 and 213 in FIG. 10) entered by the user on the requirement registration screen 210 with the user's request ID and displays the requirement table 140 of the data storage unit 100.
  • Store step S23.
  • the user requirement reception unit 200 sets the request ID as a return value and ends the user requirement reception process (step S24).
  • FIG. 12 is a flowchart showing an example of a processing procedure of the integration plan evaluation process. As described above, the integrated proposal evaluation process is executed by the integrated proposal evaluation unit 300.
  • the integration proposal evaluation unit 300 acquires the user requirements input in the request from the requirement table 140 based on the request ID returned in the user requirement reception process (step S31).
  • the integration proposal evaluation unit 300 acquires the storage destination of the data input in the request from the data table 110 based on the request ID, and acquires the data from the storage destination (data file 160) (step S32). ..
  • the integration plan evaluation unit 300 acquires the profile of each data acquired in step S32 from the profile table 120 based on the request ID (step S33).
  • the integration plan evaluation unit 300 creates an integration plan that integrates the data based on the user requirements acquired in step S31 and the profile of the data acquired in step S33, and integrates the predetermined information in the integration plan. It is stored in the management table 150 (step S34).
  • the integration plan evaluation unit 300 calculates the combinations of columns at the time of data integration by brute force, and stores the above-mentioned predetermined information in each combination in the integration plan management table 150. At this time, the case where the column to be combined does not exist is also included in the calculation target of the combination. Specifically, for example, in FIG. 7, the record having the request ID “1” and the integrated ID “V2” corresponds to this.
  • the predetermined information is information stored in the following items of the integration plan management table 150, that is, a request ID (item 1501), an integration ID (same item 1502), and a data number of data D1 (item 1503). ), The column number indicating the integrated column in the data D1 (item 1504), the data number of the data D2 (item 1505), and the column number indicating the integrated column in the data D2 (item 1506).
  • the integration plan evaluation unit 300 repeats the processes of steps S36 to S39 for all the integration plans while sequentially selecting one from the integration plans created in step S34.
  • step S36 the integration plan evaluation unit 300 integrates the data acquired in step S32 according to the definition of the selected integration plan. Further, the integration plan evaluation unit 300 stores the integrated data (integration plan data) in the data file 160, and adds the information to the data table 110. In addition, the integration plan evaluation unit 300 adds numbers (items 1507, 1508) indicating the data and columns after integration corresponding to the integration definition for each column in the integration plan management table 150.
  • step S37 the integration plan evaluation unit 300 acquires the profile of the integration plan data integrated in step S36 and stores it in the profile table 120.
  • step S38 the integration plan evaluation unit 300 confirms the user requirements acquired in step S31, and calculates an evaluation value (individual evaluation value) for each column based on the satisfaction status of the requirement in the integration plan data. Further, the integrated proposal evaluation unit 300 describes the calculated individual evaluation value and the evaluation reason thereof in items 1510 and 1511 in the corresponding record of the integrated proposal management table 150. The specific evaluation method in step S38 will be described later.
  • step S39 the integration plan evaluation unit 300 integrates the individual evaluation values calculated in step S38 in units of integration plans, and calculates the evaluation value (integration plan evaluation value) for one selected integration plan. Further, the integration plan evaluation unit 300 describes the calculated integration plan evaluation value in item 1509 in the corresponding record of the integration plan management table 150. The specific evaluation method in step S39 will be described later.
  • the integration plan evaluation unit 300 can create an integration plan based on the requested data and user requirements, and evaluate the appropriateness of each integration plan.
  • the integration plan evaluation unit 300 carries out the evaluation according to the priority of the target requirement.
  • the target requirements are represented in the record including the request ID (item 1402) to be processed in the requirement table 140 of FIG. 6, and the priority of each requirement is described in the item 1403.
  • the evaluation is a subtraction method starting from "100”, and when there is a requirement that is not satisfied, the evaluation value is subtracted by the weight of the requirement. That is, the individual evaluation value is "100" when all the requirements are satisfied, but the individual evaluation value is "100” because the column is not evaluated according to the requirements because it is not subtracted.
  • the total value of priorities is calculated.
  • the total value is "3".
  • the priority "0" will be described in a later step.
  • the priorities are sorted in ascending and descending order, respectively.
  • the order is "1" and "2”
  • the order is "2" and "1".
  • each value sorted in descending order in the second step is divided by the total value of the priorities calculated in the first step to obtain a weight. That is, since the descending values "2" and “1" are divided by the total value "3", the weights are "2/3" and "1/3", respectively.
  • the values sorted in ascending order in the 2nd step are set as the priority, and the weights calculated in the 3rd step are associated with the weights for each priority.
  • the values sorted in ascending order represent the priority, and the priority sorted in descending order is used as the weight. That is, the weight of the priority "1" is "2/3", and the weight of the priority "2" is "1/3".
  • the weight calculated in the fourth step is subtracted from "1".
  • the value multiplied by 100 is used as the individual evaluation value.
  • the requirement of priority "0" is evaluated.
  • the "operation (for example,” ExcludeEval ")" stored in the item 1407 is executed, and the calculation is performed by the fifth step.
  • the individual evaluation value is stored in the item 1510 of the target row of the integration plan management table 150.
  • the conditional expression of the requirement of priority "0" is not satisfied, the individual evaluation values calculated up to the fifth step are stored in the item 1510 without executing the above "operation".
  • the integration destination column when the integration destination column is not selected, that is, when any of the items 1504 and the item 1506 is blank in the integration proposal management table 150, it is calculated as a penalty in the previous steps.
  • the individual evaluation value is multiplied by 0.95.
  • the individual evaluation value calculated up to the sixth step was "100", but the column number of the data D2 on the integrated side. Since (item 1506) is blank, the column to be integrated is not selected. Therefore, the individual evaluation value "100" is multiplied by 0.95 to become “95”, and this value is stored in the item 1510 as the final individual evaluation value.
  • the evaluation reason that "there is no column to be integrated with column 4 of Data1" in the 7th step is added to item 1511.
  • the evaluation value can be surely lowered when the integration column is not selected, so it is difficult to give a high evaluation value to the integration plan that does not select the integration column.
  • the evaluation value can be corrected appropriately so as to be. As a result, it is possible to avoid that the integration plan that does not select the integration column is easily selected based on the evaluation value.
  • the integration plan evaluation unit 300 determines the value of item 1510 of each record constituting the integration plan selected in step S35 of FIG. 12 in the integration plan management table 150, that is, of each column.
  • the individual evaluation value (Eval) is divided by 100 to obtain a ratio, and then the integrated value is used as the integrated proposal evaluation value (TotalEval) and stored in all the items 1509 of each of the above records.
  • the integration plan is evaluated by integration as described above, but the present embodiment is not limited to this method, and the integration plan may be evaluated by another evaluation method.
  • the average value of the individual evaluation values may be calculated and used as the integrated proposal evaluation value.
  • FIG. 13 is a diagram showing a specific example of a result display screen.
  • the result display screen 410 is subjected to the user requirement reception process (step S11 in FIG. 9) by the user requirement reception unit 200 and the integration plan evaluation process (step S12 in FIG. 9) by the integration plan evaluation unit 300. After that, it is a screen displayed by the evaluation result display unit 400, which provides the user with detailed information on the integration plan, evaluation results, etc. in response to the user's request for evaluation of data integration. ..
  • the recommended integration plan is shown in the area 411 based on the integration plan evaluation value.
  • the integration plan evaluation values are arranged in the "Score” column in descending order of the integration plan evaluation value calculated in the integration plan evaluation process, and the integration ID of the integration plan corresponding to each score is displayed in the "Integration ID” column. Shown.
  • the integration plan of the integration ID “V2” whose Score is “90” is the most recommended, and that the integration plan “V2” is selected in the area 411. Then, in a state where any of the integration plans shown in the area 411 is selected, detailed information regarding the selected integration plan is shown in the areas 421 and 413.
  • Area 412 shows the correspondence between the column configurations of each data in the integration plan based on the integration plan management table 150 and the like.
  • the data number of the data included in the selected integration plan is shown in the "Data ID” field
  • the file name of the data is shown in the "File Name” field
  • the column of the data is shown in the "Column” field.
  • the configuration correspondence is shown in tabular form. Specifically, in the case of FIG. 13, in the selected integration plan of “V2”, the column corresponding to the fourth column of the data “1” is not on the data “2” and “3” sides, and the data “1” It is shown that there is no column corresponding to the fifth column of "2" and "3" on the data "1" side.
  • the file name in the "File Name” column can be obtained by referring to the data table 110.
  • Area 413 shows the detailed results of individual evaluation for each column combination in the integration plan based on the integration plan management table 150.
  • the individual evaluation value (Eval) which is the integrated evaluation value for each column, is shown in the "Score” column
  • the evaluation reason (EvalDesc) for the integrated evaluation for each column is shown in the "Description” column. ..
  • the data integration evaluation process by the data integration evaluation system 1 is executed, so that the data integration desired by the user and the data integration desired by the user in the user requirement acceptance processing are performed.
  • the integration plan evaluation process multiple integration plans for the above data are created, and the integration plan is evaluated based on the statistic or statistical method specified in the user requirements. Can present the evaluation result of each integration plan to the user.
  • the integration plan evaluation process individual evaluation values that evaluate the relationship between columns are calculated in units of column combinations between data in the integration plan, and the evaluation value of the entire integration plan is calculated based on these individual evaluation values. Therefore, the data to be integrated requested by the user is data with a different acquisition environment, or duplicate headers are omitted to reduce the amount of data, and the content cannot be judged at first glance by human power. Even so, the appropriateness of the integration plan can be evaluated for each integration plan that integrates data in the column direction. As a result, the evaluation result that appropriately responds to the user's request can be presented by displaying the result display screen 410 by the evaluation result display unit 400.
  • the present invention is not limited to the above-described embodiment, and includes various modifications.
  • the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, it is possible to add / delete / replace a part of the configuration of the embodiment with another configuration.
  • each of the above configurations, functions, processing units, processing means, etc. may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • SSD Solid State Drive
  • control lines and information lines are shown as necessary for explanation, and not all control lines and information lines are shown in the product. In practice it may be considered that almost all configurations are interconnected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データ統合評価システム1は、それぞれが1以上のカラムを有する複数のデータをカラム方向に統合するデータ統合において、ユーザのリクエストに応じてデータの統合案を評価する。データ統合評価システム1は、統合するデータ及びデータ統合の要件を受け付けるユーザ要件受付部200と、ユーザ要件受付部200が受け付けたデータのデータ値と要件とに基づいて、データのカラムごとの統合案を作成し、当該作成した統合案を評価する統合案評価部300と、統合案評価部300による評価結果を出力する評価結果表示部400と、を備える。

Description

データ統合評価システム及びデータ統合評価方法
 本発明は、データ統合評価システム及びデータ統合評価方法に関し、データ分析のために複数のデータを結合して作成される分析用のデータについてデータ統合の適正さを評価するデータ統合評価システム及びデータ統合評価方法に適用して好適なものである。
 従来、データを分析する際は、データソースから取得された複数のデータを統合して、分析用のデータを作成する必要があった。分析用のデータは、行列の形式とされることで、プログラムによるデータ分析処理が実行し易くなる。
 例えば特許文献1には、複数のデータテーブルをレコード方向(以後、本明細書においては横方向とも呼ぶ)に統合し、データに含まれる値の一致度や重複度に基づいて、データテーブルの統合を評価する方法が開示されている。
特開2003-216618号公報
 上述したように、特許文献1に開示されたような従来の方法は、複数のデータを横方向に結合するものであった。一方、日付ごとに取得されたデータや機器ごとに取得されたデータを統合しようとする場合には、複数のデータをカラム方向(以後、本明細書においては縦方向とも呼ぶ)に結合することが求められる。しかし、縦方向の結合の場合、データ間でカラム構成が異なっていたりすると、適正に結合することが容易ではないという問題があった。
 詳しく説明すると、例えば、機器の稼働データが日時単位で別のファイルにデータが取得され、このようなデータファイルが長期間に亘って取得される場合には、期間内に機器の設定が変更されることにより、取得されるデータ項目(カラム)が増減したり、カラムの順番が入れ替わったりすることがある。また、異なる機器から稼働データを取得する場合も、機器の設定が異なる等の事情から、各カラムにおけるデータの型や単位が相違することが想定される。
 そして上記のようなデータを縦方向に結合しようとする場合、従来の方法では、データ内容を逐一確認したり、機器の管理者に問い合わせたりして、分析担当者が個別に統合の可否を判断しなければならず、非常に手間が掛かってしまう。また、機器の稼働データ等は、データ量を削減するために重複するヘッダ等が省略されることがあり、分析担当者が一見して内容を判断できないこともある。また、統合するデータ数が増加すると、人力による処理は現実的ではなくなる。
 このように、取得環境が異なるデータをカラム方向(縦方向)に統合しようとする場合には、カラムの並び順やデータ形式が必ずしも一致するとは限らず、むしろばらつくことが多いため、従来の方法では、データを適正に統合することが非常に困難であった。
 本発明は以上の点を考慮してなされたもので、取得環境が異なる複数のデータを用いてデータ統合を行う場合であっても、カラム方向にデータを統合した統合案を作成し、統合案の適正さを評価することが可能なデータ統合評価システム及びデータ統合評価方法を提案しようとするものである。
 かかる課題を解決するため本発明においては、それぞれが1以上のカラムを有する複数のデータをカラム方向に統合するデータ統合が要求されるとき、前記統合するデータ及び前記データ統合の要件を受け付けるユーザ要件受付部と、前記ユーザ要件受付部が受け付けた前記データのデータ値と前記要件とに基づいて、前記データのカラムごとの統合案を作成し、当該統合案を評価する統合案評価部と、前記統合案評価部による評価結果を出力する評価結果表示部と、を備えるデータ統合評価システムが提供される。
 また、かかる課題を解決するため本発明においては、それぞれが1以上のカラムを有する複数のデータをカラム方向に統合するデータ統合が要求されるとき、前記統合するデータ及び前記データ統合の要件を受け付けるユーザ要件受付ステップと、前記ユーザ要件受付ステップで受け付けられた前記データのデータ値と前記要件とに基づいて、前記データのカラムごとの統合案を作成する統合案作成ステップと、前記統合案作成ステップで作成された前記統合案を評価する統合案評価ステップと、前記統合案評価ステップによる評価結果を出力する評価結果表示ステップと、を備えるデータ統合評価方法が提供される。
 本発明によれば、取得環境が異なる複数のデータを用いてデータ統合を行う場合であっても、カラム方向にデータ統合した統合案の適正さを評価することができる。
本実施の形態に係るデータ統合評価システムのハードウェア構成例を示すブロック図である。 本実施の形態に係るデータ統合評価システムの機能構成例を示すブロック図である。 データ表の具体例を示す図である。 プロファイル表の具体例を示す図である。 要件テンプレート表の具体例を示す図である。 要件表の具体例を示す図である。 統合案管理表の具体例を示す図である。 データファイルの具体例を示す図である。 データ統合評価処理の全体的な処理手順を示すフローチャートである。 要件登録画面の一例を示す図である。 ユーザ要件受付処理の処理手順例を示すフローチャートである。 統合案評価処理の処理手順例を示すフローチャートである。 結果表示画面の具体例を示す図である。
 以下、図面を参照して、本発明の実施の形態を詳述する。なお、いくつかの図面ではデータテーブルが示されるが、これらのデータテーブルで所定の行(レコード)を示すときには、「項目(カラム)名が記載された行を除外したデータ行の第N行目」と記すべきところ、簡略のために「N行目」と表記する。
(1)システム構成
 図1は、本実施の形態に係るデータ統合評価システムのハードウェア構成例を示すブロック図である。図1に例示した本実施の形態に係るデータ統合評価システム1では、統合評価サーバ10とクライアント端末20とが、それぞれのLAN(Local Area Network)ポート14,24を接続ポートとして、LAN30で接続されている。
 統合評価サーバ10は、例えば一般的なサーバであり、CPU(Central Processing Unit)11、メモリ12、及び補助記憶装置13を備える。補助記憶装置13は、統合評価サーバ10の外部に接続される構成であってもよい。クライアント端末29は、例えば一般的なPCであり、CPU21及びメモリ22を備える。複数のクライアント端末20がLAN30を介して統合評価サーバ10に接続される構成であってもよい。また、統合評価サーバ10とクライアント端末20とを接続するネットワークはLAN30に限定されるものではなく、有線/無線を問わず、任意のネットワーク接続であってよい。
 このように構成されたデータ統合評価システム1において、ユーザは、クライアント端末20を操作してLAN30経由で統合評価サーバ10にアクセスし、統合評価サーバ10にデータ及びデータ統合の要件(ユーザ要件)を入力する。統合評価サーバ10は、ユーザから入力されるデータ及びユーザ要件を受け付け、データ統合の評価案(統合案)を作成し、これを評価し、統合案の評価結果を提示する。この結果ユーザは、統合評価サーバ10で提示される統合案の評価結果をクライアント端末20から参照することができる。
 図2は、本実施の形態に係るデータ統合評価システムの機能構成例を示すブロック図である。
 図2に示したように、データ統合評価システム1は、データ記憶部100、ユーザ要件受付部200、統合案評価部300、及び評価結果表示部400を備えて構成される。なお、以降の説明では、データ統合評価システム1を単に「システム1」と称することがある。
 データ記憶部100は、図1に示した統合評価サーバ10の補助記憶装置13によって実現され、各種のデータを格納する。図2には、データ記憶部100が格納するデータとして、データ表110、プロファイル表120、要件テンプレート表130、要件表140、統合案管理表150、及びデータファイル160が示されており、これら各データの詳細は、図3~図8に示した具体例を参照しながら後述する。
 一方、ユーザ要件受付部200、統合案評価部300及び評価結果表示部400は、統合評価サーバ10のCPU11がメモリ12上に所定のプログラムを展開して実行することによって実現される。
 なお、本説明では、統合評価サーバ10においてCPU11が所定のプログラムをメモリ12上に展開して実行することにより、データの統合案の作成や評価を行うことができ、また所定の画面(要件登録画面210や結果表示画面410)の表示をGUI等によって提供することができることから、図2に示したデータ統合評価システム1の機能構成が統合評価サーバ10によって実現されるとしているが、本実施の形態はこれに限定されるものではない。そして、図1を参照しながら前述したように、ユーザは、クライアント端末20からLAN30を介して、上記画面に対して参照・操作等を実行することができる。
 ユーザ要件受付部200は、データ統合の評価を要望する際にユーザが統合対象のデータやデータ統合の要件(ユーザ要件)を入力するための要件登録画面210を表示し、要件登録画面210に対するユーザの入力操作に応じて、データ及びユーザ要件を受け付ける。ユーザ要件受付部200による処理(ユーザ要件受付処理)や要件登録画面210の詳細は、図10や図11を参照しながら後述される。
 統合案評価部300は、ユーザ要件受付部200で受け付けられたデータ及びユーザ要件に基づいて、データの統合案を作成し、さらに各統合案の適正さを評価する。統合案評価部300による処理(統合案評価処理)の詳細は、図12を参照しながら後述される。
 評価結果表示部400は、統合案評価部300によって評価されたデータの統合案について、統合案の情報や評価結果等を表示する(結果表示画面410)。結果表示画面410の詳細は、図13を参照しながら後述される。なお、本実施の形態では評価結果表示部400が結果表示画面410を表示するとして説明するが、本発明の結果出力は表示に限定されるものではなく、印刷やファイル書出し等の出力方法であってもよい。
(2)各種データの構造
 データ記憶部100に格納される各種データ(データ表110、プロファイル表120、要件テンプレート表130、要件表140、統合案管理表150、及びデータファイル160)について、個々にその詳細を説明する。
(2-1)データ表
 図3は、データ表の具体例を示す図である。図3に例示したデータ表110は、システム1が管理しているデータ(データファイル160)の情報を格納するテーブルである。後述する図8に具体例を示すが、データファイル160には、ユーザが入力したデータ(図8のデータ161~163)だけでなく、統合案評価部300が統合案として作成したデータ(図8のデータ164)も含まれる。そして、データファイル160の各データには、1カラムごとに1レコードが格納されているとする。
 データ表110のテーブル構造について、図3を参照しながら詳しく説明する。
 項目1101には、管理対象のデータの通し番号(データ番号)が格納される。以降の説明において、通し番号は「#」を用いて#1,#2,…といった表記を行う。項目1102は、ユーザがデータ統合の評価を要望した際に、当該要望(リクエスト)に対してシステム1が付与する通し番号のリクエストID(ReqId)が格納されるカラムである。
 項目1103は、リクエストID(項目1102)において評価の対象とされる統合案のデータを識別するための統合ID(ItgId)が格納されるカラムである。図3の場合、#4,#5のデータが統合案のデータであるため、「V1」,「V2」の統合IDが付与されている。一方、#1~#3のデータは、統合案のデータではないため、統合IDが付与されていない。
 項目1104は、データの名称(ファイル名)が格納されるカラムである。本例では、統合案のファイル名は、システム1によって作成されるときに所定の命名規則に従って自動生成されるとする。具体的には、先頭に「d」を付し、続いて、統合したデータの通し番号(項目1101)をハイフンで連結し、さらに、統合ID(項目1103)をアンダースコアで連結した文字列が生成される。
 項目1105は、データ統合評価サーバ1における当該データの格納先(パス)が格納されるカラムである。
 なお、図3の場合、データ表110で管理されるデータは全てCSV拡張子を有するデータファイルとしているが、本実施の形態においてデータの形式はこれに限定されるものではなく、他のファイル形式のデータや、RDB(Relational Database)等に格納されているデータ等であってもよい。
(2-2)プロファイル表
 図4は、プロファイル表の具体例を示す図である。図4に例示したプロファイル表120は、システム1が管理しているデータのプロファイル情報(以後、単にプロファイルと称する)を格納するテーブルである。図4の場合、プロファイルの一例として、箱ひげ図で使う統計値(統計量)を用いている。
 プロファイル表120のテーブル構造について、図4を参照しながら詳しく説明する。
 項目1201には、プロファイル表120で管理するプロファイルの通し番号(プロファイル番号)が格納される。プロファイル表120では、後述するデータ番号(項目1202)とカラム(項目1203)の組合せごとに、通し番号によるプロファイル番号が割り当てられる。
 項目1202には、対象データに割り当てられた通し番号(データ番号)が格納される。項目1202のデータ番号は、データ表110の項目1101に対応している。項目1203は、当該データにおけるカラム番号が格納されるカラムであり、例えば左側のカラムから順に数字が割り当てられる。
 項目1204は、当該レコードの対応カラムに格納されたデータ型を示すカラムである。本例では、日付を意味する「Data」と、数字を意味する「Num」とが示されているが、本実施の形態に係るデータ統合評価システム1で利用可能なデータ型はこれらに限定されるものではなく、文字列データ等の他のデータ型を適用することもできる。例えば文字列データに適用する場合は、文字列の長さをプロファイルにする等の加工をして活用してもよい。
 プロファイル表120において、項目1205以降のカラムには、当該レコードの対応カラムに格納されたデータに関する統計情報が記載される。前述したように、本例では箱ひげ図で使う統計量を用いている。
 具体的には、項目1205には、当該レコードの対応カラムに格納されたデータの最小値が記載され、項目1211には最大値が記載される。また、項目1207,1208,1209には、順に、当該レコードの対応カラムに格納されたデータを箱ひげ図で表したときの第1四分位数(Q1)、第2四分位数(Q2)、第3四分位数(Q3)が格納される。このうち項目1208に格納される第2四分位数(Q2)は、当該レコードの対応カラムに格納されたデータの中央値に相当する。
 また、項目1206には、上記箱ひげ図における下側のひげの値である下端ひげ値(LowerWhisker)が格納され、項目1210には、上側のひげの値である上端ひげ値(UpperWhisker)が記載される。ここで、第3四分位数と第1四分位数との差分「Q3-Q1」で算出される四分位範囲(IQR)を用いると、下端ひげ値は「Q1-1.5×IQR」で算出され、上端ひげ値は「Q3+1.5×IQR」で算出される。
 また、項目1212には、当該レコードの対応カラムに格納されたデータの行数が記載され、項目1213には、当該レコードの対応カラムにおいて値が入っているデータの割合(データ充足率(Filled))が百分率で示される。
(2-3)要件テンプレート表
 図5は、要件テンプレート表の具体例を示す図である。図5に例示した要件テンプレート表130は、1以上の要件テンプレートを管理するためのテーブルデータである。要件テンプレートとは、データ統合に関する複数の要件(データ要件)をまとめてラベリングすることによって、複数のデータ要件を記録したり、呼び出したりするためのものである。本実施の形態において、システム1は必ずしも要件テンプレートを保持していなくてもよいが、要件テンプレートが格納されていることによって、ユーザによるユーザ要件の入力を簡素化することが可能となる。
 要件テンプレート表130のテーブル構造について、図5を参照しながら詳しく説明する。
 項目1301には、要件テンプレートの名称(テンプレート名称)が格納される。要件テンプレート表130では、同一のテンプレート名称を有する複数のレコードによって1つの要件テンプレートが形成される。具体的には図5の場合、1行目~3行目で1つの要件テンプレートが形成され、4行目以降で別の要件テンプレートが形成される。
 項目1302は、要件テンプレートにおける要件の優先度(Priority)が格納されるカラムであり、項目1303~1306には、当該要件の具体的な情報が格納される。
 本例では、要件は条件式で表され、条件式の構成が、項目1303~1305に格納される。さらに、優先度が「0」の要件についてのみ、当該要件を満たす場合に項目1306に格納された「動作」が実行されるとし、それ以外の優先度の要件については、当該要件を満たす場合に評価値が高くなる。要件についてさらに詳しく説明する。
 項目1303は、要件を示す条件式の左辺の構成を格納するカラムである。項目1303の内容を見ると、括弧で閉じられた記載となっており、括弧内の1つ目の要素は、対象データを表す。具体的には「ITG」は統合データを意味し、「Dx(x=1,2)」はユーザが登録したデータを意味する。なお、上記「x」には、データを統合する際に、統合する側である場合には「1」が、統合される側である場合には「2」が割り当てられる。統合する側とは、縦結合で先に来る側、横結合では左辺に来る側を表す。項目1303の括弧内の2つ目の要素は、対象カラムを表す。具体的には「ALL」は全カラムを意味し、「Num」は数値カラムを意味する。項目1303の括弧内の3つ目の要素は、評価するメトリック(評価メトリック)を表す。ここで、評価メトリックがプロファイルのカラム(図4のプロファイル表120における各項目)に対応している場合には、当該プロファイルを参照して評価を実施すること、言い換えれば統計量に基づいて評価を実施することを意味する。一方、評価メトリックがプロファイルのカラムとは異なる値である場合には、当該評価メトリックが示す統計手法に基づいて評価を実施することを意味する。
 項目1305は、要件を示す条件式の右辺の構成を格納するカラムである。項目1305の内容が括弧で閉じられた記載となっている場合は、項目1303と同様に考えればよい。また、項目1304は、要件を示す条件式において左辺と右辺とを結ぶオペレータを格納するカラムである。すなわち、要件は、項目1303~1305で表される条件式を満たすか否かによって評価することができる。
 ここで、評価メトリックが示す統計手法に基づく評価について、具体例を示す。要件の項目1303に「(D1, Num, km-ratio-diff)」が格納されているとする場合、統合案のデータD1(統合する側)を対象データとし、「Num」で表されるカラムを対象カラムとして、代表的な統計手法の1つであるk平均法(k-means clustering)に基づいて、次のような評価が実施される。
 まず第1のステップにおいて、統合案におけるデータD1とデータD2の構成比率を算出する。より詳細には、図4のプロファイル表120において、統合案で統合するデータD1,D2のそれぞれについて対象カラムの行数メトリック(項目1212)を参照する。このとき、D1があるカラムの行数を「D1_C」、D2があるカラムの行数を「D2_C」とすれば、D1のデータ構成比率は、「D1_C/(D1_C+D2_C)」で算出することができる。
 次に第2のステップにおいて、D1とD2で対象カラムを統合した1次元のデータに対して、k平均法の2つのクラスに分類するクラスタリングを実施する。そして、クラスタリングによって分割された一方のクラスにおけるD1の比率を計算する。
 さらに第3のステップにおいて、第1及び第2のステップで算出された比率(ratio)の差分を算出し、これを「km-ratio-diff」とする。後は、この差分値を用いて、項目1305の値と比較することにより、要件を満足するか否かを評価することができる。例えば、要件の条件式が「(D1, Num, km-ratio-diff)≧-0.2」とされている場合(図5の5行目参照)、上記差分値が「-0.2」以上であれば、当該要件を充足していると評価することができる。
 最後に、項目1306について説明する。項目1306は、要件(項目1303~1305に示された条件式)を満足している場合の対応動作(Action)が格納されるカラムである。前述したように、本例では優先度が「0」(Priority0)の要件についてのみ、項目1306が格納されており、具体的には「ExcludeEval」の動作が定められている。「ExcludeEval」は、本要件における対象カラムを評価対象外にする、ことを意味している。すなわち、Priority0の要件を満足した場合、対象カラムは後述する「統合案評価値(TotalEval)」の評価対象外とされる。
(2-4)要件表
 図6は、要件表の具体例を示す図である。図6に例示した要件表140は、ユーザから入力されたデータ統合の要件(ユーザ要件)を管理するためのデータテーブルである。
 要件表140のテーブル構造について、図6を参照しながら詳しく説明する。但し、図5の要件テンプレート表130と類似する項目については、繰り返しの説明を省略する。
 項目1401には、要件表140で管理するユーザ要件の通し番号(要件番号)が格納される。例えば要件テンプレートを用いてユーザ要件が入力された場合には、当該要件テンプレートを構成する複数の要件それぞれに対して要件番号が割り当てられる。
 項目1402は、ユーザがデータ統合の評価を要望した際に、当該要望(リクエスト)に対してシステム1が付与する通し番号のリクエストIDが格納されるカラムである。項目1402のリクエストIDは、データ表110の項目1102に対応している(図3参照)。
 項目1403は、要件の優先度が格納されるカラムである。項目1404は、要件を示す条件式の左辺の構成を格納するカラムである。項目1405は、要件を示す条件式において左辺と右辺とを結ぶオペレータを格納するカラムである。項目1406は、要件を示す条件式の右辺の構成を格納するカラムである。項目1407は、要件を満足している場合の対応動作が格納されるカラムである。項目1403~1407は、図5に示した要件テンプレート表130の項目1302~1306と類似するカラム構成となっているため、繰り返しの説明は省略する。
(2-5)統合案管理表
 図7は、統合案管理表の具体例を示す図である。図7に例示した統合案管理表150は、統合案評価部300によって作成されたデータの統合案を管理するためのデータテーブルである。統合案管理表150では、統合する側のデータ(D1)と統合される側のデータ(D2)との間で連結したカラムの組合せごとに1レコードが用いられるため、1つの統合案はD1とD2の組合せが同一である複数のレコードから形成される。
 統合案管理表150のテーブル構造について、図7を参照しながら詳しく説明する。
 項目1501は、統合案の作成契機となったユーザの要望(リクエスト)のリクエストIDが格納されるカラムである。項目1501のリクエストIDは、データ表110の項目1102や要件表140の項目1402に対応している(図3,図6参照)。
 項目1502は、統合案を識別するための統合IDが格納されるカラムである。項目1502の統合IDは、データ表110の項目1103に対応している(図3参照)。図7には統合IDとして「V1」及び「V2」が記載されているが、このうち1文字目は統合の方向(Vは縦方向、不図示であるが、Hが横方向)を表し、2文字目以降はリクエストに対する統合案の通し番号を表す。
 項目1503は、統合時に統合する側のデータD1を示すデータ番号が格納されるカラムである。また、項目1504は、統合する側のデータD1において統合するカラム(統合カラム)を示すカラム番号が格納されるカラムである。一方、統合時に統合される側のデータD2については、項目1505にデータ番号が格納され、項目1506にカラム番号が格納される。なお、項目1503や項目1505に格納されるデータ番号は、プロファイル表120の項目1202に対応するものであり、項目1504や項目1506に格納されるカラム番号は、プロファイル表120の項目1203に対応するものである(図4参照)。
 項目1507は、統合定義に従って統合されたデータを表すデータ番号(ITG)が格納されるカラムである。項目1508は、統合データにおける統合後のカラムを示すカラム番号(ItgCol)が格納されるカラムである。
 項目1509は、統合案に対する評価値(統合案評価値(TotalEval))が格納されるカラムである。統合案評価値は、1つの統合案につき1つの値が付けられる。
 項目1510は、当該レコードに対する統合評価の評価値(個別評価値(Eval))が格納されるカラムである。個別評価値は、統合案で連結したカラムの組合せごとに付されるため、各レコードで異なる値となる可能性がある。項目1511は、当該レコードに対する統合評価の理由、すなわちカラム単位の統合評価の理由(評価理由)が格納されるカラムである。
 なお、項目1509~1511に格納される評価値や評価理由の具体的な決定方法は、統合案評価処理の説明のなかで詳しく後述される。
(2-6)データファイル
 図8は、データファイルの具体例を示す図である。図8に例示したデータファイル160では、所定の機器で取得されてユーザに入力された実データの具体例としてデータ161~163が示され、統合案評価部300によって作成された統合案データの具体例としてデータ164が示されている。データ161~164は何れもCSV形式のデータファイルである。
 このうち、データ161~163はそれぞれ、5つのカラム(左から順に第1カラム、第2カラム、…第5カラムと称する)を有する観測データであって、異なる日付で観測されている。図4のプロファイル表120を参照すると、カラム番号(項目1203)が「1」のレコードにおけるデータ型(項目1204)が何れも「Date」であることから明らかなように、データ161~163の第1カラムは、何れも日付情報で構成されている。また、他のカラム番号におけるデータ型は何れも「Num」であることから、データ161~163の第2カラム以降は数値データである。
 但し、本例では、データ161~163において、一部カラムの構成が一致していないものとする。カラム構成の不一致が生じた背景の具体例として、「2017/12/28」に観測されたデータ161では第4カラムに格納されていたデータが、2018年から観測が中止されたとする。この結果、「2018/01/03」に観測されたデータ162及び「2018/01/04」に観測されたデータ163では、データ161の第4カラムに相当するデータが取得されず、データ162,163の第4カラムには、カラムが詰められて、データ161の第5カラムに相当するデータが取得された。さらに、データ162,163の第5カラムには、データ161では観測されていなかった別のデータが取得されたとしている。
 このようにデータ161~163は取得環境が異なる複数のデータであり、従来は、これらのデータを上記背景に関する情報なしに、適切にデータ結合することは容易ではなかった。これに対し、本実施の形態に係るデータ統合評価システム1によれば、各データ161~163に含まれる統計情報や、各データ161~163に対する統計処理に基づいて、上記背景の構図を見出し、統合案の適正さを評価することができる。
 また、統合案データの具体例であるデータ164は、図3の項目1104(データ名)に関して前述した「所定の命名規則」に従って、「d1-2-3_V1.csv」というファイル名が付されている。すなわちデータ164は、データ表110において#1,#2,#3が割当てられたデータ(データ161,162,163に相当)を結合した統合案であり、統合ID1103として「V1」が付されたものである。
 なお、図4を参照したプロファイル表120のデータ型でも述べたように、本例では、数値のデータを中心にして説明するが、本実施の形態に係るデータ統合評価システム1で利用可能なデータ型は、数値や日付のデータ型に限定されるものではなく、文字列データ等の他のデータ型を適用することもできる。このとき、例えば文字列データに適用する場合は、文字列の長さをプロファイルにする等の加工をして活用する。
(3)データ統合評価処理
 本実施の形態に係るデータ統合評価システム1が、ユーザの要望(リクエスト)に基づいて、データ統合の評価案(統合案)を作成し、これを評価し、評価結果を出力する処理(データ統合評価処理)について、詳しく説明する。
 図9は、データ統合評価処理の全体的な処理手順を示すフローチャートである。
 まず、ユーザがデータ統合の評価を要望するとき、統合評価サーバ10においてユーザ要件受付部200が、当該要望(リクエスト)の詳細な情報を登録するための要件登録画面210を提示する。ユーザは、クライアント端末20からLAN30を介して要件登録画面210を参照することができ、要件登録画面210に対して入力操作を行うことにより、統合対象とするデータ、及びデータ統合の要件(ユーザ要件)を決定する。
 図10は、要件登録画面の一例を示す図である。例えば、図10に例示した要件登録画面210の場合、領域211では、入力するデータを決定することができ、領域212では、システム1に格納されている要件テンプレート、すなわち要件テンプレート表130で管理されている要件テンプレートのうちから、何れかの要件テンプレートを呼び出すことができる。領域213では、領域212で呼び出した要件テンプレートを構成する要件の詳細情報がリスト表示される。また領域213では、リスト表示から不要な要件を削除したり、新たに要件を追加したりすることもできる。そして最後に、ボタン214を実行することにより、要件登録画面210内に表示された内容でデータ及びユーザ要件が投入される。
 図9の説明に戻る。要件登録画面210に対するユーザ操作が行われると、ユーザ要件受付部200は、要件登録画面210で決定されたデータ及びユーザ要件を受け付け、これらをデータ記憶部100に格納するユーザ要件受付処理を実施する(ステップS11)。ユーザ要件受付処理の結果、ユーザ要件受付部200は、今回の処理で受け付けたユーザ要望のリクエストIDを返す。
 次に、統合案評価部300が、ステップS11でデータ記憶部100に格納されたデータ及びユーザ要件に基づいて、データの統合案を作成し、統合案の評価を実施する統合案評価処理を実施する(ステップS12)。統合案評価処理において生成・算出される情報もまた、データ記憶部100(補助記憶装置13)に格納される。
 そして最後に、評価結果表示部400が、ユーザ要件受付処理で返されたリクエストIDに対応する統合案について、ステップS12の処理で得られた情報(具体的には、統合案の詳細な情報や評価結果等)をデータ記憶部100から取得し、これらを所定の形式で結果表示画面410に表示する(ステップS13)。
(3-1)ユーザ要件受付処理
 図11は、ユーザ要件受付処理の処理手順例を示すフローチャートである。前述したように、ユーザ要件受付処理はユーザ要件受付部200によって実行される。
 図11によればまず、ユーザ要件受付部200は、要件登録画面210でユーザが入力したデータ(図10の領域211参照)を、データ記憶部100に格納する(ステップS21)。より具体的には、ユーザ要件受付部200は、実データをデータファイル160に格納するとともに、当該データのファイル名やパスをユーザのリクエストIDと紐付けてデータ表110に格納する。
 次に、ユーザ要件受付部200は、ステップS21で格納したデータのプロファイルを算出し、プロファイル表120に格納する(ステップS22)。プロファイル表120に格納されるプロファイルの詳細は、図4を参照しながら前述した通りである。
 次に、ユーザ要件受付部200は、要件登録画面210でユーザが入力したユーザ要件(図10の領域212,213参照)を、ユーザのリクエストIDと紐付けてデータ記憶部100の要件表140に格納する(ステップS23)。
 そして最後に、ユーザ要件受付部200は、リクエストIDを戻り値にしてユーザ要件受付処理を終了する(ステップS24)。
(3-2)統合案評価処理
 図12は、統合案評価処理の処理手順例を示すフローチャートである。前述したように、統合案評価処理は統合案評価部300によって実行される。
 図12によればまず、統合案評価部300は、ユーザ要件受付処理で返されたリクエストIDに基づいて、リクエストで入力されたユーザ要件を要件表140から取得する(ステップS31)。
 次に、統合案評価部300は、リクエストIDを基に、リクエストで入力されたデータの格納先をデータ表110から取得し、その格納先(データファイル160)からデータを取得する(ステップS32)。
 次に、統合案評価部300は、ステップS32で取得した各データのプロファイルを、リクエストIDを基にしてプロファイル表120から取得する(ステップS33)。
 次に、統合案評価部300は、ステップS31で取得したユーザ要件とステップS33で取得したデータのプロファイルとに基づいて、データを統合した統合案を作成し、統合案における所定の情報を統合案管理表150に格納する(ステップS34)。ここで、統合案評価部300は、データ統合時のカラムの組合せを総当たりで算出し、各組合せにおける上記所定の情報を統合案管理表150に格納する。このとき、組合せるカラムが存在しないケースも組合せの算出対象とし、具体的には例えば、図7において、リクエストIDが「1」で統合IDが「V2」のレコードがこれに該当する。また、上記所定の情報とは、統合案管理表150の以下の項目に格納される情報、すなわち、リクエストID(項目1501)、統合ID(同、項目1502)、データD1のデータ番号(項目1503)、データD1における統合カラムを示すカラム番号(項目1504)、データD2のデータ番号(項目1505)、及び、データD2における統合カラムを示すカラム番号(項目1506)である。
 次に、ステップS35~S40において、統合案評価部300は、ステップS34で作成した統合案から順次1つを選択しながら、全ての統合案についてステップS36~S39の処理を繰り返す。
 ステップS36では、統合案評価部300は、選択している統合案の定義に従って、ステップS32で取得したデータを統合する。さらに、統合案評価部300は、統合したデータ(統合案データ)をデータファイル160に格納し、データ表110にその情報を追記する。また、統合案評価部300は、統合案管理表150において、カラムごとの統合定義に対応する統合後のデータ及びカラムを示す番号(項目1507,1508)を追記する。
 ステップS37では、統合案評価部300は、ステップS36で統合した統合案データのプロファイルを取得し、プロファイル表120に格納する。
 ステップS38では、統合案評価部300は、ステップS31で取得したユーザ要件を確認し、統合案データにおける当該要件の充足状況に基づいて、カラム単位の評価値(個別評価値)を算出する。さらに統合案評価部300は、算出した個別評価値とその評価理由を、統合案管理表150の対応レコードにおける項目1510,1511に記載する。ステップS38における具体的な評価方法は後述する。
 ステップS39では、統合案評価部300は、ステップS38で算出した個別評価値を統合案単位で統合し、選択している1統合案に対する評価値(統合案評価値)を算出する。さらに統合案評価部300は、算出した統合案評価値を、統合案管理表150の対応レコードにおける項目1509に記載する。ステップS39における具体的な評価方法は後述する。
 上記したステップS31~S40の処理を行うことにより、統合案評価部300は、リクエストされたデータ及びユーザ要件に基づいて、統合案を作成し、各統合案の適正さを評価することができる。
(3-2-1)個別評価値の評価ロジック
 ステップS38で実施されるカラム単位での評価値(個別評価値)の算出について、その評価ロジックの一例を詳しく説明する。
 個別評価値を算出するとき、統合案評価部300は、対象となる要件の優先度に従って、評価を実施する。ここで、対象となる要件は、図6の要件表140において処理対象のリクエストID(項目1402)を含むレコードに表され、各要件の優先度は項目1403に記載されている。本例では、評価は「100」から開始する減算法とし、満たさない要件があった場合に、当該要件の重み分だけ評価値を減算する。すなわち、全ての要件を満たしている場合に個別評価値は「100」となるが、要件によって評価されないカラムの場合も、減算されないために個別評価値は「100」となる。
 個別評価における優先度の評価値への反映方法について、これまでに図示した具体的なデータを参照しながら説明する。
 まず、第1ステップでは、優先度の合計値を算出する。図6の場合、優先度は「1」と「2」があるため、その合計値は「3」となる。優先度「0」については、後のステップで説明する。
 第2ステップでは、優先度を昇順と降順でそれぞれソートする。昇順の場合は「1」,「2」の順となり、降順の場合は「2」,「1」となる。
 第3ステップでは、第2ステップで降順にソートしたそれぞれの値を、第1ステップで算出した優先度の合計値で割って、重みとする。すなわち、降順の値「2」,「1」を合計値「3」で割るため、それぞれの重みは「2/3」と「1/3」になる。
 第4ステップでは、第2ステップで昇順にソートした値を優先度とし、第3ステップで算出した重みと関連付けして優先度ごとの重みとする。具体的には、昇順でソートした値が優先度を表し、降順でソートした優先度を重みとする。すなわち、優先度「1」の重みは「2/3」となり、優先度「2」の重みは「1/3」となる。
 第5ステップでは、カラムの組合せごと(すなわち、統合案管理表150の行単位)に評価を実施し、要件未達の場合には、第4ステップで算出した重みを「1」から減算した上で100倍した値を個別評価値とする。具体的には例えば、図7の統合案管理表150の4行目(ReqId=1,ItgID=V1,Data1=1,Data1Col=4,Data2=2,Data2Col=4)について、図4のプロファイル表120を参照しながら要件表140の各要件の評価を実施した場合、優先度「2」の要件を満たしていないことが分かる。このとき、個別評価値(Eval)は、「(1-1/3)×100=66.6≒67」と算出される。
 第6ステップでは、優先度「0」の要件の評価を実施する。本例では、優先度が「0」の要件について条件式を満たす場合には、項目1407に格納された「動作(例えば「ExcludeEval」)」を実行したうえで、第5ステップまでに算出された個別評価値を、統合案管理表150の対象行の項目1510に格納する。一方、優先度「0」の要件の条件式を満たさない場合には、上記「動作」を実行せずに、第5ステップまでに算出された個別評価値を項目1510に格納する。
 なお、本例では、第5ステップの評価において優先度「1」以上の要件を満たさなかった場合、あるいは、第6ステップの評価において優先度「0」の要件を満たした場合には、その旨が評価理由として統合案管理表150の項目1511に記載される。
 ここまでの評価ロジックを、図7等を参照しながら具体的に確認する。例えば、図7の統合案管理表150の4行目(ReqId=1,ItgID=V1,Data1=1,Data1Col=4,Data2=2,Data2Col=4)の場合、前述したように第5ステップにおいて、優先度「2」(Priority2)の要件を満たしておらず、個別評価値が「67」と算出される。次に、第6ステップにおける優先度「0」(Priority0)の要件評価を確認する。図6の要件表140の1行目を参照すると、Priority0の要件は、「統合データ(ITG)の全カラム(All)においてデータ充足率(Filled)が99%以下であること」である。ここで、統合案管理表150の4行目の項目1507,1508(ITG=4,ItgCol=4)に対応するプロファイルは、図4のプロファイル表120で確認することができ、このとき項目1213のデータ充足率(Filled)が「100」であるとして、Priority0の要件を満たさない。したがって、第6ステップまで実施された段階で、統合案管理表150の4行目には、第5ステップで算出された個別評価値「67」が項目1510に格納され、第5ステップによる「Priority2の条件が未達です。」という評価理由が項目1511に記載される。
 また、別の例として、図7の統合案管理表150の下から3行目(ReqId=1,ItgID=V2,Data1=1,Data1Col=4,Data2=空白,Data2Col=空白)の場合は、前段の例と同じように第5ステップ及び第6ステップを実施すると、第6ステップでPriority0の要件を満足したとする。この場合は、Priority0の要件に規定された動作「ExcludeEval」に従って、本カラムは評価対象外となり、その旨を意味する「Priority0を満足したため、評価対象外です。」という評価理由が項目1511に記載される。なお、個別評価値は減算されず「100」が項目1510に格納されるが、図7によれば当該行の項目1510の値は「95」となっている。この理由は次の第7ステップで説明される。
 第7ステップでは、統合先のカラムを選択しなかった場合、すなわち、統合案管理表150において項目1504,項目1506の何れかが空白となった場合に、ペナルティとして、それまでのステップで算出された個別評価値を0.95倍にする。例えば、前段で確認した統合案管理表150の下から3行目の場合、第6ステップまでに算出された個別評価値は「100」であったが、統合される側のデータD2のカラム番号(項目1506)が空白となっていることから、統合先のカラムが選択されていない。このため、個別評価値「100」は0.95倍されて「95」となり、この値が最終的な個別評価値として項目1510に格納される。また、項目1511には、第7ステップによる「Data1のカラム4と統合するカラムがありません。」という評価理由が項目1511に追記される。
 本例では、第7ステップのようなペナルティの評価ロジックを有することにより、統合カラムを選択しない場合に確実に評価値を下げられるため、統合カラムを選択しない統合案には高い評価値が付き難くなるよう、適正に評価値を補正できる。その結果、統合カラムを選択しない統合案が評価値に基づいて安易に選択されることを回避できる。
(3-2-2)統合案評価値の評価ロジック
 ステップS39で実施される統合案単位での評価値(統合案評価値)の算出について、その評価ロジックの一例を説明する。
 統合案評価値を算出するとき、統合案評価部300は、統合案管理表150において図12のステップS35で選択した統合案を構成している各レコードの項目1510の値、すなわち、各カラムの個別評価値(Eval)を100で割って割合にした後、これらを積算した値を統合案評価値(TotalEval)とし、上記各レコードの全ての項目1509に格納する。
 なお、本例では上述したように積算によって統合案を評価しているが、本実施の形態はこの方法に限定されるものではなく、他の評価方法で統合案を評価してもよい。例えば、個別評価値の平均値を算出し、これを統合案評価値とする等してもよい。
(3-3)評価結果表示
 図13は、結果表示画面の具体例を示す図である。前述したように、結果表示画面410は、ユーザ要件受付部200によるユーザ要件受付処理(図9のステップS11)、及び統合案評価部300による統合案評価処理(図9のステップS12)が行われた後に、評価結果表示部400によって表示される画面であって、ユーザによるデータ統合の評価の要望(リクエスト)に応えて、統合案の詳細な情報や評価結果等をユーザに提供するものである。
 図13に例示した結果表示画面410の場合、領域411には、統合案評価値に基づいて、推奨される統合案が示される。本例では、統合案評価処理で算出された統合案評価値が高い順に、「Score」欄に統合案評価値が並べられ、「Integration ID」欄に各Scoreに対応する統合案の統合IDが示される。具体的には図13の場合、Scoreが「90」となった統合ID「V2」の統合案が最も推奨されており、領域411ではこの統合案「V2」が選択されているとする。そして、領域411に示された統合案の何れかが選択された状態において、領域412,413には上記選択された統合案に関する詳細な情報が示される。
 領域412には、統合案管理表150等に基づいて、統合案における各データのカラム構成の対応関係が示される。本例では、「Data ID」欄に選択された統合案に含まれるデータのデータ番号が示され、「File Name」欄に当該データのファイル名が示され、「Column」欄に当該データのカラム構成の対応が表形式で示される。具体的には図13の場合、選択された「V2」の統合案において、データ「1」の第4カラムに対応するカラムがデータ「2」,「3」側にはなく、また、データ「2」,「3」の第5カラムに対応するカラムがデータ「1」側にはないことが示されている。なお、「File Name」欄のファイル名は、データ表110を参照して取得することができる。
 領域413には、統合案管理表150に基づいて、統合案におけるカラム組合せごとの個別評価の詳細な結果が示される。本例では、「Score」欄に、カラム単位の統合評価値である個別評価値(Eval)が示され、「Description」欄に、カラム単位の統合評価の評価理由(EvalDesc)が示されている。
 以上に説明したように、本実施の形態では、データ統合評価システム1によるデータ統合評価処理が実行されることにより、ユーザ要件受付処理において、ユーザが統合を希望するデータ及びユーザが希望するデータ統合の要件(ユーザ要件)を受け付け、統合案評価処理において、上記データの統合案を複数作成するとともに、ユーザ要件で指定された統計量または統計手法に基づいて統合案の評価を実施し、最終的には、各統合案の評価結果をユーザに提示することができる。
 特に、統合案評価処理では、統合案におけるデータ間のカラム組合せを単位としてカラム間の関係を評価した個別評価値が算出され、これら個別評価値に基づいて統合案全体の評価値が算出されることから、ユーザにリクエストされた統合対象のデータが取得環境の異なるデータであったり、データ量削減のために重複するヘッダ等が省略されて人力では一見して内容を判断できないようなデータであったりしても、カラム方向にデータ統合した各統合案について、統合案の適正さを評価することができる。その結果、評価結果表示部400による結果表示画面410の表示によって、ユーザのリクエストに適正に応えた評価結果を提示することができる。
 なお、本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 また、図面において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実施には殆ど全ての構成が相互に接続されていると考えてもよい。
 1   データ統合評価システム(システム)
 10  統合評価サーバ
 11  CPU
 12  メモリ
 13  補助記憶装置
 14  LANポート
 20  クライアント端末
 21  CPU
 22  メモリ
 24  LANポート
 30  LAN
 100 データ記憶部
 110 データ表
 120 プロファイル表
 130 要件テンプレート表
 140 要件表
 150 統合案管理表
 160 データファイル
 200 ユーザ要件受付部
 210 要件登録画面
 300 統合案評価部
 400 評価結果表示部
 410 結果表示画面
 

Claims (15)

  1.  それぞれが1以上のカラムを有する複数のデータをカラム方向に統合するデータ統合が要求されるとき、
     前記統合するデータ及び前記データ統合の要件を受け付けるユーザ要件受付部と、
     前記ユーザ要件受付部が受け付けた前記データのデータ値と前記要件とに基づいて、前記データのカラムごとの統合案を作成し、当該統合案を評価する統合案評価部と、
     前記統合案評価部による評価結果を出力する評価結果表示部と、
     を備えることを特徴とするデータ統合評価システム。
  2.  前記統合案評価部は、前記データの統計量に基づいて前記統合案を評価する
     ことを特徴とする請求項1に記載のデータ統合評価システム。
  3.  前記データの統計量には、当該データにおけるデータ値の分布を示す統計量が含まれ、
     前記データ値の分布を示す統計量に対して、前記要件の少なくとも一部が指定される
     ことを特徴とする請求項2に記載のデータ統合評価システム。
  4.  前記統合案評価部は、所定の統計手法に基づいて前記統合案を評価する
     ことを特徴とする請求項1に記載のデータ統合評価システム。
  5.  前記データに前記所定の統計手法を実施することによって算出される値に対して、前記要件の少なくとも一部が指定される
     ことを特徴とする請求項4に記載のデータ統合評価システム。
  6.  前記ユーザ要件受付部は、前記統合案評価部による前記統合案の評価の対象から除外するか否かを当該統合案のカラム単位で判定する特別な要件を、前記要件の1つとして受け入れ可能である
     ことを特徴とする請求項1に記載のデータ統合評価システム。
  7.  前記統合案評価部は、前記統合案で結合したデータ間のカラムの組合せを単位として、カラム間の関係を評価した個別評価値を算出し、当該統合案で算出した複数の前記個別評価値に基づいて、当該統合案の評価値を算出する
     ことを特徴とする請求項1に記載のデータ統合評価システム。
  8.  前記評価結果表示部は、前記統合案評価部によって算出された前記統合案の評価値に基づいて、前記データ統合で推奨される前記統合案を提示する
     ことを特徴とする請求項7に記載のデータ統合評価システム。
  9.  所定の情報を格納するデータ記憶部をさらに備え、
     前記ユーザ要件受付部は、前記受け付けた前記データ及び前記要件と、当該データのプロファイル情報とを前記データ記憶部に格納し、
     前記統合案評価部は、前記作成した前記統合案と、当該統合案のデータ情報と、当該統合案を評価して得られた評価結果とを前記データ記憶部に格納し、
     前記評価結果表示部は、前記データ記憶部に格納された情報を用いて前記評価結果を出力する
     ことを特徴とする請求項1に記載のデータ統合評価システム。
  10.  前記データ記憶部には、1以上の要件がまとめられた要件テンプレートが予め格納され、
     前記ユーザ要件受付部は、前記データ記憶部に格納された前記要件テンプレートから所望の要件テンプレートを選択可能な入力画面をユーザに提示し、当該入力画面における前記ユーザの選択に基づいて、前記データ統合の要件を受け付ける
     ことを特徴とする請求項9に記載のデータ統合評価システム。
  11.  それぞれが1以上のカラムを有する複数のデータをカラム方向に統合するデータ統合が要求されるとき、
     前記統合するデータ及び前記データ統合の要件を受け付けるユーザ要件受付ステップと、
     前記ユーザ要件受付ステップで受け付けられた前記データのデータ値と前記要件とに基づいて、前記データのカラムごとの統合案を作成する統合案作成ステップと、
     前記統合案作成ステップで作成された前記統合案を評価する統合案評価ステップと、
     前記統合案評価ステップによる評価結果を出力する評価結果表示ステップと、
     を備えることを特徴とするデータ統合評価方法。
  12.  前記統合案評価ステップでは、前記データの統計量に基づいて前記統合案を評価する
     ことを特徴とする請求項11に記載のデータ統合評価方法。
  13.  前記統合案評価ステップでは、所定の統計手法に基づいて前記統合案を評価する
     ことを特徴とする請求項11に記載のデータ統合評価方法。
  14.  前記ユーザ要件受付ステップにおいて、前記統合案評価ステップによる前記統合案の評価の対象から除外するか否かを当該統合案のカラム単位で判定する特別な要件を、前記要件の1つとして受け入れ可能とする
     ことを特徴とする請求項11に記載のデータ統合評価方法。
  15.  前記統合案評価ステップにおいて、前記統合案で結合したデータ間のカラムの組合せを単位として、カラム間の関係を評価した個別評価値を算出し、当該統合案で算出した複数の前記個別評価値に基づいて、当該統合案の評価値を算出する
     ことを特徴とする請求項11に記載のデータ統合評価方法。
     
PCT/JP2019/011018 2019-03-15 2019-03-15 データ統合評価システム及びデータ統合評価方法 WO2020188670A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021506830A JPWO2020188670A1 (ja) 2019-03-15 2019-03-15 データ統合評価システム及びデータ統合評価方法
US17/416,714 US20220050853A1 (en) 2019-03-15 2019-03-15 Data integration evaluation system and data integration evaluation method
PCT/JP2019/011018 WO2020188670A1 (ja) 2019-03-15 2019-03-15 データ統合評価システム及びデータ統合評価方法
EP19920481.9A EP3940546A1 (en) 2019-03-15 2019-03-15 Data integration evaluation system and data integration evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/011018 WO2020188670A1 (ja) 2019-03-15 2019-03-15 データ統合評価システム及びデータ統合評価方法

Publications (1)

Publication Number Publication Date
WO2020188670A1 true WO2020188670A1 (ja) 2020-09-24

Family

ID=72519223

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/011018 WO2020188670A1 (ja) 2019-03-15 2019-03-15 データ統合評価システム及びデータ統合評価方法

Country Status (4)

Country Link
US (1) US20220050853A1 (ja)
EP (1) EP3940546A1 (ja)
JP (1) JPWO2020188670A1 (ja)
WO (1) WO2020188670A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216618A (ja) 2002-01-22 2003-07-31 Nippon Steel Corp データ解析装置
WO2014208205A1 (ja) * 2013-06-26 2014-12-31 前田建設工業株式会社 表形式データ処理プログラム、方法及び装置
WO2015025386A1 (ja) * 2013-08-21 2015-02-26 株式会社日立製作所 データ処理システム、データ処理方法およびデータ処理装置
JP2017041029A (ja) * 2015-08-18 2017-02-23 富士通株式会社 項目値対応づけ処理方法、項目値対応づけ処理プログラムおよび情報処理装置
JP2019032781A (ja) * 2017-08-09 2019-02-28 株式会社日立製作所 データ統合支援システム及びデータ統合支援方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361802B1 (en) * 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US7747948B2 (en) * 2001-01-08 2010-06-29 Lg Electronics Inc. Method of storing data in a personal information terminal
GB2528697A (en) * 2014-07-29 2016-02-03 Ibm Generating a database structure from a scanned drawing
US10466868B2 (en) * 2016-04-27 2019-11-05 Coda Project, Inc. Operations log
US11321368B2 (en) * 2018-06-13 2022-05-03 Oracle International Corporation Regular expression generation using longest common subsequence algorithm on combinations of regular expression codes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216618A (ja) 2002-01-22 2003-07-31 Nippon Steel Corp データ解析装置
WO2014208205A1 (ja) * 2013-06-26 2014-12-31 前田建設工業株式会社 表形式データ処理プログラム、方法及び装置
WO2015025386A1 (ja) * 2013-08-21 2015-02-26 株式会社日立製作所 データ処理システム、データ処理方法およびデータ処理装置
JP2017041029A (ja) * 2015-08-18 2017-02-23 富士通株式会社 項目値対応づけ処理方法、項目値対応づけ処理プログラムおよび情報処理装置
JP2019032781A (ja) * 2017-08-09 2019-02-28 株式会社日立製作所 データ統合支援システム及びデータ統合支援方法

Also Published As

Publication number Publication date
US20220050853A1 (en) 2022-02-17
EP3940546A1 (en) 2022-01-19
JPWO2020188670A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
US11775745B2 (en) Database model which provides management of custom fields and methods and apparatus therfore
US10942842B2 (en) Model integration tool
US6647390B2 (en) System and methods for standardizing data for design review comparisons
US10185478B2 (en) Creating a filter for filtering a list of objects
CN107527186A (zh) 电子阅读管理方法、装置和终端设备
JP5384281B2 (ja) Dm配布エリア分析装置
US20030041071A1 (en) Database Management system and database
WO2020188670A1 (ja) データ統合評価システム及びデータ統合評価方法
US11196751B2 (en) System and method for controlling security access
US7083091B2 (en) Commodity information management program, computer readable medium storing the program, and data structure of commodity classification master database used by the program
JP4287464B2 (ja) システム基盤構成策定支援システム及び支援方法
US10795934B2 (en) Automatically optimizing business process platforms
US10289608B2 (en) Method for associating item values, non-transitory computer-readable recording medium and information processing device
US20220215034A1 (en) Electronic apparatus and controlling method thereof
JP5948910B2 (ja) 分析装置および分析プログラム
KR101855251B1 (ko) 전사적 자원관리 시스템의 클라이언트 프로그램
JP7033914B2 (ja) 登録画面処理装置、登録画面処理方法、及び登録画面処理プログラム
JP5216662B2 (ja) 分析支援処理装置およびそのプログラム
JP4624870B2 (ja) デモ作成システム
JPH1078970A (ja) データベース設計支援システム及びツール及び記録媒体
WO2024075323A1 (ja) 業務プロセス生成装置、および業務プロセス生成方法
US20240112043A1 (en) Techniques for labeling elements of an infrastructure model with classes
JP5634326B2 (ja) データ分析の要件定義支援システム、方法、及びプログラム
JP6780406B2 (ja) 人材情報処理装置及びプログラム
JP5982135B2 (ja) データ管理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19920481

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021506830

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019920481

Country of ref document: EP