WO2023191136A1 - 빅데이터 분석 시각화 장치 및 방법 - Google Patents

빅데이터 분석 시각화 장치 및 방법 Download PDF

Info

Publication number
WO2023191136A1
WO2023191136A1 PCT/KR2022/004539 KR2022004539W WO2023191136A1 WO 2023191136 A1 WO2023191136 A1 WO 2023191136A1 KR 2022004539 W KR2022004539 W KR 2022004539W WO 2023191136 A1 WO2023191136 A1 WO 2023191136A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
big data
data
unit
visualization
Prior art date
Application number
PCT/KR2022/004539
Other languages
English (en)
French (fr)
Inventor
하광림
강인지
전혜경
조용학
강인호
Original Assignee
주식회사 씨에스리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨에스리 filed Critical 주식회사 씨에스리
Priority to PCT/KR2022/004539 priority Critical patent/WO2023191136A1/ko
Publication of WO2023191136A1 publication Critical patent/WO2023191136A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Definitions

  • the present invention is a big data analysis visualization device and method, and more specifically, a big data analysis visualization device and method that analyzes big data with various analysis models without coding in a cloud-based block connection method and provides visualization information suitable for the results. It's about.
  • Big data refers to large-scale data that is generated in a digital environment and is vast in scale and includes not only structured data such as numerical data but also unstructured data such as text and video data.
  • cloud services are commercialized due to advances in information and communication technology, interest in technology to efficiently process large amounts of big data is increasing.
  • unimaginably vast amounts and various types of data are being created all the time.
  • Such big data needs to be processed through new algorithms or paradigms that are different from conventional data processing methods, and various values can be created through big data through processing and analysis processes tailored to the needs of consumers.
  • the present invention provides a big data analysis visualization device and method for analyzing big data with various analysis models without program coding using a cloud-based block connection method.
  • the present invention provides a big data analysis visualization device and method that can easily create a workflow by connecting functional blocks in appropriate positions and orders.
  • the present invention provides a big data analysis visualization device and method that provides a big data analysis workflow or analysis scenario as a template that can be reused for the same type of big data analysis.
  • the present invention provides a big data analysis visualization device and method that can execute and confirm each process in block units based on a GUI.
  • the present invention provides a big data analysis visualization device and method for recommending and expressing appropriate visualization methods for various analysis results.
  • the present invention provides a big data analysis visualization device and method that checks errors in input data, recommends replacement values, and performs an analysis model.
  • the present invention provides a big data analysis visualization device and method that recommends hyperparameters and performs an analysis model with optimal performance.
  • the present invention provides a big data analysis visualization device and method that improves the efficiency and accuracy of the analysis process by recommending functional blocks for the next step when creating a workflow that sets steps for big data analysis.
  • the present invention provides a big data analysis visualization device and method that improves the efficiency of the analysis process and the accuracy of the analysis by recommending an analysis model, workflow, or template suitable for the dataset.
  • the present invention provides a big data analysis visualization device and method that analyzes an input data set or selected functional block, places recommended blocks, and completes a workflow.
  • a big data analysis visualization device is provided.
  • a big data analysis visualization device includes a collection unit that collects data to be analyzed, a preprocessing unit that preprocesses the data to fit the analysis model, an analysis unit that analyzes the data into an analysis model, and an analysis model that is performed. It may include a visualization unit that visualizes the results in a suitable graph, and an execution unit that performs data collection, preprocessing, analysis, and visualization processes by matching them with function blocks.
  • a computer-readable recording medium on which a big data analysis visualization method and a computer program for executing the same are recorded is provided.
  • the big data analysis visualization method includes collecting data to be analyzed, preprocessing the data to fit the analysis model, analyzing the data using the analysis model, visualizing the analyzed data, and It may include steps of collecting, preprocessing, analyzing, and visualizing data by matching them with functional blocks.
  • big data can be analyzed using various analysis models without program coding using a cloud-based block connection method.
  • an analysis workflow can be easily created by connecting recommended blocks in appropriate positions and orders.
  • big data can be easily analyzed by providing a big data analysis workflow or analysis scenario as a template that can be reused for analyzing the same type of big data.
  • each process can be executed and confirmed in block units based on a GUI.
  • a suitable visualization method for various analysis results can be recommended and expressed.
  • an analysis model can be performed by checking errors in input data and recommending replacement values.
  • an analysis model can be performed with optimal performance by recommending hyperparameters.
  • the efficiency of the analysis process and the accuracy of the analysis can be improved by recommending an analysis model, workflow, or template suitable for the dataset.
  • the efficiency of the analysis process and the accuracy of the analysis can be improved by recommending the functional block of the next step.
  • the workflow can be completed by analyzing the work progress steps and recommending and placing an appropriate number of blocks.
  • 1 to 20 are diagrams for explaining a big data analysis visualization device according to an embodiment of the present invention.
  • 21 to 31 are diagrams for explaining a big data analysis visualization method according to an embodiment of the present invention.
  • 32 to 36 are example screens of a big data analysis visualization device according to an embodiment of the present invention.
  • 1 to 20 are diagrams for explaining a big data analysis visualization device according to an embodiment of the present invention.
  • the big data analysis visualization device 10 can easily use data in various formats by dragging and dropping it with a mouse without any modification process.
  • the big data analysis visualization device 10 can collect data desired to be analyzed by connecting Excel file format, CSV file format, RDS file format, TXT file format, and database by dragging and dropping. Additionally, the big data analysis visualization device 10 can directly collect data using the provided OpenAPI.
  • the big data analysis visualization device 10 performs preprocessing of various types of collected data.
  • the big data analysis visualization device 10 performs various data preprocessing into necessary data formats according to the analysis model.
  • the big data analysis visualization device 10 easily handles the preprocessing process, which accounts for 70% of big data analysis tasks, such as column name change, type setting, dataset merging, sampling, and group by operation, using web page manipulation. It can be saved as a file.
  • the big data analysis visualization device 10 can save data in various data formats, such as CSV file format, xml file format, yml file format, json file format, txt file format, log file format, or input data format.
  • the big data analysis visualization device 10 can visualize analysis data through various graphs.
  • the big data analysis visualization device 10 can visualize analysis data in the form of time, distribution, relationship, comparison, space, etc.
  • the big data analysis visualization device 10 can visualize analysis data in various forms using various graphs such as lines, circles, bars, histograms, bubble charts, scatter plots, box plots, and word clouds.
  • the big data analysis visualization device 10 can provide visualization results in a file format.
  • the big data analysis visualization device 10 can provide analysis results in various formats such as web page, PDF, MS-Word, and CSV format.
  • the big data analysis visualization device 10 can analyze preprocessed data using various analysis models.
  • the big data analysis visualization device 10 uses supervised learning such as correlation analysis, regression analysis, decision tree, kNN, random forest, MLP, etc. or unsupervised learning such as correlation analysis, K-means, PCA, and hierarchical clustering.
  • supervised learning such as correlation analysis, regression analysis, decision tree, kNN, random forest, MLP, etc.
  • unsupervised learning such as correlation analysis, K-means, PCA, and hierarchical clustering.
  • Various analysis models such as can be applied and analyzed to data without writing program code such as R or Python.
  • the big data analysis visualization device 10 creates a workflow by matching functions into blocks.
  • the big data analysis visualization device 10 adds desired function blocks to the workflow by clicking or dragging and dropping them, and connects them to create an analysis and visualization workflow.
  • the big data analysis visualization device 10 is GUI-based and can easily create a workflow by dragging and dropping blocks and connecting the data collection, preprocessing, analysis, and visualization processes.
  • the big data analysis visualization device 10 can perform workflow for each block step.
  • the big data analysis visualization device 10 can reuse the created workflow for similar analysis.
  • the big data analysis visualization device 10 provides frequently used analysis scenarios as templates, allowing big data analysis without writing program code.
  • the big data analysis visualization device 10 can be performed in a cloud platform environment.
  • the big data analysis and visualization device 10 includes a collection unit 100, a preprocessing unit 200, an analysis unit 300, and a visualization unit 400.
  • the collection unit 100 can collect data to be analyzed from various types of data.
  • the collection unit 100 can upload and collect files in Excel, TEXT, and CSV formats.
  • the collection unit 100 can collect data to be analyzed by directly connecting to a relational database.
  • the collection unit 100 can also be created directly by directly inputting or pasting data.
  • the collection unit 100 can directly collect data using the provided OpenAPI.
  • the preprocessing unit 200 preprocesses the collected data in various ways to fit the analysis model.
  • the preprocessing unit 200 can improve the accuracy of analysis by performing appropriate preprocessing on the input data set.
  • the preprocessing unit 200 may receive a recommendation for a preprocessing method based on analysis of the input data set.
  • the big data analysis visualization device 10 analyzes data using an analysis model.
  • the analysis unit 300 performs various analysis models without coding.
  • the analysis unit 300 may receive a recommendation for an analysis model according to the input data set.
  • the visualization unit 400 visualizes analysis data using various visualization graphs.
  • the visualization unit 400 can be executed before or after data analysis.
  • the visualization unit 400 can be mainly used to check the form of data before learning a data analysis model.
  • the visualization unit 400 includes a histogram visualization function block that can check changes in time series data, a scatterplot or heatmap visualization function block that can check correlations between variables, a word cloud visualization function block that can check data frequency, Boxplot visualization blocks that can check outliers in input data columns can be used before learning the analysis model.
  • the visualization unit 400 may express an analysis result report using visualization function blocks after learning the analysis model. For example, when classifying data, the visualization unit 400 can create an analysis result report on classification hit values after applying test data using a pie chart visualization block.
  • the visualization unit 400 can preprocess cases where the actual value and the predicted value match into a hit value and run it as a pie chart visualization function block to create an analysis visualization report showing that the model hit with a probability of 88.9%.
  • the execution unit 500 matches each process of the collection unit 100, pre-processing unit 200, analysis unit 300, and visualization unit 400 on a block basis, and matches each process for each process.
  • Function blocks can be selected.
  • the execution unit 500 selects, arranges, and connects functional blocks to analyze big data and perform visualization without program coding.
  • the execution unit 500 can select and connect each function block using a drag and drop method.
  • the execution unit 500 may select, place, and connect functional blocks to create a workflow.
  • the execution unit 500 minimizes errors when creating a workflow by indicating whether it is a block located in the middle or a block located at the beginning or end with a connection point. For example, the starting function block has no connection points on the left side of the block, only on the right side.
  • connection point is displayed as one, and if there are two connection points, the connection points are displayed as two. Subsequent tasks are displayed in the same way by matching the number of connection points and the number of tasks. For the last function block, there is no connection point on the right.
  • the execution unit 500 distinguishes each stage by changing the color of the function block for each stage.
  • the execution unit 500 may recommend a preprocessing function block to determine whether there are missing values or outliers in the dataset and correct them to normal values or normal categories, predict normal values or normal categories for the missing values and outliers, and can be provided.
  • the execution unit 500 analyzes and learns the dataset, learned analysis model, and learning results to recommend hyperparameters suitable for the dataset and analysis model. For example, the execution unit 500 may recommend hyperparameters that can improve the performance of the analysis model according to the input data set.
  • the execution unit 500 may analyze the data set collected by the collection unit 100 and recommend an analysis model function block or a next-level function block, and may recommend a template composed of a plurality of recommended function blocks. For example, the execution unit 500 may recommend a regression analysis function block when performing univariate analysis through independent variable analysis, and may recommend a cluster analysis function block when performing multivariate analysis. Alternatively, the execution unit 500 may recommend chi-square test and logistic regression analysis function blocks for categorical types and Pearson correlation analysis and linear regression analysis function blocks for continuous types by determining the type of dependent variable.
  • the execution unit 500 may recommend a histogram visualization function block or a line graph visualization function block to check the amount of change.
  • the execution unit 500 can select functional blocks to create a desired workflow or use a provided template. Alternatively, the execution unit 500 can store the created workflow and reuse it for analysis of the same or similar data, and refer to it when creating a workflow or selecting a function block.
  • the execution unit 500 includes an error correction unit 510, a performance improvement unit 520, a block recommendation unit 530, a model recommendation unit 540, and a workflow creation unit 550. .
  • the error correction unit 510 determines whether the preprocessed data is suitable for the selected analysis model. For example, an error occurs if the preprocessed data is a different data type from the data used in the learning model, is an outlier that exceeds the range of learned values, or is a missing value that is not processed.
  • the error correction unit 510 may recommend a normal value or normal category value that matches the error that occurred, or may recommend a preprocessing function block.
  • the error correction unit 510 uses the entire database including metadata of input values, metadata of the block currently being executed, and metadata of input values and block metadata to be used to form a model.
  • the error correction unit 510 may include input data size, number of input fields, data type, and main characteristics analyzed for each data as a type of metadata field of the input value.
  • the error correction unit 510 may include the block ID, the type and value of the input parameters, and the type and value of the parameter in which the error occurred as the types of block metadata fields.
  • the error correction unit 510 collects function block metadata and the error that occurred.
  • the error correction unit 510 recommends a replacement value and corrects the error. For example, when the standard for processing missing values is uncertain and the missing values are arbitrarily replaced and entered at the user's discretion, the error correction unit 510 can determine whether the missing values arbitrarily entered by the user are correct and determine an appropriate range value. It can provide guidelines and recommend replacement values for missing values.
  • the error correction unit 510 includes a judgment unit 5101, a learning unit 5102, and a recommendation unit 5103.
  • the determination unit 5101 can analyze and track the point where an error occurred by combining information such as functional block metadata, errors that occurred, and the types and values of parameters.
  • the determination unit 5101 determines whether the input data is suitable for the selected analysis model. Additionally, the determination unit 5101 may determine whether the preprocessed data is suitable for the selected analysis model.
  • the determination unit 5101 determines an error if the preprocessed data is of a different data type from the data used in the learning model, is an outlier exceeding the range of learned values, or is a missing value that is not processed. For example, the determination unit 5101 can determine whether the input data is normal or abnormal through a classification algorithm such as SVM or random forest.
  • a classification algorithm such as SVM or random forest.
  • the learning unit 5102 performs normal process matching through a predictive learning model that learns normal processes and abnormal processes.
  • the learning unit 5102 learns the normal process and error process of the selected analysis model to create a predictive learning model that predicts the normal value or normal category value of the dataset.
  • the predictive learning model may be an xgboost learning model that learns and classifies normal processes and error processes .
  • the learning unit 5102 determines the type of target variable, the distribution of the data set, the ratio of existing missing values, the entered missing value replacement value, the performance of the analysis model and whether an error occurs when processing the missing value replacement value, etc. Available.
  • the learning unit 5102 determines whether the replacement value for the missing value entered at the user's discretion is a normal value or a value within the normal range. If the replacement value entered by the user does not fall within the normal range, the learning unit 5102 sets one of the normal range guidelines or the value within the normal range as a recommended replacement value and recommends it. At this time, when the user selects a recommended replacement value, the learning unit 5102 retrains the predictive learning model with the data and uses it to increase the accuracy of determining the normal range of the data.
  • the learning unit 5102 takes the data in which an error occurred as an input value and performs a predictive learning model to predict the normal value or normal category value of the error value.
  • the recommendation unit 5103 recommends replacement values for parameters at the point where an error occurred or matches the normal execution process according to an algorithm learned from the normal execution process.
  • the recommendation unit 5103 recommends the predicted value through the prediction learning model as a replacement value for the error value.
  • the recommendation unit 5103 can automatically correct or recommend a normal value, normal range, or any value within the normal range for missing values or outliers as a replacement value by performing the predictive learning model generated by the learning unit 5102. there is.
  • Figure 12 is an example of an error value occurring when performing a random forest analysis model in a big data analysis visualization device according to an embodiment of the present invention.
  • the determination unit 5101 determines whether the input data is an abnormal value or a missing value. If the input data falls within an abnormal value or abnormal range, the learning unit 5102 predicts a normal value or a value in the normal range through a learning model that predicts error values that occur while performing a random forest analysis model. The recommendation unit 5103 recommends the predicted value through the prediction learning model as a replacement value for the error value.
  • the big data analysis visualization device 10 determines errors using an analysis model that has learned the normal process and error process, identifies the error occurrence point and contents of the error, and predicts the normal value or normal category.
  • the determination unit 5101 may use a classification algorithm such as random forest or SVM to identify error information. If the input value corresponds to an outlier or missing value, the learning unit 5102 can predict the replacement value through an analysis model such as the xgboost algorithm.
  • the performance improvement unit 520 recommends optimal hyperparameter values for evaluating the analysis model and improving performance.
  • hyperparameter optimization is a very important task because the performance of the analysis model varies greatly depending on the hyperparameter settings.
  • the performance improvement unit 520 recommends hyperparameters suitable for the dataset and analysis model.
  • the performance improvement unit 520 may recommend hyperparameters that can lead to optimal performance.
  • the performance improvement unit 520 may suggest performance improvement of the analysis model by recommending hyperparameters using a hyperparameter cross-validation algorithm.
  • the performance improvement unit 520 may provide performance evaluation values predicted when learning with recommended hyperparameter values.
  • the performance improvement unit 520 includes an input unit 5201, an adjustment unit 5202, and a performance comparison unit 5203.
  • the input unit 5201 receives hyperparameters from the user, including the dataset learning/verification ratio, to build an analysis model.
  • analysis models that require a dataset learning/validation ratio include random forest, regression analysis, decision trees, and logistic regression.
  • Hyperparameters that can be entered include independent dependent variable settings, training/validation dataset ratio, number of trees, etc.
  • training/validation dataset ratio For random forest analysis models, training data rate, validation data rate to verify model performance, and number of trees.
  • the depth of the tree, the minimum number of data in each leaf, and the minimum number of data in non-leaf nodes are used as hyper parameters.
  • the adjustment unit 5202 recommends adjustment values of hyperparameters for optimal performance of the selected analysis model.
  • the adjustment unit 5202 analyzes the type of dataset and the selected analysis model and recommends the optimal adjustment value.
  • the adjustment unit 5202 does not perform analysis model learning through direct hyperparameter adjustment using a hyperparameter prediction algorithm, but predicts hyperparameter values suitable for the dataset and analysis model. For example, the adjustment unit 5202 recommends hyperparameter adjustment values that can achieve optimal performance by adjusting the data rate according to low performance or overfitting.
  • the hyperparameter algorithm is an algorithm that predicts hyperparameters that can derive optimal performance by analyzing and learning the input data set, the performed analysis model, and the performance results.
  • the adjustment unit 5202 repeats recommending different adjustment values when the performance is low compared to the previous model, stops recommendation when it is high, and also stops recommendation when it reaches a preset threshold or higher.
  • the performance comparison unit 5203 can provide performance evaluation values predicted when learning with recommended hyperparameter values.
  • the performance comparison unit 5203 provides visualization of the performance when applying the hyperparameters entered by the user and the performance when adjusting the hyperparameters for optimal performance. For example, the performance comparison unit 5203 provides results when the hyperparameter values entered by the user are applied to the analysis model as visual data of the out of bag error graph, correlation matrix graph, and verification index. You can.
  • the performance comparison unit 5203 provides the recommended value to the user as visual material by displaying the user input value and the recommended adjustment value together and then showing the before and after change screen of the out of bag error graph indicator. It displays and provides changes in performance and result indicators.
  • the block recommendation unit 530 recommends the next function block through data set analysis and current function block level analysis.
  • the block recommendation unit 530 can improve the efficiency and accuracy of the analysis process by recommending the next functional block in the big data analysis process.
  • the block recommender 530 analyzes the input data set, analyzes the function blocks performed so far, and recommends the next step function block by referring to a workflow or template with high similarity.
  • the block recommender 530 can recommend a regression analysis function block when performing univariate analysis through independent variable analysis, and can recommend a cluster analysis function block when performing multivariate analysis.
  • the block recommendation unit 530 may recommend chi-square test and logistic regression analysis function blocks for categorical types and Pearson correlation analysis and linear regression analysis function blocks for continuous types through discrimination of dependent variable types.
  • the block recommendation unit 530 may recommend a histogram visualization function block or a line graph visualization function block to check the amount of change.
  • the block recommendation unit 530 can use workflow template big data in which workflow information of the generated workflow or provided template is stored for analysis.
  • the block recommendation unit 530 includes a block analysis unit 5301 and a dataset analysis unit 5302. It includes a generation unit 5303, a clustering unit 5304, a similarity analysis unit 5305, and a block-level recommendation unit 5306.
  • the block recommender 530 may receive a request for next-stage functional block recommendation or recognize a situation in which functional block recommendation is necessary.
  • the block analysis unit 5301 performs a block analysis algorithm that can classify the steps of the current function block in detail. For example, the block analysis unit 5301 extracts metadata of the current functional block to determine the current progress stage.
  • Function block metadata includes basic information of the function block, such as function block classification ID, parameter list, and parameter input values, and may further include a function block usage history list for redundancy checking of used function blocks.
  • the dataset analysis unit 5302 performs a dataset analysis algorithm to distinguish the input dataset.
  • the dataset analysis unit 5302 extracts metadata of the input dataset.
  • the metadata of the dataset includes the dataset's data type, data size, number of characteristics, missing values and ratio, outliers and ratio, duplicate data and ratio, etc.
  • the generation unit 5303 collects the result values of the block analysis unit 5301 and the result values of the dataset analysis unit 5302 to generate detailed step analysis metadata that can distinguish detailed processes.
  • detailed step analysis metadata is created using the metadata of the extracted current function block and the metadata of the input dataset.
  • the clustering unit 5304 clusters the workflow template big data based on the characteristic values of the detailed step analysis metadata.
  • the clustering unit 5304 may use clustering techniques such as K-MEANS, K-MODE, and DBSCAN.
  • Workflow template big data includes workflows from templates provided as created workflows or analysis scenarios.
  • the similarity analysis unit 5305 analyzes the similarity with the clustered workflows based on the feature values of the detailed step analysis metadata and extracts the top-ranked workflows with high similarity values. For example, the similarity analysis unit 5305 may analyze similarity using similarity analysis techniques such as Euclidean distance, Manhattan distance, and Spearman correlation score. The similarity analysis unit 5305 can recommend workflows with high similarity rankings.
  • the block step recommendation unit 5306 may search the process of the current function block in the workflows with high similarity rankings and recommend a function block corresponding to the next step in the high ranking workflows.
  • the model recommendation unit 540 recommends the most appropriate analysis model for the input data set and performs analysis.
  • the model recommendation unit 540 may calculate the suitability of the data set and the analysis model as a score and recommend an analysis model that obtains a score higher than the standard.
  • the model recommendation unit 540 analyzes the input data set to recommend a suitable analysis model, and analyzes the data set and the recommended analysis model to recommend a workflow or template.
  • the model recommendation unit 540 recommends an analysis model suitable for the input dataset through an analysis model recommendation algorithm.
  • the model recommendation unit 540 recommends analysis models with high simulation evaluation scores.
  • the model recommendation unit 540 analyzes the similarity with the workflow template big data using dataset metadata and analysis model metadata.
  • Workflow template big data includes workflows from templates provided as created workflows or analysis scenarios.
  • the model recommendation unit 540 may recommend a template including a workflow with high similarity and provide guidance to the user when selecting an analysis model.
  • the model recommendation unit 540 includes a mock evaluation unit 5401, an analysis model recommendation unit 5402, a similarity analysis unit 5403, and a recommendation unit 5404.
  • the simulation evaluation unit 5401 performs a suitable model evaluation algorithm to simulate and apply various analysis models to the input data set and calculates the scores of the data set and analysis model.
  • the simulation evaluation unit 5401 simulates random forest, correlation analysis, multi-layer perceptron, naive Bayes, k means model, etc. to calculate the AUC score and extracts the fit score.
  • the analysis model recommendation unit 5402 recommends the top n analysis models or analysis models above a preset threshold based on the calculated scores.
  • the similarity analysis unit 5403 analyzes the similarity with the workflow template big data based on the selected recommendation analysis model and dataset metadata. At this time, the similarity analysis unit 5403 may calculate the similarity with the workflow template big data by selecting the model that obtained the highest suitability score among the recommended analysis models or the analysis model selected by the user.
  • the similarity analysis unit 5403 can calculate the similarity with the workflow template big data based on the selected recommendation analysis model and dataset metadata.
  • the recommendation unit 5404 can recommend the top n workflows with high similarity through the similarity analysis unit 5403.
  • the recommendation unit 5404 can recommend templates containing the top n workflows with high similarity through the similarity analysis unit 5403.
  • the workflow creation unit 550 creates a workflow combined with recommended blocks.
  • the workflow creation unit 550 analyzes the input data and selected functional blocks and arranges the recommended blocks in an appropriate position and order within the workflow.
  • the workflow creation unit 550 may create, store, and provide a workflow in which recommended blocks are arranged.
  • the workflow creation unit 550 can complete the unfinished workflow by recommending and arranging each functional block according to the degree of workflow creation.
  • the workflow creation unit 550 extracts a high-level workflow with high similarity based on the input data set and selected blocks and uses it to create a workflow.
  • the workflow generator 550 may analyze the selected blocks and generate a workflow based on the actual work performed.
  • the workflow creation unit 550 includes a data extraction unit 5501, a preprocessing recommendation unit 5502, an analysis model recommendation unit 5503, a visualization recommendation unit 5504, and a completion unit 5505. do.
  • the data extraction unit 5501 analyzes the dataset using a dataset analysis algorithm and a block analysis algorithm, and analyzes blocks.
  • the data extraction unit 5501 extracts dataset metadata of the input dataset through a dataset analysis algorithm and extracts block metadata of blocks already selected through a block analysis algorithm.
  • the preprocessing recommendation unit 5502 analyzes necessary preprocessing based on dataset metadata. For example, the preprocessing recommendation unit 5502 may recommend an outlier processing block when an outlier is found, a missing value processing block when a missing value is found, a derived variable block when the number of columns is unnecessarily large, and a preprocessing block required for the PCA block dataset. You can.
  • the analysis model recommendation unit 5503 recommends an analysis model using block metadata and dataset metadata.
  • the visualization recommendation unit 5504 recommends visualization blocks through a visualization recommendation algorithm. For example, the visualization recommendation unit 5504 excludes duplicate visualizations and recommends a boxplot or scatterplot visualization block if the preprocessing block in use is an outlier processing block, and if the dataset is categorical, a pie chart that can check the ratio. Visualization blocks can be recommended.
  • the completion unit 5505 places recommended blocks and completes the workflow to create it.
  • the completion unit 5504 extracts workflows with high similarity through a block placement algorithm, places each recommended block, and creates a workflow.
  • the block placement algorithm extracts the top n items with high similarity to the workflow during work, identifies the location of the functional block, and recommends the functional block and its location.
  • 21 to 31 are diagrams for explaining a big data analysis visualization method according to an embodiment of the present invention.
  • Each process described below is a process performed by each functional unit constituting the big data analysis visualization device.
  • the subject of each step will be collectively referred to as the big data analysis visualization device.
  • the big data analysis visualization device 10 collects data to be analyzed.
  • the big data analysis visualization device 10 can collect data to be analyzed from various types of data.
  • the big data analysis visualization device 10 can upload and collect files in Excel, TEXT, and CSV formats.
  • the big data analysis visualization device 10 can collect data to be analyzed by directly connecting to a relational database.
  • the big data analysis visualization device 10 can also be created directly by directly inputting or pasting data.
  • the big data analysis visualization device 10 can directly collect data using the provided OpenAPI.
  • step S2102 the big data analysis visualization device 10 preprocesses the collected data to fit the desired analysis model.
  • the big data analysis visualization device 10 analyzes data using an analysis model.
  • the big data analysis visualization device 10 can recommend an analysis model by analyzing the data set.
  • the big data analysis visualization device 10 can recommend a preprocessing method by analyzing the dataset and the analysis model to be used.
  • step S2104 the big data analysis visualization device 10 visualizes and expresses the analyzed data.
  • the big data analysis visualization device 10 can recommend a visualization block suitable for the analysis results.
  • Figure 22 is an example diagram to explain how a big data analysis visualization device that recommends blocks according to an embodiment of the present invention determines an error point when an error occurs and recommends a normal value.
  • the big data analysis visualization device 10 finds the exact error point and corrects the value to proceed with the analysis process without error.
  • step S2201 the big data analysis visualization device 10 collects metadata of the functional block and information on errors that have occurred.
  • step S2202 the big data analysis visualization device 10 analyzes information on errors that occur and determines the point where the error occurs.
  • step S2203 the big data analysis visualization device 10 analyzes block metadata, errors occurring, and parameter types and values to determine whether matching between the data set and the analysis model is appropriate. If the data set and the analysis model do not match, the big data analysis visualization device 10 can recommend an analysis model suitable for the data set. In detail, the big data analysis visualization device 10 extracts the normal value of the normal analysis model execution process and recommends the normal value if it does not match the selected analysis model.
  • step S2204 the big data analysis visualization device 10 determines whether there are outliers or missing values in the data.
  • the big data analysis visualization device 10 can recommend and automatically apply a normal value or normal range in case of an error due to an outlier or missing value in the input data.
  • the big data analysis visualization device 10 can self-diagnose error points and replace them with predicted normal values to continue performing analysis without error.
  • Figure 23 is an example of how a big data analysis visualization device according to an example of the present invention determines and corrects errors.
  • step S2301 the big data analysis visualization device 10 receives data to be analyzed from the user.
  • step S2302 the big data analysis visualization device 10 creates a data analysis workflow using any one of a newly created workflow, a provided workflow template, or a saved workflow by dragging and dropping a block.
  • step S2303 when an error occurs, the big data analysis visualization device 10 determines the error type and identifies the error point by referring to information in the error DB.
  • the big data analysis visualization device 10 uses an analysis model that has learned the normal process and the error process to identify the error occurrence point and the contents of the error when an error occurs.
  • the big data analysis visualization device 10 may use classification algorithms such as random forest and SVM to identify error information.
  • step S2304 the big data analysis visualization device 10 predicts a normal value or normal range value using a learning model to predict error values. If the input value corresponds to an outlier or missing value, the big data analysis visualization device 10 can recommend a replacement value for the error value through an analysis model such as the xgboost algorithm.
  • the replacement value for the error value may be a normal value or normal category that allows big data analysis to be performed normally without errors occurring.
  • step S2305 the big data analysis visualization device 10 recommends the predicted value, that is, the result of the predictive learning model, to the user.
  • the big data analysis visualization device 10 may continue the analysis by automatically applying a normal value or normal category.
  • step S2306 the big data analysis visualization device 10 performs data analysis by applying recommended values.
  • Figure 24 is a diagram to explain how a big data analysis visualization device according to an embodiment of the present invention recommends a replacement value when an error occurs.
  • the error correction unit 510 recommends a replacement value and corrects the error.
  • step S2401 the error correction unit 510 builds a learning model learned based on normal values of the performed workflow. For example, the error correction unit 510 learns the normal process and error process of the selected analysis model to create a predictive learning model that predicts the normal value or normal category value of the dataset.
  • step S2402 if an error occurs in the input data set, the error correction unit 510 collects error value information and determines the error point.
  • step S2403 the error correction unit 510 performs the prediction learning model built in step S1501 to predict the normal value or normal category value of the error value.
  • step S2404 the error correction unit 510 recommends the predicted value as a normal value or automatically inputs it.
  • step S2405 when the recommended value is applied, the error correction unit 510 adds it to the prediction learning model as a normal value or normal range value.
  • step S2406 the error correction unit 510 supports the user to correct the error by correcting the error value based on the recommended normal value or normal range value.
  • Figure 25 is a diagram to explain how a big data analysis visualization device according to an embodiment of the present invention recommends and adjusts hyperparameters that can derive optimal performance of an analysis model.
  • the performance improvement unit 520 recommends hyperparameters suitable for the dataset and analysis model. For example, the performance improvement unit 520 can recommend and adjust hyperparameters that can lead to optimal performance.
  • step S2501 the big data analysis visualization device 10 receives a data set requiring analysis.
  • the big data analysis visualization device 10 selects an analysis model that requires hyperparameters such as learning/validation ratio.
  • analysis models that require hyperparameters include random forest, regression analysis, decision trees, and logistic regression models
  • hyperparameters that can be entered include independent dependent variable settings, training/validation dataset ratio, number of trees, etc. do.
  • step S2503 the big data analysis visualization device 10 performs an analysis model using hyperparameters input by the user.
  • step S2504 the big data analysis visualization device 10 confirms the performed performance results and verification indicators by visualizing them in a graph or diagram, and determines the need for performance improvement of the analysis model.
  • the big data analysis visualization device 10 displays performance results when user input hyperparameter values are applied to the analysis model through visual data of an out of bag error graph, correlation matrix graph, and verification index.
  • the big data analysis visualization device 10 recommends hyperparameters for optimal performance of the selected analysis model.
  • the big data analysis visualization device 10 uses a hyperparameter prediction algorithm to predict hyperparameter values suitable for the dataset and analysis model without performing analysis model learning through direct hyperparameter adjustment.
  • the hyperparameter algorithm is an algorithm that predicts hyperparameters that can derive optimal performance by analyzing and learning the input data set, the performed analysis model, and the performance results.
  • the big data analysis visualization device 10 recommends hyperparameter adjustment values that can achieve optimal performance by adjusting the data ratio according to low performance or overfitting.
  • step S2506 the big data analysis visualization device 10 compares the performance results and verification indicators of the analysis model to which the recommended adjustment value is applied with the performance results and verification indicators of the analysis model to which the user-input hyperparameters are applied, and visualizes and displays changes. .
  • step S2507 the big data analysis visualization device 10 determines that the performance value of the analysis model is optimal or has reached the performance value target, confirms the analysis model and hyperparameters, and stops the hyperparameter adjustment operation.
  • Figure 26 is a diagram illustrating a method by which a big data analysis visualization device recommends a next-stage functional block according to an embodiment of the present invention.
  • the block recommendation unit 530 recommends the next functional block through data set analysis and current block level analysis.
  • step S2601 the big data analysis visualization device 10 receives a request for recommendation of the next function block while performing the data analysis workflow.
  • step S2602 the big data analysis visualization device 10 analyzes the progress stage of the current function block by performing a block analysis algorithm that distinguishes the progress stage of the selected function block.
  • step S2603 the big data analysis visualization device 10 analyzes the input dataset using a dataset analysis algorithm.
  • step S2604 the big data analysis visualization device 10 collects the block analysis algorithm result and the dataset analysis algorithm result to generate detailed step analysis metadata that can distinguish detailed processes.
  • step S2605 the big data analysis visualization device 10 performs similarity analysis of the detailed step analysis metadata and the workflow analysis data based on the detailed step analysis metadata and existing workflow analysis data.
  • step S2606 the big data analysis visualization device 10 recommends the function block used in the workflow ranked high in the similarity analysis.
  • the big data analysis visualization device 10 extracts detailed step analysis metadata and workflow analysis data with high similarity and recommends functional blocks within the corresponding workflow.
  • Figure 27 is an example screen in which the big data analysis visualization device recommends the next step functional block according to an embodiment of the present invention.
  • step S2701 the big data analysis visualization device 10 receives a request for recommendation of the next function block while performing the data analysis workflow.
  • step S2702 the big data analysis visualization device 10 extracts metadata of the current function block by performing a block analysis algorithm that distinguishes the progress stage of the selected function block.
  • block metadata includes basic block information such as block ID, parameter ID, parameter input value, and parameter list, and a usage history list of blocks that have already been used.
  • the big data analysis visualization device 10 extracts metadata of the input dataset using a dataset analysis algorithm.
  • the input dataset metadata includes information such as data type, data size, number of characteristics, missingness and ratio, outlier status and ratio, duplicate data and ratio, etc.
  • step S2704 the big data analysis visualization device 10 generates detailed step analysis metadata using block metadata and dataset metadata.
  • step S2705 the big data analysis visualization device 10 performs the workflow and clustering model of the generated workflow or the provided template using the feature values of the detailed step analysis metadata.
  • clustering models include k-means, k-mode, and DBSCAN (density-based) clustering techniques.
  • step S2706 the big data analysis visualization device 10 extracts a high-rank workflow similar to the feature value of the detailed step analysis metadata within the clustered workflow through similarity analysis.
  • the big data analysis visualization device 10 can analyze the similarity of dataset patterns, designated dependent variables, used function blocks, and connection relationships between function blocks.
  • the similarity analysis model can use similarity analysis techniques such as Euclidean distance, Manhattan distance, and Spearman correlation score.
  • step S2707 the big data analysis visualization device 10 recommends the function block used in the corresponding step in the workflow ranked high in the similarity analysis.
  • Figure 28 is a diagram illustrating a method for recommending an analysis model by a big data analysis visualization device according to an embodiment of the present invention.
  • the model recommendation unit 540 performs analysis by recommending the most appropriate analysis model for the input data set.
  • step S2801 the big data analysis visualization device 10 receives a dataset requiring analysis and can specify a prediction target value (Y value) when specifying a target variable.
  • step S2802 the big data analysis visualization device 10 performs a fit model evaluation algorithm to simulate and apply various analysis models to the input dataset and calculates the fit score of the dataset and the analysis model.
  • step S2803 the big data analysis visualization device 10 recommends an analysis model with the top n suitability scores calculated using a suitability model evaluation algorithm or applies the analysis model with the highest suitability score to the workflow.
  • step S2804 the big data analysis visualization device 10 performs similarity analysis using dataset metadata and block metadata of the recommendation analysis model.
  • the big data analysis visualization device 10 analyzes the block metadata of the recommendation analysis model with a block analysis algorithm, analyzes the input dataset metadata with a dataset analysis algorithm, and collects the results to distinguish detailed processes. Create detailed step-by-step analysis metadata.
  • the big data analysis visualization device 10 can perform similarity analysis of detailed step analysis metadata and workflow analysis data based on detailed step analysis metadata and existing workflow analysis data.
  • step S2805 the big data analysis visualization device 10 recommends a template based on a workflow with high similarity.
  • Figure 29 is an example screen in which a big data analysis visualization device recommends an analysis model according to an embodiment of the present invention.
  • step S2901 the big data analysis visualization device 10 receives a data set.
  • step S2902 the big data analysis visualization device 10 performs a fit model recommendation algorithm that calculates a fit score by simulated application of the input dataset to the analysis model.
  • the big data analysis visualization device 10 calculates the AUC score by applying random forest, correlation analysis, multi-layer perceptron, naive Bayes, k-means model, etc. to the input data set. Calculate the compliance score.
  • step S2903 the big data analysis visualization device 10 recommends an analysis model whose calculated fit score is in the top n cases.
  • step S2904 the big data analysis visualization device 10 analyzes blocks of the analysis model selected among the recommended analysis models or the analysis model that obtained the highest AUC score using a block analysis algorithm, and analyzes the dataset through the data set analysis algorithm.
  • step S2905 the big data analysis visualization device 10 performs similarity analysis with the workflow of the provided template by combining the block metadata and dataset metadata obtained as result values of the block analysis algorithm and the dataset analysis algorithm.
  • step S2906 the big data analysis visualization device 10 recommends a template containing the top n workflows with high similarity.
  • Figure 30 is a diagram to explain how a big data analysis visualization device according to an embodiment of the present invention creates a workflow with recommended blocks.
  • the workflow creation unit 550 may create a new workflow by creating recommended blocks at appropriate positions within the workflow.
  • the workflow creation unit 550 can save the created workflow as a user's workflow or as a workflow template.
  • step S3001 the big data analysis visualization device 10 is requested to recommend an analysis process while creating a workflow.
  • step S3002 the big data analysis visualization device 10 analyzes the dataset through an input dataset analysis algorithm and recommends a preprocessing block.
  • step S3003 the big data analysis visualization device 10 analyzes blocks of the workflow being created through a block analysis algorithm.
  • step S3004 the big data analysis visualization device 10 recommends blocks of the analysis model using the result values of the block analysis algorithm and the dataset analysis algorithm.
  • step S3005 the big data analysis visualization device 10 recommends a visualization block suitable for effective visualization through a visualization recommendation algorithm.
  • step S3006 the big data analysis visualization device 10 connects the recommended blocks in an appropriate position and order through a block placement algorithm to create a workflow.
  • Figure 31 is an example screen in which a big data analysis visualization device according to an embodiment of the present invention creates a workflow with recommended blocks.
  • step S3101 the big data analysis visualization device 10 is requested to recommend an analysis process between blocks.
  • the big data analysis visualization device 10 checks the input data set and selected function blocks to recommend the analysis process.
  • step S3102 the big data analysis visualization device 10 extracts dataset metadata from the input dataset through a dataset analysis algorithm.
  • the big data analysis visualization device 10 analyzes necessary preprocessing based on dataset metadata and recommends a preprocessing block. For example, the big data analysis visualization device 10 may recommend an outlier processing block when an outlier is found, a missing value processing block when a missing value is found, a derived variable block when the number of columns is unnecessarily large, and a preprocessing block required for the PCA block dataset. You can.
  • step S3104 the big data analysis visualization device 10 extracts block metadata of the selected function block through a block analysis algorithm.
  • step S3105 the big data analysis visualization device 10 recommends blocks of the analysis model using block metadata and dataset metadata.
  • the big data analysis visualization device 10 recommends a visualization block through a visualization recommendation algorithm.
  • the big data analysis visualization device 10 excludes redundant visualization and recommends a boxplot or scatterplot visualization block if the preprocessing block in use is an outlier processing block, and can check the ratio if the dataset is categorical. I can recommend the pie chart visualization block.
  • step S3107 the big data analysis visualization device 10 creates a workflow by placing the recommended blocks in an appropriate position and order through a block context analysis algorithm. For example, the big data analysis visualization device 10 places the visualization block behind the related block, and places the preprocessing block between the data input and the target data analysis block.
  • 32 to 36 are example screens of a big data analysis visualization device according to an embodiment of the present invention.
  • Figure 32 is an example screen in which the big data analysis visualization device 10 collects data.
  • the big data analysis visualization device 10 can collect data desired to be analyzed by connecting Excel file format, CSV file format, RDS file format, TXT file format, and database by dragging and dropping.
  • the big data analysis visualization device 10 can directly collect data using the provided OpenAPI.
  • Figure 33 is an example screen in which the big data analysis visualization device 10 performs data preprocessing.
  • the big data analysis visualization device 10 can change column information and check data for preprocessing.
  • Figure 34 is an example screen in which the big data analysis visualization device 10 analyzes big data using an analysis model.
  • the big data analysis visualization device 10 can specify hyperparameter and target variable values, analyze them using a random forest analysis model, and also check the performance indicators of the analysis model.
  • Figure 35 is an example screen in which the big data analysis visualization device 10 performs visualization.
  • the big data analysis visualization device 10 can analyze big data without program coding by manipulating a web page and visualize the results.
  • Figure 36 is an example screen of functional blocks used by the big data analysis visualization device 10.
  • the big data analysis visualization device 10 can select and move function blocks by dragging and dropping or clicking.
  • the big data analysis visualization device 10 expresses the functional blocks in different colors for each stage and includes internal points or external points of the functional blocks depending on demand.
  • the internal or external points of the function block have different colors depending on the status, making it intuitive.
  • the big data analysis visualization device 10 can connect points outside the function block to each other using a block pipeline.
  • the big data analysis visualization method described above can be implemented as computer-readable code on a computer-readable medium.
  • the computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disk, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk). You can.
  • the computer program recorded on the computer-readable recording medium can be transmitted to another computing device through a network such as the Internet, installed on the other computing device, and thus used on the other computing device.
  • the present invention relates to big data analysis visualization technology, which allows users to intuitively and easily understand the big data analysis flow, select an analysis method according to the format of big data, and recommend visualization information suitable for expressing the analysis results. Therefore, even users who do not learn programming languages can easily analyze big data, so there is potential for industrial use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Human Computer Interaction (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 빅데이터 분석 시각화 장치 및 방법으로, 보다 상세하게는 GUI기반 블록 연결 방식으로 빅데이터를 다양한 분석 모델로 분석하고, 결과에 적합한 시각화 정보를 제공하는 빅데이터 분석 시각화 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 빅데이터 분석 시각화 장치 및 방법은 프로그램 코딩 없이 다양한 분석 모델을 이용하여 빅데이터를 분석할 수 있다.

Description

빅데이터 분석 시각화 장치 및 방법
본 발명은 빅데이터 분석 시각화 장치 및 방법으로, 보다 상세하게는 클라우드 기반의 블록 연결 방식으로 코딩없이 빅데이터를 다양한 분석 모델로 분석하고, 결과에 적합한 시각화 정보를 제공하는 빅데이터 분석 시각화 장치 및 방법에 관한 것이다.
빅데이터는 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고 수치 데이터 같이 정형화된 데이터뿐 아니라 문자와 영상 데이터와 같이 비정형화된 데이터도 포함하는 대규모 데이터를 말한다. 정보 통신 기술의 발전으로 인해 클라우드 서비스가 상용화되면서, 대용량의 빅 데이터를 효율적으로 처리하는 기술에 대한 관심이 증대되고 있다. 특히, 사물인터넷의 부흥에 힘입어 상상할 수 없을 정도로 방대한 양과 다양한 종류의 데이터가 시시각각 생성되고 있다.
이러한 빅데이터는 종래의 데이터 처리 방식과는 다른 새로운 알고리즘이나 패러다임을 통해 처리될 필요가 있으며, 수요자의 요구에 맞는 처리 및 분석 과정을 통해서 빅데이터를 통한 다양한 가치 창출이 가능하게 된다.
최근 PC 이외에 태블릿(tablet), 스마트폰(smart phone)과 같은 고성능의 휴대용 기기들이 등장하면서, 데스크탑 PC를 통한 인터넷 접속뿐만 아니라 모바일 접속을 통해 모바일 쇼핑, 검색, 메일 확인 등을 즐기는 인구가 크게 증가하고 있다. 이러한 휴대용 기기의 보급화 및 모바일 인터넷 기술의 발달로, 인터넷 상에 존재하는 많은 데이터들이 웹로봇, 웹크롤러, 스파이더 등을 통해 수집되고 있으며, 수집된 빅 데이터를 원하는 목적에 따라 분석하여 이용하고 있다.
기존의 데이터 분석 시스템은 스칼라(scala), 파이썬(python) 등의 프로그래밍 언어를 이용하여 작성된 데이터 분석 코드를 기반으로 빅 데이터를 분석하였다. 다시 말해, 스칼라, 파이썬 등의 프로그래밍 언어를 학습한 사용자는 데이터 분석 코드를 작성할 수 있으나, 해당 프로그래밍 언어를 학습하지 않은 사용자는 데이터 분석 코드를 작성하기 어려워, 다른 사용자에 의해 작성된 데이터 분석 플로우를 직관적으로 이해하는데 어려움이 존재하며, 유지 보수가 어려워진다.
이에 따라, 파이썬, 스칼라 등의 프로그래밍 언어를 학습하지 못한 사용자라 할지라도, 특정 데이터 파일과 관련하여 자신이 제어 또는 수정하고자 데이터 분석 플로우를 쉽게 작성하도록 도와주는 데이터 분석 기술이 요구된다.
본 발명의 배경기술은 대한민국 공개특허 제10-2013-0155808 호에 게시되어 있다.
본 발명은 클라우드 기반의 블록 연결 방식으로 프로그램 코딩없이 빅데이터를 다양한 분석 모델로 분석하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 기능 블록들을 적합한 위치와 순서에 맞게 연결하여 워크플로우를 손쉽게 생성할 수 있는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 동종 빅데이터 분석에 재사용이 가능한 빅데이터 분석 워크플로우 또는 분석 시나리오를 템플릿으로 제공하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 GUI 기반으로 각 과정을 블록 단위로 실행하고 확인할 수 있는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 다양한 분석 결과에 대한 적합한 시각화 방법을 추천하고, 표현하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 입력된 데이터의 오류를 확인하고 대체 값을 추천하여 분석 모델을 수행하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 하이퍼파라미터를 추천하여 최적의 성능으로 분석 모델을 수행하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 빅데이터 분석을 위한 단계를 설정하는 워크플로우 생성 시에 다음 단계의 기능 블록을 추천하여 분석 과정의 효율 및 정확도를 개선하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 데이터셋에 적합한 분석 모델, 워크플로우 또는 템플릿을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 입력 데이터셋 또는 선택된 기능 블록을 분석하여 추천된 블록들을 배치하고, 워크플로우를 완성하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명의 일 측면에 따르면, 빅데이터 분석 시각화 장치를 제공한다.
본 발명의 일 실시예에 따른 빅데이터 분석 시각화 장치는 분석하려는 데이터를 수집하는 수집부, 데이터를 분석 모델에 맞도록 전처리하는 전처리부, 데이터를 분석 모델로 분석하는 분석부, 분석 모델을 수행한 결과를 적합한 그래프로 시각화하는 시각화부 및 데이터를 수집, 전처리, 분석 및 시각화 과정을 기능 블록으로 매칭하여 수행하는 수행부를 포함할 수 있다.
본 발명의 다른 일 측면에 따르면, 빅데이터 분석 시각화 방법 및 이를 실행하는 컴퓨터 프로그램이 기록된 컴퓨터가 판독 가능한 기록매체를 제공한다.
본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 방법은 분석하려는 데이터를 수집하는 단계, 데이터를 분석 모델에 맞게 전처리하는 단계, 데이터를 분석 모델을 이용해 분석하는 단계, 분석한 데이터를 시각화 하는 단계 및 데이터를 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 클라우드 기반의 블록 연결 방식으로 프로그램 코딩 없이 다양한 분석 모델을 이용하여 빅데이터를 분석할 수 있다.
본 발명의 일 실시 예에 따르면, 추천 블록들을 적합한 위치와 순서에 맞게 연결하여 분석 워크플로우를 손쉽게 생성할 수 있다.
본 발명의 일 실시 예에 따르면, 동종 빅데이터 분석에 재사용이 가능한 빅데이터 분석 워크플로우 또는 분석 시나리오를 템플릿으로 제공하여 손쉽게 빅데이터를 분석할 수 있다.
본 발명의 일 실시 예에 따르면, GUI 기반으로 각 과정을 블록 단위로 실행하고 확인할 수 있다.
본 발명의 일 실시 예에 따르면, 다양한 분석 결과에 대한 적합한 시각화 방법을 추천하고, 표현할 수 있다.
본 발명의 일 실시 예에 따르면, 입력된 데이터의 오류를 확인하고 대체 값을 추천하여 분석 모델을 수행할 수 있다.
본 발명의 일 실시 예에 따르면, 하이퍼파라미터를 추천하여 최적의 성능으로 분석 모델을 수행할 수 있다.
본 발명의 일 실시 예에 따르면, 데이터셋에 적합한 분석 모델, 워크플로우 또는 템플릿을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선할 수 있다.
본 발명의 일 실시 예에 따르면, 빅데이터 분석을 위한 단계를 설정하는 워크플로우 생성 시에 다음 단계의 기능 블록을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선할 수 있다.
본 발명의 일 실시 예에 따르면, 작업 진행 단계를 분석하여 적절한 다수의 블록 추천 및 배치를 통해 워크플로우를 완성할 수 있다.
도 1 내지 도 20은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치를 설명하기 위한 도면들.
도21 내지 도 31은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 방법을 설명하기 위한 도면들.
도 32 내지 도 36은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치의 예시 화면들.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1 내지 도 20은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치를 설명하기 위한 도면들이다.
도 1을 참조하면, 빅데이터 분석 시각화 장치(10)는 다양한 포맷의 데이터를 별다른 변경 과정 없이 마우스로 드래그 앤 드롭하여 손쉽게 이용할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 엑셀 파일 형식, CSV 파일 형식, RDS 파일 형식, TXT 파일 형식 및 데이터베이스도 드래그 앤 드롭으로 연결하여 분석하기 원하는 데이터를 수집할 수 있다. 또한 빅데이터 분석 시각화 장치(10)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
빅데이터 분석 시각화 장치(10)는 수집한 다양한 형식의 데이터의 전처리를 수행한다. 빅데이터 분석 시각화 장치(10)는 분석 모델에 따른 필요 데이터 형식으로 다양한 데이터 전처리를 수행한다. 빅데이터 분석 시각화 장치(10)는 컬럼 이름 변경, 타입 설정, 데이터셋 병합, 샘플링, 연산 그룹(Group By 연산) 등 빅데이터 분석 업무의 70%를 차지하는 전처리 과정을 웹페이지 조작 방식으로 쉽게 처리하고 파일로 저장할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 CSV 파일 형식, xml 파일 형식, yml 파일 형식, json 파일 형식, txt 파일 형식, log 파일 형식 또는 입력된 데이터 형식 등 다양한 데이터 형식으로 저장할 수 있다.
빅데이터 분석 시각화 장치(10)는 분석 데이터를 여러가지 그래프를 통해 시각화할 수 있다. 빅데이터 분석 시각화 장치(10)는 분석 데이터를 시간, 분포, 관계, 비교, 공간 등의 형태로 시각화할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 라인, 원, 막대, 히스토그램, 버블 차트, 산점도, 박스플롯, 워드클라우드 등 다양한 그래프를 이용해 분석 데이터를 다양한 형태로 시각화할 수 있다.
빅데이터 분석 시각화 장치(10)는 시각화 결과를 파일 형식으로 제공할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 분석 결과를 웹 페이지, PDF, MS-Word, CSV 형식 등의 다양한 형식으로 제공할 수 있다.
빅데이터 분석 시각화 장치(10)는 전처리한 데이터를 다양한 분석 모델을 이용해 분석할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 상관분석, 회귀분석, 의사결정나무, kNN, 랜덤포레스트, MLP 등과 같은 지도학습 또는 연관분석, K-means, PCA, 계층적 군집화 같은 비지도 학습 등의 다양한 분석 모델을 R이나 파이썬(Python)과 같은 프로그램 코드작성없이 데이터를 적용하여 분석할 수 있다.
빅데이터 분석 시각화 장치(10)는 기능을 블록으로 매칭하여 워크플로우를 생성한다. 빅데이터 분석 시각화 장치(10)는 원하는 기능 블록들을 클릭 또는 드래그 앤 드롭을 이용해 워크플로우에 추가하고, 연결하여 분석 및 시각화 워크플로우를 생성한다. 빅데이터 분석 시각화 장치(10)는 GUI 기반으로 데이터 수집, 전처리, 분석 및 시각화 과정을 블록을 드래그 앤 드롭 하고 연결하여 손쉽게 워크플로우를 생성할 수 있다. 빅데이터 분석 시각화 장치(10)는 각 블록 단계별로 워크플로우를 수행할 수 있다.
빅데이터 분석 시각화 장치(10)는 생성한 워크플로우를 동종 분석에 재사용할 수 있다.
빅데이터 분석 시각화 장치(10)는 많이 사용하는 분석 시나리오를 템플릿으로 제공하여 프로그램 코드 작성없이 빅데이터 분석을 할 수 있다.
빅데이터 분석 시각화 장치(10)는 클라우드 플랫폼 환경에서 수행할 수 있다.
도 2를 참조하면, 빅데이터 분석 시각화 장치(10)는 수집부(100), 전처리부(200), 분석부(300) 및 시각화부(400)를 포함한다.
도 3을 참조하면, 수집부(100)는 다양한 형태의 데이터로부터 분석하려는 데이터를 수집할 수 있다. 예를 들면, 수집부(100)는 엑셀, TEXT, CSV 형식의 파일을 업로드하여 수집할 수 있다. 또한 수집부(100)는 관계형 데이터베이스에 직접 연결하여 분석하려는 데이터를 수집할 수 있다. 수집부(100)는 직접 데이터를 직접 입력 또는 붙여넣기 하여 바로 생성할 수도 있다. 수집부(100)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
도 4를 참조하면, 전처리부(200)는 수집한 데이터를 분석 모델에 맞도록 다양한 방법으로 전처리한다. 전처리부(200)는 입력된 데이터셋에 적합한 전처리를 수행하여 분석의 정확도를 높일 수 있다. 전처리부(200)는 입력 데이터셋 분석에 따른 전처리 방식을 추천받을 수 있다.
도 5를 참조하면, 빅데이터 분석 시각화 장치(10)는 분석 모델을 이용해 데이터를 분석한다. 분석부(300)는 다양한 분석 모델을 코딩없이 수행한다. 분석부(300)는 입력 데이터셋에 따른 분석 모델을 추천받을 수 있다.
도 6을 참조하면, 시각화부(400)는 다양한 시각화 그래프를 이용하여 분석 데이터를 시각화 한다. 시각화부(400)는 데이터 분석 전 또는 분석 후에 실행할 수 있다.
시각화부(400)는 주로 데이터의 형태를 확인할 때 데이터 분석 모델 학습 전에 사용할 수 있다. 예를 들면, 시각화부(400)는 시계열 데이터의 변화도 확인할 수 있는 히스토그램 시각화 기능 블록, 변수 간 상관관계 확인할 수 있는 산점도 또는 히트맵 시각화 기능 블록, 데이터 빈도를 확인할 수 있는 워드 클라우드 시각화 기능 블록, 입력된 데이터 컬럼의 이상치를 확인할 수 있는 박스플롯 시각화 블록 등을 분석 모델 학습 전에 이용할 수 있다.
도 7을 참조하면, 시각화부(400)는 분석 모델 학습 후에 분석 결과 보고서를 시각화 기능 블록들을 이용해 표현할 수 있다. 예를 들면, 시각화부(400)는 데이터를 분류할 때 테스트 데이터 적용한 후의 분류 적중 값에 관한 분석 결과 보고서를 파이차트 시각화 블록을 이용해 작성할 수 있다.
시각화부(400)는 실제 값과 예측 값이 일치한 경우를 적중 값으로 전처리 하여 파이차트 시각화 기능 블록으로 실행하여 모델이 88.9% 확률로 적중했다는 분석 시각화 보고서를 작성할 수 있다.
도 8을 참조하면, 수행부(500)는 수집부(100), 전처리부(200), 분석부(300) 및 시각화부(400)의 각 과정을 블록 기반으로 매칭하여, 각 과정마다 매칭된 기능 블록을 선택할 수 있다. 수행부(500)는 기능 블록들을 선택, 배치 및 연결하여 프로그램 코딩 없이 빅데이터를 분석하고 시각화를 수행한다. 수행부(500)는 드래그 앤 드롭 방식으로 각 기능 블록을 선택하고 연결할 수 있다. 수행부(500)는 기능 블록을 선택, 배치 및 연결하여 워크플로우를 생성할 수 있다. 수행부(500)는 기능 블록들을 선택할 때 중간에 위치하는 블록인지 처음 또는 끝에 위치하는 블록인지 연결점으로 표시하여 워크플로우를 생성할 때 오류를 최소화한다. 예를 들면, 시작하는 기능 블록은 블록의 왼쪽에는 연결점이 없고 오른쪽에만 존재한다. 사전 작업이 하나인 경우 왼쪽 연결점이 하나이고 두개인 경우 연결점을 두개로 표시한다. 후속 작업도 동일한 방식으로 연결점의 수와 작업을 수를 일치하여 표시한다. 마지막 기능 블록의 경우 오른쪽에는 연결점이 없다. 수행부(500)는 각 단계별 기능 블록의 색상을 달리하여 각 단계를 구분한다.
수행부(500)는 데이터셋 내의 결측 지와 이상 치 여부 판별하여 정상 값 또는 정상 범주로 보정하도록 전처리 기능 블록을 추천할 수 있고, 결측 치와 이상 치에 대한 정상 값 또는 정상 범주를 예측하고, 제공할 수 있다.
수행부(500)는 데이터셋, 학습한 분석 모델 및 학습 결과를 분석하고 학습하여 데이터셋과 분석 모델에 적합한 하이퍼파라미터를 추천한다. 예를 들면, 수행부(500)는 입력 데이터셋에 따른 분석 모델의 성능을 높일 수 있는 하이퍼파라미터를 추천할 수 있다.
수행부(500)는 수집부(100)에서 수집한 데이터셋을 분석하여 분석 모델 기능 블록 또는 다음 단계의 기능 블록을 추천할 수 있고, 다수의 추천 기능 블록으로 구성된 템플릿을 추천할 수 있다. 예를 들면, 수행부(500)는 독립변수 분석을 통해 단변량 분석을 하는 경우 회귀 분석 기능 블록을 추천할 수 있고, 다변량의 경우 군집 분석 기능 블록을 추천할 수 있다. 또는 수행부(500)는 종속 변수 종류 판별을 통해 범주형은 카이제곱 테스트 및 로지스틱 회귀 분석 기능 블록을 추천하고, 연속형은 피어슨 상관 분석 및 선형 회귀 분석 기능 블록 등을 추천할 수 있다.
수행부(500)는 데이터가 날짜(date) 타입의 시계열 자료인 경우 변화량을 확인을 위한 히스토그램 시각화 기능 블록 또는 라인그래프 시각화 기능 블록을 추천할 수 있다.
수행부(500)는 기능 블록들을 선택하여 원하는 워크플로우를 생성하거나 제공되는 템플릿을 이용할 수 있다. 또는 수행부(500)는 생성한 워크플로우를 저장하여 동종 또는 유사한 데이터 분석에 재사용할 수 있고, 워크플로우 생성이나 기능 블록 선택 시 참고할 수 있다.
도 9를 참조하면, 수행부(500)는 오류 수정부(510), 성능 향상부(520), 블록 추천부(530), 모델 추천부(540) 및 워크플로우 생성부(550)를 포함한다.
오류 수정부(510)는 전처리된 데이터가 선택된 분석 모델에 적합한지 판단한다. 예를 들면, 전처리된 데이터가 학습 모델에 사용된 데이터와 다른 데이터 타입이거나 학습된 값의 범위를 넘는 이상 치이거나 결측 치가 미처리된 경우 오류가 발생한다. 오류 수정부(510)는 발생된 오류에 대해 매칭되는 정상 값 또는 정상 범주 값을 추천하거나 전처리 기능 블록을 추천할 수 있다.
도 10을 참조하면, 오류 수정부(510)는 입력 값의 메타데이터, 현재 수행중인 블록의 메타데이터 그리고 모델 형성에 사용할 입력 값의 메타데이터와 블록 메타데이터를 포함하는 전체 데이터베이스를 이용한다.
오류 수정부(510)는 입력 값의 메타데이터 필드의 종류로 입력데이터 크기, 입력 필드 수, 데이터타입, 데이터별로 자체 분석된 주요 특징 등을 포함할 수 있다
오류 수정부(510)는 블록 메타데이터 필드의 종류로는 블록 ID, 입력한 파라미터들의 종류와 값, 에러가 발생한 파라미터의 종류와 값 등을 포함할 수 있다.
오류 수정부(510)는 기능 블록 실행 중 에러 발생하면 기능 블록 메타데이터를 수집하고 발생 오류를 수집한다.
오류 수정부(510)는 입력된 데이터 또는 전처리된 데이터가 학습 모델에 사용된 데이터와 상이하거나 학습된 값의 범위가 넘어서는 등의 오류가 발생하는 경우 대체 값을 추천하여 오류를 수정한다. 예를 들면, 오류 수정부(510)는 결측 치 처리에 있어서 기준이 불확실하여 사용자의 판단으로 결측 치를 임의로 대체하여 입력하는 경우 사용자가 임의로 입력한 결측 치가 문제가 없는지 판단할 수 있고, 적정 범위 값의 가이드 라인을 제공할 수 있고, 결측 치에 대한 대체 값을 추천할 수 있다.
도 11을 참조하면, 오류 수정부(510)는 판단부(5101), 학습부(5102) 및 추천부(5103)를 포함한다.
판단부(5101)는 기능 블록 메타데이터와 발생 오류 및 파라미터의 종류와 값 등의 정보를 종합하여 오류가 발생한 지점을 분석 추적할 수 있다.
판단부(5101)는 입력된 데이터가 선택된 분석 모델에 적합한지 판단한다. 또한 판단부(5101)는 전처리된 데이터가 선택된 분석 모델에 적합한지 판단할 수 있다.
판단부(5101)는 전처리된 데이터가 학습 모델에 사용된 데이터와 다른 데이터 타입이거나 학습된 값의 범위를 넘는 이상 치이거나 결측 치가 미처리된 경우 오류로 판단한다. 예를 들면, 판단부(5101)는 SVM, 랜덤 포레스트 등의 분류 알고리즘을 통해 입력된 데이터가 정상인지 비정상인지 판별할 수 있다.
학습부(5102)는 정상 과정과 비정상 과정을 학습한 예측 학습 모델을 통해 정상 과정 매칭을 수행한다. 자세히 설명하면, 학습부 (5102)는 선택한 분석 모델의 정상과정과 오류과정을 학습하여 데이터셋의 정상 값 또는 정상 범주 값을 예측하는 예측 학습 모델을 생성한다. 예를 들면, 예측 학습 모델은 정상 과정과 오류 과정을 학습하여 분류하는 xgboost 학습모델 등 일 수 있다.
학습부(5102)는 정상 범주를 판단하는데 있어 대상 변수의 타입, 데이터셋의 분포, 존재하는 결측 치의 비율, 입력한 결측 지 대체 값, 결측 치 대체 값 처리 시 분석 모델 성능 및 에러 발생 여부 등을 이용할 수 있다.
학습부(5102)는 사용자의 판단으로 입력된 결측 치의 대체 값이 정상 값 또는 정상 범위 내의 값인지 판별한다. 학습부(5102)는 사용자가 입력한 대체 값이 정상 범위에 속하지 않으면 정상 범위의 가이드라인 또는 정상 범위 내의 값 중 어느 하나를 추천 대체 값으로 정하고 추천한다. 이때 학습부(5102)는 사용자가 추천 대체 값을 선택하는 경우, 예측 학습 모델이 데이터로 재학습시켜 데이터의 정상 범위를 판단하는 정확도를 높이는데 이용한다.
학습부 (5102)는 오류가 발생한 데이터를 입력 값으로 하고 예측 학습 모델을 수행하여 오류 값의 정상 값 또는 정상 범주 값을 예측한다.
추천부(5103)는 정상 수행 과정을 학습한 알고리즘에 따라 오류가 발생한 지점의 파라미터의 대체 값을 추천하거나 정상 수행 과정을 매칭한다. 자세히 설명하면, 추천부(5103)는 예측 학습 모델을 통한 예측된 값을 오류 값의 대체 값으로 추천한다. 추천부(5103)는 학습부(5102)가 생성한 예측 학습 모델을 수행하여 결측 치 또는 이상 치에 대한 정상 값, 정상 범위 또는 정상 범위 내 어느 하나의 값을 대체 값으로 자동 수정하거나 추천할 수 있다.
도 12는 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치에서 랜덤 포레스트 분석 모델을 수행할 때 오류 값이 발생한 경우의 예시이다.
도 12의 예시를 참조하면, 판단부(5101)는 입력된 데이터가 이상 치이거나 결측 치 여부를 판단한다. 입력된 데이터가 비정상 값 또는 비정상 범위에 속하는 경우, 학습부(5102)는 랜덤 포레스트 분석 모델 수행 중 발생한 오류 값을 예측 학습 모델을 통해 정상 값 또는 정상 범주의 값을 예측한다. 추천부(5103)는 예측 학습 모델을 통한 예측된 값을 오류 값에 대한 대체 값으로 추천한다.
빅데이터 분석 시각화 장치(10)는 정상 과정과 오류 과정을 학습한 분석 모델을 이용해 오류를 판별하고, 오류 발생 지점 및 오류의 내용을 파악하고, 정상 값 또는 정상 범주를 예측한다. 예를 들면, 판단부(5101)는 오류 정보 파악을 위해 랜덤포레스트, SVM 등과 같은 분류 알고리즘을 이용할 수 있다. 학습부(5102)는 입력 값이 이상 치 또는 결측 치에 해당하면 그 대체 값을 xgboost 알고리즘과 같은 분석 모델을 통해 예측할 수 있다.
다시 도 9를 참조하면, 성능 향상부(520)는 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천한다. 빅데이터 분석에 있어서 하이퍼파라미터의 설정 값에 따라 분석 모델의 성능이 크게 달라지기 때문에 하이퍼파라미터 최적화는 매우 중요한 작업 중 하나이다.
도 13을 참조하면, 성능 향상부(520)는 데이터셋과 분석 모델에 적합한 하이퍼파라미터를 추천한다. 예를 들면, 성능 향상부(520)는 최적의 성능을 도출할 수 있는 하이퍼파라미터를 추천할 수 있다. 성능 향상부(520)는 하이퍼파라미터 교차 검증 알고리즘을 이용해 하이퍼파라미터를 추전하여 분석 모델의 성능 개선을 제안할 수 있다. 성능 향상부(520)는 추천 하이퍼파라미터 값으로 학습을 하였을 때 예측되는 성능 평가 값을 제공할 수 있다.
도 14를 참조하면, 성능 향상부(520)는 입력부(5201), 조정부(5202) 및 성능 비교부(5203)를 포함한다.
입력부(5201)는 분석 모델 구축을 위해 데이터셋 학습/검증 비율을 포함한 하이퍼파라미터를 사용자에게 입력 받는다. 예를 들면, 데이터셋 학습/검증 비율이 필요한 분석 모델은 랜덤 포레스트, 회귀분석, 의사결정나무 및 로지스틱 회귀 분석 등의 모델이다. 입력 가능한 하이퍼파라미터는 독립 종속 변수 설정, 학습/검증 데이터셋 비율, 트리의 수 등을 포함한다. 랜덤 포레스트 분석 모델의 경우 학습 데이터 비율, 모델 성능 검증을 위한 검증 데이터 비율, 트리의 숫자. 트리의 깊이(depth), 각 리프(leaf)의 최소 데이터 개수, 리프가 아닌 노드의 최소 데이터 개수 등을 하이퍼 파라미터로 사용한다. 조정부(5202)는 선택한 분석 모델의 최적의 성능을 위한 하이퍼파라미터의 조정 값을 추천한다. 조정부(5202)는 데이터셋의 종류와 선택된 분석 모델을 분석하여 최적의 조정 값을 추천한다. 조정부(5202)는 하이퍼파라미터 예측 알고리즘을 이용해 직접적인 하이퍼파라미터 조정을 통한 분석 모델 학습을 수행하지 않고, 데이터셋과 분석모델에 적합한 하이퍼파라미터 값을 예측한다. 예를 들면, 조정부(5202)는 저성능 또는 과적합 여부에 따른 데이터 비율을 조정하여 최적의 성능을 도출할 수 있는 하이퍼파라미터의 조정 값을 추천한다. 하이퍼파라미터 알고리즘은 입력 데이터 셋과 수행된 분석 모델과 수행 결과를 분석하고 학습하여 최적의 성능을 도출할 수 있는 하이퍼파라미터를 예측하는 알고리즘이다.
기존의gridsearch, randomsearch 등과 같은 하이퍼파라미터 추적 알고리즘은 연산의 양이 많기 때문에 많은 시간과 비용이 소모된다. 즉, 사용자가 초기 하이퍼파라미터 입력 시 모델 성능 값 지표 확인을 통해 성능을 도출하게 되고, 성능 향상을 위해 반복적으로 검증 데이터셋과 실제 데이터셋의 비율을 조정하고 학습하여 조정 값을 찾는다. 분석 모델의 성능을 높이기 위해서는 하이퍼파라미터 값을 조정하여 원하는 성능이 도출될 때까지 반복 학습해야 하기 때문에 시간과 비용이 소모된다. 하지만 오류 값을 보정하는 빅데이터 분석 시각화 장치(10)는 기존의 데이터셋의 종류, 선택된 분석 모델 및 성능 결과를 학습하여 성능 향상을 위한 하이퍼파라미터 값을 예측하고 추천하므로 시간과 비용을 줄일 수 있다.
조정부(5202)는 이전 모델 대비 성능이 낮을 경우 다른 조정 값 추천을 반복하고, 높을 경우 추천을 중지하고, 미리 설정된 임계 값 이상 도달했을 때에도 추천을 중지한다.
성능 비교부(5203)는 추천 하이퍼파라미터 값으로 학습을 하였을 때 예측되는 성능 평가 값을 제공할 수 있다.
성능 비교부(5203)는 사용자가 입력한 하이퍼파라미터를 적용하였을 때 성능과 최적의 성능을 위한 하이퍼파라미터의 조정 값을 적용하였을 때의 성능을 시각화하여 제공한다. 예를 들면, 성능비교부(5203)는 아웃오브백 오류(out of Bag Error) 그래프, 상관행렬 그래프 및 검증지표의 시각자료로 사용자가 입력한 하이퍼파라미터 값을 분석 모델에 적용하였을 때 결과를 제공할 수 있다. 성능 비교부(5203)가 추천 값을 사용자에게 시각자료로 제공하는 방식으로는 사용자 입력 값과 추천된 조정 값을 같이 표시한 후 아웃오브백 오류(out of Bag Error) 그래프 지표의 전후 변화화면을 표시하여 성능 및 결과 지표의 변화를 표시하여 제공한다.
다시 도9를 참조하면, 블록 추천부(530)는 데이터셋 분석과 현재의 기능 블록 단계 분석을 통해 다음 기능 블록을 추천한다.
블록 추천부(530)는 빅데이터 분석 진행 상에서 다음 단계의 기능 블록을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선할 수 있다.
도 15를 참조하면, 블록 추천부(530)는 입력 데이터셋을 분석하고 지금까지 수행한 기능 블록을 분석하여 유사도가 높은 워크플로우 또는 템플릿을 참고하여 다음 단계의 기능 블록을 추천한다. 예를 들면, 블록 추천부(530)는 독립변수 분석을 통해 단변량 분석을 하는 경우 회귀 분석 기능 블록을 추천할 수 있고, 다변량의 경우 군집 분석 기능 블록을 추천할 수 있다. 또는 블록 추천부(530)는 종속 변수 종류 판별을 통해 범주형은 카이제곱 테스트 및 로지스틱 회귀 분석 기능 블록을 추천하고, 연속형은 피어슨 상관 분석 및 선형 회귀 분석 기능 블록 등을 추천할 수 있다.
블록 추천부(530)는 데이터가 날짜(date) 타입의 시계열 자료인 경우 변화량을 확인을 위한 히스토그램 시각화 기능 블록 또는 라인그래프 시각화 기능 블록을 추천할 수 있다.
블록 추천부(530)는 생성된 워크플로우나 제공된 템플릿의 워크플로우 정보가 저장된 워크플로우 템플릿 빅데이터를 분석에 이용할 수 있다.
도 16을 참조하면, 블록 추천부(530)는 블록 분석부(5301), 데이터셋 분석부(5302). 생성부(5303), 클러스터링부(5304), 유사도 분석부(5305) 및 블록 단계 추천부(5306)를 포함한다.
블록 추천부(530)는 다음 단계의 기능 블록 추천의 요청을 수신하거나 기능 블록 추천이 필요한 상황을 인식할 수 있다.
블록 분석부(5301)는 현 기능 블록의 단계를 세부 구분할 수 있는 블록 분석 알고리즘을 수행한다. 예를 들면, 블록 분석부(5301)는 현 진행 단계를 파악하기 위해 현재의 기능 블록의 메타데이터를 추출한다. 기능 블록 메타데이터는 기능 블록 구분 ID, 파라미터 리스트, 파라미터 입력값 등 기능 블록의 기본 정보를 포함하고, 사용한 기능 블록의 중복검사를 위한 기능 블록 사용내역 리스트를 더 포함할 수 있다.
또한 데이터셋 분석부(5302)는 입력된 데이터셋을 구별하기 위한 데이터셋 분석 알고리즘을 수행한다. 예를 들면, 데이터셋 분석부(5302)는 입력된 데이터셋의 메타데이터를 추출한다. 데이터셋의 메타데이터는 데이터셋의 데이터타입, 데이터 사이즈, 특성의 숫자, 결측 치 여부 및 비율, 이상치 여부 및 비율, 중복데이터 여부 및 비율 등을 포함한다.
생성부(5303)는 블록 분석부(5301)의 결과 값과 데이터셋 분석부(5302)의 결과 값을 취합하여 상세 과정을 구분할 수 있는 상세 단계 분석 메타데이터를 생성한다. 예를 들면, 추출한 현재 기능 블록의 메타데이터와 입력 데이터셋의 메타데이터를 이용해 상세 단계 분석 메타데이터를 생성한다.
클러스터링부(5304)는 상세 단계 분석 메타데이터의 특징 값을 기반으로, 워크플로우 템플릿 빅데이터와 클러스터링한다. 예를 들면, 클러스터링부(5304)는 K-평균(K-MEANS), K-모드(K-MODE), DBSCAN 등의 클러스터링 기법 등을 이용할 수 있다. 워크플로우 템플릿 빅데이터는 생성된 워크플로우나 분석 시나리오로 제공된 템플릿의 워크플로우를 포함한다.
유사도 분석부(5305)는 상세 단계 분석 메타데이터의 특징 값을 기반으로 클러스터링된 워크플로우와 유사도를 분석하여 유사도 값이 높은 상위랭킹의 워크플로우를 추출한다. 예를 들면, 유사도 분석부(5305)는 유클리디안 거리, 맨하튼 거리, 스피어만 상관점수 등의 유사도 분석 기법을 이용하여 유사도를 분석할 수 있다. 유사도 분석부(5305)는 유사도 상위랭킹의 워크플로우들을 추천할 수 있다.
블록 단계 추천부(5306)는 유사도 상위랭킹의 워크플로우들에서 현재 기능 블록의 과정을 검색하고, 상위랭킹 워크플로우들에서 다음 단계에 해당되는 기능 블록을 추천할 수 있다.
다시 도9를 참조하면, 모델 추천부(540)는 입력된 데이터셋으로 가장 적합한 분석 모델을 추천하여 분석을 수행한다. 예를 들면, 모델 추천부(540)는 데이터셋과 분석 모델의 적합성을 점수로 산출하여 기준 이상의 점수를 획득한 분석 모델을 추천할 수 있다.
도 17을 참조하면, 모델 추천부(540)는 입력 데이터셋을 분석하여 적합한 분석 모델을 추천하고, 데이터셋과 추천 분석 모델을 분석하여 워크플로우 또는 템플릿을 추천한다. 자세히 설명하면, 모델 추천부(540)는 분석 모델 추천 알고리즘을 통해 입력 데이터셋에 적합한 분석 모델을 추천한다. 모델 추천부(540)는 모의 평가 점수가 높은 분석 모델들을 추천한다. 모델 추천부(540)는 데이터셋 메타데이터와 분석 모델 메타데이터를 이용해 워크플로우 템플릿 빅데이터와의 유사도를 분석한다. 워크플로우 템플릿 빅데이터는 생성된 워크플로우나 분석 시나리오로 제공된 템플릿의 워크플로우를 포함한다. 모델 추천부(540)는 유사도가 높은 워크플로우를 포함한 템플릿을 추천하여 사용자가 분석 모델 선택할 때 가이드를 제공할 수 있다.
도 18을 참조하면, 모델 추천부(540)는 모의 평가부(5401), 분석 모델 추천부(5402), 유사도 분석부(5403) 및 추천부(5404)를 포함한다.
모의 평가부(5401)는 적합 모델 평가 알고리즘을 수행하여 입력된 데이터셋에 다종의 분석 모델을 모의 적용하고 데이터셋과 분석 모델의 점수를 산출한다. 예를 들면, 모의 평가부(5401)는 랜덤 포레스트, 상관분석, 다층 퍼셉트론, 나이브베이즈, k means 모델 등을 모의 적용하여 AUC 점수를 산출하여 적합 점수를 추출한다.
분석 모델 추천부(5402)는 산출된 점수를 기반으로 상위 n건의 분석 모델 또는 미리 설정된 임계 값 이상의 분석 모델을 추천한다.
유사도 분석부(5403)는 선정된 추천 분석 모델 및 데이터셋 메타데이터를 기반으로 워크플로우 템플릿 빅데이터와의 유사도를 분석한다. 이때 유사도 분석부(5403)는 추천 분석 모델 중 최고 적합 점수를 획득한 모델 또는 사용자가 선택한 분석 모델을 선정하여 워크플로우 템플릿 빅데이터와의 유사도를 산출할 수 있다.
유사도 분석부(5403)는 선정된 추천 분석 모델 및 데이터셋 메타데이터를 기반으로 워크플로 템플릿 빅데이터와의 유사도를 산출할 수 있다.
추천부(5404)는 유사도 분석부(5403)를 통해 유사도가 높은 상위 n개의 워크플로우를 추천할 수 있다.
추천부(5404)는 유사도 분석부(5403)를 통해 유사도가 높은 상위 n개의 워크플로우를 포함하고 있는 템플릿을 추천할 수 있다.
다시 도 9를 참조하면, 워크플로우 생성부(550)는 추천된 블록들로 조합된 워크플로우를 생성한다.
도 19를 참조하면, 워크플로우 생성부(550)는 입력된 데이터와 선택된 기능 블록들을 분석하여 추천된 블록들을 워크플로우 내에 적합한 위치와 순서로 배치한다. 워크플로우 생성부(550)는 추천 블록들이 배치된 워크플로우를 생성하고, 저장하여 제공할 수 있다.
워크플로우 생성부(550)는 워크플로우 작성 정도에 따라 각각의 기능 블록들을 추천하고 배치하여 미완성의 워크플로우를 완성할 수 있다.
워크플로우 생성부(550)는 입력 데이터 셋과 선택된 블록들 기반으로 유사도가 높은 상위 워크플로우를 추출하여 워크플로우 생성에 이용한다. 워크플로우 생성부(550)는 선택된 블록들을 분석하여 실제 진행된 작업 기반의 워크플로우를 생성할 수 있다.
도 20을 참조하면, 워크플로우 생성부(550)는 데이터 추출부(5501), 전처리 추천부(5502), 분석모델 추천부(5503), 시각화 추천부(5504) 및 완성부(5505)를 포함한다.
데이터 추출부(5501)는 데이터셋 분석 알고리즘 및 블록 분석 알고리즘을 이용하는 데이터셋을 분석하고, 블록을 분석한다. 자세히 설명하면, 데이터 추출부(5501)는 데이터셋 분석 알고리즘을 통해 입력된 데이터셋의 데이터셋 메타데이터를 추출하고, 블록 분석 알고리즘을 통해 이미 선택된 블록들의 블록 메타데이터를 추출한다.
전처리 추천부(5502)는 데이터셋 메타데이터를 기반으로 필요한 전처리를 분석한다. 예를 들면, 전처리 추천부(5502)는 이상 치 발견 시 이상 치 처리 블록, 결측 치 발견 시 결측 치 처리 블록, 컬럼수가 불필요하게 많으면 파생변수 블록, PCA 블록들 데이터셋에 필요한 전처리 블록을 추천할 수 있다.
분석모델 추천부(5503)는 블록 메타데이터와 데이터셋 메타데이터를 이용해 분석 모델을 추천한다.
시각화 추천부(5504)는 시각화 추천 알고리즘을 통해 시각화 블록을 추천한다. 예를 들면, 시각화 추천부(5504)는 중복 시각화를 제외하고, 사용 중인 전처리 블록이 이상치 처리 블록이면 박스플롯 또는 산점도 시각화 블록을 추천하고, 데이터셋이 범주형이면 비율 확인을 할 수 있는 파이 차트 시각화 블록을 추천할 수 있다.
완성부(5505)는 추천된 블록들을 배치하고 워크플로우를 완성하여 생성한다. 완성부(5504)는 블록 배치 알고리즘을 통해 유사도가 높은 워크플로우를 추출하여, 각각의 추천 블록들을 배치하고 워크플로우를 생성한다. 블록 배치 알고리즘은 작업 중 워크플로우와 유사도가 높은 상위 n건을 추출하고, 기능 블록의 위치를 파악하여 기능 블록과 그 위치를 추천한다.
도 21 내지 도 31은 본 발명의 일 실시예에 따른 빅데이터 분석 시각화 방법을 설명하기 위한 도면들이다. 이하 설명하는 각 과정은 빅데이터 분석 시각화 장치를 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 빅데이터 분석 시각화 장치로 통칭하도록 한다.
도 21을 참조하면, 단계 S2101에서 빅데이터 분석 시각화 장치(10)는 분석하고자 하는 데이터를 수집한다. 빅데이터 분석 시각화 장치(10)는 다양한 형태의 데이터로부터 분석하려는 데이터를 수집할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 엑셀, TEXT, CSV 형식의 파일을 업로드하여 수집할 수 있다. 또한 빅데이터 분석 시각화 장치(10)는 관계형 데이터베이스에 직접 연결하여 분석하려는 데이터를 수집할 수 있다. 빅데이터 분석 시각화 장치(10)는 직접 데이터를 직접 입력 또는 붙여넣기 하여 바로 생성할 수도 있다. 빅데이터 분석 시각화 장치(10)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
단계 S2102에서 빅데이터 분석 시각화 장치(10)는 수집한 데이터를 원하는 분석 모델에 맞게 전처리한다.
단계 S2103에서 빅데이터 분석 시각화 장치(10)는 분석 모델을 이용해 데이터를 분석한다. 빅데이터 분석 시각화 장치(10)는 데이터셋을 분석하여 분석모델을 추천할 수 있다. 빅데이터 분석 시각화 장치(10)는 데이터셋과 사용하려는 분석 모델을 분석하여 전처리 방식을 추천할 수 있다.
단계 S2104에서 빅데이터 분석 시각화 장치(10)는 분석한 데이터를 시각화하여 표현한다. 빅데이터 분석 시각화 장치(10)는 분석 결과에 적합한 시각화 블록을 추천할 수 있다.
도 22는 본 발명의 일 실시 예에 따른 블록을 추천하는 빅데이터 분석 시각화 장치가 오류 발생 시 오류 지점을 판단하고 정상 값을 추천하는 방법을 설명하기 위한 예시 도면이다.
도 22를 참조하면, 빅데이터 분석 시각화 장치(10)는 분석 모델 기능 블록 수행 중 입력된 파라미터로 인해 오류가 발생하는 경우 정확한 오류 지점을 찾아 값을 수정하여 오류없이 분석 과정을 진행한다.
단계 S2201에서 빅데이터 분석 시각화 장치(10)는 기능 블록의 메타데이터 및 발생 오류의 정보를 수집한다.
단계 S2202에서 빅데이터 분석 시각화 장치(10)는 발생 오류의 정보를 분석하여 오류 발생 지점을 판별한다.
단계 S2203에서 빅데이터 분석 시각화 장치(10)는 블록의 메타데이터, 발생 오류, 파라미터의 종류 및 값 등을 분석하여 데이터 셋과 분석 모델의 매칭이 적합한지 판단한다. 빅데이터 분석 시각화 장치(10)는 데이터 셋과 분석 모델이 매칭되지 않으면 데이터 셋에 적합한 분석 모델을 추천할 수 있다. 자세히 설명하면, 빅데이터 분석 시각화 장치(10)는 정상 분석 모델 수행 과정의 정상 값을 추출하여 선택한 분석 모델과 매칭되지 않으면 정상 값을 추천한다.
단계 S2204에서 빅데이터 분석 시각화 장치(10)는 데이터에서 이상 치 또는 결측 치 여부를 판단한다. 빅데이터 분석 시각화 장치(10)는 입력된 데이터의 이상 치 또는 결측 치로 인한 오류인 경우 정상 값 또는 정상 범위를 추천하고, 자동 적용할 수 있다.
빅데이터 분석 시각화 장치(10)는 오류가 난 지점을 자가 진단하고, 예측한 정상 값으로 대체하여 오류없이 분석을 계속 수행할 수 있다.
도 23은 본 발명의 일시 예에 따른 빅데이터 분석 시각화 장치가 오류를 판별하고 수정하는 예시이다.
도 23을 참조하면, 단계 S2301에서 빅데이터 분석 시각화 장치(10)는 사용자에게 분석하고자 하는 데이터를 입력 받는다.
단계 S2302에서 빅데이터 분석 시각화 장치(10)는 블록을 드래그 앤 드롭하여 새로 작성한 워크플로우, 제공된 워크플로우 템플릿 또는 저장한 워크플로우 중 어느 하나를 이용하여 데이터 분석 워크플로우를 생성한다.
단계 S2303에서 빅데이터 분석 시각화 장치(10)는 오류가 발생하면 오류 DB의 정보를 참조하여 오류 타입을 판별하고 오류 지점을 파악한다. 빅데이터 분석 시각화 장치(10)는 정상 과정과 오류 과정을 학습한 분석 모델을 이용하여 오류 발생 시의 오류 발생 지점과 오류의 내용을 파악한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 오류 정보 파악을 위해 랜덤포레스트, SVM 등과 같은 분류 알고리즘을 이용할 수 있다.
단계 S2304에서 빅데이터 분석 시각화 장치(10)는 오류 값을 예측 학습 모델을 이용해 정상 값 또는 정상 범위 값을 예측한다. 빅데이터 분석 시각화 장치(10)는 입력 값이 이상 치 또는 결측 치에 해당하면 오류 값의 대체 값을 xgboost 알고리즘과 같은 분석 모델을 통해 추천할 수 있다. 오류 값의 대체 값은 오류가 발생하지 않고 빅데이터 분석이 정상적으로 이루어질 수 있는 정상 값 또는 정상 범주일 수 있다.
단계 S2305에서 빅데이터 분석 시각화 장치(10)는 예측 값 즉, 예측 학습 모델의 결과값을 사용자에게 추천한다. 또는 빅데이터 분석 시각화 장치(10)는 자동으로 정상 값 또는 정상 범주를 적용하여 분석을 계속 진행할 수 있다.
단계 S2306에서 빅데이터 분석 시각화 장치(10)는 추천 값을 적용하여 데이터 분석을 수행한다.
도 24는 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 오류 발생시 대체 값을 추천하는 방법을 설명하기 위한 도면이다.
오류 수정부(510)는 입력된 데이터 또는 전처리된 데이터가 학습 모델에 사용된 데이터와 상이하거나 학습된 값의 범위가 넘어서는 등의 오류가 발생하는 경우 대체 값을 추천하여 오류를 수정한다.
도 24를 참조하면, 단계 S2401에서 오류 수정부(510)는 수행한 워크플로우의 정상 값을 기반으로 학습한 학습 모델을 구축한다. 예를 들면, 오류 수정부(510)는 선택한 분석 모델의 정상과정과 오류과정을 학습하여 데이터셋의 정상 값 또는 정상 범주 값을 예측하는 예측 학습 모델을 생성한다.
단계 S2402에서 오류 수정부(510)는 입력된 데이터셋에서 오류가 발생하면 오류 값 정보를 수집하고, 오류 지점을 판별한다.
단계 S2403에서 오류 수정부(510)는 단계 S1501에서 구축한 예측 학습 모델을 수행하여 오류 값의 정상 값 또는 정상 범주 값을 예측한다.
단계 S2404에서 오류 수정부(510)는 예측한 값을 정상 값으로 추천하거나 자동 입력 처리한다.
단계 S2405에서 오류 수정부(510)는 추천된 값이 적용되면 정상 값 또는 정상 범위 값으로 예측 학습 모델에 추가한다.
단계 S2406에서 오류 수정부(510)는 추천된 정상 값 또는 정상 범위 값을 기준으로 사용자가 오류 값을 수정하여 오류를 수정할 수 있도록 지원한다.
도 25는 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 분석 모델의 최적 성능을 도출할 수 있는 하이퍼파라미터를 추천하고 조정하는 방법을 설명하기 위한 도면이다.
도 25를 참조하면, 성능 향상부(520)는 데이터셋과 분석 모델에 적합한 하이퍼파라미터를 추천한다. 예를 들면, 성능 향상부(520)는 최적의 성능을 도출할 수 있는 하이퍼파라미터를 추천하고 조정할 수 있다.
단계 S2501에서 빅데이터 분석 시각화 장치(10)는 분석이 필요한 데이터셋을 입력 받는다.
단계 S2502에서 빅데이터 분석 시각화 장치(10)는 학습/검증 비율과 같은 하이퍼파라미터가 필요한 분석 모델을 선택한다. 예를 들면, 하이퍼파라미터가 필요한 분석 모델에는 랜덤 포레스트, 회귀분석, 의사결정나무, 로지스틱 회귀 분석 모델 등이고, 입력 가능한 하이퍼파라미터는 독립 종속 변수 설정, 학습/검증 데이터셋 비율, 트리의 수 등을 포함한다.
단계 S2503에서 빅데이터 분석 시각화 장치(10)는 사용자가 입력한 하이퍼파라미터로 분석모델을 수행한다.
단계 S2504에서 빅데이터 분석 시각화 장치(10)는 수행한 성능 결과 및 검증 지표를 그래프 또는 도표 등의 시각화하여 확인하고 분석 모델의 성능 개선의 필요성을 판단한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 아웃오브백 오류(out of Bag Error) 그래프, 상관행렬 그래프 및 검증지표의 시각자료로 사용자 입력 하이퍼파라미터 값을 분석 모델에 적용하였을 때 성능 결과를 제공할 수 있다
분석 모델의 성능 개선이 필요한 경우 단계 S2405에서 빅데이터 분석 시각화 장치(10)는 택한 분석 모델의 최적의 성능을 위한 하이퍼파라미터를 추천한다. 빅데이터 분석 시각화 장치(10)는 하이퍼파라미터 예측 알고리즘을 이용해 직접적인 하이퍼파라미터 조정을 통한 분석 모델 학습을 수행하지 않고, 데이터셋과 분석모델에 적합한 하이퍼파라미터 값을 예측한다. 하이퍼파라미터 알고리즘은 입력 데이터 셋과 수행된 분석 모델과 수행 결과를 분석하고 학습하여 최적의 성능을 도출할 수 있는 하이퍼파라미터를 예측하는 알고리즘이다. 빅데이터 분석 시각화 장치(10)는 저성능 또는 과적합 여부에 따른 데이터 비율 조정하여 최적의 성능을 도출할 수 있는 하이퍼파라미터의 조정 값을 추천한다.
단계 S2506에서 빅데이터 분석 시각화 장치(10)는 추천한 조정 값을 적용한 분석 모델의 성능 결과 및 검증 지표와 사용자 입력 하이퍼파라미터를 적용한 분석 모델의 성능 결과 및 검증 지표를 비교하여 변화를 시각화하여 표시한다.
단계 S2507에서 빅데이터 분석 시각화 장치(10)는 분석 모델의 성능 값이 최적이라고 판단되거나 성능 값 목표치에 달성되었다면 분석 모델 및 하이퍼파라미터를 확정하고 하이퍼파라미터 조정작업을 중지한다.
도 26은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 다음 단계의 기능 블록을 추천하는 방법을 설명하기 위한 도면이다.
도 26을 참조하면, 블록 추천부(530)는 데이터셋 분석과 현재의 블록 단계 분석을 통해 다음 기능 블록을 추천한다.
단계 S2601에서 빅데이터 분석 시각화 장치(10)는 데이터 분석 워크플로우를 수행 중 다음 기능 블록의 추천 요청을 수신한다.
단계 S2602에서 빅데이터 분석 시각화 장치(10)는 선택한 기능 블록의 진행 단계를 구분하는 블록 분석 알고리즘을 수행하여 현 기능 블록의 진행 단계를 분석한다.
단계 S2603에서 빅데이터 분석 시각화 장치(10)는 데이터셋 분석 알고리즘을 이용해 입력된 데이터셋을 분석한다.
단계 S2604에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘 결과값과 및 데이터셋 분석 알고리즘 결과 값을 취합하여 상세 과정을 구분할 수 있는 상세 단계 분석 메타데이터를 생성한다.
단계 S2605에서 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터와 기존의 워크플로우 분석 데이터를 기반으로 상세 단계 분석 메타데이터와 워크플로우 분석 데이터의 유사도 분석을 수행한다.
단계 S2606에서 빅데이터 분석 시각화 장치(10)는 유사도 분석에서 상위 랭크된 워크플로우에서 사용된 기능 블록을 추천한다. 다시 설명하면, 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터와 유사도가 높은 워크플로우 분석 데이터를 추출하여 해당 워크플로우 내의 기능 블록을 추천한다.
도 27은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 다음 단계의 기능 블록을 추천하는 예시 화면이다.
도 27을 참조하면, 단계 S2701에서 빅데이터 분석 시각화 장치(10)는 데이터 분석 워크플로우를 수행 중 다음 기능 블록의 추천 요청을 수신한다.
단계 S2702에서 빅데이터 분석 시각화 장치(10)는 선택한 기능 블록의 진행 단계를 구분하는 블록 분석 알고리즘을 수행하여 현 기능 블록의 메타데이터를 추출한다. 예를 들면, 블록 메타데이터는 블록 ID, 파라미터 ID, 파라미터 입력값, 파라미터 리스트 등의 블록 기본 정보와, 이미 사용한 블록의 사용내역 리스트 등을 포함한다.
단계 S2703에서 빅데이터 분석 시각화 장치(10)는 데이터셋 분석 알고리즘을 이용해 입력된 데이터셋의 메타데이터를 추출한다. 예를 들면, 입력된 데이터셋 메타데이터는 데이터 타입, 데이터 사이즈, 특성의 숫자, 결측 지 여부 및 비율, 이상 치 여부 및 비율, 중복 데이터 여부 및 비율 등의 정보를 포함한다.
단계 S2704에서 빅데이터 분석 시각화 장치(10)는 블록 메타데이터 및 데이터셋 메타데이터를 이용하여 상세 단계 분석 메타데이터를 생성한다.
단계 S2705에서 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터의 특징 값으로, 생성된 워크플로우 또는 제공된 템플릿의 워크플로우와 클러스터링 모델을 수행한다. 이때 클러스터링 모델은 k-means(k-평균), k-mode(k-모드), DBSCAN(밀도 기반) 클러스터링 기법 등이 있다.
단계 S2706에서 빅데이터 분석 시각화 장치(10)는 유사도 분석을 통해 클러스터링된 워크플로우 내에서 상세 단계 분석 메타데이터의 특징 값과 유사한 상위랭크 워크플로우를 추출한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 데이터셋 패턴, 지정한 종속변수, 사용 기능 블록, 기능 블록들 간의 연결관계 등의 유사도를 분석할 수 있다. 유사도 분석 모델은 유클리디안 거리, 맨하튼 거리, 스피어만 상관점수의 유사도 분석 기법 등을 이용할 수 있다.
단계 S2707에서 빅데이터 분석 시각화 장치(10)는 유사도 분석에서 상위 랭크된 워크플로우에서 해당 단계에 사용된 기능 블록을 추천한다.
도 28은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 분석 모델을 추천하는 방법을 설명하기 위한 도면이다.
도 28을 참조하면, 모델 추천부(540)는 입력된 데이터셋으로 가장 적합한 분석 모델을 추천하여 분석을 수행한다.
단계 S2801에서 빅데이터 분석 시각화 장치(10)는 분석이 필요한 데이터셋을 입력 받고, 대상 변수 지정 시에 예측 대상값(Y값)을 지정할 수 있다.
단계 S2802에서 빅데이터 분석 시각화 장치(10)는 적합 모델 평가 알고리즘을 수행하여 입력된 데이터셋에 다종의 분석 모델을 모의 적용하고 데이터셋과 분석 모델의 적합 점수를 산출한다.
단계 S2803에서 빅데이터 분석 시각화 장치(10)는 적합 모델 평가 알고리즘을 이용해 산출한 적합 점수가 상위 n개에 해당하는 분석 모델을 추천하거나 최고 적합 점수를 획득한 분석 모델을 워크플로우에 적용한다.
단계 S2804에서 빅데이터 분석 시각화 장치(10)는 데이터셋 메타데이터 및 추천 분석 모델의 블록 메타데이터를 이용해 유사도 분석을 수행한다. 자세히 설명하면, 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘으로 추천 분석 모델의 블록 메타데이터를 분석하고 데이터셋 분석 알고리즘으로 입력 데이터셋 메타데이터를 분석하고 그 결과값들을 취합하여 상세 과정을 구분할 수 있는 상세 단계 분석 메타데이터를 생성한다. 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터와 기존의 워크플로우 분석 데이터를 기반으로 상세 단계 분석 메타데이터와 워크플로우 분석 데이터의 유사도 분석을 수행할 수 있다.
단계 S2805에서 빅데이터 분석 시각화 장치(10)는 유사도가 높은 워크플로우를 기반으로 템플릿을 추천한다.
도 29는 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 분석 모델을 추천하는 예시 화면이다.
도 29를 참조하면, 단계S2901에서 빅데이터 분석 시각화 장치(10)는 데이터셋을 입력 받는다.
단계S2902에서 빅데이터 분석 시각화 장치(10)는 입력 데이터셋을 분석 모델에 모의 적용하여 적합 점수를 산출하는 적합 모델 추천 알고리즘을 수행한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 입력된 데이터셋에 랜덤 포레스트, 상관분석, 다층 퍼셉트론, 나이브베이즈, k-means(k-평균) 모델 등을 모의 적용하여 AUC점수를 산출하고 적합 점수를 산정한다.
단계S2903에서 빅데이터 분석 시각화 장치(10)는 산출된 적합 점수가 상위 n건에 해당하는 분석 모델을 추천한다.
단계S2904에서 빅데이터 분석 시각화 장치(10)는 추천 분석 모델 중 선택된 분석 모델 또는 최상위 AUC 점수를 획득한 분석 모델의 블록을 블록 분석 알고리즘으로 분석하고, 데이터셋 분석 알고리즘을 통해 데이터셋을 분석한다.
단계 S2905에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘 및 데이터셋 분석 알고리즘의 결과 값으로 획득한 블록 메타데이터와 데이터셋 메타데이터를 결합하여 제공된 템플릿의 워크플로우와의 유사도 분석을 수행한다.
단계 S2906에서 빅데이터 분석 시각화 장치(10)는 유사도가 높은 상위 n개의 워크플로우를 포함하는 템플릿을 추천한다.
도 30은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 추천된 블록들로 워크플로우를 생성하는 방법을 설명하기 위한 도면이다.
도 30을 참조하면, 워크플로우 생성부(550)는 추천된 블록들을 워크플로우 내에 적합한 위치에 생성하여 새로운 워크플로우를 생성할 수 있다. 워크플로우 생성부(550)는 생성된 워크플로우를 사용자의 워크플로우로 저장하거나 워크플로우 템플릿으로 저장할 수 있다.
단계 S3001에서 빅데이터 분석 시각화 장치(10)는 워크플로우 작성 중 분석 과정 추천을 요청받는다.
단계 S3002에서 빅데이터 분석 시각화 장치(10)는 입력된 데이터셋 분석 알고리즘을 통해 데이터셋을 분석하여 전처리 블록을 추천한다.
단계 S3003에서 빅데이터 분석 시각화 장치(10)는 작성 중 워크플로우의 블록을 블록 분석 알고리즘을 통해 분석한다.
단계 S3004에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘 및 데이터셋 분석 알고리즘의 결과 값을 이용해 분석 모델의 블록을 추천한다.
단계 S3005에서 빅데이터 분석 시각화 장치(10)는 시각화 추천 알고리즘을 통해 효과적인 시각화에 적합한 시각화 블록을 추천한다.
단계 S3006에서 빅데이터 분석 시각화 장치(10)는 추천된 블록들을 블록 배치 알고리즘을 통해 적합한 위치와 순서에 맞게 연결하여 워크플로우를 생성한다.
도 31은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치가 추천된 블록들로 워크플로우를 생성하는 예시 화면이다.
단계 S3101에서 빅데이터 분석 시각화 장치(10)는 블록과 블록 사이의 분석 과정 추천을 요청받는다. 빅데이터 분석 시각화 장치(10)는 분석 과정 추천을 위해 입력된 데이터셋 및 선택된 기능 블록을 확인한다.
단계 S3102에서 빅데이터 분석 시각화 장치(10)는 입력된 데이터셋을 데이터셋 분석 알고리즘을 통해 데이터셋 메타데이터를 추출한다.
단계 S3103에서 빅데이터 분석 시각화 장치(10)는 데이터셋 메타데이터를 기반으로 필요한 전처리를 분석하여 전처리 블록을 추천한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 이상치 발견 시 이상치 처리 블록, 결측 치 발견 시 결측 치 처리 블록, 컬럼수가 불필요하게 많으면 파생변수 블록, PCA 블록들 데이터셋에 필요한 전처리 블록을 추천할 수 있다.
단계 S3104에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘을 통해 선택된 기능 블록의 블록 메타데이터를 추출한다.
단계 S3105에서 빅데이터 분석 시각화 장치(10)는 블록 메타데이터와 데이터셋 메타데이터를 이용해 분석 모델의 블록을 추천한다.
단계 S3106에서 빅데이터 분석 시각화 장치(10)는 시각화 추천 알고리즘을 통해 시각화 블록을 추천한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 중복 시각화를 제외하고, 사용 중인 전처리 블록이 이상치 처리 블록이면 박스플롯 또는 산점도 시각화 블록을 추천하고, 데이터셋이 범주형이면 비율 확인을 할 수 있는 파이 차트 시각화 블록을 추천할 수 있다.
단계 S3107에서 빅데이터 분석 시각화 장치(10)는 추천된 블록들을 블록 전후 관계 분석 알고리즘을 통해 적합한 위치와 순서로 배치하여 워크플로우를 생성한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 시각화 블록은 연관 블록의 뒤에 배치하고, 전처리 블록은 데이터 입력과 대상 데이터 분석 블록 사이에 배치한다.
도 32 내지 도 36은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치의 예시 화면들이다.
도 32는 빅데이터 분석 시각화 장치(10)가 데이터를 수집하는 예시 화면이다.
도 32를 참조하면, 빅데이터 분석 시각화 장치(10)는 엑셀 파일 형식, CSV 파일 형식, RDS 파일 형식, TXT 파일 형식 및 데이터베이스도 드래그 앤 드롭으로 연결하여 분석하기 원하는 데이터를 수집할 수 있다. 또한 빅데이터 분석 시각화 장치(10)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
도 33은 빅데이터 분석 시각화 장치(10)가 데이터 전처리를 수행한 예시 화면이다.
도 33을 참조하면, 빅데이터 분석 시각화 장치(10는 컬럼 정보를 변경할 수 있고, 전처리를 위한 데이터를 확인할 수 있다.
도 34는 빅데이터 분석 시각화 장치(10)가 분석 모델을 이용해 빅데이터를 분석하는 예시 화면이다.
도 34를 참조하면, 빅데이터 분석 시각화 장치(10)는 하이퍼파라미터 및 대상 변수 값을 지정하여 랜덤포레스트 분석 모델을 이용해 분석하고, 분석 모델의 성능 지표도 확인할 수 있다.
도 35는 빅데이터 분석 시각화 장치(10)가 시각화를 수행한 예시 화면이다.
도 35를 참조하면, 빅데이터 분석 시각화 장치(10)는 웹페이지 조작방식으로 프로그램 코딩없이 빅데이터를 분석하고 그 결과를 시각화할 수 있다.
도 36은 빅데이터 분석 시각화 장치(10)가 사용하는 기능 블록의 예시 화면이다.
도 36을 참조하면, 빅데이터 분석 시각화 장치(10)는 기능 블록을 드래그앤 드롭 또는 클릭하여 선택하고 이동시킬 수 있다. 빅데이터 분석 시각화 장치(10)는 기능 블록을 각 단계별로 색상이 상이하게 표현하고, 요구에 따라 기능 블록의 내부 포인트 또는 외부 포인트를 포함한다. 또한 기능 블록의 내부 포인트 또는 외부 포인트는 상태에 따라 색상이 상이하여 직관적이다. 빅데이터 분석 시각화 장치(10)는 기능 블록 외부 포인트를 블록 파이프라인을 이용해 기능 블록끼리 연결할 수 있다.
상술한 빅데이터 분석 시각화 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
발명의 실시를 위한 형태는 위의 발명의 실시를 위한 최선의 형태에서 함께 기술되었다.
본 발명은 빅데이터 분석 시각화 기술에 관한 것으로, 사용자가 빅데이터 분석 플로우를 직관적으로 쉽게 이해하고, 빅데이터의 형식에 따라 분석 방법을 선택하고, 분석 결과를 표현하기에 적합한 시각화 정보를 추천한다. 따라서 프로그램 언어를 학습하지 않는 사용자도 빅데이터 분석을 쉽게할 수 있으므로 산업상의 이용 가능성이 있다.

Claims (19)

  1. 빅데이터 분석 시각화 장치에 있어서,
    분석하려는 데이터를 수집하는 수집부;
    상기 데이터를 분석 모델에 맞도록 전처리하는 전처리부;
    상기 데이터를 분석 모델로 분석하는 분석부;
    상기 분석 모델을 수행한 결과를 적합한 그래프로 시각화하는 시각화부 및
    상기 데이터를 수집, 전처리, 분석 및 시각화 과정을 기능 블록으로 매칭하여 수행하는 수행부를 포함하는 빅데이터 분석 시각화 장치.
  2. 제1항에 있어서
    상기 수행부는
    상기 데이터의 오류를 판별하고, 정상 값을 추천하는 오류 수정부를 포함하는 빅데이터 분석 시각화 장치.
  3. 제1항에 있어서
    상기 수행부는
    상기 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 성능 향상부를 포함하는 빅데이터 분석 시각화 장치.
  4. 제1항에 있어서
    상기 수행부는
    상기 데이터 및 선택된 기능 블록을 분석하여 기능 블록을 추천하는 블록 추천부를 포함하는 빅데이터 분석 시각화 장치.
  5. 제1항에 있어서
    상기 수행부는
    상기 데이터를 모의 분석하고 평가하여 적합한 분석 모델을 추천하는 모델 추천부를 포함하는 빅데이터 분석 시각화 장치.
  6. 제1항에 있어서
    상기 수행부는
    상기 기능 블록을 추천하고 배치하여 워크플로우를 완성하는 워크플로우 생성부를 포함하는 빅데이터 분석 시각화 장치.
  7. 제1항에 있어서,
    상기 전처리부는
    전처리 과정을 거친 상기 데이터를 파일로 생성하여 제공하는 빅데이터 분석 시각화 장치.
  8. 제1항에 있어서,
    상기 수행부는
    상기 기능 블록을 선택, 배치 및 연결하는 워크플로우를 이용하는 빅데이터 분석 시각화 장치.
  9. 제1항에 있어서,
    데이터셋 분석 시나리오를 템플릿으로 제공하는 빅데이터 분석 시각화 장치.
  10. 빅데이터 분석 시각화 장치가 빅데이터를 분석하는 방법에 있어서
    분석하려는 데이터를 수집하는 단계;
    상기 데이터를 분석 모델에 맞게 전처리하는 단계;
    상기 데이터를 분석 모델을 이용해 분석하는 단계;
    분석한 상기 데이터를 시각화 하는 단계 및
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계를 포함하는 빅데이터 분석 시각화 방법.
  11. 제10항에 있어서,
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 데이터의 오류를 판별하고, 정상 값을 추천하는 단계를 포함하는 빅데이터 분석 시각화 방법.
  12. 제10항에 있어서,
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 단계를 포함하는 빅데이터 분석 시각화 방법.
  13. 제10항에 있어서,
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 데이터 및 선택된 기능 블록을 분석하여 기능 블록을 추천하는 단계를 포함하는 빅데이터 분석 시각화 방법.
  14. 제10항에 있어서,
    상기 데이터를 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 기능 블록을 추천하고 배치하여 워크플로우를 완성하는 분석 모델을 추천하는 단계를 포함하는 빅데이터 분석 시각화 방법.
  15. 제10항에 있어서,
    상기 데이터를 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 기능 블록을 추천하고 배치하여 워크플로우를 완성하는 단계를 포함하는 빅데이터 분석 시각화 방법.
  16. 제10항에 있어서,
    상기 데이터를 분석 모델에 맞게 전처리하는 단계는
    전처리 과정을 거친 상기 데이터를 파일로 생성하여 제공하는 빅데이터 분석 시각화 방법.
  17. 제10항에 있어서,
    상기 기능 블록을 선택, 배치 및 연결하는 워크플로우를 이용하는 빅데이터 분석 시각화 방법.
  18. 제10항에 있어서,
    데이터셋 분석 시나리오를 템플릿으로 제공하는 빅데이터 분석 시각화 방법.
  19. 제10항 내지 제18항 중 어느 하나의 빅데이터 분석 시각화 방법을 실행하는 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.
PCT/KR2022/004539 2022-03-30 2022-03-30 빅데이터 분석 시각화 장치 및 방법 WO2023191136A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/004539 WO2023191136A1 (ko) 2022-03-30 2022-03-30 빅데이터 분석 시각화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/004539 WO2023191136A1 (ko) 2022-03-30 2022-03-30 빅데이터 분석 시각화 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2023191136A1 true WO2023191136A1 (ko) 2023-10-05

Family

ID=88202971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/004539 WO2023191136A1 (ko) 2022-03-30 2022-03-30 빅데이터 분석 시각화 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2023191136A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130254237A1 (en) * 2011-10-04 2013-09-26 International Business Machines Corporation Declarative specification of data integraton workflows for execution on parallel processing platforms
KR101345068B1 (ko) * 2013-06-12 2013-12-26 성결대학교 산학협력단 워크플로우 모델링 및 시뮬레이션 시스템 및 방법
KR101765296B1 (ko) * 2016-06-21 2017-08-04 어니컴 주식회사 사용자 생성 분석수단을 제공하는 데이터 분석도구 제공 장치 및 방법
KR20180121732A (ko) * 2017-04-28 2018-11-08 엔에이치엔엔터테인먼트 주식회사 블록 기반 데이터 분석 방법 및 시스템
KR20210098813A (ko) * 2020-02-03 2021-08-11 아키타입컴퍼니 주식회사 텍스트 데이터 수집과 분석 장치 및 방법
KR20220090358A (ko) * 2020-12-22 2022-06-29 주식회사 씨에스리 빅데이터 분석 시각화 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130254237A1 (en) * 2011-10-04 2013-09-26 International Business Machines Corporation Declarative specification of data integraton workflows for execution on parallel processing platforms
KR101345068B1 (ko) * 2013-06-12 2013-12-26 성결대학교 산학협력단 워크플로우 모델링 및 시뮬레이션 시스템 및 방법
KR101765296B1 (ko) * 2016-06-21 2017-08-04 어니컴 주식회사 사용자 생성 분석수단을 제공하는 데이터 분석도구 제공 장치 및 방법
KR20180121732A (ko) * 2017-04-28 2018-11-08 엔에이치엔엔터테인먼트 주식회사 블록 기반 데이터 분석 방법 및 시스템
KR20210098813A (ko) * 2020-02-03 2021-08-11 아키타입컴퍼니 주식회사 텍스트 데이터 수집과 분석 장치 및 방법
KR20220090358A (ko) * 2020-12-22 2022-06-29 주식회사 씨에스리 빅데이터 분석 시각화 장치 및 방법

Similar Documents

Publication Publication Date Title
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2018092924A1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
WO2018034426A1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
US11380087B2 (en) Data analyzing device
WO2010087566A1 (en) Document analysis system
KR20220090360A (ko) 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법
KR20220090358A (ko) 빅데이터 분석 시각화 장치 및 방법
WO2021040354A1 (ko) 신경망을 이용한 데이터 처리 방법
WO2021034106A1 (ko) 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법
EP3644241B1 (en) Interactive machine learning model development
WO2022255632A1 (ko) Ux-bit를 이용한 자동 디자인 생성 인공신경망 장치 및 방법
WO2023132424A1 (ko) 상관 계수 기반 계층적 이진 군집화와 군집 인덱스 기반 시계열 예측을 이용한 발전량 예측 방법 및 장치
WO2023191136A1 (ko) 빅데이터 분석 시각화 장치 및 방법
KR20220090359A (ko) 오류 값을 보정하는 빅데이터 분석 시각화 장치 및 방법
WO2023191129A1 (ko) 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2022035074A1 (ko) 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템
WO2020091253A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2022158628A1 (ko) 머신러닝 모델에 기반한 디스플레이 패널의 결함 판정 시스템
WO2023163405A1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치
Yu et al. Metarule: A meta-path guided ensemble rule set learning for explainable fraud detection
WO2011068315A4 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2023182713A1 (ko) 인공지능 기반으로 텍스트 및 비-텍스트 이미지를 포함하는 화면 정보를 인지하여 화면 상의 오브젝트에 이벤트를 발생시키는 방법 및 시스템
KR20220090361A (ko) 블록을 추천하는 빅데이터 분석 시각화 장치 및 방법
Zhang et al. Swiftpruner: Reinforced evolutionary pruning for efficient ad relevance
WO2014092360A1 (en) Method for evaluating patents based on complex factors

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935812

Country of ref document: EP

Kind code of ref document: A1