KR20210129986A - Device and method for variable selection using lasso - Google Patents

Device and method for variable selection using lasso Download PDF

Info

Publication number
KR20210129986A
KR20210129986A KR1020200048194A KR20200048194A KR20210129986A KR 20210129986 A KR20210129986 A KR 20210129986A KR 1020200048194 A KR1020200048194 A KR 1020200048194A KR 20200048194 A KR20200048194 A KR 20200048194A KR 20210129986 A KR20210129986 A KR 20210129986A
Authority
KR
South Korea
Prior art keywords
variable
variables
lasso
data
value
Prior art date
Application number
KR1020200048194A
Other languages
Korean (ko)
Other versions
KR102404907B1 (en
Inventor
이진행
조태근
Original Assignee
이진행
조태근
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이진행, 조태근 filed Critical 이진행
Priority to KR1020200048194A priority Critical patent/KR102404907B1/en
Publication of KR20210129986A publication Critical patent/KR20210129986A/en
Application granted granted Critical
Publication of KR102404907B1 publication Critical patent/KR102404907B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

The present invention relates to a device and method for selecting variable using lasso. More specifically, when performing data analysis using a statistical model or machine learning algorithm, it is possible to select a variable used to generate a regression model by combining LASSO and its associated variable selection method. The present invention comprises: a data collection unit; a derived data generation unit; a variable extraction unit; a variable removal method combination unit; and a variable selection unit.

Description

라소를 이용한 변수 선택 장치 및 방법{DEVICE AND METHOD FOR VARIABLE SELECTION USING LASSO}DEVICE AND METHOD FOR VARIABLE SELECTION USING LASSO

본 발명은 라소를 이용한 변수 선택 장치 및 방법에 관한 것으로서, 보다 상세하게는, 통계 모델 또는 머신 러닝 알고리즘을 이용해 데이터 분석을 수행하는 경우 라소(LASSO) 및 이와 연계되는 변수 선별 방법을 조합함으로써, 모델 생성에 이용되는 변수를 선택할 수 있는 라소를 이용한 변수 선택 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for selecting a variable using Lasso, and more particularly, when performing data analysis using a statistical model or a machine learning algorithm, by combining LASSO and a variable selection method associated therewith, the model It relates to an apparatus and method for selecting a variable using a lasso that can select a variable used for generation.

빅데이터 시대가 도래하면서, 다뤄지고 있는 데이터가 기하급수적으로 늘고 있다. 이에 따라 대용량 데이터를 어떻게 효과적으로 처리할 것인가의 연구가 활발하게 진행되고 있다. 고차원 데이터 변수 선택방법(Feature Selection)은 기계학습(machine learning) 및 패턴인식분야에서 중요한 이슈 중 하나로, 원본 데이터에서 가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합을 찾는 방법이다. 이러한 특징 선택 방법은 고차원 데이터 분석 시 반드시 고려해야 될 문제 중 하나이며, 데이터 마이닝(data mining) 분야에서 중요한 분야로 발전했다.With the advent of the big data era, the amount of data being handled is increasing exponentially. Accordingly, research on how to effectively process large amounts of data is being actively conducted. The high-dimensional data variable selection method (Feature Selection) is one of the important issues in machine learning and pattern recognition, and it is a method of finding a subset of data that can show the best performance from the original data. This feature selection method is one of the issues that must be considered when analyzing high-dimensional data, and has developed into an important field in the data mining field.

이러한 데이터 마이닝 및 머신 러닝 방법으로서, 모델 생성을 통한 데이터 분석 방법이 이용되고 있다. 여기에서, 데이터 마이닝 및 머신 러닝 모델은 다양하게 선택되는 변수에 기초하여 생성되는 결과물로서, 해당 모델의 평가 결과가 좋지 않은 경우에는 회귀 재분석을 위해 변수 선택 과정부터 다시 시작되어야 하므로, 가장 적절한 변수를 빠른 시간 내에 선택하는 것이 관건이라고 할 수 있다.As such a data mining and machine learning method, a data analysis method through model generation is used. Here, data mining and machine learning models are results generated based on variously selected variables. If the evaluation results of the models are not good, the process of selecting the variables must be started again for regression reanalysis, so the most appropriate variables are selected. It can be said that it is the key to make a selection within a short time.

이와 관련하여, 통계 모델 중 회귀 모델에서 이용되는 중요 변수 선택 방법론 중 하나로서 라소(LASSO)가 있으며, 상기 라소는 주요하지 않은 변수를 제거함으로써, 회귀 모델의 복잡도를 줄일 수 있는 효과가 있다. 이에 따라, 라소를 데이터 마이닝 및 머신 러닝 과정에 확장 적용하면 상술한 효과를 기대할 수 도 있다.In this regard, there is LASSO as one of the methodologies for selecting important variables used in the regression model among the statistical models, and the LASSO has an effect of reducing the complexity of the regression model by removing the insignificant variables. Accordingly, the above-described effect can be expected when Lasso is extended and applied to data mining and machine learning processes.

그러나, 라소만을 이용하여 회귀 분석을 수행할 경우, 데이터를 표현하는 특징의 수를 감소시키는 효과에 의해 변수가 제거되는 과정에서 유의미한 데이터가 손실될 수 있으며, 이는 회귀 모델의 정확도를 떨어뜨릴 수 있다. 또한, 변수 간의 우선순위를 결정하지 못한다는 점 때문에 회귀 모델 생성 시 상황에 따라 변수를 변경하여 선택하기 어려울 수 있으며, 변수들의 중요도가 전반적으로 비슷하다고 판단되는 경우에는 효과적이지 못하다는 문제점이 있다.However, when regression analysis is performed using only lasso, significant data may be lost in the process of removing variables due to the effect of reducing the number of features representing data, which may decrease the accuracy of the regression model. . In addition, since it is impossible to determine the priority between variables, it may be difficult to select by changing the variables depending on the circumstances when generating a regression model, and there is a problem in that it is not effective when the importance of the variables is determined to be generally similar.

또한, 상기 기재된 내용과 관련된 선행문헌인 한국등록특허 제10-2096035호는 자기회귀 모형 및 L0-패널티가 적용된 변형 그룹 라소(Group Lasso)를 이용하여 기존의 알고리즘 보다 희소하게 변수를 선택할 수 있는 방법 및 이를 수행하는 변수 선택 시스템을 개시하고 있지만, 이는 기존 라소의 방법을 토대로 변수를 조금 더 희소하게 선택하거나 데이터의 처리 시간을 감소시키는 효과를 발생시키는 것으로서, 라소를 이용하는 변수 선택의 근본적인 문제점을 해결하는 것은 아니라고 할 수 있다.In addition, Korea Patent Registration No. 10-2096035, which is a prior document related to the above-described content, is a method that can select variables more sparingly than existing algorithms using an autoregressive model and L0-penalty applied variant group lasso. and a variable selection system for performing this are disclosed, but this solves the fundamental problem of variable selection using Lasso by selecting a variable more sparsely based on the existing method of Lasso or reducing the processing time of data. It can be said that it is not

한국등록특허 제10-2096035호Korean Patent No. 10-2096035

본 발명은 상술한 문제점을 해결하기 위해 고안된 것으로서, 회귀 모델 생성 시 주요 변수를 선별하기 위해 이용되는 변수 제거 방법인 라소 및 라소가 나타내는 단점을 보완하기 위한 다른 변수 제거 방법들을 조합하고, 상기 조합된 변수 제거 방법을 통해 통계 모델 생성 시 이용되는 변수를 적절하게 선택할 수 있는 라소를 이용한 변수 선택 장치 및 방법을 제공하고자 한다.The present invention is devised to solve the above problems, and combines Lasso, which is a variable removal method used to select a major variable when generating a regression model, and other variable removal methods to compensate for the disadvantages of Lasso, and the combined An object of the present invention is to provide a variable selection device and method using lasso that can appropriately select a variable used when generating a statistical model through a variable removal method.

본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 방법은 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 단계, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 단계, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 단계, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 제거 방법을 적어도 두 개 이상 조합하는 단계 및 상기 조합된 변수 제거 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델을 생성할 변수를 최종 선택하는 단계를 포함할 수 있으며, 상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 제거 방법 중 하나가, 라소(LASSO, LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR)를 이용하는 변수 제거 방법으로 구성되는 단계를 포함할 수 있다.The variable selection method using lasso according to an embodiment of the present invention includes collecting and combining structured data and unstructured data that are the basis of statistical analysis, and using the collected structured data and unstructured data for the statistical analysis at least two methods of generating derived data for It may include the step of combining more than one variable and finally selecting a variable for generating a statistical model by removing some variables from all the variables through the combined variable removal method, The combining may include a step in which one of the combined variable removing methods is configured as a variable removing method using a LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR (LASSO).

일 실시예에서, 상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 제거 방법 중 하나를, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 변수 제거 방법으로 구성하는 단계를 포함할 수 있다.In an embodiment, combining at least two or more of the variable removal methods may include applying one of the combined variable removal methods to each of the variables based on an information value (IV, Information Value) value calculated for each variable. The method may include determining the importance of a variable, and configuring the variable as a variable removal method of selecting a variable to be removed based on the determined importance.

일 실시예에서, 상기 변수 각각에 대해서 산출되는 정보 가치값에 기초하여 상기 각 변수 각각에 대한 중요도를 결정하는 단계는 하기 수학식 1에 의해 산출되는 값을 상기 정보 가치값으로 결정하는 단계를 포함할 수 있다.In an embodiment, determining the importance for each of the variables based on the information value calculated for each of the variables includes determining the value calculated by Equation 1 below as the information value can do.

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

(여기에서, IV는 정보 가치값이고,

Figure pat00002
는 비발생 사건의 백분율값이며,
Figure pat00003
는 발생 사건의 백분율값임)(where IV is the information value,
Figure pat00002
is the percentage of non-occurring events,
Figure pat00003
is the percentage value of the occurrence)

일 실시예에서, 상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 제거 방법 중 하나를, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선택하는 변수 제거 방법으로 구성하는 단계를 포함할 수 있다.In one embodiment, combining at least two or more of the variable removal methods includes selecting a variable to be removed by classifying the variable through machine learning using a decision tree, one of the combined variable removal methods. It may include the step of configuring the variable removal method.

일 실시예에서, 상기 결정 트리를 이용하는 머신 러닝을 통해 변수를 분류하는 단계는 변수의 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류하는 단계를 포함할 수 있다.In an embodiment, classifying the variable through machine learning using the decision tree may include classifying each variable based on a feature importance of the variable.

일 실시예에서, 상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 제거 방법 중 하나를, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 변수 제거 방법으로 구성하는 단계를 포함할 수 있다.In an embodiment, combining at least two or more of the variable removing methods comprises configuring one of the combined variable removing methods as a variable removing method of sequentially selecting the variable determined to be important using variance may include.

일 실시예에서, 상기 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 단계는 제공되는 변수를 이용하여 회귀 모델을 생성하는 단계 및 상기 생성된 회귀 모델의 예측값과 실제값을 비교하고, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 단계를 포함할 수 있다.In one embodiment, the step of sequentially selecting the variable determined to be important using the variance comprises generating a regression model using the provided variable and comparing the predicted value and the actual value of the generated regression model, The method may include sequentially selecting a variable having the smallest difference between the predicted value and the actual value.

일 실시예에서, 상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 제거 방법 중 하나를, 선형 회귀분석을 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 변수 제거 방법으로 구성하는 단계를 포함할 수 있다.In an embodiment, the combining of at least two or more of the variable removing methods comprises measuring a residual for each variable by performing a linear regression analysis on one of the combined variable removing methods, and the residual is equal to or greater than a predetermined value. It may include configuring the variable removal method to remove the variable.

본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치는 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 데이터 수집부, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 파생 데이터 생성부, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 변수 추출부, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 제거 방법을 적어도 두 개 이상 조합하는 변수 제거 방법 조합부 및 상기 조합된 변수 제거 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택하는 변수 선택부를 포함하되, 상기 변수 제거 방법 조합부는 상기 조합되는 변수 제거 방법 중 하나를 라소(LASSO, LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR)를 이용하는 변수 제거 방법으로 구성할 수 있다.A variable selection device using lasso according to an embodiment of the present invention includes a data collection unit that collects and aggregates structured data and unstructured data, which are the basis of statistical analysis, and the statistical analysis based on the collected structured data and unstructured data. Derived data generating unit for generating derived data for use, variable extracting unit for extracting all variables used for generating a statistical model based on the generated derived data, and selecting variables determined to be important among the extracted total variables a variable removal method combining unit that combines at least two or more variable removal methods for However, the variable removal method combination unit may configure one of the combined variable removal methods as a variable removal method using a LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR (LASSO).

본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치 및 방법은 라소 및 라소와 조합되는 변수 제거 방법을 이용함으로써, 기존 라소만을 이용하는 방법보다 더 주요한 변수만을 선별하여 통계 모델을 생성할 수 있는 효과가 있다.The apparatus and method for selecting a variable using lasso according to an embodiment of the present invention uses a method of removing variables combined with lasso and lasso, so that a statistical model can be generated by selecting only more important variables than the existing method using only lasso. there is

본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치 및 방법은 라소 및 라소와 조합되는 변수 제거 방법을 이용하여 각 변수에 대한 중요도를 판단할 수 있으므로, 변수 간의 우선순위를 용이하게 결정할 수 있으며, 결정된 우선순위를 토대로 통계 모델 생성에 이용할 변수의 개수를 유동적으로 선택하여 조절할 수 있는 효과가 있다.The apparatus and method for selecting a variable using lasso according to an embodiment of the present invention can determine the importance of each variable by using the variable removal method combined with lasso and lasso, so that it is possible to easily determine the priority between the variables, , there is an effect of flexibly selecting and controlling the number of variables to be used for statistical model generation based on the determined priority.

도 1은 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 방법을 통해 회귀 모델을 생성할 변수를 선택하게 되는 과정을 설명하기 위한 도면이다.
도 3 내지 도 6은 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 방법을 통해 조합될 수 있는 변수 제거 방법 및 조합된 변수 제거 방법을 통해 변수를 제거하는 과정을 설명하기 위한 도면이다.
1 is a block diagram showing the configuration of a variable selection device using a lasso according to an embodiment of the present invention.
FIG. 2 is a diagram for explaining a process of selecting a variable for generating a regression model through a method of selecting a variable using a lasso according to an embodiment of the present invention.
3 to 6 are diagrams for explaining a method for removing a variable that can be combined through a method for selecting a variable using a lasso and a process for removing a variable through a method for removing a combined variable according to an embodiment of the present invention.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.The present invention will be described in detail with reference to the accompanying drawings as follows. Here, repeated descriptions, well-known functions that may unnecessarily obscure the gist of the present invention, and detailed descriptions of configurations will be omitted. The embodiments of the present invention are provided in order to more completely explain the present invention to those of ordinary skill in the art. Accordingly, the shapes and sizes of elements in the drawings may be exaggerated for clearer description.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated.

또한, 명세서에 기재된 "...부"의 용어는 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, the term "...unit" described in the specification means a unit for processing one or more functions or operations, which may be implemented as hardware or software or a combination of hardware and software.

도 1은 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치의 구성을 도시한 블록도이다.1 is a block diagram showing the configuration of a variable selection device using a lasso according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치(100)는 통계 분석을 위한 통계 모델 생성에 이용되는 변수를 선택하는 장치로서, 데이터 수집부(110), 파생 데이터 생성부(120), 변수 추출부(130), 변수 제거 방법 조합부(140) 및 변수 선택부(150)를 포함하여 구성될 수 있다.Referring to FIG. 1 , an apparatus 100 for selecting a variable using a lasso according to an embodiment of the present invention is an apparatus for selecting a variable used for generating a statistical model for statistical analysis, and includes a data collection unit 110 and derived data. It may be configured to include a generating unit 120 , a variable extracting unit 130 , a variable removing method combining unit 140 , and a variable selecting unit 150 .

도 1에 도시된 라소를 이용한 변수 선택 장치(100)의 구성은 일 실시예에 따른 것이고, 그 구성요소들이 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 일부 구성요소가 부가, 변경 또는 삭제될 수 있다.The configuration of the variable selection device 100 using the lasso shown in FIG. 1 is according to an embodiment, and the components are not limited to the embodiment shown in FIG. 1, and some components are added as necessary, may be changed or deleted.

데이터 수집부(110)는 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합할 수 있다.The data collection unit 110 may collect and collect structured data and unstructured data that are the basis of statistical analysis.

여기에서, 정형 데이터는 형태가 있으며 연산 가능한 데이터를 의미할 수 있으며, 비정형 데이터는 형태가 없고 연산 가능하지 않은 데이터를 의미할 수 있다. 예를 들어, 비정형 데이터는 텍스트, 영상, 음성 등의 형태로 나타내는 데이터를 포함할 수 있다.Here, the structured data may mean data that has a shape and can be calculated, and the unstructured data has no shape and can mean data that is not operable. For example, the unstructured data may include data represented in the form of text, image, voice, or the like.

파생 데이터 생성부(120)는 데이터 수집부(110)에서 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성할 수 있다.The derived data generator 120 may generate derived data for use in the statistical analysis based on the structured data and the unstructured data collected by the data collector 110 .

여기에서, 상술한 비정형 데이터의 경우에는 데이터의 구성을 통계치 또는 그래프 등의 방식으로 표현하는 과정을 통해 정형화될 수 있으며, 정형화된 데이터를 토대로 통계 분석에 이용하기 위한 파생 데이터가 생성될 수 있다.Here, in the case of the above-described unstructured data, the data structure may be standardized through a process of expressing the data structure in a statistical value or a graph manner, and derived data for use in statistical analysis may be generated based on the standardized data.

변수 추출부(130)는 파생 데이터 생성부(120)에서 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출할 수 있다.The variable extracting unit 130 may extract all variables used for generating a statistical model based on the derived data generated by the derived data generating unit 120 .

여기에서, 추출된 전체 변수는 통계 분석을 위해 모두 사용되지 않는 것이 일반적이며, 다양한 변수 선택 방법론에 따라 선택되는 변수만으로 통계 모델을 생성함으로써, 통계 분석을 수행하게 된다. 통계 분석은 선택 또는 입력되는 변수를 이용하여 예측하려는 변수의 실제값과 가장 근접하는 예측값을 도출해내는 통계 모델을 생성하는 것을 목표로 할 수 있으며, 기본적으로 입력 변수를 하나씩 추가 또는 삭제하여 타겟 변수를 설명하는 정도를 측정하는 방법, 입력 변수를 하나씩 추가해보는 방법, 및 전체 입력 변수 중 하나씩 소거해보는 방법 등을 사용할 수 있다.Here, it is common that all extracted variables are not used for statistical analysis, and statistical analysis is performed by generating a statistical model only with variables selected according to various variable selection methodologies. Statistical analysis can aim to create a statistical model that derives the predicted value closest to the actual value of the variable to be predicted using the selected or input variable. Basically, the target variable is selected by adding or deleting input variables one by one. A method of measuring the degree of explanation, a method of adding input variables one by one, and a method of eliminating one of all input variables can be used.

변수 제거 방법 조합부(140)는 변수 추출부(130)에서 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 제거 방법을 적어도 두 개 이상 조합할 수 있다.The variable removal method combination unit 140 may combine at least two or more variable removal methods for selecting a variable determined to be important among all the variables extracted by the variable extraction unit 130 .

여기에서, 본 발명의 바람직한 실시예에 따르면 변수 제거 방법 조합부(140)는 상기 적어도 두 개 이상 조합되는 변수 제거 방법 중 하나를, 라소(LASSO, LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR)를 이용하는 변수 제거 방법으로 구성할 수 있다.Here, according to a preferred embodiment of the present invention, the variable removing method combining unit 140 uses one of the variable removing methods that are combined with at least two or more, as a variable removing method using LASSO (LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR). configurable.

여기에서, 상기 라소를 이용하는 변수 제거 방법은, 통계 모델 생성 시 선택되지 않은 변수의 계수를 0으로 만들어 제외시킴으로써, 불필요하다고 판단되는 특징을 포함시키지 않을 수 있다.Here, the variable removal method using the lasso may not include features determined to be unnecessary by excluding coefficients of variables that are not selected when generating the statistical model by making them 0.

또한, 상술한 라소를 이용하는 변수 제거 방법과 조합될 수 있는 다른 변수 제거 방법에 대해서는 아래에 설명하고자 한다.In addition, another variable removing method that can be combined with the above-described variable removing method using lasso will be described below.

본 발명의 바람직한 실시예에 따르면 라소를 이용하는 변수 제거 방법과 조합될 수 있는 변수 제거 방법으로서, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 방법이 있을 수 있다. 상기 정보 가치값에 기초하여 각 변수에 대한 중요도를 결정하는 방법은 예를 들면, 0이상에서 0.02미만의 정보 가치값을 갖는 변수는 중요도 없음으로, 0.02이상에서 0.1미만의 정보 가치값을 갖는 변수는 중요도 낮음으로, 0.1이상에서 0.3미만의 정보 가치값을 갖는 변수는 중요도 중간으로, 0.3이상에서 0.5미만의 정보 가치값을 갖는 변수는 중요도 높음으로, 0.5이상에서 1까지의 정보 가치값을 갖는 변수는 중요도 매우 높음으로 결정할 수 있다.According to a preferred embodiment of the present invention, as a variable removing method that can be combined with a variable removing method using lasso, the importance of each variable is determined based on the information value (IV) value calculated for each variable. And, there may be a method of selecting a variable to be removed based on the determined importance. The method of determining the importance of each variable based on the information value is, for example, a variable having an information value of 0 or more and less than 0.02 is not important, and a variable having an information value of 0.02 or more and less than 0.1. is of low importance, variables with an information value of 0.1 to less than 0.3 as medium importance, and variables with an information value of 0.3 to less than 0.5 as high importance, with information values ranging from 0.5 to 1. A variable can be determined to have very high importance.

또한, 상기 정보 가치값은 하기 수학식 1에 의해 산출되는 값으로 결정될 수 있다.Also, the information value may be determined as a value calculated by Equation 1 below.

[수학식 1][Equation 1]

Figure pat00004
Figure pat00004

(여기에서, IV는 정보 가치값이고,

Figure pat00005
는 비발생 사건의 백분율값이며,
Figure pat00006
는 발생 사건의 백분율값임)(where IV is the information value,
Figure pat00005
is the percentage of non-occurring events,
Figure pat00006
is the percentage value of the occurrence)

또한, 상술한 정보 가치값을 이용하는 변수 제거 방법은 예측하려는 대상이 구매 여부 등과 같이 발생 사건 또는 비발생 사건(이진법에서의 1 또는 0)으로 구분될 수 있는 경우에서 사용될 수 있다.In addition, the variable removal method using the above-described information value can be used when the object to be predicted can be divided into an occurrence event or a non-occurrence event (1 or 0 in the binary system), such as whether a purchase is made or the like.

이어서, 본 발명의 바람직한 실시예에 따르면 따르면 라소를 이용하는 변수 제거 방법과 조합될 수 있는 변수 제거 방법으로서, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선택하는 방법이 있을 수 있다.Next, according to a preferred embodiment of the present invention, as a variable removal method that can be combined with a variable removal method using lasso, a method of selecting a variable to be removed by classifying the variable through machine learning using a decision tree This can be.

여기에서, 상기 결정 트리를 이용하는 변수 분류 방법은 변수가 나타내는 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류할 수 있다.Here, the variable classification method using the decision tree may classify each variable based on a feature importance indicated by the variable.

또한, 본 발명의 바람직한 실시예에 따르면 상기 결정 트리 계열의 모델에 포함되는 엑스트라 트리(Extra-Tree) 또는 랜덤 포레스트(Random Forest) 등 의사결정나무(Classification and Regression Tree, CART) 계열 모델들을 이용하여 변수를 분류할 수 있다.In addition, according to a preferred embodiment of the present invention, the decision tree (Classification and Regression Tree, CART) series models such as Extra-Tree or Random Forest included in the decision tree series model are used. Variables can be classified.

또한, 상술한 특성 중요도를 이용하는 변수 제거 방법은 예측하려는 대상이 구매 여부 등과 같이 발생 사건 또는 비발생 사건(이진법에서의 1 또는 0)으로 구분될 수 있는 경우에서 사용될 수 있다.In addition, the variable removal method using the above-described characteristic importance may be used in a case in which the object to be predicted can be divided into an occurrence event or a non-occurrence event (1 or 0 in binary), such as whether or not a purchase is made.

이어서, 본 발명의 바람직한 실시예에 따르면 라소를 이용하는 변수 제거 방법과 조합될 수 있는 변수 제거 방법으로서, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 방법이 있을 수 있다.Next, according to a preferred embodiment of the present invention, as a variable removal method that can be combined with a variable removal method using lasso, there may be a method of sequentially selecting the variables determined to be important using variance.

여기에서, 상기 분산을 이용한 변수 선택 방법은 먼저 제공되는 변수를 이용하여 통계 모델을 생성한 다음, 생성된 통계 모델의 예측값과 실제값을 비교했을 때, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 방법으로 구성될 수 있다.Here, in the variable selection method using the variance, a statistical model is first generated using the provided variables, and then, when the predicted value and the actual value of the generated statistical model are compared, the variable with the smallest difference between the predicted value and the actual value It can be configured by a method of sequentially selecting from

또한, 상술한 분산을 이용하는 변수 제거 방법은 예측하려는 대상이 주식 가격 또는 매출 등과 같이 연속되는 숫자로 표현되는 분야인 경우 사용될 수 있다.In addition, the variable removal method using the above-described variance may be used when the target to be predicted is a field expressed as a continuous number, such as stock price or sales.

이어서, 본 발명의 바람직한 실시예에 따르면 라소를 이용하는 변수 제거 방법과 조합될 수 있는 변수 제거 방법으로서, 선형 회귀분석을 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 방법이 있을 수 있다.Next, according to a preferred embodiment of the present invention, as a variable removal method that can be combined with a variable removal method using lasso, a linear regression analysis is performed to measure the residuals for each variable, and a variable whose residual is greater than or equal to a predetermined value is selected. There may be a way to remove it.

여기에서, 상기 선형 회귀분석은 제공되는 변수 중 임의의 변수를 입력값으로 설정하고, 예측하고자 하는 변수를 예측값으로 설정하여 수행할 수 있다. 예를 들어, 상술한 입력값(x)이 로그의 진수에 위치하도록 설정하고, 예측값(y)과의 관계를 분석하는 선형 회귀분석을 수행할 수 있다. 이 때, 수행되는 회귀분석을 통해 도출되는 예측값(y)과 실제값의 잔차를 측정하고, 잔차가 가장 큰 변수부터 순차적으로 제거하거나 또는 소정의 값 이상의 잔차가 나타나는 변수를 모두 제거하는 방법 등을 통해 주요하지 않은 것으로 판단되는 변수를 제거할 수 있다.Here, the linear regression analysis may be performed by setting an arbitrary variable among provided variables as an input value and setting a variable to be predicted as a predicted value. For example, linear regression analysis may be performed in which the aforementioned input value (x) is set to be located in a logarithmic base, and a relationship with the predicted value (y) is analyzed. At this time, the method of measuring the residual between the predicted value (y) and the actual value derived through the regression analysis performed, and removing sequentially from the variable with the largest residual or removing all variables with residuals greater than or equal to a predetermined value, etc. It is possible to remove variables that are judged to be insignificant.

또한, 상술한 선형 회귀분석을 이용하는 변수 제거 방법은 예측하려는 대상이 주식 가격 또는 매출 등과 같이 연속되는 숫자로 표현되는 분야인 경우 사용될 수 있다.In addition, the variable removal method using the above-described linear regression analysis may be used when an object to be predicted is a field expressed as a continuous number, such as stock price or sales.

상술한 바를 참조하면, 본 발명의 바람직한 실시예로서 라소와 정보 가치값을 이용한 변수 제거 방법의 조합, 라소와 결정 트리를 이용한 변수 제거 방법의 조합, 라소와 분산을 이용한 변수 제거 방법의 조합 및 라소와 선형 회귀분석을 이용한 변수 제거 방법의 조합이 제시될 수 있다.Referring to the above, as a preferred embodiment of the present invention, a combination of lasso and a variable removal method using information value values, a combination of lasso and a variable removal method using a decision tree, a combination of lasso and a variable removal method using variance, and lasso and a combination of variable removal methods using linear regression analysis can be presented.

한편, 본 발명의 일 실시예에 따른 변수 제거 방법의 조합이 상술된 조합에 한정되는 것은 아니며, 통계 모델의 정확도를 향상시키기 위한 목적 등으로 인해 세 개 이상의 변수 제거 방법들이 조합될 수 있다. 또한, 상기 언급된 바와 같이 조합되는 변수 제거 방법들의 변수 제거 순서가 고정되어 있는 것은 아니다. 예를 들어, 라소와 정보 가치값을 이용한 변수 제거 방법의 조합의 경우에서, 라소를 이용한 변수 제거 방법을 먼저 적용하여 일부 변수를 제거한 다음 정보 가치값을 이용한 변수 제거 방법을 적용하여 다시 일부 변수를 제거함으로써 최종적으로 통계 모델 생성에 이용할 변수를 선별할 수 있으며, 정보 가치값을 이용한 변수 제거 방법을 먼저 적용하여 일부 변수를 제거한 다음 라소를 이용한 변수 제거 방법을 적용하여 다시 일부 변수를 제거함으로써 최종적으로 통계 모델 생성에 이용할 변수를 선별할 수 있다.Meanwhile, the combination of the variable removal methods according to an embodiment of the present invention is not limited to the above-described combination, and three or more variable removal methods may be combined for the purpose of improving the accuracy of the statistical model. In addition, as mentioned above, the variable removal order of the variable removal methods combined is not fixed. For example, in the case of a combination of lasso and the variable removal method using the information value, some variables are removed by first applying the variable removal method using the lasso, and then some variables are again reduced by applying the variable removal method using the information value. By removing it, variables to be used for statistical model generation can be finally selected, and some variables are removed by first applying the variable removal method using the information value, and then finally some variables are removed by applying the variable removal method using lasso. Variables to be used for generating statistical models can be selected.

변수 선택부(150)는 변수 제거 방법 조합부(140)에서 조합된 변수 제거 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택할 수 있다.The variable selection unit 150 may finally select a variable for generating a statistical model by removing some of the total variables through the variable removing method combined in the variable removing method combining unit 140 .

정리하면, 상술한 변수 제거 방법들의 조합에 대한 실시예를 통해 추출된 전체 변수 중 일부 변수가 제거될 수 있으며, 제거되지 않은 변수들이 선택되어 통계 모델 생성에 이용될 수 있다.In summary, some of the total variables extracted through the embodiment of the combination of the above-described variable removal methods may be removed, and non-removed variables may be selected and used to generate a statistical model.

다음으로는, 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 방법을 순서대로 설명하고자 한다.Next, a method for selecting a variable using a lasso according to an embodiment of the present invention will be described in order.

도 2는 본 발명의 일 실시예에 따른 라소를 이용한 변수 선택 장치를 통해 통계 모델 생성에 이용할 변수를 선택하는 방법을 설명하기 위한 순서도이다.2 is a flowchart illustrating a method of selecting a variable to be used for generating a statistical model through a variable selection apparatus using a lasso according to an embodiment of the present invention.

도 2를 참조하면, 먼저 통계 분석이 이루어지기 위한 기초가 되는 정형 데이터 및 비정형 데이터가 수집되어 취합되어야 하며, 이러한 취합된 데이터를 이용하기 위해서는 파생 데이터가 생성되어야 한다(S101).Referring to FIG. 2 , structured data and unstructured data, which are the basis for statistical analysis, must first be collected and aggregated, and derived data must be generated in order to use the collected data ( S101 ).

다음으로, 파생 데이터가 생성되면 상기 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출할 수 있다(S102).Next, when the derived data is generated, all variables used for generating a statistical model may be extracted based on the derived data ( S102 ).

다음으로, 통계 모델을 생성하기 위해 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하는 작업이 필요하며, 변수 선별을 위해 주요하지 않은 변수를 제거하기 위한 변수 제거 방법들이 조합되어 사용될 수 있다(S103).Next, in order to generate a statistical model, it is necessary to select a variable determined to be significant among all extracted variables, and variable removal methods for removing non-significant variables for variable selection may be combined and used (S103). ).

다음으로, 본 발명의 일 실시예에 따라 조합되는 변수 제거 방법들을 통해 상기 추출된 전체 변수 중 일부 변수가 제거될 수 있으며, 변수 제거 방법들의 조합은 본 발명의 일 실시예로서 한정되는 것은 아니다(S104).Next, some of the extracted total variables may be removed through the variable removal methods combined according to an embodiment of the present invention, and the combination of the variable removal methods is not limited as an embodiment of the present invention ( S104).

다음으로, 조합된 변수 제거 방법을 통해 제거되지 않은 변수 전체 또는 일부를 선택하여 통계 모델을 생성할 수 있다(S105).Next, a statistical model may be generated by selecting all or some of the variables that are not removed through the combined variable removal method ( S105 ).

도 3 내지 도 6은 본 발명의 바람직한 실시예에 따라 조합되는 변수 제거 방법들을 이용하여 일부 변수를 제거하고, 통계 모델을 생성할 변수를 최종 선택하게 되는 과정을 나타내는 순서도이다.3 to 6 are flowcharts illustrating a process of removing some variables using combined variable removal methods according to a preferred embodiment of the present invention, and finally selecting a variable for generating a statistical model.

도 3 내지 도 6에 나타나는 라소를 이용한 변수 선택 과정은 대부분 서로 동일하나 본 발명의 실시예에 따라 라소와 조합되는 변수 제거 방법(S203, S303, S403 및 S503)서로 다르게 제시되었다.Although most of the variable selection processes using lasso shown in FIGS. 3 to 6 are the same, the variable removal methods ( S203 , S303 , S403 and S503 ) combined with lasso according to an embodiment of the present invention are presented differently.

전술한 라소를 이용한 변수 선택 방법은 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.The variable selection method using the aforementioned lasso has been described with reference to the flowchart shown in the drawings. For the sake of simplicity, the method has been shown and described as a series of blocks, but the invention is not limited to the order of the blocks, and some blocks may occur with other blocks in a different order or at the same time as shown and described herein. Also, various other branches, flow paths, and orders of blocks may be implemented that achieve the same or similar result. Also, not all illustrated blocks may be required for implementation of the methods described herein.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art can variously modify and change the present invention within the scope without departing from the spirit and scope of the present invention as set forth in the claims below. You will understand that it can be done.

100: 라소를 이용한 변수 선택 장치
110: 데이터 수집부
120: 파생 데이터 생성부
130: 변수 추출부
140: 변수 제거 방법 조합부
150: 변수 선택부
100: Variable selection device using lasso
110: data collection unit
120: Derived data generation unit
130: variable extraction unit
140: variable removal method combination unit
150: variable selection unit

Claims (9)

통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 단계;
상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 단계;
상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 단계;
상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 제거 방법을 적어도 두 개 이상 조합하는 단계; 및
상기 조합된 변수 제거 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 위해 사용할 변수를 최종 선택하는 단계;를 포함하되,
상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 제거 방법 중 하나를 라소(LASSO, LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR)를 이용하는 변수 제거 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
Collecting and collecting structured data and unstructured data that are the basis of statistical analysis;
generating derived data for use in the statistical analysis based on the aggregated structured data and unstructured data;
extracting all variables used for generating a statistical model based on the generated derived data;
combining at least two or more variable removal methods for selecting a variable determined to be important among all the extracted variables; and
Final selection of variables to be used for statistical model generation by removing some of the total variables through the combined variable removal method;
Combining at least two or more of the variable removal methods comprises:
Constructing one of the combined variable removal methods as a variable removal method using LASSO (LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR);
How to select variables using lasso.
제1항에 있어서,
상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 제거 방법 중 하나를, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 변수 제거 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
According to claim 1,
Combining at least two or more of the variable removal methods comprises:
In one of the combined variable removal methods, a variable for determining the importance of each variable based on an information value (IV, Information Value) value calculated for each variable, and selecting a variable to be removed based on the determined importance Comprising the removal method; characterized in that it comprises,
How to select variables using lasso.
제2항에 있어서,
상기 변수 각각에 대해서 산출되는 정보 가치값에 기초하여 상기 각 변수 각각에 대한 중요도를 결정하는 단계는,
하기 수학식 1에 의해 산출되는 값을 상기 정보 가치값으로 결정하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.

[수학식 1]
Figure pat00007

(여기에서, IV는 정보 가치값이고,
Figure pat00008
는 비발생 사건의 백분율값이며,
Figure pat00009
는 발생 사건의 백분율값임)
3. The method of claim 2,
Determining the importance for each of the variables based on the information value calculated for each of the variables comprises:
Determining the value calculated by the following Equation 1 as the information value value; characterized in that it comprises,
How to select variables using lasso.

[Equation 1]
Figure pat00007

(where IV is the information value,
Figure pat00008
is the percentage of non-occurring events,
Figure pat00009
is the percentage value of the occurrence)
제1항에 있어서,
상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 제거 방법 중 하나를, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선택하는 변수 제거 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
According to claim 1,
Combining at least two or more of the variable removal methods comprises:
Constructing one of the combined variable removal methods as a variable removal method of selecting a variable to be removed by classifying the variable through machine learning using a decision tree;
How to select variables using lasso.
제4항에 있어서,
상기 결정 트리를 이용하는 머신 러닝을 통해 변수를 분류하는 단계는,
변수의 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
5. The method of claim 4,
Classifying variables through machine learning using the decision tree includes:
Classifying each variable based on the feature importance (Feature Importance) of the variable; characterized in that it comprises,
How to select variables using lasso.
제1항에 있어서,
상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 제거 방법 중 하나를, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 변수 제거 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
According to claim 1,
Combining at least two or more of the variable removal methods comprises:
Constructing one of the combined variable removal methods as a variable removal method of sequentially selecting the variables determined to be important using variance;
How to select variables using lasso.
제6항에 있어서,
상기 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 단계는,
제공되는 변수를 이용하여 회귀 모델을 생성하는 단계; 및
상기 생성된 회귀 모델의 예측값과 실제값을 비교하고, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
7. The method of claim 6,
The step of sequentially selecting the variables determined to be important using the variance comprises:
generating a regression model using the provided variables; and
Comparing the predicted value and the actual value of the generated regression model, and sequentially selecting the variable having the smallest difference between the predicted value and the actual value;
How to select variables using lasso.
제1항에 있어서,
상기 변수 제거 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 제거 방법 중 하나를, 선형 회귀분석을 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 변수 제거 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
라소를 이용한 변수 선택 방법.
According to claim 1,
Combining at least two or more of the variable removal methods comprises:
and configuring one of the combined variable removal methods as a variable removal method in which a linear regression analysis is performed to measure a residual for each variable, and a variable whose residual is greater than or equal to a predetermined value is removed. doing,
How to select variables using lasso.
통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 데이터 수집부;
상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 파생 데이터 생성부;
상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 변수 추출부;
상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 제거 방법을 적어도 두 개 이상 조합하는 변수 제거 방법 조합부; 및
상기 조합된 변수 제거 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택하는 변수 선택부;를 포함하되,
상기 변수 제거 방법 조합부는,
상기 조합되는 변수 제거 방법 중 하나를 라소(LASSO, LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR)를 이용하는 변수 제거 방법으로 구성하는 것을 특징으로 하는,
라소를 이용한 변수 선택 장치.
a data collection unit that collects and aggregates structured data and unstructured data that are the basis of statistical analysis;
a derived data generator for generating derived data for use in the statistical analysis based on the collected structured data and unstructured data;
a variable extraction unit for extracting all variables used for generating a statistical model based on the generated derived data;
a variable removal method combining unit for combining at least two or more variable removal methods for selecting a variable determined to be important among all the extracted variables; and
A variable selection unit that finally selects a variable for generating a statistical model by removing some of the total variables through the combined variable removal method;
The variable removal method combination unit,
Characterized in that one of the combined variable removal methods is configured as a variable removal method using LASSO (LEAST ABSOLUTE SHRINKAGE SELECTOR OPERATOR),
Variable selection device using lasso.
KR1020200048194A 2020-04-21 2020-04-21 Device and method for variable selection using lasso KR102404907B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200048194A KR102404907B1 (en) 2020-04-21 2020-04-21 Device and method for variable selection using lasso

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200048194A KR102404907B1 (en) 2020-04-21 2020-04-21 Device and method for variable selection using lasso

Publications (2)

Publication Number Publication Date
KR20210129986A true KR20210129986A (en) 2021-10-29
KR102404907B1 KR102404907B1 (en) 2022-06-02

Family

ID=78231432

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200048194A KR102404907B1 (en) 2020-04-21 2020-04-21 Device and method for variable selection using lasso

Country Status (1)

Country Link
KR (1) KR102404907B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379426A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Optimized decision tree based models
US20190370684A1 (en) * 2018-06-01 2019-12-05 Sas Institute Inc. System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
KR102096035B1 (en) 2018-06-04 2020-04-02 (주) 우림인포텍 Feature selection method using autoregressive model and L0-group lasso, and computing system performing the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379426A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Optimized decision tree based models
US20190370684A1 (en) * 2018-06-01 2019-12-05 Sas Institute Inc. System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
KR102096035B1 (en) 2018-06-04 2020-04-02 (주) 우림인포텍 Feature selection method using autoregressive model and L0-group lasso, and computing system performing the same

Also Published As

Publication number Publication date
KR102404907B1 (en) 2022-06-02

Similar Documents

Publication Publication Date Title
US6598210B2 (en) Semiconductor inspecting system, method and computer
CN111311401A (en) Financial default probability prediction model based on LightGBM
JP6282045B2 (en) Information processing apparatus and method, program, and storage medium
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
JP6816481B2 (en) Reduction condition identification method, reduction condition identification program and reduction condition identification device
KR102352036B1 (en) Device and method for variable selection using stochastic gradient descent
KR102404982B1 (en) Device and method for variable selection using elastic net regression
CN115357764A (en) Abnormal data detection method and device
KR102404907B1 (en) Device and method for variable selection using lasso
CN109977977B (en) Method for identifying potential user and corresponding device
Bhadouria et al. A study on genetic expression programming-based approach for impulse noise reduction in images
KR102404983B1 (en) Device and method for variable selection using ridge regression
Bascoy et al. Extended attribute profiles on GPU applied to hyperspectral image classification
JP4166247B2 (en) Semiconductor design data correction method
JPWO2021059375A5 (en) Learning equipment, learning methods, and programs
CN111737371B (en) Data flow detection classification method and device capable of dynamically predicting
JP2015064625A (en) Image processing apparatus, image processing method, and program
JP7206892B2 (en) Image inspection device, learning method for image inspection, and image inspection program
KR102357475B1 (en) Energy Theft Detecting System And Method Using Improved GBTD Algorithm
CN113297289A (en) Method and device for extracting business data from database and electronic equipment
JP7038577B2 (en) Program analyzer and program analysis method
KR20220039118A (en) Device and method for variable selection using weighted information value
JP6563549B1 (en) Data trend analysis method, data trend analysis system, and narrowing and restoring device
CN116451771B (en) Image classification convolutional neural network compression method and core particle device data distribution method
KR101649128B1 (en) Method and device for analyzing bigdata using hash function without collision

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant