KR20210000916A - Retention period recommendation system and method using RNN of records - Google Patents
Retention period recommendation system and method using RNN of records Download PDFInfo
- Publication number
- KR20210000916A KR20210000916A KR1020190076183A KR20190076183A KR20210000916A KR 20210000916 A KR20210000916 A KR 20210000916A KR 1020190076183 A KR1020190076183 A KR 1020190076183A KR 20190076183 A KR20190076183 A KR 20190076183A KR 20210000916 A KR20210000916 A KR 20210000916A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- learning
- retention period
- information
- record
- Prior art date
Links
- 230000014759 maintenance of location Effects 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013135 deep learning Methods 0.000 claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 230000000306 recurrent effect Effects 0.000 claims abstract description 37
- 238000005516 engineering process Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000007726 management method Methods 0.000 claims description 24
- 238000013523 data management Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 12
- 238000004321 preservation Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000006386 memory function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
본 발명은 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것으로, 더욱 상세하게는 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하여 보존기간을 신속하게 추천할 수 있으면서도, 추천한 보존기간에 대한 신뢰성을 높일 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것이다.The present invention relates to a system for recommending a record retention period using a recurrent artificial neural network technology and a method for recommending the same, and more particularly, in creating a retention period for public records of public institutions or records of private companies, deep learning learning The present invention relates to a system for recommending the retention period of records using a recurrent artificial neural network technology that can quickly recommend the retention period by applying the system and improve the reliability of the recommended retention period, and a method for recommending the same.
일반적으로, 국민은 법률에 의거하여 공공기관의 기록물들에 대한 정보공개를 청구할 권리를 가지며, 공공기관은 국민생활에 영향을 미치는 정책정보 등에 대해서는 국민의 청구가 없더라도 공개의 범위, 주기, 사기, 방법 등을 미리 정하여 공표하고 정기적으로 공개해야 할 의무가 있다.In general, the public has the right to request the disclosure of information on the records of public institutions in accordance with the law, and public institutions have the scope, frequency, and fraud of disclosure even if there is no request from the public for policy information that affects public life. It is obligated to pre-determine, publish, and disclose regularly.
공공기관의 기록물 관리에 관한 법률 시행령 제26조(보존기간)에 따르면, 영구, 준영구, 30년, 10년, 5년, 3년, 1년 등 7종으로 구분하고 있으며, 어떤 기록이냐에 따라 보존기간에 차이가 발생하게 된다.According to Article 26 (Retention Period) of the Enforcement Decree of the Record Management Act of Public Institutions, it is classified into 7 types: permanent, semi-permanent, 30 years, 10 years, 5 years, 3 years, and 1 year. Accordingly, there is a difference in the retention period.
이러한 기록물을 관리하는 관리자는 기록물의 목록을 작성하고, 기록물 별로 메타데이터를 작성하여 시스템 상에 저장하는 것이 일반적이다. 특히, 기록물의 메타데이터 중 보존기간 등의 설정은 관리자의 판단에 의해 보존기간이 설정되기 때문에, 관리자가 다량의 기록물을 처리할 경우, 보존기관의 설정하는 과정에서의 인적오류가 발생할 가능성이 매우 높게 된다.It is common for a manager who manages such records to create a list of records, create metadata for each record, and store them on the system. In particular, since the retention period is set at the discretion of the manager in the setting of the retention period among the metadata of records, if the manager processes a large amount of records, there is a very high possibility of human error in the process of setting the retention agency. It becomes high.
물론, 국가기록원에서 기록물 색인정보를 공개하고 있어, 공개된 기록물 색인정보 중 보존기간 관련 정보들은 각 기록물 담당자의 주관적 판단의 결과의 결과로 상당 부분 일관성이 결여되어 있기 때문에, 이를 이용하여 기계학습을 통해 신규 기록물들에 대한 보존기간 추측이 이루어지더라도 수집되는 자료에 대한 전처리 과정이 이루어지지 않고 있어 결과값의 신뢰도가 낮은 문제점이 있다. Of course, since the National Archives of Records discloses the index information of records, the information related to the retention period among the published index information of records is largely inconsistent as a result of the subjective judgment of the person in charge of the records. Even if the preservation period for new records is estimated through this, there is a problem that the reliability of the result value is low because the pre-processing process for the collected data is not performed.
이와 관련해서, 국내등록특허 제10-1887629호("자연어기반 정보공개분류시스템")에서는 정보공개분류를 위한 학습모델을 생성하고 공개분류대상 기록물을 적용하여 자연어처리를 통한 의미분석을 수행함으로써, 공개분류대상 기록물을 자동으로 공개, 비공개 및 부분공개 중 하나로 분류하여 제공하고 있다.In this regard, in Korean Patent Registration No. 10-1887629 ("Natural Language-Based Information Disclosure Classification System"), a learning model for information disclosure classification is created, and semantic analysis through natural language processing is performed by applying records subject to disclosure classification, Records subject to public classification are automatically classified into one of public, non-public, and partial disclosure.
본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하기 앞서서 학습 데이터에 대한 전처리를 수행함으로써, 학습 데이터의 유의미성 및 정확성을 높여 산출 결과(보존기간의 추천)의 신뢰성을 향상시킬 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 제공하는 것이다.The present invention was conceived to solve the problems of the prior art as described above, and in creating a retention period for public records of public institutions or records of private companies, prior to applying deep learning learning, learning data It is to provide a system for recommending a record retention period using a recurrent artificial neural network technology that can improve the reliability of a calculation result (recommendation of a retention period) by increasing the significance and accuracy of learning data by performing pre-processing for the training data and a method for recommending the same.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력부(100), 텍스트 마이닝을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리부(200), 기설정된 딥러닝 기법을 이용하여, 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습부(300), 상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리부(400), 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력부(500) 및 상기 데이터 관리부(400)의 기준 데이터들과 상기 신규 데이터 입력부(500의 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 관리부(600)를 포함하여 구성되는 것이 바람직하다.The system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention includes a learning
더 나아가, 상기 딥러닝 학습부(300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하다.Furthermore, it is preferable that the deep
더 나아가, 상기 데이터 전처리부(200)는 상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것이 바람직하다.Further, the
더 나아가, 상기 딥러닝 학습부(300)는 상기 데이터 전처리부(200)로부터 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM(Long Short Term Memory) 방식을 적용하여 학습을 수행하는 것이 바람직하다.Furthermore, the deep
본 발명의 또다른 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은, 학습 데이터 입력부에서, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력단계(S100), 데이터 전처리부에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리단계(S200), 딥러닝 학습부에서, 기설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에 의해 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습단계(S300), 데이터 관리부에서, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리단계(S400), 신규 데이터 입력부에서, 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력단계(S500) 및 보존기간 관리부에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 추천단계(S600)로 이루어지는 것이 바람직하다.According to another embodiment of the present invention, a method for recommending a record retention period using a recurrent artificial neural network technology is a learning data input step of receiving training data for learning from previously linked records information related databases in the training data input unit ( S100), in the data preprocessor, extracts specific information included in the learning data input by the learning data input step (S100), removes redundant data, and performs morpheme analysis on the extracted specific information Data preprocessing step (S200) analyzing the frequency of appearance for each morpheme, in the deep learning learning unit, one or more specific characteristics based on the frequency of appearance analyzed by the data preprocessing step (S200) using a preset deep learning technique. Deep learning learning step (S300) of receiving morphemes and performing learning, data management in which the data management unit generates reference data of the type of retention period for records using the learning result of the deep learning learning step (S300) Step (S400), in the new data input unit, a new data input step (S500) of receiving new data related to record information for setting the retention period from the outside, and in the retention period management unit, generated by the data management step (S400) It is preferable to perform a retention period recommendation step (S600) of mapping and comparing the reference data with the new data input by the new data input step (S500), and recommending the most optimal retention period for the new data. .
더 나아가, 상기 데이터 전처리단계(S200)는 상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것이 바람직하다.Furthermore, the data pre-processing step (S200) extracts the management department signature information or document name information from among the information included in the learning data, removes the redundant data, and performs morpheme separation analysis on the extracted information. It is desirable to perform ascending sorting by analyzing the frequency of appearance of morphemes.
더 나아가, 상기 딥러닝 학습단계(S300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하되, 상기 데이터 전처리단계(S200)에 의해 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM 방식을 적용하여 학습을 수행하는것이 바람직하다.Further, in the deep learning learning step (S300), the RNN (Recurrent Neural Networks) technique applied with the LSTM (Long Short Term Memory) method is used, but the morphemes within the frequency rank preset by the data preprocessing step (S200) are It is desirable to perform learning by applying the LSTM method to each node of the hidden layer after receiving the input and transforming the input data by creating an embedding layer.
상기와 같은 구성에 의한 본 발명의 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하기 앞서서 학습 데이터에 대한 전처리를 수행함으로써, 학습 데이터의 유의미성 및 정확성을 높여 산출 결과(보존기간의 추천/유추)의 신뢰성을 향상시킬 수 있는 장점이 있다.The system for recommending the retention period of records using the recurrent artificial neural network technology of the present invention and the method for recommending the recordings according to the configuration as described above enables deep learning learning in creating a retention period for public records of public institutions or records of private companies. By performing pre-processing on the learning data prior to application, there is an advantage of improving the reliability of the calculation result (recommendation/inference of the retention period) by increasing the significance and accuracy of the learning data.
도 1은 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 나타낸 순서도이다. 통계 분석을 수행한 결과 데이터를 디스플레이한 실시예이다.1 is a diagram showing a system for recommending a recording retention period using a recurrent artificial neural network technology according to an embodiment of the present invention.
2 is a flowchart illustrating a method of recommending a recording retention period using a recurrent artificial neural network technology according to an embodiment of the present invention. This is an example in which statistical analysis is performed and data is displayed.
이하 첨부한 도면들을 참조하여 본 발명의 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.Hereinafter, a system for recommending a record retention period using a recurrent artificial neural network technology of the present invention and a method for recommending the same will be described in detail with reference to the accompanying drawings. The drawings introduced below are provided as examples in order to sufficiently convey the spirit of the present invention to those skilled in the art. Accordingly, the present invention is not limited to the drawings presented below and may be embodied in other forms. In addition, the same reference numbers throughout the specification indicate the same elements.
이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.In this case, unless there are other definitions in the technical terms and scientific terms used, they have the meanings commonly understood by those of ordinary skill in the art to which this invention belongs, and the gist of the present invention in the following description and accompanying drawings Descriptions of known functions and configurations that may unnecessarily obscure are omitted.
더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.In addition, the system refers to a set of components including devices, devices, and means that are organized and regularly interact to perform a required function.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은 딥러닝 기술의 적용을 통한 기록물들의 보존기간을 유추할 수 있는 기술이다.A system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention, and a method for recommending the same, is a technology capable of inferring the retention period of records through the application of a deep learning technique.
현재 수작업에 의존하고 있는 공공기관 또는 민간기업의 기록물 처리 중 보존기간 생성 작업에 있어서, 각 기록물 담당자의 주관적 판단의 결과로 이루어지기 때문에, 그 신뢰성이나 일관성에 대한 문제점이 대두되고 있는 실정이다.In the case of the creation of the retention period during the processing of records by public institutions or private companies that are currently dependent on manual work, problems with reliability and consistency are emerging as the result of the subjective judgment of each record manager.
그렇기 때문에, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 통해서, 기록물 중 특정 정보를 추출하고, 추출한 특정 정보들에 대한 형태소 분리 분석을 통해서, 유의미성을 향상시킴과 동시에, 딥러닝 기술을 적용하여 산출결과(보존기간 추천)의 신뢰성/정확성을 향상시킬 수 있는 장점이 있다.Therefore, through the record retention period recommendation system and the recommendation method using the recurrent artificial neural network technology according to an embodiment of the present invention, specific information is extracted from the records, and through morpheme separation analysis of the extracted specific information, significance At the same time, it has the advantage of improving the reliability/accuracy of the calculation result (recommended retention period) by applying deep learning technology.
도 1은 이러한 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 나타낸 구성도로서, 도 1을 참조로 하여 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 상세히 설명한다.FIG. 1 is a configuration diagram showing a system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention. Referring to FIG. 1, a record using a recurrent artificial neural network technology according to an embodiment of the present invention The retention period recommendation system will be described in detail.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은 도 1에 도시된 바와 같이, 학습 데이터 입력부(100), 데이터 전처리부(200), 딥러닝 학습부(300), 데이터 관리부(400), 신규 데이터 입력부(500), 보존기간 관리부(600)를 포함하여 구성되는 것이 바람직하다.As shown in FIG. 1, a system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention includes a learning
각 구성에 대해서 자세히 알아보자면,To learn more about each configuration,
상기 학습 데이터 입력부(100)는 미리 연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.It is preferable that the learning
상세하게는, 국가기록원이 공개하고 있는 공공기록물의 목록 데이터베이스, 정보공개법 데이터베이스, 전자서명법 데이터베이스, 공공기록물의 관리에 관한 법률 데이터베이스, 기록관리분류기준표 데이터베이스, 보존기간이 이미 설정된 기록물 데이터베이스 등과 연계되어, 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.Specifically, the National Archives of Records is linked to a database of public records, a database of the Information Disclosure Act, a database of the Electronic Signature Act, a database of laws on the management of public records, a database of records management classification standards, a database of records with a preservation period set, It is desirable to receive learning data for learning.
상기 데이터 전처리부(200)는 텍스트 마이닝(text mining)을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거하는 것이 바람직하다.It is preferable that the
즉, 상기 데이터 전처리부(200)는 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터, 다시 말하자면, 기록물 관련 정보들은 메타데이터로 처리과 기관코드, 단위업무코드, 생산년도, 개록물철등록 일련번호, 권호수, 기록물 철제목, 기록물형태, 내용 요약, 기록물쪽수, 기록물등록건수, 전자파일 개수, 기록물 구분, 수정여부, 구기록물철생산기관명, 구기록물철 분류번호, 시작년도, 종료년도, 비치종결일자, 비치사유, 보존기간, 보존방법, 보존장소, 업무 담당자면, 인수인계구분 등을 포함하고 있어, 텍스트 마이닝을 통해서 이들 중 상기 데이터 전처리부(200)에서 의미있는 정보로 설정하고 있는 생산년도 정보, 관리부서명 정보, 문서명 정보 또는 보존기간 중 적어도 하나 이상을 추출하는 것이 바람직하다. 뿐만 아니라, 다수의 데이터베이스에 중복하여 저장되어 있어 중복하여 입력된 데이터들을 제거하는 것이 바람직하다.That is, the
이 후, 상기 데이터 전처리부(200)는 추출한 상기 특정 정보, 다시 말하자면, 생산년도 정보, 관리부서명 정보, 문서명 정보 또는 보존기간들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 것이 바람직하다.Thereafter, the
이 때, 형태소 분석을 수행하는 것은, 문장을 이루고 있는 어절, 단어, 형태소 중 분류 정확도가 가장 높은 형태소를 이용하는 것이 가장 바람직하다.In this case, to perform morpheme analysis, it is most preferable to use a morpheme having the highest classification accuracy among words, words, and morphemes constituting a sentence.
상기 딥러닝 학습부(300)는 미리 설정된 딥러닝 기법을 이용하여 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아 학습을 수행하는 것이 바람직하다.It is preferable that the deep
이 때, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은, 상기 데이터 전처리부(200)에서 특정 정보들에 대한 형태소 분리 분석을 수행하고, 단순히 각각의 형태소에 대한 출현빈도수 만을 분석하는 것이 아니라, 형태소의 유의미성을 향상시켜 결과의 정확도/신뢰도를 향상시키기 위하여, 오름차순으로 정렬을 수행하는 것이 바람직하다.In this case, in the system for recommending a recording period using a recurrent artificial neural network technology according to an embodiment of the present invention, the
이를 통해서, 상기 딥러닝 학습부(300)에서 미리 설정된 딥러닝 기법의 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택한 후, 벡터 길이를 한정하는 임베딩(embedding) 층을 생성하여 입력받은 입력 데이터들을 변환하는 것이 바람직하다.Through this, the deep
특히, 상기 딥러닝 학습부(300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하다.In particular, it is preferable that the deep
상기 LSTM 방식을 적용한 RNN 기법의 설명에 앞서서, RNN 기법이란 시간 순서대로 받아들인 입력데이터(시계열 데이터, time-series data)를 학습할 때, 은닉층에 기억 기능이 있어 각각의 상태를 저장했다가 학습에 활용하는 신경망 모델이다.Prior to the description of the RNN method to which the LSTM method is applied, the RNN method is when learning input data (time-series data) received in chronological order, the hidden layer has a memory function to store and learn each state. It is a neural network model used for
단, RNN 기법은 가까운 과거의 결과만을 판단에 반영하기 때문에, 문장이 길어지거나 문장과 문장의 간격이 멀어질수록 기억력이 희미해져, 이전의 문맥에 반영되지 못하는 문제점이 있다.However, since the RNN technique only reflects the results of the near past in judgment, the longer the sentence or the distance between the sentence and the sentence becomes, the faint memory is, and thus there is a problem that it cannot be reflected in the previous context.
이를 해소하기 위하여, RNN의 은닉층의 뉴런을 LSTM block으로 대체한 것이 상기 LSTM 방식을 적용한 RNN 기법이다.In order to solve this problem, the LSTM block replaces the neurons in the hidden layer of the RNN with the LSTM scheme.
LSTM block이란, 이전의 결과(cell state)를 얼마나 반영할 것인지는 forget gate(ft)로 조절하고, 현재 입력 데이터와 이전 출력 데이터를 얼마나 반영할 것인지는 ignore gate(it)로 조절하되, ft와 it를 가중치로 하는 가중평균의 형태를 갖게 된다.For LSTM block, adjust with forget gate(ft) how much to reflect the previous result (cell state), and adjust with ignore gate(it) how much to reflect current input data and previous output data. It takes the form of a weighted average as a weight.
이러한 상기 LSTM 방식을 적용한 RNN 기법을 이용하여, 상기 딥러닝 학습부(300)는 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택하고, 은닉층의 가중치는 벡터 길이를 200으로 한정하는 것이 바람직하다.Using the RNN technique to which the LSTM method is applied, the deep
상기 데이터 관리부(400)는 상기 딥러닝 학습부(300)의 학습 결과, 다시 말하자면, 상기 딥러닝 학습부(300)의 딥러닝 기법에 의한 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것이 바람직하다.The
보존기간 유형으로는 보존기간 없음, 1년, 3년, 5년, 10년, 25년, 30년, 40년, 영구인 총 9라벨로 한정하는 것이 바람직하나, 이는 본 발명의 일 실시예에 불과하다.As for the type of retention period, it is preferable to limit it to a total of 9 labels that are no retention period, 1 year, 3 years, 5 years, 10 years, 25 years, 30 years, 40 years, and permanent, but this is in accordance with an embodiment of the present invention. It's just that.
아울러, 상기 데이터 관리부(400)는 상기 딥러닝 학습부(300)의 출력 데이터에 대한 loss를 줄이기 위해서, softmax 함수를 이용하여 정의하는 것이 바람직하며, 이는 해당 분야에서 이미 공지된 기술로서 더 이상의 설명을 생략한다.In addition, in order to reduce the loss of the output data of the deep
상기 신규 데이터 입력부(500)는 외부(기록물 관리자 등)로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 것이 바람직하다.It is preferable that the new
즉, 보존기간을 새롭게 설정할 필요가 있거나, 기존에 설정되어 있는 보존기간의 확인이 필요한 기록물 데이터 등을 입력받는 것이 바람직하다.In other words, it is desirable to input data of a record that needs to be newly set, or that requires confirmation of an existing set retention period.
상기 보존기간 관리부(600)는 상기 데이터 관리부(400)의 기준데이터들과 상기 신규 데이터 입력부(500)의 신규 데이터를 매핑시켜 비교함으로써, 상기 신규 데이터에 대한 가장 최적의 보존기간을 추천할 수 있다.The retention
상세하게는, 상기 보존기간 관리부(600)는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 사용하는 사용자가 학습 데이터의 딥러닝 학습을 통해서 추천되어진 보존기간 정보(상기 데이터 관리부(400)의 기준데이터) 중 최종 선택한 보존기간 정보 또는 수정하여 선택한 보존기간 정보(신규 데이터)들을 매핑시켜 비교함으로써, 별도의 데이터베이스(미도시)에 저장 및 관리할 수 있다. 이렇게 사용자에 의해 선택되어진 보존기간 정보 또는 수정하여 선택한 보존기간 정보들을 이용하여, 신뢰성 상위수준의 정보로 활용할 수 있다.In detail, the retention
이를 통해서, 기록물을 관리하는 기관마다의 기록물 보존기간에 대한 미세한 차이 및 기관 특성을 반영할 수 있어,(추천되는 보존기간 정보와 실제 선택되어 있는 보존기간 정보를 이용) 각각의 사용자에 따른 맞춤 정보를 적극적으로 제공하고 각 기록관의 기록관리 차별성을 보존기간 추천(가장 최적의 보존기간 추천)에 반영할 수 있어 보존기관 추천의 신뢰성을 높일 수 있다.Through this, it is possible to reflect subtle differences in the retention period of records and the characteristics of each institution that manages records (using recommended retention period information and actually selected retention period information), tailored information for each user It is possible to increase the reliability of the recommendation of preservation agencies by actively providing the archives and reflecting the differentiation of the records management of each archive in the retention period recommendation (recommendation of the most optimal retention period).
도 2는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 나타낸 순서도로서, 도 2를 참조로 하여 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 상세히 설명한다.FIG. 2 is a flow chart showing a method for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention. Referring to FIG. 2, a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention The recommended method will be described in detail.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은 도 2에 도시된 바와 같이, 학습 데이터 입력단계(S100), 데이터 전처리단계(S200), 딥러닝 학습단계(S300), 데이터 관리단계(S400), 신규 데이터 입력단계(S500) 및 보존기간 추천단계(S600)로 이루어지는 것이 바람직하다.As shown in FIG. 2, a method for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention includes a learning data input step (S100), a data preprocessing step (S200), and a deep learning learning step (S300). , It is preferable to consist of a data management step (S400), a new data input step (S500), and a retention period recommendation step (S600).
각 단계에 대해서 자세히 알아보자면,To learn more about each step,
상기 학습 데이터 입력단계(S100)는 상기 학습 데이터 입력부(100)에서, 미리 연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.In the learning data input step (S100), it is preferable that the learning
상세하게는, 정보공개법 데이터베이스, 전자서명법 데이터베이스, 공공기록물의 관리에 관한 법률 데이터베이스, 기록관리분류기준표 데이터베이스, 보존기간이 이미 설정된 기록물 데이터베이스 등과 연계되어, 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.Specifically, it is desirable to receive learning data for learning in connection with the Information Disclosure Act database, the electronic signature method database, the law database on the management of public records, the records management classification standard database, and the record database for which the retention period is set.
상기 데이터 전처리단계(S200)는 상기 데이터 전처리부(200)에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거하는 것이 바람직하다.In the data pre-processing step S200, it is preferable that the
이 때, 상기 데이터 전처리단계(S200)는 텍스트 마이닝(text mining)을 통해 수행하는 것이 가장 바람직하다.In this case, the data pre-processing step (S200) is most preferably performed through text mining.
상세하게는, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터, 다시 말하자면, 기록물 관련 정보들은 메타데이터로 처리과 기관코드, 단위업무코드, 생산년도, 개록물철등록 일련번호, 권호수, 기록물 철제목, 기록물형태, 내용 요약, 기록물쪽수, 기록물등록건수, 전자파일 개수, 기록물 구분, 수정여부, 구기록물철생산기관명, 구기록물철 분류번호, 시작년도, 종료년도, 비치종결일자, 비치사유, 보존기간, 보존방법, 보존장소, 업무 담당자면, 인수인계구분 등을 포함하고 있어, 텍스트 마이닝을 통해서 이들 중 상기 데이터 전처리부(200)에서 의미있는 정보로 설정하고 있는 관리부서명 정보 또는 문서명 정보를 추출하는 것이 바람직하다. 뿐만 아니라, 다수의 데이터베이스에 중복하여 저장되어 있어 중복하여 입력된 데이터들을 제거하는 것이 바람직하다.Specifically, the learning data input by the learning data input step (S100), that is, the information related to the record is processed as metadata and the institution code, the unit work code, the year of production, the registration serial number, the number of volumes, and the record. Steel title, type of record, summary of contents, number of pages of record, number of records registered, number of electronic files, record classification, whether or not to be modified, name of old record material production institution, old record material classification number, start year, end year, date of installation, and reason , Preservation period, preservation method, storage place, business person in charge, transfer category, etc., among them, the management department's signature information or document name information that is set as meaningful information in the
이 후, 상기 데이터 전처리단계(S200)는 추출한 상기 특정 정보, 다시 말하자면, 관리부서명 정보 또는 문서명 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 것이 바람직하다.Thereafter, in the data pre-processing step S200, it is preferable to analyze the frequency of appearance of each morpheme by performing morpheme analysis on the extracted specific information, that is, management department signature information or document name information.
이 때, 형태소 분석을 수행하는 것은, 문장을 이루고 있는 어절, 단어, 형태소 중 분류 정확도가 가장 높은 형태소를 이용하는 것이 가장 바람직하다.In this case, to perform morpheme analysis, it is most preferable to use a morpheme having the highest classification accuracy among words, words, and morphemes constituting a sentence.
상기 딥러닝 학습단계(S300)는 상기 딥러닝 학습부(300)에서, 미리 설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아 학습을 수행하는 것이 바람직하다.In the deep learning learning step (S300), the deep
이를 위해, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은 상기 데이터 전처리단계(S200)를 통해서, 특정 정보들에 대한 형태소 분리 분석을 수행하고, 단순히 각각의 형태소에 대한 출현빈도수 만을 분석하는 것이 아니라, 형태소의 유의미성을 향상시켜 결과의 정확도/신뢰도를 향상시키기 위하여, 오름차순으로 정렬을 수행하는 것이 바람직하다.To this end, in the method for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention, through the data pre-processing step (S200), morpheme separation analysis for specific information is performed, and simply each morpheme is It is preferable to perform sorting in ascending order in order to improve the accuracy/reliability of the result by improving the significance of morphemes, not just analyzing the frequency of occurrence of the morpheme.
이를 통해서, 상기 딥러닝 학습단계(S300)에서, 미리 설정된 딥러닝 기법의 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택한 후, 벡터 길이를 한정하는 임베딩(embedding) 층을 생성하여 입력받은 입력 데이터들을 변환하는 것이 바람직하다.Through this, in the deep learning learning step (S300), after selecting a morpheme from the 1st to 1000th of the appearance frequency as input data of a preset deep learning technique, an embedding layer defining the vector length is generated and input It is desirable to convert the received input data.
특히, 상기 딥러닝 학습단계(S300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하며, 상기 LSTM 방식을 적용한 RNN 기법의 설명에 앞서서, RNN 기법이란 시간 순서대로 받아들인 입력데이터(시계열 데이터, time-series data)를 학습할 때, 은닉층에 기억 기능이 있어 각각의 상태를 저장했다가 학습에 활용하는 신경망 모델이다.In particular, in the deep learning learning step (S300), it is preferable to use a Recurrent Neural Networks (RNN) technique to which the LSTM (Long Short Term Memory) method is applied. Prior to the description of the RNN technique to which the LSTM method is applied, the RNN technique is time When learning input data (time-series data) received in sequence, the hidden layer has a memory function, so it is a neural network model that stores each state and uses it for learning.
단, RNN 기법은 가까운 과거의 결과만을 판단에 반영하기 때문에, 문장이 길어지거나 문장과 문장의 간격이 멀어질수록 기억력이 희미해져, 이전의 문맥에 반영되지 못하는 문제점이 있다.However, since the RNN technique only reflects the results of the near past in judgment, the longer the sentence or the distance between the sentence and the sentence becomes, the faint memory is, and thus there is a problem that it cannot be reflected in the previous context.
이를 해소하기 위하여, RNN의 은닉층의 뉴런을 LSTM block으로 대체한 것이 상기 LSTM 방식을 적용한 RNN 기법이다.In order to solve this problem, the LSTM block replaces the neurons in the hidden layer of the RNN with the LSTM scheme.
LSTM block이란, 이전의 결과(cell state)를 얼마나 반영할 것인지는 forget gate(ft)로 조절하고, 현재 입력 데이터와 이전 출력 데이터를 얼마나 반영할 것인지는 ignore gate(it)로 조절하되, ft와 it를 가중치로 하는 가중평균의 형태를 갖게 된다.For LSTM block, adjust with forget gate(ft) how much to reflect the previous result (cell state), and adjust with ignore gate(it) how much to reflect current input data and previous output data. It takes the form of a weighted average as a weight.
이러한 상기 LSTM 방식을 적용한 RNN 기법을 이용하여, 상기 딥러닝 학습부(300)는 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택하고, 은닉층의 가중치는 벡터 길이를 한정하는 것이 바람직하다.Using the RNN technique to which the LSTM method is applied, the deep
상기 데이터 관리단계(S400)는 상기 데이터 관리부(400)에서, 상기 딥러닝 학습단계(S300)의 학습 결과, 다시 말하자면, 딥러닝 기법에 의한 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것이 바람직하다.In the data management step (S400), the
보존기간 유형으로는 보존기간 없음, 1년, 3년, 5년, 10년, 25년, 30년, 40년, 영구인 총 9라벨로 한정하는 것이 바람직하나, 이는 본 발명의 일 실시예에 불과하다.As for the type of retention period, it is preferable to limit it to a total of 9 labels that are no retention period, 1 year, 3 years, 5 years, 10 years, 25 years, 30 years, 40 years, and permanent, but this is in accordance with an embodiment of the present invention. It's just that.
또한, 딥러닝 기법에 의한 출력 데이터에 대한 loss를 줄이기 위해서, softmax 함수를 이용하여 정의하는 것이 바람직하며, 이는 해당 분야에서 이미 공지된 기술로서 더 이상의 설명을 생략한다.In addition, in order to reduce the loss of the output data by the deep learning technique, it is preferable to define it using a softmax function, which is a technique already known in the relevant field, and further description is omitted.
상기 신규 데이터 입력단계(S500)는 상기 신규 데이터 입력부(500)에서, 외부(기록물 관리자 등)로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 것이 바람직하다.In the new data input step (S500), it is preferable that the new
즉, 보존기간을 새롭게 설정할 필요가 있거나, 기존에 설정되어 있는 보존기간의 확인이 필요한 기록물 데이터 등을 입력받는 것이 바람직하다.In other words, it is desirable to input data of a record that needs to be newly set, or that requires confirmation of an existing set retention period.
상기 보존기간 추천단계(S600)는 상기 보존기간 관리부(600)에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터들에 대한 가장 최적의 보존기간을 추천하는 것이 바람직하다.In the retention period recommendation step (S600), the retention
상세하게는, 상기 보존기간 추천단계(S600)는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 사용하는 사용자가 학습 데이터의 딥러닝 학습을 통해서 추천되어진 보존기간 정보(상기 데이터 관리부(400)의 기준데이터) 중 최종 선택한 보존기간 정보 또는 수정하여 선택한 보존기간 정보(신규 데이터)들을 매핑시켜 비교함으로써, 별도의 데이터베이스(미도시)에 저장 및 관리할 수 있다. 이렇게 사용자에 의해 선택되어진 보존기간 정보 또는 수정하여 선택한 보존기간 정보들을 이용하여, 신뢰성 상위수준의 정보로 활용할 수 있다.In detail, the retention period recommendation step (S600) is the retention period information recommended through deep learning learning of the training data by a user who uses the recording retention period recommendation method using the recurrent artificial neural network technology according to an embodiment of the present invention. By mapping and comparing the last selected retention period information or modified and selected retention period information (new data) among (reference data of the data management unit 400), it can be stored and managed in a separate database (not shown). In this way, the retention period information selected by the user or the retention period information selected by modification can be used as information with a high level of reliability.
이를 통해서, 기록물을 관리하는 기관마다의 기록물 보존기간에 대한 미세한 차이 및 기관 특성을 반영할 수 있어,(추천되는 보존기간 정보와 실제 선택되어 있는 보존기간 정보를 이용) 각각의 사용자에 따른 맞춤 정보를 적극적으로 제공하고 각 기록관의 기록관리 차별성을 보존기간 추천(가장 최적의 보존기간 추천)에 반영할 수 있어 보존기관 추천의 신뢰성을 높일 수 있다.Through this, it is possible to reflect subtle differences in the retention period of records and the characteristics of each institution that manages records (using recommended retention period information and actually selected retention period information), tailored information for each user It can increase the credibility of the recommendation of preservation agencies by actively providing the archives and reflecting the differentiation of the records management of each archive in the retention period recommendation (recommendation of the most optimal retention period).
즉, 다시 말하자면, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은, 딥러닝 기법을 적용하여 기록물의 보존기간을 유추함에 있어서, 학습 데이터(입력 데이터)의 유의미성을 향상시켜 결과 데이터의 정확성 및 신뢰성을 향상시켜, 추천한 보존기간에 대한 정확성을 효과적으로 향상시킬 수 있는 장점이 있다.That is, in other words, the system for recommending the retention period of the records using the recurrent artificial neural network technology according to an embodiment of the present invention and the recommendation method thereof, in inferring the retention period of records by applying a deep learning technique, include learning data (input data ) Has the advantage of improving the accuracy and reliability of the result data, effectively improving the accuracy of the recommended retention period.
이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, in the present invention, specific matters such as specific components, etc. and limited embodiments have been described, but this is provided only to aid in a more general understanding of the present invention, and the present invention is limited to the above-described embodiment. It is not, and those of ordinary skill in the field to which the present invention belongs can make various modifications and variations from this description.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention is limited to the described embodiments and should not be determined, and all things equivalent or equivalent to the claims as well as the claims to be described later belong to the scope of the spirit of the present invention. .
100 : 학습 데이터 입력부
200 : 데이터 전처리부
300 : 딥러닝 학습부
400 : 데이터 관리부
500 : 신규 데이터 입력부
600 : 보존기간 관리부100: learning data input unit
200: data preprocessor
300: Deep Learning Department
400: data management unit
500: new data input unit
600: Retention period management department
Claims (7)
텍스트 마이닝을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리부(200);
기설정된 딥러닝 기법을 이용하여, 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습부(300);
상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리부(400);
외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력부(500); 및
상기 데이터 관리부(400)의 기준 데이터들과 상기 신규 데이터 입력부(500의 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 관리부(600);
를 포함하여 구성되는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
A learning data input unit 100 receiving learning data for learning from previously linked records information-related databases;
After extracting specific information included in the learning data received from the learning data input unit 100 through text mining, removing duplicate data, and performing morpheme analysis on the extracted specific information, the appearance of each morpheme A data preprocessing unit 200 for analyzing frequency;
A deep learning learning unit 300 that receives one or more specific morphemes based on the frequency of appearance analyzed by the data preprocessor 200 using a preset deep learning technique and performs learning;
A data management unit 400 for generating reference data of a retention period type for a record using the learning result of the deep learning learning unit 300;
A new data input unit 500 for receiving new data related to record information for setting a retention period from the outside; And
A retention period management unit 600 that maps and compares reference data of the data management unit 400 with new data of the new data input unit 500, and recommends the most optimal retention period for new data;
Record retention period recommendation system using a recurrent artificial neural network technology, characterized in that configured to include.
상기 딥러닝 학습부(300)는
LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
The method of claim 1,
The deep learning learning unit 300
A system for recommending a record retention period using a recurrent artificial neural network technology, characterized by using a Recurrent Neural Networks (RNN) technique applying a Long Short Term Memory (LSTM) method.
상기 데이터 전처리부(200)는
상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
The method of claim 2,
The data preprocessor 200
After extracting the management department signature information or document name information among the information included in the learning data, removing duplicate data, and performing morpheme separation analysis on the extracted information, the frequency of appearance of each morpheme is analyzed and sorted in ascending order. A system for recommending record retention periods using recurrent artificial neural network technology, characterized in that performing.
상기 딥러닝 학습부(300)는
상기 데이터 전처리부(200)로부터 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM(Long Short Term Memory) 방식을 적용하여 학습을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
The method of claim 3,
The deep learning learning unit 300
After receiving the morphemes within a preset frequency ranking from the data preprocessor 200, converting the input data by creating an embedding layer, a Long Short Term Memory (LSTM) method is applied to each node of the hidden layer. Record retention period recommendation system using recurrent artificial neural network technology, characterized in that the learning is performed by applying.
데이터 전처리부에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리단계(S200);
딥러닝 학습부에서, 기설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에 의해 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습단계(S300);
데이터 관리부에서, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리단계(S400);
신규 데이터 입력부에서, 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력단계(S500); 및
보존기간 관리부에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 추천단계(S600);
로 이루어지는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
In the learning data input unit, a learning data input step (S100) of receiving learning data for learning from previously linked records information-related databases;
In the data preprocessor, after extracting specific information included in the learning data input by the learning data input step (S100), removing duplicate data, and performing morpheme analysis on the extracted specific information, each morpheme Data pre-processing step of analyzing the frequency of appearance of (S200);
A deep learning learning step (S300) of receiving one or more specific morphemes based on the frequency of appearance analyzed by the data preprocessing step (S200) using a preset deep learning technique and performing learning;
A data management step (S400) of generating, in the data management unit, reference data of a retention period type for a record using the learning result of the deep learning learning step (S300);
In the new data input unit, a new data input step (S500) of receiving new data related to record information for setting a retention period from outside; And
The retention period management unit maps and compares the reference data generated by the data management step (S400) with the new data input by the new data input step (S500), and the most optimal storage for new data Retention period recommendation step of recommending a period (S600);
A method for recommending a record retention period using a recurrent artificial neural network technology, characterized in that it consists of.
상기 데이터 전처리단계(S200)는
상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
The method of claim 5,
The data pre-processing step (S200)
After extracting the management department signature information or document name information among the information included in the learning data, removing duplicate data, and performing morpheme separation analysis on the extracted information, the frequency of appearance of each morpheme is analyzed and sorted in ascending order. A method of recommending a record retention period using a recurrent artificial neural network technology, characterized in that performing.
상기 딥러닝 학습단계(S300)는
LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하되,
상기 데이터 전처리단계(S200)에 의해 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM 방식을 적용하여 학습을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.The method of claim 6,
The deep learning learning step (S300)
Using the Recurrent Neural Networks (RNN) technique applying the Long Short Term Memory (LSTM) method,
By receiving the morphemes in the pre-processing step (S200), the morphemes within the pre-set frequency ranking are received, the embedding layer is created and the received data is converted, and then the LSTM method is applied to each node of the hidden layer to perform learning. A method for recommending a record retention period using a recurrent artificial neural network technology, characterized in that:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190076183A KR102255035B1 (en) | 2019-06-26 | 2019-06-26 | Retention period recommendation system and method using RNN of records |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190076183A KR102255035B1 (en) | 2019-06-26 | 2019-06-26 | Retention period recommendation system and method using RNN of records |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210000916A true KR20210000916A (en) | 2021-01-06 |
KR102255035B1 KR102255035B1 (en) | 2021-05-24 |
Family
ID=74128893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190076183A KR102255035B1 (en) | 2019-06-26 | 2019-06-26 | Retention period recommendation system and method using RNN of records |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102255035B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230071869A (en) | 2021-11-16 | 2023-05-24 | (주)국전약품 | Electrolyte additive compound for lithium secondary battery and lithium secondary battery comprising same |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010026773A (en) * | 2008-07-18 | 2010-02-04 | Kddi Corp | Geographical feature information extraction method and system |
KR20160059845A (en) * | 2014-11-19 | 2016-05-27 | 주식회사 스토리안트 | Inventory management method and apparatus |
KR101887629B1 (en) | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | system for classifying and opening information based on natural language |
-
2019
- 2019-06-26 KR KR1020190076183A patent/KR102255035B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010026773A (en) * | 2008-07-18 | 2010-02-04 | Kddi Corp | Geographical feature information extraction method and system |
KR20160059845A (en) * | 2014-11-19 | 2016-05-27 | 주식회사 스토리안트 | Inventory management method and apparatus |
KR101887629B1 (en) | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | system for classifying and opening information based on natural language |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230071869A (en) | 2021-11-16 | 2023-05-24 | (주)국전약품 | Electrolyte additive compound for lithium secondary battery and lithium secondary battery comprising same |
Also Published As
Publication number | Publication date |
---|---|
KR102255035B1 (en) | 2021-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796470B (en) | Data analysis system for market subject supervision and service | |
EP1504412B1 (en) | Processing mixed numeric and/or non-numeric data | |
CN111597347B (en) | Knowledge embedding defect report reconstruction method and device | |
CN112182246B (en) | Method, system, medium, and application for creating an enterprise representation through big data analysis | |
CN104462216B (en) | Occupy committee's standard code converting system and method | |
CN112036842B (en) | Intelligent matching device for scientific and technological service | |
CN111241839B (en) | Entity identification method, entity identification device, computer readable storage medium and computer equipment | |
KR20210082108A (en) | Method for the operation of the real estate expected actual transaction price calculation device based on the real estate actual transaction price prediction | |
KR20180069088A (en) | A multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships | |
JP6900479B2 (en) | Legal information processing systems, methods and programs | |
CN111198969A (en) | Economic information consultation system and method based on network big data | |
Ikawati et al. | Student behavior analysis to predict learning styles based felder silverman model using ensemble tree method | |
Walton et al. | Landscape analysis for the specimen data refinery | |
KR102255035B1 (en) | Retention period recommendation system and method using RNN of records | |
Nurhachita et al. | A comparison between deep learning, naïve bayes and random forest for the application of data mining on the admission of new students | |
CN115982429B (en) | Knowledge management method and system based on flow control | |
Uvidia Fassler et al. | Moving towards a methodology employing knowledge discovery in databases to assist in decision making regarding academic placement and student admissions for universities | |
Abbott et al. | Population statistics without a Census or register | |
Correa et al. | A deep search method to survey data portals in the whole web: toward a machine learning classification model | |
CN114820074A (en) | Target user group prediction model construction method based on machine learning | |
Price et al. | Making monitoring manageable: a framework to guide learning | |
Ngo et al. | Exploration and integration of job portals in Vietnam | |
Varlamova | International records management and archives terminology systems standardized by ISO and IEC | |
CN117892217A (en) | Causal inference-based public number push text multi-mode question text disagreement judging method and system | |
KR20240074084A (en) | Stock trading strategy success rate prediction system using index related to stock company report |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |