KR101363335B1 - Apparatus and method for generating document categorization model - Google Patents

Apparatus and method for generating document categorization model Download PDF

Info

Publication number
KR101363335B1
KR101363335B1 KR1020120103960A KR20120103960A KR101363335B1 KR 101363335 B1 KR101363335 B1 KR 101363335B1 KR 1020120103960 A KR1020120103960 A KR 1020120103960A KR 20120103960 A KR20120103960 A KR 20120103960A KR 101363335 B1 KR101363335 B1 KR 101363335B1
Authority
KR
South Korea
Prior art keywords
documents
feature
words
learning
document
Prior art date
Application number
KR1020120103960A
Other languages
Korean (ko)
Inventor
이수원
한정석
박상용
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020120103960A priority Critical patent/KR101363335B1/en
Application granted granted Critical
Publication of KR101363335B1 publication Critical patent/KR101363335B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed are a document classification model generation device and a method thereof. The document classification model generation device which uses multiple learning documents belonging to one of multiple categories includes: a feature word evaluation index calculation unit which calculates evaluation indexes of feature words included in multiple learning documents by category; a number determination unit which determines the number of feature words to be selected by category using the ratio of learning documents by category; a feature word group generation unit which selects feature words by category using the evaluation indexes and the number of feature words and generates feature word groups using the selected feature words; and a document classification model generation unit which generates a document classification model using the appearance frequency of the feature words included in the feature word groups by learning document. The evaluation indexes of feature words refer to the appearance frequency of words included in the multiple learning documents. According to the present invention, even if the ratios of documents by category are not similar, it is possible to generate a document classification model capable of accurately classifying documents. [Reference numerals] (301) Feature word evaluation index calculation unit; (303) Number determination unit; (305) Feature word group generation unit; (307) Weighted value calculation unit; (309) Document classification model generation unit; (311) Control unit

Description

문서 분류모델 생성장치 및 방법{APPARATUS AND METHOD FOR GENERATING DOCUMENT CATEGORIZATION MODEL}Apparatus and method for generating document classification model {APPARATUS AND METHOD FOR GENERATING DOCUMENT CATEGORIZATION MODEL}

본 발명의 실시예들은 문서 분류모델 생성장치 및 방법에 관한 것으로서, 더욱 상세하게는 문서 분류의 정확도를 향상시키기 위한 문서 분류모델의 생성장치 및 방법에 관한 것이다. Embodiments of the present invention relate to an apparatus and method for generating a document classification model, and more particularly, to an apparatus and method for generating a document classification model for improving the accuracy of document classification.

웹 문서 정보 서비스는 서비스 제공 주체에 따라 서로 다른 문서 분류 체계(범주)를 가지고 있다. 웹 문서 정보 서비스를 제공하기 위해서는 각각의 문서를 수동적으로 해당 분류 체계에 맞게 전문가가 직접 분류해야 하는 번거로움이 있다. 이러한 방식은 문서의 양이 많아지고 복잡해질수록 많은 시간과 노력을 필요로 한다. 따라서, 관리자의 효율적 문서관리와 사용자의 문서검색 편의성을 위해 범주 별 문서 자동 분류 시스템이 요구된다.Web document information service has different document classification system (category) according to service provider. In order to provide a web document information service, it is cumbersome to manually classify each document manually according to the classification system. This approach requires a lot of time and effort as the volume and complexity of the documentation increases. Therefore, an automatic document classification system for each category is required for efficient document management of the administrator and user's document search convenience.

자동 문서 분류 기법은 학술논문 Salton, G. "Automatic processing of foreign language documents." Journal of the American Society for Information Science, 21(3), pp. 187-194, 1970. 에서 체계화되었다. 자동 문서 분류 기법은 사전에 범주가 정의된 문서에서 선택된 자질어 변수를 학습하여 문서 분류모델을 생성하며, 생성된 문서 분류모델로 새로운 문서를 예측된 범주에 할당하는 방식이다. Automatic document classification is described in the journal Salton, G. "Automatic processing of foreign language documents." Journal of the American Society for Information Science, 21 (3), pp. 187-194, 1970. The automatic document classification technique generates a document classification model by learning selected feature variables from a document whose category is defined in advance, and assigns a new document to the predicted category using the generated document classification model.

일반적으로 문서 분류에서 분류 대상인 문서는 자질어의 집합으로 표현된다. 따라서, 문서 분류의 정확도는 자질어 선택기법과 문서 분류모델 학습 알고리즘에 많은 영향을 받는다.In general, the documents to be classified in document classification are represented as a set of feature language. Therefore, the accuracy of document classification is greatly influenced by the feature selection method and the document classification model learning algorithm.

자질어 선택기법은 효과적인 문서 분류모델을 생성하기 위해 문서 내 출현단어들 중 문서 분류에 효과적인 자질어들을 선정하며, 일반적으로 많이 사용되는 자질어 선택기법은 Mutual Information(MI), Information Gain(IG), Chi-square(

Figure 112012075961803-pat00001
), 그리고 ECCD(Entropy based Category Coverage Difference criterion) 기법 등이 있다In order to generate an effective document classification model, the feature selection method selects the feature words that are effective for document classification among the words that appear in the document. , Chi-square (
Figure 112012075961803-pat00001
) And ECCD (Entropy based Category Coverage Difference criterion)

Mutual Information을 이용한 자질어 선택 기법은 해당 범주와 범주 내 존재하는 단어간 연관성을 이용하지만 IG, Chi-square, ECCD 등을 이용한 자질어 선택 기법은 해당 범주 와 범주 내 존재하지 않는 단어간 연관성도 고려한다. 특히 ECCD 자질어 선택 기법은 단어의 해당 범주 내 존재 여부뿐만 아니라 각 문서의 단어 출현빈도(frequency)를 고려한 Shannon entropy를 사용함으로써 보다 정확한 자질어의 평가가 가능하다.The feature selection method using mutual information uses the association between the category and the words existing in the category, but the feature selection method using IG, Chi-square, ECCD, etc. also considers the association between the category and the nonexistent words in the category. do. In particular, the ECCD feature selection method can use the Shannon entropy that considers the frequency of words in each document as well as the existence of the words in the corresponding category.

하지만 위에서 언급한 자질어 선택 기법들은 자질어 선택에 사용된 문서의 범주 별 비율이 유사해야 하며, 예측될 문서 내에 선택된 자질어들 중 최소 한 개 이상의 자질어가 존재해야 하는 문제점이 있다.However, the feature selection techniques mentioned above have a problem in that the ratio of the documents used in the feature selection is similar, and that at least one of the selected feature words exist in the document to be predicted.

따라서, 문서 분류모델 생성에 사용될 문서의 수가 적거나 도 1과 같이 특정 범주의 문서 수가 다른 범주에 비해 상대적으로 많은 차이를 갖는 경우 분류 정확도가 저하되는 문제가 발생한다. Therefore, when the number of documents to be used for generating the document classification model is small or when the number of documents in a specific category has a relatively large difference as compared to other categories, the problem of deterioration of classification problem occurs.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 문서의 범주 별 비율이 비유사한 경우에도 분류 정확도를 향상시킬 수 있는 문서 분류모델 생성장치 및 방법을 제안하고자 한다.In order to solve the problems of the prior art as described above, the present invention proposes an apparatus and method for generating a document classification model that can improve the classification accuracy even if the ratio of each category of documents is dissimilar.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.Other objects of the invention will be apparent to those skilled in the art from the following examples.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 복수의 범주 중 어느 하나에 각각 속하는 복수의 학습 문서를 이용한 문서 분류모델 생성 장치에 있어서, 상기 복수의 학습 문서들에 포함된 단어들의 자질어 평가지수를 상기 복수의 범주 별로 산출하는 자질어 평가지수 산출부; 상기 복수의 범주 별 학습 문서 비율을 이용하여 상기 복수의 범주 별로 선택될 자질어 개수를 결정하는 개수 결정부; 상기 자질어 평가지수 및 상기 자질어 개수를 이용하여 상기 복수의 범주 별로 자질어들을 각각 선택하고, 상기 선택된 자질어들을 이용하여 자질어 그룹을 생성하는 자질어 그룹 생성부; 및 상기 복수의 학습 문서 별 상기 자질어 그룹에 포함된 자질어들의 출현 빈도를 이용하여 문서 분류모델을 생성하는 문서 분류모델 생성부를 포함하되, 상기 자질어 평가지수는 상기 복수의 학습 문서 내의 상기 단어들의 출현 빈도를 의미하는 것을 특징으로 하는 문서 분류모델 생성장치가 제공된다. According to a preferred embodiment of the present invention to achieve the above object, in the document classification model generating apparatus using a plurality of learning documents each belonging to any one of a plurality of categories, words included in the plurality of learning documents A feature language evaluation index calculator for calculating feature language evaluation indexes of the plurality of categories; A number determination unit to determine the number of feature words to be selected for each of the plurality of categories by using the plurality of categories of learning documents; A feature language group generation unit for selecting feature words for each of the plurality of categories by using the feature language evaluation index and the feature language number and generating a feature group using the selected feature words; And a document classification model generation unit generating a document classification model by using a frequency of appearance of feature words included in the feature language group for each of the plurality of learning documents, wherein the feature language evaluation index is the words in the plurality of learning documents. Provided is a document classification model generating apparatus, characterized in that the frequency of appearance of the.

본 발명의 다른 실시예에 따르면, 복수의 범주 중 어느 하나에 각각 속하는 복수의 학습 문서를 이용한 문서 분류모델 생성 방법에 있어서, 상기 복수의 학습 문서들에 포함된 단어들의 자질어 평가지수를 상기 복수의 범주 별로도 산출하는 단계; 상기 복수의 범주 별 학습 문서 비율을 이용하여 상기 복수의 범주 별로 선택될 자질어 개수를 결정하는 단계; 상기 자질어 평가지수 및 상기 자질어 개수를 이용하여 상기 복수의 범주 별로 자질어들을 각각 선택하고, 선택된 자질어들을 이용하여 자질어 그룹을 생성하는 단계; 및 상기 복수의 학습 문서 별 상기 자질어 그룹에 포함된 자질어들의 출현 빈도를 이용하여 문서 분류모델을 생성하는 단계를 포함하되, 상기 자질어 평가지수는 상기 복수의 학습 문서 내의 상기 단어들의 출현 빈도를 의미하는 것을 특징으로 하는 문서 분류모델 생성방법이 제공된다.According to another embodiment of the present invention, in the document classification model generation method using a plurality of learning documents each belonging to any one of a plurality of categories, the plurality of feature language evaluation index of the words contained in the plurality of learning documents Calculating for each category of; Determining the number of feature words to be selected for each of the plurality of categories using the ratio of the learning documents for each of the plurality of categories; Selecting qualifiers for each of the plurality of categories by using the qualifier evaluation index and the qualifier number, and generating a qualifier group using the selected qualifiers; And generating a document classification model using the frequency of appearance of feature words included in the feature language group for each of the plurality of learning documents, wherein the feature language evaluation index is the frequency of appearance of the words in the plurality of learning documents. Provided is a method for generating a document classification model, characterized in that.

본 발명에 따르면, 문서의 범주 별 비율이 비유사한 경우에도 문서 분류를 정확하게 할 수 있는 문서 분류모델을 생성할 수 있다.According to the present invention, a document classification model that can accurately classify a document can be generated even if the ratio of each category of documents is dissimilar.

도 1은 문서의 범주 별 비율이 비유사한 경우의 일례를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 문서 분류 시스템의 일례를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 문서 분류모델 생성장치의 상세한 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 문서 분류모델 생성장치에서 분류모델을 생성하는 일련의 과정을 설명하기 위해 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 범주 별 서로 다른 자질어가 선택된 경우의 일례를 도시한 표이다.
도 6은 본 발명의 일 실시예에 따라 생성된 자질어 그룹을 이용하여 분류를 수행한 경우의 문서 분류 정확도의 검증 실험결과를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 문서에 대한 범주 별 가중치를 더 고려한 경우의 문서 분류 정확도의 검증 실험결과를 도시한 도면이다.
BRIEF DESCRIPTION OF THE DRAWINGS The figure which shows an example in the case where the ratio by category of documents is dissimilar.
2 is a diagram illustrating an example of a document classification system according to an embodiment of the present invention.
3 is a block diagram illustrating a detailed configuration of an apparatus for generating a document classification model according to an embodiment of the present invention.
4 is a flowchart illustrating a series of processes for generating a classification model in the apparatus for generating a document classification model according to an embodiment of the present invention.
FIG. 5 is a table illustrating an example in which different feature words are selected for each category according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating a verification test result of document classification accuracy when classification is performed using a feature group generated according to an embodiment of the present invention.
FIG. 7 is a diagram illustrating a verification test result of document classification accuracy when the weight of each category for a document according to an embodiment of the present invention is further considered.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.

이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 일 실시예에 따른 문서 분류 시스템의 일례를 도시한 도면이다.2 is a diagram illustrating an example of a document classification system according to an embodiment of the present invention.

도 2를 참조하면, 문서 분류 시스템은 학습 문서 저장부(200), 명사 추출부(205), 문서 인덱싱부(210), 문서 분류모델 생성장치(215), 문서 분류 장치(220)를 포함할 수 있다.Referring to FIG. 2, the document classification system may include a learning document storage unit 200, a noun extractor 205, a document indexing unit 210, a document classification model generator 215, and a document classification device 220. Can be.

문서 저장부(200)는 웹에서 크롤링(crawling)된 문서를 저장한다. 크롤링된 문서는 범주가 라벨링(labeling)된 문서와 라벨링되지 않은 문서로 구분될 수 있다. 범주가 라벨링된 문서는 문서 분류모델을 생성하기 위한 학습 문서로 이용된다. 그리고, 범주가 라벨링되지 않는 문서는 문서 분류모델을 이용하여 범주가 라벨링될 수 있다. The document storage unit 200 stores documents crawled on the web. Crawled documents can be divided into categories labeled and unlabeled documents. Categories labeled documents are used as training documents for generating document classification models. In addition, a document whose category is not labeled may be labeled using a document classification model.

명사 추출부(205)는 문서 저장부(200)에 수집된 문서로부터 명사인 단어의 원형 만을 추출하고, 추출된 원형을 문서 인덱싱부(210)로 전달한다.The noun extracting unit 205 extracts only a prototype of a word that is a noun from a document collected in the document storage unit 200, and transfers the extracted prototype to the document indexing unit 210.

문서 인덱싱부(210)에서는 문서에서 추출된 단어들을 인덱싱한 정보를 문서별 인덱싱 저장부(미도시)에 저장한다. The document indexing unit 210 stores the indexed information of the words extracted from the document in a document indexing storage unit (not shown).

문서 분류모델 생성장치(215)는 문서 분류를 위한 문서 분류모델을 생성한다.The document classification model generating device 215 generates a document classification model for document classification.

본 발명의 일 실시예에 따르면, 문서 분류모델 생성 장치(215)는 범주가 라벨링된 학습 문서별 인덱싱 된 단어들을 이용하여 의미있는 단어 집합 즉, 자질어 집합을 생성한다. 또한, 문서별 인덱싱 저장부에 저장된 정보를 이용하여 복수의 학습 문서 각각에 대한 범주 별 가중치를 생성한다. 이어서, 생성된 자질어 집합 정보와 문서별 인덱싱 저장소에 저장된 정보들로부터 추출한 문서별 자질어 출현빈도 및 학습 문서 각각에 대한 범주 별 가중치를 학습하여 문서 분류모델을 생성하게 된다.According to an embodiment of the present invention, the document classification model generating device 215 generates a meaningful set of words, that is, a set of feature words, using the indexed words for each of the learning documents labeled with the category. In addition, a weight for each category is generated for each of the plurality of learning documents using the information stored in the index storage for each document. Subsequently, the document classification model is generated by learning the feature frequency occurrence frequency of each document extracted from the stored feature set information and the information stored in the index storage for each document and weights for each category.

문서 분류 장치(220)는 문서 분류모델을 이용하여 범주가 라벨링되지 않는 문서를 범주에 따라 분류한다. 일례로서, 문서 분류 장치(220)는 선형, 규칙, 확률 기반을 이용하여 문서를 분류하는 SVM(Support Vector Machine), Navice Bayesian 기법 등과 같은 다양한 문서 분류모델을 이용하여 문서를 분류할 수 있다. The document classification device 220 classifies documents whose categories are not labeled according to the categories using the document classification model. As an example, the document classification apparatus 220 may classify documents using various document classification models such as a support vector machine (SVM), a navice bayesian technique, and the like that classify documents using linearity, rules, and probability basis.

이하, 도 3을 참조하여, 본 발명의 일 실시예에 따른 문서 분류모델 생성장치(215)를 보다 상세하게 설명하기로 한다. Hereinafter, the document classification model generation device 215 according to an embodiment of the present invention will be described in more detail with reference to FIG. 3.

도 3은 본 발명의 일 실시예에 따른 문서 분류모델 생성장치의 상세한 구성을 도시한 블록도이다.3 is a block diagram illustrating a detailed configuration of an apparatus for generating a document classification model according to an embodiment of the present invention.

도 3을 참조하면, 문서 분류모델 생성장치(215)는 자질어 평가지수 산출부(301), 개수 결정부(303), 자질어 그룹 생성부(305), 가중치 산출부(307), 문서 분류모델 생성부(309) 및 제어부(311)를 포함할 수 있다.Referring to FIG. 3, the document classification model generating device 215 includes a feature language evaluation index calculator 301, a number determiner 303, a feature language group generator 305, a weight calculator 307, and a document classification. The model generator 309 and the controller 311 may be included.

자질어 평가지수 산출부(301)는 복수의 학습 문서들에 포함된 단어들의 자질어 평가지수를 복수의 범주 별로 산출한다.The feature language evaluation index calculator 301 calculates the feature language evaluation index of words included in the plurality of learning documents for each of a plurality of categories.

여기서, 복수의 범주란 문서가 분류되는 기준을 의미하는 것으로서, 일례로서, 문서가 뉴스인 경우 범주는 정치, 사회, 경제, IT, 스포츠, 문화, 지역 등일 수 있다.Here, the plurality of categories refers to a standard in which documents are classified. For example, when the document is news, the categories may be politics, society, economy, IT, sports, culture, regions, and the like.

또한, 자질어 평가지수는 학습 문서 내 출현단어들 중 문서 분류에 효과적인 자질어들을 선정하기 위한 평가지수로서 복수의 학습 문서 내의 단어들의 출현빈도를 의미한다.In addition, the feature language evaluation index is an evaluation index for selecting feature words effective for document classification among words that appear in the learning document, and means frequency of occurrence of words in the plurality of learning documents.

본 발명의 일 실시예에 따르면 자질어 평가지수 산출부(301)는 단어들의 중요도, 단어들의 복수의 범주 별 존재여부, 단어들을 포함하는 학습 문서의 개수 및 단어들을 포함하지 않는 학습 문서의 개수를 이용하여 단어들의 자질어 평가지수를 산출할 수 있다. According to an embodiment of the present invention, the feature language evaluation index calculation unit 301 may determine the importance of words, the existence of a plurality of categories of words, the number of learning documents including words, and the number of learning documents not including words. The quality index of the words can be calculated.

일례로서, 자질어 평가지수는 하기의 수학식 1을 이용하여 산출될 수 있다.
As an example, the feature evaluation index may be calculated using Equation 1 below.

Figure 112012075961803-pat00002
Figure 112012075961803-pat00002

Figure 112012075961803-pat00003
Figure 112012075961803-pat00003

Figure 112012075961803-pat00004

Figure 112012075961803-pat00004

여기서,

Figure 112012075961803-pat00005
는 k번째 범주
Figure 112012075961803-pat00006
의 j 번째 단어
Figure 112012075961803-pat00007
의 자질어 평가지수, A는
Figure 112012075961803-pat00008
에 속하며
Figure 112012075961803-pat00009
를 갖는 문서의 개수, B는
Figure 112012075961803-pat00010
에 속하지 않으며
Figure 112012075961803-pat00011
를 갖는 문서의 개수, C는
Figure 112012075961803-pat00012
에 속하며
Figure 112012075961803-pat00013
를 갖지 않는 문서의 개수, D는
Figure 112012075961803-pat00014
에 속하지 않으며
Figure 112012075961803-pat00015
를 갖지 않는 문서의 개수,
Figure 112012075961803-pat00016
Figure 112012075961803-pat00017
의 중요도,
Figure 112012075961803-pat00018
는 중요도의 최대 값,
Figure 112012075961803-pat00019
는 전체 학습 문서 중
Figure 112012075961803-pat00020
Figure 112012075961803-pat00021
의 출현 횟수를 각각 의미한다.here,
Figure 112012075961803-pat00005
Kth category
Figure 112012075961803-pat00006
J word of
Figure 112012075961803-pat00007
Qualifier index of A, A
Figure 112012075961803-pat00008
Belong to
Figure 112012075961803-pat00009
The number of documents with, B
Figure 112012075961803-pat00010
Does not belong to
Figure 112012075961803-pat00011
The number of documents with C
Figure 112012075961803-pat00012
Belong to
Figure 112012075961803-pat00013
The number of documents that do not have D,
Figure 112012075961803-pat00014
Does not belong to
Figure 112012075961803-pat00015
The number of documents that do not have a,
Figure 112012075961803-pat00016
The
Figure 112012075961803-pat00017
Importance,
Figure 112012075961803-pat00018
Is the maximum value of importance,
Figure 112012075961803-pat00019
Of the entire learning document
Figure 112012075961803-pat00020
of
Figure 112012075961803-pat00021
Means the number of occurrences of each.

범주 별 포함되는 학습 문서의 비율이 동일하지 않음에도, 범주 별로 동일한 개수의 자질어를 선택하는 경우 문서 분류의 정확도가 저하될 수 있다. 따라서, 본 발명의 일 실시예에 따른 개수 결정부(303)는 범주 별 학습 비율 차이에 강건하고 문서 분류 정확도가 높은 문서 분류모델을 생성하기 위해 복수의 범주 별 학습 문서 비율을 이용하여 복수의 범주 별로 선택될 자질어의 개수를 결정한다.Although the ratio of learning documents included in each category is not the same, the accuracy of document classification may be deteriorated when the same number of feature words are selected for each category. Accordingly, the number determination unit 303 according to an embodiment of the present invention uses a plurality of categories of learning document ratios to generate a document classification model that is robust to the difference in learning rates for each category and has a high document classification accuracy. Determine the number of feature words to be selected.

여기서, 복수의 범주 별 학습 문서 비율은 복수의 학습 문서의 개수 중 복수의 범주 각각에 포함되는 학습 문서의 비율을 의미한다.Here, the ratio of the learning documents for each of the plurality of categories refers to the ratio of the learning documents included in each of the plurality of categories among the plurality of learning documents.

본 발명의 일 실시예에 따르면, 개수 결정부(303)는 범주 별로 선택될 자질어의 개수를 하기의 수학식 2를 이용하여 산출할 수 있다.
According to an embodiment of the present invention, the number determination unit 303 may calculate the number of feature words to be selected for each category by using Equation 2 below.

Figure 112012075961803-pat00022
Figure 112012075961803-pat00022

여기서,

Figure 112012075961803-pat00023
는 상기 복수의 범주 중 k 번째 범주
Figure 112012075961803-pat00024
에서 선택될 자질어 개수,
Figure 112012075961803-pat00025
는 범주
Figure 112012075961803-pat00026
의 학습 문서 비율,
Figure 112012075961803-pat00027
는 미리 설정된 총 선택될 자질어 개수 설정 값을 의미함.here,
Figure 112012075961803-pat00023
Is the kth category among the plurality of categories
Figure 112012075961803-pat00024
Number of qualifiers to be selected from,
Figure 112012075961803-pat00025
Category
Figure 112012075961803-pat00026
Learning document ratio,
Figure 112012075961803-pat00027
Means the preset total number of qualifiers to be selected.

자질어 그룹 생성부(305)는 자질어 평가지수 산출부(301)에서 범주 별로 산출된 단어들의 자질어 평가지수 및 개수 결정부(303)에서 결정된 범주 별로 선택될 자질어 개수를 이용하여 복수의 범주 별로 자질어들을 각각 선택하고, 선택된 자질어들을 이용하여 자질어 그룹을 생성한다.The feature language group generation unit 305 uses the feature language evaluation index and the number of feature words to be selected for each category determined by the category determination unit 303. Each feature is selected by category, and a feature group is created using the selected feature.

본 발명의 일 실시예에 따르면, 자질어 그룹 생성부(305)는 각 범주 별로 단어들을 자질어 평가지수에 따라 내림차순하여 정렬하고, 범주 별로 결정된 자질어 개수만큼의 자질어를 선택하여 자질어 그룹을 생성할 수 있다. 이때, 자질어 그룹 생성부(305)는 복수의 범주에서 중복되는 자질어가 선택되는 경우 하나의 자질어 만을 선택하여 자질어 그룹을 생성할 수 있다.According to an embodiment of the present invention, the feature group generation unit 305 sorts the words in each category in descending order according to the feature quality evaluation index, and selects the feature language as many as the feature language determined for each category. Can be generated. In this case, the feature group generation unit 305 may generate a feature group by selecting only one feature word when duplicate feature words are selected from a plurality of categories.

문서 분류에서 자질어의 사용이유는 선택된 자질어가 특정 범주를 대표할 수 있기 때문이다. 문서 분류모델 생성에서는 많은 자질어를 사용할수록 분류 성능은 오르지만 지나치게 많은 자질어 선택의 경우(모든 문서에 나오는 대부분의 단어가 자질어가 될 경우) 선택된 자질어 중 일부가 모든 범주에서 출현할 수 있기 때문에 분류 성능이 낮아지는 문제가 발생된다.The reason for using feature language in document classification is that the selected feature word can represent a specific category. In document classification model generation, the more qualities you use, the better the classification performance, but if you select too many qualities (most words in all documents become qualities), some of the selected qualities might appear in all categories. This causes a problem of low classification performance.

또한, 잘 선택된 자질어라 하더라도 자질어가 사용된 문서의 작성 시간에 따라 다른 범주를 대표하는 자질어가 될 수 있다. 예를 들어, "안철수"라는 자질어의 경우 2011년 초에는 IT/과학 범주에 주로 출현하지만, 2011년 후반에는 대선 후보에 언급되면서 정치 쪽 범주에 주로 출현하는 현상을 보인다.In addition, even a well selected feature may be a feature that represents a different category depending on the creation time of the document in which the feature is used. For example, the term "Ahn Cheol-su" appears mainly in the IT / science category in early 2011, but in late 2011, it appears in the political category as mentioned in the presidential candidate.

따라서, 이러한 문제를 해결하기 위해 본 발명에서는 복수의 학습 문서 각각에 대한 범주 별 가중치를 생성하고, 자질어 그룹과 학습 문서 각각에 대한 범주 별 가중치를 이용하여 문서 분류모델을 생성한다.Accordingly, in order to solve this problem, the present invention generates a weight for each category for each of the plurality of learning documents, and generates a document classification model using the weight for each category for the feature group and each learning document.

가중치 산출부(307)는 외부 검색 서버에서 복수의 학습 문서 각각에 포함된 단어들을 이용하여 검색된 참조 문서들의 총 개수, 참조 문서들의 작성 날짜, 복수의 범주 별 참조 문서들의 검색 개수 중 적어도 하나를 이용하여 복수의 학습 문서 각각에 대한 범주 별 가중치를 산출한다.The weight calculator 307 uses at least one of a total number of reference documents searched, a creation date of reference documents, and a search number of reference documents for each category by using words included in each of a plurality of learning documents in an external search server. The weight for each category for each of the plurality of learning documents is calculated.

여기서, 외부 검색 서버는 검색어 대한 범주 별 문서들의 검색결과를 제공하는 서버를 의미한다.Here, the external search server refers to a server that provides search results of documents for each category of search terms.

본 발명의 일 실시예에 따르면, 가중치 산출부(307)는 RDC(Retrived Document Count) 함수를 이용하여 문서 단위로 인덱싱 된 각각의 단어들을 검색어로 하여 외부 검색 서버(일례로, 네이버, 다음 등)에서 제공되는 범주 별, 문서 작성 날짜 별 웹 뉴스 문서 검색 결과 개수를 추출할 수 있다.According to an embodiment of the present invention, the weight calculation unit 307 is an external search server (eg, Naver, Daum, etc.) using each word indexed in document units as a search word using a Retrieved Document Count (RDC) function. You can extract the number of web news document search results by category and document creation date provided by.

이어서, DCW(Document Category Weight) 함수를 이용하여 RDC 함수 결과인 범주 별 문서 검색 개수를 전체 범주 문서 검색 개수로 나누어 정규화하여 복수의 학습 문서 각각에 대한 범주 별 가중치를 산출한다.Subsequently, the number of document searches for each category, which are the result of the RDC function, is normalized by dividing the number of document search by category using the Document Category Weight (DW) function to calculate the weight for each category for each of the plurality of learning documents.

일례로서, 복수의 학습 문서 각각에 대한 범주 별 가중치는 하기의 수학식 3과 같이 표현될 수 있다.
As an example, the weight for each category for each of the plurality of learning documents may be expressed as in Equation 3 below.

Figure 112012075961803-pat00028
Figure 112012075961803-pat00028

여기서,

Figure 112012075961803-pat00029
는 상기 복수의 학습 문서 중 i 번째 학습 문서,
Figure 112012075961803-pat00030
는 i 번째 문서의 j 번째 단어,
Figure 112012075961803-pat00031
는 상기 복수의 범주 중 k 번째 범주,
Figure 112012075961803-pat00032
는 범주
Figure 112012075961803-pat00033
의 문서
Figure 112012075961803-pat00034
에서의 가중치,
Figure 112012075961803-pat00035
Figure 112012075961803-pat00036
의 작성 날짜,
Figure 112012075961803-pat00037
는 외부 검색 서버에서 학습 문서
Figure 112012075961803-pat00038
의 j 번째 단어
Figure 112012075961803-pat00039
를 검색어로 하였을 때 작성 날짜
Figure 112012075961803-pat00040
에 범주
Figure 112012075961803-pat00041
에서 검색된 참조 문서의 개수,
Figure 112012075961803-pat00042
는 i 번째 문서에 포함된 단어의 개수를 각각 의미한다.here,
Figure 112012075961803-pat00029
Is an i th learning document of the plurality of learning documents,
Figure 112012075961803-pat00030
Is the j th word in the i th document,
Figure 112012075961803-pat00031
Is the kth category of the plurality of categories,
Figure 112012075961803-pat00032
Category
Figure 112012075961803-pat00033
Document
Figure 112012075961803-pat00034
Weights in,
Figure 112012075961803-pat00035
The
Figure 112012075961803-pat00036
Date of creation,
Figure 112012075961803-pat00037
Learning documents on an external search server
Figure 112012075961803-pat00038
J word of
Figure 112012075961803-pat00039
Date created with the query
Figure 112012075961803-pat00040
In category
Figure 112012075961803-pat00041
The number of reference documents retrieved from,
Figure 112012075961803-pat00042
Denotes the number of words included in the i-th document.

일례로, 설명의 편의를 위해 제1 학습 문서에 포함된 단어가 A, B이며, 범주는 스포츠, 정치, 사회인 것으로 가정하는 경우 단어 A 및 B를 검색어로 하여 검색된 범주 별로 검색된 참조 문서의 개수는 아래의 표 1과 같을 수 있다.For example, assuming that the words included in the first learning document are A and B and the categories are sports, politics, and society, for convenience of explanation, the number of reference documents searched by the categories searched using the words A and B as search terms May be as shown in Table 1 below.

스포츠sports 정치politics 사회Social AA 22 1One 77 BB 1010 44 66

이 경우, 제1 학습문서의 스포츠에 대한 가중치는

Figure 112012075961803-pat00043
, 정치에 대한 가중치는
Figure 112012075961803-pat00044
, 사회에 대한 가중치는
Figure 112012075961803-pat00045
와 같이 산출될 수 있다.In this case, the weight for the sport of the first learning document is
Figure 112012075961803-pat00043
, The weight for politics is
Figure 112012075961803-pat00044
, The weight for society
Figure 112012075961803-pat00045
As shown in FIG.

문서 분류모델 생성부(309)는 복수의 학습 문서 별 자질어 그룹에 포함된 자질어들의 출현빈도 및 복수의 학습 문서 각각에 대한 범주 별 가중치 중 적어도 하나를 이용하여 문서 분류모델을 생성할 수 있다.The document classification model generation unit 309 may generate a document classification model using at least one of the frequency of occurrence of the feature words included in the feature language groups of each of the plurality of learning documents and the weight for each category of the plurality of learning documents. .

여기서, 제1 학습 문서의 자질어 출현빈도는 제1 학습 문서에 포함된 단어들 중 자질어 집합에 포함된 자질어들이 얼마나 출현하는지를 나타내는 척도이다. Here, the occurrence frequency of the feature words of the first learning document is a measure of how many feature words included in the feature language set among words included in the first learning document appear.

일례로, 자질어 그룹에 속한 자질어가 A, B, C, D 이며, 어느 하나의 학습 문서에 포함된 단어들 중 A 단어가 20번, B 단어가 10번, C 단어가 0번, D 단어가 5번인 경우 자질어 출현빈도는 하기의 표2와 같이 표현될 수 있다.For example, the qualifiers belonging to the qualifier group are A, B, C, and D, and the word A is 20 times, the word B is 10 times, the word C is 0, and the word D is one of the words included in a learning document. Is 5, the occurrence frequency of the feature word may be expressed as shown in Table 2 below.

자질어Qualities AA BB CC DD 자질어 출현빈도Frequency of occurrence 2020 1010 00 55

따라서, 문서 분류모델 생성부(309)는 제1 학습 문서의 범주가 정치라면, 제1 학습 문서의 자질어 출현빈도를 이용하여 정치와 관련된 문서 분류모델을 생성할 수 있다..Accordingly, if the category of the first learning document is politics, the document classification model generating unit 309 may generate a document classification model related to politics using the frequency of occurrence of the feature language of the first learning document.

또한, 문서 분류모델 생성부(309)가 표 1의 제1 학습 문서의 범주 별 가중치를 더 고려하는 경우 제1 학습 문서에 대한 문서 분류모델은 하기의 표 3과 같이 표현될 수 있다.
In addition, when the document classification model generation unit 309 further considers the weight for each category of the first training document in Table 1, the document classification model for the first training document may be expressed as shown in Table 3 below.

AA BB CC DD 스포츠sports 정치politics 사회Social 2020 1010 00 55 0.350.35 0.150.15 0.50.5

문서 분류 장치(220)가 문서 분류모델을 이용하여 문서를 분류하는 경우, 표 3과 유사한 자질어 출현빈도 및 가중치를 가지는 문서를 제1 학습 문서의 범주인 정치로 분류할 수 있다.When the document classification apparatus 220 classifies documents using the document classification model, documents having a frequency and weight of feature words similar to those of Table 3 may be classified into politics, which is a category of the first learning document.

마지막으로, 제어부(311)는 자질어 평가지수 산출부(301), 개수 결정부(303), 자질어 그룹 생성부(305), 가중치 산출부(307) 및 문서 분류모델 생성부(309)를 전반적으로 제어할 수 있다.Finally, the control unit 311 performs the feature language evaluation index calculation unit 301, the number determination unit 303, the feature language group generation unit 305, the weight calculation unit 307, and the document classification model generation unit 309. Overall control is possible.

도 4는 본 발명의 일 실시예에 따른 문서 분류모델 생성장치에서 분류모델을 생성하는 일련의 과정을 설명하기 위해 도시한 순서도이다.4 is a flowchart illustrating a series of processes for generating a classification model in the apparatus for generating a document classification model according to an embodiment of the present invention.

도 4를 참조하면, 단계(S400)에서 자질어 평가지수 산출부(301)는 복수의 학습 문서들이 포함된 단어들의 자질어 평가지수를 복수의 범주 별로 산출한다.Referring to FIG. 4, in step S400, the feature language evaluation index calculator 301 calculates the feature language evaluation index of words including a plurality of learning documents for each of a plurality of categories.

이어서, 단계(S405)에서 개수 결정부(303) 복수의 범주 별 학습 문서 비율을 이용하여 복수의 범주 별로 선택될 자질어 개수를 결정한다.Subsequently, in step S405, the number determination unit 303 determines the number of feature words to be selected for each of the plurality of categories by using the ratio of learning documents for each of the plurality of categories.

단계(S410)에서 자질어 그룹 생성부(305)는 자질어 평가 지수 및 자질어 개수를 이용하여 복수의 범주 별로 자질어들을 각각 선택하고, 선택된 자질어들을 이용하여 자질어 그룹을 생성한다.In operation S410, the feature group generation unit 305 selects feature words for each of a plurality of categories using the feature evaluation index and the number of feature words, and generates a feature group using the selected feature words.

단계(S415)에서 가중치 산출부(307)는 외부 검색 서버에서 복수의 학습 문서 각각에 포함된 단어들을 이용하여 검색된 참조 문서들의 총 개수, 참조 문서들의 작성 날짜, 복수의 점주 별 참조 문서들의 검색 개수 중 적어도 하나를 이용하여 복수의 학습 문서 각각에 대한 범주 별 가중치를 산출한다.In step S415, the weight calculation unit 307 is the total number of reference documents retrieved using words included in each of the plurality of learning documents in the external search server, the creation date of the reference documents, the number of search of the reference documents for each store owner The weight for each category for each of the plurality of learning documents is calculated using at least one of the following.

단계(S420)에서 문서 분류모델 생성부(309)는 복수의 학습 문서 별 자질어 그룹에 포함된 자질어들의 출현 빈도를 이용하여 문서 분류모델을 생성한다.In operation S420, the document classification model generation unit 309 generates a document classification model by using the appearance frequencies of the feature words included in the feature word groups for each of the plurality of learning documents.

지금까지 본 발명에 따른 문서 분류모델 생성방법의 실시예들에 대하여 설명하였고, 앞서 도 2 내지 도 3에서 설명한 문서 분류모델 생성장치(215)에 관한 구성이 본 실시예에도 그대로 적용이 가능하다. 이에 보다 상세한 설명은 생략하기로 한다.Embodiments of the document classification model generation method according to the present invention have been described so far, and the configuration of the document classification model generation device 215 described above with reference to FIGS. 2 to 3 can be applied to this embodiment as it is. A detailed description thereof will be omitted.

도 5는 본 발명의 일 실시예에 따른 범주 별 서로 다른 자질어가 선택된 경우의 일례를 도시한 표이다.FIG. 5 is a table illustrating an example in which different feature words are selected for each category according to an embodiment of the present invention.

도 5를 참조하면, 복수의 범주 별 학습 문서 비율에 따라 서로 다른 개수의 자질어가 선택됨을 확인할 수 있다.Referring to FIG. 5, it can be seen that different number of feature words are selected according to the ratio of learning documents for each category.

도 6은 본 발명의 일 실시예에 따라 생성된 자질어 그룹을 이용하여 분류를 수행한 경우의 문서 분류 정확도의 검증 실험결과를 도시한 도면이다.FIG. 6 is a diagram illustrating a verification test result of document classification accuracy when classification is performed using a feature group generated according to an embodiment of the present invention.

문서 분류 정확도 검증은 10 fold cross validation을 이용해 Precision, Recall 및 F-Measure를 척도로 평가하였다. For document classification accuracy verification, Precision, Recall and F-Measure were evaluated using 10 fold cross validation.

도 6을 참조하면, 본 발명에 의한 검증 실험 결과가 평균적으로 좋은 성능을 보였다. 특히, 자질어 선택의 수가 100개~5000개 사이일 경우 뚜렷한 성능 차이를 보였다. 그 이유는 웹 뉴스 데이터의 특성상 범주 별 문서의 빈도 차이가 많이 나기 때문에 최대/평균 평가함수를 통해 선정된 자질어보다 범주 별 학습 문서 비율을 고려하여 자질어 집합을 생성하는 것이 더 좋은 성능을 보이기 때문이다.Referring to Figure 6, the verification test results according to the present invention showed a good performance on average. In particular, when the number of selection of the qualitative language was between 100 and 5000, there was a clear performance difference. The reason is that the frequency of documents by category varies greatly due to the nature of the web news data. Therefore, it is better to generate the feature set by considering the ratio of learning documents by category than the feature selected by the maximum / average evaluation function. Because.

기존 'EECD' 기법을 이용한 자질어 집합의 생성은 범주 별로

Figure 112012075961803-pat00046
값을 내림차순하여 정렬하고 범주 별로 동일한 개수의 자질어를 선택하므로 범주 별 문서의 빈도 차이가 많이 나는 환경에 적합하지 않다. 특히 'EECD Mean'의 성능이 상대적으로 낮은 이유는 단어
Figure 112012075961803-pat00047
에 대한
Figure 112012075961803-pat00048
의 평균 평가 값이 대부분 유사하기 때문에 올바른 자질어 선택이 어렵기 때문이다.Generation of feature set using existing 'EECD' method is classified by category.
Figure 112012075961803-pat00046
Sorting values in descending order and selecting the same number of qualities for each category are not suitable for environments with large differences in the frequency of documents in each category. In particular, the reason why the performance of 'EECD Mean' is relatively low is the word.
Figure 112012075961803-pat00047
For
Figure 112012075961803-pat00048
This is because it is difficult to select the correct qualities because the average evaluation values of are similar.

분류 교차표(Confusion Matrix) 확인 결과 문서 비율이 높은 범주인 사회, 전국, 정치, 문화, 국제, 스포츠 및 경제에서 본 발명의 자질어 선택 기법이 다른 기법에 비해 정확한 분류 성능을 보였으며, 이는 전체 평균 정확도 향상 효과를 가져올 수 있음을 의미한다.As a result of the Confusion Matrix, the feature selection method of the present invention showed more accurate classification performance than other techniques in the category of high document ratios such as social, national, political, cultural, international, sports and economics. Means the effect of improving the average accuracy.

도 7은 본 발명의 일 실시예에 따른 문서에 대한 범주 별 가중치를 더 고려한 경우의 문서 분류 정확도의 검증 실험결과를 도시한 도면이다.FIG. 7 is a diagram illustrating a verification test result of document classification accuracy when the weight of each category for a document according to an embodiment of the present invention is further considered.

도 7을 참조하면, 문서에 대한 범주 별 가중치를 더 고려한 경우의 평가 결과가 평균적으로 좋은 성능을 보였다. 특히 자질어 선택의 수가 100개~2500개 및 20000개~30000개 사이일 경우 뚜렷한 성능 차이를 보였다.Referring to FIG. 7, the evaluation result in the case of further considering the weight of each category for the document showed a good performance on average. In particular, when the number of selection of qualitative language was between 100 and 2500 and between 20000 and 30000, there was a clear performance difference.

첫 번째로 100개~2500개 사이의 자질어 선택의 경우, 자질어 만으론 문서 분류정확도 확보가 어렵다. 하지만 문서 분류모델 생성시 문서에 대한 범주 별 가중치를 더 고려함으로써 분류 성능의 향상 효과를 볼 수 있었다. First, in the case of selection between 100 and 2500 feature words, it is difficult to secure document classification accuracy by using only the feature words. However, when generating the document classification model, the classification performance for the document was considered more.

두 번째로 20000개~30000개 사이의 자질어를 선택할 경우 지나치게 많은 자질어 선택으로 인해 분류성능이 저하된다. 하지만 문서에 대한 범주 별 가중치를 더 고려함으로써 분류 성능 향상 효과를 볼 수 있었다. Secondly, if you select between 20000 and 30000 feature words, the classification performance is degraded due to the selection of too many feature words. However, the classification performance could be improved by considering more weights by category for the documents.

세 번째로 5000개~15000개 사이의 자질어를 사용할 경우 두 방식의 성능 차이가 거의 없는 이유는 자질어 만으로 획득할 수 있는 최대 분류 성능을 보이기 때문에 문서에 대한 범주 별 가중치를 더 고려한 효과가 분류 성능에 영향을 미치지 못한다고 볼 수 있다.The third reason that there is almost no performance difference between the two methods when using between 5000 and 15000 qualifiers is that the maximum classification performance that can be obtained with only qualifiers is obtained. It doesn't affect performance.

상기에서 살펴본 바와 같이 본 발명의 분류모델 생성 장치의 자질어 선택 기법은 기존 자질어 선택 기법보다 범주 별 학습 문서 비율 차이에 강건하고 문서 분류 정확도가 높은 자질어 집합을 생성할 수 있다, As described above, the feature selection method of the classification model generating apparatus of the present invention may generate a feature set that is more robust to the difference in the ratio of learning documents for each category and has higher document classification accuracy than the existing feature selection method.

또한, 문서에 대한 범주 별 가중치를 더 고려함으로써, 자질어 변수만 사용하였을 경우 보다 자질어 집합의 개수가 적은 상황에도 우수한 문서 분류 성능을 나타내었고, 지나치게 많은 수의 자질어가 선택될 경우 발생되는 분류모델 성능의 저하를 개선하였다. In addition, by considering the weight of each category for the document, the document classification performance is excellent even when the number of feature sets is smaller than when only the feature variables are used, and classification generated when too many feature words are selected. The degradation of model performance was improved.

또한 자질어 후보의 대표 범주가 시간에 따라 변화되는 상황에도 좋은 문서 분류 성능을 나타내었다. 마지막으로 학습한 문서의 범주 별 분포와 실제 예측할 문서의 범주 별 분포가 시간에 따라 다를 경우에도 시간이 고려된 문서에 대한 범주 별 가중치를 고려하기 때문에 뛰어난 문서 분류성능을 확보할 수 있는 효과가 있다.In addition, it showed good document classification performance even when the representative categories of qualification language candidates changed over time. Lastly, even if the distribution by category of the studied document and the distribution by category of the document to be predicted differ over time, it is possible to secure excellent document classification performance because the weight of each category is taken into account. .

또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks, and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Examples of program instructions, such as magneto-optical and ROM, RAM, flash memory and the like, can be executed by a computer using an interpreter or the like, as well as machine code, Includes a high-level language code. The hardware devices described above may be configured to operate as at least one software module to perform operations of one embodiment of the present invention, and vice versa.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.As described above, the present invention has been described by specific embodiments such as specific components and the like. For those skilled in the art, various modifications and variations are possible from these descriptions. Accordingly, the spirit of the present invention should not be construed as being limited to the embodiments described, and all of the equivalents or equivalents of the claims, as well as the following claims, belong to the scope of the present invention .

200: 학습 문서 저장부 205: 명사 추출부
210: 문서 인덱싱부 215: 문서 분류모델 생성장치
220: 문서 분류 장치
301: 자질어 평가지수 산출부 303: 개수 결정부
305: 자질어 그룹 생성부 307: 가중치 산출부
309: 문서 분류모델 생성부 311: 제어부
200: learning document storage unit 205: noun extraction unit
210: document indexing unit 215: document classification model generator
220: document classification device
301: Qualification index evaluation unit 303: Count determination unit
305: Qualifier group generation unit 307: Weight calculation unit
309: Document classification model generation unit 311: Control unit

Claims (10)

복수의 범주 중 어느 하나에 각각 속하는 복수의 학습 문서를 이용한 문서 분류모델 생성 장치에 있어서,
상기 복수의 학습 문서들에 포함된 단어들의 자질어 평가지수를 상기 복수의 범주 별로 산출하는 자질어 평가지수 산출부;
상기 복수의 범주 별 학습 문서 비율을 이용하여 상기 복수의 범주 별로 선택될 자질어 개수를 결정하는 개수 결정부;
상기 자질어 평가지수 및 상기 자질어 개수를 이용하여 상기 복수의 범주 별로 자질어들을 각각 선택하고, 상기 선택된 자질어들을 이용하여 자질어 그룹을 생성하는 자질어 그룹 생성부; 및
상기 복수의 학습 문서 별 상기 자질어 그룹에 포함된 자질어들의 출현 빈도를 이용하여 문서 분류모델을 생성하는 문서 분류모델 생성부를 포함하되,
상기 자질어 평가지수는 상기 복수의 학습 문서 내의 상기 단어들의 출현 빈도를 의미하는 것을 특징으로 하는 문서 분류모델 생성장치.
An apparatus for generating a document classification model using a plurality of learning documents each belonging to any one of a plurality of categories,
A feature language evaluation index calculator for calculating feature language evaluation indexes of words included in the plurality of learning documents for each of the plurality of categories;
A number determination unit to determine the number of feature words to be selected for each of the plurality of categories by using the plurality of categories of learning documents;
A feature language group generation unit for selecting feature words for each of the plurality of categories by using the feature language evaluation index and the feature language number and generating a feature group using the selected feature words; And
It includes a document classification model generation unit for generating a document classification model using the frequency of appearance of the feature language included in the feature language group for each of the plurality of learning documents,
And the feature language evaluation index means a frequency of occurrence of the words in the plurality of learning documents.
청구항 2은(는) 설정등록료 납부시 포기되었습니다.Claim 2 has been abandoned due to the setting registration fee. 제1항에 있어서,
상기 개수 결정부는 하기의 수학식을 이용하여 상기 선택될 자질어 개수를 결정하는 것을 특징으로 하는 문서 분류모델 생성장치.

Figure 112012075961803-pat00049


여기서,
Figure 112012075961803-pat00050
는 상기 복수의 범주 중 k 번째 범주
Figure 112012075961803-pat00051
에서 선택될 자질어 개수,
Figure 112012075961803-pat00052
는 범주
Figure 112012075961803-pat00053
의 학습 문서 비율,
Figure 112012075961803-pat00054
는 미리 설정된 총 선택될 자질어 개수 설정 값을 의미함.
The method of claim 1,
And the number determining unit determines the number of feature words to be selected using the following equation.

Figure 112012075961803-pat00049


here,
Figure 112012075961803-pat00050
Is the kth category among the plurality of categories
Figure 112012075961803-pat00051
Number of qualifiers to be selected from,
Figure 112012075961803-pat00052
Category
Figure 112012075961803-pat00053
Learning document ratio,
Figure 112012075961803-pat00054
Means the preset total number of qualifiers to be selected.
제1항에 있어서,
상기 자질어 평가지수 산출부는 상기 단어들의 중요도, 상기 단어들의 상기 복수의 범주 별 존재여부, 상기 단어들을 포함하는 학습 문서의 개수 및 상기 단어들을 포함하지 않는 학습 문서의 개수를 이용하여 상기 단어들의 자질어 평가지수를 산출하는 것을 특징으로 하는 문서 분류모델 생성장치.
The method of claim 1,
The feature language evaluation index calculation unit uses the importance of the words, whether the words exist in the plurality of categories, the number of learning documents including the words, and the number of learning documents not including the words. And a document classification model generation device, characterized in that for calculating an evaluation index.
청구항 4은(는) 설정등록료 납부시 포기되었습니다.Claim 4 has been abandoned due to the setting registration fee. 제2항에 있어서,
상기 자질어 평가지수는 하기의 수학식을 이용하여 산출되는 것을 특징으로 하는 문서 분류모델 생성장치.
Figure 112012075961803-pat00055

Figure 112012075961803-pat00056

Figure 112012075961803-pat00057

여기서,
Figure 112012075961803-pat00058
는 k번째 범주
Figure 112012075961803-pat00059
의 j 번째 단어
Figure 112012075961803-pat00060
의 자질어 평가지수, A는
Figure 112012075961803-pat00061
에 속하며
Figure 112012075961803-pat00062
를 갖는 문서의 개수, B는
Figure 112012075961803-pat00063
에 속하지 않으며
Figure 112012075961803-pat00064
를 갖는 문서의 개수, C는
Figure 112012075961803-pat00065
에 속하며
Figure 112012075961803-pat00066
를 갖지 않는 문서의 개수, D는
Figure 112012075961803-pat00067
에 속하지 않으며
Figure 112012075961803-pat00068
를 갖지 않는 문서의 개수,
Figure 112012075961803-pat00069
Figure 112012075961803-pat00070
의 중요도,
Figure 112012075961803-pat00071
는 중요도의 최대 값,
Figure 112012075961803-pat00072
는 전체 학습 문서 중
Figure 112012075961803-pat00073
Figure 112012075961803-pat00074
의 출현 횟수를 각각 의미함.
3. The method of claim 2,
The qualitative evaluation index is a document classification model generation device, characterized in that calculated using the following equation.
Figure 112012075961803-pat00055

Figure 112012075961803-pat00056

Figure 112012075961803-pat00057

here,
Figure 112012075961803-pat00058
Kth category
Figure 112012075961803-pat00059
J word of
Figure 112012075961803-pat00060
Qualifier index of A, A
Figure 112012075961803-pat00061
Belong to
Figure 112012075961803-pat00062
The number of documents with, B
Figure 112012075961803-pat00063
Does not belong to
Figure 112012075961803-pat00064
The number of documents with C
Figure 112012075961803-pat00065
Belong to
Figure 112012075961803-pat00066
The number of documents that do not have D,
Figure 112012075961803-pat00067
Does not belong to
Figure 112012075961803-pat00068
The number of documents that do not have a,
Figure 112012075961803-pat00069
The
Figure 112012075961803-pat00070
Importance,
Figure 112012075961803-pat00071
Is the maximum value of importance,
Figure 112012075961803-pat00072
Of the entire learning document
Figure 112012075961803-pat00073
of
Figure 112012075961803-pat00074
Each number of occurrences of.
제1항에 있어서,
외부 검색 서버에서 상기 복수의 학습 문서 각각에 포함된 단어들을 이용하여 검색된 참조 문서들의 총 개수, 상기 참조 문서들의 작성 날짜, 상기 복수의 범주 별 상기 참조 문서들의 검색 개수 중 적어도 하나를 이용하여 상기 복수의 학습 문서 각각에 대한 범주 별 가중치를 산출하는 가중치 산출부를 더 포함하고,
상기 문서 분류모델 생성부는 상기 복수의 학습 문서 각각에 대한 범주 별 가중치를 더 고려하여 상기 문서 분류모델을 생성하는 문서 분류모델 생성장치.
The method of claim 1,
The plurality of reference documents are searched using at least one of a total number of reference documents searched using words included in each of the plurality of learning documents, a creation date of the reference documents, and a search number of the reference documents for each of the plurality of categories. The apparatus further includes a weight calculator configured to calculate weights for each category of the learning document.
The document classification model generating unit generates the document classification model by further considering the weight of each category for each of the plurality of learning documents.
청구항 6은(는) 설정등록료 납부시 포기되었습니다.Claim 6 has been abandoned due to the setting registration fee. 제5항에 있어서,
복수의 학습 문서 각각에 대한 범주 별 가중치는 하기의 수학식을 이용하여 산출되는 것을 특징으로 하는 문서 분류모델 생성장치.

Figure 112012075961803-pat00075


여기서,
Figure 112012075961803-pat00076
는 상기 복수의 학습 문서 중 i 번째 학습 문서,
Figure 112012075961803-pat00077
는 i 번째 문서의 j 번째 단어,
Figure 112012075961803-pat00078
는 상기 복수의 범주 중 k 번째 범주,
Figure 112012075961803-pat00079
는 범주
Figure 112012075961803-pat00080
의 문서
Figure 112012075961803-pat00081
에서의 가중치,
Figure 112012075961803-pat00082
Figure 112012075961803-pat00083
의 작성 날짜,
Figure 112012075961803-pat00084
는 외부 검색 서버에서 학습 문서
Figure 112012075961803-pat00085
의 j 번째 단어
Figure 112012075961803-pat00086
를 검색어로 하였을 때 작성 날짜
Figure 112012075961803-pat00087
에 범주
Figure 112012075961803-pat00088
에서 검색된 참조 문서의 개수,
Figure 112012075961803-pat00089
는 i 번째 문서에 포함된 단어의 개수를 각각 의미함.
The method of claim 5,
Weight classification by category for each of the plurality of learning documents is calculated using the following equation.

Figure 112012075961803-pat00075


here,
Figure 112012075961803-pat00076
Is an i th learning document of the plurality of learning documents,
Figure 112012075961803-pat00077
Is the j th word in the i th document,
Figure 112012075961803-pat00078
Is the kth category of the plurality of categories,
Figure 112012075961803-pat00079
Category
Figure 112012075961803-pat00080
Document
Figure 112012075961803-pat00081
Weights in,
Figure 112012075961803-pat00082
The
Figure 112012075961803-pat00083
Date of creation,
Figure 112012075961803-pat00084
Learning documents on an external search server
Figure 112012075961803-pat00085
J word of
Figure 112012075961803-pat00086
Date created with the query
Figure 112012075961803-pat00087
In category
Figure 112012075961803-pat00088
The number of reference documents retrieved from,
Figure 112012075961803-pat00089
Is the number of words in the i-th document.
제1항에 있어서,
상기 자질어 그룹 생성부는 상기 복수의 범주에서 중복되는 자질어가 선택되는 경우, 하나의 자질어만을 선택하여 자질어 그룹을 생성하는 것을 특징으로 하는 문서 분류모델 생성장치.
The method of claim 1,
The feature group generation unit generates a feature group by selecting only one feature word when duplicate feature words are selected from the plurality of categories.
복수의 범주 중 어느 하나에 각각 속하는 복수의 학습 문서를 이용한 문서 분류모델 생성 방법에 있어서,
상기 복수의 학습 문서들에 포함된 단어들의 자질어 평가지수를 상기 복수의 범주 별로 산출하는 단계;
상기 복수의 범주 별 학습 문서 비율을 이용하여 상기 복수의 범주 별로 선택될 자질어 개수를 결정하는 단계;
상기 자질어 평가지수 및 상기 자질어 개수를 이용하여 상기 복수의 범주 별로 자질어들을 각각 선택하고, 선택된 자질어들을 이용하여 자질어 그룹을 생성하는 단계; 및
상기 복수의 학습 문서 별 상기 자질어 그룹에 포함된 자질어들의 출현 빈도를 이용하여 문서 분류모델을 생성하는 단계를 포함하되,
상기 자질어 평가지수는 상기 복수의 학습 문서 내의 상기 단어들의 출현 빈도를 의미하는 것을 특징으로 하는 문서 분류모델 생성방법.
In the document classification model generation method using a plurality of learning documents each belonging to any one of a plurality of categories,
Calculating a feature language evaluation index of words included in the plurality of learning documents for each of the plurality of categories;
Determining the number of feature words to be selected for each of the plurality of categories using the ratio of the learning documents for each of the plurality of categories;
Selecting qualifiers for each of the plurality of categories by using the qualifier evaluation index and the qualifier number, and generating a qualifier group using the selected qualifiers; And
Generating a document classification model using a frequency of appearance of feature words included in the feature word group for each of the plurality of learning documents,
The feature language evaluation index is a document classification model generation method, characterized in that the frequency of appearance of the words in the plurality of learning documents.
제8항에 있어서,
상기 자질어 평가지수를 산출하는 단계는, 상기 단어들의 중요도, 상기 단어들의 상기 복수의 범주 별 존재여부, 상기 단어들을 포함하는 학습 문서의 개수 및 상기 단어들을 포함하지 않는 학습 문서의 개수를 이용하여 상기 단어들의 자질어 평가지수를 산출하는 것을 특징으로 하는 문서 분류모델 생성방법.
9. The method of claim 8,
The calculating of the qualifier evaluation index may include using the importance of the words, whether the words exist in the plurality of categories, the number of learning documents including the words, and the number of learning documents not including the words. A method of generating a document classification model, characterized in that for calculating the qualitative evaluation index of the words.
제8항에 있어서,
외부 검색 서버에서 상기 복수의 학습 문서 각각에 포함된 단어들을 이용하여 검색된 참조 문서들의 총 개수, 상기 참조 문서들의 작성 날짜, 상기 복수의 범주 별 상기 참조 문서들의 검색 개수 중 적어도 하나를 이용하여 상기 복수의 학습 문서 각각에 대한 범주 별 가중치를 산출하는 단계를 더 포함하되,
상기 문서 분류모델을 생성하는 단계는 상기 복수의 학습 문서 각각에 대한 범주 별 가중치를 더 고려하여 상기 문서 분류모델을 생성하는 문서 분류모델 생성방법.
9. The method of claim 8,
The plurality of reference documents are searched using at least one of a total number of reference documents searched using words included in each of the plurality of learning documents, a creation date of the reference documents, and a search number of the reference documents for each of the plurality of categories. Comprising the step of calculating the weight for each category of the learning document of,
The generating of the document classification model may include generating the document classification model by further considering a weight for each category for each of the plurality of learning documents.
KR1020120103960A 2012-09-19 2012-09-19 Apparatus and method for generating document categorization model KR101363335B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120103960A KR101363335B1 (en) 2012-09-19 2012-09-19 Apparatus and method for generating document categorization model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120103960A KR101363335B1 (en) 2012-09-19 2012-09-19 Apparatus and method for generating document categorization model

Publications (1)

Publication Number Publication Date
KR101363335B1 true KR101363335B1 (en) 2014-02-19

Family

ID=50271051

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120103960A KR101363335B1 (en) 2012-09-19 2012-09-19 Apparatus and method for generating document categorization model

Country Status (1)

Country Link
KR (1) KR101363335B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864401B1 (en) * 2017-11-29 2018-06-04 주식회사 피씨엔 Digital timeline output system for support of fusion of traditional culture
CN113657106A (en) * 2021-07-05 2021-11-16 西安理工大学 Feature selection method based on normalized word frequency weight

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198203A (en) 2010-03-23 2011-10-06 Dainippon Printing Co Ltd Document classifying device, document classifying method, program, and storage medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198203A (en) 2010-03-23 2011-10-06 Dainippon Printing Co Ltd Document classifying device, document classifying method, program, and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864401B1 (en) * 2017-11-29 2018-06-04 주식회사 피씨엔 Digital timeline output system for support of fusion of traditional culture
CN113657106A (en) * 2021-07-05 2021-11-16 西安理工大学 Feature selection method based on normalized word frequency weight

Similar Documents

Publication Publication Date Title
CN108280114B (en) Deep learning-based user literature reading interest analysis method
CN110321925B (en) Text multi-granularity similarity comparison method based on semantic aggregated fingerprints
CN107657048B (en) User identification method and device
CN107862070B (en) Online classroom discussion short text instant grouping method and system based on text clustering
WO2017097231A1 (en) Topic processing method and device
CN106033416A (en) A string processing method and device
US20150186503A1 (en) Method, system, and computer readable medium for interest tag recommendation
US20180218241A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
EP2045731A1 (en) Automatic generation of ontologies using word affinities
JP2014515514A (en) Method and apparatus for providing suggested words
CN110390094B (en) Method, electronic device and computer program product for classifying documents
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US9552415B2 (en) Category classification processing device and method
CN106886512A (en) Article sorting technique and device
KR20190128246A (en) Searching methods and apparatus and non-transitory computer-readable storage media
KR101341816B1 (en) System and method for extracting analogous queries
KR101158750B1 (en) Text classification device and classification method thereof
KR101363335B1 (en) Apparatus and method for generating document categorization model
CN111104422B (en) Training method, device, equipment and storage medium of data recommendation model
CN107609006B (en) Search optimization method based on local log research
CN104077555A (en) Method and device for identifying badcase in image search
CN104156364B (en) Map search result shows method and apparatus
CN115952800A (en) Named entity recognition method and device, computer equipment and readable storage medium
JP2020525949A (en) Media search method and device
KR101592670B1 (en) Apparatus for searching data using index and method for using the apparatus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 5